Herramientas OLAP Minería de Datos

EPB 603
Sistemas del Conocimiento
Dr. Oldemar Rodríguez R.

Maestría en Administración de la
Tecnología de la Información
Escuela de Informática
Universidad Nacional
EPB 603 Sistemas del Conocimiento
Capítulo 1
Conceptos Básicos
y
Herramientas OLAP
1
Introducción
¿Qué es Minería de Datos?

– Extracción de información o de patrones
(no trivial, implícita, previamente
desconocida y potencialmente útil) de
grandes bases de datos.
Introducción

– Es analizar datos para encontrar patrones
ocultos usando medios automatizados.
2
Introducción

– La Minería de Datos es un proceso no elemental de
búsqueda de relaciones, correlaciones,
dependencias, asociaciones, modelos, estructuras,
tendencias, clases (clusters), segmentos, los cuales
que se obtienen de grandes juegos de datos, los
cuales generalmente están almacenados en bases de
datos (relacionales o no).
– Esta búsqueda se lleva a cabo utilizando métodos
matemáticos, estadísticos o algorítmicos.
Introducción
– Se considera la Minería de Datos como un el

proceso, lo más automatizado posible, qué va de los
datos elementales disponibles en una Bodega de
Datos a la decisión.
– El objetivo principal de la Minería de Datos es crear
un proceso automatizado que toma como punto de
partida los datos y cuya meta es la ayuda a la toma
de decisiones.
3
Introducción
Minería de Datos versus KDD (Knowledge

Discovery in Databases)
– Usualmente ambos términos son
intercambiables.
KDD (Knowledge Discovery in Databases): Es
el proceso de encontrar información y/o
patrones útiles en los datos.
Minería de Datos: es el uso de algoritmos para
extraer información y/o patrones derivados del
proceso KDD.
Minería de Datos: A KDD Process

• La Minería de Datos:
Es el centro del proceso de descubrimiento del conocimiento
(KDD Process = Knowledge Discovery in Data Bases Process).
4
Introducción
Minería de Datos versus Estadística

La estadística generalmente analiza muestras de
datos para luego hacer inferencia a toda la población,
mientras que la minería de datos pretende buscar
información útil usando toda la base datos.
La estadística en la mayoría de los casos supone que

los datos se comportan de acuerdo a ciertas
distribuciones de probabilidad (normal, binomial,
geométrica, Poisson, etc), mientras que la minería de
datos usa técnicas mucho más exploratorias que
vienen de la IA, o del “Analyse des Données”.
Introducción
Minería de Datos versus Análisis de Datos
Con el advenimiento de las computadoras, aproximadamente en
1960, un nuevo concepto surgió del “matrimonio” entre la
informática y la estadística: El Análisis de Datos (conocido en
como: Analyse des Données - Exploratory Data Analysis).
Esta nueva manera de analizar los datos con un objetivo
decisional usa mucho más la informática y los métodos analíticos
(el análisis de factorial, la clasificación automática, la
discriminación, etc.) que los métodos estadísticos clásicos, las
pruebas de hipótesis, que parten de supuestos matemáticos muy
difíciles de verificar en la práctica. (Ej. no se supone que los datos
siguen cierta distribución de probabilidad – los datos se muestran
por si mismos).
A diferencia de la minería de datos, el análisis de datos
usualmente no es automatizado, ni trata con volúmenes de datos
tan grandes.
5
Introducción
Minería de Datos versus Bodegas de Datos

Una Bodega de Datos es un almacén de datos de una compañía
que contiene algunos datos operacionales, datos agregados
(sumarizaciones), datos del históricos, datos evolutivos y
posiblemente aquellos datos externos a la compañía pero que
tienen una posible relación con las actividades de esta.
Estos datos se depositan en una o más bases de datos
relacionales y son accesibles a todas las aplicaciones orientadas a
la toma de decisiones.
Evidentemente bodegas de datos y minería de datos son cosas
muy diferentes. Una bodega de datos es usualmente apenas el
punto de partida de la minería de datos. Podría decirse que
ambos, las bodegas de datos y la minería de datos son parte del
proceso KDD.
Introducción
Minería de Datos versus Machine Learning
– “Machine Learning”: es un área de la Inteligencia

Artificial (IA) que trata sobre como escribir programas
puedan aprender.
– En “Data Mining” es usualmente usado para
predicción y clasificación.
– Se divide en dos: aprendizaje supervisado (learns by
example) y aprendizaje no supervisado.
6
La Minería de Datos: Confluencia de Múltiples Disciplinas
" #$ % !
Aplicaciones de la Minería de Datos
• Retención de Clientes ¿Cuáles clientes se van ir

para la competencia?
• Patrones de Compra ¿Cuándo un cliente compra
un producto cuál otro le podría interesar?
• Detección de Fraude ¿Cuáles transacciones son
fraudulentas?
• Manejo del Riesgo ¿A qué clientes les doy un
préstamo?
• Segmentación de clientes ¿Quiénes son mis
clientes?
• Predicción de Ventas ¿Cuánto voy a vender el
próximos mes?
7
Tareas de la Minería de Datos
• Descriptivas:
– OLAP (visualización).
– “Clustering”.
– Métodos Factoriales como ACP, AFC.
• Predictivas:
– Series de Tiempo.
– Análisis Discriminante.
– Regresión.
– Árboles de Decisión.
• “Clustering”: (clasificación no supervisada, aprendizaje

no supervizado): Es similar a la clasificación, excepto que
los grupos no son predefinidos. El objetivo es particionar
o segmentar un conjunto de datos o individuos en grupos
que pueden ser disjuntos o no. Los grupos se forman
basados en la similaridad de los datos o individuos en
ciertas variables. Como los grupos no son dados a priori
el experto debe dar una interpretación de los grupos que
se forman.
• Métodos:
– Clasificación Jerárquica (grupos disjuntos).
– Nubes Dinámicas (grupos disjuntos).
– Clasificación Piramidal (grupos NO disjuntos).
8
Cluster Analysis
The K-Means Clustering Method (nubes dinámicas)
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
9
• Clasificación (discriminación): Mapea o

asocia datos a grupos predefinidos
(aprendizaje supervisado).
– Encuentra modelos (funciones) que describen
y distinguen clases o conceptos para futuras
predicciones.
– Ejemplos: Credit scoring.
– Métodos: Análisis discriminante, decision-tree,
classification rule, neural network
v5 v1
v2
v3 v8
v4
v6
10
• Descubrimiento de Factores (Análisis Factorial):
– El análisis factorial es un nombre genérico que se da a una clase de métodos

multivariantes cuyo propósito principal es encontrar la estructura subyacente
en una tabla de datos (factores ocultos).
– Generalmente hablando, aborda el problema de cómo analizar la estructura
de las interrelaciones (correlaciones) entre un gran número de variables con la
definición de una serie de dimensiones subyacentes comunes, conocidas
como factores.
– Se puede considerar cada factor como una variable dependiente que es
función del conjunto entero de las variables observadas.
– El objetivo central es el resumen y la reducción de datos.
• Métodos:
– Análisis en Componentes Principales (ACP).
– Análisis Factorial de Correspondencias simples y múltiples (AFC).
– Análisis Canónico (AC).
– Análisis Discriminante (AD).
Tabla de Datos Componentes
100% de la información 80% 16% …… 0.02%
11
• Regresión: Se usa una regresión para predecir

los valores ausentes de una variable basándose
en su relación con otras variables del conjunto de
datos.
• Hay regresión lineal, no lineal, logística,
logarítmica, univariada, multivariada, etc.
12
Regression y
Y1
Y1’ y=x+1
X1 x

• Series de Tiempo:
1. Xt : Serie de tiempo.
2. Corregir errores sistemáticos.
3. Transformaciones matemáticas.
4. Xt=Tendencia+Estacionalidad+Ciclos+Et.
5. Para Et (Si no es un ruido blanco)
1. Elegir el modelo (Box-Jenkings).
1. ARMA(p,q) (AutoRegressive Moving Average)
2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)
2. Estimar parámetros.
6. Pronósticos.
13
• Sumarización:
– Los métodos de sumarización asignan los datos a
conjuntos (individuos de segundo orden) que tienen
asociadas descripciones.
– Estos métodos permiten extraer o derivar datos
representativos de una base de datos.
– Permite el análisis de conceptos.
• Métodos:
– Análisis de datos simbólicos.
– Lógica difusa.
– Interval Analysis.
14
• Asociación o Análisis de afinidad:

– Conocido como “Link Analysis” se refiere a
encontrar relaciones no evidentes en los datos.
• Métodos:
– Reglas de asociación (association rules) .
– Análisis de Correlation y de Causalidad.
• Descubrimiento de secuencias:
– “Secuential analysis” es usado para descubrir
secuencias de patrones en los datos, estos
patrones son similares a los encontrados con
reglas de asociación pero tales relaciones son
basadas en el tiempo.
• Métodos:
– Redes neuronales.
– Series de tiempo.
15
Data Mining: On What Kind of Data?
• Relational databases
• Data warehouses
• Transactional databases
• Advanced DB and information repositories
– Object-oriented and symbolic databases
– Spatial databases (location component, Geographic
Information Systems - GIS)
– Time-series data and temporal data
– Text databases and multimedia databases
– Heterogeneous and legacy databases
– www (web mining)
Steps of a KDD Process

1. Learning the application domain:
– Relevant prior knowledge and goals of application
2. Creating a target data set: data selection
3. Data cleaning and preprocessing: (may take 60% of effort!)
4. Data reduction and transformation:
– Find useful features, dimensionality/variable reduction, invariant
representation.
5. Choosing functions (methods) of data mining
– Summarization, classification, regression, association, clustering.
6. Choosing the mining algorithm(s)
7. Data mining: search for patterns of interest
8. Pattern evaluation and knowledge presentation
– visualization, transformation, removing redundant patterns, etc.
9. Use of discovered knowledge
16
Ciclo de un proyecto de minería de datos
1. Recolectar los datos. Usualmente las compañias
tienes muchas bases de datos que deben ser
centralizadas.
2. Limpieza y transformación de datos.
3. Definir la meta del proyecto y así encontrar el
modelo adecuado.
4. Escoger los algoritmos que permitan optimizar el
modelo.
5. Generar reportes.
6. Generar predicciones y/o “Scoring”.
7. Aplicación de los resultados en el negocio.
8. Actualización de los modelos. (calibración
constante de los modelos)
Data Mining and Business Intelligence
Increasing potential
to support
business decisions End User
Making
Decisions
Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
17
Architecture of a Typical Data Mining System
* ( $
) $
+ ' &
&
' ($
Data cleaning & data integration Filtering
Data
Databases Warehouse
Estándares en Minería de Datos

• En Minería de Datos estamos como en Base de Datos hace 20
años, es decir, se están haciendo esfuerzos por definir
estándares.
• OLE DB for DM: define un nuevo lenguaje para la minería de
datos que permite la creación de modelos, aprendizaje y
predicción. También define un modelo de datos para los métodos
y algoritmos de minería de datos.
• XML for Analysis: es otro estándar de la industria y está a cargo
del “XML / A Council”. Así surge el lenguaje de consultas “query
language Data Mining eXtensions” (DMX) que permite consultas
basadas en XML a los servidores de Minería de Datos.
• SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por
IBM.
• Java Data Mining API. Es un paquete JAVA para minería de datos
propuesto por ORACLE. El objetivo es permitir a las aplicaciones
JAVA con motores de minería de datos.
• PMML, Crisp-DM, CMW (extensión de UML) y otros.
18
¿Qué es una Bodega de Datos?
(Data Warehouse)
• Una bodega de datos es una base de
datos orientada a consultas, como
resultado de un análisis extenso y de la
transformación de datos de la empresa.
• La bodega de datos se usa como punto
de partida de un sistema de toma de
decisiones (tales como OLAP, DataLab).

(Data Warehouse)
• Una bodega de datos tiene datos
consolidados y consistentes, orientados
hacia un tema, históricos y solamente
de lectura.
• Una bodega de datos podría ser el
resumen un conjunto de bases de datos
de una empresa.
19
(Data Warehouse) Simbólicas
o
Numéricas
Proceso de
Minería de Datos
Bodega de Datos vrs BDR
20
¿Qué es un Mercado de Datos?
(Data Mart)
• Un Mercado de Datos (Data Mart) tiene
las mismas características que una
bodega de datos, pero a un nivel más
refinado, pues contiene información
más detallada perteneciente a un solo
departamento de la empresa.
¿Cómo se construyen las Bodegas de

Datos y los Mercados de Datos?
• Para esto se sigue el manual “The
The Data
Warehouse Toolkit”.
Toolkit
• El objetivo es evitar inconsistencias y
errores en los datos.
• Este proceso en muy difícil de
automatizar dada la gran cantidad de
formatos de datos que existen en las
empresas.
21
Minería de Datos vrs OLAP

• Son herramientas y técnicas
cuyo objetivo es extraer
información valiosa de las
bodegas de datos (Data
Warehouse) y de los
mercados de datos (Data
Mart).
• Busca grupos de clientes,
segmentos, patrones etc.
Minería de Datos vrs OLAP
¿Qué es OLAP?
• OLAP (Online Analytical Processing)
• OLAP es una tecnología que procesa
información de una bodega de datos en
estructuras multidimensionales que
proporcionan una respuesta rápida a consultas
complejas.
• El objetivo de OLAP es resumir y organizar
grandes cantidades de datos para se
analizados y evaluados rápidamente.
22
¿Qué es OLAP?
Modelo Estrella
• Tabla de Hechos (fact table): Corresponde a los

hechos del negocio. En general son valores
numéricos y sumables lo que permitirá sumarizar
los millones de registros haciendo agregados.
Debe estar altamente normalizada.
• Tablas de Dimensiones (dimensions tables):
Permiten describir los hechos desde diferentes
ángulos permitiendo análisis muy diversos. En
general, tienen una descripción textual muy clara.
Generalmente no están normalizadas.
23
Example of Star Schema
time
time_key item
day item_key
day_of_the_week Sales Fact Table item_name
month brand
quarter time_key type
year supplier_type
item_key
location_key
location
units_sold location_key
dollars_sold street
city
avg_sales province_or_street
Measures country
24
Example of Star Schema
time
time_key item
day item_key
day_of_the_week Sales Fact Table item_name
month brand
quarter time_key type
year supplier_type
item_key
supplier_key
Supplier location
location_key
supplier_key location_key
supplier_name units_sold street
supplier_type city
dollars_sold province_or_street
country
avg_sales
Measures
25
• OLAP (On Line Analytical Processing) fue
introducido por E.F.Codd, en creador del modelo
relacional de bases de datos, en un artículo que
escribió en 1994.
• El fuerte del OLAP son los cálculos agregados o
sumarizados. Ej. ¿Cuáles son los 10 productos
más vendidos el último mes?
• Mientras que el fuerte la Minería de Datos es la
búsqueda de patrones ocultos. Ej. ¿Cuál es el
perfil de los compradores de cámaras digitales?
Una Bodega de Datos (Data Warehouse) es un sistema que toma los datos
de una compañía (de sus bases de datos y de otras fuentes de los datos) y los
transforma en una estructura adecuada para el Análisis de Datos.
Se realizan a menudo algoritmos matemáticos en los datos previamente

organizados para llevar más allá su utilidad para la toma decisiones en los
negocios.
El análisis de los datos se ejecuta básicamente de dos formas.
La primera requiere de una persona que investigue los datos para

encontrar las tendencias y patrones. Este método se conoce como “On
Line Analytical Processing” (OLAP.)
La segunda forma utiliza algoritmos y métodos matemáticos para
escrudiñar los datos y buscar así las tendencias y patrones. Este método
se llama la Minería de Datos.
Los Mercados de Datos (Data Mart) pueden pensarse de cómo Bodegas de

mini-datos y usualmente son parte de una Bodega de Datos más grande.
Generalmente están orientados a un tema en particular.
26
Definiciones importantes en Bodegas de Datos
Dos tipos tablas conforman una Bodega de datos: las Tablas de Hechos y
las Tablas de Dimensión.
Una Tablas de Hechos contiene típicamente los datos concernientes a

negocios tales como las total de ventas, cantidad de las ventas, el número
de clientes, y las llaves foráneas de las Tablas de Dimensión.
Una llave foránea es un campo que liga la Tabla de Hechos con las Tablas
de Dimensión
Las Tablas de Dimensión contienen la información detallada referente a

un atributos específico de la Tabla de Hechos, como los detalles del
producto, del cliente, la información de la tienda, y así sucesivamente.
27
La Tabla de Hechos
La Tabla de Hechos tiene como meta extraer los datos más importantes
desde el punto de vista de la toma de decisiones para el negocio.
Esta tabla se estructura de manera tal que facilite la manipulación numérica

de los datos. Así esta tabla usualmente NO será una tabla normalizada.
Más bien, los datos muchas veces son agregaciones de otros por lo que se
tienen muchos datos pre-calculados con el objetivo de facilitar y optimizar la
consulta.
Tablas de Dimensiones
La Tabla de Hechos típicamente tiene datos cuantitativos; por ejemplo, los

datos de transacción que muestran número de unidades vendidas en cada la
venta y cantidad cobrada al cliente por la unidad vendida.
Mientras que las Tablas de Dimensión contienen la información detallada

referente a un atributos específico de la Tabla de Hechos, como los detalles del
producto, del cliente, la información de la tienda, y así sucesivamente.
28
Dimensiones
Para Entender que significa un Cubo, que es el corazón de análisis

OLAP, se debe entender la naturaleza de las dimensiones primero.
Un OLAP está basado en las Bases de Datos Multidimensionales, porque

literalmente se hace un análisis de datos observando las relaciones entre
las diferentes dimensiones tales como: Tiempo, Ventas, Productos,
Clientes, Empleados, Ubicación Geográfica o Cuentas.
Las dimensiones están basadas a menudo en jerarquías. Las jerarquías

son entidades lógicas que un usuario podría querer analizar. Cada
jerarquía puede tener uno o más niveles.
Cubos
Un cubo es una estructura de datos multidimensional en el que se puede

consultar información para la toma de decisiones.
Se pueden construir los cubos desde una o más tablas de hechos y sus
dimensiones.
Un cubo dado normalmente tiene un tema dominante bajo el cual se quiere

hacer el análisis. Por ejemplo, se podría construir un cubo de las Ventas con el
que se analizan las ventas por la región, o un cubo de Proceso de Llamada con
que se analiza longitud de llamada.
29
En la siguiente Figura se muestra un cubo de Ventas de Cerveza. Considere
la cara delantera del cubo que muestra números positivos. Este cubo tiene
tres dimensiones: Tiempo, Línea del Producto, y Estado dónde el producto fue
vendido.
Cada bloque del cubo se llama una celda y se identifica por un miembro en
cada dimensión. Por ejemplo, analice la celda de la esquina inferior-izquierda,
la cual tiene los valores 4,784 y $98,399. Los valores indican el número de
ventas y el monto de las ventas. Esta celda se refiere a las ventas de Cerveza
inglesa (Ale) en el estado de Washington (WA) durante julio del 2005. Esto se
representa como [WA, Ale, el Jul ' 05].
Si algunas celdas no tienen valor; esto es porque ningún dato está disponible
para esas celdas en la tabla de hecho.
30
El esquema tipo Estrella
Este esquema se conoce así porque cuando se hace un diagrama entidad-

relación de la tabla de hechos con las llaves foráneas más importantes de
una o más tablas de dimensión se tiene un esquema que parece una
estrella ¿cierto?
El esquema tipo Copo de Nieve (Snowflake)
Hay que una extensión del Esquema Estrella conocido como el esquema del
“Copo de Nieve”. Este tipo esquema es útil cuando una o más de tablas de
dimensión son a su vez una tablas de hechos.
31
1. Cargar “SQL Server Business Intelligence Development Studio”
2. Crear un proyecto en BIDS (Business Intelligence Development Studio)

File New Project
32
Carpetas de un proyecto:
3. Crear el “Data Source” (Conexión a la Base de Datos)
33
Adventureworks Sample Database
The AdventureWorks sample databases are for the ficticious AdventureWorks

-- a large, multinational manufacturing company. "The company manufactures
and sells metal and composite bicycles to North American, European and Asian
commercial markets. While its base operation is located in Bothell, Washington
with 290 employees, several regional sales teams are located throughout their
market base. In 2000, Adventure Works Cycles bought a small manufacturing
plant, Importadores Neptuno, located in Mexico. Importadores Neptuno
manufactures several critical subcomponents for the Adventure Works Cycles
product line. These subcomponents are shipped to the Bothell location for final
product assembly. In 2001, Importadores Neptuno became the sole
manufacturer and distributor of the touring bicycle product group. Coming off a
successful fiscal year, Adventure Works Cycles is looking to broaden its market
share by targeting their sales to their best customers, extending their product
availability through an external Web site, and reducing their cost of sales
through lower production costs."
4. Crear el “Data Source View (DSV)” (Vistas Lógicas de las Tablas)
34
5. Crear un Cubo usando el “Cube Wizard” (Método Botton-up,
es decir se construye el cubo a partir de una base de datos)
35
36
6. Desplegando y visualizando un Cubo
Introducción a MDX (Multi-Dimensional eXpressions)
Así como SQL (Structured Query Language) es un lenguaje de

consultas para recuperar datos de las bases de datos relacionales,
MDX (Multi-Dimensional eXpressions) es es un lenguaje de consultas
para recuperar datos de las bases de datos multi-dimensionales
(Cubos-OLAP).
MDX fue diseñado por Microsoft e introducido por primera vez en el

BIDS 7.0 en 1998.
Members: Cada jerarquía de una dimensión contiene uno o más

“Items” llamados los miembros. Ej.
• [ Date ].[ Calendar ].[ Calendar Quarter ].[ Q1 CY 2004 ]
37
CelIs (Celdas): Una Celda es una entidad de la que se pueden recuperar
datos que corresponde a la intersección de los Miembros de dimensiones.
Tuples (Tuplas): Una Tupla única identifica una celda o una sección de un
cubo.
Ejemplos:
• [Dim Product].[Large Photo].&[213]
• [Dim Sales Territory].[Sales Territory Region].[Canada]
Sets (Conjuntos): Un Set es una colección de tuplas unidas por “and”.
Ejemplos:
• ([ Date ].[ Calendar ].[ 2004 ].[ Hl CY 2004 ].[ Q1 CY 2004 ],

[ Product ].[ Product Line ].[ Mountain ],
[ Customer ].[ Country ].[ Australia ])
38
¿Dónde ejecutar un Query MDX?
SSMS: SQL Server Management Studio
39
Ejemplo 1:
SELECT [Measures].[Sales Amount] on COLUMNS
FROM [Adventure Works DW]
WHERE ([Dim Sales Territory].[Sales Territory Group].[Pacific],
[Dim Promotion].[English Promotion Category].[Reseller])
40
Ejemplo 2:
SELECT [Measures].[Discount Amount - Fact Reseller Sales] on
COLUMNS
FROM [Adventure Works DW]
WHERE ([Dim Product].[Large Photo].&[213],
[Dim Sales Territory].[Sales Territory Region].[Canada])
Analizado Cubos
con Excel 2007
41
Paso 1: Establecer la conexión entre Excel y el BIDS
42
Paso 2: Creando el cubo en Excel a través de una tabla dinámica
43
Paso 3: Generando gráficos
44
Gracias….
45

Herramientas OLAP Minería de Datos

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Herramientas OLAP Minería de Datos

Enviado por

Direitos autorais:

Formatos disponíveis

EPB 603

Sistemas del Conocimiento

Dr. Oldemar Rodríguez R.

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento

¿Qué es Minería de Datos?

EPB 603 Sistemas del Conocimiento

¿Qué es Minería de Datos?

EPB 603 Sistemas del Conocimiento

¿Qué es Minería de Datos?

EPB 603 Sistemas del Conocimiento

¿Qué es Minería de Datos?

– Se considera la Minería de Datos como un el

EPB 603 Sistemas del Conocimiento

Minería de Datos versus KDD (Knowledge

Minería de Datos: A KDD Process

Minería de Datos versus Estadística

La estadística en la mayoría de los casos supone que

EPB 603 Sistemas del Conocimiento

Minería de Datos versus Bodegas de Datos

EPB 603 Sistemas del Conocimiento

Minería de Datos versus Machine Learning

– “Machine Learning”: es un área de la Inteligencia

EPB 603 Sistemas del Conocimiento

Aplicaciones de la Minería de Datos

• Retención de Clientes ¿Cuáles clientes se van ir

EPB 603 Sistemas del Conocimiento

Tareas de la Minería de Datos

• “Clustering”: (clasificación no supervisada, aprendizaje

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento

The K-Means Clustering Method (nubes dinámicas)

EPB 603 Sistemas del Conocimiento

• Clasificación (discriminación): Mapea o

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento

– El análisis factorial es un nombre genérico que se da a una clase de métodos

EPB 603 Sistemas del Conocimiento

Tabla de Datos Componentes

100% de la información 80% 16% …… 0.02%

EPB 603 Sistemas del Conocimiento

Tareas de la Minería de Datos

• Regresión: Se usa una regresión para predecir

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento

Tareas de la Minería de Datos

Tareas de la Minería de Datos

EPB 603 Sistemas del Conocimiento

• Asociación o Análisis de afinidad:

EPB 603 Sistemas del Conocimiento

Tareas de la Minería de Datos

EPB 603 Sistemas del Conocimiento

Steps of a KDD Process

Data Mining and Business Intelligence

Data Presentation Business

EPB 603 Sistemas del Conocimiento

Estándares en Minería de Datos

¿Qué es una Bodega de Datos?

EPB 603 Sistemas del Conocimiento

Bodega de Datos vrs BDR

EPB 603 Sistemas del Conocimiento

EPB 603 Sistemas del Conocimiento

¿Cómo se construyen las Bodegas de

¿Qué es Minería de Datos?