Você está na página 1de 44

PARTE II:

ALMACENES DE DATOS

Introduccin a los Almacenes de Datos


Sobre estas mismas bases de datos de trabajo ya se puede
extraer conocimiento (visin tradicional).
Uso de la base de datos transaccional para varios cometidos:
Se mantiene el trabajo transaccional diario de los sistemas de
informacin originales (conocido como OLTP, On-Line
Transactional Processing).
Se hace anlisis de los datos en tiempo real sobre la misma base de
datos (conocido como OLAP, On-Line Analytical Processing).

Introduccin a los Almacenes de Datos


Uso de la base de datos transaccional para varios cometidos:

PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de
informacin originales (killer queries). Se debe hacer
por la noche o en fines de semana.
la base de datos est diseada para el trabajo
transaccional, no para el anlisis de los datos.
Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
3

Introduccin a los Almacenes de Datos


Se desea operar eficientemente con esos datos...
los costes de almacenamiento masivo y conectividad se han
reducido drsticamente en los ltimos aos,

parece razonable recoger los datos (informacin


histrica) en un sistema separado y especfico.
NACE EL DATA-WAREHOUSING
Data warehouses (Almacenes o Bodegas de Datos)

Introduccin a los Almacenes de Datos


Almacenes de Datos (AD)

(data warehouse)

motivacin

disponer de Sistemas de
Informacin de apoyo a la
toma de decisiones*

disponer de bases de datos que permitan extraer conocimiento de


la informacin histrica almacenada en la organizacin
objetivos

anlisis de la
organizacin

previsiones de
evolucin

* DSS: Decision Support Systems

diseo de
estrategias
5

Introduccin a los Almacenes de Datos


Almacenes de datos
Base de Datos diseada con un objetivo de
explotacin distinto que el de las bases de
datos de los sistemas operacionales.

Sistema Operacional
(OLTP)

BD orientada al
proceso

Sistema de Almacn
de Datos

BD orientada al
anlisis

(DW)
6

Introduccin a los Almacenes de Datos

Almacenes de Datos
definicin

coleccin de datos diseada


para dar apoyo a los procesos
de toma de decisiones
caractersticas

orientada hacia
la informacin*
relevante de la
organizacin

integrada

* subject oriented, not process oriented

variable en el
tiempo

no voltil

Introduccin a los Almacenes de Datos


AD: Orientado hacia la
informacin relevante
de la organizacin

se disea para consultar eficientemente


informacin relativa a las actividades
(ventas, compras, produccin, ...) bsicas
de la organizacin, no para soportar los
procesos que se realizan en ella (gestin
de pedidos, facturacin, etc).

Base de Datos
Transaccional
CURSO
...
REUNION
...

PAS
...

GAMA
...

VENTA
...
PROTOTIPO
...

PRODUCTO
...

Informacin
Necesaria

Introduccin a los Almacenes de Datos


integra datos recogidos de
diferentes sistemas operacionales
de la organizacin (y/o fuentes
externas).

AD: Integrado

Fuente de
Datos 1
texto

Fuente de
Datos 3
HTML

Fuente de
Datos 2

Base de Datos
Transaccional 1
Fuentes
Internas
Base de Datos
Transaccional 2

Fuentes
Externas

Almacn
de Datos
9

Introduccin a los Almacenes de Datos


los datos son relativos a un periodo de
tiempo y deben ser incrementados
peridicamente.

AD: Variable
en el tiempo

Los datos son almacenados como fotos (snapshots)


correspondientes a periodos de tiempo.

Tiempo

Datos

01/2013 Datos de Enero


02/2013 Datos de Febrero
03/2013 Datos de Marzo
10

Introduccin a los Almacenes de Datos


los datos almacenados no son
actualizados, slo son incrementados.

AD: No voltil

Carga
Bases de datos operacionales

INSERT

READ

Almacn de Datos

READ

UPDATE
DELETE

El periodo de tiempo cubierto por un AD vara


entre 2 y 10 aos.
11

Introduccin a los Almacenes de Datos


Almacenes de Datos
ventajas para las
organizaciones

rentabilidad de las
inversiones
realizadas para su
creacin

aumento de la
competitividad
en el mercado

aumento de la
productividad de
los tcnicos de
direccin

12

Introduccin a los Almacenes de Datos


Almacenes de Datos
problemas

privacidad de
los datos
infravaloracin del
esfuerzo necesario para
su diseo y creacin

infravaloracin de los
recursos necesarios
para la captura, carga
y almacenamiento de
los datos

incremento
continuo de los
requisitos de los
usuarios

13

Introduccin a los Almacenes de Datos


Sistema Operacional (OLTP)

Almacn de datos (DW)

- almacena datos actuales

- almacena datos histricos

- almacena datos de detalle

- almacena datos de detalle


y datos agregados a distintos niveles

-bases de datos medianas


(100Mb-1Gb)

- bases de datos grandes


(100Gb-1Tb)

- los datos son dinmicos (actualizables)

- los datos son estticos

- los procesos (transacciones) son repetitivos

- los procesos no son previsibles

- el nmero de transacciones es elevado

- el nmero de transacciones es
bajo o medio

- tiempo de respuesta pequeo (segundos)

- tiempo de respuesta variable


(segundos-horas)

- dedicado al procesamiento de transacciones

- dedicado al anlisis de datos

- orientado a los procesos de la organizacin

- orientado a la informacin relevante

- soporta decisiones diarias

- soporta decisiones estratgicas

- sirve a muchos usuarios (administrativos)

- sirve a tcnicos de direccin


14

Arquitectura de un Almacn de Datos


La Arquitectura de un AD viene determinada por su
situacin central como fuente de informacin para
las herramientas de anlisis.
Fuentes
Internas

Herramientas
de consultas e
informes

Base de Datos
Transaccional
Herramientas
EIS

ETL
Fuente de
Datos 1
texto

Almacn
de Datos

Herramientas
OLAP

Fuente de
Datos 3
Copias de
Seguridad

HTML

Fuente de
Datos

Interfaz y
Operadores

Fuentes
Externas

Herramientas de
Minera de
Datos

15

Arquitectura de un Almacn de Datos


Componentes:
Sistema ETL (Extraction, Transformation, Load): realiza las
funciones de extraccin de las fuentes de datos
(transaccionales o externas), transformacin (limpieza,
consolidacin, ...) y la carga del AD, realizando:

extraccin de los datos.


filtrado de los datos: limpieza, consolidacin, etc.
carga inicial del almacn: ordenacin, agregaciones, etc.
refresco del almacn: operacin peridica que propaga los
cambios de las fuentes externas al almacn de datos

Repositorio Propio de Datos: informacin relevante, metadatos.


Interfaces y Gestores de Consulta: permiten acceder a los
datos ys sobre ellos se conectan herramientas ms
sofisticadas (OLAP, EIS, minera de datos).
Sistemas de Integridad y Seguridad: se encargan de un
16
mantenimiento global, copias de seguridad, ...

Preguntas de negocio frecuentes

Qu clientes son los mas rentables y como podemos expandir nuestras relaciones con
ellos ?

Qu productos tienen ventas relacionadas ?

Qu productos pueden ser vendidos en forma relacionada y a quienes ?

Qu campaas de mercadeo han sido las mas exitosas ?

17

Preguntas de negocio frecuentes

Qu canales de venta son los mas efectivos y en que productos?

Qu productos tienen tendencia creciente ( decreciente) ?

Cmo nos comparamos con la competencia?

Qu productos se venden mas (o menos) ? En que segmentos geogrficos han


sido las mas exitosas ?

18

Datawarehouse
En lugar que un grupo de analistas pasen el 100% de su
tiempo analizando informacin, todos los gerentes y
ejecutivos deberan pasar al menos el 10% de su tiempo
realizando esta labor.

19

Datawarehouse

Para ejecutar de manera eficiente las consultas de datos tan variados, se crean los
Almacenes de Datos, tambin llamados Datawarehouse.
En un datawarehouse se renen los datos de varios orgenes en una disposicin
unificada en un nico lugar.
Facilitan los anlisis histricos (sobre series de tiempo).

20

Dos Mundos: OLTP vs. DW

Base de
datos OLTP

Son pobladas por usuarios finales.


Se optimizan en funcin a procesos
transaccionales.
Se actualizan constantemente.

Repositorio
de un DW

Son poblados por herramientas de


programacin.
Se optimizan por la recuperacin y
consulta.
Se actualizan por eventos o en momentos
especficos.

21

Dos Mundos: OLTP vs. DW

Base de
datos OLTP

Coexisten con varias BD OLTP en uno o


varios servidores.
Contienen mucha informacin de detalle.

Repositorio
de un DW

Se almacenan en servidores dedicados.


Contienen informacin sumarizada
(dependiendo del nivel de granularidad
deseado por la empresa)

22

Qu tenemos que hacer para llegar?

BPCS

Leader
List
Sistema
Comercial

Inv. De
Mercados

Una nica fuente de datos para...

End Users

Data Mart
Marketing

... darle al usuario final acceso


directo y autnomo a los datos

SELF SERVICE = Sin Intermediarios

23

Qu es un Data Warehouse?

Bill Inmon en 1990:


Es un conjunto de datos integrados que varian con el tiempo, no son
transitorios y soportan el proceso de toma de decisiones de una
administracin

24

DATA WAREHOUSE
ERP

OLTP

Data Warehouse
empresarial
DATA MART
COMERCIAL

Usuarios

DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
25

Arquitectura de un Almacn de Datos


Organizacin (Externa) de Los Datos
Las herramientas de explotacin de los
almacenes de datos han adoptado un
modelo multidimensional de datos.

Se ofrece al usuario una visin multidimensional


de los datos que son objeto de anlisis.

26

Arquitectura de un Almacn de Datos


EJEMPLO
Organizacin: Cadena de supermercados.
Actividad objeto de anlisis: ventas de productos.
Informacin registrada sobre una venta: del producto Tauritn
33cl se han vendido en el almacn Almacn nro.1 el da 17/7/2013, 5
unidades por un importe de 103,19 euros.

Para hacer el anlisis no interesa la venta individual (ticket)


realizada a un cliente sino las ventas diarias de productos en
los distintos almacenes de la cadena.
27

Arquitectura de un Almacn de Datos

Marca
Descripcin

Semana

Categora
Departamento

Mes

Nro_producto

Trimestre

Da

Ao

Tipo

importe
unidades
Almacn
Ciudad
Tipo
Regin

28

Arquitectura de un Almacn de Datos


Dimensiones (puntos de
vista) desde los que se
puede analizar la actividad.
Marca
Semana

Descripcin
Categora

Mes

Departamento

Trimestre

Da

Nro_producto

Ao

Tipo

importe
unidades
Almacn

Actividad que es objeto de


anlisis con los indicadores
que interesa analizar

Ciudad

Tipo

Regin

29

DATA FACT

Arquitectura de un Almacn de Datos


Modelo multidimensional:
en un esquema multidimensional se representa una actividad
que es objeto de anlisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).
la informacin relevante sobre el hecho (actividad) se
representa por un conjunto de indicadores (medidas o atributos de
hecho).

la informacin descriptiva de cada dimensin se representa por


un conjunto de atributos (atributos de dimensin).

30

CARACTERISTICAS

ORIENTADO A TEMAS
Datos Operacionales

Datos en el Data Warehouse

Orientados a la aplicacin

Orientados a temas de
negocio
Organizados para facilitar las
consultas en forma rpida y
grfica

Organizados para ser


recuperados y actualizados
rpidamente

El Data Warehouse est orientado


especficamente al proceso del negocio 32

INTEGRADO
Estandarizacin de nombres
Estandarizacin de medidas
Estandarizacin de codificacin
Datos Operacionales

Datos en el Data Warehouse

Codificacin (Encoding)

APPL 1:m,f
APPL 2:1,0
APPL 3:x,y
APPL 4:male, female

m,f

Medidas de los atributos


APPL 1:balance
APPL 2:balance
APPL 3:balance
APPL 4:balance

numeric(13,2)
pic 9(9)v99
numeric(11,0)
pic s9(7)v99comp-3

balance numeric(13,2)

33

GRANULARIDAD
VENTAS DIARIAS
VENTAS MENSUALES

sumarizacin de las ventas diarias de un


mes

VENTAS ANUALES

sumarizacin de las ventas mensuales de un


ao

Nivel de detalle al que se quiere llegar en el DW


34

NO VOLTIL

La informacin en el DW no es transitoria.

La manipulacin de la informacin en un
ambiente de DW se basa en dos operaciones:

carga de informacin y acceso a la informacin.

35

Datos en un Data Warehouse

Consolidados .... A nivel empresa


Consistente ...... Dentro del Data warehouse
Orientados al Tema..Desde perspectiva usuario
Histrico ........... De 2 a 3 aos
Solamente de lectura... No puede ser actualizada
Sumarizado... Apropiado a un nivel de detalle

36

COMPONENTES

COMPONENTES
ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
38

FUENTES DE DATOS
alimentan el Data Warehouse
ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
39

ERP

OLTP

PROCESOS DE EXTRACCIN,
TRANSFORMACIN Y CARGA DE
DATOS

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
40

DATAMARTS
INTEGRADOS
ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
41

DATA WAREHOUSE

ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
42

ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa

METADATA
43

HERRAMIENTAS DE
EXPLOTACIN
ERP

OLTP

DATA MART
COMERCIAL
DATA MART
FINANZAS

Legacy

DATA MART
RRHH

DATA MART
SERVICIO AL CLIENTE

META DATA

Informacin
externa
44

Você também pode gostar