Você está na página 1de 68

TI1232 – TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIONES II (53

hrs)

UNIDAD II – Data Warehouse


(13 horas)

Prof. Víctor Valenzuela Ruz


Objetivos de la Unidad
1. Reconoce las características y componentes de un
Datawarehouse.

Prof. Víctor Valenzuela Ruz 2
Contenidos
• Importancia de un datawarehouse para la toma de decisiones 
• Conceptos básicos de un sistema OLTP con sus ejemplos. 
• Características de un datawarehouse y Datamart 
• Conceptos y esquemas asociados a un datawarehouse 
– Hechos (fact table)
– Dimensiones 
– Dimensión tiempo 
– Jerarquías / Granularidad
– Medidas 
• Medidas Calculadas 
– Esquemas 
• Estrella 
• Copo de Nieve 
• Transformación de la información 
– Convirtiendo Datos en Información 
– Transformación y agrupación de datos ETL

Prof. Víctor Valenzuela Ruz 3
Importancia de los Data Warehouse
• Almacén de Datos o Data Warehouse (DW) es un almacén de
información temática orientado a cubrir las necesidades de
aplicaciones de los sistemas de Soporte de Decisiones (DSS) y
de la Información de Ejecutivos (EIS), que permite acceder a la
información corporativa para la gestión, control y apoyo a la
toma de decisiones.

• Dicha información es construida a partir de bases de datos


que registran las transacciones de los negocios de las
organizaciones (bases de datos operacionales).

Prof. Víctor Valenzuela Ruz 4
Importancia de los Data Warehouse
• Contribuye a la toma de decisiones tácticas y estratégicas
proporcionando un sentido automatizado para identificar
información clave desde volúmenes de datos generados por
procesos tradicionales o elementos de software.
• Posibilita medir las acciones y los resultados de una mejor
forma.
• Los procesos empresariales pueden ser optimizados. El
tiempo perdido esperando por información que finalmente es
incorrecta o no encontrada, es eliminada.
• Permite a los usuarios dar prioridad a decisiones y acciones,
por ejemplo, a qué segmentos de clientes deben ir dirigidas
las siguientes acciones de marketing.

Prof. Víctor Valenzuela Ruz 5
Características de un DW
• Temático.‐ Los datos están almacenados por materias o
temas. Estos se organizan desde la perspectiva del
usuario final, mientras que en las Bases de Datos
operacionales se organizan desde la perspectiva de la
aplicación, con vistas a lograr una mayor eficiencia en el
acceso a los datos.

• Integrado.‐ Todos los datos almacenados en el DW están


integrados. Las bases de datos operacionales orientadas
hacia las aplicaciones fueron creadas sin pensar en su
integración, por lo que un mismo tipo de datos puede ser
expresado de distinta manera en dos bases de datos
operacionales distintas (Por ejemplo, para representar el
sexo: 'Femenino' y 'Masculino', 'F' y 'M' o '0' y '1').

Prof. Víctor Valenzuela Ruz 6
Características de un DW
• No volátil.‐ Únicamente hay dos tipos de operaciones en
el DW: la carga de los datos procedentes de los entornos
operacionales (carga inicial y carga periódica) y la
consulta de los mismos. La actualización de datos no
forma parte de la operativa normal de un DW.

• Histórico.‐ El tiempo debe estar presente en todos los


registros contenidos en un DW. Las bases de datos
operacionales contienen los valores actuales de los
datos. Un DW no es más que una serie de instantáneas
en el tiempo tomadas periódicamente.

Prof. Víctor Valenzuela Ruz 7
Arquitectura de un DW

Prof. Víctor Valenzuela Ruz 8
Arquitectura de un DW
• Nivel operacional.‐ Contiene datos primitivos (operacionales)
que están siendo permanentemente actualizados, usados por
los sistema operacionales tradicionales que realizan
operaciones transaccionales.

• Almacén de datos o DW.‐ Contiene datos primitivos


correspondientes a sucesivas cargas del DW y algunos datos
derivados. Los datos derivados son datos generados a partir
de los datos primitivos al aplicarles algún tipo de
procesamiento (resúmenes).

Prof. Víctor Valenzuela Ruz 9
Arquitectura de un DW
• Nivel departamental (Datamart). Contiene casi
exclusivamente datos derivados. Cada departamento de la
empresa determina su nivel departamental con información
de interés a dicho nivel. Va a ser el blanco de salida sobre el
cual los datos en el almacén son organizados y almacenados
para las consultas directas por los usuarios finales, los
desarrolladores de reportes y otras aplicaciones.

• Nivel individual. Contiene pocos datos, resultado de aplicar


heurísticas, procesos estadísticos, etc., a los datos contenidos
en el nivel anterior. El nivel individual es el objetivo final de un
DW. Desde este nivel accederá el usuario final del DW, y se
podrán realizar diferentes hipótesis así como navegar a través
de los datos contenidos en el DW.

Prof. Víctor Valenzuela Ruz 10
Sistema OLTP
• Los sistemas OLTP están diseñados para gestionar un gran
número de peticiones concurrentes sobre sus bases de datos,
y que los usuarios puedan insertar, modificar, borrar y
consultar dichos datos. Están enfocados a que cada operación
(transacción) trabaje con pequeñas cantidades de filas, y a
que ofrezcan una respuesta rápida.
• Habitualmente utilizan sistemas de bases de datos
relacionales para gestionar los datos, y suelen estar altamente
normalizados.
• En ellos es muy importante la integridad de los datos, y deben
cumplir las propiedades ACID (Atomicity, Consistency,
Isolation, Durability). Son un conjunto de características
o propiedades que garantizan que las transacciones en una
base de datos son fiables.

Prof. Víctor Valenzuela Ruz 11
OLTP – Propiedades ACID
• Atomicidad: una operación, o se realiza por
completo o no se realiza, nunca debe quedar a
medias.
• Consistencia: sólo se ejecutan las operaciones que
cumplen las reglas de integridad de la base de datos.
• Aislamiento (Isolation): una operación no puede
afectar a otras, dos transacciones sobre los mismos
datos son independientes y no generan errores entre
sí.
• Durabilidad: una vez realizada una operación, ésta es
persistente y no se puede deshacer.

Prof. Víctor Valenzuela Ruz 12
OLTP ‐ OLAP

Prof. Víctor Valenzuela Ruz 13
Diseño de un Datawarehouse
• En el diseño de un data warehouse hay que partir de
una serie de características de los datos.

• Para ello, hay que cambiar de los modelos E/R


usuales en los operacionales, ya que de tipo de
modelo de dato es complejo obtener datos
acumulados e históricos.

• El modelado dimensional es una forma de acercar


los datos a la manera en que estos serán convertidos
en información útil para los usuarios del negocio.

Prof. Víctor Valenzuela Ruz 14
Diseño de un Datawarehouse
• Normalmente las consultas de análisis, se realizan
sobre un hecho esencial a partir de una serie de
parámetros.

• Un ejemplo serían las ventas con una serie de


variables como tiempo, localización y producto.

– Número de ventas en un periodo determinado
– Evolución de las ventas
– Previsiones de venta
– Productos más vendidos en una zona determinada

Prof. Víctor Valenzuela Ruz 15
Modelo Dimensional
• Un modelo dimensional de datos que tiene una
estructura adecuada para resolver consultas analíticas.

• Este tipo de modelo de datos consta principalmente de


dos tipos de elementos:

– Dimensiones: Representan factores por lo que se analiza un


determinado área del negocio. Son pequeñas y usualmente
están desnormalizadas.

– Hechos: Son el objeto de los análisis y están relacionados con


las dimensiones. Son tablas muy grandes y suelen estar
desnormalizadas. Se a menudo incluyen diferentes agregaciones
como máximo, mínimo, media, …

Prof. Víctor Valenzuela Ruz 16
Modelo Dimensional
• Un modelo multidimensional que no tiene
jerarquías, se denomina modelo en estrella, si
tuviera jerarquías, se denominaría modelo copo de
nieve.

Prof. Víctor Valenzuela Ruz 17
Modelo Estrella (Star Schema)
Una tabla de hechos y una tabla adicional por cada
dimensión.

Prof. Víctor Valenzuela Ruz 18
Modelo Copo de Nieve (Snowflake Schema)
Refleja la organización jerárquica de las dimensiones.

Prof. Víctor Valenzuela Ruz 19
Constelación de Hechos 
(Fact Constellation Schema)
Los esquemas en estrella y bola de nieve pueden
generalizarse con la inclusión de distintas tablas de
hechos que comparten todas o algunas de las
dimensiones.

Prof. Víctor Valenzuela Ruz 20
Dimensiones
• Dimensiones
– Perspectivas o entidades respecto a las cuales una
organización quiere mantener sus datos organizados (p.ej.
tiempo, localización, clientes, proveedores)
• Miembros
– Nombres o identificadores que marcan una posición
dentro de la dimensión. Ejemplos: Meses, trimestres y
años son miembros de la dimensión tiempo. Ciudades,
regiones y países son miembros de la dimensión
localización.

Prof. Víctor Valenzuela Ruz 21
Dimensiones
• Se utilizan como parámetros para los análisis OLAP

• Las dimensiones habituales son:

Dimensión Miembro
Tiempo Meses, Trimestre, Años
Geografía País, Región, Ciudad
Cliente Id Cliente
Vendedor Id Vendedor

Prof. Víctor Valenzuela Ruz 22
Dimensiones

Prof. Víctor Valenzuela Ruz 23
Dimensión Tiempo
• En un Datawarehouse, la dimensión Tiempo es
obligatoria, y la definición de granularidad y jerarquía de
la misma depende de la dinámica del negocio que se esté
analizando.
• Toda la información dentro del DW, como ya se ha
explicado, posee su propio sello de tiempo que
determina la ocurrencia y ubicación con elementos en
iguales condiciones, representando de esta manera
diferentes versiones de una misma situación.
• Si bien, el lenguaje SQL ofrece funciones del tipo DATE,
en la dimensión Tiempo, se modelan y presentan
atributos temporales que no pueden calcularse en SQL,
lo cual le añade una ventaja más.

Prof. Víctor Valenzuela Ruz 24
Dimensión Tiempo
Ejemplo:

Prof. Víctor Valenzuela Ruz 25
Dimensión Tiempo
• Vamos a explicarla campo por campo.
– CLAVE_TIEMPO: es un número entero que hará las veces de clave
subrogada en la tabla de hechos. Es un número secuencial que se
autoincrementa.
– FECHA: con formato date es una fecha. En nuestro caso,
especificaremos la hora pero no es necesario en principio en el análisis.
– DIA_DE_SEMANA: es una cadena de texto que incluye los valores
“Lunes”, “Martes”, etc
– DIA_DE_MES: número entero que pertenece al rango ( 1, 31)
– DIA_TOTAL: el número de día dentro del total de días del año.
– SEMANA_AÑO: número entero que representa la semana dentro del
año.
– MES: entero para indicar el mes (1, 12)
– MES_TOTAL: entero para indicar el número de mes dentro del total de
meses en el DW.
– TRIMESTRE: número entero del rango (1, 4)
– ESTACIÓN: cadena de caracteres, con valores “Primavera”, “Verano”,
“Otoño” e “Invierno”.
Prof. Víctor Valenzuela Ruz 26
Cubos de Datos
Los datos en un Datawarehouse se modelan en data
cubes (“cubos de datos” sería su traducción literal),
estructuras multidimensionales (hipercubos, en
concreto).

Prof. Víctor Valenzuela Ruz 27
Cubos de Datos
• Las operaciones más comunes son:

– Roll up: incremento en el nivel de agregación de los datos.


– Drill down: incremento en el nivel de detalle, opuesto a roll
up.
– Slice: reducción de la dimensionalidad de los datos
mediante selección
– Dice: reducción de la dimensionalidad de los datos
mediante proyección.
– Pivotaje o rotación: reorientación de la visión
multidimensional de los datos.

Prof. Víctor Valenzuela Ruz 28
Jerarquías
• Los miembros de las dimensiones se suelen organizar 
en forma de jerarquías. 

Prof. Víctor Valenzuela Ruz 29
Jerarquías
• Una jerarquía representa una relación lógica entre dos o
más atributos dentro de una misma dimensión.
• Una relación representa la forma en que dos atributos
interactúan dentro de una jerarquía.
• Las jerarquías poseen las siguientes características:
– Pueden existir varias en una misma dimensión.
– Están compuestas por dos o más niveles.
– Se tiene una relación “1‐n” entre atributos consecutivos de un
nivel superior y uno inferior.
• La principal ventaja de manejar jerarquías, reside en
poder analizar los datos desde su nivel más general al
más detallado y viceversa.

Prof. Víctor Valenzuela Ruz 30
Jerarquía de la Dimensión Tiempo

Prof. Víctor Valenzuela Ruz 31
Granularidad
• La granularidad es el nivel de detalle en que se almacena
la información. En Data Warehouse, no sólo existe
granularidad para las tablas de hechos (Fact's), también
existe granularidad en las dimensiones.
• Por ejemplo: 
– Datos de ventas o compras de  una empresa, pueden registrarse 
día a día
– Datos pertinentes a pagos de sueldos o cuotas de socios, podrán 
almacenarse a nivel de mes.

• A mayor nivel de detalle, mayor posibilidad analítica, ya 
que los mismos podrán ser resumidos o sumarizados.
• Los datos con granularidad fina (nivel de detalle) podrán 
ser resumidos hasta obtener una granularidad media o 
gruesa. No sucede lo mismo en sentido contrario.

Prof. Víctor Valenzuela Ruz 32
Hechos
• Hechos son colecciones de datos relacionados
compuestas por medidas y un contexto.

– Las dimensiones determinan el contexto de los hechos.


– Cada hecho particular está asociado a un miembro de cada
dimensión.

• Permite las evaluación principal de los indicadores


del modelo de Inteligencia de Negocios.

Prof. Víctor Valenzuela Ruz 33
Medidas
• Medidas son atributos numéricos asociados a los
hechos (lo que realmente se mide).

• Ejemplos: Volumen de las ventas, coste asociado a


un producto, número de transacciones efectuadas,
porcentaje de beneficios.

• Las medidas candidatas son los datos numéricos,


pero no cada atributo numérico es una medida
candidata.

Prof. Víctor Valenzuela Ruz 34
Medidas 
• Es un atributo numérico de un hecho que representa
la performance o comportamiento del negocio
relativo a la dimensión.

• Ejemplos:
– Ventas en $$
– Cantidad de productos
– Total de transacciones
– Cantidad de pacientes admitidos
– Llamadas efectuadas.
– ImporteTotal = precioProducto * cantidadVendida
– Rentabilidad = utilidad / PN
– CantidadVentas = cantidad
– PromedioGeneral = AVG(notasFinales)

Prof. Víctor Valenzuela Ruz 35
Medidas
• Las medidas pueden clasificarse en:
Naturales.
– Son aquellas que se obtiene por agregación de los datos
originales.
• Suma: suma los valores de las columnas
• Cuenta: conteo de los valores
• Mínima: valor mínimo
• Máxima: valor máximo
• Cuenta de Distintos: valores diferentes
Calculadas
– Si se derivan de una medida natural.
• Cálculos Matemáticos
• Expresiones condicionales
• Alertas
Prof. Víctor Valenzuela Ruz 36
Medidas Calculadas
• Los miembros calculados son miembros de una dimensión o un
grupo de medida que se definen según una combinación de
datos del cubo, operadores aritméticos, números y funciones.

• Las definiciones de miembros calculados se almacenan en


cubos pero sus valores se calculan en el momento de la
consulta.
Prof. Víctor Valenzuela Ruz 37
Medidas Calculadas

Prof. Víctor Valenzuela Ruz 38
Tablas de Hechos
5
Dimensiones
• Las tablas de hechos contienen las 
dimensiones y las medidas de los 
hechos.

• Los hechos o medidas son los valores de 
datos que se analizan (son numéricos). 

• La tabla de hechos tiene una compuesta 
por las claves primarias de las tablas de 
dimensiones relacionadas a este. Medidas o
hechos

Prof. Víctor Valenzuela Ruz 39
Tabla de dimensiones
6

• Definen la organización lógica de los datos.

• Tiene una PK (única) y columnas de referencia:
– Clave principal (PK) o identificador único.
– Clave foráneas.
– Datos de referencia primarios (identifican la dimensión)
– Datos de referencia secundarios (complementan la descripción).

• No siempre la PK del OLTP, corresponde con la PK de la 
tabla de dimensión relacionada.

Prof. Víctor Valenzuela Ruz 40
Construcción de un Modelo Dimensional
Etapas en la construcción de un modelo dimensional:
Requerimientos
0 del usuario

Construcción Armado de la
Definición de
de las Tabla de
las Medidas
2 Dimensiones 3 Hechos 4

Decidir la
granularidad
1

Prof. Víctor Valenzuela Ruz 41
Requerimientos del Usuario 0

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X

Prof. Víctor Valenzuela Ruz 42
Decidir la granularidad
1

• La granularidad:
– Es el nivel de detalle al que se desea almacenar información 
sobre la actividad a modelar.
– Define el nivel atómico de datos en el almacén de datos.
– Determina el significado de las tuplas de la tabla de hechos.
– Determina las dimensiones básicas del esquema.

• Por ejemplo en la dimensión Sucursal:

Prof. Víctor Valenzuela Ruz 43
Decidir la granularidad
1

• Ejemplo de la dimensión fecha. Se desea los datos por:
– Información anual
– Información semestral
– Información trimestral + granularidad
– Información mensual. .... + detalle
– Información semanal
– Información diaria
– Transacción en el OLTP

Prof. Víctor Valenzuela Ruz 44
Construcción de las dimensiones
2

• Identificar las dimensiones que caracterizan el proceso


al nivel de detalle (gránulo) que se ha elegido.
• De cada dimensión se debe decidir los atributos
(propiedades) relevantes para el análisis de la actividad.
• Entre los atributos de una dimensión existen jerarquías
naturales que deben ser identificadas (día‐mes‐año)

– Tiempo. Cuándo se produce la actividad
– Sucursal. Donde está ubicado el almacén
– Vendedor. Quién ha vendido
– Cliente. Quién es el destinatario de la actividad
– Producto. Cuál es el objeto de la actividad

Prof. Víctor Valenzuela Ruz 45
Dimensión Tiempo Dimensión Sucursal Dimensión Vendedor 2
* Año * Sucursal * Sucursal
** Semestre ** Tipo Sucursal ** Sección Dimensión Cliente
*** Trimestre *** País *** Vendedor
**** Mes **** Provincia * País
***** Ciudad ** Provincia
***** Día
*** Ciudad
**** Razón Social

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
2

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Fact_Ventas Tabla de 3
ID_Tiempo Hechos
ID_Producto
ID_Cliente
ID_Vendedor
ID_Sucursal

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Definición de las medidas 4

Fact_Ventas Fact_Ventas

ID_Tiempo ID_Tiempo
ID_Producto ID_Producto
ID_Cliente ID_Cliente
ID_Vendedor ID_Vendedor
ID_Sucursal _
ID_Sucursal
Ventas_Importe
Ventas_Costo
Ventas_Unidades

Medidas
Dimensión Tiempo Dimensión Sucursal
Dimensión Vendedor
* Año * Sucursal
** Semestre ** Tipo Sucursal * Sucursal
*** Trimestre *** País ** Sección
**** Mes **** Provincia *** Vendedor
***** Ciudad
***** Día

Fact_Ventas
Fact_Ventas

ID_Tiempo
ID_Fecha
ID_Producto
ID_Producto
ID_Cliente
ID_Cliente
ID_Vendedor
ID_Vendedor
ID_Sucursal
Ventas_Importe
Ventas_Costo
Ventas_Unidades

Dimensión Cliente

* País
** Provincia
*** Ciudad
**** Razón Social
Tipos de OLAP.

• OLAP Relacional (ROLAP)
• OLAP Multidimensional (MOLAP)
• OLAP Híbrida (HOLAP)

Prof. Víctor Valenzuela Ruz 51
Esquema Físico
Existe tres formas de almacenar los datos:
AGREGACIONES
Y DATOS

Vista de
Base de Datos Usuario
Relacional
Base de Datos
Multidimensional

MOLAP - Multidimensional OLAP.


AGREGACIONES DATOS AGREGACIONES
Y DATOS

Vista de
Base de Datos Usuario
Vista de Relacional Base de Datos
Base de Datos Usuario Multidimensional
Relacional Base de Datos
Multidimensional

ROLAP - Relacional OLAP. HOLAP - OLAP híbrido


Prof. Víctor Valenzuela Ruz 52
MOLAP

• En un sistema MOLAP (OLAP multidimensional) los


datos se encuentran almacenados en una estructura
multidimensional.

• Para optimizar los tiempos de respuesta, el resumen de


la información es usualmente calculado por
adelantado. Estos valores pre‐calculados o
agregaciones son la base de las ganancias de
desempeño de este sistema.

• Algunos sistemas utilizan técnicas de compresión de


datos para disminuir el espacio de almacenamiento en
disco debido a los valores pre‐calculados.
Prof. Víctor Valenzuela Ruz 53
ROLAP

• ROLAP (OLAP Relacional) es un sistema en el cual los


datos se encuentran almacenados en una base de
datos relacional.

• Típicamente, los datos son detallados, evitando las


agregaciones y las tablas se encuentran normalizadas.

Prof. Víctor Valenzuela Ruz 54
HOLAP

• Un sistema HOLAP (OLAP Híbrido) mantiene los


registros detallados en la base de datos relacional,
mientras que los datos resumidos o agregados se
almacenan en una base de datos multidimensional
separada.

• Este método de almacenamiento es una combinación


de los dos anteriores e intenta rescatar lo mejor de
cada uno.

Prof. Víctor Valenzuela Ruz 55
Proceso ETL

Prof. Víctor Valenzuela Ruz 56
Transformación de la Información 
• Los datos que alimentan a un sistema DW provienen
de diferentes fuentes.

• Estas fuentes son los distintos sistemas


operacionales que la empresa posee, generalmente
ni son homogéneos entre sí ni concuerdan
exactamente con lo que se necesita, por lo que será
necesario realizar todas las adaptaciones
pertinentes.

Prof. Víctor Valenzuela Ruz 57
Extraer
• La primera parte del proceso ETL consiste en extraer los datos
desde los sistemas de origen.

• La mayoría de los proyectos 
de almacenamiento de datos 
fusionan datos provenientes 
de diferentes sistemas de 
origen. 

• Cada sistema separado puede usar una organización diferente


de los datos o formatos distintos.

• La extracción convierte los datos a un formato preparado


para iniciar el proceso de transformación.

Prof. Víctor Valenzuela Ruz 58
Extraer 
• Una parte intrínseca del proceso de extracción es la de
analizar los datos extraídos, de lo que resulta un
chequeo que verifica si los datos cumplen la pauta o
estructura que se esperaba. De no ser así los datos son
rechazados.
• Un requerimiento importante que se debe exigir a la
tarea de extracción es que ésta cause un impacto mínimo
en el sistema origen. Si los datos a extraer son muchos, el
sistema de origen se podría ralentizar e incluso colapsar,
provocando que éste no pueda utilizarse con normalidad
para su uso cotidiano. Por esta razón, en sistemas
grandes las operaciones de extracción suelen
programarse en horarios o días donde este impacto sea
nulo o mínimo.

Prof. Víctor Valenzuela Ruz 59
Transformar
• La fase de transformación aplica una serie de reglas
de negocio o funciones sobre los datos extraídos
para convertirlos en datos que serán cargados.
• Algunas fuentes de datos requerirán alguna pequeña
manipulación de los datos.

Prof. Víctor Valenzuela Ruz 60
Transformar
• La aplicación de cualquier forma, simple o compleja,
de validación de datos, y la consiguiente aplicación
de la acción que en cada caso se requiera:

– Datos OK: Entregar datos a la siguiente etapa (Carga).

– Datos erróneos: Ejecutar políticas de tratamiento de


excepciones (por ejemplo, rechazar el registro completo,
dar al campo erróneo un valor nulo).

Prof. Víctor Valenzuela Ruz 61
Transformación de la Información 

Prof. Víctor Valenzuela Ruz 62
Transformación de la Información 
• La transformación de los datos son procesos para
sumarizar y realizar cambios en los datos
operacionales.

• Ejecutar cualquier función que sea aplicada sobre los


datos para transformarlos, por ejemplo:
– Cambio de Formatos: Realizar una conversión en la
presentación de los datos.
– Generación de códigos: Generar identificadores, aplicando
funciones sobre otros datos existentes.
– Cálculos: Calcular un nuevo dato a partir de otros datos
base.

Prof. Víctor Valenzuela Ruz 63
Carga
• La fase de carga es el momento en el cual los datos
de la fase anterior (transformación) son cargados en
el sistema de destino.
• Dependiendo de los requerimientos de la
organización, este proceso puede abarcar una amplia
variedad de acciones diferentes.
• En algunas bases de datos se sobrescribe la
información antigua con nuevos datos. Los data
warehouse mantienen un historial de los registros de
manera que se pueda hacer una auditoría de los
mismos y disponer de un rastro de toda la historia de
un valor a lo largo del tiempo.

Prof. Víctor Valenzuela Ruz 64
Carga
• Existen dos formas básicas de desarrollar el proceso
de carga:
– Acumulación simple
– Rolling

Prof. Víctor Valenzuela Ruz 65
Acumulación Simple
• Es la más sencilla y común, consiste en realizar un
resumen de todas las transacciones comprendidas
en el período de tiempo seleccionado y transportar
el resultado como una única transacción hacia el
data warehouse, almacenando un valor calculado
que consistirá típicamente en un sumatorio o un
promedio de la magnitud considerada.

Prof. Víctor Valenzuela Ruz 66
Rolling
• El proceso de Rolling por su parte, se aplica en los
casos en que se opta por mantener varios niveles de
granularidad (jerarquías).

• Para ello se almacena información resumida a


distintos niveles, correspondientes a distintas
agrupaciones de la unidad de tiempo o diferentes
niveles jerárquicos en alguna o varias de las
dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales
mensuales, etc.).
Prof. Víctor Valenzuela Ruz 67
Consideraciones a tener presente 
• La fase de carga interactúa directamente con la base
de datos de destino

• Aspectos a tener presente:


– La carga puede consumir mucho tiempo.
– En la carga inicial del DW se mueven grandes volúmenes
de datos.
– En los mantenimientos periódicos del DW se mueven
pequeños volúmenes de datos.
– La frecuencia del mantenimiento periódico está
determinada por el gránulo del DW y los requisitos de los
usuarios.

Prof. Víctor Valenzuela Ruz 68

Você também pode gostar