Você está na página 1de 16

DATA WAREHOUSE

Data Warehouse

Introduccin
Debido a que para llevar a cabo BI, es necesario gestionar datos guardados en
diversos formatos, fuentes y tipos, para luego depurarlos e integrarlos, adems
de almacenarlos en un solo destino o base de datos que permita su posterior
anlisis y exploracin, es imperativo y de vital importancia contar con un
proceso que satisfaga todas estas necesidades. Este proceso se denomina Data
Warehouse (DW).
Una de las principales motivaciones de este proceso es brindar herramientas
que den soporte a la toma de decisiones de negocio concretas, de forma
sencilla y rpida. Los sistemas de informacin tradicionales que dan soporte a
procesos

transaccionales

no

almacenan

la

informacin

en

estructuras

adecuadas para lograr estos objetivos en forma eficiente.


La ausencia de informacin histrica es una de las limitaciones ms notorias en
los sistemas transaccionales dado que los datos almacenados en estos
sistemas estn diseados para llevar la informacin de una institucin al da
pero no permiten contrastar claramente la situacin actual con la de meses o
aos atrs.
Otro aspecto negativo de los sistemas transaccionales son los largos tiempos
de respuesta, ya que las consultas de datos complejas usualmente implican
uniones de tablas operacionales de gran tamao, lo cual se convierte en
incmodos retrasos que dificultan la fluidez del trabajo. Tambin se encuentra
en estos sistemas una gran rigidez a la hora de extraer datos, de manera que
el usuario muchas veces debe limitarse a los informes predefinidos que se
configuraron en el momento de la implantacin, y que no siempre responden a
sus verdaderas necesidades, no pudiendo realizar reportes configurables en
funcin de ciertos parmetros.

Marco conceptual
Los sistemas de DW apuntan a la construccin y mantenimiento de estructuras
destinadas al anlisis de datos, transformando stos en informacin y la
informacin en conocimiento. los sistemas de procesamiento transaccionales
en lnea (OLTP) usualmente no mantienen la informacin histrica requerida
Pgina 2 de 16

Data Warehouse
para la toma de decisiones en una organizacin. Las consultas gerenciales con
informacin resumida y desde distintas vistas, demandan el procesamiento de
importantes volmenes de datos, requiriendo recursos y decrementando
notablemente el rendimiento de los sistemas operacionales.
Otro aspecto a tener en cuenta es la capacidad de las soluciones de BI es de
lograr integrar datos desde distintas fuentes muy diversas.
DW surge como una necesidad de las BD al no poder dar respuesta a los
requerimientos de BI, si bien fue Edgard Codd quien plantea la necesidad del
mismo, fue recin con Ralph Kimball y William Inmon quienes definieron
caractersticas y metodologas para su construccin, con una serie de pautas
claramente estipuladas que permiten el auge del DW. Inmon lo define como
orientado al sujeto, integrado, de tiempo variante y no voltil, todo con un
enfoque Topdown mientras que Kimball lo caracteriza por centrarlo en el
negocio, construir una infraestructura de informacin, realizar entregas
incrementales y brindar soluciones completa, usando para ello un enfoque
Bottom-up.

El

trabajo

de

ambos

autores

es

recomendable

usar

en

determinados casos segn el tipo de problema que se enfrente.

Data Warehouse
Un DW es una base de datos corporativa de apoyo a la toma de decisiones que
se caracteriza por integrar datos crudos de una o ms fuentes distintas,
depurando y almacenando la informacin necesaria de forma organizada para
luego procesarla, permitiendo su anlisis desde mltiples perspectivas y con
grandes velocidades de respuesta. Permite a los directivos que lo utilizan, tener
una visin ms completa e integral de los procesos dado que el resultado de su
implementacin es conocimiento acerca del funcionamiento de la organizacin.
La creacin de un DW representa en la mayora de las ocasiones uno de los
primeros pasos, desde el punto de vista tcnico, para implantar una solucin
completa y fiable de BI. Al no generar datos por s mismos se dice que este tipo
de sistemas son fuentes secundarias de informacin, alimentados desde
fuentes de datos externas.
Una de las definiciones ms famosas sobre DW, es la de William Harvey Inmon,
quien define: Un Data Warehouse es una coleccin de datos orientada al
Pgina 3 de 16

Data Warehouse
negocio, integrada, variante en el tiempo y no
voltil para el soporte del proceso de toma de
decisiones de la gerencia. Debido a que W. H.
Inmon, es reconocido mundialmente como el
padre

del

caractersticas

DW,
ms

la

explicacin

sobresalientes

de
de

las
este

concepto se bas en su definicin.

Caracteristicas

Orientada al Negocio: La primera caracterstica del DW, es que la


informacin se clasifica en base a los aspectos que son de inters para la
organizacin. Esta clasificacin afecta el diseo y la implementacin de
los datos encontrados en el almacn de datos, debido a que la
estructura del mismo difiere considerablemente a la de los clsicos
procesos operacionales orientados a las aplicaciones.

Integrada: Los datos cargados en el DW pueden provenir de diferentes


fuentes y son integrados para dar una visin global coherente. Esta
caracterstica refiere al hecho de que la informacin se obtiene a partir
de diferentes BD Operacionales, las cuales pueden no tener siempre la
misma estructura y encontrarse sobre distintos motores de BD (SQL
Server, Oracle, MySql, PostgreSQL, etc). La integracin implica que todos
los datos de diversas fuentes que son producidos por distintos
departamentos, secciones y aplicaciones, tanto internos como externos,
deben ser consolidados en una instancia antes de ser agregados al DW,
y deben por lo tanto ser analizados para asegurar su calidad y limpieza,
entre otras cosas y cuenta con diversas tcnicas y subprocesos para
llevar a cabo sus tareas. Una de estas tcnicas son los procesos ETL:
Extraccin, Transformacin y Carga de Datos.

Variante en el Tiempo: El DW se carga con los distintos valores que


toma una variable en el tiempo para permitir comparaciones, lo que
implica que todos los datos deben estar asociados con un perodo de
tiempo especfico. Esto contribuye a una de las principales ventajas del
Pgina 4 de 16

Data Warehouse
almacn de datos: los datos son almacenados junto a sus respectivos
histricos. Esta cualidad que no se encuentra en fuentes de datos
operacionales, garantiza poder desarrollar anlisis de la dinmica de la
informacin, pues ella es procesada como una serie de instantneas,
cada una representando un periodo de tiempo. Es decir, que gracias al
sello de tiempo se podr tener acceso a diferentes versiones de la
misma informacin. Es elemental aclarar, que el almacenamiento de
datos histricos, es lo que permite al DW desarrollar pronsticos y
anlisis de tendencias y patrones, a partir de una base estadstica de
informacin.

No voltil: Los datos son estables en el DW,se agregan y modifican


datos, pero los datos existentes no son removidos. La informacin es til
para el anlisis y la toma de decisiones solo cuando es estable. Los datos
operacionales varan momento a momento, en cambio, los datos una vez
que entran en el DW no cambian. La actualizacin, o sea, insertar,
eliminar y modificar, se hace de forma muy habitual en el ambiente
operacional sobre una base, registro por registro, en cambio en el
depsito de datos la manipulacin bsica de los datos es mucho ms
simple, debido a que solo existen dos tipos de operaciones: la carga de
datos y el acceso a los mismos.

Diferencias de un Data Warehouse con un sistema


tradicional

SISTEMA TRADICIONAL

DATA WAREHOUSE

Predomina la actualizacin

Predomina la consulta

La actividad ms importante es de
tipo operativo (da a da)

La actividad ms importante es el
anlisis y la decisin estratgica

Pgina 5 de 16

Data Warehouse

Predomina el proceso puntual

Predomina el proceso masivo

Mayor importancia a la estabilidad

Mayor importancia al dinamismo

Datos en general desagregados

Datos en distintos niveles de


detalle y agregacin

Importancia del dato actual

Importancia del dato histrico

Importante del tiempo de


respuesta de la transaccin
instantnea

Importancia de la respuesta
masiva

Estructura relacional

Visin multidimensional

Usuarios de perfiles medios o


bajos

Usuarios de perfiles altos

Explotacin de la informacin
relacionada con la operativa de
cada aplicacin

Explotacin de toda la informacin


interna y externa relacionada con
el negocio

Ventajas

Transforma datos orientados a las aplicaciones en informacin orientada

a la toma de decisiones.
Integra y consolida diferentes fuentes de datos (internas y/o externas) y
departamentos empresariales, que anteriormente formaban islas, en una
nica plataforma slida y centralizada.

Pgina 6 de 16

Data Warehouse

Provee la capacidad de analizar y explotar las diferentes reas de trabajo

y de realizar un anlisis inmediato de las mismas.


Permite reaccionar rpidamente a los cambios del mercado.
Aumenta la competitividad en el mercado.
Elimina la produccin y el procesamiento de datos que no son utilizados

ni necesarios, producto de aplicaciones mal diseadas o ya no utilizadas.


Mejora la entrega de informacin, es decir, informacin completa,
correcta, consis consistente, oportuna y accesible. Informacin que los

usuarios necesitan, en el momento adecuado y en el formato apropiado.


Aumento de la eficiencia de los encargados de tomar decisiones.
Permite la toma de decisiones estratgicas y tcticas.

Desventajas

Requiere una gran inversin, debido a que su correcta construccin no


es tarea sencilla y consume muchos recursos, adems, su misma
implementacin implica desde la adquisicin de herramientas de

consulta y anlisis, hasta la capacitacin de los usuarios.


Existe resistencia al cambio por parte de los usuarios.
Los beneficios del almacn de datos son apreciados en el mediano y
largo plazo. Este punto deriva del anterior, y bsicamente se refiere a
que no todos los usuarios confiarn en el DW en una primera instancia,
pero s lo harn una vez que comprueben su efectividad y ventajas.

Adems, su correcta utilizacin surge de la propia experiencia.


Si se incluyen datos propios y confidenciales de clientes, proveedores,
etc, el depsito de datos atentar contra la privacidad de los mismos, ya

que cualquier usuario podr tener acceso a ellos.


Incremento continuo de los requerimientos de los usuarios.
Subestimacin de las capacidades que puede brindar la correcta
utilizacin del DW y de las herramientas de BI en general.

Arquitectura de los Data Warehouse


A travs del siguiente grfico se explicitar la estructura del Data Warehousing:

Pgina 7 de 16

Data Warehouse

Tal y como se puede apreciar, el ambiente esta formado por diversos


elementos que interactan entre s y que cumplen una funcin especfica
dentro del sistema. Por ello es que al abordar la exposicin de cada elemento
se lo har en forma ordenada y teniendo en cuenta su relacin con las dems
partes.

Fuentes de datos: Contiene las distintas fuentes que se utilizaron en la


obtencin de los datos que alimentan el sistema. En el grfico, bases de
datos relacionales (Oracle y PostgreSQL), sin embargo, adems se
pueden tener desde otro tipo de fuentes como por ejemplo base de
datos NoSQL plataformas de bsqueda, planillas de calculo, sistemas de
archivos distribuidos, archivos planos de texto, entre otros.
Representa toda aquella informacin transaccional que genera la
empresa en su accionar diario, adems, de las fuentes externas con las
que puede llegar a disponer. Estas fuentes de informacin, son de
caractersticas muy dismiles entre s, en formato, procedencia, funcin,
etc.

El rea de ETL: Es la seccin donde se agrupan una serie de subprocesos que llevan a cabo tareas relacionadas con la extraccin,
manipulacin,

control,

integracin,

limpieza

de

datos,

carga

actualizacin del DW. Es decir, todas las tareas que se realizan desde
que se toman los datos de las diferentes fuentes hasta que se cargan en
el sistema para su utilizacin. En este sub-sistema se mantienen los
datos obtenidos en una base de datos temporal que es usada para todos
los procesos que ejecutan las tareas antes mencionadas.
Pgina 8 de 16

Data Warehouse
A continuacin, se detallar cada una de estas etapas, se expondr cul
es el proceso que llevan a cabo los ETL y se enumerarn cules son sus
principales tareas.

Extraccin: Esta fase de extraccin convierte los datos a un formato


diseado para el proceso de transformacin, analizando los mismos y
rechazndolos si correspondiera. Debe disearse cuidadosamente ya
que el volumen de datos puede ocasionar que el sistema operacional
tenga una sobrecarga y los usuarios del personal operativo no
puedan trabajar, es por ello que esta tarea se programa en horarios

de poca o ninguna actividad.


Transformacin: transformar los datos usando herramientas ETL
significa aplicar funciones a los datos extrados con el fin de
convertirlos a un formato til para su carga. A estas funciones
tambin se les llama reglas de negocio ya que describe las
definiciones de la informacin en la organizacin.
Esta transformacin puede incluir manipulaciones sobre las mismas
de distintos tipos, tales como juntar columnas o desagregarlas,
aplicar funciones de agrupamiento (realizar conteos, sumarizaciones,
promedios, etc), generacin de claves, unificacin de mltiples
fuentes, transformar valores de los campos, etc.

Carga: en este proceso los datos ya transformados de la etapa


anterior se cargan en la nueva BD del DW. Dependiendo de cmo se
disee esta fase se puede modificar la informacin antigua o agregar
solamente los nuevos registros.
Existen incluso reglamentaciones legales de esta fase, ya que la
modificacin de registros ya existentes no es permitida porque las
decisiones gerenciales se basan en las mismas y una modificacin en
ellos puede provocar cambios en el rumbo de la organizacin. Hay
dos formas de desarrollar este proceso, por acumulacin simple
que consiste en realizar funciones de agrupamiento y guardar esos
resultados en la BD del DW o realizar un rolling en donde se opta
por

mantener

un

cierto

nivel

de

granularidad,

manteniendo

informacin resumida por niveles jerrquicos en una o ms


dimensiones del DW.
Pgina 9 de 16

Data Warehouse

El sub-sistema OLAP: Es el ncleo del sistema que corresponde al


repositorio central de informacin donde residen los datos actualmente
utilizados. En el DW se almacenan los datos operacionales en
estructuras multidimensionales que optimizan su acceso para las
consultas y que son muy flexibles, adems de contener la metadata de
la informacin almacenada que ofrece informacin descriptiva sobre el
contexto, la calidad, condicin y caractersticas de los datos. En esta
rea se incluye el motor de cubos multidimensional que es el encargado
de ejecutar las consultas realizadas por los componentes externos.
Cubos OLAP: Los cubos o hipercubos OLAP son estructuras que
representan los datos como una matriz en la cual sus ejes
corresponden a los criterios de anlisis y en los cruces se encuentran
los valores a analizar. Estos cubos constan de dimensiones y
medidas. Las dimensiones estn relacionadas con los criterios de
anlisis de los datos, son variables independientes, representan los
ejes del cubo y estn organizadas en jerarquas. Las medidas son los
valores o indicadores a analizar, se corresponden a datos asociados a
relaciones

entre

los

objetos

del

problema,

son

variables

dependientes y se encuentran en la interseccin de las dimensiones.

La Presentacin: Es el rea correspondiente a la interaccin con el


usuario, cuya finalidad es mostrar los datos almacenados de forma til y
transparente a travs de las distintas herramientas. Este sub-sistema se
comunica directamente con el servidor de cubos a travs de consultas,
las cuales retornan la informacin requerida donde sta es transformada
y presentada para la visualizacin final. Los reportes requeridos en el
proyecto se encuentran en esta rea. Por ltimo, en el sub-sistema de
administracin se encuentran las herramientas administrativas de la
plataforma. Gestin de usuarios, administracin de conexiones de
fuentes de datos, herramientas de limpieza de los diferentes cachs y el
sistema de archivos interno del DW se encuentran en esta rea.

Metodologa para la construccin de un DW


Pgina 10 de 16

Data Warehouse
Existen varias metodologas para la construccin de DW en el mercado actual,
cada empresa de software de BI intenta imponer su propia metodologa por el
beneficio que implica definir un estndar del mismo, que otros proveedores se
vean forzados a usar.
Solo analizaremos la Metodologa de Hefesto a grandes rasgos, debido a que el
el proximo Practico ondaremas ms en la Metodologa.

Introduccin
HEFESTO es una metodologa propia, cuya propuesta est fundamentada en
una muy amplia investigacin, comparacin de metodologas existentes,
experiencias propias en procesos de confeccin de almacenes de datos. Cabe
destacar que HEFESTO est en continua evolucin, y se han tenido en cuenta,
como gran valor agregado, todos los feedbacks que han aportado quienes han
utilizado esta metodologa en diversos pases y con diversos fines.
La construccin e implementacin de un DW puede adaptarse muy bien a
cualquier ciclo de vida de desarrollo de software, con la salvedad de que para
algunas fases en particular, las acciones que se han de realizar sern muy
diferentes. Lo que se debe tener muy en cuenta, es no entrar en la utilizacin
de metodologas que requieran fases extensas de reunin de requerimientos y
anlisis, fases de desarrollo monoltico que conlleve demasiado tiempo y fases
de despliegue muy largas. Lo que se busca, es entregar una primera
implementacin que satisfaga una parte de las necesidades, para demostrar
las ventajas del DW y motivar a los usuarios.

Descripcin
La metodologa HEFESTO puede resumirse a travs del siguiente grfico:
1.- Anlisis de requerimientos: Como se puede apreciar, se
comienza recolectando las necesidades de informacin de los
usuarios y se obtienen las preguntas claves del negocio. Luego, se
deben identificar los indicadores resultantes de los interrogativos y
sus respectivas perspectivas de anlisis, mediante las cuales se
construir el modelo conceptual de datos del DW.

Pgina 11 de 16

Data Warehouse
2.- Anlisis de los OLTP: Para determinar cmo se
construirn

los

correspondencias

indicadores,
con

los

datos

sealar
fuentes

las
para

seleccionar los campos de estudio de cada perspectiva.


3.- Modelo Lgico del DW: Una vez hecho esto, se
pasar a la construccin del modelo lgico del depsito,
en donde se definir cul ser el tipo de esquema que
se implementar. Seguidamente, se confeccionarn las
tablas de dimensiones y las tablas de hechos, para
luego efectuar sus respectivas uniones.
4.- Integracin de datos: Por ltimo, utilizando
tcnicas de limpieza y calidad de datos, procesos ETL,
etc, se definirn polticas y estrategias para la Carga Inicial del DW y su
respectiva actualizacin.

Caractersticas
Esta metodologa cuenta con las siguientes caractersticas:

Los objetivos y resultados esperados en cada fase se distinguen

fcilmente y son sencillos de comprender.


Se basa en los requerimientos de los usuarios, por lo cual su estructura
es capaz de adaptarse con facilidad y rapidez ante los cambios en el

negocio.
Reduce la resistencia al cambio, ya que involucra a los usuarios finales
en cada etapa para que tome decisiones respecto al comportamiento y

funciones del DW.


Utiliza modelos conceptuales y lgicos, los cuales son sencillos de

interpretar y analizar.
Es independiente del tipo de ciclo de vida que se emplee para contener

la metodologa.
Es independiente

implementacin.
Es independiente de las estructuras fsicas que contengan el DW y de su

respectiva distribucin.
Cuando se culmina con una fase, los resultados obtenidos se convierten

de

las

herramientas

que

se

en el punto de partida para llevar a cabo el paso siguiente.


Pgina 12 de 16

utilicen

para

su

Data Warehouse

Herramientas para desarrollo de un DW


Pentaho: La plataforma Open Source Pentaho Business Intelligence est
basada en tecnologa Java y con un ambiente de implementacin tambin
basado en Java lo que la hace una herramienta flexible y adaptable a varios
ambientes. La plataforma posee mdulos de reportes, anlisis olap, cuadros de
mando (Dashboards), extraccin de datos (Data Mining), integracin de datos
(ETL), administracin y seguridad. Posee una interfaz de usuario bastante
amigable.
Caractersticas Generales:

Versin: Pentaho BI Suite Community Edition - 3.5.2 Estable , Junio 2010


Licenciamiento: GPL2, LGPL, MPL (Mozilla Public Licence)
Versin Comercial: Pentaho BI Suite Enterprise Edicin (Mayor

cantidad de funcionalidades)
Componentes Principales: ETL, Job Designer, Conectores, Repositorio
Visual, Anlisis OLAP, Metadata, Data Mining, Reporting, Dashboards, BI
Platform, Administration Server.

JasperSoft: La plataforma JasperSoft es un conjunto de herramientas que


componen un sistema de BI en el cual su caracterstica predominante es ser
unificador de datos de distintos orgenes, con capacidades de anlisis de
dichos datos de forma interactiva. Basado en tecnologa Java, est formada por
herramientas

para

generar

informes,

integracin

anlisis

de

datos,

dashboards y herramientas para administracin de la solucin. Posee una


interfaz amigable al usuario.
Caractersticas Generales:

Versin: JasperSoft BI Suite Community - 3.7.0 Estable , Junio 2010


Licenciamiento: GPLv2
Versin Comercial: JasperSoft BI Suite Express Edition, Professional
Edition y Enterprise Edition (Mayor cantidad de funcionalidades)

Pgina 13 de 16

Data Warehouse

Componentes Principales: ETL, Job Designer, Conectores, Repositorio


Visual, Anlisis OLAP, Reporting, Dashboards, BI Platform, Administration
Server.Tecnologa: J2EE, iReport, Liferay.

SpagoBI: La Plataforma SpagoBI es una plataforma de integracin ya que se


construye en torno a un conjunto de herramientas pre existentes. Provee varias
funcionalidades tanto en trminos de anlisis y de gestin de datos como
tambin de administracin y seguridad.
Ofrece soluciones para generacin de informes, anlisis OLAP, minera de
datos, tableros de mando, consultas ad-hoc, KPI(Key Performance Indicators),
integracin de datos, as como tambin gestin para el control de versiones y
la aprobacin de flujos de trabajo de los documentos generados. Permite el uso
de varios motores de anlisis de forma concurrente y a su vez posee consolas
para monitorizar procesos en tiempo real. Es una solucin completa en
trminos de funcionalidades bsicas y totalmente Open Source dado que no
posee versiones comerciales.
Caractersticas Generales:

Versin: SpagoBI Studio - 2.6.0, Junio 2010


Licenciamiento: LGPL (GNU Lesser General Public License)
Versin Comercial: No existe, solo se cobra por Soporte a Usuarios,

Proyectos y Mantenimientos.
Componentes Principales: ETL, Reporting y Ad-Hoc Reporting, Anlisis
OLAP, BI Platform, Administration , Charting, Dashboard, Cockpits
interactivos, GEO/GIS, Data Mining, Query By example, Smart Filters,
Accesible reporting, Consola de monitoreo en tiempo real, Repositorio
Visual, SDK integrado, Dossier Analtico .

Pgina 14 de 16

Data Warehouse

Conclusion
El DW es una herramiente que una empresa necesita para mejorar su eficiencia
en la toma de decisiones y contar con informacin detallada a tal fin. Esto es
vital, ya que es muy importante para procurar una mayor ventaja competitiva
conocer cules son los factores que inciden directamente sobre su rentabilidad,
como as tambin, analizar su relacin con otros factores y sus respectivos por
qu. El DW aportar un gran valor a la empresa que permitir a los usuarios
tener una visin general del negocio y transformar datos operativos en
informacin analtica, enfocada a la toma de decisiones.

Pgina 15 de 16

Data Warehouse

Aportes Bibliograficos
Descarga de Pentaho BI Suite Community Edition (CE)
http://olex.openlogic.com/packages/pentaho#package_detail_tabs
Tutorial para instalar Pentaho
https://www.youtube.com/watch?v=EvDzuR4cX0k
https://www.youtube.com/watch?v=yLKKHsd0fnE
Teoria de DataWarehouse
[1] http://www.dataprix.com/que-es-un-datawarehouse
[2]http://www.stratebi.es/todobi/jun10/Comparativa_OSBI.pdf
[4] http://bievolutivo.com/es/documentation/datawarehouse
[5] http://www.fing.edu.uy/~asabigue/prgrado/2010dw.pdf
[6] http://izquierdas.blogspot.com.ar/
[7] http://gravitar.biz/pentaho/
[8] http://todobi.blogspot.com.ar/2006/05/pentaho-la-solucion-opensource.html
[9] http://www.treikkystem.cl/INGENIERIA%20EN%20TI,BUSSINES
%20INTELLIGENT
[10] http://www.businessintelligence.info/docs/hefesto-v2.pdf

Pgina 16 de 16

Você também pode gostar