Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Warehouse
Introduccin
Debido a que para llevar a cabo BI, es necesario gestionar datos guardados en
diversos formatos, fuentes y tipos, para luego depurarlos e integrarlos, adems
de almacenarlos en un solo destino o base de datos que permita su posterior
anlisis y exploracin, es imperativo y de vital importancia contar con un
proceso que satisfaga todas estas necesidades. Este proceso se denomina Data
Warehouse (DW).
Una de las principales motivaciones de este proceso es brindar herramientas
que den soporte a la toma de decisiones de negocio concretas, de forma
sencilla y rpida. Los sistemas de informacin tradicionales que dan soporte a
procesos
transaccionales
no
almacenan
la
informacin
en
estructuras
Marco conceptual
Los sistemas de DW apuntan a la construccin y mantenimiento de estructuras
destinadas al anlisis de datos, transformando stos en informacin y la
informacin en conocimiento. los sistemas de procesamiento transaccionales
en lnea (OLTP) usualmente no mantienen la informacin histrica requerida
Pgina 2 de 16
Data Warehouse
para la toma de decisiones en una organizacin. Las consultas gerenciales con
informacin resumida y desde distintas vistas, demandan el procesamiento de
importantes volmenes de datos, requiriendo recursos y decrementando
notablemente el rendimiento de los sistemas operacionales.
Otro aspecto a tener en cuenta es la capacidad de las soluciones de BI es de
lograr integrar datos desde distintas fuentes muy diversas.
DW surge como una necesidad de las BD al no poder dar respuesta a los
requerimientos de BI, si bien fue Edgard Codd quien plantea la necesidad del
mismo, fue recin con Ralph Kimball y William Inmon quienes definieron
caractersticas y metodologas para su construccin, con una serie de pautas
claramente estipuladas que permiten el auge del DW. Inmon lo define como
orientado al sujeto, integrado, de tiempo variante y no voltil, todo con un
enfoque Topdown mientras que Kimball lo caracteriza por centrarlo en el
negocio, construir una infraestructura de informacin, realizar entregas
incrementales y brindar soluciones completa, usando para ello un enfoque
Bottom-up.
El
trabajo
de
ambos
autores
es
recomendable
usar
en
Data Warehouse
Un DW es una base de datos corporativa de apoyo a la toma de decisiones que
se caracteriza por integrar datos crudos de una o ms fuentes distintas,
depurando y almacenando la informacin necesaria de forma organizada para
luego procesarla, permitiendo su anlisis desde mltiples perspectivas y con
grandes velocidades de respuesta. Permite a los directivos que lo utilizan, tener
una visin ms completa e integral de los procesos dado que el resultado de su
implementacin es conocimiento acerca del funcionamiento de la organizacin.
La creacin de un DW representa en la mayora de las ocasiones uno de los
primeros pasos, desde el punto de vista tcnico, para implantar una solucin
completa y fiable de BI. Al no generar datos por s mismos se dice que este tipo
de sistemas son fuentes secundarias de informacin, alimentados desde
fuentes de datos externas.
Una de las definiciones ms famosas sobre DW, es la de William Harvey Inmon,
quien define: Un Data Warehouse es una coleccin de datos orientada al
Pgina 3 de 16
Data Warehouse
negocio, integrada, variante en el tiempo y no
voltil para el soporte del proceso de toma de
decisiones de la gerencia. Debido a que W. H.
Inmon, es reconocido mundialmente como el
padre
del
caractersticas
DW,
ms
la
explicacin
sobresalientes
de
de
las
este
Caracteristicas
Data Warehouse
almacn de datos: los datos son almacenados junto a sus respectivos
histricos. Esta cualidad que no se encuentra en fuentes de datos
operacionales, garantiza poder desarrollar anlisis de la dinmica de la
informacin, pues ella es procesada como una serie de instantneas,
cada una representando un periodo de tiempo. Es decir, que gracias al
sello de tiempo se podr tener acceso a diferentes versiones de la
misma informacin. Es elemental aclarar, que el almacenamiento de
datos histricos, es lo que permite al DW desarrollar pronsticos y
anlisis de tendencias y patrones, a partir de una base estadstica de
informacin.
SISTEMA TRADICIONAL
DATA WAREHOUSE
Predomina la actualizacin
Predomina la consulta
La actividad ms importante es de
tipo operativo (da a da)
La actividad ms importante es el
anlisis y la decisin estratgica
Pgina 5 de 16
Data Warehouse
Importancia de la respuesta
masiva
Estructura relacional
Visin multidimensional
Explotacin de la informacin
relacionada con la operativa de
cada aplicacin
Ventajas
a la toma de decisiones.
Integra y consolida diferentes fuentes de datos (internas y/o externas) y
departamentos empresariales, que anteriormente formaban islas, en una
nica plataforma slida y centralizada.
Pgina 6 de 16
Data Warehouse
Desventajas
Pgina 7 de 16
Data Warehouse
El rea de ETL: Es la seccin donde se agrupan una serie de subprocesos que llevan a cabo tareas relacionadas con la extraccin,
manipulacin,
control,
integracin,
limpieza
de
datos,
carga
actualizacin del DW. Es decir, todas las tareas que se realizan desde
que se toman los datos de las diferentes fuentes hasta que se cargan en
el sistema para su utilizacin. En este sub-sistema se mantienen los
datos obtenidos en una base de datos temporal que es usada para todos
los procesos que ejecutan las tareas antes mencionadas.
Pgina 8 de 16
Data Warehouse
A continuacin, se detallar cada una de estas etapas, se expondr cul
es el proceso que llevan a cabo los ETL y se enumerarn cules son sus
principales tareas.
mantener
un
cierto
nivel
de
granularidad,
manteniendo
Data Warehouse
entre
los
objetos
del
problema,
son
variables
Data Warehouse
Existen varias metodologas para la construccin de DW en el mercado actual,
cada empresa de software de BI intenta imponer su propia metodologa por el
beneficio que implica definir un estndar del mismo, que otros proveedores se
vean forzados a usar.
Solo analizaremos la Metodologa de Hefesto a grandes rasgos, debido a que el
el proximo Practico ondaremas ms en la Metodologa.
Introduccin
HEFESTO es una metodologa propia, cuya propuesta est fundamentada en
una muy amplia investigacin, comparacin de metodologas existentes,
experiencias propias en procesos de confeccin de almacenes de datos. Cabe
destacar que HEFESTO est en continua evolucin, y se han tenido en cuenta,
como gran valor agregado, todos los feedbacks que han aportado quienes han
utilizado esta metodologa en diversos pases y con diversos fines.
La construccin e implementacin de un DW puede adaptarse muy bien a
cualquier ciclo de vida de desarrollo de software, con la salvedad de que para
algunas fases en particular, las acciones que se han de realizar sern muy
diferentes. Lo que se debe tener muy en cuenta, es no entrar en la utilizacin
de metodologas que requieran fases extensas de reunin de requerimientos y
anlisis, fases de desarrollo monoltico que conlleve demasiado tiempo y fases
de despliegue muy largas. Lo que se busca, es entregar una primera
implementacin que satisfaga una parte de las necesidades, para demostrar
las ventajas del DW y motivar a los usuarios.
Descripcin
La metodologa HEFESTO puede resumirse a travs del siguiente grfico:
1.- Anlisis de requerimientos: Como se puede apreciar, se
comienza recolectando las necesidades de informacin de los
usuarios y se obtienen las preguntas claves del negocio. Luego, se
deben identificar los indicadores resultantes de los interrogativos y
sus respectivas perspectivas de anlisis, mediante las cuales se
construir el modelo conceptual de datos del DW.
Pgina 11 de 16
Data Warehouse
2.- Anlisis de los OLTP: Para determinar cmo se
construirn
los
correspondencias
indicadores,
con
los
datos
sealar
fuentes
las
para
Caractersticas
Esta metodologa cuenta con las siguientes caractersticas:
negocio.
Reduce la resistencia al cambio, ya que involucra a los usuarios finales
en cada etapa para que tome decisiones respecto al comportamiento y
interpretar y analizar.
Es independiente del tipo de ciclo de vida que se emplee para contener
la metodologa.
Es independiente
implementacin.
Es independiente de las estructuras fsicas que contengan el DW y de su
respectiva distribucin.
Cuando se culmina con una fase, los resultados obtenidos se convierten
de
las
herramientas
que
se
utilicen
para
su
Data Warehouse
cantidad de funcionalidades)
Componentes Principales: ETL, Job Designer, Conectores, Repositorio
Visual, Anlisis OLAP, Metadata, Data Mining, Reporting, Dashboards, BI
Platform, Administration Server.
para
generar
informes,
integracin
anlisis
de
datos,
Pgina 13 de 16
Data Warehouse
Proyectos y Mantenimientos.
Componentes Principales: ETL, Reporting y Ad-Hoc Reporting, Anlisis
OLAP, BI Platform, Administration , Charting, Dashboard, Cockpits
interactivos, GEO/GIS, Data Mining, Query By example, Smart Filters,
Accesible reporting, Consola de monitoreo en tiempo real, Repositorio
Visual, SDK integrado, Dossier Analtico .
Pgina 14 de 16
Data Warehouse
Conclusion
El DW es una herramiente que una empresa necesita para mejorar su eficiencia
en la toma de decisiones y contar con informacin detallada a tal fin. Esto es
vital, ya que es muy importante para procurar una mayor ventaja competitiva
conocer cules son los factores que inciden directamente sobre su rentabilidad,
como as tambin, analizar su relacin con otros factores y sus respectivos por
qu. El DW aportar un gran valor a la empresa que permitir a los usuarios
tener una visin general del negocio y transformar datos operativos en
informacin analtica, enfocada a la toma de decisiones.
Pgina 15 de 16
Data Warehouse
Aportes Bibliograficos
Descarga de Pentaho BI Suite Community Edition (CE)
http://olex.openlogic.com/packages/pentaho#package_detail_tabs
Tutorial para instalar Pentaho
https://www.youtube.com/watch?v=EvDzuR4cX0k
https://www.youtube.com/watch?v=yLKKHsd0fnE
Teoria de DataWarehouse
[1] http://www.dataprix.com/que-es-un-datawarehouse
[2]http://www.stratebi.es/todobi/jun10/Comparativa_OSBI.pdf
[4] http://bievolutivo.com/es/documentation/datawarehouse
[5] http://www.fing.edu.uy/~asabigue/prgrado/2010dw.pdf
[6] http://izquierdas.blogspot.com.ar/
[7] http://gravitar.biz/pentaho/
[8] http://todobi.blogspot.com.ar/2006/05/pentaho-la-solucion-opensource.html
[9] http://www.treikkystem.cl/INGENIERIA%20EN%20TI,BUSSINES
%20INTELLIGENT
[10] http://www.businessintelligence.info/docs/hefesto-v2.pdf
Pgina 16 de 16