Você está na página 1de 16

Published on Dataprix (http://www.dataprix.

com)
Principal > La base de datos analtica (el Datawarehouse o Almacn de Datos)

By respinosamilla Created 25/02/2010 - 10:50

La base de datos analtica (el Datawarehouse o Almacn de Datos)


Hasta ahora, hemos visto las diferentes herramientas y tcnicas que podemos utilizar para explotar nuestros sistemas de Business Intelligence, para analizar la informacin y obtener conocimiento de los datos. En algunos casos, desde esas mismas herramientas podramos estar accediendo a nuestros sistemas transaccionales para analizar la informacin (lease ERP, CRM u otros sistemas), pero seguramente tendriamos problemas en cuanto a tiempos de respuesta; informacin repartida en diferentes sistemas que no son homogeneos, lo que dificulta el proceso de anlisis; complejos reportes poco flexibles, etc, etc. Para solucionar esto surgo el concepto de Dawarehouse o Almacen de Datos. Es una base de datos orientada al anlisis y que es el CORAZON de todo proyecto de Business Intelligence. Esta base de datos deber de poder soportar todos los tipos de herramientas de analisis que podamos utilizar. Antes de continuar, os recomiendo visualizar el video elaborado por Josep Curto para sus alumnos de la UOC. En el se explican todos los concenptos referentes a DW, el Modelo Dimensional y todos sus componentes. Tambin os recomiendo la serie de articulos temticos publicados en su blog [1], gran trabajo.

Veamos un poco mas a fondo en que consiste: (Definiciones extraidas del Consejo Superior de Informatica, del documento Manual para la adquisicin de un sistema de Data Warehouse, en http://www.csi.map.es/csi/silice /Elogicos.html [2] ). 3.1. Justificacin histrica En la actualidad, las tecnologas de la informacin han automatizado los procesos de carcter tpicamente repetitivo o administrativo, haciendo uso de lo que llamaremos sistemas de informacin operacionales.Entendemos por aplicaciones operacionales, aquellas que resuelven las necesidades de funcionamiento de la empresa. En este tipo de sistemas, los conceptos ms importantes son la actualizacin y el tiempo de respuesta. Una vez satisfechas las necesidades operacionales ms acuciantes, surge un nuevo grupo de necesidades sobre los sistemas de la empresa, a las cuales vamos a calificar como

necesidades informacionales. Por necesidades informacionales, entendemos aquellas que tienen por objeto obtener la informacin necesaria, que sirva de base para la toma de decisiones tanto a escala estratgica como tctica. Estas necesidades informacionales se basan en gran medida en el anlisis de un nmero ingente de datos, en el que es tan importante el obtener un valor muy detallado de negocio como el valor totalizado para el mismo. Es fundamental tambin la visin histrica de todas las variables analizadas, y el anlisis de los datos del entorno. Estos requerimientos no son, a priori, difciles de resolver dado que la informacin est efectivamente en los sistemas operacionales. Cualquier actividad que realiza la empresa est reflejada de forma minuciosa en sus bases de datos. La realidad, sin embargo, es distinta, puesto que al atender las necesidades de tipo informacional, los responsables de sistemas se tropiezan con mltiples problemas. En primer lugar, al realizar consultas masivas de informacin (con el fin de conseguir el ratio, valor agrupado o grupo de valores solicitados), se puede ver perjudicado el nivel de servicio del resto de sistemas, dado que las consultas de las que estamos hablando, suelen ser bastante costosas en recursos. Adems, las necesidades se ven insatisfechas por la limitada flexibilidad a la hora de navegar por la informacin y a su inconsistencia debido a la falta de una visin global (cada visin particular del dato est almacenada en el sistema operacional que lo gestiona). En esta situacin, el siguiente paso evolutivo ha venido siendo la generacin de un entorno gemelo del operativo, que se ha denominado comnmente Centro de Informacin, en el cual la informacin se refresca con menor periodicidad que en los entornos operacionales y los requerimientos en el nivel de servicio al usuario son ms flexibles. Con esta estrategia se resuelve el problema de la planificacin de recursos ya que las aplicaciones que precisan un nivel de servicio alto usan el entorno operacional y las que precisan consultas masivas de informacin trabajan en el Centro de Informacin. Otro beneficio de este nuevo entorno, es la no inferencia con las aplicaciones operacionales. Pero no terminan aqu los problemas. La informacin mantiene la misma estructura que en las aplicaciones operacionales por lo que este tipo de consultas debe acceder a multitud de lugares para obtener el conjunto de datos deseado. El tiempo de respuesta a las solicitudes de informacin es excesivamente elevado. Adicionalmente, al proceder la informacin de distintos sistemas, con visiones distintas y distintos objetivos, en muchas ocasiones no es posible obtener la informacin deseada de una forma fcil y adems carece de la necesaria fiabilidad. De cara al usuario estos problemas se traducen en que no dispone a tiempo de la informacin solicitada y que debe dedicarse con ms intensidad a la obtencin de la informacin que al anlisis de la misma, que es donde aporta su mayor valor aadido.

3.2.- QU ES UN DATA WAREHOUSE?


Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades informacionales, surge el concepto de Data Warehouse, como solucin a las necesidades informacionales globales de la empresa. Este trmino acuado por Bill Inmon, se traduce literalmente como Almacn de Datos. No obstante si el Data Warehouse fuese exclusivamente un almacn de datos, los problemas seguiran siendo los mismos que en los Centros de Informacin. La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la informacin. Este concepto significa el almacenamiento de informacin homognea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales. Segn defini Bill Inmon, el Data Warehouse se caracteriza por ser:

Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del Data Warehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el Data Warehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un Data Warehouse existe para ser ledo, y no modificado. La informacin es por tanto permanente, significando la actualizacin del Data Warehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. E.F. Codd, considerado como el padre de las bases de datos relacionales, ha venido insistiendo desde principio de los noventa, que disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones. Muchas de estas decisiones se basan en un anlisis de naturaleza multidimensional, que se intentan resolver con la tecnologa no orientada para esta naturaleza. Este anlisis multidimensional, parte de una visin de la informacin como dimensiones de negocio. Estas dimensiones de negocio se comprenden mejor fijando un ejemplo, para lo que vamos a mostrar, para un sistema de gestin de expedientes, las jerarquas que se podran manejar para el nmero de los mismo para las dimensiones: zona geogrfica, tipo de expediente y tiempo de resolucin. La visin general de la informacin de ventas para estas dimensiones definidas, la representaremos, grficamente como el cubo de la derecha:

[3]

Un gerente de una zona estara interesado en visualizar la informacin para su zona en el tiempo para todos los productos que distribuye. Un director de producto, sin embargo querra examinar la distribucin geogrfica de sus productos, para toda la informacin histrica almacenada en el Data Warehouse. O se podra tambin examinar los datos en un determinado momento o una visin particularizada. A su vez estas dimensiones tienen una jerarqua, interpretndose en el cubo como que cada cubo elemental es un dato elemental, del que se puede extraer informacin agregada. Y as por ejemplo se podra querer analizar la evolucin de las ventas en Galicia de libros de Fsica por meses desde Febrero del 1996 hasta Marzo del 1997.Ello es fcil de obtener (incluso a golpe de ratn) si la informacin de ventas se ha almacenado en un Data Warehouse, definiendo estas jerarquas y estas dimensiones de negocio.

En este sentido citamos las palabras de D. Wayne Calloway Director Ejecutivo de Operaciones de Pepsico en una asamblea general de accionistas: Hace diez aos les pude decir cuntos Doritos vendimos al Oeste del Mississipi. Hoy no slo les puedo decir eso mismo, sino cuntos vendimos en California, en el Condado de

Orange, en la ciudad de Irvine, en el Supermercado local Vons, en una promocin especial, al final del pasillo 4, los jueves. Otra caracterstica del Data Warehouse es que contiene datos relativos a los datos, concepto que se ha venido asociando al trmino de metadatos. Los metadatos permiten mantener informacin de la procedencia de la informacin, la periodicidad de refresco, su fiabilidad, forma de clculo, etc., relativa a los datos de nuestro almacn.Estos metadatos sern los que permitan simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, seran: Soportar al usuario final, ayudndole a acceder al Data Warehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de navegacin. Soportar a los responsables tcnicos del Data Warehouse en aspectos de auditora, gestin de la informacin histrica, administracin del Data Warehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos, etc.

Para comprender el concepto de Data Warehouse, es importante considerar los procesos que lo conforman. A continuacin se describen dichos procesos clave en la gestin de un Data Warehouse: Extraccion: obtencin de informacin de las distintas fuentes tanto internas como externas. Elaboracion: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos. Explotacion: extraccin y anlisis de la informacin en los distintos niveles de agrupacin. Desde el punto de vista del usuario, el nico proceso visible es la explotacin del almacn de datos, aunque el xito del Data Warehouse radica en los tres procesos iniciales que alimentan la informacin del mismo y suponen el mayor porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacn. Las diferencias de un Data Warehouse con un sistema tradicional las podramos resumir en el siguiente esquema:

Una de las claves del xito en la construccin de un Data Warehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Terminamos este apartado, resumiendo los beneficios que un Data Warehouse puede aportar: Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.

3.3.Data Warehouse vs. Data Mart


La duplicacin en otro entorno de datos es un trmino que suele ser mal interpretado e incomprendido. As es usado por los fabricantes de SGBD en el sentido de simple rplica de los datos de un sistema operacional centralizado en sistemas distribuidos. En un contexto de Data Warehouse, el trmino duplicacin se refiere a la creacin de Data Marts locales o departamentales basados en subconjuntos de la informacin contenida en el Data Warehouse central o maestro. Segn define Meta Group, un Data Mart es una aplicacin de Data Warehouse, construida rpidamente para soportar una lnea de negocio simple. Los Data Marts, tienen las mismas caractersticas de integracin, no volatilidad, orientacin temtica y no volatilidad que el Data Warehouse. Representan una estrategia de divide y vencers para mbitos muy genricos

de un Data Warehouse. Esta estrategia es particularmente apropiada cuando el Data Warehouse central crece muy rpidamente y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l. La creacin de estos Data Marts requiere algo ms que una simple rplica de los datos: se necesitarn tanto la segmentacin como algunos mtodos adicionales de consolidacin. La primera aproximacin a una arquitectura descentralizada de Data Mart, podra ser venir originada de una situacin como la descrita a continuacin. El departamento de Marketing, emprende el primer proyecto de Data Warehouse como una solucin departamental, creando el primer Data Mart de la empresa. Visto el xito del proyecto, otros departamentos, como el de Riesgos, o el Financiero se lanzan a crear sus Data Marts. Marketing, comienza a usar otros datos que tambin usan los Data Marts de Riesgos y Financiero, y estos hacen lo propio. Esto parece ser una decisin normal, puesto que las necesidades de informacin de todos los Data Marts crecen conforme el tiempo avanza.

Cuando esta situacin evoluciona, el esquema general de integracin entre los Data Marts pasa a ser, la del grfico anterior. En esta situacin, es fcil observar cmo este esquema de integracin de informacin de los Data Marts, pasa a convertirse en un rompecabezas en el que la gestin se ha complicado hasta convertir esta ansia de informacin en un autntico quebradero de cabeza. No obstante, lo que ha fallado no es la integracin de Data Marts, sino su forma de integracin. En efecto, un enfoque ms adecuado sera la coordinacin de la gestin de informacin de todos los Data Marts en un Data Warehouse centralizado. En esta situacin los Data Marts obtendran la informacin necesaria, ya previamente cargada y depurada en el Data Warehouse corporativo, simplificando el crecimiento de una base de conocimientos a nivel de toda la empresa.

[4]

Esta simplificacin provendra de la centralizacin de las labores de gestin de los Data Marts, en el Data Warehouse corporativo, generando economas de escala en la gestin de los Data Marts implicados. Segn un estudio de IDC ( International Data Corporation ) tras analizar 541 empresas, la distribucin de las implantaciones de Data Warehouse y Data Marts en la actualidad, y sus opiniones respecto a esta distribucin en el futuro, nos muestra los siguientes datos: La proporcin actual de implantaciones de Data Warehouse es casi el doble que el de Data Mart. No obstante, seguramente tras la andadura inicial de alguno de estos proyectos de Data Mart, se ve como ms adecuado para el futuro este enfoque divide y vencers, previndose una inversin de estos papeles y duplicando la implantacin de Data Marts a los Data Warehouse. Probablemente, el 5% de usuarios que disponen de tecnologa de Data Warehouse y piensan renunciar a ella en el futuro, no han realizado previamente un estudio de factores implicados en un Data Warehouse, o han pasado por la situacin inicial de partida, y no se han planteado una reorganizacin del mismo.

3.4.COMPONENTES A TENER EN CUENTA A LA HORA DE CONSTRUIR UN DW


3.4.1.Hardware Un componente fundamental a la hora de poder contar con un Data Warehouse que responda a las necesidades analticas avanzadas de los usuarios, es el poder contar con una infraestructura Hardware que la soporte. En este sentido son crticas, a la hora de evaluar uno u otro hardware, dos caractersticas principales: Por un lado, a este tipo de sistemas suelen acceder pocos usuarios con unas necesidades muy grandes de informacin, a diferencia de los sistemas operacionales, con muchos usuarios y necesidades puntuales de informacin. Debido a la flexibilidad requerida a la hora de hacer consultas complejas e imprevistas, y al gran tamao de informacin manejada, son necesarias unas altas prestaciones de la mquina. Por otro lado, debido a que estos sistemas suelen comenzar con una funcionalidad limitada, que se va expandiendo con el tiempo (situacin por cierto aconsejada), es necesario que los sistemas sean escalables para dar soporte a las necesidades crecientes de equipamiento. En este sentido, ser conveniente el optar por una arquitectura abierta, que nos permita

aprovechar lo mejor de cada abricante. En el mercado se han desarrollado tecnologas basadas en tecnologa de procesamiento paralelo, dan el soporte necesario a las necesidades de altas prestaciones y escalabilidad de los Data Warehouse. Estas tecnologas son de dos tipos: SMP (Symmetric multiprocessing, o Multiprocesadores Simtricos): Los sistemas tienen mltiples procesadores que comparten un nico bus y una gran memoria, repartindose los procesos que genera el sistema, siendo el sistema operativo el que gestiona esta distribucin de tareas. Estos sistemas se conocen como arquitecturas de casi todo compartido. El aspecto ms crtico de este tipo de sistemas es el grado de rendimiento relativo respecto al nmero de procesadores presentes, debido a su creciente no lineal. MPP (Massively parallel processing, o Multiprocesadores Masivamente Paralelos): Es una tecnologa que compite contra la SMP, en la que los sistemas suelen ser casi independientes comunicados por intercambiadores de alta velocidad que permiten gestionarlos como un nico sistema. Se conocen por ello como arquitecturas de nada compartido. Su escalabilidad es mayor que la de los SMP. Segn Meta Group, las tendencias de mercado indican que las arquitecturas SMP aportan normalmente suficientes caractersticas de escalabilidad, con una mayor oferta y un menor riesgo tecnolgico. Sin embargo, cuando las condiciones de escalabilidad sean extremas, se puede plantear la opcin MPP. No obstante, se estn produciendo avances significativos en arquitecturas SMP, que han ogrado mquinas con un crecimiento lineal de rendimiento hasta un nmero de 64 procesadores. 3.4.2.-Software de almacenamiento (SGBD) Como hemos comentado, el sistema que gestione el almacenamiento de la informacin (Sistema de Gestin de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de que la informacin almacenada en el Data Warehouse se pueda analizar mediante visualizacin multidimensional, el SGBD puede estar realizado utilizando tecnologa de Bases de Datos Relacionales o Multidimensionales. Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de informacin de los entornos Data Warehouse. Por ello, y puesto que, como hemos comentado, las necesidades de informacin suelen atender a consultas multidimensionales, parece que unas Bases de Datos multidimensionales, parten con ventaja. En este sentido son de aplicacin los comentarios que realizamos en el apartado de hardware, por requerimientos de prestaciones, escalabilidad y consolidacin tecnolgica. Al igual que en el hardware, nuevos diseos de las bases de datos relacionales, las bases de datos post-relacionales, abren un mayor abanico de eleccin. Estas bases de datos post-relacionales, parten de una tecnologa consolidada y dan respuesta al agotamiento de las posibilidades de los sistemas de gestin de bases de datos relacionales, ofreciendo las mismas prestaciones aunque implantadas en una arquitectura diseada de forma ms eficiente. Esta mayor eficiencia se consigue instaurando relaciones lgicas en vez de fsicas, lo que hace que ya no sea necesario destinar ms hardware a una solucin para conseguir la ejecucin de las funciones requeridas. El resultado es que la misma aplicacin implantada en una BD postrelacional requiere menos hardware, puede dar servicio a un mayor nmero de usuarios y utilizar mecanismos intensivos de acceso a los datos ms complejos. Asimismo, esta tecnologa permite combinar las ventajas de las bases de datos jerrquicas y

las relacionales con un coste ms reducido. Ambos sistemas aportan como ventaja que no resulta necesario disponer de servidores omnipotentes, sin que puede partirse de un nivel de hardware modesto y ampliarlo a medida que crecen las necesidades de informacin de la compaa y el uso efectivo del sistema. Dejamos fuera del mbito de esta gua el detallar cmo los proveedores de bases de datos han optimizado los accesos a los ndices, o las nuevas posibilidades que ofrece la compresin de datos (menos espacio para la misma informacin lo que implica, entre otras ventajas, que ms informacin se puede tener en cach), para lo que remitimos a la prensa especializada o a las publicaciones de los fabricantes. 3.4.3.- Software de extraccin y manipulacin de datos En este apartado analizaremos un componente esencial a la hora de implantar un Data Warehouse, la extraccin y manipulacin. Para esta labor, que entra dentro del mbito de los profesionales de tecnologas de la informacin, es crtico el poder contar con herramientas que permitan controlar y automatizar los continuos mimos y necesidades de actualizacin del Data Warehouse. Estas herramientas debern proporcionar las siguientes funcionalidades: Control de la extraccin de los datos y su automatizacin, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad. Acceso a diferentes tecnologas, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Proporcionar la gestin integrada del Data Warehouse y los Data Marts existentes, integrando la extraccin, transformacin y carga para la construccin del Data Warehouse corporativo y de los Data Marts. Uso de la arquitectura de metadatos, facilitando la definicin de los objetos de negocio y las reglas de consolidacin. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Planificacin, logs, interfaces a schedulers de terceros, que nos permitiran llevan una gestin de la planificacin de todos los procesos necesarios para la carga del DW. Interfaz independiente de hardware. Soporte en la explotacin del Data Warehouse. A veces, no se suele prestar la suficiente atencin a esta fase de la gestin del Data Warehouse, aun cuando supone una gran parte del esfuerzo en la construccin de un Data Warehouse. Existen multitud de herramientas disponibles en el mercado que automatizan parte del trabajo. 3.4.4.- Herramientas Middleware Como herramientas de soporte a la fase de gestin de un Data Warehouse, analizaremos a continuacin dos tipos de herramientas: Por un lado herramientas Middleware, que provean conectividad entre entornos diferentes, para ayudar en la gestin del Data Warehouse. Por otro, analizadores y aceleradores de consultas, que permitan optimizar tiempos de respuestas en las necesidades analticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el Data Warehouse.

Las herramientas Middleware deben ser escalables siendo capaces de crecer conforme crece el Data Warehouse, sin problemas de volmenes. Tambien deben ser flexibles y robustas, sin olvidarse de proporcionar un rendimiento adecuado. Estarn abiertas a todo tipos de entornos de almacenamiento de datos, tanto mediante estndares de facto (OLE, ODBC, etc.), como a los tipos de mercado ms populares (DB2, Access, etc.). La conectividad, al menos en estndares de transporte (SNA LU6.2, DECnet, etc.) debe estar tambien asegurada. Con el uso de estas herramientas de Middleware lograremos: Maximizar los recursos ejecutando las aplicaciones en la plataforma ms adecuada. Integrar los datos y aplicaciones existentes en una plataforma distribuida. Automatizar la distribucin de datos y aplicaciones desde un sistema centralizado. Reducir trfico en la red, balanceando los niveles de cliente servidor (mas o menos datos en local, mas o menos proceso en local). Explotar las capacidades de sistemas remotos sin tener que aprender multiples entornos operativos. Asegurar la escalabilidad del sistema. Desarrollar aplicaciones en local y explotarlas en el servidor. Los analizadores y aceleradores de querys trabajan volcando sobre un fichero de log las consultas ejecutadas y datos asociados a las mismas (tiempo de respuesta, tablas accedidas, mtodo de acceso, etc). Este log se analiza, bien automticamente o mediante la supervisin del administrador de datos, para mejorar los tiempos de accesos. Estos sistemas de monitorizacin se pueden implementar en un entorno separado de pruebas, o en el entorno real. Si se ejecutan sobre un entorno de pruebas, el rendimiento del entorno real no se v afectado. Sin embargo, no es posible optimizar los esfuerzos, puesto que los anlisis efectuados pueden realizarse sobre consultas no crticas o no frecuentemente realizadas por los usuarios. El implantar un sistema analizador de consultas, en el entorno real tiene adems una serie de ventajas tales como: Se pueden monitorizar los tiempos de respuesta del entorno real. Se pueden implantar mecanismos de optimizacin de las consultas, reduciendo la carga del sistema. Se puede imputar costes a los usuarios por el coste del Data Warehouse. Se pueden implantar mecanismos de bloqueo para las consultas que vayan a implicar un tiempo de respuesta excesivo. 3.4.5.Conclusiones y consideraciones de interes. El Data Warehouse va a ser el elemento principal en nuestro sistema de Inteligencia de Negocio. De su correcta definicin, procesamiento y carga de datos va a depender el exito posterior del proyecto. Aunque el usuario al final solo vea un conjunto de herramientas de analisis que utilizar para atacar a los datos, por delante hay una serie de procesos que hacen que toda la informacin proveniente de diferentes sistemas haya sido identificada, extraida, procesada, homogeneizada, depurada y cargada en el Datawarehouse. Esto es posible a travs de las herramientas ETL y Middleware. Y esta es la parte que normalmente mas tiempo lleva en cualquier proyecto. Muchas veces conviene elegir un departamento piloto para implantar sistemas de este tipo

que luego nos permitan vender internamente dentro de la organizacin los proyectos. Habr que dar siempre importancia a la formacin como eje fundamental al uso de las herramientas. Los proyectos de BI y DW no van a ser solo proyectos tecnolgicos, hay mucho mas detras, y aunque en ellos se utilize la tecnologa tiene que haber conocimiento empresarial para poder reflejar en el lo que realmente se necesita, desde los niveles mas bajos hasta los superiores de toma de decisiones. En este momento el consultor de BI tambin tiene que ser capaz de aportar no solo su conocimiento tecnolgico, sino tambin conocimiento de las area de negocio y de los diferentes elementos que se van a utilizar en el diseo, desarrollo y explotacin de un sistema de BI (ver el artculo de Jorge Fernndez en su blog: El consultor de Bi, ese bicho raro [5] ).

3.4.6. Nuevas tendencias en el mundo DW. El Datawarehouse 2.0.


Los sistemas DW han evolucionado en los ultimos aos conforme han surgido nuevas necesidades. Los motivos de esta evolucin son varios, y los podemos resumir en: - Uso de herramientas de analisis que obligaban a estructuras diferentes optimazadas al uso de determinadas tecnologas (por ejemplo el data mining o el uso de herramientas estadsticas). - Simplificacin de la gestin de sistemas DW complejos formados por multiples datamarts orientados a cada departamento en los que se pierde el concepto de Corporativo (que hace que se pierdan oportunidades ). - De la unin de multiples aplicaciones pequeas (Datamarts o Datawarehouse), no surge toda la informacin corporativa. Sera necesario construir este Centro a partir del cual se van a generar todos los DW necesarios para todos los ambitos de anlisis. - Proceso Online: los procesos de actualizacin hacan que hubiera muchos momentos en los que no se poda acceder a los datos. Igualmente, podra haber cierto retardo en la disponibilidad de la informacin, lo que nos impedia poder hacer anlisis inmediatos (analisis mas orientados a la operacion del negocio). - Evolucin tecnologica en las herramientas ETL, costes de la tecnologa (los costes han bajando de tal forma que permiten abordar los proyectos de una forma mas amplia), etc. Por todo esto surge el concepto de CIF ( Corporate Information Factory), que podra incluir todos los elementos que vemos en la imagen siguiente:

El Corporate Information Factory (CIF) es una arquitectura conceptual que describe y categoriza los almacenes de informacion usados para operar y gestionar con exito una infraestructura de BI robusta. El uso de esta arquitectura o de otras mas sencillas va a depender del tipo de compaia, los requerimientos de analisis y hasta donde se quiera llegar en el uso del BI. Los elementos que forman el CIF, de forma resumida, son los siguientes: Data Warehouse: es el almacen de datos, segn las definiciones vistas hasta ahora. Pero ademas, en esta arquitectura, es el punto central de la integracin de datos. Centraliza toda la informacin, nos da una vision en comun de la informacin de toda la organizacin y proporciona los datos para llenar de contenido el resto almacenes de datos especificos, a travs de los procesos de Data delivery (extraccin de datos con condiciones de filtrado, sumarizacin, etc para otros tipos de analisis). Operational Data Store: es un almacen de datos, como el DW, pero orientado a las toma de decisiones tacticas. Se alimenta de datos actuales de los sistemas operacionales, nos es un sistema historico, tiene la informacin mucho mas en detalle y los tiempos de actualizacin suelen ser mucho mas rpidos para permitir la toma de decisiones rpidas sobre los datos de operacin del negocio. Sera un sistema cercano al tiempo real y suele incluir informacin sobre clientes, materiales, stocks, ventas, etc. Data Acquisition: son todas las herramientas y sistemas de gestin que nos permite la extraccin, transformacin y carga de los datos provenientes de los diferentes sistemas origen (sistemas externos, ERP, sistemas internos, ficheros, etc), en nuestro Datawarehouse. Serian las herramientas ETL y los sistemas de gestin de la adquisicin de datos (Data Acquisition Management). Data Delivery: son las operaciones de agregacion de la informacin, filtrado por dimensiones especificas o requerimientos de negocio, reformateo o procesamiento de la informacin para soportar el uso de herramientas de BI especificas, y finalmente, la transmisin de la informacin a travs de la organizacin (para dar contenido a los Datamarts o Warehouse especificos). A partir del DW podremos construir subconjuntos de el orientados al uso de tecnicas especificas de BI:

Exploration Warehouse: almacen de exploracin para utilizar herramientas de tipo estadistico y de exploracion. Data Mining Warehouse: almacen para el uso de tecnicas de datamining. Olap Data Mart: almacen de datos para el uso de analisis multidimensionales (tipo OLAP). Operational Mart: subconjunto del ODS (operational Data Store), para permitir analisis operacional restringido a un ambito menor.

Si quereis saber mas sobre las nuevas arquitecturas, os recomiendo los libros:

The data warehouse toolkit : the complete guide to dimensional modeling


Ralph Kimball, Margy Ross. 2nd ed. ISBN 0-471-20024-7

Mastering data warehouse design


Imhoff, Claudia Galemmo, Nicholas Geiger, Jonathan G. ISBN:978-0-471-32421-8

DW 2.0: The Architecture for the Next Generation of Data Warehousing

William Inmon Derek Strauss Genia Neushloss ISBN: 978-0-12-374319-0

Business Intelligence
Source URL: http://www.dataprix.com/blogs/respinosamilla/base-datos-anal-tica-datawarehouse-o-almacn-datos Links: [1] http://informationmanagement.wordpress.com/articulos-tematicos/ [2] http://www.csi.map.es/csi/silice/Elogicos.html [3] http://churriwifi.files.wordpress.com/2009/11/dw0.jpg [4] http://churriwifi.files.wordpress.com/2009/11/datamart2.jpg [5] http://sistemasdecisionales.blogspot.com/2009/04/el-consultor-de-bi-ese-bicho-raro.html

Você também pode gostar