CARRERA DE INGENIERA DE SISTEMAS CURSO: INTELIGENCIA DE NEGOCIOS
INFORME KIMBALL VS. INMON
INFORME PRESENTADO POR: Miguel Antonio Vargas Soto U201000334
PROFESOR Jimmy Frank Prez Tsujita
Lima, Julio de 2014
Informe Kimball vs. Inmon Existen dos enfoques tradicionales a seguir para implementar soluciones de inteligencia de negocios: La teora de Ralph Kimball y la Teora de Bill Inmon. La definicin de Data Warehouse de Inmon ha puesto en claro una buena sntesis de lo que es un Data Warehouse y ha ayudado inmensamente al desarrollo de la industria, debido a que provee guas concretas para construir un Data Warehouse Inmon identifica la importancia de utilizar un Data Warehouse para guardar datos histricos continuos, ya que uno de los mayores obstculos para el anlisis de informacin relevante es no contar con datos disponibles sobre un periodo de tiempo extendido. Operacionalmente, se tiende a almacenar solamente una vista actual del negocio, el cual es un perodo muy corto para un anlisis serio de tendencias. A Inmon se le asocia frecuentemente con los esfuerzos de Data Warehouse a nivel empresarial, que involucran desde un inicio todo el mbito corporativo, sin centrarse en un incremento especfico hasta despus de haber terminado completamente el diseo del Data Warehouse. En su filosofa, un Data Mart es slo una de las capas del Data Warehouse, los Data Marts son dependientes (obtienen la informacin) del depsito central de datos o Data Warehouse Corporativo y por lo tanto se construyen luego de l. El enfoque de Inmon de desarrollar una estrategia de Data Warehouse e identificar las reas principales desde el inicio del proyecto es necesario para asegurar una solucin integral. Esto ayuda a evitar la aparicin de situaciones inesperadas en el futuro cercano del proyecto que le puedan poner en peligro, debido a que se conoce con antelacin y bastante exactitud la estructura que presentarn los principales ncleos del desarrollo, el cual permite enfocar los esfuerzos del desarrollo actual para ser compatible con los subsiguientes. Inmon es defensor de utilizar el modelo relacional para el ambiente en el que se implementar el Data Warehouse Corporativo, asegura que esta es la alternativa ms adecuada para que el almacn central sea ms eficiente sin afectar a los usuarios finales ya que la frecuencia de acceso de los mismos es muy escasa en este nivel. Mientras, aplicar al esquema estrella o modelado dimensional a la aplicacin Front End que llama Data Mart, y que es donde realmente tiene lugar el acceso de los usuarios en su Arquitectura. Inmon ciertamente coincide en que el modelado dimensional est bien para los Data Mart, pero hace nfasis en que estos deben ser dependientes del Data Warehouse Corporativo; sin embargo est muy convencido que un diseo basado en Diagramas Entidad Relacin es mucho ms apropiado para el Data Warehouse central de mayor magnitud. Segn Immon, la estructura ideal que se busca para un Data Warehouse para que proporcione la manera ms efectiva de colectar, almacenar y diseminar la Informacin, es muy probablemente: Datos antiguos, limpiados en un RDBMS (potencialmente un Data Warehouse Empresarial). Datos reconciliados, desde el Data Warehouse Empresarial obtienen su informacin los Data Marts, cubos y otras herramientas para anlisis y reportes que utilicen un enfoque multidimensional para mostrar la informacin. El problema que trae consigo este enfoque es que es ideal para los propsitos de desarrollo del equipo de Tecnologa de Informacin pero no para las finanzas de la organizacin. A esta estructura no es posible dividirle en partes modulares que al implementarse comiencen a ser explotadas, sino que es hasta que toda la arquitectura est en su lugar que los usuarios de negocio obtienen beneficio de ella. Es un enfoque de big bang que trae consigo mucho riesgo a la compaa que invierte grandes esfuerzos en el desarrollo del DW y no es sino hasta que comienzan a aparecer los Data Marts que realmente comienza a explotar su inversin y a obtener beneficios de ella. La estrategia de big bang de Inmon es en cierta medida comparable con el ciclo de vida clsico del desarrollo de aplicaciones y comparte con sta metodologa algunos riesgos, el ms peligroso para un Data Warehouse es sin duda, que en el marco de que es imposible conocer en avance cuales son las necesidades concretas de informacin de una empresa, el ambiente dinmico en que se mueve la organizacin, el cambio de estructura que conlleva el desarrollo de la nueva plataforma y los consiguientes cambios a los sistemas transaccionales que su introduccin implica; es muy probable la posibilidad de que luego de un considerable plazo de tiempo y recursos invertidos en el desarrollo del Data Warehouse, una vez finalizado y puesto en explotacin el mismo, se hagan evidentes algunos cambios fundamentales que traen consigo altos costos de desarrollo para la organizacin, poniendo en evidente peligro el xito de todo el proyecto en s y que podan ser evitados con una pronta deteccin en una temprana puesta en explotacin de un primer avance del Data Warehouse. Otra de las restricciones que trabajan en contra de la metodologa de Inmon es que consume mucho ms tiempo trabajar nica y completamente con esta metodologa, esto tiene como consecuencia que muchas empresas se inclinen por usar metodologas de la que obtengan resultados tangibles en un espacio menor de tiempo. Por otro lado tenemos la metodologa propuesta por Kimball: El Data Warehouse no es nada ms que la unin de todos los Data Marts que lo constituyen. En el mundo de Kimball el Data Mart es el Data Warehouse, esto se afirma en el sentido de que Kimball expone que al construir los Data Marts ya se est construyendo el Data Warehouse de una manera incremental. Un Data Mart es un subconjunto de datos organizados, como en el Data Warehouse, para el soporte a la toma de decisiones, pero que slo representa la visin de un departamento o individuo, por este motivo Kimball es frecuentemente asociado con esfuerzos departamentales y no corporativos. En la actualidad la mayora de los proyectos de Data Warehouse implementan el modelo de Data Marts de Kimball en lugar del esquema de Data Warehouse empresarial propuesto por Bill Inmon, esto obedece a motivos de tiempo, costo y el riesgo de fracaso asociados con el desarrollo de los dos ltimos. A esta tendencia general se le ha identificado como la aproximacin que pretende garantizar la probabilidad de xito ms grande en la implementacin de un Data Warehouse, tanto por la rapidez en la obtencin de resultados en perodos cortos (tiempo) con inversiones moderadas (costo) como por la modularidad posible de alcanzar con este enfoque considerando cada Data Mart como un incremento del sistema final, el Data Warehouse (menor riesgo de fracaso). El punto central de la metodologa de Kimball es el modelado dimensional. Un buen diseo asegura en gran parte el xito del proyecto. El objetivo primordial que se persigue con un Data Warehouse, servir de soporte a la toma de decisiones, slo es alcanzado si el diseo del Data Warehouse - Data Mart propone una estructura consistente y adecuada a las necesidades de informacin de la organizacin. Por este motivo Kimball pone nfasis en el diseo de los Data Marts, para lo cual utiliza el modelado dimensional en la versin del esquema estrella. Kimball afirma que esta tecnologa siempre puede ser aplicada en cualquier proyecto de Data Warehouse y que es el mtodo ms adecuado para alcanzar el objetivo ya mencionado. El esquema estrella representa la desnormalizacin ptima de los datos que mejor se adapta a los requerimientos de los usuarios. El concepto clave que ha popularizado la metodologa del seor Kimball es que l aborda el proyecto de Data Warehouse como un proceso de Implementacin Gradual, Data Mart a Data Mart. Sin embargo, Kimball tambin pone en claro que lo primero que se debe hacer al comenzar el modelado dimensional es analizar la slida base que representa el Diagrama Entidad Relacin de la empresa y a partir de all iniciar el modelado dimensional, es decir, primero se debe contemplar toda la organizacin empresarial para encontrar los procesos discretos del negocio, luego corresponde establecer cuales son todos los posibles Data Marts y de entre ellos seleccionar cual es el ms adecuado de implementar en la correspondiente iteracin del Data Warehouse. A continuacin ya se puede enfocar en l o los Data Mart que pertenecen a la etapa actual del proyecto y proceder con el ciclo de vida que expone en su metodologa. El ciclo de vida propuesto trae como consecuencia que exista Data Marts que se traslapen, para el caso en que se tienen que contemplar las diferentes vistas que distintos usuarios o departamentos tienen acerca del Modelo de Datos Corporativos, las implementaciones de vistas dismiles deben realizarse en Data Mart separados. Para asegurar la correcta unin y engranaje de los Data Marts y evitar que se conviertan en conjuntos disjuntos (islas) de informacin Kimball establece el mtodo de dimensiones conformadas y lo designa como el Bus del Data Warehouse. Todos estos elementos para que funcionen sinrgicamente deben ajustarse en un marco de trabajo slido, flexible y extensible, que constituye la arquitectura que guiar la implementacin del Data Warehouse. Kimball utiliza una matriz para clasificar tres grandes reas: Datos, Tecnologa e Infraestructura, los cuales tienen cuatro niveles de detalles siendo el ms bajo la implementacin fsica del Data Warehouse. Una vez establecida la arquitectura, se procede a implementar los primeros incrementos. La Implementacin por incrementos de Data Marts trae consigo algunas consideraciones importantes: La arquitectura Data Warehouse se debe desarrollar al principio del proyecto. El primer incremento se desarrolla basndose en la arquitectura. La operacin del Data Warehouse puede implicar la realizacin de cambios en la arquitectura. Cada incremento adicional puede extender el Data Warehouse. Cada incremento puede causar ajustes en la arquitectura. La operacin continua puede causar ajustes en la arquitectura. Por estas consideraciones muchos expertos afirman en que el enfoque de Kimball trabaja mejor si primero existe una estrategia de implementacin en la organizacin, pues de esta forma se reduce el nmero de cambios, que en muchos casos representa una gran parte de los esfuerzos de mantenimiento o de desarrollo del nuevo incremento. Estos cambios son necesarios de realizar para asegurar el adecuado funcionamiento y crecimiento del Data Warehouse. Es decir, que para un proyecto que envuelve la creacin de ms de un Data Mart es aconsejable que primero se deba desarrollar una estrategia corporativa como esqueleto y luego continuar con la metodologa de Kimball. Otro gran detrimento a la metodologa de Kimball, son consideraciones al corazn de la misma, el modelado dimensional. Un esquema estrella se construye obteniendo y asimilando requerimientos de los usuarios, lo que determina la forma y contenido de la estrella. El resultado de la estrella es ptimo para los usuarios que participan en el proceso de obtencin de requerimientos. El modelado dimensional es excelente para representar las vistas de las personal que son de pensamientos similares, pero diferentes grupos de personas querrn su propia estrella que represente sus propias vistas. El esquema estrella se forma alrededor de los requerimientos de usuarios y porque estos requerimientos varan de un tipo de usuarios a los otros no es de sorprender que diferentes estrellas sean ptimas para diferentes tipos de usuarios. El problema real es cuando existen mltiples ambientes independientes de esquemas estrella, los mismos datos detallados aparecen en cada estrella. No existe reconciliacin de datos y las nuevas estrellas requieren la misma cantidad de trabajo para la creacin que las antiguas estrellas. Como resultado: Las uniones crecen innecesariamente grandes cuando cada estrella necesita datos detallados que otra estrella ya ha obtenido. Los resultados de cada estrella son inconsistentes con el resultado obtenido de cada otra estrella y la habilidad de reconciliar las diferencias no es aparente. No existen bases para construir nuevas estrellas porque cada una es construida independientemente. La interfase para soportar las aplicaciones que alimentan las estrellas se vuelve inmanejable. Se genera una gran cantidad de trabajo extra al construir cada parte en comparacin al enfoque de Data Warehouse Corporativo. Una vez establecido el anlisis sobre cada una de las metodologas estudiadas se han sentado las bases para la construccin de la gua objeto de estudio. Las filosofas de Inmon y Kimball difieren principalmente en escala, Data Warehouse Corporativo versus Data Warehouse por incrementos de Data Marts. Anexo Resumen Kimball Inmon Definicin de Data Warehouse Define un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis", determin adems que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad" Define un data warehouse (almacn de datos) en trminos de las caractersticas del repositorio de datos: Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los informes que se puedan generar reflejen esas variaciones. No voltil.- La informacin no se modifica ni se elimina, una vez almacenado un dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras consultas. Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Filosofa de desarrollo data warehouse
Se da en base a la priorizacin de algunos procesos especficos del negocio. Desarrollo directo de data marts en los procesos seleccionados del negocio. Uso exclusivo de modelos dimensionales desnormalizados (esquema estrella). Defiende una Metodologa ascendente (bottom-up) a la hora de disear un almacn de datos. Se da en base al modelo de datos de toda la empresa. Desarrollo de un data warehouse empresarial basado en un esquema de base de datos normalizado. El desarrollo de data marts, se basa en datos obtenidos del data warehouse. Metodologa descendente (top- down) a la hora de disear un almacn de datos, ya que de esta forma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin. Definicin de data mart
Un data mart mantiene los datos al menor nivel de detalle, los cuales se refieren a un proceso de negocio. Un data mart se construye mediante la extraccin de datos directamente desde los sistemas operacionales. Los data marts estn vinculados entre s. Un data mart mantiene todos los datos histricos. Un data mart mantiene los datos agregados que se relacionan a la unidad de negocio. Un data mart se construye mediante la extraccin de datos del data warehouse de la empresa (tambin llamados data marts dependientes). Los data marts no estn vinculados entre s. Un data mart mantiene una historia limitada, ya que sta se mantiene en el data warehouse de la empresa. Enfoque de Las etapas de desarrollo de un data mart El diseo de un data warehouse para toda la empresa se basa en su modelo desarrollo por etapas
se basan en procesos especficos del negocio y estn vinculadas a las dimensiones, que forman la arquitectura de bus data warehouse.
de datos. Es una aplicacin progresiva de las reas temticas, de acuerdo con las prioridades establecidas.