Você está na página 1de 5

Seria a Modelagem Dimensional uma bala de prata?

A discusso entorno das diferentes abordagens de modelagem para data warehouses no um assunto novo, mas continua causando confuses nas cabeas de quem est conhecendo o assunto agora e at mesmo de quem j conhece. O objetivo aqui no comparar as abordagens de Kimball vs. Inmon, como muito comum encontrar nas bibliografias sobre Business Intelligence. O nosso objetivo apresentar o manifesto sobre a modelagem dimensional publicado por Ralph Kimball em 1997, com uma pequena introduo ao assunto, e os questionamentos sobre suas polmicas declaraes, apresentando ps e contras de dois profissionais e pesquisadores especialistas no assunto, Bill Inmon e Rob Armstrong. A modelagem dimensional tem sido amplamente utilizada nos projetos de BI e data warehouse de grandes a pequenas organizaes. Vamos tentar mostrar que no h uma bala de prata (como aquelas que matam lobisomens) para projetos de data warehouses, mas sim deve haver um bom senso na sua modelagem, sempre com a viso da necessidade do negcio. O Manifesto de Ralph Kimball sobre Modelagem Dimensional Modelagem Dimensional (Dimensional Modeling - DM) o nome de uma tcnica de design lgico frequentemente utilizada em data warehouses. Esta tcnica diferente e contrasta com a modelagem do tipo entidade-relacionamentos (Entity Relationship - ER). Modelagem ER uma tcnica de design lgico que visa remover a redundncia de dados. O estado da arte na modelagem ER a remoo de toda a redundncia de dados, que altamente benfico para o processamento de transaes. O sucesso do processamento de transaes em bancos de dados relacionais , principalmente, devido tcnica de modelagem ER. Para Kimball, em nosso zelo em tornar altamente eficiente o processamento de transaes, acabamos por criar bases de dados que no podem ser consultadas. Simples modelos de dados tornam-se difceis de compreender. O modelo ER das organizaes possui centenas, ou at milhares de entidades lgicas. Kimball argumenta que diante desse cenrio os usurios finais no conseguem entender ou lembrar-se do modelo ER e, ainda, no podem navegar no modelo, softwares no podem facilmente consultar um modelo ER e, por fim, o uso do modelo ER vai de encontro com o fascnio do data warehousing, que a recuperao de dados de forma intuitiva e de alta performance. Modelagem Dimensional (MD), uma tcnica de design lgico que busca apresentar os dados dentro de um padro, um framework intuitivo que permite um acesso aos dados com alta performance. naturalmente dimensional e adere ao modelo relacional com algumas importantes restries. Cada modelo dimensional composto de uma tabela de chave composta chamada de tabela de fatos e um conjunto de tabelas chamadas de dimenso. Cada tabela de dimenso possui uma chave que corresponde a uma das chaves da tabela de fatos. Essa estrutura em estrela comumente chamada de star-join (ou star-schema modelo estrela). Os fatos mais teis e uma tabela de fatos so numricos e aditivos. Para Kimball a aditividade crucial, pois os sistemas de data warehouse quase nunca recuperam um registro de cada vez de uma tabela de fatos, e vez disso buscam centenas de milhares de registros ao mesmo tempo e a nica coisa til a fazer com tantos registros sumariz-los.

As tabelas de dimenso, pelo contrrio, na maioria das vezes contm informaes descritivas em forma de texto. Os atributos de uma tabela de dimenso so utilizados como a maior fonte de constraints em consultas no data warehouse e so praticamente sempre a fonte das linhas de cabealho de um conjunto de dados retornados por uma consulta SQL. Kimball aponta algumas foras do Modelo Dimensional: O MD previsvel e possui um framework padro. Por ser previsvel e possuir um framework padro o MD oferece grandes vantagens de processamento. O MD resistente a mudanas inesperadas no comportamento do usurio. Cada dimenso equivalente. Todas as dimenses podem ser pensadas como pontos de entrada simetricamente iguais na tabela de fatos. O projeto lgico pode ser feito independente de padres de consulta previstos. As interfaces de usurio so simtricas, as estratgias de consulta so simtricas e o SQL gerado contra o modelo dimensional simtrico. O MD extensvel para acomodar novos elementos de dados e novos modelos de decises. No MD h um corpo de abordagens padro para a manipulao de situaes comuns de modelagem no mundo dos negcios. Crescente nmero de ferramentas e utilitrios que manipulam e utilizam as agregaes. Segundo Kimball, se o MD no for utilizado no h como beneficiar-se de tais ferramentas.

Kimball aponta ainda alguns mitos sobre o Modelo Dimensional e responde a cada uma das questes: Implementar um Modelo Dimensional levar a um afunilamento dos sistemas de suporte a deciso. Este mito culpa a desnormalizao para suportar somente aplicaes especficas, que no pode ser alterado. Para Kimball isto ocorre devido a uma viso mope do designer que modelou a tabela fato com dados prematuramente agregados. Ningum entende de modelagem dimensional. Um absurdo para Kimball, que relata que existem centenas de milhares de modelos dimensionais por todo o mundo. Modelos Dimensionais trabalham apenas como bancos de dados de varejo. Este mito est enraizado nas origens histricas da modelagem dimensional, mas no na sua realidade atual. A Modelagem dimensional tem sido aplicada em diversas reas de negcio. Snowflaking uma alternativa para a modelagem dimensional. Kimball acredita que snowflaking um enfeite para a limpeza do modelo bsico dimensional. O argumento de que snowflaking ajuda na manuteno da tabela de dimenso ilusrio. Problemas de manuteno so realmente aproveitados por disciplinas ER, mas tudo isso acontece no banco de dados de armazenamento de dados operacionais (ODS - operational data store), antes dos dados serem carregados no esquema dimensional. Modelagem Dimensional s funciona para certos tipos de data-marts de um nico tipo de assunto. Para Kimball isto uma tentativa de marginalizar a modelagem dimensional por pessoas que no entendem o seu poder fundamental e aplicabilidade. Modelagem

dimensional a tcnica apropriada para o projeto global de um completo data warehouse de nvel empresarial. Kimball acredita firmemente que a modelagem dimensional a nica tcnica vivel para projetar bancos de dados entregveis aos usurios finais e que ER anula a entrega ao usurio final e no pode ser utilizado para este propsito, pois a modelagem ER no possui regras de negcio, tem regras de dados. Em seu manifesto, Kimball o encerra afirmando que o modelo dimensional a nica tcnica vivel para alcanar tanto o entendimento do usurio e alto desempenho de consulta em face de questes em constante mudana do usurio. As respostas de Armstrong e Inmon para o manifesto de Kimball Para Rob Armstrong toda a questo do custo de junes de tabelas e sumarizao de grandes volumes de dados levou ao conceito que o modelo dimensional necessrio para o acesso ao usurio final. O maior problema com o modelo dimensional que eles so projetados com base em fatores que so bem conhecidos e no so adaptveis a novos relacionamentos, que podem ser descobertos e de fato desencorajam a descoberta de tais relaes. A abordagem DM no suporta metas de longo prazo do data warehouse. Em contrapartida o modelo ER fornece a base para a natureza transacional do data warehouse e nas mos de um banco de dados capaz, permite a verdadeira anlise exploratria tal como minerao de dados (data mining). Armstrong questiona os seguintes pontos do manifesto de Kimball: Modelos ER no possuem regras de negcio, mas sim regras de dados. A finalidade de um modelo de dados para modelar as entidades dos dados e relaes que ligam essas entidades. Cabe ao usurio decidir como eles gostariam de manipular e explorar essas relaes e conduzir ao poder de minerao de dados. O star-join (aquele em que o produto cartesiano das dimenses usado para acessar o fato tabela) uma tcnica mais eficaz. Apesar de ser uma unio valiosa, restringir o modelo para permitir apenas este tipo de acesso um erro. O star-join uma tcnica de juno no uma abordagem de modelagem. Os usurios no podem navegar por um modelo ER. Usurios finais no precisam saber como navegar em um modelo de dados. Estes devem preocupar-se com as ferramentas que acessam as bases de dados. A falta de boas ferramentas de navegao que o problema. O uso da modelagem ER acaba com o fascnio do data warehouse, que intuitivo e de alta performance na recuperao de dados. As tcnicas de data warehousing preocupam-se com capacidade e no performance. O verdadeiro data warehousing permite aos usurios fazer perguntas desconhecidas. O verdadeiro fascnio do data warehousing que os usurios podem fazer novas perguntas e ter novas idias.

Armstrong concorda com Kimball que a modelagem dimensional deve ser utilizada em data marts conhecidos, onde haver consultas repetitivas que podem ser previamente planejadas e necessitam de um tempo de resposta rpido. Ao construir um data mart um trade-off deve ocorrer, se o usurio identificar que sumarizar dados, possuir caminhos de agregao e rpida respostas nas consultas so fatores mais importantes que flexibilidade no acesso e busca de conhecimento em seus dados, ento DM o mais apropriado.

Bill Inmon concorda que em termos de requisitos de captura para a anlise de sistemas de suporte deciso, o modelo dimensional , sem dvida, a melhor tcnica para o projeto que existe. Os starjoins so timos para representar as vises que as pessoas tm em suas mentes, mas diferentes grupos de pessoas querem seus prprios star-joins. O modelo estrela desenhado de acordo com os requisitos do usurio e os requisitos podem variar de um usurio para outro dentro da organizao, logo diferentes modelos podem ser ideais para diferentes tipos de usurios. Para Inmon, h uma sria de razes onde cada departamento dentro da organizao precisa de seu prprio modelo estrela, como a seqncia dos dados, definio dos dados, granularidade, relacionamento entre dados e tempo. Inmon categrico ao dizer que a maneira que diferentes departamentos dentro da organizao visualizam o negcio como seis homens cegos descrevem um elefante, isto porque cada um toca uma parte do elefante. Assim com os departamentos de uma organizao, cada um executa uma parte do negcio da sua forma. O modelo estrela ideal para um departamento quase ideal (ou reconhecvel) para outro departamento. O resultado que devido natureza em que o negcio executado, diferentes departamentos necessitam de diferentes modelos estrela. Quando h uma proliferao de modelos estrela dentro da organizao diversos problemas comeam a surgir como a replicao dos mesmos dados entre os modelos gerando crescimento desnecessrio de dados, resultados inconsistentes entre os modelos e perda de controle sobre as aplicaes que consomem os dados dos diferentes modelos. Para Inmon, o modelo dimensional encaixa-se muito bem na criao de data-marts, onde requisitos para o processamento so conhecidos antes da construo da infra-estrutura, mas no encaixa-se em todos os lugares, quando trata-se de dados fundamentais a histria outra. Concluso O modelo dimensional no uma bala de prata. Conforme Inmon e Armstrong apontaram, existem questes discutveis na essncia do modelo dimensional. O modelo dimensional uma abordagem factvel e ideal para a construo de data-marts, quando os requisitos so conhecidos e orientados a um segmento do negcio, no para o data warehouse. Analisando a semntica do termo data warehouse, onde este banco de dados um verdadeiro armazm de dados, este armazm no deve ser orientado a qualquer processo de negcio dentro da organizao. O objetivo deste armazm acomodar historicamente os dados da organizao e a partir dele fornecer subsdios para o suporte tomada de decises. A abordagem deste suporte pode ser atravs de abordagens como data-mart, que orientado a processos de negcio, data mining, para descoberta de padres e conhecimento ou qualquer outra que melhor se encaixe s necessidades do negcio. Ao implantar um projeto de data warehouse ao invs de fazer perguntas como Como vamos construir o data warehouse? ou Qual abordagem iremos utilizar?, deve-se perguntar Qual a necessidade do negcio? ou Quais problemas de negcio iremos resolver?. importante sempre ter em mente que o data warehouse o pilar de sustentao dos sistemas de suporte deciso dentro da organizao, o caminho para a resoluo dos problemas da organizao vai variar de acordo com a necessidade do negcio. Referncias A Dimensional Modeling Manifesto, KIMBALL, R., 1997 Responding to Raph: A Rebuttal to the Dimensional Modeling Manifesto, ARMSTRONG, R., 1997

The Problem with Dimensional Modeling, INMONN, W., 2000

Você também pode gostar