Você está na página 1de 8

Data Warehouse x Data Mart

Construir um projeto de Data Warehouse (DW) dispendioso e demora um bom tempo. Tudo depende do tamanho da empresa, do nmero de bases de dados que iro integrar o projeto, interfaces com outros sistemas, quantidade de pessoas na equipe, comprometimento e dedicao para implementao, ferramentas utilizadas, etc. Percebendo isso, os arquitetos, resolveram segmentar a construo do DW, comeando por departamentos a criao do mesmo. Ao invs de fazer o caminho tradicional, que construir um DW e a partir dele os Data Marts (DM), fizeram o contrrio. Comeava-se pelos DMs e esses iriam fazer a alimentao no Data Warehouse (DW). As vantagens so muitas. A principal o tempo de implementao. H alguns casos que um DM para rea comercial foi construdo em apenas 3 meses. Os Data Marts so bancos de dados modelados multidimensionalmente, orientados aos departamentos de uma empresa, por exemplo, a rea comercial, financeira, marketing e logstica construram vrios Data Marts (DM) cada uma. Ao final de dois anos, eles passaram a alimentar um DW que depois de implementado, passou a fazer o caminho inverso, que de alimentar os DM. Ento com essa fundamentao, podemos definir que os DM podem surgir de duas maneiras.

Top-down: quando a empresa cria um DW e depois parte para a segmentao, ou seja, divide o DW em reas menores gerando assim pequenos bancos orientados por assuntos aos departamentos.

Botton-up: quando a situao inversa. A empresa por estratgia sua, prefere primeiro criar um banco de dados para somente uma rea. Com isso os custos so bem inferiores de um projeto de DW completo. A partir da visualizao dos primeiros resultados parte para outra rea e assim sucessivamente at resultar em um Data Warehouse. Ou seja, podemos ir comprandos gavetas a medida que for necessrio, no final teremos um fichrio. Ou podemos comprar um grande fichrio e ir preenchendo as gavetas. A infra-estrutura de software e hardware semelhante, porm a arquitetura dos dados pode ser bem diferente. No DW podemos ter o modelo de dados hbrido ou pode ser completamente relacional, j no DM o modelo totalmente dimensional. A complexidade de tratamento das informaes no DW so maiores, porque temos de olhar toda a estrutura da empresa, j no DM fica mais fcil, pois estamos olhando apenas uma parte dela. Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor soluo. Ralph Kimball um defensor da teoria de que o DW deve ser dividido para depois ser conquistado, ou seja, que o mais vivel para as empresas desenvolver vrios Data Marts para posteriormente integr-los e, assim, chegar-se ao DW. Na sua avaliao, as empresas devem construir Data Marts orientados por assuntos. Ao final, teriam uma srie de pontos de conexo entre eles, que seriam as tabelas Fato e Dimens o em conformidade. Dessa forma, informaes entre os diferentes Data Marts poderiam ser geradas de maneira ntegra e segura. Kimball batizou esse conceito de Data Warehouse Bus Architeture. Bill Inmon rebate essa teoria e prope justamente o contrrio. Na sua avaliao deve-se construir primeiro um Data Warehouse, modelando-se toda a empresa para se chegar a um nico modelo corporativo, partindo-se posteriormente para os Data Marts construdos por assuntos ou departamentais. Inmon defende a idia de que o ponto de partida seriam os CIF Corporate Information Factory uma infra-estrutura ideal para ambientar os dados da empresa. O CIF seria alimentado pelos sistemas transacionais. A construo de um ODS (Operational Data Store) seria facultativa, mas essa iniciativa ajudaria a reduzir a complexidade da construo de um DW, uma vez que todo o esforo de integrao entre os sistemas transacionais da empresa seria depositado nele. Os principais passos tomados ao longo da construo de um Data Mart so: Projetar Construir Popular Acessar Gerenciar

Projetar Este o primeiro passo no processo de implementao de um Data Mart. Esta etapa abrange desde a requisio do Data Mart, passando pela coleta de informaes sobre os requisitos at o desenvolvimento das estruturas fsica e lgica do Data Mart. Construir Este passo inclui a criao do banco de dados fsico e de todas as estruturas lgicas que permitiro acesso rpido e eficiente aos dados.

Popular Popular o Data Mart engloba extrair os dados das fontes, filtr-los, modificar toda a informao coletada at a mesma atingir o formato e o nvel de detalhe desejados e mover o resultado para o Data Mart em si. Acessar Esta etapa envolve o uso dos dados armazenados: consultar, analisar, criar relatrios, grficos e public-los. O usurio geralmente utiliza uma interface grfica para consultar o banco de dados e visualizar os resultados das operaes. Gerenciar Este passo envolve a manuteno do Data Mart durante todo seu ciclo de vida. Efetua-se controle de acesso, otimizao de performance, gerenciar o crescimento do data mart e recuperao de falhas.

Construo de Data Warehouse (DW) e Data Mart (DM)


16 de janeiro de 2009 por Peeter Bonomo Construir um projeto de Data Warehouse (DW) dispendioso e demora um bom tempo. Tudo depende do tamanho da empresa, do nmero de bases de dados que iro integrar o projeto, interfaces com outros sistemas, quantidade de pessoas na equipe, comprometimento e dedicao para implementao, ferramentas utilizadas, etc. Percebendo isso, os arquitetos resolveram segmentar a construo do DW, comeando por departamentos at a criao do mesmo. Ao invs de fazer o caminho tradicional, que construir um DW e a partir dele os Data Marts (DMs), fizeram o contrrio. Comeava-se pelos DMs e esses iriam fazer a alimentao no Data Warehouse (DW). As vantagens so muitas. A principal o tempo de implementao. H alguns casos em que um DM para rea comercial foi construdo em apenas 3 meses. Os Data Marts so bancos de dados modelados multidimensionalmente, orientados aos departamentos de uma empresa, por exemplo, a rea comercial, financeira, marketing e logstica construram vrios Data Marts (DMs) cada uma. Ao final de dois anos, eles passaram a alimentar um DW que, depois de implementado, passou a fazer o caminho inverso, que de alimentar os DMs. Ento com essa fundamentao, podemos definir que os DMs podem surgir de duas maneiras. A primeira top-down e a segunda a botton-up.

Top-down: quando a empresa cria um DW e depois parte para a segmentao, ou seja, divide o DW em reas menores gerando assim pequenos bancos orientados por assuntos aos departamentos. Botton-up: quando a situao inversa. A empresa, por estratgia sua, prefere primeiro criar um banco de dados para somente uma rea. Com isso os custos so bem inferiores de um projeto de DW completo. A partir da visualizao dos primeiros

resultados parte para outra rea e assim sucessivamente at resultar em um Data Warehouse. A infra-estrutura de software e hardware semelhante, porm a arquitetura dos dados pode ser bem diferente. No DW podemos ter o modelo de dados hbrido ou pode ser completamente relacional, j no DM o modelo totalmente dimensional. A complexidade de tratamento das informaes no DW maior, porque temos de olhar toda a estrutura da empresa, j no DM fica mais fcil, pois estamos olhando apenas uma parte dela. Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor soluo. Segundo estimativas, enquanto um Data Mart custa em torno de US$ 100 mil a US$ 1 milho e leva cerca de 120 dias para estar pronto, um DW integral comea em torno dos US$ 2 milhes e leva cerca de um ano para estar com a sua primeira verso em produo.

reas de Armazenamento

Staging (Staging rea)


Recepo de dados Sem ndices, sem constraints Carga rpida (bulk loading) Voltil

Data Warehouse (DW)


Dados integrados e organizados por assunto Histrico de informaes da empresa Esquema estrela (fatos e dimenses) No-Voltil Metadados

Grande volume de dados

Data Mart (DM)


Dados agregados No possui necessariamente um histrico das informaes Esquema estrela (fatos e dimenses) Pode ser reconstrudo a partir dos dados existentes no DW Pequeno volume de dados Otimizado para consultas pontuais

Tecnologias Utilizadas

Banco de dados (Relacional ou Multi-dimensional) ETL (Extract, Transform and Load) OLAP (On Line Analytical Processing) Data-Mining Importante: Todas essas tecnologias citadas acima tm as suas ferramentas e especializaes adequadas ao negcio. A ltima camada de anlise e mensurao dos dados, o Data Mining (Minerao dos Dados), responsvel por extrair informaes de grandes bancos de dados operacionais para construir segmentos e desenvolver modelos preditivos que so mais adequados para responder pergunta de negcio em mos e existem ferramentas para tal, porm falaremos mais sobre isso nos prximos artigos.

Formas de Construir um DW Inmon x Kimball

Modelagem Multidimensional
uma tcnica de concepo e visualizao de um modelo de dados de um conjunto de medidas que descrevem aspectos comuns de negcios. utilizada especialmente para sumarizar e reestruturar dados e apresent-los em vises (camada de apresentao) que suportam a anlise dos valores desses dados.

Exemplo de modelo dimensional do Data Warehouse: Um modelo multidimensional formado por 3 elementos bsicos:

Fatos Dimenses Medidas (varives)

Outro Exemplo de Modelo Dimensional

Fatos um coleo de itens de dados, composta de dados de medidas e de contexto. Cada fato representa um item, uma transao ou um evento de negcio e utilizado para analisar o processo de negcio de uma empresa. tudo aquilo que reflete a evoluo dos negcios do dia-a-dia de uma organizao. Caractersticas: representada por valores numricos

Implementados em tabelas denominadas tabelas de fato (fact tables)

Dimenses So elementos que participam de um fato, assunto de negcios. So possveis formas de visualizar os dados, ou seja, so os por dos dados: por ms, por pas, por produto, por regio, por funcionrio, e por a vai Dimenses normalmente no possuem atributos numricos, pois so somente descritivas e classificatrias dos elementos que participam de um fato.

Tipos de Dimenses
Dimenso Normal Novas linhas criadas, sem deleo

SCD Tipo 1 Sem preservao de histrico

SCD Tipo 2 Preservao ilimitada de histrico Novas linhas criadas Coluna de status

SCD Tipo 3 Reteno de histrico limitada Dois estados so preservados: novo e antigo Nova coluna criada

Medidas (variveis)
So os atributos numricos que representam um fato, a performance de um indicador de negcios relativo s dimenses que participam desse fato, e que tais nmeros so denominados de variveis. Segundo Kimball, desenvolver um Data Warehouse um questo de casar as necessidades dos seus usurios com a realidade dos dados disponveis. Bom, espero ter acrescentado mais sobre Ambientes de BI bem como os princpio bsicos de construo de DW e DM. Nos prximos assuntos, estarei abordando sobre Arquitetura de DW. At a prxima!