Você está na página 1de 6

Ento o que um Data Warehouse ? Por Willian H.

. Inmon "Data Warehouse um banco de dados orientado por assunto, integrado, no voltil e histrico, criado para suportar o processo de tomada de deciso." Fig. 1: O que um Data Warehouse? O dado entra no Data Warehouse vindo de um ambiente operacional em quase todos os casos. O Data Warehouse sempre um armazenamento de dados transformados, separados fisicamente do ambiente operacional e da fonte do dado da aplicao. Esta definio de um Data Warehouse (por W. H. Inmon) merece uma completa explanao, porque existem alguns detalhes importantes e sutilezas bsicas nas caractersticas de um Warehouse. Orientado por Assunto

A primeira caracterstica de um Data Warehouse que ele est orientado ao redor do principal assunto da organizao. O percurso do dado, orientado ao assunto est em contraste com a mais clssica das aplicaes orientadas por processos/funces ao redor dos quais os sistemas operacionais mais antigos esto organizados. Figura 2 mostra o contraste entre os dois tipos de orientaes. Figura 2: O Data Warehouse tem uma forte orientao por assunto

O mundo operacional est desenhado ao redor de aplicaes e funes de uma instituio financeira assim como: emprstimo, crdito, carto bancrio. O mundo do Data Warehouse est organizado ao redor do principal assunto assim como cliente, vendas, produtos e atividades. O alinhamento ao redor das reas de

assunto afetam o desenho e implementao do dado criado no Data Warehouse. A rea de assunto mais influente a parte mais importante da estrutura chave. O mundo das aplicaes est preocupado com o desenho de processos e de banco de dados. O mundo do Data Warehouse est focado exclusivamente na modelagem de dados e desenho do banco de dados. Desenho de processos (como na forma clssica) no parte de um ambiente de Data Warehouse. As diferenas entre aplicaes orientadas por processos/funes e as orientadas por assunto mostra as diferenas no contedo dos dados e no nvel de detalhes dos mesmos. No Data Warehouse so excludos os dados que no devem ser usados no processo de DSS( Sistemas de Suporte a Deciso), enquanto no ambiente operacional as aplicaes contm dados para satisfazer imediatamente as requisies funcionais/processamento que podem ou no ser usadas para anlise de DSS. Outra importante maneira na qual os dados operacionais das aplicaes diferem dos dados para Data Warehouse est no relacionamento dos dados. Dados operacionais mantm relacionamentos entre duas ou mais tabelas baseadas nas regras de negcio que esto em efeito. Dados do Data Warehouse usam um espectro de tempo e os relacionamentos criados no Data Warehouse so muitos. Muitas regras de negcio so representadas no Data Warehouse entre duas ou mais tabelas. Integrado

Facilmente o mais importante aspecto do ambiente de Data Warehouse que dados criados dentro de um ambiente de Data Warehouse so integrados. SEMPRE. COM NENHUMA EXCEO. A melhor essncia do ambiente de warehouse que dados contidos dentro dos limites do warehouse esto integrados. A integrao mostra-se em muitas diferentes maneiras: na conveno consistente de nomes, na forma consistente das variveis, na estrutura consistente de cdigos, nos atributos fsicos consistente dos dados, e assim por diante. Contrastes e diferenas ao construir integrao dentro do Data Warehouse com a falta de integrao criada no ambiente das aplicaes, so totais assim como mostrado pela figura 3

Fig. 3: Como dado orientado para aplicaes movido para Data Warehouse A habilidade coletiva de muitos arquitetos de aplicaes em criar aplicaes inconsistentes legendrio. Figura 3 mostra algumas das muitas diferenas importantes na maneira como as aplicaes so desenhadas. Codificao - desenvolvedores de aplicaes tm preferido codificar o campo SEXO de diferentes maneiras. Um desenvolvedor representa SEXO com um "M" e um "F". Outro desenvolvedor de aplicao representa SEXO com um "1" e um "0". Outro desenvolvedor de aplicao representa SEXO com um "x" e um "y". E ainda outro desenvolvedor de aplicao representa SEXO com "masculino" e "feminino". "M" e "F" so provalvelmente bons para algumas representaes. Entretanto quando SEXO carregado para o Data Warehouse de uma aplicao onde tem sido representado em outro formato que no "M" e "F", o dado deve ser convertido para o formato do Data Warehouse. Forma dos atributos - desenvolvedores de aplicaes tm preferido ao longo dos anos usar uma variedade de medidas. Um desenvolvedor armazena dados em centmetros. Outro desenvolvedor armazena em polegadas. Outro desenvolvedor de aplicao armazena dados em milhes de ps cbicos por segundo. E outro desenvolvedor armazena informaes em termos de jardas. Quando a informao chega no Data Warehouse necessrio ser mensurada de algum modo.

Figura 4 Como mostra a figura 3, o uso da integrao afeta sempre alguns aspectos do desenho, as caractersticas fsicas do dado, o dilema de ter mais de uma fonte do dado, o uso de padres de nomes inconsistentes, formatos de dados inconsistentes, e assim por diante. Enquanto o analista de DSS olha o Data Warehouse, o foco do analista deve ser no uso do dado que est no Data Warehouse, melhor que surpreender-se sobre a credibilidade ou consistncia do dado. Histrico

Todo dado no Data Warehouse exato em algum momento do tempo. A caracterstica bsica do dado em warehouse ter muitas fontes de dados diferentes no ambiente operacional. No ambiente operacional o dado exato no momento do acesso. Em outras palavras, no ambiente operacional quando voc acessa uma unidade do dado, voc espera que isto deva refletir os valores corretos no momento do acesso.

Por causa do dado em Data Warehouse ser exato em algum momento do tempo (isto , no "correto no momento"), dado criado no warehouse dito ser "histrico". Figura 4 mostra os valores histricos do dado no warehouse. Os valores histricos dos dados no Data Warehouse so mostrados em vrias maneiras. O modo mais simples que o dado no Data Warehouse representa os dados sobre um horizonte de tempo distante - de 5 at 10 anos. O horizonte de tempo representado pelo ambiente operacional muito curto - do valor corrente do dia at o sexto ou nono dia. O segundo modo que "histrico" mostrado no Data Warehouse na estrutura chave. Sempre na estrutura chave do Data Warehouse existe - explicitamente ou implicitamente - um elemento de tempo, assim como dia, semana, meses, etc. O elemento de tempo est quase sempre no final da chave concatenada criada no Data Warehouse. Em certas ocasies, o elemento de tempo dever existir implicitamente, assim como no caso onde um arquivo todo duplicado no final do ms. A terceira maneira que "histrico" aparece no Data Warehouse, uma vez o registro estando correto, no pode ser atualizado. Dado no Data Warehouse e, para todos os propsitos prticos, uma srie longa de snapshots. Naturalmente se os snapshots do dado tm sido feitos incorretamente, eles no so alterados uma vez feitos. Em alguns casos isto pode ser sempre ilegal podendo os snapshots no Data Warehouse serem alterados. Dados operacionais, iniciam pontualmente no momento do acesso, podendo ser atualizados quando surgir a necessidade. No Voltil

A quarta caracterstica definida para um Data Warehouse que ele no voltil. Figura 5 ilustra este aspecto no Data Warehouse.

Figura 5 Na figura 5 abaixo, mostra que atualizaes - incluso excluso, e alterao - so feitas regularmente no ambiente operacional de um registro bsico. Mas a manipulao de dados bsicos que ocorre no Data Warehouse mais simples. Tem somente duas espcies de operaes que ocorre no Data Warehouse - a carga inicial do dado, e o acesso ao dado. Esta no uma atualizao do dado (no sentido geral de atualizao) no Data Warehouse como parte normal do processamento. Estas so mais algumas das diferenas bsicas entre processamento operacional e processamento do Data Warehouse. Para o nvel de desenho, existe a necessidade de ter cautela nas atualizaes anormais, o que no um fato importante no Data Warehouse, atualizaes neste dado no so feitas. Existem meios para que no nvel fsico do desenho, permisses possam ser feitas para otimizar o acesso ao dado, particularmente em procedimentos com o uso de normalizao e desnormalizao fsica. Outras conseqncias da simplicidade das operaes do Data Warehouse esto na tecnologia bsica usada para rodar no ambiente de Data Warehouse. Como suporte para atualizao de registro por registro em modo on-line requer uma tecnologia com uma fundamentao muito complexa em baixo da simplicidade de uso. A tecnologia que suporte backup, recovery, transao com integridade do dado, a deteco e correo de deadlock muito complexa. Isto no necessrio para processamento de Data Warehouse. As caractersticas de um Data Warehouse - desenho orientado ao assunto, integrao dos dados com o Data Warehouse, histrico, e simplicidade de gerenciamento dos dados - todos conduzem para um ambiente que MUITO, MUITO diferente do ambiente operacional bsico. A fonte para aproximar todos os dados do Data Warehouse o ambiente operacional. Isto uma tentao para pensar que isto mais uma redundncia do dado entre os dois ambientes. De fato, na primeira impresso muitas pessoas acham que uma grande redundncia de dados entre o ambiente operacional e o ambiente de Data Warehouse. Mas este entendimento superficial a necessidade de demonstrar o que est ocorrendo no Data Warehouse. Em fato, este um MNIMO de redundncia do dado entre o ambiente operacional e o ambiente de Data Warehouse. Considere o seguinte: dado filtrado quando passa do ambiente operacional para o ambiente de Data Warehouse. Muitos dados nunca saem do ambiente operacional. Somente o dado que necessrio para o processamento do DSS encontrado no ambiente warehouse; o histrico do dado muito diferente de um ambiente para outro. Dado no ambiente operacional muito recente. Dado no warehouse muito antigo. S na perspectiva de histrico recente, muito pequeno o overlap entre o ambiente operacional e o ambiente de Data Warehouse; o Data Warehouse contm dados sumarizados que nunca so encontrado no ambiente operacional; dados sofrem uma fundamental transformao ao passar para o Data Warehouse. Figura 3 mostra que muitos dados so alterados significativamente aps serem selecionados e movidos para o Data Warehouse. Dito de outra maneira, muitos dados so fisicamente e radicalmente alterados quando movidos para o warehouse. Estes dados no so os mesmos que residem no ambiente operacional do ponto de vista de integrao.

Para clarear esses fatores, redundncia de dados entre os dois ambientes uma ocorrncia rara, resultando em menos que 1% de redundncia entre os dois ambientes.