Você está na página 1de 10

Data Warehouse

Um data warehouse ou armazm de dados, ou ainda depsito de dados, um sistema de computao utilizado para armazenar informaes relativas s atividades de uma organizao em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatrios, a anlise de grandes volumes de dados e a obteno de informaes estratgicas que podem facilitar a tomada de deciso. O data warehouse possibilita a anlise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). So as chamadas sries histricas que possibilitam uma melhor anlise de eventos passados, oferecendo suporte s tomadas de decises presentes e a previso de eventos futuros. Por definio, os dados em um data warehouse no so volteis, ou seja, eles no mudam, salvo quando necessrio fazer correes de dados previamente carregados. Os dados esto disponveis somente para leitura e no podem ser alterados. A ferramenta mais popular para explorao de um data warehouse a Online Analytical Processing OLAP ou Processo Analtico em Tempo Real, mas muitas outras podem ser usadas. Os data warehouse surgiram como conceito acadmico na dcada de 80. Com o amadurecimento dos sistemas de informao empresariais, as necessidades de anlise dos dados cresceram paralelamente. Os sistemas OLTP no conseguiam cumprir a tarefa de anlise com a simples gerao de relatrios. Nesse contexto, a implementao do data warehousepassou a se tornar realidade nas grandes corporaes. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu ento, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilizao. Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados,o data warehouse o ncleo dos sistemas de informaes gerenciais e apoio deciso das principais solues de business intelligence do mercado.

Arquitetura Data Warehouse O Armazenamento O armazenamento se d num depsito nico, que seja de rpido acesso para as anlises. Tal armazenamento conter dados histricos advindos de bancos de dados

transacionais que servem como backend de sistemas como ERPs e CRMs. Quanto mais dados do histrico das operaes da empresa, melhor ser para que a anlise destas informaes reflita o momento da empresa. Modelagem Multidimensional Os sistemas de base de dados tradicionais utilizam a normalizao no formato de dados para garantir consistncia dos dados, minimizao do espao de armazenamento necessrio e diminuio (reduo) de redundncias, que devem ser verificadas antes da concluso do modelo de dados. Um Data Warehouse utiliza dados em formato de-normalizados. Isto aumenta o desempenho das consultas e como benefcio adicional, o processo torna-se mais intuitivo para os utilizadores comuns. Essa maneira de reordenar os dados chamase Modelagem Dimensional, e o resultado da modelagem o Modelo Dimensional, ou MD. Entretanto, algumas transaes e consultas em bases de dados normalizadas podem se tornar lentas devido s operaes de juno entre tabelas (JOIN). Metadado O conceito Metadado considerado como sendo os "dados sobre dados", isto , os dados sobre os sistemas que operam com estes dados. Um repositrio de metadados uma ferramenta essencial para o gerenciamento de um Data Warehouse no momento de converter dados em informaes para o negcio. Entre outras coisas, um repositrio de metadados bem construdo deve conter informaes sobre a origem dos dados, regras de transformao, nomes e alias, formatos de dados, etc. Ou seja, esse "dicionrio" deve conter muito mais do que as descries de colunas e tabelas: deve conter informaes que adicionem valor aos dados.

Tipo de Informao considerada Metadado Os metadados so utilizados normalmente como um dicionrio de informaes e, sendo assim, devem incluir:

ORIGEM DOS DADOS - Todo elemento de dado precisa de identificao, sua origem ou o processo que o gera. Esta identificao muito importante no caso da necessidade de saber informaes sobre a fonte geradora do dado. Esta informao deve ser nica, ou seja, cada dado deve ter uma e somente uma fonte de origem.

FLUXO DE DADOS - Todo elemento de dado precisa ter identificado os fluxos nos quais sofre transformaes. importante saber que dados servem de base para que processos sejam executados.

FORMATO DOS DADOS - Todo elemento de dados deve ter identificado seu tamanho e tipo de dado. NOMES E ALIAS - Todo elemento de dados deve ser identificado por um nome. Este nome pode ser da rea de Negcios ou um nome tcnico. No caso de serem usados alias para os nomes, pode-se ter os dois. Devem existir padres para criao de nomes e alias (ex.: convenes para abreviaes), evitando assim ambigidades.

DEFINIES DE NEGCIO - Estas definies so as informaes mais importantes contidas nos metadados. Cada elemento de dado deve ser suportado por uma definio do mesmo no contexto da rea de Negcio. O mtodo de manuteno destas informaes tambm deve ser muito consistente, de forma que o usurio possa obter facilmente definies para as informaes desejadas. Nestas definies devem ser evitadas referncias a outros metadados que necessitem de uma segunda pesquisa para melhor entendimento.

REGRAS DE TRANSFORMAO - So consideradas como sendo as Regras de Negcio codificadas. Estas regras so geradas no momento da extrao, limpeza e agrupamento dos dados dos Sistemas Operacionais. Cada regra de transformao codificada deve estar associada a um elemento de Metadado. Se mais de uma aplicao contiver a mesma regra de transformao, dever ser garantido que estas sejam idnticas.

ATUALIZAO DE DADOS - O histrico das atualizaes normalmente mantido pelo prprio banco de dados, mas definir um elemento de metadado, indicando as datas de atualizao dos dados, pode ajudar o usurio no momento de verificar a atualidade dos dados e a consistncia da dimenso tempo do Data Warehouse.

REQUISITOS DE TESTE - Identifica os critrios de julgamento de cada elemento de dado. Valores possveis e intervalos de atuao. Deve conter tambm padres para procedimentos de teste destes dados.

INDICADORES DE QUALIDADE DE DADOS - Podem ser criados ndices de qualidade baseados na origem do dado, nmero de processamentos feito sobre este dado, valores atmicos X valores sumariados, nvel de utilizao do dado, etc.

TRIGGERS AUTOMTICOS - Podem existir processos automticos associados aos metadados definidos. Estes processos ou triggers devem estar definidos de forma que possam ser consultados por usurio e desenvolvedores, para que os mesmos no venham a criar situaes conflitantes entre as regras definidas nestes processos.

RESPONSABILIDADE SOBRE INFORMAES - Deve ser identificado o responsvel por cada elemento de dados do Data Warehouse e tambm o responsvel pela entrada de metadados.

ACESSO E SEGURANA - Os metadados devem conter informao suficiente para que sejam determinados os perfis de acesso aos dados. Deve-se poder identificar que usurios podem ler, atualizar, excluir ou inserir dados na base. Deve haver, tambm, informaes sobre quem gerencia estes perfis de acesso e como se fazer contato com o Administrador da Base de Dados.

Data Marts O Data Warehouse normalmente acedido atravs de Data Marts, que so pontos especficos de acesso a subconjuntos do Data Warehouse. Os Data Marts so construdos para responder provveis perguntas de um tipo especfico de usurio. Por exemplo: um Data Mart financeiro poderia armazenar informaes consolidadas dia-adia para um usurio gerencial e em periodicidades maiores (semana, ms, ano) para um usurio no nvel da diretoria. Um Data Mart pode ser composto por um ou mais cubos de dados. Hoje em dia, os conceitos de Data warehouse e Data Mart fazem parte de um conceito muito maior chamado de Corporate Performance Management.

Extrao de Dados Os dados introduzidos num Data Warehouse geralmente passam por uma rea conhecida como rea de stage. O stage de dados ocorre quando existem processos peridicos de leitura de dados de fontes como sistemas OLTP. Os dados podem passar ento por um processo de qualidade, de normalizao e gravao dos dados no Data Warehouse. Esse processo geralmente realizado por ferramentas ETL e outras ferramentas.

Ferramentas OLTP Sistemas OLTP (do ingls,on-line transaction processing): so sistemas que tm a tarefa de monitorar e processar as funes bsicas e rotineiras de uma organizao, tais como processamento da folha de pagamento, faturamento, estoque, etc. Os fatores crticos de sucesso para este tipo de sistema so: alto grau de preciso, integridade a nvel transacional e produo de documentos em tempo hbil. Os dados transacionais OLTP so usados pelos usurios em geral no dia-a-dia em seus processos e transaes, gravao e leitura.Ex: consulta de estoque, registro de vendas.

O principal objetivo da modelagem relacional em um sistema OLTP eliminar ao mximo, a redundncia, de tal forma que uma transao que promova mudanas no estado do banco de dados, atue o mais pontualmente possvel. Com isso, nas metodologias de projeto usuais, os dados so fragmentados por diversas tabelas (normalizados), o que traz uma considervel complexidade formulao de uma consulta por um usurio final. Por isso, esta abordagem no parece ser a mais adequada para o projeto de um data warehouse, onde estruturas mais simples, com menor grau de normalizao devem ser buscadas. (KIMBALL,2002). OLAP As ferramentas OLAP (do ingls, Online Analytical Processing) so geralmente desenvolvidas para trabalhar com banco de dados de-normalizados, embora existam ferramentas que trabalham com esquemas especiais de armazenamento, com dados (informaes) normalizados. Essas ferramentas capazes de navegar pelos dados de um Data Warehouse, possuindo uma estrutura adequada tanto para a realizao de pesquisas como para a apresentao de informaes. Nas ferramentas de navegao OLAP, possvel navegar entre diferentes nveis de granularidades (detalhamento) de um cubo de dados. Atravs de um processo chamado Drill o usurio pode aumentar (Drill down) ou diminuir (Drill up) o nvel de detalhamento dos dados. Por exemplo, se um relatrio estiver consolidado por pases, fazendo um Drill down, os dados passaro a ser apresentados por estados, cidades, bairros e assim sucessivamente at o maior nvel de detalhamento possvel. O processo contrrio, o Drill up, faz com que os dados sejam consolidados em nveis superiores de informao. Outra possibilidade apresentada pela maioria das ferramentas de navegao OLAP o recurso chamado Slice and dice. Esse recurso usado para criar vises dos dados por meio de sua reorganizao, de forma que eles possam ser examinados sob diferentes perspectivas. O uso de recursos para manipular, formatar e apresentar os dados de modo rpido e flexvel um dos pontos fortes de um data warehouse. Essa caracterstica faz com que a apresentao de relatrios na tela seja mais comum do que imprimi-los. Alm disso, o usurio tem liberdade para examinar as informaes que quiser de diversas maneiras e, ao final, pode imprimir e at mesmo salvar as vises mais importantes para uma futura consulta.

Data Mining Data mining, ou minerao de dados, o processo de descoberta de padres existentes em grandes massas de dados. Apesar de existirem ferramentas que ajudam na execuo do processo, o Data mining no tem automatizao simples (muitos discutem se sequer factvel) e precisa ser conduzido por uma pessoa, preferencialmente com formao em Estatstica ou reas afins.

Exemplo terico Um site de vendas quer que o seu cliente, ao entrar no site, veja produtos similares aos que ele j havia comprado ou olhado. Ento ele dever armazenar a trajetria do cliente pelo site para que consiga traar o perfil do cliente.

Fonte: http://pt.wikipedia.org/wiki/Armaz%C3%A9m_de_dados

Data Warehouse

Conceito Data Warehouse tem como funo principal o armazenamento de informaes de um banco de dados referente a uma ou mais atividades de uma empresa de forma consolidada, voltada tomada de decises. como um agrupamento inteligente de dados de uma mesma fonte, como: origem, formato, nomes, tipo de negcio, regras, conexes entre outros. Este princpio muito discutido quando relacionado a Business Intelligence. Tudo isso favorece um resultado completo ao usurio, sem a necessidade de executar vrias consultas (relatrios), cruza-las e finalmente chegar a um resultado. Por enquanto pense que em Data Warehouse os relatrios so exibidos dinamicamente de acordo com a necessidade focando pontos estratgicos. Seu objetivo trabalhar com uma grande quantidade de informao e principalmente dados histricos. Estamos falando de sistemas transacionais (OLTP*), que, de uma forma bem ampla, so sistemas responsveis por registrar todos os acontecimentos de uma organizao. Se analisarmos bem, so os acontecimentos histricos que nos levam a uma melhor tomada de deciso e preveno de eventos futuros. Esses dados esto no Data Warehouse. Por definio esses dados armazenados no mudam, exatamente por serem dados histricos, salvo quando necessrio executar correes em alguma informao especfica. Um detalhe importante que esses dados esto disponveis somente para consulta. Uma base modificvel deixa de ser uma Data Warehouse. O que faz a leitura dessa base histrica e inaltervel chamado de OLAP**, nada mais do que um processador das informaes contidas na Data Warehouse. atravs dele que o usurio consegue visualizar os resultados palpveis atravs de relatrios consistentes e inteligentes (a possibilidade de tomada de deciso descrita acima).

Histria Nos ltimos anos houve um aumento considervel nos sistemas de gesto empresarial, e como conseqncia os dados tambm cresceram. Bancos de dados evoluram para atender a esse crescimento tecnolgico e toda uma atmosfera de gesto informatizada foi gerada. Nessa evoluo, os sistemas (OLTP) no conseguiram cumprir a tarefa de analisar esses dados para garantir um resultado confivel ao usurio. Era preciso trabalhar num contexto de dados distintos para unilos externamente. Foi a que um projeto acadmico na dcada de 80 realizou os

primeiros testes em conceitos de Data Warehouse. A partir da comeou a tornar realidade nas grandes corporaes.

Finalizando Toda essa famlia de resultados, tecnologia e operaes chamada de Business Intelligence, e tem crescido at ento. Hoje podemos encontrar sistemas de gesto oferecendo resultados completos e inteiramente customizados pelo usurio. A Data Warehouse o ncleo dos sistemas de informao e fonte de apoio deciso nas solues de Business Intelligence.

Fonte: http://www.alvoconhecimento.com.br/index.php/2008/04/02/voce-sabe-o-que-edata-warehouse/

Data Warehouse Um data warehouse, ou armazm de dados um banco de dados com dados histricos usados para anlise e decises das mais exticas perguntas realizadas por executivos. Os dados contidos nos data warehouse so sumarizados, peridicos e descritivos. Com a manipulao desses dados os executivos podem tomar decises baseadas em fatos e no em intuies e especulaes. Os data warehouses so projetados para processamento on-line analtico (OLAP, On-line Analytical Processing) ao invs do processamento transacional on-line (OLTP, On-line Transactional Processing). Ferramentas OLAP para pesquisa inteligente de dados so chamadas de data mining. Delimitando a abrangncia dos dados a uma rea de negcio da empresa o data warehouse passa a se denominar data mart. possvel implementar um data warehouse com vrios data marts distribudos. No mercado competitivo atual uma deciso errada pode decretar a morte de uma empresa. Decises baseadas em dados fragmentados obtidos pelos sistemas de informaes tradicionais no oferecem uma informao consistente, caso no exista uma forte integrao entre eles. Um data warehouse concentra dados de diversos sistemas estruturados e outras bases de dados, em diferentes plataformas. Os dados antes de serem armazenados so filtrados, normalizados, reorganizados, sumarizados para constiturem uma base de dados confivel e ntegra. Muitas vezes uma informao est representada sob diversas formas, dependendo do sistema de informao. Por exemplo, um cdigo de fornecedor pode ser diferente em dois ou mais bancos de dados. Um data warehouse projetado para garimpar informaes escondidas nas montanhas de dados de uma empresa. A longo do tempo os sistemas de informaes so desenvolvimentos e implementados visando o controle de um determinado processo na empresa. Em alguns casos, nem mesmo os analistas de sistemas conseguem ter a viso do todo. A maioria dos sistemas de informao parametrizada, onde as pesquisas s informaes so pr-definidas, no oferecendo flexibilidade ao usurio final (nem aos prprios analistas) para criar novas pesquisas de forma gil e rpida. Os data warehouses tem como premissa resolver essa questo, dando ao usurio final a flexibilidade necessria para pesquisas, mesmo para as mais exticas. Foi dessa forma que a cadeia americana de supermercados WalMart descobriu uma relao entre o consumo de fraldas descartveis e o consumo de cervejas. O banco de dados de um data warehouse deve ser projetado para processamento analtico on-line (OLAP), onde caracteriza-se pela nfase na performance da

recuperao das informaes. Orientado anlise e processos de deciso pelos usurios finais atravs do uso de ferramentas especialmente desenvolvidas para o cruzamento multidimensional dos dados, os data mining. Essas ferramentas podem descobrir associaes que nem mesmo o usurio imaginaria pesquisar. Os data mining so mais eficientes se usados em data marts, pois estes so orientados a determinados assuntos da empresa. Os data warehouses devem permitir o download de informaes para a utilizao em outras ferramentas, tais como: planilhas eletrnicas e outros bancos de dados. Diferente dos bancos de dados orientados transaes on-line em tempo-real que trabalham centrados nas operaes do dia-a-dia da empresa. Fonte: http://www.efagundes.com/artigos/O%20que%20eum%20data%20warehouse.htm

Você também pode gostar