Você está na página 1de 14

UM PROJETO DE DATA WAREHOUSE ANGELO LUIZ DE BORTOLI1 angelodebortoli@onda.com.

br

RESUMO

Com a chegada de novas ferramentas tecnolgicas de anlise de informao, os gerentes comearam a exigir dos Sistemas Transacionais respostas s suas solicitaes. Como esses sistemas foram desenvolvidos para garantir a operao da Empresa, no estavam preparados para gerar e armazenar as informaes estratgicas necessrias a um Business Intelligence eficiente.

Palavras chave: Data Warehouse, Banco de dados, Informaes, Armazenagem.

ABSTRACT

With the arrival of new technological tools of information analysis, the controlling had started to demand of the Systems Do business answers to its requests. As these systems had been developed to guarantee the operation of the Company, they were not prepared to generate and to store the necessary strategical information to a Business efficient Intelligence.

Key words: Data Warehouse, Data base, Information, Storage.

INTRODUO

Graduando em Sistemas de Informao pela Faculdade Mater Dei. Residente na Rua Xingu, n 126. Centro. Pato Branco PR. CEP: 85.501-230.

Inicialmente analisemos algumas definies, elaboradas por acadmicos, autores e profissionais especializados em Data Warehouse, que podem nos dar uma primeira impresso sobre a Tecnologia. Diz D. H. Inmon: Data Warehouse uma coleo de dados orientados por assuntos, integrados, variveis com o tempo e no volteis, para dar suporte ao processo de tomada de deciso; trata-se de um processo em andamento que aglutina dados de fontes heterogneas, incluindo dados histricos. Segundo R. Kimball: um conjunto de ferramentas e tcnicas de projeto, que quando aplicadas s necessidades especficas dos usurios e aos bancos de dados especficos permitir que planejem e construam um Data Warehouse. Para entender o que um DW, importante fazer uma comparao com o conceito tradicional de banco de dados. Conforme Batini: Um banco de dados uma coleo de dados operacionais armazenados e utilizados pelo sistema de aplicaes de uma empresa especfica. Os dados mantidos por uma empresa so chamados de operacionais ou primitivos. Dados operacionais referem-se aos dados do banco de dados, distinguindo-se de dados de entrada, dados de sada e outros tipos de dados. Levando em considerao esta definio sobre dados operacionais, pode-se dizer que um DW , na verdade, uma coleo de dados derivados dos dados operacionais para sistemas de suporte deciso. Estes dados derivados so, muitas vezes, referidos como dados gerenciais, informacionais ou analticos. Os bancos de dados transacionais, ou operacionais, armazenam as informaes das transaes dirias da empresa, so utilizados por todos os funcionrios para registrar e executar operaes pr-definidas, por isso seus dados podem sofrer constantes mudanas. Por no ocorrer redundncia nos dados e as informaes histricas no ficarem armazenadas por muito tempo, este tipo de BD no exige grande capacidade de armazenamento. J um DW armazena dados analticos, destinados s necessidades da gerncia no processo de tomada de decises. Isto pode envolver consultas complexas que

necessitam acessar um grande nmero de registros, por isso importante a existncia de muitos ndices criados para acessar as informaes da maneira mais rpida possvel. Um DW armazena informaes histricas de muitos anos e por isso deve ter uma grande capacidade de processamento e armazenamento dos dados que se encontram de duas maneiras, detalhados e resumidos.

HISTRICO

Para se entender o avano que culminou na chegada do conceito de Data Warehouse para a Tecnologia da Informao, preciso lembrar como evoluram os processos tecnolgicos na rea. O primeiro grande passo para os Data Warehouses foi dado em decorrncia da revoluo industrial e das grandes guerras mundiais. No final dos anos 60, os computadores tornaram-se realmente indispensveis a qualquer grande organizao. Rodavam somente um aplicativo de cada vez, onde esses aplicativos eram executados sobre arquivos mestres. As aplicaes eram caracterizadas por relatrios e programas, geralmente em COBOL. O uso de cartes perfurados era comum. Os arquivos mestres eram armazenados em arquivos de fitas magnticas, que eram adequadas para o armazenamento de um grande volume de dados a baixo custo, mas apresentavam o inconveniente de terem que ser acessadas seqencialmente. Por volta de 1970, a poca de uma nova tecnologia de armazenamento e acesso a dados, havia chegado: a introduo do armazenamento em disco, ou DASD Surgiu um novo tipo de software conhecido como SGBD ou sistema de gerenciamento de banco de dados. Com o DASD e o SGBD surgiu a idia de um banco de dados, tambm definido como uma nica fonte de dados para todo o processamento. O banco de dados promoveu uma viso de uma organizao baseada em dados, em que o computador poderia atuar como coordenador central para atividades de toda a empresa. Nesta viso, o banco de dados tornou-se um recurso corporativo bsico.

Pela primeira vez as pessoas no estavam vendo os computadores apenas como misteriosos dispositivos de previso. Em vez disso, os computadores eram vistos como uma verdadeira vantagem competitiva. A idia dos sistemas de informao para os negcios comeou a tomar forma. Em outras palavras, os computadores tornaram-se importantes mquinas de negcios, onde as empresas alcanaram mais eficincia. Nas dcadas de 70 e 80, grandes aperfeioamentos tecnolgicos resultaram em novos sistemas de informao que custavam bem menos e eram bem mais poderosos. Com o surgimento dos bancos de dados relacionais a informatizao nas Empresas j acontecia a passos largos: as pessoas mais influentes e poderosas tinham acesso aos microcomputadores e a sua facilidade de uso aumentou muito. Com o processamento de transaes online de alta performance, surgiram os sistemas de reservas areas em nvel mundial, sistemas bancrios globais e cartes de crditos internacionais. A chegada de novas tecnologias, como os PCs e as linguagens de 4 gerao, permitiu-se que o usurio final assumisse um papel mais ativo, controlando diretamente os sistemas e os dados, fora do domnio do clssico processamento de dados. Com essa evoluo, as empresas comearam a perceber que poderiam analisar de forma otimizada seus dados, ou seja, descobriram que poderiam incrementar seus recursos de Business Intelligence. Essa descoberta muda o enfoque que at ento fora atribudo ao conjunto de informaes sistemas. Nasce um novo conceito para a tecnologia da informao, onde os sistemas informatizados passaram a pertencer a dois grupos: Sistemas que tratam o negcio: do suporte ao dia a dia do negcio da empresa, garantem a operao da empresa, e so chamados de SISTEMAS TRANSACIONAIS; Sistemas que analisam o negcio: sistemas que ajudam a interpretar o que ocorreu e a decidir sobre estratgias futuras para a empresa compreendem os SISTEMAS DE SUPORTE A DECISO.

Com a chegada de novas ferramentas tecnolgicas de anlise de informao, os gerentes comearam a exigir dos Sistemas Transacionais respostas s suas solicitaes. Como esses sistemas foram desenvolvidos para garantir a operao da Empresa, no estavam preparados para gerar e armazenar as informaes estratgicas necessrias a um Business Intelligence eficiente. Em atendimento s solicitaes dos gestores em relao deficincia da anlise de informao nos sistemas legados, surgiu no mercado os chamados Programas Extratores. Esses programas extraem informaes dos Sistemas Transacionais com o intuito de trabalh-las em outros ambientes. Muitas vezes essas extraes ocorriam em arquivos intermedirios, onde as informaes sofriam novos tratamentos. Isso provocava uma falha na integridade das informaes acarretando, muitas vezes, uma falta de credibilidade dos dados, uma queda da produtividade e a informao sendo publicada com valores diferentes. Alm disso, pelo fato de que os Sistemas Transacionais geravam um grande volume de dados e pela diversidade dos sistemas implantados nas empresas as pesquisas relatrios realizadas eram produzidas muito lentamente. Nos tempos do Clipper e do Cobol fazer um relatrio desse nvel significava perder muitas horas sobre o computador, pois se fazia necessrio que fossem extrados os dados de vrios sistemas, muitas vezes esses no conversavam entre si. Apesar dessas razes, importante salientar que possvel a prtica de Business Intelligence com os sistemas operacionais da empresa, e com outras fontes de dados, como planilhas eletrnicas e dados em papel, mas esse procedimento implica em grande possibilidade de equvocos, j que esses dados so oriundos de vrias fontes independentes, e no possuem entre si relao de integridade. Outro fator importante que prejudicava as decises foi a falta de registro dos fatos histricos nos Sistemas Transacionais, pois estes trabalhavam com uma situao instantnea dos negcios. Para resolver este problema, comeou-se a estudar uma forma de se armazenar a informao contida nos sistemas transacionais numa base de dados central, para que houvesse integrao total dos dados da empresa. Alm disso, era

necessrio manter o histrico das informaes e fazer com que ela fosse disposta dimensionalmente, ou seja, o analista de negcios poderia visualizar um mesmo fato atravs de diversas dimenses diferentes. O nome dado a essa modalidade de Sistema de Apoio Deciso foi o Data Warehouse, ou em portugus, Armazm de Dados. Com o surgimento do DATA WAREHOUSE so necessrios novos mtodos de estruturao de dados, tanto para armazenamento quanto para a recuperao de informaes. Cabe ressaltar que as perspectivas e tcnicas necessrias para projetar o DATA WAREHOUSE so profundamente diferente dos SISTEMAS

TRANSACIONAIS. Os usurios, o contedo dos dados, a estrutura dos dados, o hardware e o software, a administrao , o gerenciamento dos sistemas, o ritmo dirio, as solicitaes, as respostas e o volume de informaes so diferentes. Entender essa tecnologia com certeza ajudar os empresrios a descobrir novas tendncias e caminhos para competir numa economia globalizada, onde a concorrncia acirrada, trazendo melhores produtos ou servios para o mercado com maior rapidez sem aumento dos custos.

CARACTERSTICAS

Segundo Inmon, um DW deve ser orientado por assuntos, integrado, varivel no tempo e no voltil. Essas so as principais caractersticas de um DW as quais iremos descrever em maiores detalhes o que quer dizer cada uma delas logo abaixo.

1. Orientao por Assunto Trata-se de uma caracterstica marcante de um DW, pois toda modelagem ser voltada em torno dos principais assuntos da empresa. Enquanto todos os sistemas transacionais esto voltados para processos e aplicaes especficas, os DWs objetivam assuntos.

2. Integrao Esta caracterstica talvez seja a mais importante do DW. atravs dela que iremos padronizar uma representao nica para os dados de todos os sistemas que formaro a base de dados do DW. Por isso, grande parte do trabalho na construo de um DW est na anlise dos sistemas transacionais e dos dados que eles contm. Esses dados geralmente encontram-se armazenados em vrios padres de codificao, isso se deve aos inmeros sistemas existentes nas empresas, e que eles tenham sido codificados por diferentes analistas. Isso quer dizer que os mesmos dados podem estar em formatos diferentes.

3. Variao no Tempo Segundo W. H. Inmon, os Data Warehouses so variveis em relao ao tempo. Isso quer dizer que em um DW normal mantermos um horizonte de tempo bem superior ao dos sistemas transacionais, enquanto no OLTP mantemos um histrico curto dos dados; no DW guardamos esses dados num perodo maior. Isso bastante lgico porque num sistema transacional a finalidade de fornecer as informaes no momento exato, j no Data Warehouse, o principal objetivo analisar o comportamento das mesmas durante um perodo de tempo maior. Fundamentados nessa variao, os gerentes tomam as decises baseados em fatos e no em intuies. Seguindo a mesma linha de raciocnio vlido dizer que os dados nos sistemas transacionais esto sendo atualizados constantemente, cuja exatido vlida somente para o momento de acesso. Os dados existentes num DW so como fotografias que refletem os mesmos num determinado momento do tempo. Essas fotografias so chamadas de snapshots. A dimenso tempo, sempre estar presente em qualquer fato de um DW, isso ocorre porque, como falamos anteriormente, sempre os dados refletiro num determinado momento de tempo, e obrigatoriamente dever conter uma chave de tempo para expressar a data em que os dados foram extrados. Portanto podemos dizer que os dados armazenados corretamente no DW no sero mais atualizados tendo-se assim uma imagem fiel da poca em que foram gerados.

Assim como os dados importante frisar que os metadados, tambm possuem elementos temporais, porque mantm um histrico das mudanas nas regras de negcio da empresa. Os metadados so responsveis pelas informaes referentes ao caminho do dado dentro do DW.

4. No Volatilidade No DW existem somente duas operaes, a carga inicial e as consultas dos front-ends aos dados. Isso pode ser afirmado porque a maneira como os dados so carregados e tratados completamente diferente dos sistemas transacionais. Enquanto nesses sistemas temos vrios controles e updates de registros, no DW temos somente inserts e selects de dados. Por exemplo, num sistema de contabilidade podemos fazer alteraes nos registros. J no DW, o que acontece somente ler os dados na origem e grav-los no destino, ou seja, no banco modelado multidimensional. Deve-se considerar que os dados sempre passam por filtros antes de serem inseridos no DW. Com isso muitos deles jamais saem do ambiente transacional, e outros so to resumidos que no se encontram fora do DW. Em outras palavras, a maior parte dos dados fsica e radicalmente alterada quando passam a fazer parte do DW. Do ponto de vista de integrao, no so mais os mesmos dados do ambiente operacional. luz destes fatores, a redundncia de dados entre os dois ambientes raramente ocorre, resultando em menos de 1 por cento de duplicaes, essa definio dada por Inmon muito vlida.

5. Localizao Os dados podem estar fisicamente armazenados de trs formas: Centralizado: Num nico local centralizando o banco de dados em um DW integrado, procurando maximizar o poder de processamento e agilizando a busca dos dados. Esse tipo de armazenagem bastante utilizada, porm h o inconveniente do investimento em hardware para comportar a base de dados

muito volumosa, e o poderio de processamento elevado para atender satisfatoriamente as consultas simultneas de muitos usurios. Distribudos: so Data Marts, armazenados por reas de interesse. Essa pode ser uma sada interessante para quem precisa de bastante performance, pois isso no sobrecarrega um nico servidor, e as consultas sero sempre atendidas em tempo satisfatrio. Por nveis de detalhes: processo em que as unidades de dados so mantidas no DW. Pode-se armazenar dados altamente resumidos num servidor, dados resumidos noutro nvel de detalhe intermedirio no segundo servidor e os dados mais detalhados atmicos num terceiro servidor. Para mudar de nvel necessrio que ocorra um dos seguintes eventos: os dados so sintetizados, arquivados ou eliminados.

6. Credibilidade dos Dados A credibilidade dos dados o muito importante para o sucesso de qualquer projeto. Discrepncias simples de todo tipo podem causar srios problemas quando se quer extrair dados para suportar decises estratgicas para o negcio das empresas. Dados no dignos de confiana podem resultar em relatrio inteis, que no tm importncia alguma. "Se voc tem dados de m qualidade e os disponibiliza em um DW, o seu resultado final ser um suporte deciso de baixo nvel com altos riscos para o seu negcio", afirma Robert Craig, analista do Hurwitz Group. "No apenas a escolha da ferramenta certa que influi na qualidade dos dados", afirma Richard Rist, vice-presidente Data Warehousing Institute. Segundo ele, conjuntos de colees de dados, processos de entrada, metadados e informaes sobre a origem dos dados, so importantssimos. Outras questes como a manuteno e atualizao dos dados e as diferenas entre dados para bancos transacionais e para uso em Data Warehousing tambm so cruciais para o sucesso dos projetos.

10

7. Granularidade Granularidade nada mais do que o nvel de detalhe ou de resumo dos dados existentes num DW. Quanto maior for o nvel de detalhes, menor ser o nvel de granularidade. O nvel de granularidade afeta diretamente o volume de dados armazenados no DW, e ao mesmo tempo o tipo de consulta que pode ser respondida.

8. Metadados Os Metadados so um dos tpicos mais interessantes e, de certa forma, confusos do ambiente do Data Warehouse. Interessantes por serem os dados de controle de um projeto de DW. Confusos por no terem uma definio muito clara para a maioria das pessoas. Metadados so dados que fazem referncia a outros dados. Todas as fases de um projeto de Data Warehouse, desde a modelagem at a visualizao da informao, geram metadados. Neles estaro contidos informaes como atributos das tabelas, agregadas utilizadas, clculos necessrios, descries, periodicidade das cargas, histrico de mudanas etc. Segundo Inmon, os metadados mantm informaes sobre o que est e onde, no DW. Tipicamente os aspectos que sobre os quais os metadados mantm informaes so: A estrutura dos dados, segundo a viso do programador; A estrutura dos dados, segundo a viso dos analistas de SAD; A fonte de dados que alimenta o DW; A transformao sofrida pelos dados no momento de sua migrao para o DW; O modelo de dados; O relacionamento entre o modelo de dados e o DW; O histrico das extraes de dados.

9. Processos de Carga

11

Esta etapa uma das fases mais crticas de um Data Warehouse, pois envolve a fase de extrao dos dados dos sistemas transacionais ou de outras fontes, como planilhas, arquivos ou textos. A fase de Filtragem consiste basicamente em garantir a integridade dos dados e, por fim, a fase de Carga dos Dados no Data Warehouse. Quando os dados so movidos de sistemas transacionais para o ambiente de Data Warehouse, parece que nada alm de simples extraes de dados de um local para o outro est ocorrendo. Em virtude desta enganosa simplicidade, muitas vezes as empresas acabam perdendo tempo e dinheiro por ter que refazer toda esta parte de extrao. O processo de carga dos dados passa por trs etapas: extrao, filtragem e a carga propriamente dita. A extrao de dados do ambiente operacional para o ambiente de data warehouse demanda uma mudana na tecnologia. Pois muitas vezes os dados so transferidos de um banco de dados hierrquico, tal como o ADABAS, para uma nova tecnologia de SGBD para Data Warehouse. A seleo de dados do ambiente operacional pode ser muito complexa, pois muitas vezes necessrio selecionar vrios campos de um sistema operacional para compor um nico campo no data warehouse. Os dados so reformatados. Podem existir vrias fontes de dados diferentes para compor uma informao. Quando h vrios arquivos de entrada, a escolha das chaves deve ser feita antes que os arquivos sejam intercalados. Isso significa que, se diferentes estruturas de chaves so usados nos diferentes arquivos de entrada, ento deve-se optar por apenas uma dessas estruturas. Os arquivos devem ser gerados obedecendo a mesma ordem das colunas estipuladas no ambiente de data warehouse. Valores padres devem ser fornecidos. s vezes pode existir um campo no data warehouse que no possui fonte de dados, ento a soluo definir um valor padro para estes campos. Data warehouse espelha as informaes histricas necessrias, enquanto o ambiente operacional focaliza as informaes correntes.

12

Aps a definio de como devero ficar os dados no data warehouse, h a necessidade de filtragem dos dados para coloc-los no padro definido. O momento de carga a parte de Integridade dos dados, onde se faz necessrio checar os campos que so chaves estrangeiras com suas respectivas tabelas para certificar-se de que os dados existentes na tabela da chave estrangeira esto de acordo com a tabela da chave primria. A carga incremental normalmente feita para tabelas fatos, e a carga por cima dos dados feita em tabelas dimenses, onde o analista ter que deletar os dados existentes e inclu-los novamente. Apesar de existirem ferramentas de Carga como o DTS (Data Transformation Service), ainda tem-se a necessidade de criar rotinas de carga para atender determinadas situaes que podero ocorrer.

10. Metodologia de Levantamento Apesar de serem displicentemente ignoradas em muitos Data Warehouses, as metodologias de levantamento de dados gerenciais so indispensveis ao sucesso de um Sistema de Apoio Deciso que pretende atender s necessidades do usurio de negcio. Quando se fala em DW, muitos profissionais da rea de TI pensam logo em construir rotinas de extrao de dados dos sistemas legados para posterior carga num modelo dimensional, em detrimento de um entendimento das necessidades dos entendedores de negcio. Para tal entendimento, foram criadas metodologias de levantamento de dados Gerenciais, como a JAD e o DMD, que so baseadas em reunies de trabalho, onde os participantes, orientados por um profissional com prtica nesta etapa, extraem conhecimentos sobre o negcio. Necessariamente, ao aplicar a metodologia, a nica preocupao com termos e questes gerenciais. Alguns profissionais aplicam esta etapa j pensando na base de dados, com suas dimenses e fatos, causando assim confuso na cabea dos entendedores do negcio e uma maior possibilidade de falhas na modelagem posterior. Em alguns casos, quando aplicada a todos departamentos de uma empresa, a metodologia provoca fenmenos interessantes como a descoberta de

13

processos e anlises redundantes, fazendo com que a prpria corporao seja otimizada. Portanto, fica clara a necessidade de se implementar uma metodologia de levantamento de dados gerenciais, antes de se iniciar a implantao fsica de um Data Warehouse. Alm de gerar como produto um SAD bem estruturado e modelado, esse procedimento tambm pode ser muito benfico para a sade organizacional da empresa.

CONCLUSO

Com base nestes conceitos podemos concluir que o DW um conjunto de tcnicas e bancos de dados integrados, projetados para suportar as funes dos Sistemas de Apoio Deciso, onde cada unidade de dados est relacionada a um determinado assunto, ou fato. Esses bancos de dados que daro subsdio de informaes aos gerentes e diretores de empresas, para analisarem tendncias histricas dos seus clientes e com isso melhorarem os processos que aumentem a satisfao e fidelidade dos mesmos. No DW os dados podem ser retirados de mltiplos sistemas de computao normalmente utilizados h vrios anos e que continuam em operao, como tambm podem ser de fontes externas da empresa. Data Warehouses so construdos para que tais dados possam ser armazenados e acessados de forma que no sejam limitados por tabelas e linhas estritamente relacionais. Os dados de um DW podem ser compostos por um ou mais sistemas distintos e sempre estaro separados de qualquer outro sistema transacional, ou seja, deve existir um local fsico onde os dados desses sistemas sero armazenados.

REFERNCIAS

DATA WAREHOUSE. Disponvel em http://www.datawarehouse.inf.br. Acesso em 21 de maro de 2004. DATA WAREHOUSE. Disponvel em http://www.assuncao.eti.br/luisdwh.htm. Acesso em 01 de abril de 2004.

14

INMON, W. H. Como construir o Data Warehouse. 2 ed.- Rio de Janeiro: Campus, 1997. ____________; WELCH, J. D.; GLASSEY, K. L. Gerenciando Data Warehouse: tcnicas prticas para monitorar operaes e performances, administrar dados e ferramentas, gerenciar alteraes e crescimento. 1 ed.- So Paulo: Ed. Makron Books, 1999.