Você está na página 1de 44

JUNIOR CEZAR VIDOTTI

PROJETO DE UM DATA WAREHOUSE:


ANLISE DE CUSTO/BENEFCIO

CUIAB/MT MARO DE 2001

PROJETO DE UM DATA WAREHOUSE:


ANLISE DE CUSTO/BENEFCIO

JUNIOR CEZAR VIDOTTI

TRABALHO MONOGRFICO PARA CUMPRIMENTO DE CRDITOS DA DISCIPLINA PROJETO SUPERVISIONADO, DO CURSO DE BACHARELADO EM CINCIA COMPUTAO SOB A ORIENTAO DO PROF. DSC. EINSTEIN LEMOS AGUIAR.

DE DA DE

CUIAB/MT MARO DE 2001

VIDOTTI, JUNIOR CEZAR VI, 35 pg. 29,7 cm (Depto. de Cincia da Computao, 2000.2) Trabalho Monogrfico - Universidade Federal do Mato Grosso, UFMT 1. Data Warehouse 2. Data Mart 3. DSS 4. Processamento Analtico

II

JUNIOR CEZAR VIDOTTI

PROJETO DE UM DATA WAREHOUSE:


ANLISE DE CUSTO/BENEFCIO

______________________________________________ Prof. Dsc. Einstein Lemos de Aguiar

______________________________________________ Prof. Evandro Csar Freiberger

__________________________________________ Prof. Msc. Divino

III

Resumo do trabalho monogrfico apresentada para o Curso de Bacharelado em Cincia da Computao / UFMT como parte do requisitos necessrios para o cumprimento de crditos da disciplina de Projeto Supervisionado.

UMA ANLISE DE CUSTO/BENEFCIO


Junior Cezar Vidotti Maro de 2001

DATA WAREHOUSE:

Orientador: Prof. Dsc. Einstein Lemos de Aguiar Departamento de Cincia da Computao Universidade Federal de Mato Grosso

Nossa sociedade passa atualmente por uma fase de extrema competio causada pela globalizao. A vantagem da informao precisa e rpida extrada dos dados corriqueiros pode realmente fazer a diferena entre uma empresa e outra. O uso de um data warehouse e de ferramentas de anlise de dados vm ao encontro com os desejos dos executivos e gerentes de extrair o mximo de informao possvel dos dados disponveis. A importncia deste trabalho reside no fato das empresas necessitarem de informao rica e abundante e no saber como fazer para obt-la, j que seus relatrios analticos so insuficientes. Mas qual o custo deste benefcio? E quais as justificativas precisas para estes custos? Sendo assim, se torna imprescindvel o estudo do custo/benefcio da implantao de um data warehouse e do uso de ferramentas de processamento analtico, com o objetivo de tornar as empresas mais competitivas, de posse de informaes que realmente faam a diferena.

IV

AGRADECIMENTOS
Ao professor Einstein especialmente, por me orientar e prestar apoio, tanto psicologicamente quanto cientificamente na elaborao deste trabalho. Ao meus pais, Ademar e Marileide, pelas pessoas maravilhosas que so. minha noiva, Fabiane, pela sua pacincia e compreenso. E a todos os que contriburam, direta ou indiretamente, para a concluso deste trabalho.

SUMRIO

INTRODUO..............................................................................................................3 INTRODUO..............................................................................................................3 CAPTULO I. HISTRICO, CONCEITOS E DEFINIES.......................................................................................5 I.1.HISTRICO DOS SISTEMAS DE INFORMAO..................................................................5 I.2.TIPOS DE PROCESSAMENTO DE DADOS........................................................................6 I.2.1.OLTP AS APLICAES DO NEGCIO................................................................6 I.2.2.OLAP APLICAES SOBRE O NEGCIO.............................................................7 I.3.DATA WAREHOUSE.................................................................................................8 I.4.DATA MART........................................................................................................10 CAPTULO II. ASPECTOS DE PROJETO DE DATA WAREHOUSE .......................................................................13 II.1.O FLUXO DE DADOS.............................................................................................13 II.2.OS METADADOS..................................................................................................14 II.3.O DATA WAREHOUSE E O MODELO DE DADOS.............................................................15 II.4.O DATA WAREHOUSE E O SGBD...........................................................................16 II.5.A GRANULARIDADE..............................................................................................17 II.6.O PROCESSO DE ETL.........................................................................................18 II.7.TECNOLOGIAS DE APLICAES SOBRE O DATA WAREHOUSE E OS DATA MARTS....................19 II.7.1.DSS..........................................................................................................20 II.7.2.DATA MINING..............................................................................................20 II.7.3.CRM.........................................................................................................21 CAPTULO III. CUSTOS DO DATA WAREHOUSE .............................................................................................22 III.1.CLASSIFICANDO OS CUSTOS..................................................................................22 III.1.1.CUSTOS INICIAIS..........................................................................................22 III.1.2.CUSTOS PERIDICOS....................................................................................24 III.2.FATORES DE VARIAO DO CUSTO..........................................................................25

CAPTULO IV. JUSTIFICAO DOS CUSTOS DO DATA WAREHOUSE .....................................................................27 IV.1.ACESSO INFORMAO.......................................................................................27 IV.1.1.FAZENDEIROS X EXPLORADORES....................................................................29 IV.2.DATA WAREHOUSE E DATA MARTS..........................................................................29 IV.3.VANTAGENS NO NEGCIO.....................................................................................30 CONCLUSO............................................................................................................32 CONCLUSO............................................................................................................32 ANEXO I. FONTES DE INFORMAO NA INTERNET.............................................................34 ANEXO I. FONTES DE INFORMAO NA INTERNET.............................................................34 GLOSSRIO.............................................................................................................35 GLOSSRIO.............................................................................................................35 BIBLIOGRAFIA...........................................................................................................36 BIBLIOGRAFIA...........................................................................................................36

INTRODUO
Nossa sociedade passa atualmente por uma fase de extrema competio causada pela globalizao. A vantagem da informao certa extrada de dados aparentemente incuos pode realmente fazer a diferena entre uma empresa e outra. J foram vistos casos, no mundo dos negcios, de empresas milionrias irem a bancarrota em questo de dias (ou horas) por mudanas no panorama mundial. Algumas vezes isso poderia ser evitado realizando-se uma previso momentos antes e determinar, se possvel, solues para evitar tais acontecimentos. Uma empresa precisa de informaes sintticas e precisas sobre a realidade do negcio e as tendncias futuras. O presente e o passado de uma empresa esto contidos em seus dados, gerados a todo instante pelas suas aplicaes de negcio. Mas, devido diversidade de sistemas que esto em uso em uma empresa ao mesmo tempo, muito difcil, custoso e demorado realizar uma anlise integrada dos dados de todos esses sistemas. E, esse tipo de informao requerido a todo instante por executivos e gerentes para que tomem decises a nveis estratgicos e de controle de uma empresa. Sendo difcil, custoso e demorado integrar, conciliar e reunir dados de vrias fontes para criar este tipo de relatrio, comeou-se a pensar no conceito de data warehouse (armazm de dados, em ingls). Um data warehouse um conjunto integrado de dados que extrai e rene informaes de todos os sistemas da empresa. A partir de um data warehouse, podemos construir sistemas de suporte deciso, ferramentas de minerao de dados (descoberta de padres entre os dados), entre outras aplicaes especficas de anlise de negcios. O data warehouse um dos passos iniciais na mudana da forma como as empresas tomam decises e analisam informaes. O mercado tornou-se mais competitivo e as empresas (componentes do mercado) devem acompanhar tal tendncia. Uma possibilidade de aumentar a competitividade e diminuir custos implantar um data warehouse e seus aplicativos para analisarem o negcios. Antes de implantar um data warehouse, um executivo far a seguinte pergunta: Qual o custo deste tal de data warehouse e o qu que ele trar de bom para minha empresa?

Sabendo que esta pergunta pode ser a causa mortis de qualquer projeto dentro de uma empresa propomos, como nosso objetivo, detectar quais os custos e benefcios que um data warehouse pode trazer para as empresas que necessitarem da implantao de um. Para que possamos atingir nosso objetivo, precisaremos rever alguns conceitos e definies sobre data warehouse e aspectos sobre o projeto do data warehouse para que possamos, ento, atacar o problema proposto, realizar a anlise do custobenefcio do data warehouse.

CAPTULO I. HISTRICO, CONCEITOS E DEFINIES


Antes de iniciarmos o desenvolvimento do trabalho em si, forneceremos um panorama geral da evoluo dos sistemas de informao, conceitos e definies acerca do data warehouse. Isso ser importante para entendermos a importncia do data warehouse para as empresas de hoje. Comearemos estudando a histria dos sistemas de informao, descreveremos os tipos de processamento decorrente da evoluo desses sistemas e, ento, explicaremos os conceitos de data warehouse e data marts.

I.1. Histrico dos sistemas de informao


Em 1946, com o incio da guerra fria, foi criado o ENIAC, um grande computador capaz de realizar cerca de 200 operaes por segundo movido por 18.000 vlvulas, criado pela Universidade da Pensilvnia. Cerca de uma dcada depois foi criado o transistor, capaz de executar praticamente a mesma tarefa das vlvulas, porm com menor gasto de energia e com um tamanho muito menor que uma vlvula. Na dcada de 60 foram produzidos computadores menores e mais baratos baseados em transistores, tornando vivel o uso da computao no meio comercial. O meio de armazenamento eram fitas magnticas, podendo armazenar grandes quantidades de dados a baixo custo, apesar do inconveniente da lenta leitura seqencial os dados precisavam ser procurados na fita magntica, o que dificultava a recuperao de um dado no meio ou final da fita.

Na dcada de 70 foi desenvolvida a tecnologia DASD (Direct Access Storage Device, ou dispositivo de armazenamento de acesso direto), tecnologia a qual originaram os discos rgidos. Como esta nova tecnologia possua leitura aleatria, possibilitou-se o desenvolvimento dos DBMS (Data Base Management System). Um DBMS (ou Sistema Gerenciador de Banco de Dados, SGBD, em portugus) um programa que controla a gravao e leitura de dados em um sistema. possvel, atravs dos SGBDs, centralizar os dados para facilitar o processamento e tornar a gravao/leitura dos dados no meio fsico transparente para as aplicaes. Criou-se, assim, o conceito de banco de dados. Banco de dados era definido, assim, como uma nica fonte de dados para todo o processamento. Atravs disso, o computador adquiriu uma nova forma de atuao dentro da empresa, passando a suprir a empresa com dados de uma forma nunca vista antes. A partir da o computador passou a no ser apenas um instrumento de clculo e previso, e sim uma ferramenta de anlise e operao do negcio e uma forte vantagem competitiva. Pode-se considerar que a era da informao estava prestes a nascer. Nos anos 80 e 90, com a criao dos banco de dados relacionais, das linguagens de 4a. gerao a idia do computador como ferramenta de negcio indispensvel consolidou-se. Mas foi com a inveno do computador pessoal, e como conseqncia o barateamento dos semi-condutores, que os sistemas de informao chegaram mesa dos funcionrios da maior parte das empresas.

I.2. Tipos de processamento de dados


A evoluo dos computadores tambm acarretou uma grande mudana no enfoque dos sistemas da empresa. Passou-se a dividir os sistemas em dois grandes ramos: OLTP On Line Transactional Processing OLAP On Line Analytical Processing As aplicaes baseadas em OLTP (processamento transacional) so as aplicaes do negcio. As aplicaes do negcio so os sistemas que a empresa utiliza em seu dia-a-dia a nvel operacional. Tais aplicaes oferecem suporte s regras de negcio que a empresa utiliza, sendo freqentemente chamados de sistemas de produo ou aplicaes operacionais. 6

I.2.1. OLTP As aplicaes do negcio

Os sistemas de produo trabalham com dados chamados dados operacionais ou transacionais. Os dados operacionais so estruturados de acordo com a regra de negcio da empresa. Esses sistemas esto preparados para suprir as necessidades de operao no dia-a-dia da empresa, mas no suportam a anlise integrada dos dados. I.2.2. OLAP Aplicaes sobre o negcio As aplicaes baseadas em processamento analtico (OLAP) so comumente chamadas de aplicaes sobre o negcio. As aplicaes sobre o negcio analisam as informaes obtidas atravs das aplicaes operacionais, ajudando executivos e altos gerentes a interpretar mudanas na realidade de negcio e, assim, mudar as regras de negcio da empresa. Os dados usados por essas aplicaes so chamados de dados analticos. Os dados analticos so nada mais que dados operacionais otimizados para a anlise, e no para transaes. No certo interpretar que no se possa extrair relatrios e anlise de aplicao operacionais. Isto possvel, mas demanda grande esforo para reunir, integrar e apresentar cada relatrio. J nos sistemas de suporte a deciso esse trabalho se resume a pesquisar dados j reunidos e integrados em uma nica base de dados.
Quadro 1.

A mudana de enfoque dos dados DADOS OPERACIONAIS DADOS ANALTICOS Baseados em aplicaes Baseados em assuntos ou negcios Detalhados recentes Detalhados histricos, resumidos e refinados Comunidade funcional Comunidade gerencial Performance Versatilidade Acesso a um registro por vez Acesso a um conjunto de registros por Transaes vez Necessidade de alta disponibilidade Anlise Alta probabilidade de acesso Necessidade de baixa disponibilidade

Baixa ou mdia probabilidade de acesso


Fonte: INMON (1992), modificado.

I.3. Data warehouse


Um data warehouse um conjunto de dados baseado em assuntos, integrado, no voltil e varivel em relao ao tempo, de apoio s decises gerenciais. W.H. INMON (1992: 33) De acordo com R. KINBALL (1996: 310), data warehouse uma cpia dos dados transacionais estruturado para relatrios e anlise. Isto , data warehouse nada mais que os dados operacionais, usados no dia a dia da empresa pelas aplicaes do negcio, integrados e transformados de uma forma que possamos extrair informaes integradas sobre a corporao e seus processos. O data warehouse um repositrio de dados preparados para anlise prontos para serem acessados. importante ressaltar que o data warehouse somente a estrutura na qual as ferramentas de processamento analtico, e no tais ferramentas em si. A primeira caracterstica marcante de um data warehouse a orientao ao assunto. Os banco de dados operacionais baseiam-se nas aplicaes da empresa, sendo projetado para agir da melhor forma para um melhor desempenho na aplicao operacional. J o data warehouse atua sob outro paradigma. Os dados devem estar organizados de acordo com os principais assuntos da empresa, como clientes e pedidos.
Ambiente operacional Data warehouse

Crdito

Fornecedores

Clientes

extrair transformar carregar Produtos Vendas Pedidos Duplicatas

Controle de estoque

Figura 1.A orientao ao assunto um fator fundamental do data warehouse.

Outro aspecto de um data warehouse a forte integrao de dados. Nas diversas fontes de dados operacionais, talvez projetados por pessoas diferentes ou em pocas diferentes, os mesmos dados podem aparecer de formas diferentes. Praticamente no h uma padronizao e conveno dos dados, medidas e formatos de dados no ambiente operacional, tratando-se de aplicaes diferentes. No data warehouse, adotado um padro para dados, medidas e formatos. Ou seja, os dados esto integrados, sob uma nica forma. 8

A m b ie n t e o p e r a c io n a l

D a ta w a re h o u s e

S is t e m a 1 : S e x o ( M ,F )

S is t e m a 2 : S e xo (1 ,0 )

S ex o (M ,F )

S is t e m a 3 : S e xo (A ,B )

Figura 2.A integrao dos dados para a uniformidade e facilidade de acesso.

Pode-se tambm dizer que os dados no data warehouse no so volteis. No ambiente operacional, os dados so acessados por muitas pessoas ao mesmo tempo. Quando duas ou mais pessoas manuseiam o mesmo dado, podem acontecer falhas e inconsistncias no sistema. O dado recuperado h 1 minuto atrs j pode no estar atualizado, pois algum pode t-lo alterado ou apagado. Quando uma pessoa tenta acessar um dado que outra est gravando pode acarretar um travamento do sistema de ambos usurios. Isso acontece por que os dados operacionais podem ser inseridos, atualizados, apagados e acessados. Para evitar essas falhas, as aplicaes operacionais trabalham com sistemas de transao de dados, o qual no entraremos em detalhes. Tal proteo consome certa quantidade de recursos do sistema. No data warehouse, no h necessidade desse tipo de proteo, pois o risco de acontecer esse tipo de problema mnimo. Os dados no data warehouse so inseridos uma nica vez e, a partir da, somente h leituras nesses dados. Outra caracterstica interessante no data warehouse a varincia temporal dos dados. Os banco de dados operacional uma foto dos dados no presente momento. Quando um dado modificado, o banco de dados no reflete mais a realidade da hora em que o dado foi criado. No se pode saber qual era a posio de certo dado h dois anos atrs, por exemplo. Como dissemos, no data warehouse h somente inseres e consultas. E como feita a atualizao dos dados a partir das fontes operacionais? Existe uma nova dimenso (ou chave) presente nas tabelas de dados do data warehouse. a dimenso tempo. Ao inserir dados no data warehouse, esses so adicionados e a chave tempo recebe o valor do momento da atualizao. Ao atualizar os dados a partir das fontes operacionais, os dados (para o data warehouse) recebem o mesmo tratamento: so novamente inseridos no data warehouse com a chave tempo do momento da atualizao. Ento, podemos dizer que o data warehouse 9

variante no tempo. Isto , o DW o lbum de fotografias dos bancos de dados operacionais em todas as suas modificaes. Podemos saber, exatamente, qual o estado de um determinado dado h 5 anos atrs. A IBM (International Business Machines, uma grande empresa que atua em vrios ramos de tecnologia) geralmente usa o termo information warehouse para designar o data warehouse. , por vezes, uma definio muito melhor para um data warehouse. Os dados so material bruto gerados por produtores de dados (as aplicaes operacionais) e so usadas pelo processadores de dados (ferramentas de anlise) para criar informao. Informao so os dados trabalhados que geraram algum tipo de conhecimento ou significado. O data warehouse mantm, em muitos casos, os resumos e extratos armazenados fisicamente. Isto , ele mantm fisicamente informaes prontas para serem acessadas. Essas informaes so consumidas pelos gerentes e executivos que fazem uso de um data warehouse. O data warehouse , muitas vezes, relacionado s necessidades dos executivos em obter informaes para a tomada de decises estratgicas. Na verdade, no somente isso. O data warehouse uma ferramenta que extrai dados brutos de toda a corporao, transforma-os em informao palpvel atravs de softwares de minerao de dados e tem a capacidade de disponibilizar dados para toda a empresa. H aplicaes de mais diversos tipos, tanto ferramentas estratgicas quanto ferramentas operacionais, rodando sobre a plataforma do data warehouse.

I.4. Data mart


De acordo com INMON (2000a), um data mart uma coleo de assuntos organizados para o suporte de decises baseado nas necessidades de um departamento. Um data mart um repositrio de dados extrado das fontes operacionais ou de um data warehouse que projetado para servir as necessidades particulares de um grupo especfico. A nfase do data mart atender as necessidades especficas em termos de anlise, contedo, apresentao e facilidade de uso do grupo alvo de usurio. O data mart criado para fazer com que os dados analticos paream mais familiares aos usurios finais. Na prtica, podemos adotar o data warehouse e data mart trabalhando juntos. O data warehouse busca atender as necessidades estratgicas da organizao, pois reunir informaes de toda a empresa. J os data marts atendem as necessidades gerenciais da empresa mais a nvel operacional. Podemos dizer que o data warehouse 10

uma estrutura corporativa, ao passo que um data mart uma estrutura departamental. O Ambiente Corporativo

Nvel Estratgico Executivos Uso de Data Warehouse Nvel Gerencial Gerentes Data Warehouse/Data Marts Nvel de Controle Supervisores Data Marts/Dados Operacionais Nvel Operacional Funcionrios Dados Operacionais

Figura 3.As estruturas de dados e sua utilizao dentro da corporao.

H dois tipos bsicos de data marts: dependentes e independentes do data warehouse. Se o data mart atualiza seus dados atravs do data warehouse, ele considerado dependente. Se o data mart faz isto atravs dos dados operacionais, um data mart independente. O data mart geralmente contm poucos dados histricos, mas isso pode variar de acordo com a necessidade de cada departamento. Sem os dados histricos os data marts podem ser livremente indexados, ao contrrio do data warehouse, que contm grandes quantidades de dados. O data warehouse contm dados granulares, isto , altamente detalhados, enquanto o data mart possui dados agregados e sumarizados, em sua maioria. Mas um fato interessante que vrios produtos no mercado implantam o data warehouse e, a partir da, cria vises especficas para cada grupo de usurio (departamentos), podendo tal viso dos dados ser chamada de data mart. So os chamados data marts virtuais.
Quadro 2.

Data warehouse Corporativo Altamente granular Dados histricos Grandes volumes de dados Versatilidade

Data mart Departamental Sumarizado e agregado Dados recentes Volumes de dados limitados Especificidade

Um comparativo entre data warehouse e data mart.

11

Neste captulo, estudamos a histria e evoluo dos sistemas de informao (chegada dos computadores s empresas), tipos de processamento de dados (OLTP e OLAP) e conceitos de data warehouse e data mart. No prximo captulo estudaremos aspectos acerca do projeto e da tecnologia que envolvem o data warehouse, a nvel lgico e fsico.

12

CAPTULO II. ASPECTOS DE PROJETO DE DATA WAREHOUSE


O data warehouse, como j foi visto, est inserido no contexto da anlise dos dados e no armazenamento de informaes analticas tratadas extradas do ambiente operacional. Mas como os dados fluem do ambiente operacional para o data warehouse e como esses dados so usado? Qual a tecnologia empregada nesses processos? Neste captulo veremos as caractersticas ambientais do data warehouse, como a relao do data warehouse com o SGBD (Sistema Gerenciador de Banco de Dados) e com o modelo de dados, a importncia da granularidade e as tecnologias empregadas no processamento dos dados contidos no data warehouse.

II.1. O fluxo de dados


Na figura 4, vemos os elementos e o fluxo dos dados em um ambiente de data warehousing. Dados, como dito anteriormente, so material bruto fornecidos pelos produtores de dados. Atravs de uma ao dos funcionrios (nvel operacional), as aplicaes operacionais criam dados dos mais diversos tipos, como pedidos, clientes, produtos, etc. Tais dados no servem para propsitos de tomada de decises estratgicas e gerenciais. Os dados, para serem efetivamente usados para fins analticos, devem ser transformados e carregados no data warehouse. Durante estas transformaes (realizadas pelas ferramentas ETL Extrair, Transformar e Carregar), so criados resumos e agregamentos entre esses dados que o transformam em informaes de baixo nvel. Informaes so os dados trabalhados que geraram algum tipo de conhecimento ou significado. Atravs de um resumo de dados, estes passam a 13

ter algum significado para os gerentes e executivos. Isto , os dados passam a ser agora informaes, embora em um nvel ainda baixo. Quando essas informaes de baixo nvel so processadas por aplicaes OLAP, elas so transformadas em informaes de mais valor. Essas informaes que vo suprir as necessidades dos executivos e gerentes, relativas estratgia e gerenciamento do negcio. A estratgia a tomada de decises a nvel corporativa, enquanto o gerenciamento a nvel departamental. Idem para data warehouses (nvel estratgico) e data marts (nvel gerencial).
Data Warehouse Dados operacionais Ferramentas de Monitoramento e Gerenciamento

A B C D

E T L

SGBD

Administrador/ Desenvolvedor de DW/DM

Data Marts DM-1

DM-2 Metadados DM-3

Aplicaes operacionais

Aplicaes analticas dos data marts

Aplicaes analticas do data warehouse

Usurios dos dados

Funcionrio

Supervisor

Gerente

Executivo

Figura 4.O ambiente do data warehouse.

II.2. Os metadados
Uma parte importante do data warehouse so os metadados. Eles so os chamados dados sobre os dados. So o ndice do contedo de um data warehouse. um mapeamento dos dados do modo como foram extrado das fontes operacionais e como esto inseridos dentro do DW. Os metadados definem e descrevem os dados de negcio e os tipos de dados. So definies de tabelas e seus atributos, domnios e 14

relaes. A forma como os metadados esto organizados so essenciais para que os usurios faam um bom uso do data warehouse. Eles so geralmente armazenados em repositrios separados ao alcance dos usurios. As ferramentas de monitoramento detectam gargalos de desempenho, compem estatstica de acesso e so capazes de responder perguntas como quem, quando e de que modo determinado dado foi acessado. Atravs das ferramentas de monitoramento so detectados quais dados no foram acessados e, assim, desocupar o espao desses dados, passando-os para um dispositivo de fita magntica.

II.3. O data warehouse e o modelo de dados


No ambiente do data warehouse INMON (1997: 81) destaca trs modelos de dados: corporativo (genrico), operacional (aplicaes operacionais) e analtico (data warehouse). O modelo corporativo de dados contm primitivas bsicas sobre o tipo de dados necessrios para a corporao. Os outros dois modelos (operacional e analtico), so derivaes do modelo corporativo. O modelo operacional um modelo parecido com o corporativo, mas com fatores relativos a performance destacados, como uma adequao ao processo operacional. Este modelo trabalha junto o modelo de orientao do processo e est num modelo clssico de dados, em forma altamente normalizadas1. O modelo analtico trabalha num modelo de normalizao chamado star join. Esse modelo apresenta menores nveis de normalizao. Os dados so divididos em fatos e dimenses. Os fatos so os acontecimentos, como um pedido de vendas, por exemplo. As dimenses so as variantes relacionadas aos fatos, como produtos, tempo, fornecedor, clientes, etc. Os fatos so, em geral, dados numricos, fceis de serem analisados e tidos em grande quantidade. As dimenses representam dados textuais, so difceis de analisar e so relativamente poucos (em relao aos fatos). Uma comparao do desempenho dos modelos clssico e star join, realizada pelo site DWBrasil (2000), apontou que o modelo star join 30% mais rpido que o modelo clssico quando se trata de anlise de dados. Foi usada uma tabela fato com cem mil registros e o aplicativo de data mining Business Objects 5.0 com base de dados Access. O modelo clssico apresentou uma mdia de 79 segundos para realizar cada consulta, enquanto o star join demorou 57 segundos na mdia. Considerando-se que um grande data warehouse pode apresentar tabelas fato superiores a milhes de registros e levando-se em conta que essa diferena cresce
1

Veja o verbete normalizao no glossrio para uma explicao mais detalhada sobre essa forma de dados.

15

exponencialmente, de acordo com os realizadores da pesquisa, podemos crer que tal resultado representa uma grande economia na recuperao de dados. E essa economia de processamento e tempo devida somente a uma caracterstica bsica de um projeto bem feito de um data warehouse e de seu modelo dados.
TABELAS DIMENSO TABELA FATO TABELAS DIMENSO

CLIENTES COD. CLIENTE DADOS DO CLIENTE ...

FORNECEDORES COD. FORNECEDOR DADOS DO FORNEC. ...

PEDIDOS COD. PEDIDO DATA COD. PRODUTO COD. CLIENTE COD. FORNECEDOR DADOS DO PEDIDO ...

TEMPO DIA SEMANA MS ANO

PRODUTOS COD. PRODUTO DADOS DO PROD. ...

Figura 5.O modelo star join para os dados analticos

II.4. O data warehouse e o SGBD


H, hoje em dia, sistemas de gerenciamento de banco de dados especficos para o trabalho com data warehouse. Este tipo de SGBD otimizado para o processamento analtico realizado no ambiente de data warehousing. INMON (1997; 173) destaca vrios pontos necessrios para que um SGBD supra as necessidades de um data warehouse. Conforme vimos no captulo anterior, o processamento transacional deve ser suportado por um SGBD que contenha proteo contra dead-locks (travamentos). No SGBD para DW no h necessidade de tratamento pesado desses recursos, evitando o overhead (sobre-carregamento) do sistema. O SGBD usado no data warehouse deve ter facilidade para manusear grandes quantidades de informaes. O data warehouse contm muito mais dados que o ambiente operacional, pois ele contm grande quantidade de dados histricos detalhados e tambm resumos desses dados, enquanto as fontes de dados trabalham com dados recentes somente em seu nvel atmico. interessante tambm notar que os SGBD-DW podem possuir um sistema mais robusto e bem aproveitado de ndices de dados devido ao fato de somente serem inseridos e acessados os dados. Num SGBD normal, com as inseres, atualizaes e delees de dados, os ndices tendem a se deteriorar e exigir um sistema de controle independente.

16

muito importante tambm notar que no DW h muitos meios fsicos de armazenamento de dados (memria, disco rgido, fitas magnticas e outros dispositivos de armazenamento tico e/ou magntico de massa). O SGBD deve ser capaz de gerenciar os vrios tipos de mdia, o que se torna complexo existindo grandes quantidades de dados.

II.5. A granularidade
Os nveis de granularidade so parte fundamental de um data warehouse. A granularidade o nvel de detalhe contido nas unidades de dados existentes no data warehouse. Os dados dentro do data warehouse podem estar disponveis de vrias formas: granulares, levemente resumidos, altamente resumidos e assim por diante. Quando os dados so processados no ambiente operacional, eles realizam operaes nos dados em seu menor nvel de granularidade. Os detalhes so utilizados em seu nvel mximo. No ambiente analtico, o data warehouse, os dados detalhados, depois de resumidos, so usados em pouqussimos casos, se os nveis de granularidade forem bem projetados. A questo da granularidade importante por que pode diminuir consideravelmente o tempo de acesso aos dados que realmente interessam (as informaes j resumidas) e diminuem a quantidade de discos rpidos e caros necessrios para armazenar uma grande quantidade de dados histricos. O exemplo de vrios nveis de granularidade nos dados so as vendas de uma rede de varejo. Todos os dias, vendedores realizam muitas vendas para clientes. Cada venda representa o nvel atmico de dados (o menor nvel de granularidade). Ao entrar no data warehouse, esses dados a respeito das vendas so carregadas no seu nvel atmico e, ento, sofrem um processo de resumo dos dados. Esses dados so resumidos em total das vendas feitas por um vendedor no dia, total das vendas para um determinado cliente na semana, total das vendas da empresa no dia, na semana, no ms e assim por diante. Os dados resumidos representam muito menos gasto fsico de espao, mas simbolizam muito mais informaes que o nvel mais detalhado de dados, alm de serem dados mais fceis de se recuperar. Quanto aos dados detalhados histricos, isto , no recentes, podem ser colocados em meios de armazenamento de massa mais baratos, como fitas magnticas, quando as ferramentas de monitoramento do data warehouse apontarem que eles so usados em muitos poucos casos. Os resumos desses dados continuaro acessveis a partir dos meios de armazenamento rpido. 17

Espao necessrio Quantidade de acessos Dados Dados detalhados resumidos

Figura 6.Um exemplo tpico de comportamento de acesso aos dados.

II.6. O processo de ETL


O processo de ETL (Extraction, Transformation and Load) a parte do data warehouse responsvel pela carga de dados e sua atualizao a partir dos dados operacionais. Ele se resume em localizar onde esto os dados a serem extrados, extra-los, transforma-los para o formato de dados do DW, integr-lo conforme especificaes dos metadados e, finalmente, lan-los dentro do data warehouse. Os metadados do DW so baseados no modelo corporativo de dados. Segundo INMON (1997: 115), pode parecer um processo simples, dando a impresso que uma programao manual de uma simples ferramenta de extrao dar o servio como feito. Mas no isso o que acontece geralmente. Ao comear a realizar o servio braal de extrao, os desenvolvedores do data warehouse se daro conta que esta tarefa muito mais complexa do que parecia no incio. INMON cita alguns problemas que configuram o ETL como uma tarefa rdua e complexa, como: H uma mudana na tecnologia de dados necessrio ler os dados no SGBD herdado e grava-los em um SGBD mais novo e atual, capaz de suportar o data warehouse. Isso incorre numa necessidade de ferramentas para a comunicao entre esses dois tipos de base (middleware). Os dados precisam ser convertidos: o Datas, medidas e padres precisam ter uma nica face. Exemplo: as datas em um banco de dados operacional esto no formato AA/MM/DD e em outro BD esto MM/DD/AA. No data warehouse foi adotado o padro DD/MM/AAAA, ento todos os dados precisam ser reformatados para entrar no DW. Essa tarefa extremamente mecnica e rdua, e poderia ser realizada por conversores automticos, por exemplo, ao invs de programada manualmente. 18

o O formato lgico dos dados, como formatos de texto EBCDIC e ASCII, devem ser convertidos tambm As chaves dos dados precisam ser reestruturadas. Em casos mais simples somente uma questo de adicionar a dimenso tempo, em outros casos as chaves nos diversos sistemas herdados so diferentes e precisam ser convergidas para um nico formato. A seleo dos dados que iro entrar no DW extremamente custosa, podendo haver vrias fontes para os mesmos dados necessrio eliminar a redundncia de dados. Um mesmo cliente cadastrado em vrias aplicaes diferentes, por exemplo. Ao entrar no DW, esse cliente dever aparecer somente uma vez. O relacionamento entre os dados em programas herdados no so documentados ou so colocados em uma lgica extremamente otimizada para tais programas. INMON coloca este problema como um dos piores a serem resolvidos, pois desvendar os dados atrelados dessa forma um passo muito demorado e custoso. A grande variedade de fontes de dados. Em conseqncia, h igual nmero de formatos e relacionamentos de dados a serem trabalhados. Correo de dados. Dados no confiveis de fontes operacionais devem ser corrigidos para no haver dvidas quanto veracidade das informaes do data warehouse. Um simples algoritmo de correo pode resolver, mas talvez sejam necessrias ferramentas de inteligncia artificial para tratar tais dados. necessrio um cuidado especial com as ferramentas de ETL. No caso de pequenos data warehouses, com poucas fontes de dados e poucas tabelas, pode-se considerar a possibilidade de programao manual da extrao. Mas com um data warehouse um pouco maior praticamente obrigatrio o uso de ferramentas automatizadas para a ETL dos dados.

II.7. Tecnologias de aplicaes sobre o data warehouse e os data marts


O datawarehouse , acima de tudo, uma grande banco de dados corporativo com dados preparados para anlise. Tal banco de dados possui alguns dados prontos para consumo, como os dados em diferentes nveis de sumarizao e agregao. Mas com os dados disponveis atravs do data warehouse, pode ser feito muito mais. Ferramentas esto amplamente disponveis no mercado e um bom engenheiro de informao pode muito bem desenvolver solues personalizadas para cada empresa. 19

Essas ferramentas, ditas ferramentas de processamento analtico (OLAP), so um dos grandes benefcios em se possuir um data warehouse bem construdo. Vejamos algumas dessas ferramentas que trabalham o data warehouse. II.7.1. DSS De acordo com POWER (1997: 1), um sistema de suporte a deciso um sistema de computador interativo cujo objetivo ajudar gerentes a tomar decises. Segundo GREENFIELD (2000: 1), um sistema de suporte deciso uma ferramenta especificamente idealizada para permitir que os usurios finais de negcios possam realizar anlises geradas por computador dos dados em si. Um DSS tem 4 caractersticas bsicas (Turban): Incorporam modelos e dados. Ajudam executivos e gerentes a tomar decises a partir de tarefas semiestruturadas ou ainda no estruturadas. Eles suportam, ou preferencial substituem, o julgamento gerencial. O objetivo do DSS aumentar a eficincia das decises, e no aumentar a eficincia com que as decises so tomadas. Os DSS usualmente suportam anlises what if (e se). Tais anlise podem fazer previses se o usurio fizer mudanas nas variveis que influem em processo. Vamos dar um exemplo: E se aumentssemos nossos preos em 5%, o que isso iria influir em nossas vendas daqui a 2 meses?. O DSS formularia uma resposta satisfatria se ele pesquisar o histrico de vendas e analisar como foram as vendas aps uma subida de preos. II.7.2. Data Mining Ferramentas de data mining, ou minerao de dados, so comuns no ambiente de data warehouse. Data mining uma classe de aplicaes analticas que procuram por padres escondidos nos dados do data warehouse. As ferramentas realizam uma filtragem de grande quantidade de dados usando muitas tcnicas, tais como raciocnio baseado em casos, visualizao de dados, pesquisa e anlise fuzzy e redes neurais. Com ferramentas de data mining, podemos descobrir, por exemplo, qual o perfil do cliente devedor, que produtos que so vendidos juntos, qual o tipo do paciente desenvolve um tipo especfico de doena, padres comportamentais de poos de petrleo e muitas outras coisas. A minerao de dados se encaixam tanto em pesquisas comerciais quanto em pesquisas de cunha cientfico.

20

II.7.3. CRM CRM significa Customer Relationship Management, ou Gerenciamento de Relaes com o Cliente. Aplicaes de CRM usam o data warehouse para criar um histrico integrado sobre os clientes e poder oferecer um atendimento personalizado para estes. Assim, podemos saber facilmente quantos clientes foram adicionados ao sistema, o rendimento com cada cliente, agrupamento de clientes (de acordo com inadimplncia, lucro, etc.), produtos que atraem clientes especficos, pontos de contato do cliente com a empresa e assim por diante.

21

CAPTULO III. CUSTOS DO DATA WAREHOUSE


O data warehouse, como qualquer outra estrutura, possui suas prprias caractersticas e custos. Sabendo-se quais os gastos de se construir e operar um data warehouse, podemos antecipar e gerenciar estes custos. Dessa forma, a carga desse investimento na instituio pode se fazer de forma organizada e prevista, aumentando com isso a satisfao da organizao com relao ao data warehouse.

III.1. Classificando os custos


A perspectiva de INMON (2000c: 3) sobre a classificao dos custos decorrentes da implantao do data warehouse a diviso, quanto ao tempo do investimento, entre custo inicial e custo peridicos. Tambm pode ser dividido, quanto ao tipo de investimento, em custos capitais e custos operacionais. Os custos capitais so decorrentes do gasto de dinheiro referente a compra de equipamentos, servios e estrutura. Os custos operacionais o gasto com pessoal, no necessariamente gastos financeiros, mas sim gastos de tempo para o desenvolvimento de solues. Este tempo precioso e no somente gastando-se mais dinheiro com pessoal que o tempo de desenvolvimento do data warehouse ir diminuir. III.1.1. Custos iniciais O custo inicial o investimento realizado na implantao do data warehouse. Segundo INMON (2000), ele pode ser classificado como:

22

Quadro 3.

Hardware Processamento Armazenamento Estrutura de rede

Software SGBD Ferramentas de gerenciamento e monitoramento do sistema Criao e povoamento dos metadados Criao ou aquisio dos programas de ETL (Extraction, Transform and Load)

Pessoal Consultoria em DW Administrador de data warehouse (banco de dados) Administrador de rede Analistas de sistema Programadores Treinamento dos usurios

Os elementos formadores do custo inicial de um data warehouse.

Os gastos com hardware so investimento em estrutura fsica de suporte ao data warehouse, como computadores, discos rgidos, dispositivos de fitas de dados, estrutura de rede. Segundo especialistas, o maior gasto nesse quesito a parte de armazenamento, pois um grande data warehouse pode chegar a ocupar vrios terabytes de dados. Ento para diminuir esse gasto, so instalados sistemas de armazenamento em massa, como fitas magnticas e armazenamento tico, decaindo o custo muitas vezes. Deve-se realizar uma previso da tamanho inicial do data warehouse e uma estimativa de crescimento do data warehouse para que seja adquirido o hardware necessrio para conter o crescimento. O investimento em software o custo de aquisio de um SGBD, ferramentas de gerenciamento e monitoramento do sistema, da criao de programas de ETL e a criao e povoamento dos metadados. A criao e povoamento da estrutura dos metadados um passo importantssimo, segundos os especialistas em DW, para um projeto bem sucedido. Os metadados devem estar amplamente disponveis para os usurios finais do data warehouse (principalmente os exploradores) para que faam uso do data warehouse. H uma grande variedade de programas de ETL disponveis para os usurios de data warehouse. Deve-se configurar estes programas para buscar os dados operacionais, integra-los e transforma-los para que alimentem o data warehouse. Os gastos com pessoal so o fator mais importante do data warehouse. Inicialmente, deve-se contratar uma consultoria para uma avaliao das necessidades e proposio das melhores alternativas para a criao do data warehouse. A partir da, contrata-se ou realoca-se profissionais de administrao do data warehouse e redes, analistas e programadores. O melhor investimento que se pode fazer para que um data warehouse (ou qualquer outro projeto de informtica) o treinamento dos usurios. Usurios bem 23

treinados so essenciais para o sucesso de qualquer projeto. So os usurios que iro proporcionar o retorno todo e qualquer investimento em data warehouse, portanto iremos estuda-los melhor mais a frente (Cap. III Fazendeiros x exploradores). Uma soluo alternativa e vivel a terceirizao dos servios de pessoal. H muitas empresas que disponibilizam profissionais para a construo e manuteno do data warehouse, alm de oferecerem treinamento para os usurios do data warehouse. III.1.2. Custos peridicos Os custos peridicos so os gastos derivados da manuteno, atualizao e uso do data warehouse. Podemos dividi-los em:
Quadro 4.

Hardware

Manuteno Acrscimos

Software

Manuteno do SGBD Manuteno das ferramentas de ETL ou criao de utilitrios de processamento de log Manuteno dos metadados Aquisio de novas ferramentas

Pessoal Consultoria em DSS Administrador de data warehouse (banco de dados) Administrador de rede Analistas de sistema Programadores

Treinamento usurios

dos

Os elementos formadores dos custos peridicos do data warehouse.

Os gastos peridicos com hardware esto relacionados com manuteno do equipamento existente, devido ao desgaste natural das peas, e com acrscimo de dispositivos de processamento/armazenamento de acordo com o crescimento do data warehouse. Os gastos com software esto em sua maioria relacionados com o gasto de pessoal, como a manuteno do software e da estrutura de metadados. Eventualmente, pode haver aquisio de novas ferramentas para a manuteno e uso do data warehouse. Os gastos com pessoal diminuem em relao ao custo inicial, pois a mo de obra pesada usada no dia a dia do data warehouse menor. Os custos com treinamento ainda devem continuar sendo uma constante no oramento do data warehouse. Esta parte, como j dito, pode ser terceirizada.

24

III.2. Fatores de variao do custo


Quanto cada parte de investimento mencionado no item anterior ir custar ao bolso do investidor? Podemos dizer que no h parmetro para afirmarmos com certeza quanto o data warehouse ir custar. O que podemos afirmar que h uma srie de muitos fatores que influenciam diretamente no custo do data warehouse. Assim, no podemos, sem o levantamento de todos estes fatores, que variam de organizao para organizao, dizer quanto o data warehouse ir custar, nem inicialmente, nem periodicamente. Os fatores que influem no custo so: A quantidade de dados gerados pelo dia a dia operacional determina quanto crescimento o equipamento e software do data warehouse precisar conter para trabalhar com folga pelos prximos dois anos. O histrico que deve ser armazenado no data warehouse a quantidade de dados que poder ser armazenada em dispositivos de massa, como fitas magnticas, que custa barato, mas so lentas e se tornam um obstculo para um processamento rotineiro dos dados. O nvel de detalhamento dos dados necessrio quanto maior o detalhe contido nos dados, mais espao de armazenamento necessrio. O nvel de detalhe atmico o usado nas aplicaes operacionais. O nvel do usurio final quanto de treinamento os usurios necessitam para se adaptar ao data warehouse. Se o mercado est num mercado competitivo ou no que tipo de anlise deve ser feita pelos programas que rodam sobre o data warehouse. A velocidade com que o data warehouse precisa ser construdo quanto mais rpido, mais profissionais e, como conseqncia, maior deve ser o investimento. Se o data warehouse ser construdo manualmente ou atravs de ferramentas automticas o processo manual demanda menos gasto com software mas muito mais gastos com pessoal, tanto no custo inicial quanto no custo peridico. O nmero de data marts a ser construdo quantos departamentos necessitam de sua prpria viso dos dados analticos, tendo a necessidade de construir seus prprios data marts.

25

A quantidade de sumrios e dados sumarizados a ser mantido quanto mais sumrios, menor a quantidade de acesso aos dados detalhados, que podem estar armazenados em dispositivos de armazenamento de massa. A todos esses fatores pode-se tambm somar:

A escolha do SGBD correto, que contenha o maior numero de ferramentas de ETL e administrao nativas. A escolha do hardware correto, de acordo com as necessidades de processamento e armazenamento. A contratao de bons profissionais para realizar cada tipo de servio. Erros na implantao devido a economias na hora de fazer o projeto do data warehouse. Devido a esses fatores, podemos assumir que no uma empresa tpica em que

possamos basear um custo fixo. Tambm devemos lembrar que estamos trabalhando o custo do data warehouse, e no de todo o sistema DSS. A esses fatores podemos adicionar os custos das ferramentas de anlise e sistemas de informao que iro trabalhar sobre o data warehouse.

26

CAPTULO IV. JUSTIFICAO DOS CUSTOS DO DATA WAREHOUSE


Podemos dizer que o data warehouse um investimento alto. Mas o que ele pode nos oferecer em troca de tamanho custo? O retorno desse investimento vem a curto, mdio ou longo prazo? Qual a melhor argumentao para se justificar a implantao de um data warehouse? Poderemos medir a satisfao de um empresa com seu data warehouse media que se tem um maior retorno por um menor investimento. O retorno, como veremos, se dar em formas de vantagens no negcio, aumentando a competitividade e o lucro da empresa detentora do data warehouse. O investimento em um data warehouse no compensa se este custo no for pago gradualmente com o uso dele. Ento, para que o data warehouse pague-se mais facilmente, preciso do equilbrio entre um data warehouse barato e de alto benefcio para a empresa.

IV.1.Acesso informao
Dos vrios benefcios que o data warehouse traz ao cotidiano de uma empresa, o mais simples de se ver a facilidade de extrao de relatrios integrados e sua diminuio de custo. Ao extrair relatrios sem um data warehouse, uma empresa que possui vrios aplicaes operacionais precisa: 1. Localizar em quais sistemas esto os dados. 2. Recuperar os dados. o Extrair dados de cada um dos sistemas operacionais. Eles podem estar baseados em ADABAS, Oracle, DB2, etc. 27

3. Integrar/transformar os dados. o Padronizar os dados. o Reconciliar os dados. o Modificar as estruturas de dados. 4. Reunir os dados. 5. Construir o relatrio. A fora de desenvolvimento envolvida em produzir um relatrio muito custosa. E no podemos reaproveitar relatrio j prontos, pois as necessidades de dados mudam para cada relatrio. Podemos afirmar que o custo de extrao de cada relatrio pode variar de milhares a milhes de dlares e demorar vrios meses para ficar pronto. Com o data warehouse, o processo de extrao dos relatrios se simplificam, pois os passos de 1 a 4 no modelo anterior so feitos uma nica vez e aps isso s construir cada relatrio. Ento, relatrios que eram feitos em meses passam a ser confeccionados em dias ou horas. Considerando a o nmero de fontes de dados e b o nmero de relatrios, o custo total de extrao sem o DW de a x b, j que devero ser minerados todas as fontes para cada relatrio. O custo com o data warehouse cai para a + b, partindo-se do princpio que os dados j esto no data warehouse e que s construir cada relatrio.
Fontes de dados V X Y w Relatrios integrados

A B C

D
a

Figura 7.O custo com relatrios antes do data warehouse (a x b).

28

Fontes de dados

V Data Warehouse X Y w a b Z Relatrios integrados

A B C D

Figura 8.O custo com relatrios aps o data warehouse (a + b).

Nesse diferencial de custos no est incluso o tempo gasto para a extrao de cada relatrio. Num ambiente empresarial, tempo muito importante ao se tomar uma deciso. IV.1.1. Fazendeiros x Exploradores INMON divide os usurios do data warehouse em dois grupos distintos: o fazendeiro e o explorador. O fazendeiro est presente no dia-a-dia da empresa, usando os caminhos habituais para acesso aos dados e retornando informaes de pouco valor em um ritmo constante de extrao. O explorador faz pesquisas ocasionais no data warehouse e raramente ele acha alguma informao que possa ser til mas, muitas vezes, tal informao de grande valor. Ento, por quem justificar o custo do data warehouse, pelo usurio dirio que retorna informaes baratas ou pelo explorador que pode encontrar uma verdadeira preciosidade em forma de informao? Logicamente, devemos optar pelo fazendeiro como nosso justificador de custos. O retorno do investimento atravs do uso dirio e rotineiro do data warehouse constante e no oferece riscos. Em contrapartida, o explorador inconstante e muito arriscado fazer compromissos de que as informaes podero ser usadas. O fazendeiro imprescindvel, mas o explorador tambm muito importante. Podemos adotar o modelo exploratrio para descobrir novas informaes associadas aos nossos dados bvios.

IV.2.Data warehouse e data marts


Outra abordagem dos benefcios do data warehouse a construo do data warehouse como ponte para a produo de data marts. Data marts, como vimos no captulo 1, uma estrutura departamental do data warehouse.

29

Podem-se construir data marts sem um data warehouse, mas o custo de toda a estrutura independente de data marts a longo prazo ir crescer muito em relao a um data warehouse envolto com data marts. Vejamos por qu: para a construo de um data mart, iremos proceder da mesma forma como na construo de um data warehouse: extraindo, transformando e integrando dados pertinentes rea departamental do data mart. Ento, o custo inicial da construo de data marts independentes a (nmero de fontes) x b (nmero de data marts). Da mesma forma como acontece com os relatrios, os data marts consomem apenas a + b, pois os dados so extrados para o data warehouse uma nica vez e a partir da que vo nutrir os data marts.
Fontes de dados Relatrios integrados

Data Marts Finanas

A B C
a

Vendas

Produo b

Figura 9.Data marts independentes. Custo a x b.


Fontes de dados Data Marts Data Warehouse Finanas Relatrios integrados

A B C D
a

Vendas

Produo b

Figura 10.Data marts construdos a partir do data warehouse. Custo a + b.

IV.3.Vantagens no negcio
A justificao do custo do data warehouse baseada em vantagens no negcio pode ser interessante, embora tal benefcio no possa ser quantificado, pois embora possamos medir o crescimento da empresa antes e depois do data warehouse vrios outros fatores podem ter acarretado tais mudanas na realidade dos negcios. Um data warehouse bem construdo capaz de assegurar e aumentar a participao da organizao no mercado, aumentar o lucro e diminuir custos. Esse 30

fenmeno se d por qu a empresa munida de um data warehouse pode tomar decises estratgicas mais rapidamente do que as empresas que no o possuem. As informaes fluem atravs de toda a empresa atravs do data warehouse, acusando se h uma queda no mercado e podem ser tomadas decises a tempo antes que as perdas sejam maiores. Os lucros podem aumentar, pois a empresa deixar de perder ao realizar negcios menos arriscados, baseando-se no histrico integrado dos negcios anteriores que o data warehouse disponibiliza. A diminuio de custos ficou evidente ao estudarmos a produo de relatrios antes e depois do data warehouse. Partindo-se desses princpios, pode-se deduzir que o data warehouse realize alteraes nos sensores costumeiros do crescimento da empresa, tais como nmero de clientes, valor do faturamento, valor do lucro e assim por diante. Tais vantagens so comprovadas por empresas que j implantaram o DW, consolidando o data warehouse como ferramenta redutora de custos, agilizadora de processos e medidora de qualidade e crescimento das empresas.

31

CONCLUSO
Aps intensa pesquisa bibliogrfica sobre a literatura especfica e sites especializados em data warehouse, podemos tirar vrias concluses. No possvel dizer o custo especfico para um data warehouse sem um minucioso projeto e levantamento das necessidades especficas da organizao sobre o data warehouse. necessrio realizar uma pesquisa para saber as variveis que a empresa apresenta, tais como volume de dados, tempo de resposta, tempo de construo do data warehouse, nvel de instruo do usurio final, entre outros fatores mencionados no decorrer do trabalho. Cada um dos fatores altera o custo do data warehouse e faz com que este se torne impossvel de se predizer. Aos fatores de variao de custo, podemos acrescentar a abordagem na construo do data warehouse. A empresa, ao iniciar um projeto de data warehouse, deve estar consciente de que a abordagem ao problema um fator fundamental para a determinao do custo e a satisfao com o data warehouse. Um exemplo de abordagem errnea a tentativa (e frustrao) de construo do data warehouse em uma nica etapa, pois um data warehouse construdo iterativamente facilita o feedback com os usurios e correo do data warehouse. Os benefcios da implantao de um data warehouse so evidentes, de acordo com o que foi apresentado durante o trabalho. possvel ter benefcios em pouco mais de um ms aps o incio da construo do data warehouse. Em contrapartida, os benefcios no esto bem delineados para a empresa at o trmino da construo do data warehouse, segundo INMON. A corporao comear a realizar uma mudana interna para incorporar o data warehouse sua rotina de trabalho e com isso ir descobrir mais usos benefcios do data warehouse. Uma das dificuldades de realizao do trabalho foi a baixa disponibilidade de material sobre custos do data warehouse. H uma lacuna neste trabalho sobre os tipos de ferramentas de construo e manuteno do data warehouse e seus custos. Uma proposta para as prximas pesquisas nesta rea um estudo mais aprofundado sobre este tema. H um grande conjunto de ferramentas de data warehousing e cada uma possui suas prprias vantagens e custos, e com certeza surgiro muitas outras.

32

O estudo para a realizao deste trabalho foi muito proveitoso, pois o data warehouse e suas aplicaes so atualmente o estado-da-arte no que se refere a sistemas de informaes.

33

ANEXO I. FONTES DE INFORMAO NA INTERNET


Bill Inmon Website www.billinmon.com Pgina de William H. Inmon. Contm artigos, white papers, bibliografia entre outras informaes sobre data warehousing e tecnologia da informao DSS Resources www.dssresources.com Pgina de D. J. Power. Recursos e muitas informaes sobre DSS e seus agregados, como data warehouse, data mining, OLAP, etc. ReserchIndex: Computer Science Directory http://citeseer.nj.nec.com/directory.html Base de dados on-line de trabalho cientficos na rea da cincia da computao. Possui vrios modo de visualizao de contedo e um sistema de cruzamento de referncias bibliogrficas que facilitam a pesquisa. The Data Warehouse Information Center http://www.dwinfocenter.org/ Ponto de partida para a busca de informaes sobre data warehouse. Contm muitas informaes e links para outras pginas sobre o assunto. What Is www.whatis.com Base de dados com definies sobre termos tecnolgicos. SearchDatabase www.searchdatabase.com Base de dados sobre assuntos relacionados com base de dados SearchDataWarehousing www.searchdatawarehousing.com Base de dados de procura de informaes sobre data warehousing.

34

GLOSSRIO
Anlise de terminal Trabalho de analisar e mostrar dados uma vez que tais dados esto no data warehouse. Portanto, a anlise de terminal a atividade analtica aps os dados serem armazenados no DW. Alguns componentes da anlise de terminal so: descoberta do problema, a preparao, gerenciamento e interpretao do relatrio, a anlise do conjunto-resultado, e a visualizao do resultado. Dados em nvel atmico dados em seu menor nvel de granularidade. Granularidade O nvel de detalhe contido em uma unidade de dados. Quanto menos detalhes dos dados, mais baixo o nvel de granularidade. Quanto mais detalhes, mais alto o nvel de granularidade. Sistema Gerenciador de Banco de Dados (SGBD) Programa que gerencia uma coleo de dados organizados de uma maneira especfica. Conhecido em ingls como DBMS, ou Data Base Management System. Sistema Gerenciador de Banco de Dados Relacional (SGBD-R) Programa que gerencia uma coleo de dados organizados como um conjunto de tabelas formalmente descritas em que o dado pode ser acessado e remontado de diversas maneiras sem a necessidade de reorganizar as tabelas de dados. usada a linguagem SQL para praticamente todos os SGBD-R. Sumarizao Mtodo para diminuir a granularidade dos dados. Os dados so agrupados por categorias ou tempo para que fiquem mais compactos e fiquem mais fceis de analisar. Dead-lock Travamento do sistema devido concorrncia de vrios usurios ao mesmo recurso. Em bases de dados operacionais utilizado o sistema de transaes para evitar tal condio. Em data warehouse no h a necessidade desse sistema pois as operaes se resumem a inserir e consultar. J nas bases de dados operacionais, necessrio um recurso adicional de recuperao de dead-locks que consomem recursos do sistema. ETL (Extract, Transform and Load) Extrair, Transformar e Carregar. Processo de transformao dos dados transacionais para os dados analticos. Leitura seqencial Forma de leitura de dados que l todos os dados de uma fita magntica at encontrar a informao procurada. O outro mtodo usado a leitura aleatria, que salta a leitura at o ponto exato onde o dado est gravado. Linguagens de 4a. gerao (L4G) Linguagens de programao projetada para permitir ao usurio final acesso irrestrito aos dados. Normalizao Mtodo para a reduo de uma estrutura complexa de dados para um estrutura mais simples e estvel. Em geral, o processo o remove as estruturas redundantes de dados, chaves e relacionamentos de um modelo conceitual de dados. (Power, 2000) Semi-condutores Elementos bsicos internos de um computador, chamados tambm de chips ou circuitos integrados.

35

BIBLIOGRAFIA
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] CAMPOS, Maria Luiza; ROCHA Filho, Arnaldo V., Tutorial de Data Warehouse, http://genesis.nce.ufrj.br/dataware/tutorial/home.html, NCE-UFRJ, Brasil. GREENFIELD, Larry, A Definition of Decision Support, LGI Systems Inc., 22/06/00, http://www.dwinfocenter.org/decsup.html GUPTA, Vivek R., An Introduction to Data Warehousing, http://systemservices.com/dwintro.asp, System Services Corp. INMON, William H., Como Construir o Data Warehouse 2a. Ed., Editora Campus, Brasil, 1997. INMON, William H., Data Mart Does Not Equal Data Warehouse, DMReview.com, 07/2000. http://www.datawarehouse.com/iknowledge/articles/article.cfm INMON, William H., The Data Warehouse Budget, http://www.billinmon.com/library/whiteprs/???.pdf, EUA, 2000. INMON, William H., The Data Warehouse Environment: Quantifying Cost Justification and Return on Investiment, http://www.billinmon.com/library/whiteprs/MsCJ.pdf, EUA, 11/2000. INMON, William H., What is a Data Warehouse, http://www.billinmon.com/library/whiteprs/earlywp/ttdw.pdf, EUA, 2000. KINBALL, Ralph, The Data Warehouse Toolkit, Wiley, EUA, 02/1996 ORR, Ken, Data Warehousing Technology, http://www.kenorrinst.com/dwpaper.html, 2000. Power, D. J., Decision Support Systems Hyperbook. Cedar Falls, IA: DSSResources.COM, pre-publication PDF version, 2000, acessado em 23/02/2001 na URL http://dssresources.com/dssbook/. POWER, D.J., What is a Decision Support System, acessado em 20/02/2001 na URL http://www.dssresources.com/papers/whatisadss/index.html DWBRASIL, Snow x Star, acessado em 02/03/2001 na URL http://www.dwbrasil.com.br/html/snow_star.html

36

Você também pode gostar