Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
PARA
IMPLEMENTAÇÃO DE PROJETOS
DE
DATA WAREHOUSE
E-mail: felipe.ferreira@w5solutions.com.br
felipe6ferreira@hotmail.com
RESUMO
Implementar um data warehouse está longe de ser uma tarefa fácil, mesmo
considerando o desenvolvimento por assuntos (Data Marts). Faz-se necessária uma
atenção especial para o método de desenvolvimento. Este trabalho apresenta as fases do
projeto de implementação do data warehouse: levantamento, modelagem, extração,
modelagem multidimensional, análise de resultados, visões pré-definidas e segurança.
iii
SUMÁRIO
Resumo ii
1. Introdução 1
2. Tecnologias 3
3. Infra-estrutura 5
4. Metodologia 9
4.1. Levantamento 9
4.2. Modelagem 11
4.3. Extração de dados 14
4.4. Modelagem Multidimensional 17
4.5. Análise de Resultados 19
4.6. Visões Pré-definidas 20
4.7. Segurança da Informação 21
6. Estudo de Caso 24
7. Conclusão 27
8. Lista de Abreviações e Siglas 28
9. Referências Bibliográficas 29
1. INTRODUÇÃO
não volátil e variável em relação ao tempo, de apoio às decisões”. (1997, pág 33) Ele
demonstra em sua obra as principais técnicas para construção de um data warehouse.
2. TECNOLOGIAS
Management (EPM), que definem as metas dos indicadores. Estes sistemas, muitas
vezes, utilizam o histórico dos indicadores como fonte para cálculo das metas.
Definição da infra-estrutura
Levantamento de dados
Modelagem de dados
Extração de dados
Modelagem multidimensional
Análise de resultados
Visões pré-definidas
Segurança da informação
Administração
3. INFRA-ESTRUTURA
armazenados. Ele deverá suportar: grandes volumes de dados, alta performance para
carga de dados e consulta de informações, flexibilidade para alteração de estruturas,
fácil administração e operação, baixo custo por usuário, integração com diferentes
plataformas e sistemas, etc. Devem-se evitar utilizar características que dificultem a
migração para outra plataforma. Em longo prazo, por questões de custo, pode ser
necessária uma mudança de plataforma. Com tanta integração e a utilização do DW por
toda organização o custo de licença de uso, por usuário, deve ser considerado desde o
início como um fator crítico. Sendo os dados o mais importante, a estrutura de
organização dos dados deve ser muito bem conhecida, documentada e de fácil acesso.
Para obter os dados do ambiente operacional para o data warehouse, podem ser
utilizadas várias linguagens, formas de acesso, conectores de dados e meios físicos
diferentes (discos, fitas, rede etc). Segundo INMON, “à primeira vista, quando os dados
são movidos do ambiente herdado para o ambiente do data warehouse, parece que nada
além de simples extrações de dados de um local para o próximo está ocorrendo. Em
virtude dessa enganosa simplicidade, muitas empresas começaram a construir seus data
warehouses manualmente. O programador olha para a movimentação de dados do
antigo ambiente operacional para o novo data warehouse e declara: “Eu posso fazer
isso”! Munido de lápis e formulário de codificação, nos três primeiros minutos do
projeto e desenvolvimento do data warehouse, o programador ansiosamente mergulha
na criação do código”.
Outro fator muito importante está na flexibilidade que o ambiente deve possuir
para atender as constantes mudanças de visão do negócio. Uma empresa que opera com
apenas um produto pode passar a comercializar outros, assim como uma empresa pode
se tornar uma grande organização composta por diferentes unidades de negócio. Não é
necessário que estas mudanças estejam previstas no data warehouse, porém a
implementação delas não pode ser inviabilizada pela arquitetura utilizada.
funciona. Você pode otimizar sua máquina para o processamento operacional ou pode
otimizar sua máquina para o processamento do data warehouse, mas não é possível ter
ambas as situações ao mesmo tempo e no mesmo equipamento”.(1997, pág 25)
4. METODOLOGIA
4.1. LEVANTAMENTO
Analisar as bases de dados de grandes corporações pode não ser uma tarefa
eficiente, pois nem todas possuem documentação e nem mesmo seguem os padrões de
normalização de dados. Sendo assim, vasculhar as bases de dados dos sistemas
transacionais sem um direcionamento prévio exigirá um esforço grande dos arquitetos
do data warehouse.
10
Numa análise mais ampla devem-se revisar os processos das áreas relacionadas
com o assunto, onde são observadas as regras de negócio. Estas regras podem dar
origem às transformações na fase de extração de dados. Em geral as transformações
podem ocorrer por questões técnicas, mudanças de formatos ou uma visão de negócio.
As transformações por visão de negócio acontecem em geral por adaptação dos
processos das empresas aos sistemas, normalmente em casos de implantação de ERPs.
Outra fonte que pode auxiliar nesta fase de levantamento de dados são
relatórios gerenciais, que muitas vezes são improvisados em planilhas eletrônicas a
partir da coleta de dados de várias fontes. É comum encontrar nestes relatórios os
principais indicadores monetários e físicos (quantitativos).
11
A análise das bases de dados dos sistemas transacionais pode ser iniciada pela
pesquisa das tabelas com maior volume de dados. Estas tabelas normalmente são
referentes a eventos ou fatos que ocorrem com freqüência, indicados por campos de data
ou período. Comumente estas tabelas são definidas como ordens, itens, detalhamento
etc. Os atributos destas tabelas são compostos, em grande parte, por chaves estrangeiras
(foreign key) e indicadores. Os indicadores são dados quantitativos, monetários, taxas e
medidas. As tabelas relacionadas com a tabela de eventos (ou fatos) podem dar origem
às dimensões, que são as diferentes visões que se poderá ter do assunto.
O mapeamento dos dados deve ser bastante detalhado para facilitar o trabalho
na fase de extração de dados. Neste mapeamento de dados devem ser indicados as bases
de dados, arquivos, tabelas, campos, atributos, formatos etc.
Esta especificação será utilizada durante todo o projeto do Data Mart como
orientação para que os objetivos sejam atingidos.
4.2. MODELAGEM
N para N, ou seja, um fato não pode estar relacionado com mais de um elemento de uma
tabela de dimensão. Os elementos das tabelas de dimensão estarão relacionados com
vários itens da tabela de fatos, caracterizando assim a necessidade de agregação.
Fatos diferentes podem dar origem à outra dimensão que deve ser observada
com atenção. A relação de fatos realizados com previstos ou calculados é o conceito de
versão, que é representado usualmente nos data warehouses como uma dimensão de
versão.
Devemos ter maior atenção para as tabelas de fatos, pois noventa por cento dos
dados de cada Data Mart serão armazenados nestas tabelas. As tabelas de fatos serão
compostas por dois grupos de atributos chaves estrangeiras e indicadores. O
dimensionamento correto dos tipos de dados das chaves das dimensões e dos
indicadores determinará o espaço necessário para o armazenamento.
A granularidade das tabelas de fatos poderá ser reavaliada após alguns anos de
dados armazenados. INMON comenta sobre níveis duais de granularidade, onde “na
maior parte do tempo, há uma grande demanda por eficiência no armazenamento de
14
dados e no acesso a eles bem como pela possibilidade de analisar dados em maior
detalhe. (Em outras palavras, a organização quer fazer o gol e defender ao mesmo
tempo!) Quando uma organização possui grandes quantidades de dados no data
warehouse, faz sentido pensar em dois (ou mais) níveis de granularidade na parte
detalhada do data warehouse”. (1997, pág 49) Deve ser observado que, efetuando este
tipo de modelagem, alguma informação será perdida ao longo do tempo.
ferramentas de ETL (Extract Transform and Load) são de suma importância para a
integração dos ambientes transacionais e o data warehouse.
Para solucionar o problema do corte dos dados podem ser empregadas algumas
técnicas: marcar de tempo, arquivo de log ou auditoria, arquivo delta, imagem anterior /
posterior e alteração da aplicação do sistema transacional.
Uma particularidade da extração dos dados é a conversão inicial dos dados dos
sistemas transacionais para o data warehouse. Após o desenvolvimento dos extratores é
possível iniciar a carga de dados para o data warehouse. Porém, vale avançar para as
17
próximas fases do projeto até a análise de resultados, onde algumas validações podem
ser executadas e possivelmente trará modificações para os extratores de dados. Por fim,
após as modificações, os dados devem ser convertidos por períodos. Tentar trazer todos
os dados de uma só vez não é recomendado, podendo causar grande impacto nos
sistemas transacionais, que já estão em ambiente produtivo.
É comum verificarmos que, após a carga dos dados dos sistemas transacionais
para o data warehouse, muitas informações não possuem o valor esperado. Após as
primeiras cargas de dados, é necessário fazer uma análise criteriosa das informações.
Muitos dados podem não estar qualificados, ou seja, os dados contidos nos sistemas
transacionais não estão consistentes. Este problema de qualificação e análise dos dados
é abordado com mais detalhes na fase de análise de resultados, onde o analista de
suporte a decisão tem grande participação no processo.
Esta fase pressupõe que as informações já estão disponíveis para análise. Não é
necessário que todos os dados já tenham sido carregados para o data warehouse, mas
uma parte significativa que permita a avaliação dos resultados. Neste ponto do projeto o
analista de suporte a decisão tem a responsabilidade de validar as informações contidas
no data warehouse. O analista deverá observar a conformidade das informações
disponibilizadas com a especificação produzida na fase de levantamento de dados.
Este trabalho deverá ser o mais rigoroso possível, pois a partir das informações
contidas no data warehouse e disponibilizadas elas serão usadas para a tomada de
decisão. Uma informação errada pode causar mais prejuízos que a falta delas.
fazer com que os executivos percam a confiança nas informações de tal modo que se
determine a descontinuidade do projeto todo.
Num ambiente integrado algumas análises podem ser feitas de forma orientada,
onde os analistas de suporte a decisão e os gestores podem “navegar” entre relatórios
obtendo o detalhe necessário para suas conclusões e observação de comportamento de
vendas, clientes, produtos etc.
Por outro lado, de que adiantaria todo o esforço para construir o data
warehouse se as informações ficarem confinadas no repositório de dados. Alguns
analistas podem desenvolver uma visão analítica, crítica e consciente, com o acesso as
informações do data warehouse.
5. ADMINISTRAÇÃO
Em alguns casos, novas regras negócio podem ter sido implementadas nos
sistemas transacionais, sem a comunicação para aos administradores do data warehouse.
Nestes casos o administrador deverá recorrer aos analistas de suporte à decisão para
reavaliação das transformações dos extratores de dados.
Alguns papéis devem estar bem definidos para a equipe de manutenção do data
warehouse. Alguns deles são: arquiteto de soluções, administrador de dados, analista de
suporte a decisão, analista de negócio, administrador de banco de dados,
desenvolvedores, patrocinadores do projeto. Talvez o arquiteto de soluções seja a peça
fundamental para a construção e manutenção do data warehouse. Ele deverá ter a visão
do todo, desde integrar os diferentes sistemas transacionais ao data warehouse a
disponibilização dos dados para os analistas. O administrador de dados (AD) deve ser
responsável pelos metadados, pela integração das bases de dados e organização dos
dados. O AD deverá ter profundo conhecimento da modelagem, tanto lógica, física e
multidimensional. O analista de suporte a decisão deverá garantir continuamente que as
informações estão corretas, comunicando as mudanças das regras de negócio e a visão
do negócio. Seu alinhamento com a equipe de administração do data warehouse deve
ser o mais fiel possível. O administrador de banco de dados (DBA) poderá ser o mesmo
do ambiente transacional, contanto que tenha disponibilidade para solucionar os
24
6. ESTUDO DE CASO
Com a implantação dos primeiros Data Marts foi passível avaliar o impacto no
negócio, verificando a dinâmica das áreas atendidas. Na área de planejamento e controle
foi observado que o processo orçamentário ficou mais ágil e mais detalhado. Permitindo
que a área execute simulações a cada hora, quando só era possível fazer uma
consolidação por dia e totalmente dependente da área de tecnologia para executar o
processo. Na área de contabilidade societária permitiu-se que o prazo de fechamento
fosse reduzido de 6 para 2 dias. Com isto, os executivos puderam melhor avaliar os
prazos de pagamento dos fornecedores, melhorando o controle do fluxo de caixa da
empresa.
deste Data Mart, a área passou a poder executar análises dos melhores clientes, de
diferentes formas: por produto, canal, ramo de atividade dos clientes, unidade de
negócio etc. No ERP só era possível executar uma única consulta de ranking de
anunciante por dia, que demorava 6 horas de processamento. Atualmente a execução
deste processo no DW dura 2 minutos. A captação de anúncios não aumentou por
conseqüência disto, porém foi possível reduzir os investimentos de hardware para o
ambiente do ERP. Atualmente a área de publicidade é dependente do DW para tomada
de decisão, sendo necessário um monitoramento de falhas e correção imediata caso
ocorra algum problema.
Também foi possível melhorar a análise de risco, com a visão macro dos
problemas relacionados com ações judiciais contra a empresa. Neste trabalho foi
necessário que antes da implementação do Data Mart fosse desenvolvido um sistema,
mesmo que simples, para o controle do processos, que antes eram feitos em planilhas
eletrônicas. Atualmente a área pensa em reavaliar o sistema transacional para melhorar
o controle das provisões.
7. CONCLUSÃO
BI – Business Intelligence
9. REFERÊNCIAS BIBLIOGRÁFICAS
Jacobson, Reed – Microsoft SQL Server 2000 Analysis Services Step by Step
Microsoft Press - 2000
Nolan, Sean e Huguelet, Tom – SQL Server 7.0 Data Warehousing Training
Microsoft Press – 1999
Ville, Barry de – Data Mining: integrated business for e-commerce and knowledge
management
Digital Press – 2001