Você está na página 1de 11

Roteiro de Estudos- Processo de ETL em Data Warehouse:

o que é, e como usá-lo.

Processo de ETL em
Data Warehouse

Anderson Varago
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.

Introdução
Este roteiro de estudos busca instruir sobre uma arquitetura para
organização do Data Warehouse, de modo flexível mudanças de requisitos de
projeto e indica um possível caminho para realizar a modelagem de dados de um
ambiente de Data Warehouse de forma incremental.

Inicialmente, trabalharemos com a definição de um Data Warehouse, o que


permite entender as características, vantagens e desvantagens de sua aplicação.

No segundo ponto, apresentam-se motivações, métodos e abordagens


para implementação de um Data Warehouse, de forma que sejam estruturadas as
necessidades do cliente.

Na sequência, destina-se uma seção para conhecimento das ferramentas


utilizadas para implementação do Data Warehouse, suas características e
diagnósticos.

Então, trataremos da transformação e implantação das informações,


aplicando uma das ferramentas apresentadas, para que seja possível visualizar
de que forma atuar com elas.

Por fim, apresentaremos problemas na implementação do data warehouse


que possam trazer transtornos, impedimentos e entraves. Por fim, apresenta-se
uma conclusão de todos os fatores destinados a implantação.

Desejo a todos um bom estudo e que possam aproveitar ao máximo o


conteúdo explorado neste trabalho.

1. Definição de um Data Warehouse


Um Data Warehouse (DW) é um armazenador de dados utilizados para
guardar informações de uma empresa e os manter disponível e acessível para
consultas posteriores. Segundo BARBIERI (2001): “O DW é uma coleção de dados
relacionados a uma organização, ou uma área desta, na qual os dados são
sistematizados para dar apoio a decisão”.

Entre suas principais características, destacam-se: ser um banco de dados


projetado para análise, que usa dados de várias aplicações; ser projetado para
um pequeno número de usuários com interações longas e se destina à realização
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
de consultas que resultam em um conjunto grande de dados. Geralmente,
envolvem leituras de tabelas inteiras e vários relacionamentos. Além disso,
permite atualizações periódicas e contém dados atuais e históricos para fornecer
informações do fluxo do negócio no tempo.

O data warehouse possui os seguintes objetivos (KIMBALL, 1998):

• Tornar a informação mais acessível;

• Tornar a informação mais consistente, ou seja, informação de qualidade em


toda a organização. Os termos usados em uma parte da empresa devem ter o
mesmo significado em toda a empresa;

• Ser uma fonte de informação adaptável e maleável. Deve ser projetado para
mudança constante, sem que todo o sistema tenha que ser alterado;

• Ser uma fonte segura para proteger a informação na empresa;

• Deve ser a base para a tomada de decisão.

Permite-se, assim, que sejam retiradas informações que se transformarão


em conhecimento, após uma análise precisa e consistente dos administradores
da empresa.

1.1 Motivos para utilização de Data Warehouse

Um Data Warehouse pode ter vários objetivos, mas no que diz respeito à
sua utilização e implantação, passa pelos seguintes critérios:

● Orientado por assuntos: Um data warehouse apresenta-se


organizado por processos de negócios, não tendo orientação para o
contexto da empresa/organização como um todo. Este tipo de
critério permite tomar decisões mais bem direcionadas ao negócio
no qual se deseja trabalhar.

● Integrado: O data warehouse caracteriza-se pela integração de dados


de vários sistemas. Não existem restrições, mas é importante para o
data warehouse haver a consistência das informações, para que
possa obter a conversão correta.

● Variável no tempo: Um data warehouse é variável no tempo, pois


todas as transações têm um atributo de data. Esta variação se faz
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
necessária para manter consistência e controlar/registrar
transações corretamente.

● Não volátil: Esta característica indica que somente é possível realizar


o carregamento e o acesso aos dados, pois transações passadas não
devem sofrer alterações.

Há um vídeo que faz uma análise interessante e explicativa sobre Data


Warehouse. É uma videoaula e o responsável pelo vídeo é a organização “Canal
TI”. Acesse em: <https://www.youtube.com/watch?v=BLAa9hO-H3s>.

2. Implementação de um Data Warehouse


Na construção de um Data Warehouse, é necessário definir o método de
implementação, ou seja, qual metodologia a seguir para entender o caminho e as
operações realizadas. A construção do Data Warehouse pode seguir duas
abordagens distintas: top-down ou bottom-up.

A abordagem top-down trabalha inicialmente com levantamento de todos


os requisitos, fontes de dados e padrões dos departamentos da empresa
participantes da iniciativa, para, então, dar sequência na implementação de toda
a estrutura. Este tipo de abordagem apresenta algumas vantagens, como: uma
única Base de Dados homogênea e integrada, e desvantagens, como: o alto custo
e tempo de implementação.

A abordagem bottom-up tem sua realização por meio de uma análise dos
requisitos de forma global, de onde surge uma lista de data marts a serem
implementados e a forma como serão integrados. A principal desvantagem é
representada pela falta de padronização dos Data Marts, gerando redundância
dos dados e resultando em dados inconsistentes, devido a diferentes
representações das fontes de dados. Esse fator traz problemas na integração dos
dados e em sua confiabilidade.

O livro “Tecnologia e projeto de data warehouse: uma visão


multidimensional”, de Felipe Nery Rodrigues Machado é bastante interessante e
traz a apresentação técnica diferenciada, metodologia e conceituação embasadas
na experiência real da execução de processos de Data Warehousing.

3. Ferramentas de Data Warehouse


Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
No mercado, existem várias ferramentas de DW disponíveis, dentre elas,
ferramentas pagas, gratuitas e de código aberto, cada uma com características e
recursos específicos. A variedade proporciona às empresas opções que atendam
distintas necessidades.

As ferramentas não devem apenas permitir o acesso aos dados, mas


realizar uma análise significativa, de tal forma que transforme dados brutos em
informação útil, que embase decisões estratégicas das empresas. O sucesso de
um data warehouse pode depender das informações corretas assim, se faz
necessária a escolha de uma ferramenta que permita essa condução.

3.1 Talend

Talend Open Studio traz soluções para integração de dados, Big Data entre
outros e, dentro do processo de ETL, fornece uma curva de aprendizado alta.

3.2 Pentaho

Pentaho é uma ferramenta que contempla as funcionalidades de acessar,


integrar, manipular, visualizar e analisar os dados. Estes dados podem estar
armazenados em um banco de dados relacional ou em bancos analíticos
(PENTAHO, 2017). Os produtos da Pentaho consistem nos componentes de BA
(Business Analytics) e DI (Data Integration):

∙ Business Analytics: Permite a criação de relatórios, e dashboards, baseado no seu


modelo de dados.

∙ Data Integration: Permite a execução completa do processo de ETL, usando um


formato consistente e uniforme que é acessível e relevante para usuários finais e
tecnologias de internet das coisas.

3.3 Knowage

Knowage é a nova versão da ferramenta SpagoBI e possui duas versões,


uma paga e uma gratuita e de código aberto (SPAGO, 2017). Knowage, na verdade,
é um conjunto de ferramentas, que possui duas suítes:

● Knowage Server: um servidor com suíte completa, que permite criar desde
Data Sources até relatórios.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
● Knowage Report Designer: Utilizado para criar relatórios e publicá-los no
servidor.

3.4 Oracle Warehouse Builder

O Oracle Warehouse Builder fornece uma amplitude de recursos integrados


em uma só ferramenta. Modelagem de dados, conformidade de dados, qualidade
de dados e, principalmente, a integração de componentes.

O Pentaho Data Integration é formado por duas categorias de artefatos, Jobs


e Transformações, estes artefatos são construídos por meio de sua interface
gráfica, o Spoon. O Spoon é a interface gráfica do Pentaho Data Integration que
facilita na concepção de rotinas e lógica ETL.

4. Transformação e implantação da Informação


A etapa de Extração, Transformação e Carga, do inglês Extract, Transform,
Load (ETL) é uma das mais críticas de um projeto de DW, pois envolve a fase de
movimentação dos dados.

O processo de Extração, Transformação e Carga (ETL) é responsável por:

a) extração dos dados de suas diversas fontes (tradicionalmente estruturadas);

b) limpeza;

c) customização para adequação ao modelo de dados;

d) inserção de fato dos dados (VASSILIADIS, 2001).

Os sistemas chamados de ETL, conforme Primak (2008), na questão de


preparação de dados armazenados no DW, são imprescindíveis. Existem
diversos estudos sobre o processo de ETL que, de certa forma, é uma técnica
já bem conhecida. Porém, o uso de dados não estruturados é dificilmente
encontrado, considerando a maior parte dos estudos.

Os dados, afirma Rezende (2003), podem apresentar problemas advindos


do processo de coleta e o fato de não estarem estruturados, torna necessária
a execução do mesmo processo utilizado em dados estruturados, até que se
consiga o DW.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
Há um vídeo que mostra a importância da transformação de dados para
utilização futura em um projeto de BI (Business Inteligence). É uma videoaula e
o responsável pelo vídeo é a empresa “IGTI”, através do palestrante Fernando
Hadad Zaidan. Acesse em:<https://www.youtube.com/watch?v=BLAa9hO-
H3s)>.

5. Problemas que existem na Implantação de um Data


Warehouse
Existem diversos problemas que podem ocorrer durante o
desenvolvimento de um sistema de DW. Dentre estes problemas, segundo Bar
(1996, apud Data Warehouse, 2005), os mais comuns são:

a) Não envolver a alta direção da empresa no projeto: o projeto de um


DW de sucesso deve envolver os futuros usuários diretamente,
durante todo processo de atividades, facilitando a imersão de todos
nas atividades, além de direcionar para o objetivo principal do
negócio e da empresa.

b) Gerar falsas expectativas com promessas que não poderão ser


cumpridas: cabe, dentro do processo, definir quais respostas são
necessárias para obter resultados satisfatórios, pois, caso o rumo
tomado seja diferente, as respostas serão outras.

c) Carregar no DW informações somente porque elas estão disponíveis


nos sistemas transacionais: a arquitetura de dados tem
responsabilidade de verificar junto aos usuários quais são as
informações necessárias e quais são desprezíveis, priorizando o que
é importante para o DW.

d) Imaginar que o projeto do banco de dados do DW é o mesmo que o


projeto de um sistema transacional: no DW, o usuário final
desenvolve consultas para uma única utilização, sendo projetados
com essa finalidade, diferente dos sistemas transacionais. Nestes
sistemas transacionais, o usuário trabalha com consultas que
podem ser utilizadas a qualquer momento, provendo, assim, um
sistema de apoio.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
e) Na seleção do pessoal, escolher um gerente para o DW com
orientação essencialmente técnica: a escolha deve ser direcionada a
uma pessoa que tenha capacidade de acompanhar as necessidades
da alta gerência, que entenda que o processo seja voltado a tomada
de decisão.

f) Dedicar-se ao tratamento de dados do tipo registros numéricos e


string: textos, imagens, sons e vídeos podem ser bastante úteis no
momento da análise, e para algumas situações da empresa e do
negócio, podem prover informações importantíssimas.

g) Projetar um sistema com base em um hardware que não poderá


comportar o crescimento da demanda do DW: a escolha do servidor
do banco de dados do DW deve prover de um fornecedor a
confiabilidade e permitir expansões, conforme necessidade do
projeto, visto que possa ser atendido com valores e prazos
compatíveis com os de mercado, não comprometendo o mesmo.

h) Imaginar que, após a implantação do DW, os problemas estarão


terminados: a atualização do projeto de implantação do DW deve
acontecer constantemente, pois o mesmo sempre dependerá de
novas informações, dados, implementações que levem as
necessidades do negócio e da empresa. Para isso, também é
importante que se utilize novas tecnologias, para não deixar o
mesmo obsoleto e desatualizado.

O livro “Agile Data Warehouse Design”, de Laurence Corr, é um livro que


trabalha como um guia passo a passo para capturar requisitos de data
warehouse / business intelligence (DW / BI) e os transformar em dimensionais
de alto desempenho.

Conclusão
Durante esse trabalho, foi possível trabalhar diversos assuntos que
projetam o conhecimento acerca de Data Warehouse. Pudemos discorrer
durante os estudos desta unidade, como se define um DW e quais as
características que promovem sua aplicação.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
Também foi possível identificar abordagens que auxiliam e definem a
implementação de DW, de modo que direcionam adequadamente os
trabalhos e permite conduzi-lo.

Apresentamos ferramentas que promovem a implementação do DW,


bem como características técnicas recomendadas pelo mercado, de forma
gratuita ou não.

Na sequência, tratamos do processo de ETL que faz a extração,


transformação e a carga dos dados, que permitem gerenciar informações
necessárias para o negócio e as empresas interessadas.

No último tópico, tratamos das complicações existentes na implantação


de um DW e de como as mesmas impactam o processo, contendo, desde
problemas com contratação de pessoal, até dados que promovam decisões
erradas.

Dentro deste roteiro, você teve a oportunidade de estudar sobre os


seguintes temas:

Definição de Data Warehouse.

● Motivos para utilização de Data Warehouse;


● Implementação de um Data Warehouse com as abordagens bottom-
up e top-down;
● Ferramentas utilizadas para implementar um Data Warehouse;
● Processo de ETL;
● Problemas na implantação de um Data Warehouse.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.

Bibliografia
BARBIERI, Carlos. BI – Business Intelligence: Modelagem e Tecnologia. Rio de
Janeiro: Editora Axcel Books, 2001.

CANAL TI, Data Warehouse (O que é, características, exemplo). Youtube, out.


2019. Disponível em: <https://www.youtube.com/watch?v=BLAa9hO-H3s
(https://www.youtube.com/watch?v=BLAa9hO-H3s)>. Acesso em: 09/10/2019.

DATA WAREHOUSE. Disponível em: www.datawarehouse.com. Acesso em: 08 out.


2019.
Roteiro de Estudos- Processo de ETL em Data Warehouse:
o que é, e como usá-lo.
IGTI, A importância do Data Warehouse para o projeto de BI. Youtube, out.
2019. Disponível em: <http://igti.com.br/blog/a-importancia-do-data-warehouse-
para-o-projeto-de-bi/ (http://igti.com.br/blog/a-importancia-do-data-warehouse-
para-o-projeto-de-bi/)>. Acesso em: 09/10/2019.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Lifecycle Toolkit: Expert
Methods For Designing, Developing and Deploying Data Warehouses. John Wiley&
Sons Inc., New York: 1998.

PENTAHO. Documentação da ferramenta Pentaho. Disponível


em:<https://help.pentaho.com/Documentation/7.1>. Acesso em 07 out. 2019.

PRIMAK, Fábio Vinícius. Decisões com B.I Business Intelligence. Rio de Janeiro:
Ciência Moderna, 2008.

REZENDE, Solange Oliveira. Sistemas Inteligentes: fundamentos e aplicações.


Barueri: Manole, 2003.

SPAGO. Documentação da ferramenta SpagoBi. Disponível em:


<https://www.spagobi.org/homepage/services/documentation/>. Acesso em: 08
out. 2019.

VASSILIADIS, Panos et al. Aktos: towards the modeling, design, control and
execution of ETL processes. 2001.

Você também pode gostar