Você está na página 1de 21

História dos data

warehouses
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

„„ Descrever a história de data warehouses.


„„ Comparar as características fundamentais de data warehouses.
„„ Interpretar características adicionais de data warehouses.

Introdução
Todos os sistemas de informação atuam com o mesmo propósito: fornecer
informações com precisão, qualidade, abrangência e em tempo hábil.
Nesse sentido, surgiram sistemas de informação dedicados a apoiar as
empresas de forma geral, fornecendo um tipo especializado de informa-
ções, como os data warehouses. O seu uso normalmente é associado a
outras tecnologias e tem o objetivo de prestar serviços ainda melhores.
Podemos entender o data warehouse como um repositório que se
dedica a centralizar informações provenientes de todos os setores da
organização, para apoiar decisões importantes. Essa tecnologia fun-
ciona como um grande banco de dados para a extração de análises e
informações importantes, que poderão ser utilizadas pela empresa de
forma estratégica.
Neste capítulo, você conhecerá os fatores históricos que levaram ao
surgimento do data warehouse. Além disso, verá as principais caracte-
rísticas dessa ferramenta, que proporciona às instituições um imenso
suporte durante o processo de tomada de decisão.
14 História dos data warehouses

1 Perspectiva histórica dos data warehouses


Atualmente, vivemos em um cenário de grande concorrência entre as empre-
sas, no qual os administradores se preocupam em errar cada vez menos, pois
qualquer pequeno erro pode resultar em grandes prejuízos. Nessa conjuntura,
surgiu o conceito de business intelligence, que diz respeito ao uso de dados e
tecnologias para a produção de informações que colaborem com os gestores
quando eles precisam tomar decisões. O data warehouse e o data mart são
ferramentas de destaque, tendo sido bastante utilizadas dentro das empresas.
Dentro do seu escopo, encontram-se as análises e comparações entre dados,
identificando informações que possam contribuir para a tomada de decisão.
O data warehouse permite que sejam realizadas consultas a fim de extrair
informações para a tomada de decisão. Nele, os dados armazenados já foram
tratados, e não há redundância de informações. Ao analisar os dados de um
data warehouse, eles estarão relacionados a determinado período, mostrando
as métricas referentes a esse intervalo de tempo medido.
Os data marts são um subconjunto lógico do data warehouse, geralmente
divididos por departamentos ou visões necessárias para os usuários. Além
disso, o data mining (ou mineração de dados) identifica relações em grandes
massas de dados, utilizando regras para identificar padrões relevantes. An-
tes de serem armazenados, esses dados são “limpos”, ou seja, os dados não
relevantes são excluídos, sendo mantidos somente os mais relevantes para a
organização. Após as etapas de limpeza e armazenamento, os dados sofrem
apenas operações de consulta e exclusão, sem que possam ser alterados — isso
caracteriza a não volatilidade. Agora que você já conhece alguns conceitos, vai
viajar no tempo e acompanhar o processo evolucionário dos data warehouses.

Acontecimentos históricos
Desde a Antiguidade, o ser humano tem demonstrado a necessidade de manter
registros dos fatos mais importantes da sua vida, de modo que possam vir
a ser utilizados futuramente para a comprovação de algo. Nos primórdios
da humanidade, as pessoas utilizavam os meios disponíveis até então para
manter registrados os seus conhecimentos e a sua história, com a intenção
de transmiti-los às gerações futuras. Esses meios englobavam as escritas e
pinturas em pedras, as escritas em papiros/hieróglifos, etc.; a partir do século
XV, o homem passou a “armazenar” dados em papel (ALVES, 2014).
Ainda que os registros em papel tenham sido de utilidade indiscutível durante
muito tempo, os seus inconvenientes são evidentes. Em muitos casos, principalmente
História dos data warehouses 15

nos negócios, é necessário ter um controle detalhado de tudo o que está ocorrendo
no ambiente. Assim, dependendo do volume de operações, o trabalho pode ser
muito desgastante e requerer o esforço de mais que uma pessoa (ALVES, 2014).
Em função disso, com o início da era computacional, os registros deixaram de
ser realizados em papel. A primeira alternativa para o armazenamento de registros
em meios digitais foram as fitas de papel perfurado, que logo foram substituídas
pelos cartões perfurados (CASTRO, 2016). Na década de 1950, os cartões perfurados
representaram a primeira solução para armazenar dados gerados por um computador.
Na sequência, o armazenamento magnético lentamente substituiu os cartões
perfurados, a partir da década de 1960. O armazenamento em disco foi o
próximo passo evolutivo para o armazenamento de dados: representado pelos
discos rígidos e disquetes inventados pela IBM, começou a se popularizar
em 1964 e permitiu o acesso direto aos dados, constituindo uma melhoria
significativa em relação às fitas magnéticas.
Os bancos de dados talvez sejam os mais antigos programas de computador
já desenvolvidos. Antes deles, os programas registravam as informações em
arquivos sequenciais e utilizavam os recursos do sistema operacional para as
operações de leitura e escrita de dados (GOLDSCHMIDT; PASSOS, 2015).
Nesse modelo, cada programa desenvolvido era responsável pelo controle e ge-
renciamento dos seus dados, o que acabava gerando uma série de inconvenientes:

„„ Ausência do controle de acesso concorrente – diversos usuários podem


acessar um mesmo arquivo simultaneamente. Com a falta de controle,
isso pode se tornar um grande problema.
„„ Manipulação de múltiplos arquivos – não permite a manipulação si-
multânea de um ou mais arquivos.
„„ Definição da estrutura do arquivo de armazenamento – com isso, há
uma grande dependência entre o arquivo e a aplicação, o que torna a
sua manutenção complexa.
„„ Integridade e acesso – problemas como inconsistência, redundância,
acesso e isolamento de dados são frequentes.
„„ Segurança de dados – manter um esquema de segurança de dados é
quase impossível.
„„ Duplicidade da informação – uma das formas de tentar resolver a questão
do acesso simultâneo e da disponibilidade dos dados é a redundância,
mas o seu controle é precário.
„„ Formatos de arquivos – grandes problemas com a incompatibilidade
entre diversos formatos de arquivos e sistemas operacionais e sistemas
aplicativos.
16 História dos data warehouses

Essa tecnologia — que era a mais avançada disponível durante muito tempo
— ficou conhecida como sistemas de arquivos. No entanto, ela apresentava
diversas outras limitações (ALVES, 2014). Assim, uma nova estrutura surgiu,
ainda que não tão rapidamente como as anteriores: os bancos de dados.
Nessa época, realizar o armazenamento e a extração de informações de uma
base de dados era um processo moroso. As informações eram armazenadas em
um formato de difícil acesso, em arquivos ou banco de dados, causando longos
períodos de espera para a geração de relatórios, principalmente aqueles que
continham agregação de informações, como identificar as vendas realizadas por
um funcionário durante determinada data (SHARDA; DELEN; TURBAN, 2019).
Devido a essas dificuldades, em 1979, a empresa Teradata, seguindo a expansão
da utilização dos discos rígidos, propôs um sistema gerenciador de banco de dados
responsável por processar, de forma paralela, diversos relatórios com o objetivo
de auxiliar no processo de tomada de decisão. Posteriormente, nos anos 1980, os
computadores pessoais e minicomputadores se popularizaram e, com isso, diversas
aplicações comerciais poderiam estar disponíveis para uso nas organizações, com
o auxílio dos sistemas de gerenciamento de banco de dados distribuídos. Assim,
permitia-se que houvesse o compartilhamento de informações entre os computado-
res e o crescimento da utilização de sistemas com suporte ao processamento on-line.
Apesar dessas melhorias, o processo de encontrar dados específicos era
difícil e não era necessariamente confiável, visto que os dados encontrados
eram baseados em informações antigas. Enquanto isso, muitos dados estavam
sendo gerados por empresas, e as pessoas não podiam confiar na precisão dos
dados que estavam usando.
Simultaneamente, uma tecnologia chamada 4GL foi desenvolvida, nas
décadas de 1970 a 1990, e amplamente divulgada. Essa tecnologia foi baseada
na ideia de que a programação e o desenvolvimento de sistemas devem ser
diretos, e qualquer pessoa deve ser capaz de fazê-lo. Assim, computadores
pessoais e 4GL rapidamente ganharam popularidade no ambiente corporativo,
permitindo que os usuários tivessem autonomia sobre o acesso aos dados. Com
isso, eles podiam assumir o controle dos sistemas computacionais e encontrar
as informações de maneira rápida e eficiente.
Em 1983, a empresa Teradata desenvolveu um produto para o armazena-
mento de dados que se tornaria popular entre as organizações: um RDBMS
(Relational Database Management System ou sistema de gerenciamento de
banco de dados relacional) (SHARDA; DELEN; TURBAN, 2019). Os bancos
de dados relacionais eram mais fáceis de usar do que os seus antecessores, e
a SQL (Structured Query Language ou linguagem de consulta estruturada)
tornou-se a linguagem usada pelos RDBMS.
História dos data warehouses 17

A SQL é uma linguagem padrão utilizada por diversos sistemas de bancos de dados
para consulta e manipulação de dados.

Em 1986, a empresa de desenvolvimento de software Red Brick Systems


propôs algumas técnicas de segurança para acesso a dados. Em 1988, o braço
irlandês da IBM lançou o termo business data warehouse para valorizar os dados
empresarias que estavam sendo armazenados. Em 1990, surgiu uma abordagem
que ficou conhecida como data warehouses, sendo responsável pela cópia dos
dados armazenados em arquivos e em banco de dados para outro local.
Em 1993, Bill Inmon — considerado o pai dos data warehouses — publicou
um livro chamado de Building the data warehouse, no qual ele propôs técnicas
e boas práticas para a construção de data warehouses. Anos depois, em 1996,
Inmon lançou uma abordagem de design dimensional que favorecia o processo
de tomada de decisão a partir da realização de consultas e extrações de dados.
Em 2000, muitas empresas descobriram que, com a expansão de bancos de
dados e sistemas de aplicativos, os seus sistemas estavam mal integrados e os
seus dados eram inconsistentes. Elas descobriram também que estavam gerando e
armazenando uma grande quantidade de dados fragmentados. De alguma forma,
os dados precisavam ser integrados para fornecer informações empresariais neces-
sárias para guiar as tomadas de decisões (SHARDA; DELEN; TURBAN, 2019).
Nesse sentido, os data warehouses foram desenvolvidos por empresas
para consolidar os dados que estavam sendo coletados de uma variedade de
bancos de dados e para ajudar a apoiar os seus esforços estratégicos de tomada
de decisão. Quando os data warehouses surgiram, um acúmulo de big data
começou a se desenvolver.
Posteriormente, em 2008, o Facebook começou a usar um sistema NoSQL.
O NoSQL, divulgado em 1998 por Carlo Strozzi (STROZZI, 2012), é um
sistema de gerenciamento de banco de dados não relacional que utiliza uma
arquitetura muito simples e bastante útil para o processamento de big data. Os
bancos de dados NoSQL usam dois novos conceitos: escalabilidade horizontal
e eliminação da necessidade de SQL para organizar e filtrar dados.
Como você viu, apesar de o termo data warehouse ser muito utilizado,
a sua origem aconteceu em uma época em que ainda ocorria a manipulação
manual de dados para auxiliar as tomadas de decisões e uma grande expansão
da utilização de mainframes. Diversas aplicações de processamentos de dados
18 História dos data warehouses

que eram executadas nesses mainframes corporativos apresentavam estruturas


de armazenamento muito primitivas, sendo diferentes das que conhecemos e
utilizamos atualmente (SHARDA; DELEN; TURBAN, 2019).

Bancos de dados
Antes de você estudar a definição de bancos de dados, precisa relembrar
alguns conceitos básicos relacionados a sistemas de informação. Sistemas
de informação podem ser entendidos como o conjunto dos componentes
humanos e/ou tecnológicos, inter-relacionados, que atuam em conjunto para
o cumprimento de uma tarefa ou um objetivo (TURBAN et al., 2009).
O conjunto básico de operações realizadas por um sistema de informação
é descrito como entrada, processamento e saída. Em alguns casos, podem
ocorrer ainda a retroalimentação ( feedback) e o armazenamento de dados,
como mostra a Figura 1.

Figura 1. Operações de um sistema de informação.

Um sistema de informação não somente coleta e processa dados, mas


também os armazena para utilização futura. Quanto mais adequado o meio
de armazenamento, melhor será o desempenho do sistema, mais confiáveis
os seus dados e menos onerosa a sua manutenção.
Para definir o que são bancos de dados, antes você precisa entender a
diferença entre dados e informação. Uma informação é todo e qualquer
História dos data warehouses 19

conhecimento do mundo real, que pode ou não ser armazenado, mas que
apresenta algum significado ou valor para quem o detém. Já os dados são
fatos isolados, isto é, são a menor parte de uma informação. Assim como a
informação, os dados podem ser registrados e/ou armazenados; depois de
tratados, trabalhados e transformados, passam a ter valor, tornando-se uma
informação (SILVA; PERES; BOSCARIOLI, 2016).
Os itens de dados referem-se a como a organização vai armazenar as suas
informações e como elas serão registradas, levando em consideração que
essas informações armazenadas não são organizadas para transmitir qualquer
significado específico. Assim, esses dados podem ser números, letras, figuras,
sons ou imagens. Quando os dados são processados, ou seja, quando são
relacionados logicamente e organizados para atingir um resultado definido,
eles são transformados em informação.

Quando você vai ao supermercado fazer compras e, após passar pelo caixa, recebe
o cupom fiscal com a relação dos itens comprados, os seus respectivos códigos, a
quantidade e os valores unitários, pode-se dizer que tem dados na sua forma bruta,
ou seja, esses dados, por si só, podem ou não ser relevantes. Porém, quando esses
dados passam por alguma transformação e passam a ter algum valor ou propósito
para a empresa em relação à tomada de decisões, eles passam a ser conhecidos como
informação. No exemplo do supermercado, isso ocorrerá quando o cupom possuir
data, hora, número do caixa, nome do atendente e do supermercado, subtotal por
item, total da compra, forma de pagamento e CPF do comprador.

O que estimulou os estudos que resultaram no desenvolvimento dos siste-


mas de bancos de dados não foram somente os problemas clássicos apresen-
tados pelos sistemas de arquivos, mas também a possibilidade de melhoria
da eficiência, da rapidez e da confiabilidade das informações armazenadas
(SILVEIRA et al., 2018). Isso só ocorreu graças ao advento da computação,
que abriu portas para novas possibilidades.
Bancos de dados ou bases de dados são conjuntos de dados organizados e
relacionados entre si com registros sobre fatos, pessoas, empresas, coisas ou
lugares. Por essa razão, os bancos de dados são de vital importância para os
sistemas de informações. Em uma visão bem genérica, podemos definir um
banco de dados como um conjunto de dados que têm algum valor implícito e
20 História dos data warehouses

que estão devidamente armazenados. Não devemos, no entanto, imaginar que


qualquer coleção de palavras — capazes ou não de formar um texto — é um
banco de dados. O termo “banco de dados” apresenta algumas características
que devem ser observadas (REZENDE, 2015).

„„ Minimundo: um banco de dados deve representar uma porção do mundo


real, um “minimundo” de universo de discurso, sendo que qualquer
alteração deve ser refletida no banco de dados.
„„ Dados com significado: todo e qualquer banco de dados é composto
por um conjunto lógico e ordenado de dados, sempre com algum sig-
nificado. Uma organização de dados ao acaso (randômica) não pode
ser corretamente interpretada como um banco de dados.
„„ Dados com objetivos: os dados que povoam um banco de dados devem
ter um objetivo determinado, seja para os usuários, seja para as aplica-
ções. Dados desnecessários não são armazenados.

Sistemas Gerenciadores de Bancos de Dados (SGBDs)


Como um banco de dados é um conjunto de dados que estão relacionados, então
necessária alguma aplicação responsável por gerenciar essa coleção. Caso contrário,
boa parte dos inconvenientes apresentados pelos sistemas de arquivos continuará
presente, mesmo sendo aplicada uma nova tecnologia (SILVEIRA et al., 2018).
Para garantir a integridade das informações em um banco de dados, re-
solver acessos concorrentes, qualidade, organização — enfim, para resolver
os problemas apresentados pelos sistemas de arquivos anteriores —, foram
criados os SGBDs. Eles atuam como intermediários entre os arquivos de
bancos de dados e a aplicação (SILVEIRA et al., 2018).
Um SGBD pode ser definido como um software cujas principais atribuições
são gerenciar e permitir a manipulação de arquivos de um banco de dados,
por meio de uma interface padronizada e de acesso simples. Esse software
possibilita que operações como definição, construção e manipulação de dados
sejam facilmente realizadas (ALVES, 2014).
Existem diversos tipos de SGBDs, específicos ou mais genéricos, capazes
de permitir o armazenamento de praticamente qualquer tipo de dado. Alguns
são mais flexíveis e permitem executar tarefas avançadas de gerenciamento.
Outros possuem linguagens de programação próprias ou com base em coman-
dos (SQL, na maioria dos casos) (ALVES, 2014). O tamanho de um banco de
dados pode variar muito e dependerá essencialmente das suas especificações
e finalidades, e é exatamente nesse contexto que se encaixa o data warehouse.
História dos data warehouses 21

Data warehouse
Abordando o conceito de forma direta, sem muita preocupação com defini-
ções formais, podemos dizer que um data warehouse nada mais é do que um
grande banco de dados (ou um armazém de dados) com muitas informações
históricas, que nunca são apagadas. Assim, permite-se que elas sejam acessadas
de maneira a facilitar a aquisição de conhecimento.
Um data warehouse pode ser considerado um conjunto expansível e estru-
turado de dados, projetado especificamente para permitir a análise de dados
provenientes das mais diversas fontes. Os data warehouses mantêm somente
os dados que são relevantes para o negócio da organização, armazenando-os
por um longo período de tempo. Além disso, garantem que tais dados não serão
modificados, seja física ou logicamente (CASTRO, 2016; GOLDSCHMIDT;
PASSOS, 2015; REZENDE, 2015; SILVA; PERES; BOSCARIOLI, 2016;
SILVEIRA et al., 2018; TURBAN et al., 2009).
Os data warehouses foram projetados para apoiar o processo de tomada
de decisão por meio da coleta, consolidação, análise e pesquisa de dados.
Eles podem ser usados na análise de uma área específica e são uma parte
importante do business intelligence (BI). A arquitetura do data warehouses
foi desenvolvida na década de 1980 para auxiliar na transformação de dados
de sistemas operacionais em sistemas de suporte à tomada de decisão. Nor-
malmente, um data warehouse faz parte do servidor de mainframe em uma
empresa ou na nuvem.
Em um data warehouse, dados de muitas fontes diferentes são trazidos
para um único local e depois traduzidos para um formato que esse sistema
pode processar e armazenar. Imagine que uma empresa armazena dados
sobre as informações, os produtos, os funcionários e os seus salários, as
vendas e as faturas de seus clientes. A alta gestão pode solicitar e analisar
informações sobre as ações recentes para a redução de custos de determinado
setor. Diferentemente do armazenamento básico de dados operacionais, os
data warehouses contêm dados históricos agregados (dados altamente úteis
extraídos de várias fontes).
Os benefícios observados pelo uso do data warehouse são diversos. Um dos
principais é a redução de redundância de informações dentro da organização,
uma vez que todas estarão armazenadas em um único local — e não espalha-
das por diferentes software. A padronização dos dados e a sua organização
também são importantes para que as informações sejam mantidas íntegras e
fáceis de serem consultadas, sempre que necessário.
22 História dos data warehouses

Business intelligence
Turban et al. (2009) afirma que o termo “business intelligence” é composto por
banco de dados, metodologias, arquitetura, ferramentas e aplicações. Mesmo
que a definição utilizada pelo autor possa parecer abstrata, ela é necessária
para que se possa entender a real grandeza das ações de BI. Ainda segundo
o autor, BI pode ter significados diferentes para ocasiões diferentes. O ideal,
então, é compreender quais são os principais objetivos da BI:

„„ permitir acesso interativo a dados;


„„ proporcionar a manipulação dos dados;
„„ fornecer aos gerentes e analistas de negócios a capacidade de realizar
a análise adequada.

Diferentemente do que muita gente imagina, o conceito de business intelli-


gence também não é recente. Aliás, vem sendo utilizado desde a Antiguidade,
quando se cruzavam informações já obtidas junto à natureza para benefício
próprio (SILVA; PERES; BOSCARIOLI, 2016).

2 Características fundamentais dos data


warehouses
Para compreender de fato o conceito de data warehouse, você precisa ter uma
visão geral e completa dos termos que fazem parte das suas características.
Assim, é necessário entender bem o que significam os seguintes termos:

„„ orientado por assuntos;


„„ integrado;
„„ variável no tempo;
„„ não volatilidade.

A seguir, você verá mais sobre cada um desses conceitos.

Orientado por assuntos


Dizer que um data warehouse é orientado por assuntos significa que os dados
que estão armazenados nele são, de alguma forma, pertinentes, ou seja, estão
relacionados ao negócio da empresa (SILVA; PERES; BOSCARIOLI, 2016).
História dos data warehouses 23

O mais comum, no ambiente das informações operacionais, é que as coisas


sejam baseadas em aplicações e funções transacionais. Assim, quando estamos
lidando com estruturas de bancos de dados convencionais, os dados geralmente
têm relação com esse tipo de assunto (SILVA; PERES; BOSCARIOLI, 2016).
Em um ambiente de data warehouse, tudo está organizado ao redor do
“assunto”, o que afeta diretamente a sua estrutura. Assim, o assunto mais
influente será também a parte mais importante da estrutura-chave de um data
warehouse (REZENDE, 2015).
Então, os sistemas de bancos de dados convencionais são, na sua maioria,
orientados por processos e/ou funções, enquanto os sistemas de data warehouse
são orientados por assunto. Com isso, diferentes níveis de detalhes são apresenta-
dos por cada tipo de sistema. Um data warehouse, por exemplo, não armazenaria
dados que não são realmente necessários para o processamento realizado por um
sistema de apoio à decisão. Uma arquitetura baseada em processos, por sua vez,
estaria provida não somente de dados necessários para o rápido atendimento de
requisições de um sistema de suporte a decisões, mas também de outros dados
que não teriam qualquer utilidade para o sistema (CASTRO, 2016).
Outra diferença entre os sistemas de banco de dados convencionais e os
sistemas de data warehouse diz respeito ao relacionamento entre os dados.
Em sistemas convencionais, o relacionamento entre as tabelas é gerido pelas
regras de negócio que governam tais relações. Em um data warehouse, os
relacionamentos são muitos, e podem existir diversas regras de negócio entre
duas ou mais tabelas. Portanto, elas são regidas em função do tempo, ou seja,
diferentes regras de negócio podem surgir ou desaparecer em função do tempo
(GOLDSCHMIDT; PASSOS, 2015).

Integrado
A integração talvez seja a característica mais importante de um ambiente de data
warehouse. Essa característica afirma que todos os dados armazenados em um data
warehouse estão integrados, isto é, não existem, em hipótese alguma, dados que
não estejam integrados dentro de um sistema como esse (TURBAN et al., 2009).
Esse fator pode se apresentar de diferentes formas: na convecção consistente de
nomes, nas formas consistentes de variáveis, na estrutura consistente de códigos,
nos atributos físicos consistentes, entre outras (TURBAN et al., 2009).
Ao longo dos anos, tornou-se notória a insistência de diversos desenvol-
vedores em não se preocupar com a consistência dos dados dos seus produtos
(ALVES, 2014). As práticas mais comuns que levam à inconsistência dos dados
estão relacionadas aos seguintes aspectos:
24 História dos data warehouses

„„ Codificação: é comum que desenvolvedores codifiquem um campo


(“SEXO”, por exemplo) das mais diversas formas. Há casos em que um
desenvolvedor codifica o campo “SEXO” utilizando os valores “M” e
“F”; outro desenvolvedor, por sua vez, codifica os valores “1” e “0”. Pode
ocorrer também de se empregarem os valores “x” e “y” ou até mesmo as
palavras “masculino” e “feminino”. Certamente, o mais comum é que
se utilize a representação “M” e “F”; contudo, quando tais valores são
carregados para um data warehouse pertencente a um projeto de business
intelligence, todos são convertidos para um único formato comum.
„„ Forma dos atributos: os desenvolvedores utilizam diversas medidas
para os valores, como armazenar a distância em centímetros, em po-
legadas, em metros, em milhas, etc. O que importa é que, ao serem
carregados para um data warehouse, todos os dados deverão ser men-
surados e convertidos para uma única unidade, de maneira a permitir
a sua conversão, sempre que necessário.

A padronização ocorre durante a transferência dos dados para o data


warehouse e é realizada por meio de ferramentas específicas que atuam na
população desse tipo de sistema.

Variável no tempo
Em algum momento, na escala temporal, determinado registro de um data
warehouse será exato. Uma das características desse sistema é possuir
diversas fontes de dados, de diferentes partes do ambiente operacional.
Isso significa que, quando um dado é acessado no ambiente operacional,
isto é, quando uma unidade de dado é acessada, o que se espera é que os
seus valores estejam corretos, e isso deve ser refletido nos valores de um
data warehouse.
Por esse motivo, diz-se que um dado criado nesse tipo de sistema é um
“histórico” (REZENDE, 2015). Em um data warehouse, os valores históricos
podem ser apresentados de diversas maneiras, que variam desde modos mais
simplificados, em que os dados são apresentados sobre um horizonte de tempo,
até modos mais detalhados (REZENDE, 2015).
Os dados em um data warehouse podem ser considerados uma longa
série de snapshots. A ideia é que, uma vez que o snapshot do dado tenha sido
realizado, este não possa mais ser alterado. Entretanto, em casos especiais, isso
pode ocorrer, ainda que não seja correto fazer isso. Momentos não podem ser
História dos data warehouses 25

retornados; logo, os dados operacionais iniciam pontualmente no momento do


seu acesso e são atualizados no decorrer do tempo ou quando existe necessidade
(SILVA; PERES; BOSCARIOLI, 2016).

Snapshot é um termo em inglês que significa “foto instantânea” ou somente “instantâ-


neo”. No contexto de um data warehouse, seria o mesmo que dizer que os dados são
coletados e representam o estado do banco de dados em um momento específico,
de quando o snapshot ocorre.

Não volátil
Em ambientes operacionais, atividades como inclusão, alteração e exclusão de
dados são realizadas com certa frequência e constituem um conjunto básico
de operações esperadas. Em um data warehouse, porém, a manipulação de
dados é ainda mais simples (REZENDE, 2015). Nesse tipo de sistema, existem
somente duas operações básicas a serem consideradas: a carga inicial de dados
e a consulta de dados. Não existe, como parte do processamento normal de
um data warehouse, a atualização de dados (REZENDE, 2015).
Essa simplicidade de operações interfere também nos requisitos tecnoló-
gicos para a preparação do ambiente que hospedará o data warehouse. Tec-
nologias que oferecem suporte a atualizações on-line de registros, bem como
a backups, recoveries, transações com integridade de dados e correções de
deadlocks, são muito complexas. A boa notícia é que tudo isso é desnecessário
em um data warehouse (ALVES, 2014).
O ambiente operacional é a fonte para a aproximação de dados de um
sistema como esse. De fato, à primeira vista, isso pode parecer mais um
processo de redundância de dados. Entretanto, deve-se considerar o seguinte
(REZENDE, 2015):

„„ Filtros – quando transferido de um ambiente operacional para um data


warehouse, o dado é filtrado. Alguns dados nunca sairão do ambiente
operacional, somente aqueles que de fato forem necessários para o
processamento de um sistema de suporte a decisões, por exemplo,
serão transferidos.
26 História dos data warehouses

„„ Diferença de históricos – o histórico de dados em um data warehouse é


muito diferente do histórico em um ambiente operacional. No ambiente
operacional, o histórico é muito recente; no data warehouse, é antigo.
„„ Sumarização de dados – diferentemente do ambiente operacional (no qual
isso nunca ocorre), em um data warehouse, os dados são sumarizados.
„„ Transformação – antes de serem transferidos para um data warehouse,
os dados são transformados e, em muitos casos, essa transformação é
significativa. Pode-se dizer então que os dados de um data warehouse
não são os mesmos de um ambiente operacional.

Um data warehouse não pode ser construído rapidamente e sem planeja-


mento — e não existe uma receita para a sua construção. Todavia, é possível
encontrar no mercado diversas ferramentas que podem auxiliar nesse processo
(GOLDSCHMIDT; PASSOS, 2015).
É importante ressaltar também, em relação a esse tipo de tecnologia, o
valor do investimento como um todo: os valores podem facilmente ultrapassar
a ordem de “alguns milhões de dólares”. Isso não se refere a uma aplicação
qualquer, mas sim a um sistema que pode influenciar significantemente a vida
e a saúde de uma organização (CASTRO, 2016).
Como um data warehouse está diretamente vinculado aos negócios de uma
empresa, o seu projeto exige não somente a participação de pessoal técnico,
mas também a constante interação com o executivo da organização. Isso se
dá porque qualquer desvio ou mau entendimento dos requisitos relacionados
aos processos que envolvem business intelligence pode gerar graves prejuízos,
pois os gestores seriam levados a tomar decisões com base em informações
não confiáveis, levando-os a erros (REZENDE, 2015).

3 Características adicionais dos data


warehouses
Veja a seguir características adicionais, podem ser descritas e associadas aos
data warehouses, conforme Sharda, Delen e Turban (2019):

„„ baseados na web;
„„ modelados de forma relacional ou multidimensional;
„„ desenvolvidos em arquitetura em camadas;
„„ suportados pelo processamento em tempo real;
„„ estruturados por metadados.
História dos data warehouses 27

Baseados na web
Os sistemas baseados na web possibilitam o acesso a dados nas organizações
e entre os seus parceiros de negócios. Como oportunidade visionária, a tec-
nologia de data warehouse está aproveitando os recursos de acesso da web.
As ferramentas locais de data warehouse ainda são populares e implantadas
em várias organizações. Porém, enquanto a implementação tradicional do
data warehouse era tipicamente um projeto muito oneroso, novas ferramentas
baseadas na nuvem permitem que as empresas configurem um data warehouse
em dias, sem investimento inicial e com muito maior escalabilidade, armaze-
namento e desempenho de consultas.
Ao oferecer funcionalidades de data warehouse acessíveis pela internet,
os provedores públicos de nuvem permitem que as empresas evitem os cus-
tos de configuração inicial necessários para construir um data warehouse
tradicional na sede da organização. Como vantagem, esses data warehouses
corporativos disponíveis na nuvem são totalmente gerenciados, de modo
que o provedor de serviços gerencia e assume a responsabilidade de forne-
cer a funcionalidade necessária do data warehouse, incluindo correções e
atualizações no sistema.

Modelados de forma relacional ou multidimensional


Um data warehouse pode ser modelado em duas abordagens. A abor-
dagem relacional permite armazenar dados em um formato de tabela
bidimensional, como linhas e colunas. Os dados são armazenados como
um registro em uma linha, e cada registro é dividido em colunas. Já a
abordagem multidimensional permite que um banco de dados relacional
organize os dados em um modelo dimensional. Esse modelo usa tabelas de
fatos e tabelas de dimensão em um esquema em estrela ou floco de neve.
Um banco de dados dimensional é o tipo ideal de banco de dados para um
data warehouse.

Desenvolvidos em arquitetura em camadas


A arquitetura de duas camadas de um data warehouse é uma aplicação cliente-
-servidor. Nessa arquitetura, existe uma comunicação direta entre o cliente
e o servidor da fonte de dados, que é conhecida como camada de dados ou
camada de banco de dados. Geralmente, não há aplicativo intermediário entre
o cliente e a camada do banco de dados.
28 História dos data warehouses

Suportados pelo processamento em tempo real


Os dados em tempo real podem oferecer muitos benefícios para as empresas
e os seus clientes. No passado, os data warehouses podiam fornecer apenas
informações sobre eventos passados, e a idade dos dados dependia da frequ-
ência com que o armazém foi atualizado. O processamento em tempo real
significa que o data warehouse é atualizado continuamente. Porém, os critérios
exigidos para atualizações contínuas sem envolver um desligamento do data
warehouse geralmente são inconsistentes com as ferramentas tradicionais de
ETL (extract, transform, load).
Para resolver esse problema, novas soluções são especializadas em ETL
em tempo real e carregamento de dados. Embora isso forneça uma imagem
atual dos dados, o processamento em tempo real apresenta uma variedade de
problemas para o gerenciamento de data warehouse. Seguir certas práticas
recomendadas e etapas de rotina para garantir a implantação bem-sucedida
de qualquer nova tecnologia pode ajudar a enfrentar os desafios associados à
atualização de dados em tempo real.

Estruturados por metadados


Os metadados são definidos como dados sobre dados, ou seja, são informações
que descrevem as informações que estão armazenadas. Diante disso, têm como
característica responder às questões sobre o que, quando, quem, como e onde,
em relação às informações. Em outras palavras, os metadados são os dados
resumidos que nos levam a dados detalhados. São os recursos para relacionar
os diferentes componentes do data warehouse e as informações que guardam.
Os metadados podem ser classificados de duas formas:

„„ Metadados de negócio – são recursos que demonstram, por meio da


linguagem de negócio, o que significam as informações armazenadas
e como elas foram modificadas.
„„ Metadados técnicos – são recursos que descrevem, em linguagem téc-
nica, qual é o fluxo dos dados dentro da aplicação de data warehouse.
História dos data warehouses 29

Características arquiteturais
A arquitetura dessa tecnologia pode ser caracterizada basicamente de duas
formas: conceitual ou física. Para facilitar esse entendimento, veja a forma
conceitual mostrada na Figura 2.

Figura 2. Visão conceitual de um data warehouse.

Observe, com base na Figura 2, que um data warehouse pode ser dividido
em um data mart, o que permite a sua divisão por departamento, separando-o
também por setores dentro de uma organização. Todos os dados armazenados em
um data warehouse ou em um data mart são gerenciados por um ou por vários
servidores, os quais permitem a apresentação de dados em visões multidimen-
sionais, a partir de uma variedade de ferramentas front-end (CASTRO, 2016).
30 História dos data warehouses

Se observado em um esquema de camadas, o data warehouse pode ser


dividido da seguinte forma (ALVES, 2014):

„„ Banco de dados operacionais e fontes externas – compostos pelas bases


de dados operacionais, podendo conter também informações de fontes
externas. Tais dados são tratados antes de serem enviados ao data
warehouse.
„„ Acesso aos dados – trata-se do elo entre as ferramentas de acesso à
informação e os bancos de dados operacionais.
„„ Transporte ou middleware – gerencia a transmissão da informação
pelo ambiente de rede, separando as aplicações operacionais do real
formato dos dados.
„„ Data warehouse – é constituído do armazenamento físico dos da-
dos provenientes dos sistemas operacionais da empresa e de fontes
externas.
„„ Acesso à informação – permite a interação com os usuários por
meio de ferramentas tradicionais, como planilhas e navegadores
de internet.
„„ Metadados – descrevem os dados e a organização do sistema. Fór-
mulas podem ser utilizadas para cálculos e descrições de tabelas,
campos, permissões de acesso, informações sobre os administradores
do sistema, etc.
„„ Gerenciamento de processos – realiza o controle das tarefas que man-
têm o sistema atualizado e consistente. Responsável por gerenciar as
diversas tarefas que são realizadas durante a construção e manutenção
de um data warehouse.
„„ Gerenciamento de replicação – seleciona, edita, resume, combina e
carrega os dados no data warehouse, a partir das bases operacionais
e/ou de fontes externas.

Data mart: um data warehouse departamentalizado


Como você viu anteriormente, o data mart pode ser considerado um data
warehouse departamentalizado, ou seja, a menor porção de dados capazes de
manter um padrão que ainda seja bastante previsível (TURBAN et al., 2009).
História dos data warehouses 31

Comparado ao data warehouse, o data mart necessita de tecnologias ainda


mais simples e baratas, principalmente em função do menor volume de dados
que deve gerenciar e dos resultados palpáveis que devem ser apresentados em
menor período (CASTRO, 2016).
Assim, um data mart tem a vantagem de ser construído de forma mais
simples, rápida e barata, se comparado a um data warehouse. Atualmente,
há até mesmo os chamados data marts “enlatados”, que nada mais são do
que ferramentas extremamente simples, destinadas a necessidades bastante
estruturadas (GOLDSCHMIDT; PASSOS, 2015).
Durante muito tempo, os data marts independentes foram bem popu-
lares. No entanto, devido à sua arquitetura falha, quando uma organiza-
ção construía um conjunto muito grande dessa tecnologia, o volume de
redundância de dados analíticos crescia demais, assim como o número de
aplicações que faziam interfaces com esses sistemas. Isso gerava também
o aumento de sistemas legados, assim como necessidade de hardware, etc.
(REZENDE, 2015).
Do ponto de vista da organização, esse seque era o maior problema:
havia a questão de se ter muitas áreas tomando decisões com dados que
provavelmente eram diferentes nos diversos setores, gerados principal-
mente pelas redundâncias (REZENDE, 2015). Por conta dos problemas
gerados pelos data marts independentes, constatou-se que a sua aplicação
não era viável. Portanto, eles logo foram descontinuados, e os esforços
foram então concentrados no desenvolvimento de data marts dependentes
(CASTRO, 2016).
O mais importante é ter em mente que as diferenças entre um data mart
e um data warehouse não estão apenas nos seus tamanhos ou no escopo
dos problemas que se propõem a resolver. Ainda que, para a definição dos
problemas e requisitos de dados, os dois sejam essencialmente idênticos,
enquanto o primeiro é voltado para problemas departamentais, o segundo é
desenvolvido para englobar os problemas de uma organização como um todo
(SILVEIRA et al., 2018).
A seguir, veja algumas das principais características dos data marts e dos
data warehouses, a fim de compreender melhor as diferenças existentes entre
essas duas tecnologias (SILVEIRA et al., 2018).
32 História dos data warehouses

„„ Data warehouse: corporativo; dados bem detalhados; estrutura nor-


malizada; ótimo para exportação; orientado ao armazenamento de
grande volume de dados; dados modelados com o objetivo de atender
à corporação; levemente indexado.
„„ Data mart: departamental; alto nível de granularidade; emprega esquema
em estrela; ótimo para consultas; não armazena grandes volumes de
dados; emprega tecnologia multidimensional; dados são modelados
para atender ao usuário final; altamente indexado.

Um grande problema observado em relação aos data marts foi a crescente


popularidade de sistemas mal definidos, em relação aos grandes e robustos
sistemas de data warehouses. Porém, esse crescimento pode ser justificado
por ótimos motivos (GOLDSCHMIDT; PASSOS, 2015):

„„ data marts reduzem drasticamente os custos de implementação e de


manutenção de sistemas de suporte a decisões;
„„ podem ser prototipados com muita agilidade — sistemas-piloto podem
estar prontos entre 30 e 120 dias, e o sistema completo, entre três e
seis meses;
„„ data marts têm escopos limitados e mais específicos para atender às
necessidades de determinado grupo de usuários, reduzindo-se, assim,
o esforço do time.

Por fim, de acordo com Rezende (2015), muitos departamentos organi-


zacionais autônomos e pequenas unidades de negócio estão frequentemente
optando por construírem os seus próprios sistemas de suporte a decisões, via
data mart. Como você pode perceber, os conceitos de data warehouse e de bu-
siness intelligence envolvem diversos outros que, somados, permitem o máximo
aproveitamento dessas tecnologias. Entretanto, é importante entender que essa
amarração de conceitos não significa que há interdependência entre eles — ainda
que, em alguns casos, duas ou mais tecnologias possam ser interdependentes.
Ao analisar o conceito de data warehouse, você viu que a sua estrutura e os
recursos aplicados e utilizados levam aos conceitos de data mart. Leu também
que o data warehouse oferece um suporte significativo para o desenvolvimento
e a aplicação de técnicas de business intelligence, mas essas tecnologias não
são dependentes umas das outras: elas se complementam.
História dos data warehouses 33

ALVES, W. P. Banco de dados. São Paulo: Erica, 2014.


CASTRO, L. N. Introdução à mineração de dados: conceitos básicos, algoritmos e apli-
cações. São Paulo: Saraiva, 2016.
GOLDSCHMIDT, R.; PASSOS, E. Data mining. Rio de Janeiro: Elsevier, 2015.
REZENDE, D. A. Inteligência organizacional como modelo de gestão em organizações
privadas e públicas: guia para projetos de Organizational Business Intelligence – OBI.
São Paulo: Atlas, 2015.
SHARDA, R.; DELEN, D.; TURBAN, E. Business intelligence e análise de dados para gestão
do negócio. 4. ed. Porto Alegre: Bookman, 2019.
SILVA, L. A. S.; PERES, S. M. P.; BOSCARIOLI, C. Introdução à mineração de dados. Rio de
Janeiro: Elsevier, 2016.
SILVEIRA, P. N. et al. Uma ferramenta para geração de datasets educacionais no formato
Weka. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO, 29., 2018, Fortaleza.
Anais [...]. Fortaleza: [s. n.], 2018. Disponível em: http://br-ie.org/pub/index.php/sbie/
article/view/8094/5785. Acesso em: 27 maio 2020.
STROZZI, C. NoSQL: a relational database management system. [2012]. Disponível em:
http://www.strozzi.it/cgi-bin/CSA/tw7/I/en_US/NoSQL/Home%20Page. Acesso em:
27 maio 2020.
TURBAN, E. et al. Business intelligence: um enfoque gerencial para a inteligência do
negócio. Porto Alegre: Bookman, 2009.

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar