Escolar Documentos
Profissional Documentos
Cultura Documentos
warehouses
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Introdução
Todos os sistemas de informação atuam com o mesmo propósito: fornecer
informações com precisão, qualidade, abrangência e em tempo hábil.
Nesse sentido, surgiram sistemas de informação dedicados a apoiar as
empresas de forma geral, fornecendo um tipo especializado de informa-
ções, como os data warehouses. O seu uso normalmente é associado a
outras tecnologias e tem o objetivo de prestar serviços ainda melhores.
Podemos entender o data warehouse como um repositório que se
dedica a centralizar informações provenientes de todos os setores da
organização, para apoiar decisões importantes. Essa tecnologia fun-
ciona como um grande banco de dados para a extração de análises e
informações importantes, que poderão ser utilizadas pela empresa de
forma estratégica.
Neste capítulo, você conhecerá os fatores históricos que levaram ao
surgimento do data warehouse. Além disso, verá as principais caracte-
rísticas dessa ferramenta, que proporciona às instituições um imenso
suporte durante o processo de tomada de decisão.
14 História dos data warehouses
Acontecimentos históricos
Desde a Antiguidade, o ser humano tem demonstrado a necessidade de manter
registros dos fatos mais importantes da sua vida, de modo que possam vir
a ser utilizados futuramente para a comprovação de algo. Nos primórdios
da humanidade, as pessoas utilizavam os meios disponíveis até então para
manter registrados os seus conhecimentos e a sua história, com a intenção
de transmiti-los às gerações futuras. Esses meios englobavam as escritas e
pinturas em pedras, as escritas em papiros/hieróglifos, etc.; a partir do século
XV, o homem passou a “armazenar” dados em papel (ALVES, 2014).
Ainda que os registros em papel tenham sido de utilidade indiscutível durante
muito tempo, os seus inconvenientes são evidentes. Em muitos casos, principalmente
História dos data warehouses 15
nos negócios, é necessário ter um controle detalhado de tudo o que está ocorrendo
no ambiente. Assim, dependendo do volume de operações, o trabalho pode ser
muito desgastante e requerer o esforço de mais que uma pessoa (ALVES, 2014).
Em função disso, com o início da era computacional, os registros deixaram de
ser realizados em papel. A primeira alternativa para o armazenamento de registros
em meios digitais foram as fitas de papel perfurado, que logo foram substituídas
pelos cartões perfurados (CASTRO, 2016). Na década de 1950, os cartões perfurados
representaram a primeira solução para armazenar dados gerados por um computador.
Na sequência, o armazenamento magnético lentamente substituiu os cartões
perfurados, a partir da década de 1960. O armazenamento em disco foi o
próximo passo evolutivo para o armazenamento de dados: representado pelos
discos rígidos e disquetes inventados pela IBM, começou a se popularizar
em 1964 e permitiu o acesso direto aos dados, constituindo uma melhoria
significativa em relação às fitas magnéticas.
Os bancos de dados talvez sejam os mais antigos programas de computador
já desenvolvidos. Antes deles, os programas registravam as informações em
arquivos sequenciais e utilizavam os recursos do sistema operacional para as
operações de leitura e escrita de dados (GOLDSCHMIDT; PASSOS, 2015).
Nesse modelo, cada programa desenvolvido era responsável pelo controle e ge-
renciamento dos seus dados, o que acabava gerando uma série de inconvenientes:
Essa tecnologia — que era a mais avançada disponível durante muito tempo
— ficou conhecida como sistemas de arquivos. No entanto, ela apresentava
diversas outras limitações (ALVES, 2014). Assim, uma nova estrutura surgiu,
ainda que não tão rapidamente como as anteriores: os bancos de dados.
Nessa época, realizar o armazenamento e a extração de informações de uma
base de dados era um processo moroso. As informações eram armazenadas em
um formato de difícil acesso, em arquivos ou banco de dados, causando longos
períodos de espera para a geração de relatórios, principalmente aqueles que
continham agregação de informações, como identificar as vendas realizadas por
um funcionário durante determinada data (SHARDA; DELEN; TURBAN, 2019).
Devido a essas dificuldades, em 1979, a empresa Teradata, seguindo a expansão
da utilização dos discos rígidos, propôs um sistema gerenciador de banco de dados
responsável por processar, de forma paralela, diversos relatórios com o objetivo
de auxiliar no processo de tomada de decisão. Posteriormente, nos anos 1980, os
computadores pessoais e minicomputadores se popularizaram e, com isso, diversas
aplicações comerciais poderiam estar disponíveis para uso nas organizações, com
o auxílio dos sistemas de gerenciamento de banco de dados distribuídos. Assim,
permitia-se que houvesse o compartilhamento de informações entre os computado-
res e o crescimento da utilização de sistemas com suporte ao processamento on-line.
Apesar dessas melhorias, o processo de encontrar dados específicos era
difícil e não era necessariamente confiável, visto que os dados encontrados
eram baseados em informações antigas. Enquanto isso, muitos dados estavam
sendo gerados por empresas, e as pessoas não podiam confiar na precisão dos
dados que estavam usando.
Simultaneamente, uma tecnologia chamada 4GL foi desenvolvida, nas
décadas de 1970 a 1990, e amplamente divulgada. Essa tecnologia foi baseada
na ideia de que a programação e o desenvolvimento de sistemas devem ser
diretos, e qualquer pessoa deve ser capaz de fazê-lo. Assim, computadores
pessoais e 4GL rapidamente ganharam popularidade no ambiente corporativo,
permitindo que os usuários tivessem autonomia sobre o acesso aos dados. Com
isso, eles podiam assumir o controle dos sistemas computacionais e encontrar
as informações de maneira rápida e eficiente.
Em 1983, a empresa Teradata desenvolveu um produto para o armazena-
mento de dados que se tornaria popular entre as organizações: um RDBMS
(Relational Database Management System ou sistema de gerenciamento de
banco de dados relacional) (SHARDA; DELEN; TURBAN, 2019). Os bancos
de dados relacionais eram mais fáceis de usar do que os seus antecessores, e
a SQL (Structured Query Language ou linguagem de consulta estruturada)
tornou-se a linguagem usada pelos RDBMS.
História dos data warehouses 17
A SQL é uma linguagem padrão utilizada por diversos sistemas de bancos de dados
para consulta e manipulação de dados.
Bancos de dados
Antes de você estudar a definição de bancos de dados, precisa relembrar
alguns conceitos básicos relacionados a sistemas de informação. Sistemas
de informação podem ser entendidos como o conjunto dos componentes
humanos e/ou tecnológicos, inter-relacionados, que atuam em conjunto para
o cumprimento de uma tarefa ou um objetivo (TURBAN et al., 2009).
O conjunto básico de operações realizadas por um sistema de informação
é descrito como entrada, processamento e saída. Em alguns casos, podem
ocorrer ainda a retroalimentação ( feedback) e o armazenamento de dados,
como mostra a Figura 1.
conhecimento do mundo real, que pode ou não ser armazenado, mas que
apresenta algum significado ou valor para quem o detém. Já os dados são
fatos isolados, isto é, são a menor parte de uma informação. Assim como a
informação, os dados podem ser registrados e/ou armazenados; depois de
tratados, trabalhados e transformados, passam a ter valor, tornando-se uma
informação (SILVA; PERES; BOSCARIOLI, 2016).
Os itens de dados referem-se a como a organização vai armazenar as suas
informações e como elas serão registradas, levando em consideração que
essas informações armazenadas não são organizadas para transmitir qualquer
significado específico. Assim, esses dados podem ser números, letras, figuras,
sons ou imagens. Quando os dados são processados, ou seja, quando são
relacionados logicamente e organizados para atingir um resultado definido,
eles são transformados em informação.
Quando você vai ao supermercado fazer compras e, após passar pelo caixa, recebe
o cupom fiscal com a relação dos itens comprados, os seus respectivos códigos, a
quantidade e os valores unitários, pode-se dizer que tem dados na sua forma bruta,
ou seja, esses dados, por si só, podem ou não ser relevantes. Porém, quando esses
dados passam por alguma transformação e passam a ter algum valor ou propósito
para a empresa em relação à tomada de decisões, eles passam a ser conhecidos como
informação. No exemplo do supermercado, isso ocorrerá quando o cupom possuir
data, hora, número do caixa, nome do atendente e do supermercado, subtotal por
item, total da compra, forma de pagamento e CPF do comprador.
Data warehouse
Abordando o conceito de forma direta, sem muita preocupação com defini-
ções formais, podemos dizer que um data warehouse nada mais é do que um
grande banco de dados (ou um armazém de dados) com muitas informações
históricas, que nunca são apagadas. Assim, permite-se que elas sejam acessadas
de maneira a facilitar a aquisição de conhecimento.
Um data warehouse pode ser considerado um conjunto expansível e estru-
turado de dados, projetado especificamente para permitir a análise de dados
provenientes das mais diversas fontes. Os data warehouses mantêm somente
os dados que são relevantes para o negócio da organização, armazenando-os
por um longo período de tempo. Além disso, garantem que tais dados não serão
modificados, seja física ou logicamente (CASTRO, 2016; GOLDSCHMIDT;
PASSOS, 2015; REZENDE, 2015; SILVA; PERES; BOSCARIOLI, 2016;
SILVEIRA et al., 2018; TURBAN et al., 2009).
Os data warehouses foram projetados para apoiar o processo de tomada
de decisão por meio da coleta, consolidação, análise e pesquisa de dados.
Eles podem ser usados na análise de uma área específica e são uma parte
importante do business intelligence (BI). A arquitetura do data warehouses
foi desenvolvida na década de 1980 para auxiliar na transformação de dados
de sistemas operacionais em sistemas de suporte à tomada de decisão. Nor-
malmente, um data warehouse faz parte do servidor de mainframe em uma
empresa ou na nuvem.
Em um data warehouse, dados de muitas fontes diferentes são trazidos
para um único local e depois traduzidos para um formato que esse sistema
pode processar e armazenar. Imagine que uma empresa armazena dados
sobre as informações, os produtos, os funcionários e os seus salários, as
vendas e as faturas de seus clientes. A alta gestão pode solicitar e analisar
informações sobre as ações recentes para a redução de custos de determinado
setor. Diferentemente do armazenamento básico de dados operacionais, os
data warehouses contêm dados históricos agregados (dados altamente úteis
extraídos de várias fontes).
Os benefícios observados pelo uso do data warehouse são diversos. Um dos
principais é a redução de redundância de informações dentro da organização,
uma vez que todas estarão armazenadas em um único local — e não espalha-
das por diferentes software. A padronização dos dados e a sua organização
também são importantes para que as informações sejam mantidas íntegras e
fáceis de serem consultadas, sempre que necessário.
22 História dos data warehouses
Business intelligence
Turban et al. (2009) afirma que o termo “business intelligence” é composto por
banco de dados, metodologias, arquitetura, ferramentas e aplicações. Mesmo
que a definição utilizada pelo autor possa parecer abstrata, ela é necessária
para que se possa entender a real grandeza das ações de BI. Ainda segundo
o autor, BI pode ter significados diferentes para ocasiões diferentes. O ideal,
então, é compreender quais são os principais objetivos da BI:
Integrado
A integração talvez seja a característica mais importante de um ambiente de data
warehouse. Essa característica afirma que todos os dados armazenados em um data
warehouse estão integrados, isto é, não existem, em hipótese alguma, dados que
não estejam integrados dentro de um sistema como esse (TURBAN et al., 2009).
Esse fator pode se apresentar de diferentes formas: na convecção consistente de
nomes, nas formas consistentes de variáveis, na estrutura consistente de códigos,
nos atributos físicos consistentes, entre outras (TURBAN et al., 2009).
Ao longo dos anos, tornou-se notória a insistência de diversos desenvol-
vedores em não se preocupar com a consistência dos dados dos seus produtos
(ALVES, 2014). As práticas mais comuns que levam à inconsistência dos dados
estão relacionadas aos seguintes aspectos:
24 História dos data warehouses
Variável no tempo
Em algum momento, na escala temporal, determinado registro de um data
warehouse será exato. Uma das características desse sistema é possuir
diversas fontes de dados, de diferentes partes do ambiente operacional.
Isso significa que, quando um dado é acessado no ambiente operacional,
isto é, quando uma unidade de dado é acessada, o que se espera é que os
seus valores estejam corretos, e isso deve ser refletido nos valores de um
data warehouse.
Por esse motivo, diz-se que um dado criado nesse tipo de sistema é um
“histórico” (REZENDE, 2015). Em um data warehouse, os valores históricos
podem ser apresentados de diversas maneiras, que variam desde modos mais
simplificados, em que os dados são apresentados sobre um horizonte de tempo,
até modos mais detalhados (REZENDE, 2015).
Os dados em um data warehouse podem ser considerados uma longa
série de snapshots. A ideia é que, uma vez que o snapshot do dado tenha sido
realizado, este não possa mais ser alterado. Entretanto, em casos especiais, isso
pode ocorrer, ainda que não seja correto fazer isso. Momentos não podem ser
História dos data warehouses 25
Não volátil
Em ambientes operacionais, atividades como inclusão, alteração e exclusão de
dados são realizadas com certa frequência e constituem um conjunto básico
de operações esperadas. Em um data warehouse, porém, a manipulação de
dados é ainda mais simples (REZENDE, 2015). Nesse tipo de sistema, existem
somente duas operações básicas a serem consideradas: a carga inicial de dados
e a consulta de dados. Não existe, como parte do processamento normal de
um data warehouse, a atualização de dados (REZENDE, 2015).
Essa simplicidade de operações interfere também nos requisitos tecnoló-
gicos para a preparação do ambiente que hospedará o data warehouse. Tec-
nologias que oferecem suporte a atualizações on-line de registros, bem como
a backups, recoveries, transações com integridade de dados e correções de
deadlocks, são muito complexas. A boa notícia é que tudo isso é desnecessário
em um data warehouse (ALVES, 2014).
O ambiente operacional é a fonte para a aproximação de dados de um
sistema como esse. De fato, à primeira vista, isso pode parecer mais um
processo de redundância de dados. Entretanto, deve-se considerar o seguinte
(REZENDE, 2015):
baseados na web;
modelados de forma relacional ou multidimensional;
desenvolvidos em arquitetura em camadas;
suportados pelo processamento em tempo real;
estruturados por metadados.
História dos data warehouses 27
Baseados na web
Os sistemas baseados na web possibilitam o acesso a dados nas organizações
e entre os seus parceiros de negócios. Como oportunidade visionária, a tec-
nologia de data warehouse está aproveitando os recursos de acesso da web.
As ferramentas locais de data warehouse ainda são populares e implantadas
em várias organizações. Porém, enquanto a implementação tradicional do
data warehouse era tipicamente um projeto muito oneroso, novas ferramentas
baseadas na nuvem permitem que as empresas configurem um data warehouse
em dias, sem investimento inicial e com muito maior escalabilidade, armaze-
namento e desempenho de consultas.
Ao oferecer funcionalidades de data warehouse acessíveis pela internet,
os provedores públicos de nuvem permitem que as empresas evitem os cus-
tos de configuração inicial necessários para construir um data warehouse
tradicional na sede da organização. Como vantagem, esses data warehouses
corporativos disponíveis na nuvem são totalmente gerenciados, de modo
que o provedor de serviços gerencia e assume a responsabilidade de forne-
cer a funcionalidade necessária do data warehouse, incluindo correções e
atualizações no sistema.
Características arquiteturais
A arquitetura dessa tecnologia pode ser caracterizada basicamente de duas
formas: conceitual ou física. Para facilitar esse entendimento, veja a forma
conceitual mostrada na Figura 2.
Observe, com base na Figura 2, que um data warehouse pode ser dividido
em um data mart, o que permite a sua divisão por departamento, separando-o
também por setores dentro de uma organização. Todos os dados armazenados em
um data warehouse ou em um data mart são gerenciados por um ou por vários
servidores, os quais permitem a apresentação de dados em visões multidimen-
sionais, a partir de uma variedade de ferramentas front-end (CASTRO, 2016).
30 História dos data warehouses
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.