Você está na página 1de 22

menu Unidade 1

- Tópico 3 settings

UNIDADE 1

FUNDAMENTOS DE BANCO DE DADOS

TÓPICO 3

TENDÊNCIAS E PERSPECTIVAS

1 INTRODUÇÃO

“Nossas dúvidas são traidoras e nos fazem perder o que, com frequência, poderíamos
ganhar, por simples medo de arriscar.” (William Shakespeare)

Agora que você já tem uma boa fundamentação sobre bancos de dados, suas
origens, sua evolução e suas arquiteturas, chegou a hora de estudarmos as
possíveis tecnologias que são apontadas como tendência para o futuro. Será
percebido que algumas delas já fazem parte do cotidiano em algumas áreas,
porém ainda precisam evoluir.

FIGURA 22 – NOVAS TECNOLOGIAS EM BANCOS DE DADOS

FONTE: Disponível em: <http://www.devmedia.com.br/introducao-aos-bancos-de-dados-nosql/26044>.


Acesso em: 23 dez. 2012.

Vamos estudar, inicialmente, os tipos de bancos de dados que servem para


trabalhar com dados complexos em cenários como georeferenciamento, biologia,
entre outros. Também veremos conceitos de gerenciamento e mineração de
dados para geração de informações. Por último, dois novos conceitos no mundo
de bancos de dados: NoSQL e Big Data. Bons estudos!
2  CLASSIFICAÇÃO DOS BANCOS DE DADOS
menu Unidade 1
- Tópico 3 settings
Até o presente momento estudamos bancos de dados sob uma ótica do modelo
relacional. Este é largamente utilizado e muito difundido em vários sistemas
considerados “tradicionais” como ERPs, CRMs, E-commerce etc.

Porém, existem sistemas com uma abrangência mais específica que norteiam
áreas mais delimitadas. É o caso do armazenamento e manipulação de
informações geográficas ou também de arquivos que necessitam de uma
organização em nível de bancos de dados.

Esse é o foco do nosso estudo nesta seção. Está dividido em sete áreas: bancos de
dados de informações geográficas, multimídia, temporal, biológico e XML. Cada
uma dessas áreas será estudada e exemplificada.

2.1 BANCOS DE DADOS DE INFORMAÇÕES GEOGRÁFICAS

Este tipo de banco de dados tem como objetivo armazenar e manipular dados
geométricos que sejam pertinentes a representações de partes do planeta.
Também é conhecido como Sistema Gerenciador de Bancos de Dados Geográficos
ou simplesmente SGBDG. Em resumo, armazena dados geográficos como mapas,
imagens de satélite etc.

FIGURA 23 – OBJETO QUE PODE SER REPRESENTADO POR UM SGBDG

FONTE: Disponível em: <http://www.mobypicture.com/user/patrickitj/view/9762284>. Acesso em: 15


dez. 2012.

Alguns bancos que são de natureza relacional permitem que sejam instalados
pacotes para que tipos de dados geográficos sejam suportados. Um exemplo disto
é uma extensão que pode ser adicionada no banco PostgreSQL para habilitar
suporte a dados espaciais. O nome dela é PostGIS e sua ideia é ilustrada na figura
a seguir.

FIGURA 24 – EXTENSÃO ESPACIAL DO POSTGRESQL


menu Unidade 1
- Tópico 3 settings

FONTE: Disponível em: <http://www.infoescola.com/informatica/banco-de-dados-geograficos/>. Acesso


em: 15 dez. 2012.

O texto a seguir trata sobre representação geral de informações geográficas.


Nele, procura-se detalhar com maior riqueza de detalhes, o paradigma de
bancos de dados geográficos.

DESCRIÇÃO GERAL DE SISTEMAS DE INFORMAÇÃO GEOGRÁFICA

O termo sistemas de informação geográfica (SIG) é aplicado para sistemas que


realizam o tratamento computacional de dados geográficos. A principal diferença
de um SIG para um sistema de informação convencional é sua capacidade de
armazenar tanto os atributos descritivos como as geometrias dos diferentes tipos
de dados geográficos. Assim, para cada lote num cadastro urbano, um SIG guarda,
além de informação descritiva como proprietário e valor do IPTU, a informação
geométrica com as coordenadas dos limites do lote. A partir destes conceitos, é
possível indicar as principais características de SIGs:

• Inserir e integrar, numa única base de dados, informações espaciais provenientes


de meio físico-biótico, de dados censitários, de cadastros urbano e rural, e outras
fontes de dados como imagens de satélite, e GPS.

• Oferecer mecanismos para combinar as várias informações, através de


algoritmos de manipulação e análise, bem como para consultar, recuperar e
visualizar o conteúdo da base de dados geográficos. 

 Os componentes de um SIG estão mostrados na Figura 1.1. No nível mais próximo
ao usuário, a interface homem-máquina define como o sistema é operado e
controlado. Esta interface pode ser tanto baseada na metáfora da “mesa de
trabalho” (Kuhn e Frank, 1991) (Richards e Egenhofer, 1995) (Câmara, 1999), como
adaptada ao ambiente de navegação da Internet (Kraak e Brown, 2001), quanto
baseada em linguagens de comando como Spatial SQL (Egenhofer, 1994) e LEGAL
(Câmara, 1995). No nível intermediário, um SIG deve ter mecanismos de
processamento de dados espaciais. A entrada de dados inclui os mecanismos de
conversão de dados (Hohl, 1998). Os algoritmos de consulta e análise espacial
incluem as operações topológicas (Egenhofer e Franzosa, 1991), álgebra de mapas
menu Unidade
(Tomlin, 1990), estatística espacial (Druck1
-
etTópico 3 modelagem numérica de
al., 2004), settings
terreno (Li et al., 2004) e processamento de imagens (Mather, 2004). Os
mecanismos de visualização e plotagem devem oferecer suporte adequado para a
apreensão cognitiva dos aspectos relevantes dos dados pesquisado (MacEachren,
2004) (Tufte, 1983) (Monmonier, 1993). No nível mais interno do sistema, um
sistema de gerência de bancos de dados geográficos oferece armazenamento e
recuperação dos dados espaciais e seus atributos. Cada sistema, em função de
seus objetivos e necessidades, implementa estes componentes de forma distinta,
mas todos os subsistemas citados devem estar presentes num SIG. 

Do ponto de vista da
aplicação, o uso de sistemas de informação geográfica (SIG) implica escolher as
representações computacionais mais adequadas para capturar a semântica de seu
domínio de aplicação. Do ponto de vista da tecnologia, desenvolver um SIG
significa oferecer o conjunto mais amplo possível de estruturas de dados e
algoritmos capazes de representar a grande diversidade de concepções do
espaço. 

FONTE: Disponível em: <http://www.dpi.inpe.br/livros/bdados/cap1.pdf>. Acesso em: 11 set. 2012.

2.2 BANCOS DE DADOS MULTIMÍDIA

Dados multimídia são cada vez mais populares. Com o advento da internet a troca
de dados multimídia expandiu-se. Entretanto, imagens, vídeo e audio estão hoje,
na maioria das vezes, armazenados em sistemas de arquivos. Esse fato não vem a
ser um problema quando se trabalha com um volume reduzido de dados,
considerando que um banco não iria trazer grandes benefícios. Porém, com
muitos arquivos uma forma de armazenamento em banco facilitaria o
gerenciamento dos mesmos.

Boa parte dos principais bancos de dados implementam um tipo de dado binário
para armazenar dados multimídia. Isso faz com que essa forma de
armazenamento se resuma apenas em salvar arquivos no banco, não trazendo
muitas vantagens comparadas com o armazenamento em sistemas em arquivos.

Um banco de dados multimídia precisa ter algumas características como suporte a


objetos gigantes (muito mais que alguns gigabytes), fornecimento dos dados em
um ritmo constante (um vídeo precisa ser fornecido sem lacunas durante sua
exibição) e recuperação baseada na semelhança.
menu Unidade 1
- Tópico 3 settings
O texto a seguir detalha a necessidade e a motivação para a recuperação
baseada em semelhança.

RECUPERAÇÃO BASEADA EM SEMELHANÇA

Dados de imagem. Duas figuras ou imagens que são ligeiramente diferentes,


conforme representadas no banco de dados, podem ser consideradas iguais por
um usuário. Por exemplo, um banco de dados pode armazenar um projeto de
marca comercial. Quando uma marca comercial deve ser registrada, o sistema
pode precisar primeiro identificar todas as marcas comerciais semelhantes que
foram registradas anteriormente.

Dados de áudio. Interfaces de usuário baseadas em fala estão sendo


desenvolvidas para permitir que o usuário dê um comando ou identifique um item
de dados pela fala. A entrada do usuário precisa então ser testada por semelhança
com aqueles comandos ou itens de dados armazenados no sistema.

Dados escritos à mão. A entrada escrita à mão pode ser usada para identificar um
item de dados ou comando escrito à mão, armazenado no banco de dados. Aqui,
novamente, o teste de semelhança é exigido.

A noção de semelhança normalmente é subjetiva e específica do usuário. Porém, o


teste de semelhança normalmente é mais bem-sucedido do que o reconhecimento
de voz ou escrita manual, pois a entrada pode ser comparada com dados já no
sistema e, assim, o conjunto de opções disponíveis ao sistema é limitado.

Existem vários algoritmos para encontrar as melhores combinações de


determinada entrada pelo teste de semelhança. Alguns sistemas, incluindo a
discagem por nome, sistema de telefone ativado por voz, foram implantados
comercialmente.

FONTE: Silberschatz, Korth e Sudarshan (2006, p. 620)

Para resumir e exemplificar uma das principais características que um banco de


dados multimídia precisa ter. Vamos pensar em um arquivo cujo conteúdo é uma
imagem. Quando trabalhamos com imagens, o sistema deve conseguir identificar
algumas particularidades delas. Por exemplo, listar todas as imagens de um pôr de
sol ou talvez todas as que contenham barcos cuja cor é branca. Para isso ser
possível é necessário identificar a semântica da imagem, ou seja, o que significa e
qual o seu conteúdo. Este conceito também é válido para áudio e vídeo.

2.3 BANCO DE DADOS TEMPORAL

Em um conceito resumido, podemos dizer que um banco de dados temporal


armazena o estado de um determinado objeto, procurando obter toda a sua
evolução. Fazendo uma junção deste conceito com os bancos de dados relacionais,
pode-se entender que o objeto pode ser uma tabela.

As aplicações rotineiras se preocupam normalmente em registrar quando


determinado fato ocorreu. Um banco de dados temporal se preocupa com todo o
histórico de todos os fatos. Isso pode ser confeccionado com base em intervalos
de datas ou intervalo de validade das informações.
Cabe ao projetista de banco de dados definir o formato de gerenciamento dos
menu Unidade
dados de forma temporal. Alguns 1
-sistemas
tipos de Tópico 3que podem consumir um settings
banco de dados temporal são: BI (Sistema de suporte a decisões ou Bussiness
Intelligence), SIGs (Sistemas de Informações Gerenciais) etc.

Alguns SGBDs fornecem meios para o desenvolvimento de bancos temporais.


Entre eles, existe um grande destaque por parte da Oracle, com o Time Series
Cartridge.

2.4 BANCOS DE DADOS BIOLÓGICOS

Tendo em vista que existem vários estudos desenvolvidos no campo da biologia,


existe a necessidade de documentá-los e armazená-los em locais seguros. Esse é o
conceito de bancos de dados biológico. Alguns são públicos, outros privados.
Podem oferecer também integração com outros bancos de dados.

O site <http://pt.scribd.com/doc/58841709/Banco-de-Dados-biologico> traz


alguns exemplos de bancos de dados biológicos.

Projeto GMOD

“O Generic Model Organism Database Project é um projeto open source, cujo


objetivo é desenvolver um conjunto completo de softwares para a criação e
administração de um banco de dados biológico”. GMOD (2004). Financiado pelo
NIH (National Instituteof Health) e pelo USDA Agricultural Research Service.

Citrina

O Citrina consiste em uma ferramenta de gerência que permite automatizar o


espelhamento e processamento de bancos de dados que estão distribuídos
através de diversos servidores FTP. A mesma foi desenvolvida através da
tecnologia Java Ant, o que a torna mais flexível e portável.

Um exemplo de uso para o Citrina seria a transferência de Chado SQL entre vários
sites de organismos e a população automática dos diversos bancos de dados
PostgreSQL através dos recursos de SQL fornecidos pela tecnologia Java Ant.

BioMart

Sistema de Integração de dados orientado a consultas, baseado na ideia de Data


Warehouse.

Sistema de Consultas desenvolvido especificamente para uso de grandes bancos


de dados. Simplifica a tarefa de integração entre diferentes bancos de dados
distribuídos pela rede.

Chado

Segundo Chado (2004), consiste em um “... conjunto de módulos de um esquema


destinados à construção de um esquema de banco de dados biológico
relacional....”
 O Chado foi desenvolvido com o intuito de ser aplicado, especificamente, a um
menu Unidade
banco de dados open source, como 1
- Tópico
é o caso 3
do PostGreSQL (PostgreSQL, 2004) e settings
do MySQL (MySQL, 2004). Além disso, outro pré-requisito para o funcionamento
eficiente do Chado é a configuração de diversos pacotes BioPerl (BioPerl, 2004).

O Chado está sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo
Berkeley Drosophila Genome Project (BDGP, 2004). 

O Chado, o qual constitui um dos subprojetos do GMOD, apresenta-se como um


esquema mais simples e genérico para a representação de dados biológicos. Este
esquema ainda se encontra em desenvolvimento, o que pode ser verificado na
grande simplicidade nos módulos responsáveis pela representação de mapas
genéticos, interações genéticas e expressão gênica. 

Todos os dados resultantes das análises de um projeto genoma são armazenados


nos chamados bancos de dados biológicos. Inicialmente, cada laboratório
desenvolveu o seu próprio banco de dados, contemplando somente as
necessidades do projeto genoma por ele sendo executado. 

Um banco de dados genômico para os biólogos geralmente é um web site que


apresenta informações que muitas vezes estão armazenadas em arquivos texto.

Outras vezes, os dados podem até estar em SGBDs, mas isto só começou a se
tornar realidade há poucos anos. Por exemplo, o www.plasmodb.org, um “banco
de dados genômico” do Plasmodium (causador da malária) usa dados
armazenados tanto em arquivos texto quanto em Oracle. A migração vem se
dando há pouco tempo. 

O banco de dados biológico mais famoso é o GenBank.

FONTE: Disponível em: <http://pt.scribd.com/doc/58841709/Banco-de-Dados-biologico>. Acesso em: 24 dez. 2012.

2.5 BANCO DE DADOS XML

O XML (Extensible Markup Language) é uma linguagem de marcação extensível


criada em 1996. Pode ser utilizada para troca, compartilhamento e
armazenamento de dados.

Rob e Coronel (2011, p.615) fazem um relato do cenário onde a XML pode estar
envolvida.

A internet fez surgir novas tecnologias que facilitam a troca de dados de negócios entre
parceiros comerciais e clientes. As empresas têm utilizado a internet para criar novos
tipos de sistemas que integrem seus dados de modo a aumentar a eficiência e reduzir
custos. O comércio eletrônico (e-commerce) permite que todos os tipos de
organizações vendam produtos e serviços em um mercado global de milhões de
usuários. As transações de comércio eletrônico – venda de produtos ou serviços –
podem ser executados entre empresas (business-to-business ou B2B) ou entre uma
empresa e um cliente (business-to-consumer ou B2C).A maioria dessas transações
ocorre entre empresas. Como o comércio eletrônico B2B integra processos de negócios
entre empresas, ele exige a transferência de informações comerciais entre as
diferentes entidades. Mas o modo como os dados são representados, identificados e
utilizados tende a diferir significativamente de empresa para empresa [...].

De uma forma bem resumida, pode-se dizer que XML consiste em descrever o
conteúdo dos campos em um formato de marcação. É amplamente utilizado na
internet para integração entre sistemas.
A figura a seguir mostra um exemplo de XML.
menu Unidade 1
- Tópico 3 settings
FIGURA 25 – EXEMPLO XML

FONTE: Disponível em: <http://blog.kirupa.com/?p=227>. Acesso em: 27 jan. 2013.

3 TIPOS DE GERENCIAMENTO DE DADOS

No cenário em que vivemos hoje, as empresas precisam estar preparadas e


“munidas” de informações que possam gerar valor competitivo para o seu negócio.
Para que isso aconteça, precisamos de uma forma de analisar os dados disponíveis
nos seus sistemas a fim de gerar informação e conhecimento. Vale a pena lembrar-
se do que foi apresentado no início desta unidade: a partir dos dados são geradas
informações e a interpretação dessas informações gera conhecimento.

FIGURA 26 – DADOS SÃO UTILIZADOS PARA GERAR INFORMAÇÃO


menu Unidade 1
- Tópico 3 settings

FONTE: Disponível em: <http://gestorsistemas.info/content/?secao=data_mining>. Acesso em: 27 jan.


2013.

Rob e Coronel (2011, p. 535) fazem um relato sobre a necessidade de análise e


gerenciamento de dados analisados.

As organizações tendem a crescer e prosperar quando obtêm melhor compreensão de


seu ambiente. A maioria dos gerentes deseja rastrear as transações diárias para avaliar
o fluxo dos trabalhos. Recorrendo ao banco de dados operacional, a gerência pode
desenvolver estratégias que atendam as metas organizacionais. Além disso, a análise
dos dados pode fornecer informações sobre estratégias e avaliações táticas de curto
prazo como as seguintes: nossas promoções de vendas estão funcionando? Que
porcentagem do mercado controlamos? Estamos atraindo novos clientes? As decisões
táticas e estratégicas também são moldadas por uma pressão constante de forças
externas e internas, incluindo a globalização, o ambiente legal, cultural e (talvez o mais
importante) a tecnologia. 

Esta seção trata de formas de analisar e gerar informações e conhecimento acerca


de um determinado negócio. Esse processo também pode ser denominado de
estudo de atividades para gerar informações de apoio à decisão. Envolve os
seguintes itens que serão posteriormente estudados: Data Mining, Data
Warehouse, Data Mart e Data Marketing.

3.1 DATA MINING


Data Mining ou mineração de dados é um dos primeiros processos que são
menu Unidade
executados a fim de construir uma nova1
-
baseTópico 3
de dados que gere conhecimento e settings
informações de apoio à decisão.

FIGURA 27 – PROCESSOS DE DATA MINING

FONTE: Disponível em: <http://imasters.com.br/artigo/10229/tecnologia/mineracao-de-dados-e-web-


semantica/>. Acesso em: 27 jan. 2013.

Rob e Coronel (2011) nos dizem que o banco de dados de suporte a decisões é
criado, em grande parte, pela extração de dados do banco operacional e pela
importação de dados adicionais de fontes externas. Isso significa que as empresas
já possuem seus sistemas de gerenciamento e extraem os dados dos mesmos
para buscar padrões que sejam valiosos para o ramo do negócio.

O texto disponível em: <http://www.intelliwise.com/reports/i2002.htm>


elucida de forma mais pormenorizada o que vem a ser um Data Mining. Ele
também traz alguns termos que serão vistos em seguida, como Data
Warehouse e Data Mart.

Data Mining é uma das novidades da Ciência da Computação que veio para ficar.
Com a geração de um volume cada vez maior de informação, é essencial tentar
aproveitar o máximo possível desse investimento. Talvez a forma mais nobre de se
utilizar esses vastos repositórios seja tentar descobrir se há algum conhecimento
escondido neles. Um banco de dados de transações comerciais pode, por
exemplo, conter diversos registros indicando produtos que são comprados em
conjunto. Quando se descobre isso, pode-se estabelecer estratégias para otimizar
os resultados financeiros da empresa. Essa já é uma vantagem suficientemente
importante para justificar todo o processo. Contudo, embora essa ideia básica seja
facilmente compreensível, fica sempre uma dúvida sobre como um sistema é
capaz de obter esse tipo de relação. No restante deste artigo vamos observar
alguns conceitos que podem esclarecer essas dúvidas.

O que é Data Mining?


Talvez a definição mais importante de Data Mining tenha sido elaborada por
menu Usama Fayyad (Fayyad et al. 1996):
Unidade 1
- Tópico 3 settings
“[...] o processo não trivial de identificar, em dados, padrões válidos, novos,
potencialmente úteis e ultimamente compreensíveis”.

Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos


recentemente) que processam os dados e encontram esses “padrões válidos,
novos e valiosos”. É preciso ressaltar um detalhe que costuma passar
despercebido na literatura: embora os algoritmos atuais sejam capazes de
descobrir padrões “válidos e novos”, ainda não temos uma solução eficaz para
determinar padrões valiosos. Por essa razão, Data Mining ainda requer uma
interação muito forte com analistas humanos, que são, em última instância, os
principais responsáveis pela determinação do valor dos padrões encontrados.
Além disso, a condução (direcionamento) da exploração de dados é também tarefa
fundamentalmente confiada a analistas humanos, um aspecto que não pode ser
desprezado em nenhum projeto que queira ser bem sucedido.

Os passos do Data Mining

A literatura sobre o assunto trata com mais detalhes todos os passos necessários
ao Data Mining. Veja, por exemplo, Groth (1998) e Han, Chen & Yu (1996). Para o
escopo do que pretendemos neste artigo é suficiente apresentar os passos
fundamentais de uma mineração bem sucedida. A partir de fontes de dados
(bancos de dados, relatórios, logs de acesso, transações, etc.) efetua-se uma
limpeza (consistência, preenchimento de informações, remoção de ruído e
redundâncias etc.). Disto nascem os repositórios organizados (Data Marts e Data
Warehouses), que já são úteis de diversas maneiras.

Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o
processo de mineração. Tipicamente, este processo não é o final da história: de
forma interativa e frequentemente usando visualização gráfica, um analista refina
e conduz o processo até que valiosos padrões apareçam. Observe que todo esse
processo parece indicar uma hierarquia, algo que começa em instâncias
elementares (embora volumosas) e terminam em um ponto relativamente
concentrado, mas muito valioso.

Este é um dos conceitos importantes para nós neste artigo: encontrar padrões
requer que os dados brutos sejam sistematicamente "simplificados" de forma a
desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se
menu Unidade
isso porque não parece haver muito 1
- Tópico 3a extrair de eventos isolados.
conhecimento settings
Uma loja de sua rede que tenha vendido a um cliente em particular uma
quantidade impressionante de um determinado produto em uma única data pode
apenas significar que esse cliente em particular procurava grande quantidade
desse produto naquele exato momento. Mas isso provavelmente não indica
nenhuma tendência de mercado.

Em outras palavras, não há como explorar essa informação em particular para que
no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto
pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa
vontade de "não perder dados". Para que o processo dê certo, é necessário sim
desprezar os eventos particulares para só manter aquilo que é genérico.

FONTE: Disponível em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: 24 dez. 2012.

3.2 DATA WAREHOUSE

Resumidamente, podemos dizer que um Data WareHouse é um banco de dados


que possui todos os dados da organização que são pertinentes para uma futura
análise. Rob e Coronel (2011) explicam que Data WareHouse normalmente é um
banco de dados apenas de leitura, otimizado para processamento de análises e
consultas. Geralmente, os dados são extraídos de várias fontes e, em seguida,
transformados e integrados.

É conhecido também como armazém de dados por reunir dados de vários


sistemas distintos. Nas organizações é comum existirem sistemas específicos para
algumas áreas, como por exemplo, folha de pagamento, faturamento, vendas etc.
Quando chega o momento de responder a algumas perguntas, é muito
complicado ir a cada sistema e pesquisar os dados relacionados. Por isso, através
de um processo de Data Mining é gerado um Data WareHouse com os dados da
empresa.

Tudo é feito para melhorar a tomada de decisão das empresas. O texto a


seguir mostra como isso é possível.

COMO UM DATA WAREHOUSE PODE MELHORAR A TOMADA DE DECISÃO NAS


EMPRESAS?

A principal proposta do data warehouse é colocar nas mãos dos analistas de


negócios dados estratégicos para as tomadas de decisões baseadas em fatos reais
e não por intuição. A produtividade oferecida pelo data warehouse é traduzida em
ganho de tempo e dinheiro. Na construção de um banco de dados para suporte a
um data warehouse são filtrados e normalizados os dados de vários bancos de
dados dos sistemas estruturados, formando uma base de dados com todos os
dados relevantes da empresa ou de uma área específica. Com o cruzamento
desses dados extraem-se informações que os sistemas de informações
estruturados não conseguem identificar. O banco Itaú enviava cerca de um milhão
de malas diretas para seus correntistas e obtinha apenas 2% de retorno, após a
implantação do data warehouse o retorno passou para 30% e a conta do correio
menu diminuiu para um quinto. Unidade 1
- Tópico 3 settings
Em muitas empresas quando um executivo faz uma pergunta sobre o perfil dos
seus negócios fora de um padrão definido pelos analistas de sistemas o tempo e o
esforço para respondê-la é muito grande. Várias bases de dados devem ser
consultadas, programas de pesquisas são construídos, download de arquivos para
microcomputadores para manipulação dos dados e gerar relatórios gráficos. Se
uma decisão deve ser tomada acompanhando a velocidade do mercado, o
executivo acaba tomando a decisão por intuição não podendo esperar o resultado
da área de sistemas.

 Quando o assunto é simulação de cenários de negócios o processo é ainda mais


traumático. Os sistemas estruturados atuais não são suficientemente flexíveis para
traçar cenários complexos usando cruzamento de vários componentes. Os bancos
de dados tradicionais possuem visão bidimensional, por exemplo, enxergam uma
tabela de produto por região. As ferramentas de data warehouse possuem a visão
de uma tabela multidimensional, por exemplo, geram uma tabela de produto x
região x período de tempo.

Os data warehouses já colecionam muitas estórias de sucesso. A clássica foi o


resultado obtido pela rede americana de supermercados Wal-Mart quanto o seu
data warehouse identificou uma relação entre o consumo de fraldas descartáveis e
o consumo de cerveja. Analisando a informação do data warehouse verificou-se
que quando os maridos iam ao supermercado à noite para comprar fraldas
aproveitavam e compravam algumas cervejas. Constatado o fato, elaborou-se uma
estratégia de vendas onde as fraldas ficam próximas as cervejas, induzindo os
maridos a comprarem as cervejas. O resultado foi o aumento de vendas das
cervejas. Outro exemplo é o caso da empresa de telecomunicações americana
Sprint que com o seu data warehouse consegue identificar com 60 dias de
antecedência os usuários que trocaram seus serviços por outra operadora. Através
de um marketing agressivo ela conseguiu evitar a deserção de 120.000 clientes e
uma perda de 35 milhões de dólares em faturamento.

A introdução de um data warehouse em uma empresa exige uma mudança de


comportamento dos executivos e sua relação entre os computadores e as
informações. Os data warehouse mantêm um quadro único e coerente das
informações ao longo da empresa, uma única versão da verdade, trazendo
produtividade e ganho de dinheiro.

FONTE: Disponível em:


<http://www.efagundes.com/artigos/Como%20um%20data%20warehouse%20pode%20melhorar%20as%20tomadas%20de%20decisoes%20nas%20empresas
Acesso em: 24 dez. 2012.

3.3 DATA MART

Com o passar dos anos, foi percebido que os usuários responsáveis por extrair
informações dos Data WareHouses usavam uma pequena parte dele para realizar
o seu trabalho. Neste mesmo conjunto era preciso criar novas visões e executar os
mesmos procedimentos de forma repetitiva a cada atualização recebida. É nesse
cenário que surge a definição de Data mart.

Para Date (2003), Data Mart é um depósito de dados especializado, orientado por
assunto, integrado, volátil e variável no tempo, que fornece apoio a um
subconjunto específico de decisões da gerência. É um agrupamento de dados e
informações dentro do Data WareHouse com um objetivo específico e bem
menu definido. Unidade 1
- Tópico 3 settings
3.4 DATA MARKETING

Em uma definição bem simplista, pode-se dizer que é um banco de dados utilizado
para relacionamento com clientes. É nele que estão os dados utilizados para
atingir objetivos de venda, público alvo para promoções etc. 

O texto disponibilizado no site <http://www.benic.com.br/marketing-


digital/blog/o-que-e-database-marketing> deixa claro quais são os benefícios
da utilização deste conceito. 

O QUE É DATABASE MARKETING

Caso a sua empresa queira adotar estratégias de retenção de clientes,


fundamentadas no Marketing de Relacionamento, é imprescindível que possua
tecnologia que possibilite desenvolver com eficácia essas estratégias.

A base do Marketing de Relacionamento é a personalização do relacionamento


com os clientes, mas como realizar esta personalização se sua empresa possuiu
milhares e até milhões de clientes em um único ano? É impossível imaginar alguma
estratégia de Marketing de Relacionamento sem contemplar a área de Tecnologia
da Informação.

Somente com o uso da Tecnologia é possível armazenar, recuperar, processar,


comunicar e analisar os dados dos seus clientes. Ter um banco de dados com as
informações dos clientes é condição primordial para o desenvolvimento de uma
estratégia de Marketing de Relacionamento.

Este banco de dados, criado para armazenar as informações sobre os seus


consumidores, é chamado de Database Marketing (DBM).

O Database Marketing é uma ferramenta para utilização das informações internas


e externas para filtrar o mercado alvo, desenvolver o planejamento de vendas
inteligentes e mensagens de promoções e de marketing que sejam relevantes.

FONTE: Disponível em: <http://www.benic.com.br/marketing-digital/blog/o-que-e-database-marketing>. Acesso em: 24 dez.


2012.

4 NOVOS CONCEITOS

Esta última seção da Unidade 1 tem como objetivo apenas introduzir alguns novos
conceitos existentes no mercado. Entenda que estamos tratando de novas
tecnologias e que muitas delas ainda não chegaram ao seu ápice de
desenvolvimento e utilização. Isso pode significar que poderão sofrer alterações
quando a sua definição e aplicação durante este período de amadurecimento.

Trataremos apenas de dois novos conceitos: Big Data e NoSQL. Vamos focar
apenas no paradigma das tecnologias, passando de forma superficial por questões
técnicas de implementação.
4.1 BIG DATA
menu Unidade 1
- Tópico 3 settings
Muito tem se falado sobre essa nova tecnologia. Ela visa atender basicamente ao
gerenciamento de grandes volumes de dados. Imagine a quantidade de dados
gerados por tweets no mundo inteiro. Agora pense no seguinte: esses dados
podem revelar muitas coisas a respeito de um determinado cenário. Através da
análise deles é possível, de certa forma, medir o nível de felicidade de uma
determinada população, a satisfação das pessoas em relação a determinado
produto comercializado por alguma empresa, entre várias outras situações.

Várias empresas já utilizam o conceito de Big Data em seus negócios. A figura a


seguir dá uma visão geral do conceito.

FIGURA 28 – CENÁRIO ATUAL DO BIG DATA

FONTE: Disponível em: <http://oglobo.globo.com/infograficos/bigdata/>. Acesso em: 27 jan. 2013.

Um texto publicado na Info Abril:


<http://info.abril.com.br/noticias/computacao-

inteligente/aplicativo-de-big-data-e-tendencia-nas-corporacoes-diz-
especialista-07012013-20.

shl>, destaca a tendência de utilização do Big Data nas empresas.

APLICATIVO DE BIG DATA É TENDÊNCIA NAS CORPORAÇÕES, DIZ ESPECIALISTA


São Paulo – Uma pesquisa da IBM mostra que 90% de todos os dados divulgados
menu na internet surgiram nos últimosUnidade 1
- Tópico
dois anos. 3
Além disso, as corporações de settings
diferentes áreas digitalizam e compartilham documentos na web diariamente.

Segundo Ederson Riechelmann, diretor de outsourcing da Unione, é necessário


usar aplicativos de Big Data (BDA) para organizar e usar todos estes dados. Ainda
de acordo com o especialista, o uso destes apps é certamente uma tendência nas
corporações.

As áreas que possuem urgência em usar estes apps são a comercial e de


marketing. É possível, por exemplo, usar esta tecnologia para cruzar os dados e
descobrir a rotina e os gastos mensais de um cliente e personalizar anúncios
direcionados a ele.

Riechelmann explica que a área de segurança também é influenciada


positivamente pelo avanço no mercado de aplicativos de Big Data.

Seria inviável comercializar estes apps sem uma forte barreira contra crackers e
hackers. O especialista afirma que os todos esses resultados em usar estas
aplicações (BDA) serão notados em curto prazo.

FONTE: Disponível em: <http://info.abril.com.br/noticias/computacao-inteligente/aplicativo-de-big-data-e-tendencia-nas-


corporacoes-diz-especialista-07012013-20.shl>. Acesso em: 27 jan. 2013

Como acontece com qualquer nova tecnologia, o mercado de trabalho carece de


profissionais para trabalhar com Big Data. Existe bastante material informativo na
internet, porém boa parte está disponível em inglês. O site
<BigDataUniversity.com> oferece cursos online e gratuitos sobre Big Data e pode
ser uma boa opção para quem domina a língua.

4.2 NOSQL

NoSQL é uma classe de bancos de dados que tem como principal destaque o
rompimento com o paradigma relacional, predominante durante vários anos no
mercado de TI. Ele representa vários bancos de dados que não são relacionais e
utilizam outras formas de organização, visando armazenamento e processamento
de dados complexos.

O texto disponível no site <http://imasters.com.br/artigo/17043/banco-de-


dados/nosql-voce-realmente-sabe-do-que-estamos-falando/> esclarece de
forma mais aprofundada o que é NoSQL.

O termo NoSQL foi usado pela primeira vez em 1998, como o nome de um banco
de dados relacional de código aberto que não possuía um interface SQL. Seu autor,
Carlo Strozzi, alega que o movimento NoSQL “é completamente distinto do modelo
relacional e, portanto, deveria ser mais apropriadamente chamado ‘NoREL’ ou algo
que produzisse o mesmo efeito”. Porém, o termo só voltou a ser assunto em 2009,
por um funcionário do Rackspace, Eric

Evans, quando Johan Oskarsson, da Last.fm, queria organizar um evento para


discutir bancos de dados open source distribuídos. 
NoSQL são diferentes sistemas de armazenamento que vieram para suprir
menu necessidades em demandas onde Unidade 1
- Tópico
os bancos 3 tradicionais (relacionais) são
de dados settings
ineficazes. Muitas dessas bases apresentam características muito interessantes
como alta performance, escalabilidade, replicação, suporte a dados estruturados e
subcolunas.

O NoSQL surgiu da necessidade de uma performance superior e de uma alta


escalabilidade. Os atuais bancos de dados relacionais são muito restritos a isso,
sendo necessária a distribuição vertical de servidores, ou seja, quanto mais dados,
mais memória e mais disco um servidor precisa. O NoSQL tem uma grande
facilidade na distribuição horizontal, ou seja, mais dados, mais servidores, não
necessariamente de alta performance. Um grande utilizador desse conceito é o
Google, que usa computadores de pequeno e médio porte para a distribuição dos
dados; essa forma de utilização é muito mais eficiente e econômica. Além disso, os

bancos de dados NoSQL são muito tolerantes a erros.

No caso dos bancos NoSQL, toda a informação necessária estará agrupada no


mesmo registro, ou seja, em vez de você ter o relacionamento entre várias tabelas
para formar uma informação, ela estará em sua totalidade no mesmo registro.

FONTE: Disponível em: <http://imasters.com.br/artigo/17043/banco-de-dados/nosql-voce-realmente-sabe-do-que-estamos-


falando/>. Acesso em: 27 jan. 2013.

De certa forma, pode-se dizer que bancos de dados que pertencem ao paradigma
NoSQL trabalham com o conceito de Big Data visto anteriormente. Exemplos de
bancos NoSQL:  Berkeley DB, MemcacheDB, Cassandra (Apache), MongoDB,
InfoGrid e Vertica.

LEITURA COMPLEMENTAR

DATA WAREHOUSE OU DATA MART? PROJETANDO BI

Tiago Curcio

As organizações que almejam alta competitividade no mercado não questionam a


importância do Business Intelligence. A grande questão que se coloca é por onde e
como começar. Os analistas de mercado têm uma resposta que pode parecer
simplista, mas verdadeira: o tamanho do sapato deve ser o do tamanho do pé. Em
outros termos, empresas pequenas ou com pouca cultura tecnológica podem
começar usando algumas ferramentas de análise mais simples, como o EIS –
Executive Information Systems, que são amigáveis e fornecem informações
gerenciais de forma rápida e eficiente. Outra opção são as DSS – Decision Support
Systems, sistemas de apoio à decisão que surgiram a partir dos sistemas
transacionais e utilizam modelos para solucionar problemas não estruturados. São
ferramentas que podem auxiliar as empresas a se familiarizar com os conceitos e
tecnologias relativas ao BI, e evoluir nesse sentido aos poucos.

O fundamental é entender que os dados precisam ser estruturados de forma


diferente do que ocorre nos sistemas transacionais. Por isso, os especialistas no
assunto ressaltam que um dos principais pilares do BI é o Data Warehouse (DW).
Como bem define William (Bill) Inmon, considerado o pai do DW, esse repositório
nada mais é do que um banco de dados orientado por assuntos, não volátil (os
dados não podem sofrer modificações) e integrado. No DW há apenas a carga dos
dados e a consulta. Não há atualizações. Variável com o tempo é outra
característica inerente ao DW. Isso significa que sempre será retratada uma
situação num determinado ponto do tempo. É como se pegássemos uma foto de
menu uma pessoa com um ano de idade Unidade 1
-foto,
e outra Tópico 3 mesma pessoa, aos 10 anos
dessa settings
de idade, para então fazer uma comparação e verificar as modificações ocorridas.
No DW os assuntos são guardados em determinados pontos no tempo, o que
permite uma análise histórica e comparativa dos fatos. Os dados podem ser
retirados de múltiplos sistemas de computação utilizados internamente na
empresa, ou também podem vir de fontes externas. Em resumo, um DW pode ser
definido como um conjunto de técnicas e de bancos de dados integrados,
projetados para suportar as funções dos Sistemas de Apoio à Decisão, onde cada
unidade de dados está relacionada a um determinado assunto ou fato. Sua meta é
fornecer subsídios e informações aos gerentes e diretores, para que assim possam
analisar tendências históricas de seus clientes e, com isso, melhorarem os
processos e agilizarem as tomadas de ações.

O maior problema do Data Warehouse é a sua grande complexidade. Sua criação


requer pessoas altamente especializadas, uma metodologia consistente,
computadores, banco de dados, ferramentas de front-end (sistemas transacionais
– para captura dos dados), ferramentas para extração e limpeza dos dados, e
treinamento dos usuários. É um processo complicado e demorado, que requer
altos investimentos e que se não for corretamente planejado e executado, pode
trazer prejuízos enormes e se tornar um grande elefante branco dentro da
organização.

Uma forma de minimizar os riscos seria começar com o desenvolvimento de Data


Marts departamentais e, numa fase posterior, integrá-los transformando-os num
Data Warehouse.

Em termos conceituais, pode-se afirmar que um Data Mart é um mini Data


Warehouse que fornece suporte à decisão para um pequeno grupo de pessoas –
como aos profissionais da área de marketing, ou de vendas, por exemplo. O tempo
de desenvolvimento e implementação, assim como os investimentos necessários,
também são bem menores, em comparação ao DW. Segundo estimativas,
enquanto um Data Mart custa em torno de US$ 100 mil a US$ 1 milhão e leva cerca
de 20 dias para ficar pronto, um DW integral começa a partir de US$ 2 milhões e
demora no mínimo um ano para estar consolidado. Mas são valores apenas
estimados, uma vez que não existe um projeto padrão que serve para todas as
empresas indistintamente. O montante aplicado depende de cada caso.

De acordo com alguns especialistas no assunto, as diferenças existentes entre um


Data Mart e um Data Warehouse são apenas com relação ao tamanho do projeto e
ao escopo da empresa. Portanto, as definições dos problemas e os requisitos dos
dados são essencialmente os mesmos para ambos. No entanto, um Data Mart
trata das questões departamentais ou locais (de um departamento específico),
enquanto um DW envolve as necessidades de toda a companhia de forma que o
suporte à decisão atue em todos os níveis da organização.

Ralph Kimball, consultor norte-americano e considerado um dos mais influentes


gurus do Business Intelligence, discorda dessa definição e argumenta que os Data
Marts não devem ser departamentais, mas, sim, orientados aos dados ou a fontes
de dados. Ele exemplifica o caso de uma instituição bancária que dispõe de uma
fonte de dados de contas correntes e poupança. Nesse caso deveria ser criado um
Data Mart de Contas, que não será um Data Mart proprietário da área financeira, e
nem da área de marketing, mas sim um repositório de dados que terá como
público todos os usuários de todos os departamentos que lidam com aquele
assunto.
Ralph Kimball é um defensor da teoria de que o DW deve ser dividido para depois
menu ser conquistado, ou seja, que oUnidade 1
- para
mais viável Tópico
as 3empresas é desenvolver vários settings
Data Marts para posteriormente integrá-los e, assim, chegar-se ao DW. Na sua
avaliação, as empresas devem construir Data Marts orientados por assuntos. Ao
final, teriam uma série de pontos de conexão entre eles, que seriam as tabelas
Fato e Dimensão em conformidade. Dessa forma, informações entre os diferentes
Data Marts poderiam ser geradas de maneira íntegra e segura. Kimball batizou
esse conceito de Data Warehouse Bus Architeture.

Bill Inmon rebate essa teoria e propõe justamente o contrário. Na sua avaliação
deve-se construir primeiro um Data Warehouse, modelando-se toda a empresa
para se chegar a um único modelo corporativo, partindo-se posteriormente para
os Data Marts construídos por assuntos ou departamentais. Inmon defende a ideia
de que o ponto de partida seriam os CIF – Corporate Information Factory – uma
infraestrutura ideal para ambientar os dados da empresa. O CIF seria alimentado
pelos sistemas transacionais. A construção de um ODS (Operational Data Store)
seria facultativa, mas essa iniciativa ajudaria a reduzir a complexidade da
construção de um DW, uma vez que todo o esforço de integração entre os
sistemas transacionais da empresa seria depositado nele.

Uma vez que todos os dados estivessem integrados no DW, se partiria para os
Data Marts que iriam atender aos diversos departamentos da empresa, gerando
dados íntegros e corporativos. Inmon condena o processo inverso porque, na sua
concepção, a construção de Data Marts atendendo a requisitos departamentais
seria delineada a partir de regras específicas de negócios e de procedimentos de
Extração, Transformação e Carga (ETL) dos dados oriundos dos sistemas
transacionais. A visão corporativa da empresa seria relegada a segundo plano e as
necessidades imediatas dos departamentos prevaleceriam. Além disso, essa
iniciativa poderia gerar outros problemas, como a redundância de dados em
diversos sistemas, o consumo exagerado de recursos de produção, e a formação
de um verdadeiro caos informacional, na medida em que os dados dispostos nos
diferentes Data Marts não poderiam ser integrados.

Qual deles está certo: Inmon ou Kimball? Ambos ou nenhum? Cabe a cada
empresa analisar qual das duas abordagens mais se aplica às suas necessidades
reais e ao seu bolso. No que ambos os gurus concordam é que uma empresa sem
autoconhecimento e sem ter uma visão corporativa de seu negócio, nunca terá um
sistema eficiente para auxiliá-la na tomada de decisão.

FONTE: Disponível em: <http://www.tiagocurcio.com/data-warehouse-ou-data-mart-2/>. Acesso em: 27 jan. 2013.   

RESUMO DO TÓPICO

Neste tópico, você viu que:

• Existem vários tipos de bancos de dados. Alguns exemplos são: bancos de dados
de informações geográficas, multimídia, temporal, biológicos e XML.

• Data Mining é um processo de mineração de dados que visa construir um Data


Warehouse. Data Warehouse é uma espécie de centralização dos dados da
empresa com foco em apoio à tomada de decisão.
• Data Mart é um tipo de organização de dados com um fim bem específico e
menu Unidade
definido. Também visa dar apoio 1
- de
a tomada Tópico 3 e normalmente se encontra
decisão settings
dentro de uma organização de Data WareHouse.

• Big Data e NoSQL são novas tecnologias que visam à armazenamento e


manipulação de grande quantidade de dados.

AUTOATIVIDADES

UNIDADE 1 -  TÓPICO 3

1 De acordo com o conteúdo estudado no neste tópico, defina por que é


importante a busca por semelhança em bancos de dados multimídia.

Responder

2 Quais são os objetos que um banco de dados de informações geográficas pode


armazenar? 

Responder
menu Unidade 1
- Tópico 3 settings
3 Com base no conteúdo apresentado no Caderno de Estudos defina o que é um
processo de Data Mining.

Responder

4 Qual é a diferença entre Data Warehouse e Data Mart?

Responder

5 Defina o que é o novo paradigma de bancos de dados denominado Big Data?

Responder
menu Unidade 1
- Tópico 3 settings

chevron_leftTópico 2 expand_less Unidade 2chevron_right

Conteúdo escrito por:

Todos os direitos reservados © Prof. Décio Lehmkuhl


Prof. Djayson Roberto Eger

Você também pode gostar