Escolar Documentos
Profissional Documentos
Cultura Documentos
MODELAGEM E ARQUITETURA
DO DW (DATA WAREHOUSE)
© 2019 por Editora e Distribuidora Educacional S.A.
Todos os direitos reservados. Nenhuma parte desta publicação poderá ser
reproduzida ou transmitida de qualquer modo ou por qualquer outro meio,
eletrônico ou mecânico, incluindo fotocópia, gravação ou qualquer outro tipo de
sistema de armazenamento e transmissão de informação, sem prévia autorização,
por escrito, da Editora e Distribuidora Educacional S.A.
Presidente
Rodrigo Galindo
Conselho Acadêmico
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Giani Vendramel de Oliveira
Juliana Caramigo Gennarini
Nirse Ruscheinsky Breternitz
Priscila Pereira Silva
Tayra Carolina Nascimento Aleixo
Coordenador
Nirse Ruscheinsky Breternitz
Revisor
Renata Maria Silva Costa
Wendel Brustolin
Editorial
Alessandra Cristina Fahl
Beatriz Meloni Montefusco
Daniella Fernandes Haruze Manta
Hâmila Samai Franco dos Santos
Mariana de Campos Barroso
Paola Andressa Machado Leal
ISBN 978-85-522-1536-3
CDD 000
Thamiris Mantovani CRB: 8/9491
2019
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
MODELAGEM E ARQUITETURA DO DW (DATA WAREHOUSE)
SUMÁRIO
Apresentação da disciplina.......................................................................................04
Data Marts....................................................................................................................57
3
Apresentação da disciplina
4
Banco de Dados Transacionais
versus Bancos de Dados Analíticos
Autora: Marise Miranda
Objetivos
6
Os dados podem estar localizados no mesmo computador que o
programa ou em outro computador em algum lugar da rede. O conjunto
de dados provenientes de diversas fontes deve ser modelado em
uma certa estrutura para que possa ser armazenado, manipulado e
recuperado. A necessidade de estruturar esse conjunto em um modelo
de dados serve para explicar suas características de funcionamento e
comportamento.
• Modelo relacional.
• Modelo de rede.
• Modelo de BD NoSQL.
7
Figura 1 – Modelo genérico de diagrama de banco de dados
8
velocidade, redução de custos, usabilidade, entre outras características
intrínsecas. Ao escolher um modelo, este deve refletir o ambiente
observado em que os dados são gerados, servindo para especificar
relacionamentos, documentar e normalizar os dados.
Esse modelo foi usado em SGBD das décadas de 1960 e 1970, sendo
mantido atualmente apenas em poucos sistemas legados (sistemas
informacionais ou gerenciais existentes na empresa, que podem
ser antigos ou recentes). Hoje em desuso por conta de ineficiências
operacionais, é apenas explorado nesse contexto para acrescentar um
timeline sobre a evolução dos modelos.
9
1.3 Modelo relacional
Cod_convenio Convenio
123456 Maria
123457 Rosa
123458 Albeto
10
paciente. Esse modelo reflete os tipos de relacionamentos entre essas
tabelas, incluindo relacionamentos um para um, um para muitos e
muitos para muitos. Isso significa que a chave primária de uma tabela
está relacionada com a chave estrangeria em outra tabela, formando um
relacionamento entre tabelas. Um exemplo é a escola que tem várias
turmas, estando um relacionamento de uma escola relacionado com
várias turmas. Um aluno pertence somente a uma turma (um para um),
e alunos cursam disciplinas (N para N).
11
Figura 4 – Modelo de rede em banco de dados
Vendedor
Transacoes_Vendas
12
Os dados armazenados em tabelas, como nomes, locais, produto etc.,
são denominados de entidades, e cada uma possui certos atributos,
que, quando juntos, formam seu domínio. A entidade pessoa possui
dados armazenados com o nome de pessoas, por exemplo. A entidade
endereço tem que ter o local onde a pessoa mora, a rua, o número,
o CEP, o bairro, a cidade, o Estado e o país. A cardinalidade, ou
relacionamentos entre entidades, também pode e deve ser mapeada,
por exemplo, se a entidade pessoa possui mais de um local, residência
ou trabalho.
Figura 5 – MER
Tbl_produto Tbl_categoria
13
Figura 6 – Modelo Estrela
Dimensão 1
Dimensão 4 Dimensão 5
14
se mantém preservado, e as métricas e visões são construídas em um
modelo estrela, de múltiplas dimensões.
15
É muito comum encontrar as siglas como referência ao tipo de banco,
se transacional ou analítico. O OLTP refere-se ao banco transacional, a
base de dados original, cujo acesso deve ser preservado e restrito. Já
quando se trata das análises, das métricas, das visões e das dimensões,
o modelo deve ser projetado para ser consumido em ferramentas
analíticas, dashboards, gráficos e relatórios, nesse caso, o OLAP.
A obtenção de dados de outras fontes que não são modelos SQL surgiu
em contraste ao modelo relacional, como um modelo de banco de dados
semiestruturados e não estruturados, chamados de NoSQL. Além desse,
dados provenientes da web, na qual várias consultas são realizadas, são
semiestruturados, o que significa que há algum nível de organização,
diferentemente da alta organização dos dados estruturados em um BD
relacional.
16
embora muitas vezes se tornem ambientes analíticos, pelo fato de já
estarem em funcionamento como bancos de dados, em produção, ou
seja, estão prontos para serem consumidos pelos usuários.
17
Quadro 1 – Propriedades ACID – Banco de Dados Transacional
Propriedades Descrição
Se mesmo uma parte da transação falhar, toda a
transação falhará. Dessa forma, todas as transações
Atomicidade
devem ser 100% bem-sucedidas para serem
confirmadas com êxito no banco de dados.
Uma transação é gravada no banco de
Consistência dados (trazendo-o de um estado válido para
outro) ou a transação é revertida.
As transações que ainda não foram
Isolamento concluídas não podem ser processadas/
modificadas por outras transações.
Depois que uma transação é gravada no banco
Durabilidade de dados, ela permanecerá lá, mesmo no
caso de uma falha no banco de dados.
2.2 Latência
18
Consistência Coerência forte, garantia de ACID
Integridade Alta integridade
Usa transações SIM
Atualizável SIM
Escalável SIM
Carga de trabalho Gravações intensas, leituras moderadas
Indexação Índices primários e secundários
Tamanho do dado De pequeno a médio
Modelo Relacional
Flexibilidade de consulta Altamente flexível
Escalabilidade Pequeno (MBs) a grande (alguns TBs) (*)
(*) MBs – MegaBytes; TBs – TeraBytes.
19
PARA SABER MAIS
Data Mart (DM): representa um subconjunto de dados do DW,
em geral por assunto ou departamento (MACHADO, 2011).
Schema: um esquema de BD representa a configuração
lógica da totalidade ou de alguma parte da base de dados
relacional. Existem dois esquemas principais em BD. Um é
o esquema de BD lógico, que contempla restrições lógicas,
como integridade, exibições e tabelas, aplicadas aos dados
armazenados. Já um esquema de BD físico define como
os dados são armazenados fisicamente no servidor de
armazenamento, em termos de arquivos e índices.
20
A vantagem do processamento orientado por colunas é que os
cálculos em colunas individuais são muito rápidos. Por exemplo, para
realizar uma consulta ao banco de dados para determinar o maior
salário mensal – máximo (salário) – entre todos os funcionários, só é
necessário procurar a coluna salário. Nesse caso, apenas um bloco
deve ser carregado por um acesso ao disco rígido.
ASSIMILE
Redshift: está disponível na Amazon Web Services (AWS)
e é um serviço de armazenamento de dados em escala
21
de petabytes totalmente gerenciado na nuvem. Um Data
Warehouse do Amazon Redshift é um conjunto de recursos
de computação chamado de nós, que são organizados
em um grupo chamado de cluster. Cada cluster executa
um mecanismo do Amazon Redshift e contém um ou mais
bancos de dados.
Essa ação de depósito gera uma transação, que tem como foco
descrever as transações. Esse depósito gera uma transação que tem um
determinado valor, uma origem, um destino, um determinado tempo,
entre outras informações. Essas ações são processadas por um sistema
que dará a garantia de integridade dos dados, uma ordem temporal
em cada movimento contido na ação do depósito. Por esse motivo, um
dos principais requisitos dos sistemas transacionais é a performance/
desempenho, ou seja, é necessário que a transação ocorra no momento
em que foi requerida, como um sistema em tempo real.
22
atividade de análise sobre esses dados, do banco analítico, em geral ocorre
em modo off-line, quando se englobam os dados transacionais, agrupados,
sumarizados ou amostrados para responder às indagações feitas pelos
analistas da empresa ou de negócios.
23
Existem questões de relevância quando ocorre uma tentativa
reducionista de comparar um banco de dados transacional e um
banco analítico. Nesse contexto, vale ressaltar que a comparação
serve como apoio para a tomada de decisão. Por exemplo como fazer
um projeto inicial de DW para BI partindo de um modelo elementar
de um banco de dados existente na organização? O projeto de um DW
para BI pode ser concebido de diferentes maneiras. Queries analíticas
podem rodar na aplicação front end, tirando o processamento do
banco de dados.
24
4. Considerações finais
TEORIA EM PRÁTICA
Criar um dataset para análises é uma tarefa complexa.
Suponha que você tenha que criar um dataset pelo Excel
relativo ao desempenho de uma cafeteria. São vendidos em
média 200 cafés diariamente. A cafeteria abre de domingo
a domingo, das 7 horas da manhã até às 20 horas. Além do
tradicional café, vende também água, chá e leite, além de
pão de queijo, pão com manteiga e brigadeiro. A média de
vendas de todos as bebidas, com exceção do café, é de R$
77,00 diariamente, enquanto a média diária de vendas dos
produtos alimentícios fica em R$ 65,00.
Você poderá elaborar um dataset simulando as vendas
dos itens descritos. Leve em consideração o desempenho
de um mês dessa cafeteria. Descrimine o banco de dados
para uma abordagem baseada em cáculos de maneira que
as análises dos dados sejam realizadas pelo usuário. Por
exemplo, simule um dataset com os dados preenchidos
na tabela, como data, hora, produto, tipo de produto,
quantidade, número do pedido e ID do pedido. A simulação
precisa ter regras estabelecidas nesse contexto, então pode-
25
se vislumbrar um cenário em dez anos de vendas de café.
Por exemplo, houve uma variação de 16%; o preço do café
foi de R$1,00, há dez anos, para R$ 4,40. A contabilização
desses 10 anos resultou em 720.000 cafés vendidos,
aproximadamente. Tabule os dados e crie conceito de
perspectiva analítica, a partir do modelo:
ID_pedido Data Hora Produto Tipo de produto Qte. Nº pedido Preço unitário Preço total
1 14/01/2019 07:23 bebida café expresso 2 321 R$4,40 R$8,80
2 14/01/2019 07:25 bebida médio 1 322 R$5,40 R$9,40
comida pão de queijo 1 322 R$4,00
3 14/01/2019 07:27 comida pão manteiga 1 323 R$2,50 R$2,50
4
5
6
Etc. Etc. Etc. Etc. Etc. Etc. Etc. Etc. Etc.
VERIFICAÇÃO DE LEITURA
26
b. Um banco de dados transacional deve preservar
as tabelas fato dos dados e, portanto, não é
recomendável utilizá-lo para análises.
c. Um banco de dados transacional deve preservar as
visões dos datasets e, portanto, não é recomendável
utilizá-lo para análises.
d. Um banco de dados transacional deve preservar a
tecnologia de processamento dos dados e, portanto,
não é recomendável utilizá-lo para análises.
e. Um banco de dados transacional deve preservar o
fluxo dos dados e, portanto, não é recomendável
utilizá-lo para análises.
27
a. Matricial.
b. Colunar.
c. Em linha.
d. Tabular.
e. 1ª coluna e 1ª linha da tabela.
Referências Bibliográficas
INMON, W. H. Building the Data Warehouse. 4. ed. New York: Wiley Computer
Publishing, 2005.
KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem
dimensional. Rio de Janeiro: Campus, 2002.
MACHADO, F. N. Tecnologia e Projeto de Data Warehouse: uma visão
multidimensional. São Paulo: Érica, 2011.
MYSQL. MySQL 5.6 Reference Manual. 14.2 InnoDB and the ACID Model. [s.d.].
Disponível em: https://dev.mysql.com/doc/refman/5.6/en/mysql-acid.html. Acesso
em: 7 abr. 2019.
RASLAN, D. A.; CALAZANS, Angélica T. S. Data Warehouse: conceitos e aplicações.
2014. Disponível em: https://www.publicacoesacademicas.uniceub.br/gti/article/
viewFile/2612/2400. Acesso em: 23 mar. 2019.
Gabarito
Questão 1 - Resposta A
Resolução: A arquitetura dos bancos de dados transacionais é
compatível com a ACID, o que garante que as gravações no banco
de dados sejam bem-sucedidas ou falhem juntas, mantendo um
alto nível de integridade dos dados ao gravá-los dados no banco
de dados. Os bancos transacionais são, portanto, essenciais para
transações comerciais em que um alto nível de integridade de
dados é necessário.
28
Como exemplo, temos uma transação bancária, com débito de
uma conta-corrente e crédito para outra conta-corrente, devendo a
arquitetura garantir o sucesso ou a falha na transação.
Questão 2 - Resposta D
Resolução:
Quadro 3 – Comparação geral entre BD analítico e BD
transacional
Característica Analítico Transacional
Caso de uso Analisa grandes Processa grandes
volumes de dados para volumes de transações
análise de negócios. em tempo real.
Objetivo da otimização Insere rapidamente e Inserções, atualizações,
seleciona um grande seleções e exclusões
número de linhas. em tempo real em
menos linhas.
Consultas Especializadas e Amplas e genéricas.
personalizadas.
Consulta de tempos Segundos para uma Milissegundos para uma
de resposta consulta analítica. consulta transacional.
Bancos de dados Vertica, Redshift, MySQL, PostgreSQL,
de exemplo Greenplum, Microsoft SQL Server.
Teradata, ParAccel.
Fonte: elaborado pela autora.
Questão 3 - Resposta B
Resolução: Técnica do armazenamento de dados colunar. Um
banco de dados analítico tem uma estrutura baseada em coluna,
sendo cada coluna de dados armazenada em seu próprio arquivo
e organizada geralmente em esquema estrela. Esse design torna o
banco analítico altamente flexível, o que facilita a operação em um
29
grande conjunto de pontos de dados em uma determinada coluna
com muita rapidez. Bancos de dados transacionais dependem de
armazenamento de dados baseado em linha. Eles são ótimos para
operar rapidamente em uma única linha, mas um design baseado
em linha não pode ser dimensionado para lidar com grandes
volumes de dados da mesma maneira que um design colunar.
30
Conceitos básicos sobre
Data Warehouse
Autora: Marise Miranda
Objetivos
• Descrever as características de
construção de um DW.
32
Como os dados são relativos e descrevem um objeto de interesse, de
modo estático, a informação é algo que se acrescenta ao dado, podendo
ser um modo dinâmico. Porém, a informação não é estratificada
sistematicamente por diferentes tipos e fontes de dados; ela é a
combinação de dados e o tratamento inserido a essa combinação,
considerando sua temporalidade. Esse tratamento é a sentença
associada que gera certo conceito, conhecimento, afirmação dos dados
armazenados em tabelas e os relacionamentos entre si. Essas sentenças
são a chave de uma implementação bem-sucedida de um DW, em que
este deve permitir a criação de bases de informação para a realização
de análises.
Fonte: AndreyPopov/iStock.com.
33
Figura 2 – Status das oscilações da lucratividade
Fonte: firstpentuer/iStock.com.
34
Essa integração entre uma tecnologia que fornece milhares de dados
do relacionamento de clientes, o CRM, e uma ferramenta de análise
de dados, em uma arquitetura de DW, pode gerar a possibilidade de
conhecer características de comportamento de clientes afetados pela
economia ou mudança de negócio em um espaço de tempo pequeno –
por meio de análise dos dados do cliente com o momento econômico de
uma determinada época do ano, por exemplo. Esse cenário possibilita
gerar um estudo analítico que mostra o comportamento do cliente
explícito, quando analisado isoladamente, ou em agrupamentos de
clientes, que podem relevar por meio das análises comportamentos
favoráveis ao consumo de determinado produto.
35
2. Construção de um DW
36
proposta por Inmon (2005) justifica sua necessidade de acordo com os
motivos elencados a seguir na Figura 5.
Fonte: blackred/iStock.com.
A tecnologia para o processamento operacional é tecnicamente
diferente da tecnologia necessária em suportar informações
ou análises.
Fonte: a-image/iStock.com.
O processamento de dados operacionais tem características diferentes
de processamento analítico ou informacional.
37
As justificativas levam em consideração a finalidade de uso dos dados. A
base de dados bruta é consistente e original e necessita ser preservada.
A partir dela, uma cópia dos dados é feita com o objetivo de agregar e
sumarizar os dados necessários às análises. Os usuários que consomem
as informações das bases de dados transacionais são os que controlam
ou realizam as operações diárias. Já os usuários analíticos consomem
análises para encontrar diagnósticos estratégicos e que possam servir
de tomada de decisão. Essas são as principais razões que motivam a
separação de ambientes entre uma base de dados operacionais de uma
para análises.
O problema?
38
Figura 6 – Modelo de extração de venda do produto 2 por duas
perspectivas distintas em relação ao período
Matriz
39
Esse cenário pode remeter a análises distintas. A filial 3 só poderá
perceber seu desempenho a cada 30 dias, podendo ocorrer
variabilidades diárias nas vendas sem que a filial tome alguma ação; ao
contrário da matriz, que poderá questionar alguma tomada de decisão
da filial 3 em função das análises diárias.
40
Figura 7 – Percentual de tempo gasto em atividades
relacionadas aos dados
ASSIMILE
Estratégia de dados: aplicar conceitos estratégicos
utilizados nos negócios ou no desenvolvimento de
tecnologia não tem o mesmo resultado dos dados para
suportar a precisão, o acesso, o compartilhamento e até
a reutilização, como acontece no caso de codificação
41
em software. A estratégia de dados garante que todos
os recursos de dados estejam disponíveis para serem
utilizados, compartilhados e manejados de forma fácil e
eficiente. Assim, a estratégia de dados garante que eles
sejam consumidos como ativo dentro da organização, e
os datasets fornecem métricas e indicadores a todos os
projetos da organização.
Gerenciamento de dados: em geral envolve metadados,
gestão de dados mestre, governança, migração, integração
e qualidade de dados.
42
na criação de comparações com dados atuais e tendências futuras.
A construção prevê também a utilização de ferramentas de Sistemas
Especialistas (EIS) e Sistemas de Suporte à Decisão (DSS), as quais são
utilizadas em diferentes níveis de gestão das organizações, de acordo
com Turban (2005). A Figura 8 representa o modelo de Turban (2005) e
os sistemas de informação relacionados a cada nível organizacional.
Ambiente de
43
PARA SABER MAIS
44
1. Disponibilidade da informação para a gerência.
2. Views (visões) representadas graficamente mostrando o
comportamento.
3. Rápido tempo de resposta de ferramentes de apoio à tomada
de decisão.
4. Precisão nas informações disponibilizadas.
5. Visão de indicadores expandida.
6. Abragência de recursos para analytics.
7. Acesso às solicitações e expectativas das análises especializadas
da alta gerência supridas por meio da Tecnologia da Informação.
ASSIMILE
O objetivo do DW é disponibilizar informações para o apoio
à tomada de decisão das organizações, por meio de uma
base de dados somente leitura.
Não existe DW pronto para ser utilizado sem esforço
anterior em levantar as necessidades da organização e seus
executivos.
Construir um DW exige estudo e envolvimento da empresa
e seus colaboradores.
45
3. Composição do ambiente de Data Warehouse
46
primeiro caso, permite a consolidação de diferentes fontes nessa carga
de trabalho analítica.
47
Quadro 1 – Atribuições de um DW
Atribuição Caracterização Exemplo
a) Extração dos dados. Fontes diversas (internas e Data completa,
externas). produtos, preço.
b) Transformação Necessidade de mesclagem Normalização da data,
dos dados. ou combinação de dados, valores maiores que zero.
gerando novos dados
específicos.
c) Infraestrutura Específica para essa Servidores de serviços.
tecnológica e manutenção. finalidade.
d) Representação Visualizações gráficas, Gráfico percentual de
dos dados. tabuladas, sumarizadas desepenho de vendas.
pronta para consumo
conforme perfil
dos usuários.
e) Especialização. Dados podem ser extraídos Inclusão de filtros nas visões
ou não para níveis mais
específicos, os Data Marts, e
destes para bases de dados
individualizadas.
f) Acesso. Personalizado por meio de Usuários com níveis de
ferramentas que promovem acesso as visões.
acessos com diferentes
níveis de apresentação.
g) Não há atualização. As atualizações ou As atualizações de dados
updates não ocorrem ocorrem no banco
diretamente no DW. transacional e deste uma
cópia é carregada para o
banco do DW.
48
carregados para o DW. Em geral, ficam em uma área chamada stage,
um banco estacionário de espera da carga. Para ilustrar, a Figura 9
representa um esquema de fluxo que antecede a entrada de dados em
um banco DW e a saída deste com resultados prontos para consumo.
Fonte: vaeenma/iStock.com.
49
O DW da Figura 9 mostra que ele armazena dados de forma agrupada
ou por assunto, dados do CRM, dados do ERP e dados da supply chain. Os
bancos de dados transacionais são orientados por processo, enquanto o
DW é orientado por assunto. Assim, seu armazenamento é, na realidade,
uma transformação dos dados operacionais e das transações do dia
a dia da organização, com algum tipo de valor agregado por meio de
sumarizações, contagens, filtragens, agregações, correlações etc.
50
Figura 10 – Entrada e saída do ambiente de DW
51
Quadro 2 – Características da visão macro de um projeto DW
Características Detalhamento
Orientação • Agrupamento por assuntos de interesse.
por assunto. • Indicadores analíticos e desempenho.
Variação de tempo. • Datas são componentes chave.
• Janelas de tempo.
• Alta temporalidade.
Volatividade. • Carga incial e incremental.
• Acesso em modo leitura (read).
Integração. • Padronização dos dados.
• Filtragem, amostra, agregação.
Arquitetura. • Ferramentas de carga inicial e atualizações
periódicas.
• Ferramentas de limpeza dos dados.
• Ferramentas de consultas.
• Data Marts.
Papeis. • Recursos Humanos.
Centralização de • BI.
competências.
Fonte: adaptado de Machado (2011, p. 29-31).
52
4. Considerações finais
TEORIA EM PRÁTICA
A empresa Fisioampla é especailizada em serviços de saúde
de fisioterapia e possui filiais em diversos locais do País. Ela
tem cadastrados cerca de 1.200.000 clientes que utilizam
os serviços especilizados de fisioterapia na matriz e em 30
filiais. Além dos serviços, presta consultas especilizadas
para reabilitação de acidentados, pessoas com mobilidade
reduzida e idosos. Cada clínica possui um amplo sistema de
reabilitação e atendimento com fisioterapeutas associados.
Há consultas clínicas que, além de recomendarem as
sessões de fisiterapia, recomendam o uso de produtos que
vão auxiliar na reabilitação ou na redução dos problemas
relacionados.
Para extrair valor dos seus dados, a Fisioampla contratou
você para estruturar um projeto de DW. Analise o
cenário e proponha uma arquitetura para que a empresa
53
tenha ideia de como os seus dados serão utilizados.
Também faça simulações de quais análises poderiam ser
alcançadas com visualizações analíticas que surgiriam do
uso dessa arquitetura. Você pode listar alguns exemplos
de visualizações em relação à dimensão tempo, como:
Que tipo de paciente é atendido nos quatro trimestres do
ano? Qual tipo de fisoterapia é mais solicitada e em qual
época do ano? Elenque mais oito questões associadas
com a dimensão tempo que poderiam ser de interesse da
Fisioampla.
VERIFICAÇÃO DE LEITURA
54
a. As consultas ao banco de dados.
b. A estratégia de dados.
c. As análises e relatórios.
d. A qualidade dos dados.
e. A existência de um DW.
Referências Bibliográficas
INMON, W. H. Building the Data Warehouse. 4. ed. New York: Wiley Computer
Publishing, 2005.
KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem
dimensional. Rio de Janeiro: Campus, 2002.
MACHADO, F. N. R. Tecnologia e Projeto de Data Warehouse. 5. ed. São Paulo,
Editora Érica, 2011.
TURBAN, E. Administração de tecnologia da Informação. Editora Campus, 2005.
Gabarito
Questão 1 - Resposta A
Resolução: Com o objetivo de ampliar o entendimento acerca da
necessidade de separar contextos de construção de ambientes
para banco de dados, Inmon (2005) destaca as diferenças, entre
55
os dados operacionais e os dados analíticos. Essa diferença é
decorrente na evolução de sistema de suporte a decisão e a
inabilidade dos bancos de dados operacionais fornecerem
insumos para esse fim.
Questão 2 - Resposta B
Resolução: A estratégia de dados garante que todos os
recursos de dados estejam disponíveis para serem utilizados,
compartilhados e manejados de forma fácil e eficiente e que
sejam consumidos como ativo dentro da organização. Os data
sets fornecem métricas e indicadores a todos os projetos da
organização.
Questão 3 - Resposta C
Resolução: Na conceituação dada por Inmonn (2005), o DW
é uma coleção orientada por assuntos, integrada, variante no
tempo e não volátil, para apoiar o processo de tomada de decisão
das organizações. Na definição de Kimball (2002), ele é a cópia
específica de tabelas do banco transacional para consultas e
análises, criando visões funcionais. Um projeto de construção de
um DW depende fundamentalmente de arquitetura, e, por isso,
Machado (2010) deixa claro que o “DW é uma arquitetura e não
uma tecnologia”, pois a tecnologia, sim, ajuda a construir, operar e
monitorar um projeto DW implantado.
56
Data Marts
Autora: Iolanda Cláudia Sanches Catarino
Objetivos
58
modificações durante o seu acesso. Apenas novas cargas com dados
atuais são inseridas, a partir de critérios previamente estabelecidos,
permitindo, assim, o seu acesso por meio de ferramentas front-end e/ou
aplicativos.
59
que os usuários executavam extensivas operações de análise de dados
sobre um subconjunto do DW completo, repetindo com frequência as
mesmas operações sobre o mesmo subconjunto de dados. Dessa forma,
a ideia de construir um espaço de armazenamento limitado, adaptado
à finalidade imediata, extraindo e preparando os dados exigidos
diretamente de fontes locais, assim como fornecendo acesso mais
rápido aos dados, levou ao conceito de Data Marts.
60
Um subconjunto de um Data Warehouse, no qual uma porção resumida ou
altamente focalizada dos dados da organização é colocada em um banco
separado destinado a uma população específica de usuários (LAUDON;
LAUDON, 2014, p. 194)
61
c. Apoiam as necessidades e o controle local de grupos de usuários
por níveis funcionais.
d. Fornecem uma resposta mais rápida aos grupos de usuários.
e. Disponibilizam consultas mais fáceis de serem analisadas e
navegadas.
62
estágio intermediário de preparação, sincronização e integração dos
dados. Ferramentas de Extraction, Transformation and Load (ETL) são
responsáveis pela extração, transformação e carregamento dos dados
no DW. Durante esse estágio, eles permanecem em uma área de
armazenamento intermediária entre as bases de dados operacionais
e o DW para realização das ações de limpeza e integração dos dados.
Essa área de armazenamento intermediária é conhecida como Staging
Area, Data Staging ou Operational Data Store (ODS – Depósito de Dados
Operacionais).
63
Figura 3 – Processo de ETL com Staging Area
ASSIMILE
O ambiente de processamento de dados analíticos difere
do ambiente de dados transacionais ou operacionais.
Os sistemas OLTP servem como fonte de dados para o
ambiente de DW, enquanto as ferramentas Online Analytical
Processing (OLAP – Processamento Analítico On-line)
64
auxiliam na análise dinâmica e multidimensional de dados
consolidados, permitindo que o usuário final tenha uma
visão completa das informações analiticamente.
Segundo Kimball et al. (1998), além da Staging Area, o ideal é que exista
uma segunda área intermediária, o ODS, antes da carga definitiva
para o DW. Um ODS deve ser uma base de dados obtida da extração,
transformação e limpeza de dados dos sistemas fontes operacionais da
empresa. Com um ODS, não é necessário refazer toda a extração para
corrigir eventuais problemas na transferência dos dados para o DW.
65
Figura 4 – Arquitetura de um Data Warehouse
com uma Staging Area e Data Marts
66
nos Data Marts para uso posterior, e, quando necessário, os usuários
acessam os Data Marts utilizando ferramentas de apoio à decisão.
67
apoiam os usuários no processo de tomada de decisão. Alguns fatores
interferem na escolha da arquitetura e implementação, tais como:
68
Figura 5 – Arquitetura global do tipo centralizada e distribuída
69
A arquitetura integrada de Data Marts é implementada por Data Marts
separadamente em grupos específicos ou departamentos, os quais são
integrados ou interconectados, provendo uma visão organizacional
maior dos dados e das informações (MACHADO, 2013).
70
Figura 7 – Arquitetura integrada de Data Marts
71
dados dos sistemas operativos e dos dados externos para a Staging Area
e/ou para um ODS, para, posteriormente, serem transferidos para o DW.
A partir do DW, são extraídos os dados e metadados para os Data Marts
(MACHADO, 2013).
72
Quadro 1 – Vantagens e desvantagens da implementação Top Down
Vantagens
73
A Figura 9 exemplifica a implementação bottom up, a qual se inicia de
forma incremental em cada Data Mart para a posterior composição do
DW, formando, assim, uma estrutura de múltiplos Data Marts.
74
Desvantagens
75
4. Considerações Finais
TEORIA EM PRÁTICA
76
ambiente de Data Warehouse organizacional de serviços de
inteligência artificial que agregue inteligência ao negócio
e principalmente proporcione novas funcionaliades, a fim
de garantir a customização ágil aos clientes. A partir da
definição da tecnologia emergente de inteligência artificial,
elenque as principais etapas para o projeto da nova
arquitetura do Data Warehouse organizacional e relacione
algumas nos serviços que poderão ser disponibilizados aos
usuários estratégicos e/ou clientes.
VERIFICAÇÃO DE LEITURA
a. Data Sources.
b. Data Marts.
c. Data Mining.
d. Ferramentas OLAP.
e. Staging Area.
77
2. Um Data Mart é um subconjunto lógico e físico da área
de representação de um Data Warehouse que agrupa
dados sobre um único assunto para fornecer suporte
às decisões de um grupo de pessoas específicas.
Sobre as principais características e/ou benefícios do
desenvolvimento de Data Marts, julgue os itens a seguir:
I. Apoiam as necessidades e o controle local de grupos
de usuários por níveis funcionais ou departamentos de
uma empresa.
II. Demandam menos investimento que o
desenvolvimento do Data Warehouse organizacional.
III. Podem ser implementados mais rapidamente,
fornecendo uma resposta mais rápida aos grupos
de usuários.
IV. Mantêm um depósito de dados central com níveis
de granularidade e de armazenamento bem apurados e
não são não-voláteis.
a. I – II.
b. II – III.
c. III – IV.
d. I – II – III.
e. I – II – III – IV.
78
Assinale a alternativa correta que indica a classificação
dos tipos de arquitetura de Data Warehouse e Data Marts:
Referências Bibliográficas
DATE, C. J. Introdução a sistemas de bancos de dados. 8. ed. Rio de Janeiro:
Campus, 2004.
INMON, W. H. Como construir o data warehouse. Rio de Janeiro: Campus, 1997.
KIMBALL, R. et al. The data warehouse lifecycle toolkit. New York: John Wiley &
Sons, 1998.
LAUDON, K. C.; LAUDON, J. P. Sistemas de informação gerenciais. 11. ed. São Paulo:
Pearson Prentice Hall, 2014.
MACHADO, Felipe N. Tecnologia e projeto de data warehouse. 6. ed. São Paulo:
Erica, 2013.
RAINER, R. K.; CEGIELSKI, C. G. Introdução a sistemas de informação: apoiando e
transformando negócios na era da mobilidade. 3. ed. Rio de Janeiro: Elsevier, 2011.
ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e
adminsitração. 8. ed. São Paulo: Cengage Learning, 2011.
Gabarito
Questão 1 - Resposta B.
Resolução: Na concepção de Rob e Coronel (2011), um Data Mart
é um pequeno subconjunto de um DW, sobre um único assunto,
que fornece suporte às decisões de um pequeno grupo de pessoas,
podendo ser criado a partir de dados extraídos de um DW maior,
79
com o objetivo específico de dar suporte a acessos mais rápido
para determinado grupo ou função.
Questão 2 - Resposta D.
Resolução: Os itens I, II e III estão corretos. O item IV é uma
característica do Data Warehouse, e não dos Data Marts, pois,
segundo Inmon (1997), o Data Warehouse refere-se a um conjunto
de dados baseado em assuntos, integrado, não-volátil e variável
ao longo do tempo, de apoio às decisões gerenciais. Uma das
principais características do Data Warehouse é a interação dos
dados de diversas fontes distintas, proporcionando um ambiente
estático, que não sofre modificações.
Questão 3 - Resposta E.
Resolução: A escolha da arquitetura é uma decisão que causa
impactos quanto ao sucesso do projeto, podendo afetar o tempo de
execução, o retorno do investimento, a velocidade dos benefícios
da utilização das informações, a satisfação do usuário e os recursos
necessários a sua implementação. A definição de uma arquitetura
determina o local em que o DW ou os Data Marts estarão alocados
fisicamente. Machado (2013) apresenta a seguinte classificação das
arquiteturas: global, independente e a integrada, podendo o tipo de
implementação ser top down, bottom up ou a combinada.
80
Modelagem de dados para um
Data Warehouse
Autora: Marise Miranda
Objetivos
82
vejamos a seguir um modelo que expressa as restrições relativas à
granularidade (Figura 1).
83
pelas sumarizações. O modelo mostra a diferença entre os dois
níveis, um refere-se às vendas por vendedor, e o outro à soma das
vendas no mês.
84
sumarização mensal é fácil e rápida, mas se a sumarização requer saber as
vendas relativas à semana da Páscoa, com promoções que iniciam 45 dias
antes, há a necessidade da elaboração da sumarização mais detalhada, a
cada 15 dias, obtendo três conjuntos quinzenais de dados sumarizados.
85
Figura 3 – Relatório de valor de vendas versus vendedor
86
Quadro 2 – Dados sumarizados para análises
Mês Soma_Valor
Jun/12 R$ 12.350,00
Jul/12 R$ 9.004,00
87
Para responder a esse alto nível de granularidade, foi necessário criar
sumarizações mensais que não estavam armazenadas, mas calculadas
por meio de consultas no banco de dados analítico. Vamos supor que,
na coleta de dados das 50 lojas, apenas quatro diferentes lojas tenham
os dados registrados no banco; ao analisar as tabelas fornecidas
apenas por essas quatro lojas, fica difícil concluir qual mês teve melhor
desempenho. O nível de granularidade é muito baixo em função do
detalhamento na Figura 5.
Loja 1 Loja 2
Loja 3 Loja 4
88
Com base nos resultados coletados, estratificados na Figura 5, é possível
responder à pergunta com apenas quatro lojas? Se fôssemos aguardar
a obtenção dos dados de 50 lojas, poderíamos incorrer em demora
ou muitas vezes os dados nem serem disponibilizados a tempo para
a análise de tomada de decisão, cujo principal objetivo é responder o
mais rápido possível à pergunta realizada. Sendo assim, o modelo de
sumarização deve estar preparado para receber os dados das outras
46 lojas, mas não pode ser impeditivo para a realização das consultas
analíticas, o que deve estar claro também para a alta gestão, que terá
uma visão parcial.
89
Quadro 3 – Tabela sumarizada a partir das tabelas adjacentes
Filial 1 Filial 2
Id_ Id_
Data Hora Vendedor Valor Data Hora Vendedor Valor
Vendas Vendas
5 18/02/2012 17:25:06 Maria T. R$ 3.300,00 Mês Soma_Valor 5 18/06/2012 17:25:06 Maria T. R$ 200,00
6 13/02/2012 12:03:12 Julio W. R$ 4.500,00 jan/12 R$6.250,00 6 13/07/2012 12:03:12 Julio W. R$ 2.135,00
7 14/03/2012 14:40:59 Paulo M. R$ 200,00 fev/12 R$9.650,00 7 14/07/2012 14:40:59 Paulo M. R$ 100,00
8 15/03/2012 13:22:08 Paulo M. R$ 430,00 mar/12 R$ 3.863,00 8 15/07/2012 13:22:08 Paulo M. R$ 130,00
9 16/03/2012 14:15:16 Maria T. R$ 2.110,00 abr/12 R$ 6.400,00 9 16/07/2012 14:15:16 Maria T. R$ 4.750,00
10 17/03/2012 15:17:30 Maria T. R$ 1.123,00 mai/12 R$13.763,00 10 17/07/2012 15:17:30 Maria T. R$ 1.889,00
jun/12 R$12.350,00
1 14/08/2012 16:03:12 Paulo M. R$ 2.600,00 set/12 R$ 6.136,00 1 14/04/2012 16:03:12 Paulo M. R$ 1.200,00
2 15/08/2012 16:33:01 Julio W. R$ 1.550,00 out/12 R$ 4.863,00 2 15/04/2012 16:33:01 Julio W. R$ 150,00
90
entanto, quando a tabela sumarizada e explicitada em modo gráfico é
possível realizar as leituras de forma eficiente.
91
À medida que a granularidade se eleva, esta corresponde à diminuição
da utilização de consultas às bases dos dados operacionais. Nesse
sentido, a modelagem dos dados para um projeto DW é diferente da de
um ambiente operacional.
92
ER (Entidade Relacionamento) e a multidimensional, ambas com
abordagem específica para modelos DW.
Como exemplo, uma casa tem orçamento mensal para que as despesas
sejam realizadas. Sendo assim, deve haver um controle de despesas em
relação ao orçamento, ou seja, elas não podem ultrapassar o orçamento
mensal disponível. Exemplos de despesas podem ser produtos ou serviços
que serão consumidos ou usados com um valor monetário associado. Com
base nesses requisitos mínimos, é possível fazer a modelagem elaborando
uma tabela “Controle de despesas”, com colunas para o tipo e o valor das
despesas e com o orçamento disponível, a ser decrementado do valor total
como uma forma de controle.
93
As características da modelagem requerem a análise prévia em relação
aos dados. O orçamento disponível deve ter um valor previsto e uma data
de previsão. Despesas é uma entidade que tem como atributos a data
em que ocorreu a despesa, a sequência da despesa (número de vezes),
o nome da pessoa que realizou a despesa, a sua identificação com a
tabela de classificação do orçamento, o mês em que a despesa ocorreu,
o tipo de despesa e o valor da despesa. Outras entidades são incluídas na
modelagem com o objetivo de associar o nome da pessoa que realizou a
despesa, o tipo de despesa, como é a sua classificação no orçamento, se o
valor da despesa foi incluído e se ela cabe no orçamento mensal.
94
O modelo ER descreve as operações relacionadas ao negócio e às
ligações entre as entidades do modelo. A abordagem dessa modelagem
é operacional. Outra abordagem para esse contexto do exemplo das
despesas versus orçamento é a da gestão do negócio. Nessa perspectiva,
pode-se analisar como ocorre a necessidade de encontrar respostas
com respeito à evolução orçamentária anual.
95
Figura 7 – Modelo multidimensional
2.1 Modelagem ER
96
e com significado próprio, podendo ser um lugar, uma pessoa ou um evento.
Ela representa classes de objetos e pode ser observada e classificada de
acordo com suas caraterísticas e propriedades (MACHADO, 2011). Esses
objetos do mundo remetem a um escopo de integração do mundo real, que
determina qual parte poderá refletir um modelo (INMON, 2005). O modelo
é descrito em suas partes e como elas se relacionam; no caso de dado, é o
Modelo Entidade Relacionamento (MER).
97
A nomeação da entidade deve ser clara e refletir uma comunicação
acessível sobre ela, orientando-se por uma nomenclatura que
represente suas características e seu escopo. Por exemplo, venda,
pessoa, produto: venda é a ação em si, que relaciona a pessoa ao
produto; pessoa é quem compra ou até quem vende; e produto é o
objeto que foi vendido.
ASSIMILE
98
Figura 9 – Modelo Lógico “Venda”
99
Quadro 4 – Tabelas dimensão do banco de dados
Produto Venda
Id_pro- valor_pro-
Vendedor duto tipo_produto duto id_vendedor
1 Geladeira soft R$ 2.500,00 4
Id_vendedor Nome
2 Fogão galaxi R$ 899,00 3
1 Mario 3 Geladeira alfa R$ 1.890,00 3
Microondas
2 Luis
4 wave R$ 450,00 1
100
O Quadro 5 representa a sumarização dos valores de cada produto
vendido por vendedor. A tabela Fato é concebida para visualizar um
conjunto de medidas que descrevem o desempenho característico
dos vendedores relacionados com o tipo de negócio, com a venda de
produtos na categoria eletrodomésticos. Ela é composta por partes da
tabela Vendedor e partes da tabela Produto Venda, incluindo as somas
das vendas por vendedor. Essa abordagem é denominada modelagem
multidimensional e está representada pelo caso em estudo no Quadro
6. A modelagem multidimensional será explorada posteriormente,
detalhando a composição das tabelas Fato e das tabelas dimensões,
formando um cubo de interações.
medidas
2
3
Luis
Sergio
= 2
3
Luis
Sergio
R$ 1.440,00
R$ 2.789,00
4 Augusto 4 Augusto R$ 3.230,00
5 Juvenal 5 Juvenal R$–
=
Produto Venda
Id_produto tipo_produto valor_produto id_vendedor
1 Geladeira soft R$ 2.500,00 4
2 Fogão galaxi R$ 899,00 3
3 Geladeira alfa R$ 1.890,00 3
4 Microondas wave R$ 450,00 1
5 Ferro pass R$ 120,00 2
6 Aaquecedor ice5 R$ 3.689,00 1
7 Microndas wavelet R$ 730,00 4
8 Geladeira first R$ 1.320,00 2
101
Machado (2011) observa que a modelagem multidimensional é mais
simples e inteligível do que a modelagem ER. Embora o nível de
abstração seja elevado, o modelo multidimensional está mais acessível
em termos de oferta de informação e é usado em projetos de DW,
justamente por ser objetivo e compor conjuntos de dados que possam
representar alguma resposta às perguntas.
102
a. Fatos.
b. Dimensões.
c. Métricas.
103
Figura 10 – Modelagem muldimensional vendas
Vendedor
es
jas
Lo
Produtos
Temp
oralid
ade
104
dimensões para depois serem indexados nas tabelas Fato. A partir das
Fatos, medidas, sumarizações e agregações podem ser representadas
por meio de visualizações a serem consumidas pelos usuários.
3. Considerações Finais
TEORIA EM PRÁTICA
Uma empresa produtora de grãos para exportação e
abastecimento no mercado brasileiro deseja iniciar um
projeto de Data Warehouse. A empresa compra os grãos
in natura de três fazendas, faz a coleta nos silos e leva
para a produção de lotes para a comercialização interna
e internacional. Faça uma simulação de uma modelagem
muldimensional, considerando cinco tipos de grãos: feijão
fradinho, feijão carioca, feijão preto, feijão branco e feijão
fava. A produção é trimestral, com variações de 10% em
105
cada trimestre, sendo a melhor safra nos três ultimos
meses do ano, quando não esta é afetada pelas variações
climáticas e pelas chuvas. As fazendas estão localizadas
nas regiões Norte, Nordeste e Centro-Oeste, e a fábrica de
separação e ensacamento fica no sul do país. A logística
para transporte dos silos das fazendas é quinzenal. A
produção dos feijões é afetada pela variação climática
nos seis primeiros meses do ano – clima muito quente e
chuvas. Com base nesse cenário, projete um banco de DW
por meio das técnicas de modelagem multidimensional.
Simule o ambiente populando as tabelas dimensões com
dados fictícios de produção agrícula, temperatura, tempo e
localidade.
VERIFICAÇÃO DE LEITURA
106
d. Modelo multidimensional: entidade, relacionamento,
atributos; modelo relacional: fatos, dimensões
e métricas.
e. Modelo multidimensional: entidade e dimensões;
modelo relacional: fatos e relacionamento.
a. Modelagem.
b. Granularidade.
c. Relacionamento.
d. Entidade.
e. Especialização.
a. Relacionamento.
b. Chave estrangeira.
c. Medidas.
d. Modelos.
e. Chave primária.
107
Referências Bibliográficas
INMON, W. H. Building the Data Warehouse. 4. ed. New York: Wiley Computer
Publishing, 2005.
KIMBALL, R. The Data Warehouse Toolkit: guia completo para modelagem
dimensional. Rio de Janeiro: Campus, 2002.
MACHADO, F. N. R. Tecnologia e Projeto de Data Warehouse. 5. ed. São Paulo,
Editora Érica, 2011.
Gabarito
Questão 1 - Resposta A.
108
Questão 3 - Resposta C.
Resolução: As medidas ou métricas são os atributos valorados
numericamente que representam uma tabela Fato, que será usada
para compor as representações da mensuração pretendida. São
exemplos de medida: a quantidade de unidades de um produto
vendidas, a quantidade de produtos em estoque, o percentual de
lucro, entre outras medições.
109
Esquema Estrela e Esquema Floco
de Neve
Autora: Iolanda Cláudia Sanches Catarino
Objetivos
111
representação conceitual dos dados em várias visões, que exibem
as informações no formato de um cubo. Esse cubo pode ser fatiado
e aprofundado em cada dimensão ou em seu eixo para permitir
a extração dos detalhes e processos internos de uma empresa de
forma simples de serem analisados.
112
Figura 1 – Exemplo de cubo de dados
113
de dimensões que podem ser associadas a uma tabela Fato. Não
há limite matemático para o número de dimensões utilizadas (ROB;
CORONEL, 2011).
114
posicionadas ao seu redor, permitindo a leitura e compreensão até
mesmo de usuários finais que não estão adaptados às estruturas de
banco de dados.
115
Figura 2 – Esquema Estrela (Star Schema)
116
b. Dimensões: são as características descritivas que fornecem
as perspectivas adicionais a um determinado fato por
meio de seus atributos. As dimensões são armazenadas
em tabelas de Dimensões vinculadas à tabela Fato. As
dimensões normalmente utilizadas em uma análise de dados
de vendas (Fatos Vendas) podem ser as de produto/serviço,
localização e tempo.
c. Atributos: representam os valores das características descritivas
sobre os fatos. Cada tabela de Dimensão contém atributos
que costumam ser utilizados para buscarem, filtrarem e
classificarem fatos.
d. d. Hierarquias: representam a ordenação em hierarquias
de atributos no interior das dimensões, fornecendo uma
organização vertical adotada com a finalidade de detalhamento
e agregação de dados no DW por operações de drill down ou
roll up (também chamado de drill up). As operações permitem
o detalhamento dos atributos, definindo um caminho para
identificar como os dados devem ser dissociados ou agregados.
A Figura 3 mostra o exemplo de hierarquias dos atributos
de localização detalhada por região, estado, cidade e loja;
tempo detalhado por ano, trimestre, mês e semana; e produto
detalhado por tipo, categoria, grupo e subgrupo.
ASSIMILE
117
Figura 3 – Hierarquia de atributos
118
por uma loja, em uma localização específica e em uma data específica,
identificado exclusivamente pela combinação dos valores de cada uma
de suas chaves estrangeiras.
Colaço Jr. (2004) descreve que o Esquema Estrela é assimétrico, uma vez
que se percebe nitidamente a tabela Fato como dominante do esquema,
e flexível, para suportar a inclusão de novos elementos de dados, bem
como mudanças que ocorram no projeto.
119
Figura 5 – Esquema Estrela para vendas e compras
120
Date (2004) aponta como uma desvantagem do Esquema Estrela o fato
de nem sempre os esquemas resultarem em projetos físicos legítimos,
ou seja, um projeto que preserve todas as informações e restrições em
um projeto lógico correto, considerando os princípios da modelagem
relacional. Assim, muitas vezes é necessário normalizar as tabelas de
Dimensões. Já Barbieri (2001) destaca como uma desvantagem do
Esquema Estrela a falta de estruturas previstas para armazenar dados já
dissociados ou agregados.
121
esquema estrela são organizadas em uma hierarquia ao normalizá-
las” (ELMASRI; NAVATHE, 2011, p. 725). A Figura 6 ilustra o Esquema
Floco de Neve.
122
Figura 6 – Esquema Floco de Neve para Vendas
123
4. Considerações Finais
TEORIA EM PRÁTICA
Considere que uma das maiores locadoras de veículos
do país tem 143 filiais localizadas em vários estados
brasileiros e 18 filiais em 4 países da América Latina. Cada
124
filial disponibiliza o serviço de aluguel de seus veículos
para clientes nacionais e estrangeiros. A locadora possui
uma ampla frota com veículos de diferentes categorias
(ônibus, carros de passeio, utilitários etc), variadas
marcas e modelos. Os gestores da locadora pretendem
analisar os custos, o faturamento e os lucros das filiais
de diferentes períodos das locações, principalmente
de datas festivas, para tomarem decisões estratégicas
para a expansão de novas filiais. Para isso, represente a
modelagem multidimensional, no formato do Esquema
Estrela, contemplando as dimensões que participarão dos
fatos mensuráveis para a geração de consultas dinâmicas, a
partir de ferramentas OLAP, disponibilizadas no projeto de
desenvolvimento do Data Warehouse da locadora.
VERIFICAÇÃO DE LEITURA
125
a. A tabela Fato representa entidades de negócio e
constituem as estruturas de entrada que servem
para armazenar informações como tempo, produto,
cliente etc. Ela tem uma relação 1:N com as tabelas de
Dimensões.
b. A tabela Fato deve ser entendida como a tabela que
realiza os filtros de valores aplicados na manipulação
dos dados, determinando o contexto de um assunto
de negócio.
c. As tabelas de Dimensões servem para armazenar
medidas numéricas associadas a eventos de negócio.
Possuem como chave primária uma chave única.
d. As tabelas de Dimensões servem para armazenar
uma ou mais medidas numéricas, que constituem
os valores objetos da análise dimensional.
Possuem normalmente como chave primária uma
chave composta.
e. As tabelas de Dimensões representam as
características descritivas, que fornecem as
perspectivas adicionais a um determinado fato por
meio de seus atributos. Elas têm uma relação 1:N com
a tabela Fato.
126
encontram as tabelas, sendo a tabela Fato centralizada
no esquema e as tabelas de Dimensões relacionandas
nas pontas do esquema.
a. Esquema Cubo.
b. Esquema Estrela.
c. Esquema Floco de Neve.
d. Esquema MER.
e. Esquema Multifocal.
II.
As consultas ocorrem inicialmente na tabela Fato e
depois nas tabelas de Dimensões, assegurando a
precisão dos dados por meio de uma estrutura de
chaves que garante o acesso aos dados com melhor
desempenho.
127
III. A estrutura padronizada e regular do esquema é
bastante simples, faciliatando a apresentação, o
desempenho das consultas geradas e a compreensão
até mesmo de usuários finais que não estão adaptados
às estruturas de banco de dados.
a. I – II.
b. II – III.
c. III – IV.
d. I – III – IV.
e. I – II – III – IV.
Referências Bibliográficas
BARBIERI, Carlos. BI – Business Intelligence: modelagem & tecnologia. Rio de
Janeiro: Axcel Books, 2001.
COLAÇO, M. Jr. Projetando sistemas de apoio à decisão baseados em data
warehouse. Rio de Janeiro: Axcel Books do Brasil, 2004.
DATE, C. J. Introdução a sistemas de bancos de dados. 8. ed. Rio de Janeiro:
Campus, 2004.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de banco de dados. 4. ed. São
Paulo: Pearson Addison Wesley, 2005.
KIMBALL, R. et al. The data warehouse lifecycle toolkit. New York: John Wiley &
Sons, 1998.
KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to
dimensional modeling. 3 ed. New York: John Wiley & Sons, 2013.
128
MACHADO, Felipe N. Tecnologia e projeto de data warehouse. 6. ed. São Paulo:
Erica, 2013.
POE, V.; KLAUER, P.; BROBST S. Building a data warehouse for decision support.
New Jersey: Prentice Hall PTR, 1998.
ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e
administração. 8. ed. São Paulo: Cengage Learning, 2011.
Gabarito
Questão 1 - Resposta E.
Resolução: A modelagem multidimensional representa uma
abstração dos dados armazenados, consistindo em um modelo
composto por tabelas Fato e de Dimensões, que proporcionam
uma visão multidimensional de grande quantidade de dados.
Fatos: é uma coleção de itens de dados composta de dados de
medidas, representando uma transação ou um evento de negócio.
Um fato é representado por valores numéricos em um esquema e
implementado em tabelas denominadas tabelas Fato.
Questão 2 - Resposta B.
Resolução: Segundo Kimball (1998), o Esquema Estrela (Star
Schema) é a abordagem que visa criar esquemas físicos mais
simples e incrementais. O nome estrela se dá devido à disposição
em que se encontram as tabelas, sendo a tabela Fato centralizada
129
no esquema e as tabelas de Dimensões relacionandas nas pontas
do esquema.
Questão 3 - Resposta D.
Resolução: Considerando a abordagem do Esquema Estrela da
modelagem multidimensional, o item II está errado, porque as
consultas ocorrem inicialmente nas tabelas de Dimensões e depois
nas tabelas Fato, para assegurar a consistência dos dados por meio
de uma estrutura de chaves, que garante o acesso aos dados com
melhor desempenho.
.
130
Ferramentas de Dados em um
Data Warehouse
Autora: Iolanda Cláudia Sanches Catarino
Objetivos
132
Barbieri (2001) enfatiza que o termo Processamento Analítico On-line
representa a característica de se trabalhar os dados com operadores
dimensionais, possibilitando uma forma múltipla e combinada
de análise.
Date (2004) explica que o termo OLAP pode ser definido como o
processo interativo de criar, gerenciar, analisar e gerar relatórios
sobre dados. Os dados, então, são percebidos e manipulados como
se estivessem armazenados em um array multidimensional.
133
condições de melhor planejamento e gerenciamento. O arranjo em
cubos do OLAP permite analisar as múltiplas dimensões dos dados
utilizados pela empresa, em múltiplas combinações, sob ângulos
variados, podendo o executivo identificar também tendências e
descobrir o que está acontecendo nos negócios (BISPO, 1998).
134
especialmente atrativos para os tomadores de decisões de negócios.
Enquanto o DW mantém os dados de suporte a decisões integrados,
orientados por assunto, variáveis no tempo e não voláteis, o sistema
OLAP fornece o front end por meio do qual os usuários finais acessam
e analisam esses dados (ROB; CORONEL, 2011).
ASSIMILE
135
Quadro 1 – Diferenças entre OLAP e OLTP
OLAP OLTP
Baseado em dados
Baseado em transações de dados
históricos, consolidados e
atuais de funções repetitivas.
frequentemente totalizados.
Operações de manipulação de
Operações de agregação
dados individuais, por meio
e cruzamentos de dados
dos comandos de inserção,
sumarizados.
atualização e exclusão.
Atualizações quase inexistentes, Atualizações em grande
apenas novas inserções. número de registros.
Codd, Codd e Salley (1993) descrevem que uma ferramenta OLAP deve
conter 12 critérios, relacionados a seguir:
136
os níveis de agregação devem ser ilimitados, desde a mínima até a
máxima granularidade.
4. Operações dimensionais: considera-se um modelo analítico e
tomam-se duas ou mais células pertencentes a diferentes dimensões
dentro desse modelo para serem usadas na realização de cálculos.
5. Manipulação de matriz esparsa dinâmica: para qualquer matriz
esparsa de dados, existe um e somente um esquema físico, o qual
provê a máxima eficiência e operacionalidade, para maximizar o
desempenho, baseada na densidade dos dados armazenados.
6. Arquitetura cliente-servidor: a maioria dos dados é armazenada em
um servidor de rede e acessada por meio de computadores pessoais.
Portanto, é necessário que a ferramenta seja capaz de operar em um
ambiente cliente-servidor para atender a multiusuários.
7. Acessibilidade: a ferramenta tem que traçar seu próprio esquema
lógico para tratar os dados heterogêneos armazenados e, assim,
executar qualquer conversão necessária para apresentar ao usuário
uma única e consistente visão dos dados.
8. Transparência: a ferramenta deve atender a todas as solicitações
dos usuários, a partir de planilhas eletrônicas, aplicativos de
suporte à decisão ou outras interfaces. Se a ferramenta está em
uma arquitetura cliente/servidor, então os acessos devem ser
transparentes aos usuários.
9. Manipulação de dados intuitiva: todo o processo de criação de
modelos, manipulação de dados e realização de cálculos deve
acontecer da forma mais intuitiva para os usuários, sem necessitar de
nenhum tipo de auxílio.
10. Desempenho consistente de relatório: mesmo com o aumento do
número de dimensões ou do tamanho do banco de dados, o usuário
não deve perceber uma degradação significativa no desempenho do
fornecimento de informações.
137
11. Flexibilidade nas consultas: a análise e a apresentação dos dados
tornam-se mais simples quando linhas, colunas e células que vão ser
comparadas visualmente são organizadas por agrupamentos lógicos
para efetuarem qualquer tipo de consulta.
12. Suporte multiusuário: muitas vezes, vários usuários necessitam
trabalhar simultaneamente com o mesmo modelo analítico ou
criar modelos diferentes a partir dos mesmos dados. Assim, a
ferramenta tem que prover esses acessos simultâneos sem prejuízo
à integridade e à segurança dos dados.
2. Operações OLAP
138
De acordo com Elmasri e Navathe (2011):
Uma exibição Drill-Down fornece uma visão mais detalhada”. Por exemplo,
desagregar “as vendas do país por região e, depois, as vendas regionais
por sub-região e também separando produtos por estilos. (ELMASRI;
NAVATHE, 2011, p. 724)
Drill Down
Dimensão localização geográfica
Membro RS
139
de detalhe da dimensão localização geográfica, visualizando somente
um estado da região anterior (no exemplo, o RS – Rio Grande do
Sul), entretanto, abrindo os valores para as cidades desse estado (no
exemplo, Canoas e Porto Alegre) (MACHADO, 2013).
140
Figura 2 – Exemplo de Drill Up
RS 12 12 11 15
Região Sul
SC 15 13 12 21
Drill Up
Dimensão tempo
141
o usuário passar de ano direto para trimestre ou mês. A Figura 3
apresenta um exemplo de Drill Across:
Drill Down
Dimensão localização geográfica
Membro RS
RS 5 3 2 2
Região Sul
SC 7 4 3 2
142
2.4 Drill Throught
Drill Throught
Membro Porto Alegre
143
2.5 Slice and Dice
Essas operações ocorrem para realizar a navegação por meio dos dados
na visualização de um cubo. Slice and Dice significa a redução do escopo
dos dados em análise, além da mudança da ordem das dimensões,
mudando assim a orientação com que os dados são visualizados.
Entretanto, Machado (2013) explica que Slice é:
Slice
Dimensão produto
Membro Celulares
144
A operação Dice é utilizada para limitar o conjunto de valores a ser
mostrado, fixando-se algumas dimensões. Segundo Machado (2013),
Dice é “a mudança de perspectiva da visão”, ou seja, “é a extração de um
‘subcubo’ ou a interseção de vários Slices” (MACHADO, 2013, p. 90).
Dice
Modelo CT1
Volume de produção
RS
(em milhar)
Canoas Porto Alegre
2017 9 12
Telefone celular
2018 7 11
2017 5 6
Tablet
2018 6 8
Fonte: elaborada pela autora.
145
3. Classificação das ferramentas OLAP
146
multidimensionais são utilizadas para dados com menor granularidade,
ou seja, nos dados agregados.
O Analysis Services não precisa ser utilizado apenas com o SQL Server, é
possível utilizá-lo com qualquer banco de dados que possua um driver
Open Database Connectivity (ODBC) ou um Provider Object Linking and
Embedding for Databases (OLE DB). Assim, ele destaca-se com a vantagem
competitiva de custo zero.
147
armazenados em tabelas relacionais (ROLAP), em um cubo proprietário
multidimensional (MOLAP) ou na forma híbrida HOLAP.
4. Considerações finais
148
As ferramentas OLAP disponibilizam o recurso para gerar consultas
dinâmicas com ótimo desempenho, permitindo que a partir de uma
resposta o usuário faça outras interações, combinando as dimensões do
cubo com diferentes níveis de detalhamento e agregação.
TEORIA EM PRÁTICA
149
VERIFICAÇÃO DE LEITURA
150
Assinale a alternativa correta que indica os termos que
preenchem as lacunas:
151
Referências Bibliográficas
BARBIERI, Carlos. BI – Business Intelligence: modelagem & tecnologia. Rio de
Janeiro: Axcel Books, 2001.
BISPO, Carlos Alberto Ferreira. Uma análise da nova geração de sistemas de
apoio à decisão. 1998. 174 f. Dissertação (Mestrado em Engenharia da Produção) –
Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos. 1998.
CODD, Edgar F. & CODD, Sharon B.; SALLEY, Clynch T. Providing OLAP (on-
line analytical processing) to user-analysts: An IT mandate. v. 32. Codd and
Date, 1993.
COLAÇO, M. Jr. Projetando sistemas de apoio à decisão baseados em data
warehouse. Rio de Janeiro: Axcel Books do Brasil, 2004.
DATE, C. J. Introdução a sistemas de bancos de dados. 8. ed. Rio de Janeiro:
Campus, 2004.
ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de banco de dados. 4. ed. São
Paulo: Pearson Addison Wesley, 2005.
MACHADO, Felipe N. Tecnologia e projeto de data warehouse. 6. ed. São Paulo:
Erica, 2013.
MICROSOFT DEVELOPER NETWORK. O que há de novo no SQL Server 2017
Analysis Services: documentação do produto. Disponível em: <https://docs.
microsoft.com/pt-br/sql/analysis-services/what-s-new-in-analysis-services?view=sql-
server-2017>. Acesso em: 30 maio 2019.
ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e
administração. 8. ed. São Paulo: Cengage Learning, 2011.
Gabarito
Questão 1 - Resposta B.
Resolução: Machado (2013) descreve que as ferramentas OLAP
surgiram com os sistemas de apoio à decisão para fazerem a
consulta e a análise dos dados do DW, sendo as aplicações às
quais os usuários têm acesso para extrair os dados de suas bases e
construir os relatórios com recursos que atendam aos gestores.
Segundo Rob e Coronel (2011), a característica mais marcante
das modernas ferramentas OLAP é a capacidade de análise
152
multidimensional. Os dados são processados e visualizados em
uma estrutura multidimensional, sendo especialmente atrativos
para os tomadores de decisões de negócios. Enquanto o DW
mantém dados de suporte a decisões integrados, orientados por
assunto, variáveis no tempo e não voláteis, o sistema OLAP fornece
o front end por meio do qual os usuários finais acessam e analisam
esses dados.
Questão 2 - Resposta C.
Resolução: Online Transaction Processing (OLTP – Processamento de
Transações On-line): o termo refere-se aos sistemas transacionais,
que são utilizados no processamento dos dados de rotina,
gerados diariamente, a partir dos sistemas informacionais de uma
organização.
Online Analytical Processing (OLAP – Processamento Analítico Online):
desempenha a análise multidimensional de dados empresariais
e oferece capacidades para cálculos complexos, análises de
tendências e modelagem de dados sofisticados. O OLAP habilita
usuários finais a fazerem análises ad hoc de dados em múltiplas
dimensões, provendo, dessa forma, o insight e o entendimento que
eles necessitam para a melhor tomada de decisão.
Questão 3 - Resposta A.
Resolução: Existem diversas operações OLAP que permitem
acessar os dados em esquemas multidimensionais. Cada
operação sobre um conjunto de dados multidimensional retorna
uma apresentação ou sumarização diferente de informações.
As operações do tipo Drill (Drill Down, Drill Up, Drill Across e Drill
Throught) permitem a navegação ao longo dos níveis hierárquicos
de uma dimensão. As operações do tipo Slice and Dice são
operações para realizar a navegação por meio dos dados na
visualização do cubo.
153
Mineração de Dados em Data
Warehouse
Autora: Iolanda Cláudia Sanches Catarino
Objetivos
155
Figura 1 – Etapas do Processo KDD
156
Dados, é considerada a principal atividade do processo KDD, em que
define-se e aplica-se uma ou mais técnicas (redes neurais, árvores
de decisão, sistemas baseados em regras e programas estatísticos)
adequadas de mineração de dados, em conformidade com o domínio
do problema, ou seja, as técnicas que melhor se adaptam ao contexto
do negócio.
157
de decisão, automatizando a detecção de padrões relevantes de grandes
bases de dados das organizações a partir da utilização de técnicas
estatísticas e de inteligência artificial, que extraem informações úteis,
valiosas e previamente desconhecidas, para construir modelos que
predizem comportamentos, tendências desconhecidas dos dados,
correlações das informações, entre outros aspectos mensuráveis que
apoiam as necessidades dos negócios.
158
visão sistêmica. Assim, a mineração de dados pode ser adotada como
uma solução para apoiar a tomada de decisões nas diversas áreas e
segmentos, como em empresas bancárias e de cartões de crédito, que
utilizam a análise baseada em conhecimento para detectar fraudes nas
transações financeiras; para prever eventos e projeções de valores,
como retornos de vendas; para identificar padrões de compras dos
clientes e resolver situações que envolvam negociação com clientes;
para aprimorar o desenvolvimento e a aceitação de produtos lançados
ou novos produtos; para analisar as perspectivas do mercado de ações;
para avaliar os clientes e precificar as apólices de seguro; para apoiar a
gestão de compliance; e muitas outras áreas de negócio.
159
A fase de preparação de dados ilustrada na figura como a primeira
etapa do processo de mineração de dados refere-se à identificação dos
principais conjuntos de dados e do tratamento de limpeza e integração
desses dados a serem utilizados pela operação de mineração de dados,
considerando que os dados de DW já estão integrados e filtrados, a
partir dos dados operacionais oriundos dos sistemas transacionais.
160
baseados em redes neurais, lógica indutiva, árvores de decisão,
classificação ou regressão etc., e a definição desses algoritmos com
possível interação dos usuários finais.
161
por um assunto. Aplica-se em diversas áreas da saúde, como no
diagnóstico médico, visando classificar os pacientes e os tipos de
doenças; na área financeira, para avaliação de risco de crédito etc.
b. Regressão: refere-se à tarefa similar à classificação, porém
é usada quando os dados são identificados por predição de
valores numéricos, considerados variáveis independentes ou
exploratórias, e não pela categorização dos itens analisados.
Assim, é possível verificar o eventual relacionamento funcional que
possa existir entre duas ou mais variáveis quantitativas. Observa-
se que a diferença básica entre o relacionamento entre variáveis
e o método de classificação é que naquele a tarefa estimada lida
com resultados discretos, enquanto o de classificação lida com
resultados contínuos. É usada principalmente na área de vendas e
marketing.
c. Agrupamentos (Clusters): refere-se à tarefa de segmentar
um conjunto de dados em grupos diferentes cujos itens são
semelhantes, ou seja, subdivide o conjunto de dados em um
conjunto menor, sendo similar no comportamento dos atributos
de segmentação. A partir da mineração de dados, são descobertos
grupos diferentes entre o conjunto de dados selecionado,
diferentemente do método de classificação, em que as classes
de categorias são pré-definidas. São usados em problemas
relacionados ao processo de linha de produção, por exemplo, para
detecção de defeitos de fabricação.
d. Sumarização: refere-se à tarefa de descrever padrões e
tendências, que são reveladas por subconjuntos de dados
compactados. Funções mais sofisticadas envolvem técnicas de
apresentação e visualização, que facilitam a interpretação dos
resultados, como no formato de histogramas e diagramas de
dispersão. Isso é possível a partir da geração automática de
relatórios que demostram uma descrição compacta para um
162
subconjunto de dados com características similares, demostrando,
assim, as relações funcionais entre as variáveis definidas para
a análise exploratória do subconjunto de dados. É usada em
aplicações de diferentes domínios, como para identificar o
perfil dos clientes de uma operadora de telefonia que residem
em determinada região e identificar o perfil dos clientes de
e-commerce para direcionar ofertas de produtos.
e. Regras de Associação: refere-se à tarefa de identificar as regras
de associação entre variáveis que ocorrem juntas em conjuntos
de dados para estudar, principalmente, preferências e afinidades,
orientar análises e investigações, visando principalmente definir
oportunidades na área de marketing. Uma regra de associação
é definida como se X então Y, ou X ⇒ Y, onde X e Y são conjuntos
de itens e X ∩ Y = ∅. Por exemplo, um modelo de análise de
associação poderia descobrir que um cliente em 65% das vezes,
ao comprar um produto X, também compra o produto Y. Esse
é o exemplo clássico de uma grande rede de supermercados
norte-americana, o Wall Mart, que descobriu que um número
razoável de homens comprava as fraldas e também as cervejas
na véspera de finais de semana. De acordo com a história, a partir
dessa análise de associação entre os dois produtos, a rede de
supermercados utilizou o novo conhecimento para aproximar as
gôndolas desses produtos, incrementando a venda conjunta das
fraldas e das cervejas.
f. Análise de Séries Temporais: refere-se à tarefa similar à regra
de associação com objetivo de aplicar algum tipo de padrão
(tendências, variações sazonais, variações cíclicas e variações
irregulares) no conjunto de dados, para determinar que tipos
de sequências podem ocorrer em um determinado período, ou
seja, sequencial no tempo. Como exemplo, a análise temporal de
ocorrências e frequência de abalos sísmicos em uma determinada
região; na área de vendas, é comum analisar a frequência que
um cliente adquire um produto ou que, a partir da compra de um
163
produto, ele retorna após um período de tempo para comprar um
outro produto relacionado.
ASSIMILE
Machine Learning (Aprendizado de máquina): é uma área
da ciência da computação que significa aprendizagem de
máquina ou aprendizado automático. Ela evoluiu do estudo
de reconhecimento de padrões em dados e da teoria da
aprendizagem computacional em inteligência artificial,
permitindo que sistemas aprendam e tomem decisões com
o mínimo de intervenção humana.
164
a. Árvores de Decisão (Decision Tree): as árvores de decisão
caracterizam-se pelo método de classificação de dados, sendo
conveniente adotar essa técnica quando o objetivo é gerar regras
que possam ser entendidas, explicadas e traduzidas para a
linguagem natural. A árvore de decisão é uma técnica que, a partir
de uma massa de dados, cria e organiza regras de classificação
e decisão em formato de diagramas de árvores, que classificam
suas observações ou predizem classes baseadas nos valores dos
atributos de um conjunto de dados.
b. Redes neurais: as redes neurais artificiais tentam construir
representações internas de modelos ou padrões detectados
nos dados que envolvem o desenvolvimento de estruturas
matemáticas com habilidade de aprendizado, por meio de
experiências de operações da própria máquina. As redes neurais
utilizam um conjunto de elementos de processamento, também
chamados de nós e links, análogos aos neurônios. Os elementos
são interconectados em uma rede que implementa detecções
sofisticadas de padrões e algoritmos de aprendizado de máquina,
construindo modelos de dados. Aplicações de redes neurais estão
sendo adotadas principalmente nos campos da medicina, da
ciência e dos negócios.
c. Algoritmos Genéticos: são utilizados para encontrar soluções
de problemas dinâmicos e complexos que envolvem centenas
ou milhares de variáveis e/ou fórmulas para identificar as
descobertas, gerando possíveis soluções simultaneamente.
As técnicas são baseadas em métodos inspirados na biologia
evolucionária, como herança, mutação, seleção e cruzamento,
capazes de realizar pesquisas adaptativas e robustas para o
domínio explorado, principalmente na área de análise de imagens
e projetos de engenharia.
d. Análise de Aglomerações (Cluster Analysis): a técnica de
análise de aglomeração ou clusterização identifica a existência de
diferentes grupos dentro de um conjunto de dados. Constatada
essa existência, agrupam-se os elementos estudados de acordo
165
com suas similaridades, podendo refiná-los e definir a priorização
entre eles.
e. Análise de Regressão: a técnica de análise de regressão processa
os dados das bases de dados de maneira a determinar um
modelo/equação que represente o relacionamento existente
entre as variáveis em estudo, ajustando uma linha reta em uma
nuvem de pontos de dados e decidindo qual reta é a melhor
representação de todas as observações consideradas de tarefas
de sumarização, predição e estimativa. Os resultados de uma só
análise podem atender a mais de um objetivo proposto.
f. Predição com Séries Temporais: a técnica de predição com
séries temporais de tempo, espaço físico ou volume é utilizada
principalmente no cálculo de previsão de um conjunto de
observação, dados seus valores ao longo do tempo, utilizando-
os na predição de valores futuros da série em questão. Assim, é
possível armazenar as informações das variáveis ao longo de um
período, permitindo que sejam observadas repetidamente em
ciclos distintos.
166
concorrente e tentar retê-los; analisar cestas de mercado a
partir das associações entre produtos adquiridos; encontrar
características dos consumidores em função da região
demográfica em que vivem; prever quais consumidores serão
atingidos nas campanhas de marketing.
• Seguros e planos de saúde: detectar procedimentos médicos
requisitados ao mesmo tempo; identificar comportamentos
fraudulentos dos segurados; prever quais consumidores têm
tendência a comprar novas apólices.
• Telecomunicação: classificar clientes de acordo com seu
potencial de compra de serviços; identificar fraudes em ligações
telefônicas.
• Transporte: determinar a distribuição de trajetos e horários
decorrentes das atividades diárias ou sazonais dos passageiros;
analisar padrões de sobrecarga; definir a maneira mais
produtiva com otimização de custos dos itinerários de frotas
de veículos.
167
ilustrando o resultado por meio de gráficos multidimensionais e
facilitando, assim, a navegação interativa do usuário e as análises e
interpretação dos resultados.
4. Considerações finais
168
Ferramentas de mineração de dados são integradas aos ambientes
de DW ou a outros tipos de armazenamento para transformarem
informações em conhecimento potencialmente útil. Sua função principal
é a extração de grande volume de dados com o objetivo de encontrar
padrões e correlações significativas e de estimar tendências e novas
perspectivas que agreguem satisfatoriamente ao contexto do negócio
explorado.
TEORIA EM PRÁTICA
Considere o contexto de uma agência financeira que
disponibiliza linha de crédito para seus clientes do tipo
microempreendedores individuais e para microempresas
que precisam de crédito para investimento. Ela necessita
adotar uma ferramenta de mineração de dados para apoiar
suas decisões de conceder ou não o crédito de investimento
a esses clientes. De acordo com os métodos e as técnicas
de Data Mining, definiu-se para especificar essa solução o
método de classificação e a técnica de Árvore de Decisão
com duas possíveis classes: “Sim” – adimplente/receber
crédito e “Não” – inadimplente/não receber crédito; e os
seguintes atributos: A) existência de restrições em nome
da empresa – valores: 1 = Sim e 2 = Não; B) tempo de conta
com a agência – valores: 1 = de 0 a 12 meses, 2 = de 13 a 24
meses e 3 = mais de 24 meses; e C) Tempo de Atividade –
valores: 1 = menos de um ano, 2 = de 1 a 3 anos e 3 = mais
de 3 anos.
Assim, represente o diagrama de Árvore de Decisão
com o intuito de facilitar a leitura e compreensão dos
usuários que usarão a aplicação, conforme os atributos
e as duas classes de resultado estipuladas e de acordo
169
com as seguintes regras de classificação do tipo
“se-então”:
Regras:
1. Se Restrição = 2 e Tempo de conta ≥2 e Tempo de atividade
≥2,então Adimplente.
VERIFICAÇÃO DE LEITURA
170
2. O processo conhecido como Knowledge Discovery in
Databases (KDD – Descoberta de Conhecimento em
Bases de Dados), que passou a ser reconhecido no
mercado em 1989 como referência ao processo de
encontrar conhecimento útil em grandes bases de
dados, é constituído por um conjunto de atividades
contínuas que compartilham o conhecimento
descoberto a partir de bases de dados em cinco etapas.
Assinale a alternativa correta que indica as
etapas do KDD:
171
alternativa que apresenta as características do método
de Classificação.
172
Referências Bibliográficas
BARBIERI, C. BI – Business Intelligence: modelagem & tecnologia. Rio de Janeiro:
Axcel Books, 2001.
BRACHMAN, R. J.; ANAND, T. The process of knowledge discovery in databases:
a first sketch. In: FAYYAD, U. M. et al. Advances in Knowledge Discovery in
Databases. Menlo Park: AAAI Press, 1994.
COLAÇO, M. Jr. Projetando sistemas de apoio à decisão baseados em data
warehouse. Rio de Janeiro: Axcel Books do Brasil, 2004.
DATE, C. J. Introdução a sistemas de bancos de dados. 8. ed. Rio de Janeiro:
Campus, 2004.
FAYYAD, U. M. et al. Advances in knowledge discovery and data mining.
California: AAAI Press, 1996.
LAUDON, K. C. & LAUDON, J. P. Sistemas de informação gerenciais. 11. ed. São
Paulo: Pearson Prentice Hall, 2014.
LEMOS, E. P.; Steiner, M. T. A; Nievola, J. C. Análise de crédito bancário por meio de
redes neurais e árvores de decisão: uma aplicação simples de data mining. Revista
de Administração, São Paulo, v. 40, n. 3, p. 225-234, jul./set. 2005.
ROB, P.; CORONEL, C. Sistemas de banco de dados: projeto, implementação e
administração. 8. ed. São Paulo: Cengage Learning, 2011.
SILBERSCHATZ, A.; KORTH, H. F.; SUDARSHAN, S. Sistema de banco de dados. 5. ed.
Rio de Janeiro: Elsevier, 2006.
Gabarito
Questão 1 - Resposta E.
Resolução: A mineração de dados é somente uma parte do
processo de exploração, descoberta e transformação da informação
em conhecimento, fazendo parte de um processo maior conhecido
como Knowledge Discovery in Databases (KDD – Descoberta de
Conhecimento em Bases de Dados), que passou a ser reconhecido
no mercado em 1989 como referência ao processo de encontrar
conhecimento útil em grandes bases de dados, enquanto a
mineração de dados refere-se à aplicação de algoritmos para
extrair modelos e relações de dados (FAYYAD et al., 1996).
173
Questão 2 - Resposta B.
Resolução: O processo de KDD é constituído por um conjunto de
atividades contínuas que compartilham o conhecimento descoberto
a partir de bases de dados em cinco etapas: seleção dos dados, pré-
processamento dos dados, transformação dos dados, mineração
dos dados e interpretação dos resultados.
Questão 3 - Resposta C.
Resolução: Refere-se à tarefa de classificação, que é uma
das tarefas mais importantes e mais populares das análises
discriminantes de bases de dados. Na classificação, o modelo
analisa o conjunto de dados fornecido, associando ou classificando
um item a uma ou a várias categorias pré-definidas, derivando
uma regra que possa ser usada para classificar uma observação,
referente a um conjunto de dados identificados que são
categorizados por um assunto. Aplica-se em diversas áreas da
saúde, como no diagnóstico médico, visando classificar os pacientes
e os tipos de doenças; na área financeira, para avaliação de risco de
crédito etc.
174
175