PROJETO E
IMPLEMENTAO DE
DATAWAREHOUSE
BOA VISTA-RR
2015
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
pois cada alternativa pode ser associada com os resultados que pode produzir.
Mesmo que o administrador no tenha condies de investigar todas as
alternativas disponveis, ele pode escolher a melhor dentre as alternativas
consideradas. Esta uma situao excepcional e no a regra.
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) Uma adequada compreenso do tema 'processo decisrio' implica ter como
corretas as seguintes afirmaes, exceto:
a) um problema cuja soluo no dispe de alternativas j est, por si s,
resolvido.
b) um nico problema pode ser percebido de formas diferentes por diferentes
indivduos.
c) o processo racional de tomada de deciso no exclui o uso da subjetividade.
d) mesmo a melhor deciso pode acarretar um resultado desastroso.
e) a tomada de deciso em equipe prefervel tomada de deciso individual.
2) Nas organizaes, as decises rotineiras e as decises causadas por variveis
diversas so denominadas, respectivamente,
a) contnuas e de informaes gerenciais.
b) de apoio a decises e no-estruturadas.
c) estruturadas e de apoio a decises.
d) recorrentes e de informaes gerenciais.
e) estruturadas e no-estruturadas.
3) Na gesto contempornea, o processo de tomada de deciso deve ter como
objetivo
a) apontar, dentre as alternativas satisfatrias, aquela que pode levar ao
resultado desejado.
b) indicar a alternativa realmente tima para levar ao resultado projetado.
c) elaborar cenrios estratgicos que permitam calcular as opes com maior
probabilidade de sucesso.
d) definir as oportunidades e as ameaas existentes no ambiente de negcios.
e) encontrar as alternativas que satisfaam os interesses dos setores mais
importantes da direo.
4) A tomada de deciso um processo atravs do qual se seleciona-se uma ou mais
alternativas de ao para se atingir o objetivo desejado. Em relao ao processo
decisrio, pode-se afirmar que
a) a tomada de deciso inerente essencialmente ao nvel estratgico,
cabendo ao nvel ttico seu desdobramento, e ao nvel operacional, sua
execuo.
b) a identificao e o diagnostico da situao problema ou a da oportunidade
constituem etapas do processo decisrio.
c) a tomada de deciso no nvel estratgico pode ser mais facilmente delegada
do que no nvel operacional.
d) a dificuldade para que as informaes sejam reunidas e organizadas, sendo
mais facilmente modelveis, no existe nas decises no programadas.
e) as decises programadas so apropriadas para um ambiente de baixa
incerteza.
5
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Os
dados,
informaes
e
conhecimento estruturados so
aqueles acessados dentro ou fora
da organizao e podem ser
entendidos como aqueles que
compem bancos e bases de dados
internos e externos, redes de
comunicao
como
Internet,
Intranets, publicaes impressas
etc.
Dados,
informaes
e
conhecimento
estruturveis
basicamente
so
aqueles
produzidos pelos diversos setores
da organizao, porm sem
seleo, tratamento e acesso. Como exemplo pode-se citar: cartes de visita, colgio
invisvel, nota fiscal, atendimento ao consumidor, entre outros.
Dados, informaes e conhecimento no-estruturados so aqueles produzidos
externamente organizao, porm sem filtragem e tratamento. Alguns exemplos:
informaes veiculadas na mdia, mais especificamente TV e rdio, boatos,
acontecimentos sociais e polticos.
A inteligncia competitiva necessita ter o mapeamento e a prospeco de dados,
informaes e conhecimento produzidos internamente e externamente organizao,
8
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
10
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) A definio:
Capacidade de uma corporao como um todo de reunir informao, inovar, criar
conhecimento e atuar efetivamente baseada no conhecimento que ela gerou
refere-se:
a) ao valor agregado da informao.
b) ao capital intelectual.
c) ao conhecimento ttico.
d) vantagem competitiva.
e) inteligncia organizacional.
2) No processo de desenvolvimento de inteligncia competitiva organizacional, o
responsvel pela coleta de dados e informaes solicitadas, monitoramento do
ambiente, elaborao de entrevistas e manuteno das bases de dados atualizadas o
a) Coletor.
b) Analista.
c) Gerente.
d) Gestor.
e) Mentor.
3) Considere:
Uma das vantagens do KM o bom time-to-market que pode ser conferido ao corpo
executivo das empresas, cuja capacidade de tomada de deciso com rapidez e
eficincia maximizada. Tal resultado pode ser ainda mais positivo quando as
organizaes combinam gesto do conhecimento com o processo de monitoramento
dos ambientes competitivo, concorrencial e organizacional, visando subsidiar o
processo decisrio e o alcance das metas estratgicas de uma empresa.
O trecho grifado no texto pode ser resumido como
a) controle de concorrncia ao acesso dos dados.
b) gerenciamento dos recursos humanos do projeto.
c) processos de monitoramento e controle dos projetos.
d) processo de inteligncia competitiva.
e) gerenciamento do escopo do projeto.
11
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
BUSINESS INTELLIGENCE
Business Intelligence (Inteligncia Empresarial ou Inteligncia de Negcios) a
capacidade de uma empresa para capturar, selecionar, analisar e gerenciar as
informaes relevantes para a gesto do negcio com o objetivo de:
Inovar e criar conhecimento.
Reduzir riscos na tomada de deciso e evitar surpresas.
Direcionar, assertivamente, os planos de negcios e a implementao de aes.
Criar oportunidades de negcios.
Apoiar o desenvolvimento de produtos/servios com uma base de informao
confivel, eficiente e gil.
Monitorar, analisar e prever, eficientemente, as questes relacionadas ao core
business.
Gerar valor aos negcios.
A infra-estrutura de Business Intelligence (BI) compreende: a extrao, data
warehouses, data marts e ferramentas para gerenciamento da informao e anlise de
dados como o data mining.
Entre as definies mais aceitas est a que aponta BI como um termo guarda-chuva
quer se refere a uma variedade de aplicaes usadas para analisar e organizar uma
srie de dados.
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
13
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
14
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) O grande desafio do profissional de TI que gerencia qualquer processo a anlise dos fatos
relacionados funo que exerce em uma organizao. Essa anlise deve ser feita com as
ferramentas e os dados disponveis, permitindo aos executivos e gerentes detectar as
tendncias e tomar as decises com eficincia e eficcia. Devido a essa necessidade, surgiu o
conceito de Business Intelligence - "BI".
Assinale a alternativa que indique duas caractersticas dos atuais sistemas de Business
Intelligence.
a) procurar relaes de causa e efeito / extrair e integrar dados de mltiplas fontes.
b) evitar a utilizao de ferramentas automatizadas / desprezar dados
contextualizados.
c) extrair e integrar dados de mltiplas fontes / evitar a utilizao de ferramentas
automatizadas.
d) desprezar dados contextualizados / trabalhar exclusivamente com fatos reais e no
hipotticos.
e) trabalhar exclusivamente com fatos reais e no hipotticos / procurar relaes de
causa e efeito.
2) Business Intelligence (BI) refere-se ao processo para tomada de decises em uma empresa,
sendo de elevada importncia a existncia de um repositrio prprio para os dados
consolidados e j transformados em "informao real", que pode ser um Data Warehouse ou
um Data Mart. Nesse contexto, duas aplicaes so identificadas: a primeira, que sustenta o
negcio por meio de ferramentas OLTP (On Line Transaction Processing), e a segunda, que
analisa o negcio por meio de ferramentas OLAP (On Line Analytical Processing). Essas
aplicaes tm, como objetivos principais, respectivamente:
a) levantamento e armazenamento de dados/ implementao de testes.
b) controle e registro de transaes/identificao de tendncias.
c) projeto e anlise de sistemas/transformao de processos.
d) pesquisa e teste de software/especificao de requisitos.
e) busca e coleta de informaes/substituio de rotinas.
3) A rea de BI - Business Intelligence est diretamente envolvida com os projetos de
implementao das aplicaes de
a) B2B, B2C e BSC.
b) EAI, B2B e B2C.
c) EAI, CRM e ERP.
d) CI, KMS e BSC.
e) CRM, PRM e ERP.
4) A inteligncia do negcio (eventualmente mais conhecida como Business Intelligence)
I. construda quando a arquitetura de TI especificamente orienta-se para os
interesses ou especialidades do negcio de forma exclusiva.
II. utiliza ferramentas que consolidam, analisam e acessam vastas quantidades de
dados para ajudar os usurios a tomar melhores decises empresariais.
III. utiliza como principais ferramentas os softwares para consulta e relatrios de banco
de dados, ferramentas para anlise multidimensional de dados e o data mining.
15
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
16
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
O banco de dados SAD que uma coleo de dados atuais e histricos de uma
variedade de sistemas ou grupos pode ser um pequeno banco de dados em um
computador isolado ou ele pode ser um poderoso data warehouse continuamente
atualizado por dados organizacionais.
O sistema de software pode conter vrias ferramentas OLAP, ferramentas de
datamining ou uma coleo de modelos matemticos ou analticos que podem ser
facilmente acessados pelo usurio do SAD.
A interface do SAD que permite ao usurio interagir com o sistema de software deve
ser simples.
Um modelo de SAD pode ser fsico, matemtico ou verbal, visto que cada SAD
construdo para um propsito, ele poder fazer diferentes colees de modelos
disponveis na organizao dentro da realidade do propsito desejado. Os modelos
mais conhecidos e utilizados so:
Modelos estatsticos;
Modelos de otimizao ou Modelos de previso;
Modelos de biblioteca e
Modelos de anlise de sensibilidade
18
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) O sistema de apoio a deciso
a) visa obter informaes de todos os nveis a partir de informaes detalhadas
armazenadas nos sistemas de processamento de aes.
b) analisa dados on-line coletados por sistemas de processamento de transio,
para ajudar as pessoas a executar aes operacionais.
c) visa obter informaes de alto nvel a partir de informaes gerenciais
armazenadas nos sistemas de processamento de documentos.
d) analisa dados coletados por sistemas de processamento de inovao, para ajudar
as pessoas a viabilizarem aes de transcries.
e) analisa dados on-line coletados por sistemas de processamento de transao,
para ajudar as pessoas a tomarem decises de negcios.
2) Um sistema de apoio deciso informatizado, no seu modelo bsico, tem quatro
componentes. Assinale qual dos relacionados abaixo NO um desses componentes.
a) Sistema de Gerncia de Metadados em Data Warehouse (SGMD)
b) Sistema de Gerncia de Banco de Modelos (SGBM).
c) Sistema de Gerncia de Banco de Dados (SGBD).
d) Sistema de Gerncia de Interface.
e) Usurio.
3) Sistemas so conjunto de tarefas, controles e programas que interagem de maneira
a obter resultados complementares e tm como objetivo um fim certo e planejado.
Como exemplo, pode-se citar um modelo genrico de tomada de deciso que analisa
um grande nmero de variveis, para que seja possvel o posicionamento a uma
determinada questo. Trata-se de um sistema denominado:
a) Sistema de Informaes Executivas (SIE).
b) Sistema de Apoio Deciso (SAD).
c) Sistema de Informaes Gerenciais (SIG).
d) Automao de Escritrios (AE).
4) Os sistemas de apoio deciso so sistemas que ajudam na anlise de informaes
do negcio. Os Banco de Dados de apoio deciso exibem certas caractersticas
especiais. NO uma caracterstica adicional dos Bancos de Dados de apoio deciso.
a) Em geral, a integridade uma preocupao (supe-se que os dados esto
corretos quando so carregados pela primeira vez e no so atualizados
subsequentemente).
b) As colunas tendem a ser usadas em combinao.
c) As chaves frequentemente incluem um componente temporal.
d) O Banco de Dados tende a estar fortemente indexado.
e) O Banco de Dados envolve frequentemente vrios tipos de redundncia
controlada.
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
ETAPAS DO PROJETO DE BI
O projeto de BI deve ser realizado de forma iterativa, dividindo a tarefa macro em
iteraes com objetivos menos ambiciosos e mais facilmente delimitados.
De uma maneira geral as etapas do projeto de BI organizam-se da mesma forma que
os projetos de engenharia em geral.
Justificativa:
Avaliao
das
necessidades que motivam o projeto.
Planejamento: Planejamento ttico
e estratgico que definem como o
projeto ser cumprido e entregue.
Anlise de negcio: Anlise
detalhada
do
problema
ou
oportunidade de negcio para
entendimento dos requisitos de uma
potencial soluo o produto.
Projeto: Concepo de um produto
que resolva o problema ou aproveite a
oportunidade.
Construo: Desenvolvimento do
produto que trar o retorno sobre o
investimento desejado em um perodo pr-determinado.
Entrega: Implantao ou venda do produto finalizado, mensurao da efetividade
para definir se o retorno sobre o investimento foi alcanado, excedido ou falhou.
ETAPAS DO PROJETO DE DESENVOLVIMENTO ITERATIVO
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
ANLISE DO NEGCIO
PLANEJAMENTO
JUSTIFICATIVA
Oportunidade de Negcio
Problema ou oportunidade de negcio definido e soluo de BI proposta
Justificativa do custo de cada verso do aplicativo de BI e definio clara dos
seus objetivos
Avaliao da Infraestrutura Empresarial
Infraestrutura Tcnica: hardware, software, middleware, SGBDs, sistemas
operacionais, componentes de rede, repositrios de metadados, utilitrios,
etc.
Infraestrutura No Tcnica: padres de metadados, padres de nomenclatura
de dados, modelo de dados empresarial, metodologias, padres de teste,
resolues de disputas, etc.
Planejamento do Projeto
Detalhamento de escopo, equipe, oramento, tecnologia, representantes do
negcio
Acompanhamento prximo do progresso do projeto
Definio dos Requisitos do Projeto
Definio do escopo do projeto.
Definio dos requisitos mnimos de cada iterao.
Anlise de dados
Anlise da qualidade dos dados disponveis nas fontes
Adaptao dos modelos de dados existentes s fontes de dados e requisitos
dos usurios.
Consolidao e conciliao dos dados provenientes de diversas reas da
organizao que muitas vezes se valem de regras de negcio e padres de
modelagem distintos para cada rea.
Prototipagem do Aplicativo
Anlise das verses funcionais do aplicativo
Utilizao de ferramentas de prototipagem rpidas oferecidas pelos principais
frameworks de desenvolvimento ou mesmo de terceiros
Percepo das potencialidades e limites da tecnologia pelas equipe de
negcios
Ajuste dos requisitos de projeto e expectativas
Anlise do Repositrio de Metadados
Definio dos metadados a serem capturados e armazenados
Mapeamento dos metadados de negcio nos metadados da ferramenta de BI
Definio da utilizao de um repositrio comercial ou do desenvolvimento de
um repositrio prprio
21
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
CONSTRUO
PROJETO
22
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
ENTREGA
Implementao
Verificao e teste exaustivo de todos os componentes do aplicativo de BI
Treinamento da equipe de negcios e demais stakeholders
Disponibilizao de helpdesk
Manuteno das bases de dados de BI
Agendamento e execuo das tarefas de ETL
Monitoramento de desempenho
Ajuste das bases fonte
Avaliao da Verso
Houve respeito aos prazos e oramentos?
Como foram solucionadas as disputas?
Quais ajustes foram feitos nos processos?
Avaliao das ferramentas, tecnologias e processos
medida que as pessoas envolvidas com o projeto conhecem mais a soluo de BI,
as potencialidades e limitaes da tecnologia ficam mais claras e os requisitos
impostos por esses usurios podem mudar. importante que a equipe de
desenvolvimento entenda essa situao para no se frustrarem.
importante considerar tambm que nem todos os requisitos dos usurios so
estratgicos nem precisam ser mapeados em estruturas multidimensionais.
Por mais modernas que sejam as ferramentas de ETL, dificilmente todas as
particularidades sero contempladas. Dessa forma, o desenvolvimento de extenses
dos aplicativos torna-se uma tarefa quase obrigatria para a realizao desse tipo de
tarefa de forma adequada.
Uma das tarefas mais importantes no desenvolvimento iterativo a anlise daquilo
que funcionou e daquilo que deve ser melhorado na prxima iterao. O aprendizado
a respeito da metodologia e da forma de trabalho da equipe deve ser contnuo,
adaptando a soluo e a metodologia de desenvolvimento a cada verso lanada.
23
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EQUIPE DO PROJETO DE BI
A equipe de desenvolvimento do projeto de BI deve possuir habilidades
complementares para alcanar os objetivos com sucesso. Deve-se ter pessoal
especializado especialmente para o desenvolvimento de ETL, do aplicativo e dos
repositrios de dados e metadados.
A equipe dividida em dois grupos fundamentais:
Equipe fundamental (core): auto-organizada com redistribuio de tarefas
entre si bem como auto-anlise do trabalho.
Equipe extendida: participam do projeto sem que ele seja sua principal
atividade. Podem ter um cronograma de atuao junto equipe fundamental
ou participarem de sesses onde sua expertise necessria.
EQUIPE FUNDAMENTAL
Um grupo restrito de 4 ou 5 (nunca mais que 7) participantes ter 100% de sua
disponibilidade alocada no projeto de BI do seu incio at o fim. Esse grupo de
membros permanentes ser responsvel pela liderana do projeto e ter atribuies
como:
Gerente de projeto
Representantes do negcio
Analista do departamento de TI
Tcnico (analista ou programador snior) de TI
H tambm membros permanentes das etapas, que ficam 100% alocados no projeto
durante as etapas nas quais seus conhecimentos so requeridos. Dentre eles
destacam-se:
Desenvolvedor lder do aplicativo: projeta e acompanha o desenvolvimento do
aplicativo de acesso e anlise de dados
Arquiteto de Infraestrutura de BI: estabelece e mantm a infraestrutura
tcnica de BI. Apesar de fazer parte da equipe fundamental, em geral, est
hierarquicamente subordinado ao arquiteto estratgico do time estendido.
Representante do Negcio: participa da modelagem das sesses, definies de
dados, escreve casos de teste, toma decises de negcios, resolve disputas
entre unidades de negcio e aumentam a qualidade dos dados sob controle da
unidade de negcio de BI.
24
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EQUIPE ESTENDIDA
Os membros da equipe estendida so aqueles que no se dedicam exclusivamente ao
projeto em momento algum do ciclo de desenvolvimento mas so utilizados na
realizao de tarefas especficas no seu desenrolar.
Nesse grupo demos listar:
Administrador de Dados: analisa os dados inter-oganizacionais, cria modelos
lgicos especficos para o projeto, mescla os modelos lgicos de dados com os
modelos lgicos organizacionais.
Especialista em Minerao de Dados: seleciona e executa as tarefas de
minerao de dados
Analista de Qualidade de Dados: avalia a qualidade da fonte de dados e
prepara as especificaes de limpeza para a tarefa de ETL
Administrador de Banco de Dados: projeta, carrega, monitora e faz a sintonia
das bases de dados
Desenvolvedor Lder de ETL: projeta e acompanha os processos de ETL
Desenvolvedor de Aplicativo: codifica os programas de relatrios e
dashboards, escreve consultas e desenvolve os programas de acesso e anlise
de dados
Suporte de BI: mentoring e treinamento da equipe de BI
Patrocinador Empresarial: coloca o projeto de BI em evidncia na empresa e
elimina os entraves dentro da organizao
Desenvolvedor de ETL: codifica programas e configura as ferramentas de ETL
Auditor de TI
Analista de QA: determina os riscos e exposio do projeto de BI devido
perda de controle interno ou fatores externos, o profissional responsvel por
atuar com auditorias internas e externas
Desenvolvedor do Repositrio de Metadados: codifica programas de migrao
de metadados e carregar os repositrios.
Equipe de Servios de Rede: mantm o ambiente de rede.
Equipe Operacional: executa os programas em lote de ETL, sistemas de acesso
e anlise de dados e do repositrio de metadados.
Executivo de Segurana: garantem que os requisitos de segurana estejam
definidos e que as funcionalidades de segurana sejam testadas nas
ferramentas e bases de dados.
Stakeholders: cuidam de responsabilidades especficas no projeto de TI de
acordo com sua funo e habilidades
Arquiteto Estratgico: gerencia a infraestrutura tcnica da organizao
Equipe de Servios Tcnicos: mantm a infraestrutura de hardware e sistemas
operacionais
25
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
TIPOS DE SOLUO DE BI
As aplicaes de BI podem ser
dividias em 7 subgrupos
principais que diferem entre si
pela forma de acesso e exibio
dos dados e pelo tipo de anlise
oferecida.
So elas:
Consulta direta base
Minerao de dados
Relatrios padronizados
Aplicativos Analticos
Dashboards
Scorecards
BI Operacional
A maior parte das ferramentas pode ser acessada atravs de um portal corporativo de
BI enquanto algumas funcionam como aplicaes standalone ou mesmo integrada a
outros sistemas de negcio.
A forma de acesso pode ser dividia entre:
Ad hoc: acesso customizado feito individualmente pelo usurio, destinado a
usurios experientes familiarizados com a construo de consultas e tarefas de
minerao de dados
Push-button: relatrios disponveis a partir da seleo de parmetros prdeterminados ou mesmo com opes padro
Relatrios operacionais: exibem sempre as mesmas informao sem a
possibilidade de o usurio os configurar
A anlise oferecida pelos aplicativos pode ser:
Estratgica: utilizada para a tomada de deciso de alto nvel na empresa, em
geral direcionada a cargos gerenciais e diretoria
Ttica: utilizada na operao ou produo, visa dar suporte s atividades de
rotina da empresa
26
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
Considere a Figura abaixo para as questes 1, 2 e 3:
27
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
29
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Tabelas fatos:
o Contm valores (mtricas)
o E as chaves
o Podem existir vrias no modelo
o Pk=concatenao de Fk das dimenses
o Uso de chaves sequenciais
30
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Tabelas dimenses
o Pontos de entrada
o Hierarquias e nveis de quebra
o Granularidade coerente com fato
31
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
32
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
SCHEMA ESTRELA
o Dimenses desnormalizadas
o Voltado para acessos com mais performance
o Hierarquias achatadas
o Uma tabela fato ao centro e as dimenses ligadas ela.
SCHEMA SNOWFLAKE (flocos de neve)
o Modelo similar a Entidades e Relacionamentos
o Tabelas em cascata
o Normalizado
o Hieraquias mantidas
o Muitas tabelas
o Muitas junes 1 : N
SCHEMA STARFLAKE
o Combinao das duas anteriores
o Dimenses com N x N com outras tabelas
GALAXY SCHEMA
o Vrias fatos
o As dimenses podem estar dispostas de formas diversas
o As fatos no se relacionam
33
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Data Warehouse uma coleo de dados orientada por assuntos, integrada, variante
ao tempo, e no voltil, que tem por objetivo dar suporte aos processos de tomada de
deciso.
Tem-se duas estratgias para elaborao de um DW, que so defendida pelos dois
principais autores:
Monoltica - tudo de uma vez (Bill Inmon - DW)
Incremental - passo a passo (Ralph Kimball - Data Marts)
Tambm pode-se pensar em uma convergncia destes dois mundos:
Data Marts com plano de integrao definido para o DW
Integrao evolutiva implementao gradativa
34
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
DATA WAREHOUSE
Os dados disponveis nos Data Warehouses podero ser acessados pelos gerentes,
analistas e usurios finais, possibilitando a realizao de vrias tarefas, tais como
processamento analtico (OLAP) ou inteligncia empresarial (BI business intelligence).
O Data Warehouse - armazm de dados - armazena o acmulo de dados histricos.
Pode conter dados por muitos anos, com tamanho de armazenamento muito grande.
Normalmente depois de completadas as transaes comerciais na aplicao ou no
armazenamento de dados operacionais, elas so transferidas para o warehouse.
Tambm pode-se estabelecer uma periodicidade adequada para esta transferncia dos
dados.
Para o funcionamento da inteligncia empresarial, os dados brutos operacionais,
mantidos nos bancos de dados corporativos, espalhados por vrios sistemas da
organizao e em fontes heterogneas, so colocados (processo de ETL extrao,
transformao e carga) em um Data Warehouse.
Usando ferramentas de inteligncia nos negcios, so feitas consultas, relatrios
diversos, ou quaisquer outras anlises, como grfico e relatrios. Pode ser iniciado
tambm o processo de Data Mining - minerao de dados. (Figura abaixo).
35
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
36
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Machado (2004) explica que, de forma geral e como demonstrado na figura abaixo
a estrutura do DW est em evoluo. A evoluo pode ser considerada como uma
resposta complexidade deste ambiente e dificuldade de integrar todos os
componentes. Os sistemas transacionais (OLTP) do o incio a esta construo
incremental.
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Tempo:
o Nvel dirio
o Nvel semanal
o Nvel mensal, etc
38
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
39
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) Com relao aos conceitos de modelagem dimensional, assinale a opo correta.
a) Na abordagem utilizada por Kimball, todos os dados de uma empresa so
reunidos em um repositrio central, caracterizado por um projeto dimensional, e
que pode ser consultado diretamente.
b) A abordagem de Inmon consolida todas as informaes de uma empresa em um
repositrio central chamado data warehouse corporativo. Essa abordagem
caracterizada por um projeto na terceira forma normal, no qual os dados so
consultados diretamente por aplicativos de data warehouse.
c) Na abordagem de Kimball, os data marts so adaptados s necessidades e pontos
de vista de um grupo de negcios especfico, suportando a modelagem
dimensional, e so consultados por aplicativos de data warehouse.
d) A abordagem de data marts autnomos tem foco empresarial e atende s
necessidades dentro de uma rea de assunto. Seu desenvolvimento necessita
explorar o uso de elementos de dados comuns em toda a empresa.
e) Se, em um sistema transacional usando-se um esquema estrela, um cliente,
identificado por Codigo_do_cliente 1010, modificar o seu endereo da empresa
sede, ento, para fins analticos, no ser possvel acompanhar a histria de
endereos desse cliente, pois, nessa abordagem, depende-se de Codigo_do_cliente
para identificar uma linha exclusiva na dimenso cliente, de tal forma que no
possvel armazenar vrias verses do cliente.
2) A literatura especializada lista quatro etapas a serem seguidas nos processos de
Modelagem Dimensional no que concerne Data Warehouses e Data Marts. Essas
etapas caracterizam-se pela identificao/especificao:
a) do processo de negcio; da granularidade; das dimenses; das medidas;
b) da granularidade; das dimenses; das medidas; do ETL;
c) das dimenses; das medidas; do modelo fsico da base de dados; do ETL;
d) das dimenses; das medidas; do modelo lgico da base de dados; do ETL;
e) do processo de negcio; das dimenses; das medidas; do modelo lgico da base
de dados.
40
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
41
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Tempo, pois
Cliente, pois
nmero de
item dessas
43
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) Um dos modelos mais utilizados na modelagem de data warehouses o modelo
dimensional, sobre o qual correto afirmar que
a) o nmero mnimo de tabelas dimenso em um modelo dimensional 2.
b) cada modelo dimensional contm, pelo menos, 2 tabelas fato
c) as tabelas dimenso contm atributos que visam descrever caractersticas de
cada dimenso.
d) cada tabela fato no pode conter mais do que 10 atributos.
e) a cardinalidade do relacionamento entre tabelas dimenso e tabelas fato de 1
para 1.
44
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
TABELAS FATO
CONCEITOS
tabela dominante (principal) em um modelo de DW - podem existir vrias no mesmo
DW. Fica rodeada pelas tabelas Dimenso. O armazenamento de valores das medidas
e o volume de dados histricos muito grande.
Para as PKs usa chaves SK (surrogate key numrico, sequencial, sem significado), e
a convergncia das FKs das Dimenses.
As tabelas Fato so compostas basicamente pelas chaves (atributos qualitativos das
tabelas Dimenso) e pelas mtricas (atributos quantitativos).
MTRICAS E GRANULARIDADE
Escolher para a tabela Fato os atributos numricos. Tpicos:
Quantidade
Valor
Custo do produto
Lucro
Consumo
Etc.
Decidir a granularidade pensando nas dimenses. Ex: Hora ou Dia?
As dimenses devero estar em conformidade (servir de perspectivas para as anlises).
Ex: De acordo com a escolha (Hora ou Dia), dados das dimenses devero estar
preparados.
FATOS E SEUS DADOS
Manter conformidade/coerncia tambm entre fatos e as medidas/valores, com o
mesmo sentido, frmulas de clculos, etc. Lembre-se, porm: as tabelas Fatos so
gigantescas (alto volume) e isso requer compromissos na escolha de seus campos.
Compromisso entre performance e armazenamento.
Campos candidatos a remoo:
Campos usados por poucos usurios
Campos que no tenham valor de negcio
Campos potencialmente derivados (conceito de elementos virtuais)
Ex: valor total (valor unitrio * quantidade do item)
45
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Estratgia:
o Mltiplas tabelas fato e dados especficos
o Dimenses nicas e conformes
46
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CUBOS
OLAP x OLTP
OLAP: On-line Analytical Processing - Processamento analtico on-line. Refere-se ao
conjunto de processos para criao, gerncia e manipulao de dados multimensionais
para anlise e visualizao pelo usurio em busca de uma maior compreenso destes
dados. usual a expresso ferramenta OLAP, referindo-se aos sistemas com estas
funcionalidades e que so, juntamente com o SGBD, a base do ambiente de DW.
OLTP: On-line Transaction Processing
Dados orientados a transaes (T)
Ambiente com alta taxa de transaes
Dados so atualizados
Dados relacionais
OLAP: On-line Analytical Processing
Dados orientados a anlise (A) de informao
Ambiente de baixa taxa de transaes
Dados so consultados
Dados so atualizados em perodos de tempo
Dados dimensionais
CONCEITOS DE CUBOS
Cubos so estruturas dinmicas para gerar os relatrios OLAP. Podem ter vrias
dimenses: tempo, regio, produto, etc. Nossa viso consegue perceber at trs
dimenses no Cubo, mas podem ter mais. Cubos diferem de relatrios tradicionais
(Transacionais) que so estticos.
So estruturas de dados que forma um subconjunto de um banco de dados grande
(DW). Podem ser manipulados e visualizados por inmeros ngulos e diferentes nveis
de agregao, onde possvel, atravs de suas dimenses (faces ou eixos), analisar
uma determinada situao.
Um cubo criado tendo em mente o tipo de consulta que um gerente de projeto
deseja fazer. Ao projetar um cubo importante levar em conta as provveis consultas
que podero ser feitas. O projeto de um cubo deve priorizar a escolha e a organizao
das dimenses que podem influenciar nas medidas relacionadas para a tomada de
deciso.
DW e Data Marts so compostos de N cubos, porm o cubo implementado
separadamente. Cada cubo uma viso dimensional de dados formado por:
Uma tabela fato e N tabelas dimenses;
47
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
Pode ter mais de uma tabela fato, mas nunca interligadas as dimenses que
as interligam;
SLICE X DICE
Seleo e projeo do cubo de dados
Slice (fatia): seleo / projeo com variao de valores (fatia) de uma ou mais
dimenses.
o Exemplo: as vendas da regio Norte, no ano 2011, de todos os Produtos
Dice (dados): seleo / projeo de valores fixos em todas as dimenses.
o Exemplo: as vendas da regio Norte, no ano 2011, do Produto X
48
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CONSTRUO DO DW
AS FASES PARA CONSTRUO DE UM DW
importante enumerar as fases de um projeto para construo de um DW:
1.
2.
3.
4.
5.
49
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
50
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
51
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
EXERCCIO
1) Um depsito de dados utilizado para armazenar, de forma consolidada,
informaes relativas s atividades de uma organizao em bancos de dados.
Nesse contexto, o datawarehouse possibilita a anlise de grandes volumes de
dados, coletados dos sistemas transicionais, permitindo uma melhor anlise de
eventos passados, oferecendo suporte s tomadas de decises presentes e
deciso de eventos futuros.
Com relao ao datawarehouse, analise as afirmativas a seguir.
I. Caracterizase pela volatilidade dos dados, facilitando a realizao de frequentes
atualizaes dos mesmos.
II.
Aplicaes OLAP destinamse anlise e manipulao de dados do
datawarehouse sob mltiplas perspectivas.
III. ETL so ferramentas que realizam a extrao de dados de diversos sistemas,
a transformao desses dados conforme regras de negcios e a carga dos
mesmos em um datawarehouse.
Assinale:
a) se somente a afirmativa I estiver correta.
b) se somente a afirmativa II estiver correta.
c) se somente a afirmativa III estiver correta.
d) se somente as afirmativas I e II estiverem corretas.
e) se somente as afirmativas II e III estiverem corretas.
2) A tecnologia de Data Warehouse oferece suporte s ferramentas OLAP, que
apresentam vises multidimensionais de dados permitindo a anlise das operaes de
negcio para facilitar a tomada de decises. Estas ferramentas suportam algumas
operaes de maneira a dar aos analistas o poder de observar os dados de vrias
maneiras em nveis diferentes. Considere duas destas operaes mostradas nas figuras
abaixo.
52
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
54
CURSO DE PS-GRADUAO EM
BANCO DE DADOS
Prof. M.e ORNLIO HINTERHOLZ JUNIOR
ALGUMAS REFERNCIAS
55
EXERCCIOS PRTICOS
Obs.: Voc tambm pode abrir o step para edio clicando com o boto direito e
escolhendo a opo Editar Step.
7 Na rvore de steps, expanda a opo Flow e arraste e solte o cone do step Dummy
para a rea de trabalho da transformao.
8 Vamos criar um hop para ligar os dois steps. Clique com o boto direito no step
Generate Rows, segure a tecla Shift e arraste o cursor do mouse para o step Dummy.
12 Aps carregar a janela de dilogo de Preview, clique no boto Quick Launch para
visualizar o resultado da transformao.
13 O que foi feito nessa transformao? O step Generate Rows simplesmente gera
vrias linhas de registros, de acordo com os parmetros informados. Experimente
editar o step para acrescentar outros campos e mudar o tamanho do conjunto de
registros gerados. O step Dummy apenas recebe os registros gerados e no faz nada.
14 Um pequeno detalhe: ns no executamos a transformao, apenas visualizamos
uma prvia de sua execuo. Para executar a transformao clique no boto Run e
aps abrir a janela de dilogo clique no boto Launch.
4 Adicione um step Add constants, do tipo Transform. Edite o step com as seguintes
informaes nos campos Nome, Tipo e valor:
- Nome: mensagem; Tipo: String; Valor=Hello World
- Nome: exclamao; Tipo: String; Valor=!
-Nome: espao; Tipo: String; Valor= (espao em branco)
6 Ainda nos steps do tipo Transform, adicione um Add Sequence. Em seguida, crie um
hop ligando o Add constants ao Add sequence. Edite esse step para ver os seus
parmetros (no vamos alter-los para esse exerccio).
7 Entre nas opes de steps do tipo Output e adicione um step Text file output. Em
seguida, crie um hop ligando o step Add sequence a Text file output. Edite as
configuraes do step:
- Na aba File, digite o caminho de um arquivo de texto com o nome resultado (o step
adiciona por default a extenso .txt) no campo Filename.
6 Clique no boto Test para verificar se a conexo com o banco est OK. Em seguida,
retire o texto ;create=true da Url de conexo (caso contrrio, as tabelas sero
apagadas e criadas a cada inicializao da conexo). Clique em OK.
6- Podemos tornar a conexo visvel para todas as transformaes e Jobs de nossa
instalao do PDI. Para isso, clique com o boto direito em cima da conexo criada
e escolha a opo Share. Note que o texto da conexo est em negrito agora.
7- O banco criado est vazio, sem nenhuma tabela. Mais adiante vamos utilizar essa e
outras conexes para a modelagem dimensional e a execuo do processo de ETL.
Exerccio 4 Extraindo dados de um arquivo texto, realizando uma transformao e
carregando o resultado em um arquivo texto.
1 Para realizar esse exerccio voc precisar de dois arquivos armazenados na pasta
Bases: capes.xls e ies.csv. O primeiro contm informaes sobre a avaliao dos
programas de Ps-Graduo das Instituies de Ensino Superior (IES) do pas. O
segundo arquivo uma tabela de lookup contendo o cdigo e a sigla das IESs. Vamos
mostrar a extrao de dados a partir de dois arquivos (Excel e CSV), uma pequena
transformao e o carregamento dos dados em um arquivo texto. Abra a planilha e
veja que o campo ies possui a sigla da instituio. Queremos gravar em um arquivo
texto parte dos dados da planilha e o cdigo da instituio no lugar de sua sigla.
Para iniciar, abra o Spoon e crie uma nova transformao.
2 Abra a categoria Input e adicione os steps Excel Input e CSV file input. Em seguida,
expanda a categoria Lookup e adicione o step Stream lookup. Da categoria Transform,
adicione o step Select values. Da categoria Output, adicione o step Text file output. Por
fim, crie os hops para conectar os steps, de acordo com a figura abaixo.
Na rea de trabalho, clique com o boto direito em cima do step Stream lookup
e escolha a opo Mostra campos de sada. Observe que temos agora 40
campos (o ltimo o campo que denota o id da instituio).
Aba Remove
o Clique no boto Get fields to remove e exclua os seguintes campos:
area, codigo_programa, ies, nome_programa, inicio_mestrado,
inicio_doutorado, conceito_recomendado e id_instituicao.
A lista de campos que queremos excluir dever ter a
configurao abaixo.
Salve a transformao e veja os campos de sada do step, clicando com o boto direito
em cima dele.
8 Vamos editar o step Text file output com os seguintes parmetros:
Aba File
o Filename: <path>\resultado
Aba Fields
o Clique no boto Obtm campos e veja os campos que sero gravados.
Alteraes de formato, tamanho, etc. podero ser feitas diretamente na
grade.
o Clique no boto Minimal width e veja que o step fornece um formato
padro para os campos.
9 - Salve a transformao. Na rea de trabalho, clique com o boto direito em cima do
step Text file output e escolha a opo Preview. Na janela de dilogo, marque a opo
Text file output, conforme a figura abaixo. Se tudo foi configurado corretamente, ser
mostrada uma amostra dos dados que sero gravados.
4 Para garantir que os arquivos sero lidos usando a expresso regular, clique no
boto Show filename(s) e veja a lista de arquivos que sero lidos. Salve a
transformao e execute-a, observando o arquivo gerado.
Exerccio 7 Selecionando, alterando campos e gerando a sada em uma planilha.
1 Vamos melhorar o cabealho do arquivo gerado. Abra o exerccio anterior e edite o
step Select values. Remova todos os campos selecionados nas abas Remove e Metadata.
2 Na aba Select & Alter digite os nomes dos campos, de acordo com a figura abaixo.
Salve a transformao e veja os campos de sada do step.
3 Clique no step File text output e apague-o. Da categoria Output, crie um step do
tipo Excel output. Crie um hop ligando os steps Select values e Excel output.
4 Edite o step Excel output com os seguintes parmetros:
Aba File
o Filename: o caminho e nome da planilha gerada.
Aba Fields
o Clique nos botes Obtm campos e Minimal Width
(opcional) Aba Content
o Explore as opes da aba (Split, sheet name, protect, templates)
5 Salve a transformao e veja a sua execuo.
4- Clique em Preview rows para visualizar uma prvia dos dados extrados.
5- Salve a transformao e edite o Step Excel output para gravar o resultado em uma
planilha.
6- Rode a transformao e veja os dados dos pases em formato de planilha.
3 Adicione um step Select values. Crie um hop ligando o Text file input ao Select
values. Edite esse ltimo step com os parmetros mostrados na figura abaixo. Esse
step necessrio para formatar os dados lidos no arquivo.
5 Crie um novo step Select values e hop ligando o Calculator ao novo step. Selecione
e altere os campos que sero enviados para o step de carregamento, de acordo com a
figura abaixo.
6 Crie um step Dummy apenas para visualizar os dados em modo de preview (se
preferir, salve o resultado em um arquivo texto ou planilha). O preview dos dados
dever ser semelhante ao da figura abaixo. Salve a transformao.
frmula
6 Edite o segundo step Select values para selecionar os campos que sero
armazenados, conforme a figura abaixo. Teste a transformao em preview. Salve a
transformao.
Faa um preview dos dados e veja se o step mapeou o valor arredondado da mdia
para um conceito, variando entre A e E.
2 Crie dois steps do tipo Dummy e dois hops, saindo simultaneamente do step Excel
input e conectados com cada Dummy, de acordo com a figura abaixo.
Ao aparecer a janela de dilogo, responda que voc quer realizar uma cpia.
2 Execute a transformao e veja o nmero de registros lidos por cada step Dummy.
Esse cdigo cria um campo Film e preenche o seu valor com o nome do filme. D um
preview no step e verifique se o campo ser preenchido corretamente.
3 Em seguida, crie um step do tipo Filter rows. Nosso objetivo agora filtrar todas as
linhas que esto com o campo descricao nulo. Edite esse step com a seguinte
condio:
4 O prximo passo fazer a converso dos dados de linhas para colunas. Para isso,
vamos criar um step do tipo Row denormalizer, da categoria Transform. Edite esse
step de acordo com a figura abaixo.
A partir do campo filme, a linhas com o contedo Ano, Gnero, Diretor e Atores so
convertidas em colunas, com o valor do campo descrio. D um preview na
transformao e veja os valores convertidos.
5 O ltimo passo preencher as colunas com valores vazios com a string n/a. Para
isso, vamos criar um step do tipo If field value is null, da categoria Utility. Edite o step
de acordo com os parmetros abaixo.
2 Crie uma nova transformao e adicione um step do tipo Execute SQL script, da
categoria Scripting. Edite o step, escolhendo a conexo pdi_labs_con no campo
Connection. Em seguida, abra o arquivo scripts-js.sql em um editor de texto, copie e
cole o seu contedo no campo SQLscript to execute. Salve a transformao e execute.
A base de dados do exemplo possui 9 tabelas, de acordo com uma breve descrio de
suas caractersticas abaixo:
Tabela
manufacturers
Descrio
Informaes sobre os fabricantes dos produtos
products
countries
cities
customers
buy_methods
payment_methods
Salve a transformao e repita esse passo para cada step Table output.
5 Para verificar se as tabelas foram realmente carregadas, clique na opo View,
expanda a rvore de conexes e clique com o boto direito em cima da conexo
pdi_labs_con, escolhendo a opo Explorar. Escolha uma tabela e clique na opo
Preview First 100 rows of <nome_da_tabela>.