Escolar Documentos
Profissional Documentos
Cultura Documentos
O que OLAP?
Processamento de dados, dedicado ao suporte a deciso, por meio de visualizao de dados agregrados ao longo de vrias dimenses analticas (tempo, espao, categoria de produto, quantidade vendida, preo...), hierarquizadas em vrias granularidades, armazenados em BD especializadas, seguindo um modelo lgico de dados multidimensional, chamados de Data Warehouse, Data Mart ou BD multidimensionais
Quais foram os produtos mais vendidos no ms passado ? A mdia salarial dos funcionrios de informtica com menos de 5 anos de experincia maior do que a mesma para funcionrios de telecomunicao? Qual foi o total de vendas o ms passado por regio de vinhos tintos importados da Europa?
Por quais semanas, quais produtos e quais cidades, a variao de venda de produtos em promoo em comparao da semana anterior sem promoo foi 15%
BD operacional:
armazena valores correntes e atmicas resultantes direitas das ltimas transaes a fins operacionais predefinidas
Data Warehouse:
integra e padroniza dados de vrios:
Data Mart:
armazena rplicas histricas, no volteis, agregadas ao longo de vrias dimenses analticas as vezes limpadas, completadas e normalizadas em termos de escala e distribuio de dados de um nico banco operacional a fins analticas abertas de escopo departamental
em um nico repositrio coerente e limpo de dados a fins analticas abertas de escopo organizacional
OLTP
Funo Usurio humano
OLAP
Auxiliar tomada de deciso Executivo, Analista, Eng. de Conhecimento Aplicativos de minerao de dados, anlise matemtica, ... Multidimensional, orientado por assuntos Mltipla e agregada Histrico dos valores, completado periodicamente Complexas e ad-hoc Essencialmente ler Junes, varreduras 106 [0-10] GB-TB Flexibilidade, interatividade Nmero e tempo de cada consulta
Automatizar operaes dirias Cliente, Atendente, DBA contabilidade, ... Relacional, orientado por aplicaes nica e atmica Apenas valor corrente atualizada continuamente Simples e predefinidas Tanto ler quanto escrever Acessos via ndice e hash 10 103 MB-GB Disponibilidade, eficincia Numero de transaes
Granularidade Temporalidade dos dados Consultas Direo Envolve Registros Usurios Bytes Prioridade
Mtrica
Cuboide:
Dimenso analtica:
Espao de dimenso N para anlise de dado Atributo geralmente categrico Escolhido como eixo no espao analtico N-dimensional Campo de uma tabela do BD relacional fonte
Medida:
Atributo geralmente numrico Escolhido como ponto no espao analtico N-dimensional Agregao de valores de um campo de uma tabela do BD relacional fonte, calculada por group-by de outros campos da relao ex, valor total das vendas, valor mdia das vendas, quantidade
vendidas,
Q1
Sup1
Sup2
Q2
Sup1 Sup2
Q3
Sup1 Sup2
Q3
Sup1 Sup2
Q4
Sup1 Sup2
c lo
tim e (quarters)
Chic ago New Y ork T oronto Vanc ouver Q1 605 825 14 Q2 Q3 Q4 c omputer sec urity home phone entertainment item (types) c omputer sec urity home phone entertainment item (types) c omputer sec urity home phone entertainment item (types) 400
io at
Reticulado de Cuboides
all 0-D (apex) cuboid
time
item
location
supplier
1-D cuboids
time, item
item, supplier
Medida distributiva:
agregada por operao distributiva sobre dados atmicos ou medidas distributivas count, sum, max, min agregada por operaes algbricas sobre dados atmicos ou medidas distributivas ou algbricas avg, standev agregada por operaes sem limite constante sobre o espao necessrio para armazenar os sub-agregados median, mode, rank em grandes data warehouses, clculo apenas aproximativo
Medida algbrica:
Medida holstica:
Hierarquia esquemtica:
implcita no esquema relacional do BD operacional fonte
Hierarquia de agrupamento:
Inexistente no esquema fonte, gerada para reduzir numerosidade
country
Hierarquia:
de ordem total ou parcial simples ou mltipla
province_or_state quarter
year
Construo de hierarquias:
Manual via GUI Automtica via clustering
city
month
week
day
country
Canada
USA
Ontario
New Y ork
Illinois
city
Vancouver
Victoria
T oronto
Ottawa
New Y ork
Buffalo
Chicago
($0 $200]
($0 $100]
($200 $300] ($400 $500] ($600 $700] ($800 $900] ($500 $600] ($700 $800] ($900 $1000]
Rank, ordena os membros de uma dimenso de acordo com a ordem da medida corrente (ex, time retrospectivo, comeando pelo mais recentes primeiro); serve tambm para filtragem
t i me ( quar t er s)
lo
Q 1 Q 2
605
c lo
at
t i me ( quar t er s)
i (c
ti
es
) t un ri
es
o (c USA o n Canada i
Q 2 Q 3 Q 4
2000
Q 1000 1
c om put er hom e ent er t ai nm ent i t em ( t y pes ) di c e f ( l oc at and ( t ( i t em or i on = Tor ont o or Vanc ouver ) i m = 1 or e Q Q2) and = hom ent er t ai nm e ent or om c put er ) r ol on (f r t o
t i me ( quar t er s)
oc
i at
on
ti ci
es
Q 1 Q 2 Q 3 Q 4
605
825
14
400
sl i ce f or t i m = 1 e Q
l ocat i on ( ci t i es)
dr i on (f r t o
t ca
n io
i (c
ti
es
t i me ( mont hs)
pi vot
i t em ( t ypes)
Apr i l M ay J une J ul y Augus t Sept em ber O t ober c Nov em ber De cem ber c om ut er s ec ur i t y p hom e ph on e ent er t ai nm ent i t em ( t y pes )
Armazena dados em tabelas relacionais Reaproveita da tecnologia relacional, inclusive SQL Apenas apresenta dados de maneira multidimensional Permite acoplamento mais estreito com fontes OLTP (geralmente relacionais) Porm, necessita remodelagem prvio de dados em esquema especializados (estrela, floco de neve) Mesmas controversias sobre performance do que OO x OR
No normalizada:
alguma redundncia alguns nveis e membros aparecem em vrios registros
tabelas de dimenses
Vantagens
Desvantagens:
Aumenta tempo de resposta pela necessidade de junes
Balano:
Espao ganhado negligvel j que espao total do data mart principalmente ocupado pela tabela de fato Modelo estrela mais popular
data mart modelado em estrela data warehouse modelado em constelao data mart integrado em um data warehouse por:
uniformizao das tabelas de dimenses dos vrios data marts ligaes entre elas e as tabelas de fato
branc h dim ension table branc h_key branc h_name branc h_type
loc ation dim ension table loc ation_key street c ity province_or_state c ountry
BDMD: coleo de cuboides D-dimensionais Cuboides: D dimenses (ex, tempo, produto, espao) C celulas de dados quantitativos atmicos = valores das medidas Dimenso: H hierarquias de N nveis de granularidade (ex, ano/ms/dias, ano/semestre/semana)
Nvel: E membros (ex, {Jan, ..., Dez}, {1, ..., 31}) Cellset: subcubo resultado de uma consulta OLAP selecionando:
um cubo A do DBMD d dimenses de A como analticas m dimenses de A como medidas para cada d:
para cada m, uma funo de agregao (sum, max, avg, var) md celulas, cada uma contendo m dados agregados
desenvolvido pela Microsoft, porm no proprietria j apoiado de quase toda indstria dos SGBDMD
MultiDimensional eXpression:
Linguagemde consulta para SGBDMD Expresses da forma SELECT FROM WHERE Passadas como parametros string de mtodos especializados de OLE DB for OLAP e ADOMD Chamvel a partir de Visual C++, Visual J++, Visual Basic etc.
Fornece built-in largo leque de operadores:
OLAP (rotate, slice, dice, drill-down, roll-up, cross-join etc) de agregao numrica, estatstica e temporal
WITH
SELECT
membros virtuais calculados a partir de membros do cubo via operadores aritmticos, estatsticos, de agregao, de series temporais, de formatao de sada conjunto de membros de dimenses, hierarquias e nveis especificado via expresso de operadores
OLAP (DrillDown, Filter, ...) de manipulao de conjuntos (CrossJoin, Union, Inter, Member ...) agregao (TopSum, TopCount, TopPercent, Order, ...)
SELECT NON EMPTY (CROSSJOIN ({[LojaLoc].[Pais].MEMBERS}, {[Tempo].[Ano].MEMBERS}) ON COLUMNS NON EMPTY {[ProdCat].[SubCat].MEMBERS} ON ROWS FROM Vendas WHERE ([Medidas].[Vendas]).
Software Editor de Texto Planilha Eletrnica Editorao Grfica Hardware Mouse Teclado Monitor Gabinete
SELECT NON EMPTY (CROSSJOIN ({[LojaLoc].[Pais].MEMBERS}, {[Tempo].[Semestre].MEMBERS}) ON COLUMNS NON EMPTY {[ProdCat].[SubCat].MEMBERS} ON ROWS FROM Vendas WHERE ([Medidas].[Vendas]).
SELECT NON EMPTY (CROSSJOIN ({[LojaLoc].[Pais].MEMBERS}, {[Tempo].[Semestre].MEMBERS}) ON COLUMNS NON EMPTY {[ProdCat].MEMBERS} ON ROWS FROM Vendas WHERE ([Medidas].[Vendas]).