Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Warehousing
Data Warehousing
O que um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementao de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining
Base de Dados II 1
Definido de vrias maneiras diferentes, mas no de uma forma rigorosa. n Uma base dados de suporte a deciso que mantida separadamente da base operacional da organizao. n Suporta processamento de informao fornecendo uma plataforma slida para anlise de dados histricos, consolidados. A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of managements decision-making process.W. H. Inmon Data warehousing: n O processo de construir e usar data warehouses
Base de Dados II 2
Organizado em torno de temas importantes, tais como cliente, produto, vendas. Focado na modelao e anlise de dados para quem toma decises, em vez de operaes dirias e processamento de transaces. Fornece uma viso simples e concisa sobre questes de um tema particular atravs da excluso de dados que no so importantes no suporte ao processo de deciso.
Base de Dados II 3
Data WarehouseIntegrado
n
Construdo por integrao de mltiplas e heterogneas fontes de dados n Bases de dados relacionais, ficheiros simples, registos de transaces on-line n So aplicadas tcnicas de limpeza de dados e integrao de dados. n assegurada a consistncia na conveno de nomes, codificao de estruturas, atributos de medidas, etc. entre diferentes fontes de dados
n
O horizonte de tempo para um data warehouse significativamente maior do que o de sistemas operacionais.
n n
Base de dados operacional: informao actual. Dados no data warehouse: fornece informao numa perspectiva histrica (e.g., ltimos 5-10 anos) Contm um elemento de tempo, explicita ou implicitamente Mas a chave de dados operacionais pode ou no conter um elemento de tempo.
Base de Dados II
Data WarehouseNo-voltil
n
Um repositrio fisicamente separado de dados transformados do ambiente operacional. no ocorre actualizao de dados operacional sobre a informao no data warehouse.
n
no requer mecanismos de processamento de transaces, recuperao e controlo de concorrncia Requer apenas duas operaes de acesso a dados:
n
Quando uma consulta feita a uma determinada BD, usa-se um meta-dicionrio para traduzir a consulta em consultas apropriadas para outras BDs envolvidas, e os resultados so integrados num conjunto resposta global Filtragem de informao complexa, competio por recursos
A informao de fontes heterogneas previamente integrada e guardada em warehouses para consulta e anlise directa
Base de Dados II
Tarefa principal dos SGBD relacionais tradicionais Operaoes dirias: vendas, inventrio, saldos, produao, salrios, registo, contabilidade, etc. Tarefa principal de sistemas de data warehouse Anlise de dados e tomada de decises Orientaao do sistema e utilizador: cliente vs. mercado Contedo dos dados: actuais, detalhados vs. histricos, consolidados Desenho da BD: ER + aplicaao vs. estrela + tema Visao: actual, local vs. evolucionria, integrada Padroes de acesso: actualizao vs. consultas read-only, complexas
Base de Dados II 8
OLAP Suporte a decisoes Orientado-por-tema histricos, sumarizados, multidimencionais integrados, consolidados ad-hoc Leitura exaustiva Consulta complexa Milhoes Centenas 100GB-TB Consultas por minuto, resposta
9
Alta performance para ambos os sistemas n SGBD optimizados para OLTP: mtodos de acesso, indexao, controlo de concorrncia, recuperao n Warehouse optimizado para OLAP: consultas OLAP complexas, visoes multi-dimensionais, consolidao. Funes diferentes e dados diferentes: n Falta de dados: suporte deciso requer dados histricos que BDs operacionais tipicamente no mantm n Consolidaao de dados: SD requer consolidao (agregao, sumarizaao) de dados de fontes heterogneas n Qualidade de dados: Fontes diferentes usam tipicamente representaes inconsistentes de dados, cdigos e formatos que tm de ser reconciliados
Base de Dados II
10
O que um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementao de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining
Base de Dados II 11
Um data warehouse baseado num modelo de dados multidimensional que v os dados na forma de um cubo de dados Um cubo de dados, tal como sales, permite que a informao seja modelada e vista em mltiplas dimenses
n
Tabelas de dimenso, tais como item (item_name, brand, type), ou time(day, week, month, quarter, year) Tabelas de factos contm medidas (tais como dollars_sold) e chaves externas para cada tabela de dimenso relacionada
Na literatura de data warehousing, um cubo n-D chamado cubide. O cubide 0-D de topo, que contm o nvel mais alto de sumariazao, chamado cubide apex. O reticulado de cubides forma o cubo de dados.
Base de Dados II 12
0-D(apex) cubide
time,supplier time,item,location
2-D cubides
item,supplier
time,location,supplier
3-D cubides
item,location,supplier
time,item,supplier
4-D(base) cubide
time, item, location, supplier
Base de Dados II 13
Esquema estrela: Tabela de factos no centro ligada a um conjunto de tabelas dimenso Esquema floco de neve: Um refinamento do esquema estrela onde parte da hierarquia dimensional normalizada num conjunto de tabelas dimenso mais pequenas, numa forma similar a um floco de neve. Constelaes de factos: Tabelas de factos mltiplas partilham tabelas dimenso, formando um grupo de estrelas, logo chamado constelao de factos.
Base de Dados II 14
item
Tabela de Factos Sales time_key item_key branch_key
item_key item_name brand type supplier_type
branch
branch_key branch_name branch_type
item
Tabela de Factos Sales time_key item_key branch_key
item_key item_name brand type supplier_key
supplier
supplier_key supplier_type
branch
branch_key branch_name branch_type
city
city_key city province_or_street country
16
item
Tabela de Factos Sales time_key item_key branch_key
item_key item_name brand type supplier_type
branch
branch_key branch_name branch_type
location
location_key street city province_or_street country
Base de Dados II
Definio de Cubo (Tabela de Factos) define cube <cube_name> [<dimension_list>]: <measure_list> Definio de Dimenso ( Tabela de Dimensao ) define dimension <dimension_name> as (<attribute_or_subdimension_list>) Caso Especial (Tabelas de dimenso partilhadas) n Primeira vez como definio de cubo n define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time>
Base de Dados II 18
10
pas
...
Spain
Canada
...
Mexico
cidade escritrio
Frankfurt
...
Toronto
...
M. Wind
22
11
Dados Multi-dimensionais
n
Re
Produto
Produto
Cidade Escritrio
Mes
Semana Dia
Ms
Base de Dados II 23
Data
3Qtr 4Qtr sum
Pr
Base de Dados II
Pas
24
12
data
produto, pas
produto, data
Base de Dados II
25
n n n
Base de Dados II
13
por subida na hierarquia ou por reduo de uma dimenso de sumrios de nvel mais alto para sumrios de nvel mais baixo ou mais detalhados, ou pela introduo de dimenses project e select reorientar o cubo, visualizao, de 3D para sries de planos 2D drill across: envolvem mais do que uma tabela de factos drill through: do nvel mais baixo do cubo para as tabelas relacionais de back-end (usando SQL)
Base de Dados II 27
Pivot (rotate):
n
Outras operaes
n n
O que um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementao de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining
Base de Dados II 28
14
Perspectiva Top-down
n
Permite a seleco da informao relevante necessria para o data warehouse Mostra a informao a ser adquirida, guardada e gerida por sistema operacionais consiste em tabelas de factos e tabelas dimenso v a perspectiva dos dados no warehouse do ponto de vista do utilizador final
Base de Dados II 29
Abordagens Top-down, bottom-up ou uma combinaao de ambos n Top-down: Comea com o desenho e planeamento geral n Bottom-up: Comea com experencias e prototipos Do ponto de vista da engenharia de software n Cascata: Anlise estruturada e sistematica em cada passo antes de prosseguir para o proximo n Espiral: Geraao rapida e incremental de funcionalidades do sistema Processo de desenho tpico de data warehouse n Escolher um processo de negcio a modelar, e.g., encomendas, facturas, etc. n Escolher o grao (nvel de dados atmico) do processo de negcio n Escolher as dimensoes que estao associadas a cada tabela de factos n Escolher as medidas presentes em cada registo da tabela de factos
Base de Dados II 30
15
Suponha que uma empresa concessionria de auto-estradas pretende construir uma BD para suportar o registo das viagem efectuadas. n Crie um Modelo relacional para uma BD operacional n Crie um Modelo estrela para um DW
Base de Dados II
31
Arquitectura Multi-Camada
other Metadata
sources
Operational Extract Transform Load Refresh
OLAP Server
DBs
Data Warehouse
Serve
Data Marts
Data Sources
Data Storage
Base de Dados II
16
Arquitecturas OLAP
n
Relational OLAP (ROLAP) n Usar SGBD relationais ou relacionais extendidos para guardar e gerir os dados do data warehouse e aplicaoes OLAP para suportar anlise complexa de dados. n Incluem optimizaao dos SGBD de backend, implementaao de navegaao baseada em agregaao, assim como mais ferramentas e servios. n Maior escalabilidade Multidimensional OLAP (MOLAP) n Baseado em matrizes de armazenamento multidimensionais (sparse matrix techniques) n Indexaao rpida sobre dados sumarizados pre-clculados Hybrid OLAP (HOLAP) n Baixo nvel: relacional, alto-nvel: matriz
Base de Dados II 33
Base de Dados II
34
17
Base de Dados II
35
Base de Dados II
36
18
O cubo OLAP
Base de Dados II
37
Base de Dados II
38
19
Base de Dados II
39
Base de Dados II
40
20
Operador Cube
n
Definiao do cubo e clculo em DMQL define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales
Transformar numa linguagem tipo SQL- (com um novo operador cube by, introduzido por Gray et al.96) SELECT item, city, year, SUM (amount) FROM SALES
(city) ()
CUBE BY item, city, year E necessario calcular os seguintes Group-Bys (date, product, customer), (city, item) (city, year) (item, year) (date,product),(date, customer), (product, customer), (date), (product), (customer) () (city, item, year)
Base de Dados II 41
(item)
(year)
21