Você está na página 1de 26

Tpicos Avanados em Banco de Dados

Braslia-DF, 2011.

Elaborao e compilao de textos: Ibsen Gebrim Reis Produo: Equipe Tcnica de Avaliao, Reviso Lingustica e Editorao

Tpicos Avanados em Banco de Dados


2

Sumrio

Apresentao............................................................................................................................................. Organizao do Caderno de Estudos e Pesquisa ..................................................................................... Organizao da Disciplina ........................................................................................................................ Introduo ................................................................................................................................................. Unidade I Banco de Dados Avanados .................................................................................................. Captulo 1 Segurana, Autorizao e Extenses.............................................................................. Captulo 2 Extenses de Modelos de Dados para Aplicaes Avanadas ......................................... Unidade II Data Mining .......................................................................................................................... Captulo 3 Viso Geral: Regras, Classificao, Agrupamento e Aplicao ........................................ Unidade III Data Warehousing .............................................................................................................. Captulo 4 Definio, Caractersticas, Funcionalidade e Comparao .............................................. Para (no) Finalizar ................................................................................................................................... Referncias ...............................................................................................................................................

4 5 6 7 9 9 13 15 15 21 21 25 26

Ps-Graduao a Distncia
3

Apresentao

Caro aluno, Bem-vindo ao estudo da disciplina Tpicos Avanados em Banco de Dados. Este o nosso Caderno de Estudos e Pesquisa, material elaborado com o objetivo de contribuir para a realizao e o desenvolvimento de seus estudos, assim como para a ampliao de seus conhecimentos. Para que voc se informe sobre o contedo a ser estudado nas prximas semanas, conhea os objetivos da disciplina, a organizao dos temas e o nmero aproximado de horas de estudo que devem ser dedicadas a cada unidade. A carga horria desta disciplina de 40 (quarenta) horas, cabendo a voc administrar o tempo conforme a sua disponibilidade. Mas, lembre-se, h uma data-limite para a concluso do curso, incluindo a apresentao ao seu tutor das atividades avaliativas indicadas. Os contedos foram organizados em unidades de estudo, subdivididas em captulos de forma didtica, objetiva e coerente. Eles sero abordados por meio de textos bsicos, com questes para reflexo, que faro parte das atividades avaliativas do curso; sero indicadas, tambm, fontes de consulta para aprofundar os estudos com leituras e pesquisas complementares. Desejamos a voc um trabalho proveitoso sobre os temas abordados nesta disciplina. Lembre-se de que, apesar de distantes, podemos estar muito prximos. A Coordenao

Tpicos Avanados em Banco de Dados


4

Organizao do Caderno de Estudos e Pesquisa

Apresentao: Mensagem da Coordenao. Organizao da Disciplina: Apresentao dos objetivos e da carga horria das unidades. Introduo: Contextualizao do estudo a ser desenvolvido por voc na disciplina, indicando a importncia desta para sua formao acadmica. cones utilizados no material didtico Provocao: Pensamentos inseridos no material didtico para provocar a reflexo sobre sua prtica e seus sentimentos ao desenvolver os estudos em cada disciplina.

Para refletir: Questes inseridas durante o estudo da disciplina para estimul-lo a pensar a respeito do assunto proposto. Registre sua viso sem se preocupar com o contedo do texto. O importante verificar seus conhecimentos, suas experincias e seus sentimentos. fundamental que voc reflita sobre as questes propostas. Elas so o ponto de partida de nosso trabalho. Textos para leitura complementar: Novos textos, trechos de textos referenciais, conceitos de dicionrios, exemplos e sugestes, para lhe apresentar novas vises sobre o tema abordado no texto bsico.

Sintetizando e enriquecendo nossas informaes: Espao para voc fazer uma sntese dos textos e enriquec-los com sua contribuio pessoal.

Sugesto de leituras, filmes, sites e pesquisas: Aprofundamento das discusses.

Praticando: Atividades sugeridas, no decorrer das leituras, com o objetivo pedaggico de fortalecer o processo de aprendizagem.

Referncias: Bibliografia consultada na elaborao da disciplina.

Ps-Graduao a Distncia
5

Para (no) finalizar: Texto, ao final do Caderno, com a inteno de instig-lo a prosseguir com a reflexo.

Organizao do Caderno de Estudos e Pesquisa

Ementa:
Sistemas de apoio deciso. Fundamentao do ciclo de construo de Data Warehouse. Modelagem multidimensional. Aspectos que descrevem o ciclo de planejamento e alinhamento estratgico de uma soluo de DW para a organizao e os componentes da arquitetura da soluo. Tipos de ferramentas que compe a soluo de acesso e apresentao dos dados de um DW e formato de construo de anlises nesses ambientes.

Objetivo:
Aprofundar os conhecimentos sobre segurana e autorizao em Banco de Dados. Discutir Segurana em Banco de Dados. Conceituar Banco de Dados Ativos. Definir Bancos de Dados Temporais e multimdias. Definir Data Mining. Conceituar Data Warehousing.

Unidade I Banco de Dados Avanados


Carga horria: 20 horas Contedo Segurana e Autorizao Extenses de Modelos de Dados para Aplicaes Avanadas Captulo 1 2

Unidade II Data Mining


Carga horria: 10 horas Contedo Viso Geral: Regras, Classificao, Agrupamento e Aplicao Captulo 3

Tpicos Avanados em Banco de Dados

Unidade III Data Warehousing


Carga horria: 10 horas Contedo Definio, Caractersticas, Funcionalidade e Comparao Captulo 4

Introduo/Provocao

Quando falamos em armazenar, tratar e conservar informaes, obrigatoriamente falamos em Banco de Dados, por isso o tema ora abordado toma propores tais, que podemos pensar que tratar-se de uma questo difcil de assimilar. Mas temos que levar em conta sempre que, os dados ou informaes, dos quais somos responsveis, podem significar o sucesso ou o fracasso de uma empresa. Por isso, a segurana seja talvez a questo mais importante depois dos prprios dados. bvio que existem questes legais e ticas que devemos abordar e o trabalho que desenvolveremos abordar esse tema tambm, alm de tentar mostrar e conduzir o aluno no perfeito entendimento do que se chama Segurana em Banco de Dados. Outros assuntos que abordaremos so a minerao de dados (Data Mining) e Data Warehousing, que vem a ser a utilizao do conceito de gerenciamento de banco de dados no mais alto grau. Esse estudo pretende despertar no cursista a capacidade de divisar novas alternativas sobre o tema, apesar de tratar-se de um estudo em que veremos caminhos j traados.

Ps-Graduao a Distncia
7

Unidade I Banco de Dados Avanados


Captulo 1 Segurana e Autorizao

O fator que sempre me ajuda a vencer um obstculo tem sido o obstculo anterior.
Henry Ford

No devemos confundir segurana de dados com integridade de dados. Segurana vem a ser a capacidade de preservar os dados contra eventuais adulteraes, divulgaes indevidas ou perdas. Integridade a capacidade de manter o dado com a preciso e validade exigidas.
Segundo, C. J. Date (1990, p. 457): A Segurana garante que os usurios tenham permisso para fazer o que estiverem tentando fazer. A Integridade garante que as coisas que esto tentando fazer so corretas.

Tipos de Segurana
Os perfis de segurana de acesso aos dados devem ser traados levando-se em conta os seguintes tipos de segurana existentes. Legais, sociais e ticos: Ps-Graduao a Distncia
9

Informaes podem ser consideradas privadas, tanto legalmente quanto por questes sociais ou ticas. Exemplo: quem faz uma solicitao referente a um crdito tem direito a acessar essa informao? Polticas: As informaes podem sofrer restries conforme a poltica da empresa. Exemplo: quem acessa o qu em um Banco de Dados?

Banco de Dados Avanados

Unidade I

Pertinentes ao sistema: O sistema determina qual o nvel de acesso. Exemplo: qual o critrio de acesso do sistema de arquivos do sistema? Necessidades da organizao: Confunde-se com o tipo poltico, mas difere-se por se tratar de necessidade e no de estratgia poltica. Exemplo: quem tem que acessar a informao? Quando ocorre um uso indevido do Banco de Dados, podemos considerar como intencional ou acidental. A perda acidental pode resultar de: quedas durante o processamento de transaes; defeitos causados por acesso simultneo (concorrncia) aos dados; anormalidades na distribuio do Banco de Dados. Em se tratando de perdas acidentais, o controle mais fcil do que contra acessos indevidos ou maldosos ao Banco de Dados. Como exemplos de formas maldosas, podemos citar: leitura no autorizada de dados (roubo de informaes); modificao no autorizada de dados; destruio no autorizada de dados; insero no autorizada de dados. As empresas costumam encarecer o custo da invaso, para tentar desmotivar qualquer acesso insidioso. Com a finalidade de proteger o BD, medidas de segurana devem ser tomadas em diversos nveis. Fsico torna o sistema fisicamente seguro contra entradas de intrusos. Tpicos Avanados em Banco de Dados Humano os controles dos acessos dos usurios so cuidadosamente estudados. Sistema operacional a fragilidade na segurana do SO pode ser uma porta de acesso no-autorizado ao banco de dados. Sistema de BD os usurios de sistemas de BD devem ter autorizao de acesso somente a pores limitadas; outros usurios devero ser habilitados a emitir consultas, com proibio de modificao de dados.

Vises
As vises podem ser um excelente meio de limitar o acesso aos dados, fazendo com que os usurios s acessem aquilo que realmente podem acessar. Uma viso pode esconder dados que o usurio no necessita ver. Elas tanto servem para facilitar o uso do Banco de Dados como para ajudar na proteo das informaes.

10

Banco de Dados Avanados

Unidade I

Autorizaes de acesso ao Banco de Dados


De Leitura (read) permite somente a leitura dos dados. De Insero (insert) permite a insero de novos dados, mas no a alterao de dados j existentes. De Atualizao (update) permite a alterao dos dados, mas no a excluso (delete). De Excluso (delete) permite a excluso. Existem outras formas de autorizaes que podem permitir ou proibir a estrutura das relaes. De ndice (index) concede ao usurio a permisso para criao e/ou remoo de ndices. De Recursos (resource) permite a criao de novas relaes, gatilhos, procedures. De Alterao (alteration) permite a adio ou remoo de atributos na relao. De Remoo (drop) permite a remoo das relaes.

Segurana do Banco e o DBA


O Administrador de Banco de Dados (DBA) o responsvel pelo gerenciamento de um sistema de Banco de Dados. Ele o responsvel pela concesso de privilgios de acesso e classificao dos usurios do sistema de acordo com as determinaes das polticas de segurana. O DBA possui uma conta prpria com direitos de acesso a toda e qualquer instncia do Banco de Dados. Seu papel manter a integridade do Banco, tanto com relao s contas de acesso quanto consistncia dos dados, alm de se encarregar do tunning do Banco, no que se refere a performance do mesmo, cpia de segurana dos dados, criao de ndices, triggers, stored procedures etc. Proteo, contas e auditoria Todas as vezes que for necessrio o acesso de um novo usurio ou a modificao do perfil de acesso de um j existente, o DBA criar uma nova conta com as permisses ou modificar as configuraes de um j existente. Especificao de segurana em SQL Usamos o comando grant cuja sintaxe-padro a seguinte. Grant <lista de autorizaes> on <nome da relao> to <lista de usurios>. Exemplos: Ps-Graduao a Distncia
11

Permisso de seleo (select) sobre uma relao de clientes, para os usurios [USR0, USR1]. Grant select on [clientes] to [USR0], [USR1]. Conferindo a permisso de alterao (update): Grant update [nome] on [clientes] to [USR0], [USR1].

Banco de Dados Avanados

Unidade I

Podemos especificar somente os campos em que o usurio pode realizar a alterao. A permisso de insero (insert) tem a mesma estrutura do update. Grant insert [nome] on [clientes] to [USR0], [USR1]. Podemos eventualmente utilizar a instruo all privileges, que concede todos direitos ao usurio. Grant all privileges on cliente to [USR0]. Normalmente, um usurio no pode transmitir seus direitos a outro, mas o DBA pode, de acordo as polticas de segurana adotadas no sistema de Banco de Dados, conceder essa permisso: Grant select on [financiamento] to [USR0] with grant option. Para a revogao de privilgios, o DBA pode utilizar os seguintes comandos: Revoke all privileges on [clientes] from [USR0]. Revoke select on [financiamento] from [USR0], [USR1], [USR2] cascade.

A ttulo de fixao, elabore um plano de concesso de permisses que podem ser concedidas a um usurio, tendo como parmetro um sistema de conta corrente.

Tpicos Avanados em Banco de Dados


12

Banco de Dados Avanados

Unidade I

Captulo 2 Extenses de Modelos de Dados para Aplicaes Avanadas

Com o crescente uso de sistemas de gerenciamento de Banco de Dados, o usurio passa a ficar mais exigente em relao ao que deseja obter de retorno dos sistemas Bancos de Dados e, com isso, a tecnologia tende a acompanhar as necessidades do mercado. Surgem, ento, diversas correntes tecnolgicas que possibilitam a implementao de aplicaes mais avanadas e complexas. Vamos discutir neste captulo, esses avanos em Banco de Dados: ativos, multimdia, temporais e dedutivos.

Conceitos de Banco de Dados Ativos


Esse conceito passa a existir quando os Bancos, at ento, passivos, precisam tomar decises, serem ativos com base em eventos. Modelo generalizado para Banco de Dados Ativos Gatilhos em Banco de Dados Ativos seguem o modelo ECA (evento-condio-ao). Evento o agente que ativa a regra, normalmente operaes explcitas em um Banco de Dados, mas podendo ser disparado por eventos temporais e/ou eventos externos. Condio uma condio de opcionalidade que determina (quando verdadeira) se a regra ser disparada, quando da ocasio do evento. Ao o que ocorre quando o evento satisfaz a condio, podendo ser um sequncia de comandos SQL, uma transao ou mesmo um programa externo.

Conceitos de Banco de Dados Temporais


Em geral, todo sistema de Banco de Dados trata de informaes relativas a tempo. Um exemplo clssico um controle acadmico onde se deve armazenado o histrico de cada aluno, como ano e semestre cursado. Mas os desenvolvedores normalmente no se preocupam especificamente com esse conceito. Devido, talvez, a sua complexidade, tratam essa informao como algo que no merea ateno especial. Tempo, calendrios e dimenses temporais O tempo considerado como uma sucesso ordenada de pontos, com alguma granulidade que determinada pela aplicao. (ELMASRI, 2006, p. 553). No havendo um limite para o que vem a ser tempo, temos que adotar um ponto de referncia. Em Banco de Dados Temporais, a ideia termos um a sequncia cronolgica com o que se passa com o dado, e s conseguimos isso associando dados temporais ao mesmo.

Ps-Graduao a Distncia
13

Banco de Dados Avanados

Unidade I

Bancos de Dados Multimdias


As imagens (fotografias, desenhos, filmes etc.) tambm precisam ser guardadas e recuperadas, com isso surge o conceito de Banco de Dados Multimdia, que vem a ser a capacidade do Banco em tratar imagens. A grande dificuldade o reconhecimento e para isso existem dois mtodos conhecidos. Anlise automtica Consiste em uma anlise da imagem por meio da identificao de caractersticas matemticas de seus contedos. Identificao manual Identifica objetos e atividades em cada imagem, onde se faz necessrio um prprocessamento manual, em que o usurio cria marcas que, posteriormente, serviro para a recuperao da imagem.

Introduo aos Bancos de Dados Dedutivos


Vem a ser a capacidade de um sistema de Banco de Dados poder deduzir a informao a ser recuperada, a partir de uma anlise da base j existente. Suas regras so especificadas por meio de alguma linguagem declarativa, em que especificamos o que queremos ao invs de como queremos. O Banco interpreta essas regras usando o que se chama mquina de inferncia ou mecanismo de deduo, que deduz os fatos novos.

Tpicos Avanados em Banco de Dados


14

Unidade II Data Mining


Captulo 3 Viso geral: Regras, Classificao, Agrupamento e Aplicao

A minerao de dados ou Data Mining uma tecnologia emergente e uma das mais promissoras, segundo relatrio do Gartner Group. O Knowledge Discovery in Databases (KDD) Processo de Descoberta de Conhecimento em Banco de Dados composto de seis outras fases: seleo de dados, limpeza, enriquecimento, transformao ou codificao, data mining, construo de relatrios e apresentao da informao descoberta.
Avaliao Data Mining Transformao Pr-Processamento Conhecimento Seleo Dados Transformados Padres Dados Pr-processados

Data

Dados alvo

Figura 1 Viso geral das etapas que constituem o processo KDD (Fayyad et al., 1996b).

O Data Mining uma das aplicaes da tecnologia de Data Warehousing. Alguns tipos de informao podem ser descobertas pela aplicao dessa tecnologia. Regras de associao Analisa por associao o comportamento de um consumidor. Por exemplo, se um cliente compra cerveja ele pode comprar refrigerante tambm. Ps-Graduao a Distncia
15

Padres sequenciais Analisa o comportamento de consumidores que compram em uma sequncia predeterminada. Se um cliente compra um rdio e depois de dois meses compra uma televiso, ele provavelmente comprar algum eletroeletrnico nos prximos 6 meses. rvore de classificao Os consumidores podem ser classificados pela frequncia com que visitam lojas, por tipo de financiamento utilizado, por quantidade comprada ou simplesmente por afinidade com determinados tipos de itens. As empresas esto utilizando Data Mining para tentar antecipar o comportamento do consumidor, principalmente para enfrentar uma forte concorrncia.

Data Mining

Unidade II

Podemos citar como metas do Data Mining: Predio Prever o comportamento de consumidores em relao a polticas de desconto, como o volume de vendas gerado em um determinado perodo, e se um linha de produto for descontinuada ir gerar lucro. Identificao Utilizar padres de dados para identificar a existncia de um item, um evento ou uma atividade. Classificao Classificar diferentes categorias de consumidores motivados por descontos fiis, aficionados em uma marca e at eventuais, combinando parmetros, a partir da segmentao de dados. Otimizao Otimizar o uso de recursos limitados como tempo, espao, dinheiro ou materiais, bem como, as variveis de sada, como vendas ou o lucro sobre determinado nmero de restries, com o uso da tecnologia de Data Mining. Usar Data Mining induzir descobertas e no deduzi-las. Descobrem-se novas regras e/ou padres e projetam-se comportamentos por meio da anlise do comportamento de dados existentes. Regras de Associao Ocorre a correlao de um item com outros de outra faixa de valores, de outro leque de variveis. Exemplo: associa-se a compra de uma cala a compra de um cinto, um sapato, uma gravata. Hierarquia de Classificao Cria-se uma hierarquia de classes a partir de um conjunto de eventos ou transaes. Exemplo: dividir uma populao em faixas de risco de crditos, utilizando-se histrico de transaes anteriores. Padres Sequenciais Investiga-se uma sequncia de eventos ou aes, que induzir a aes a serem tomadas. Padres com Sries Temporais Exemplo: anlise, em intervalos regulares, de uma sequncia de vendas dirias ou preo dirio de fechamento de aes. Clustering (agrupando) Ocorre segmentao de dados similares a partir de eventos ou novos itens. Exemplo: o acesso pela internet de um conjunto de documentos feito por um grupo de usurios pode ser analisado em termos de palavras-chave dos documentos, permitindo identificar grupos ou categorias de usurios. Tpicos Avanados em Banco de Dados

Regras de Associao
Para que possamos utilizar as regras de associao, algumas perguntas tm que ser respondidas a priori. O que caracteriza a ao de comprar um produto especfico? Por que um produto sempre comprado junto com outro? Quais produtos so adquiridos aos pares? O determinou a sequncia de aquisio? Um exemplo clssico o citado em Hammer (1995), que relata a experincia de um supermercado que descobre, depois de uma anlise por associao, que vendia mais cervejas quando estas estavam prximas seo de fraldas.

16

Data Mining

Unidade II

Se o cliente comprou o produto A e o produto B, ento ele tambm compra o produto C. Isso ocorre em cerca de 20% (vinte por cento) dos casos. Assim podemos definir as regras de associao: A => B, onde A e B so conjuntos que contm um ou mais elementos e o total damos o nome de T. Surgindo, ento, dois parmetros para analisar. O primeiro a frequncia com que o A aparece. Na regra apresentada acima, o valor 20% indica o suporte, pois dito que a regra aplicada em 20% dos casos estudados. O segundo a credibilidade fornecida pelo percentual de 20%. No exemplo acima, indica que na maioria dos casos quem comprou A e B tambm, comprou C.

Classificao
Consiste na anlise preditiva com o intuito de estabelecer padres que podem determinar tendncias futuras. Tambm chamado de aprendizado supervisionado (ELMASRI, 2006, p. 634), pois, aps montado, pode ser utilizado para classificao de novos dados. Esse processo procura encontrar um modelo que descreva classes diferentes de dados. Por exemplo, em uma empresa, clientes podem ser classificados como de risco baixo ou risco justo. Utiliza-se primeiramente um treinamento com um conjunto de dados que j foram classificados. Cada registro nos dados de treinamento, chamado rtulo de classe, indica a classe a qual o registro pertence O modelo criado, normalmente, ficar na forma de uma rvore de deciso ou um conjunto de regras. Existe uma preocupao em relao ao modelo e o algoritmo que vem a ser a habilidade do modelo prever a classe correta dos novos dados, o custo computacional associado ao algoritmo e a sua escalabilidade. Uma rvore de deciso uma representao grfica da descrio de cada classe ou, em outras palavras, uma representao das regras de classificao. Analise o exemplo abaixo: Algoritmo para induo de rvore de deciso Input: conjunto de dados de treinamento Registros: R1, R2,.........., Rm e conjunto de atributos; A1, A2,..........An. Output: rvore de deciso. Procedure Constri_rvore (Registros, Atributos) Incio Criar um n N; Se todos os registros pertencem mesma classe, C, ento Retorna N como um n-folha com rtulo de classe C; Se Atributos est vazio ento Ps-Graduao a Distncia
17

Data Mining

Unidade II

Retorna N como um n-folha com rtula de classe C, com a maioria dos registros pertencentes a ela; Seleciona o Atributo A1 (com o maior ganho de informao) de atributos; Rotula n N com A; Para cada valor conhecido, Vj, de A1 faa Incio Some um marca do n N para a condio A1 = Vj; Sj = subconjunto de Registros onde A1 = Vj; Se Sj est vazio ento Adicione uma folha, L, com rtulo de classe C, como a maioria dos registros pertencentes a ela e retorna L Seno some o n retornado por Consti_rvore (Sj, Atributos - A); fim.
casado sim salrio < 20.000 risco alto > = 20.000 < = 50.000 risco justo > = 50.000 risco alto < = 25 < = 5.000 <20.000 no renda

risco baixo

idade > = 25

risco justo

risco baixo

Figura 2 Exemplo de rvore de deciso para aplicaes de carto de crdito. (ELMASRI, 2006, p. 553).

Agrupamento (Clustering)
Tpicos Avanados em Banco de Dados
18

Este processo procura colocar em grupos os dados similares, mas no havendo classes preexistentes Na sua definio mais comum Cluster uma coleo de objetos de dados, similares, mas no similares aos objetos externos. Algoritmos: K-means Inicia com uma escolha randmica de k registros para representar a centroide, (mdia) m1,.....mk, dos grupamentos, C1,.....Ck. Todos os registros so colocados em um dado grupamento, baseados na distncia entre os registros e a mdia do grupamento. Se a distncia entre m1 e o registro RJ a menor entre todas as mdias do grupamento, ento o registro RJ colocado no grupamento Ci. Uma vez que todos os registros tenham sido colocados inicialmente em um grupamento, a mdia para cada grupamento recalculada e assim sucessivamente.

Data Mining

Unidade II

Aplicao de Data Mining


O Data Mining, enquanto tecnologia aplicada no contexto da tomada de deciso, tem ganhando crescente espao no meio empresarial, particularmente nas reas a seguir. Marketing Aplicaes como anlises de comportamento do consumidor baseadas em padres de consumos e definio de estratgias de marketing incluem propaganda, localizao de lojas e mala direta direcionada, segmentao de clientes, lojas ou produtos, projetos de catlogos, layouts de lojas e campanhas de publicidade. Finanas Anlise de crdito de clientes, segmentao de contas a receber, anlise de performance de investimentos financeiros como aes e fundos mtuos, avaliao de opes de financiamentos e deteco de fraudes. Produo Aplicaes que envolvem otimizao de recursos como mquinas, fora de trabalho e materiais; projetos timos de processos de fabricao, layouts de cho de fbrica, e projeto de produto, como de automveis baseados nos requisitos de clientes. Sade Aplicaes que incluem descobertas de padres em imagens radiolgicas, anlise de dados experimentais em microarray (gene chip) para relao com doenas, anlise de efeitos colaterais de remdios e efetividade de certos tratamentos, otimizao de processos dentro de um hospital, relao de sade do paciente com qualificaes do mdico.

Ps-Graduao a Distncia
19

Unidade III Data Warehousing


Captulo 4 Viso Geral: Definio, Caractersticas, Funcionalidade e Comparao

Data warehouse uma coleo de informaes, um sistema de apoio focado na mdia e alta gerncia das empresas, na recuperao de informaes e no no processamento das mesmas. Embora a mdia tenha pegado carona na popularidade do nome e colocado diversos produtos sob a bandeira da tecnologia de Data WareHouse, devemos ter em mente que ele no um Banco de Dados como os tradicionais. Elmasri (2006) apud W.H. INMON (1992) caracterizou um Data Warehouse como uma coleo de dados orientada por assunto, integrada, no voltil, variante no tempo, que d apoio s decises da administrao. Esse sistema d suporte a demanda de alto desempenho por dados e informaes, proporcionando acesso aos dados para anlise complexa, descoberta de conhecimento e tomada de deciso.
Conhecimento

Avaliao Visualizao

Data Mining Seleo DWh As Bases de Dados so: Dinmicas Incompletas Limpeza Redundantes Ruidosas Esparasas Detabases Figura 3

Existem vrios tipos de aplicaes. OLAP (On-line Analytical Processing Processamento Analtico), termo utilizado para descrever a anlise de dados complexos em um sistema de Data Warehouse. Ferramentas OLAP empregam as capacidades de computao distribudas para anlises que requerem mais armazenamento e poder de processamento.

Ps-Graduao a Distncia
21

Data Warehousing

Unidade III

DSS (Decision-Support Systems Sistemas de Apoio Deciso), tambm conhecido como EIS (Executive Information Systems Sistemas de Informao Executiva). Como o nome diz uma ferramenta de apoio deciso, e o Data Mining, como visto anteriormente, caracteriza esse tipo de aplicao. Os bancos Data Warehouses so projetados para tratar grande quantidade de informao e oferecer fontes mltiplas, podendo extrair dados de Bancos distintos e/ou at de sistemas e plataformas diferentes.

Caractersticas de Data Warehouse


caracterstica primordial de Data Warehouse o modelo de dados multidimensional, o que faz com que se encaixe bem com o OLAP e com as demais aplicaes voltadas para o apoio deciso. Trabalhando com mais informaes de temporalidade, o Data Warehouse, ao contrrio dos Bancos de Dados Relacionais, do apoio s anlises de srie temporal e de tendncias, que requerem mais dados histricos do que os que so mantidos em Banco de Dados Transacionais. Eles no so volteis, isto , a informao em um Data Warehouse muda com pouca ou nenhuma frequncia e tm que ser atualizadas, periodicamente. Em um Data Warehouse, a informao tem uma granulidade muito espessa e atualizada de acordo com a escolha da poltica de atualizao.

Funcionalidade Tpica de um Data Warehouse


O Data Warehouse proporciona maior suporte s consultas e de maneira mais eficiente do que um Banco Transacional. Existem funcionalidades aperfeioadas de planilha eletrnica, de processamento eficiente de consultas (estruturadas, ad hoc), data mining e de vises materializadas. H funcionalidades pr-programadas, tais como as citadas a seguir. Roll-up: resumo de dados com generalizao crescente (semanal para trimestral e depois para anual), viso do detalhe para o nvel mais alto.
2008 Fabricao So Bernardo do Campo So Caetano do Sul GM 2300 1500 Carros FIAT 1600 1650 Caminhes GM FIAT 300 550 400 640

Tpicos Avanados em Banco de Dados

So Paulo

2008 Fabricao So Paulo Rio de Janeiro GM 3800 2500 Carros FIAT 3250 3000 Caminhes GM FIAT 700 1190 500 800

Regio Sudeste

22

Data Warehousing

Unidade III

Drill-down: nveis mais detalhados (complementando o roll-up), um item de resumo dividido em componentes, possibilitando a explorao em nveis de detalhes da informao, viso do nvel mais alto para o detalhe.
Fabricao Regio Sudeste So Paulo Rio de Janeiro Carros e Caminhes 1 TRIM 2 TRIM 3 TRIM 9000 11000 8500 11280 5500 8600

Fabricao Regio Sudeste So Paulo Rio de Janeiro

Carros e Caminhes Jan Fev Mar 2600 4500 3000 3600 1850 3200

Slice and dice (fatiar/cortar o cubo): execuo de operaes de projeo nas dimenses, possibilitando a troca de linhas por colunas (como se estivssemos girando um cubo). Exemplo: Slice: Divide-se o cubo, mas mantm se a perspectiva de visualizao dos dados.
Fabricao Regio Sudeste So Paulo Rio de Janeiro Carros e Caminhes Jan Fev Mar 4500 1900 4200 1280 3250 3200

Fabricao Regio Sudeste So Paulo Rio de Janeiro

Jan 3300 600

Carros Fev 1000 1980

Mar 3205 2300

Dice: Visualizao por outra perspectiva.


2008 Fabricao So Paulo Rio de Janeiro GM 2300 1500 Carros FIAT 1600 1650 Caminhes GM FIAT 300 550 400 640

Regio Sudeste

Fabricao GM FIAT GM FIAT

Carros Caminhes

2008 Regio Sudeste So Paulo Rio de Janeiro 2300 1500 1600 1650 300 400 400 640

Ps-Graduao a Distncia
23

Data Warehousing

Unidade III

Comparao entre Data Warehouse e Vises


Embora as vises melhorem o desempenho, sejam somente para leituras e sejam orientadas por assunto, elas diferem da tecnologia de Data Warehouse, das seguintes maneiras. O Data WareHouse existe como armazenamento permanente em vez de ser criado sobre demanda. Os Data Warehouses so multidimensionais e no relacionais. A indexao no Data Warehouse explicita e proprietria, para otimizao de desempenho. Data Warehouse, em princpio, uma viso de vrios Bancos de Dados que trabalham integrados e frequentemente com dados temporais, enquanto views vm a ser somente um extrato de um Banco de Dados.

Tpicos Avanados em Banco de Dados


24

Para (no) Finalizar

Devemos aqui dar um pausa para pensar no que temos pela frente em se tratando do estudo de um tpico dito avanado. As possibilidades so imensas e no devemos nos ater somente ao que vimos no programa da disciplina. Ser que se esgotou o assunto Tpicos Avanados em Banco de Dados? Quais sos as janelas e/ou portas que abrimos com o conhecimento adquirido? Sim, devemos sempre pensar e agir com o intuito de querermos mais. Este o verdadeiro aprendizado: sempre querer subir o prximo degrau, depois de vencermos o ltimo. Desejar que a escada nunca termine, pois significaria o fim do estudo e consequentemente do nosso crescimento. Prof. Ibsen.

Ps-Graduao a Distncia
25

Referncias

HAMMER, Michael; CHAMPY, James, Reengenharia. 1o ed. Editora Campus, 1995. ELMASRI, Rames; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4o ed. Editora Pearson, 2006. INMON, W. H. Building the data warehouse. Editora Wiley. 1992. CASTANO, Silvana; FUGINI, Mariagrazia; MARTELLA, Giancarlo; SAMARATI, Pierangela. Database Security. New York: ACM Press/Reading, Mass.: Addilson-Wesley, 1995. CERT COORDINATION CENTER. CERT Annual Reports. Software Engineering Institute, Carnegie Mellon University, s.d. Pittsburgh. U.S.A Disponvel em: <http://www.cert.org> Acesso em: 16 jan. 2009. CHUNG. DataBase Security. Department of Computer Science and Engineering, Wright State University, s.d. Disponvel em: <http://www.cs.wright.edu/> Acesso em 16 jan. 2009. DATE, C. J. Introduo a sistemas de banco de dados. Rio de Janeiro: Campus, 1990.

Tpicos Avanados em Banco de Dados


26

Você também pode gostar