Escolar Documentos
Profissional Documentos
Cultura Documentos
Braslia-DF, 2011.
Elaborao e compilao de textos: Ibsen Gebrim Reis Produo: Equipe Tcnica de Avaliao, Reviso Lingustica e Editorao
Sumrio
Apresentao............................................................................................................................................. Organizao do Caderno de Estudos e Pesquisa ..................................................................................... Organizao da Disciplina ........................................................................................................................ Introduo ................................................................................................................................................. Unidade I Banco de Dados Avanados .................................................................................................. Captulo 1 Segurana, Autorizao e Extenses.............................................................................. Captulo 2 Extenses de Modelos de Dados para Aplicaes Avanadas ......................................... Unidade II Data Mining .......................................................................................................................... Captulo 3 Viso Geral: Regras, Classificao, Agrupamento e Aplicao ........................................ Unidade III Data Warehousing .............................................................................................................. Captulo 4 Definio, Caractersticas, Funcionalidade e Comparao .............................................. Para (no) Finalizar ................................................................................................................................... Referncias ...............................................................................................................................................
4 5 6 7 9 9 13 15 15 21 21 25 26
Ps-Graduao a Distncia
3
Apresentao
Caro aluno, Bem-vindo ao estudo da disciplina Tpicos Avanados em Banco de Dados. Este o nosso Caderno de Estudos e Pesquisa, material elaborado com o objetivo de contribuir para a realizao e o desenvolvimento de seus estudos, assim como para a ampliao de seus conhecimentos. Para que voc se informe sobre o contedo a ser estudado nas prximas semanas, conhea os objetivos da disciplina, a organizao dos temas e o nmero aproximado de horas de estudo que devem ser dedicadas a cada unidade. A carga horria desta disciplina de 40 (quarenta) horas, cabendo a voc administrar o tempo conforme a sua disponibilidade. Mas, lembre-se, h uma data-limite para a concluso do curso, incluindo a apresentao ao seu tutor das atividades avaliativas indicadas. Os contedos foram organizados em unidades de estudo, subdivididas em captulos de forma didtica, objetiva e coerente. Eles sero abordados por meio de textos bsicos, com questes para reflexo, que faro parte das atividades avaliativas do curso; sero indicadas, tambm, fontes de consulta para aprofundar os estudos com leituras e pesquisas complementares. Desejamos a voc um trabalho proveitoso sobre os temas abordados nesta disciplina. Lembre-se de que, apesar de distantes, podemos estar muito prximos. A Coordenao
Apresentao: Mensagem da Coordenao. Organizao da Disciplina: Apresentao dos objetivos e da carga horria das unidades. Introduo: Contextualizao do estudo a ser desenvolvido por voc na disciplina, indicando a importncia desta para sua formao acadmica. cones utilizados no material didtico Provocao: Pensamentos inseridos no material didtico para provocar a reflexo sobre sua prtica e seus sentimentos ao desenvolver os estudos em cada disciplina.
Para refletir: Questes inseridas durante o estudo da disciplina para estimul-lo a pensar a respeito do assunto proposto. Registre sua viso sem se preocupar com o contedo do texto. O importante verificar seus conhecimentos, suas experincias e seus sentimentos. fundamental que voc reflita sobre as questes propostas. Elas so o ponto de partida de nosso trabalho. Textos para leitura complementar: Novos textos, trechos de textos referenciais, conceitos de dicionrios, exemplos e sugestes, para lhe apresentar novas vises sobre o tema abordado no texto bsico.
Sintetizando e enriquecendo nossas informaes: Espao para voc fazer uma sntese dos textos e enriquec-los com sua contribuio pessoal.
Praticando: Atividades sugeridas, no decorrer das leituras, com o objetivo pedaggico de fortalecer o processo de aprendizagem.
Ps-Graduao a Distncia
5
Para (no) finalizar: Texto, ao final do Caderno, com a inteno de instig-lo a prosseguir com a reflexo.
Ementa:
Sistemas de apoio deciso. Fundamentao do ciclo de construo de Data Warehouse. Modelagem multidimensional. Aspectos que descrevem o ciclo de planejamento e alinhamento estratgico de uma soluo de DW para a organizao e os componentes da arquitetura da soluo. Tipos de ferramentas que compe a soluo de acesso e apresentao dos dados de um DW e formato de construo de anlises nesses ambientes.
Objetivo:
Aprofundar os conhecimentos sobre segurana e autorizao em Banco de Dados. Discutir Segurana em Banco de Dados. Conceituar Banco de Dados Ativos. Definir Bancos de Dados Temporais e multimdias. Definir Data Mining. Conceituar Data Warehousing.
Introduo/Provocao
Quando falamos em armazenar, tratar e conservar informaes, obrigatoriamente falamos em Banco de Dados, por isso o tema ora abordado toma propores tais, que podemos pensar que tratar-se de uma questo difcil de assimilar. Mas temos que levar em conta sempre que, os dados ou informaes, dos quais somos responsveis, podem significar o sucesso ou o fracasso de uma empresa. Por isso, a segurana seja talvez a questo mais importante depois dos prprios dados. bvio que existem questes legais e ticas que devemos abordar e o trabalho que desenvolveremos abordar esse tema tambm, alm de tentar mostrar e conduzir o aluno no perfeito entendimento do que se chama Segurana em Banco de Dados. Outros assuntos que abordaremos so a minerao de dados (Data Mining) e Data Warehousing, que vem a ser a utilizao do conceito de gerenciamento de banco de dados no mais alto grau. Esse estudo pretende despertar no cursista a capacidade de divisar novas alternativas sobre o tema, apesar de tratar-se de um estudo em que veremos caminhos j traados.
Ps-Graduao a Distncia
7
O fator que sempre me ajuda a vencer um obstculo tem sido o obstculo anterior.
Henry Ford
No devemos confundir segurana de dados com integridade de dados. Segurana vem a ser a capacidade de preservar os dados contra eventuais adulteraes, divulgaes indevidas ou perdas. Integridade a capacidade de manter o dado com a preciso e validade exigidas.
Segundo, C. J. Date (1990, p. 457): A Segurana garante que os usurios tenham permisso para fazer o que estiverem tentando fazer. A Integridade garante que as coisas que esto tentando fazer so corretas.
Tipos de Segurana
Os perfis de segurana de acesso aos dados devem ser traados levando-se em conta os seguintes tipos de segurana existentes. Legais, sociais e ticos: Ps-Graduao a Distncia
9
Informaes podem ser consideradas privadas, tanto legalmente quanto por questes sociais ou ticas. Exemplo: quem faz uma solicitao referente a um crdito tem direito a acessar essa informao? Polticas: As informaes podem sofrer restries conforme a poltica da empresa. Exemplo: quem acessa o qu em um Banco de Dados?
Unidade I
Pertinentes ao sistema: O sistema determina qual o nvel de acesso. Exemplo: qual o critrio de acesso do sistema de arquivos do sistema? Necessidades da organizao: Confunde-se com o tipo poltico, mas difere-se por se tratar de necessidade e no de estratgia poltica. Exemplo: quem tem que acessar a informao? Quando ocorre um uso indevido do Banco de Dados, podemos considerar como intencional ou acidental. A perda acidental pode resultar de: quedas durante o processamento de transaes; defeitos causados por acesso simultneo (concorrncia) aos dados; anormalidades na distribuio do Banco de Dados. Em se tratando de perdas acidentais, o controle mais fcil do que contra acessos indevidos ou maldosos ao Banco de Dados. Como exemplos de formas maldosas, podemos citar: leitura no autorizada de dados (roubo de informaes); modificao no autorizada de dados; destruio no autorizada de dados; insero no autorizada de dados. As empresas costumam encarecer o custo da invaso, para tentar desmotivar qualquer acesso insidioso. Com a finalidade de proteger o BD, medidas de segurana devem ser tomadas em diversos nveis. Fsico torna o sistema fisicamente seguro contra entradas de intrusos. Tpicos Avanados em Banco de Dados Humano os controles dos acessos dos usurios so cuidadosamente estudados. Sistema operacional a fragilidade na segurana do SO pode ser uma porta de acesso no-autorizado ao banco de dados. Sistema de BD os usurios de sistemas de BD devem ter autorizao de acesso somente a pores limitadas; outros usurios devero ser habilitados a emitir consultas, com proibio de modificao de dados.
Vises
As vises podem ser um excelente meio de limitar o acesso aos dados, fazendo com que os usurios s acessem aquilo que realmente podem acessar. Uma viso pode esconder dados que o usurio no necessita ver. Elas tanto servem para facilitar o uso do Banco de Dados como para ajudar na proteo das informaes.
10
Unidade I
Permisso de seleo (select) sobre uma relao de clientes, para os usurios [USR0, USR1]. Grant select on [clientes] to [USR0], [USR1]. Conferindo a permisso de alterao (update): Grant update [nome] on [clientes] to [USR0], [USR1].
Unidade I
Podemos especificar somente os campos em que o usurio pode realizar a alterao. A permisso de insero (insert) tem a mesma estrutura do update. Grant insert [nome] on [clientes] to [USR0], [USR1]. Podemos eventualmente utilizar a instruo all privileges, que concede todos direitos ao usurio. Grant all privileges on cliente to [USR0]. Normalmente, um usurio no pode transmitir seus direitos a outro, mas o DBA pode, de acordo as polticas de segurana adotadas no sistema de Banco de Dados, conceder essa permisso: Grant select on [financiamento] to [USR0] with grant option. Para a revogao de privilgios, o DBA pode utilizar os seguintes comandos: Revoke all privileges on [clientes] from [USR0]. Revoke select on [financiamento] from [USR0], [USR1], [USR2] cascade.
A ttulo de fixao, elabore um plano de concesso de permisses que podem ser concedidas a um usurio, tendo como parmetro um sistema de conta corrente.
Unidade I
Com o crescente uso de sistemas de gerenciamento de Banco de Dados, o usurio passa a ficar mais exigente em relao ao que deseja obter de retorno dos sistemas Bancos de Dados e, com isso, a tecnologia tende a acompanhar as necessidades do mercado. Surgem, ento, diversas correntes tecnolgicas que possibilitam a implementao de aplicaes mais avanadas e complexas. Vamos discutir neste captulo, esses avanos em Banco de Dados: ativos, multimdia, temporais e dedutivos.
Ps-Graduao a Distncia
13
Unidade I
A minerao de dados ou Data Mining uma tecnologia emergente e uma das mais promissoras, segundo relatrio do Gartner Group. O Knowledge Discovery in Databases (KDD) Processo de Descoberta de Conhecimento em Banco de Dados composto de seis outras fases: seleo de dados, limpeza, enriquecimento, transformao ou codificao, data mining, construo de relatrios e apresentao da informao descoberta.
Avaliao Data Mining Transformao Pr-Processamento Conhecimento Seleo Dados Transformados Padres Dados Pr-processados
Data
Dados alvo
Figura 1 Viso geral das etapas que constituem o processo KDD (Fayyad et al., 1996b).
O Data Mining uma das aplicaes da tecnologia de Data Warehousing. Alguns tipos de informao podem ser descobertas pela aplicao dessa tecnologia. Regras de associao Analisa por associao o comportamento de um consumidor. Por exemplo, se um cliente compra cerveja ele pode comprar refrigerante tambm. Ps-Graduao a Distncia
15
Padres sequenciais Analisa o comportamento de consumidores que compram em uma sequncia predeterminada. Se um cliente compra um rdio e depois de dois meses compra uma televiso, ele provavelmente comprar algum eletroeletrnico nos prximos 6 meses. rvore de classificao Os consumidores podem ser classificados pela frequncia com que visitam lojas, por tipo de financiamento utilizado, por quantidade comprada ou simplesmente por afinidade com determinados tipos de itens. As empresas esto utilizando Data Mining para tentar antecipar o comportamento do consumidor, principalmente para enfrentar uma forte concorrncia.
Data Mining
Unidade II
Podemos citar como metas do Data Mining: Predio Prever o comportamento de consumidores em relao a polticas de desconto, como o volume de vendas gerado em um determinado perodo, e se um linha de produto for descontinuada ir gerar lucro. Identificao Utilizar padres de dados para identificar a existncia de um item, um evento ou uma atividade. Classificao Classificar diferentes categorias de consumidores motivados por descontos fiis, aficionados em uma marca e at eventuais, combinando parmetros, a partir da segmentao de dados. Otimizao Otimizar o uso de recursos limitados como tempo, espao, dinheiro ou materiais, bem como, as variveis de sada, como vendas ou o lucro sobre determinado nmero de restries, com o uso da tecnologia de Data Mining. Usar Data Mining induzir descobertas e no deduzi-las. Descobrem-se novas regras e/ou padres e projetam-se comportamentos por meio da anlise do comportamento de dados existentes. Regras de Associao Ocorre a correlao de um item com outros de outra faixa de valores, de outro leque de variveis. Exemplo: associa-se a compra de uma cala a compra de um cinto, um sapato, uma gravata. Hierarquia de Classificao Cria-se uma hierarquia de classes a partir de um conjunto de eventos ou transaes. Exemplo: dividir uma populao em faixas de risco de crditos, utilizando-se histrico de transaes anteriores. Padres Sequenciais Investiga-se uma sequncia de eventos ou aes, que induzir a aes a serem tomadas. Padres com Sries Temporais Exemplo: anlise, em intervalos regulares, de uma sequncia de vendas dirias ou preo dirio de fechamento de aes. Clustering (agrupando) Ocorre segmentao de dados similares a partir de eventos ou novos itens. Exemplo: o acesso pela internet de um conjunto de documentos feito por um grupo de usurios pode ser analisado em termos de palavras-chave dos documentos, permitindo identificar grupos ou categorias de usurios. Tpicos Avanados em Banco de Dados
Regras de Associao
Para que possamos utilizar as regras de associao, algumas perguntas tm que ser respondidas a priori. O que caracteriza a ao de comprar um produto especfico? Por que um produto sempre comprado junto com outro? Quais produtos so adquiridos aos pares? O determinou a sequncia de aquisio? Um exemplo clssico o citado em Hammer (1995), que relata a experincia de um supermercado que descobre, depois de uma anlise por associao, que vendia mais cervejas quando estas estavam prximas seo de fraldas.
16
Data Mining
Unidade II
Se o cliente comprou o produto A e o produto B, ento ele tambm compra o produto C. Isso ocorre em cerca de 20% (vinte por cento) dos casos. Assim podemos definir as regras de associao: A => B, onde A e B so conjuntos que contm um ou mais elementos e o total damos o nome de T. Surgindo, ento, dois parmetros para analisar. O primeiro a frequncia com que o A aparece. Na regra apresentada acima, o valor 20% indica o suporte, pois dito que a regra aplicada em 20% dos casos estudados. O segundo a credibilidade fornecida pelo percentual de 20%. No exemplo acima, indica que na maioria dos casos quem comprou A e B tambm, comprou C.
Classificao
Consiste na anlise preditiva com o intuito de estabelecer padres que podem determinar tendncias futuras. Tambm chamado de aprendizado supervisionado (ELMASRI, 2006, p. 634), pois, aps montado, pode ser utilizado para classificao de novos dados. Esse processo procura encontrar um modelo que descreva classes diferentes de dados. Por exemplo, em uma empresa, clientes podem ser classificados como de risco baixo ou risco justo. Utiliza-se primeiramente um treinamento com um conjunto de dados que j foram classificados. Cada registro nos dados de treinamento, chamado rtulo de classe, indica a classe a qual o registro pertence O modelo criado, normalmente, ficar na forma de uma rvore de deciso ou um conjunto de regras. Existe uma preocupao em relao ao modelo e o algoritmo que vem a ser a habilidade do modelo prever a classe correta dos novos dados, o custo computacional associado ao algoritmo e a sua escalabilidade. Uma rvore de deciso uma representao grfica da descrio de cada classe ou, em outras palavras, uma representao das regras de classificao. Analise o exemplo abaixo: Algoritmo para induo de rvore de deciso Input: conjunto de dados de treinamento Registros: R1, R2,.........., Rm e conjunto de atributos; A1, A2,..........An. Output: rvore de deciso. Procedure Constri_rvore (Registros, Atributos) Incio Criar um n N; Se todos os registros pertencem mesma classe, C, ento Retorna N como um n-folha com rtulo de classe C; Se Atributos est vazio ento Ps-Graduao a Distncia
17
Data Mining
Unidade II
Retorna N como um n-folha com rtula de classe C, com a maioria dos registros pertencentes a ela; Seleciona o Atributo A1 (com o maior ganho de informao) de atributos; Rotula n N com A; Para cada valor conhecido, Vj, de A1 faa Incio Some um marca do n N para a condio A1 = Vj; Sj = subconjunto de Registros onde A1 = Vj; Se Sj est vazio ento Adicione uma folha, L, com rtulo de classe C, como a maioria dos registros pertencentes a ela e retorna L Seno some o n retornado por Consti_rvore (Sj, Atributos - A); fim.
casado sim salrio < 20.000 risco alto > = 20.000 < = 50.000 risco justo > = 50.000 risco alto < = 25 < = 5.000 <20.000 no renda
risco baixo
idade > = 25
risco justo
risco baixo
Figura 2 Exemplo de rvore de deciso para aplicaes de carto de crdito. (ELMASRI, 2006, p. 553).
Agrupamento (Clustering)
Tpicos Avanados em Banco de Dados
18
Este processo procura colocar em grupos os dados similares, mas no havendo classes preexistentes Na sua definio mais comum Cluster uma coleo de objetos de dados, similares, mas no similares aos objetos externos. Algoritmos: K-means Inicia com uma escolha randmica de k registros para representar a centroide, (mdia) m1,.....mk, dos grupamentos, C1,.....Ck. Todos os registros so colocados em um dado grupamento, baseados na distncia entre os registros e a mdia do grupamento. Se a distncia entre m1 e o registro RJ a menor entre todas as mdias do grupamento, ento o registro RJ colocado no grupamento Ci. Uma vez que todos os registros tenham sido colocados inicialmente em um grupamento, a mdia para cada grupamento recalculada e assim sucessivamente.
Data Mining
Unidade II
Ps-Graduao a Distncia
19
Data warehouse uma coleo de informaes, um sistema de apoio focado na mdia e alta gerncia das empresas, na recuperao de informaes e no no processamento das mesmas. Embora a mdia tenha pegado carona na popularidade do nome e colocado diversos produtos sob a bandeira da tecnologia de Data WareHouse, devemos ter em mente que ele no um Banco de Dados como os tradicionais. Elmasri (2006) apud W.H. INMON (1992) caracterizou um Data Warehouse como uma coleo de dados orientada por assunto, integrada, no voltil, variante no tempo, que d apoio s decises da administrao. Esse sistema d suporte a demanda de alto desempenho por dados e informaes, proporcionando acesso aos dados para anlise complexa, descoberta de conhecimento e tomada de deciso.
Conhecimento
Avaliao Visualizao
Data Mining Seleo DWh As Bases de Dados so: Dinmicas Incompletas Limpeza Redundantes Ruidosas Esparasas Detabases Figura 3
Existem vrios tipos de aplicaes. OLAP (On-line Analytical Processing Processamento Analtico), termo utilizado para descrever a anlise de dados complexos em um sistema de Data Warehouse. Ferramentas OLAP empregam as capacidades de computao distribudas para anlises que requerem mais armazenamento e poder de processamento.
Ps-Graduao a Distncia
21
Data Warehousing
Unidade III
DSS (Decision-Support Systems Sistemas de Apoio Deciso), tambm conhecido como EIS (Executive Information Systems Sistemas de Informao Executiva). Como o nome diz uma ferramenta de apoio deciso, e o Data Mining, como visto anteriormente, caracteriza esse tipo de aplicao. Os bancos Data Warehouses so projetados para tratar grande quantidade de informao e oferecer fontes mltiplas, podendo extrair dados de Bancos distintos e/ou at de sistemas e plataformas diferentes.
So Paulo
2008 Fabricao So Paulo Rio de Janeiro GM 3800 2500 Carros FIAT 3250 3000 Caminhes GM FIAT 700 1190 500 800
Regio Sudeste
22
Data Warehousing
Unidade III
Drill-down: nveis mais detalhados (complementando o roll-up), um item de resumo dividido em componentes, possibilitando a explorao em nveis de detalhes da informao, viso do nvel mais alto para o detalhe.
Fabricao Regio Sudeste So Paulo Rio de Janeiro Carros e Caminhes 1 TRIM 2 TRIM 3 TRIM 9000 11000 8500 11280 5500 8600
Carros e Caminhes Jan Fev Mar 2600 4500 3000 3600 1850 3200
Slice and dice (fatiar/cortar o cubo): execuo de operaes de projeo nas dimenses, possibilitando a troca de linhas por colunas (como se estivssemos girando um cubo). Exemplo: Slice: Divide-se o cubo, mas mantm se a perspectiva de visualizao dos dados.
Fabricao Regio Sudeste So Paulo Rio de Janeiro Carros e Caminhes Jan Fev Mar 4500 1900 4200 1280 3250 3200
Regio Sudeste
Carros Caminhes
2008 Regio Sudeste So Paulo Rio de Janeiro 2300 1500 1600 1650 300 400 400 640
Ps-Graduao a Distncia
23
Data Warehousing
Unidade III
Devemos aqui dar um pausa para pensar no que temos pela frente em se tratando do estudo de um tpico dito avanado. As possibilidades so imensas e no devemos nos ater somente ao que vimos no programa da disciplina. Ser que se esgotou o assunto Tpicos Avanados em Banco de Dados? Quais sos as janelas e/ou portas que abrimos com o conhecimento adquirido? Sim, devemos sempre pensar e agir com o intuito de querermos mais. Este o verdadeiro aprendizado: sempre querer subir o prximo degrau, depois de vencermos o ltimo. Desejar que a escada nunca termine, pois significaria o fim do estudo e consequentemente do nosso crescimento. Prof. Ibsen.
Ps-Graduao a Distncia
25
Referncias
HAMMER, Michael; CHAMPY, James, Reengenharia. 1o ed. Editora Campus, 1995. ELMASRI, Rames; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4o ed. Editora Pearson, 2006. INMON, W. H. Building the data warehouse. Editora Wiley. 1992. CASTANO, Silvana; FUGINI, Mariagrazia; MARTELLA, Giancarlo; SAMARATI, Pierangela. Database Security. New York: ACM Press/Reading, Mass.: Addilson-Wesley, 1995. CERT COORDINATION CENTER. CERT Annual Reports. Software Engineering Institute, Carnegie Mellon University, s.d. Pittsburgh. U.S.A Disponvel em: <http://www.cert.org> Acesso em: 16 jan. 2009. CHUNG. DataBase Security. Department of Computer Science and Engineering, Wright State University, s.d. Disponvel em: <http://www.cs.wright.edu/> Acesso em 16 jan. 2009. DATE, C. J. Introduo a sistemas de banco de dados. Rio de Janeiro: Campus, 1990.