Você está na página 1de 42

Aula 3: OLAP e Data Mining

Tema 1:
Introdução
Sumário

1. Introdução
2. OLAP
3. Data mining
Pontuando
1. Introdução

Fase de Acesso e Análise

• Acesso às informações nos data warehouses são


feitas a partir de operações OLAP;
• A ferramenta de data mining é um sistema
complexo utilizado para a análise dos dados,
através dela possível extrair conhecimento dos
dados.
1. Introdução
Fase de Acesso e Análise
Alguns elementos da disciplina de BI,
Datawarehousing e Big Data
BI - Business Intelligence
Suporte a processo da tomada de decisão por meio da análise de informações
Datawarehousing
É o processo de extrair valor do seu ativo informacional através de
arquivos especiais chamados Data Warehouse

OLAP
Análise de n-variáveis simultaneamente para descobrir a aderência
ou não nos conjuntos de dados perante uma questão

Data Mining
Tecnologia de reconhecimento de padrão nos dados e predição do
comportamento futuro

Big Data
BI com as seguintes características típicas (3V’s):
Volume, Velocidade e Variedade
Prof. Dr. Lawrence Chung Koo
Usos típicos em BI

Consultas e Relatórios

On-line Data Analysis

Data Mining

Prof. Dr. Lawrence Chung Koo


Fluxo do Processo de Consultas e Relatórios
Definição das consultas

 Questões de negócio ou hipóteses são traduzidas em consultas


computacionais
Acesso aos dados e recuperação

 a consulta é submetida ao componente de acesso ao DW que retorna o


conjunto de respostas da consulta
Cálculos e manipulação

 cálculos e manipulações de dados podem ser realizados pelo usuário final;


resultados são analisados
Apresentação do relatório

 o resultado das consultas ou das operações de análise são apresentados


na forma de relatórios e gráficos e tabelas
Entrega do relatório

 o relatório é entregue ao usuário final Prof. Dr. Lawrence Chung Koo


On-Line Data Analysis
Verificação de Existência
Comparação de itens
Análise de tendências
Ranking e cluster analysis
Análises Estatísticas
Análises iterativas

Prof. Dr. Lawrence Chung Koo


O que é OLAP?
Visões lógicas multi-dimensionais dos dados
 Independente de como o dados está armazenado
Análise de dados multi-dimensionais
 slice & dice, drill-down, roll-up, pivoting,...
Engine poderosas de transformações de dados
 estatísticas ao longo de várias dimensões
Previsões, análise de tendências, análises estatística
Apresentação poderosas da Informação
 2D/3D, gráficos, tabelas,...
Geralmente envolve armazenamento multi-dimensional (MDDB)

Prof. Dr. Lawrence Chung Koo


Data Mining
Análise de descoberta
Os propósitos do data mining vão desde descobrir “relações
desconhecida” até revelar novos fatos de negócios, em vastas
quantidades de dados detalhados

Direcionado para Assistido Direcionado para


o analista pelo analista os dados

Relatórios e On-line data Análise Knoledge


Consultas analysis Estatística discovery

Data Mining

Prof. Dr. Lawrence Chung Koo


Tema 2:
OLAP
Sumário

1. Introdução
2. OLAP
3. Data mining
Pontuando
2. OLAP
Definição

• OLAP (On-Line Analitycal Processing –


Processamento Analítico em Tempo Real);
• Operações voltadas para consultas e não inserção,
atualização, remoção e leitura;
• Possuem 4 tipos: ROLAP, MOLAP, HOLAP e DOLAP.
2. OLAP
Tipos de OLAP:

• DOLAP (Desktop OLAP): fornecem ferramentas


mais simples que executam as análises
multidimensionais locais sobre os dados baixados
dos bancos de dados no cliente;
• ROLAP (Relational - Relacional OLAP): está sobre
um banco de dados relacional. Realiza consultas
complexas, porém pode criar visões
multidimensionais.
2. OLAP
Tipos de OLAP:

• MOLAP (Multidimensional OLAP): está sobre um


banco de dados multidimensional. Os dados já
estão organizados com valores resumidos
• HOLAP (Hibrid – Híbrido OLAP): guarda as
informações de agregação em MOLAP e as
informações detalhadas em ROLAP, aproveitando
assim as vantagens dos dois tipos;
2. OLAP
Operações
• Slice (fatiar): faz a restrição por um valor da
dimensão.

Clientes Clientes

Tempo
Produtos
Tempo
2. OLAP
Operações
• Dice (cubo): mostra um subcubo.

Clientes
Clientes
Produtos
Tempo
Produtos
Tempo
2. OLAP
Operações
• Roll-up ou Drill-up (enrolar para cima): quando
temos níveis hierárquicos de dados, ele sobe um
nível.
Homens
Mulheres
Clientes
Produtos
Tempo

Produtos
Tempo
2. OLAP

Operações
• Drill-down (desenrolar): é o contrário do Roll-up,
ele desce um nível detalhando mais a informação.

Maria
Homens
João
Mulheres
José
Produtos Ana
Tempo
Produtos
Tempo
2. OLAP
Operações
• Pivot/Rotate (eixo/rotacionar): muda o eixo da
análise.

Cliente Cliente

Produtos Tempo
Tempo Produtos
2. OLAP
Operações
• Selection (seleção): filtra dos dados de acordo com
os parâmetros passados.

Cliente: Maria
Cliente Produto: Arroz
Tempo: 01/11

Produtos
Tempo
Tema 3:
Data Mining
Sumário

1. Introdução
2. OLAP
3. Data mining
Pontuando
3. Data Mining
Definição
• Mineração de dados é a busca de evidências que apontem
tendências e padrões de comportamento.
• Utiliza técnicas matemáticas e estatísticas para modelar o
problema e eventos de interesse de maneira mais correta (ou
seja, mais científica).
• A escolha da técnica depende da análise que se pretende
realizar.
3. Data Mining
• O data mining é necessário para aprofundar a investigação
sobre as causas dos eventos e determinar sua provável
evolução.
• Baseando-se apenas no OLAP (que é extremamente útil, mas
não suficiente) podemos chegar a conclusões incompletas ou
incorretas.
• Vejamos o exemplo seguinte, que sumariza as vendas de três
produtos em três lojas diferentes.
Data Mining
- Classificação: Designar os objetos em classes
- Estimativa: Saída discreta de resultado - sim,não,
quantidade de filhos por família...
- Predição: Estimativa com premissas
- Regras de Associação/Affinity Group: Carrinho de
compra
- Clustering: Segmentação em grupos com similaridade
- Descrição e Visualização: Suporte para entendimento de
uma grande quantidade de dados.

Prof. Dr. Lawrence Chung Koo


3. Data mining
Tarefas
• Classificação: busca um modelo que de acordo
com uma lista de classes determina a qual classe
pertence os novos registros.

Classes

Fonte Imagem: http://Office.com


3. Data mining
Tarefas
• Regressão: busca um modelo que classifique os
registros em um número real.
Maria José
Data Saldo Cartão Data Saldo Cartão
01/09/12 100,00 -200,00 01/09/12 -100,00 50,00
01/10/12 500,00 -150,00 01/10/12 10,00 150,00
01/11/12 200,00 -100,00 01/11/12 50,00 -100,00
Acum. 800,00 -450,00 Acum. -40,00 100,00

C : 800 - (-450) = 1250 C : -40 - (100) = -140


3. Data mining
Tarefas
• Clusterização: busca um modelo que separa os
registros em diversos grupos que são mais
semelhantes entre si.

Fonte Imagem: http://Office.com


3. Data mining

Tarefas
• Sumarização: busca um modelo que identifique as
características em comum dentre os registros.
Registros Padrões
3. Data mining

Tarefas
• Detecção de desvios: busca um modelo que
identifique registros que estão fora do padrão.
Registros

Padrão
3. Data mining

Tarefas
• Análise de evolução: busca um modelo que
consiga identificar comportamentos regulares e
tendências dos objetos de estudo em função do
tempo.

Sequência de atividades Tendência


Tema 4:
Data Mining / Pontuando
3. Data mining
Métodos
• Algoritmo Apriori: desenvolvido especificamente
para ser utilizado na mineração de dados para
resolver tarefas de associação. Ele encontra a
frequência com que determinado conjunto aparece
nos dados.
Registros Frequências
4/4
3/4
1/4
3/4
1/4
3. Data mining
Métodos

• Redes neurais: é uma solução que através de


uma modelagem estatística consegue simular o
comportamento do aprendizado realizado nos
neurônios;
• Algoritmos genéticos: foi desenvolvido para
resolver problemas de otimização, utilizando os
conceitos da genética;

Fonte Imagem: http://Office.com


3. Data mining
Métodos
• Lógica nebulosa (fuzzy): é uma solução que
permite classificar itens com informações imprecisas
ou subjetivas;
• Métodos estatísticos: são diversas soluções
matemáticas que são utilizadas para analisar os
dados;

Fonte Imagem: http://Office.com


3. Data mining

Primitivas
• Dados relevantes para a tarefa: especificam
quais são as tabelas e campos que serão utilizados;
• Tipo de tarefa: determina a tarefa a ser realizada;
• Medidas e limites: são definidas para avaliar as
descobertas encontradas pelos reconhecedores de
padrão
3. Data mining
Primitivas
• Conhecimento prévio: é utilizar conhecimentos
prévios sobre os dados para ajudar a realizar as
consultas. Exemplo: a tabela de endereço, sabemos
que um número é subordinado a uma rua que está
associada a uma cidade, pertencente a um estado.
• Tipo de representação: definem quais os tipos de
representação dos dados, pode ser um dashboard,
um relatório, regras, cubos etc.
Sumário

1. Introdução
2. OLAP
3. Data mining
Pontuando
Pontuando

• O OLAP é uma ferramenta utilizada para dar suporte


às consultas aos data warehouses e data marts. Os
comandos principais trabalham com as diferentes
visualizações e análise dos dados que estão
dispostos em cubos (hipercubos).
• O OLAP pode ser trabalhado com bancos de dados
relacionais ou multidimensionais.
Pontuando

• A mineração de dados possui algumas tarefas bem


definidas que utilizam técnicas computacionais,
matemáticas e algoritmos especialmente definidos
para mineração de dados para encontrar um modelo
de solução para o problema levantado.
• As primitivas da mineração de dados mostram os
passos para estabelecer as consultas e conseguir
alcançar as análises desejadas.