Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução ao Conceito de BI
1
Conceito de BI – Business Intelligence
Forma Ampla: Utilização de várias fontes de
informação para se definir estratégias de
competitividade nos negócios da empresa;
Problema enfrentado hoje:
Como extrair
informações nessa
montanha de dados? 2
Business Intelligence
Objetivo geral:
Definição de regras e técnicas para a formatação
adequada destes volumes de dados, visando
transformá-los em depósitos estruturados de
informações, independente de sua origem
3
Business Intelligence
Inteligência é o resultado de um processo que
começa com a coleta de dados.
Esses dados são organizados e transformados em
informações, que depois de analisadas e
contextualizada se transforma em inteligência.
Essa, por sua vez, quando aplicada a processos de
decisão geram vantagem competitiva para a
organização.
4
Business Intelligence
Os sistemas de BI atuais têm como características:
Extrair e integrar dados de múltiplas fontes
Fazer uso da experiência
Analisar dados contextualizados
Trabalhar com hipóteses
Procurar relações de causa e efeito
Transformar os registros obtidos em informação útil para
o conhecimento empresarial
5
ERP e Business Intelligence
A implementação dos sistemas de ERP tem sido um
dos principais impulsionadores de demandas por BI.
As empresas estão percebendo que mesmo após
investir alto em ERP, continuam sem as informações
estratégicas que precisam, contando apenas com
informações isoladas dentro da empresa.
6
Modelagem de Dados
Modelagem de dados
Peter Chen
James Martin
Novas necessidades:
7
Modelagem Dimensional de Dados
O que significa dimensional?
A estrutura dimensional modifica a ordem de
distribuição de campos por entre as tabelas;
Permitindo uma formatação estrutural mais
voltada para os muitos pontos de entradas
específicos (as chamadas dimensões)
E menos para os dados granulares em si (os
chamados fatos).
8
Data Warehouse
9
Data Warehouse
Tradução literal: Armazém de Dados;
Banco de dados destinado a sistemas de
apoio à decisão e cujos dados foram
armazenados em estruturas lógicas
dimensionais,
possibilitando o seu processamento analítico
por ferramentas especiais;
10
Data Warehouse
11
Data Warehouse
Idéia multidimensional dos dados;
Descoberta de padrões de comportamento;
Segundo Inmon:
“Data Warehouse é uma coleção de dados
orientada por assuntos, integrada, variante no
tempo e não volátil, que tem por objetivo dar
suporte aos processos de tomada de decisão”
12
Data Warehouse
Realiza consultas em uma única fonte de
dados consolidada;
Através de um BD preparado para armazenar
conhecimentos sobre o negócio da empresa
13
Data Warehouse
Como funciona?
O DW é um sistema de suporte à decisão,
composto por um conjunto de ferramentas que
centralizam, armazenam, gerenciam e
extraem informações históricas da empresa;
Em um formato “mastigado”, para o tomador
de decisão.
14
Data Warehouse
Em geral, é um BD separado da base de dados
operacional;
Em sistemas desse tipo, os bancos mantêm dados
históricos, gerando um grande volume de dados e
consultas complexas.
A separação evita perda de performance no processo
operacional;
As bases DW possuem objetivo e estrutura
diferentes da base transacional, tornado a criação de
um BD exclusivo a uma necessidade. 15
Data Warehouse
É “alimentado” periodicamente com informações da
base operacional;
Os dados podem ser exibidos para o usuário através
de ferramentas de apoio à decisão (OLAP – On-Line
Analytical Processing) e Data Mining;
Que permitem a visualização multidimensional do
resultado da projeção de comportamentos;
16
Data Warehouse x Data Marts
Para diminuir o custo e o tempo total de
Implantação de um DW, podemos dividí-lo
em partes menores, distribuídas por
departamento ou áreas de atuação da empresa;
18
Implementação de Data Marts
Existem dois tipos:
Top-Down: é quando a empresa cria um DW e
depois divide-os em Data Marts gerando
pequenos bancos orientados por assunto (ou
departamentos)
Bottom-Up: é quando a empresa inicia um Data
Mart e expande o projeto para outras áreas.
19
Implementação de Data Marts
Prazos e custos:
Por apresentar prazos e custos menores a
implementação Bottom-Up tem sido muito
utilizada pelas empresas.
Em média, o tempo de implantação de um Data
Mart fica em torno de 4 meses.
O DW o tempo estimado pode passar de um ano
20
Modelagem Multidimensional
A representação dos dados em um DW é
estruturada como um cubo, transmitindo a
idéia de múltiplas dimensões.
21
Modelagem Multidimensional
A inclusão de dados no DW passa a idéia de
crescimento na largura, comprimento e
profundidade de cubo.
22
Modelagem Multidimensional
Construção:
Começa pela definição da tabela denominada
Fato;
Em seguida definimos seus elementos
relacionados, que são tabelas denominadas
dimensões.
Na interseção das dimensões são obtidas as
medidas, que são as medições numéricas da
tabela fato.
23
Exemplo de Modelagem
Multidimensional
Dimensão Dimensão
Fato
Dimensão Dimensão
No centro temos a entidade Fato e nas pontas
Dimensões, ou seja, os elementos que participam de
um Fato (StarSchema) – Esquema estrela. 24
Exemplo de Modelagem
Multidimensional
Na modelagem podemos identificar mais de 1
tabela Fato.
Quando ? Onde ?
Fato
Venda de
Automóveis
Qual ? Quem ?
25
Exemplo de Modelagem
Multidimensional
Tempo Venda_Auto Loja
Chave-Tempo Chave-Loja
Ano Chave-Tempo NomeLoja
Trimestre Chave-Loja NomeRegião
Mês Chave-
Produto Cliente
Produto Chave-Cliente Chave-Cliente
Qte_Venda Faixa-Etária
Chave-Produto
ValorVenda Renda
Produto 26
Sexo
Arquitetura de um Data Warehouse
Sistemas Data Warehouse Front-End
Corporativos
Banco DW
Centralizada 27
Arquitetura de um Data Warehouse
Sistemas Data Warehouse Front-End
Corporativos
Banco DW
Banco DW
Banco DW
Distribuída em camadas 28
Etapas de um Data Warehouse
Levantamento
Modelagem Multidimensional
ETL (Extract Transform and Load)
Visualização do resultados
29
Unidade II
Data Warehouse
1
Data Warehouse
2
Aspectos da Arquitetura
A arquitetura de dados serve para que seja
estabelecida e compreendida a movimentação dos
dados dentro de um sistema e qual o seu objetivo
como um todo;
No ambiente de DW, o objetivo é a transformação do
dado em informação
4
Ambiente de um DW
5
Ambiente de um DW
6
Etapas de um Data Warehouse
Levantamento
Modelagem Multidimensional
ETL (Extract Transform and Load)
Visualização do resultados
7
Etapas de um Data Warehouse
ETL – Extração, Transformação e Carga
No ambiente do DW, os dados são inicialmente
extraídos de sistemas operacionais e de fontes
externas,
posteriormente integrados e transformados
(limpos, eliminados, combinados, validados,
consolidados, agregados e sumarizados),
antes de serem carregados no DW.
8
Etapas de um Data Warehouse
ETL – Extração, Transformação e Carga
Finalmente, os usuários acessam o DW através de
ferramentas de front-end ou aplicações
submetendo suas consultas, de modo a obterem
informações que permitam a tomada de decisões.
SQL Server
Oracle E
T
Access L
SQL Server
Texto
m,f
1,0 E
T
mas,fem L 9
m,f
masculino, feminino
Etapas de um Data Warehouse
ETL – Extração
primeiro passo na obtenção de dados para o ambiente do
DW.
Significa basicamente ler e entender as fontes de dados e
copiar as partes necessárias para a área de transformação
de dados, a fim de serem trabalhadas posteriormente.
Na grande maioria dos DW, os dados provêm de várias
fontes diferentes e independentes, podendo ser essas
fontes as bases de dados dos sistemas transacionais,
planilhas excel, entre outros ;
10
Etapas de um Data Warehouse
ETL – Extração
Freqüentemente, o grande desafio é determinar quais
dados extrair e que tipos de filtros aplicar,
essa atividade é uma das que mais consomem tempo na
construção do DW.
A extração pode ser conduzida através da construção de
programas cujo código é executado sobre um sistema
fonte de modo a gerar arquivos com os dados desejados.
11
Etapas de um Data Warehouse
ETL – Extração
Outra opção é utilizar ferramentas de extração específicas
que geram um código próprio, interno à ferramenta,
executado sobre o sistema fonte, de forma a obter os
dados necessários, de preferência dentro de arquivos de
formato não proprietário, como, por exemplo, arquivos
texto.
12
Modelagem – Visão Geral
1) Levantamento de requisitos
De acordo com o que o cliente precisa
analisar
Fonte de dados operacional
1
Modelagem – Estudo de Caso
Área comercial de uma rede de lojas de
varejo tomando por base as possíveis
necessidades de informação de um
gerente comercial.
2
Modelagem – Visão Geral
Passo Perguntas a serem feitas para o usuário Elementos a serem definidos no modelo
3 Qual o nível mais baixo de detalhe das informações? Granularidade das informações relacionadas as métricas
4 Como se espera agrupar ou sumariar as informações/ Hierarquia de agrupamento das informações em cada dimensão.
3
Modelagem –Definindo Fatos e
Métricas (1)
O que queremos avaliar no DW/Data Mart?
Fatos:
Números que serão medidos e analisados através
das diferentes dimensões de negócios
Definida a área de negócios – responde a
pergunta:
O que estamos avaliando?
Fatos: números que o usuário lida
4
Modelagem –Definindo Fatos e
Métricas
Cenário:
Gerente comercial de uma rede de lojas quer
avaliar:
Quantidade de itens vendidos, o valor da venda, o
custo de cada um dos itens e a margem produzida
Estes valores são originados de sistemas transacionais
onde é mantida cada uma destas métricas
Nem sempre as métricas são originadas em um só
sistema.
5
Modelagem –Definindo Fatos e
Métricas
Algumas métricas poderão ser calculadas
durante o processo de extração, transformação
e carga e serão armazenadas no DW já
calculadas ou então;
poderão ser calculadas diretamente, durante a
consulta (pelas ferramentas OLAP);
6
Modelagem –Definindo Fatos e
Métricas
De acordo com o Cenário:
As métricas que ou fatos que o usuário deseja avaliar
são:
Valor da venda – realizado
Valor da venda – previsto
Quantidade de itens – realizada
Quantidade de itens – prevista
Preço médio de venda
Custo médio
Margem de venda
% de variação entre o realizado e o planejado
7
Modelagem –Definindo Dimensões(1)
Definir as dimensões relacionadas as métricas
Função: reunir os atributos que serão
utilizados para qualificar as consultas e cujos
valores serão utilizados para agrupar as
métricas (fatos)
Perguntar ao usuário:
Como as métricas serão analisadas?
Ou seja, sob quais dimensões de negócio
avaliaremos os fatos?
8
Modelagem –Definindo Dimensões
Por exemplo: Cada um das métricas
precisam ser analisada ao longo do tempo
Isso significa – analisar a quantidade de
itens vendidos por mês, ou talvez por dia;
Poderemos comparar períodos de vendas:
Analisando a quantidade de itens vendidos no
último mês em comparação com o mesmo mês
do ano anterior
9
Modelagem –Definindo Dimensões
Dica: Conversa com o usuário
Dar exemplos, sugestões como se fosse um
relatório de resultados;
Deixe que ele informe as suas
necessidades;
10
Modelagem –Definindo Dimensões
Considerando o exemplo - dimensões
identificadas pelo autor:
Tempo: indica os períodos de tempo para a
análise;
Produto: indica quais produtos estão
relacionados as métricas;
Geografia: indica a região geográfica onde
se encontram as lojas que efetuam vendas
11
Modelagem –Definindo Dimensões:
Produto
Conteúdo da dimensão Produto
12
Modelagem –Definindo Dimensões:
Tempo
Conteúdo da dimensão Tempo
13
Modelagem –Definindo Dimensões:
Geografia
Conteúdo da dimensão Geografia
14
Modelagem –Definindo Dimensões
Verificar se cada métrica se relaciona
com todas as dimensões definidas:
Cada métrica pode ser analisada ao
longo de cada dimensão?
Exemplo: Faz sentido analisar o valor das
vendas por produto? E por Loja ? E ao
longo do tempo?
15
Modelagem –Definindo Granularidade
(3)
É importante saber qual o nível de
detalhe, ou granularidade, mais baixo
que será avaliado?
Dimensão Tempo:
Podemos questionar o usuário da seguinte
forma –Qual o nível de detalhe desejado?
Faz sentido avaliar a métrica quantidade
vendida por dia?
16
Modelagem –Definindo Granularidade
(3)
Para cada uma das métricas definidas
vamos identificar qual o nível mais
baixo de detalhe será armazenado no
DW.
Se para a dimensão Tempo o nível mais
baixo for dia, então todas as métricas
deverão ser obtidas com valores por dia.
17
Modelagem –Definindo Granularidade
(3)
Estudo de Caso:
Nível de granularidade mais baixo:
Dia → dimensão Tempo
Item de produto → dimensão Produto
Loja → dimensão Geografia
A ferramenta ETL devem trazer os
dados para o DW de acordo com
granularidade definida nas dimensões
18
Modelagem –Definindo Granularidade
(3)
Estudo de Caso-Exemplo:
A métrica valor da venda: deve ser o
valor de venda realizado para cada
item de produto em cada dia e em
cada loja.
19
Modelagem –Definindo Granularidade
(3)
Informações necessárias para se
preparar o DW
20
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Os dados estarão armazenados no
DW de acordo com o nível de
detalhes estabelecido pelo usuário;
Porém, o usuário deseja informações
como:
Qual o total de canetas vendidas nas
lojas de São Paulo no último
21
semestre?
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Essa pergunta indica:
Deveremos nos preocupar com o
agrupamento ou sumariação das
informações no DW.
Portanto, deve-se definir quais as
possibilidades de agrupamento das
informações que o usuário deseja;
Especificando a hierarquia desses
22
agrupamentos – em cada dimensão
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Estudo de Caso:
Hierarquia natural – dimensão tempo;
Meses normalmente são agrupados em
bimestres ou trimestres
Que por sua vez são agrupados em
semestres e em anos.
23
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Estudo de Caso:
Volte a perguntar ao usuário
É importante saber o que o usuário
necessita – já que algumas regras de
negócios requerem agrupamentos
temporais diferentes (até para o tempo)
24
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Estudo de Caso - considerar:
Dimensão tempo: Dia→mês→semestre→ano
Dimensão produto: item de produto→linha de
produto→categoria
Dimensão Geografia: Loja→cidade→estado
→ região
25
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
Estudo de Caso - considerar:
Dimensão tempo: Dia→mês→semestre→ano
Dimensão produto: item de produto→linha de produto→categoria
Dimensão Geografia: Loja→cidade→estado → região
26
Modelagem – Normalização
Impulso:
Aplicar as regras para normalizar;
Se normalizarmos as tabelas dimensão, o BD
levará mais tempo para recuperar as linhas;
Custo(processamento) muito alto
Por ser uma base de consultas e de grande
volume, devemos nos preocupar em favorecer
o tempo de resposta aos usuários, mantendo
27
as informações de forma redundante.
Modelagem – Normalização
Aspecto que difere a modelagem de um
DW/Data Mart de modelagem das bases
operacionais.
28
Modelagem – Normalização
Tabelas dimensão não normalizadas
Star Squema
É possível normalizar as dimensões
Esquema Snowflake
29
Modelagem – Esquema Físico
Cada dimensão Corresponde a uma tabela
física na base de dados.
30
Modelagem – Star Schema
Definir:
Tabelaque conterá as métricas, ou valores, a
serem analisados pelos usuários, através das
informações representadas nas dimensões
32
Modelagem – Star Schema
33
Modelagem – Star Schema
34
Modelagem – Star Schema
Tabela Fato:
Cada linha representa como foi a venda (ou um conjunto de
vendas)
Em uma determinada data
De um determinado item
E em uma determinada loja
Armazena qual o valor total das vendas
Quantos destes itens foram vendidos
Qual o preço médio das vendas, o custo médio do item
vendido
A margem obtida com as vendas 35
Modelagem – Star Schema
Tabela Fato:
Todas estas vendas são somadas e apresentadas em
apenas uma linha da tabela;
As outras métricas indicam o que estava previsto
para ser vendido deste item, nesta data, nesta loja
A métrica %variação indica qual o percentual de
variação entre o previsto e o realizado
36
Modelagem – Star Schema
A estrutura básica deste modelo pode ser representada por
um diagrama entidade relacionamento
Dimensão 1
1,1
1,N
1,1 1,N 1,N 1,1
Dimensão 2 Fato Dimensão 4
1,N
1,1
Dimensão 3 37
Modelagem – Snowflake Schema
Emprega uma combinação de normalização da
base de dados;
Para manter a integridade e reduzir os dados
armazenados de forma redundante;
As dimensões são normalizadas em
subdimensões,
Sendo que cada nível da hierarquia fica em uma
subdimensão;
38
Modelagem – Snowflake Schema
A tabela principal da dimensão tem uma chave
para cada nível hierárquico representado na
subdimensão e não mais uma única chave, como
Star;
Possui duas variações (diferem na disposiçào das
tabelas que representam dimensões:
Snowflake Lookup
Showflake Chain
39
Modelagem – Snowflake Lookup
Representada
apenas a
dimensão
geografia 40
Modelagem – Snowflake Lookup
• Emprega tabelas adicionais para nomes e descrições de
atributos;
• Todas ligadas a uma tabela principal da dimensão;
• É possível reduzir o tamanho da tabela dimensão
eliminado a redundância;
• As tabelas adicionais atuam como tabelas lookup para a
chave ou valores codificados da tabela principal da
dimensão;
• Que está ligada a uma única tabela fato;
41
Modelagem – Snowflake Lookup
A ligação entre a tabela Fato e a tabela da
dimensão principal:
Feita através de uma chave genérica gerada;
A tabela principal da dimensão se conecta às
subdimensões(tabelas lookup)
Através da chave primárias
Vantagem
É que as descrições não precisam ser repetidas
como no esquema Star;
42
Modelagem – Snowflake Lookup
Vantagem
• Simplificação do armazenamento, reduzindo o
tamanho relativo das tabelas de dimensão;
• Melhora do controle de integridade dos dados
Desvantagem
• Acontece um número maior de joins,
comparando com o esquema Star;
• Porque precisa buscar as descrições nas tabelas
adicionais; 43
Modelagem – Snowflake Lookup
Desvantagem
Manutenção da base de dados requer um custo
alto(pois o número de tabelas físicas distintas
torna-se maior;
44
Modelagem – Snowflake Chain
Também possui subdimensões particionadas
pelos níveis hierárquicos da dimensão;
A tabela principal da dimensão representa o
nível mais baixo (mais detalhado) da hierarquia;
As subdimensões estão encadeadas;
A tabela Fato fica ligada à subdimensão de mais
baixa granularidade (chamada de principal ou
raiz)
Exemplo: Subdimensão - Loja 45
Modelagem – Snowflake Chain
Representada a
dimensão Geografia
com suas subdimensões
e a tabela Fato
46
Modelagem – Snowflake Chain
48
Qual o melhor esquema?
Depende:
do projetista;
da ferramenta OLAP;
Algumas funcionam melhor com o Star Schema
outras com Snowflake;
Existem aquelas que independem, podem ser
utilizadas com qualquer opção de modelagem;
Star Shema tem sido mais utilizado
49
Unidade II
Ferramentas de Apoio à Decisão
Disciplina: Tecnologias de Bancos de Dados
1
Etapas de um Data Warehouse
Levantamento
Modelagem Multidimensional
ETL (Extract Transform and Load)
Visualização do resultados
2
Ferramentas de Apoio à Decisão
Estão relacionadas ao conceito de BI
(Business Intelligence)
Podemos dizer:
4
Ferramentas de Apoio à Decisão
OLAP - Analytic Processing On-Line
CRM – Customer Relationship Management
Data Mining
5
Problema
Como descrever de
forma clara e concisa
informações sobre os
negócios da empresa?
6
Cenário
Essas consultas apresentam desde:
simples listagens de funcionários ou produtos;
a complexos mapas de demonstração de
crescimento financeiro;
7
Cenário
Nem sempre, é possível prever durante o
projeto ou compra de sistemas quais
informações necessitarão ser extraídas;
Esse cenário faz surgir:
A necessidade de mecanismos auxiliares,
adjacentes aos sistemas utilizados para a geração
de novos relatórios;
8
Cenário
Primeira solução da indústria:
Desenvolvimento de ferramentas de
geração de relatórios;
Porém:
9
Informação Precisamos de
passou a ser o ferramentas com uma
bem mais capacidade de análise do
valioso para a que os geradores de
empresa relatórios tradicionais
Surgimento
do DW
Infra-estrutura de
apoio ao DW 10
Contexto
As informações contidas em um DW possuem
características específicas
que as distinguem das informações existentes
em projetos de BDs convencionais;
Grande volume de dados
Dados históricos e
Bases não normalizadas
12
OLAP x OLTP
Os BDs desenvolvidos para OLTP (On-Line
Transaction Processing)
São considerados inapropriados para DW;
Eles não podem ser repositórios de fatos e
dados históricos
não atendem satisfatoriamente a consultas
e recuperação rápida dos dados.
Os dados estão em constante mudança
13
OLAP x OLTP
OLAP
Oferece um grande potencial de
recuperação e análise de informações
rápida e fácil;
Provê acesso aos dados corporativos de um
DW com segurança e controle;
Flexibilidade em programas dedicados a
análise de dados;
14
OLAP x OLTP
OLAP
Dispõe de um conjunto de operações e
ferramentas que torna o usuário capaz de
lidar com a complexidade das planilhas.
Analisar tendências, fazer comparações,
descartar problemas e manipular as
informações;
15
OLAP OLTP
Relevância para dados históricos Mantém usualmente a
situação corrente
Necessidade de ver o dados sob Voltado para a velocidade
diferentes perspectivas: e automação de funções
aplicações dinâmicas repetitivas
Atualizações quase inexistentes, Baseado em transações
apenas novas inserções
Baseado em dados históricos, Baseado em transações
consolidados e freqüentemente
totalizados
Operações de agregação e Alto nível de detalhe
cruzamentos 16
Características dos sistemas OLAP
Permitir uma visão conceitual
multidimensional dos dados de uma empresa;
Modelados de acordo com a estrutura cubo;
17
Características dos sistemas OLAP
Porque uma planilha não
pode ser considerada
uma ferramenta OLAP?
19
Regras - OLAP
Transparência
Deve atender a todas as solicitações do
analista,
Não importando de onde os dados virão.
Todas as implicações devem ser
transparentes para o usuário finais;
20
Regras - OLAP
Acessibilidade
Devem permitir conexão com todas as
bases de dados legadas.
A distribuição de informações deve ser
mapeada para permitir o acesso a qualquer
base.
21
Regras - OLAP
Desempenho de informações consistentes
Devem possuir conhecimento sobre todas
as informações armazenadas para que
possa disponibilizar sem complexidade
para o usuário final, qualquer tipo de
consulta.
22
Regras - OLAP
Arquitetura Cliente/servidor
Deve ser construída em arquitetura
cliente/servidor para que possa atender a
qualquer usuário em qualquer ambiente
operacional;
23
Regras - OLAP
Dimensionalidade genérica
Deve ser capaz de tratar informações em
qualquer quantidade de dimensões;
24
Regras - OLAP
Manipulação de dados dinâmicos
Devido ao grande volume de informações
armazenadas nas diversas dimensões de um
modelo multidimensional,
É comum a espacidade dos dados,
E então essas células nulas dever ser
tratadas para evitar custos com memória;
25
Regras - OLAP
Suporte a Multiusuários
Nas grandes organizações é comum vários
analistas trabalharem com a mesma massa
de dados;
26
Regras - OLAP
Operações ilimitadas em dimensões
cruzadas
Devem ser capazes de navegar nas diversas
dimensões existentes;
Operações intuitiva dos dados
O usuário deverá ser capaz de manipular os
dados livremente sem necessitar de
qualquer tipo de ajuda
27
Regras - OLAP
Flexibilidade nas consultas
O usuário deverá ter a flexibilidade para
efetuar qualquer tipo de consulta;
Níveis de dimensão e agregação ilimitados
Devido às várias dimensões existentes, deve
haver vários níveis de agregação dos dados.
28
Operações OLAP
Meios para realizar as consultas:
1a. Tentativa:
Oferecer uma tela com interface gráfica, onde
botões, listas e marcadores compõem o cenário da
análise.
Solução não foi eficiente: usuário fica restrito a
uma interface predefinida;
29
Operações OLAP
Meios para realizar as consultas:
2a. Tentativa:
Foi implementado um conjunto de instruções para
compor uma extensão SQL,
Onde o usuário monta o cenário conforme a
digitação de comandos;
Solução: mais flexível, porém não é popular –
geralmente os usuários OLAP não detêm
conhecimento sobre linguagens de programação;
30
Operações OLAP
Após montagem do cenário de uma consulta,
freqüentemente o analista de negócios deseja
mudar o resultado da análise.
As ferramentas OLAP fornecem suporte para
funções de derivação de dados complexos
(Slice and Dice);
Suporte Slice and Dice
Serve para modificar a ordem das dimensões,
alterar linhas por colunas de maneira a facilitar a
compreensão dos usuários. 31
Ferramenta OLAP
Característica - capacidade de efetuar:
Slice e Dice e Drill up / Down
Resumindo:
Slice diz respeito ao fatiamento do cubo
Onde por exemplo: apenas as vendas de
uma região são analisadas
32
Ferramenta OLAP
Slice diz respeito ao fatiamento do cubo
33
Ferramenta OLAP
Resumindo:
Dice é a capacidade de rotacionar o cubo
Por exemplo: “quantidade de vendas de
determinada região geográfica,
discriminada por mês de um período” para
“quantidade de vendas de determinado
mês, discriminada por regiões geográficas”
34
Ferramenta OLAP
Drill Down/Up
É a capacidade de, a partir de determinado
nível de consolidação, obter-se resultados
em níveis acima (Up) ou baixo (Down)
dentro de uma hierarquia de dimensões;
Como a partir de “Vendas por semestre”,
obter-se “Vendas anuais” (Up) ou “Vendas
mensais”(Down).
35
Operações OLAP
Slice and Dice compreende as operações:
Ranging
Drilling
Rotation
Ranking
36
Operações OLAP
Ranging
Operação responsável por, a qualquer momento,
alterar o resultado das consultas, inserindo novas
posições ou removendo as que estão em foco.
É preciso que o usuário informe o que está
modificando e o que será feito.
Por exemplo: a inserção de um novo produto em
uma consulta.
O resultado desse Ranging será considerado para
todas as demais operações, ou seja, pode-se
encarar o resultado como um novo cubo gerado a 37
partir do cubo original.
Operações OLAP
Drilling
O analista pode mudar o escopo do que está
analisando,
Porém essas informações podem encontrar-se
agregadas em diversos níveis.
O Drilling – permite navegação por entre estes
níveis;
Existem 3 operações OLAP, que permitem ao
analista mudar o escopo dos dados:
Drill Down, Drill Up, Drill Across 38
Operações OLAP
Exemplo de hierarquia de uma dimensão Produto
para uma organização de restaurantes, onde podem
ser efetuadas operações de Drilling.
Produto
Prato Bebida
Gnochi
Pizza Medalhão Cubano Salmão Licor Coco
Ravioli Cordeiro Pollo port Robalo Vinho Água
39
Pratos Bebidas
Total 1325 2520
44
Operações OLAP
Rotation
Além de mudar as posições em foco,
Tem a flexibilidade de alterar a forma de
visualização das informações;
Não adiciona nem retira posições do
cenário;
45
Operações OLAP
Ranking
É possível fazer a classificação dos dados
obtidos;
Aplicar ranking de “Quais os 3 pratos mais
vendidos?”
46
Ferramenta OLAP
Podem ser implementadas de diversas
formas, sendo classificadas em cinco
tipos de acordo com o local de
armazenamento e o mecanismo utilizado
para processamento de consultas.
47
Ferramenta OLAP
Tipos:
MOLAP - Multidimensional OLAP
ROLAP – Relacional OLAP
HOLAP – Hybrid OLAP
DOLAP – Desktop OLAP
WOLAP – Web OLAP
48
Ferramenta OLAP
O local de armazenamento:
MDB (Banco de dados multidimensional),
como nos casos de MOLAP e HOLAP;
RDBMS (Banco de dados relacional),
como em ROLAP e também em HOLAP
ou;
Arquivos em base de dados locais ou
mesmo em memória RAM em estações
clientes, como em DOLAP e WOLAP.
49
Ferramenta OLAP
Com relação ao mecanismo de
processamento de consultas:
O mecanismo do servidor MDB em
MOLAP e HOLAP;
A linguagem SQL que é utilizada em
ROLAP e HOLAP;
Mecanismos multidimensionais nas
estações clientes, em casos de DOLAP e
alguns WOLAP;
50
MOLAP (multidimensional OLAP)
Os dados ficam armazenados em um BD
multidimensional;
Onde o servidor MOLAP atua;
O usuário trabalha, monta e manipula os
dados diretamente no servidor;
51
MOLAP (multidimensional OLAP)
52
MOLAP (multidimensional OLAP)
O armazenamento em um BD
multidimensional utiliza um espaço menor
que o utilizado para armazenar os mesmos
dados em um BD relacional;
Porque não são necessários índices;
E a estrutura multidimensional é mais enxuta;
Dados são mantidos em estruturas de dados
do tipo “array”;
53
MOLAP (multidimensional OLAP)
Vantagem:
Rapidez;
Conjunto de funções de análises
Projetados para suportar grande número de
usuários sem perder em desempenho;
54
MOLAP (multidimensional OLAP)
Desvantagem
Existe a possibilidade dos dados serem
esparsos (nem todo cruzamento das
dimensões contém dados);
Pode ocorrer a chamada “explosão” de
armazenamento do BD
Um imenso BD multidimensional contendo
poucos dados armazenados.
55
MOLAP (multidimensional OLAP)
Outras limitações
BD multidimensionais serem sistemas
proprietários que não seguem padrões.
Cada desenvolvedor cria a sua própria
estrutura para o banco e as próprias
ferramentas de suporte.
56
ROLAP (relacional OLAP)
É uma simulação da tecnologia OLAP
feita em um BD relacional
57
ROLAP (relacional OLAP)
Vantagem
Por utilizar a estrutura relacional – não restringe o
volume de armazenamento de dados;
Não utilizam os cubos pré-calculados como
ocorre no MOLAP;
A medida que o usuário monta sua consulta
em uma interface gráfica, a ferramenta acessa
os metadados ou quaisquer outros recursos
para gerar uma consulta em SQL. 58
ROLAP (relacional OLAP)
Possibilidade de fazer qualquer consulta, visto
que não se está limitado ao conteúdo de um
cubo.
Principal vantagem
Utilização de uma tecnologia estabelecida, de
arquitetura aberta e padronizada;
Limitações
Pobre conjunto de funções para análise
dimensionais;
Baixo desempenho da linguagem SQL na
execução de consultas pesadas. 59
HOLAP (Hybrid OLAP)
Forte tendência da arquitetura OLAP
atualmente é a HOLAP ou
processamento híbrido;
Consegue combinar a capacidade e
escalabilidade das ferramentas ROLAP
com o desempenho superior dos BD
multidimensionais
60
HOLAP (Hybrid OLAP)
61
HOLAP (Hybrid OLAP)
Alguns BD relacionais já permitem criar
“arrays” multidimensionais.
E alguns BD multidimensionais já
permitem implementar os conceitos
relacionais.
62
DOLAP (Desktop OLAP)
Ferramenta para usuários que possuam uma
cópia da base multidimensional ou de um
subconjunto dela ou ainda,
Que queiram acessar um repositório central
localmente.
O usuário, através do disparo de uma
instrução SQL, acessa os cubos já existentes
no BD multidimensional residente no servidor
OLAP e obtém de volta o micro-cubo para ser
analisado em sua estação de trabalho.
63
DOLAP (Desktop OLAP)
Ganho....
Redução da sobrecarga no servidor de BD
uma vez que todo o processamento OLAP
acontece na máquina cliente.
Desvantagem
O tamanho do micro-cubo - não pode ser
muito grande, caso contrário, a análise
pode ser demorada e a máquina do cliente
não suportará.
64
WOLAP (Web OLAP)
É a utilização de uma ferramenta OLAP a partir
do browser;
Traz os benefícios de duas tecnologias que
estão em constante evolução: a web e as
ferramentas OLAP.
Diferencial: uso da Web
Facilita:
distribuição da ferramenta,
o acesso a dados remotamente para análise
Utilização da aplicação independência de
65
plataforma
WOLAP (Web OLAP)
Arquitetura
Variação da arquitetura Cliente/Servidor;
A diferença está na utilização de um midleware do
lado do servidor que será responsável pela
comunicação entre o cliente e uma aplicação
servidora.
66
WOLAP (Web OLAP)
Segue os mesmos princípios de um sistema
Web.
Solicitações são
enviadas via http
ao servidor
Cliente
67
Servidor
Ferramentas OLAP
MOLAP
Arbor Software Essbase
Information Builders FOCUS/Fusion
Holistics Systems Holos
Hyperion Enterprise
Sinper TM/1
Comshare Comander EIS / OLAP
Kenan Technologies Acutrieve
Oracle Express Objects e Express analyzer
Pilot (D&B) LigthShip Professional
Planning Sciences Getium
68
Ferramentas OLAP
ROLAP
Andyne Pablo
Cognos PowerPlay
Information Advantage DecisionSuite 3.0
Informix-MetaCube
MicroStrategy DSS Agent
Prodea Beacon
BO – Business Object
DB2-OLAPServer
Oracle Discoverer 69
Ferramentas OLAP
HOLAP
White Ligth
Analysis Server
Crystal Holos
IBM DB2 OLAP Server
70
Ferramentas OLAP
DOLAP
Andyne GQL
BrioQuery
Business Objects
Cognos Impromptu
Crystal Decision
Hummingbird
71
Ferramentas OLAP
WOLAP
Versões novas do:
BO Business Object
MicroStrategy
Oracle Discoverer e outros
72
Unidade III
Data Mining
(Mineração de Dados)
Disciplina: Tecnologias para Descoberta do
Conhecimento
1
Perspectiva histórica da área de KDD
A Mineração de Dados, usualmente utilizada
como sinônimo de todo o processo de KDD,
pode ser dividida em quatro gerações:
A primeira geração de Mineração de
Dados apareceu nos anos 1980 e consistia
de ferramentas de análise voltadas a uma
única tarefa, sem suporte às demais
etapas do processo de KDD.
Essas tarefas incluíam, em geral, a
construção de classificadores usando
ferramentas de Indução de Regras ou de
Redes Neurais, a descoberta de grupos
nos dados (por exemplo, K-Means), ou 2
ainda a visualização de dados.
Perspectiva histórica da área de KDD
A segunda geração de sistemas de
Mineração de Dados surgiu em 1995
com o desenvolvimento de Terceira geração de Mineração de Dados
ferramentas chamadas “suítes”. no final dos anos 1990.
Essas soluções são orientadas para a
Essas ferramentas eram dirigidas ao resolução de um problema específico da
fato de que o processo de descoberta empresa, como, por exemplo, detecção de
do conhecimento requer múltiplos tipos fraudes em cartão de crédito.
de análise dos dados. Nesta geração, as interfaces são
orientadas para o usuário e procuram
As “suítes”, tais como SPSS, esconder toda a complexidade da
Clemetine, Intelligent Miner e SAS Mineração de Dados.
Enterprise Miner, permitem ao usuário O software Falcon da HNC Software para
realizar diversas tarefas de descoberta detecção de fraudes em cartão de crédito
(geralmente classificação, é um exemplo deste tipo de solução
clusterização e visualização) e
3
suportam transformação de dados.
Perspectiva histórica da área de KDD
Por fim, Ciência de Dados, Big Data, Text Mining, Multimedia Data Mining, Web
Mining, que são exemplos de expressões surgidas ao longo dos últimos anos e
que estão intrinsecamente relacionadas com os conceitos de KDD e de
Mineração de Dados.
4
Mineração de Dados
Descoberta de Associações – nesta tarefa, cada registro do conjunto de dados é
normalmente chamado de transação. Cada transação é composta por um
conjunto de itens. A tarefa de descoberta de associações compreende a busca
por itens que frequentemente ocorram de forma simultânea em transações do
conjunto de dados.
Um exemplo clássico e didático da aplicação desta tarefa é na área de
marketing: durante um processo de Descoberta de Associações em sua base de
dados, uma grande rede de mercados norte-americana descobriu que um
número razoável de compradores de fralda também comprava cerveja na
véspera de finais de semana com jogos transmitidos pela televisão.
5
Mineração de Dados
Por meio de uma análise mais detalhada sobre as transações de compra, os
analistas de dados puderam perceber que os compradores eram homens que,
ao comprarem fraldas para seus filhos, compravam também cerveja para
consumo enquanto cuidavam das crianças e assistiam aos jogos na televisão
durante o final de semana.
Este exemplo ilustra a associação entre fraldas e cervejas. Essa empresa
utilizou o novo conhecimento para aproximar as gôndolas de fraldas e cervejas
na rede de mercados, incrementando assim a venda conjunta dos dois produtos.
6
Mineração de Dados
7
Mineração de Dados
Classificação – nesta tarefa, os atributos do conjunto de dados são divididos em dois
tipos. Cada atributo do primeiro tipo é denominado atributo previsor.
8
Mineração de Dados
Considere também dois tipos de clientes: adimplentes e inadimplentes. Estas que
são as classes do problema (i.e., os valores do atributo-alvo).
Tal função pode ser utilizada para prever o comportamento de novos clientes que
desejem contrair empréstimos junto à financeira. Esta função pode ser incorporada a
um sistema de apoio à decisão que auxilie na filtragem e concessão de empréstimos
somente a clientes classificados como bons pagadores.
9
Mineração de Dados
10
Mineração de Dados
Regressão – compreende a busca por uma função que mapeie os registros de um
banco de dados em um intervalo de valores reais.
Esta tarefa é similar à tarefa de Classificação, com a diferença de que o atributo-alvo
assume valores numéricos.
11
Mineração de Dados
Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da
tarefa de Regressão?
Existem muitos problemas em que os dados não apresentam
dependência linear entre si. Nestes casos, podem ser aplicadas
técnicas de Regressão Não Linear
Regressão Linear,
denominada Regressão Linear Bivariada
Estatística, Redes Neurais, dentre outras
áreas
Regressão Linear Múltipla
Regressão Polinomial
Método dos Mínimos Quadrados.
12
Mineração de Dados
Agrupamento (Clusterização) – utilizada para segmentar os registros de uma base de
dados em subconjuntos ou clusters, de tal forma que os elementos de um cluster
compartilhem propriedades comuns que os distingam de elementos nos demais
clusters.
O objetivo nesta tarefa é maximizar a similaridade intracluster e minimizar a
similaridade intercluster. Diferente da tarefa de Classificação, em que cada registro
está associado a um ou mais rótulos predefinidos, a Clusterização precisa identificar
os grupos de dados.
13
Mineração de Dados
14
Mineração de Dados
Sumarização – esta tarefa consiste em identificar e indicar características comuns
entre registros do conjunto de dados.
16
Mineração de Dados
Detecção de Desvios – esta tarefa consiste em identificar registros do conjunto de
dados cujas características não atendam aos padrões considerados normais no
contexto.
Tais registros são denominados valores atípicos (outliers). Como exemplo, considere
um banco de dados com informações sobre compras de clientes no cartão de crédito.
A tarefa de Detecção de Desvios pode ser realizada para buscar compras cujas
características divirjam do perfil normal de compra do dono do cartão.
17
Mineração de Dados
18
Mineração de Dados
Descoberta de Sequências – é uma extensão da tarefa Descoberta de Associações na
qual são buscados itens frequentes levando-se em conta várias transações ocorridas
ao longo de um período de tempo.
20
Unidade III
Data Mining
(Mineração de Dados)
Disciplina: Tecnologias para Descoberta do
Conhecimento
1
Métodos Tradicionais
Nos chamados métodos de Aprendizado Baseado
em Instâncias (ABI), não há a geração de um modelo
de conhecimento explícito; em vez disso, os próprios
dados do conjunto de treinamento constituem o
modelo. A estratégia de ABI é usada em uma família de
métodos de Aprendizado Baseado em Casos
2
Métodos Tradicionais
A expressão Método Baseado em Instância indica que, ao
processar um novo registro, o método leva em consideração as
instâncias ou os registros existentes no conjunto de dados.
Métodos baseados em instâncias são usados principalmente para
Classificação, mas podem também ser usados para Regressão.
Um representante da família de métodos baseados em instâncias
é o k-NN (k-Nearest Neighbors ou, em português, k-Vizinhos Mais
Próximos)
3
k-NN para Classificação
O k-NN considera que os registros do
conjunto de dados correspondem a pontos no
Rn, em que cada atributo corresponde a uma
dimensão deste espaço.
O método k-NN é utilizado em aplicações
envolvendo a tarefa de Classificação.
No método k-NN, o conjunto de dados é
armazenado.
4
k-NN para Classificação
Quando um novo registro deve ser
classificado, este registro é comparado a todos
os registros do conjunto de treinamento para
identificar k vizinhos mais próximos, i.e.,
mais semelhantes, de acordo com alguma
métrica.
5
k-NN para Classificação
Além disso, o valor de k é um parâmetro de
entrada deste método.
A classe do novo registro é determinada por
inspeção das classes desses vizinhos mais
próximos, de acordo com a métrica
selecionada.
A resposta do método é a classe mais
frequente entre os vizinhos mais próximos.
6
k-NN para Classificação
Considere um conjunto de dados (conjunto de
referência) de um problema envolvendo a tarefa de
Classificação (e que, portanto, contém um atributo
cujos valores são rótulos de classes predefinidas) e
um novo registro a ser classificado.
Considere também que foi definido um valor para a
quantidade de vizinhos a ser considerada, i.e., o
valor do parâmetro k. Sendo assim, o método k-NN
é formado pelos seguintes passos:
7
k-NN para Classificação
1. Cálculo da distância do novo registro a cada um
dos registros existentes no conjunto de referência.
2. Identificação dos k registros do conjunto de
referência que apresentaram menor distância em
relação ao novo registro (i.e., mais similares).
3. Apuração da classe mais frequente entre os k
registros identificados no passo anterior.
8
k-NN para Classificação
Nesta aplicação, deseja-se avaliar
a possibilidade de concessão de
crédito a novas solicitações.
Ao avaliar o gráfico, observamos que a classe com maior ocorrência dentro da região
delimitada pelo algoritmo k-NN foi “cliente não negligente” (dois votos contra um da
outra classe). Sendo assim, pela aplicação do algoritmo k-NN no exemplo
apresentado, o crédito seria concedido ao solicitante.
10
k-NN para Classificação
12
k-Means
O k-Means é um método popular da tarefa de Agrupamento.
• Inicialmente, o k-Means seleciona k pontos do conjunto de dados. Esses
pontos são denominados sementes.
14
k-Means
A Figura 1 e a Figura 2 ilustram
a aplicação do k-Means em um
arquivo com 20 registros de
dados, considerando-se k=3.
Inicialmente, a sementes são
selecionadas de forma
aleatória (Figura 1, imagem à
esquerda).
Após isso, cada ponto restante
é alocado a algum grupo, em
função de sua distância a cada
um dos centroides (Figura 1,
imagem à direita). Os
centroides são então
atualizados (Figura 2). A seguir,
ocorre nova realocação de
pontos (Figura 2). O processo
continua até a convergência.
15
Unidade III
Data Mining
(Mineração de Dados)
Disciplina: Tecnologias de Bancos de Dados
1
Bibliografia
Barbieri. C. BI-Business Intelligence: modelagem e
tecnologia. Rio de Janeiro: Axcel Books, 2001.
Capítulo 8
Bibliografia Complementar
Júnior, M. C. Projetando Sistemas de Apoio à Decisão
Baseados em Data Warehouse. Axcel Books, 2004.
2
Data Mining
Estão relacionados com a nova tendência de
se buscar correlações escondidas em altos
volumes de dados,
nem sempre evidentes, principalmente no
tratamento cotidiano dos Sistemas de
Informações.
3
Esse processo resolve questões
Cenário que necessariamente devem ser
definidas
BDr permitem a extração de diversas
informações usando SQL.
O mecanismo é simples:
Identifica-se um problema
previamente estruturada
Cenário
Porém, dados armazenados podem escolher diversos
tipos de padrões e comportamentos relevantes que a
princípio não podem ser descobertos utilizando-se
SQL.
5
Cenário
Por mais que o analista seja criativo, ele irá apenas
conseguir elaborar diversas questões de forma que se
tenham resultados práticos no final.
6
Exemplo
Considere uma loja de roupas:
um cadastro com aproximadamente 500.000 clientes
Através do uso de técnicas de mineração foi descoberto
que 7% desses clientes são casados;
Estão na faixa etária compreendida entre 31 e 40 anos
e possuem pelo menos dois filhos.
Decisão:
Uma campanha de marketing direcionada a esse grupo
de clientes poderia ser realizada objetivando o aumento
no consumo de produtos infantis.
7
Exemplo
Note:
Inicialmente não foi elaborada uma questão do tipo:
Identifique os clientes casados com faixa etária entre 31 e
40 anos e que possuem pelo menos dois filhos
O próprio processo de mineração identificou a
pergunta e a resposta.
8
Data Mining
9
Data Mining
A mineração de dados não ocorre somente
em BD relacionais.
Hoje pode-se trabalhar com diversas fontes
tais como textos, arquivos de Log, DW e
outras.
10
Data Mining
Exemplo – Empréstimo Pessoal1:
Tipo de conhecimento a extrair:
Como identificar os mutuários negligentes
Definição do analista de dados:
Os dados mais representativos do conhecimento
desejado são fornecidos pelos atributos salário, débito
e regularidade de pagamento.
De posse dessas informações gerou-se o gráfico:
Composto de 14 amostras.
11
1 Data Mining: Técnicas e Aplicações para o Marketing Direto, Fernanda Cristina N. do Amaral
Data Mining
Exemplo – Empréstimo Pessoal1:
Cada ponto do gráfico representa um mutuário a
quem foi dado um empréstimo por um banco
particular, em algum momento do passado
No eixo horizontal - tem-se os salários
No eixo vertical – seu débito mensal (hipoteca,
pagamento de carro, e etc)
12
1 Data Mining: Técnicas e Aplicaçòes para o Marketing Direto, Fernanda Cristina N. do Amaral
Data Mining
Exemplo – Empréstimo Pessoal1:
Os dados foram classificados em duas classes
Mutuários representados por X, que estão em débito
com o pagamento dos empréstimos
Representados por ● em dia
Análise: definir padrões onde as pessoas
consideradas negligentes estejam separadas das
pessoas não negligentes
13
1 Data Mining: Técnicas e Aplicaçòes para o Marketing Direto, Fernanda Cristina N. do Amaral
Se salário > t então mutuário é bom pagador
Observe: a regra não é verdadeira sempre
Data Mining
Análise: Padrão Linear
x
x x ●
x
● ● ●
Débitos x
x x ● ●
t Salários
14
1 Data Mining: Técnicas e Aplicaçòes para o Marketing Direto, Fernanda Cristina N. do Amaral
Data Mining
Análise: Outras técnicas
x
x x ●
x Clusterização
● ● ● Regressão
Débitos x
x x ● ● Redes Neurais
t Salários
15
Data Mining
É uma forma de se capitalizar em cima das
informações, tentando descobrir padrões de
comportamento de clientes, ou identificando,
por exemplo,
Estilos de ações fraudulentas em cartões de
crédito ou em seguradoras.
16
Data Mining
A mídia tem veiculado exemplos clássicos de
Data Mining, como as correlações entre
produtos comprados na mesma cesta de
supermercado
(salsicha e catchup, fraldas com cerveja ou ....
axé music com remédio para o fígado).
17
OLAP X Data Mining
Objetiva trabalhar Busca algo mais que a
os dados existentes, interpretação do dados
buscando existentes. Visa
consolidações em fundamentalmente realizar
vários níveis, inferências, tentando como
trabalhando fatos que adivinhar possíveis
em dimensões fatos e correlações não
variadas explicitadas nas
montanhas de dados de um
DW/DM 18
Exemplo: OLAP X Data Mining
Empresa de Crédito
Olap
produziriam gráficos mostrando os percentuais
comparativos de compras com cartões de crédito
roubados e válidos
Data Mining
indicariam os padrões associados a certo
comportamento fraudulento com cartões de
crédito.
19
Exemplo: OLAP X Data Mining
Empresa de Seguros
Olap
Qual o valor médio de pagamentos de seguros de
vida para não fumantes, na região sul do estado,
em agosto de 1999?
Data Mining
Definir os melhores atributos de clientes, capazes
de ajudarem como previsores de possíveis
acidentes de automóvel.
20
Exemplo: OLAP X Data Mining
Empresa de Serviços
Olap
Qual o valor médio de faturamento de clientes do
tipo industrial, da área de alumínio nas regiões da
Mantiqueira, comparando-se os anos de 1998 e
1999?
Data Mining
Indicar quais atributos de clientes seriam
importantes para serem considerados numa
possível e indesejável quebra de fidelização
(migração do cliente para o concorrente) 21
KDD e Mineração de Dados
A mineração de dados é vista como parte de
um processo maior:
Denominado KDD (Knowledge Discovery in
Database – Descoberta de Conhecimento em
Bases de Dados)
22
KDD - Descoberta de
Conhecimento em Bases de
Dados
23
Diferenças entre dado, informação e
conhecimento
SE Capacidade Mensal de Endividamento > 60%
ENTÃO Crédito = SIM
Conhecimento
Capacidade Mensal de Endividamento
Informação Mensal = 100 * (Renda Mensal –
Despesas Mensais) / Renda Mensal
24
Diferenças entre dado, informação e
conhecimento
Em geral, o conhecimento não pode ser
abstraído das bases de dados por recursos
tradicionais de TI.
O termo KDD foi formalizado em 1989 em
referência ao amplo conceito de procurar
conhecimento a partir de bases de dados.
KDD – caracterizada como um processo
composto por várias etapas operacionais.
25
Etapas de KDD
Resumo das etapas operacionais:
26
Pré-Processamento
Etapas de KDD
Compreende as funções relacionadas à
captação, à organização e ao tratamento dos
dados.
Tem como objetivo a preparação dos dados
para os algoritmos da etapa seguinte, a
Mineração de Dados.
27
Mineração de Dados
Etapas de KDD
É realizada a busca efetiva por conhecimentos
úteis no contexto da aplicação de KDD.
28
Pós-Processamento
Etapas de KDD
Abrange o tratamento do conhecimento
obtido na Mineração de Dados.
Tal tratamento, nem sempre necessário, tem
como objetivo viabilizar a avaliação da
utilização do conhecimento descoberto.
29
O Processo de Descoberta do
Conhecimento
Envolve várias fases
Objetivo: extrair de grandes bases de dados,
sem nenhuma formulação prévia de hipóteses,
informações desconhecidas, válidas e
acionáveis, úteis para a tomada de decisão
Envolve 3 etapas iniciais:
Seleção
Compõe:
Pré-processamento preparação dos dados
transformação 30
O Processo de Descoberta do
Conhecimento
Envolve 3 etapas iniciais:
Seleção
Compõe:
Pré-processamento preparação dos dados
Transformação
Mineração de Dados
Análise e Assimilação dos Resultados
31
O Processo de Descoberta do
Conhecimento
32
Etapas do Processo de KDD
Seleção de Dados:
Deverão ser identificadas as bases de dados a
serem utilizadas para a descoberta de
conhecimento, levando em consideração os
objetivos do processo.
33
Etapas do Processo de KDD
Pré-processamento
A informação pode vir de várias bases distintas,
alguns problemas de integração devem ser
resolvidos;
Exemplo:
Sexo em diferentes formatos: M, F, 0, 1
34
Etapas do Processo de KDD
Transformação de Dados
O objetivo desta etapa é transformar os dados
pré-processados, de modo a torná-los compatíveis
com as entradas dos diversos algoritmos de
mineração existentes.
35
Etapas do Processo de KDD
Mineração de Dados
É o coração do processo.
Caracteriza-se pela escolha e aplicação da técnica
e do algoritmo de mineração. Entre as principais
técnicas podem ser destacadas: Regras de
associação, classificação e agrupamento
(Clustering) cada uma podendo envolver 1 ou
mais algoritmos.
36
Etapas do Processo de KDD
Análise e Assimilação dos Resultados
O conhecimento gerado deve ser analisado de
maneira a verificar se é realmente útil à tomada
de decisão.
Se a resposta não for satisfatória, então será
necessário repetir todo ou parte do processo de
KDD
37
Tipos de Técnicas e de algoritmos para
Mineração de Dados
Técnicas Tradicionais
Técnicas Específicas
Técnicas Híbridas
38
Técnicas Tradicionais
São tecnologias que existem independente do
contexto da Mineração de Dados.
Em geral, produzem bons resultados também
em aplicações de KDD.
Exemplo:
Redes Neurais
Técnica computacional que constrói um modelo
matemático inspirado em um sistema neural
simplificado, com capacidade de aprendizado,
generalização, associação e abstração.
39
Técnicas Tradicionais
Exemplo:
Lógica Nebulosa (Fuzzy Logic)
É uma técnica que permite construir sistemas que
lidem com informações imprecisas ou subjetivas.
40
Técnicas Tradicionais
Exemplo:
Algoritmos Genéticos (AG)
São modelos de otimização, inspirados na
evolução natural e na genética, aplicados a
problemas complexos de otimização.
Técnicas baseadas em modelo heurísticos como
AG não podem garantir a solução ótima, porém
podem conseguir soluções próximas, ou
aceitáveis.
41
Técnicas Tradicionais
Exemplo:
Estatística
Fornece diversos tipos de modelos e técnicas
tradicionais para análise e interpretação de dados.
Exemplo: Análise exploratória, análise
discriminante e outros.
42
Técnicas Específicas
São técnicas desenvolvidas, especificamente
para aplicação em tarefas de KDD.
Exemplo:
Algoritmo Apriori:
desenvolvido especificamente para a tarefa de
Descoberta de Associação
Diversos algoritmos como: DHP, Partition,
ParMaxEclat dentre outros, foram originados a
partir do Apriori.
43
Técnicas Híbridas
Técnicas podem ser combinadas de forma a
gerar os chamados sistemas híbridos.
São aqueles que utilizam mais de uma técnica
para a solução de um problema de
modelagem.
44
Tecnologias para Descoberta de
Conhecimento
Medidas
• Operadores Fórmulas DAX Criar
• Lógicas
• Texto Relacionamentos
• Inteligência de tempo • Fato
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fundamentos das Fórmulas DAX
Fórmulas DAX
DAX (Data Analysis Expressions)?
É uma coleção de funções, operadores e constantes
que podem ser usados em uma fórmula ou
expressão;
‘Nome Tabela’[NomeColuna]
NomeTabela[NomeColuna]
Se houver espaços no nome da tabela, as aspas
simples em torno do nome da tabela serão
obrigatórias.
Se o nome da tabela não tiver espaços, as aspas
simples poderão ser omitidas para que a sintaxe seja
parecida com esta.
Operadores Aritméticos
Operadores Relacionais
Trabalhando os Operadores
Aritméticos e Relacionais
Conhecendo os Dados
(003_Folha.xlxs)
Calcular o salário Bruto
Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)
Calcular o salário Bruto
Calcular o salário Líquido
1) Obter dados do Excel para o Power BI
Observe a tabela de dados
Conhecendo os Dados
(003_Folha.xlxs)
Medidas
• Operadores Fórmulas DAX Criar
• Lógicas
• Texto Relacionamentos
• Inteligência de tempo • Fato
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fundamentos das Fórmulas DAX
Fórmulas DAX
DAX (Data Analysis Expressions)?
É uma coleção de funções, operadores e constantes
que podem ser usados em uma fórmula ou
expressão;
‘Nome Tabela’[NomeColuna]
NomeTabela[NomeColuna]
Se houver espaços no nome da tabela, as aspas
simples em torno do nome da tabela serão
obrigatórias.
Se o nome da tabela não tiver espaços, as aspas
simples poderão ser omitidas para que a sintaxe seja
parecida com esta.
DAX
Funções de Agregação e
Iterativas
Funções de Agregação mais usadas
• SUM
• AVERAGE
• MIN
• MAX
• SUMX
• Outras funções X (expressão)
• Essas funções funcionam somente em colunas
numéricas e, geralmente, podem agregar apenas
uma coluna por vez, ao contrário das funções que
terminam com x.
Funções de Agregação
Funções de Agregação
• Criando Métricas (Medidas)
• Menu Modelagem → Nova tabela
• Renomear a tabela para o nome Medidas
• Menu Modelagem → Nova Medida
Funções de Agregação – Criando Dashboards
• Duplicar o relatório folha de pagamento, apagar
os cards
• Incluir o cartão de linhas múltiplas
Funções de Agregação – Criando Dashboards
• Incluir a métrica (Qte Funcionários)
Formação: Título: “Indicador”alinhamento(Centro), preto,
tamanho 16)
• Incluir a métrica (Total Salário)
Formação: moeda geral
• Incluir a métrica (Média Salário)
Formação: moeda geral
Medidas
• Operadores Fórmulas DAX Criar
• Lógicas
• Texto Relacionamentos
• Inteligência de tempo • Fato
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fundamentos das Fórmulas DAX
Fórmulas DAX
DAX (Data Analysis Expressions)?
É uma coleção de funções, operadores e constantes
que podem ser usados em uma fórmula ou
expressão;
‘Nome Tabela’[NomeColuna]
NomeTabela[NomeColuna]
Se houver espaços no nome da tabela, as aspas
simples em torno do nome da tabela serão
obrigatórias. Se o nome da tabela não tiver espaços,
as aspas simples poderão ser omitidas para que a
sintaxe seja parecida com esta.
Operadores Aritméticos
Operadores Relacionais
Trabalhando os Operadores
Aritméticos e Relacionais
Conhecendo os Dados
(003_Folha.xlxs)
Calcular o salário Bruto
Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)
Calcular o salário Bruto
Calcular o salário Líquido
1) Obter dados do Excel para o Power BI
Observe a tabela de dados
Conhecendo os Dados
(003_Folha.xlxs)