TeraSlide - Business Intelligence

Unidade II
Introdução ao Conceito de BI
Profa. Viviane Cristina Dias
1
Conceito de BI – Business Intelligence
 Forma Ampla: Utilização de várias fontes de
informação para se definir estratégias de
competitividade nos negócios da empresa;
 Problema enfrentado hoje:
 Como extrair
informações nessa
montanha de dados? 2
Business Intelligence
 Objetivo geral:
 Definição de regras e técnicas para a formatação
adequada destes volumes de dados, visando
transformá-los em depósitos estruturados de
informações, independente de sua origem
3
 Inteligência é o resultado de um processo que
começa com a coleta de dados.
 Esses dados são organizados e transformados em
informações, que depois de analisadas e
contextualizada se transforma em inteligência.
 Essa, por sua vez, quando aplicada a processos de
decisão geram vantagem competitiva para a
organização.
4
 Os sistemas de BI atuais têm como características:
 Extrair e integrar dados de múltiplas fontes
 Fazer uso da experiência
 Analisar dados contextualizados
 Trabalhar com hipóteses
 Procurar relações de causa e efeito
 Transformar os registros obtidos em informação útil para
o conhecimento empresarial
5
ERP e Business Intelligence
 A implementação dos sistemas de ERP tem sido um
dos principais impulsionadores de demandas por BI.
 As empresas estão percebendo que mesmo após
investir alto em ERP, continuam sem as informações
estratégicas que precisam, contando apenas com
informações isoladas dentro da empresa.
6
Modelagem de Dados
 Modelagem de dados
 Peter Chen
 James Martin
 Novas necessidades:
7
Modelagem Dimensional de Dados
 O que significa dimensional?
 A estrutura dimensional modifica a ordem de
distribuição de campos por entre as tabelas;
 Permitindo uma formatação estrutural mais
voltada para os muitos pontos de entradas
específicos (as chamadas dimensões)
 E menos para os dados granulares em si (os
chamados fatos).
8
Data Warehouse
9
Data Warehouse
 Tradução literal: Armazém de Dados;
 Banco de dados destinado a sistemas de
apoio à decisão e cujos dados foram
armazenados em estruturas lógicas
dimensionais,
 possibilitando o seu processamento analítico
por ferramentas especiais;
10
Data Warehouse
11
Data Warehouse
 Idéia multidimensional dos dados;
 Descoberta de padrões de comportamento;
 Segundo Inmon:
 “Data Warehouse é uma coleção de dados
orientada por assuntos, integrada, variante no
tempo e não volátil, que tem por objetivo dar
suporte aos processos de tomada de decisão”
12
Data Warehouse
 Realiza consultas em uma única fonte de
dados consolidada;
 Através de um BD preparado para armazenar
conhecimentos sobre o negócio da empresa
13
Data Warehouse
 Como funciona?
 O DW é um sistema de suporte à decisão,
composto por um conjunto de ferramentas que
centralizam, armazenam, gerenciam e
extraem informações históricas da empresa;
 Em um formato “mastigado”, para o tomador
de decisão.
14
Data Warehouse
 Em geral, é um BD separado da base de dados
operacional;
 Em sistemas desse tipo, os bancos mantêm dados
históricos, gerando um grande volume de dados e
consultas complexas.
 A separação evita perda de performance no processo
operacional;
 As bases DW possuem objetivo e estrutura
diferentes da base transacional, tornado a criação de
um BD exclusivo a uma necessidade. 15
Data Warehouse
 É “alimentado” periodicamente com informações da
base operacional;
 Os dados podem ser exibidos para o usuário através
de ferramentas de apoio à decisão (OLAP – On-Line
Analytical Processing) e Data Mining;
 Que permitem a visualização multidimensional do
resultado da projeção de comportamentos;
16
Data Warehouse x Data Marts
 Para diminuir o custo e o tempo total de
Implantação de um DW, podemos dividí-lo
em partes menores, distribuídas por
departamento ou áreas de atuação da empresa;
 A divisão de um DW é conhecida como Data

Mart;
17
Data Warehouse x Data Marts
 Diferença entre DW e Data Mart:
 São apenas em relação ao tamanho e ao escopo
do problema a ser resolvido.
 Por ser direcionado a uma área específica da
empresa, o planejamento e a análise de Data
Marts são mais fáceis de gerenciar
18
Implementação de Data Marts
 Existem dois tipos:
 Top-Down: é quando a empresa cria um DW e
depois divide-os em Data Marts gerando
pequenos bancos orientados por assunto (ou
departamentos)
 Bottom-Up: é quando a empresa inicia um Data
Mart e expande o projeto para outras áreas.
19
Implementação de Data Marts
 Prazos e custos:
 Por apresentar prazos e custos menores a
implementação Bottom-Up tem sido muito
utilizada pelas empresas.
 Em média, o tempo de implantação de um Data
Mart fica em torno de 4 meses.
 O DW o tempo estimado pode passar de um ano
20
Modelagem Multidimensional
 A representação dos dados em um DW é
estruturada como um cubo, transmitindo a
idéia de múltiplas dimensões.
21
 A inclusão de dados no DW passa a idéia de
crescimento na largura, comprimento e
profundidade de cubo.
22
 Construção:
 Começa pela definição da tabela denominada
Fato;
 Em seguida definimos seus elementos
relacionados, que são tabelas denominadas
dimensões.
 Na interseção das dimensões são obtidas as
medidas, que são as medições numéricas da
tabela fato.
23
Exemplo de Modelagem
Multidimensional
Dimensão Dimensão
Fato
Dimensão Dimensão
 No centro temos a entidade Fato e nas pontas
Dimensões, ou seja, os elementos que participam de
um Fato (StarSchema) – Esquema estrela. 24
Multidimensional
 Na modelagem podemos identificar mais de 1
tabela Fato.
Quando ? Onde ?
Fato
Venda de
Automóveis
Qual ? Quem ?
25
Multidimensional
Tempo Venda_Auto Loja
Chave-Tempo Chave-Loja
Ano Chave-Tempo NomeLoja
Trimestre Chave-Loja NomeRegião
Mês Chave-
Produto Cliente
Produto Chave-Cliente Chave-Cliente
Qte_Venda Faixa-Etária
Chave-Produto
ValorVenda Renda
Produto 26
Sexo
Arquitetura de um Data Warehouse
Sistemas Data Warehouse Front-End
Corporativos
Banco DW
Centralizada 27
Arquitetura de um Data Warehouse
Sistemas Data Warehouse Front-End
Corporativos
Banco DW
Banco DW
Banco DW
Distribuída em camadas 28
Etapas de um Data Warehouse
 Levantamento
 Modelagem Multidimensional
 ETL (Extract Transform and Load)
 Visualização do resultados
29
Unidade II
Data Warehouse
1
Data Warehouse
2
Aspectos da Arquitetura
 A arquitetura de dados serve para que seja
estabelecida e compreendida a movimentação dos
dados dentro de um sistema e qual o seu objetivo
como um todo;
 No ambiente de DW, o objetivo é a transformação do
dado em informação
 a arquitetura deve ser proposta de forma a representar

as estruturas de dados, as comunicações, os
processamentos e os resultados que serão
apresentados aos usuários. 3
Ambiente de um DW
 Composto por:
 bases de dados operacionais, que consistem dos
dados externos ao DW;
 pela sua área interna, onde ocorrem todos os
processos de organização dos dados;
 e pela área física do DW, que é onde os dados
estão realmente armazenados para consulta direta
ou indireta dos usuários finais. ;
4
Ambiente de um DW
 Um DW contém dados sumarizados, históricos e

detalhados para suportar a tomada de decisões
táticas e estratégicas.
5
Ambiente de um DW
6
 Levantamento
7
 ETL – Extração, Transformação e Carga
 No ambiente do DW, os dados são inicialmente
extraídos de sistemas operacionais e de fontes
externas,
 posteriormente integrados e transformados
(limpos, eliminados, combinados, validados,
consolidados, agregados e sumarizados),
 antes de serem carregados no DW.
8
 ETL – Extração, Transformação e Carga
 Finalmente, os usuários acessam o DW através de
ferramentas de front-end ou aplicações
submetendo suas consultas, de modo a obterem
informações que permitam a tomada de decisões.
SQL Server
Oracle E
T
Access L
SQL Server
Texto
m,f
1,0 E
T
mas,fem L 9
m,f
masculino, feminino
 ETL – Extração
 primeiro passo na obtenção de dados para o ambiente do
DW.
 Significa basicamente ler e entender as fontes de dados e
copiar as partes necessárias para a área de transformação
de dados, a fim de serem trabalhadas posteriormente.
 Na grande maioria dos DW, os dados provêm de várias
fontes diferentes e independentes, podendo ser essas
fontes as bases de dados dos sistemas transacionais,
planilhas excel, entre outros ;
10
 Freqüentemente, o grande desafio é determinar quais
dados extrair e que tipos de filtros aplicar,
 essa atividade é uma das que mais consomem tempo na
construção do DW.
 A extração pode ser conduzida através da construção de
programas cujo código é executado sobre um sistema
fonte de modo a gerar arquivos com os dados desejados.
11
 Outra opção é utilizar ferramentas de extração específicas
que geram um código próprio, interno à ferramenta,
executado sobre o sistema fonte, de forma a obter os
dados necessários, de preferência dentro de arquivos de
formato não proprietário, como, por exemplo, arquivos
texto.
12
Modelagem – Visão Geral
1) Levantamento de requisitos
 De acordo com o que o cliente precisa
analisar
 Fonte de dados operacional
1
Modelagem – Estudo de Caso
Área comercial de uma rede de lojas de
varejo tomando por base as possíveis
necessidades de informação de um
gerente comercial.
2
Modelagem – Visão Geral
Passo Perguntas a serem feitas para o usuário Elementos a serem definidos no modelo
1 O que estamos avaliando? Fatos ou métricas (sempre um valor numérico)
2 Como serão avaliados ou analisados? Dimensões de negócios relacionadas às métricas
3 Qual o nível mais baixo de detalhe das informações? Granularidade das informações relacionadas as métricas
4 Como se espera agrupar ou sumariar as informações/ Hierarquia de agrupamento das informações em cada dimensão.
3
Modelagem –Definindo Fatos e
Métricas (1)
 O que queremos avaliar no DW/Data Mart?
 Fatos:
 Números que serão medidos e analisados através
das diferentes dimensões de negócios
 Definida a área de negócios – responde a
pergunta:
 O que estamos avaliando?
 Fatos: números que o usuário lida
4
Métricas
 Cenário:
 Gerente comercial de uma rede de lojas quer
avaliar:
 Quantidade de itens vendidos, o valor da venda, o
custo de cada um dos itens e a margem produzida
 Estes valores são originados de sistemas transacionais
onde é mantida cada uma destas métricas
 Nem sempre as métricas são originadas em um só
sistema.
5
Métricas
 Algumas métricas poderão ser calculadas
durante o processo de extração, transformação
e carga e serão armazenadas no DW já
calculadas ou então;
 poderão ser calculadas diretamente, durante a
consulta (pelas ferramentas OLAP);
6
Métricas
 De acordo com o Cenário:
 As métricas que ou fatos que o usuário deseja avaliar
são:
 Valor da venda – realizado
 Valor da venda – previsto
 Quantidade de itens – realizada
 Quantidade de itens – prevista
 Preço médio de venda
 Custo médio
 Margem de venda
 % de variação entre o realizado e o planejado
7
Modelagem –Definindo Dimensões(1)
 Definir as dimensões relacionadas as métricas
 Função: reunir os atributos que serão
utilizados para qualificar as consultas e cujos
valores serão utilizados para agrupar as
métricas (fatos)
 Perguntar ao usuário:
 Como as métricas serão analisadas?
 Ou seja, sob quais dimensões de negócio
avaliaremos os fatos?
8
Modelagem –Definindo Dimensões
 Por exemplo: Cada um das métricas
precisam ser analisada ao longo do tempo
 Isso significa – analisar a quantidade de
itens vendidos por mês, ou talvez por dia;
 Poderemos comparar períodos de vendas:
 Analisando a quantidade de itens vendidos no
último mês em comparação com o mesmo mês
do ano anterior
9
 Dica: Conversa com o usuário
 Dar exemplos, sugestões como se fosse um
relatório de resultados;
 Deixe que ele informe as suas
necessidades;
10
 Considerando o exemplo - dimensões
identificadas pelo autor:
 Tempo: indica os períodos de tempo para a
análise;
 Produto: indica quais produtos estão
relacionados as métricas;
 Geografia: indica a região geográfica onde
se encontram as lojas que efetuam vendas
11
Modelagem –Definindo Dimensões:
Produto
 Conteúdo da dimensão Produto
12
Tempo
 Conteúdo da dimensão Tempo
13
Geografia
 Conteúdo da dimensão Geografia
14
 Verificar se cada métrica se relaciona
com todas as dimensões definidas:
 Cada métrica pode ser analisada ao
longo de cada dimensão?
 Exemplo: Faz sentido analisar o valor das
vendas por produto? E por Loja ? E ao
longo do tempo?
15
Modelagem –Definindo Granularidade
(3)
 É importante saber qual o nível de
detalhe, ou granularidade, mais baixo
que será avaliado?
 Dimensão Tempo:
 Podemos questionar o usuário da seguinte
forma –Qual o nível de detalhe desejado?
 Faz sentido avaliar a métrica quantidade
vendida por dia?
16
(3)
 Para cada uma das métricas definidas
vamos identificar qual o nível mais
baixo de detalhe será armazenado no
DW.
 Se para a dimensão Tempo o nível mais
baixo for dia, então todas as métricas
deverão ser obtidas com valores por dia.
17
(3)
 Estudo de Caso:
 Nível de granularidade mais baixo:
 Dia → dimensão Tempo
 Item de produto → dimensão Produto
 Loja → dimensão Geografia
 A ferramenta ETL devem trazer os
dados para o DW de acordo com
granularidade definida nas dimensões
18
(3)
 Estudo de Caso-Exemplo:
 A métrica valor da venda: deve ser o
valor de venda realizado para cada
item de produto em cada dia e em
cada loja.
19
(3)
 Informações necessárias para se
preparar o DW
20
Modelagem –Definindo a hierarquia de
agrupamento de informações (4)
 Os dados estarão armazenados no
DW de acordo com o nível de
detalhes estabelecido pelo usuário;
 Porém, o usuário deseja informações
como:
 Qual o total de canetas vendidas nas
lojas de São Paulo no último
21
semestre?
 Essa pergunta indica:
 Deveremos nos preocupar com o
agrupamento ou sumariação das
informações no DW.
 Portanto, deve-se definir quais as
possibilidades de agrupamento das
informações que o usuário deseja;
 Especificando a hierarquia desses
22
agrupamentos – em cada dimensão
 Estudo de Caso:
 Hierarquia natural – dimensão tempo;
 Meses normalmente são agrupados em
bimestres ou trimestres
 Que por sua vez são agrupados em
semestres e em anos.
23
 Estudo de Caso:
 Volte a perguntar ao usuário
 É importante saber o que o usuário
necessita – já que algumas regras de
negócios requerem agrupamentos
temporais diferentes (até para o tempo)
24
 Estudo de Caso - considerar:
 Dimensão tempo: Dia→mês→semestre→ano
 Dimensão produto: item de produto→linha de
produto→categoria
 Dimensão Geografia: Loja→cidade→estado
→ região
25
Estudo de Caso - considerar:
 Dimensão tempo: Dia→mês→semestre→ano
 Dimensão produto: item de produto→linha de produto→categoria
 Dimensão Geografia: Loja→cidade→estado → região
26
Modelagem – Normalização
Impulso:
 Aplicar as regras para normalizar;
 Se normalizarmos as tabelas dimensão, o BD
levará mais tempo para recuperar as linhas;
 Custo(processamento) muito alto
 Por ser uma base de consultas e de grande
volume, devemos nos preocupar em favorecer
o tempo de resposta aos usuários, mantendo
27
as informações de forma redundante.
 Aspecto que difere a modelagem de um
DW/Data Mart de modelagem das bases
operacionais.
28
 Tabelas dimensão não normalizadas
 Star Squema
É possível normalizar as dimensões
 Esquema Snowflake
29
Modelagem – Esquema Físico
 Cada dimensão Corresponde a uma tabela
física na base de dados.
30
Modelagem – Star Schema
 Definir:
 Tabelaque conterá as métricas, ou valores, a
serem analisados pelos usuários, através das
informações representadas nas dimensões
 Tabela Fato – Quais informações serão

analisadas
 Tabela Dimensão – Como serão analisadas
31
Tabela Fato
 Contém atributos chave e métricas ou fatos
numéricos
 Ligada às tabelas dimensão através das chaves
32
33
34
Tabela Fato:
 Cada linha representa como foi a venda (ou um conjunto de
vendas)
 Em uma determinada data
 De um determinado item
 E em uma determinada loja
 Armazena qual o valor total das vendas
 Quantos destes itens foram vendidos
 Qual o preço médio das vendas, o custo médio do item
vendido
 A margem obtida com as vendas 35
Tabela Fato:
 Todas estas vendas são somadas e apresentadas em
apenas uma linha da tabela;
 As outras métricas indicam o que estava previsto
para ser vendido deste item, nesta data, nesta loja
 A métrica %variação indica qual o percentual de
variação entre o previsto e o realizado
36
A estrutura básica deste modelo pode ser representada por
um diagrama entidade relacionamento
Dimensão 1
1,1
1,N
1,1 1,N 1,N 1,1
Dimensão 2 Fato Dimensão 4
1,N
1,1
Dimensão 3 37
Modelagem – Snowflake Schema
 Emprega uma combinação de normalização da
base de dados;
 Para manter a integridade e reduzir os dados
armazenados de forma redundante;
 As dimensões são normalizadas em
subdimensões,
 Sendo que cada nível da hierarquia fica em uma
subdimensão;
38
Modelagem – Snowflake Schema
 A tabela principal da dimensão tem uma chave
para cada nível hierárquico representado na
subdimensão e não mais uma única chave, como
Star;
 Possui duas variações (diferem na disposiçào das
tabelas que representam dimensões:
 Snowflake Lookup
 Showflake Chain
39
Modelagem – Snowflake Lookup
Representada
apenas a
dimensão
geografia 40
• Emprega tabelas adicionais para nomes e descrições de
atributos;
• Todas ligadas a uma tabela principal da dimensão;
• É possível reduzir o tamanho da tabela dimensão
eliminado a redundância;
• As tabelas adicionais atuam como tabelas lookup para a
chave ou valores codificados da tabela principal da
dimensão;
• Que está ligada a uma única tabela fato;
41
A ligação entre a tabela Fato e a tabela da
dimensão principal:
 Feita através de uma chave genérica gerada;
A tabela principal da dimensão se conecta às
subdimensões(tabelas lookup)
 Através da chave primárias
Vantagem
É que as descrições não precisam ser repetidas
como no esquema Star;
42
Vantagem
• Simplificação do armazenamento, reduzindo o
tamanho relativo das tabelas de dimensão;
• Melhora do controle de integridade dos dados
Desvantagem
• Acontece um número maior de joins,
comparando com o esquema Star;
• Porque precisa buscar as descrições nas tabelas
adicionais; 43
Desvantagem
Manutenção da base de dados requer um custo
alto(pois o número de tabelas físicas distintas
torna-se maior;
44
Modelagem – Snowflake Chain
 Também possui subdimensões particionadas
pelos níveis hierárquicos da dimensão;
 A tabela principal da dimensão representa o
nível mais baixo (mais detalhado) da hierarquia;
 As subdimensões estão encadeadas;
 A tabela Fato fica ligada à subdimensão de mais
baixa granularidade (chamada de principal ou
raiz)
 Exemplo: Subdimensão - Loja 45
Representada a
dimensão Geografia
com suas subdimensões
e a tabela Fato
46
 Está hierarquia é sempre 1:N;

 Cada tabela da subdimensão contém sua chave
primária e suas descrições associadas;
 Contém também a chave para o próximo nível da
hierarquia da dimensão;
 Até chegarmos ao nível mais alto (menos
detalhado da hierarquia;
47
 Não é recomendada quando os relatórios

necessitam freqüentemente de vários níveis de
agregação da informação;
 Já que são necessários vários passos na cadeia
para se chegar ao resultado.
48
Qual o melhor esquema?
 Depende:
 do projetista;
 da ferramenta OLAP;
 Algumas funcionam melhor com o Star Schema
outras com Snowflake;
 Existem aquelas que independem, podem ser
utilizadas com qualquer opção de modelagem;
 Star Shema tem sido mais utilizado
49
Unidade II
Ferramentas de Apoio à Decisão
Disciplina: Tecnologias de Bancos de Dados
1
 Levantamento
2
 Estão relacionadas ao conceito de BI
(Business Intelligence)
 Podemos dizer:
BI é um conjunto de tecnologias que permitem o

cruzamento de informações e suportam a
análise dos indicadores de desempenho de
um negócio.
3
 Portanto:
As ferramentas de apoio à decisão que fazem

inferências em um BD histórico, um DW por
exemplo, são também chamadas de
ferramentas de BI.
4
 OLAP - Analytic Processing On-Line
 CRM – Customer Relationship Management
 Data Mining
5
Problema
Como descrever de
forma clara e concisa
informações sobre os
negócios da empresa?
6
Cenário
 Essas consultas apresentam desde:
 simples listagens de funcionários ou produtos;
 a complexos mapas de demonstração de
crescimento financeiro;
7
Cenário
 Nem sempre, é possível prever durante o
projeto ou compra de sistemas quais
informações necessitarão ser extraídas;
 Esse cenário faz surgir:
 A necessidade de mecanismos auxiliares,
adjacentes aos sistemas utilizados para a geração
de novos relatórios;
8
Cenário
 Primeira solução da indústria:
 Desenvolvimento de ferramentas de
geração de relatórios;
 Porém:
9
Informação Precisamos de
passou a ser o ferramentas com uma
bem mais capacidade de análise do
valioso para a que os geradores de
empresa relatórios tradicionais
Surgimento
do DW
Infra-estrutura de
apoio ao DW 10
Contexto
 As informações contidas em um DW possuem
características específicas
 que as distinguem das informações existentes
em projetos de BDs convencionais;
 Grande volume de dados
 Dados históricos e
 Bases não normalizadas
 Solução: Tecnologia OLAP 11

OLAP
 Conjunto de técnicas utilizadas para tratar
informações contidas em um DW;
 Termo criado em 1993 por Dr. E. F. Codd
 Instituiu regras que serviriam para definir se
uma ferramenta seria ou não OLAP;
12
OLAP x OLTP
 Os BDs desenvolvidos para OLTP (On-Line
Transaction Processing)
 São considerados inapropriados para DW;
 Eles não podem ser repositórios de fatos e
dados históricos
 não atendem satisfatoriamente a consultas
e recuperação rápida dos dados.
 Os dados estão em constante mudança
13
OLAP x OLTP
 OLAP
 Oferece um grande potencial de
recuperação e análise de informações
rápida e fácil;
 Provê acesso aos dados corporativos de um
DW com segurança e controle;
 Flexibilidade em programas dedicados a
análise de dados;
14
OLAP x OLTP
 OLAP
 Dispõe de um conjunto de operações e
ferramentas que torna o usuário capaz de
lidar com a complexidade das planilhas.
 Analisar tendências, fazer comparações,
descartar problemas e manipular as
informações;
15
OLAP OLTP
Relevância para dados históricos Mantém usualmente a
situação corrente
Necessidade de ver o dados sob Voltado para a velocidade
diferentes perspectivas: e automação de funções
aplicações dinâmicas repetitivas
Atualizações quase inexistentes, Baseado em transações
apenas novas inserções
Baseado em dados históricos, Baseado em transações
consolidados e freqüentemente
totalizados
Operações de agregação e Alto nível de detalhe
cruzamentos 16
Características dos sistemas OLAP
 Permitir uma visão conceitual
multidimensional dos dados de uma empresa;
 Modelados de acordo com a estrutura cubo;
17
Características dos sistemas OLAP
Porque uma planilha não
pode ser considerada
uma ferramenta OLAP?
 O termo vem de plano, duas dimensões;

 Não permitindo uma visão multidimensional dos
dados
18
Regras - OLAP
 Regras criadas pelo Dr. Codd 1993 para
avaliar ferramentas consideradas OLAP:
 Visão conceitual multidimensional
 Os dados são modelados em diversas
dimensões podendo haver cruzamento de
todos os tipos de informações;
19
Regras - OLAP
 Transparência
 Deve atender a todas as solicitações do
analista,
 Não importando de onde os dados virão.
Todas as implicações devem ser
transparentes para o usuário finais;
20
Regras - OLAP
 Acessibilidade
 Devem permitir conexão com todas as
bases de dados legadas.
 A distribuição de informações deve ser
mapeada para permitir o acesso a qualquer
base.
21
Regras - OLAP
 Desempenho de informações consistentes
 Devem possuir conhecimento sobre todas
as informações armazenadas para que
possa disponibilizar sem complexidade
para o usuário final, qualquer tipo de
consulta.
22
Regras - OLAP
 Arquitetura Cliente/servidor
 Deve ser construída em arquitetura
cliente/servidor para que possa atender a
qualquer usuário em qualquer ambiente
operacional;
23
Regras - OLAP
 Dimensionalidade genérica
 Deve ser capaz de tratar informações em
qualquer quantidade de dimensões;
24
Regras - OLAP
 Manipulação de dados dinâmicos
 Devido ao grande volume de informações
armazenadas nas diversas dimensões de um
modelo multidimensional,
 É comum a espacidade dos dados,
 E então essas células nulas dever ser
tratadas para evitar custos com memória;
25
Regras - OLAP
 Suporte a Multiusuários
 Nas grandes organizações é comum vários
analistas trabalharem com a mesma massa
de dados;
26
Regras - OLAP
 Operações ilimitadas em dimensões
cruzadas
 Devem ser capazes de navegar nas diversas
dimensões existentes;
 Operações intuitiva dos dados
 O usuário deverá ser capaz de manipular os
dados livremente sem necessitar de
qualquer tipo de ajuda
27
Regras - OLAP
 Flexibilidade nas consultas
 O usuário deverá ter a flexibilidade para
efetuar qualquer tipo de consulta;
 Níveis de dimensão e agregação ilimitados
 Devido às várias dimensões existentes, deve
haver vários níveis de agregação dos dados.
28
Operações OLAP
 Meios para realizar as consultas:
 1a. Tentativa:
 Oferecer uma tela com interface gráfica, onde
botões, listas e marcadores compõem o cenário da
análise.
 Solução não foi eficiente: usuário fica restrito a
uma interface predefinida;
29
Operações OLAP
 Meios para realizar as consultas:
 2a. Tentativa:
 Foi implementado um conjunto de instruções para
compor uma extensão SQL,
 Onde o usuário monta o cenário conforme a
digitação de comandos;
 Solução: mais flexível, porém não é popular –
geralmente os usuários OLAP não detêm
conhecimento sobre linguagens de programação;
30
Operações OLAP
 Após montagem do cenário de uma consulta,
freqüentemente o analista de negócios deseja
mudar o resultado da análise.
 As ferramentas OLAP fornecem suporte para
funções de derivação de dados complexos
(Slice and Dice);
 Suporte Slice and Dice
 Serve para modificar a ordem das dimensões,
alterar linhas por colunas de maneira a facilitar a
compreensão dos usuários. 31
Ferramenta OLAP
 Característica - capacidade de efetuar:
 Slice e Dice e Drill up / Down
 Resumindo:
 Slice diz respeito ao fatiamento do cubo
 Onde por exemplo: apenas as vendas de
uma região são analisadas
32
Ferramenta OLAP
 Slice diz respeito ao fatiamento do cubo
33
Ferramenta OLAP
 Resumindo:
 Dice é a capacidade de rotacionar o cubo
 Por exemplo: “quantidade de vendas de
determinada região geográfica,
discriminada por mês de um período” para
“quantidade de vendas de determinado
mês, discriminada por regiões geográficas”
34
Ferramenta OLAP
 Drill Down/Up
 É a capacidade de, a partir de determinado
nível de consolidação, obter-se resultados
em níveis acima (Up) ou baixo (Down)
dentro de uma hierarquia de dimensões;
 Como a partir de “Vendas por semestre”,
obter-se “Vendas anuais” (Up) ou “Vendas
mensais”(Down).
35
Operações OLAP
 Slice and Dice compreende as operações:
 Ranging
 Drilling
 Rotation
 Ranking
36
Operações OLAP
 Ranging
 Operação responsável por, a qualquer momento,
alterar o resultado das consultas, inserindo novas
posições ou removendo as que estão em foco.
 É preciso que o usuário informe o que está
modificando e o que será feito.
 Por exemplo: a inserção de um novo produto em
uma consulta.
 O resultado desse Ranging será considerado para
todas as demais operações, ou seja, pode-se
encarar o resultado como um novo cubo gerado a 37
partir do cubo original.
Operações OLAP
 Drilling
 O analista pode mudar o escopo do que está
analisando,
 Porém essas informações podem encontrar-se
agregadas em diversos níveis.
 O Drilling – permite navegação por entre estes
níveis;
 Existem 3 operações OLAP, que permitem ao
analista mudar o escopo dos dados:
 Drill Down, Drill Up, Drill Across 38
Operações OLAP
 Exemplo de hierarquia de uma dimensão Produto
para uma organização de restaurantes, onde podem
ser efetuadas operações de Drilling.
Produto
Prato Bebida
Massas Carne Frango Peixe Alcoólica Não-Alcoólica
Gnochi
Pizza Medalhão Cubano Salmão Licor Coco
Ravioli Cordeiro Pollo port Robalo Vinho Água
39
Rondele Palhard Griglia Cerveja Coca

Operações OLAP
 Drill Down
 Está operação navega verticalmente na hierarquia
no sentido em que os dados são mais atômicos.
 Exemplo – pergunta:
 Por que as vendas de massas foram maiores do
que as vendas de carnes em maio de 1999?
 Para responder a essa pergunta – montar cenário:
 Uma visão com os tipo de produtos
 Uma outra visão com o total de vendas de todos
os pratos
 Posição: Mês: Maio, Ano: 1999 40
Operações OLAP
 Drill Down
 O primeiro resultado poderia ser:
Massa Carne Frango Peixe
Total 563 278 286 198
 Com esse resultado o analista não pode tomar
nenhuma decisão.
 Para dados mais específicos será preciso
utilizar o conceito Drilling – para alterar o
escopo da análise 41
Operações OLAP
 Drill Down
 Para informações mais detalhadas sobre os pratos
de massas e carnes, o analista precisará navegar
ao longo das hierarquias de cada dimensão, até
chegar ao nível mais específico de cada prato.
 Executando Drill Down em massas:
Gnochi Pizza Ravioli Rondele

Total 96 274 84 109
42
Operações OLAP
 Drill Across
 Permite navegar transversalmente no eixo da
árvore hierárquica.
 Permite inserir e retirar posições do cenário
corrente.
 Se quisermos comparar a vendagem de pizzas
com os demais pratos de carnes, precisaríamos
navegar no mesmo nível de detalhe das posições
da dimensão. Resultado:
Pizza Medalhão Cordeiro Palhard
Total 274 155 37 86 43
Operações OLAP
 Drill Up
 Inversa a Drill Down;
 Permite uma visão mais agregada das
informações;
 Pode-se navegar nos mais diversos níveis;
Pratos Bebidas
Total 1325 2520
44
Operações OLAP
 Rotation
 Além de mudar as posições em foco,
 Tem a flexibilidade de alterar a forma de
visualização das informações;
 Não adiciona nem retira posições do
cenário;
45
Operações OLAP
 Ranking
 É possível fazer a classificação dos dados
obtidos;
 Aplicar ranking de “Quais os 3 pratos mais
vendidos?”
46
Ferramenta OLAP
 Podem ser implementadas de diversas
formas, sendo classificadas em cinco
tipos de acordo com o local de
armazenamento e o mecanismo utilizado
para processamento de consultas.
47
Ferramenta OLAP
 Tipos:
 MOLAP - Multidimensional OLAP
 ROLAP – Relacional OLAP
 HOLAP – Hybrid OLAP
 DOLAP – Desktop OLAP
 WOLAP – Web OLAP
48
Ferramenta OLAP
 O local de armazenamento:
 MDB (Banco de dados multidimensional),
como nos casos de MOLAP e HOLAP;
 RDBMS (Banco de dados relacional),
como em ROLAP e também em HOLAP
ou;
 Arquivos em base de dados locais ou
mesmo em memória RAM em estações
clientes, como em DOLAP e WOLAP.
49
Ferramenta OLAP
 Com relação ao mecanismo de
processamento de consultas:
 O mecanismo do servidor MDB em
MOLAP e HOLAP;
 A linguagem SQL que é utilizada em
ROLAP e HOLAP;
 Mecanismos multidimensionais nas
estações clientes, em casos de DOLAP e
alguns WOLAP;
50
MOLAP (multidimensional OLAP)
 Os dados ficam armazenados em um BD
multidimensional;
 Onde o servidor MOLAP atua;
 O usuário trabalha, monta e manipula os
dados diretamente no servidor;
51
52
 O armazenamento em um BD
multidimensional utiliza um espaço menor
que o utilizado para armazenar os mesmos
dados em um BD relacional;
 Porque não são necessários índices;
 E a estrutura multidimensional é mais enxuta;
 Dados são mantidos em estruturas de dados
do tipo “array”;
53
 Vantagem:
 Rapidez;
 Conjunto de funções de análises
 Projetados para suportar grande número de
usuários sem perder em desempenho;
54
 Desvantagem
 Existe a possibilidade dos dados serem
esparsos (nem todo cruzamento das
dimensões contém dados);
 Pode ocorrer a chamada “explosão” de
armazenamento do BD
 Um imenso BD multidimensional contendo
poucos dados armazenados.
55
 Outras limitações
 BD multidimensionais serem sistemas
proprietários que não seguem padrões.
 Cada desenvolvedor cria a sua própria
estrutura para o banco e as próprias
ferramentas de suporte.
56
ROLAP (relacional OLAP)
 É uma simulação da tecnologia OLAP
feita em um BD relacional
57
 Vantagem
 Por utilizar a estrutura relacional – não restringe o
volume de armazenamento de dados;
 Não utilizam os cubos pré-calculados como
ocorre no MOLAP;
 A medida que o usuário monta sua consulta
em uma interface gráfica, a ferramenta acessa
os metadados ou quaisquer outros recursos
para gerar uma consulta em SQL. 58
 Possibilidade de fazer qualquer consulta, visto
que não se está limitado ao conteúdo de um
cubo.
 Principal vantagem
 Utilização de uma tecnologia estabelecida, de
arquitetura aberta e padronizada;
 Limitações
 Pobre conjunto de funções para análise
dimensionais;
 Baixo desempenho da linguagem SQL na
execução de consultas pesadas. 59
HOLAP (Hybrid OLAP)
 Forte tendência da arquitetura OLAP
atualmente é a HOLAP ou
processamento híbrido;
 Consegue combinar a capacidade e
escalabilidade das ferramentas ROLAP
com o desempenho superior dos BD
multidimensionais
60
HOLAP (Hybrid OLAP)
61
HOLAP (Hybrid OLAP)
 Alguns BD relacionais já permitem criar
“arrays” multidimensionais.
 E alguns BD multidimensionais já
permitem implementar os conceitos
relacionais.
62
DOLAP (Desktop OLAP)
 Ferramenta para usuários que possuam uma
cópia da base multidimensional ou de um
subconjunto dela ou ainda,
 Que queiram acessar um repositório central
localmente.
 O usuário, através do disparo de uma
instrução SQL, acessa os cubos já existentes
no BD multidimensional residente no servidor
OLAP e obtém de volta o micro-cubo para ser
analisado em sua estação de trabalho.
63
DOLAP (Desktop OLAP)
 Ganho....
 Redução da sobrecarga no servidor de BD
uma vez que todo o processamento OLAP
acontece na máquina cliente.
 Desvantagem
 O tamanho do micro-cubo - não pode ser
muito grande, caso contrário, a análise
pode ser demorada e a máquina do cliente
não suportará.
64
WOLAP (Web OLAP)
 É a utilização de uma ferramenta OLAP a partir
do browser;
 Traz os benefícios de duas tecnologias que
estão em constante evolução: a web e as
ferramentas OLAP.
 Diferencial: uso da Web
 Facilita:
 distribuição da ferramenta,
 o acesso a dados remotamente para análise
 Utilização da aplicação independência de
65
plataforma
WOLAP (Web OLAP)
 Arquitetura
 Variação da arquitetura Cliente/Servidor;
 A diferença está na utilização de um midleware do
lado do servidor que será responsável pela
comunicação entre o cliente e uma aplicação
servidora.
66
WOLAP (Web OLAP)
 Segue os mesmos princípios de um sistema
Web.
Solicitações são
enviadas via http
ao servidor
Cliente
67
Servidor
Ferramentas OLAP
 MOLAP
 Arbor Software Essbase
 Information Builders FOCUS/Fusion
 Holistics Systems Holos
 Hyperion Enterprise
 Sinper TM/1
 Comshare Comander EIS / OLAP
 Kenan Technologies Acutrieve
 Oracle Express Objects e Express analyzer
 Pilot (D&B) LigthShip Professional
 Planning Sciences Getium
68
Ferramentas OLAP
 ROLAP
 Andyne Pablo
 Cognos PowerPlay
 Information Advantage DecisionSuite 3.0
 Informix-MetaCube
 MicroStrategy DSS Agent
 Prodea Beacon
 BO – Business Object
 DB2-OLAPServer
 Oracle Discoverer 69
Ferramentas OLAP
 HOLAP
 White Ligth
 Analysis Server
 Crystal Holos
 IBM DB2 OLAP Server
70
Ferramentas OLAP
 DOLAP
 Andyne GQL
 BrioQuery
 Business Objects
 Cognos Impromptu
 Crystal Decision
 Hummingbird
71
Ferramentas OLAP
 WOLAP
 Versões novas do:
 BO Business Object
 MicroStrategy
 Oracle Discoverer e outros
72
Unidade III
Data Mining
(Mineração de Dados)
Disciplina: Tecnologias para Descoberta do
Conhecimento
1
Perspectiva histórica da área de KDD
 A Mineração de Dados, usualmente utilizada
como sinônimo de todo o processo de KDD,
pode ser dividida em quatro gerações:
A primeira geração de Mineração de
Dados apareceu nos anos 1980 e consistia
de ferramentas de análise voltadas a uma
única tarefa, sem suporte às demais
etapas do processo de KDD.
Essas tarefas incluíam, em geral, a
construção de classificadores usando
ferramentas de Indução de Regras ou de
Redes Neurais, a descoberta de grupos
nos dados (por exemplo, K-Means), ou 2
ainda a visualização de dados.
A segunda geração de sistemas de
Mineração de Dados surgiu em 1995
com o desenvolvimento de Terceira geração de Mineração de Dados
ferramentas chamadas “suítes”. no final dos anos 1990.
Essas soluções são orientadas para a
Essas ferramentas eram dirigidas ao resolução de um problema específico da
fato de que o processo de descoberta empresa, como, por exemplo, detecção de
do conhecimento requer múltiplos tipos fraudes em cartão de crédito.
de análise dos dados. Nesta geração, as interfaces são
orientadas para o usuário e procuram
As “suítes”, tais como SPSS, esconder toda a complexidade da
Clemetine, Intelligent Miner e SAS Mineração de Dados.
Enterprise Miner, permitem ao usuário O software Falcon da HNC Software para
realizar diversas tarefas de descoberta detecção de fraudes em cartão de crédito
(geralmente classificação, é um exemplo deste tipo de solução
clusterização e visualização) e
3
suportam transformação de dados.
Por fim, Ciência de Dados, Big Data, Text Mining, Multimedia Data Mining, Web
Mining, que são exemplos de expressões surgidas ao longo dos últimos anos e
que estão intrinsecamente relacionadas com os conceitos de KDD e de
Mineração de Dados.
Embora não exista um consenso quanto a esta diversidade terminológica,

todas se referem a tecnologias e aplicações cujo objetivo é identificar
conhecimento útil a partir de grandes volumes de dados.
A variação da nomenclatura, em geral, ocorre em função da natureza e da

distribuição dos dados a serem analisados.
4
Mineração de Dados
Descoberta de Associações – nesta tarefa, cada registro do conjunto de dados é
normalmente chamado de transação. Cada transação é composta por um
conjunto de itens. A tarefa de descoberta de associações compreende a busca
por itens que frequentemente ocorram de forma simultânea em transações do
conjunto de dados.
Um exemplo clássico e didático da aplicação desta tarefa é na área de
marketing: durante um processo de Descoberta de Associações em sua base de
dados, uma grande rede de mercados norte-americana descobriu que um
número razoável de compradores de fralda também comprava cerveja na
véspera de finais de semana com jogos transmitidos pela televisão.
5
Por meio de uma análise mais detalhada sobre as transações de compra, os
analistas de dados puderam perceber que os compradores eram homens que,
ao comprarem fraldas para seus filhos, compravam também cerveja para
consumo enquanto cuidavam das crianças e assistiam aos jogos na televisão
durante o final de semana.
Este exemplo ilustra a associação entre fraldas e cervejas. Essa empresa
utilizou o novo conhecimento para aproximar as gôndolas de fraldas e cervejas
na rede de mercados, incrementando assim a venda conjunta dos dois produtos.
6
Quais algoritmos e/ou técnicas são exemplos de ferramentas que implementam a

tarefa de Descoberta de Associações?
Apriori, GSP, DHP, entre outros, são

exemplos de ferramentas que
implementam a tarefa de Descoberta de
Associações (ZAKI, 2000)
7
Classificação – nesta tarefa, os atributos do conjunto de dados são divididos em dois
tipos. Cada atributo do primeiro tipo é denominado atributo previsor.
O segundo tipo é denominado atributo-alvo. Para cada valor distinto do atributo-alvo

tem-se uma classe que normalmente corresponde a um rótulo categórico
pertencente a um conjunto predefinido.
A tarefa de Classificação consiste em descobrir uma função que mapeie um conjunto
de registros em um conjunto de classes. Uma vez descoberta, tal função pode ser
aplicada a novos registros de forma a prever a classe em que tais registros se
enquadram.
Como exemplo, considere uma financeira que possui o histórico de seus clientes e o
comportamento destes em relação ao pagamento de empréstimos contraídos
previamente.
8
Considere também dois tipos de clientes: adimplentes e inadimplentes. Estas que
são as classes do problema (i.e., os valores do atributo-alvo).
Uma aplicação da tarefa de Classificação, neste caso, consiste em descobrir uma

função que mapeie corretamente os clientes, a partir de seus dados (i.e., dos valores
dos atributos previsores), em uma destas classes.
Tal função pode ser utilizada para prever o comportamento de novos clientes que
desejem contrair empréstimos junto à financeira. Esta função pode ser incorporada a
um sistema de apoio à decisão que auxilie na filtragem e concessão de empréstimos
somente a clientes classificados como bons pagadores.
9
Quais algoritmos e/ou técnicas podem ser aplicadas para classificação?
k-Means, k-Modes, k-Prototypes, k-

Medoids, Mapas de Kohonen, dentre
outros.
10
Regressão – compreende a busca por uma função que mapeie os registros de um
banco de dados em um intervalo de valores reais.
Esta tarefa é similar à tarefa de Classificação, com a diferença de que o atributo-alvo
assume valores numéricos.
Como exemplo de aplicações de Regressão, pode-se citar: predição da soma da

biomassa presente em uma floresta; estimativa da probabilidade de um paciente
sobreviver, dado o resultado de um conjunto de diagnósticos de exames; predição do
risco de determinados investimentos, definição do limite do cartão de crédito para
cada cliente em um banco, dentre outros.
11
Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da
tarefa de Regressão?
Existem muitos problemas em que os dados não apresentam
dependência linear entre si. Nestes casos, podem ser aplicadas
técnicas de Regressão Não Linear
Regressão Linear,
denominada Regressão Linear Bivariada
Estatística, Redes Neurais, dentre outras
áreas
Regressão Linear Múltipla
Regressão Polinomial
Método dos Mínimos Quadrados.
12
Agrupamento (Clusterização) – utilizada para segmentar os registros de uma base de
dados em subconjuntos ou clusters, de tal forma que os elementos de um cluster
compartilhem propriedades comuns que os distingam de elementos nos demais
clusters.
O objetivo nesta tarefa é maximizar a similaridade intracluster e minimizar a
similaridade intercluster. Diferente da tarefa de Classificação, em que cada registro
está associado a um ou mais rótulos predefinidos, a Clusterização precisa identificar
os grupos de dados.
Por exemplo, uma empresa do ramo de telecomunicações pode realizar um processo

de Clusterização de sua base de clientes de forma a obter grupos de clientes que
compartilhem o mesmo perfil de compra de serviços.
13

tarefa de Agrupamento?
Entre os principais algoritmos de

agrupamento baseados em distância
podem ser citados: K-Means, Fuzzy K-
Means, K-Modes e K-Medoid.
14
Sumarização – esta tarefa consiste em identificar e indicar características comuns
entre registros do conjunto de dados.
Como exemplo, considere um conjunto de dados com informações sobre clientes

que assinam um determinado tipo de revista semanal. Nesse caso, a tarefa de
Sumarização pode ser realizada para buscar por características que sejam comuns a
boa parte dos clientes.
Por exemplo: são assinantes da revista X, homens na faixa etária de 25 a 45 anos,

com nível superior e que trabalham na área de finanças. Tal sumário poderia ser
utilizado pela equipe de marketing da revista para direcionar a oferta para potenciais
novos assinantes.
É comum aplicar a tarefa de Sumarização a cada um dos agrupamentos obtidos pela
tarefa de Clusterização.
15

tarefa de Sumarização?
Rule Evolver, um ambiente computacional

baseado em Algoritmos Genéticos que
evoluem regras voltadas à Descrição de
Conceitos.
16
Detecção de Desvios – esta tarefa consiste em identificar registros do conjunto de
dados cujas características não atendam aos padrões considerados normais no
contexto.
Tais registros são denominados valores atípicos (outliers). Como exemplo, considere
um banco de dados com informações sobre compras de clientes no cartão de crédito.
A tarefa de Detecção de Desvios pode ser realizada para buscar compras cujas
características divirjam do perfil normal de compra do dono do cartão.
17

tarefa de Detecção de desvio?
A tecnologia de Agentes Inteligentes é

muito utilizada na Detecção de Desvios
On-Line. Na Detecção de Desvios Off-
Line, o banco de dados é integralmente
analisado na busca por outliers
18
Descoberta de Sequências – é uma extensão da tarefa Descoberta de Associações na
qual são buscados itens frequentes levando-se em conta várias transações ocorridas
ao longo de um período de tempo.
Consideremos o exemplo das compras no supermercado. Se o banco de dados possui

a identificação do cliente associada a cada compra, a tarefa de Descoberta de
Associações pode ser ampliada de forma a considerar a ordem em que os produtos
são comprados ao longo do tempo.
Na Descoberta de Associações, os padrões descobertos fazem menção a itens dentro

de uma transação. Por conta disso, esses padrões são denominados padrões
intratransação. No caso da descoberta de sequências, os padrões descobertos fazem
menção a itens de transações distintas. Por conta disso, esses padrões são
denominados padrões intertransação. Na descoberta de sequências, diversas
transações devem ser analisadas em ordem cronológica de ocorrência. A busca por tais
padrões é, consequentemente, mais complexa do que a busca por padrões
intratransação. 19

tarefa de Descoberta de Sequências ?
Os padrões descobertos nessa tarefa são

na forma de sequências. Nesse contexto,
uma sequência é uma lista ordenada de
conjuntos de itens, caracterizada por
objetos, rótulos temporais e eventos. Cada
registro armazena ocorrências de eventos
sobre um objeto em um instante de tempo
particular.
20
Unidade III
Data Mining
Disciplina: Tecnologias para Descoberta do
Conhecimento
1
Métodos Tradicionais
Nos chamados métodos de Aprendizado Baseado
em Instâncias (ABI), não há a geração de um modelo
de conhecimento explícito; em vez disso, os próprios
dados do conjunto de treinamento constituem o
modelo. A estratégia de ABI é usada em uma família de
métodos de Aprendizado Baseado em Casos
2
Métodos Tradicionais
A expressão Método Baseado em Instância indica que, ao
processar um novo registro, o método leva em consideração as
instâncias ou os registros existentes no conjunto de dados.
Métodos baseados em instâncias são usados principalmente para
Classificação, mas podem também ser usados para Regressão.
Um representante da família de métodos baseados em instâncias
é o k-NN (k-Nearest Neighbors ou, em português, k-Vizinhos Mais
Próximos)
3
k-NN para Classificação
 O k-NN considera que os registros do
conjunto de dados correspondem a pontos no
Rn, em que cada atributo corresponde a uma
dimensão deste espaço.
 O método k-NN é utilizado em aplicações
envolvendo a tarefa de Classificação.
 No método k-NN, o conjunto de dados é
armazenado.
4
 Quando um novo registro deve ser
classificado, este registro é comparado a todos
os registros do conjunto de treinamento para
identificar k vizinhos mais próximos, i.e.,
mais semelhantes, de acordo com alguma
métrica.
5
 Além disso, o valor de k é um parâmetro de
entrada deste método.
 A classe do novo registro é determinada por
inspeção das classes desses vizinhos mais
próximos, de acordo com a métrica
selecionada.
 A resposta do método é a classe mais
frequente entre os vizinhos mais próximos.
6
 Considere um conjunto de dados (conjunto de
referência) de um problema envolvendo a tarefa de
Classificação (e que, portanto, contém um atributo
cujos valores são rótulos de classes predefinidas) e
um novo registro a ser classificado.
 Considere também que foi definido um valor para a
quantidade de vizinhos a ser considerada, i.e., o
valor do parâmetro k. Sendo assim, o método k-NN
é formado pelos seguintes passos:
7
 1. Cálculo da distância do novo registro a cada um
dos registros existentes no conjunto de referência.
 2. Identificação dos k registros do conjunto de
referência que apresentaram menor distância em
relação ao novo registro (i.e., mais similares).
 3. Apuração da classe mais frequente entre os k
registros identificados no passo anterior.
8
Nesta aplicação, deseja-se avaliar
a possibilidade de concessão de
crédito a novas solicitações.
Suponha que um novo registro (solicitante) é apresentado, registro este

representado por “*”. O método k-NN calcula a distância entre o novo registro e
todos os 14 registros existentes no conjunto de dados de referência. Se
considerarmos que k, o número de vizinhos mais próximos, seja 3, somente os 3
registros com menor distância ao novo registro são considerados. Esses 3 vizinhos
9
estão delimitados pelo círculo.
Seleção da vizinhança do registro “*”
durante o processamento do k-NN no
exemplo apresentado (k = 3).
Ao avaliar o gráfico, observamos que a classe com maior ocorrência dentro da região
delimitada pelo algoritmo k-NN foi “cliente não negligente” (dois votos contra um da
outra classe). Sendo assim, pela aplicação do algoritmo k-NN no exemplo
apresentado, o crédito seria concedido ao solicitante.
10
Um valor adequado para o parâmetro k é normalmente determinado em

função do conjunto de dados de referência. Em geral, quanto maior o valor
de k, menor o efeito de eventuais ruídos no conjunto de referência. Por
outro lado, valores grandes para k tornam mais difusas as fronteiras entre
as classes existentes.
11
k-Means
12
k-Means
O k-Means é um método popular da tarefa de Agrupamento.
• Inicialmente, o k-Means seleciona k pontos do conjunto de dados. Esses
pontos são denominados sementes.
• Essas sementes são os representantes iniciais, ou centroides, dos k

grupos a ser formados.
• Em seguida, para cada ponto (ou registro do conjunto de dados), calcula-

se a distância deste ponto a cada um dos centroides.
• Atribui-se este ponto ao grupo representado pelo centroide cuja distância é

a menor entre todas as calculadas. O resultado desse passo inicial é que
cada ponto do conjunto de dados fica associado a um e apenas um dos k
grupos.
13
k-Means
14
k-Means
A Figura 1 e a Figura 2 ilustram
a aplicação do k-Means em um
arquivo com 20 registros de
dados, considerando-se k=3.
Inicialmente, a sementes são
selecionadas de forma
aleatória (Figura 1, imagem à
esquerda).
Após isso, cada ponto restante
é alocado a algum grupo, em
função de sua distância a cada
um dos centroides (Figura 1,
imagem à direita). Os
centroides são então
atualizados (Figura 2). A seguir,
ocorre nova realocação de
pontos (Figura 2). O processo
continua até a convergência.
15
Unidade III
Data Mining
Disciplina: Tecnologias de Bancos de Dados
1
Bibliografia
 Barbieri. C. BI-Business Intelligence: modelagem e
tecnologia. Rio de Janeiro: Axcel Books, 2001.
 Capítulo 8
Bibliografia Complementar
 Júnior, M. C. Projetando Sistemas de Apoio à Decisão
Baseados em Data Warehouse. Axcel Books, 2004.
2
Data Mining
 Estão relacionados com a nova tendência de
se buscar correlações escondidas em altos
volumes de dados,
 nem sempre evidentes, principalmente no
tratamento cotidiano dos Sistemas de
Informações.
3
Esse processo resolve questões
Cenário que necessariamente devem ser
definidas
 BDr permitem a extração de diversas
informações usando SQL.
 O mecanismo é simples:
Identifica-se um problema
É realizado um mapeamento para uma linguagem de consulta
Consulta é submetida ao SGBD

Informações extraídas são
respostas a uma consulta 4
previamente estruturada
Cenário
 Porém, dados armazenados podem escolher diversos
tipos de padrões e comportamentos relevantes que a
princípio não podem ser descobertos utilizando-se
SQL.
É realizado um mapeamento para uma linguagem de consulta
5
Cenário
 Por mais que o analista seja criativo, ele irá apenas
conseguir elaborar diversas questões de forma que se
tenham resultados práticos no final.
 Neste contexto está inserida a

aplicabilidade da mineração de dados.
6
Exemplo
 Considere uma loja de roupas:
 um cadastro com aproximadamente 500.000 clientes
 Através do uso de técnicas de mineração foi descoberto
que 7% desses clientes são casados;
 Estão na faixa etária compreendida entre 31 e 40 anos
 e possuem pelo menos dois filhos.
 Decisão:
 Uma campanha de marketing direcionada a esse grupo
de clientes poderia ser realizada objetivando o aumento
no consumo de produtos infantis.
7
Exemplo
 Note:
 Inicialmente não foi elaborada uma questão do tipo:
 Identifique os clientes casados com faixa etária entre 31 e
40 anos e que possuem pelo menos dois filhos
 O próprio processo de mineração identificou a
pergunta e a resposta.
8
Data Mining
 Pode ser definida como o processo automatizado

de descoberta de novas informações a partir de
grandes massas de dados.
9
Data Mining
 A mineração de dados não ocorre somente
em BD relacionais.
 Hoje pode-se trabalhar com diversas fontes
tais como textos, arquivos de Log, DW e
outras.
10
Data Mining
 Exemplo – Empréstimo Pessoal1:
 Tipo de conhecimento a extrair:
 Como identificar os mutuários negligentes
 Definição do analista de dados:
 Os dados mais representativos do conhecimento
desejado são fornecidos pelos atributos salário, débito
e regularidade de pagamento.
 De posse dessas informações gerou-se o gráfico:
 Composto de 14 amostras.
11
1 Data Mining: Técnicas e Aplicações para o Marketing Direto, Fernanda Cristina N. do Amaral
Data Mining
 Cada ponto do gráfico representa um mutuário a
quem foi dado um empréstimo por um banco
particular, em algum momento do passado
 No eixo horizontal - tem-se os salários
 No eixo vertical – seu débito mensal (hipoteca,
pagamento de carro, e etc)
12
1 Data Mining: Técnicas e Aplicaçòes para o Marketing Direto, Fernanda Cristina N. do Amaral
Data Mining
 Os dados foram classificados em duas classes
 Mutuários representados por X, que estão em débito
com o pagamento dos empréstimos
 Representados por ● em dia
 Análise: definir padrões onde as pessoas
consideradas negligentes estejam separadas das
pessoas não negligentes
13
Se salário > t então mutuário é bom pagador
Observe: a regra não é verdadeira sempre
Data Mining
Análise: Padrão Linear
x
x x ●
x
● ● ●
Débitos x
x x ● ●
t Salários
14
Data Mining
Análise: Outras técnicas
x
x x ●
x Clusterização
● ● ● Regressão
Débitos x
x x ● ● Redes Neurais
t Salários
15
Data Mining
 É uma forma de se capitalizar em cima das
informações, tentando descobrir padrões de
comportamento de clientes, ou identificando,
por exemplo,
 Estilos de ações fraudulentas em cartões de
crédito ou em seguradoras.
16
Data Mining
 A mídia tem veiculado exemplos clássicos de
Data Mining, como as correlações entre
produtos comprados na mesma cesta de
supermercado
 (salsicha e catchup, fraldas com cerveja ou ....
axé music com remédio para o fígado).
17
OLAP X Data Mining
 Objetiva trabalhar  Busca algo mais que a
os dados existentes, interpretação do dados
buscando existentes. Visa
consolidações em fundamentalmente realizar
vários níveis, inferências, tentando como
trabalhando fatos que adivinhar possíveis
em dimensões fatos e correlações não
variadas explicitadas nas
montanhas de dados de um
DW/DM 18
Exemplo: OLAP X Data Mining
 Empresa de Crédito
 Olap
 produziriam gráficos mostrando os percentuais
comparativos de compras com cartões de crédito
roubados e válidos
 Data Mining
 indicariam os padrões associados a certo
comportamento fraudulento com cartões de
crédito.
19
 Empresa de Seguros
 Olap
 Qual o valor médio de pagamentos de seguros de
vida para não fumantes, na região sul do estado,
em agosto de 1999?
 Data Mining
 Definir os melhores atributos de clientes, capazes
de ajudarem como previsores de possíveis
acidentes de automóvel.
20
 Empresa de Serviços
 Olap
 Qual o valor médio de faturamento de clientes do
tipo industrial, da área de alumínio nas regiões da
Mantiqueira, comparando-se os anos de 1998 e
1999?
 Data Mining
 Indicar quais atributos de clientes seriam
importantes para serem considerados numa
possível e indesejável quebra de fidelização
(migração do cliente para o concorrente) 21
KDD e Mineração de Dados
 A mineração de dados é vista como parte de
um processo maior:
 Denominado KDD (Knowledge Discovery in
Database – Descoberta de Conhecimento em
Bases de Dados)
22
KDD - Descoberta de
Conhecimento em Bases de
Dados
23
Diferenças entre dado, informação e
conhecimento
SE Capacidade Mensal de Endividamento > 60%
ENTÃO Crédito = SIM
Conhecimento
Capacidade Mensal de Endividamento
Informação Mensal = 100 * (Renda Mensal –
Despesas Mensais) / Renda Mensal
Dado Renda Mensal, Despesas Mensais
24
Diferenças entre dado, informação e
conhecimento
 Em geral, o conhecimento não pode ser
abstraído das bases de dados por recursos
tradicionais de TI.
 O termo KDD foi formalizado em 1989 em
referência ao amplo conceito de procurar
conhecimento a partir de bases de dados.
 KDD – caracterizada como um processo
composto por várias etapas operacionais.
25
Etapas de KDD
 Resumo das etapas operacionais:
ETAPAS OPERACIONAIS DO PROCESSO DE KDD
Pré-Processamento Mineração de Dados Pós-Processamento
26
Pré-Processamento
Etapas de KDD
 Compreende as funções relacionadas à
captação, à organização e ao tratamento dos
dados.
 Tem como objetivo a preparação dos dados
para os algoritmos da etapa seguinte, a
Mineração de Dados.
27
Etapas de KDD
 É realizada a busca efetiva por conhecimentos
úteis no contexto da aplicação de KDD.
28
Pós-Processamento
Etapas de KDD
 Abrange o tratamento do conhecimento
obtido na Mineração de Dados.
 Tal tratamento, nem sempre necessário, tem
como objetivo viabilizar a avaliação da
utilização do conhecimento descoberto.
29
O Processo de Descoberta do
Conhecimento
 Envolve várias fases
 Objetivo: extrair de grandes bases de dados,
sem nenhuma formulação prévia de hipóteses,
informações desconhecidas, válidas e
acionáveis, úteis para a tomada de decisão
 Envolve 3 etapas iniciais:
 Seleção
Compõe:
 Pré-processamento preparação dos dados
 transformação 30
Conhecimento
 Envolve 3 etapas iniciais:
 Seleção
Compõe:
 Pré-processamento preparação dos dados
 Transformação
 Mineração de Dados
 Análise e Assimilação dos Resultados
31
Conhecimento
32
Etapas do Processo de KDD
 Seleção de Dados:
 Deverão ser identificadas as bases de dados a
serem utilizadas para a descoberta de
conhecimento, levando em consideração os
objetivos do processo.
33
 Pré-processamento
 A informação pode vir de várias bases distintas,
alguns problemas de integração devem ser
resolvidos;
 Exemplo:
 Sexo em diferentes formatos: M, F, 0, 1
34
 Transformação de Dados
 O objetivo desta etapa é transformar os dados
pré-processados, de modo a torná-los compatíveis
com as entradas dos diversos algoritmos de
mineração existentes.
35
 Mineração de Dados
 É o coração do processo.
 Caracteriza-se pela escolha e aplicação da técnica
e do algoritmo de mineração. Entre as principais
técnicas podem ser destacadas: Regras de
associação, classificação e agrupamento
(Clustering) cada uma podendo envolver 1 ou
mais algoritmos.
36
 Análise e Assimilação dos Resultados
 O conhecimento gerado deve ser analisado de
maneira a verificar se é realmente útil à tomada
de decisão.
 Se a resposta não for satisfatória, então será
necessário repetir todo ou parte do processo de
KDD
37
Tipos de Técnicas e de algoritmos para
 Técnicas Tradicionais
 Técnicas Específicas
 Técnicas Híbridas
38
Técnicas Tradicionais
 São tecnologias que existem independente do
contexto da Mineração de Dados.
 Em geral, produzem bons resultados também
em aplicações de KDD.
 Exemplo:
 Redes Neurais
 Técnica computacional que constrói um modelo
matemático inspirado em um sistema neural
simplificado, com capacidade de aprendizado,
generalização, associação e abstração.
39
 Exemplo:
 Lógica Nebulosa (Fuzzy Logic)
 É uma técnica que permite construir sistemas que
lidem com informações imprecisas ou subjetivas.
40
 Exemplo:
 Algoritmos Genéticos (AG)
 São modelos de otimização, inspirados na
evolução natural e na genética, aplicados a
problemas complexos de otimização.
 Técnicas baseadas em modelo heurísticos como
AG não podem garantir a solução ótima, porém
podem conseguir soluções próximas, ou
aceitáveis.
41
 Exemplo:
 Estatística
 Fornece diversos tipos de modelos e técnicas
tradicionais para análise e interpretação de dados.
 Exemplo: Análise exploratória, análise
discriminante e outros.
42
Técnicas Específicas
 São técnicas desenvolvidas, especificamente
para aplicação em tarefas de KDD.
 Exemplo:
 Algoritmo Apriori:
 desenvolvido especificamente para a tarefa de
Descoberta de Associação
 Diversos algoritmos como: DHP, Partition,
ParMaxEclat dentre outros, foram originados a
partir do Apriori.
43
Técnicas Híbridas
 Técnicas podem ser combinadas de forma a
gerar os chamados sistemas híbridos.
 São aqueles que utilizam mais de uma técnica
para a solução de um problema de
modelagem.
44
Tecnologias para Descoberta de
Conhecimento

Prática em Laboratório
• Gráficos • Excel
• Texto
• Pastas
• etc
Transformar
Importar
Dashboards
Dados
Medidas
• Operadores Fórmulas DAX Criar
• Lógicas
• Texto Relacionamentos
• Inteligência de tempo • Fato
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fundamentos das Fórmulas DAX
Fórmulas DAX
DAX (Data Analysis Expressions)?
É uma coleção de funções, operadores e constantes
que podem ser usados em uma fórmula ou
expressão;
Para calcular e retornar um ou mais valores;

Ou seja
Ajuda a criar novas informações de dados que já

estão em seu modelo
Transformar Dado em Informação
Fórmulas DAX (Funções categorizadas)
• Funções de Agregação
• Funções de contagem
• Funções lógicas
• Funções de Informação
• Funções de texto
• Funções de datas
• Funções de Inteligência de
Tempos
• informações de dados que
já estão em seu modelo
Métricas? ou Colunas Calculadas?
Métricas consomem Colunas consomem

CPU Memória
Métricas Colunas Calculadas
Quando precisar: Quando precisar:

calcular porcentagens Segmentar ou filtrar
Calcular taxas valores
Agregações complexas
Sintaxe: Nome de colunas e tabelas no DAX
‘Nome Tabela’[NomeColuna]
NomeTabela[NomeColuna]
Se houver espaços no nome da tabela, as aspas
simples em torno do nome da tabela serão
obrigatórias.
Se o nome da tabela não tiver espaços, as aspas
simples poderão ser omitidas para que a sintaxe seja
parecida com esta.
Operadores Aritméticos
Operadores Relacionais
Trabalhando os Operadores
Aritméticos e Relacionais
Conhecendo os Dados
(003_Folha.xlxs)
Calcular o salário Bruto
Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)
1) Obter dados do Excel para o Power BI
Observe a tabela de dados
Conhecendo os Dados
(003_Folha.xlxs)
2) Visualize o Modelo e confira Calcular o salário Bruto

os relacionamentos Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)
3) Trabalhando com a Guia Calcular o salário Bruto

Modelagem Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Modelagem (Inserir coluna) Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Modelagem (Calculando Valores) Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)
3) Trabalhando com a Guia Modelagem (Calculando Valores)

Exercício 3: Crie uma nova coluna (VALOR COMISSÃO) e
faça o mesmo procedimento para calcular a comissão
Conhecendo os Dados
(003_Folha.xlxs)
Exercício 4:
Crie uma nova coluna (SALARIO BRUTO) e faça o cálculo do
salário bruto
Conhecendo os Dados
(003_Folha.xlxs)
Exercício 5:
Crie uma nova coluna (SALARIO LIQUIDO) e faça o cálculo
do salário líquido
Conhecendo os Dados
(003_Folha.xlxs)
6) Trabalhando com a Guia Modelagem (Concatenação)
Exercício 6:
Crie uma nova coluna (NOME COMPLETO) e faça a
concatenação de Nome com Sobrenome
Conhecendo os Dados
(003_Folha.xlxs)
7) Formatar os números para valores monetários
Exercício 7:
Formatar as colunas para valores monetário (salario,
descontos, valor bônus, valor comissão, valor bruto, valor
liquido) para moeda geral
Conhecendo os Dados
8) Criando um Report com folha de pagamento – Criando um
Painel
Exercício 8: Incluir um objeto caixa de texto com as formatações
Conhecendo os Dados
Painel
Exercício 8: Incluir uma linha e rotacionar
Conhecendo os Dados
Painel
Conhecendo os Dados
Painel
Exercício 8: Incluir um card, colocar a matrícula que está em folha de
pagamento
Trocar a soma por contagem

Conhecendo os Dados
Painel
pagamento (Formatando o relatório) 1) Desativar Rótulo de Categoria
2) Formatar título fonte
Conhecendo os Dados
Painel
Exercício 8: Copiar o card (Automaticamente copia as formatações
Conhecendo os Dados
Painel
Exercício 8: Trocar os dados para salário bruto (Soma)
Conhecendo os Dados
Painel
Exercício 8: crie outro card com os valores do salário líquido (Soma)
Conhecendo os Dados
Aula 14/05/2020
Painel
Exercício 8: crie outro card com os valores do Bônus (Soma)
Conhecendo os Dados
Painel
Exercício 8: crie outro card com os valores da Comissão(Soma)
Conhecendo os Dados
Painel
Exercício 8: crie outro card com o valor da Desconto (Soma)
Conhecendo os Dados
Painel
Resultado final (Formatar para valores monetários)
Conhecendo os Dados
Painel
Conhecendo os Dados
Painel
Conhecendo os Dados
Painel – Gráficos de rosca
Resumo de funcionários por centro de custo
Conhecendo os Dados
Legenda → centro de custo

Valores → matrícula ( contagem distinta)
Detalhes → Centro de custo
Copiar formatação do card
Conhecendo os Dados
Formatar o gráfico
Conhecendo os Dados
Formatar o gráfico
Conhecendo os Dados
Trocar o código do centro de curso para nome do centro de curso
Trocar o estilo de rótulo para percentual total
Trocar a posição do rótulo para interno
Conhecendo os Dados
Incluir dica de Ferramenta no recurso do gráfico (Informações quando
posicionamos o cursor no gráfico)
Colocar o nome do CC, matrícula (Contagem distinta)
Conhecendo os Dados
Incluir dica de Ferramenta no recurso do gráfico (Informações quando
posicionamos o cursor no gráfico)
Colocar o nome do CC, matrícula (Contagem distinta)
Conhecendo os Dados
Copiar o gráfico anterior (Distribuição do salário por centro de custo)
O que vai mudar?
Retirar quantidade de funcionário (trocar QTD_Func por Salário líquido)
em valores
Tirar a dica de ferramenta
Trocar o título para Salário por centro de custo
Conhecendo os Dados
Conhecendo outros gráficos: Duplicar a página
trocar o gráfico de rosca por treemap
Conhecendo os Dados
Fazer um gráfico de distribuição de salário por cargo
O que vai mudar?
Conhecendo os Dados
8) Criando um Report com folha de pagamento – Criando um Painel –
Gráficos de rosca
Fazer um gráfico de distribuição de salário por cargo
Duplicar a pagina de relatório e trocar o gráfico para colunas clusterizado
Conhecendo os Dados
Gráficos de rosca
Formatação
Conhecendo os Dados
Gráficos de rosca
Formatação
DAX
Funções de Agregação e
Iterativas
Funções de Agregação mais usadas
• SUM
• AVERAGE
• MIN
• MAX
• SUMX
• Outras funções X (expressão)
• Essas funções funcionam somente em colunas
numéricas e, geralmente, podem agregar apenas
uma coluna por vez, ao contrário das funções que
terminam com x.
Funções de Agregação
• Criando Métricas (Medidas)
• Menu Modelagem → Nova tabela
• Renomear a tabela para o nome Medidas
• Menu Modelagem → Nova Medida

Conhecimento

• Texto
• Pastas
• etc
Transformar
Importar
Dashboards
Dados
Medidas
• Lógicas
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fórmulas DAX
expressão;

Ou seja

Tempos

CPU Memória

obrigatórias.
Se o nome da tabela não tiver espaços, as aspas
simples poderão ser omitidas para que a sintaxe seja
parecida com esta.
DAX
Funções de Agregação e
Iterativas
Funções de Agregação mais usadas
• SUM
• AVERAGE
• MIN
• MAX
• SUMX
• Outras funções X (expressão)
• Essas funções funcionam somente em colunas
numéricas e, geralmente, podem agregar apenas
uma coluna por vez, ao contrário das funções que
terminam com x.
Funções de Agregação – Criando Dashboards
• Duplicar o relatório folha de pagamento, apagar
os cards
• Incluir o cartão de linhas múltiplas
• Incluir a métrica (Qte Funcionários)
Formação: Título: “Indicador”alinhamento(Centro), preto,
tamanho 16)
• Incluir a métrica (Total Salário)
Formação: moeda geral
• Incluir a métrica (Média Salário)
• Incluir a métrica (Maior Salário)

• Incluir a métrica (Menor Salário)

• Incluir a métrica (Descontos)
Somar os descontos
• Incluir métrica Comissão

• Somar as comissões
• Incluir a métrica (Bonus)
Somar os bônus
• Incluir a métrica (Total Folha)

DAX
Iterativas
Funções de Agregação iterativas
• Duplicar a página e apagar os gráficos e cartão com
múltiplas linhas
• Criar uma nova tabela com o nome Medida2
• Incluir o objeto de visualização tabela
• Incluir o atributo nome completo
• Criar a comissão2 de forma iterativa
• Incluir o objeto múltiplos cartões para uso de funções
agregadas iterativas;
• Incluir a comissão2
• Incluir o objeto múltiplos cartões para uso de funções
agregadas iterativas;
• Calcular e incluir a medida Bonus2
• Criar a soma dos descontos da folha de pagamento
(função agregada SUM)
• Criar a medida total da folha
Conhecimento

• Texto
• Pastas
• etc
Transformar
Importar
Dashboards
Dados
Medidas
• Lógicas
• Datas
• Agregações
• Dimensão
• Contagem
• Informações
Fórmulas DAX
expressão;

Ou seja

Tempos

CPU Memória

obrigatórias. Se o nome da tabela não tiver espaços,
as aspas simples poderão ser omitidas para que a
sintaxe seja parecida com esta.
Operadores Aritméticos
Operadores Relacionais
Trabalhando os Operadores
Aritméticos e Relacionais
Conhecendo os Dados
(003_Folha.xlxs)
Conhecendo os Dados
(003_Folha.xlxs)
1) Obter dados do Excel para o Power BI
Observe a tabela de dados
Conhecendo os Dados
(003_Folha.xlxs)
2) Visualize o Modelo e confira Calcular o salário Bruto

os relacionamentos Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Modelagem Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Modelagem (Inserir coluna) Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Modelagem (Calculando Valores) Calcular o salário Líquido
Conhecendo os Dados
(003_Folha.xlxs)

Exercício 3: Crie uma nova coluna (VALOR COMISSÃO) e
faça o mesmo procedimento para calcular a comissão
Conhecendo os Dados
(003_Folha.xlxs)
Exercício 4:
Crie uma nova coluna (SALARIO BRUTO) e faça o cálculo do
salário bruto
Conhecendo os Dados
(003_Folha.xlxs)
Exercício 5:
Crie uma nova coluna (SALARIO LIQUIDO) e faça o cálculo
do salário líquido
Conhecendo os Dados
(003_Folha.xlxs)
6) Trabalhando com a Guia Modelagem (Concatenação)
Exercício 6:
Crie uma nova coluna (NOME COMPLETO) e faça a
concatenação de Nome com Sobrenome
Conhecendo os Dados
(003_Folha.xlxs)
7) Formatar os números para valores monetários
Exercício 7:
Formatar as colunas para valores monetário (salario,
deScontos, valor bônus, valor comissão, valor bruto, valor
liquido) para moeda geral
Conhecendo os Dados
Painel
Exercício 8: Incluir um objeto caixa de texto com as formatações
Conhecendo os Dados
Painel
Conhecendo os Dados
Painel
Conhecendo os Dados
Painel
pagamento
Trocar a soma por contagem

Conhecendo os Dados
Painel
pagamento (Formatando o relatório) 1) Desativar Rótulo de Categoria
2) Formatar título fonte
Conhecendo os Dados
Painel
Exercício 8: Copiar o card (Automaticamente copia as formatações
Conhecendo os Dados
Painel
Exercício 8: Trocar os dados para salário bruto
Conhecendo os Dados
Painel
Exercício 8: crie outro card com os valores do salário líquido

TeraSlide - Business Intelligence

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TeraSlide - Business Intelligence

Enviado por

Direitos autorais:

Formatos disponíveis

Unidade II

Profa. Viviane Cristina Dias

 A divisão de um DW é conhecida como Data

Profa. Viviane Cristina Dias

 a arquitetura deve ser proposta de forma a representar

 Um DW contém dados sumarizados, históricos e

1 O que estamos avaliando? Fatos ou métricas (sempre um valor numérico)

2 Como serão avaliados ou analisados? Dimensões de negócios relacionadas às métricas

 Tabela Fato – Quais informações serão

 Está hierarquia é sempre 1:N;

 Não é recomendada quando os relatórios

Profa. Viviane Cristina Dias

BI é um conjunto de tecnologias que permitem o

As ferramentas de apoio à decisão que fazem

 Solução: Tecnologia OLAP 11

 O termo vem de plano, duas dimensões;

Massas Carne Frango Peixe Alcoólica Não-Alcoólica

Rondele Palhard Griglia Cerveja Coca

Gnochi Pizza Ravioli Rondele

Profa. Viviane Cristina Dias

Embora não exista um consenso quanto a esta diversidade terminológica,

A variação da nomenclatura, em geral, ocorre em função da natureza e da

Quais algoritmos e/ou técnicas são exemplos de ferramentas que implementam a

Apriori, GSP, DHP, entre outros, são

O segundo tipo é denominado atributo-alvo. Para cada valor distinto do atributo-alvo

Uma aplicação da tarefa de Classificação, neste caso, consiste em descobrir uma

Quais algoritmos e/ou técnicas podem ser aplicadas para classificação?

k-Means, k-Modes, k-Prototypes, k-

Como exemplo de aplicações de Regressão, pode-se citar: predição da soma da

Por exemplo, uma empresa do ramo de telecomunicações pode realizar um processo

Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da

Entre os principais algoritmos de

Como exemplo, considere um conjunto de dados com informações sobre clientes

Por exemplo: são assinantes da revista X, homens na faixa etária de 25 a 45 anos,

Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da

Rule Evolver, um ambiente computacional

Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da

A tecnologia de Agentes Inteligentes é

Consideremos o exemplo das compras no supermercado. Se o banco de dados possui

Na Descoberta de Associações, os padrões descobertos fazem menção a itens dentro

Quais algoritmos e/ou técnicas podem ser aplicadas para implementação da

Os padrões descobertos nessa tarefa são

Profa. Viviane Cristina Dias

Suponha que um novo registro (solicitante) é apresentado, registro este

Um valor adequado para o parâmetro k é normalmente determinado em

• Essas sementes são os representantes iniciais, ou centroides, dos k

• Em seguida, para cada ponto (ou registro do conjunto de dados), calcula-

• Atribui-se este ponto ao grupo representado pelo centroide cuja distância é

Profa. Viviane Cristina Dias

É realizado um mapeamento para uma linguagem de consulta

Consulta é submetida ao SGBD

É realizado um mapeamento para uma linguagem de consulta

 Neste contexto está inserida a

 Pode ser definida como o processo automatizado

Dado Renda Mensal, Despesas Mensais

ETAPAS OPERACIONAIS DO PROCESSO DE KDD

Pré-Processamento Mineração de Dados Pós-Processamento

Profa. Viviane Cristina Dias

Para calcular e retornar um ou mais valores;

Ajuda a criar novas informações de dados que já

Métricas consomem Colunas consomem

Métricas Colunas Calculadas

Quando precisar: Quando precisar:

2) Visualize o Modelo e confira Calcular o salário Bruto