Você está na página 1de 68

DABI - Data Warehouse e

Business Intelligence
Profa. Claudia Martins
Prof. Nilton Takagi

...

Motivao?

Agenda
Nivelamento de conceitos
Conceitos e etapas de Data Mining
Tcnicas de Data Mining

Classificao

Regras de Associao

A priori

Clustering

rvores de Deciso
Aprendizado Bayesiano
Redes Neurais

K-means

Aplicao usando o software Weka

Business Intelligence

Nivelamento de Conceitos

Por que Data Warehouse?


Repositrio de vrias fontes de dados
Armazenamento de grandes volumes de
dados
Estrutura, contedo e uso diferente: dados histricos,
para suporte a deciso, fontes heterogneas, vrias
dimenses
Os usurios so gerentes de alto nvel e os
responsveis pela tomada de decises
Consulta: Quais so os produtos vendidos no ltimo
quadrimestres e o total de vendas no Brasil?

Nivelamento de Conceitos

Por que Data Warehouse?


Data Warehouses (DW) generalizam e consolidam
dados em um espao multidimensional
A construo de DW envolve limpeza dos dados;
integrao dos dados e transformao dos dados
(importante passo de pr-processamento para DM)
Data warehousing fornece arquitetura e ferramentas
para executivos de negcios sistematicamente
organizar, compreender e usar seus dados para fazer
decises estratgicas.
ltima arma de marketing: um modo de reter
clientes por aprender mais sobre suas necessidades

Nivelamento de Conceitos

Machado, 2004

Por que utilizar um Data Warehouse?

Vrias plataformas de hardware e software;

Existncia de sistemas de
fornecedores diferentes;

Constantes alteraes nos sistemas


corporativos;

Conceitos DW

Laudon, 2010

O que um Data Warehouse?

uma coleo de dados orientados por assunto,


integrado, varivel com o tempo e no-voltil, que
tem por objetivo dar suporte aos processos de
tomada de deciso. (Inmon)

Conceitos DW

O que um Data Warehouse?

Nivelamento de Conceitos

Laudon, 2010

Por que Data Mining?


Crescimento explosivo de dados: de terabytes a
petabytes
Coleo e disponibilidade de dados: ferramentas
automatizadas para coleo de dados, sistemas de
banco de dados, Web, sociedade computadorizada
Maiores fontes de dados:

Negcios (business): Web, e-commerce, transaes,


estoques,
Cincia: Sensoriamento Remoto, bioinformtica,
simulao cientfica,
Sociedade em geral: notcias, cmaras digital, YouTube

Nivelamento de Conceitos

Por que Data Mining?


Estamos afogados em dados, mas sedentos por
conhecimento!
Necessidade a me da invenoData mining
Anlise automtica de massivos conjuntos de
dados
Buscar padro: Qual o perfil de clientes que
compraram produtos eletrnicos?

Nivelamento de Conceitos

Data Warehouse vs Data Mining

Data Warehouse
Consulta: Quais clientes
compraram produtos eletrnicos?
Qual o valor total das vendas no
quadrimentre passado?

Data Mining

Padro: Qual o perfil dos clientes que


compraram produtos eletrnicos? Os clientes
que compraram produtos eletrnicos tambm compraram
qual outro produto?

Nivelamento de Conceitos

Data Warehouse vs Data Mining

Data Warehouse

Consulta: Quais clientes compraram produtos eletrnicos?


Qual o valor total das vendas no quadrimestre passado?

Data Mining

Padro: Qual o perfil dos clientes que compraram


produtos eletrnicos? Os clientes que compraram produtos
eletrnicos tambm compraram qual outro produto?

Data

Warehouse a MEMRIA da empresa


Data Mining a INTELIGNCIA empresa
Nivelamento de Conceitos

Agenda
Nivelamento de conceitos
Conceitos e etapas de Data Mining
Tcnicas de Data Mining

Classificao

Regras de Associao

A priori

Clustering

rvores de Deciso
Aprendizado Bayesiano
Redes Neurais

K-means

Aplicao usando o software Weka

O que Data Mining?

Data mining (descoberta de conhecimento de dados)

Nomes alternativos

Extrao de padres ou conhecimento interessantes


(no-trivial, implcitos, previamente desconhecidos e
potencialmente teis) de grandes volumes de dados
Data mining: um termo errneo?
Knowledge discovery (mining) in databases (KDD),
extrao de conhecimento, anlise de dados/padres,
arqueologia de dados, dragagem de dados, colheita de
informao, business intelligence, etc.

Ateno: tudo data mining?

Simples busca e processamento de consulta


Sistemas especialistas (Dedutivo)
Nivelamento de Conceitos

Laudon, 2010

Processo de Descoberta de Conhecimento


(KDD)
Ponto de vista tpico de comunidades de sistemas
de banco de dados e data warehousing
Data mining tem uma funo essencial no
processo de descoberta de conhecimento

Nivelamento de Conceitos

Laudon, 2010

Processo KDD: Tcnicas de ML e Estatstica

Nivelamento de Conceitos

Laudon, 2010

Data Mining: Interao de Mltiplas reas

Nivelamento de Conceitos

Laudon, 2010

Porque Mltiplas reas?

Enorme quantidade de dados

Alta dimensionalidade dos dados

Algoritmos devem ser altamente escalveis para


manipular tera-bytes de dados
Micro-array com milhares de dimenses

Alta complexidade de dados

Cadeias de dados e dados de sensores


Dados de sries temporais, dados de sequncias
Dados estruturais, grafos, redes sociais
Banco de dados heterogneos e legados
Dados espacial, espao-temporal, multimdia, textual, Web
Programas de software, simulaes cientficas
Novas e sofisticadas aplicaes
Nivelamento de Conceitos

Sezes

Multi-Dimensionalidade e Data Mining

Conhecimento a ser minerado (ou: funes Data


mining)

Caracterizao, discriminao, associao, classificao,


agrupamento (clustering), tendncias, anlise de outliers,
etc.
Data mining descritiva vs. preditiva
Funes mltiplas/integradas e minerao em mltiplos
nveis

Dados a serem minerados

Banco de Dados (relacional-extendido, orientado a objeto,


heterogneos, legados), data warehouse, dados
transacionais, espao-temporal, srie temporial, sequncia,
textual e web, multimdia, grafos, redes sociais e de
informao
Nivelamento de Conceitos

Laudon, 2010

Multi-Dimensionalidade e Data Mining

Tcnicas utilizadas

data warehouse (OLAP), machine learning,


estatsticas, reconhecimento de padres,
visualizao, alto desempenho, etc.

Aplicaes apropriadas

Varejo, telecomunicao, bancos, anlise de fraude,


bio-dados, anlise de estoque de mercado,
minerao textos, minerao Web, etc.

Nivelamento de Conceitos

Machado, 2004

Data Mining: quais tipos de dados?

Conjunto de dados e aplicaes orientados ao banco de


dados

Banco de dados relacional, data warehouse, transacional

Conjunto de dados e aplicaes avanadas

Dados streams e dados de sensor


Dados de sries temporais
Dados estruturais, grafos, redes sociais
Banco de dados objeto-relacional
Banco de dados legados e heterogneos
Dados espaciais e espao-temporal
Banco de dados multimdia
Banco de dados textuais
Dados da World-Wide Web
Conceitos DW

Machado, 2004

Avaliao do Conhecimento

Todo conhecimento descoberto interessante?

Podem enconrtar muitos padres e conhecimento


Podem preencher apenas certas dimenses (tempo, locao, )
Podem no ser representativos, podem ser transitrios,

Avaliao do conhecimento minerado como minerar


apenas conhecimento interessante?

Descritivo vs. preditivo


Cobertura
Tpico vs. novidade
Preciso
Ocasio/convenincia
..

Conceitos DW

Machado, 2004

Maiores Desafios em Data Mining


Eficincia e escalabilidade dos algoritmos de data mining
Mtodos de minerao paralelos, distribudos, stream, e
incrementais
Manipulao de alta-dimensionalidade
Manipulao de rudos, incerteza e imperfeies dos dados
Incorporao de restries, conhecimento especialista e
conhecimento de fundo em data mining
Avaliao de padres e integrao de conhecimento
Minerao de diversas e heterogneos tipos de dados: p.e.,
bioinformtica, Web, engenharia de software/sistema,
redes de informao
Data mining orientada a aplicao e especfica do domnio

Conceitos DW

Machado, 2004

Resumo
MD: inteligncia x DW: memria
Minerao de Dados: Descobrindo padres interessantes
de grandes volumes de dados
Um processo KDD inclui limpeza dos dados, integrao
dos dados, seleo dos dados, transformao, data
mining, avaliao de padres e apresentao do
conhecimento
Minerao por ser aplicado em uma variedade de
repositrios de informao
Minerao de Dados: uma etapa do processo de Business
Intelligence? Um conceito fuzzy!!!!

Atividade!

Qual a diferena entre BI, KDD, DM, DW e


AM?

Nivelamento de Conceitos

Agenda
Nivelamento de conceitos
Conceitos e etapas de Data Mining
Tarefas e tcnicas de Data Mining

Classificao

Regras de Associao

A priori

Clustering

rvores de Deciso
Aprendizado Bayesiano
Redes Neurais

K-means

Aplicao usando o software Weka

Machado, 2004

Tarefas de Aprendizado

Aprendizado Indutivo

essencial, pois necessrio a projeo em janelas


de tempo;

Conceitos DW

Machado, 2004

Tarefas de Aprendizado

Aprendizado por exemplos

Conceitos DW

O que uma Hiptese?

Machado, 2004

Aprendizado Supervisionado vs. No


Supervisionado

Aprendizado Supervisionado (classificao)

Superviso: os dados de treinamento (observaes,


medidas, etc.) so acompanhadas por rtulos
(labels) indicando a classe das observaes
Novos dados so classificados baseados no conjunto
de treinamento

Conceitos DW

Machado, 2004

Aprendizado Supervisionado vs. No


Supervisionado

Aprendizado No Supervisionado (clustering)

Os rtulos das classes dos dados de treinamento so


desconhecidos
Dado um conjunto de medidas, observaes, etc. a
meta estabelecer a existncia de classes ou
clusters nos dados

Conceitos DW

Machado, 2004

Problemas de Predio: Classificao vs.


Predio Numrica

Classificao

Prediz classes categricas (discreta ou nominal)


Classifica dados (constri um modelo) baseado no
conjunto de treinamento e nos valores (classes) na
classificao de atributos para classificar novos
dados

Arquitetura DW

Machado, 2004

Problemas de Predio: Classificao vs.


Predio Numrica

Predio Numrica

Modela funes de valores contnuos, i.e., prediz


valores desconhecidos ou ausentes

Aplicaes Tpicas

Aprovao Crdito/emprstimo
Diagnstico Mdico: se um tumor canceroso ou
benigno
Deteco de Fraude: se uma transao
fraudulenta
Categorizao de pgina Web: qual categoria
pertence

Carga inicial e novos dados

Consultas orientadas ao usurio final

Arquitetura DW

Classificao:
rvores de Deciso

Machado, 2004

Exemplo: Robs Amigos e Inimigos

Machado, Sezes

Exemplo: Robs Amigos e Inimigos

Conceito/modelo extrado rvore de deciso e


regras:

Se sorri = no
ento inimigo
Se sorri = sim e
segura = espada
ento inimigo
Se sorri = sim e
segura = balo ou bandeira
ento inimigo

Arquitetura DW

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

Classificao: Exemplo 2

Machado, 2004

ClassificaoProcesso de Dois Passos

Construo do Modelo: descrio de um conjunto


predeterminado de classes

Cada tupla/amostra pertence a uma classe


predefinida, como determinada por um atributo
classe
O conjunto de tuplas usado para construo do
modelo o conjunto de treinamento
O modelo representado como regras de
classificao, rvores de deciso ou frmula
matemtica

Machado, 2004

ClassificaoProcesso de Dois Passos

Uso do Modelo: para classificao futura de


objetos desconhecidos

Acurcia Estimada do modelo

As classes do conjunto de teste comparado com o


resultado classificado pelo modelo
Acurcia a porcentagem da amostra do conjunto de
teste que so corretamente classificadas pelo modelo
Conjunto de Teste um conjunto de treinamento
independente

Se a acurcia aceitvel, usa-se o modelo para


classificar dados cujas classes so desconhecidas

Passo (1): Construo do Modelo

Passo (2): Usando o Modelo na Predio

Sezes

Induo de rvores de Deciso: Dados de


Treinamento

Anlise OLAP

Sezes

Output: Uma rvore de Deciso para


buys_computer

Machado, Sezes

Algoritmo para Induo de rvores de


Deciso

Algoritmo Bsico

A rvore construda de forma recursiva top-down dividir-e-conquistar


No incio, todos os exemplos de treinamento esto na raiz
Atributos so categricos (os valores contnuos so discretizados)
Exemplos so particionados recursivamente baseados nos exemplos
selecionados
Atributos teste so selecionados de acordo com uma medida heurstica ou
estatstica (p.e., ganho de informao)

Condies para parar o particionamento

Todos os exemplos para um dado n pertencem mesma classe


No existe atributos remanescentes para particionamento a classe
majoritria escolhida para classificar a folha
No existe exemplos na folha

Anlise OLAP

Machado

Medida de Seleo de Atributo: Ganho de


Informao (ID3/C4.5)

Anlise OLAP

Machado

Seleo de Atributo: Ganho de


Informao

Anlise OLAP

Sezes

Overfitting e Poda da rvore

Overfitting: uma rvore induzida pode overfit


os dados de treinamento

Muitos ramos, alguns podem refletir anomalias


devido a rudos ou outliers
Pobre acurcia para exemplos no vistos

Duas abordagens para evitar overfitting

Prpoda: Construo da rvore para cedo no


divide um n se este pode resultar em uma boa
medida de acordo com threshold

Difcil escolher um threshold apropriado

Pspoda: Remove ramos de uma rvore totalmente


crescida pega uma sequncia progressivamente
de poda da rvore

Usa um conjunto de dados diferente do treinamento


Anlise OLAP
para decidir qual a melhor poda da rvore

Mtodo de Poda Reduo do Erro

O conjunto de teste classificado no modelo


gerado com o conjunto de treinamento contando,
para cada n da rvore de deciso original, o
nmero de exemplos em cada classe:
Conta o n de exemplos dos ns folhas no
classificados (ds)
Conta o n de exemplos que no seriam
classificados se a subrvore (S) em questo
fosse substituda por sua melhor folha (dps)
Se gs = ds dps >= 0 ento PODA

Sezes

Extrao de Regras de uma rvore de


Deciso

Regras so mais fceis de compreender do que


grandes rvores
Uma regra criada para cada
caminho da raiz at a folha
Cada para atributo-valor ao longo do
caminho forma uma conjuno: as folhas
predizem classe
Regras so mutuamente exclusivas e
exaustivas
Example: extrao de
regras da rvore de
deciso
buys_computer
Anlise OLAP

Machado, Inmon

Classificao em Grandes Databases


Classificao um problema clssico extensivamente
estudado por estatsticos e pesquisadores de AM
Escalabilidade: Classificando dados com milhes de
exemplos e centenas de atributos com velocidade
razovel
Por que induo de rvores de deciso em data mining?

Relativamente aprendizado mais rpido (do que outros


mtodos de classificao)
Converso simples e fcil para compreenso de regras de
classificao
Pode usar consultas SQL para acesso ao banco de dados
A acurcia comparvel com outros mtodos
Modelagem

Atividade!
Qual a rvore de deciso usando o ganho de
informao, para o conjunto de dados abaixo.
Qual a classe do exemplo (Sim, Frango, Sim, No)?

Feijo

Carne

Frutas Queijo

Resultado

Sim

Peixe

Sim

Sim

Sim

No

Gado

No

No

No

Sim

Peixe

Sim

Sim

Sim

No

Frango

Sim

No

Sim

No

Gado

Sim

No

No

Nivelamento de Conceitos

Classificao:
Aprendizado Bayesiano

Machado, Inmon

Classificao Bayesiana: Por que?


Classificador estatstico: realiza predio probabilstica, i.e.,
prediz a probabilidade dos membros das classes
Fundamento: Baseado no Teorema de Bayes.
Performance: Um simples classificador Bayesiano, nave
Bayesiano classificador, tem performance comparvel com
rvores de deciso e classificadores de redes neurais
Incremental: Cada exemplo de treinamento pode
incrementalmente aumentar/diminuir a probabilidade que
uma hiptese est correta conhecimento anterior pode ser
combinada com dados observados
Escala: At quando mtodos Bayesianos so intratveis
computacionalmente, podem fornecer uma escala de decises
timas contra outros mtodos que podem ser medidos

Modelagem

Machado, Inmon

Teorema Bayesiano: Bsico


Faa X ser uma amostra de dados (evidncia): classe
desconhecida
Faa H ser uma hiptese que X pertence a classe C
Classificao: determinar P(H|X) (probabilidade a
posteriori), probabilidade da hiptese dado a amostra X
P(H) (priobabilidade a priori), a probabilidade inicial

p. e., X comprar computador, independente da idade,


rendimento,

P(X): probabilidade que a amostra de dados observada


P(X|H) (likelihood), a probabilidade de observar a
amostra X, dado a hiptese

p.e., dado que X comprar computador, a prob. Que X


31..40, rendimento mdio

Modelagem

Machado, Inmon

Teorema Bayesiano

Dado os dados de treinamento X, probabilidade a


posteriori da hiptese H, P(H|X), segue o
teorema de Bayes
P(H|X) = P(X|H)P(H) / P(X)
Informalmente, isto pode se escrito como
posteriori = likelihood x prior/evidence
Prediz X pertencer a C2 sss a probabilidade
P(Ci|X) o mais alto entre todos os P(Ck|X)
para todos as k classes
Dificuldade prtica: requer conhecimento
inicial de muitas probabilidades, significando
custo computacional
Modelagem

Machado, Inmon

Classificador Nave Bayesiano: Dados de


Treinamento

Modelagem

Machado, Inmon

Classificador Nave Bayesiano:


um Exemplo

Modelagem

Machado, Inmon, Sezes

Evitando o problema da probabilidade 0


Predio Nave Bayesiano requer que cada prob.
condicional ser no-zero. Caso contrrio, a prob. predita
ser zero
Ex. Suponha um conjunto de dados com 1000 tuplas,
income=low (0), income= medium (990), e income = high
(10),
Use Laplaciano correo (ou Laplacian estimator)

Adicionado 1 a cada caso

Prob(income = low) = 1/1003


Prob(income = medium) = 991/1003
Prob(income = high) = 11/1003

A prob. corrigida estimada so mais prximas do que


no corrigidas
Modelagem

Nave Bayesian Classificador:


Comentrios

Vantagens

Fcil implementar
Bons resultados obtidos na maioria dos casos

Desvantagens

Suposio: independncia condicional da classe, portanto


perda de acurcia
Praticamente, dependncias existe entre variveis

p.e., hospitais: pacientes: Perfil: idade, famlia, histrico, etc.


Sintomas: febre, tosse etc., Doena: cancer, diabetes, etc.

Dependncias entre estes no podem ser modelados pelo


Classificador Nave Bayesian

Como tratar com essas dependncias?

Redes de Crenas Bayesianas

Atividade!
Calcule as probabilidades usando o aprendizado
Bayesiano para o conjunto de dados abaixo.
Qual a classe do exemplo (Sim, Frango, Sim, No)?

Feijo

Carne

Frutas Queijo

Resultado

Sim

Peixe

Sim

Sim

Sim

No

Gado

No

No

No

Sim

Peixe

Sim

Sim

Sim

No

Frango

Sim

No

Sim

No

Gado

Sim

No

No

Nivelamento de Conceitos