Escolar Documentos
Profissional Documentos
Cultura Documentos
=
=
= !"#$%
$%
=
| &# '
=
=
#
(
(
|%
)
*+,
$
# |
= %
#
Motivação
= Informações sumárias
Relatórios multidimensionais e estatísticos
Análise de risco
= Planejamento de finanças e orçamento
Análise e predição de fluxo de caixa
Análise de contingência para provisão de bens
Análise de séries temporais
= Planejamento de recursos:
Resume e compara os recursos e os gastos
= Competição:
Monitorar concorrentes e direções de mercado
Agrupar clientes em classes e elaborar métodos para
ajustar preços competitivos com os concorrentes do
mercado
Detecção de Fraude (1)
= Aplicações
Largamente usada em serviços de saúde, cartões de créditos,
telecomunicações (fraude de ligações telefônicas), etc.
= Técnicas
Dados históricos para construir modelos de comportamento
fraudulentos e usar mineração de dados para identificar instâncias
similares
= Exemplos
Seguro de automóveis: detecta um grupo de pessoas que são potenciais
coletores de sinistros
Lavagem de dinheiro: detecta transações suspeitas de dinheiro
Seguro de saúde: detecta pacientes ³profissionais´ e grupo de outores
usados para receber seguro destes pacientes
Detecção de Fraude (2)
= Detecção inapropriada de tratamento médico
Comissão de Seguro de Saúde da Austrália identificou que
em muitos casos os tratamentos não eram necessários
(economia de $1milhão/ano).
= Detecção de fraudes telefônicas
Modelo de ligações telefônicas: destino da ligação,
duração, hora do dia, dia da semana. Análise de padrões
que desviam do padrão esperado.
Outras Aplicações
= Esportes
IBM Advanced Scout analisou estatísticas de jogos da NBA (³tocos´,
assistências, falats, etc.) para melhorar índices de equipe do New
York Knicks and Miami Heat
= Bioinformática
Predição de organismos e proteínas baseado em sequência de DNA
= Internet Web Surf-Aid
IBM Surf-Aid usa algoritmos de data mining para extrair
conhecimento de logs de acesso à paginas de comércio eletrônico. Isto
permite a customizar os produtos a serem acessados pelo cliente, tipo
de publicidade exibida, melhorando a organização do site, etc.
Data Mining: Uma Etapa do Processo KDD
1 - SELEÇÃO
2 - PRÉ-PROCESSAMENTO
(Limpeza + Enriquecimento)
3 - TRANSFORMAÇÃO Conhecimento
5
4 - MINERAÇÃO
5 - INTERPRETAÇÃO 4
3
Regras e
Padrões
2
Dados
Dados Transformados
1 Pré-processados
Dados
Selecionados
Dados
Etapas do Processo KDD
Visualization Techniques
Information Discovery
`
`
Mineração sob que tipos de dado ?
= BDs relacionais (transacionais)
= Data warehouses
= BDs avançados e repositórios de informação
BDs OO e OR
BDs espaciais
BDs temporais
BDs texto e multimídias
BDs heterogêneos e legados
WWW
Funcionalidades de um Data
Mining (1)
= Descrição conceitual: Caracterização e discriminação
Generalizar, resumir, e confrontar características dos dados,
p.ex., seco x úmido, alto x baixo
= Associação (correlação)
Ex.: uma grande loja, através da análise de suas transações
de compras, descobriu que parte significativa das compras
de homens, às sextas-feiras à noite, que incluía fraldas,
incluía também cerveja
compra(X, ³fralda´) h compra (X, ³cerveja´)
= ;support = 2%, confidence = 60%]
Funcionalidades de um Data
Mining (2)
= Classificação e Predição
Buscar modelos (funções) que descrevem e distinguem classes ou
conceitos para futuras predições
Ex: classificar países baseados no clima, ou classificar carros baseados
no consumo de combustível
Apresentação: árvores de decisão, regras de classificação, rede neural
Predição: prevê algum conhecimento não conhecido ou valor numérico
ausente
= Análise de cluster
Clustering baseado no princípio: maximizar a similaridade intra-classe
e minimizar a similaridade entre-classes
Todos os padrões descobertos são
interessantes ?
= Um sistema de mineração de dados pode gerar milhares de padrões, mas
nem todos são interessantes
Técnica sugerida: focada na percepção humana
= â ! " #: Um padrão é interessante se é
facilmente compreendido por humanos, válidos quando testados com
algum grau de certeza, potencialmente útil, valida algumas hipóteses que
um usuário busca confirmar
= $%&&'
%&
Objetiva: baseada em estatísticas e estruturas de padrões (grau de
suporte e confiança)
Subjetiva: baseada na experiência do usuário, e.g., grau de novidade
do resultado, coerência, etc.
Data Mining: Integração de
Múltiplas Disciplinas
`
` !
`
OLAP Mining: Integração de Data
Mining e Data Warehousing
= Acoplamento de sistemas Data mining, SGBDs e
Data warehouse
Nenhum acoplamento, fracamente acoplado, regular
acoplamento, altamente acoplado
= Mineração de dados OLAP
= Mineração de múltiplos níveis de conhecimento
interativamente
= Integração de múltiplas funções de mineração
An OLAM Architecture
1
(/
â 0
)ââ
(+
$( $(
$($(
* â
(,
.
Principais Técnicas em Mineração de Dados
(tipos de informações mineradas)
Regras de Associação
Regras de Classificação
Padrões de Seqüências
Agrupamento (| )
Padrões em Séries Temporais
Regras de Associação
(r
)
Uma regra de associação representa um padrão de relacionamento
entre itens de dados do domínio da aplicação que ocorre com uma
determinada freqüência na base de dados.
parte significativa das compras de homens, às sextas-feiras
à noite, que inclui fraldas, inclui também cerveja.
{fralda} $ {cerveja}
o cliente que compra pão e manteiga,
80% das vezes compra leite.
{pão, manteiga} $ {leite}
muitos pacientes aidético que contraem a doença
candidíase também têm pneumonia.
{candidíase} $ {pneumonia}
Regras de Associação
(r
)
Regras de associação são extraídas a partir de bases de dados que
contêm transações - formadas por conjuntos de itens do domínio
da aplicação.
Id-Transação (TID) Itens Comprados
1 leite, pão, refrigerante
2 cerveja, carne
3 cerveja, fralda, leite, refrigerante
4 cerveja, fralda, leite, pão
5 fralda, leite, refrigerante
{fralda} $ {cerveja} confiança de 66% (suporte médio)
{fralda} $ {leite} confiança de 100% (suporte alto)
{leite} $ {fralda} confiança de 75% (suporte alto)
{carne} $ {cerveja} confiança de 100% (suporte baixo)
Regras de Classificação
tempo
Exemplo:
O valor diário das ações de uma empresa ao longo de um
período pode caracterizar uma série temporal. A identificação de
determinados padrões no comportamento destes valores pode ser valiosa.
Regras de Associação
(suas diferentes formas)
*$
onde X 8 I, Y 8 I, X , Y e X Y .
X é o antecedente da regra e Y é o conseqüente.
{candidíase} $ {pneumonia}
{café, leite} $ {pão, manteiga, queijo}
A primeira regra indica, com um determinado grau de certeza, que se o
paciente contraiu candidíase, então também teve pneumonia.
Regras de Associação
".#23* 3
TID Itens Comprados Suporte({leite} $ {suco}) = 2 / 4 = 50%
101 leite, pão, suco Suporte({suco} $ {leite}) = 50%
792 leite, suco Suporte({pão} $ {suco}) = ___
1130 leite, ovos Suporte({pão} $ {ovos}) = ___
1735 pão, biscoito, café Suporte({pão,café} $ {biscoito}) = ___
Regras de Associação
*
0 4".#23* 3*
Id-T. Itens Comprados Confiança({leite} $ {suco}) = 2 / 3 = 67%
101 leite, pão, suco Confiança({suco} $ {leite}) = 2 / 2 = 100%
792 leite, suco Confiança({pão} $ {suco}) = ___
1130 leite, ovos Confiança({pão} $ {ovos}) = ___
1735 pão, biscoito, café Confiança({pão,café} $ {biscoito}) = ___
Mineração de Regras de Associação
h Entrada:
· Base de dados de transações;
· Suporte mínimo;
· Confiança mínima.
h Saída:
· Todas as regras de associação que possuem
suporte e confiança maiores ou iguais ao
suporte e à confiança mínimos.
Regras de Associação em Taxonomias
Suponha que os itens de dados do domínio da aplicação estejam
organizados em taxonomias que os classificam.
oenças portunistas
h Saída:
· Todas as regras de associação em taxonomias
que possuem suporte e confiança maiores
ou iguais ao suporte e à confiança mínimos.
Regras de Associação Negativas
onde X 8 I, Y 8 I, X , Y e X Y .
{Meningite} $ ¬{Sarcoma}
Esta regra indica, com um determinado grau de certeza, que pacientes que
adquiriram meningite bacteriana não contraíram sarcoma de Kaposi.
Regras de Associação Negativas
h Simplesmente estender as transações, representando a ausência de um
item pela sua forma negativa, pode não ser uma boa abordagem.
h Um número muito grande de regras negativas com pouca importância
poderia ser gerado.
TID Itens
1 A, B, E ¬C, ¬D, ¬F, ¬G, ¬H
2 A, B, C, D ¬E, ¬F, ¬G, ¬H
3 B, E ¬A, ¬C, ¬D, ¬F, ¬G, ¬H
4 A, B, G ¬C, ¬D, ¬E, ¬F, ¬H
5 B, H ¬A, ¬C, ¬D, ¬E, ¬F, ¬G
suporte mínimo: 40 % confiança mínima: 70 %
{A} $ {B} e {E} $ {B}
Outras regras: Ñ5$ ðÑ5 {B} $ ð{C} {E} $ ð{C}
{A} $ ð{H} {B} $ ð{D} {E} $ ð{D}
Ñ5$ ðÑ5 Ñ5$ ðÑ5
Ñ5$ ðÑ5 {E} $ ð{G}
{B} $ ð{G} {E} $ ð{H}
{B} $ ð{H}
Regras de Associação Negativas
h Foi proposto então que a regra X $Y deve ser extraída de uma base de
dados de transações se a presença do itens de Y nas transações, em relação
aos itens de X, estiver bem abaixo de uma determinada expectativa.
batata-frita refrigerante
batata-frita refrigerante
h Saída:
· Todas as regras de associação negativas
que possuem suporte e interesse maiores
ou iguais ao suporte e ao interesse mínimos.
Regras de Associação Quantitativas
h Esta regra hipotética indica, com certo grau de certeza, que pacientes aidéticos
heterossexuais, entre 20 e 30 anos, do sexo masculino são usuários de drogas.
Regras de Associação Quantitativas
h Entrada:
· Base de dados relacional;
· Suporte mínimo;
· Confiança mínima.
h Saída:
· Todas as regras quantitativas que possuem
suporte e confiança maiores ou iguais ao
suporte e à confiança mínimos.
Algoritmos de Mineração
(de Regras de Associação)
i
Mineração de Regras de Associação
(convencionais)
h Entrada:
· Base de dados de transações;
· Suporte mínimo (SupMin);
· Confiança mínima (ConfMin).
h Saída:
· Todas as regras de associação que possuem
suporte e confiança maiores ou iguais a
SupMin e ConfMin, respectivamente.
Mineração de Regras de Associação
h Recorde que:
Se Sup(X$Y) SupMin então os itens de XY aparecem com
freqüência desejada nas transações da base de dados.
O algoritmo i
considera as seguintes propriedades com o
objetivo de diminuir o espaço de busca, ou seja, evitar que todos os
2n subconjuntos sejam avaliados.
h Se {a1, a2, ..., ak-2, a k-1, ak} for gerado em Ck, será podado se possuir
algum subconjunto que não seja freqüente.
(O conjunto candidato {1,2,3,4} será eliminado de C4 se, por exemplo,
{2,3,4} não for um conjunto freqüente.)
Gerar Ck (todos os candidatos de tamanho k) a partir de Fk-1;
Junção: Para cada dois conjuntos {a1, a2, ..., ak-1} e {b1, b2, ..., bk-1} de Fk-1:
Se (a1= b1) (a2= b2) ... (ak-2= bk-2) (ak-1 bk-1) então
gere o candidato {a1, a2, ..., ak-1, bk-1} em Ck.
| m | m
m Scan D
| m Scan D m
Estratégia
O algoritmo
considera a seguinte propriedade com o objetivo
de diminuir o número de leituras a toda a base de dados.
50%
Estratégia
A estratégia
é dividida em duas fases: na primeira, são gerados os
conjuntos candidatos e, na segunda, dentre estes são identificados os freqüentes.
Em cada fase é realizada (apenas) uma leitura em toda a base de dados.
Fase I:
h A base de dados é dividida em partições que caibam na memória
principal. Para cada partição, são gerados os conjuntos freqüentes locais,
utilizando-se as idéias da estratégia i
.
h Desta forma, em um único acesso a toda a base de dados, os conjuntos
freqüentes locais de cada partição são gerados. Estes conjuntos são
os candidatos a freqüentes globais.
Fase II:
h Todas as transações da base de dados são percorridas para verificar
quais freqüentes locais (candidatos globais) são freqüentes globais.
Estratégias i
e
h Na estratégia
, a base de dados é lida apenas duas vezes.
Na estratégia i
, a base de dados é lida em cada uma das k iterações.
h Na estratégia
, passam para a última fase e devem ser
processados todos os freqüentes locais (candidatos globais), identificados
em cada partição. Este fato, dependendo do número de candidatos gerados
que não são de fato freqüentes, pode comprometer o desempenho
deste algoritmo.
Ferramentas de Mineração de Dados
(com Regras de Associação)
Enfoque Acadêmico:
ö Data Mining
Nelson F. F. Ebecken - WIT Press, 1998