Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
• OLAP e datawarehouses
• Descoberta de associações
• Árvores de classificação
• Redes neurais
• Redes Bayesianas
• Mineração visual e visualização de dados
• Descobertas de aglomerações
• Busca (e mineração) na Web
• Técnicas de limpeza e pré-processamento de dados
• Estudos de casos
• Sistemas workflow
• Sistemas de suporte ao trabalho cooperativo
• Ontologias e taxonomias
• LDAP e serviços de diretórios distribuídos
• Extração automática de palavras chaves e taxonomias
• Ferramentas para desenvolvimento de portais Web
• Estudos de casos
Estudo de Caso
Ementa de MD (parte 1)
1. Conceitos Básicos
2. Processo de Mineração de Dados
3. Seleção e Pré-processamento de Dados
4. A Mineração Propriamente Dita
i. Árvores de Classificação
ii. Descoberta de Associações
iii. Aglomeração
iv. Redes Neurais
v. Mineração Visual de Dados
5. Assimilação da Informação Minerada
6. Observações Finais
Motivação
De Dados a Conhecimento
Utilização do
Conhecimento Presente/Futuro
CONHECIMENTO
Obtenção do
Mineração Conhecimento
de Dados
INFORMAÇÃO
Passado
Consultas à DADO
BD
Este tipo de abordagem tem se tornado cada vez mais útil devido
ao crescimento contínuo da complexidade e tamanho dos
repositórios de dados disponíveis hoje em dia. Há muita
informação útil nestes repositórios que não está sendo utilizada.
Descoberta de Conhecimento
Através de Análise de Dados
Aprendizado Indutivo
Mineração de Dados
• Estimação e predição
• Classificação
• Aglomeração
• Descoberta de associação
• Visualização (*)
Classificação
Descoberta de Associações
Consultas Interativas
Construção
de Modelos
Extração Automática
de Padrões
• Estimação e predição
• Classificação
Construção
de Modelos
• Aglomeração
Extração Automática
de Padrões
• Descoberta de associação
• Consultas iterativas
Parte 2: Processo de
Mineração de Dados
• Selecionar dados
• Minerar os dados
• Assimilar resultados
Pré-processamento de Dados
Assimilação de Resultados
Importância da Seleção e
Pré-Processamento de Dados
• Padronização de codificação
• Formato de representação
• Limpeza de caracteres
• Limpeza de dados
Concatenação
Formatação de Representação
Limpeza de Dados
• Redução de escala
• Extensão da escala
• Conversão de unidades
• Normalização de valores
Escalas (1)
• Nominais (Enumeradas e Discretas)
Note que não existe uma noção de unidade (distância entre dois
valores). Ex., distância entre "regular" e "bom" não é necessariamente
a mesma que a distância entre "bom" e "ótimo".
Redução de Escala
Parte 3: A Mineração
Propriamente Dita
Um Exemplo
unlikely likely
N P
Si ,A = Vi N P
Si ,A = Vi N P
ni pi
Si ,A = Vi N P
ni pi
Si ,A = Vi N P
ni pi
Si ,A = Vi N P
ni
v
p i + ni A informação necessária para se classificar
E ( A) = ∑ I ( p i , ni ) um elemento do conjunto de dados usando um
i =1 p+n atributo A
We have noticed that many of our customers who have purchased albums by Antonio
Carlos Jobim also enjoy music by Caetano Veloso. For this reason, you might like to
know that the newest CD by Caetano Veloso, "Noites do Norte," has recently hit the
shelves. You can order your copy at a savings of 22% by following the link below:
http://www.amazon.com/exec/obidos/ASIN/B000059LXU/ref=mk_pb_noy
To learn more about "Noites do Norte," please visit the following page at
Amazon.com:
http://www.amazon.com/exec/obidos/ASIN/B000059LXU/ref=mk_pb_noy
Happy listening,
Jason Verlinde
Editor, International Music
Amazon.com
• improvável,
• significante,
• nova,
• valiosa,
• e interpretável.
Associações Improváveis
P( A ∧ B) P( A ∧ B ) − P( A) P( B)
Interestingness1 ( A, B) = P ( A B ) − P( A) = − P( A) = ,
P( B) P( B)
onde P ( A) é a percentagem de ocorrência de A no conjunto de dados e P(A ∧ B) é a percentagem de
ocorrência de A ∧ B , juntos, no conjunto de dados.
Um Exemplo (b)
Exemplo de Significância
Exemplo de Novidade
1
Novel ( A, B) = FunctionOf
appearances of A and B on Interestingness 3 ( A, B ) top rank
Distâncias
Modulos A B C D E F G H I J K L M N O
Modificações
29 25 5 21 19 2 8 3 12 14 35 30 9 15 27
Número
122 132 21 85 87 23 19 24 34 84 134 110 124 89 129
Ciclomático
Nível 5
Nível 4
Nível 3
Nível 2
Nível 1
2 3 5 8 9 12 14 15 19 21 25 27 29 30 35
F H C G M I J N E D B O A L K
Modulos A B C D E F G H I J K L M N O
Modificações
29 25 5 21 19 2 8 3 12 14 35 30 9 15 27
Número
122 132 21 85 87 23 19 24 34 84 134 110 124 89 129
Ciclomático
160
Número Ciclomático
140
A M anhanttan
120 B
100
80 Euclidiana
D
60
40
20
0
0 10 20 30 40
Modificações
2 2
Euclidiana ( B, D) = (a1( B) − a1( D)) + K + (an ( B) − an ( D))
Manhattan ( B, D) = a1 ( B ) − a1 ( D) + K + an ( B) − an ( D)
Chebychev( B, D) = Máximo ai ( B) − ai ( D)
∑ ai( B) − ai( D)
pi
Potência ( B, D) = r
i
Discordância ( B, D) = (número de ai ( B) ≠ ai ( D) ) i
120
100 B
80
Ligação
60 Distância
Simples
do Centróide
C
40
A
Ligação Completa
20
0
0 5 10 15
100
90
80
70 new B
Mean BC
60
Mean AB B
50
40
new A C
30
20 new C
10 A
Mean AC
0
0 5 10 15
100
90
80
70 Mean AB
B Mean BC
60
50
40
30 A C
20 Mean AC
10
0
0 5 10 15
Neurônio Artificial
entradas
f(x) 1
x0 w1
w2
saída
x1 ∑
y
...
0 x
wN
xN
N 1
y = f ∑ wi xi , onde a função sigmoide é f ( x) =
i =0 1 + e−x
∴ y= 1
1+ e
N
− ∑ wi xi
i =0
entradas
f(x) 1
x0 w1
w2
saída
x1 ∑
y
... 0 x
wN
xN
y= 1
1+ e
N
− ∑ wi xi
i =0
Construção da Rede
Camada de Entrada
AKDSI
Camada Oculta
TKDSI
STOR-const Esforço
..........
Estimado
...
L-COBOL
L-Fortran
L-PL1
camadas
intermediárias
camada de camada
entrada de
saída
conexões
Um Exemplo Animado
camadas
intermediárias
camada de camada
entrada de
P saída
a
d
r
ã
o
camadas
intermediárias
camada de camada
entrada de
P saída
a
d
r
ã
o
Um Exemplo Animado
camadas
intermediárias
camada de camada
entrada de
saída
camadas
intermediárias
camada de camada
entrada de
saída
Um Exemplo Animado
camadas
intermediárias
camada de camada
entrada de
saída
camadas
intermediárias
camada de camada
entrada de
saída
Um Exemplo Animado
camadas
intermediárias
camada de camada
entrada de
saída
camadas
intermediárias
camada de camada
entrada de
saída
S
a
í
d
a
Um Exemplo Animado
camadas S
intermediárias a
camada de camada í
entrada de d
saída a
S
a D
í e
d s
a e
j
a
d
a
Mineração de Dados Copyright © 2003, Manoel Mendonça 138
Um Exemplo Animado
camadas S
intermediárias a
camada de camada í
entrada de d
saída a
S
a D
í e
d s
a e
j
a
Erro d
a
Mineração de Dados Copyright © 2003, Manoel Mendonça 139
Um Exemplo Animado
camadas
intermediárias
camada de camada
entrada de
saída
Erro
Ajuste
camadas
intermediárias
camada de camada
entrada de
saída
Erro
Um Exemplo Animado
Ajuste
camadas
intermediárias
camada de camada
entrada de
saída
Erro
Ajuste
camadas
intermediárias
camada de camada
entrada de
saída
Um Exemplo Animado
Rede recalculada
camadas
intermediárias
camada de camada
entrada de
saída
camadas
intermediárias
camada de camada
entrada de
P saída
a
d
r
ã
o
– Fase backward
Erro (backward)
Mineração de Dados Copyright © 2003, Manoel Mendonça 146
Pontos Importantes do Algoritmo
Taxa de Aprendizado
Overfitting
(3) deve-se sempre usar bons casos de teste para validar a rede
obtida após o treinamento.
Modules A B C D E F G H I J K L M N O
Fan-out 7 8 4 6 5 1 1 2 2 5 5 6 6 4 6
Fan-in 4 5 2 3 3 1 1 4 3 3 2 7 6 3 7
Coupling 14 22 7 8 4 4 3 5 5 6 12 11 10 7 13
# of Modif. 29 25 5 21 19 2 8 3 12 14 35 30 9 15 27
0,5
-0,5
-1
12
14
16
18
20
22
24
26
28
30
32
34
36
38
40
Mineração de Dados Copyright © 2003, Manoel Mendonça 159
FORMA DE
DADOS APRESENTAÇÂO
INTERAÇÃO HUMANA
Tela
CONTROLE DE ATRIBUTOS
Atributos Controle de Atributos Visuais
Padrões e Modelos
• Padrão:
ABABABABAB ...
• Modelo:
Se “A” então “B” o seguirá. Se “B” então “A” o seguirá
Padrões
• Não são informação útil por se só, têm que ser inspecionados
por peritos que vão tentar extrair conhecimento dos padrões
minerados.
Validação de Modelos
barra de
seletividade
Ferramentas
Conclusões (2)
• Todas as técnicas têm pontos fortes e pontos fracos. Deve-se
escolher a técnica mais adequada para o problema e não o
contrário.
Conclusões (4)
Apêndice 1:
Aprendizado de Máquina
Alguns Algoritmos de
Aprendizado de Máquina
Definição
• Data Warehouse
– Dados coletados de diferentes fontes
– Base de Dados Operacionais x Data Warehouse
Arquitetura de uma DW
BD Relacionais BD Hierárquicas Arquivos Planos
Ferramentas de transformação
BD Warehouse
(Metadata)
Ferramentas de análises
Apêndice 3:
On-Line Analytical Processing (OLAP)
Definição de OLAP
• SQL normal
– O usuário/analista tem que ter suporte e compreender
SGBD. É uma lista simples onde os dados podem ser
analisados.
• Ferramenta OLAP
– É voltada para gerentes. Resultado é um relatório mais
sofisticados mas sem a necessidade de conhecimentos
prévios de SGBD.
– Apresenta dados relacionais de forma a facilitar a
compreensão dos dado.