Escolar Documentos
Profissional Documentos
Cultura Documentos
Revisão
REVISÃO
Mineral: Resultado:
Informação Conhecimento
Fonte: pixabay e
Wikimedia Commons
KDD
Pré-processamento de dados e
redução de dados
PRÉ-PROCESSAMENTO DE DADOS
SEMANA 3
Média
Moda
Mediana
ADD – MEDIDAS RESUMO
Amplitude
Variância
Desvio
padrão
ADD – MEDIDAS RESUMO
Range
interquartil
Diagrama
de caixa
ADD – MEDIDAS RESUMO
Assimetria
Curtose
ADD – MEDIDAS RESUMO
Correlação
SEMANA 4
• Acurácia / erro
• Precisão
• Revocação
• F-score
ALGORITMOS DE CLASSIFICAÇÃO
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
if..then..else, switch..case
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
árvores de decisão
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
redes neurais
artificiais
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
k-NN
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
SVM
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
naïve bayes
ALGORITMOS - k-NN
k=5
ALGORITMOS - ÁRVORES DE DECISÃO
NAÏVE BAYES - EXEMPLO
Análise de agrupamento
AGRUPAMENTO
k-médias
ALGORITMOS DE AGRUPAMENTO
Single-linkage
ALGORITMOS DE AGRUPAMENTO
DBSCAN
ALGORITMOS DE AGRUPAMENTO
• Agrupamento aglomerativo
• Um novo grupo é formado a cada iteração
• União dos grupos mais próximos
• Função de ligação:
• Novo grupo recebe a menor distância dos
grupos remanescentes
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D, B, C, E
4
A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO
B C E
A 3 7 9
D 6 4 8
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D, B-E, C
4
A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO
C A-D
B 5 3
E 5 8
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D-B-E, C
4
A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO
C
A-D 4
B-E 5
SINGLE-LINKAGE - DENDOGRAMA
Grupo:
A-D-B-E-C
4
A D B E C
SEMANA 6
Análise de associação
REGRAS DE ASSOCIAÇÃO
ID Itens
1 {Leite, pão, açúcar, café, manteiga}
2 {Mamão, banana, maçã}
3 {Leite, pão}
4 {Leite, pão, manteiga, banana}
REGRAS DE ASSOCIAÇÃO
ID Leite Pão Açúcar Café Manteiga Mamão Banana Maçã
1 1 1 1 1 1 0 0 0
2 0 0 0 0 0 1 1 1
3 1 1 0 0 0 0 0 0
4 1 1 0 0 1 0 1 0
REGRAS
X→Y X implica em Y
X: antecedente, Y: consequente
{Pão} → {Leite}
• 2 itens: 2 combinações
• 5 itens: 180 combinações
• 100 itens: 5,15 x 10⁴⁷ combinações
• 1.000 itens: 1,32 x 10⁴⁷⁷ combinações
AVALIAÇÃO - SUPORTE E CONFIANÇA
➢ Apriori
➢ FP-Growth
APRIORI
Duas etapas:
{AD} B, C, E
{AD} → {B,C,E}
FP-GROWTH
ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
Fonte: Castro e Ferrari (2016)
FP-GROWTH
ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
Fonte: Castro e Ferrari (2016)
FP-GROWTH
Detecção de anomalias
ANOMALIA
USOS DE DETECÇÃO DE ANOMALIAS
• Detecção de fraudes
• Análise de crédito
• Monitoramento de
• atividades
• Análise de imagens
Fonte: imazon.org
TIPO DE ABORDAGEM
• Não supervisionada (tipo 1)
• Supervisionada (tipo 2)
• Depende da existência de rótulos
AVALIAÇÃO
Classe predita
Anomalia Normal
FN
Anomalia VP
Classe (erro tipo 2)
original FP
Normal VN
(Alarme falso)
•Acurácia / erro
•Taxa de detecção
•Taxa de alarmes falsos
•Valor preditivo de uma anomalia (precisão)
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS ESTATÍSTICOS PARAMÉTRICOS
• Assumem uma distribuição conhecida dos dados
• Uso limitado
• Métodos:
• Diagrama de caixa (tipo 1)
• Teste estatístico de Grubbs (tipo 1)
• Estatística χ2 (tipo 1)
• Regressão linear (tipo 1)
MÉTODOS ESTATÍSTICOS NÃO PARAMÉTRICOS
• Não assumem uma distribuição dos dados
• Uso mais comum de forma não supervisionada
• Métodos:
• Análise de histograma (tipo 1)
• Análise de histograma (tipo 2)
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS ALGORÍTMICOS BASEADOS EM
PROXIMIDADE
• Algoritmos:
• k-NN (tipo 1 e tipo 2)
• k-médias ou k-medoides (tipo 1 e tipo 2)
• Fator Local de Anomalia (LOF) (tipo 1)
MÉTODOS ALGORÍTMICOS BASEADOS EM
REDES NEURAIS ARTIFICIAIS
[3] Big Data Statistics 2022: Facts, Market Size & Industry Growth. Jason Wise,
Earthweb:
https://earthweb.com/big-data-statistics