Você está na página 1de 97

MINERAÇÃO DE DADOS

Revisão
REVISÃO

• Semana 1: Introdução à mineração de dados e KDD


• Semana 2: Pré-processamento de dados e redução de dados
• Semana 3: Análise descritiva de dados
• Semana 4: Métodos de classificação supervisionada
REVISÃO

• Semana 5: Análise de agrupamento


• Semana 6: Análise de associação
• Semana 7: Detecção de anomalias
SEMANA 1

Introdução à mineração de dados e descoberta de


conhecimento (KDD)
EXPLOSÃO DE DADOS

Fonte: bestdesigns | Getty Images/iStockphoto


EXPLOSÃO DE DADOS

• 79 zettabytes (Zb) gerados (2021):


• 1 Zb = 10²¹ bytes ou 1 bilhão de Tb
• Uma pessoa: 1.7 Mb por segundo (2020)

Fonte: EarthWeb [3]


MINERAÇÃO DE DADOS
Mina: Substância: Ferramentas:
Base de dados Dados Algoritmos

Mineral: Resultado:
Informação Conhecimento

Fonte: pixabay e
Wikimedia Commons
KDD

Fonte: Schneider [4]


KDD
Núcleo do
processo de KDD

Fonte: Schneider [4]


TAREFAS DE MINERAÇÃO DE DADOS

Aprendizado não supervisionado Aprendizado supervisionado


SEMANA 2

Pré-processamento de dados e
redução de dados
PRÉ-PROCESSAMENTO DE DADOS
SEMANA 3

Análise descritiva de dados


ANÁLISE DESCRITIVA DE DADOS
Frutas
Banana​
Uva​
Maçã
Laranja
...​
Laranja
Uva​
Banana​
Maçã
Laranja
Uva​
ADD - DISTRIBUIÇÕES DE FREQUÊNCIA
ADD - VISUALIZAÇÃO DE DADOS
ADD – MEDIDAS RESUMO
ADD – MEDIDAS RESUMO

Média

Moda

Mediana
ADD – MEDIDAS RESUMO

Amplitude

Variância

Desvio
padrão
ADD – MEDIDAS RESUMO

Range
interquartil

Diagrama
de caixa
ADD – MEDIDAS RESUMO

Assimetria

Curtose
ADD – MEDIDAS RESUMO

Correlação
SEMANA 4

Métodos de classificação supervisionada


CLASSIFICAÇÃO
Predição para dados discretos

Dados são rotulados


MODELO DE CLASSIFICAÇÃO
MODELO DE CLASSIFICAÇÃO
DILEMA BIAS-VARIÂNCIA
• Dados de treinamento
• Subajustado (bias)
• Sobreajustado (variância)
• Bom ajuste bias-variância
DILEMA BIAS-VARIÂNCIA
• Dados de treinamento Validação cruzada
• Subajustado (bias)
• Sobreajustado (variância)
• Bom ajuste bias-variância
Critério de parada:
Aumento do erro
AVALIAÇÃO
Classe predita
Positiva Negativa
Classe Positiva VP FN
original Negativa FP VN

• Acurácia / erro
• Precisão
• Revocação
• F-score
ALGORITMOS DE CLASSIFICAÇÃO
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

if..then..else, switch..case
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

árvores de decisão
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

redes neurais
artificiais
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

k-NN
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

SVM
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO

naïve bayes
ALGORITMOS - k-NN

k=5
ALGORITMOS - ÁRVORES DE DECISÃO
NAÏVE BAYES - EXEMPLO

• Probabilidade a priori das classes


• Probabilidade a posteriori de cada par atributo-valor
• Probabilidade condicional do novo objeto para cada classe
P (A|B) = P(B|A) * P(A)
P(B)

• Objeto pertence à classe de maior probabilidade


SEMANA 5

Análise de agrupamento
AGRUPAMENTO

Grupos (clusters): subconjuntos de objetos similares

Coesão interna X isolamento externo


MEDIDAS DE SIMILARIDADE
Similaridade: proximidade
MEDIDAS DE SIMILARIDADE
Dissimilaridade: distância
MEDIDAS DE SIMILARIDADE
⮚ Dados binários:
• Coeficientes de similaridade:
• Jaccard, Matching, Rogers & Tanimoto
⮚ Dados categóricos:
• Nominais: % de atributos similares
• Ordinais: normalização dos valores
⮚ Dados numéricos contínuos:
• Distância euclidiana, distância de manhattan
MEDIDAS DE AVALIAÇÃO
⮚ Interna:
• Índice de Dunn:
• Equilíbrio entre intra e intergrupos
• Índice de Bezdek-Pal:
• Separação intergrupos é mais importante
⮚ Externa:
• Entropia
• Pureza
ALGORITMOS DE AGRUPAMENTO
ALGORITMOS DE AGRUPAMENTO

k-médias
ALGORITMOS DE AGRUPAMENTO

Single-linkage
ALGORITMOS DE AGRUPAMENTO

DBSCAN
ALGORITMOS DE AGRUPAMENTO

MST (Árvore geradora mínima)


SINGLE-LINKAGE

• Agrupamento aglomerativo
• Um novo grupo é formado a cada iteração
• União dos grupos mais próximos
• Função de ligação:
• Novo grupo recebe a menor distância dos
grupos remanescentes
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D, B, C, E
4

A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO

B C E
A 3 7 9
D 6 4 8
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D, B-E, C
4

A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO

C A-D
B 5 3
E 5 8
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE

C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D-B-E, C
4

A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO

C
A-D 4
B-E 5
SINGLE-LINKAGE - DENDOGRAMA
Grupo:
A-D-B-E-C
4

A D B E C
SEMANA 6

Análise de associação
REGRAS DE ASSOCIAÇÃO
ID Itens
1 {Leite, pão, açúcar, café, manteiga}
2 {Mamão, banana, maçã}
3 {Leite, pão}
4 {Leite, pão, manteiga, banana}
REGRAS DE ASSOCIAÇÃO
ID Leite Pão Açúcar Café Manteiga Mamão Banana Maçã

1 1 1 1 1 1 0 0 0

2 0 0 0 0 0 1 1 1

3 1 1 0 0 0 0 0 0

4 1 1 0 0 1 0 1 0
REGRAS

X→Y X implica em Y

X: antecedente, Y: consequente

{Pão} → {Leite}

{Pão ^ Café} → {Leite}

{Banana} → {Maçã} ≠ {Maçã} → {Banana}


COMPLEXIDADE

• 2 itens: 2 combinações
• 5 itens: 180 combinações
• 100 itens: 5,15 x 10⁴⁷ combinações
• 1.000 itens: 1,32 x 10⁴⁷⁷ combinações
AVALIAÇÃO - SUPORTE E CONFIANÇA

Suporte: proporção da regra sobre o total de


transações da base

Confiança: proporção da parte consequente da


regra sobre o total de ocorrências da regra
ALGORITMOS DE REGRAS DE ASSOCIAÇÃO

➢ Apriori

➢ FP-Growth
APRIORI

Duas etapas:

• Geração do conjunto de itens frequentes

• Geração das regras


GERAÇÃO DO CONJUNTO DE ITENS FREQUENTES
GERAÇÃO DAS REGRAS

{AD} B, C, E

{AD} → {B} {AD} → {C} {AD} → {E}

{AD} → {B,C} {AD} → {B,E} {AD} → {C,E}

{AD} → {B,C,E}
FP-GROWTH

ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
Fonte: Castro e Ferrari (2016)
FP-GROWTH

Fonte: Castro e Ferrari (2016)


FP-GROWTH

ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
Fonte: Castro e Ferrari (2016)
FP-GROWTH

Fonte: Castro e Ferrari (2016)


FP-GROWTH

➢ Mineração dos itens frequentes

➢ Gera as regras combinando os itens


frequentes
SEMANA 7

Detecção de anomalias
ANOMALIA
USOS DE DETECÇÃO DE ANOMALIAS
• Detecção de fraudes
• Análise de crédito
• Monitoramento de
• atividades
• Análise de imagens
Fonte: imazon.org
TIPO DE ABORDAGEM
• Não supervisionada (tipo 1)
• Supervisionada (tipo 2)
• Depende da existência de rótulos
AVALIAÇÃO
Classe predita
Anomalia Normal
FN
Anomalia VP
Classe (erro tipo 2)
original FP
Normal VN
(Alarme falso)

•Acurácia / erro
•Taxa de detecção
•Taxa de alarmes falsos
•Valor preditivo de uma anomalia (precisão)
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS ESTATÍSTICOS PARAMÉTRICOS
• Assumem uma distribuição conhecida dos dados
• Uso limitado
• Métodos:
• Diagrama de caixa (tipo 1)
• Teste estatístico de Grubbs (tipo 1)
• Estatística χ2 (tipo 1)
• Regressão linear (tipo 1)
MÉTODOS ESTATÍSTICOS NÃO PARAMÉTRICOS
• Não assumem uma distribuição dos dados
• Uso mais comum de forma não supervisionada
• Métodos:
• Análise de histograma (tipo 1)
• Análise de histograma (tipo 2)
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS ALGORÍTMICOS BASEADOS EM
PROXIMIDADE

• Algoritmos:
• k-NN (tipo 1 e tipo 2)
• k-médias ou k-medoides (tipo 1 e tipo 2)
• Fator Local de Anomalia (LOF) (tipo 1)
MÉTODOS ALGORÍTMICOS BASEADOS EM
REDES NEURAIS ARTIFICIAIS

• Redes neurais supervisionadas


• Perceptron de Múltiplas Camadas (MLP)
• Funções de Base Radial (RBF)
• Redes neurais competitivas (não supervisionadas)
• Feedforward com camada única
• Rede auto-organizada
REDE FEEDFORWARD
MÉTODOS ALGORÍTMICOS BASEADOS EM
APRENDIZADO DE MÁQUINA

• Abordagem supervisionada (tipo 2):


• Árvores de decisão
• Regras de classificação
• Duas classes:
• Normal e anomalia
MÉTODOS ALGORÍTMICOS BASEADOS EM
APRENDIZADO DE MÁQUINA

• Abordagem não supervisionada (tipo 1):


• Agrupamento:
• k-médias, single-linkage, DBSCAN, ...
• Regras de associação:
• Lift e convicção
• Similaridade / dissimilaridade dos objetos normais
REFERÊNCIAS
Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações:
Leandro Nunes de Castro e Daniel Gomes Ferrari. Editora Saraiva, 2016.

Introdução a Big Data e Internet das Coisas (IoT): Descoberta de Conhecimento


com Big Data. Izabelly Soares de Morais et al. Sagah, 2018.

[3] Big Data Statistics 2022: Facts, Market Size & Industry Growth. Jason Wise,
Earthweb:
https://earthweb.com/big-data-statistics

[4] SCHNEIDER, L. F. Aplicação do processo de descoberta de conhecimento em


dados do poder judiciário do estado do Rio Grande do Sul. 2003. 103 f.
Dissertação (Mestrado em Informática) – Universidade Federal do Rio Grande do
Sul, Porto Alegre, 2003. Disponível em:
<https://lume.ufrgs.br/handle/10183/8968>. Acesso em: 4 jan. 2019.

Você também pode gostar