COM360-Slides-Videoconferencia 220705 202902

MINERAÇÃO DE DADOS
Revisão
REVISÃO
• Semana 1: Introdução à mineração de dados e KDD

• Semana 2: Pré-processamento de dados e redução de dados
• Semana 3: Análise descritiva de dados
• Semana 4: Métodos de classificação supervisionada
REVISÃO
• Semana 5: Análise de agrupamento

• Semana 6: Análise de associação
• Semana 7: Detecção de anomalias
SEMANA 1
Introdução à mineração de dados e descoberta de

conhecimento (KDD)
EXPLOSÃO DE DADOS
Fonte: bestdesigns | Getty Images/iStockphoto

EXPLOSÃO DE DADOS
• 79 zettabytes (Zb) gerados (2021):

• 1 Zb = 10²¹ bytes ou 1 bilhão de Tb
• Uma pessoa: 1.7 Mb por segundo (2020)
Fonte: EarthWeb [3]

MINERAÇÃO DE DADOS
Mina: Substância: Ferramentas:
Base de dados Dados Algoritmos
Mineral: Resultado:
Informação Conhecimento
Fonte: pixabay e
Wikimedia Commons
KDD
Fonte: Schneider [4]

KDD
Núcleo do
processo de KDD
Fonte: Schneider [4]

TAREFAS DE MINERAÇÃO DE DADOS
Aprendizado não supervisionado Aprendizado supervisionado

SEMANA 2
Pré-processamento de dados e
redução de dados
PRÉ-PROCESSAMENTO DE DADOS
SEMANA 3
Análise descritiva de dados

ANÁLISE DESCRITIVA DE DADOS
Frutas
Banana
Uva
Maçã
Laranja
...
Laranja
Uva
Banana
Maçã
Laranja
Uva
ADD - DISTRIBUIÇÕES DE FREQUÊNCIA
ADD - VISUALIZAÇÃO DE DADOS
ADD – MEDIDAS RESUMO
Média
Moda
Mediana
Amplitude
Variância
Desvio
padrão
Range
interquartil
Diagrama
de caixa
Assimetria
Curtose
Correlação
SEMANA 4
Métodos de classificação supervisionada

CLASSIFICAÇÃO
Predição para dados discretos
Dados são rotulados

MODELO DE CLASSIFICAÇÃO
MODELO DE CLASSIFICAÇÃO
DILEMA BIAS-VARIÂNCIA
• Dados de treinamento
• Subajustado (bias)
• Sobreajustado (variância)
• Bom ajuste bias-variância
DILEMA BIAS-VARIÂNCIA
• Dados de treinamento Validação cruzada
• Subajustado (bias)
• Sobreajustado (variância)
• Bom ajuste bias-variância
Critério de parada:
Aumento do erro
AVALIAÇÃO
Classe predita
Positiva Negativa
Classe Positiva VP FN
original Negativa FP VN
• Acurácia / erro
• Precisão
• Revocação
• F-score
ALGORITMOS DE CLASSIFICAÇÃO
TIPOS DE ALGORITMOS DE CLASSIFICAÇÃO
if..then..else, switch..case
árvores de decisão
redes neurais
artificiais
k-NN
SVM
naïve bayes
ALGORITMOS - k-NN
k=5
ALGORITMOS - ÁRVORES DE DECISÃO
NAÏVE BAYES - EXEMPLO
• Probabilidade a priori das classes

• Probabilidade a posteriori de cada par atributo-valor
• Probabilidade condicional do novo objeto para cada classe
P (A|B) = P(B|A) * P(A)
P(B)
• Objeto pertence à classe de maior probabilidade

SEMANA 5
Análise de agrupamento
AGRUPAMENTO
Grupos (clusters): subconjuntos de objetos similares
Coesão interna X isolamento externo

MEDIDAS DE SIMILARIDADE
Similaridade: proximidade
Dissimilaridade: distância
⮚ Dados binários:
• Coeficientes de similaridade:
• Jaccard, Matching, Rogers & Tanimoto
⮚ Dados categóricos:
• Nominais: % de atributos similares
• Ordinais: normalização dos valores
⮚ Dados numéricos contínuos:
• Distância euclidiana, distância de manhattan
MEDIDAS DE AVALIAÇÃO
⮚ Interna:
• Índice de Dunn:
• Equilíbrio entre intra e intergrupos
• Índice de Bezdek-Pal:
• Separação intergrupos é mais importante
⮚ Externa:
• Entropia
• Pureza
ALGORITMOS DE AGRUPAMENTO
k-médias
Single-linkage
DBSCAN
MST (Árvore geradora mínima)

SINGLE-LINKAGE
• Agrupamento aglomerativo
• Um novo grupo é formado a cada iteração
• União dos grupos mais próximos
• Função de ligação:
• Novo grupo recebe a menor distância dos
grupos remanescentes
SINGLE-LINKAGE - MATRIZ DE SIMILARIDADE
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
A B C D E
A 0 3 7 1 9
B 3 0 5 6 2
C 7 5 0 4 5
D 1 6 4 0 8
E 9 2 5 8 0
SINGLE-LINKAGE - DENDOGRAMA
Grupos:
A-D, B, C, E
4
A D B E C
SINGLE-LINKAGE - FUNÇÃO DE LIGAÇÃO
B C E
A 3 7 9
D 6 4 8
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
B C E A-D
B 0 5 2 3
C 5 0 5 4
E 2 5 0 8
A-D 3 4 8 0
Grupos:
A-D, B-E, C
4
A D B E C
C A-D
B 5 3
E 5 8
C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
C A-D B-E
C 0 4 5
A-D 4 0 3
B-E 5 3 0
Grupos:
A-D-B-E, C
4
A D B E C
C
A-D 4
B-E 5
Grupo:
A-D-B-E-C
4
A D B E C
SEMANA 6
Análise de associação
REGRAS DE ASSOCIAÇÃO
ID Itens
1 {Leite, pão, açúcar, café, manteiga}
2 {Mamão, banana, maçã}
3 {Leite, pão}
4 {Leite, pão, manteiga, banana}
REGRAS DE ASSOCIAÇÃO
ID Leite Pão Açúcar Café Manteiga Mamão Banana Maçã
1 1 1 1 1 1 0 0 0
2 0 0 0 0 0 1 1 1
3 1 1 0 0 0 0 0 0
4 1 1 0 0 1 0 1 0
REGRAS
X→Y X implica em Y
X: antecedente, Y: consequente
{Pão} → {Leite}
{Pão ^ Café} → {Leite}
{Banana} → {Maçã} ≠ {Maçã} → {Banana}

COMPLEXIDADE
• 2 itens: 2 combinações
• 5 itens: 180 combinações
• 100 itens: 5,15 x 10⁴⁷ combinações
• 1.000 itens: 1,32 x 10⁴⁷⁷ combinações
AVALIAÇÃO - SUPORTE E CONFIANÇA
Suporte: proporção da regra sobre o total de

transações da base
Confiança: proporção da parte consequente da

regra sobre o total de ocorrências da regra
ALGORITMOS DE REGRAS DE ASSOCIAÇÃO
➢ Apriori
➢ FP-Growth
APRIORI
Duas etapas:
• Geração do conjunto de itens frequentes
• Geração das regras

GERAÇÃO DO CONJUNTO DE ITENS FREQUENTES
GERAÇÃO DAS REGRAS
{AD} B, C, E
{AD} → {B} {AD} → {C} {AD} → {E}
{AD} → {B,C} {AD} → {B,E} {AD} → {C,E}
{AD} → {B,C,E}
FP-GROWTH
ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
Fonte: Castro e Ferrari (2016)
FP-GROWTH

FP-GROWTH
ID Transações ID Transações
1 {F8,F13} 6 {F13,F22}
2 {F8,F13,F22,F3} 7 {F8,F13,F22,F3}
3 {F8,F13,F3} 8 {F8,F13,F22,F3}
4 {F22} 9 {F8,F13,F22,F3}
5 {F8,F13} 10 {F8}
FP-GROWTH

FP-GROWTH
➢ Mineração dos itens frequentes
➢ Gera as regras combinando os itens

frequentes
SEMANA 7
Detecção de anomalias
ANOMALIA
USOS DE DETECÇÃO DE ANOMALIAS
• Detecção de fraudes
• Análise de crédito
• Monitoramento de
• atividades
• Análise de imagens
Fonte: imazon.org
TIPO DE ABORDAGEM
• Não supervisionada (tipo 1)
• Supervisionada (tipo 2)
• Depende da existência de rótulos
AVALIAÇÃO
Classe predita
Anomalia Normal
FN
Anomalia VP
Classe (erro tipo 2)
original FP
Normal VN
(Alarme falso)
•Acurácia / erro
•Taxa de detecção
•Taxa de alarmes falsos
•Valor preditivo de uma anomalia (precisão)
MÉTODOS PARA DETECÇÃO DE ANOMALIAS
MÉTODOS ESTATÍSTICOS PARAMÉTRICOS
• Assumem uma distribuição conhecida dos dados
• Uso limitado
• Métodos:
• Diagrama de caixa (tipo 1)
• Teste estatístico de Grubbs (tipo 1)
• Estatística χ2 (tipo 1)
• Regressão linear (tipo 1)
MÉTODOS ESTATÍSTICOS NÃO PARAMÉTRICOS
• Não assumem uma distribuição dos dados
• Uso mais comum de forma não supervisionada
• Métodos:
• Análise de histograma (tipo 1)
• Análise de histograma (tipo 2)
MÉTODOS ALGORÍTMICOS BASEADOS EM
PROXIMIDADE
• Algoritmos:
• k-NN (tipo 1 e tipo 2)
• k-médias ou k-medoides (tipo 1 e tipo 2)
• Fator Local de Anomalia (LOF) (tipo 1)
REDES NEURAIS ARTIFICIAIS
• Redes neurais supervisionadas

• Perceptron de Múltiplas Camadas (MLP)
• Funções de Base Radial (RBF)
• Redes neurais competitivas (não supervisionadas)
• Feedforward com camada única
• Rede auto-organizada
REDE FEEDFORWARD
APRENDIZADO DE MÁQUINA
• Abordagem supervisionada (tipo 2):

• Árvores de decisão
• Regras de classificação
• Duas classes:
• Normal e anomalia
APRENDIZADO DE MÁQUINA
• Abordagem não supervisionada (tipo 1):

• Agrupamento:
• k-médias, single-linkage, DBSCAN, ...
• Regras de associação:
• Lift e convicção
• Similaridade / dissimilaridade dos objetos normais
REFERÊNCIAS
Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplicações:
Leandro Nunes de Castro e Daniel Gomes Ferrari. Editora Saraiva, 2016.
Introdução a Big Data e Internet das Coisas (IoT): Descoberta de Conhecimento

com Big Data. Izabelly Soares de Morais et al. Sagah, 2018.
[3] Big Data Statistics 2022: Facts, Market Size & Industry Growth. Jason Wise,
Earthweb:
https://earthweb.com/big-data-statistics
[4] SCHNEIDER, L. F. Aplicação do processo de descoberta de conhecimento em

dados do poder judiciário do estado do Rio Grande do Sul. 2003. 103 f.
Dissertação (Mestrado em Informática) – Universidade Federal do Rio Grande do
Sul, Porto Alegre, 2003. Disponível em:
<https://lume.ufrgs.br/handle/10183/8968>. Acesso em: 4 jan. 2019.

COM360-Slides-Videoconferencia 220705 202902

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

COM360-Slides-Videoconferencia 220705 202902

Enviado por

Direitos autorais:

Formatos disponíveis

MINERAÇÃO DE DADOS

• Semana 1: Introdução à mineração de dados e KDD

• Semana 5: Análise de agrupamento

Introdução à mineração de dados e descoberta de

Fonte: bestdesigns | Getty Images/iStockphoto

• 79 zettabytes (Zb) gerados (2021):

Fonte: EarthWeb [3]

Fonte: Schneider [4]

Fonte: Schneider [4]

Aprendizado não supervisionado Aprendizado supervisionado

Análise descritiva de dados

Métodos de classificação supervisionada

Dados são rotulados

• Probabilidade a priori das classes

• Objeto pertence à classe de maior probabilidade

Grupos (clusters): subconjuntos de objetos similares

Coesão interna X isolamento externo

MST (Árvore geradora mínima)

{Pão ^ Café} → {Leite}

{Banana} → {Maçã} ≠ {Maçã} → {Banana}

Suporte: proporção da regra sobre o total de

Confiança: proporção da parte consequente da

• Geração do conjunto de itens frequentes

• Geração das regras

{AD} → {B} {AD} → {C} {AD} → {E}

{AD} → {B,C} {AD} → {B,E} {AD} → {C,E}

Fonte: Castro e Ferrari (2016)

Fonte: Castro e Ferrari (2016)

➢ Mineração dos itens frequentes

➢ Gera as regras combinando os itens

• Redes neurais supervisionadas

• Abordagem supervisionada (tipo 2):

• Abordagem não supervisionada (tipo 1):

Introdução a Big Data e Internet das Coisas (IoT): Descoberta de Conhecimento

[4] SCHNEIDER, L. F. Aplicação do processo de descoberta de conhecimento em

Você também pode gostar