Escolar Documentos
Profissional Documentos
Cultura Documentos
CLASSIFICADORES
ELEMENTARES -II
Estimando a densidade
2
1
27/02/2018
Estimando a densidade
3
Histogramas
Métodomais antigo e simples para estimar a
densidade
Depende da origem e da largura (h) usada para os
intervalos
h controla a granularidade
Estimando a densidade
4
Se h é largo
Maior confiança na probabilidade no intervalo
baseada em um número maior de amostras
Detalhes da distribuição podem ser perdidos
Se h é estreito
Preserva-se a estrutura fina (detalhes) da distribuição
Menor confiabilidade (menos amostras por intervalo)
2
27/02/2018
Estimando a densidade
5
Histogramas
Raramenteusados em espaços com mais de
uma dimensão
1 dimensão: N intervalos
2 dimensões: N2 intervalos
p dimensões: Np intervalos
Estimando a densidade
6
3
27/02/2018
Estimando a densidade
7
Estimando a densidade
8
Como 𝑃 𝑥 = 𝑝 𝑥 ∗ 𝑉 então
𝑘
𝑛
𝑝 𝑥 ≈
𝑉
4
27/02/2018
Estimando a densidade
9
Janela de Parzen
10
5
27/02/2018
Janela de Parzen
11
Janela de Parzen
12
𝑘
𝑛
𝑝 𝑥 ≈
𝑉
6
27/02/2018
Janela de Parzen
13
Janela de Parzen
14
Kernel φ(u)
Uniforme ½ * I(|u|< 1)
Triangular (1-|u|) * I(|u|< 1)
Epanechnikov ¾*(1 – u2)2 * I(|u|< 1)
Quadrático 15/16 * (1 – u2)2 * I(|u|< 1)
Triweight 35/32 * (1 – u2)3 * I(|u|< 1)
Cosseno π/4 * cos(π/2 * u) * I(|u|< 1)
7
27/02/2018
Janela de Parzen
15
Aprendizado baseado em
16
instâncias
Também conhecido como aprendizado
baseado em memória
Algoritmosque comparam novas instâncias do
problema com instâncias vistas no treinamento
Evitam generalização explícita
8
27/02/2018
Aprendizado baseado em
17
instâncias
Lazy learning ou aprendizado preguiçoso
Método de aprendizagem em que a
generalização além dos dados de treinamento é
adiada até que uma consulta seja feita ao
sistema
Diferente da aprendizagem ansiosa (eager
learning)
Sistematenta generalizar os dados de treinamento
antes de receber uma consulta
Aprendizado baseado em
18
instâncias
Vantagens
Capacidade de adaptar seu modelo a dados
nunca vistos
São úteis para grandes conjuntos de dados que
possuem poucos atributos cada
9
27/02/2018
Aprendizado baseado em
19
instâncias
Desvantagens
O custo de classificação de uma nova instância é
alto
Necessita de grande espaço para armazenar
todo o conjunto de dados de treinamento
São geralmente mais lentos para avaliar
Algoritmo K-NN
20
10
27/02/2018
Algoritmo K-NN
21
Algoritmo K-NN
22
Idéia básica
Usa as k instâncias mais similares (vizinhos mais
próximos) para classificar
Contagem de votos
Se anda como um pato, “quacks” como um pato,
então provavelmente é um pato
11
27/02/2018
Algoritmo K-NN
23
Algoritmo K-NN
24
12
27/02/2018
Algoritmo K-NN
25
Dados
armazenados
At1 ... AtN Class
e
1
2
Amostra
1 desconhecida
3 At1 ... AtN
1
3
2
Algoritmo K-NN
26
13
27/02/2018
Algoritmo K-NN
27
Algoritmo K-NN
28
14
27/02/2018
Algoritmo K-NN
29
Algoritmo K-NN
30
15
27/02/2018
Algoritmo K-NN
31
Algoritmo K-NN
32
16
27/02/2018
Algoritmo K-NN
33
Vantagens
Simples de implementar
Não requer uma etapa de treinamento
Algoritmo K-NN
34
Desvantagens
Custo computacional e de armazenamento alto
para conjuntos de dados grandes ou com muitos
atributos
A constante k usada para definir o número de
vizinhos é obtida por tentativa e erro
Sua precisão pode ser severamente degradada
pela presença de ruído ou atributos irrelevantes
17
27/02/2018
Algoritmo K-NN
35
Algoritmo K-NN
36
18
27/02/2018
Algoritmo K-NN
37
Algoritmo K-NN
38
19
27/02/2018
Algoritmo K-NN
39
Algoritmo K-NN
40
20
27/02/2018
Algoritmo K-NN
41
Algoritmo K-NN
42
21
27/02/2018
Algoritmo 1-NN
43
22
27/02/2018
zscore Centroides
23
27/02/2018
Atributos As superfícies de
correlacionados decisão podem ser
não-lineares
24
27/02/2018
Maldição da dimensionalidade
50
25
27/02/2018
Maldição da dimensionalidade
51
Maldição da dimensionalidade
52
26
27/02/2018
Maldição da dimensionalidade
53
Maldição da dimensionalidade
54
27
27/02/2018
Maldição da dimensionalidade
55
Overfitting
56
28
27/02/2018
Overfitting
57
Overfitting
58
29
27/02/2018
Overfitting
59
Simplicidade é a resposta
Ajuda a proteger contra overfitting
É preferível um classificador que erre os dados
estranhos no pressuposto de que eles são, de fato,
estranhos e sem valor preditivo.
Overfitting
60
Simplicidade é a resposta
Navalha de Occam
"Seem tudo o mais forem idênticas as várias
explicações de um fenômeno, a mais simples é a
melhor“ - William de Ockham (século XIV)
30
27/02/2018
Overfitting
61
Overfitting
62
31
27/02/2018
Overfitting
63
Overfitting
64
32
27/02/2018
Overfitting
65
Agradecimentos
66
33