Escolar Documentos
Profissional Documentos
Cultura Documentos
CLASSIFICADORES
BAEYSIANOS
Teorema de Bayes
2
1
27/02/2018
Teorema de Bayes
3
Teorema de Bayes
4
Probabilidade a priori
Probabilidade dada sem conhecimento de
qualquer outro evento
Probabilidade de tirar um número par num dado: 1/2
Probabilidade a posteriori
É a probabilidade condicional que é atribuída
quando um evento relevante é considerado
Ao lançarmos um dado N vezes, teremos a posteriori
que a distribuição dos valores tendem ao previsto a
priori
2
27/02/2018
Teorema de Bayes
5
Teorema de Bayes
6
Exemplo
Um médico sabe que a meningite causa torcicolo
50% das vezes
Probabilidade a priori de qualquer paciente ter
meningite: 1/50000
Probabilidade a priori de qualquer paciente ter rigidez
de nuca: 1/20
Se um paciente tem rigidez de nuca (evidência),
qual é a probabilidade a posteriori de ele ter
meningite?
3
27/02/2018
Teorema de Bayes
7
Exemplo
Dado
M: meningite
R: rigidez no pescoço
𝑃 𝑅𝑀 𝑃 𝑀 0,5 ∗ 1/50000
𝑃 𝑀𝑅 = =
𝑃 𝑅 1/20
= 0,0002 = 0,02%
Teorema de Bayes
8
Notações básicas
x: vetor atributo, x ∈Rd
Rd: espaço (Euclidiano) de atributos
4
27/02/2018
Teorema de Bayes
9
Teorema de Bayes
10
5
27/02/2018
Classificação Bayesiana
11
Problema:
Como estimar P(ci|x) ?
Não conheço a classe que contém x
Porém eu conheço como se comportam os dados da
classe ci
Classificação Bayesiana
12
Teorema de Bayes
𝑃 𝑐𝑖 𝑃 𝑥 𝑐𝑖
𝑃 𝑐𝑖 𝑥 =
𝑃 𝑥
𝑃 𝑥 = 𝑃 𝑐𝑖 𝑃 𝑥 𝑐𝑖
𝑖
Dado um vetor x, P(x) é constante. A classe pode
ser escolhida maximizando
A probabilidade à posteriori
A verossimilhança
6
27/02/2018
Classificador de máximo à
13
posteriori
Do inglês maximum a posteriori (MAP)
Busca maximizar a probabilidade 𝑃 𝑐𝑖 |𝑥
Ignora 𝑃 𝑥
Valoré constante
Simplificação dos cálculos
Classificador de máximo à
14
posteriori
Como calcular?
Simplificamos o classificador MAP (maximum a
posteriori) para
𝑃 𝑐𝑖 𝑃 𝑥 𝑐𝑖
𝑃 𝑐𝑖 𝑥 = ∝ 𝑃 𝑐𝑖 𝑃 𝑥 𝑐𝑖
𝑃 𝑥
7
27/02/2018
Classificador de máxima
15
verossimilhança
Do inglês Maximum Likelihood (ML)
Intuitivamente verdadeiro
A priori, podemos admitir que todas as classes
são equiprováveis (mesma probabilidade de
ocorrerem)
Para um dado x, a classe mais provável é a que
com maior probabilidade gera esse dado!
Classificador de máxima
16
verossimilhança
Como calcular?
Simplificamos o classificador ML (maximum
likelihood) para
𝑃 𝑐𝑖 𝑃 𝑥 𝑐𝑖
𝑃 𝑐𝑖 𝑥 = ∝ 𝑃 𝑥 𝑐𝑖
𝑃 𝑥
8
27/02/2018
Estimação paramétrica
Podemos assumir que P(x|ci) tem uma
distribuição “conhecida”
Gaussiana
Uniforme
etc.
9
27/02/2018
Estimação não-paramétrica
Temosque calcular P(x|ci) diretamente a partir
dos dados de treinamento
Calcular
as probabilidades individuais para cada
combinação de valores discretos
Exemplo de Classificação
20
10
27/02/2018
Exemplo de Classificação
21
Exemplo de Classificação
22
11
27/02/2018
Exemplo de Classificação
23
12
27/02/2018
13
27/02/2018
Independência condicional
P(x(1),...,x(p)|ci) = P(x(1)|ci)* P(x(2)|ci)* ... * P(x(p)|ci)
𝑝
𝑃 𝑐𝑖 𝑗=1 𝑃 𝑥 𝑗 𝑐𝑖
𝑃 𝑐𝑖 𝑥 1 , … , 𝑥(𝑝) = 𝑝
𝑗=1 𝑃(𝑥 𝑗 )
14
27/02/2018
15
27/02/2018
Exemplo de Classificação
31
Tempo Temperatura Umidade Vento Jogo
Sim Não Sim Não Sim Não Sim Não Sim Não
Chuva 2 2 Frio 3 1
Sol 2/9 3/5 Quente 2/9 2/5 Alta 3/9 4/5 Não 6/9 2/5 9/14 5/14
Nublado 5/9 0/5 Suave 4/9 2/5 Normal 6/9 1/5 Sim 3/9 3/5
Exemplo de Classificação
32
Sim Não Sim Não Sim Não Sim Não Sim Não
Chuva 2 2 Frio 3 1
Sol 2/9 3/5 Quente 2/9 2/5 Alta 3/9 4/5 Não 6/9 2/5 9/14 5/14
Nublado 5/9 0/5 Suave 4/9 2/5 Normal 6/9 1/5 Sim 3/9 3/5
16
27/02/2018
Exemplo de Classificação
33
Sim Não Sim Não Sim Não Sim Não Sim Não
Chuva 2 2 Frio 3 1
Sol 2/9 3/5 Quente 2/9 2/5 Alta 3/9 4/5 Não 6/9 2/5 9/14 5/14
Nublado 5/9 0/5 Suave 4/9 2/5 Normal 6/9 1/5 Sim 3/9 3/5
17
27/02/2018
18
27/02/2018
19
27/02/2018
Valores ausentes
39
No treinamento
Devemos excluir a amostra do conjunto de
treinamento
Na classificação
Devemos considerar apenas os demais atributos da
amostra
Valores ausentes
40
Sim Não Sim Não Sim Não Sim Não Sim Não
Chuva 2 2 Frio 3 1
Sol 2/9 3/5 Quente 2/9 2/5 Alta 3/9 4/5 Não 6/9 2/5 9/14 5/14
Nublado 5/9 0/5 Suave 4/9 2/5 Normal 6/9 1/5 Sim 3/9 3/5
20
27/02/2018
Alternativa 1
Discretizar os dados
Muita informação pode vir a ser perdida
1 − 𝑥−𝜇 2
𝑓 𝑥 = 𝑒 2𝜎2
2𝜋𝜎 2
21
27/02/2018
22
27/02/2018
Sim Não Sim Não Sim Não Sim Não Sim Não
Sol 2 3 64, 68, 65, 71, 65, 70, 70, 85, Não 6 2 9 5
Nublado 4 0 69, 70, 72, 80, 70, 75, 90, 91, Sim 3 3
Nublado 4/9 0/5 σ= 6,2 σ= 7,9 σ= 10,2 σ= 9,7 Sim 3/9 3/5
− 66−73 2
1
𝑓 𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 66, jogo = s𝑖𝑚 = 𝑒 2(6,2)2
2𝜋(6,2)2
𝑓 𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 = 66, jogo = s𝑖𝑚 = 0,0340
23
27/02/2018
24
27/02/2018
Wrapper
Processo de seleção de atributos via algoritmo
guloso
Esse processo de seleção atua junto com o naive
Bayes
Funcionamento
Para um único atributo, seleciona o melhor
classificador naive Bayes
Avalia todos os atributos em um conjunto de dados de
teste
25
27/02/2018
Funcionamento
Enquanto houver melhora no desempenho do
classificador, faça
Selecione o melhor classificador naive Bayes com os
atributos já selecionados anteriormente adicionados a
um dentre os atributos ainda não selecionados
26
27/02/2018
Redes Bayesianas
53
Redes Bayesianas
54
Definição formal
Grafo acíclico
nó: variável aleatória
(atributo)
Vértice (ou arco): efeito,
causa
A afeta B→B condicionado a A
Cada nó condicionalmente
independente dos não
descendentes
Representa probabilidade
conjunta das variáveis
27
27/02/2018
Redes Bayesianas
55
Redes Bayesianas
56
28
27/02/2018
Redes Bayesianas
57
Redes Bayesianas
58
29
27/02/2018
Redes Bayesianas
59
Funções Discriminantes
60
30
27/02/2018
Funções Discriminantes
61
Funções Discriminantes
62
31
27/02/2018
Funções Discriminantes
63
1 1
𝑥−𝜇𝑖 𝑇 Σ−1
𝑓 𝑥 = 𝑝/2 1/2
𝑒 −2 𝑖 𝑥−𝜇𝑖
2𝜋 Σ𝑖
Funções Discriminantes
64
𝑝 𝑐𝑖 𝑥 = 𝑝 𝑥 𝑐𝑖 𝑃 𝑐𝑖
1 1 1
−2 𝑥−𝜇𝑖 𝑇 Σ−1 𝑥−𝜇𝑖
𝑝 𝑐𝑖 𝑥 = 𝑒 𝑖 . 𝑃(𝑐𝑖 )
2𝜋 𝑝/2 Σ𝑖 1/2
1 1
𝑝 𝑐𝑖 𝑥 = − ln Σ𝑖 − 𝑥 − 𝜇𝑖 𝑇 Σ𝑖−1 𝑥 − 𝜇𝑖 + ln 𝑃(𝑐𝑖 )
2 2
𝑝 𝑐𝑖 𝑥 = ln Σ𝑖 + 𝑥 − 𝜇𝑖 𝑇 Σ𝑖−1 𝑥 − 𝜇𝑖 − 2 ln 𝑃(𝑐𝑖 )
32
27/02/2018
Funções Discriminantes
65
𝑝 𝑐𝑖 𝑥 = ln Σi + 𝑥 − 𝜇𝑖 𝑇 Σ𝑖−1 𝑥 − 𝜇𝑖 − 2 ln 𝑃 𝑐𝑖
Funções Discriminantes
66
Naive Bayes
Hipótese de independência entre atributos
Matriz de covariâncias: diagonal principal
(variância de cada atributo)
normalização dos dados por score-z
𝑇 −1
𝑝 𝑐𝑖 𝑥 = ln Σi + 𝑥 − 𝜇𝑖 Σ𝑖 𝑥 − 𝜇𝑖 − 2 ln 𝑃 𝑐𝑖
33
27/02/2018
Funções Discriminantes
67
𝑇 −1
𝑝 𝑐𝑖 𝑥 = ln Σ𝑖 + 𝑥 − 𝜇𝑖 Σ𝑖 𝑥 − 𝜇𝑖 − 2 ln 𝑃 𝑐𝑖
𝑇 −1
𝑝 𝑐𝑖 𝑥 = 𝑥 − 𝜇𝑖 Σ 𝑥 − 𝜇𝑖 − 2 ln 𝑃 𝑐𝑖
Funções Discriminantes
68
LDA: funcionamento
Para um problema linearmente separável,
rotaciona os dados de modo a maximizar a
distância entre as classes e minimizar a
distância intra-classe
Melhor direção capaz de separar os dados
projetados
Transformação linear que maximiza a distância
entreclasses e minimiza a distância intra-classe
34
27/02/2018
Funções Discriminantes
69
LDA: funcionamento
Funções Discriminantes
70
𝑇 −1
𝑝 𝑐𝑖 𝑥 = ln Σ𝑖 + 𝑥 − 𝜇𝑖 Σ𝑖 𝑥 − 𝜇𝑖 − 2 ln 𝑃 𝑐𝑖
35
27/02/2018
Superfícies de Decisão
71
Superfícies de Decisão
72
36
27/02/2018
Superfícies de Decisão
73
Superfícies de Decisão
74
2 classes 4 classes
37