Escolar Documentos
Profissional Documentos
Cultura Documentos
Classificação de Padrões
ProfFernandoGomide DCA-FEEC-Unicamp
Conteúdo
1. Introdução
2. Teoria Bayesiana de decisão: atributos contínuos
3. Classificação com taxa de erro mínima
4. Funções de discriminação e classificadores
5. Densidade normal
6. Funções de discriminação para densidade normal
7. Teoria Bayesiana de decisão: atributos discretos
8. Redes Bayesianas
9. Resumo
ProfFernandoGomide DCA-FEEC-Unicamp
1-Introdução
Este capítulo
ProfFernandoGomide DCA-FEEC-Unicamp
Previsão próximo tipo peixe?
Assumindo
ProfFernandoGomide DCA-FEEC-Unicamp
Decidir tipo próximo peixe
Regra de decisão
ProfFernandoGomide DCA-FEEC-Unicamp
Na prática
ProfFernandoGomide DCA-FEEC-Unicamp
ProfFernandoGomide DCA-FEEC-Unicamp
Supor que conhecemos:
– P(ω1) e P(ω2)
– p(x|ω1) e p(x|ω2)
– medida de luminosidade x
ProfFernandoGomide DCA-FEEC-Unicamp
Classificação usando luminosidade como atributo
p ( ω j , x ) = P (ω j | x ) p ( x ) = p ( x | ω j ) P (ω j )
p ( x | ω j ) P (ω j )
P (ω j | x ) = Bayes
p ( x)
2
p( x) = ∑ p ( x | ω j ) P (ω j )
j =1
ProfFernandoGomide DCA-FEEC-Unicamp
P(ω1) = 2/3
P(ω2) = 1/3
ProfFernandoGomide DCA-FEEC-Unicamp
Regra de Bayes minimiza a probabilidade de erro
P (ω1 | x) se decidimos ω2
P (error | x) =
P (ω2 | x) se decidimos ω1
ProfFernandoGomide DCA-FEEC-Unicamp
– em média a probabilidade do erro é
∞ ∞
P (error ) = ∫ P(error , x)dx = ∫ P(error | x) p( x)dx
−∞ −∞
ProfFernandoGomide DCA-FEEC-Unicamp
2-Teoria Bayesiana de decisão: atributos contínuos
Generalização
ProfFernandoGomide DCA-FEEC-Unicamp
Notação
x : atributo, x ∈ Rd
Rd : espaço (Euclideano) de atributos
{ω1, ..., ωc}: conjunto (finito) de c estados (categorias)
{α1, ..., αa}: conjunto (finito) de a decisões (ações)
λ(αi, ωj): loss function = custo decisão αi quando em ωj
Regra de Bayes
p ( x | ω j ) P (ω j )
P (ω j | x ) =
p ( x)
c
p ( x) = ∑ p ( x | ω j ) P (ω j )
j =1
ProfFernandoGomide DCA-FEEC-Unicamp
– supor observação x e ação αi correspondente
c
R (α i | x ) = ∑ λ ( α i | ω j ) P ( ω j | x ) Risco condicional
i =1
ProfFernandoGomide DCA-FEEC-Unicamp
Regra (estratégia) de decisão
ProfFernandoGomide DCA-FEEC-Unicamp
Regra de Bayes
1 – calcular
c
R ( α i | x ) = ∑ λ ( α i | ω j ) P ( ω j | x ), i = 1,K, a
i =1
R* = risco de Bayes
ProfFernandoGomide DCA-FEEC-Unicamp
Exemplo com duas classes
risco condicional
ProfFernandoGomide DCA-FEEC-Unicamp
– alternativamente, em termos das probabilidades a posteriori
P (x | ω1 ) (λ12 − λ 22 ) P (ω2 )
> Razão de verosimilhança
P (x | ω2 ) (λ 21 − λ11 ) P(ω1 )
ProfFernandoGomide DCA-FEEC-Unicamp
3-Classificação com taxa de erro mínima
0 i = j
λ (α i | ω j ) = i, j = 1,K, c
1 i ≠ j
c
R (α i | x ) = ∑ λ ( α i | ω j ) P (ω j | x )
i =1
= ∑ P(ω j | x)
i≠ j
= 1 − P(ωi | x)
ProfFernandoGomide DCA-FEEC-Unicamp
Regra Bayes para taxa de erro mínima
ProfFernandoGomide DCA-FEEC-Unicamp
4-Funções discriminação e classificadores
Função discriminação
gi(x), i = 1,..., c
Exemplos:
ProfFernandoGomide DCA-FEEC-Unicamp
Estrutura funcional de classificadores estatísticos
ProfFernandoGomide DCA-FEEC-Unicamp
Propriedades
p( x | ωi ) P (ωi )
gi (x) = P (ωi | x) = c
∑ p ( x | ω j ) P (ω j )
j =1
gi (x) = p( x | ωi ) P (ωi )
gi (x) = ln p (x | ωi ) + ln P(ωi )
ProfFernandoGomide DCA-FEEC-Unicamp
– formas funções diferentes, mas regras de decisão equivalentes
– efeito: dividir o espaço de atributos em c regiões distintas
se gi(x) > gi(x) ∀ j ≠ i então x ∈ R i
– Ri∩ Rj = ∅
– R 1 ,..., R c formam uma partição do espaço de atributos
ProfFernandoGomide DCA-FEEC-Unicamp
– exemplo: duas categorias (classes)
atribuir ω1 a x se g1(x) > g2(x) ∀ j ≠ i
g (x) = g1(x) – g2(x)
atribuir ω1 a x se g(x) > 0 (***)
p (x | ω1 ) P(ω1)
g (x) = ln + ln (**)
p (x | ω2 ) P(ω2 )
ProfFernandoGomide DCA-FEEC-Unicamp
5-Densidade normal
1 1 t −1
p ( x) = exp −
2 ( x − µ ) Σ ( x − µ )
(2π)d / 2 | Σ |1/ 2
∞
µ = E[x] = ∫ x p(x)dx , µi = E[ xi ]
−∞
∞
Σ = E[(x − µ)(x − µ) ] = t
∫ ( x − µ )( x − µ ) t
p (x)dx
−∞
[ ]
Σ = σij , σij = E[( xi − µi )( x j − µ j )], Σ > 0
ProfFernandoGomide DCA-FEEC-Unicamp
( x − µ)t Σ −1( x − µ) = cte
ProfFernandoGomide DCA-FEEC-Unicamp
λ2
γ1
γ2
µ
λ1
(x − µ)t Σ −1(x − µ) = 1
ProfFernandoGomide DCA-FEEC-Unicamp
Transformações lineares
ProfFernandoGomide DCA-FEEC-Unicamp
ProfFernandoGomide DCA-FEEC-Unicamp
Observações
ProfFernandoGomide DCA-FEEC-Unicamp
6-Funções discriminação p/ densidade normal
gi (x) = ln p (x | ωi ) + ln P (ωi )
p (x | ωi ) ~ N (µi , Σi )
1 d 1
gi (x) = − (x − µ)t Σ −1 (x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2 2 2
Caso 1: ∑i = σ2I
2
x − µi
g i ( x) = − + ln P (ωi )
2σ 2
1
g i ( x) = − [ x t
x − 2µ t
x + µ i µ i ] + ln P (ωi )
t
2σ 2
1 −1
wi = µ ,
2 i
wio = µ t
2 i i
µ + ln P(ωi )
σ 2σ
w t (x − xo ) = 0 Hiperplano separa R i e R j
passa por xo e é ortogonal
w = µi − µ j à reta que une as médias
1 σ2 P(ωi )
xo = (µi + µ j ) − 2
ln (µ i − µ j )
2 µi − µ j P (ω j )
1
P (ωi ) = P (ω j ) ⇒ xo = (µi + µ j )
2
P(ωi) ≠ P(ωj)
2
g i ( x) = x − µ i Classificador distância mínima
Caso 2: ∑i = ∑
independente de i
1 d 1
gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2 2 2
1
gi (x) = − ( x − µ)t Σ −1( x − µ) + ln P (ωi )
2
1
gi (x) = (x − µ)t Σ −1( x − µ) Classificador distância (Mahalanobis) mínima
2
1 d 1
gi (x) = − (x − µ)t Σ −1 (x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2 2 2
1
w i = Σ −1µi wio = − µti Σ −1µi + ln P(ωi )
2
se R i e R j são contíguas, a superfície de decisão é um hiperplano
w t (x − xo ) = 0
w = Σ −1 (µi − µ j )
1 ln[ P (ωi ) / P (ω j )]
xo = (µi + µ j ) − t −1
(µi − µ j )
2 (µi − µ j ) Σ (µi − µ j )
1 d 1
gi (x) = − ( x − µ)t Σ −1( x − µ) − ln 2π − ln | Σi | + ln P(ωi )
2 2 2
expandindo
1
Wi = − Σi−1 w i = Σi−1µi
2
1 1
wio = − µti Σi−1µi − ln | Σi−1 | + ln P (ωi )
2 2
– caso com duas classes
– superfícies de decisão são hiperquadráticas
• hiperplanos
• hiperesferas
• hiperelipsóides
• hiperparabolóides
– regiões (decisão) não necessariamente conectadas
Quatro classes
Exemplo: região de decisão, dados Gaussianos
x2
3 1 / 2 0
10 µ1 = Σ1 =
8
6 0 2
µ1
6 3 2 0
µ2 = Σ2 =
4 − 2 0 2
2
P(ω1) = P(ω2 ) = 0.5
-2 2 4 6 8 10 x1
-2 µ2 g1 (x) = xt W1x + w1t x + w10
g1 (x) = g 2 (x)
x2
10
-2 2 4 6 8 10 x1
-2 µ2
7-Teoria Bayesiana de decisão: atributos discretos
P ( x | ω j ) P (ω j )
P (ω j | x ) = Regra de Bayes
P ( x)
c
P ( x) = ∑ P ( x | ω j ) P (ω j )
j =1
Funções de discriminação
P( x | ωi ) P(ωi )
gi (x) = P (ωi | x) = c
∑ P ( x | ω j ) P (ω j )
j =1
gi (x) = P (x | ωi ) P (ωi )
gi (x) = ln P (x | ωi ) + ln P(ωi )
Exemplo: atributos binários independentes
x = ( x1,K, xd )t , xi ∈{0,1}
pi = Pr[ xi = 1 | ω1 )
qi = Pr[ xi = 1 | ω2 )
d
P(x | ω1 ) = ∏ pixi (1 − pi )1− xi
i =1
d
P(x | ω2 ) = ∏ qixi (1 − qi )1− xi
i =1
– Razão de verosimilhança
xi 1− xi
P (x | ω1 ) d pi 1 − pi
= ∏
P (x | ω2 ) i =1 qi 1 − qi
P ( x | ω1 ) P (ω1 )
g (x) = ln + ln (**)
P ( x | ω2 ) P (ω2 )
d p 1 − pi P (ω1)
g (x) = ∑ xi ln i + (1 − xi ) ln + ln Linear em xi
i =1 qi 1 − qi P (ω2 )
d
g (x) = ∑ wi xi + w0
i =1
pi (1 − qi )
wi = ln , i = 1,K, d
qi (1 − pi )
d (1 − qi ) P (ω1 )
w0 = ∑ ln + ln
i =1 (1 − pi ) P (ω2 )
pi (1 − qi ) 0.8(1 − 0.5)
wi = ln , i = 1,K, d wi = ln = 1.3863 i = 1,K,3
qi (1 − pi ) 0.5(1 − 0.8)
0 0
1 1
1 1
x2 x2
0 0
0 1 0 1
x1 x1
– parâmetros de distribuições
– dependência/independência estatística
– relações causais entre variáveis
Redes Bayesianas
arco
nó
P(d|a,c) D C P(c|b)
pai
E P(e|d)
filho
P(x1|ai,bj) P(x2|ai,bj)
a1, b1 0.5 0.5
a1, b2 0.7 0.3
a2, b1 0.6 0.4 X x1 = salmon
P(x|a,b) a2, b2 0.8 0.2 fish x2 = sea bass
a3, b1 0.4 0.6
a3, b2 0.1 0.9
a4, b1 0.2 0.8
a4, b2 0.3 0.7
P(c|x) P(d|x)
P(c1|xk) P(c1|xk) P(c1|xk) P(d1|xk) P(d2|xk)
c1 = light C D d1 = wide
x1 0.6 0.2 0.2 c2 = medium x1 0.3 0.7
c3 = dark light tick d2 = thin
x2 0.6 0.4
x2 0.2 0.3 0.5
P(a3 , b1, x2 , c3 , d 2 ) = P(a3 ) P (b1 ) P( x2 | a3 , b1 ) P(c3 | x2 ) P(d 2 | x2 ) = 0.25 × 0.6 × 0.4 × 0.5 × 0.4 = 0.012
Redes Bayesianas formalmente
– grafo acíclico
– nó: variável aleatória (atributo)
– arco: efeito, causa (A afeta B → B condicionado a A)
– cada nó condicionalmente independente dos não descendentes
– representa probabilidade conjunta das variáveis
x1 x2
P(xi|x1,x2)
x3 xi n
P( x1,K, xn ) = ∏ P( xi | PaiDe( xi ))
i =1
xj
xn
Exemplo
P(b)
P(c)
P(d)
– em geral: dados os valores de algumas variáveis (evidência: e)
qual é o valor de uma configuração das outras variáveis (x) ?
P(x, e)
P ( x | e) = = αP (x, e)
P(e)
P(b1 | a2 , x1, c1 ) ?
Em classificação (erro mínimo): salmon or sea bass ?
– sabe-se que
• peixe é claro (c1)
• origem é Atlântico Norte (b2)
– não se sabe:
• estação do ano
• espessura
– problema de classificação:
P( x1 | c1, b2 ) ?
P( x2 | c1, b2 ) ?
P( x1, c1, b2 )
P( x1 | c1, b2 ) = = α ∑ P( x1, a, b2 , c1, d)
P (c1, b2 ) a,d
= αP(b2 ) P(c1 | x1 ) ∑ P (a) P( x1 | a, b2 ) ∑ P(d | x1 )
a d
= αP(b2 ) P(c1 | x1 )
× [ P(a1 ) P( x1 | a1, b2 ) + P(a2 ) P( x1 | a2 , b2 )
+ P (a3 ) P ( x1 | a3 , b2 ) + P (a4 ) P( x1 | a4 , b2 )]
× [ P(d1 | x1 ) + P (d 2 | x1 )]
=1
P( x1 | c1, b2 ) = α(0.4)(0.6)[(0.25)(0.7) + (025)(0.8)
+ (0.25)(0.1) + (0.25)(0.3)]1.0
P( x1 | c1, b2 ) = α 0.114
P( x2 | c1, b2 ) = α 0.066
classificação: salmon !
Naive Bayes
P ( x | a, b ) = P ( x | a ) P ( x | b )
9-Resumo
Teoria Bayesiana de decisão é simples
Regras de decisão
– minimizar risco: ação que minimiza risco condicional
– minimizar Pr[erro]: estado que maximiza densidade a posteriori P(ωj |x)
Superfícies decisão hiperquadráticas no caso Gaussiano
Redes: relações dependência/independência entre variáveis
Observação
ProfFernandoGomide DCA-FEEC-Unicamp