Escolar Documentos
Profissional Documentos
Cultura Documentos
DISCRIMINANTE
LIG, 11 de novembro de 2008
Classificação em uma de duas populações
p 21 f ( x)d x
R2
1
Custo de classificação
incorreta
Similarmente, a probabilidade
condicional, p12, de classificar p12 f 2 ( x)d x
um objeto de 2 em 1 é: R1
1 0 C21
2 C12 0
f1 ( x ) 2
R2 :
f 2 ( x) 1
Probabilidade a posteriori de classificação incorreta
1P(observar x 0 | 1 ) f (x )
P( 1 | x 0 ) 1 f1 ( x10 )1 20f 2 ( x0 ) e
P(observar x 0 )
2 P(observar x 0 | 2 ) f (x )
P( 2 | x 0 ) 1 f1 ( x20 )2 20f 2 ( x 0 )
P(observar x 0 )
f1 ( x) 1
exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 )
f 2 ( x) 2
Populações normais, covariâncias
iguais
R1 :
f1 ( x) 1
C
exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 ) 12 2
f 2 ( x) 2 C211
R1 :
f1 ( x) 1
C
exp- ( x 1 )T 1 ( x 1 ) ( x 2 )T 1 ( x 2 ) 12 2
f 2 ( x) 2 C211
Populações normais, covariâncias iguais
Obs. de 25 5 30
1
Obs. de 8 22 30
2
Total 32 27 60
Duas populações normais,
covariâncias desiguais
-1/2
f1 ( x) 1 1
exp - ( x )T 11 ( x ) ( x )T 21 ( x )
f 2 ( x) 2 2 1 1 2 2
1 1 1
R1 : ln
T 1 T 1
C12 2
( x 1 ) 1 ( x 1 ) ( x 2 ) 2 ( x 2 ) ln
2 2 2 C211
Covariâncias desiguais
Rearrumando os termos da equação anterior, obtém-se:
R1 :
1 T 1
x 0 1 21 x 0 ( T 1-1 T -21 ) x 0 k ln
C12 2
C 211
1 2
2
1 1
com k ln 1 2
T -1 T -1
2 2 1 1 2 2
1 T 1 1
ˆ C12 2
R1 : x 0 S1 S 2 x 0 ( x1 S1 x2 S 2 ) x 0 k ln
T -1 T -1
2 C 211
ˆ 1 S1
com k ln x1 1 x1 x2 2 x2
T -1 T -1
2 S 2
Comentários
Obs. de 31 19 50
1
Obs. de 8 42 50
2
Total 39 61 100
Exemplo: continuação
Comparando com o resultado via lda.
Alocada Alocada Total
em 1 em 2
Obs. de 32 18 50
1
Obs. de 11 39 50
2
Total 43 57 100
Avaliação das funções de classificação
Uma forma de julgar a performance de qualquer procedimento é
calcular suas “taxas de erro”, ou probabilidades de classificação
incorreta.
Quando as formas das distribuições populacionais são
conhecidas, as probabilidades de classificação incorreta podem
ser calculadas com certa facilidade.
Como as formas de tais distribuições são raramente conhecidas,
vamos nos concentrar nas taxas de erro associadas à função de
classificação.
Uma vez que a função de classificação é construída, uma medida
de sua performance em amostras futuras será de interesse.
Vimos que a probabilidade total de classificação incorreta é dada
por PTCI= 1 p21 + 2 p 12 .
O menor valor desta probabilidade, obtido por uma escolha
criteriosa de R1 e R2 é chamado Taxa de Erro Ótima (TEO).
TEO min {R1 , R2 } 1 f1 ( x)d x 2 f 2 ( x)d x
R2 R1
Exemplo:
Suponha num dado problema de classificação que as
duas populações sejam normais com covariâncias
iguais e médias μ1 e μ2.
Além disso, suponha probabilidades de incidência a
priori iguais e custos de classificação incorreta iguais.
Neste caso, a regra da PTCI mínima é alocar x0 à 1
se
1
R1 : ( )T 1 x 0 ( )T 1 ( ) 0.
1 2 2 1 2 1 2
1 T
R1 : Y a (1 2 )
2
Exemplo: continuação
Se, de fato, os dados são normais, teremos que
Y | 1 ~ N 1Y , Y2 e Y | 2 ~ N 2Y , Y2 com
1Y a T 1 , 2Y a T 2 e Y2 a T a 2
p12 p21
2Y 2 2 1Y
2 2
Comentários
Em geral, os parâmetros μ1, μ2 e são desconhecidos e
devem ser estimados.
Neste caso a avaliação da taxa de erro não é imediata.
A performance das funções de classificação amostrais pode,
em princípio, ser avaliada calculando-se a Taxa de Erro Real
(TER) definida por
TER 1 f1 ( x)d x 2 f 2 ( x)d x
Rˆ 2 Rˆ1
n1m n2 m
TEA
n1 n2
Comentários
A TEA é uma medida intuitiva e fácil de calcular. Porém,
ela tende a subestimar a “TER” e este problema persiste
a não ser que n1 e n2 e sejam muito grandes.
Essencialmente, esta estimativa otimista ocorre porque
os dados usados para construir a função de
classificação são também usados para avaliá-la.
Estimativas de taxas de erro melhores que a TEA
podem ser construídas mantendo-se uma relativa
facilidade de cálculo e não exigindo suposições sobre a
forma das distribuições populacionais.
Comentários
Um procedimento é dividir a amostra total em uma amostra de
treinamento e uma amostra de validação.
A taxa de erro é determinada pela proporção de itens classificados
incorretamente na amostra de validação.
Apesar deste método superar o problema do viés de estimação por
não usar os mesmos dados usados na construção da função de
classificação ele apresenta duas desvantagens, a saber,
1. requer grandes amostras;
2. a função avaliada não é a função de interesse. (No final, quase toda
observação deve ser usada para construir a função de
classificação. Caso contrário, pode-se estar perdendo informação.)
Outra abordagem
Uma segunda abordagem que parece funcionar bem é chamada
procedimento “holdout” (deixar de fora) de Lachenbruch (1968) que
equivale a um tipo de validação cruzada:
1. Comece com as observações de 1. Omita uma observação deste
grupo e desenvolva uma função de classificação baseada nas n1
+ n2 -1 observações restantes.
2. Classifique a observação deixada de fora usando a função obtida
em 1.
3. Repita os passos 1 e 2 até que todas as observações de 1 sejam
classificadas.
4. Repita os passos 1, 2 e 3 para as observações 2.
Outra abordagem
Sejam n1M(H) - o número de observações deixadas de fora em 1
classificadas incorretamente, e
n2M(H) - o número de observações deixadas de fora em 2
classificadas incorretamente.
As estimativas das probabilidades de classificação incorreta são
dadas por: