Analisis Discriminante

discrim_predictivo.
doc
12/01/2015
vgg
ANLISIS DISCRIMINANTE (AD)

Regresin con respuesta categrica Y
Cmo depende
Y
de las variables X1, X2, ... Xp ?
cualitativa
cuantitativas
1 Planteamiento Predictivo del AD:

Cmo predecir Y a partir de los valores observados X1, X2, ... Xp ?
2 Planteamiento Descriptivo del AD:
Y determina k grupos, a caracterizar en trminos de X1, X2, ... Xp
Qu variables cambian ms a travs de los grupos?
Qu caractersticas tiene cada grupo?
INTRODUCCIN
Ejemplo1: Caracterizacin de especies.

Mediante la longitud y anchura de ptalos y spalos vables cuantitativas X1, X2, X3 y X4-.
Cmo distinguir (discriminar) tres especies de Iris (Setosa, Versicolor y Virginica) -vble Y-?
Ejemplo2: Diagnstico automtico.
Por los resultados de diferentes pruebas diagnsticas -vables cuantitativas X1XpCmo reconocer una enfermedad distinguindola de otras similares -vble Y- ?
Ejemplo3: Reconocimiento de formas o textos.
A partir de diferentes medidas - vables cuantitativas X1Xp- de una imagen capturada
Cmo identificar una pieza (reconocimiento de formas) o una letra (rec. de textos) -vble Y-?
Cmo identifica google a una persona (reconocimiento de imagen) en una fotografa?
Ejemplo 4: Valoracin de riesgos .
Una entidad financiera desea valorar el riesgo de una posible operacin crediticia personal
catalogndola como muy segura, segura, normal, algo insegura o muy insegura -vble Y-.
Para ello dispone de informacin sobre el cliente, relativa a otras operaciones realizadas
con la entidad, declaraciones de renta y patrimonio, etc -vables X1XpEjemplo 5: Control de fraude fiscal .
La Agencia Tributaria va a revisar declaciones de renta sospechosas de fraude.
Para seleccionarlas utiliza las declaraciones de los ltimos aos - vables X1Xp- y los
resultados de las inspecciones realizadas en ejercicios anteriores correcta, fraude leve,
fraude grave, fraude muy grave-.
discrim_predictivo.doc
12/01/2015
vgg
1.1 Anlisis Discriminante / Plantemiento Predictivo

Objetivo: Asignar grupo a nuevos individuos.
Observamos las variables Xi

o en varios individuos de cada grupo (observaciones de calibracin)
o y en otros individuos sin catalogar (observaciones a asignar).
Un nuevo individuo del cual slo conocemos los valores Xi debe asignarse a un grupo.
o desconocemos a qu grupo pertenece
o tomamos una decisin basndonos en la informacin que proporcionan las
denominadas observaciones de calibracin o aprendizaje (individuos para los
que conocemos tanto los valores Xi como el grupo al que pertenecen).
1.2 Anlisis Discriminante / Plantemiento Descriptivo

Objetivo: Caracterizar los grupos En qu difieren?
Variables originales: detectamos las variables Xi de ms poder discriminante, aquellas

que mejor diferencian los grupos.
Variables artificiales (Anlisis Discriminante Factorial): Buscamos aquellas

combinaciones lineales de las Xi que mejor recogen las diferencias entre grupos. Las
interpretamos y las utilizamos para representar grficamente los grupos, detectando
caractersticas ms complejas que los diferencian.
1.3 Datos en AD:
1.4 Anlisis Discriminante y Clasificacin

En AD los grupos estn definidos y se conocen para las observaciones de calibracin; se
estudian sus caractersticas y se asigna grupo a nuevos individuos.
En Clasificacin Automtica, por el contrario, los posibles grupos no se conocen y es la
propia estructura de los datos quien los determina.
12/01/2015
vgg
Un primer paso: MANOVA previo al AD

La longitud y anchura media de los ptalos cambian de una variedad a otra?
Los valores medios de las pruebas analticas difieren segn la enfermedad?
Las medias de las caractersticas que observo sobre cada imagen captada, varan al cambiar
de objeto?
Observadas p variables conjuntamente para individuos dentro de cada grupo, podemos analizar
mediante un MANOVA si las media p-dimensional (de las variables X1, X2, ... Xp) es cambiante
atravs de los k grupos, o por el contrario, no se aprecia efecto grupo.
MANOVA de 1 factor Y (grupo), con variables explicativas X1, X2, ... Xp (cuantitativas)
Cada nivel del factor Y define un grupo.
H0: NO EFECTO. La media p-dim se mantienen a travs de los k grupos: 1= 2= = k
Nota recordatoria: El Manova requiere normalidad y homocedasticidad.
Obviamente, tiene sentido realizar un Anlisis Discriminante que estudie las diferencias entre
grupos slo cuando se rechaza H0
Cuando el MANOVA rechaza la igualdad de medias a travs de los grupos, el
ADD caracteriza las diferencias entre grupos
(Planteamiento Descriptivo)
ADP
predice el grupo de individuos sin catalogar
(Planteamiento Predictivo)
3 ADP ANLISIS DISCRIMINANTE / planteamiento PREDICTIVO

Indice de la Seccin 3
3.1 DOS poblaciones Np(i, i) 's iguales: Funcin Lineal Discriminante de Fisher
i y conocidas
i desconocidas; conocida
i y desconocidas
enfoque poblacional
asumimos
enfoque muestral
enfoque muestral
3.2 DOS poblaciones Np (i, i) 's diferentes: Funcin Discriminante Cuadrtica

i y i conocidas
i i desconocidas
SIN asumir
enfoque poblacional
enfoque muestral
3.3 k poblaciones Np (i, i)
3.1 DOS poblaciones Np (i, i)
's iguales
Funcin Lineal Discriminante de Fisher

p=1
p=2
Enfoque Poblacional (densidades conocidas)
12/01/2015
vgg
i y conocidas (caso
Poblacin 1: 1 x ~ Np (1, )
- enfoque poblacional -
Poblacin 2: 2 x ~ Np (2, )
= 1-2
diferencia entre las dos medias p-dim
t-1 1-2)t-11-2) distancia de Mahalanobis entre ellas

x 0 0
Nuevo elemento de poblacin desconocida:

Problema:
x0 ~ Np (0, )
0 1 0 2 ?
Idea:
Discriminar mediante una combinacin lineal
Optimo:
qu direccin a separa mejor los grupos?
L(x) at x
x / at x > k
x / at x < k
Bsqueda de la direccin a ptima a efectos de discriminacin:

Para cada a, at x0 es una c.l. de sus componentes:
at x0 ~ N1(at 0, at a)
Busco la direccin a que mejor discrimina entre los dos grupos, es decir, que
maximiza la separacin (homogeneizada) entre las medias transformadas: at 1 , at 2
a2
(a t 1 - a t 2 ) 2 (a t ) 2 (a t 1/2 -1/2 ) 2 (1) a t a . -1

t
= -1= 2
t
t
t
a a
a a
a a
a a
(1)
resulta de aplicar la desigualdad de Cauchy Schwarz a los dos vectores

u 1/2a
y
v -1/2
la igualdad (1) slo se alcanza cuando los vectores u y v son colineales, es decir,
1/2a = -1/2 , de donde obtenemos la solucin a, nica salvo factor escala ()
Solucin:
a = -1 -1(1-2)
( a , puesto que a2 = 2a 0 )
Valor mximo de a2 : t-1 = 2 , dist2 de Mahalanobis entre 1 y 2.

Datos proyectados, at x, sobre esta direccin a ptima:
Para esta a,
at x = (1-2)t-1 x L(x)
La funcin L recibe el nombre de Funcin Lineal Discriminante de Fisher
12/01/2015
vgg
Regla de clasificacin
A partir de L(x0) (valor que toma la funcin lineal discriminante L para la nueva
observacin x0), decido a qu poblacin se asigna la nueva observacin x0:
x 0 1 si a t x 0 > k
para ello utilizo una Regla de clasificacin :
t
x 0 2 si a x 0 < k
Errores al aplicar una regla de clasificacin [1]:

Error tipo 1: 1 2
k - t -11
)
Probabilidades:
e1= (
[1]
Error tipo 2: 2 1
- k + t -1 2
e2= (
)
Qu k elijo? La k que d alguna propiedad deseable; por ejemplo e1= e2:
1) Igual probabilidad de clasificacin errnea:

k0= t-1 (1+2) = (1 t-1 1 - 2 t-1 2)
1
e1= e2 = ( )
2
punto medio
Regla de discriminacin lineal de Fisher: x01 si a x0 > k0 , es decir
x01 si (1-2)t-1 x0 -
1
(1 t-1 1 - 2 t-1 2) > 0
2
Otros criterios
2) Mnima Distancia:
Regla MD:
asigno a la poblacin de cuya media diste menos.

x01
si (x0, 1) < (x0, 2):

t
(x0 - 1) -1 (x0 - 1) < (x0 - 2) t-1 (x0 - 2)

Es fcil ver que coincide con la regla de discriminacin lineal.
3) Razn de verosimilitud: asigno a la poblacin con funcin de densidad mayor
Regla RV:
en este caso tambin coincide con la regla de discriminacin lineal
4) Bayes. Modifico la regla incorporando informacin a priori y costes.

Probabilidades a priori: q1 q2
Costes de clasificacin errnea: c1 c2
Regla de Bayes: coincide con la de Fisher para k= k0 + d

con d= c2 q2 / c1 q1
1
1
-1
-1
Nota: esta regla produce e1 e2
e1= ( d ) e2 = ( d )
2
2
[2]
12/01/2015
vgg
i desconocidas; conocida (caso - enfoque muestral -
Enfoque Muestral (densidades con parmetros desconocidos)
n1 individuos en la poblacin 1;
media muestral x1
media muestral x 2
n2 individuos en la poblacin 2;
Sustituyo en [2] las i, ahora desconocidas por sus estimaciones por x i y tengo una
nueva versin de la regla de discriminacin lineal de Fisher:
Observo
x01 si ( x1 - x 2 )t-1 x0 -
1
( x1 t-1 x1 - x 2 t-1 x 2 ) > 0
2
[3]
Nota: Sigue coincidiendo con la regla DM, pero con la RV slo si n1= n2.
Aproximaciones asintticas (Okamoto) para e1 y e2 (valores tericos)

1
1
e1 ( ) + a1/ n1 + a2/ n2
e2 ( ) + a1/ n2+ a2/ n1
2
2
2
2
+12(p-1)
- 4 (p-1)
siendo a1=
() , a2=
()
16
16
Estimacin de errores: e1 y e2 se pueden estimar por dos procedimientos
a) sustituyendo , desconocido, por en las aproximaciones de Okamoto:
(x - x ) t -1 (x - x )
=
1
2
1
2
b) jacknife:
Se toma una observacin de 1 y se le aplica la regla de discriminacin lineal
como si desconociramos a qu grupo pertenece. Calculo la media muestral
omitiendo esta observacin xi y se utiliza esta media muestral x1(i) en [3] para
asignar grupo a la observacin omitida. Vemos si la asignacin es correcta.
Se aplica la regla una tras otra a todas las observaciones de cada grupo.
Utilizamos la proporcin de asignaciones errneas para estimar e1 y e2:
m
m
e1 = 1 e 2 = 2 donde mi representa el n de individuos de i mal asignados.
n1
n2
12/01/2015
vgg
i y desconocidas (caso
-enfoque Muestral-
Estimador pooled de a partir de las desviaciones a la media muestral de cada grupo:

n2
1 n1
t
Sp= [ (x i - x1 )(x i - x1 ) + (x n1 + i - x 2 )(x n1 + i - x 2 ) t ] , con f= n1+n2 -2
f i=1
i=1
Esta versin [4] de la regla de discriminacin lineal de Fisher utiliza Sp en lugar de

que ahora se desconoce:
x01 si ( x1 - x 2 )t Sp-1 x0 -
1
( x1 t Sp-1 x1 - x 2 t Sp-1 x 2 ) > 0
2
[4]
Nota: coincide con la regla DM, pero con la RV slo si n1= n2 :

1
1
x01 si
dS2-1 (x 0 , x1 ) <
dS2-1 (x 0 , x 2 )
(regla RV)
1 p
1 p
1+
1+
n1
n2
Aproximaciones asintticas (Okamoto) para e1 y e2

1
1
e1 ( ) + a1/ n1 + a2/ n2 + a3/ f
e2 ( ) + a1/ n2+ a2/ n1 + a3/ f
2
2
(p-1)
siendo a1 y a2 las expresiones de 3.1.2 y a3=
()
4
Estimacin de errores: e1 y e2 se estiman por los mismos procedimientos que en 3.1.2:
a) sustituyendo en las aproximaciones de Okamoto , desconocido, por
f-p-1
2 =
(x1 - x 2 ) t S-1p (x1 - x 2 )
f
b) jacknife: Como en 3.1.2 pero utilizando Sp en lugar de desconocida).
Nota: a) es mejor que b) bajo normalidad, pero b) es mejor que a) cuando
utilizo esta regla de discriminacin lineal sobre datos que NO son normales.
12/01/2015
3.2 DOS poblaciones Np (i, i)
vgg
's diferentes
Funcin Discriminante Cuadrtica
i y i conocidas ( )
- enfoque poblacional -
Criterio de Mnima Distancia (MD):

asigno a la poblacin de cuya media diste menos.
Regla MD:
x01
si
(x0, 1) < (x0, 2):
(x0 - 1) t1-1 (x0 - 1) < (x0 - 2) t2-1 (x0 - 2)
x / (x, 1) < (x, 2)
x / (x, 1) < (x, 2)
i i desconocidas (SIN asumir
- enfoque muestral
Cuando se desconocen los parmetros, los sustituimos por estimadores:

Regla MD
x01 si (x0, 1) < (x0, 2):
(x0 - x1 ) t S1-1 (x0 - x1 ) < (x0 - x 2 ) t S-12 (x0 - x 2 )
Las probabilidades de clasificacin errnea, e1 y e2, se estiman por jacknife.
12/01/2015
vgg
3.3 k poblaciones Np (i, i)

3.3.1 Asumiendo 1k
(desconocida)
- enfoque muestral
xi :
vector media muestral basado en ni observaciones de la poblacin i.
Sp
matriz de covarianzas muestral pooled con f=
k
i=1
ni - k
g.de l.
x0 ~ Np (0, )
Nuevo elemento:
Regla MD de Mnima Distancia (tambin RV):

x0i si
dS2-1 (x 0 , x i ) d S2-1 (x 0 , x j )
p
Regla de Discriminacin lineal:

x0i si
(es lineal en xo)
x it S-1p x 0 -
1 t -1
1
x i Sp x i sup x tj S-1p x 0 - x tj S-1p x j
2
2
j 1...k
[5]
Carecemos de expresiones para las probabilidades de clasificacin errnea;

se estiman por mtodos jacknife.
3.3.2 Sin asumir 1k (desconocidas)
- enfoque muestral
Asignamos de forma similar que en 3.3.1,

pero utilizando en la regla [5] cada Si en lugar del estimador comn pooled Sp:
x0i si
x it Si-1x 0 -
1 t -1
1
x i Si x i sup x tj S-1j x 0 - x tj S-1j x j
2
2
j 1...k
[6]
3.3.3 Poblacin y muestra
Densidades conocidas
muestras
Muestras de densidades desconocidas
Si conocemos las distribuciones tericas, podemos utilizar las correspondientes

versiones poblacionales, con las covarianzas tericas i en lugar de las estimadas Si.
12/01/2015
vgg
10
3.4 Mtodos no paramtricos

Existen mtodos alternativos para situaciones en que las variables discriminantes no
son Np dentro de cada grupo. Los ms conocidos son los mtodos de vecinos
prximos y los basados en estimacin no paramtrica de la densidad.
3.4.1 Vecinos prximos

El criterio se basa en medir proximidad a base de acumular las distancias del individuo
con grupo desconocido a los t individuos ms prximos de cada grupo y asignarlo
finalmente al grupo ms cercano.
Para asignar un individuo xi a un grupo, el mtodo de t vecinos localiza dentro de cada
grupo los t individuos ms prximos al aspirante xi. Son los llamados vecinos ms
prximos. La suma de estas t distancias se utiliza como indicador de la separacin
entre el aspirante y el grupo. El individuo se asigna al grupo ms prximo.
SAS/Discrim permite computar distancias de Mahalanobis con la matriz de
covarianzas especfica de cada grupo o bien con la pooled Sp.
3.4.2 Estimacin de densidades

Como primer paso, aplicamos mtodos no paramtricos de estimacin de la densidad y
a partir de las observaciones de calibracin obtenemos un estimador dentro de cada
grupo. Despus construyo reglas de asignacin similares a las del apartado 3, slo que
en lugar de utilizar densidades normales multivariantes, empleamos estas estimaciones
obtenidas por mtodos no paramtricos. As, obtengo nuevas reglas de discriminacin
por el mtodo de mxima verosimilitud o por el de Bayes cuando incorporamos
informacin a priori sobre la probabilidad de pertenencia a cada grupo:
Grupo
probs a priori
densidades
1
2 k
p(1) p(2) p(k)
f(x/1) f(x/2) f(x/k)
probs a posteriori
p(1/x) p(2/x) p(k/x)
(conocidas o estimadas)
p(i) f(x/i)
con
p(i/x)= k
p(j) f(x/j)
j=1
SAS/Discrim ofrece el mtodo Ncleo con ncleo uniforme, normal, epanechnikov

y parmetro de suavizado comn para todos los grupos o especfico para cada grupo.

Analisis Discriminante

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis Discriminante

Enviado por

Direitos autorais:

Formatos disponíveis

discrim_predictivo.

ANLISIS DISCRIMINANTE (AD)

1 Planteamiento Predictivo del AD:

Ejemplo1: Caracterizacin de especies.

1.1 Anlisis Discriminante / Plantemiento Predictivo

Observamos las variables Xi

1.2 Anlisis Discriminante / Plantemiento Descriptivo

Variables originales: detectamos las variables Xi de ms poder discriminante, aquellas

Variables artificiales (Anlisis Discriminante Factorial): Buscamos aquellas

1.3 Datos en AD:

1.4 Anlisis Discriminante y Clasificacin

Un primer paso: MANOVA previo al AD

3 ADP ANLISIS DISCRIMINANTE / planteamiento PREDICTIVO

3.2 DOS poblaciones Np (i, i) 's diferentes: Funcin Discriminante Cuadrtica

3.3 k poblaciones Np (i, i)

3.1 DOS poblaciones Np (i, i)

Funcin Lineal Discriminante de Fisher

Enfoque Poblacional (densidades conocidas)

diferencia entre las dos medias p-dim

t-1 1-2)t-11-2) distancia de Mahalanobis entre ellas

Nuevo elemento de poblacin desconocida:

Discriminar mediante una combinacin lineal

qu direccin a separa mejor los grupos?

Bsqueda de la direccin a ptima a efectos de discriminacin:

(a t 1 - a t 2 ) 2 (a t ) 2 (a t 1/2 -1/2 ) 2 (1) a t a . -1

resulta de aplicar la desigualdad de Cauchy Schwarz a los dos vectores

Valor mximo de a2 : t-1 = 2 , dist2 de Mahalanobis entre 1 y 2.

La funcin L recibe el nombre de Funcin Lineal Discriminante de Fisher

Errores al aplicar una regla de clasificacin [1]:

Qu k elijo? La k que d alguna propiedad deseable; por ejemplo e1= e2:

1) Igual probabilidad de clasificacin errnea:

Regla de discriminacin lineal de Fisher: x01 si a x0 > k0 , es decir

asigno a la poblacin de cuya media diste menos.

si (x0, 1) < (x0, 2):

(x0 - 1) -1 (x0 - 1) < (x0 - 2) t-1 (x0 - 2)

en este caso tambin coincide con la regla de discriminacin lineal

4) Bayes. Modifico la regla incorporando informacin a priori y costes.

Costes de clasificacin errnea: c1 c2

Regla de Bayes: coincide con la de Fisher para k= k0 + d

i desconocidas; conocida (caso - enfoque muestral -

Enfoque Muestral (densidades con parmetros desconocidos)

Aproximaciones asintticas (Okamoto) para e1 y e2 (valores tericos)

Estimador pooled de a partir de las desviaciones a la media muestral de cada grupo:

Esta versin [4] de la regla de discriminacin lineal de Fisher utiliza Sp en lugar de

Nota: coincide con la regla DM, pero con la RV slo si n1= n2 :

Aproximaciones asintticas (Okamoto) para e1 y e2

3.2 DOS poblaciones Np (i, i)

Funcin Discriminante Cuadrtica

Criterio de Mnima Distancia (MD):

(x0, 1) < (x0, 2):

(x0 - 1) t1-1 (x0 - 1) < (x0 - 2) t2-1 (x0 - 2)

x / (x, 1) < (x, 2)

x / (x, 1) < (x, 2)

i i desconocidas (SIN asumir

Cuando se desconocen los parmetros, los sustituimos por estimadores:

x01 si (x0, 1) < (x0, 2):

(x0 - x1 ) t S1-1 (x0 - x1 ) < (x0 - x 2 ) t S-12 (x0 - x 2 )

Las probabilidades de clasificacin errnea, e1 y e2, se estiman por jacknife.

3.3 k poblaciones Np (i, i)

vector media muestral basado en ni observaciones de la poblacin i.

matriz de covarianzas muestral pooled con f=

Regla MD de Mnima Distancia (tambin RV):

Regla de Discriminacin lineal: