Você está na página 1de 10

discrim_predictivo.

doc

12/01/2015

vgg

ANLISIS DISCRIMINANTE (AD)


Regresin con respuesta categrica Y

Cmo depende

Y
de las variables X1, X2, ... Xp ?
cualitativa
cuantitativas

1 Planteamiento Predictivo del AD:


Cmo predecir Y a partir de los valores observados X1, X2, ... Xp ?
2 Planteamiento Descriptivo del AD:
Y determina k grupos, a caracterizar en trminos de X1, X2, ... Xp
Qu variables cambian ms a travs de los grupos?
Qu caractersticas tiene cada grupo?

INTRODUCCIN

Ejemplo1: Caracterizacin de especies.


Mediante la longitud y anchura de ptalos y spalos vables cuantitativas X1, X2, X3 y X4-.
Cmo distinguir (discriminar) tres especies de Iris (Setosa, Versicolor y Virginica) -vble Y-?
Ejemplo2: Diagnstico automtico.
Por los resultados de diferentes pruebas diagnsticas -vables cuantitativas X1XpCmo reconocer una enfermedad distinguindola de otras similares -vble Y- ?
Ejemplo3: Reconocimiento de formas o textos.
A partir de diferentes medidas - vables cuantitativas X1Xp- de una imagen capturada
Cmo identificar una pieza (reconocimiento de formas) o una letra (rec. de textos) -vble Y-?
Cmo identifica google a una persona (reconocimiento de imagen) en una fotografa?
Ejemplo 4: Valoracin de riesgos .
Una entidad financiera desea valorar el riesgo de una posible operacin crediticia personal
catalogndola como muy segura, segura, normal, algo insegura o muy insegura -vble Y-.
Para ello dispone de informacin sobre el cliente, relativa a otras operaciones realizadas
con la entidad, declaraciones de renta y patrimonio, etc -vables X1XpEjemplo 5: Control de fraude fiscal .
La Agencia Tributaria va a revisar declaciones de renta sospechosas de fraude.
Para seleccionarlas utiliza las declaraciones de los ltimos aos - vables X1Xp- y los
resultados de las inspecciones realizadas en ejercicios anteriores correcta, fraude leve,
fraude grave, fraude muy grave-.

discrim_predictivo.doc

12/01/2015

vgg

1.1 Anlisis Discriminante / Plantemiento Predictivo


Objetivo: Asignar grupo a nuevos individuos.

Observamos las variables Xi


o en varios individuos de cada grupo (observaciones de calibracin)
o y en otros individuos sin catalogar (observaciones a asignar).
Un nuevo individuo del cual slo conocemos los valores Xi debe asignarse a un grupo.
o desconocemos a qu grupo pertenece
o tomamos una decisin basndonos en la informacin que proporcionan las
denominadas observaciones de calibracin o aprendizaje (individuos para los
que conocemos tanto los valores Xi como el grupo al que pertenecen).

1.2 Anlisis Discriminante / Plantemiento Descriptivo


Objetivo: Caracterizar los grupos En qu difieren?

Variables originales: detectamos las variables Xi de ms poder discriminante, aquellas


que mejor diferencian los grupos.

Variables artificiales (Anlisis Discriminante Factorial): Buscamos aquellas


combinaciones lineales de las Xi que mejor recogen las diferencias entre grupos. Las
interpretamos y las utilizamos para representar grficamente los grupos, detectando
caractersticas ms complejas que los diferencian.

1.3 Datos en AD:

1.4 Anlisis Discriminante y Clasificacin


En AD los grupos estn definidos y se conocen para las observaciones de calibracin; se
estudian sus caractersticas y se asigna grupo a nuevos individuos.
En Clasificacin Automtica, por el contrario, los posibles grupos no se conocen y es la
propia estructura de los datos quien los determina.

discrim_predictivo.doc

12/01/2015

vgg

Un primer paso: MANOVA previo al AD


La longitud y anchura media de los ptalos cambian de una variedad a otra?
Los valores medios de las pruebas analticas difieren segn la enfermedad?
Las medias de las caractersticas que observo sobre cada imagen captada, varan al cambiar
de objeto?

Observadas p variables conjuntamente para individuos dentro de cada grupo, podemos analizar
mediante un MANOVA si las media p-dimensional (de las variables X1, X2, ... Xp) es cambiante
atravs de los k grupos, o por el contrario, no se aprecia efecto grupo.
MANOVA de 1 factor Y (grupo), con variables explicativas X1, X2, ... Xp (cuantitativas)
Cada nivel del factor Y define un grupo.
H0: NO EFECTO. La media p-dim se mantienen a travs de los k grupos: 1= 2= = k
Nota recordatoria: El Manova requiere normalidad y homocedasticidad.
Obviamente, tiene sentido realizar un Anlisis Discriminante que estudie las diferencias entre
grupos slo cuando se rechaza H0
Cuando el MANOVA rechaza la igualdad de medias a travs de los grupos, el
ADD caracteriza las diferencias entre grupos
(Planteamiento Descriptivo)
ADP
predice el grupo de individuos sin catalogar
(Planteamiento Predictivo)

3 ADP ANLISIS DISCRIMINANTE / planteamiento PREDICTIVO


Indice de la Seccin 3
3.1 DOS poblaciones Np(i, i) 's iguales: Funcin Lineal Discriminante de Fisher
i y conocidas

i desconocidas; conocida
i y desconocidas

enfoque poblacional

asumimos

enfoque muestral
enfoque muestral

3.2 DOS poblaciones Np (i, i) 's diferentes: Funcin Discriminante Cuadrtica


i y i conocidas

i i desconocidas

SIN asumir

enfoque poblacional
enfoque muestral

3.3 k poblaciones Np (i, i)

3.1 DOS poblaciones Np (i, i)

's iguales

Funcin Lineal Discriminante de Fisher


p=1

p=2

Enfoque Poblacional (densidades conocidas)

discrim_predictivo.doc

12/01/2015

vgg

i y conocidas (caso
Poblacin 1: 1 x ~ Np (1, )

- enfoque poblacional -

Poblacin 2: 2 x ~ Np (2, )

= 1-2

diferencia entre las dos medias p-dim

t-1 1-2)t-11-2) distancia de Mahalanobis entre ellas


x 0 0

Nuevo elemento de poblacin desconocida:


Problema:

x0 ~ Np (0, )

0 1 0 2 ?

Idea:

Discriminar mediante una combinacin lineal

Optimo:

qu direccin a separa mejor los grupos?

L(x) at x

x / at x > k
x / at x < k

Bsqueda de la direccin a ptima a efectos de discriminacin:


Para cada a, at x0 es una c.l. de sus componentes:

at x0 ~ N1(at 0, at a)

Busco la direccin a que mejor discrimina entre los dos grupos, es decir, que
maximiza la separacin (homogeneizada) entre las medias transformadas: at 1 , at 2
a2

(a t 1 - a t 2 ) 2 (a t ) 2 (a t 1/2 -1/2 ) 2 (1) a t a . -1


t

= -1= 2
t
t
t
a a
a a
a a
a a

(1)

resulta de aplicar la desigualdad de Cauchy Schwarz a los dos vectores


u 1/2a
y
v -1/2
la igualdad (1) slo se alcanza cuando los vectores u y v son colineales, es decir,
1/2a = -1/2 , de donde obtenemos la solucin a, nica salvo factor escala ()
Solucin:

a = -1 -1(1-2)

( a , puesto que a2 = 2a 0 )

Valor mximo de a2 : t-1 = 2 , dist2 de Mahalanobis entre 1 y 2.


Datos proyectados, at x, sobre esta direccin a ptima:

Para esta a,

at x = (1-2)t-1 x L(x)

La funcin L recibe el nombre de Funcin Lineal Discriminante de Fisher

discrim_predictivo.doc

12/01/2015

vgg

Regla de clasificacin

A partir de L(x0) (valor que toma la funcin lineal discriminante L para la nueva
observacin x0), decido a qu poblacin se asigna la nueva observacin x0:
x 0 1 si a t x 0 > k
para ello utilizo una Regla de clasificacin :
t
x 0 2 si a x 0 < k

Errores al aplicar una regla de clasificacin [1]:


Error tipo 1: 1 2
k - t -11
)
Probabilidades:
e1= (

[1]

Error tipo 2: 2 1
- k + t -1 2
e2= (
)

Qu k elijo? La k que d alguna propiedad deseable; por ejemplo e1= e2:

1) Igual probabilidad de clasificacin errnea:


k0= t-1 (1+2) = (1 t-1 1 - 2 t-1 2)

1
e1= e2 = ( )
2
punto medio

Regla de discriminacin lineal de Fisher: x01 si a x0 > k0 , es decir

x01 si (1-2)t-1 x0 -

1
(1 t-1 1 - 2 t-1 2) > 0
2

Otros criterios
2) Mnima Distancia:
Regla MD:

asigno a la poblacin de cuya media diste menos.


x01

si (x0, 1) < (x0, 2):


t

(x0 - 1) -1 (x0 - 1) < (x0 - 2) t-1 (x0 - 2)


Es fcil ver que coincide con la regla de discriminacin lineal.
3) Razn de verosimilitud: asigno a la poblacin con funcin de densidad mayor
Regla RV:

en este caso tambin coincide con la regla de discriminacin lineal

4) Bayes. Modifico la regla incorporando informacin a priori y costes.


Probabilidades a priori: q1 q2

Costes de clasificacin errnea: c1 c2

Regla de Bayes: coincide con la de Fisher para k= k0 + d


con d= c2 q2 / c1 q1
1
1
-1
-1
Nota: esta regla produce e1 e2
e1= ( d ) e2 = ( d )
2
2

[2]

discrim_predictivo.doc

12/01/2015

vgg

i desconocidas; conocida (caso - enfoque muestral -

Enfoque Muestral (densidades con parmetros desconocidos)

n1 individuos en la poblacin 1;
media muestral x1
media muestral x 2
n2 individuos en la poblacin 2;
Sustituyo en [2] las i, ahora desconocidas por sus estimaciones por x i y tengo una
nueva versin de la regla de discriminacin lineal de Fisher:
Observo

x01 si ( x1 - x 2 )t-1 x0 -

1
( x1 t-1 x1 - x 2 t-1 x 2 ) > 0
2

[3]

Nota: Sigue coincidiendo con la regla DM, pero con la RV slo si n1= n2.

Aproximaciones asintticas (Okamoto) para e1 y e2 (valores tericos)


1
1
e1 ( ) + a1/ n1 + a2/ n2
e2 ( ) + a1/ n2+ a2/ n1
2
2
2
2
+12(p-1)
- 4 (p-1)
siendo a1=
() , a2=
()
16
16
Estimacin de errores: e1 y e2 se pueden estimar por dos procedimientos
a) sustituyendo , desconocido, por en las aproximaciones de Okamoto:
(x - x ) t -1 (x - x )
=
1
2
1
2
b) jacknife:
Se toma una observacin de 1 y se le aplica la regla de discriminacin lineal
como si desconociramos a qu grupo pertenece. Calculo la media muestral
omitiendo esta observacin xi y se utiliza esta media muestral x1(i) en [3] para
asignar grupo a la observacin omitida. Vemos si la asignacin es correcta.
Se aplica la regla una tras otra a todas las observaciones de cada grupo.
Utilizamos la proporcin de asignaciones errneas para estimar e1 y e2:
m
m
e1 = 1 e 2 = 2 donde mi representa el n de individuos de i mal asignados.
n1
n2

discrim_predictivo.doc

12/01/2015

vgg

i y desconocidas (caso

-enfoque Muestral-

Estimador pooled de a partir de las desviaciones a la media muestral de cada grupo:


n2
1 n1
t
Sp= [ (x i - x1 )(x i - x1 ) + (x n1 + i - x 2 )(x n1 + i - x 2 ) t ] , con f= n1+n2 -2
f i=1
i=1

Esta versin [4] de la regla de discriminacin lineal de Fisher utiliza Sp en lugar de


que ahora se desconoce:

x01 si ( x1 - x 2 )t Sp-1 x0 -

1
( x1 t Sp-1 x1 - x 2 t Sp-1 x 2 ) > 0
2

[4]

Nota: coincide con la regla DM, pero con la RV slo si n1= n2 :


1
1
x01 si
dS2-1 (x 0 , x1 ) <
dS2-1 (x 0 , x 2 )
(regla RV)
1 p
1 p
1+
1+
n1
n2

Aproximaciones asintticas (Okamoto) para e1 y e2


1
1
e1 ( ) + a1/ n1 + a2/ n2 + a3/ f
e2 ( ) + a1/ n2+ a2/ n1 + a3/ f
2
2
(p-1)
siendo a1 y a2 las expresiones de 3.1.2 y a3=
()
4
Estimacin de errores: e1 y e2 se estiman por los mismos procedimientos que en 3.1.2:
a) sustituyendo en las aproximaciones de Okamoto , desconocido, por
f-p-1
2 =
(x1 - x 2 ) t S-1p (x1 - x 2 )
f
b) jacknife: Como en 3.1.2 pero utilizando Sp en lugar de desconocida).
Nota: a) es mejor que b) bajo normalidad, pero b) es mejor que a) cuando
utilizo esta regla de discriminacin lineal sobre datos que NO son normales.

discrim_predictivo.doc

12/01/2015

3.2 DOS poblaciones Np (i, i)

vgg

's diferentes

Funcin Discriminante Cuadrtica

i y i conocidas ( )

- enfoque poblacional -

Criterio de Mnima Distancia (MD):


asigno a la poblacin de cuya media diste menos.
Regla MD:

x01

si

(x0, 1) < (x0, 2):

(x0 - 1) t1-1 (x0 - 1) < (x0 - 2) t2-1 (x0 - 2)

x / (x, 1) < (x, 2)

x / (x, 1) < (x, 2)

i i desconocidas (SIN asumir

- enfoque muestral

Cuando se desconocen los parmetros, los sustituimos por estimadores:


Regla MD

x01 si (x0, 1) < (x0, 2):

(x0 - x1 ) t S1-1 (x0 - x1 ) < (x0 - x 2 ) t S-12 (x0 - x 2 )

Las probabilidades de clasificacin errnea, e1 y e2, se estiman por jacknife.

discrim_predictivo.doc

12/01/2015

vgg

3.3 k poblaciones Np (i, i)


3.3.1 Asumiendo 1k

(desconocida)

- enfoque muestral

xi :

vector media muestral basado en ni observaciones de la poblacin i.

Sp

matriz de covarianzas muestral pooled con f=

k
i=1

ni - k

g.de l.

x0 ~ Np (0, )

Nuevo elemento:

Regla MD de Mnima Distancia (tambin RV):


x0i si

dS2-1 (x 0 , x i ) d S2-1 (x 0 , x j )
p

Regla de Discriminacin lineal:


x0i si

(es lineal en xo)

x it S-1p x 0 -

1 t -1
1
x i Sp x i sup x tj S-1p x 0 - x tj S-1p x j
2
2
j 1...k

[5]

Carecemos de expresiones para las probabilidades de clasificacin errnea;


se estiman por mtodos jacknife.

3.3.2 Sin asumir 1k (desconocidas)

- enfoque muestral

Asignamos de forma similar que en 3.3.1,


pero utilizando en la regla [5] cada Si en lugar del estimador comn pooled Sp:
x0i si

x it Si-1x 0 -

1 t -1
1
x i Si x i sup x tj S-1j x 0 - x tj S-1j x j
2
2
j 1...k

[6]

3.3.3 Poblacin y muestra

Densidades conocidas
muestras

Muestras de densidades desconocidas

Si conocemos las distribuciones tericas, podemos utilizar las correspondientes


versiones poblacionales, con las covarianzas tericas i en lugar de las estimadas Si.

discrim_predictivo.doc

12/01/2015

vgg

10

3.4 Mtodos no paramtricos


Existen mtodos alternativos para situaciones en que las variables discriminantes no
son Np dentro de cada grupo. Los ms conocidos son los mtodos de vecinos
prximos y los basados en estimacin no paramtrica de la densidad.

3.4.1 Vecinos prximos


El criterio se basa en medir proximidad a base de acumular las distancias del individuo
con grupo desconocido a los t individuos ms prximos de cada grupo y asignarlo
finalmente al grupo ms cercano.
Para asignar un individuo xi a un grupo, el mtodo de t vecinos localiza dentro de cada
grupo los t individuos ms prximos al aspirante xi. Son los llamados vecinos ms
prximos. La suma de estas t distancias se utiliza como indicador de la separacin
entre el aspirante y el grupo. El individuo se asigna al grupo ms prximo.
SAS/Discrim permite computar distancias de Mahalanobis con la matriz de
covarianzas especfica de cada grupo o bien con la pooled Sp.

3.4.2 Estimacin de densidades


Como primer paso, aplicamos mtodos no paramtricos de estimacin de la densidad y
a partir de las observaciones de calibracin obtenemos un estimador dentro de cada
grupo. Despus construyo reglas de asignacin similares a las del apartado 3, slo que
en lugar de utilizar densidades normales multivariantes, empleamos estas estimaciones
obtenidas por mtodos no paramtricos. As, obtengo nuevas reglas de discriminacin
por el mtodo de mxima verosimilitud o por el de Bayes cuando incorporamos
informacin a priori sobre la probabilidad de pertenencia a cada grupo:
Grupo
probs a priori
densidades

1
2 k
p(1) p(2) p(k)
f(x/1) f(x/2) f(x/k)

probs a posteriori

p(1/x) p(2/x) p(k/x)

(conocidas o estimadas)
p(i) f(x/i)
con
p(i/x)= k
p(j) f(x/j)
j=1

SAS/Discrim ofrece el mtodo Ncleo con ncleo uniforme, normal, epanechnikov


y parmetro de suavizado comn para todos los grupos o especfico para cada grupo.

Você também pode gostar