Você está na página 1de 21

El anlisis discriminante

J oaqun Alds Manzano


1
Universitat de Valncia
Dpto. de Direccin de Empresas Juan Jos Renau Piqueras
1
Estas notas son una seleccin de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epgrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi nica tarea ha sido la de selec-
cionar, ordenar y, en algunos casos traducir los textos originales.
El anlisis discriminante
1. Qu es el anlisis discriminante?
(Uriel, 1997)
El anlisis discriminante se utiliza para clasificar a distintos individuos en
grupos o poblaciones alternativos a partir de los valores de un conjunto de
variables sobre los individuos a los que se pretende clasificar. Imaginemos, a
modo de ejemplo, que un director de una sucursal bancaria necesita establecer
algn criterio que para conceder o no los prstamos que le son solicitados. Su
misin es detectar si el solicitante pertenecer en el futuro al grupo de los que
devuelven los prstamos o si, por el contrario, ser de aquellos que no lo hacen.
Supongamos que ese director tiene el historial de todos aquellos individuos que,
en el pasado, solicitaron prstamos. En ese historial figura, evidentemente, si
finalmente el prstamo fue devuelto o no, es decir, el director tiene clasificados
a los individuos en solventes e insolventes. Lo que se plantea ahora es si se
puede obtener algn tipo de funcin que le permita, ante una nueva solicitud,
predecir a cul de los dos grupos va a pertenecer el solicitante.
Para esto sirve el anlisis discriminante. Dada una poblacin, que tenemos
dividida en grupos, el anlisis discriminante encuentra una funcin que
permite, con un determinado grado de acierto, explicar esa divisin en grupos
(visin explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos
individuos en alguno de los grupos en que est dividida la poblacin (visin
predictiva).
2. Visin geomtrica del anlisis discriminante
(Uriel, 1997)
Intentaremos ofrecer una intuicin geomtrica del anlisis discriminante que
nos servir, adems, para introducir algunos conceptos necesarios. Supongamos
que tenemos una poblacin que puede dividirse en dos grupos. Siguiendo con el
ejemplo inicial del director de banco: clientes solventes e insolventes. Suponga-
mos, tambin, que queremos ser capaces de explicar esa clasificacin
atendiendo a una nica variable, por ejemplo, el nivel de ingresos del cliente.
Como el director del banco tiene el historial de los crditos pasados que conce-
Joaqun Alds Manzano
Anlisis discriminante 2
di, sabe qu nivel de ingresos tenan los solventes y los insolventes. De esta
informacin podra obtenerse fcilmente la figura 1.
Figura 1. Funciones de distribucin hipotticas de dos grupos
Grupo II
Solventes
X
D
i
s
t
r
i
b
u
c
i

n

d
e

f
r
e
c
u
e
n
c
i
a
s
I I
X
I
X
Miembros del grupo II
incorrectamente clasificados
como del grupo I
Miembros del grupo I
incorrectamente clasificados
como del grupo II
C
Grupo I
Insolventes
Nivel de ingresos
Un criterio que podra adoptar el director de banco para conceder o no un
prstamo, podra ser calcular la media de ingresos de los dos grupos. La media
de ambas medias (C) sera un buen punto de corte como se ilustra en la figura
1. Si el nuevo solicitante tiene unos ingresos (X) superiores a C, se le concede el
prstamo y si los tiene inferiores no se le concede:
2
I II
X X
C
+
=
es decir, si X>C al individuo se le clasifica en el grupo de los solventes y si
X<C en el de los probables insolventes.
Este criterio, como tambin se observa en la figura 1, no es infalible, dado que
en la base de datos del director del banco hay clientes con unos ingresos
inferiores a C que s que devolvieron sus crditos y, por el contrario, hay clien-
tes que tenan ingresos superiores a esa cantidad y que acabaron siendo insol-
ventes. La misin del anlisis discriminante es obtener un criterio de clasifica-
cin que reduzca ese error. Es decir, encontrar una funcin discriminante que
separe lo mejor posible las dos poblaciones.
Joaqun Alds Manzano
Anlisis discriminante 3
La figura 2, ilustra el caso anterior cuando utilizamos no una variable explica-
tiva (los ingresos), sino dos, por ejemplo, los ingresos y la edad del solicitante.
Figura 2. Anlisis discriminante con dos variables explicativas
2,I I
X
2,I
X
1, II
X
1, I
X
II
D
I
D
1
C
2
C
C
D
2
X
1
X
1
X
2
X
En esta figura 2, se intenta ilustrar cmo, si en lugar de utilizar para clasificar
una de las dos variables X
1
y X
2
por separado, se utiliza una combinacin de
ambas D, el rea que recoge el error, es mucho menor. En sntesis, el anlisis
discriminante pretende encontrar aquella funcin discriminante:
1 1 2 2 k k
D uX u X u X = + + + K
que menor error de clasificacin produzca, donde X
1
...X
k
son las k variables
explicativas y u
1
...u
k
son coeficientes de ponderacin.
Cuando a los individuos se les quiera clasificar en dos grupos, bastar con una
funcin discriminante D, pero si se les quiere clasificar en tres grupos, harn
falta dos funciones discriminantes. En general sern necesarias G-1 funciones
discriminantes donde G es el nmero de grupos en que se divide la poblacin
(figura 3).
Joaqun Alds Manzano
Anlisis discriminante 4
Figura 3. Ilustracin del caso de tres grupos
1
X
2
X
3. Un ejemplo de aplicacin del anlisis discriminante para el
caso de dos grupos
(Hair, Anderson, Tatham y Black, 1995; Uriel, 1997)
Paso 1. Objetivos del anlisis discriminante
Para ilustrar la aplicacin de un anlisis discriminante con dos grupos, utiliza-
remos el caso de la empresa HATCO como en temas anteriores. Se recordar
que una de las variables que describan a los clientes de HATCO, era el nivel
de utilizacin de los servicios de HATCO que cada cliente haca, medido como
porcentaje del total de sus compras de maquinaria que le hacen a HATCO.
Parece razonable que HATCO desee explicar porqu unas empresas recurren
con ms intensidad que otras a ella como proveedora.
Paso 2. Desarrollo del plan de anlisis
En primer lugar es necesario determinar qu variables sern las independientes
y cul la dependiente. Dado que la variable dependiente indica la pertenencia a
un grupo u otro, deber ser no mtrica, mientras que las independientes deben
ser mtricas.
La variable dependiente, puede ser dicotmica (dos grupos) o politmica (ms
de dos grupos), pero en todo caso, los grupos deben ser excluyentes. Un indivi-
duo no puede pertenecer a ms de un grupo. Las variables independientes, por
su lado, deben ser seleccionadas partiendo de estudios previos que confirmen
Joaqun Alds Manzano
Anlisis discriminante 5
que pueden ejercer algn tipo de influencia sobre la pertenencia a los grupos.
En todo caso el investigador ha de sustituir la ausencia de estos trabajos con
su propio sentido comn.
En nuestro ejemplo, la variable nivel de utilizacin de los servicios (X9), tal
como se ha definido, es una variable mtrica, y en un discriminante la variable
dependiente tiene que ser no mtrica, dado que slo indica si se pertenece a un
grupo u a otro. Por ello HATCO divide a sus clientes en dos grupos, los que le
compran por encima de la media de todos los clientes, y los que le compran por
debajo de esa media. Estos son los dos grupos cuya pertenencia quiere explicar.
En cuanto a las variables independientes, parece lgico que se utilicen aquellas
que miden la percepcin que de HATCO tienen sus clientes. Un cliente es
probable que mantenga una relacin ms intensa con HATCO si valora positi-
vamente su rapidez del servicio (X1), su nivel de precios (X2) y as hasta la
calidad de sus productos. Sern por tanto las variables X1 a X7 las que se utili-
zarn como explicativas.
En cuanto al tamao de la muestra, hay que indicar que el anlisis discrimi-
nante es bastante sensible al nmero de casos por cada variable independiente.
La mayora de trabajos sugieren un ratio de 20 observaciones por cada predic-
tor. Aunque no siempre es posible llegar a esta cifra, el investigador debe ser
consciente de que los resultados pueden volverse inestables cuando se baja de
esta cifra. Esta consideracin hay que hacerla tambin no slo para el conjunto
de la muestra, sino tambin en cada uno de los grupos en que se divide la
poblacin. Como gua, no deberan haber menos de 20 observaciones en cada
grupo. Adems debe analizarse tambin los tamaos relativos de los grupos, si
hay grandes diferencias de tamao entre ellos, el anlisis puede verse afectado
al aumentar desproporcionadamente la probabilidad de pertenencia a los ms
grandes, llegando a recomendarse un muestreo aleatorio de casos de los grupos
ms grandes para equilibrar la muestra.
En nuestra base de datos, disponemos de 100 observaciones y de 7 variables
independientes, lo que da un ratio de 15 a 1, no muy alejado de la cifra
ptima. Asimismo, como se observa en el cuadro 1, en cada uno de los dos
grupos hay el mismo nmero de casos, no siendo necesario equilibrar la
muestra.
Joaqun Alds Manzano
Anlisis discriminante 6
Cuadro 1. Descriptivos de la variable dependiente
Intensidad de uso dicotomizada
50 50,0 50,0 50,0
50 50,0 50,0 100,0
100 100,0 100,0
Menos de la media
Ms de la media
Total
Vlidos
Frecuencia Porcentaje
Porcentaje
vlido
Porcentaje
acumulado
Paso 3. Condiciones de aplicabilidad del anlisis discriminante
Dos son las hiptesis a las que el anlisis discriminante se muestra especial-
mente sensible: normalidad multivariante de las variables independientes y
homoscedasticidad (igualdad de la matriz de covarianzas en los grupos). Si los
datos no cumplen la normalidad multivariante, aparecen problemas en la
estimacin de la funcin discriminante y, por otro lado, el procedimiento de
clasificacin hace que haya una marcada tendencia a clasificar a los individuos
en aquellos grupos que tienen una matriz de covarianzas mayor.
Para estas comprobaciones se remite al lector a la comprobacin que se efectu
de los mismos en el tema del anlisis de regresin.
Paso 4. Estimacin del modelo y ajuste global.
Al igual que ocurra con la regresin lineal, podemos optar por dos mtodos de
estimacin de la funcin discriminante. El primero de ellos es la estimacin
simultnea, es decir, introduciendo todas las variables explicativas. Este
mtodo es adecuado cuando lo que prima es la precisin de la clasificacin, esto
es, no nos importa tanto explicar porqu la funcin discriminante clasifica
como lo hace (qu variables independientes ha includo), sino que clasifique
bien. Es decir, prima en el investigador el enfoque predictivo sobre el explicati-
vo.
El segundo mtodo, adecuado cuando lo que quiere el investigador es explicar
la pertenencia a los grupos, es la estimacin paso a paso. Slo entrarn aquellas
variables independientes que superen ciertos niveles mnimos de poder explica-
tivo (normalmente se busca la minimizacin del estadstico de Wilks aunque
existen otros criterios como reducir la distancia de Mahalanobis entre los
centroides).
Joaqun Alds Manzano
Anlisis discriminante 7
Dado que a nosotros nos interesa tanto obtener una funcin discriminante con
un buen poder clasificatorio, como saber qu variables determinan la pertenen-
cia a los grupos, mostraremos la solucin del mtodo paso a paso.
En el procedimiento paso a paso puede entrar, y tambin salir, aquella variable
que cumpliendo el requisito mnimo (Valor mnimo de F para entrar o Valor
mximo de F para salir), tenga un valor ms pequeo del estadstico de
Wilks. Antes de comenzar la aplicacin del procedimiento es necesario fijar una
valor mnimo de F para entrar y un valor mximo de F para salir. Nosotros
tomaremos los valores por defecto del programa (384 y 271 respectivamente).
El valor F para entrar debe ser mayor que el de salida, pues de no ser as una
variable podra estar entrando y saliendo de forma indefinida en la seleccin.
En el cuadro 2 se observa como, inicialmente, todas las variables son candida-
tas a entrar en la funcin discriminante, salvo el nivel de precios (F = 0697 <
384).
Cuadro 2. Variables que pueden entrar
Pruebas de igualdad de las medias de los grupos
,682 45,687 1 98 ,000
,993 ,697 1 98 ,406
,692 43,681 1 98 ,000
,970 2,999 1 98 ,086
,650 52,688 1 98 ,000
,970 3,016 1 98 ,086
,950 5,106 1 98 ,026
Rapidez de servicio
nivel de precios
flexibilidad de precios
Imagen del fabricante
Servicio
Imagen de los
vendedores
Calidad del producto
Lambda
de Wilks F gl1 gl2 Sig.
Como se observa en el cuadro 2, la variable que tiene un valor de Wilks ms
pequeo (consecuentemente un F asociado al mismo ms grande) es el corres-
pondiente con la variable servicio que ser la que entrar en primer lugar,
como se seala en el cuadro 3. En el paso 0 todas las variables estn fuera del
anlisis, el programa calcula la de Wilks y la correspondiente F. Como
primera candidata a entrar se encuentra la mencionada servicio por los
motivos sealados. Como su F supera el valor mnimo para entrar, es la
considerada.
Joaqun Alds Manzano
Anlisis discriminante 8
Cuadro 3. Resumen de los pasos del discriminante
Variables no incluidas en el anlisis
1,000 1,000 45,687 ,682
1,000 1,000 ,697 ,993
1,000 1,000 43,681 ,692
1,000 1,000 2,999 ,970
1,000 1,000 52,688 ,650
1,000 1,000 3,016 ,970
1,000 1,000 5,106 ,950
,825 ,825 10,820 ,585
,668 ,668 10,818 ,585
,848 ,848 67,688 ,383
,939 ,939 ,003 ,650
,970 ,970 ,149 ,649
,991 ,991 5,714 ,614
,588 ,542 1,037 ,379
,460 ,460 1,420 ,377
,908 ,820 1,247 ,378
,960 ,835 ,873 ,380
,836 ,715 ,514 ,381
Rapidez de servicio
nivel de precios
flexibilidad de precios
Imagen del fabricante
Servicio
Imagen de los
vendedores
Calidad del producto
Rapidez de servicio
nivel de precios
flexibilidad de precios
Imagen del fabricante
Imagen de los
vendedores
Calidad del producto
Rapidez de servicio
nivel de precios
Imagen del fabricante
Imagen de los
vendedores
Calidad del producto
0
1
2
Paso
Tolerancia
Tolerancia
mn.
F que
introducir
Lambda
de Wilks
Para que una variable entre, no slo basta con que su F supere el valor mnimo
para entrar, tambin se le exige una segunda condicin. El mtodo paso a paso
fija un nivel llamado de tolerancia. La tolerancia es una medida de la asocia-
cin lineal entre las variables independientes. Para la variable i la tolerancia se
define como 1-r
i
2
donde r
i
2
es el coeficiente de determinacin entre la variable i
y el resto de variables explicativas que figuran en el modelo. Cuando la tolera-
cia de la variable i es muy pequea significa que dicha variable est muy corre-
lacionada con el resto de las variables explicativas, lo que puede crear probe-
mas en la estimacin. El programa establece un nivel mnimo de tolerancia de
0,001, con lo que las variables con tolerancia menor que ese lmite son excludas
del anlisis. En el paso 0, la tolerancia es 1, dado que el estadstico no se
calcula en esa iteracin.
En el paso 1, como se ha indicado, ha entrado la variable servicio. El programa
entonces evala las variables restantes y comprueba que de las que superan el
valor mnimo de la F para entrar, el que tiene un valor de la de Wilks ms
Joaqun Alds Manzano
Anlisis discriminante 9
baja (F ms alta) se corresponde con la variable flexibilidad de precios, siendo
sta la que entrar en el paso 2, dado que tambin cumple el requisito de la
tolerancia. Finalmente, como se observa en el cuadro 3, ninguna variable es
candidata para entrar, pues tienen un valor de F demasiado pequeo.
Pero, como se ha indicado, en cada paso, no slo hay que determinar qu
variable puede entrar, sino si las que han entrado debe salir. Para ello hay que
comprobar que superan el valor mximo de F para salir que las hara ser exclu-
das. El programa toma por defecto el valor 2,71. En el cuadro 4 se comprueba
como, las dos variables que han entrado superan ese valor y no deben ser
excludas.
Cuadro 4. Valores de F para salir
Variables en el anlisis
1,000 52,688
,848 78,157 ,692
,848 67,688 ,650
Servicio
Servicio
flexibilidad de precios
1
2
Paso
Tolerancia F que eliminar
Lambda
de Wilks
El cuadro 5 resume las variables que se incorporan a la funcin discriminante.
Es interesante destacar cmo en las notas al pie 2 y 3 del cuadro, aparecen los
valores mximo y mnimo de F que se han sealado como por defecto del
programa con anterioridad.
Cuadro 5. Variables de la funcin discriminante
Variables introducidas/eliminadas
1,2,3,4
Servicio ,650 1 1 98,000 52,688 1 98,000 ,000
flexibilidad
de precios
,383 2 1 98,000 78,114 2 97,000 ,000
1
2
Paso
Introducidas Estadstico gl1 gl2 gl3 Estadstico gl1 gl2 Sig.
F exacta
Lambda de Wilks
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
El nmero mximo de pasos es 14. 1.
La F parcial mnima para entrar es 3.84. 2.
Maximum partial F to remove is 2.71. 3.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos. 4.
Una vez calculada la funcin discriminante, se determina si esta es globalmente
significativa (no si cada una de las variables que han entrado deberan haberlo
hecho). Para ello se plantea la hiptesis nula de si las medias poblacionales
Joaqun Alds Manzano
Anlisis discriminante 10
difieren significativamente en los dos grupos considerados. En el caso de que la
respuesta fuera negativa, carecera de inters continuar con el anlisis, ya que
significara que las variables introducidas como variables clasificadoras no
tienen capacidad discriminante significativa. Como se comprueba en el cuadro
7, el estadstico
2
que se utiliza para contrastar la hiptesis nula de igualdad
de los vectores de medias (
2
= 93,080) tiene una significatividad asociada de
0, lo que permite rechazar la hiptesis nula y afirmar la significatividad de la
funcin discriminante.
Cuadro 7. Significatividad global de la funcin discriminante
Lambda de Wilks
,383 93,080 2 ,000
1 Contraste de
las funciones
Lambda
de Wilks Chi-cuadrado gl Sig.
Una vez estimada la funcin discriminante, la segunda fase en este paso es
establecer la capacidad predictiva del anlisis efectuado, es decir, medir la
bondad del ajuste del modelo. Para ello el programa ofrece la llamada matriz
de confusin. Dado que en nuestra muestra sabemos a qu grupo pertenecen
de verdad las empresas (si compran por debajo o por encima de la media), lo
que hace la matriz de confusin es cruzar la clasificacin real con la estimada
mediante la funcin discriminante. Cuantos ms casos hayan sido correcta-
mente clasificados, ms probable es que acertemos a la hora de utilizar la
funcin con fines predictivos o, bajo otra perspectiva, ms seguros estaremos de
que las variables que han entrado son las que realmente determinan la clasifica-
cin. El cuadro 8 muestra la matriz de confusin de nuestro ejemplo.
Cuadro 8. Matriz de confusin
Resultados de la clasificacin
1
43 7 50
3 47 50
86,0 14,0 100,0
6,0 94,0 100,0
Menos de la media
Ms de la media
Intensidad de uso
dicotomizada
Menos de la media
Ms de la media
Intensidad de uso
dicotomizada
Recuento
%
Original
Menos de
la media
Ms de la
media
Grupo de pertenencia
pronosticado
Total
Clasificados correctamente el 90,0% de los casos agrupados originales. 1.
Joaqun Alds Manzano
Anlisis discriminante 11
Puede comprobarse como, de haber utilizado la funcin discriminante para
clasificar a nuestra poblacin, caso de no saber a qu grupo pertenecan las
emrpesas, hubiramos acertado en el 90% de los casos. El acierto es ligeramente
mayor para predecir la pertenencia al grupo de compradores por encima de la
media (94%) que para predecir la pertenencia al grupo que compra por debajo
de la media (86%).
Otro indicador de la bondad de ajuste es el coeficiente
2
que es el coeficiente
de correlacin obtenido al realizar la regresin entre la variable dicotmica que
indica la pertenencia al grupo y las puntuaciones discriminantes. A la raz
cuadrada de este coeficiente, que es la que aparece en la salida (cuadro 9) se la
denomina correlacin cannica, pudindose calcular tambin en funcin del
autovalor que minimiza el valor de la de Wilks del siguiente modo:
2
1,611
0,785
1 1 1,611
0,61
l
h
l
h
= = =
+ +
=
Cuadro 9. Indicador
2
de bondad de ajuste
Autovalores
1,611
1
100,0 100,0 ,785 1 Funcin
Autovalor % de varianza % acumulado
Correlacin
cannica
Se han empleado las 1 primeras funciones discriminantes cannicas en el
anlisis.
1.
Paso 5. Interpretacin de los resultados
Si, como ocurre en nuestro ejemplo, la funcin discriminante es significativa, y
la bondad del ajuste aceptable, el investigador se centrar en interpretar los
resultados. Este proceso pasa por examinar las funciones discriminantes obteni-
das para establecer la importancia relativa de cada variable independiente a la
hora de discriminar entre los grupos. Existen tres mtodos para ello: los coefi-
cientes estandarizados de las funciones discriminantes, la matriz de estructura
y el F univariante.
El enfoque ms habitual es interpretar el signo y magnitud de los coeficientes
estandarizados de la funcin discriminante. Si hacemos caso omiso del signo,
cada coeficiente representa la contribucin relativa de su variable asociada a la
Joaqun Alds Manzano
Anlisis discriminante 12
funcin. Las variables independientes con coeficientes ms grandes contribuyen
ms al poder discriminante de la funcin que las variables con coeficientes ms
pequeos. El signo solo indica el sentido de la contribucin.
La interpretacin de estos coeficientes es anloga a la de los coeficientes estan-
darizados de una regresin y sujeta por ello a las mismas crticas. Por ejemplo,
un coeficiente pequeo indica tanto que la variable asociada es irrelevante en la
relacin como que ha sido eliminada por un alto grado de multicolinealidad.
El cuadro 10 muestra los coeficientes estandarizados de las dos variables que
entraron en la funcin. Puede observarse que la contribucin de las dos varia-
bles es similar y, en ambos casos, incrementos en las mismas favorecen la inten-
sidad de la relacin comercial entre las empresas.
Cuadro 10. Coeficientes estandarizados
Coeficientes estandarizados de las
funciones discriminantes cannicas
,886
,924
flexibilidad de precios
Servicio
1
Funcin
En los ltimos aos se utilizan cada vez con ms frecuencia las puntuaciones
discriminantes para interpretar los resultados del anlisis, debido a las deficien-
cias sealadas del mtodo anterior. Las puntuaciones discriminantes, que
aparecen bajo la etiqueta de matriz de estructura (cuadro 11), miden la corre-
lacin simple entre cada variable independiente y la funcin discriminante.
Reflejan la varianza que la variable independiente comparte con la funcin
discriminante y pueden interpretarse como las puntuaciones factoriales de un
anlisis factorial. En nuestro caso, si nos fijamos solamente en las correlaciones
de las variables que han entrado en la funcin, se confirma que ambas variables
tienen contribuciones parejas.
Joaqun Alds Manzano
Anlisis discriminante 13
Cuadro 11. Matriz de estructura
Matriz de estructura
,639
,578
,526
-,265
-,039
,019
,000
Rapidez de servicio
1
Servicio
flexibilidad de precios
Calidad del producto
1
nivel de precios
1
Imagen de los
vendedores
1
Imagen del fabricante
1
1
Funcin
Correlaciones intra-grupo combinadas entre
las variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.
Esta variable no se emplea en el anlisis. 1.
Finalmente, cuando se utiliza el mtodo paso a paso para estimar la funcin
discriminante, tambin pueden utilizarse los estadsticos F univariantes que
aparecan en el cuadro 2 para interpretar el poder discriminante relativo de
cada variable independiente. Esto se logra analizando el tamao del estadstico
y ordenndolos por l. Valores de F elevados indican mayor poder discriminan-
te. En la prctica las ordenaciones que se obtienen con los F son las mismas
que cuando se utilizan los coeficientes, pero tienen la ventaja de tener asocia-
dos un valor de significatividad.
No podemos olvidar, sin embargo, que la utilizacin del anlisis discriminante
se ha planteado con dos finalidades. Una explicativa, para lo que sirven los
comentarios anteriores. Pero otra predictiva, es decir, pretendemos clasificar a
nuevas empresas en uno de los dos grupos establecidos. Veamos cmo procede
el anlisis discriminante para clasificar mediante la funcin discriminante a las
empresas de nuestra base de datos en los dos grupos establecidos y, de aqu,
derivaremos cmo clasificaramos a una empresa nueva.
El programa calcula las llamadas funciones discriminantes lineales de Fisher,
una para cada uno de los grupos. A partir de la informacin que aparece en el
cuadro 12, estas funciones seran:
Joaqun Alds Manzano
Anlisis discriminante 14
5 1 3
5 2 3
44,23 7,87 12,51
70,52 9,79 16,33
F X X
F X X
= - + +
= - + +
Cuadro 12. Salida de SPSS para las funciones de Fisher
Coeficientes de la funcin de clasificacin
7,873 9,795
12,519 16,331
-44,239 -70,524
flexibilidad de precios
Servicio
(Constante)
Menos de
la media
Ms de la
media
Intensidad de uso
dicotomizada
Funciones discriminantes lineales de Fisher
A continuacin se calcula la llamada probabilidad a posteriori o Pr(g/D), que
es la probabilidad de que, dado que la puntuacin discriminante de un indivi-
duo ha sido D, pertenezca al grupo g (en nuestro caso, al grupo 1 o al grupo
2). Esto se hace del siguiente modo:
( )
1 2
Pr / 1,2
g
F
F F
e
g D g
e e
= =
+
Pues bien, el individuo se clasificar en aquel grupo para el que tenga una
probabilidad a posteriori mayor. Si nos fijamos en la empresa 1 de la base de
datos HATCO, las variables X3 flexibilidad de precios y X5 servicio, toman
respectivamente los valores 69 y 25, luego sus funciones discriminantes lineales
de Fisher tomarn los valores:
1
2
44,23 7,87 6,9 12,51 2, 4 40,13
70,52 9,79 6,9 16,33 2,4 36,25
F
F
= - + + =
= - + + =
y las probabilidades a posteriori:
( )
( )
40,13
40,13 36,25
36,25
40,13 36,25
Pr 1/ 0,98
Pr 2/ 0,02
e
g D
e e
e
g D
e e
= = =
+
= = =
+
Joaqun Alds Manzano
Anlisis discriminante 15
luego a la empresa 1 se la clasificar en el grupo 1 que, en este caso, coincide
con el grupo real al que pertenece. Para clasificar a una nueva empresa bastar
con repetir los pasos sealados pero teniendo en cuenta la valoracin que
hagan de X3 y X5.
Paso 6. Validacin de los resultados.
El ltimo paso del anlisis discriminante pasa por validar los resultados. La
mejor forma de hacerlo consiste en reservar parte de la muestra cuando se
estima la funcin discriminante. Una vez obtenida esta, se clasifica mediante el
procedimiento que acaba de describirse a los individuos que no se utilizaron
para estimarla. Si el porcentaje de acierto es similar al de la muestra de estima-
cin, el anlisis sera vlido.
4. Un ejemplo de aplicacin del anlisis discriminante para el
caso de tres grupos
(Hair, Anderson, Tatham y Black, 1995; Uriel, 1997)
Vamos a ilustrar la aplicacin del anlisis discriminante para el caso de tres
grupos. Dado que la mayora de los pasos anteriores son idnticos, nos centra-
remos, sobre todo, en la interpretacin de las funciones discriminantes, que es
el elemento novedoso, al haber ms de una.
El problema que analizamos es el mismo que en el caso anterior, con la diferen-
cia de que la poblacin aparece ahora dividida en tres grupos: el tercio de las
empresas que menos compran a HATCO, el tercio intermedio y el tercio que
ms intensa relacin mantienen con esta empresa. El objetivo es el mismo:
establecer los determinantes de este uso y predecir a qu grupo pertenecern
nuevas empresas.
El proceso es el mismo. As, el cuadro 13 nos permite determinar que las varia-
bles que se han includo en las funciones discriminantes son las mismas que en
el caso anterior: el servicio y la flexibilidad de precios. Obviamos el detalle del
proceso paso a paso por ser anlogo al anterior
Joaqun Alds Manzano
Anlisis discriminante 16
Cuadro 13. Variables de las funciones discriminantes
Variables introducidas/eliminadas
1,2,3,4
Servicio ,550 1 2 97,000 39,735 2 97,000 ,000
flexibilidad
de precios
,316 2 2 97,000 37,446 4 192,000 ,000
1
2
Paso
Introducidas Estadstico gl1 gl2 gl3 Estadstico gl1 gl2 Sig.
F exacta
Lambda de Wilks
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
El nmero mximo de pasos es 14. 1.
La F parcial mnima para entrar es 3.84. 2.
Maximum partial F to remove is 2.71. 3.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos. 4.
Como en el caso de dos grupos, el cuadro 14, muestra que las dos funciones
discriminantes obtenidas son, tambin, globalmente significativas.
Cuadro 14. Significatividad global de la funcin discriminante
Lambda de Wilks
,316 111,300 4 ,000
,903 9,850 1 ,002
1 a la 2
2
Contraste de las
funciones
Lambda
de Wilks Chi-cuadrado gl Sig.
La mayor importancia de la primera funcin a la hora de separar los grupos,
queda evidenciada por el hecho de que explica por s misma ms del 94% de la
varianza. Los indicadores
2
de bondad de ajuste (cuadro 15) conducen a
conclusiones anlogas.
Cuadro 15. Indicador
2
de bondad de ajuste
Autovalores
1,861
1
94,5 94,5 ,807
,107
1
5,5 100,0 ,312
1
2
Funcin
Autovalor % de varianza % acumulado
Correlacin
cannica
Se han empleado las 2 primeras funciones discriminantes cannicas en el
anlisis.
1.
Joaqun Alds Manzano
Anlisis discriminante 17
Finalmente, la matriz de confusin, evidencia que la capacidad clasificatoria de
las funciones obtenidas es menor que en el caso de dos grupos, al clasificar
adecuadamente slo al 77% de la muestra, siendo especialmente falible en el
grupo de uso intermedio.
Cuadro 16. Matriz de confusin
Resultados de la clasificacin
1
27 7 0 34
4 21 9 34
0 3 29 32
79,4 20,6 ,0 100,0
11,8 61,8 26,5 100,0
,0 9,4 90,6 100,0
menor uso
uso intermedio
mayoruso
nivel de
uso tres
niveles
menor uso
uso intermedio
mayoruso
nivel de
uso tres
niveles
Recuento
%
Original
menor uso
uso
intermedio mayoruso
Grupo de pertenencia pronosticado
Total
Clasificados correctamente el 77,0% de los casos agrupados originales. 1.
El ltimo paso, una vez establecida la significatividad y precisin del proceso,
es interpretar las funciones discriminantes. Ya hemos sealado la mayor impor-
tancia relativa de la primera funcin a la hora de separar los grupos. Pues bien,
como se comrpueba en los cuadros 17 y 18, ya utilizando el criterio de los coefi-
cientes estandarizados, ya el de la matriz de estructura, son las variables flexi-
bilidad de precios y servicio quienes determinan la funcin con pesos muy
parecidos. La segunda funcin viene tambin explicada por estas variables, con
la nica diferencia de que el servicio tiene signo negativo
Cuadro 17. Coeficientes estandarizados
Coeficientes estandarizados de las funciones
discriminantes cannicas
,833 ,688
,952 -,511
flexibilidad de precios
Servicio
1 2
Funcin
Joaqun Alds Manzano
Anlisis discriminante 18
Cuadro 18. Matriz de estructura
Matriz de estructura
,612* -,040
,473 ,881*
,637 -,771*
,029 -,696*
-,286 -,299*
-,100 -,262*
-,049 -,174*
Rapidez de servicio
1
flexibilidad de precios
Servicio
nivel de precios
1
Calidad del producto
1
Imagen del fabricante
1
Imagen de los
vendedores
1
1 2
Funcin
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.
Mayor correlacin absoluta entre cada variable y
cualquier funcin discriminante.
*.
Esta variable no se emplea en el anlisis. 1.
Finalmente, para clasificar a los individuos se procede del mismo modo que en
el caso de dos grupos, con la salvedad de que ahora se dispone de tres funcio-
nes lineales de Fisher (cuadro 19). Se ilustra la clasificacin de la empresa
nmero 1 de la base de datos de HATCO.
Joaqun Alds Manzano
Anlisis discriminante 19
Cuadro 19. Funciones de Fisher
Coeficientes de la funcin de clasificacin
7,924 8,895 10,367
13,118 16,855 18,622
-44,135 -61,370 -79,354
flexibilidad de precios
Servicio
(Constante)
menor uso
uso
intermedio mayoruso
nivel de uso tres niveles
Funciones discriminantes lineales de Fisher
Las funciones discriminantes son, pues:
5 1 3
5 2 3
5 3 3
44,13 7,92 13,11
61,37 8,89 16,85
79,35 10,36 18,62
F X X
F X X
F X X
= - + +
= - + +
= - + +
y como para la primera empresa X3 = 6,9 y X5 = 2,4, estas funciones toman
los valores:
1
2
3
44,13 7,92 6,9 13,11 2, 4 42,02
61,37 8,89 6,9 16,85 2,4 40,45
79,35 10,36 6,9 18,62 2,4 36,87
F
F
F
= - + + =
= - + + =
= - + + =
De tal modo que las probabilidades a posteriori sern:
( )
( )
( )
42,02
42,02 40,45 36,87
40,45
42,02 40,45 36,87
36,87
42,02 40,45 36,87
Pr 1/ 0,82
Pr 2/ 0,17
Pr 3/ 0,01
e
g D
e e e
e
g D
e e e
e
g D
e e e
= = =
+ +
= = =
+ +
= = =
+ +
con lo que la empresa ha sido clasificada en el grupo 1, correspondiente a aquel
tercio que menos uso hace de los servicios de HATCO. Esta clasificacin
mediante la funcin discriminante coincide, en este caso, con la real. Cualquier
nueva empresa podra clasificarse con una probabilidad calculable, sin ms que
conocer sus valoraciones de X3 y X5.
Joaqun Alds Manzano
Anlisis discriminante 20
Referencias bibliogrficas
Hair, J.F.; Anderson, R.E.; Tatham, R.L. y Black; W.C. (1995): Multivariate
Data Analysis. 4 edicin. Englewood Cliffs, NJ: Prentice Hall.
Uriel, E. (1997): Anlisis de datos. Series temporales y anlisis multivariante.
Madrid: AC.
Joaqun Alds Manzano
Anlisis discriminante 21

Você também pode gostar