Você está na página 1de 5

Contenidos

FUNDADA
FUNDADA EN
EN 1976
1976

““Fructuoso
Fructuoso Clasificación de métodos Multivariados. Análisis de
Rodr íguez P
Rodríguez érez”
Pérez” Componentes Principales. Análisis Discriminante. Métodos de
Clasificación (Cluster ). Correlaciones Canónicas. Aplicaciones

MAESTRÍA DE PRODUCCIÓN ANIMAL

¨ ANÁ
ANÁLISIS MULTIVARIADO DE DATOS ¨

Dra.C. Lucía Fernández Chuairey


Profesor Titular
email: lucia@isch.edu.cu
Fundamento Matemático En un experimento se probaron tres dosis de fertilizante sobre 4 indicadores
del rendimiento en el cultivo del arroz: I1, I2, I3 y I4. Se utilizó un diseño
Completamente Aleatorizado desbalanceado y se tomaron respectivamente 3,
El Análisis Discriminante es un método multivariado 3 y 4 observaciones por tratamiento. Se quiere saber si existen diferencias
entre tratamientos atendiendo al comportamiento de 4 indicadores
Se parte de una matriz Xnxp evaluados.

 . 
 .  p: Número de variables
 
 .  n: Número de individuos
X =  ... ij ...  n≥ p
 . 
  variables cuantitativas
 . 
 
 .  nxp

En este caso existe una partición por filas de la matriz de datos, es decir, en la Individuos?
Variables? Diez individuos
muestra de individuos existen grupos formados a priori.
Cuatro variables I1, I2, I3 , I4 Tres grupos (dosis)

Los siguientes datos corresponden a las evaluaciones de dos variedades ANÁLISIS DISCRIMINANTE
de yuca (Señorita y CMC-40), en un experimento que duró tres años, y en
cada año se recogen 9 observaciones por variedad, esto da un total de 27
Permite describir las diferencias que puedan existir entre grupos
observaciones o individuos por variedad, para un tamaño de muestra total
de individuos, así como reflejar las variables que mayor aporte
de 54. hacen a esta diferenciación.

T rat A l t. Lo n g . D iá m . N úm . Masa B. B /h a R en d Var Descriptivos:


1 1 .6 6 3 0 .1 4 4 .6 2 4 .8 8 2 .0 9 2 .1 3 2 3 .4 1 2 1 .0 0 1
2 1 .6 4 3 0 .7 2 4 .5 6 4 .2 9 1 .8 6 1 .7 4 1 6 .0 1 1 8 .0 8 1 Verificar si a partir del conjunto de observaciones hay presencia de
. . . grupos bien diferenciados.
. . .
27 1 .5 3 3 4 .7 6 5 .3 5 5 .5 0 2 .5 3 2 .9 0 1 9 .6 4 3 3 .8 4 1  Encontrar las variables que mejor discriminan a grupos
28 1 .6 0 2 7 .6 2 5 .0 2 4 .8 8 2 .4 7 0 .7 3 7 .4 2 2 4 .8 3 2 preestablecidos.
29 1 .6 1 2 7 .6 9 4 .8 3 4 .2 9 1 .6 8 0 .7 9 8 .1 7 1 8 .8 2 2
. . .
. . .
Decisionales:
54 1 .4 4 3 6 .2 2 4 .7 9 5 .6 0 1 .7 2 1 .6 2 1 7 .4 4 2 8 .1 9 2
 Reclasificar los individuos del conjunto inicial de datos.
Variables? 8 variables Individuos? 54 individuos dos grupos (variedad)
 Clasificar nuevos individuos no presentes en la muestra.
Variedad 1 = CMC-40 (Grupo I) Variedad 2 = Señorita (Grupo II)
Fundamento Matemático (Análisis Discriminante) Fundamento Matemático

Se parte de una matriz Xnxp Se construyen g funciones discriminantes como combinación lineal de las variables
p: Número de variables originales, una para cada grupo preestablecido
 . 
 
Y1 = β 1 + α 11 X 1 + α 12 X 2 + .......... + α 1 p X p
. n: Número de individuos
 
 .  n≥ p
X =  ...

ij ... 

Y2 = β 2 + α 12 X 1 + α 22 X 2 + .......... + α 2 p X p
. variables cuantitativas
 
 .  Μ Μ
 
 .  nxp Yg = β k1 + α 12 X 1 + α k 2 X 2 + .......... + α kp X p
Existe una partición por filas de la matriz de datos

Buscar los coeficientes α β


El objetivo es estudiar (si es posible predecir) a partir del comportamiento
de los individuos en las p variables observadas, cuál va a ser la categoría de Estos coeficientes deben buscarse de tal forma, que se haga:
la variable dependiente o de clasificación a la que él va a pertenecer. mínima la varianza dentro de grupos y

máxima la varianza entre grupos


Para ello se construyen g funciones discriminantes, una para cada grupo:

¿Existen diferencia entre los grupos?


Los siguientes datos corresponden a las evaluaciones de dos variedades de
Para conocer si existen o no diferencias entre los grupos, atendiendo al conjunto de yuca (Señorita y CMC-40), en un experimento que duró tres años, y en cada año
las p variables continuas observadas, se utiliza:
se recogen 9 observaciones por variedad, esto da un total de 27 observaciones
Criterio del λ de Wilks o individuos por variedad, para un tamaño de muestra total de 54.

λ Wilks = det (W) / det (T) W y T matrices de varianzas y covarianzas dentro de


T rat A l t. Long . D iá m . N úm . Masa B. B /h a R end Var
grupos y total.
1 1 .6 6 3 0 .1 4 4 .6 2 4 .8 8 2 .0 9 2 .1 3 2 3 .4 1 2 1 .0 0 1

Se calcula el estadígrafo: 2 1 .6 4 3 0 .7 2 4 .5 6 4 .2 9 1 .8 6 1 .7 4 1 6 .0 1 1 8 .0 8 1
. . .
χ2 = - [ N -1 - ½ (P+1) * log (λ Wilks ) ] también se utiliza el p-valor . . .
27 1 .5 3 3 4 .7 6 5 .3 5 5 .5 0 2 .5 3 2 .9 0 1 9 .6 4 3 3 .8 4 1
28 1 .6 0 2 7 .6 2 5 .0 2 4 .8 8 2 .4 7 0 .7 3 7 .4 2 2 4 .8 3 2
¿Existe diferencia estadísticamente significativas
29 1 .6 1 2 7 .6 9 4 .8 3 4 .2 9 1 .6 8 0 .7 9 8 .1 7 1 8 .8 2 2
entre los grupos???? . . .
. . .
54 1 .4 4 3 6 .2 2 4 .7 9 5 .6 0 1 .7 2 1 .6 2 1 7 .4 4 2 8 .1 9 2
PROBABILIDAD
ESTADÍGRAFO
Variables? 8 variables Individuos? 54 individuos dos grupos (variedad)
χ2 calculado - χ2 tabulado p { rechazar H 0 / H 0 cierta }< α
entonces rechazo a H 0 Variedad 1 = CMC-40 (Grupo I) Variedad 2 = Señorita (Grupo II)
H 0 : grupos iguales
H 1 : diferencia entre grupos

X2 (8) = 15,5 Tabulada

X2 = 46,3 Calculada

43.6 15.5
χ 2
calculada 〉 χ 2 tabulada

Lamda Wilks (λ ) entre 0 y 1


Existe un efecto diferenciado de las dos
0-indica discriminación perfecta variedades de yuca atendiendo a los
1-ausencia de diferencia entre indicadores evaluados.
Total de individuos n = 54 grupos
¿Existen diferencia
Total de variables P=8 El Lambda de Wilks calculado se p { rechazar H 0 / H 0 cierta } < α
entre los grupos? aproxima a una F de Fisher,
Grupos : g = 2 según Rao (1952).
entonces rechazo a H 0

0.000 < 0.05

¿Qué expresión matemática tienen estas funciones discriminantes? Existe un efecto diferenciado de las dos variedades de yuca
atendiendo a los indicadores evaluados.

FD Var 1 FD Var 2 ¿Qué variables son responsables de esta


Altura 219,694 193,307 diferenciación?
BiomasaPorHect 1,52714 1,49267
BiomasaPorPlant 7,485267 -7,28821
Diámetro -2,7234 -2,626467
Largo 0,59877 0,53527
MasaPorPlanta 0,0728038 0,0887303 Fundamento Matemático
Número 1,3679 1,247
Rendimiento 0,443584 0,406435
CONSTANTE -310,083 -264,055 Para ello, se calcula para cada carácter el Lambda parcial, con su respectiva
significación.
FD (Variedad 1) = 219,694 * Altura + 1,527 * BiomPorHect + 7,485 *
BiomPorPlanta – 2,723 * Diám + 0,599 * Largo + 0,07 * MasaPorPlant + 1,37 * λ parcial= (λ después)/(λ antes)
Núm + 0,44 * Rend – 310,083

El valor de λ parcial significa cuán importante resulta la variable en la diferenciación


Variedad 1 = CMC-40 (Grupo I) Estas funciones se utilizan para predecir a de los grupos
qué grupo pertenece las nuevas
Una función para cada grupo
observaciones.
¿Qué variables son responsables de esta diferenciación?
Las variables X1 (altura) ; X3 (diámetro) y X6 (BiomasaPorPlanta)
provocan un efecto diferenciado en las dos variedades de yuca que
se estudian.
CMC – 40 Señorita
(GRUPO 1) (Grupo II)

Se puede seleccionar con clik derecho : Opciones de análisis. Escoger Métodos de


selección de variables: Selección hacia delante ó hacia atrás.

La variedad CMC – 40 es la que presenta la mayor altura, el mayor diámetro


y la mayor biomasa por planta, en comparación con la variedad Señorita.

Otro criterio utilizado para saber si existen diferencias


entre los grupos Algunas consideraciones:

• Es recomendable cuando se tiene una cantidad considerable de


variables.
Es el llamado por ciento de buena clasificación

• Siempre facilita información acerca de si las variables analizadas


discriminan o no los grupos
23 + 25 = 48 de un total
de 54 individuos • Puede no detectar diferencias entre grupos cuando existe gran
variabilidad dentro de los mismos

• Es frecuente usarlo como complemento de otros métodos como el


Análisis de Componentes Principales y Clúster Análisis
En la medida que este por ciento se aproxime a 100, indica que las funciones
discriminantes pueden ser usadas para clasificar un individuo ajeno a la muestra, en
uno de los grupos estudiados.

Você também pode gostar