Você está na página 1de 35

MDULO 6:

ANLISIS MULTIVARIADO









PROFESOR: LUIS E. NIETO BARAJ AS

EMAIL: lnieto@itam.mx

URL: http://allman.rhon.itam.mx/~lnieto








Diplomado en Estadstica Aplicada




2
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Mdulo 6: Anlisis Multivariado


OBJ ETIVO: Proporcionar al alumno los aspectos bsicos de la teora y de la
aplicacin con computadora de las principales tcnicas del anlisis
estadstico de varias variables (multivariado).


PLAN DE ESTUDIOS:
1. Introduccin.
2. Anlisis exploratorio multivariado.
3. La distribucin normal multivariada.
4. Anlisis de componentes principales.
5. Anlisis de cmulos.
6. Escalamiento multidimensional.
7. Anlisis de factores.
8. Anlisis discriminante.
9. Solucin de problemas prcticos.


REFERENCIA BSICA:
J ohnson, D. E. (2000). Mtodos multivariados aplicados. ITP International
Thomson Editores: Mxico.





3
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
REFERENCIAS ADICIONALES:
Hair, J . F., Anderson, R. E., Tatham, R. L. & Black, W. (1998).
Multivariate data analysis. Prentice Hall College Division.
J ohnson, R. A. & Wichern, D. W. (2002). Applied multivariate statistical
analysis. Prentice Hall: London.
Kachigan, S. K. (1991). Multivariate statistical analysis. Radius Press.


PAQUETES ESTADSTICOS: En el curso habr un paquete estadstico bsico,
en el cual se ejemplificarn las tcnicas presentadas. Este paquete bsico
no es exclusivo, si el alumno as lo desea, puede auxiliarse de cualquier
otro paquete estadstico.
Paquete bsico: R (http://www.r-project.org/)
Paquetes auxiliares: Splus, SPSS, Statgraphics, Minitab, Matlab


EVALUACIN: El alumno realizar un anlisis estadstico de una base de
datos multivariada. El trabajo debe contener un anlisis exhaustivo usando
al menos una de las tcnicas multivariadas vistas en clase. Al finalizar el
mdulo, el alumno deber exponer y entregar su trabajo conteniendo los
siguientes puntos:
1) Descripcin de la base de datos.
2) Anlisis de los datos (exploratorio y descriptivo).
3) Conclusiones, en el contexto de los datos, sobre los anlisis realizados.
4) Fuente de los datos y bibliografa usada.



4
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
1. Introduccin

Los datos multivariados surgen en distintas reas o ramas de la ciencia.
Ejemplos:
1) Investigacin de mercados: Identificar caractersticas de los individuos
para determinar qu tipo de personas compran determinado producto.
2) Agricultura: Resistencia de determinado tipo de cosechas a daos por
plagas y sequas.
3) Psicologa: Relacin entre el comportamiento de adolescentes y
actitudes de los padres.

En qu situaciones surgen los datos multivariados?
Cuando a un mismo individuo se le mide ms de una caracterstica de
inters.

Un individuo puede ser un objeto o concepto que se puede medir. Ms
generalmente, los individuos son llamados unidades experimentales.
Ejemplos de objetos: personas, animales, terrenos, compaas, pases, etc.
Ejemplos de conceptos: amor, amistad, noviazgo, etc.

Caractersticas de los individuos: Los individuos deben de ser
independientes entre s.

Una variable es una caracterstica o atributo que se le mide a un individuo.




5
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado







OBJ ETIVOS de los mtodos multivariados:
1) Simplificacin: Los mtodos multivariados son un conjunto de tcnicas
que permiten al investigador interpretar y visualizar conjuntos grandes
de datos (tanto en individuos como en variables).
2) Relacin: Encontrar relaciones entre variables, entre individuos y entre
ambos.
2.1) Relacin entre variables: Existe relacin entre variables cuando las
variables miden una caracterstica comn. Ejemplo: Suponga que
se realizan exmenes de lectura, ortografa, aritmtica y lgebra a
estudiantes de 6
o
de primaria. Si cada uno de los estudiantes
obtiene calificaciones altas, regulares o bajas en los cuatro
exmenes, entonces los exmenes estaran relacionados entre s. En
este caso, la caracterstica comn que estos exmenes pueden estar
midiendo podra ser la "inteligencia global".
2.2) Relacin entre individuos: Existe relacin entre individuos si
alguno de ellos son semejantes entre s. Ejemplo: Suponga que se
evalan cereales (para el desayudo) respecto a su contenido
nutricional y se miden, por ejemplo, los gramos de grasa, protenas,
Tipos de variables
Numricas Categricas
Continuas Discretas Ordenadas No ordenadas



6
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
carbohidratos y sodio a cada uno de ellos. Se podra esperar que los
cereales de fibra estn relacionados entre s, o que los cereales
endulzados tengan cierta relacin entre s, adems se podra esperar
que ambos grupos fueran diferentes de uno a otro.

Uso de los mtodos multivariados: Mineras de datos (data mining).

Los mtodos multivariados son realmente un conjunto de tcnicas que en
su gran mayora tienen un carcter exploratorio y no tanto inferencial.

CLASIFICACIN de los mtodos multivariados:
1) Dirigidas o motivadas por las variables: se enfocan en las relaciones
entre variables. Ejemplos: matrices de correlacin, anlisis de
componentes principales, anlisis de factores, anlisis de regresin y
anlisis de correlacin cannica.
2) Dirigidas o motivadas por los individuos: se enfocan en las relaciones
entre individuos. Ejemplos: anlisis discriminante, anlisis de cmulos
y anlisis multivariado de varianza.


EJ EMPLOS de datos multivariados.

Ejemplo 1. (J ohnson, 2000). Caractersticas de candidatos a ingresar a la
polica.




7
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Variables (medidas en centmetros).
EST: Estatura
ESTSEN: Estatura sentados
BRAZO: Longitud del brazo
ANTEB: Longitud del antebrazo
MANO: Ancho de la mano
MUSLO: Longitud del muslo
PIERNA: Longitud de la parte inferior de la pierna
PIE: Longitud del pie
Variables adicionales:
BRACH: Razn de la longitud del antebrazo y de la del brazo 100
TIBIO: Razn de la parte inferior de la pierna y la del muslo 100

Ejemplo 2. (J ohnson, 2000). Consumo de caucho y otras variables desde
1948 hasta 1963.
Variables.
CTC: Consumo total de caucho
CCN: Consumo de caucho para neumticos
PA: Produccin de automviles
PNB: Producto nacional bruto
IPD: Ingreso personal disponible
CCM: Consumo de combustible por motor

Ejemplo 3. (SIMM90, CONAPO). Sistema automatizado de informacin
sobre la marginacin en Mxico 1990.



8
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Variables.
NOMBRE: Nombre
POB: Poblacin total
SUPERF: Superficie
DENSP: Densidad
ANALF: Porcentaje de poblacin mayor de 15 aos analfabeta
S/PRI: Porcentaje de poblacin mayor de 15 aos sin primaria completa
S/EXC: Porcentaje de ocupantes en viviendas sin drenaje ni excusado
S/ELE: Porcentaje de ocupantes en viviendas sin energa elctrica
S/AGU: Porcentaje de ocupantes en viviendas sin agua entubada
HACIN: Porcentaje de viviendas con hacinamiento
PISOT: Porcentaje de ocupantes en viviendas con piso de tierra
L5000: Porcentaje de poblacin en localidades con menos de 5,000
habitantes
INGRE: Porcentaje de poblacin ocupada con ingreso menor de 2 salarios
mnimos
INDICE: Indice de marginacin
GRADO: Grado de marginacin

Ejemplo 4. (J onson & Wichern, 2002). Tasas de retorno semanales de 5
acciones de la bolsa de Nueva York.
Variables.
A.Chem: Tasa de retorno de Allied Chemical
Dupont: Tasa de retorno de Du Pont
U.Carbide: Tasa de retorno de Union Carbide



9
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Exxon: Tasa de retorno de Exxon
Texaco: Tasa de retorno de Texaco

Ejemplo 5. (J onson & Wichern, 2002). Informacin sobre 22 compaas de
servicio pblico en E.U.A. en 1975.
Variables.
X
1
: Razn de cobertura (Ingreso/Pasivo)
X
2
: Tasa de retorno sobre capital
X
3
: Costo por capacidad de KW (en sitio)
X
4
: Factor anual de carga
X
5
: Crecimiento pico en la demanda entre 1974 y 1975 (kWh)
X
6
: Ventas anuales en kWh
X
7
: Porciento nuclear
X
8
: Costo total de energa (centavos por kWh)

Ejemplo 6. (Internet). Informacin sobre crditos a personas fsicas.
Variables.
CLASS: Clasificacin de crdito, 1 otorgado, 0 no otorgado.
GENDER: Gnero del solicitante, 1 hombre, 0 mujer
AGE: Edad del solicitante (en aos)
J OBYRS: Antigedad en el trabajo (en aos)
MSTATUS: Estado civil, 1 casado, 0 soltero
TOTINC: Ingreso total mensual (en dlares)
TOTBAL: Deuda total (excluyendo deuda hipotecaria)
TOTPAY: Pagos mesuales totales que el aplicante realiza de TOTBAL



10
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
NOTACIN de matrices y vectores:
p =nmero de variables
n =nmero de individuos
X
ij
=j-sima variable del i-simo individuo
x
ij
=valor observado de la j-sima variable del i-simo individuo
i=1,...,n y j=1,....,p

Matriz de datos:
|
|
|
|
|
.
|

\
|
=
np 2 n 1 n
p 2 22 21
p 1 12 11
x x x
x x x
x x x
x


x
ij
=elemento en el i-simo rengln y j-sima columna
Renglones =individuos
Columnas =variables

Vectores de datos:
Los renglones de la matriz de datos se pueden expresar como vectores de la
siguiente forma: El i-simo rengln de X se escribe como
( )
ip 2 i 1 i
'
i
x ,..., x , x x =
Nota: Todos los vectores son vectores columna, i.e.,
|
|
|
|
|
.
|

\
|
=
ip
2 i
1 i
i
x
x
x
x





11
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
ESPERANZAS y VARIANZAS de vectores aleatorios
|
|
|
|
|
.
|

\
|
=
p
2
1
X
X
X
X



Media:
|
|
|
|
|
.
|

\
|

=
|
|
|
|
|
.
|

\
|
= =
p
2
1
p
2
1
) X ( E
) X ( E
) X ( E
) X ( E


es un vector de medias de dimensin p1.

Varianzas-Covarianzas:
( )( ) { }
'
X X E ) X , X ( Cov ) X ( Var = = = E
Escribiendo el vector completo,
( )


|
|
|
|
|
.
|

\
|



= E
p p 2 2 1 1
p p
2 2
1 1
X ,..., X , X
X
X
X
E



( ) ( )( ) ( )( )
( )( ) ( ) ( )( )
( )( ) ( )( ) ( )
|
|
|
|
|
.
|

\
|



=
2
p p 2 2 p p 1 1 p p
p p 2 2
2
2 2 1 1 2 2
p p 1 1 2 2 1 1
2
1 1
X X X X X
X X X X X
X X X X X
E






12
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Finalmente, los elementos de E se denotan como:
|
|
|
|
|
.
|

\
|
o o o
o o o
o o o
= E
pp 2 p 1 p
p 2 22 21
p 1 12 11



donde, { }
2
j j j j j jj
) X ( E ) X ( Var ) X , X ( Cov = = = o , para j=1,2,...,p, y
{ } ) X )( X ( E ) X , X ( Cov
j j k k j k kj
= = o , para k=j=1,2,...,p
E es una matriz de varianzas y covarianzas dimensin pp.

Correlaciones:
|
|
|
|
|
.
|

\
|



= = P
1
1
1
) X ( Corr
2 p 1 p
p 2 21
p 1 12


donde,
jj kk
kj
j k kj
) X , X ( Corr
o o
o
= = , para k=j=1,2,...,p

Cometarios:
1) El coeficiente de correlacin
kj
es una medida de la relacin lineal
entre las variables X
k
y X
j
.
2) -1s
kj
s1
3) Si X
k
y X
j
son v.a. independientes 0
kj
= .




13
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
4) 0
kj
= Independencia entre X
k
y X
j
nicamente en el caso Normal.
5) Para apreciar la relacin (en general) entre dos variables es
recomendable, adems de calcular en coeficiente de correlacin, hacer
una grfica de dispersin de ellas.




14
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
2. Anlisis exploratorio multivariado

2.1. Estadsticas multivariadas descriptivas

Las estadsticas descriptivas (multivariadas), como su nombre lo indica,
sirven para describir el comportamiento de un conjunto de datos.

Formalmente, un conjunto de datos es una realizacin de una muestra
aleatoria
n 2 1
X ,..., X , X de una distribucin multivariada. Es decir, para
i=1,...,n,
|
|
|
|
|
.
|

\
|
=
ip
2 i
1 i
i
X
X
X
X

.
En otras palabras, cada X
i
es una variable aleatoria multivariada de
dimensin p.

Por lo tanto, un conjunto de datos esta formado por n realizaciones de p
variables aleatorias.
|
|
|
|
|
.
|

\
|
=
np 2 n 1 n
p 2 22 21
p 1 12 11
X X X
X X X
X X X
X

.





15
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
MEDIA MUESTRAL:

=
=
n
1 i
i
X
n
1

,
que en realidad, escribiendo el vector completo, se puede expresar como:

|
|
|
|
|
.
|

\
|
+ +
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
.
|

\
|

=
np
2 n
1 n
p 1
12
11
p
2
1
X
X
X
X
X
X
n
1


.
Esto implica que, para j=1,...,p

=
=
n
1 i
ij j
X
n
1

.
Propiedades: ( ) =

E .
Splus: mean

VARIANZA MUESTRAL:
( )( )
)
`

= E

=
n
1 i
'
i i

X
1 n
1

,
cuyos elementos se denotan como:
|
|
|
|
|
.
|

\
|
o o o
o o o
o o o
= E
pp 2 p 1 p
p 2 22 21
p 1 12 11



donde, ( )

= o
n
1 i
2
j ij jj

X
1 n
1

, para j=1,2,...,p, y
( )( )

= o
n
1 i
j ij k ik kj

X
1 n
1

, para k=j=1,2,...,p.



16
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Propiedades: ( ) E = E

E .
R: var

CORRELACIN MUESTRAL:
|
|
|
|
|
.
|

\
|
=
1 r r
r 1 r
r r 1
R
2 p 1 p
p 2 21
p 1 12


donde,
jj kk
kj
kj

r
o o
o
= , para k=j=1,2,...,p.
Propiedades:
1) -1 s r
kj
s 1
2) ( ) P = R E .
R: cor

CUARTILES MUESTRALES: Estas estadsticas de orden se obtienen como en
el caso univariado para cada una de las variables.
R: summary










17
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
2.2. Anlisis grfico de datos multivariados

DIAGRAMAS DE DISPERSIN (bidimensional).
Este tipo de diagrama consiste en graficar simultneamente en dos
dimensiones diagramas de dispersin entre todas las posibles parejas de
variables.
R: plot, pairs

DIAGRAMAS DE DISPERSIN (tridimensional)
Este tipo de diagrama consiste en graficar en tres dimensiones tres
variables simultneamente.
R:

DIAGRAMA DE BURBUJ AS (tridimensional)
Este tipo de diagrama consiste en graficar en dos dimensiones tres
variables en forma de burbujas de la siguiente manera: El eje de las X's
corresponde a una de las variables, el eje de las Y's corresponde a otra de
las variables, y la tercer variable quedar representada por el tamao de la
burbuja.
R: symbols

CARAS DE CHERNOFF (multidimensional)
Este tipo de diagrama consiste en graficar un conjunto multivariado de
variables en forma de caras, asociando caractersticas faciales diferentes a
variables diferentes. Por ejemplo, una variable se podra asociar con el



18
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
ancho vertical del ojo, la segunda con el ancho horizontal, la tercera con el
tamao del iris, y las otras se podran asociar con el espaciamiento de los
ojos, la altura de los ojos, la longitud de la nariz, en ancho de la nariz, la
longitud de las cejas, el ancho de las cejas. La inclinacin de las cejas, el
ancho de las orejas, la longitud de las orejas, la abertura de la boca, la
sonrisa, etc.
Estos diagramas son tiles para detectar datos extremos (outliers).
R: faces, faces2

DIAGRAMA DE ESTRELLAS (multidimensional)
Este tipo de diagrama se aplica cuando todas las variables toman valores
positivos y consisten en graficar rayos o ejes que parten de un punto
central. La longitud del rayo corresponde al valor de la variable y se tiene
un rayo para cada variable. Por ejemplo, vectores de datos con 5 variables
requerirn 5 rayos separados entre s por un ngulo de 72 grados.
La primera variable generalmente corresponde con el rayo que apunta
hacia el norte y las otras variables se representan sobre los otros rayos en el
orden del sentido del movimiento de las manecillas del reloj.
R: stars

DIAGRAMA DE ANDREWS (multidimensional)
Este tipo de diagrama consiste en representar a la observacin i-sima de
un vector aleatorio p-variado ( )
ip 2 i 1 i
'
i
x ,..., x , x x = de la siguiente forma:
+ + + + + = ) t 2 cos( x ) t 2 ( sen x ) t cos( x ) t ( sen x
2
x
) t ( f
5 i 4 i 3 i 2 i
1 i
i




19
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
para t < < t t . De esta forma, las observaciones para el individuo i dan
lugar a una nica funcin f
i
(t). El diagrama de Andrews se construye
graficando las funciones f
1
(t), f
2
(t),... f
n
(t) para t < < t t .
Estos diagramas son tiles para encontrar agrupamientos en los datos.
Tambin son tiles para localizar datos extremos.
Es recomendable que las variables estn medidas en unidades semejantes
(estandarizacin).
El orden de las variables afecta la interpretacin.




20
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
3. La distribucin normal multivariada.

3.1. Introduccin y definiciones.

La mayora de los mtodos multivariados tradicionales cuando son usados
para realizar inferencias, mas que para un carcter exploratorio, suponen
que los vectores de datos son muestras de v.a. normales multivariadas.

Un vector aleatorio X es normal multivariado si su distribucin conjunta es
normal multivariada.

Existen varias DEFINICIONES equivalentes de una distribucin normal
multivariada:
Definicin 1 (Simple): Se dice que un vector aleatorio
( )
p 2 1
'
X ,..., X , X X = tiene una distribucin normal multivariada si
( )

=
=
|
|
|
|
|
.
|

\
|
=
p
1 j
j j
p
2
1
p 2 1
'
X a
X
X
X
a ,..., a , a X a


tiene una distribucin normal univariada para todos los posibles valores del
vector a.
Definicin 2 (Formal): Se dice que un vector aleatorio ( )
p 2 1
'
X ,..., X , X X =
tiene una distribucin normal multivariada con vector de medias y matriz
de varianzas-covarianzas E, si su funcin de densidad est dada por



21
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
( ) ( ) ( )
)
`

E
E t
= E

x x
2
1
exp
) 2 (
1
, ; x f
1 '
2 / 1
2 / p
X
, para
p
x 9 e
Notacin: X ~ N
p
(, E)

PROPIEDADES de la distribucin normal multivariada:
Si X ~ N
p
(, E), es decir, el vector ( )
p 2 1
'
X ,..., X , X X = tiene una
distribucin normal multivariada, entonces
1) E(X) = y Var(X) =E.
2) Cada X
j
, para j=1,...,p, tiene un distribucin normal univariada. Es decir,
X
j
~ N(
j
, o
jj
) y por lo tanto, E(X
j
) =
j
y Var(X
j
) =o
jj
.
3) Si 0
jk
= o ( 0
jk
= ) para j=k=1,...,p entonces X
1
,X
2
,...,X
p
son v.a.
independientes.

Nota: Si cada X
j
, j=1,..,p tiene una distribucin normal univariada, no
necesariamente el vector ( )
p 2 1
'
X ,..., X , X X = tendr una distribucin
normal multivariada. En general s se cumple, pero existen algunos casos
atpicos en donde no.

3.2. Distribucin normal bivariada

Un caso particular de la distribucin normal multivariada es cuando el
nmero de variables p=2. En este caso, si ( )
2 1
'
X , X X = ~ N
2
(, E) se dice
que X tiene una distribucin normal multivariada de dimensin 2 o que X
tiene una distribucin normal bivariada, donde



22
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
|
|
.
|

\
|

=
2
1
y
|
|
.
|

\
|
o o
o o
= E
22 21
12 11
.
Recuerda que
22 11
12
12
o o
o
= .

La distribucin normal bivariada es de importancia porque es posible
visualizar su comportamiento en una grfica en tres dimensiones.

Caractersticas de la funcin de densidad normal bivariada.
1) Tiene forma acampanada,
2) Las curvas de nivel forman crculos (si o
11
=o
22
,
12
=0), o elipses.

R: dmvnorm, pmvnorm, rmvnorm.

3.3. Inferencia estadstica

El problema de inferencia estadstica consiste en aproximar el valor de
ciertas caractersticas poblacionales (llamadas parmetros) por medio de
resmenes (llamados estadsticas) generados a partir de la informacin
contenida en una muestra obtenida de la poblacin.

ESTIMACIN PUNTUAL: El problema de estimacin puntual consiste en
proporcionar un valor puntual que aproxime al parmetro de inters. Los
mtodos clsicos de estimacin puntual de parmetros son: mtodo de
momentos y mtodo de mxima verosimilitud.



23
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado

De los dos mtodos antes mencionados, el que produce estimadores con
mejores propiedades (insesgamiento, eficiencia, consistencia, etc.), es el
mtodo de mxima verosimilitud.

El mtodo de mxima verosimilitud consiste en encontrar el valor de los
parmetros que hacen que la muestra observada tenga probabilidad
mxima de haberse observado.

Los estimadores puntuales para el vector de medias , la matriz de
varianzas-covarianzas E y la matriz de correlaciones P de una distribucin
normal multivariada son la media muestral

, la varianza muestral E

y la
correlacin muestral R, cuyas expresiones son:

=
=
n
1 i
i
X
n
1

|
|
|
|
|
.
|

\
|
+ +
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
.
|

\
|

=
np
2 n
1 n
p 1
12
11
p
2
1
X
X
X
X
X
X
n
1


,
( )( )
)
`

= E

=
n
1 i
'
i i

X
1 n
1


|
|
|
|
|
.
|

\
|
o o o
o o o
o o o
= E
pp 2 p 1 p
p 2 22 21
p 1 12 11


,
|
|
|
|
|
.
|

\
|
=
1 r r
r 1 r
r r 1
R
2 p 1 p
p 2 21
p 1 12

,



24
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
donde, ( )

= o
n
1 i
2
j ij jj

X
1 n
1

, para j=1,2,...,p,
( )( )

= o
n
1 i
j ij k ik kj

X
1 n
1

, para k=j=1,2,...,p, y
jj kk
kj
kj

r
o o
o
= , para k=j=1,2,...,p.
Nota: El estimador

es el EMV de .
El estimador E

no es el EMV E, sino E

n
1 n
.
Propiedades: ( ) =

E , ( ) E = E

E y ( ) P = R E .
Splus: mean, var, cor.

PRUEBAS DE HIPTESIS: El problema de contraste de hiptesis en estadstica
consiste en decidir cul de dos hiptesis es correcta. La decisin se toma de
acuerdo con la informacin de la muestra.

La prueba de hiptesis de mayor importancia en datos multivariados es
probar si la correlacin entre dos variables es significativamente distinta de
cero.

Prueba de hiptesis para
jk
: Formalmente, se quiere probar
0 : H
jk 0
= vs. 0 : H
jk 1
=
La estadstica de prueba es:
2
jk
jk
r 1
2 n r
T


= ,



25
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
y la regin de rechazo es:
{ }
2 /
) 2 n (
t t : t
o

> ,
donde
2 /
) 2 n (
t
o

es el punto de una distribucin t-Student con (n-2) grados de


libertad que acumula o/2 de probabilidad a la derecha.
R: cor.test


INTERVALOS DE CONFIANZA: El calcular un intervalo de confianza es un
problema de estimacin por intervalo, en donde lo que se proporciona es
un conjunto de valores ltamente posibles como aproximaciones al
parmetro.

Al igual que en el caso de pruebas de hiptesis, el intervalo de confianza de
mayor inters es el de la correlacin entre dos variables.

Intervalos de confianza para
jk
: Existen varias propuestas, pero una de
ellas es la propuesta por Fisher. El intervalo de confianza en este caso
sera,
( ) ( )
)
`

+ < <
)
`

o o
3 n
z
r tanh tanh
3 n
z
r tanh tanh
2 /
jk
1
jk
2 /
jk
1
,
donde
2 /
z
o
es el punto de una distribucin normal estndar que acumula
o/2 de probabilidad a la derecha.






26
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Uso de correlaciones para agrupar variables. Es posible que cuando se
tiene un conjunto grande de variables, exista cierta relacin entre algunas
de las variables. El coeficiente de correlacin entre parejas de variables
permite agrupar variables de tal manera que variables en el mismo grupo
tengan correlaciones altas y variables en grupos diferentes tengan
correlaciones bajas.




27
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
4. Anlisis de componentes principales.

4.1. Breve repaso de matrices

Sea E una matriz cuadrada de pp tal que
|
|
|
|
|
.
|

\
|
o o o
o o o
o o o
= E
pp 2 p 1 p
p 2 22 21
p 1 12 11

.

Se dice que una matriz es simtrica si
kj jk
o = o para todo j,k=1,2,...,p.
Las matrices de varianzas-covarianzas siempre son simtricas.

Traza de una matriz: ( )

=
o = E
p
1 j
jj
tr .

Determinante de una matriz (cuadrada): ( )

=
E o = E = E
p
1 j
j 1 j 1
det , en donde
j 1 j 1
j 1
) 1 ( E = E
+
y
j 1
E es la matriz obtenida a partir de E al eliminar su
primer rengln y su j-sima columna.
El determinante de una matriz de 11 es igual al valor del nico elemento.
Ej: Si ( )
11
o = E entonces
11
o = E .
El de terminante de una matriz de 22 se calcula como:



28
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Si
|
|
.
|

\
|
o o
o o
= E
22 21
12 11
entonces
21 12 22 11
o o o o = E .
Ejemplo numrico:
Sea
|
|
.
|

\
|
= E
3 2
2 6
.
Entonces, tr(E)=6+3=9, y 14 4 18 2 ) 1 ( 2 3 ) 1 ( 6
2 1 1 1
= = + = E
+ +
.
R: det

Eigenvalores y eigenvectores: Los eigenvalores (o valores caractersticos)
y los eigenvectores (o vectores caractersticos) son valores y vectores que
caracterizan una matriz (cuadrada) y satisfacen
w w = E , (4.1)
donde es un eigenvalor y w es un eigenvector.
Los eigenvalores se obtienen como solucin a la ecuacin:
0 I = E ,
donde I es la matriz identidad. Esta expresin toma la forma de una
ecuacin polinomial en de grado p:
0 c c c c
1 p p
1 p
2
p
1
= + + + +
+

.
Las races de esta ecuacin son los eigenvalores de E. En general,
( )
p 2 1
'
,..., , = .
Si E es una matriz simtrica, sus eigenvalores son nmero reales y por lo
tanto se pueden ordenar de forma descendente
p 2 1
> > > .
Para cada eigenvalor
j
, existe un eigenvector w
j
que satisface la ecuacin
(4.1).



29
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado

Propiedades:
( )

=
= E
p
1 j
j
tr ,
[
=
= E
p
1 j
j
.
Ejemplo numrico:
Sea
|
|
.
|

\
|
= E
3 2
2 6
.
Los eigenvalores de E deben satisfacer 0 I = E , es decir,
0
3 2
2 6
=
|
|
.
|

\
|


.
Esto implica que (6-)(3-)-4=0, por lo que 0 14 9
2
= + . Resolviendo
la ecuacin obtenemos que
1
=7 y
2
=2.
Para calcular el eigenvector correspondiente a
1
=7 hacemos,
1 1 1
w w = E ,
es decir,
|
|
.
|

\
|
=
|
|
.
|

\
|
|
|
.
|

\
|
21
11
21
11
w
w
7
w
w
3 2
2 6

21 21 11
11 21 11
w 7 w 3 w 2
w 7 w 2 w 6
= +
= +

21 11
w 2 w = .
Existen muchos vectores que satisfacen la condicin
21 11
w 2 w = , pero el
nico vector normalizado ( ) 1 w w
1
'
1
= es: ( ) 5 1 , 5 2 w
'
1
= .
Similarmente, resolviendo
2 2 2
w w = E para
2
=2 se puede demostrar que
( ) 5 2 , 5 1 w
'
2
= .





30
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Una matriz es definida positiva si todos sus eigenvalores son positivos.

Una matriz es semi-definida positiva si todos sus eigenvalores son no
negativos.

NOTA: Las matrices de varianzas-covarianzas y de correlaciones tanto
poblacionales como muestrales son semidefinidas positivas.


4.2. Componentes principales

El anlisis de componentes principales es un procedimiento matemtico
que transforma un conjunto de variables posiblemente correlacionadas en
un conjunto menor de variables no correlacionadas llamadas componentes
principales.

Dadas n observaciones de p variables, el objetivo del anlisis de
componentes principales es determinar r nuevas variables no
correlacionadas llamadas componentes principales que representen la
mayor variabilidad posible de las variables originales.

El uso de esta tcnica es principalmente exploratoria y en general como un
paso intermedio para anlisis posteriores.





31
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
Los OBJ ETIVOS principales son:
1) Reducir la dimensionalidad de un conjunto de datos,
2) Interpretar un conjunto de datos.

CARACTERSTICAS: Las nuevas variables (componentes principales) son
creadas de tal manera que:
1) No estn correlacionadas.
2) La 1
a
componente principal explique la mayor variabilidad posible de
los datos.
3) Cada componente subsecuente explique la mayor variabilidad posible
restante no explicada por las componentes anteriores.

Formalmente, sea ( )
p 2 1
'
X ,..., X , X X = un vector aleatorio de p variables
con matriz de varianzas-covarianzas E con eigenvalores
0
p 2 1
> > > > . Sean ( )
p 2 1
'
Y ,..., Y , Y Y = nuevas variables formadas
como combinaciones lineales de las X
i
's, i.e.,
p pp 2 2 p 1 1 p
'
p p
p p 2 2 22 1 21
'
2 2
p p 1 2 12 1 11
'
1 1
X a X a X a X a Y
X a X a X a X a Y
X a X a X a X a Y
+ + + = =
+ + + = =
+ + + = =


Las componentes principales son aquellas combinaciones lineales
Y
1
,Y
2
,...,Y
p
no correlacionadas, cuyas varianzas son tan grandes como sea
posible.





32
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
COMPONENTES:
1
a
componente principal: X a Y
'
1 1
= , donde a
1
maximiza ( ) X a Var
'
1
sujeto a
1 a a
1
'
1
=
2
a
componente principal: X a Y
'
2 2
= , donde a
2
maximiza ( ) X a Var
'
2
sujeto a
1 a a
2
'
2
= y ( ) 0 X a , X a Cov
'
2
'
1
=
k
a
componente principal: X a Y
'
k k
= , donde a
k
maximiza ( ) X a Var
'
k
sujeto a
1 a a
k
'
k
= y ( ) 0 X a , X a Cov
'
j
'
k
= para j<k

Se puede demostrar que el mximo de la varianza de X a
'
1
entre todos los
vectores a
1
que satisfacen 1 a a
1
'
1
= es igual a
1
y por lo tanto, a
1
es el
eigenvector de E correspondiente al eigenvalor
1
.
Tambin, se puede demostrar que el valor mximo de la varianza de X a
'
2

entre todas las combinaciones lineales que satisfacen 1 a a
2
'
2
= y que no
estn correlacionadas con Y
1
es igual a
2
. Por lo tanto, a
2
es el eigenvector
de E correspondiente al eigenvalor
2
.
En general, se puede demostrar que el valor mximo de la varianza de X a
'
k

entre todas las combinaciones lineales que satisfacen 1 a a
k
'
k
= y que no
estn correlacionadas con Y
1
,Y
2
,...,Y
k-1
es igual a
k
. Por lo tanto, a
k
es el
eigenvector de E correspondiente al eigenvalor
k
.






33
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
INTERPRETACIN de
k
:
Recuerde que ( )
pp 22 11
tr o + + o + o = E es una medida de la variabilidad
total de las variables originales. Por otro lado, ( ) ( )
k
'
k k
X a Var Y Var = = ,
k=1,...,p. Por lo tanto, la variabilidad total de las variables componentes
principales ( )
p 2 1
tr + + + = E es igual a la variabilidad total de las
variables originales.

p 2 1
k
principal componente
sima - k la por explicada total
dad variabili la de Proporcin
+ + +

=
|
|
|
.
|

\
|

, k=1,2,...,p

INTERPRETACIN del vector de pesos ( )
kp 2 k 1 k
'
k
a ,..., a , a a = :
Los elementos a
kj
del eigenvector a
k
son llamados pesos y miden la
importancia de la j-sima variable en el k-simo componente principal.
La interpretacin se hace relativa a los dems pesos de las variables de la
misma componente, o
Se puede interpretar normalizando los coeficientes y definiendo las
correlaciones de cada variable con cada componente como:
( )
kj
jj
k
j k
a X , Y Corr
o

=
para j,k=1,,p

CUNTOS componentes principales son suficientes?
El nmero de componentes principales que de alguna manera pudieran
reemplazar a las variables originales, sin mucha prdida de informacin,



34
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
depende del problema en particular. En general, se desea que el porcentaje
de la variabilidad explicada por los r primeros componentes sea de al
menos el 80%.

Una forma alternativa de decidir el nmero de componentes significativos
es graficando
k
vs. k. Cuando los puntos de la grfica tienden a nivelarse,
estos eigenvalores suelen estar suficientemente cercanos a cero como para
que puedan ignorarse.

NOTA: Si no se tiene la matriz de varianzas-covarianzas poblacional E, se
realiza todo el anlisis anterior sobre la matriz de varianzas-covarianzas
muestral E

. En este caso, los componentes obtenidos seran estimaciones


de los componentes poblacionales.

VALORES O MARCADORES (scores) de los componentes principales: Para
poder visualizar las componentes principales es necesario calcular el valor
de cada componente para cada individuo en un conjunto de datos.
Sea x
i
el vector de variables medidas para cada individuo. Entonces el
valor de la k-sima componente principal para el i-simo individuo es

i
'
k ik
x a y = , para i=1,...,n y k=1,...,p.

4.3. Componentes principales sobre variables estandarizadas

Si la escala en que estn medidas las variables no es uniforme (similar), es



35
PROFESOR: LUIS E. NIETO BARAJ AS
Mdulo 6: Anlisis Multivariado
recomendable realizar un anlisis de componentes principales sobre las
variables estandrizadas, i.e.,
( )
11
1 1
1
X
Z
o

= ,
( )
22
2 2
2
X
Z
o

= , ... ,
( )
pp
p p
p
X
Z
o

=
En notacin matricial, ( ) E =

X Z
2 / 1
.
Propiedades: ( ) 0 Z E = y P = = ) Z ( Cov ) Z ( Var , donde P es la matriz de
correlaciones de los datos originales X.

Los componentes principales ( )
*
p
*
2
*
1
*'
Y ,..., Y , Y Y = del conjunto de
variables estandarizadas ( )
p 2 1
'
Z ,..., Z , Z Z = se obtienen de los
eigenvectores de la matriz de correlacin P de X.

Vectores de correlaciones de componentes:
Si
*
k
y
*
k
a son los eigenvalores y eigenvectores de la matriz P, las
correlaciones entre las variables estandarizadas y la k-sima componente
principal son,
( )
*
kj
2 / 1
*
k j
*
k
a Z , Y Corr = ,
para j,k=1,...,p.

NOTA: Los componentes principales obtenidos a partir de la matriz E son,
en general, diferentes a los obtenidos de la matriz P.

R: princomp, print, summary

Você também pode gostar