Você está na página 1de 64

Anlisis de Componentes

Principales. Clasificacin
de Pases segn las
carreras de atletismo.
Trabajo Fin de Mster

Realizado por: Jos Antonio Snchez Rivera


Tutor: Dr. D. Ramn Gutirrez Snchez
Mster en Estadstica Aplicada.
A
Departamento de Estadstica e Investigacin Operativa.
Universidad de Granada. 2011/2012
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

ndice

1. MODELO DE ANLISIS DE COMPONENTES PRINCIPALES ...................... 3


1.1. Introduccin: .................................................................................................. 3
1.2. Construccin de las Componentes Principales ................................................. 4
1.2.1. Construccin sucesiva de las  componentes principales ....................................5
1.2.2. Construccin conjunta de las  componentes principales ...................................8

1.3. Estructura de la matriz de covarianza  en el ACP. .......................................... 9


1.3.1. Propiedad de invarianza .................................................................................. 10
1.3.2. Correlacin entre las CP y las variables originales. ............................................ 10
1.3.3. Componentes principales sobre la matriz de correlacin  ............................... 11
1.3.4. Estructuras especiales de  .............................................................................. 11
1.3.5. Muestras de combinaciones lineales de variables aleatorias............................. 12

1.4. Anlisis de Componentes Principales Muestral (ACPM) ................................. 13


1.5. Anlisis de Componentes Principales en poblaciones normales. .................... 15
1.5.1. Resultados de Anderson-Girschick ................................................................... 16

1.6. Clculo de las Componentes Principales poblacionales .................................. 17


1.7. Manejo simultneo de todas las componentes principales. ........................... 20
1.8. Test basados en la matriz  de covarianzas muestrales. ................................ 21
1.8.1. Test de Barlett 
.................................................................................... 21
1.8.2. Test de Bartlett-Lawley  ....................................................................... 22
1.8.3. Test de Anderson   ................................................................................ 23

1.9. Test basado en la matriz  de correlaciones muestrales ............................... 24


1.9.1. Casos particulares de test basados en  .......................................................... 25

1.10. Seleccin del nmero de componentes principales ........................................ 26


1.10.1. Actuacin con la matriz de covarianzas muestrales .............................................. 26
1.10.2. Actuacin con la matriz de correlaciones muestrales ........................................... 27

1.11. Anlisis de componentes principales y observaciones anmalas.................... 28


1.12. Representaciones grficas en el ACP. ............................................................ 31

1
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.13. Aplicaciones del ACP: ACP sobre k-grupos ..................................................... 32


1.13.1. Modelo de Okamoto 
o modelo de efectos fijos .................................... 32
1.13.2. El ACP y la Regresin lineal ................................................................................. 33

1.14. Resultados previos: Elipsoides equiprobables en una ;  y combinaciones


lineales de un vector aleatorio multidimensional. ................................................... 34
1.14.1. Combinaciones lineales de un vector aleatorio  ................................................. 35

2. APLICACIN A DATOS REALES ............................................................ 37


2.1. Anlisis exploratorio ........................................................................................ 39
2.2. Covarianza y correlacin entre las variables ..................................................... 41
2.3. Test de Hiptesis sobre la Matriz de Correlaciones ........................................... 42
2.4. Clculo de las Componentes Principales ........................................................... 44
2.5. Relacin entre las Variables y las Componentes Principales .............................. 46
2.6. Contribucin y Calidad de las Variables ............................................................ 48
2.7. Relacin entre los Pases y las Componentes Principales ................................... 49
2.8. Contribucin y Calidad de los Pases ................................................................. 52
2.9. Relacin entre Pases y Variables ..................................................................... 54

3. ANEXO 1: FUNCIONES DEL PAQUETE ade4 ......................................... 55

4. ANEXO 2: PROGRAMACIN EN R ....................................................... 57

5. BIBLIOGRAFA .................................................................................... 61

2
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Modelo de Anlisis de Componentes


Principales
1.1. Introduccin:

En la prctica, cuando se recoge informacin de una muestra de datos, lo ms


habitual es tomar el mayor nmero posible de variables. Sin embargo, si tomamos

tendramos que considerar 20  180 posibles coeficientes de correlacin; si


demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables,

2
hablamos de 40 variables, nos encontraramos con hasta 40  780 coeficientes.
2

Obtener ms de 40 variables de estudio, ya sea en un mbito empresarial, social,


econmico o cualquier otro campo, no es nada extrao, puesto que hay muchos
estudios que requieren de la recogida de una gran cantidad de propiedades y
caractersticas. Evidentemente, en un caso as es difcil visualizar relaciones entre las
variables.

Otro problema que se plantea es la fuerte correlacin que muchas veces se


presenta entre las variables, ya que si tomamos demasiadas variables (cosa que en
general sucede cuando no se sabe demasiado sobre los datos), lo normal es que estn
relacionadas o que midan lo mismo bajo distintos puntos de vista. Un ejemplo habitual
sera en un estudio mdico, donde la presin sangunea a la salida del corazn y la
salida de los pulmones estn fuertemente relacionadas.

Se hace necesario en estos casos reducir el nmero de variables. Es importante


resaltar el hecho de que el concepto de mayor informacin se relaciona con el de
mayor variabilidad o varianza. Cuanto mayor sea la variabilidad de los datos (varianza)
se considera que existe mayor informacin, lo cual est relacionado con el concepto de
entropa.

Una de las tcnicas para la reduccin de variables es el Anlisis de Componentes


Principales, que fue inicialmente desarrollado por Pearson a finales del siglo XIX y
posteriormente fue estudiado por Hotelling en los aos 30 del siglo XX. Sin embargo,
hasta la aparicin de los ordenadores no se empez a popularizar.

Para estudiar las relaciones que se presentan entre  variables correlacionadas,


es decir, que miden informacin comn, se puede transformar el conjunto original de
variables en otro conjunto de nuevas variables incorreladas entre s, que no tenga
repeticin o redundancia en la informacin, llamado conjunto de componentes
principales.

3
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Las nuevas variables son combinaciones lineales de las anteriores y se van


construyendo segn el orden de importancia en cuanto a la variabilidad total que
recogen de la muestra.

La manera ideal sera buscar  variables (  ) que sean combinaciones


lineales de las  originales y que estn incorreladas, recogiendo la mayor parte de la
informacin o variabilidad posible de los datos.
Est claro que si las variables originales estn incorreladas de partida, entonces no
tiene sentido realizar un anlisis de componentes principales.

El anlisis de componentes principales es una tcnica matemtica que no requiere


la suposicin de normalidad multivariante de los datos, aunque en el anlisis de

   , , # $ con el cual trabajaremos, se supondr modelizado a la hora de


componentes principales paramtrico que aqu abordaremos, el vector aleatorio

realizar inferencia por una distribucin normal -dimensional.

1.2. Construccin de las Componentes Principales

estructura de covarianza de un vector aleatorio    , , % $ buscando un nuevo


Me manera global, el anlisis de componentes principales pretende explicar la

sea en una situacin terica con matriz de covarianza conocida, o con una matriz de
sistema de ejes coordenados que indiquen las direcciones de mayor variabilidad, ya

covarianza estimada a partir de una muestra. Este nuevo sistema de ejes


coordenados es a lo que denominaremos las componentes principales.

aleatorio    , , % $ conocemos la matriz de covarianzas o la matriz de


Vamos a trabajar en primer lugar con el modelo terico en el cul, para un vector

correlaciones .

Como ya hemos dicho, las componentes principales de un vector aleatorio -


dimensional    , , % $, son combinaciones lineales incorreladas entre s.
Obtenemos por tanto  componentes principales ' , , '% , de la forma:

'  ) *   ) *  + , + ) * % %
-
'%  )%*   )%*  + , + )%%
*
%
A partir de esto deducimos que para dos componentes principales cualesquiera, '.
e '/ , para cualquier 0 y 1 en 21, , 3 tenemos:
456'.  456).*   ).* ).
789:'. , '/ ;  789:).* , )/* ;  ).* )/
Se denominan Componentes Principales (CP) de    , , # $, a las
combinaciones lineales ' , , '# que son incorreladas entre s y que hacen mximas las
varianzas 456'.  ).* ). , 0  1, , .

4
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.2.1. Construccin sucesiva de las  componentes principales

combinacin lineal '  ) *   ) *  + , + ) * % % tal que la varianza sea mxima.


Para la construccin de la primera componente principal se obtendr una

Para maximizar 456'  ) * ) , nos encontramos con una indeterminacin, ya


que dicha varianza aumentar sin ms que multiplicar )  ) , , ) % por una
constante positiva. Para evitar esto, impondremos la restriccin de que los vectores ).
sean unitarios.

Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el


siguiente problema:

max2456' 3  max2) * ) 3 A5) BCD ) * )  1


?@

Para esto, construimos la funcin de los multiplicadores de Lagrange:

)  ) * ) G ) * ) H 1

Derivamos respecto a ) , igualamos a cero y despajamos para obtener el mximo:

I )
 2 ) H 2G)  0 J  H GK )  0
I)

distinta de 0, la matriz  GK tiene que ser singular, lo que quiere decir que:
Por el Teorema de Roch-Frobenius, para que el anterior sistema tenga solucin

| GK|  0

Deducimos de esto que G es un autovalor de . Como la matriz de covarianzas es


de orden  y semidefinida positiva, sabemos que tendr  autovalores positivos:

G M GN M , M G% M 0

Del sistema  H GK )  0, tenemos que )  G) , por tanto:

456'  ) * )  ) * G)  G )O
*
)  G

Como nuestro objetivo es maximizar la 456'  G, tomaremos como G el


mayor autovalor, es decir, G .

Finalizamos deduciendo a partir de  G K )  0 que ) es el autovector de


asociado al autovalor G , que lo llamaremos D .

'  D* 
Resumimos por tanto que la primera componente principal vendr dada por:

5
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Y la varianza ser: 456'  G

combinacin lineal 'N  )N*   )N*  + , + )N%


*
% tal que la varianza sea mxima y
Para la construccin de la segunda componente principal se obtendr una

sea incorrelada con ' .

Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el


siguiente problema:

max2456'N 3  max2)N* )N 3 A5) BCD )N* )N  1 Q 789'N , '  )N* D  0


?P

De la condicin 789'N , '  )N* D  0 y como sabemos que D  GD , nos


queda que 789'N , '  )N* D  )N* GD  G)N* D  0, de donde obtenemos que la
segunda condicin es equivalente a:

)N* D  0

Es decir, que los dos vectores sean ortogonales. Construimos la funcin de los
multiplicadores de Lagrange:

N )N  )N* )N G )N* )N H 1 H R )N* D

Derivamos respecto a )N , igualamos a cero y despajamos para obtener el mximo:

IN )N
 2 )N H 2G)N H RD  0
I)N

Multiplicamos la igualdad anterior por D * , obteniendo:

2D * )N H 2G DO
*
)N H R DT
*
D 0 J R  2D * )N  2789' , 'N  0
S

De este modo:

IN )N
 2 )N H 2G)N  0 J  H GK )N  0
I)N

Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G


sera un autovalor de , concretamente GN , y )N el autovector asociado DN .

Resumimos por tanto que la segunda componente principal vendr dada por:

'N  DN* 

Y la varianza ser: 456'N  GN

6
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

combinacin lineal '/U  )/U *


  )/U *
,  + , + )/U ,% % tal que la varianza sea
*
Para la construccin de la (j+1)-sima componente principal se obtendr una

mxima y sea incorrelada con ' , , '/ .

Como en los casos anteriores, haciendo uso de los multiplicadores de Lagrange,


resolveremos el siguiente problema:

maxV456:'/U ;W  maxV)/U
*
)/U W
?XY@

A5) BCD )/U


*
)/U  1 Q 789:'/U , '. ;  )/U
*
D.  0 ; Z0  1, , 1

De la condicin 789:'/U , '. ;  )/U


*
D.  0; Z0  1, , 1 y como sabemos que
D.  G. D. ; Z0  1, , 1, nos queda que 789:'/U , '. ;  )/U *
D.  )/U
*
GD. 
G)/U D.  0, de donde obtenemos que la segunda condicin es equivalente a:
*

)/U
*
D.  0; Z0  1, , 1

Es decir, que el vector )/U es ortogonal a los vectores propios D. , 0  1, , 1.


Construimos la funcin de los multiplicadores de Lagrange:

/U :)/U ;  )/U
*
)/U G :)/U
*
)/U H 1; H [ R. )/U
*
D.
.\

Derivamos respecto a )/U , igualamos a cero y despajamos para obtener el

/
I/U :)/U ;
mximo:

 2 )/U H 2G)/U [ R. D.  0
I)/U
.\

Como en el caso anterior, multiplicando sucesivamente por D * , , D/* , obtenemos

R.  0; Z0  1, , 1
que:

De este modo:

I/U :)/U ;
 2 )/U H 2G)/U  0 J  H GK )/U  0
I)/U

Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G


sera un autovalor de , concretamente G/U , y )/U el autovector asociado D/U .

'/U  D/U*

Resumimos por tanto que la (j+1)-sima componente principal vendr dada por:

Y la varianza ser: 456:'/U ;  G/U

7
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

En general, tenemos que '  ' , , '% $ se puede expresar como el producto de
una matriz formada por los autovectores y el vector    , , % $.

' ]

D , D%
donde

]  D , , D%  _ - ` - a
D% , D%%

456'.  G. ; Z0  1, , 
Como tenemos que:

789:'. , '/ ;  0, Z0, 1  1, , ; 0 b 1

Nos queda que la matriz de covarianza de ' viene dada por:

G 0 , 0
0 GN , 0
 456'  d e
- - -
0 0 , G%

De donde deducimos que:

 456'  ]* 456 ]  ]* ]

O como la matriz ] es ortogonal, es decir, ]* ]  K, tenemos tambin que:

 ] ]$

1.2.2. Construccin conjunta de las  componentes principales

En lugar de ir obteniendo sucesivamente las componentes principales como en el


apartado anterior, resolviendo los diferentes problemas de mximos condicionados
mediante los multiplicadores de Lagrange, se puede actuar globalmente desde el
comienzo. Lgicamente se obtendr los mismos resultados, pero tendremos que usar
el siguiente resultado de maximizacin.

Lema 1 (Lema de maximizacin). Sea ] una matriz  f  definida positiva, con


autovalores G M GN M , M G% g 0 y autovectores normalizados D , , D% y sea f
un vector  f 1, arbitrario no nulo. Se cumple entonces que:

f * ]f
max  G , 5)i5jk5l8 Dj f  D
h f*f
f * ]f
min  G% , 5)i5jk5l8 Dj f  D%
h;h o h\S f * f

8
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

f * ]f
max  GsU , 5)i5jk5l8 Dj f  DsU , t  1,2, ,  H 1
hpq@ ,,qr f * f

A partir de este resultado, se puede deducir que:

Teorema 1: Teorema de componentes principales: Sea    , , % $ un vector


aleatorio con matriz de covarianzas conocida u definida positiva y real y sean
G M GN M , M G% g 0 los autovalores y D , , D% los autovectores de u. La i-sima
componente principal '. antes definida viene dada por:

'.  D.*   D.  + , + D.% % ; 0  1, , 

Si hay autovalores iguales, pongamos Gs , , GsUv , los autovectores Ds , , DsUv


asociados no son nicos, por lo que, en este caso, las respectivas componentes
principales no sern nicas.

Nota: Dada una matriz w,  f , definida positiva, con autovalores G M GN M , M


G% g 0 y autovectores D , , D% . Se puede obtener su descomposicin espectral como:

w  [ G. D. D.*
.\

Sea la matriz x  D , , D% formada por columnas por los autovectores


normalizados, y  l05yG , GN , , G% . Sabemos que x* x  K.

Conocido esto, podemos definir w z y w /N


.
% %
1
wz  xz x*  [ D. D.* w /N
 x /N
x*  [ |G. D. D.*
G.
.\ .\

1.3. Estructura de la matriz de covarianza  en el ACP.

Dado , definida positiva, la matriz de covarianzas de , hemos deducido que


 x x* , donde es la matriz diagonal de autovalores y x la matriz de autovectores

principales induce una fatorizacin estructural del matriz de covarianzas del vector
normalizados por columnas. Esto nos lleva a que el anlisis de componentes

   , , % $ . Vamos a utilizar esta factorizacin para obtener algunas


propiedades.

9
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.3.1. Propiedad de invarianza

En las condiciones descritas anteriormente, donde  x x* , tenemos que:

A6  A6x x*  A6xx*  A6


Es decir:
% %

[ 456.  } + , + }%%  A6  A6  G + , + G%  [ 456'.


.\ .\

componentes principales, puesto que la proporcin de la varianza total del vector ,


Esta invarianza es en realidad la base de la aplicacin prctica del anlisis de

que es debida a la j-sima componente principal, '/ , es ~ , 1  1, , .


~X
@ U,U~r

alto porcentaje de la varianza total, merece la pena sustituir el vector original  por
En la prctica, se las componentes principales son tales que unas pocas explican un

dichas componente principales.

variables originales y respecto de las componentes principales, es decir, || 


Tambin resulta invariante la varianza generalizada (Wilks) respecto de las

|x x* |  ||.

1.3.2. Correlacin entre las CP y las variables originales.


Sean ' , , '% , las  componentes principales asociadas al vector aleatorio  de
matriz de covarianzas conocida y G. , D. sus autovalores-autovectores. Definimos
como s*  0, ,0,1,0, ,0 , es decir, un vector de ceros con un uno en la posicin t.
Conocido esto, vamos a calcular el valor de , .

Como ,  ; veamos cunto vale 789'. , s .


 ,
|v  v

789'. , s  789s , '.  789s* , D.*   s* D.  s* G. D.  G. s* D.  G. D.s

donde D.s corresponde a la componente k-sima del vector propio D. .

Tenemos que 456'.  G. , 456.  }ss , as que:

789'. , s G. D.s |G. D.s


,    ; 0, t  1, , 
|456'. 456s |G. |}ss |}ss

importancia que cada variable original, s , tiene sobre cada componente principal '. .
Este es un resultado importante, ya que de esta forma podemos medir la

A raz de la expresin, deducimos que cuanto mayor sea la k-sima componente de D. ,


|D.s |, mayor ser la correlacin entre s e '. .

10
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.3.3. Componentes principales sobre la matriz de correlacin 

Sea el vector aleatorio    , , % $, donde     , , % y


789  . Definimos  l05y:} , }%% ;. Estandarizando el vector  nos

 z /N  H
quedara:

}z 0  H
_ - a ` _ - a
%% 0 }%z % H %

En el caso del vector , como est estandarizado, la matriz de covarianzas coincide


con la matriz de correlaciones, quedando:

  7866  7866  789 

/N 
 789z H  H * z /N
 z /N
z /N

El siguiente resultado nos dice que las componentes principales no son invariantes
ni homogneas frente a esta transformacin.

Lema 2: La i-sima componente principal del vector tipificado con matriz de


covarianzas , viene dada por '.  .*  .* z /N  H , 0  1, ,  siendo . los
autovectores asociados a los autovalores G. de , cumplindose la propiedad de que
G M GN M , M G% M 0, y verificndose adems que:

% %

[ 456'.  [ 456.  
.\ .\

Nota: En la prctica, habitualmente se usa la tipificacin, especialmente cuando el


rango de medicin es muy diferente.

1.3.4. Estructuras especiales de 

En algunos casos particulares, nos encontramos con matrices de covarianzas con


una forma peculiar, sobretodo en problemas de biologa:

N N , N
 d N , N e
N

- - -
N N , N

11
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

donde la matriz de correlaciones vendra dada por:

1 ,
1 ,
d e
- - -
, 1

Si obtenemos los valores propios de , resolviendo la ecuacin | H GK|  0,


cuando es positivo, nos queda:

G  1 +  H 1
GN  ,  G%  1 H

Es decir, nos queda una raz de rango mximo, G , y otra de multiplicidad  H 1. El


autovector asociado a la primera raz, G , viene dado por  1, ,1 * f z /N.

Con respecto a la raz mtiple, le corresponde un subespacio de dimensin  H 1


en el que podemos definir unos vectores ortonormales de la forma:

N  1, H1,0, ,0, ,0 * 1 f 2 z


 1,1, H2, ,0, ,0 * 2 f 3 z
-
.  1,1, , H0 H 1 ,0, ,0 * |0 H 1 f 0 z
-
%  1,1,1, ,1, H H 1 * | H 1 f  z

La primera componente principal vendra dada por '  *   z /N


f %.\ . ,
+
~ z
%
que explicara un de la varianza total.

1.3.5. Muestras de combinaciones lineales de variables aleatorias

Sea    , , % $ un vector aleatorio, y i$ una combinacin lineal definida. Si


tomamos una muestra de tamao , la combinaciones lineales muestrales quedaran:

i * f/  i f / + , + i% f%/ , 1  1, ,

siendo f/  f / , , f%/ el j-simo individuo de la muestra.

La varianza muestral de las combinaciones lineales muestrales vendr dada por:

1
i * f H i * f N + i * fN H i * f N + , + i * f H i * f N 
H1

12
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1
 i * f H f f H f * i + i * fN H f fN H f * i + , + i * f H f f H f * i 
H1

1
 i * f H f f H f * + fN H f fN H f * + , + f H f f H f * i 
H1


.\ f0 H f
f0 H f $
i *
i  i * i
H1

Si suponemos otra combinacin lineal distinta *  para la misma muestra,


tendramos que su media muestral sera * f y su varianza muestral * . La covarianza
muestral entre las dos combinaciones lineales vendra dada por:

1
 * f H * f i * f H i * f $ + , +  * f H * f i * f H i * f $ 
H1

1
 * f H f f H f * i + * fN H f fN H f * i + , + * f H f f H f * i 
H1

f H f f H f * + fN H f fN H f * + , + f H f f H f *
 $ i  * i
H1

1.4. Anlisis de Componentes Principales Muestral (ACPM)

   , , % $ de tamao , f , fN , , f . Dicha poblacin tiene un vector de


Supongamos que disponemos de una muestra aleatoria de una poblacin

medias   y matriz de covarianzas 789  desconocida. Llamaremos como


f y a la media muestral y matriz de covarianza muestral respectivamente. El objetivo,
como en el caso terico, es conseguir explicar el mayor porcentaje posible de variacin
de la muestra con unas combinaciones lineales incorreladas de las variables que hagan
mximas las varianzas.

Una combinacin lineal para la muestra f , fN , , f viene dada por:

).* f/  ) . f / + )N. fN/ + , + )%. f%/ ; 1  1, ,

Nos queda que para cada combinacin lineal ).* f/ , una media muestral ).* f , una
varianza muestral ).* ). , y para cada par ).* f/ y )s* f/ una covarianza muestral ).* )s .

Llamamos primera componente principal muestral a una combinacin lineal ) * 


tal que al considerar sus valores sobre la muestra, 2) * f , ) * fN , , ) * f 3, stos hacen
mxima la varianza 4562) * f , ) * fN , , ) * f 3  ) * ) sujeto a la restriccin ) * )  1.

Llamamos segunda componente principal muestral a una combinacin lineal )N* 


tal que al considerar sus valores sobre la muestra, 2)N* f , )N* fN , , )N* f 3, stos hacen
mxima la varianza 4562)N* f , )N* fN , , )N* f 3  )N* )N sujeto a la restriccin de que
)N* )N  1 y que sea incorrelada con la anterior,

13
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

7892) * f , ) * fN , , ) * f 3, 2)N* f , )N* fN , , )N* f 3  0

En trminos matriciales, ) * )N  )N* )  0.

Llamamos i-sima componente principal muestral a una combinacin lineal ).*  tal
que al considerar sus valores sobre la muestra, 2).* f , ).* fN , , ).* f 3, stos hacen
mxima la varianza 4562).* f , ).* fN , , ).* f 3  ).* ). sujeto a la restriccin de que
).* ).  1 y que sea incorrelada con las anteriores,

7892)s* f , )s* fN , , )s* f 3, 2).* f , ).* fN , , ).* f 3  0 ; t  1, , 0 H 1

En trminos matriciales, )s* ).  ).* )s  0; t 0.

Teorema 2: Sea    , , % $ un vector aleatorio con vector de medias   y


matriz de covarianzas 789  u desconocida. Sea una muestra f , fN , , f de ,
con f/  :f / , fN/ , , f%/ ;, 1  1, , . La media muestral y la covarianza muestral


1
vendran dados respectivamente por:

f  [ f.

.\

1
 ./  [f.s H f. f/s H f.
H1
s\

Sean G M GN M , M G% M 0 los  autovalores de , obtenidos de la ecuacin


| H GK|  0. Sean D , DN , , D% los respectivos autovectores.

Sean Q.  D. f las componentes principales muestrales, donde f es cualquier


observacin de la variable .

Se cumple que:

45605jk5 CDA65)Q.  G.

7895605jk5 CDA65)Q. , Qs  0, 0 b 1

Ds. G.
,h 
|ss
%

45605jk5 8A5) CDA65)  [ ..  G + , + G%


.\

As que tipificando la muestra 2f , , f 3, siendo f/  f / , , f%/ , se obtiene:


Es habitual, al igual que en el caso del modelo terico, tipificar las observaciones.

14
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

z
k/  /N
:f/ H f ;

f./ H f.
Es decir,
k./  , 0  1, , ; 1  1, ,
|..


1 1
Obtenemos que:

k  [ k/  0 
[k. H k k. H k *  
H1
.\ .\

es la matriz de correlacin muestral, 


Donde  
z /N z
/N

1.5. Anlisis de Componentes Principales en poblaciones


normales.

   , , % $ sea normal -variante, sino slo que   y 789  . Hemos


Hasta este punto, no hemos supuesto en ningn momento que el vector aleatorio

visto dos casos:

1. Cuando es conocida, as que G. y D. son conocidos determinsticamente.


2. Cuando es desconocida, as que hemos basado el anlisis de componentes
principales en una muestra de la poblacin. Como no conocamos , hemos
trabajado sobre la matriz de cuasivarianza muestra .

Para conocer el comportamiento de G. y D. y, en definitiva, de Q. , obtenidos en el

el muestreo de G. , races caractersticas de la matriz muestra y, en consecuencia, hay


anlisis de componentes principales muestral, es preciso basarse en la distribucin en

que modelizar la distribucin de o, de manera anloga, de  y de sus races . .

Para esto, tenemos que modelizar el vector , y el caso bien conocido del Anlisis
Multivariante terico corresponde a la distribucin normal multivariante % , . El
esquema sera:

Si  % , , g 0 desconocida, y % h es la matriz de la muestra, sabemos


que  y  , donde ]  .\ f. H f f. H f .
*
z

15
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Segn el teorema de Dyskstra, si g 0, entonces (o ]) son definidas positivas y


todos sus autovalores son distintos. Si no es definida positiva, puede utilizarse la
modelizacin normal con 65jy  .

sobre los autovalores G. . Suponemos que todos los autovalores son distintos y
En el caso normal, vamos a ver algunos contrastes bsicos de carcter asinttico

positivos, G g GN g , g G% g 0.

1.5.1. Resultados de Anderson-Girschick

Supuestas las condiciones de normalidad descritas anteriormente, sea G 


G , GN , , G% $ y D , DN , , D% los autovalores y autovectores de , y anlogamente
G  G , GN , , G% y D , DN , , D% los autovalores y autovectores de . Sea
 l05yG , GN , , G% y
%
Gs
.  G. [ D D*
Gs H G. N s s
s\
s.
Entonces:

G H G % 0,2N
D. H D. % 0, .

Adems, cada G. se distribuye independientemente de los elementos del


respectivo D. .

Nota: Del resultado anterior, G H G % 0,2N , cuando tiende a , como

que los G. se distribuyen independientemente.


la matriz de covarianza de la normal multivariante asinttica es diagonal, deducimos

Obtenemos tambin que, aproximadamente G. G. , 2GN. / . Esto nos permite


establecer intervalos de confianza al 1001 H % como:

:G. H G.  k/N G. |2/;  1 H

G. G.
 G. 
1 + k/N |2/ 1 H k/N |2/

Hay que tener cuidado con estos intervalos cuando un G. es muy grande y no lo

recomienda trabajar siempre que se pueda con la matriz de correlaciones .


sea, ya que se producen intervalos muy amplios, y pueden dar lugar a error. Se

Nota: Del resultado dado anteriormente por D. H D. % 0, . , cuando


tiende a , los D. se distribuyen normalmente alrededor de D. . Pero los elementos de

16
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

D. estn correlacionados, no son independientes, y el grado de correlacin depende de


la separacin de los autovalores G , GN , , G% que no se conocen, y del tamao .

Los errores tpicos aproximados de los coeficientes Ds. , componentes de D. ,


vienen dados por la diagonal de . , donde . coincide con . , sustituyendo Gs por Gs .

y Girschichk (1939), para que sean ciertos, las races caractersticas tericas de en la
Debemos tener en cuenta que en estos resultados asintticos de Anderson (1963)

distribucin base tienen que ser distintas y no nulas. Adems, la matriz . depende, en
elemento fuera de la diagonal principal, de los valores tericos que no son conocidos.

1.6. Clculo de las Componentes Principales poblacionales

Sea    , , % $ un vector aleatorio -variante con   y matriz de


covarianza conocida . Vamos a considerar los casos en que la matriz de covarianza es

 0, ya que solo nos interesan las varianzas y covarianzas de .


semidefinida positiva y que puede tener races mltiples. Suponemos adems que

La primera componente principal de , es una combinacin lineal normalizada


'  ) , donde )  ) , , ) % y ) * )  1, con la cual se pretende que la varianza
sea mxima, es decir, resolver el problema:

max2456' 3  max2) * ) 3 A5) BCD ) * )  1


?@

Para esto, construimos la funcin de los multiplicadores de Lagrange:

)  ) * ) G ) * ) H 1

Derivamos respecto a ) , igualamos a cero y despajamos para obtener el mximo:

I )
 2 ) H 2G)  0 J  H GK )  0
I)

Como ) b 0, ya que ) * )  1, el anterior sistema tiene solucin distinta de 0 si la


matriz  GK es singular, lo que quiere decir que:

| GK|  0

Deducimos de esto que G es un autovalor de , y ) el autovector asociado. Como


la matriz de covarianzas es de orden  y semidefinida positiva, sabemos que tendr
 autovalores positivos:

G M GN M , M G% M 0

17
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Del sistema  H GK )  0, tenemos que )  G) , por tanto:

456'  ) * )  ) * G)  G )O
*
)  G

Como nuestro objetivo es maximizar la 456'  G, tomaremos como G el


mayor autovalor, es decir, G .

Se define finalmente la primera componente principal como la funcin lineal


normalizada dada por:
%

'  D *   [ D. .
.\
La varianza de la primera componente principal viene dada por 456'  G

Nota: No hemos supuesto en ningn momento que  siga una distribucin en


particular. Si  se distribuye segn una normal -variante con matriz de covarianzas u,

los elipsoides de concentracin y la primera componente principal, '  D * ,


definida positiva, entonces las superficies de densidad de probabilidad constante son

representa el eje mayor principal de este eloipsoide. Bajo la suposicin de normalidad,


las componentes principales implicarn una rotacin de los ejes coordenados a los ejes
principales de estos elipsoides. Si existen races mltiples, dichos ejes no estarn
unvocamente determinados.

La segunda componente principal de , es una combinacin lineal normalizada


'N  )N , donde )N  )N , , )N% y )N* )N  1, con la cual se pretende que la varianza
sea mxima y que est incorrelada con ' , es decir, resolver el problema:

max2456'N 3  max2)N* )N 3 A5) BCD )N* )N  1 Q 789'N , '  )N* D  0


?P

De la condicin 789'N , '  )N* D  0 y como sabemos que D  GD , nos


queda que 789'N , '  )N* D  )N* GD  G)N* D  0, de donde obtenemos que la
segunda condicin es equivalente a:

)N* D  0

Es decir, que los dos vectores sean ortogonales. Construimos la funcin de los
multiplicadores de Lagrange:

N )N  )N* )N G )N* )N H 1 H R )N* D

Derivamos respecto a )N , igualamos a cero y despajamos para obtener el mximo:

IN )N
 2 )N H 2G)N H RD  0
I)N

18
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Multiplicamos la igualdad anterior por D * , obteniendo:

2D * )N H 2G DO
*
)N H R DT
*
D 0 J R  2D * )N  2789' , 'N  0
S

IN )N
De este modo:
 2 )N H 2G)N  0 J  H GK )N  0
I)N

Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G


sera un autovalor de , concretamente GN , y )N el autovector asociado DN .

Resumimos por tanto que la segunda componente principal vendr dada por:
%

'N  DN*   [ DN. .


.\

La varianza de la segunda componente principal vendr dada por: 456'N  GN

hasta la componente principal 6, 6  , encontrando una combinacin lineal


Utilizando un mtodo similar al de induccin, podemos construir de esta forma

'v  Dv*   .\ D.v . , donde Dv es el vector caracterstico asociado al autovalor Gv , la


%

6-sima raz caracterstica de mayor magnitud. Para construir la + -sima


componente principal, buscamos una combinacin lineal normalizada )vU , que

anteriores, ' , 'N , 'v .


tenga varianza mxima, y sea incorrelada con todas las componente principales

Todo esto queda resumido en resolver el problema:

max2456'vU 3  max2)vU
*
)vU 3
?Y@

A5) BCD )vU


*
)vU  1 Q 789'vU , '.  )vU
*
D.  0 ; Z0  1, , 6

De la condicin 789'vU , '.  )vU


*
D.  0; Z0  1, , 6 y de D.  G. D. ; Z0 
1, , 6, nos queda que 789'vU , '.  )vU
*
D.  )vU
*
GD.  G)vU
*
D.  0, de donde
obtenemos que la segunda condicin es equivalente a:

)vU
*
D.  0; Z0  1, , 6

Es decir, que el vector )vU es ortogonal a los vectores propios D. , 0  1, , 6.

Haciendo uso de los multiplicadores de Lagrange, construimos la funcin:


v

vU )vU  )vU
*
)vU G )vU
*
)vU H 1 H [ R. )vU
*
D.
.\

19
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Derivamos respecto a )vU , igualamos a cero y despajamos para obtener el

IvU )vU
v
mximo:

 2 )vU H 2G)vU [ R. D.  0
I)vU
.\

Como en el caso anterior, multiplicando sucesivamente por D * , , Dv* , obtenemos

R.  0; Z0  1, , 6
que:

De este modo:

IvU )vU
 2 )vU H 2G)vU  0 J  H GK )vU  0
I)vU

Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G


sera un autovalor de , concretamente GvU . Mientras que )vU el autovector asociado
DvU .

Resumimos por tanto que la 6 + 1 -sima componente principal vendr dada por:
%

'vU  DvU
*
  [ DvU ,. .
.\

Y la varianza de la 6 + 1 -sima componente principal ser: 456'vU  GvU

Hay que tener cuidado en el caso de que GvU  0 y G.  0 para 0 b 6 + 1, ya


que la condicin D.* DvU  0 no implica que D.* DvU  0. En este caso, se
reemplazara DvU por una combinacin lineal de DvU y el D. para el cual G.  0, y
construiramos el nuevo DvU ortogonal a todos los D. , 0  1, , 6.

1.7. Manejo simultneo de todas las componentes principales.

Sea  D , DN , , D% la matriz de vectores caractersticos normalizados de , y


 l05yG , GN , , G% , donde G M GN M , M G% son todas las races caractersticas
ordenadas de . Sabemos que *  K, por lo que *  . En estas condiciones
podemos enunciar el siguiente resultado:

Teorema 3: Existe una transformacin ortogonal '  $, tal que 789  donde
es una matriz diagonal de elementos G M GN M , M G% M 0 que son las races
ordenadas de u. La 0-sima columna de , D. , satisface u H G. K D.  0. Las
componentes de ' son incorreladas, e '. tiene varianza mxima entre todas las
combinaciones lineales normalizadas incorreladas con ' , 'N , , '.z .

20
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

El vector ' es llamado el vector de componentes principales de . En el caso de


races mltiples, por ejemplo, GvU  ,  GvU  G, tenemos que u H G. K .  0,
0  6 + 1, , 6 + . Esto es, . , 0  6 + 1, , 6 +  son  vectores caractersticos de
u. Veamos que no puede haber otro vector ms, es decir, probaremos que no se
puede encontrar otro vector linealmente independiente a vU , , vU solucin de
u H G K  0.

Para ver esto, tomamos %.\ 5. . (5. escalares), solucin de u H G K  0, con


lo que:
% % % %

G [ 5. .  _[ 5. . a  [ 5. .  [ 5. G. .
.\ .\ .\ .\

Como G5.  G. 5. , tenemos que 5.  0, a menos que 0  6 + 1, , 6 + .

Si vU , , vU son soluciones de u H G K  0, entonces, para cualquier


matriz no singular 7, vU , , vU 7, es tambin una solucin de u H G K 
0. A partir de la condicin de ortonormalidad de vU , , vU se concluye que 7 es
una matriz ortogonal. Podemos enunciar entonces el siguiente teorema.

Teorema 4: Si GvU  ,  GvU  G, entonces u H G K es una matriz de rango


 H . Adems, los correspondientes vectores caractersticos DvU  ,  DvU estn
nicamente determinados salvo multiplicacin por la derecha por una matriz
ortogonal.

1.8. Test basados en la matriz  de covarianzas muestrales.

Vamos a ver algunos test basados en la matriz de covarianzas muestrales , que


nos servirn para contrastar la igualdad de mltiples races caractersticas.

1.8.1. Test de Barlett 


Este test sirve para contrastar que los  H t autovalores ms pequeos son todos
iguales.

S : GsU  GsUN  ,  G%

Se construye el estadstico siguiente:

2
2B + 1 + B s

wS  d H t H 1 H e H ln|| + [ ln )/ + B ln )
6
/\

21
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

B Ht
donde:

)/  1-sima raz caracterstica mayor de


s
1
)  A6 H [ )/
B
/\

Dicho estadstico, bajo la hiptesis nula, sigue una distribucin N con N  H t H


1  H t + 2 grados de libertad, asintticamente. As que rechazaremos la hiptesis
nula a un nivel de significacin 1 H , cuando wS g ;N
1
H1 +2
.
2

Para el caso particular de t  0, es decir, del contraste de igualdad de todas las


races caractersticas, S : GsU  GsUN  ,  G% , nos quedara el estadstico:

1 2
H _ H 1 H 2 + 1 + a :ln|| +  ln1/ A6 ;
6 

que sigue una distribucin 1NH1 +2 .


2

1.8.2. Test de Bartlett-Lawley 

Se trata de una correccin del test anterior, en el que igualmente se trata de


contrastar la hiptesis:

S : GsU  GsUN  ,  G%  G

Este test se basa en la matriz de covarianzas muestrales , que viene dada por:


1
 [f. H f f. H f $

.\
Sabemos que un una poblacin normal multivariante % , , con g 0,
tenemos que es una estimacin de la matriz de covarianzas,  .

Este resultado nos dice que para contrastar la hiptesis nula S : GsU  GsUN 
,  G%  G, sobre la base de  , se obtiene construye la variable:

s
1 2 1
H t H 1 H 2 H t + + 1 + GN [
6 Ht G. H G N
.\

A6 H s.\ G.
%zs

H ln s + ln
.\ G. Ht

22
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Esta variable se comporta, con un orden de aproximacin de 1/ N , segn una Chi
cuadrado 1NHtH1 Ht+2 .
2

G, y las races caractersticas de , dadas por G. , por lo que no es un estadstico. Para


Como podemos observar, esta variable depende de valores no conocidos, como son

que esto sea aplicable en la prctica, sustituiremos los valores de G. por sus
estimadores mximo verosmiles, G. , los autovalores de , y el valor de G por:

s %
1 1
G  _A6 H [ G. a  _ [ G. a
Ht Ht
.\ .\sU

Quedando finalmente el estadstico:

% N s
1 2 1 1
S  H t H 1 H 2 H t + + 1 + _ [ G. a [
6 Ht  H t N G. H G N
.\sU .\

A6 H s.\ G.
%zs

H ln s + ln
.\ G. Ht

S g ;
N
Y rechazando finalmente la igualdad de races caractersticas si
HtH1 Ht+2
1
2

1.8.3. Test de Anderson  

El test de Anderson, es una generalizacin del test de Barlett, con el cual


podremos contrastar la igualdad de un conjunto de races caractersticas consecutivas,
no solo el conjunto de las ms pequeas. Es decir, si tenemos el conjunto de

G g GN g , g G g GU g , g GUv g GUvU g , g G%
autovalores ordenados:

La hiptesis a contrastar sera:

S : GU  ,  GUv  G

A partir del mtodo del cociente de verosimilitudes y su comportamiento

Uv Uv
asinttico, se llega al siguiente estadstico:
1
H H 1 [ ln G. +  H 1 6 ln [ G.
6
.\U .\U

que sigue una distribucin Chi cuadrado ;


N
1
6H1 6+2
.
2

23
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Es claro que cuando B + 6   (igualdad de las ltimas  H B races), este test


coincide con el de Bartlett.

(en este caso t  0), nos quedara el siguiente estadstico. Este caso es denominado,
Para el caso particular de contrastar que todas las races caractersticas son iguales

caso de esfericidad.
%
1 2
H _ H 1 H 2 + 1 + a _ln|| +  ln1/ [ G. a 
6 
.\

que sigue una distribucin Chi cuadrado ;


N
1
H1 +2
.
2

que se han obtenido ya t componentes principales, y se quiere saber si las  H t


Nota: En la prctica, el test de Bartlett-Lawley se usa habitualmente para el caso en

restantes no son significativas. Esto es, si es verdad la hiptesis nula, con un G


pequeo, podremos prescindir de las componentes principales restantes.

1.9. Test basado en la matriz  de correlaciones muestrales

En la prctica del anlisis de componentes principales muestral, habitualmente es


preciso tipificar los valores observados, debido por ejemplo a que las variables tienen

inutilizables. Vamos a ver por tanto un test basado en la matriz de correlaciones ,


diferentes escalas de medida. Esto nos hace que los test visto anteriormente queden

por la matriz de correlaciones muestrales .


estimada por mxima verosimilitud en el caso de una poblacin normal multivariante

Este problema fue estudiado primeramente por Lawley, y recogido y aplicado por
Dhrymes entre otros. La hiptesis nula vendra dada por:

S : sU  sUN  ,  %  ; t 

donde . son las races caractersticas de , cuyos estimadores mximos verosmiles


). Tenemos que el estadstico:
vienen dados por . (los autovalores de 


 H s.\ . %zs
A6
 H 1 H ln s + ln
.\ . Ht

se comporta bajo S asintticamente, con un orden de aproximacin de 1/, segn


una Chi cuadrado N con grados de libertad:

24
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

% % % %
1 1
   H t H 1  H t + 2 H  H t H 1 [ [ i./
N N
./ [ [ i.. i// ./
N

2 Ht
.\ /\ .\ /\

donde i./ es la componente 0, 1 de la matriz 7  K H * ; siendo la matriz de


vectores caractersticos por columnas de las t primeras races caractersticas de .
Observamos que  depende me muchos parmetros desconocidos, como es el caso
de y ./ , por lo que no se trata de un verdadero estadstico. Para poder ser usada en
la prctica, se calcular  usando los estimadores mximo verosmiles de los
parmetros desconocidos, y redondeando al entero ms prximo. En general, este
clculo se har con la ayuda de un ordenador.

1.9.1. Casos particulares de test basados en 

Un test fcilmente aplicable, y que nos interesar siempre rechazar, es comprobar


si la matriz de correlaciones coincide con la matriz identidad. Si la hiptesis nula fuese
cierta, aceptaramos que todas las variables son independientes, y no tendra sentido

esfericidad sobre .
realizar el anlisis de componentes principales. Este test se denomina test de

S :   K
Se trata de contrastar la hiptesis:

:b K

Tenemos que el estadstico:

1

H H 1 H 2 + 5 ln
6

bajo la hiptesis nula, sigue una distribucin Chi cuadrado %%z


N
/N .

en que la matriz de covarianzas tiene la forma:


Otro test muy til en la prctica, sobre todo en el campo de la Biologa, es el caso

N N , N
 d N , N e
N

- - -
N N , N
o equivalentemente, que la matriz de correlaciones sea del tipo:

1 ,
1 ,
S  d e
- - -
, 1

25
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Nos interesara contrastar la hiptesis:

S :   S
:  b S

Se rechazara S con un nivel de significacin 1 H , si:


%
H1
[6.s H 6 N H [6s H 6 N g ;%UN %U
N
1 H 6 N /N
.s s\

%
1
donde:

6s  [ 6.s ; t  1, , 
H1
.\
.s

2
6  [ 6.s
 H 1
.s

 H 1 21 H 1 H 6 N 3
N

 H  H 2 1 H 6 N

1.10. Seleccin del nmero de componentes principales

Una de las mayores dificultades en el anlisis de componentes principales, es


seleccionar el nmero ptimo de componentes, es decir, el menor nmero posible de
stas, que expliquen la mayor variabilidad posible. Existen varios test que permiten
fundamentar objetivamente tal decisin, pero las fuertes hiptesis bajo los que se

cuando se trabaja con la matriz de correlaciones .


obtienen y la dificultad de los mismos, los hacen prcticamente inviables, y ms an

En la prctica se usan habitualmente ciertos criterio para la eleccin del nmero


de componentes, segn se est trabajando con la matriz de covarianzas muestrales o
con la matriz de correlaciones muestrales.

1.10.1. Actuacin con la matriz de covarianzas muestrales

Uno de los mtodos ms utilizados en la prctica es el porcentaje de variabilidad

proporcionado por las t t  primeras componentes se obtiene como:


explicado por las primeras componentes principales. El porcentaje de informacin

s.\ G.
100%
% G.
.\

26
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

porcentaje de la varianza prximo a un valor prefijado, por ejemplo, un 80%. Este


En general, se obtiene el nmero de componentes principales que explique un

porcentaje vara habitualmente segn el campo en que se est trabajando, puesto que
un estudio social, se usara un porcentaje alrededor del 60%, mientras que en un
estudio mdico o cientfico, este porcentaje sera prximo al 80%.

partir de la t componente principal, los autovalores se estabilizan, aumentar la


Otro mtodo utilizado es la estabilidad de las races caractersticas, ya que si a

dimensin apenas aportara ms variabilidad. Para esto, es de gran utilidad construir


un grfico de sedimentacin con las diferentes races.

1.10.2. Actuacin con la matriz de correlaciones muestrales

En la mayora de los problemas prcticos nos encontraremos en esta situacin,


trabajando con la matriz de correlaciones, as que veremos los criterios de seleccin
del nmero de componentes ms habituales:

Criterio del Kaiser (1958), o criterio de la raz caracterstica mayor que 1. Se


seleccionan aquellas componentes principales cuyo autovalor es mayor que 1, de esta
forma nos garantizamos que las componentes principales seleccionadas expliquen ms

probado que es ms correcto el punto de corte G  0$7.


variabilidad que una variable observable u original. Estudios de Montecarlo han

suponiendo como punto de corte la media de las varianzas, es decir, G  A6 /.
Este criterio se podra extender tambin al caso de la matriz de covarianzas,

Estudios de Montecarlo consideran usar como punto de corte 0* 7 G.

Criterio de Cattell (1966), o Screen test. Consiste en representar grficamente


en el eje de ordenadas los autovalores, y en el eje de abscisas las componentes
extradas segn su orden de extraccin. En general se podrn distinguir dos tramos
claros, uno constituido por muy pocos puntos y con una pendiente negativa muy
grande, y otro en el que se encuentran la mayora de los puntos con un decaimiento
muy lento. Este criterio consiste en elegir tantas componentes como puntos haya en el
primer tramo de la curva.

principales igual que en el Screen test. Por otra parte, se consideran t conjuntos de
Criterio de Horn (1965). Se representan los autovalores de las componentes

una normal -variante, de tamao N todos, de los cuales conoceremos la estructura de


correlacin. Se generan estas t muestras, se calculan los autovalores-medios (media
aritmtica de los autovalores de los t casos) y se van representando uno a uno. Es de
esperar que la ordenada 1 se alcance en /2. El criterio consiste en quedarse con las
componentes principales anteriores al punto de cruce.

27
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.11. Anlisis de componentes principales y observaciones


anmalas

La explicacin tcnica de las representaciones grficas en la interpretacin del

el comportamiento de f/ H 95)86 6Dl0i8 565 f/ , es decir, en medir el error


Anlisis de Componentes Principales, se basa en la idea antes expuesta de considerar

cometido al ajustar el dato mediante las componentes principales.

El error de ajuste f/ H f
; 1  1, , , mediante una matriz ]  5 , , 5 ,
vendr dado por:

D6686  [:f1 H f H 5/ ; :f1 H f H 5/ ;  [ [f01 H f . H 5./ N


*

/\ .\ /\

En definitiva, suponemos que la matriz f1 H f , f2 H f , , f H f % h


ajustada por la matriz ]  5 , , 5 % h .
es

En general podemos suponer que 6y]  6 mn , . Esta condicin se


podr precisar ms si nos encontramos bajo la hiptesis de normalidad.

Por otro lado, en el anlisis de componentes principales muestral, las


componentes vienen dadas por

Q.  D.*  D . k + DN. kN + , + D%. k% ; 0  1, , 

con variables tipificadas; o bien por

Q.  D.*   D . f + DN. fN + , + D%. f% ; 0  1, , 

Matricialmente tenemos:

Q% h  D , D% *% h % % h

f/ ; 1  1, , , tendremos:
Si se consideran los valores de las componentes principales sobre toda la muestra

Q , Q
'% h  - -  D , D% *% h % % h
Q% , Q%

En efecto:

28
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

f
Q.  D.*   :D . , D%. ; _ - a  D . f + DN. fN + , + D%. f%
f%

D f + DN fN + , + D% f% D D%
- - - f
D
Q  . f + D f + , + D f
%. %  D . D%. _ - a 
N. N
- - - f%
D % f + DN% fN + , + D%% f% D % D%%

D *
-*
 D.   D , D. , D% $ 
-
D
%
*

considerando toda la muestra f/ ; 1  1, , tenemos

Q , Q f f

- ,
- f-
-
f. 
'% h  Q. Q.  D , D. , D% % h % .
*

- - - -
f f%
Q% , Q% %

 D , D. , D% *% h % f , f % h

Despejando nos queda:

:D , D. , D% ; '  f , f

y desarrollando tenemos:

Q , Q f f
D , D . , D - - -
- f.
Q.  f.
%
- - - Q. ,
D% , D%. , D%% - - - -
Q , Q% % f f%
%

Q /
de donde:

f/  :D , D. , D% ; - ; 1  1, ,
Q %
Es decir

f/  Q / D + QN/ DN + , + Q./ D. + , + Q%/ D% 


 D * f/ D + DN* f/ DN + , + D.* f/ D. + , D%* f/ D%

29
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Deducimos por tanto que si tomamos un conjunto formado por las primeras B
componentes principales y el conjunto de las  H B ltimas, y la parte de f/ que es
explicada por ambos conjuntos de componentes principales, es decir:

Q / D + , + Q/ D
QU ,/ DU + , Q%/ D%

Consideramos el ajuste de f/ mediante:

f/ H Q / D + , + Q/ D

Mientras que QU ,/ DU + , Q%/ D% ser el error cometido en la aproximacin.


Una medida para el error puede ser la longitud al cuadrado, es decir:

BU
N
,/ + , + B%/
N

DU ; ; D% la coordenada respectiva sea grande. Es claro que esta medida del error
Este error ser grande en la medida en que sobre alguno de los ejes principales

ser menor, por otra parte, cuanto mejor sea el ajuste del dato f/ por las B primeras
componentes principales, y es claro tambin que si una observacin es
estructuralmente anmala frente a las dems, provocar que el error sea grande.

supuesto que estructuralmente las B componentes principales primeras ajustan bien al


Esto puede servir como un mtodo para la deteccin de observaciones anmalas,

conjunto de las observaciones y se buscan entonces las que estructuralmente son

que se comete al aproximar estructuralmente por las primeras B componentes


errneas (outliers). Es preciso entonces conocer el error global sobre toda la muestra

principales todos los elementos de la muestra. Para ello es preciso analizar la


geometra del anlisis de componentes principales muestral.

Teorema: Al aproximar f/ H f
; 1  1, , por una matriz ]  5 , , 5 , con
rango 6y]  6 j, , el error global

[:f1 H f H 5/ ; :f1 H f H 5/ ;
*

/\

se minimiza cuando se toma por ] la matriz ]  Q , Qv $ donde

 D , Dv

formada con los primeros 6 autovectores. De modo que

Q
]% h  D , Dv % h v _ - a  5 , 5
Qv v h

30
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

con 5/  Q / D + , + Qv/ Dv y siendo

Q / , Qv/  D * :f1 H f ; , Dv* f1 H f

los valores de las primeras 6 componentes principales muestrales sobre el elemento 1-


simo de la muestra, centrado en f .

El mnimo alcanzado (error cuadrtico) vale:

[:f1 H f H 5/ ; :f1 H f H 5/ ;   H 1 GvU + , + G%


*

/\

primeras 6 componentes principales y, adems, nos lo expresa en trminos de los


Nota: Este teorema nos da el error cometido al aproximar toda la muestra por las

autovalores muestrales. Pero tambin nos interpreta el significado de las componentes

aproximar la muestra centrada por los 5/ : se minimiza el error cuando la aproximacin


principales obtenidas mediante la minimizacin de un error cuadrtico cometido al

] se construye precisamente con las 6 primeras componentes principales, con


6y]  6 j, .

1.12. Representaciones grficas en el ACP.

Podemos establecer unas tiles prcticas grficas que nos servirn para
comprobar la normalidad de las componentes principales obtenidas, para la deteccin
de datos anmalos y para obtener una idea de la estructura geomtrica de las
componentes.

se representan grficamente los pares Q. , Qs . Si queremos aceptar una normalidad


Para la comprobacin de la normalidad de las primeras componentes principales,

conjunta, el contorno de los valores de Q. , Qs sobre f/ ; 1  1, , deber ser


sensiblemente elptico para valores no anmalos. En segundo lugar se representa va
una Q-Q plot los valores de cada componente principal sobre la muestra, donde
tambin nos servir para detectar valores anmalos.

Una tcnica grfica muy utilizada para obtener una idea de la estructura de las

las filas (variables) y las columnas (individuos) de una matriz de datos %h . Estos
componentes principales es el grfico biplot. Se trata de un grfico que representa

datos se representan tomando como ejes coordenados pares de componentes


principales, y de esta forma observar la relacin de los individuos y de las variables con
las diferentes componentes, as como la deteccin de valores anmalos.

31
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

1.13. Aplicaciones del ACP: ACP sobre k-grupos

Es comn en la prctica encontrarse con una muestra no aleatoria e


independiente, proveniente de varias poblaciones distintas. En este caso se puede
optar por dos caminos:

1. Aplicar el anlisis de componentes principales a cada grupo por separado, y


comparar las componentes principales deducidas en cada caso.
2. Plantear un tratamiento global de la situacin, como es el ANOVA respecto de
un test de diferencia de medias dos a dos.

El objetivo ser contrastar si los grupos son homogneos respecto de su estructura


de componentes principales. Si dicha estructura no se conoce, se har el anlisis sobre
toda la muestra y podr ser utilizado para obtener posibles cluster o grupos entre
ellos.

Algunos modelos que nos resuelven esta situacin son:

1.13.1. Modelo de Okamoto 


o modelo de efectos fijos

Supongamos definidas las componentes principales escritas de manera centrada:

Q.  D.* f H f ; '  D , D. , D% *  H f

que aplicada a la muestra f/ ; 1  1, , dar los valores:

Q./  D.* :f/ H f ;; 0  1, , ; 1  1, ,

Vimos que f/  Q / D + QN/ DN + , + Q./ D. + , + Q%/ D% , de donde quedndonos


con las B primeras componentes principales tenemos que:

f/  Q / D + , + Q/ D 2+QU ,/ DU + , Q%/ D% 3

de donde la )-sima componente de f/ viene dada por:

f/?  Q / D ? + , + Q/ D? + [ Qv/ Dv?


v\U

Esto sugiere el modelo terico:


f/?  ? + [ v/ v? + /? ; 1  1, , ; 0  1, , 


v\

32
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

en el que los v? y v/ son tales que verifican propiedades anlogas a las verificadas
por los D. (ortogonalidad) y por la covarianza entre Q?/ (covarianzas nulas). Bajo esta
estructura puede efectuarse un anlisis de la varianza.

1.13.2. El ACP y la Regresin lineal

Se considera un modelo de regresin lineal mltiple:

Q.  S + f. + , + %z f.,%z + . ; 0  1, ,

Q.  + f. H f . + , + %z f.,%z H f .%z + . ; 0  1, ,

De forma matricial tenemos:

Qz  1 +  h % % h + h

 ; ; ; %z $
donde:

 h %  f H f , f H f

Tenemos que la matriz de cuadrados viene dada por:

$ % h %  [f. H f f. H f *


.\
Sabemos que la matriz de covarianzas muestrales es z $ .

Supongamos que un autovalor muestral G es prximo a cero y su correspondiente


vector es D . Entonces:

: * ;D H GD  0 J : * ;D 0 J D *  * D 0 J D 0

Lo que significa que hay multicolinealidad.

Si hay un cierto nmero de restricciones lineales,  H t, entonces:



N 0;
 :
N;

siendo N una matriz  f  H t . En este caso general, el Modelo Lineal de Regresin


se puede volver a escribir en trminos de las componentes principales de , es decir,
de componentes principales no nulas. En efecto:

  
:
* ;  :
0;:
* ;  
:
* ;

33
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

 ;  y combinaciones lineales de un vector aleatorio


1.14. Resultados previos: Elipsoides equiprobables en una

multidimensional.

Supongamos un vector aleatorio  que sigue una distribucin % ; u con u


definida positiva. Si se considera la familia de elipsoides

 H * z  H  i ; i g 0

es claro que tal densidad es constante para cada elipsoide con un i concreto.Por otra
parte, dicha familia tiene como centro al vector , mientras que las caractersticas de
determinan la forma y orientacin de los elipsoides.

Se sabe que existe un elipsoide especial cuando i   + 2, llamado elipsoide de


concentracin, caracterizado por verificar la siguiente propiedad:

1
2 + 1
f  ||z  + 2 %/N %/N ; 0 f H * z f H   + 2
0 ; CD65

tiene la misma media y matriz de covarianzas que la ley % ; u .

Nos planteamos ahora el clculo de los ejes principales, y ello lo hacemos por un
mtodo analtico, los multiplicadores de Lagrange, en vista de la metodologa que

desde el centro del elipsoide , a la superficie del mismo, as que tendr que cumplir:
luego se utilizar en el Anlisis de Componentes Principales. Supongamos una recta

maxh f H * f H ; donde f H * z f H  i

Sabemos que f H * f H es el cuadrado de la semilongitud de tal eje


principal cuando f se encuentra en la superficie, a un punto para el que se verifique el
mximo indicado.

Vamos a obtener el mximo mediante multiplicadores de Lagrange:

f, G  f H * f H H Gf H * z f H H i

Derivamos con respecto a f, igualamos a 0 y resolvemos:

If, G
 f H H G z f H  0
If
J K H G z f H  0 J  H G K f H  0

34
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Como hemos supuesto que es definida positiva, todas sus races caractersticas
son reales y no nulas, G M GN M , M G% M 0. Estas races son solucin de | H G K| 
0, si tomamos la mayor de ellas G , tenemos que el eje principal mayor est en la
direccin determinada por el vector caracterstico D , y el cuadrado de la longitud de
dicho eje principal ser:

4f H * f H  4G f H * z f H  4 G i

Para calcular el resto de ejes, volvemos a realizar el clculo tomando


sucesivamente las races caractersticas en orden decreciente, y los respectivos

un orden de multiplicidad 6, el elipsoide es hiperesfrico en el subespacio 6-


vectores propios. En el caso de encontrarnos con una raz caracterstica mltiple, con

dimensional correspondiente. Si todas las races caractersticas son diferentes, todos


los ejes principales seran ortogonales.

Todo esto se puede aplicar al anlisis de componentes principales, utilizando los


ejes principales calculados en la familia de elipsoides para definir una transformacin.

Como nos encontramos en el caso de una normal multivariante, podemos hablar


de ejes principales en su sentido geomtrico. En efecto, sea la transformacin:

'  :' , , '% ;  ] H


*

donde  sigue una distribucin % ; u , ]  D , , D% con D , , D% autovalores


normalizados de u g 0. Segn la transformacin anterior tenemos que ' sigue una
normal % 0; ]* u] .

Si todas las races de u son distintas, entonces ] es ortogonal, es decir ]*  ]z .


Por tanto, tenemos una transformacin '  ] H tal que ]* u] es diagonal, lo que
quiere decir que las componentes '. de ' son incorreladas, y los elementos de la
diagonal principal de ]* u] son las varianzas de las diferentes componentes de '. .

sistema de referencia al origen y girando los ejes hasta coincidir con los ejes
De esta forma es posible definir una transformacin ortogonal o giro llevando el

principales, de tal forma que se transforma el vector  en uno ' que, respecto de

longitud de los ejes de cualquier elipsoide dado i g 0 es proporcional a la varianza


dicho sistema nuevo, tiene sus componentes incorreladas, de tal forma adems, que la

de las variables '. .

1.14.1. Combinaciones lineales de un vector aleatorio 

Dado un vector aleatorio    , , % $, no necesariamente normal, con media


  y matriz de covarianzas 789  , es claro que si tomamos una
combinacin lineal

35
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

* ; con  : , , % ;
*

se verifica

*   * ; 789 * X  *

Por tanto, si  sigue una normal multivariante % ; u , tomando combinaciones


lineales * , tenemos que sigue una distribucin:

%  * ; *

36
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Aplicacin a Datos Reales


Se pretende realizar un estudio sobre los records obtenidos por cada pas en las
diferentes carreras de atletismo. Se han tomado los datos de los records masculinos
nacionales obtenidos en 58 pases diferentes de las disciplinas: 100 metros, 110
metros vallas, 200 metros, 400 metros, 800 metros, 1.500 metros, 3.000 metros
obstculos, 5.000 metros, 10.000 metros y Maratn (42.195 metros).

Los 58 pases que han sido considerados posean una participacin significativa en
los Juegos Olmpicos de Londres 2012 (una participacin superior los 35 atletas), y los
records han sido obtenidos con una posterioridad a 1990.

Los pases seleccionados, agrupados por continentes son los siguientes:

frica. 8 pases
Angola Egipto Kenia Nigeria
Argelia Etiopia Marruecos Sudafrica

Amrica. 14 pases
Argentina Canada Chile Mexico Uruguay
Bolivia Colombia EEUU Paraguay Venezuela
Brasil Cuba Jamaica Peru

Asia. 9 pases
ArabiaSaudi China Iran Japon Turquia
CoreaSur India Israel Kazajstan

Europa. 25 pases
Alemania Eslovenia Holanda Noruega Rusia
Belgica Espaa Hungria Polonia Serbia
Bulgaria Finlandia Irlanda Portugal Suecia
Croacia Francia Italia Reino Unido Suiza
Dinamarca Grecia Lituania RepCheca Ucrania

Oceana. 2 pases
Australia
N. Zelanda

Los records obtenidos por los diferentes pases vienen recogidos en la Tabla 1. Los
datos correspondientes a las pruebas de 800 metros en adelante, han sido pasados a
minutos, para poder trabajar con ellos. Hay que tener en cuenta de 1 min. 43 seg. no
es 143 minutos, sino 172 minutos.

37
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Pases 100m 110mV 200m 400m 800m 1500m 3000mO 5Km 10Km Maratn
Alemania 10.06 13.05 20.2 44.33 01:43.7 03:31.6 08:09.5 12:54.7 27:21.5 2:08:47
Angola 10.49 14.11 21.15 47.38 01:47.5 03:40.0 08:56.8 13:40.1 28:20.0 2:11:40
ArabiaSaudi 10.13 13.60 20.42 44.66 01:43.7 03:31.8 08:08.1 12:58.6 28:01.8 2:20:35
Argelia 10.34 13.46 20.62 45.13 01:43.1 03:27.4 08:10.2 12:50.9 27:58.0 2:09:54
Argentina 10.23 13.92 20.37 46.18 01:46.0 03:38.6 08:25.6 13:19.6 27:38.7 2:09:57
Australia 9.93 13.29 20.06 44.38 01:44.4 03:31.1 08:16.2 12:55.8 27:24.9 2:07:51
Belgica 10.02 13.25 20.19 44.43 01:43.9 03:34.1 08:10.0 12:49.7 26:52.3 2:07:20
Bolivia 10.6 14.79 21.32 47.72 01:48.2 03:45.6 08:58.6 14:06.7 29:05.8 2:17:49
Brasil 10 13.29 19.89 44.29 01:41.8 03:33.2 08:14.4 13:19.4 27:28.1 2:06:05
Bulgaria 10.13 13.33 20.2 45.32 01:46.3 03:39.5 08:25.0 13:13.1 27:56.3 2:11:26
Canada 9.84 13.08 20.17 44.44 01:43.7 03:31.7 08:12.6 13:14.0 27:23.6 2:10:09
Colombia 10.17 13.27 20.49 45.62 01:44.3 03:43.0 08:44.5 13:29.7 27:53.0 2:11:17
CoreaSur 10.23 13.48 20.41 45.37 01:44.1 03:38.6 08:42.9 13:43.0 28:23.6 2:07:20
Croacia 10.25 13.54 20.76 45.64 01:44.1 03:33.3 08:40.1 13:37.8 28:24.3 2:17:05
Cuba 9.98 12.87 20.06 44.14 01:42.9 03:35.0 08:26.2 13:44.8 28:49.0 2:10:53
Chile 10.1 13.78 20.15 45.92 01:45.7 03:39.0 08:29.0 13:23.7 28:05.6 2:12:19
China 10.16 12.88 20.42 45.25 01:46.4 03:36.5 08:10.5 13:25.1 28:08.7 2:08:15
Dinamarca 10.29 13.82 20.52 45.89 01:41.1 03:31.2 08:23.6 13:25.4 27:54.8 2:09:43
EEUU 9.69 12.80 19.32 43.18 01:42.6 03:29.3 08:06.8 12:53.6 26:48.0 2:05:38
Egipto 10.13 14.06 20.36 46.08 01:45.0 03:38.2 08:55.1 14:03.0 29:34.0 2:19:39
Eslovenia 10.13 13.56 20.47 45.43 01:46.8 03:39.3 08:17.0 13:32.8 28:32.9 2:11:50
Espaa 10.14 13.33 20.59 44.96 01:43.7 03:28.9 08:07.4 12:57.3 27:14.4 2:06:52
Etiopia 10.61 15.04 21.3 45.42 01:42.5 03:31.1 08:06.2 12:37.4 26:17.5 2:03:59
Finlandia 10.21 13.35 20.47 45.49 01:44.1 03:36.3 08:10.7 13:16.3 27:31.0 2:10:46
Francia 9.92 12.97 19.8 44.46 01:43.2 03:29.0 08:01.2 12:58.8 27:22.8 2:06:36
Grecia 10.11 13.37 19.85 45.11 01:45.0 03:36.7 08:24.0 13:28.6 28:07.2 2:12:04
Holanda 9.91 13.15 19.85 45.68 01:43.5 03:32.9 08:04.9 13:13.1 27:26.3 2:08:21
Hungria 10.08 13.32 20.11 45.42 01:45.4 03:35.6 08:18.0 13:27.0 28:01.9 2:12:10
India 10.30 13.65 20.73 45.48 01:45.8 03:38.0 08:30.9 13:29.7 28:02.9 2:12:00
Iran 10.24 13.5 20.84 45.81 01:44.7 03:37.1 08:33.9 13:53.4 29:22.7 2:28:23
Irlanda 10.18 13.3 20.3 44.77 01:44.8 03:33.5 08:24.1 13:03.5 27:39.6 2:09:15
Israel 10.2 13.85 20.86 45.71 01:46.5 03:40.9 08:24.1 13:31.4 28:12.9 2:14:21
Italia 10.01 13.28 19.72 45.19 01:43.7 03:32.8 08:08.6 13:05.6 27:16.5 2:07:22
Jamaica 9.58 13.12 19.19 44.4 01:45.2 03:39.2 08:52.8 13:33.1 28:32.4 2:16:39
Japon 10.00 13.39 20.03 44.78 01:46.2 03:37.4 08:18.9 13:13.2 27:35.1 2:06:16
Kazajstan 10.08 13.49 20.34 45.52 01:47.0 03:37.5 08:27.4 13:35.6 27:58.9 2:11:59
Kenia 10.26 13.69 20.43 44.18 01:40.9 03:26.3 07:53.6 12:39.7 26:27.9 2:03:02
Lituania 10.14 13.6 20.74 45.73 01:46.6 03:40.9 08:22.2 13:17.9 27:31.5 2:12:35
Marruecos 10.09 13.79 20.5 45.03 01:43.2 03:26.0 07:55.3 12:49.3 26:38.1 2:05:27
Mexico 10.21 13.81 20.4 44.31 01:46.3 03:36.7 08:25.7 13:07.8 27:08.2 2:07:19
Nigeria 9.85 13.42 19.84 44.17 01:45.9 03:42.8 08:58.6 14:15.5 29:04.5 2:16:06
Noruega 9.99 13.55 19.89 46.11 01:42.6 03:35.4 08:12.1 13:06.4 27:32.5 2:10:17
NZelanda 10.11 13.71 20.42 46.09 01:44.3 03:30.4 08:14.1 13:10.2 27:42.0 2:08:59
Paraguay 10.5 14.57 21.42 46.62 01:50.2 03:48.7 08:52.6 14:28.7 30:23.0 2:20:48
Peru 10.43 13.75 20.69 45.3 01:49.2 03:43.7 08:28.7 13:55.1 28:56.5 2:11:36
Polonia 10 13.27 19.98 44.62 01:43.2 03:34.5 08:09.1 13:17.7 27:53.6 2:07:39
Portugal 9.86 13.47 20.01 46.11 01:44.9 03:30.1 08:19.8 13:02.9 27:12.5 2:06:36
RepCheca 10.23 13.27 20.59 44.91 01:44.8 03:34.9 08:23.8 13:25.0 27:47.9 2:11:57
Rusia 10.1 13.09 20.23 44.6 01:42.0 03:32.3 08:15.5 13:12.0 27:53.1 2:09:07
Serbia 10.34 13.6 20.74 45.3 01:44.8 03:34.8 08:28.8 13:31.2 27:58.4 2:12:40
Sudafrica 10.06 13.24 20.11 44.59 01:42.7 03:33.6 08:11.5 13:14.2 27:29.9 2:06:33
Suecia 10.18 13.35 20.3 44.56 01:45.5 03:36.5 08:05.8 13:17.6 27:55.7 2:10:38
Suiza 10.16 13.41 20.41 44.99 01:42.5 03:31.8 08:22.2 13:07.5 27:53.2 2:07:23
Turquia 10.37 14.03 20.86 46.18 01:44.3 03:31.4 08:17.8 13:06.0 27:29.3 2:10:25
Ucrania 10.07 13.22 20 45.11 01:45.1 03:30.3 08:21.7 13:10.8 27:59.8 2:07:15
UK 9.87 12.91 19.87 44.36 01:41.7 03:29.7 08:08.0 12:53.1 26:46.6 2:07:13
Uruguay 10.15 14.89 20.46 45.02 01:49.5 03:43.5 08:23.0 13:47.6 28:52.3 2:12:48
Venezuela 10.3 13.62 20.58 45.55 01:43.5 03:37.0 08:24.1 13:22.3 28:41.4 2:11:25 38
Tabla 1: Records Nacionales
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

2.1. Anlisis exploratorio

Descriptivos

La Tabla 2 recoge algunas medidas de posicin y dispersin de las diferentes


variables. Observamos que en general, los valores se encuentran bastante centrados,
con unas varianzas relativamente pequeas. Los percentiles 5 y 95 estn bastante
prximos a la mediana. Se puede observar mejor la distribucin de las variables y la
deteccin de datos extremos con los diagramas de cajas (Grfico 1-10).

Variables 100m 110mV 200m 400m 800m 1500m 3000mO 5000m 10000m Maraton
Media 10.13 13.53 20.34 45.21 104.65 3.59 8.39 13.34 27.90 130.70
Varianza 0.04 0.22 0.19 0.65 3.53 0.01 0.06 0.15 0.59 20.64
Mnimo 9.58 12.80 19.19 43.18 100.90 3.43 7.90 12.62 26.30 123.03
Percentil5 9.85 12.91 19.79 44.18 101.79 3.48 8.07 12.83 26.76 125.61
Percentil25 10.01 13.27 20.06 44.59 103.28 3.53 8.17 13.10 27.44 127.34
Mediana 10.13 13.44 20.39 45.22 104.55 3.58 8.40 13.30 27.89 130.22
Percentil75 10.23 13.71 20.59 45.67 105.88 3.65 8.56 13.52 28.20 132.05
Percentil95 10.49 14.60 21.17 46.25 107.78 3.72 8.88 14.06 29.14 139.79
Mximo 10.61 15.04 21.42 47.72 109.50 3.82 8.98 14.48 30.38 148.38
Tabla 2

Diagramas de cajas

Se observa que en la carrera de velocidad de los 100 metros, nos encontramos


varios datos extremos, los pases de Etiopa y Bolivia con el record ms lento en esta
carrera, y el caso de Jamaica, con el record ms rpido (el famoso registro de 958
segundos de Usain Bolt en el mundial de atletismo de Berln 2009). En la carrera de los
110 metros vallas, nos encontramos cuatro pases con datos de records lentos atpicos,
Etiopa, Uruguay, Bolivia y Paraguay.
21.5
10.6

15.0

Etiopia Bolivia Etiopia Paraguay


Uruguay
Bolivia
21.0
10.4

Paraguay
14.5
10.2

20.5
14.0
10.0

20.0
13.5
9.8

19.5
13.0
9.6

Jamaica Jamaica

Grfico 1: 100 metros Grfico 2: 110 metros vallas Grfico 3: 200 metros

Con respecto a la prueba de los 200 metros, se observa que Paraguay tiene un
record significativamente lento respecto al resto de los pases, al contrario que
Jamaica, con una marca bastante buena (registro de 1919 segundos perteneciente a
Usain Bolt, en el mundial de atletismo de Berln 2009).
39
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

En la prueba de los 400 metros nos encontramos dos pases con datos extremos
lentos, pertenecientes a los pases de Bolivia y Angola. En las carreras de 800 metros,
1.500 metros y 3.000 metros obstculos no se encuentran datos significativamente
anmalos.

Bolivia

3.8
Angola
47

108

3.7
46

106

3.6
45

104

3.5
44

102
43

Grfico 4: 400 metros Grfico 5: 800 metros Grfico 6: 1.500 metros

Para las pruebas de largo fondo, nos encontramos varios datos extremos con
registros lentos, en el caso de los 5.000 metros, Paraguay y Nigeria, en los 10.000
metros Paraguay y Egipto y en la maratn, Irn, Paraguay, Arabia Saud y Egipto.
14.5
9.0

Paraguay

Nigeria
8.8

14.0
8.6

13.5
8.4
8.2

13.0
8.0

Grfico 7: 3.000 metros Obstculos Grfico 8: 5.000 metros

Paraguay Iran
30

145

Egipto

Paraguay ArabiaSaudi
140
29

Egipto
135
28

130
27

125

Grfico 9: 10.000 metros Grfico 10: Maratn

40
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Despus de este anlisis nos llama la atencin los pobres registros en general de
Paraguay, tanto en pruebas velocidad como de resistencia. Tambin las magnficas
marcas de Jamaica en las pruebas de velocidad, y los altos tiempos de Bolivia y Etiopa
en las pruebas de corta distancia.

2.2. Covarianza y correlacin entre las variables

Las matrices de covarianzas y correlaciones vienen dadas respectivamente en las


tablas 3 y 4.

En la matriz de correlaciones observamos como en general, los valores altos se


concentran en torno a la diagonal, mientras que cuando nos alejamos de sta, las
correlaciones disminuyen. Esto es lgico que ocurra, puesto que cuando un pas tiene
buenos registros en una prueba, ocurrir algo parecido en pruebas similares.

Variables 100m 110mV 200m 400m 800m 1500m 3000mO 5000m 10000m Maraton
100m 0.04 0.06 0.08 0.10 0.09 0.00 0.01 0.02 0.04 0.19
110mV 0.06 0.22 0.14 0.23 0.30 0.02 0.04 0.06 0.10 0.58
200m 0.08 0.14 0.19 0.22 0.23 0.01 0.03 0.05 0.10 0.65
400m 0.10 0.23 0.22 0.65 0.53 0.03 0.10 0.13 0.25 1.47
800m 0.09 0.30 0.23 0.53 3.53 0.11 0.21 0.36 0.66 3.14
1500m 0.00 0.02 0.01 0.03 0.11 0.01 0.01 0.03 0.05 0.21
3000mO 0.01 0.04 0.03 0.10 0.21 0.01 0.06 0.07 0.14 0.69
5000m 0.02 0.06 0.05 0.13 0.36 0.03 0.07 0.15 0.27 1.23
10000m 0.04 0.10 0.10 0.25 0.66 0.05 0.14 0.27 0.59 2.75
Maraton 0.19 0.58 0.65 1.47 3.14 0.21 0.69 1.23 2.75 20.64
Tabla 3: Matriz de Covarianzas

Variables 100m 110mV 200m 400m 800m 1500m 3000mO 5000m 10000m Maraton
100m 1.00 0.70 0.92 0.61 0.24 0.30 0.24 0.25 0.27 0.21
110mV 0.70 1.00 0.71 0.61 0.34 0.40 0.30 0.32 0.28 0.27
200m 0.92 0.71 1.00 0.64 0.27 0.32 0.29 0.29 0.30 0.33
400m 0.61 0.61 0.64 1.00 0.35 0.44 0.47 0.43 0.41 0.40
800m 0.24 0.34 0.27 0.35 1.00 0.69 0.45 0.50 0.46 0.37
1500m 0.30 0.40 0.32 0.44 0.69 1.00 0.70 0.82 0.72 0.57
3000mO 0.24 0.30 0.29 0.47 0.45 0.70 1.00 0.78 0.74 0.61
5000m 0.25 0.32 0.29 0.43 0.50 0.82 0.78 1.00 0.92 0.71
10000m 0.27 0.28 0.30 0.41 0.46 0.72 0.74 0.92 1.00 0.79
Maraton 0.21 0.27 0.33 0.40 0.37 0.57 0.61 0.71 0.79 1.00
Tabla 4: Matriz de Correlaciones

Como se est trabajando con variables medidas en diferentes escalas de tiempo,


las pruebas de 100 metros, 110 metros vallas, 200 metros, 400 metros y 800 metros,
en segundos, y las pruebas de 1.500 metros, 3.000 metros obstculos, 5.000 metros,
10.000 metros y Maratn, en minutos, utilizaremos para el anlisis la matriz de
correlaciones.

41
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

El grfico 11 muestra los diagramas de dispersin de los diferentes pares de


variables. Se observa que hay una relacin lineal entre las carreras de las tres
categoras, corta distancia, media distancia y larga distancia.

13.0 14.0 15.0 43 44 45 46 47 3.5 3.6 3.7 3.8 13.0 14.0 125 135 145

10.4
X100m

9.6
15.0

X110mV
13.0

21.5
X200m

19.5
46

X400m
43

108
X800m

102
3.8

X1500m
3.5

8.0 8.6
X3000mO
14.5

X5Km
13.0

27 29
X10Km
145

Maraton
125

9.6 10.0 10.4 19.5 20.5 21.5 102 106 8.0 8.4 8.8 27 28 29 30

Grfico 11: Diagramas de dispersin

2.3. Test de Hiptesis sobre la Matriz de Correlaciones

Un test que siempre hay que realizar en el anlisis de componentes principales, es


el test de independencia de las variables, puesto que si las variables son
independientes, no tendra sentido realizar dicho estudio. Para comprobar la
independencia de las variables, basta con contrastar que la matriz de correlaciones
coincide con la matriz identidad, es decir:

S :   K

:b K

Tenemos que el estadstico:

1
qh%
N
 H H 1 H 2 + 5 ln
6

bajo la hiptesis nula, sigue una distribucin Chi cuadrado %%z


N
/N .

42
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Para la matriz de correlaciones tenemos que qh% N


 494$99, mientras que el
valor crtico correspondientes viene dado por So ; %%z /N  61.66, por lo que se
N

rechaza la hiptesis nula S :   K, y aceptaremos que las variables no son


independientes.

Otro test interesante en el anlisis de componentes principales es comprobar que


los ltimos valores son idnticos entre s e iguales a cero. La hiptesis nula vendra

S : sU  sUN  ,  %  ; t 
dada por:

. Tenemos que el estadstico:


donde . son las races caractersticas de 


 H s.\ . %zs
A6
qh%
N
  H 1 H ln s + ln
.\ . Ht

se comporta bajo S asintticamente, con un orden de aproximacin de 1/, segn


una Chi cuadrado N con grados de libertad:

% % % %
1 1
   H t H 1  H t + 2 H  H t H 1 [ [ i./
N N
./ [ [ i.. i// ./
N

2 Ht
.\ /\ .\ /\

donde i./ es la componente 0, 1 de la matriz 7  K H * ; siendo la matriz de


vectores caractersticos por columnas de las t primeras races caractersticas de .

Los diferentes valores dados por el estadstico y sus correspondientes regiones


crticas se recogen en la tabla 5.

Orden Estadistico ChiCuadrado GL


0 630.21 72.15 54
1 285.35 60.48 44
2 143.58 49.80 35
3 99.90 40.11 27
4 83.34 31.41 20
5 66.55 23.68 14
6 43.90 16.92 9
7 24.12 11.07 5
8 4.01 5.99 2
Tabla 5: Test igualdad valores propios

En la tabla 5 observamos que se rechaza la hiptesis nula a un nivel de confianza

aceptamos que  S  0.
del 005, para los ocho primeros factores, y se acepta a partir del octavo, es decir,

43
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

2.4. Clculo de las Componentes Principales

En primer lugar, se obtienen los valores propios de la matriz de correlaciones, que


coincidirn con las varianzas de las diferentes componentes principales. Dichos valores
vienen dados en la tabla 5, donde tambin se muestra el porcentaje de la varianza
total explicada por cada componente principal.

Varianza Porcentaje Porcentaje


Orden
Explicada Explicado Acumulado
1 5.405 54.05% 54.05%
2 2.085 20.85% 74.90%
3 0.782 7.82% 82.72%
4 0.452 4.52% 87.24%
5 0.386 3.86% 91.11%
6 0.342 3.42% 94.53%
7 0.247 2.47% 97.00%
8 0.172 1.72% 98.72%
9 0.081 0.81% 99.53%
10 0.047 0.47% 100.00%
Tabla 6: Varianza Explicada

Estos valores se muestran representados en el grfico 12, el cual nos ayudar a


escoger el nmero de componentes principales a retener en el anlisis. Si escogemos
dos componentes principales, explicaremos el 749% de la varianza total, mientras que
con tres componentes, el 827%. El mtodo del Kaiser nos aconseja tomar el mismo
nmero de componentes que autovalores mayores que 1, que en este caso seran dos,
aunque estudios recientes aconsejan tomar las componentes cuyos valores propios
son superiores a 07, as que optaremos finalmente por retener tres componentes.
5
5

4
4
3

3
2

2
1

1
0

2 4 6 8 10
Grfico 12: Representacin de los autovalores

Una vez decidido el nmero de componentes principales a retener, construimos


dichas componentes. Esto es lo mismo que obtener los vectores propios asociados a
los tres valores propios ms grandes. La tabla 6 recoge el valor de los vectores propios,

44
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

por columnas, ordenados desde el perteneciente al mayor autovalor hasta el menor.


Las componentes principales no son ms que combinaciones lineales de las variables
originales.

Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 Comp. 8 Comp. 9 Comp. 10
-0.260 -0.498 0.074 0.245 -0.241 -0.306 -0.074 0.038 0.541 0.410
-0.275 -0.395 -0.121 -0.045 -0.062 0.840 0.148 0.142 0.011 -0.018
-0.281 -0.467 0.115 0.287 -0.058 -0.289 0.142 -0.117 -0.586 -0.377
-0.308 -0.265 0.069 -0.702 0.455 -0.164 -0.319 -0.003 0.005 -0.028
-0.274 0.108 -0.782 0.182 0.333 -0.195 0.170 0.293 -0.020 0.071
-0.359 0.199 -0.327 0.006 -0.263 0.074 -0.288 -0.706 0.151 -0.214
-0.340 0.228 0.104 -0.429 -0.344 -0.164 0.698 0.019 0.062 0.016
-0.367 0.282 0.105 0.022 -0.256 0.058 -0.359 0.195 -0.495 0.541
-0.359 0.276 0.254 0.177 -0.058 -0.001 -0.250 0.496 0.289 -0.551
-0.318 0.220 0.396 0.336 0.600 0.131 0.244 -0.309 0.087 0.201
Tabla 7: Componentes Principales

Tenemos que las componentes principales vienen dadas por:

'  H0.26  H 0.275 N H 0.281  H 0.308  H 0.274  H


H0.359  H 0.34  H 0.367  H 0.359  H 0.318  S

'N  H0.498  H 0.395 N H 0.467  H 0.265  + 0.108  +


+0.108  + 0.199  + 0.228  + 0.276  + 0.22  S

'  0.074  H 0.121 N + 0.115  + 0.169  H 0.782  H


H0.327  + 0.104  + 0.105  + 0.254  + 0.396  S

La primera componente principal es prcticamente proporcional a todas las


variables, lo que significa que si para un pas, esta componente toma un valor muy
pequeo (muy negativo), significa que tendr tiempos altos en el cmputo general de
todas las pruebas, lo que quiere decir que el pas no tiene buenos resultados. En el
caso de tomar un valor alto, implicara que tienen buenos tiempos en general.

La segunda componente principal tiene coeficientes positivos para las pruebas de


velocidad (100 metros, 110 metros vallas, 200 metros y 400 metros) y valores
negativos para las carreras de medio fondo (800 metros, 1.500 metros y 3.000 metros
obstculos) y largo fondo (5.000 metros, 10.000 metros y Maratn). Lo que significa,
que para valores altos de esta componente, el pas tiene mejores registros en medio y
largo fondo que en pruebas de corta distancia, y viceversa.

La tercera componente principal tiene coeficientes negativos para las pruebas de


110 metros vallas, 800 metros y 1.500, y positivos para las restantes. Aunque
observamos que los valores con una magnitud suficientemente grande son los
negativos dados para los 800 metros y 1.500 metros, y los positivos dados para las
pruebas de largo fondo. Esto nos puede hacer pensar que esta tercera componente
discrimina entre las pruebas de media distancia y larga distancia.

45
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

2.5. Relacin entre las Variables y las Componentes Principales

La taba 7 muestra la correlacin de cada variable con las tres componentes


principales construidas.

Variables Comp. 1 Comp. 2 Comp. 3


100m -0.60 -0.72 0.07
110mV -0.64 -0.57 -0.11
200m -0.65 -0.67 0.10
400m -0.72 -0.38 0.06
800m -0.64 0.16 -0.69
1500m -0.83 0.29 -0.29
3000mO -0.79 0.33 0.09
5000m -0.85 0.41 0.09
10000m -0.83 0.40 0.22
Maraton -0.74 0.32 0.35
Tabla 8: Correlaciones entre Variables y C.P.

Estos datos refuerzan nuestra descripcin sobre las diferentes componentes


principales. Los grficos 13, 14 y 15 recogen en un diagrama bidimensional la posicin
de las variables respecto a las componentes.

X5Km
Comp.2 Comp.2
X10Km
X3000mO
Maraton
X1500m

X800m
X5Km
X10Km
Comp.1 X3000mO
Maraton
X1500m

X800m
Comp.1

X400m
X400m

X110mV X110mV

X200m X200m
X100m
X100m

Grfico 13: Posicin de las variables respecto de las componentes 1 y 2

En el grfico 13 observamos lo que ya habamos comentado, la primera


componente no discrimina segn la variable, ya que es prcticamente proporcional a
todas, mientras que la segunda componente discrimina entre las pruebas de corta
distancia y las pruebas de media y larga distancia.

46
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Del grfico 14 obtenemos que la tercera componente principal distingue


claramente entre las pruebas de largo fondo y medio fondo.

Comp.3 Comp.3
Maraton

X10Km

X3000mO X200m
X5Km
X400m X100m Maraton
X10Km
Comp.1
X110mV X5Km X200m
X3000mOX100m
X400m Comp.1

X110mV
X1500m
X1500m

X800m
X800m

Grfico 14: Posicin de las variables respecto de las componentes 1 y 3

En el grfico 15 observamos que estas dos variables conjuntas discriminan entre


los tres tipos de categoras, corta, media y larga distancia. Destacamos que la prueba
de los 3.000 metros obstculos se agrupa junto a las carreras de largo fondo.

Comp.3 Comp.3
Maraton

X10Km

X200m X5Km
X3000mO Maraton
X100m X400m

Comp.2 X10Km

X110mV X200m X5Km


X3000mO
X100m X400m
Comp.2
X110mV
X1500m

X1500m

X800m
X800m

Grfico 15: Posicin de las variables respecto de las componentes 1 y 3

47
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

2.6. Contribucin y Calidad de las Variables

La tabla 8 recoge la contribucin de cada variable en la construccin de cada


componente principal. Obtenemos que para la obtencin de la primera componente
principal, la variable de los 5.000 metros, as como la de los 1.500 metros y la de los
10.000 metros han sido las que ms han contribuido. Con respecto a la segunda
componente principal, la variable que ms ha contribuido ha sido la de los 100 metros,
y para la tercera, la de los 800 metros, con un porcentaje superior al 61%.

Variables Comp. 1 Comp. 2 Comp. 3


100m 6.75% 24.76% 0.55%
110mV 7.59% 15.62% 1.46%
200m 7.88% 21.80% 1.33%
400m 9.47% 7.05% 0.48%
800m 7.48% 1.16% 61.12%
1500m 12.86% 3.96% 10.69%
3000mO 11.55% 5.19% 1.08%
5000m 13.44% 7.97% 1.11%
10000m 12.88% 7.64% 6.46%
Maraton 10.10% 4.85% 15.72%
Tabla 9: Contribuciones de cada variable

La tabla 9 dispone de la calidad de cada variable obtenida por cada componente,


es decir, el porcentaje de la varianza explicada de cada variable por cada una de las
componentes principales construidas. Se observa que ms del 50% de la varianza de la
variable 100 metros, es explicada por la segunda componente. En el caso de la variable
1.500 metros, aproximadamente un 70% de su varianza es explicada por la primera
componente. La variable 800 metros es explicada con aproximadamente un 50% por la
tercera componente principal. Es obvio que la media de cada columna, coincidir con
la varianza total explicada por cada componente.

Variables Comp1 Comp2 Comp3


X100m 36.48% 51.61% 0.43%
X110mV 41.02% 32.57% 1.14%
X200m 42.59% 45.45% 1.04%
X400m 51.18% 14.69% 0.38%
X800m 40.45% 2.42% 47.82%
X1500m 69.48% 8.26% 8.36%
X3000mO 62.43% 10.81% 0.85%
X5Km 72.66% 16.61% 0.87%
X10Km 69.59% 15.92% 5.05%
Maraton 54.62% 10.11% 12.30%
TOTAL 54.05% 20.85% 7.82%
Tabla 10: Varianza explicada por cada C.P.

48
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

La tabla 10 recoge la varianza acumulada explicada por cada componente


principal. Obtenemos que las variables 800 metros, 5.000 metros y 10.000 metros son
las que mejor calidad tienen, puesto que ms del 90% de su varianza queda explicada
por las tres primeras componentes. Caso contrario de la variable 400 metros, con un
porcentaje explicado del 6625%, y las variables 110 metros vallas y 3.000 metros
obstculos, con aproximadamente un 75%.

Variables Comp1 Comp2 Comp3 Resto


X100m 36.48% 88.09% 88.53% 11.47%
X110mV 41.02% 73.59% 74.73% 25.27%
X200m 42.59% 88.05% 89.09% 10.91%
X400m 51.18% 65.87% 66.25% 33.75%
X800m 40.45% 42.87% 90.69% 9.31%
X1500m 69.48% 77.74% 86.10% 13.90%
X3000mO 62.43% 73.24% 74.09% 25.91%
X5Km 72.66% 89.27% 90.14% 9.86%
X10Km 69.59% 85.52% 90.57% 9.43%
Maraton 54.62% 64.73% 77.03% 22.97%
TOTAL 54.05% 74.90% 82.72% 17.28%
Tabla 11: Varianza explicada acumulada por cada C.P.

2.7. Relacin entre los Pases y las Componentes Principales

Los grficos 16 y 17 representan la localizacin de los pases respecto de las dos


primeras componentes principales seleccionadas. La primera componente principal
indica la rapidez en el cmputo general de todas las pruebas, mientras que la segunda
discrimina entre las pruebas de corta distancia y media y larga distancia.

Jamaica

Nigeria

Cuba
EEUU
Egipto
Iran Grecia
Kazajstan Hungria Canada
Eslovenia Japon
Bulgaria Ucrania Polonia
Colombia Brasil
CoreaSur
Chile China AustraliaFrancia
Sudafrica
Holanda
Alemania
UK
Peru
Uruguay RepCheca Suecia RusiaItalia
Paraguay Lituania
Croacia Noruega
ArabiaSaudi Portugal
Irlanda Belgica
IsraelIndia
Venezuela Finlandia
Serbia MexicoSuiza
Argentina NZelanda
Dinamarca Espaa
Bolivia Argelia
Angola
Marruecos
Turquia Kenia

Etiopia

Grfico 16: Posicin de los Pases respecto a las componentes 1 y 2

49
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Jamaica

Nigeria

Cuba

EEUU
Egipto
Grecia
Iran Canada
Kazajstan Hungria
Bulgaria
Eslovenia
Colombia China Japon Polonia
Brasil
CoreaSur
Chile
Ucrania AustraliaFrancia
Sudafrica
Holanda
Alemania
Italia
UK
Peru
Uruguay RepCheca Suecia Rusia
Paraguay Lituania
Croacia Noruega
ArabiaSaudi
Irlanda Portugal
Belgica
Israel
Venezuela
India Suiza
Serbia
Argentina Mexico
Finlandia
NZelanda
Espaa
Bolivia DinamarcaArgelia
Angola
Marruecos
Turquia Kenia

Etiopia
Grfico 17: Posicin de los Pases respecto a las componentes 1 y 2

Segn el grfico 16, los pases con mejores marcas en general son EEUU, Reino
Unido, Francia, Marruecos y Kenia, aunque el caso de EEUU destaca por sus buenas
marcas en las carreras de velocidad, mientras que Kenia y Marruecos en las carreras de
larga distancia. Los pases con peores registros son Paraguay, Bolivia, Egipto, Irn y
Angola. Etiopa, como caso particular, posee unas marcas generales normales, pero
tener un valor tan negativo respecto a la segunda componente implica que posee
tiempos muy bajos en las pruebas de resistencia y altos en las pruebas de velocidad. Es
el caso contrario que Jamaica, el cual tiene tiempos muy buenos para las pruebas de
corta distancia, y altos para las carreras de largo fondo.

Iran
Dinamarca
Paraguay Egipto Croacia
ArabiaSaudi
Argelia
Cuba
Venezuela Rusia
Suiza
Noruega Brasil Kenia
UK
Serbia
Turquia
NZelandaSudafrica
RepCheca Polonia
CoreaSur Finlandia
Jamaica Canada
Espaa Francia
Colombia Grecia
Nigeria HolandaMarruecos
India Hungria Ucrania Italia
Etiopia
Irlanda EEUU
Bolivia Chile Australia
Angola Israel
Eslovenia Suecia Portugal
Belgica
Kazajstan
Argentina
Lituania China
Bulgaria
Japon
Mexico
Peru Alemania
Uruguay

Grfico 18: Posicin de los Pases respecto a las componentes 1 y 3

50
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Iran

Dinamarca

Paraguay Egipto Croacia ArabiaSaudi


Cuba Argelia

Venezuela Rusia
Suiza
Brasil UKKenia
NZelanda Noruega
Serbia Turquia Sudafrica
RepCheca Polonia
CoreaSur Finlandia Canada
Espaa
Colombia Jamaica Holanda Francia
Nigeria Marruecos
Ucrania
Etiopia
Irlanda EEUU
India Grecia
Hungria Italia
Bolivia Australia
Israel Chile Suecia Portugal Belgica
Angola Eslovenia
Kazajstan
Argentina
Lituania China
Bulgaria

Peru Mexico Japon Alemania

Uruguay

Grfico 19: Posicin de los Pases respecto a las componentes 1 y 3

Los grficos 18 y 19 representan la localizacin de los pases respecto de la


primera y tercera componente principal. La tercera componente principal discrimina
entre las pruebas de media distancia y larga distancia, as que obtenemos que pases
como Irn y Egipto, como tiempos general altos, destacan en las pruebas de medio
fondo, caso contrario a pases como Japn y Alemania, que poseen registros generales
buenos, pero en las pruebas de medio fondo, los tiempos son mayores.

Los grficos 20 y 21 representan la localizacin de los pases respecto de la


segunda y tercera componente principal. Tenemos que pases como Uruguay, tiene sus
peores registros en las pruebas de medio fondo, y pases como Irn, sus mejores
marcas las posee en las pruebas de 800 metros y 1.500 metros.

Iran

Dinamarca

Croacia
Paraguay Egipto
Argelia ArabiaSaudi Cuba

Venezuela Rusia
Suiza
Kenia UK
Brasil
Turquia Serbia NoruegaSudafrica
NZelanda RepChecaPolonia
Espaa Finlandia CoreaSur Canada
Francia
Holanda
Colombia Jamaica
Marruecos Grecia Nigeria
Etiopia Ucrania
IndiaIrlanda Italia Hungria EEUU
Bolivia Australia
Suecia
Belgica
Portugal
Israel Chile
Angola Eslovenia
ChinaKazajstan
Argentina Lituania Bulgaria

Mexico Japon
Alemania
Peru

Uruguay

Grfico 20: Posicin de los Pases respecto a las componentes 2 y 3

51
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Iran

Dinamarca
Croacia
Paraguay
ArabiaSaudi Egipto
Argelia Cuba
Venezuela Rusia
Suiza
Noruega UK
Kenia RepCheca Brasil
Turquia Serbia
NZelanda Sudafrica
Polonia
Canada
EspaaFinlandia CoreaSur
Francia
Holanda
Colombia Jamaica
Marruecos UcraniaGrecia EEUU Nigeria
Etiopia India Hungria
Bolivia Irlanda Australia
Italia
Angola PortugalChile Eslovenia
Belgica
IsraelSuecia
China
Kazajstan
ArgentinaLituaniaBulgaria

Mexico Japon
Alemania
Peru

Uruguay

Grfico 21: Posicin de los Pases respecto a las componentes 2 y 3

2.8. Contribucin y Calidad de los Pases

La tabla 11 recoge la contribucin de cada pas en la construccin de cada


componente principal, calidad de representacin cada pas obtenida por cada
componente, es decir, el porcentaje de la varianza explicada de cada pas por cada una
de las componentes principales construidas. Tambin se muestra el porcentaje de
varianza explicada acumulada.

Contribuciones Varianza Explicada Varianza Explicada Acumulada


Variables
Comp1 Comp2 Comp3 Comp1 Comp2 Comp3 Comp1 Comp2 Comp3 Resto
Alemania 0.95% 0.06% 5.98% 35.10% 0.84% 31.84% 35.10% 35.95% 67.79% 32.21%
Angola 4.88% 3.08% 1.04% 71.71% 17.45% 2.22% 71.71% 89.17% 91.39% 8.61%
ArabiaSaudi 0.06% 0.01% 3.59% 2.38% 0.14% 20.26% 2.38% 2.51% 22.78% 77.22%
Argelia 0.24% 1.82% 3.20% 10.94% 32.28% 21.34% 10.94% 43.21% 64.56% 35.44%
Argentina 0.39% 0.52% 1.88% 33.12% 16.93% 23.09% 33.12% 50.05% 73.14% 26.86%
Australia 1.62% 0.13% 0.27% 87.30% 2.60% 2.13% 87.30% 89.91% 92.03% 7.97%
Belgica 1.90% 0.06% 0.68% 85.10% 0.98% 4.44% 85.10% 86.08% 90.52% 9.48%
Bolivia 15.23% 2.11% 0.33% 92.91% 4.97% 0.29% 92.91% 97.88% 98.17% 1.83%
Brasil 1.71% 0.24% 0.63% 71.67% 3.88% 3.81% 71.67% 75.55% 79.36% 20.64%
Bulgaria 0.05% 0.27% 1.92% 7.43% 15.00% 40.28% 7.43% 22.43% 62.71% 37.29%
Canada 1.35% 0.74% 0.08% 70.47% 14.78% 0.60% 70.47% 85.25% 85.85% 14.15%
Colombia 0.56% 0.29% 0.00% 32.67% 6.52% 0.01% 32.67% 39.19% 39.20% 60.80%
CoreaSur 0.40% 0.09% 0.05% 30.63% 2.70% 0.54% 30.63% 33.33% 33.87% 66.13%
Croacia 0.76% 0.02% 4.63% 44.60% 0.46% 39.41% 44.60% 45.06% 84.47% 15.53%
Cuba 0.04% 4.50% 3.26% 1.43% 60.32% 16.40% 1.43% 61.75% 78.15% 21.85%
Chile 0.37% 0.10% 0.53% 45.10% 4.54% 9.45% 45.10% 49.64% 59.09% 40.91%
China 0.02% 0.10% 1.36% 1.64% 2.92% 14.65% 1.64% 4.56% 19.21% 80.79%
Dinamarca 0.00% 1.65% 7.20% 0.04% 31.21% 51.07% 0.04% 31.25% 82.32% 17.68%
EEUU 7.67% 3.09% 0.09% 84.57% 13.14% 0.14% 84.57% 97.71% 97.85% 2.15%
Egipto 4.46% 1.72% 4.17% 71.02% 10.54% 9.61% 71.02% 81.56% 91.17% 8.83%
Tabla 12: Contribucin de cada Pas, Varianza Explicada y Varianza Explicada Acumulada por cada C.P.

52
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Contribuciones Varianza Explicada Varianza Explicada Acumulada


Variables
Comp1 Comp2 Comp3 Comp1 Comp2 Comp3 Comp1 Comp2 Comp3 Resto
Eslovenia 0.94% 0.45% 0.86% 68.82% 12.81% 9.05% 68.82% 81.63% 90.68% 9.32%
Espaa 1.25% 1.41% 0.04% 62.73% 27.24% 0.27% 62.73% 89.98% 90.24% 9.76%
Etiopia 0.16% 26.08% 0.09% 1.46% 89.29% 0.12% 1.46% 90.75% 90.87% 9.13%
Finlandia 0.05% 0.36% 0.04% 9.15% 26.18% 0.99% 9.15% 35.33% 36.32% 63.68%
Francia 3.51% 0.23% 0.02% 93.27% 2.33% 0.07% 93.27% 95.60% 95.67% 4.33%
Grecia 0.00% 1.03% 0.04% 0.11% 64.40% 0.92% 0.11% 64.51% 65.43% 34.57%
Holanda 1.18% 0.17% 0.00% 56.74% 3.19% 0.01% 56.74% 59.93% 59.94% 40.06%
Hungria 0.00% 0.40% 0.09% 0.19% 40.42% 3.62% 0.19% 40.61% 44.23% 55.77%
India 0.73% 0.21% 0.13% 77.06% 8.40% 2.02% 77.06% 85.46% 87.49% 12.51%
Iran 3.97% 0.95% 12.42% 51.62% 4.74% 23.37% 51.62% 56.36% 79.74% 20.26%
Irlanda 0.21% 0.01% 0.12% 46.44% 1.00% 3.76% 46.44% 47.44% 51.20% 48.80%
Israel 1.39% 0.12% 0.68% 75.21% 2.59% 5.32% 75.21% 77.80% 83.12% 16.88%
Italia 1.44% 0.06% 0.16% 77.61% 1.25% 1.29% 77.61% 78.85% 80.14% 19.86%
Jamaica 0.00% 17.42% 0.00% 0.03% 86.64% 0.01% 0.03% 86.67% 86.67% 13.33%
Japon 0.29% 0.31% 4.72% 25.88% 10.61% 60.76% 25.88% 36.49% 97.25% 2.75%
Kazajstan 0.53% 0.57% 1.55% 44.95% 18.87% 19.13% 44.95% 63.81% 82.95% 17.05%
Kenia 4.71% 5.80% 0.75% 63.20% 30.02% 1.45% 63.20% 93.23% 94.68% 5.32%
Lituania 0.75% 0.01% 1.83% 42.72% 0.30% 14.99% 42.72% 43.02% 58.01% 41.99%
Marruecos 2.65% 4.07% 0.01% 57.67% 34.18% 0.03% 57.67% 91.85% 91.88% 8.12%
Mexico 0.05% 0.28% 5.02% 3.65% 7.45% 49.30% 3.65% 11.09% 60.40% 39.60%
Nigeria 1.08% 11.68% 0.02% 17.43% 72.52% 0.04% 17.43% 89.95% 89.99% 10.01%
Noruega 0.41% 0.01% 0.50% 24.18% 0.15% 4.25% 24.18% 24.33% 28.58% 71.42%
NZelanda 0.01% 0.64% 0.22% 1.27% 24.47% 3.16% 1.27% 25.74% 28.90% 71.10%
Paraguay 16.08% 0.02% 4.18% 92.37% 0.04% 3.47% 92.37% 92.42% 95.89% 4.11%
Peru 3.54% 0.04% 6.46% 66.39% 0.26% 17.56% 66.39% 66.65% 84.21% 15.79%
Polonia 0.93% 0.30% 0.15% 67.97% 8.52% 1.63% 67.97% 76.50% 78.13% 21.87%
Portugal 0.81% 0.01% 0.68% 34.81% 0.17% 4.22% 34.81% 34.98% 39.20% 60.80%
RepCheca 0.05% 0.00% 0.17% 9.15% 0.29% 4.36% 9.15% 9.45% 13.80% 86.20%
Rusia 0.81% 0.04% 1.80% 65.50% 1.39% 21.09% 65.50% 66.89% 87.98% 12.02%
Serbia 0.37% 0.41% 0.37% 45.70% 19.36% 6.62% 45.70% 65.06% 71.68% 28.32%
Sudafrica 0.61% 0.18% 0.32% 44.35% 5.07% 3.36% 44.35% 49.42% 52.78% 47.22%
Suecia 0.10% 0.01% 0.64% 12.87% 0.34% 11.47% 12.87% 13.20% 24.67% 75.33%
Suiza 0.39% 0.26% 1.39% 43.61% 11.24% 22.63% 43.61% 54.85% 77.47% 22.53%
Turquia 0.05% 5.27% 0.26% 2.10% 89.39% 1.64% 2.10% 91.49% 93.13% 6.87%
Ucrania 0.35% 0.21% 0.05% 32.27% 7.39% 0.67% 32.27% 39.66% 40.33% 59.67%
UK 4.45% 0.17% 0.63% 93.91% 1.42% 1.92% 93.91% 95.33% 97.26% 2.74%
Uruguay 3.18% 0.01% 11.19% 46.38% 0.07% 23.65% 46.38% 46.45% 70.10% 29.90%
Venezuela 0.31% 0.22% 1.54% 33.71% 9.22% 24.59% 33.71% 42.93% 67.51% 32.49%
Tabla 12: Contribucin de cada Pas, Varianza Explicada y Varianza Explicada Acumulada por cada C.P.

En la tabla 11 se observa que Bolivia, Paraguay y EEUU son los pases que ms
contribuyen a la primera componente principal, Etiopa, Jamaica y Mxico a la segunda
componente principal, e Irn y Uruguay a la tercera con un 12% aproximadamente.

Con respecto a la varianza explicada, en el caso de Espaa el 6273% lo es por la


primera componente principal, el 2724% por la segunda y el 027% por la tercera, en
total un 9024% de la varianza de Espaa queda explicada por las tres primeras
componentes. Los pases mejor explicados son Bolivia, EEUU, Francia, Japn y Reino
Unido, con ms de un 95%, y los menos, Arabia Saud, China, Repblica Checa y Suecia,
con menos de un 25%.

53
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

2.9. Relacin entre Pases y Variables

El grfico 22 muestra la relacin conjunta entre las variables y los Pases. Vemos
como hay dos grupos de variables diferenciados, las pruebas de velocidad y las de
resistencia. Cuanto ms cerca queda un pas de uno de estos grupos, peores registros
tiene en sus pruebas, obteniendo que EEUU posee tiempos muy bajos en general, y
Jamaica nicamente en las carreras de distancias cortas. Kenia, Marruecos y Etiopa
poseen registros muy buenos en pruebas de media y larga distancia. Los peores
registros en general son de Paraguay y Bolivia.

-6 -4 -2 0 2 4

Jamaica
0.5

4
Nigeria
X5Km
X10Km
X3000mO
Maraton
X1500m Cuba

2
EEUU
X800m Egipto Grecia
Iran Canada
Kazajstan
Eslovenia Hungria
Bulgaria
Colombia Japon
Polonia
Ucrania BrasilFrancia
Chile
CoreaSur China Sudafrica
Holanda
Australia
Alemania
Italia UK
Peru Rusia
0.0

Uruguay RepCheca
Suecia

0
Paraguay Noruega
Lituania ArabiaSaudi
Croacia Portugal
Irlanda Belgica
Israel
India
Venezuela Suiza
Mexico
Finlandia
SerbiaNZelanda
Argentina
Dinamarca
ArgeliaEspaa
Bolivia
Angola

-2
Marruecos
Turquia Kenia
X400m
-4
-0.5

X110mV

X200m Etiopia
-6

X100m

-0.5 0.0 0.5


Grfico 22: Posicin de las variables y los pases

54
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Anexo 1: Funciones del paquete ade4


Las dos funciones especficas del paquete ade4 utilizadas en R para el Anlisis de
Componentes Principales son dudi.pca e inertia.dudi. Su sintaxis es:

dudi.pca (df, row.w = rep(1, nrow(df))/nrow(df),col.w = rep(1, ncol(df)),center = TRUE,


scale = TRUE,scannf = TRUE, nf = 2)

donde:

df: es un data frame con n filas (individuos) y p columnas (variables numricas).

row.w: es opcional y es el peso de las columnas (por defecto uniforme).

col.w: es opcional y es el peso de las filas.

center: es un valor lgico o numrico. Si es True, se centra por la media, si es


False no se centra. Si es un vector numrico, la longitud debe ser igual al
nmero de columnas.

scale: es un valor lgico que indica si el vector de columnas debe ser


normalizado por los pesos de row.w.

scannf: valor lgico que indica si el grfico de sedimentacin ser facilitado.

nf: si scannf es False, nf es un entero que indica el nmero de componentes a


retener.

Los resultados que devuelve esta funcin son:

tab: es el data frame analizado, dependiendo de la transformacin de los datos.

cw: pesos de las columnas.

lw: pesos de las filas.

eig: los autovalores.

rank: rango de la matriz analizada.

nf: nmero de factores.

55
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

c1: los valores de las componentes principales retenidas, coincide con los
vectores propios.

l1: la posicin de los individuos respecto a las componentes principales


retenidas.

co: la correlacin de las variables con las componentes principales retenidas.

li: el valor de la componente principal para cada individuo.

call: devuelve los datos introducidos para la funcin.

cent: el vector de medias de las variables.

norm: el vector que contiene las desviaciones de las variables.

inertia.dudi(dudi, row.inertia = FALSE, col.inertia = FALSE)

donde:

dudi: es un objeto de clase dudi, devuelto por la funcin dudi.pca.

row.inertia: valor lgico. Si es TRUE, devuelve la contribucin de las filas a cada


componente, y la varianza explicada de cada fila por cada componente.

col.inertia: valor lgico. Si es TRUE, devuelve la contribucin de las columnas a


cada componente, y la varianza explicada de cada columna por cada
componente.

Los resultados que devuelve esta funcin son:

TOT: Varianza total explicada por cada componente. Absoluta, acumulada y


porcentaje explicado.

row.abs: Contribucin de cada fila a cada componente.

row.rel: Varianza explicada de cada fila por cada componente.

row.cum: Varianza explicada acumulada de cada fila por cada componente.

col.abs: Contribucin de cada columna a cada componente.

col.rel: Varianza explicada de cada columna por cada componente.

col.cum: Varianza explicada acumulada de cada columna por cada componente.

56
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Anexo 2: Programacin en R.
#Cargamos libreras y directorio

> options(warn=-1)
> library(ade4)
> memory.size(4000)
> directorio <- "C:\\Documents and Settings\\joseantonio\\
+ Escritorio\\TFM"
> setwd(directorio)

#Leemos datos

> datos <- read.table("datosatletismo.txt",header=T,row.names=1)

#Anlisis Descriptivo, para esto construimos una funcin que nos


#devuelve la tabla completa

> descriptivos <- function(datos=NA)


+ {tabla <- data.frame(c("Media","Varianza","Mnimo",
+ "Percentil5","Percentil25","Mediana","Percentil75",
+ "Percentil95","Mximo"))
+ for(i in 1:ncol(datos))
+ {media <- mean(datos[,i])
+ varianza <- var(datos[,i])
+ perc <- quantile(datos[,i],probs=c(0,0.05,0.25,
+ 0.5,0.75,0.95,1))
+
+ vector <- c(media,varianza,perc)
+ tabla <- cbind(tabla,vector)
+ }
+
+ colnames(tabla)<-c("Variables",colnames(datos))
+
+ return(tabla)
+ }

> descriptivos(datos) # llamamos a la funcin

#Grficos de cajas, usamos la funcin boxplot, y la funcin


#identity para obtener los nombre de los valores que datos
#extremos

> boxplot(x=datos$X100m,xlab="100 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X100m)),datos$X100m,
+ rownames(datos))

> boxplot(x=datos$X110mV,xlab="110 m. vallas",


+ cex.lab=1.7,col="grey")
57
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

> identify(rep(1,length(datos$X110mV)),datos$X110mV,
+ rownames(datos))

> boxplot(x=datos$X200m,xlab="200 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X200m)),datos$X200m,
+ rownames(datos))

> boxplot(x=datos$X400m,xlab="400 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X400m)),datos$X400m,
+ rownames(datos))

> boxplot(x=datos$X800m,xlab="800 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X800m)),datos$X800m,
+ rownames(datos))

> boxplot(x=datos$X1500m,xlab="1500 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X1500m)),datos$X1500m,
+ rownames(datos))

> boxplot(x=datos$X3000mO,xlab="3.000 m. Obstculos",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X3000mO)),datos$X3000mO,
+ rownames(datos))

> boxplot(x=datos$X5Km,xlab="5.000 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X5Km)),datos$X5Km,rownames(datos))

> boxplot(x=datos$X10Km,xlab="10.000 metros",


+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X10Km)),datos$X10Km,
+ rownames(datos))

> boxplot(x=datos$Maraton,xlab="Maratn",cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$Maraton)),datos$Maraton,
+ rownames(datos))

#Matrices de covarianza y correlaciones

> var(datos)
> cor(datos)

#Diagramas de dispersin entre las diferentes variables

plot(datos)

#Test de Hiptesis, creamos dos funciones para los dos test que
#se van a realizar

58
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

> TestIndep <- function(datos=NA,nivel=NA)


+ {N <- nrow(datos)
+ p <- ncol(datos)
+ corr <- cor(datos)
+
+ Xexp <- -(N-1-(2*p+5)/6)*log(det(corr))
+
+ gl <- p*(p-1)/2
+ Xteo <- qchisq(nivel,gl, lower.tail = T)
+
+ tabla <- data.frame("Estadistico"=Xexp,
+ "ChiCuadrado"=Xteo,"GL"=gl)
+ return(tabla)
+ }

> TestIndep(datos,0.95) #Llamamos a la funcin TestIndep

> TestR <- function(datos=NA, q=NA, ro=NA, nivel=NA)


+ {N <- nrow(datos)
+ p <- ncol(datos)
+ vp <- eigen(cor(datos))$values
+ vecp <- eigen(cor(datos))$vectors[,1:q]
+ I <- matrix(0,p,p)
+ I[row(I)==col(I)] <- 1
+ c <- I - vecp%*%t(vecp)
+ corr <- cor(datos)
+ a <- det(corr)/prod(vp[1:q])
+ b <- sum(vp[(q+1):p])/(p-q)
+ Xexp <- (N-1)*(-log(a)+(p-q)*log(b))
+
+ d <- sum(c*c*corr*corr)
+ e <- c(0)
+ for(i in 1:p)
+ for(j in 1:p)
+ e <- e + c[i,i]*c[j,j]*corr[i,j]*corr[i,j]
+ f <- abs(((p-q-1)*(p-q+2)/2) - ((p-q-1)*ro*d*e)/(p-q))
+ gl <- round(f)
+
+ Xteo <- qchisq(nivel, gl, lower.tail = T)
+
+ tabla <- data.frame("Estadistico"=Xexp,
+ "ChiCuadrado"=Xteo,"GL"=gl)
+
+ return(tabla)
+ }

#Llamamos a la funcin TestR con ro=0 y un n.c.=0.95


> for(i in 0:9) print(TestR(datos,i,0,0.95))

#Valores propios y vectores propios

> eigen(cor(datos))$values #Valores propios


> eigen(cor(datos))$vectors #Vectores propios

59
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

#ANLISIS DE COMPONENTES PRINCIPALES (funciones del paquete


#ade4)

> acp <- dudi.pca(df=datos,scannf=T)

> acpi <- inertia.dudi(acp,row.inertia=T,col.inertia=T)

> acp$co #Correlacin entre las componentes principales


> acp$c1 #Valor de las componentes principales

#Grficos de las variables

> s.label(acp$co[,c(1,2)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(1,2)],clabel=0.9,grid=T)

> s.label(acp$co[,c(1,3)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(1,3)],clabel=0.9,grid=T)

> s.label(acp$co[,c(2,3)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(2,3)],clabel=0.9,grid=T)

#Contribucin y calidad de las variables

> acpi$col.abs/10000
> acpi$col.rel/10000
> acpi$col.cum/10000

#Grficos pases

> s.label(acp$li[,c(1,2)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(1,2)],clabel=0.9,grid=T)

> s.label(acp$li[,c(1,3)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(1,3)],clabel=0.8,grid=T)

> s.label(acp$li[,c(2,3)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(2,3)],clabel=0.8,grid=T)

#Contribucin y calidad de los pases

> acpi$row.abs/10000
> acpi$row.rel/10000
> acpi$row.cum/10000

#Grfico relacin entre Pases y Variables

> biplot(acp$co[,c(1,2)],acp$li[,c(1,2)])

60
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

Bibliografa

Parte terica

Anderson, T. W. 1984. An introduction to multivariate statistical analysis. John


Wiley & Sons.

Anderson, T.W., and H. Rubin. 1956. Statistical inference in factor analysis.


Proceedings of the third Berkeley Symp. Volumen Vol. V. University of
California, Berkeley, 111-150.

Bartlett, M. S. 1947. Multivariante Analysis. Journal of the Royal Statistical


Society Suppl. 9B:176-197.

Basilewsky, A. 1994. Statistical factor analysis and related methods: theory and
aplications. New York: John Wiley and Sons.

Crawley, M. J. 2007. The R book. Wiley.

Johnson, R. A., and D. W. Wichern. 1998, Applied multivariate statistical


analysis. Prentice-Hall.

Lawley, D. N., and E. Maxwell. 1971. Factor analysis as a statistical method. Ed.
Butterworths, London.

Schwarz, G. 1987. Estimathing the dimensin of a model. Annals of Statistics


6: 431-464.

SPSS. 2005. SPSS 15. Manual de usuario. Chicago.

Thurstone, L. L. 1945. Multiple-Factor Analysis. University Chicago Press.

Parte prctica

http://en.wikipedia.org/wiki/Greek_records_in_athletics
http://en.wikipedia.org/wiki/Irish_records_in_athletics
http://en.wikipedia.org/wiki/Italian_records_in_athletics
http://en.wikipedia.org/wiki/Dutch_records_in_athletics
http://en.wikipedia.org/wiki/Portuguese_records_in_athletics
http://en.wikipedia.org/wiki/Spanish_records_in_athletics
http://en.wikipedia.org/wiki/Swedish_records_in_athletics

61
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

http://en.wikipedia.org/wiki/Swiss_records_in_athletics
http://en.wikipedia.org/wiki/British_records_in_athletics
http://en.wikipedia.org/wiki/Japanese_records_in_athletics
http://en.wikipedia.org/wiki/Canadian_records_in_athletics
http://en.wikipedia.org/wiki/United_States_records_in_athletics
http://en.wikipedia.org/wiki/Iranian_records_in_athletics
http://en.wikipedia.org/wiki/Israeli_records_in_athletics
http://en.wikipedia.org/wiki/Saudi_Arabian_records_in_athletics
http://en.wikipedia.org/wiki/Turkish_records_in_athletics
http://en.wikipedia.org/wiki/Chinese_records_in_athletics
http://en.wikipedia.org/wiki/Indian_records_in_athletics
http://en.wikipedia.org/wiki/Norwegian_records_in_athletics
http://en.wikipedia.org/wiki/Australian_records_in_athletics
http://en.wikipedia.org/wiki/Hungarian_records_in_athletics
http://en.wikipedia.org/wiki/Polish_records_in_athletics
http://en.wikipedia.org/wiki/Russian_records_in_athletics
http://en.wikipedia.org/wiki/Bolivian_records_in_athletics
http://en.wikipedia.org/wiki/Argentine_records_in_athletics
http://en.wikipedia.org/wiki/Brazilian_records_in_athletics
http://en.wikipedia.org/wiki/Chilean_records_in_athletics
http://en.wikipedia.org/wiki/Colombian_records_in_athletics
http://en.wikipedia.org/wiki/Paraguayan_records_in_athletics
http://en.wikipedia.org/wiki/Peruvian_records_in_athletics
http://en.wikipedia.org/wiki/Uruguayan_records_in_athletics
http://en.wikipedia.org/wiki/Venezuelan_records_in_athletics
http://en.wikipedia.org/wiki/Mexican_records_in_athletics
http://en.wikipedia.org/wiki/Belgian_records_in_athletics
http://en.wikipedia.org/wiki/Jamaican_records_in_athletics
http://en.wikipedia.org/wiki/Finnish_records_in_athletics
http://en.wikipedia.org/wiki/Danish_records_in_athletics
http://en.wikipedia.org/wiki/French_records_in_athletics
http://en.wikipedia.org/wiki/German_records_in_athletics
http://en.wikipedia.org/wiki/Kenyan_records_in_athletics
http://en.wikipedia.org/wiki/Ethiopian_records_in_athletics
http://en.wikipedia.org/wiki/Egyptian_records_in_athletics
http://en.wikipedia.org/wiki/Moroccan_records_in_athletics
http://en.wikipedia.org/wiki/Angolan_records_in_athletics
http://en.wikipedia.org/wiki/Algerian_records_in_athletics
http://en.wikipedia.org/wiki/Comorian_records_in_athletics
http://en.wikipedia.org/wiki/South_Korean_records_in_athletics
http://en.wikipedia.org/wiki/Croatian_records_in_athletics
http://en.wikipedia.org/wiki/Cuban_records_in_athletics
http://en.wikipedia.org/wiki/Slovenian_records_in_athletics
http://en.wikipedia.org/wiki/Kazakhstani_records_in_athletics
http://en.wikipedia.org/wiki/Lithuanian_records_in_athletics
http://en.wikipedia.org/wiki/Nigerian_records_in_athletics
http://en.wikipedia.org/wiki/New_Zealand_records_in_athletics
http://en.wikipedia.org/wiki/Czech_records_in_athletics
http://en.wikipedia.org/wiki/South_African_records_in_athletics

62
Anlisis de Componente Principales Trabajo Fin de Mster 2011/12

http://en.wikipedia.org/wiki/Ukrainian_records_in_athletics
http://en.wikipedia.org/wiki/Serbian_records_in_athletics

http://www.juegosenlondres2012.com/atletas/por-paises

63

Você também pode gostar