Você está na página 1de 20

Anlisis de datos y Estadstica Avanzada

Mster Interuniversitario de Astrofsica UCM+UAM


Tema 9: Anlisis de componentes principales (PCA)

Javier Gorgas y Nicols Cardiel


Departamento de Astrofsica y Ciencias de la Atmsfera
Facultad de Ciencias Fsicas
Universidad Complutense de Madrid

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

C
1 urso 2010/2011

1 / 52

C
2 urso 2010/2011

2 / 52

Esquema
1

Introduccin
PCA dentro del anlisis multivariante
Objetivo del PCA

Clculo de componentes principales


Aproximacin geomtrica
Aproximacin algebraica
Un ejemplo sencillo
El problema del cambio de escala

Aplicacin del PCA


Reduccin de la dimensionalidad
Cuntas componentes retener?
Significado de las componentes principales
Algunos ejemplos astrofsicos

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Introduccin

PCA dentro del anlisis multivariante

Tcnicas multivariantes
Consideremos un conjunto de objetos sobre los que se mide una serie de propiedades diferentes. Estudio ptimo? Uso de tcnicas multivariantes, las cuales permiten realizar un anlisis
simultneo de todos los objetos y sus propiedades (ver Tema 6).

Qu hacer?

8
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
:

objeto #1
objeto #2
.
.
.
objeto #n

propiedad #1
y11
y21
.
.
.
yn1

propiedad #2
y12
y22
.
.
.
yn2

...
...
...
.
.
.
...

...
...
...
.
.
.
...

propiedad #p
y1p
y2p
.
.
.
ynp

Contrastes de hiptesis sobre la matriz de covarianza: testear correlacin entre propiedades.


Anlisis de componentes principales: bucar un conjunto reducido de combinaciones lineales
de las variables que resuman la variacin de los datos.
Anlisis de factores: expresar las variables originales como un conjunto de funciones lineales
de factores.
Anlisis de agrupacin: determinar agrupaciones entre datos (nmero de grupos inicialmente
desconocido).
Anlisis de clasificacin: ubicacin de nuevos objetos en distintos grupos predefinidos.
Regresin lineal mltiple: determinar un modelo que prediga un conjunto de propiedades
(variables dependientes) a partir de otro conjunto de propiedades (variables independientes).
Anlisis discriminante: buscar la combinacin lineal de las variables que mejor discrimine entre
diferentes muestras de objetos.
...

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Introduccin

C
3 urso 2010/2011

4 / 52

Objetivo del PCA

Simplificar para sobrevivir!


El objetivo principal del anlisis de componentes principales es reducir
la dimensionalidad de un conjunto (muy) grande de datos.

Tradicionalmente los astrnomos tienden a representar los parmetros medidos uno frente a otro,
tratando de inferir conclusiones a partir de las correlaciones observadas. Esta tcnica es inviable
cuando el nmero de parmetros representados es superior a 4 5.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

C
4 urso 2010/2011

6 / 52

Introduccin

Objetivo del PCA

R permite, de forma trivial, representar todas los posibles diagramas


de dispersin de un conjunto de datos multivariante con la ejecucin
de un nico comando:
> plot(airquality)

los datos estn en el paquete base, cargado por defecto

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

C
5 urso 2010/2011

8 / 52

Aproximacin geomtrica

Como ya vimos en su da, en el trabajo dentro del rea del anlisis multivariante resulta
extremadamente til utilizar lgebra matricial.
objeto #1
objeto #2
.
..
objeto #i
.
.
.
objeto #n
medias

propiedad #1
y11
y21
.
..
yi1
.
.
.
yn1
y1

propiedad #2
y12
y22
.
..
yi2
.
.
.
yn2
y2

...
...
...
.
..
...
.
.
.
...
...

...
...
...
.
..
...
.
.
.
...
...

propiedad #p
y1p
y2p
.
..
yip
.
.
.
ynp
yp

Podemos definir y como un vector aleatorio con p variables (propiedades) medidas en


cada objeto. Si tenemos n objetos en la muestra, las observaciones pueden escribirse
como y1 , y2 ,. . . ,yn , donde
0
1
0 1 0
1
y11 y12 . . . . . . y1p
yi1
y1
B yi2 C
B y2 C B y21 y22 . . . . . . y2p C
C
B
C
B
C B
yi = B . C ,
Y=B . C=B .
C.
.
.
.
.
..
..
..
.. A
@ .. A
@ .. A @ ..
yip
yn1 yn2 . . . . . . ynp
yn
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
6
2010/2011

10 / 52

Clculo de componentes principales

Aproximacin geomtrica

Aproximacin geomtrica al problema

(Francis & Wills 1999)


Consideremos un conjunto de n observaciones y1 , y2 , . . . , yi , . . . , yn , que forman una nube
de puntos en un espacio p-dimensional (como simplificacin, podemos visualizarlo como
un elipsoide de puntos). Cada vector yi es un vector columna con p elementos.
Si las p propiedades Y1 , Y2 , . . . , Yp estn correlacionadas, la distribucin de puntos no
estar orientada paralelamente a los ejes definidos por Y1 , Y2 , . . . , Yp .

A travs del PCA vamos a determinar los ejes naturales de la distribucin de puntos (i.e.,
los ejes del elipsoide), cuyo origen se encuentra en y, el vector medio de y1 , y2 , . . . , yn .
Esto se realiza restando y y calculando la rotacin que minimice la suma de distancias a
los ejes (maximice la proyeccin de los datos sobre los mismos ejes).
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

Curso
7
2010/2011

11 / 52

Aproximacin geomtrica

Aproximacin geomtrica al problema


Podemos rotar los ejes multiplicando cada vector p-dimensional yi por una matriz
ortogonal A
zi = Ayi .
Como A es ortogonal, A A = I, la distancia al origen no cambia
zi zi = (Ayi ) (Ayi ) = yi A Ayi = yi yi ,
y por ello zi = Ayi es realmente una rotacin.
Buscamos la matriz ortogonal A que nos proporcione unos nuevos parmetros
(componentes principales) Z1 , Z2 , . . . , Zp que no estn correlacionadas. Para ello
necesitamos que la matriz muestral de covarianzas de z, Sz , sea diagonal
0 2
1
sz1
0
...
0
B 0
s2z2 . . .
0 C
B
C

B
C,
Sz = ASA = B .
.
.
.
. C
@ ..
.
. A
2
0
0
. . . szp
donde S es la matriz muestral de covarianzas de y.

Conclusin: El problema se reduce a encontrar A tal que diagonalice S.

(Puede demostrarse que una matriz simtrica S puede ser diagonalizada empleando una matriz ortogonal que contenga los autovectores normalizados de S, y la matriz diagonal resultante
contiene los autovalores asociados.)
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
8
2010/2011

12 / 52

Clculo de componentes principales

Aproximacin geomtrica

Aproximacin geomtrica al problema


La matriz ortogonal A que diagonaliza S puede escribirse como
0 1
a1
B a2 C
B
C
A = B . C,
@ .. A
ap

donde ai son los autovectores de S que verifican ai aj = ij (estn normalizados y son


ortogonales).
Las componentes principales son las nuevas variables Zi = ai y, por ejemplo
Z1 = a11 Y1 + a12 Y2 + . . . + a1p Yp .

Los autovalores de S sern las varianzas muestrales de las componentes principales


1
0
1 0 s2
0
...
0
1
0
...
0
z1
0
s2z2 . . .
0 C
B 0
2 . . .
0 C B
C
B
C B
C,
B .
C=B
.
.
.
.
.
B
.
. A @ .
.
. C
@ ..
.
.
.
.
. A
0
0
. . . p
0
0
. . . s2zp
siendo habitual ordenar las variables de forma que 1 > 2 > . . . > p .

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

Curso
9
2010/2011

13 / 52

Aproximacin geomtrica

Reduccin de la dimensionalidad
Como los autovalores son varianzas de las componentes principales,
podemos definir la proporcin de varianza explicada por las primeras k
componentes mediante
Proporcin de varianza =

1 + 2 + . . . + k
1 + 2 + . . . + k
p
=
1 + 2 + . . . + p
j=1 sjj

Si los parmetros estn muy correlacionados, la dimensionalidad


efectiva es mucho menor que p. En este caso los primeros autovalores
son grandes y la proporcin de varianza ser prxima a 1 para valores
de k pequeos.
Si las correlaciones entre los parmetros originales son pequeas, la
dimensionalidad efectiva ser prxima a p y los autovalores sern
parecidos. En este caso las componentes principales esencialmente
duplicarn los parmetros originales y no se conseguir reducir la
dimensionalidad.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
10 2010/2011

14 / 52

Clculo de componentes principales

Aproximacin algebraica

Aproximacin algebraica al problema


Otra forma de interpretar el PCA es como un mtodo que permita encontrar
combinaciones lineales de variables con una varianza mxima. Por ejemplo, dado un
conjunto de p parmetros Y1 , Y2 , . . . , Yp , podemos buscar la direccin definida por el
vector p-dimensional a en la que un nuevo parmetro definido como
Z = a1 Y1 + a2 Y2 + . . . + ap Yp = a y,

presenta una varianza mxima.

Si tenemos un conjunto de n objetos, la varianza muestral de Zi = a yi , con i = 1, . . . , n,


puede calcularse en funcin de S, la matriz muestral de covarianzas de y1 , y2 , . . . , yn , como
s2z = a Sa.
No es posible calcular un mximo para la expresin anterior porque su valor crece de
forma indefinida para vectores a suficientemente grandes. Una forma de hacerlo es
restringir arbitrariamente (pero de forma razonable) el tamao (norma) de a. Por ejemplo,
suponiendo que es un vector unitario, i.e., a a = 1.
Podemos entonces buscar el mximo de s2z con la condicin a a = 1. Esto se hace usando
la tcnica de los multiplicadores de Lagrange a imponiendo que la derivada de
a Sa (a a 1) sea igual a cero, lo que conduce a
(S I)a = 0

Sa = a

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

Curso
11 2010/2011

16 / 52

Aproximacin algebraica

Aproximacin algebraica al problema


El valor ptimo de a (que llamaremos a1 ) es la solucin de
Sa = a.
Es decir, a1 es el autovector asociado al autovalor 1 de mayor tamao.
El segundo eje que maximiza la varianza debe ser perpendicular al primero ya calculado,
por lo que tenemos una nueva restriccin a a1 = 0, por lo que la expresin a minimizar es
ahora a Sa 2 (a a 1) 2 (a a1 ), donde 2 y 2 son dos nuevos multiplicadores de
Lagrange. Tomando derivadas es fcil mostrar que 2 = 0, por lo que la ecuacin a
resolver vuelve a ser
Sa = a,
siendo 2 el segundo autovalor ms grande y a2 su autovector asociado.
De forma similar se razona para el resto de los ejes a3 , . . . , ap . Es decir, se obtiene el
mismo resultado que ya vimos antes en la aproximacin geomtrica.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
12 2010/2011

17 / 52

Clculo de componentes principales

Un ejemplo sencillo

Un ejemplo con MATLAB


Consideremos el siguiente conjunto de datos
(n = 25 objetos y p = 2 parmetros)
y1
y2

191
155

195
149

181
148

183
153

176
144

208
157

189
150

197
159

188
152

192
150

179
158

183
147

y1
y2

190
159

188
151

163
137

195
155

186
153

181
145

175
140

192
154

174
143

176
139

197
167

190
163

174
150

load datos.dat
y1=datos(:,1);
y2=datos(:,2);
plot(y1,y2,ro);
xlabel(y1);
ylabel(y2);
ymean=mean(datos);

185.7200
y=
151.1200

S=cov(datos);

95.2933
S=
52.8683

52.8683
54.3600

S es la matriz a diagonalizar.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

Curso
13 2010/2011

20 / 52

Un ejemplo sencillo

[A,score,lambda,tsquare]=princomp(datos);

0.8249
0.5652
131.5183
A=
=
0.5652
0.8249
18.1350
y los autovectores son

0.8249
a1 =
0.5652

0.5652
0.8249
p
Las elipses tienen semiejes proporcionales a
1 = 11.47 y
p
p
p
2 = 4.26 (calculadas como y1 1 cos t, y2 2 sin t, con
t [0, 2], rotadas por A y con origen en y).
y

a2 =

La proporcin de varianza explicada por la primera componente


ser
Proporcin de varianza =

1
1 + 2

= 0.879 88%

Significado de la primera componente?


Al ser el PCA una rotacin de ejes, la primera componente principal minimiza la suma cuadrtica de distancias entre los puntos y la
direccin principal (distancia perpendicular). Es, por tanto, equivalente a la regresin ortogonal (ver Tema 4). De hecho, la direccin
de la primera componente principal se encuentra ubicada entre la
regresin ordinaria de y1 sobre y2 y la regresin ordinaria de y2
sobre y1 .

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
14 2010/2011

21 / 52

Clculo de componentes principales

Un ejemplo sencillo

El mismo ejemplo con R


Volvemos a considerar el mismo conjunto de datos
(n = 25 objetos y p = 2 parmetros)
y1
y2

191
155

195
149

181
148

183
153

176
144

208
157

189
150

197
159

188
152

192
150

179
158

183
147

y1
y2

190
159

188
151

163
137

195
155

186
153

181
145

175
140

192
154

174
143

176
139

197
167

190
163

> datos <- read.table(datos.dat,header=FALSE)


> modelo <- prcomp(datos)
> barplot(modelo$sdev2,names.arg=c("PC1","PC2"),
+ xlab="Principal Components",
+ ylab="Variances",main="modelo")
> print(modelo)
Standard deviations:
[1] 11.468144 4.258521

80

100

120

modelo

60

Rotation:
PC1
PC2
V1 -0.8249295 -0.5652357
V2 -0.5652357 +0.8249295
> summary(modelo)
Importance of components:

20

40

Variances

174
150

PC1

PC2
Principal Components

Standard deviation
Proportion of Variance
Cumulative Proportion

PC1
PC2
11.4681 4.2585
0.8788 0.1212
0.8788 1.0000

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Clculo de componentes principales

Curso
15 2010/2011

23 / 52

El problema del cambio de escala

El PCA no es invariante de escala!


Dado que el PCA se basa en la diagonalizacin de la matriz muestral de covarianzas S, es
sensible a un cambio de escala en alguno de los parmetros Y. Por tanto, las
componentes principales no son invariantes bajo cambios de escala.
Siempre que sea posible, las variables bajo estudio deben expresarse en unidades
comparables.
Si las variables tienen escalas muy distintas, pueden estandarizarse antes del clculo de
la componentes principales. Esto es equivalente a calcular las componentes principales
de la matriz muestral de correlacin R.
Es importante resaltar que los resultados que se obtienen al calcular las componentes
principales a partir de la matriz muestral de covarianzas S o a partir de la matriz muestral
de correlacin R son diferentes:
0
1
0
1
s11 s12 . . . s1p
1
r12 . . . r1p
B s21 s22 . . . s2p C
B r21
1
. . . r2p C
B
C
B
C
S=B .
vs.
R
=
C
B
..
.
..
..
. C,
.
.
@ ..
A
@
.
.
.
.
. A
sp1 sp2 . . . spp
rp1 rp2 . . .
1

1
donde R = D1
s SDs , con Ds = diag( s11 , s22 , . . . , spp ).

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
16 2010/2011

25 / 52

Aplicacin del PCA

Reduccin de la dimensionalidad

Utilidad del PCA


En algunas aplicaciones el PCA constituye un objetivo en s mismo y es objeto
de interpretacin.
Otras veces es simplemente una herramienta que permite reducir la
dimensionalidad de un conjunto de datos que posteriormente puede ser objeto
de un anlisis estadstico posterior.

Ejemplos de reduccin de la dimensionalidad


Anlisis de regresin: cuando el nmero de variales es muy grande comparado
con el nmero de observaciones (los tets pueden ser ineficientes o imposibles
de realizar).
Anlisis de regresin: cuando las variables independientes estn muy
correlacionadas (las estimaciones de los coeficientes de regresin son
inestables).
Chequeo de normalidad multivariada, presencia de outliers,. . . (a travs de
diagramas de dispersin de las primeras dos componentes).
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
17 2010/2011

27 / 52

Curso
18 2010/2011

28 / 52

Reduccin de la dimensionalidad

Deteccin de outliers (diagrama de dispersin)

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Reduccin de la dimensionalidad

Deteccin de outliers (primeras 2 componentes principales)

Los outliers no aparecen al examinar las cuatro variables por separado!

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
19 2010/2011

29 / 52

Reduccin de la dimensionalidad

Deteccin de agrupaciones

Deteccin de 4 grupos en el estudio de 19 propiedades en 40 objetos. En este ejemplo


la proporcin de varianza explicada por las dos primeras componentes es del 85%, por
lo que la representacin grfica de z1 y z2 muestra la informacin existente en los datos
con poca distorsin.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
20 2010/2011

30 / 52

Aplicacin del PCA

Cuntas componentes retener?

Indicaciones generales
1

Retener suficientes componentes para garantizar un porcentaje predefinido de la varianza


total, por ejemplo el 80%.

Retener aquellas
P componentes cuyos autovalores superen el promedio de todos los
autovalores, pi=1 i /p. Para la matriz de correlacin este promedio es 1.0.

Utilizar una representacin grfica de i frente a i, y determinar el codo en el que se


produce la transicin entre los autovalores grandes y los pequeos.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
21 2010/2011

32 / 52

Cuntas componentes retener?

Indicaciones generales (continuacin)


4

Utilizar tests de significacin.


Un test preliminar que resulta til es testear la completa independencia de las variables,
por ejemplo en la matriz poblacional de covarianzas
H0 : = diag(11 , 22 , . . . , pp ),
o lo que es equivalente, en la matriz poblacional de correlacin
H0 : P = I.
En este caso, el estadstico definido por
u = [(n 1)
donde
u=

1
(2p + 5)] ln(u),
6

|S|
= |R|,
s11 s22 . . . spp

sigue aproximadamente una distribucin 2f , con f = 12 p(p 1).


Se rechaza H0 si u > 2,f .
Si el test indica que las variables son independientes, no tiene sentido realizar un anlisis
de componentes principales.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
22 2010/2011

33 / 52

Aplicacin del PCA

Cuntas componentes retener?

Indicaciones generales (continuacin)


4

Utilizar tests de significacin.


Para testear la significacin de las componentes principales, se realiza la hiptesis nula de
que los ltimos k autovalores son pequeos e iguales, H0k : pk+1 = pk+2 = . . . = p ,
donde 1 , 2 , . . . , p son los autovalores poblacionales, es decir, los autovalores de .
Para testear H0k se calcula el promedio de los ltimos k autovalores
p
X

i=pk+1

y se calcula el estadstico
u=

2p + 11
n
6

i
,
k

@k ln()

p
X

i=pk+1

ln(i )A ,

que sigue aproximadamente una distribucin 2 , con = 12 (k 1)(k + 2).


Se rechaza H0 si u 2, .

Normalmente se empieza con H02 : p1 = p . Si se acepta, se sigue con


H03 : p2 = p1 = p , y se sigue testeando hasta que H0k se rechaza para algn valor
de k.
Tema 9: Anlisis de componentes principales
Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
23 2010/2011

34 / 52

Significado de las componentes principales

Significado de las componentes?


Las componentes principales se obtienen por rotacin de ejes en el espacio de
parmetros, proporcionando unas nuevas variables que no estn
correlacionadas y que reflejan las direcciones de mxima varianza. Estas
direcciones no tienen por qu tener una interpretacin evidente.
Si las componentes resultantes no pueden interpretarse fcilmente, pueden
rotarse buscando anular el mayor nmero de coeficientes de las combinaciones
lineales para simplificar la intepretacin. Sin embargo, las nuevas componentes
rotadas volvern a estar correlacionadas y ya no suministrarn direcciones de
mxima varianza (ya no sern componentes principales).
Cuando la interpretacin de los datos sea el objetivo fundamental (y no la
reduccin de su dimensionalidad), el anlisis de factores es una tcnica
alternativa ms til.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
24 2010/2011

36 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

Stellar Spectral Classification. I. Application of Component


Analysis, T.J. Deeming (1963).
Utilizacin de 5 ndices de intensidad de lnea en 84 estrellas gigantes de tipos espectrales G y K para la realizacin de una clasificacin espectral:
1

lnea K de Ca II

banda CN4200

Mgb

el triplete de Ca I61026162)

Se obtiene que 1 es claramente mayor que 2 , 3 , 4 y


5 . Como las estrellas se restringen a un intervalo en
magnitud absoluta, es razonable interpretar la primera
componente (K1 ) como un parmetro indicativo del tipo
espectral.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
25 2010/2011

38 / 52

Algunos ejemplos astrofsicos

Variations in spectral-energy distributions and absorption-line


strengths among elliptical galaxies, S.M. Faber (1973).

1 , 2 , 3 y 4 son significativamente mayores que las varianzas esperadas por los errores (Qi ). Pero 3 y 4 son significativos slo si los colores
de M31, M32 y NGC205 se incluyen. Como estos ltimos son inciertos,
entonces slo parecen significativas las 2 primeras componentes.
Slo hacen falta dos parmetros para especificar completamente los
colores de las galaxias elpticas estudiadas.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
26 2010/2011

39 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

The manifold of globular clusters, Brosche & Lentes (1984).

El nmero de parmetros significativos es p = 2


(el tercer autovalor es slo marginalmente significativo).
No se detectan agrupaciones en el plano PC1,
PC2.

Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)

Aplicacin del PCA

Curso
27 2010/2011

40 / 52

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

Estudio de 1850 espectros simulados con PEGASE, considerando brotes instantneos que
ocurren a t = 0 y con edades comprendidas entre 0.01 y 18.5 Gaos.
Ejemplos de espectros simulados para diferentes edades.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
28 2010/2011

41 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

PC1: explica el 98.5% de la variacin en


los espectros. Correlaciona el continuo
azul con las absorciones de Balmer.
PC2: slo explica el 0.9% de la variacin,
por lo que las caractersticas espectrales
reconocibles (como la lnea K del Ca) tan
slo aaden informacin de segundo
orden con respecto a PC1.
PC3: explica el 0.5% de la variacin.
Correlaciona las lneas de Balmer con las
absorciones por debajo de 4000 .

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
29 2010/2011

42 / 52

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

La proyeccin de PC1 frente a la edad muestra el


claro enrojecimiento de las galaxias al hacerse stas ms viejas.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
30 2010/2011

43 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

Brote joven: espectros simulados con edades


comprendidas entre 0 y 14 Maos

PC1: explica el 99.5% de la variacin en


los espectros. La informacin que
contiene es bsicamente las lneas de
emisin.
PC2: slo explica el 0.7% de la variacin,
y se reduce de forma casi exclusiva a un
continuo azul.
PC3: explica el 0.05% de la variacin.
Muestra la correlacin entre lneas de
absorcin y la disminucin en el continuo
por debajo de 4000 .

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
31 2010/2011

44 / 52

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

Brote joven: espectros simulados con edades


comprendidas entre 0 y 14 Maos
La proyeccin de PC1 y PC2 frente a la edad
muestra que las lneas de emisin dominan slo
para edades muy jvenes, disminuyendo drsticamente por encima de t = 6 Maos. PC2 indica que
sin embargo el continuo tiene un mximo entre 3
y 5 Maos despus del brote, para caer bruscamente en t = 8 Maos.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
32 2010/2011

45 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).
El efecto de la metalicidad
Simulacin de espectros con distintas metalicidades, y edades comprendidas entre 100 y
1850 Maos.
PC1: explica el 96.41% de la variacin en
los espectros. Alguna de las lneas
metlicas aparecen en emisin (e.g.
NaD, Mgb, lneas de Fe). Son lneas de
abosorcin pero estn
anticorrelacionadas con las absorciones
de Balmer y con los colores azules.
PC2: slo explica el 2.03% de la
variacin, y resulta muy diferente de lo
que vimos anteriormente para
metalicidad solar constante (tenemos
mayor varianza debido precisamente a
los efectos de la metalicidad). En este
caso tenemos correlacin positiva (mismo
signo) para las absorciones metlicas
(NaD, Mgb, Fe5015, Fe5782) y las
absorciones de Balmer.
PC3: explica el 0.34% de la variacin y es
ms difcil de interpretar que en el caso
de metalicidad solar.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Aplicacin del PCA

Curso
33 2010/2011

46 / 52

Algunos ejemplos astrofsicos

Analysis of synthetic galaxy spectra, Ronen, Aragn-Salamanca,


& Lahav (1999).

El efecto de la metalicidad
La proyeccin de PC1 frente a la edad para diferentes metalicidades (Z = 0.1, 0.05, 0.02, 0.008
y 0.004, de arriba a abajo). Como PC1 contiene
un continuo azul, su valor disminuye (galaxias ms
rojas) a medidad que la edad aumenta. Sin embargo, en los modelos ms metlicos se hacen
ms azules de nuevo a partir de t = 14 Gaos.
Esto se explica asumiendo que en este caso las
estrellas esquivan la fase AGB y se mueven rpidamente a la rama horizonal azul debido a la existencia de unos fuertes vientos estelares.

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
34 2010/2011

47 / 52

Aplicacin del PCA

Algunos ejemplos astrofsicos

Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)

Aplicacin del PCA

Curso
35 2010/2011

48 / 52

Curso
36 2010/2011

49 / 52

Algunos ejemplos astrofsicos

Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)

Aplicacin del PCA

Algunos ejemplos astrofsicos

Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)

Aplicacin del PCA

Curso
37 2010/2011

50 / 52

Curso
38 2010/2011

51 / 52

Algunos ejemplos astrofsicos

Anlisis
de ()
datos y Estadstica Avanzada
Tema 9: Anlisis de componentes principales
(PCA)

Aplicacin del PCA

Algunos ejemplos astrofsicos

Referencias
Babu G.J., Feigelson E.D., 1996, Astrostatistics, Chapman & Hall, London
Brosche P., Lentes F.-T., 1984, The manifold of globular clusters, A&A, 139, 474
Deeming T.J., 1964, Stellar spectral classification, MNRAS, 127, 493
Faber S.M., 1973, Variations in spectral-energy distributions and absorption-line strengths
among elliptical galaxies, ApJ, 179, 731
Francis P.J., Wills B.J., 1999, Introduction to Principal Components Analysis, ASP
Conference Series, 162, 363
Rencher A.C., 2002, Methods of multivariate analysis, 2nd edition, John Wiley & Sons
Ronen S., Aragn-Salamanca A., Lahav O., 1999, Principal component analysis of
synthetic galaxy spectra, MNRAS, 303, 284
Wall J.V., Jenkins C.R., 2003, Practical statistics for astronomers, Cambridge University
Press
Pgina WEB de VOStat: http://vo.iucaa.ernet.in/~voi/VOStat.html

Tema 9: Anlisis de componentes principales


Anlisis
(PCA)
de ()
datos y Estadstica Avanzada

Curso
39 2010/2011

52 / 52