Factorial 2

Índice general
1. Análisis Factorial 3
1.1. Introducción: El modelo teórico básico de Análisis Factorial. Generalidades. . . . . . . . . . . . 3
1.1.1. Modelo de Análisis Factorial no-restringido y aleatorio . . . . . . . . . . . . . . . . . . . 3
1.1.2. Algunos resultados sobre el Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3. Análisis Factorial, oblicuo, ortogonal y normal (Lawley) . . . . . . . . . . . . . . . . . . 6
1.2. Problemas básicos inherentes al modelo de Análisis Factorial . . . . . . . . . . . . . . . . . . . 7
1.2.1. El problema de la identificación en el Análisis Factorial: existencia y unicidad de solución 7
1.2.2. Un problema de “ambigüedad” en el Análisis Factorial. Rotación de factores e interpre-
tación en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3. Cambio de unidades de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Métodos de estimación en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2. El método de las componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.3. La “Principal Factor Solution” como modificación del método de las Componentes Prin-
cipales en estimación en Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.4. El método de Máxima Verosimilitud en el Modelo de Análisis Factorial (Modelo de
Lawley-Maxwell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.5. Ejemplo Stock-prices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4. La rotación de factores en el Análisis Factorial. Criterios gráficos y analı́ticos (Kaiser-Varimax) 24
1.4.1. Métodos gráficos en la rotación de factores . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.2. Métodos analı́ticos: el criterio de Kaiser (Criterio Varimax) . . . . . . . . . . . . . . . . 26
1.5. Rotación de factores. Criterios analı́ticos generales . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5.1. Métodos de rotación ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.6. Puntuaciones en los factores (Factor Scores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.1. El método de mı́nimos cuadrados ponderados . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.2. El método de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6.3. Comparación de los “factor scores” dados por los dos métodos . . . . . . . . . . . . . . 33
1.6.4. Los “scatterplots” bivariantes de los factor scores . . . . . . . . . . . . . . . . . . . . . . 34
1.7. Contrastes de Hipótesis en Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.1. Test asintótico (Bartlett) sobre la adecuación de un modelo factorial ortogonal con m
factores comunes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.3. Criterios basados en la información estadı́stica. El criterio de Akaike (AIC) para la elec-
ción de un modelo factorial con r-factores comunes . . . . . . . . . . . . . . . . . . . . . 39
2. Aplicación mediante R 42
2.1. Paquete Factanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2. Paquete prcomp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3. Ejemplo de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
1
Análisis Factorial 2
A. Rotaciones Oblicuas en el Análisis Factorial. Estructuras factorial y de referencia. Criterios

analı́ticos 54
A.1. Métodos oblimin directos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.2. Estructura factorial y estructura de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
B. El Modelo de Análisis Factorial ortogonal de Lawley-Maxwell: Estimación máximo-verosı́mil

y contrastes de hipótesis 57
B.1. Estimadores de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
B.1.1. Estimador de µ y de Σ de una Np (µ; Σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
B.1.2. Estimadores de Máxima Verosimilitud de Σ, según el Análisis Factorial . . . . . . . . . 60
B.1.3. Obtención de las ecuaciones cuya solución son los E.M.V. . . . . . . . . . . . . . . . . . 63
B.2. Cálculos sobre las ecuaciones de B.1.3 y obtención de la verosimilitud maximizada . . . . . . . 65
B.3. Notas sobre la resolución de las ecuaciones de Máxima Verosimilitud . . . . . . . . . . . . . . . 67
B.4. Test de hipótesis para el modelo de factores ortogonales . . . . . . . . . . . . . . . . . . . . . . 68
B.4.1. Test de Bartlett-Lawley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
B.4.2. Otra forma de expresar el contraste de hipótesis de Bartlett (Lawley-Maxwell, 1971) . . 70
C. Distribución asintótica de los estimadores máximo verosı́miles bajo condiciones generales

(modelos de relaciones lineales funcionales; de relaciones estructurales y factoriales) 73
C.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
C.2. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
C.3. Teoremas básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
C.3.1. Corolarios e implicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
R. Gutiérrez-Sánchez, A. González
Tema 1
Análisis Factorial
1.1. Introducción: El modelo teórico básico de Análisis Factorial.

Generalidades.
En primer lugar vamos a definir el modelo teórico básico que vamos a considerar a lo largo del desarrollo del
tema. Hay muchos tipos de modelo de Análisis Factorial, según las hipótesis adoptados sobre los elementos con
los que se define el Modelo u otras circunstancias, como el tipo de datos (continuos, discretos, incorrelados o
correlados). El modelo inicial del que partiremos es un Modelo no-restringido (“unrestricted”) y aleatorio.
El significado de estos términos, como el de otros como Análisis Factorial oblicuo u ortogonal; Análisis Factorial
exploratorio o confirmatorio; Análisis Factorial normal, etc., irá apareciendo secuencialmente a la medida que
se vaya desarrollando el tema.
1.1.1. Modelo de Análisis Factorial no-restringido y aleatorio

i) Elementos del Modelo:
- X el vector (p × 1) de variables Xi i = 1, . . . , p, de la población.
- F designa un vector (m × 1) constituido por las variables latentes o “factores comunes”, Fi , i =
1, . . . , m, m < p. F es el vector de factores comunes.
- , vector (p×1), con componentes i , i = 1, . . . , p, que designa los “errores” asociados a cada variable
Xi . Es el llamado “vector de errores” o “vector de factores especı́ficos” ei .
- Una matriz L, (p × m), de rango m, llamada “matriz de factor loadings”. Sus elementos, lij ,
son los “loadings” de la variable Xi respecto del factor común Fj .
ii) Caracterı́sticas de los elementos del Modelo.
Los vectores X, F y son aleatorios y la matriz L es no aleatoria (modelo de Análisis Factorial

aleatorio). Hay modelos de Análisis Factorial que no asignan a F un carácter aleatorio, interpretando el
vector F como un vector de componentes Fi no aleatorias, de meros parámetros que cambian “indivi-
duo a individuo”. Esta consideración propia especialmente del Análisis Factorial en la Sicometrı́a, hace
no-aleatorio al correspondiente Modelo de Análisis Factorial. Es posible adaptar a este caso los principa-
les resultados del correspondiente modelo aleatorio (véase, por ejemplo, Basilewsky (1994), sección 6.8.2).
Por otra parte no se impone ninguna restricción a los elementos de L. Por ejemplo no se asigna valor 0
a determinados factor-loadings lij . En este sentido se dice que el modelo es no restringido (“unrestric-
ted”). Más adelante introduciremos los Análisis Factorial exploratorio y confirmatorio lo que está en
relación con el carácter no-restringido o restringido antes formulado.
3
Finalmente, X es observable y F y son no observables.

iii) Hipótesis probabilı́sticas sobre los elementos del Modelo.
Supondremos que los elementos aleatorios antes citados, verifican:
- E[X] = µ vector media poblacional (p × 1).

- Cov[X] = Σ, p × p, matriz definida positiva de covarianzas de la población.
- E[F ] = 0; E[] = 0; Cov[F ] = E[F F 0 ] = Φ, m × m.
- Cov[] = Ψ, p × p con Ψ = diag (ψ1 , . . . , ψp ), siendo ψi , i = 1, . . . , p, las varianzas especı́ficas o
unicidades.
- Cov[F ; ] = E[F 0 ] = 0.
Es decir, que los vectores F y son incorrelados, centrados y tienen, respectivamente, matrices de cova-
rianzas Φ y Ψ, ésta última diagonal, lo que implica que los errores i son heterocedásticos e incorrelados.
En principio, Φ = Cov(F ) es una matriz no necesariamente diagonal, es decir, que en general, los Fi son
correlados.
iv) Finalmente, los elementos X, F , y L con las caracterı́sticas e hipótesis probabilı́sticas antes indicadas
se integran en un modelo lineal del tipo
X = µ + LF +
modelo que es el adoptado en este Tema.
Nota 1. El modelo de Análisis Factorial es pues un conjunto de relaciones lineales del tipo:

 X1 = l11 F1 + l12 F2 + . . . + l1m Fm + 1

..
 .
Xp = lp1 F1 + lp2 F2 + . . . + lpm Fm + p

en el que los factores comunes (F1 , . . . , Fm ) explican conjuntamente una parte de todas las variables
Xi , i = 1, . . . , p, y la parte no explicada de cada Xi mediante los factores es explicada por los i , que están
asociados cada i a la respectiva Xi . Los i son incorrelados e inobservables y los Fj , que son aleatorios
y no observables, son correlados entre si, en general.
Formalmente, el modelo de Análisis Factorial como conjunto de ecuaciones lineales antes indicado podrı́a
ser considerado, por ejemplo, como un modelo de regresión lineal múltiple multivariante (multiple por
haber m “regresores” Fj , j = 1, . . . , m; multivariante al haber p variables Xi , i = 1, . . . , p “dependientes”).
Pero hay una diferencia sustancial: los Fj son aleatorios y no observables, lo que diferencia de raı́z ambos
tipos de modelos (Análisis Factorial y Regresión Lineal). •
1.1.2. Algunos resultados sobre el Modelo

Ecuación estructural de Σ en el Modelo de Análisis Factorial
h 0 i h i h i
E X − µ X − µ = Σ = E (LF + )(LF + )0 = E LF F 0 L0 + LF 0 + F 0 L0 + 0 =

h i h i h h i
LE F F 0 L + LE F 0 + E F 0 ]L0 + E 0 = dadas las condiciones de i)-iv) =
LΦL0 + Ψ
Ası́ pues, Σ = LΦL0 + Ψ, es decir, que el modelo estadı́stico Factorial supuesto, estructura la matriz de
covarianzas de la población, Σ, en términos del triple (L; Φ; Ψ), mediante dicha ecuación.
Por tanto, técnicamente hablando, modelizar la población X = (X1 , . . . , Xp ), mediante en Análisis Fac-
torial, es equivalente a encontrar las matrices L, Φ y Ψ con las condiciones exigidas en el Modelo, de tal
forma que la Σ poblacional se “explica” mediante dicha ecuación.
En este sentido cabe clarificar al Análisis Factorial como técnica estadı́stica multivariante del tipo “mo-
delos de estructura de covarianzas” tipo integrado en la literatura estadı́stica actual por técnicas como
Análisis de Componentes Principales; modelos lineales estructurales (LISREL) y otras más especı́ficas.
Por otra parte la matriz (p × m) de covarianzas entre la población y los factores es:
Cov X; F = E (X − µ)F 0 = E (LF + )F 0 = E LF F 0 + E F 0 =

por las condiciones i)-iv) = LE F F 0 = LΦ

También se verifica lo siguiente. Supongamos que en efecto Σ se estructura en la forma:
Σ = LΦL0 + Ψ
mediante el triple (L; Φ; Ψ). Es claro que si C es una matriz cualquiera m × m, no singular, es cierto que
0
el triple (LC; C −1 ΦC −1 ), también estructura Σ de la manera equivalente. En efecto:
0 0
Σ = LΦL0 + Ψ = LCC −1 ΦC −1 C 0 L0 + Ψ = (LC)(C −1 ΦC −1 )(C 0 L0 ) + Ψ =
0 0
(LC)(C −1 ΦC −1 )(LC)0 + Ψ = L∗ Φ∗ L∗ + Ψ
0
Además, LC y C −1 ΦC −1 cumplen todas las condiciones exigidas a L y Φ. Por ejemplo: (LC) es p × m;
0
C −1 ΦC −1 es m × m y es la matriz de covarianzas de F ∗ = C −1 F , m × m.
0 0
En efecto, E C −1 F = C −1 E[F ] = 0; y Cov C −1 F = E C −1 F F 0 C −1 = C −1 E F F 0 C −1 =

0
C −1 ΦC −1
Lo anterior es equivalente a decir, en términos de la ecuación del Modelo que en lugar de tomar el Modelo
X − µ = LF + ; (L; F ; )
podemos siempre considerar uno equivalente
X − µ = LCC −1 F + = (LC)(C −1 F ) +
y los “nuevos factor-loadings” (LC) y los “nuevos factores” (C −1 F ), factorizan a Σ de manera equivalente.
De hecho pues, si existe un modelo factorial con (L; F ) cualquier otro definido en la forma (L∗ = LC; F ∗ =
C −1 F ; ) estructura Σ de manera equivalente, es decir, (L∗ ; F ∗ ; ) también serı́a una solución equivalente.
1.1.3. Análisis Factorial, oblicuo, ortogonal y normal (Lawley)

El modelo de Análisis Factorial antes definido, tiene dos casos particulares especialmente importantes. En
primer lugar, consideramos la situación particular definida por la condición Cov[F ] = Im×m . Cuando el vector
de factores comunes, F es tal que además de estar centrado (E[F ] = 0), tiene una matriz de covarianzas
Cov(F ) = E[F F 0 ] = Im×m

se habla de Análisis Factorial Ortogonal, dado que los factores son ortogonales en términos estadı́stico-
geométricos.
Para un Análisis Factorial ortogonal se particularizan algunos resultados vistos antes. Por ejemplo,
0
la ecuación
estructural se simplifica, siendo Σ = LL + Ψ, en la base al par (L; Ψ). Y por otro lado,
Cov X; F = L, lo que permite hacer una interpretación en este caso muy clara de la matriz de factor-
loadings:
Sus
elementos son las covarianzas de X (población) con F (factores), de tal manera que los lij =
cov Xi ; Fj ; i = 1, . . . , p; j = 1, . . . , m. En un Análisis Factorial ortogonal, además, se tiene sin mas que tener
en cuenta la ecuación estructural correspondiente:
1. σii = varianza de Xi = elemento (i, i) de LL0 más elemento (i, i) de Ψ = li1 2 2 2

+ li2 + . . . lim + ψi . Ası́
2 2 2
pues, la parte de la V ar(Xi ) explicada por los factores comunes es li1 + li2 + . . . lim que se denomina
comunalidad de Xi ; el resto, ψi , es la parte de la varianza especı́fica, propia de cada Xi de cada Xi , es
decir la unicidad de Xi .
2. Cov Xi ; Xk =covarianza de Xi con Xk , es decir σik =elemento (i, k) de LL0 +elemento (i, k) de Ψ =

li1 + lk1 + li2 + lk2 + . . . + lim + lkm .

A su vez a lo largo de este tema (en extracción o estimación del modelo; en los giros de factores y en los
“factor loadings”) consideraremos el “modelo normal de Lawley” de Análisis Factorial. Este tipo de
Análisis Factorial, está caracterizado por la hipótesis de distribución normal multivariante de X (población);
F (factores) y (errores). Este tipo especial de Análisis Factorial introducido por Lawley and Maxwell (1971),
tiene implicaciones en los resultados vistos antes, derivados de la teorı́a de la Normal multivariante. Por ejemplo
analicemos la distribución condicionada de X, dado F , es decir, X/F . Para ello, consideremos que F N (0, I),
de acuerdo con las exigencias del modelo, E[F ] = 0 y Cov[F ] = I, y veamos cual es la distribución conjunta
de (X; F ); como X µ; Σ), se tendrá:
LL0 + Ψ L

µ Cov(X; X) Cov(X; F ) Σ L
(X; F ) Np+m ; = =
0 Cov(F ; X) Cov(F ; F ) L0 I L0 I
Por tanto (véase Gutiérrez and Gónzalez (1991), proposición 1.5), la distribución condicionada será:
Np LF ; Σ − LL0 ≡ Np LF ; Ψ

(X/F )
y como Ψ es diagonal, ello es N. y S. para que X y F sean condicionalmente independientes.
Por tanto en este modelo ortogonal normal, el vector F de factores, con sus factor loadings L, reproduce
todas las covarianzas de X, excepto en lo que se refiere a las varianzas de X, que tan sólo reproduce una parte
de ellas, la parte restante lo será por la matriz Ψ de unicidades.
Esto marca una diferencia sustancial entre el Análisis Factorial y el Análisis de Componentes Principales,
porque al contrario, el Análisis de Componentes Principales explica (sus p componentes principales) las varian-
zas de la población pero nada de sus covarianzas.
Más adelante, al analizar el tema de los “factor-scoring”, consideraremos en el contexto anterior, la distri-
bución condicionada de F/X.
 
19 30 2 12
 30 57 5 23 
Ejemplo 1. Sea Σ = 
 2
 ; puede comprobarse que
5 38 47 
12 23 47 68
   
4 1 2 0 0 0
 7 2  4 7 −1 8  0 4 0 0 
Σ=  +  ; (Σ = LL0 + Ψ)
−1 6  1 2 6 8  0 0 1 0 
1 8 0 0 0 3
Por tanto:
1. Existen dos factores (m = 2), ortogonales, no observables.
2. La comunalidad de X1 , por ejemplo, es h21 = l11

2 2
+ l12 = 42 + 12 = 17.
3. V ar[X1 ] = 19 = 42 + 12 + 22 (igualmente se puede hacer para X2 ).
•
1.2. Problemas básicos inherentes al modelo de Análisis Factorial

1.2.1. El problema de la identificación en el Análisis Factorial: existencia y uni-
cidad de solución
Consideramos en primer lugar un Análisis Factorial ortogonal. En este modelo se supone que las p+ p(p−1)
2 =
p(p+1)
2 varianzas y covarianzas del vector X pueden ser reproducidas a partir de los (pm “factor loadings” l ij
y las p varianzas especı́ficas ψi ).
Si m = p, entonces sabemos que Σ es factorizable exactamente como LL0 y entonces Ψ se puede tomar
como una matriz nula. Este es el caso del Análisis de Componentes Principales, previamente estudiado.
Sin embargo, en general, en el Análisis Factorial, m < p, entre otras cosas porque cuando ello ocurre la utili-
dad del Análisis Factorial es mayor. En realidad, que m < p es sustancial para que se tenga un Análisis Factorial.
Entonces las cosas ocurren de la siguiente manera: Por ejemplo, si X contiene p = 12 variables, y hubiera
un modelo de Análisis Factorial con m = 2 factores, entonces, los 12·13
2 = 78 elementos de Σ son descritos en
términos de m · p + p = 12 · 2 + 12 = 36 parámetros lij y ψi del Análisis Factorial.
Desgraciadamente, no toda matriz de covarianzas puede ser factorizada en la forma LL0 +Ψ, con un número
menor de factores que la dimensión p, e incluso, aunque a veces ello sea técnicamente posible, puede ocurrir
que la solución no cumple los requisitos probabilı́sticos-estadı́sticos que exige el modelo Factorial estadı́stico.
 
1 0,9 0,7
Ejemplo 2. Sea p = 3 y m = 1, en un vector aleatorio (X1 , X2 , X3 ) con Σ =  0,9 1 0,4  > 0,
 0,7 0,4 1
X1 − µ = l11 f1 + 1 
entonces: X2 − µ = l21 f1 + 2 (como m = 1 ⇒ F1×1 = f1 ); Σ = LL0 + Ψ se tiene que cumplir que:
X3 − µ = l31 f1 + 3

2 2 2
1 = l11 + ψ1 ; 1 = l21 + ψ2 ; 1 = l31 + ψ3
0,9 = l11 · l21 ; 0,4 = l21 · l31
0,7 = l11 · l13
l = 0,4

0,7 = l11 · l31 0,7 l11
de donde 7−→ 21 2
7−→ l11 = 1,575 7−→ l11 = ±1,255.
0,4 = l21 · l31 0,9 = l11 l21
Ahora bien, V ar[f1 ] = 1; V ar[X1 ] = 1; l11 = Cov[X1 ; F1 ] = Corr[X1 F1 ] y como quiera que el coeficiente
de correlación ha de ser en valor absoluto menor o igual que 1, la solución técnica a la que hemos llegado que
es |l11 | = 1,255 no es estadı́sticamente aceptable.
2 2
Por otra parte, como 1 = l11 + ψ1 ⇒ ψ1 = 1 − l11 = 1 − 1,575 = −0,575, nos conduce a otro contrasentido
ya que ψ1 es una varianza que no puede ser negativa.
Ası́ que es posible obtener, para este ejemplo con m = 1, una solución numérica única de la ecuación
Σ = LL0 + Ψ pero esta solución no es consistente con la interpretación estadı́stica requerida, es decir, no es
propia. •
A continuación analizamos con más profundidad este problema de la existencia y unicidad de solución fac-
torial. Nos situamos en un modelo Factorial oblı́cuo, en general.
Dada la matriz Σ y un cierto número “m” de factores comunes, sabemos que en nuestro modelo teórico:
1. Σ = LΦL0 + Ψ, ecuación estructural.
2. Ψ es diagonal y definida positiva, p × p.
3. Φ es definida no negativa en general, m × m.
4. L es una matriz m × p.
La cuestión puede formularse ası́:
¿Cuando existirán L, Φ y Ψ de tal manera que se cumpla la igualdad estructural? ¿Cuando habrá una
solución única?
Para enfocar la solución a estas cuestiones, es decir, al problema de la identificación del Análisis Factorial
(existencia y unicidad), hay que recordar en primer lugar que los triples
(L; Φ; Ψ) ; L∗ = LC; Φ∗ = C −1 ΦC 0−1 ; Ψ , C m × m no singular.

conducen a modelos equivalentes (verifican ambos la ecuación estructural). Por tanto para que desaparezca la
indeterminación habrá que exigir m2 condiciones sobre Φ y L (ya que C es una matriz m × m no singular).
Como Σ es observable, y es simétrica y tiene 21 p(p
1 + 1) elementos
2
diferentes, que junto a las m condiciones
2
antes dichas para la unicidad, hacen un total de 2 p(p + 1) + m cantidades observadas. Por otra parte L, Φ
y Ψ tienen un total de pm + 12 m(m + 1) + p parámetros. Luego el signo de la diferencia:

1
(p − m)2 − p − m

2
marcará la situación sobre la existencia y unicidad; el hecho que sea mayor o menor que 0 nos indicará la posibi-
lidad de existencia y unicidad de solución. Si la diferencia es positiva puede esperarse un problema de existencia
de solución factorial aunque hubiera unicidad en el sentido de que existiera un conjunto de parámetros. Si es
negativa, puede esperarse la existencia de solución pero posiblemente no haya unicidad en la determinación
de los parámetros en L y Ψ. Si esa cantidad es cero puede esperarse la identificación del modelo de Análisis
Factorial (existencia y unicidad), o al menos la existencia de un número finito de soluciones.
En general, el problema de la existencia de solución, se puede enunciar en términos de matrices ası́:
¿Cuando existe una matriz diagonal Ψ con diagonal de elementos no negativos tal que (Σ − Ψ) es una
matriz, LΦL0 , p × p semidefinida positiva de rango m ?
Para este problema de existencia de solución, interpretado en términos algebráicos, se han dado diversos
resultados. Anderson and Rubin (1956) recogieron y aportaron resultados clásicos al respecto (entre ellos el
primer resultado que se demostró por Reiersol (1950)). Un compendio de estos resultados, junto con otros más
recientes, por ejemplo los obtenidos por Takeuchi, Yanai, and Mukherjee (1982), entre otros, puede verse en
Basilewsky (1994) pp 356-359.
Si existe una solución y es única el modelo se dice identificado. Ya se ha dicho que han de ponerse m2 con-
diciones sobre L y Φ para eliminar la indeterminación dada por la matriz C tal que L∗ = LC y Φ∗ = C −1 ΦC 0−1 .
Algunas soluciones parciales son las siguientes:
Una solución ası́ es la que exigimos en el caso ortogonal Φ = I, que obliga a que C sea ortogonal.
Obsérvese que al exigir Φ = I, obligamos a que se cumplan m(m+1)
2 ecuaciones.
Para otras cuestiones, por ejemplo en el método de máxima verosimilitud asociado al modelo Lawley-
Maxwell, se obliga además a que se cumpla la restricción que Γ = L0 Ψ−1 L sea diagonal. En este caso,
si los elementos de la diagonal Γ, son distintos y ordenados [γ11 > γ22 > . . . > γmm ], entonces L está
unı́vocamente determinada (ver sección posterior 1.3.4).
Hay otros tipos de restricciones (véase Anderson (1984) pp. 554-556 ) para procurar la identificación y unicidad,
por ejemplo imponiendo “ceros” en la matriz L de factor-loadings. Veamos los casos de Estructura Simple y
de ceros en posiciones especı́ficas.
Estructura simple.
Hay condiciones propuestas por Thurstone (1945), pp 335, para escoger una matriz fuera de las LC que
tienen un particular interés en Sicometrı́a. Si λiα = 0, entonces el factor α-ésimo no afecta al i-ésimo test.
La idea de la “estructura simple” es que algunos test no dependerán de todos los factores cuando estos
tengan un significado psicológico real. Esto sugiere que dada una L considerarı́amos todas las rotaciones
posibles, es decir, todas las matrices LC con C ortogonal, y elegirı́amos la que tenga un mayor número de
coeficientes cero. Esta matriz puede ser considerada como la que proporciona la estructura más simple; y,
presumiblemente la de mayor significado en una interpretación sicométrica (ver apartado 1.2.2 posterior
sobre rotaciones en un Análisis Factorial ortogonal).
Las posiciones de los ceros no se escogen de antemano, pero las rotaciones C se aplican hasta encontrar
un L que satisfaga esas condiciones en la medida de que tengan el mayor número posible de “ceros”.
Elementos cero en posiciones especı́ficas. Análisis Factorial confirmatorio y Análisis Facto-
rial exploratorio.
Hay otra forma de abordar la existencia de ceros en L. Consideraremos un conjunto de condiciones que
requiera del investigador una mayor información a priori. Éste debe conocer que algunos test particulares
no dependen de algunos factores especı́ficos. En tal caso no asumimos que E[f f 0 ] = I. Esas condiciones
son similares a algunas usadas en modelos econométricos. Los coeficientes de la α-ésima columna están
identificados, excepto por la multiplicación por un factor de escala si hay al menos m − 1 elementos cero
en esa columna y si el rango de Lα es m − 1, donde Lα es la matriz compuesta por las filas que contienen
los ceros asignados en la α-ésima columna, con esos ceros asignados borrados. La multiplicacı́ón de una
columna por una escala constante puede ser eliminada por una normalización, tal como φαα = 1 o λiα = 1
para algún i para cada α. Si φαα = 1, α = 1, . . . , m, entonces Φ es una matriz de correlaciones.
Veremos que hay m normalizaciones y un mı́nimo de m(m − 1) condiciones cero. Esto es igual al número
de elementos de C. Si hay más de m − 1 elementos cero especificados en una o más columnas de L,
entonces puede haber más condiciones que las requeridas para acabar con la indeterminación en LC en
cuyo caso las condiciones pueden restringir LΦL0 .
Por ejemplo, podemos considerar el siguiente modelo:

   
1 0 v 0
 λ21 0   λ21 v 0 
  v  
X =µ+  λ31 λ32  a + U = µ +  λ31 v λ32 a 
+U
 
 0 λ42   λ42 a 
0 1 a
para las puntuaciones de 5 test, donde v y a son medidas de habilidad verbal y numérica. Es decir, X es
el vector de puntuaciones en cinco test y suponemos un modelo factorial con m = 2 factores (v y a).
Los dos primeros test dependen únicamente de la habilidad verbal, mientras que los dos últimos lo hacen
solo de la numérica. Las normalizaciones ponen la verbal en la escala del primer test y la aritmética en la
escala del quinto test. Reiersol (1950) y Howe (1955) sugirieron el uso de ceros preasignados para la iden-
tificación y desarrollaron la estimación bajo normalidad para ese caso. Jöreskog (1969) llamó al Análisis
Factorial bajo esas condiciones de identificación “Análisis Factorial Confirmatorio”; bajo condiciones
arbitrarias o con “rotación de estructura simple” lo denominó “Análisis Factorial Exploratorio”.
1.2.2. Un problema de “ambigüedad” en el Análisis Factorial. Rotación de fac-

tores e interpretación en el Análisis Factorial
Por otra parte, existe siempre una ambigüedad asociada al Análisis Factorial ortogonal. Esta es la siguiente:
Sea T una matriz ortogonal (m × m) cualquiera, es claro que:
X − µ = LF + = L0 T T 0 F + = L∗ F ∗ +
con L∗ = LT y F ∗ = T 0 F . Entonces, puesto que:
E[F ∗ ] = T 0 E[F ] = 0

Cov[F ] = T 0 Cov[F ]T = T T 0 = Im×m

∗
es imposible sobre la base de las observaciones de X distinguir los factores loadings L y L∗ . O dicho de otra
manera, los factores F y F ∗ tienen las mismas propiedades estadı́sticas y aunque sus factor loadings respectivos
L y L∗ son en general diferentes, generan ambos la misma matriz de covarianzas Σ del X, ya que en efecto:
0
Σ = LL0 + Ψ = LT T 0 L0 + Ψ = L∗ L∗ + Ψ.
Nótese que las matrices ortogonales corresponden a rotaciones y reflexiones del sistema de ejes coordenados
para el X.
Es fácil probar también que las comunalidades, dadas por los elementos diagonales de LL0 no cambian ya
0
que LL0 = L∗ L∗ .
La conclusión que se obtiene de lo anterior es que, aunque exista una solución (L; Ψ) para el Análisis Fac-
torial ortogonal, ésta no es única.
Como ya se ha indicado, los “factor loadings” obtenidos por cualquier transformación ortogonal a partir de
unos iniciales, reproducen la covarianza (o matriz de correlaciones). Como técnicamente hablando, una trans-
formación ortogonal equivale a una rotación rı́gida (o reflexión) de los ejes coordenados, se habla de “rotación
de factores”.
Supongamos que por algún método (máxima verosimilitud, componentes principales, etc.) que en la sección
1.3 posterior se estudiarán, se han obtenido estimaciones L̂p×m y Ψ̂. Entonces:
L̂∗ = L̂T con T 0 T = T T 0 = I
es una matriz de “loading rotados”. Además a:
L̂L̂0 + Ψ̂
que es la estimación de Σ, le ocurre que:

0
Σ̂ = L̂L̂0 + Ψ̂ = L̂T T 0 L̂0 + Ψ̂ = L̂∗ L̂∗ + Ψ̂
es decir, que la estimación de Σ, no se altera cuando “se giran los factores”.
Además si Sn es la estimación “directa” de Σ en base a la muestra; L̂L̂0 + Ψ̂ es la estimación de Σ a través

del Análisis Factorial; y Sn − L̂L̂0 − Ψ̂ es la matriz residual, que desempeñará un importante papel posterior-
mente en el método de estimación de las componentes principales, ocurre que dicha matriz residual es igual a
0
Sn − L̂∗ L̂∗ − Ψ̂. Tampoco cambian las comunalidades ĥ2i estimadas, ni las varianzas especı́ficas ψ̂i .
Precisamente, esta rotación de factores, se utiliza en la practica para obtener a partir de unos “factor loa-
dings” iniciales, otros rotados para los que la interpretación sea de una estructura más simple. La situación
podrı́a ser comparable a lo que ocurre al mirar por un microscopio cuando se enfoca de distintas maneras hasta
conseguir ver con más detalle.
¿Cuál es la situación ideal que podrı́amos tener?¿Qué podrı́amos entender por una “estructura simple”
de fácil interpretación? Pues por ejemplo, que cada variable estuviera ligada, “pesada”, con un solo factor
fuertemente y con los demás moderadamente pesada o poco pesada.
Conseguir por rotaciones esta estructura simple, no siempre es posible. En la sección posterior (1.4), anali-
zaremos más pormenorizadamente esta cuestión de rotación de factores.
1.2.3. Cambio de unidades de medida

1. En primer lugar nos planteamos la siguiente cuestión: ¿qué ocurre en el modelo de Análisis Factorial or-
togonal u oblicuo, si se efectúa un cambio en las unidades de medida? Obsérvese que esta primer cuestión
es previa y más general que el problema de estimación o extracción de factores por algún método (ver
más adelante, sección 1.3, distintos métodos para la estimación).
Un cambio en las unidades de media en que se miden las variables Xi de X, equivalente a multiplicarlas
por una cantidad constante. La cuestión que queremos analizar es si esta transformación alterará la matriz
de “factor loadings”. Veamos:
X = LF + + µ 7−→ DX = DLF + D + Dµ
siendo D una matriz diagonal con elementos positivos en la diagonal principal. Es claro que si
DL = L∗ ; D = ∗ ; Dµ = µ∗
el modelo de Análisis Factorial inicial se transforma en este
X ∗ = L∗ F + ∗ + µ∗
de modo que los “factor loadings” quedan multiplicados por D.
Por otra parte la ecuación estructural de Σ se transforma ası́:
Σ = LΦL0 + Ψ → E (X ∗ − µ∗ )(X ∗ − µ∗ )0 = E (L∗ F + )(L∗ F + ) =

0
L∗ ΦL∗ + Ψ∗ = Σ∗
en donde Ψ∗ = DΨD0 = DΨD y Φ = E[F F 0 ] (en el caso oblicuo Φ 6= I).
Por otra parte Σ∗ = Cov[X ∗ ] = DΣD, por lo que

0
Σ∗ = DΣD = L∗ ΦL∗ + Ψ∗ .
Por lo tanto la conclusión es clara, un cambio en las unidades, mantiene los factores comunes, pero altera
los respectivos “factor loadings”.
También es digno de notarse una propiedad que goza el cambio de unidades analizado, que es que supuesto
que hayamos exigido condiciones especı́ficas para la identificación-unicidad de estimadores, es decir, por
ejemplo
Φ = I(caso ortogonal)
L0 Ψ−1 L = ∆ matriz diagonal
¿seguirá siendo identificado-único el modelo de Análisis Factorial transformado por D? La respuesta es
si. En primer lugar, hemos visto que un cambio tal no altera los factores, luego si el modelo es ortogonal,
lo es el transformado. Respecto a la unicidad de los estimadores, sigue siendo válida. En efecto:
0 −1
L∗ Ψ∗ L∗ = L0 D(DΨD)−1 DL = L0 Ψ−1 L
0 −1
luego si L0 Ψ−1 L es diagonal, ası́ lo es también L∗ Ψ∗ L∗ .
Puede comprobarse que si se utilizan otras formas de identificación (por ejemplo haciendo ceros algu-
nos términos especı́ficos de L y Φ es una matriz de correlaciones) entonces L∗ = DL esta igualmente
identificada.
2. El cambio dado por D, tiene un caso particular notable en la práctica. Sea dii = √1 ,
σii es decir D = V −1/2
en donde V es una matriz diagonal constituida por las σii de Σ. En este caso:
X ∗ − µ∗ = DX − Dµ = L∗ F + ∗ = DLF + D
en donde Σ∗ = DΣD = R, con R la matriz de correlaciones de X.
Por tanto 0
Σ∗ = DΣD = R = L∗ ΦL∗ + Ψ∗ con Ψ∗ = DΨD
es decir
Σ∗ = R = V −1/2 LΦL0 V −1/2 + V −1/2 ΨV −1/2 .
1.3. Métodos de estimación en el Análisis Factorial

Hay distintos métodos para estimar (extraer) los factores comunes en un modelo de Análisis Factorial or-
togonal, es decir para estimar los “factor loadings” (L) y la matriz Ψ de unicidades.
En el desarrollo del presente tema, hemos elegido dos métodos para su estudio detallado, que son paradig-
mas de la metodologı́a de estimación según se suponga o no se suponga normalidad en el modelo. Cuando no
se supone explı́citamente normalidad de los elementos aleatorios del modelo básico X, F y , la metodologı́a
de “extracción por Componentes Principales” (y del factor principal asociado) es tı́pica al respecto. En cambio
cuando se supone normalidad multivariante (modelo factorial de Lawley-Maxwell) el método de “estimación
por Máxima Verosimilitud” está ligado de manera natural a la situación y es el método idóneo al respecto.
Analizamos a continuación estos dos métodos. Hay por supuesto otros métodos de estimación, por ejemplo,
los métodos, del centroide, o de mı́nimos cuadrados que también pueden se útiles en la práctica en determinados
enfoques de análisis factoriales propios en ciertos campos de aplicación (ver por ejemplo Basilewsky (1994);
Harman (1967))
1.3.1. Introducción
La cuestión que se plantea en la práctica y que se intenta resolver por la técnica del Análisis Factorial es la
siguiente: Tenemos observaciones X1 . . . , XN de p variables, correlacionadas en general, y se quiere representar
adecuadamente esos datos usando un modelo del tipo X = µ + LF + (con las condiciones exigidas sobre
él, antes especificadas), de tal manera que este modelo “reproduzca” los datos con un número pequeño de
factores. En términos estructurales y con una visión “exploratoria” se trata de establecer las relaciones propias
del Análisis Factorial ortogonal:
1. Cov X = LL0 + Ψ, es decir:

2 2

V ar Xi = li1 + . . . + lim + ψi

Cov Xi ; Xj = li1 lj1 + . . . + lim ljm .

2. Cov X; F = L, es decir, Cov Xi ; Fj = lij
en términos estadı́sticos.
Ası́ pues, es claro que la versión muestral del Análisis Factorial ha de basarse en la matriz de covarianzas
A
muestrales S = N , como estimador de la matriz de covarianzas teóricas poblacionales Σ. Es obvio, por otra
parte que si S es de tal naturaleza que “tiende” a ser una matriz diagonal (o lo que es lo mismo la matriz
de correlaciones muestrales R “tiende” a ser la identidad), entonces las variables son incorreladas; en este ca-
so el Análisis Factorial es irrelevante, siendo los “factores especı́ficos” dominantes en la explicación de los datos.
Por contra, si Σ es claramente una matriz no diagonal, entonces en el Análisis Factorial hay que, inicial-
mente, estimar los “factor loadings” y las “varianza especı́ficas” (los lij y ψi respectivamente).
Ahora bien, ¿qué métodos se emplean para conseguir estas estimaciones? Hay diversos métodos al respecto,
dentro de los cuales, los más utilizados son:
a) El método de las componentes principales (y del factor principal).
b) El método de máxima verosimilitud (Lawley-Maxwell).
Como advertencia general y a la vista de lo antes comentado sobre la determinación de la matriz de factor
loadings, es claro que las soluciones de estos métodos, pueden rotarse de modo que se consiga una mejor
interpretación de los factores. Como recomiendan los autores, es aconsejable en todos los casos prácticos,
emplear más de un método, porque del análisis de la coherencia de los resultados proporcionados por ellos, en
vista de su consistencia, podremos deducir el grado de adecuación de un modelo de Análisis Factorial al caso
en cuestión.
1.3.2. El método de las componentes principales

Aspectos teóricos
Es sabido que dada una matriz de covarianzas Σ, teórica, con autovalores λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0 y
autovectores e1 , e2 , . . . , ep es posible establecer la descomposición espectral de Σ de tal manera que
 √ 0 
λ 1 e1
..
p
0 0
= LL0 .
p
Σp×p = λ1 e1 e1 + . . . + λp ep ep = λ1 e1 ; . . . ; λp ep
 
p. 0
 
p×p
λp ep p×p
Obsérvese que en el Análisis de Componentes Principales, Σ = PΛP0 ,con PP0 = I y por lo tanto Σ =
1/2 0 0
1/2 1/2

PΛ Λ P = LL , con L = PΛ , Λ = diag λ1 , . . . , λp y P = e1 ; . . . , ep .
Lo cual significa que la estructura buscada para factorizar Σ se consigue de la forma:
Σ = LL0 + 0 = LL0
de tal manera que existen tantos factores como variables (m = p), y se obtiene p un “Análisis Factorial” con las
ψi = 0, ∀i = 1, . . . , p. En este caso los factor loadings son tales que valen λj ej , los situados en la columna
p
j-ésima de la matriz de loadings L. En definitiva, salvo el factor λj , los factor loadings del j-ésimo factor
son los coeficientes de la componente principal, j-ésima, dado que, en efecto, los coeficientes de la componente
principal j-ésima es el vector ej (ver tema Análisis Componentes Principales).
Ası́ pues, cuando m = p, se obtiene una representación exacta Σ = LL0 de tipo factorial, con tantos factores
como variables. Pero esto no es en general el objeto del Análisis Factorial, en el que se pretende fundamen-
talmente explicar la correlación entre variables con un número significativamente menor de factores que de
variables. Obsérvese que además, la representación exacta de Σ = LL0 , hace desaparecer los factores especı́ficos
o errores en el modelo básico X = µ + LF + de Análisis Factorial.
Ante esta situación, cabe adoptar la estrategia siguiente: Despreciar las p − m contribuciones debidas a los
p − m “últimos” autovalores λm+1 ≥ λm+2 ≥ . . . ≥ λp , es decir, despreciar la contribución de λm+1 em+1 e0m+1 +
. . . + λp ep e0p a la explicación estructural de la matriz Σ. Por tanto:
 √
λ1 e01

. p ..
p
Σ= λ1 e1 ; . . . ; λm em = Lp×m L0m×p
 
√ . 0
 
p×m
λm em m×p
es una aproximación de la representación exacta de Σ, que en principio sigue ignorando el factor especı́fico
en cuanto a la estructuración factorial de Σ. Y decimos en principio porque desde luego cabe la posibilidad de
perfeccionar esta aproximación incluyendo las unicidades ψi . Ası́:
 
 √ ψ1 0 ··· 0
λ1 e01

 0 ψ2 0 
..
p p
0
 
Σp×p = LL + Ψ = λ 1 e1 ; . . . ; λm em
 
+ .. ..
√ . 0

p×m
   0 ··· . . 
λm em
 
m×p ..
. 0 0 ψp p×p
m
X
2
siendo obviamente ψi = σii − lij ; i = 1, . . . , p.
j=1
En definitiva el Análisis Factorial es aproximado mediante la metodologı́a del Análisis de Componentes

Principales.
m
X
2
Nota 2. Recuérdese que en el Análisis Factorial, las comunalidades (para un i, valen lij ) son los elementos
j=1
√ √
de la diagonal principal de LL0 , siendo, en este caso L dado por

λ 1 e1 ; . . . ; λm em . •
Aspectos muestrales
Veamos a continuación como se aplica la aproximación descrita en términos teóricos, a datos. Sean X1 , . . . , XN
los datos correspondientes a p variables, que tipificados son en definitiva:
 X1j −X̄1 
√
s11
 .. 
Z1 , . . . , ZN , con Zj = 
 .
 ; j = 1, . . . , N

Xpj −X̄p
√
spp
en donde X̄i son las medias en cada variable i = 1, . . . , p; y sii son los elementos de la diagonal principal de S,
es decir, las varianzas muestrales.
Este conjunto (Z1 , . . . , ZN ) tiene como matriz de covarianzas la matriz de correlaciones muestrales R. En-
tonces se puede aplicar la representación dada por la segunda aproximación de Σ vista antes, a la matriz S
o a la R, originándose lo que se llama la solución de componentes principales, que se llama ası́ porque, como
antes decı́amos, los factor loadings son, salvo un factor de escala, los coeficientes de las componentes principales
primeras muestrales.
En definitiva, este procedimiento de estimación de Análisis Factorial, denominado de componentes princi-

pales, sigue los pasos siguientes:
1. Dada la matriz de covarianzas muestrales S, se calculan los autovalores-autovectores muestrales, como
soluciones, respectivamente, de |S − λI| = 0 y (S − λI)e = 0. Se obtienen ası́ los pares (λ̂i ; êi ), con
λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂p , i = 1, . . . , p.
2. Se toman, cuando m < p, los primeros λ̂1 , . . . , λ̂m y se construye:

q q
L̂ = λ̂1 ê1 , . . . , λ̂m êm .
p×m
3. Las varianzas especı́ficas muestrales, estimaciones de las ψi , se construyen mediante las relaciones
m
X
ψ̂i = sii − ˆl2 ; i = 1, . . . , p;
ij
j=1
es decir, la diagonal principal de la matriz S − L̂L̂0 .
Por tanto Ψ̂ = diag(ψ1 , . . . , ψp ), es la matriz estimada de unicidades.
4. Las comunalidades estimadas ĥ2i se construyen entonces como:
ĥ2i = ˆli1
2
+ . . . + ˆlim
2
.
Nota 3. Si se actúa con la matriz R, se realiza todo igual actuando con R en lugar de S.•
Este procedimiento de solución del problema de estimación en Análisis Factorial, tiene las siguientes carac-
terı́sticas:
i) Si el número de factores (m) crece, los factor loadings correspondientes a factores ya utilizados, no
cambian. Sólo hay que ir añadiendo los correspondientes a los nuevos factores adicionales.
ii) Por otro lado, del procedimiento empleado se deduce que los elementos diagonales de S deben ser iguales
a los diagonales de L̂L̂0 + Ψ̂.
Con los elementos que no están en la diagonal de S, lo normal en la práctica es que L̂L̂0 + Ψ̂ no reproduzca
esos elementos no diagonales. Entonces se plantea la siguiente cuestión, ¿como seleccionar el número de
factores para conseguir una adecuada representación que reproduzca la matriz S con el menor “error”
posible?
La manera de actuar es análoga a la que se emplea en las componentes principales:
Sea la “matriz residual”: S − (L̂L̂0 + Ψ̂), que resulta de aproximar S por la solución de componentes
principales dada por los pasos 1 y 2 anteriores.
Se sabe que si consideramos la suma de cuadrados “entries”, SCE, de S −(L̂L̂0 + Ψ̂) = tr (S − L̂L̂0 − Ψ̂)(S −

L̂L̂0 − Ψ̂)0 se verifica que SCE S − (L̂L̂0 + Ψ̂) ≤ λ̂2m+1 + . . . + λ̂2p de tal manera que si λ̂2m+1 + . . . + λ̂2p

es pequeño entonces la suma de cuadrados de los errores es pequeña.
En efecto, sea la matriz residual S − (L̂L̂0 + Ψ̂) que resulta de aproximar S por la solución de com-
ponente principal. Se sabe que, puesto que S − L̂L̂0 − Ψ̂ tiene ceros en la diagonal principal, la su-
ma de cuadrados “entries” de S − L̂L̂0 − Ψ̂ es menor o igual a la suma de cuadrados de “entries” de
S − L̂L̂0 . Pero, S − L̂L̂0 = λ̂m+1 êm+1 ê0m+1 + . . . + λ̂p êp ê0p = P̂(2) L̂(2) P̂(2)
0
, donde P̂(2) = êm+1 , . . . , êp y
L̂(2) = diag(λ̂m+1 . . . λ̂p ). Ahora bien: la suma de cuadrados “entries” de A es igual a tr(AA0 ) de donde
0
tr[P̂(2) L̂(2) P̂(2) P̂(2) L̂0(2) P̂(2)
0
] = tr[P̂(2) L̂(2) L̂0(2) P̂(2)
0 0
] = tr[L̂(2) P̂(2) P̂(2) L̂(2) ] = tr[L̂(2) L̂(2) ].
De manera ideal, si la contribución de unos pocos primeros factores a la varianza total es grande, el
Análisis Factorial “funcionara” adecuadamente.
La contribución del primer factor a la varianza muestral es ˆli1

2
. Dada la varianza total
s11 + . . . + spp = tr(S)
la contribución a ella del primer factor será:

q 0 q
ˆl2 + . . . + ˆl2 = λ̂1 ê1 λ̂1 ê1 = λ̂1 .
i1 ip
1×p 1×p
λ̂j
Y en general, la proporción de la varianza total debida al factor j-ésimo será (sobre S) o
s11 + . . . + spp
λ̂j
(sobre R).
p
Y en base a esta expresión se decide heurı́sticamente el número de factores a usar, haciendo el error lo
suficientemente pequeño, es decir, contentándonos con una proporción de varianza explicada suficiente-
mente alta o lo que es equivalente, tomando un modelo de Análisis Factorial con un número de factores
m en la metodologı́a de Análisis de Componentes Principales utilizada.
Nota 4. Otra convención que suele hacerse, es tomar m igual al número de autovalores de R mayores que
1; o igual al número de autovalores de S que son positivos. Pero no debe aplicarse indiscriminadamente,
pues, por ejemplo, para grandes muestras, es esperable que todos los autovalores de S sean positivos y
entonces m serı́a p y no hay en tal caso, Análisis Factorial en sentido estricto. •
 
1 0,02 0,96 0,42 0,01

 0,02 1 0,13 0,71 0,85 

Ejemplo 3. Sea R = 
 0,96 0,13 1 0,5 0,11 
.
 0,42 0,71 0,5 1 0,79 
0,01 0,85 0,11 0,79 1
λ̂1 +λ̂2
Los dos únicos autovalores de R mayores de 1, son λ̂1 = 2,85 y λ̂2 = 1,81. Entonces, p = 0,93.
Variable Estimación de los factor loading Comunalidades Varianzas especı́ficas

F1 F2 ĥ2i ψ̂i = 1 − h2i
1 0.56 0.82 0.98 0.02
2 0.78 -0.53 0.88 0.12
3 0.65 0.75 0.98 0.02
4 0.94 -0.11 0.89 0.11
5 0.80 -0.54 0.93 0.07
Autovalores 2.85 1.81
Proporción acumulada de la varianza total 0.571 0.932
Y  
0,56 0,82
 0,78 −0,53 
 0,56 0,78

0
 0,65 0,94 0,80
L̂L̂ + Ψ̂ =  0,65 0,75 
 0,82 −0,53 +
 0,75 −0,11 −0,54
 0,94 −0,11 
0,80 −0,54
   
0,02 0 0 0 0 1 0,01 0,97 0,44 0,00

 0 0,12 0 0 0  
  0,01 1 0,11 0,79 0,91 


 0 0 0,02 0 0 =
  0,97 0,11 1 0,53 0,11 
 .•
 0 0 0 0,11 0   0,44 0,79 0,53 1 0,81 
0 0 0 0 0,07 0,00 0,91 0,11 0,81 1
1.3.3. La “Principal Factor Solution” como modificación del método de las Com-
ponentes Principales en estimación en Análisis Factorial
Describimos el método en términos de R, matriz de correlaciones muestrales, aunque se puede hacer igual-
mente a partir de la matriz S. Como ya se ha dicho en el método teórico del método de Componentes Principales,
la matriz de correlación teórica ρ queda estructurada de la forma:
ρ = LL0 + Ψ.
Si la especificación del Modelo es correcta, los m factores harán que:
ρij = 1 = h2i + ψi
siendo h2i , i = 1, . . . , p, las comunalidades de las variables Xi .
Por tanto
ρ − Ψ = LL0 .
Supongamos que se tienen estimaciones iniciales ψi∗ de las varianzas especı́ficas. Entonces reemplazando los
2
elementos de la diagonal de R por h∗i = 1 − ψi∗ , obtenemos una matriz de correlaciones muestrales llamada
reducida:  2 
h∗1 r12 · · · · · · r1p
2
 r12 h∗2 r13 · · · r2p 
 
Rr =  .
 .. .. .. .. .
 .. . . . . 
2
r1p · · · · · · · · · h∗p
Entonces se aplica el método de componentes principales a:
0
Rr = L∗r L∗r
en donde L∗r = lij

∗ ∗

, con lij los factor loadings estimados, es decir:
q q q
∗ ∗ ∗ ∗ ∗ ∗ ∗
Lr = λ̂1 ê1 ; λ̂2 ê2 , . . . , λ̂m êm
m
X
ψi∗ = 1 − ∗2
lij
j=1
siendo (λ̂∗i , ê∗i ), i = 1, . . . , m; los m mayores autovalores-autovectores de Rr . Se puede entonces, re-estimar las
comunalidades
m
X
ĥ∗i = ∗2
lij
j=1
que puede utilizarse, reiteradamente, como una estimación no inicial, en lugar de h∗2
i .
Igual que en el método anterior de Componentes Principales, las consideraciones sobre λ̂∗1 , . . . , λ̂∗p , sirven
para determinar los factores comunes a retener.
Hay una complicación en este método: algunos autovalores pueden ser negativos debido al uso inicial de
una estimación de las comunalidades. Idealmente, se toman tantos factores como rango tenga Rr , pero en todo
caso debe procederse con precaución.
Por otra parte cabe hacer algunas consideraciones sobre como hacer la elección de las estimaciones iniciales
de las comunalidades. La forma más popular de hacer esta elección es tomar las estimaciones iniciales citadas
1
ası́: ψi∗ = ii , con rii el elemento (i, i) de R−1 , es decir:
r
1
h∗2 ∗
i = 1 − ψi = 1 − .
rii
Obsérvese que esto equivale a tomar h∗2i como el cuadrado del coeficiente de correlación múltiple entre Xi y
las p − 1 variables restantes. Obsérvese también, que el método de las Componentes Principales para R puede
ser considerado como un método de factor principal con estimaciones iniciales de comunalidades igual a uno
o varianzas especı́ficas iguales a cero. Ambas aproximaciones son filosófica y geométricamente diferentes (el
método de componentes principales y el método del factor principal). En la práctica, ambos procedimientos
conducen a factor loadings similares, si el número de variables es grande y el número de factores pequeño.
1.3.4. El método de Máxima Verosimilitud en el Modelo de Análisis Factorial

(Modelo de Lawley-Maxwell)
Revisemos los aspectos generales que el método de Máxima Verosimilitud tiene en cuanto a la estimación
del Modelo. Otros aspectos, como los contrastes hipótesis útiles en la Inferencia sobre el Modelo de Análisis
Factorial que estamos considerando, serán estudiados en una sección posterior (1.7).
Estimación de parámetros del Modelo de Análisis Factorial (ortogonal y oblicuo)

Modelo de Análisis Factorial ortogonal
Supongamos el Modelo de Factores ortogonales, en primer lugar. En este caso la estructuración de la
matriz de covarianza es:
X = µ + LF + ; Σ = LL0 + Ψ
de tal manera que X se supone distribuida Normal Multivariante, ası́ como el vector de error . Por tanto,
Xp×1 Np [µ; Σ = LL0 + Ψ]
Supongamos que disponemos de observaciones:

0
{Xα = (Xα1 , . . . , Xαp ) ; α = 1, . . . , N }
que constituyen una muestra aleatoria independiente del vector poblacional X.
Supongamos los estadı́sticos muestrales:

N N
1 X s 1 X 0 A
X̄ = µ̂ = Xα = Σ̂ = Xα − X̄ Xα − X̄ ≡
N α=1 N N α=1 N
que, en las hipótesis de normalidad tomadas, son los estimadores máximo-verosı́miles de los parámetros
µ y Σ de la Normal Multivariante con la que se distribuye el vector X.
Obviamente, esta hipótesis de normalidad equivale a la normalidad del vector F y del , que según las
hipótesis generales del Modelo de Análisis Factorial, por otra parte, son incorreladas y, en virtud de la
normalidad, independientes.
Recuérdese también, que en el Análisis Factorial ortogonal, la matriz Cov(F ) = I. En estas circunstancias,
la función de verosimilitud adopta la siguiente forma:
Np N
1
L(L; Ψ; µ) = (2π)− 2 |LL0 + Ψ|− 2 exp − tr (LL0 + Ψ)−1 s + N (X̄ − µ)(X̄ − µ)0
2
(véase por ejemplo Gutiérrez and Gónzalez (1991)).
Dada esta verosimilitud, lo primero que cabe observar es que si se cambia L por LO (siendo O una matriz
ortogonal p × p) dicha verosimilitud no cambia. Ello implica que si L̂ es la matriz de estimación máximo-
verosı́mil de L, también es una matriz estimadora máximo-verosı́mil de L la matriz L̂O. Se impone pues
exigir la unicidad de la matriz estimadora, para lo que es habitual exigir que:
L0 Ψ−1 L = ∆ con ∆ una matriz (m × m) diagonal
(ver Anexo B, para la justificación teórica).
En segundo lugar, la función de verosimilitud anterior puede escribirse ası́:

−
(N −1)p
0 1
−(N −1)
0 −1

L(L; Ψ; µ) = (2π) |LL + Ψ|
2 exp − tr (LL + Ψ) s ×
2
2

p 1 N
(2π)− 2 |LL0 + Ψ|− 2 exp − (X̄ − µ)0 Σ−1 (X̄ − µ)
2
El último factor puede escribirse además ası́:
i
−p 0 − 21 1 h 0 −1 0
(2π) 2 |LL + Ψ| exp − tr N (LL + Ψ) (X̄ − µ)(X̄ − µ)
2
y este factor, al maximizar L, y hacerse cero, es claro que permite concluir que µ̂ = X̄. Por tanto el
problema queda reducido a
M ax L(L; Ψ; µ) = M ax L(L; Ψ; X̄)
L,Ψ L,Ψ
o bien (ver Gutiérrez and Gónzalez (1991)), M ax ln L(L; Ψ; µ).

L,Ψ
Puede demostrarse (utilizando el cálculo de Neudecker) que esta maximización conduce al siguiente
resultado:
Teorema 1. Los estimadores de máxima-verosimilitud de L y Ψ, denotados L̂ y Ψ̂, en el modelo de
Análisis Factorial ortogonal supuesto, con la condición de unicidad, obedecen al siguiente sistema:
s
Diag(L̂L̂0 + Ψ̂) = diag
N
s −1
Ψ̂ L̂ = L̂(I + L̂0 Ψ̂−1 L̂)
N
(ver Anexo B.1.3 para la demostración detallada).
Modelo Análisis Factorial oblicuo

En este caso la Cov(F ) = Φ en lugar de Cov[F ] = I. Existe pues una correlación entre los factores. En
este caso la ecuación estructural toma el aspecto siguiente:
Σ = LΦL0 + Ψ.
Puede demostrarse que en este caso, el método de Máxima-Verosimilitud conduce al siguiente resultado:
Teorema 2. Los estimadores de máxima verosimilitud de L , Φ y Ψ, vienen dados, en el modelo de

Análisis Factorial oblicuo, como soluciones del sistema siguiente:
hs i
Ψ̂ = diag − L̂Φ̂L̂0
N
−1 s
Φ̂L̂Ψ̂−1 L̂0 + I = L̂Ψ̂−1 L̂0 L̂0 Ψ̂−1 Ψ̂−1 L̂
N
s h s i −1
Φ̂L̂ L̂L̂0 + Ψ̂−1 I − (L̂L̂0 + Ψ̂)−1 = Φ̂L̂0 I − (L̂L̂0 + Ψ̂)−1 Ψ̂ .
N N
Obtención de los estimadores

La resolución de los sistemas dados para el caso ortogonal y oblicuo, se hace por medio de métodos numéricos.
Son en definitiva la solución que maximiza L(L, Ψ, µ) o L(L, Ψ, Φ, µ), sujeto a la restricción de unicidad antes
impuesta: que L̂0 Ψ̂−1 L̂ sea diagonal. Obsérvese que obtenidos los estimadores L̂, Ψ̂ y µ̂, en el caso ortogonal
por ejemplo, las comunalidades (en virtud del teorema de Zehna o principio de invarianza de los estimadores
de máxima verosimilitud) serán estimadas máximo-verosimilmente mediante la correspondiente función de los
estimadores, es decir:
ĥ2i = ˆli1
2
+ ˆli2
2
+ . . . + ˆlim
2
; i = 1, 2, . . . , p
de modo que la estimación de la proporción de la varianza total “explicada” o “debida” al factor j-ésimo será:
ˆl2 + ˆl2 + . . . + ˆl2
1j 2j pj
.
s11 + s22 + . . . + spp
Notas sobre la Estimación Máximo-Verosı́mil en el Análisis Factorial ortogonal

Analizamos a continuación la repercusión en el método de Máxima Verosimilitud de lo visto en la sección
1.2.3 anterior. En particular veamos que ocurre con el método de máxima-verosimilitud de estimación del mo-
delo de Análisis Factorial ortogonal cuando se efectúa un cambio de unidades dado por una matriz D, como la
antes definida (y en particular con un D = V −1/2 ).
Sea en efecto un cambio de tipificación poblacional, de tal manera que el vector X se transforma en el
Z = V −1/2 (X − µ) (como caso particular de D(X − µ) = DX − Dµ).
Como ya hemos estudiado (ver sección 1.2.3), el nuevo vector Z tiene entonces la covarianza R
R = ρ = V −1/2 ΣV −1/2 = V −1/2 LL0 V −1/2 + V −1/2 ΨV −1/2
lo que implica que Z es tal que su matriz de covarianzas R se factoriza de la forma:
R = LZ L0Z + ΨZ con LZ = V −1/2 L; ΨZ = V −1/2 ΨV −1/2
Entonces, aplicando de nuevo el principio de invarianza de Zehna, si L̂ y Ψ̂ son estimadores de máxima-

verosimilitud de L y Ψ en el modelo X = µ + LF + , entonces L̂Z = V̂ −1/2 L̂; Ψ̂Z = V̂ −1/2 Ψ̂V̂ −1/2 son
estimadores de máxima verosimilitud de LZ y ΨZ respectivamente, es decir, el estimador máximo verosı́mil de
R, R̂, es
R̂ = L̂Z L̂0z + Ψ̂Z .
En consecuencia las comunalidades son estimadas por
2
∗2 ∗2
ĥ∗i = ˆli1 + . . . + ˆlim , i = 1, . . . , p
denotando L̂z = ˆlij

∗

.
La proporción de varianza muestral (estandarizada) correspondiente (o explicada) por el j-ésimo factor

viene dada por:
ˆl∗2 + . . . + ˆl∗2
1j pj
p
en donde ˆlij
∗
designa los elementos de L̂z .
Nota 5. En la práctica generalmente se actúa sobre los datos tipificados, es decir, que se hace Análisis Factorial
sobre la matriz de correlaciones. Puede reconstruirse la estimación máximo-verosı́mil para R en lugar de para
Σ. Se actúa pues con la matriz de correlaciones muestrales R que se “inserta” en L(L, Ψ, µ) mediante la
relación:
N
1 X (N − 1)S s A
S= (Xα − X̄)(Xα − X̄)0 ; = = .•
N − 1 α=1 N N N
1.3.5. Ejemplo Stock-prices

Consideramos un ejemplo recogido por Johnson and Wichern (1998) que va a ir resolviendo secuencialmen-
te en cada sección del desarrollo teórico del tema, mostrándose la aplicación de cada método que se propone
(extracción de factores, giros, contrastes de hipótesis, etc.).
Se considera la tasa de rendimiento semanal para las acciones de cinco compañı́as (Allied Chemical, DuPont,
Union Carbide, Exxon y Texaco) de la bolsa de Nueva York, estudiada desde Enero de 1975 hasta Diciembre de
1976. La tasa de rendimiento semanal se define como el cociente de la diferencia del precio (cotización) al cierre
en el viernes actual menos el precio al cierre el viernes anterior, entre el precio al cierre el viernes anterior. Las
observaciones en 100 semanas sucesivas, aparentemente, deben estar distribuidas independientemente, pero la
tasa de rendimiento están correlacionadas, como es sabido, las tendencias de las acciones se mueven junto con
las condiciones económicas generales.
El problema es 5-dimensional, con las variables aleatorias Xi ; i = 1, . . . , 5 que significan respectivamente,

el ı́ndice de rendimiento semanal de las 5 empresas citadas. Y sean (x1 , . . . , x5 )0α ; α = 1, . . . , 100; las 100
observaciones (N = 100) de la tasa de rendimiento semanal para las acciones de Allied Chemical, DuPont,
Union Carbide, Exxon y Texaco respectivamente. Las tres primeras pertenecen al sector industrial quı́mico y
las dos últimas al sector petrolı́fero. El vector de medias muestrales es:
x̄ = [0,0054; 0,0048; 0,0057; 0,0063; 0,0037]0 .
Para homogeneizar los datos, se consideraran los datos tipificados, dados por:
0
x1 − x̄1 x2 − x̄2 x5 − x̄5
z = z1 = √ , z2 = √ , . . . , z5 = √ .
s11 s22 s55
La matriz de covarianzas muestrales de los datos tipificados, es decir, la matriz de correlaciones muestrales
R, tiene la forma  
1 0,577 0,509 0,387 0,462
 0,577 1 0,599 0,389 0,322 
 
R=  0,509 0,599 1 0,436 0,426 
.
 0,387 0,389 0,436 1 0,523 
0,462 0,322 0,426 0,523 1
Los autovalores y autovectores normalizados correspondientes de R son:
λ̂1 = 2,857; ê01 = [0,464; 0,457; 0,470; 0,421; 0,421].
λ̂2 = 0,809; ê02 = [−0,240; −0,590; −0,260; 0,526; 0,582].

λ̂3 = 0,540; ê03 = [−0,612; 0,178; 0,335; 0,541; −0,435].
λ̂4 = 0,452; ê04 = [0,387; 0,206; −0,662; 0,472; −0,382].
Cuadro 1.1: Análisis factorial por componentes principales

Solución con un factor Solución con dos factores
Estimación del Varianzas Estimación de los Varianzas
factor loading especı́ficas factor loadings especı́ficas
Variable F1 ψ̂i = 1 − ĥ2i F1 F2 ψ̂i = 1 − ĥ2i
Allied Chemical 0,783 0,39 0,783 -0,217 0,34
DuPont 0,773 0,40 0,773 -0,458 0,199
Union Carbide 0,794 0,37 0,794 -0,234 0,31
Exxon 0,713 0,49 0,713 0,472 0,27
Texaco 0,712 0,49 0,712 0,524 0,22
Proporción acumulada
del total de la
varianza explicada 0,571 0,571 0,733
λ̂5 = 0,343; ê05 = [−0,451; 0,676; −0,400; −0,176; 0,385].

Como hemos visto el ejemplo contiene la tasa de rendimiento semanal 100 semanas (n=100) para 5 empre-
sas distintas (p=5). En primer lugar presentamos los factor loadings obtenidos por el método de componentes
principales. Tomaremos m=1 y m=2 para obtener la solución por componentes principales para el mo-
delo factorial ortogonal. Especı́ficamente, las estimaciones de los factor loadings son los coeficientes de las
componentes principales (autovectores de R) escalados por la raı́z cuadrada de correspondientes autovalor. Los
factor loadings estimados, comunalidades, varianzas especı́ficas y la proporción real de varianza explicada por
cada factor para m = 1 y m = 2 están en la tabla 1.1. Por ejemplo, para m = 2, la comunalidad asociada a la
primera variable (Allied Chemical), ĥ21 , es: ĥ21 = ˆl11
2
+ ˆl12
2
= 0,7832 + (−0,217)2 = 0,66.
La matriz residual de este ejemplo, para m = 2, es:

 
0 −0,127 −0,164 −0,069 0,017
 −0,127 0 −0,122 −0,055 0,012 
R − L̂L̂0 − Ψ̂ = 
 
 −0,164 −0,122 0 −0,019 −0,017 

 −0,069 0,055 −0,019 0 −0,232 
0,017 0,012 −0,017 −0,232 0
Evidentemente, la proporción de varianza total explicada por el modelo con dos factores es bastante mayor
que el modelo con un factor, 0,733 frente a 0,571. Sin embargo, para m = 2, L̂L̂0 produce valores relativamente
grandes de algunos elementos de la matriz residual, especialmente (r45 = −0,232).
Parece bastante claro que el primer factor, F1 representa las condiciones económicas generales y podrı́a ser
llamado el “factor de mercado”. Todas las empresas tienen cargas altas en este factor y relativamente pareci-
das. El segundo factor, contrasta las empresas quı́micas de las petrolı́feras (las quı́micas están relativamente
cargadas negativamente y las petrolı́feras positivamente). Por ello, F2 parece diferenciar el tipo de industria,
serı́a un “factor industrial”.
A continuación vamos a estimar (extraer) los factores por el método de máxima verosimilitud. En este
caso vamos a realizarlo únicamente para m = 2. Los resultados se recogen en tabla 1.2.
Cuadro 1.2: Análisis factorial por máxima verosimilitud

Estimación de los Varianzas
factor loadings especı́ficas
Variables F1 F2 ψ̂i = 1 − ĥ2i
Allied Chemical 0,684 0,189 0,50
DuPont 0,694 0,517 0,25
Union Carbide 0,681 0,248 0,47
Exxon 0,621 -0,073 0,61
Texaco 0,792 -0,442 0,18
del total de la
varianza explicada 0,485 0,598
La matriz residual correspondiente, es:

 
0 0,005 −0,004 −0,024 −0,004
 0,005 0 −0,003 −0,004 0,000 
R − L̂L̂0 − Ψ̂ = 
 
 −0,004 −0,003 0 0,031 −0,004 .

 −0,024 −0,004 0,031 0 −0,000 
−0,004 0,000 −0,004 −0,000 0
En este caso los elementos de R − L̂L̂0 − Ψ̂ son mucho más pequeños que los mismos de la matriz corres-
pondiente al método de componentes principales. Por esto, preferiremos el método de máxima verosimilitud.
Obsérvese que la proporción acumulada del total de la varianza explicada por dos factores, es mayor en
el método de componentes principales (0,733) que en el de máxima verosimilitud (0,598). Esto no es una
sorpresa, ya que este criterio suele ser favorable en componentes principales. Este hecho no es nada extraño,
porque sabemos que si se actúa en Análisis Factorial mediante la metodologı́a de Componentes Principales, se
está primando la “explicación” de las varianzas sobre la explicación de todas las varianzas-covarianzas que es
objetivo más propio del Análisis Factorial, que es mejor recogida en el método de máxima-verosimilitud.
Prestando atención a la solución de máxima verosimilitud, vemos que todas las variables tienen cargas
positivas en el primer factor F1 . Al igual que en el caso anterior, interpretaremos este factor como el “factor de
mercado”. La interpretación del segundo factor, sin embargo, no es tan clara como en la solución del método de
componentes principales; parece que indica un factor de “tipo de industria”, pero en este caso las magnitudes
de los factores son pequeñas y se podrı́a identificar este factor como comparación (enfrentadas) de DuPont
frente a Texaco. Por tanto, para obtener una interpretación más clara de este segundo factor tendremos que
rotarlos. Recuérdese además, que cuando se utiliza el método de máxima-verosimilitud, hemos tenido que im-
poner la restricción de ser diagonal la matriz L̂0 Ψ̂−1 L̂. Esta restricción hace que la solución inicial obtenida por
máxima-verosimilitud, en la práctica “enmascare” los factores, por lo que es prácticamente obligatoria rotarlos
para poner en evidencia factores rotados que conduzcan a una interpretación más clara (ver posteriormente la
sección de rotaciones).
Figura 1.1: Rotación
1.4. La rotación de factores en el Análisis Factorial. Criterios gráfi-

cos y analı́ticos (Kaiser-Varimax)
La “propiedad” del Análisis Factorial, consistente en el hecho de que una matriz de factor loadings L y una
matriz de factor loading “rotada” mediante una matriz ortogonal cualquiera T , reproducen la misma estructura
factorial, con dos representaciones estructurales de Σ indistinguibles, va a ser utilizada, paradójicamente como
elemento práctico de gran interés a la hora de “aclarar” la estructura factorial de un conjunto de datos.
En efecto, cuando m > 1, si T es tal que T T 0 = T 0 T = I,
X − µ = LF + = LT T 0 F + = L∗ F ∗ + , con L∗ = LT ; F ∗ = T 0 F
y se tiene que:
E[F ∗ ] = T 0 E[F ] = 0 y Cov[F ∗ ] = T 0 Cov[F ]T = T 0 T = I
de modo que, en efecto es imposible sobre la base de las observaciones del X distinguir L de L∗ . O dicho de
otra manera, los factores F y F ∗ son estadı́sticamente iguales (en sus propiedades) y estructuran o generan la
misma matriz de covarianzas Σ ya que:
0
Σ = LL0 + Ψ = LT T 0 L + Ψ = L∗ L∗ + Ψ.
Ahora bien, ¿qué ocurre con las estimaciones cuando se giran los factores, es decir, cuando la matriz de
factor loading se rota mediante una matriz ortogonal T ? Si, por cualquier método (componentes principales,
máxima verosimilitud, etc.) se ha estimado la matriz de factor loading L̂, entonces L̂T = L̂∗ con T T 0 = I, es
la matriz rotada de factor loadings. Cuando esta operación se efectúa permanecen invariantes las herramientas
fundamentales del Análisis Factorial, resumidas en la siguiente tabla:
L̂→L̂T 0
Matriz estimada de covarianza L̂L̂0 + Ψ̂ −−−−−−−→ L̂∗ L̂∗ + Ψ̂
| {z } L̂T T 0 L̂0 +Ψ̂ | {z }
Σ̂ Σ̂
L̂→L̂T 0
Matriz residual Sn − L̂L̂ − Ψ̂ −−−−→ Sn − L̂∗ L̂∗ − Ψ̂
0
L̂→L̂T
Varianza especı́ficas Ψ̂i −−−−→ Ψ̂i
0
L̂L̂0 =L̂T T 0 L̂0 =L̂∗ L̂∗
Comunalidades ĥ2i −−−−−−−−−−−−−−→ ĥ∗2 2
i = ĥi
L̂→L̂T
Estas “cualidades” de la rotación de los factores y de las matrices de los loadings, son aprovechables para
obtener una “estructura de factores más simple” que sea más fácilmente interpretable.
¿Qué podemos entender por una estructura más simple o un modelo simple de loadings (pattern-loadings)?
Pues una estructura de factores que tienda a parecerse a la situación ideal en la que cada variable esté muy
pesada con un solo factor y con los restantes está poco o moderadamente ponderada.
El problema que surge entonces es el siguiente ¿cómo determinar el giro que conduce a una estructura
factorial, con un modelo de loadings asociado, lo más simple posible en cada caso concreto? Pues hay métodos
gráficos y analı́ticos para resolver esta cuestión.
1.4.1. Métodos gráficos en la rotación de factores

Cuando m = 2 o los factores comunes se consideran dos a dos, la transformación ortogonal mas adecuada
se puede obtener gráficamente. Si interpretamos los factores comunes incorrelados como vectores unitarios a
lo largo de ejes perpendiculares, y dibujamos los factor loadings respecto de un factor (ˆli1 ; ˆli2 ), obtendremos p
puntos, y cada uno de estos puntos corresponde a una variable
Xi −→ (ˆli1 ; ˆli2 )
Figura 1.2: Variables vs factores
Entonces, en muchos casos es posible elegir un ángulo φ de rotación adecuado de modo que los nuevos factor
loadings ˆlij
∗
se obtendrán ası́: L̂∗p×2 = L̂p×2 T2×2 con T de la forma:

cos φ sen φ
T = , (sentido del reloj)
− sen φ cos φ

cos φ − sen φ
T = , (sentido contrario al del reloj.)
sen φ cos φ
Estos métodos gráficos, con el cálculo de T , no suelen considerarse. Se actúa “a ojo” normalmente, defi-
niendo agrupamientos (cluster) de variables que tengan claramente un factor común.
Si m > 2, por otra parte, el cálculo de φ no es fácil de visualizarse.
Hay casos en que las propias gráficas sugieren cambios de ejes que pasen a ejes oblicuos (no perpendiculares)
de tal manera que si esto se hiciera, la interpretación, cabe esperar, que fuese mucho más clara. En Anexo A se
analizan más detalladamente los criterios analı́ticos para determinar los giros oblicuos a partir de unos factors
loadings previamente estimados.
En general, dados m factores, el punto de coordenadas

ˆli1 , ˆli2 , . . . , ˆlim
representa la posición de la i-ésima variable en un espacio de factores. Definidos cluster de variables, no

superpuestos, es posible que un giro no rı́gido, oblicuo, hiciera pasar por los cluster a los ejes factoriales, con-
seguiéndose, previsiblemente, una mejor interpretación de los factores resultantes.
Figura 1.3: Factor scores y variables
1.4.2. Métodos analı́ticos: el criterio de Kaiser (Criterio Varimax)

Veamos un primer ejemplo de criterio para encontrar analı́ticamente una matriz T ortogonal adecuada pa-
ra obtener unos factores interpretables. Posteriormente, en sección 1.5 se tratarán pormenorizadamente otros
criterios analı́ticos de búsqueda del giro adecuado. Suponemos pues, giros ortogonales (es decir, T ortogonal).
Un método sugerido por Kaiser (1958), para elegir una matriz T con criterios analı́ticos se basa en lo
siguiente. Definimos:
ˆl∗
˜l∗ = ij
ij
ĥi
como los factor loading rotados, escalados por las raı́ces cuadradas de las comunalidades. Y se construye la
cantidad:  !2 
Xp
˜l∗2 
m
 p ij
1 X X
˜l∗4 − i=1

V =
 
p j=1  i=1 ij p
 

 
que según Kaiser (criterio Kaiser-Varimax) debe ser maximizada por los factor loadings girados.
Salvo constante de proporcionalidad, V admite una interpretación clara: V es proporcional a la suma desde
j=1 hasta m de la varianza de los loadings al cuadrado, para el factor j; por tanto, maximizar V consiste
en “separar” lo más posible los cuadrados de los loadings, de tal manera que la estructura final rotada hace
máxima dicha “separación”, de manera que en cada columna de la matriz de loadings exista una separación
“grande” entre algunos loadings de esa columna, con otros de la misma.
ˆl∗
ij
Nota 6. El “escalamiento” previo se hace (se parte de ˜lij
∗
= ) con objeto de dar a las variables con
ĥi
menores comunalidades un peso relativo mayor en la determinación de la estructura final. Una vez que se ha
determinado T , los loadings ˜lij
∗
son multiplicados por las comunalidades ĥi de modo que los comunalidades
originales se mantienen. •
Nota 7. Como cabe esperar, los factor loadings obtenidos por el criterio Kaiser-Varimax aplicado a factor
loadings obtenidos por métodos diferentes de estimación (componentes principales, máxima verosimilitud ...)
no coinciden en general. También ocurre que el modelo de loadings rotado cambia considerablemente cuando se
añade un factor en la rotación. Por ejemplo suele ocurrir que exista un factor dominante simple el cual será
“obscurecido” en cualquier rotación ortogonal; en este caso se le puede dejar fijo y rotar los restantes factores.
•
Nota 8. Se recomienda especialmente la rotación de factores cuando se ha utilizado el método de máxima

verosimilitud en la estimación, puesto que se habrá utilizado la condición de unicidad L̂0 Ψ̂−1 L̂ = ∆ diagonal
que tiene su justificación teórica (ver anexo B.1) pero que probablemente conduzca a factores difı́cilmente
interpretable. •
1.5. Rotación de factores. Criterios analı́ticos generales

En lo que sigue tratamos la cuestión de búsqueda de una rotación de factores adecuada para conseguir
una estructura factorial interpretable óptimamente. Realizamos el análisis a partir de una solución inicial que
denotamos (L, Ψ) obtenida por algún método de estimación (por ejemplo los vistos en las secciones 1.3.2 y
1.3.4 anteriores).
Una vez que se han estimado los factores comunes el Análisis Factorial entra en una fase de interpretación
y explotación de los resultados. Como ya hemos indicado, la “indeterminación de la solución factorial” en el
sentido de que si (L; Ψ) es una solución, también lo es el par (LT ; Ψ), es decir:
X = µ + LF + −→ X = µ + LT T 0 F + = µ + L∗ F ∗ +
0
Σ = LL0 + Ψ −→ Σ = LT T 0 L + Ψ = L∗ L∗ + Ψ.
L→LT
(R) (R)
De modo que dicho en otras palabras, podemos encontrar factores comunes “nuevos”, denotados F1 , . . . , Fm
que son combinaciones lineales de F1 , . . . , Fm componentes del vector F = (F1 , . . . , Fm )0 ; estos nuevos fac-
tores son ortogonales, puesto que son F ∗ = T 0 F , con T ortogonal y tienen varianza unidad (ortogona-
les=incorrelados).
Cuando T es ortogonal se habla de rotación ortogonal de factores, para referirse al proceso de obtención de
(R)
un conjunto de nuevos factores Fi a partir de los antiguos Fi , i = 1, . . . , m.
El nuevo modelo desarrollado será:
X = µ + L∗ F ∗ + = µ + (LT )(T 0 F ) +
m
(R)
X
Xi = µi + cij Fj + i i = 1, . . . , p
j=1
siendo cij los elementos de una nueva matriz rotada L∗ = LT . Un cambio ortogonal (rotación sólida) como el
aquı́ hecho, no cambia las comunalidades de las variables ya que
m
X m
X
h2i = c2ij = 2
lij ; i = 1, . . . , p
j=1 j=1
siendo lij los elementos de la matriz “inicial” de factor loadings.
Por otro lado, la expresión matricial de la transformación de la matriz de factor loadings

L −→ L∗ = LT
se escribe desglosada y con la notación anterior, como:
m
X
cij = lik qkj , i = 1, . . . , p; j = 1, . . . , m; cij ∈ L∗ ; lik ∈ L; qkj ∈ T.
k=1
Siendo qkj números, con k = 1, . . . , m; j = 1, . . . , m y siendo la matriz ortogonal T de dimensión m × m. A

efectos de interpretación de los nuevos factores, las constantes qkj se toman de manera que los loadings rotados
sean “simples” respecto de algún criterio.
La siguiente cuestión, es cómo elegir la matriz T . El criterio que se utiliza es seleccionar una matriz T
ortogonal, tal que los loadings cij sean “simples”, en el sentido que “el mayor número posible de ellos, sean
próximos a cero y los restantes relativamente grandes”.
La estrategia pues, es buscar una matriz T ortogonal tal que se obtenga una representación de Xi , i =
m
(R)
X
1, . . . , p (las variables respuestas), es decir, una representación del tipo Xi = cij Fj + i , tal que los pesos
j=1
en pocos factores sean grandes y pequeños en los restantes (Thurstone (1945)). La razón que justifica esta
estrategia, es que en la medida en que, en efecto, consigamos una estructura simple, y dado que los loadings
expresan, en el Análisis Factorial ortogonal, las correlaciones entre variable y factor, podremos interpretar más
fácilmente la estructura factorial obtenida.
1.5.1. Métodos de rotación ortogonal

Se han ideado muchos métodos analı́ticos y gráficos para obtener, mediante rotaciones adecuadas, estructu-
ras más simple a partir de una matriz inicial de factor loadings. Los métodos analı́ticos, se pueden sistematizar
como lo hacen Harman (1967), Afifi and Azen (1979), entre otros, en base al siguiente criterio analı́tico: Mini-
mizar la función objetivo G, dada ası́:
m m
" p p
! p !#
X X X
2 2 γ X 2 X
2
G= cij cik − c cik
j=1 i=1
p i=1 ij i=1
k=1
j=k;j6=K
con γ ∈ [0, 1].
1. Cuando γ = 0 la rotación se dice Cuartimax. En este caso se puede comprobar que minimizar G, es
equivalente a maximizar:
m p m p
1 XX 2 2
1 XX 2
c − c̄.. ; c̄.. = c .
pm j=1 i=1 ij pm j=1 i=1 ij
Obsérvese que la expresión anterior a maximizar es la varianza de los cuadrados de todos los factor loadings
implicados en el problema de Análisis Factorial. Si se maximiza esa varianza quiere decir que dispersamos
al máximo los valores posibles de los factor loadings, aumentando los mayores y disminuyendo los más
próximos a cero, en cumplimiento de la estrategia antes formulada para llegar a “estructuras simples”.
2. Otro criterio es tomar γ = 1. Este criterio se denomina Varimax y en este caso puede comprobarse que
la minimización de G es equivalente a maximizar
m p p
1 XX 2 2 1X 2
cij − c̄2.j ; c̄2.j = c ; j = 1, . . . , m.
p j=1 i=1 p i=1 ij
La diferencia con el cuartimax es la siguiente: Este actúa sobre todos los loadings, en bloque. En cambio
el varimax actúa por columnas de loadings (c̄2.j es la media de los loadings de cada columna j = 1, . . . , m
correspondiente a cada factor). En el varimax se hace máxima la dispersión de los loadings para cada
factor separadamente. Este es el criterio más utilizado.
Nota 9. A veces se utiliza la normalización de Kaiser (1958) al aplicar los criterios, en particular el
varimax en el caso de rotación ortogonal. Esta normalización consiste en considerar a los loadings cij ,
normalizados respecto de las comunalidades a través de la raı́z cuadrada de ellas. Es decir, considerar:
cij
c∗ij = ; i = 1, . . . , p; j = 1, . . . , m; con hi la raı́z cuadrada de la comunalidad i-ésima,
hi
normalizando cada cij respecto de la comunalidad i-ésima de la variable Xi .
La idea que persigue esta normalización es conseguir que cada variable-respuesta Xi esté contribuida
por unos loadings “conmensurados” con la comunalidad total de dicha variable Xi , para i = 1, . . . , p. Se
origina, entonces el criterio Varimax Normalizado (o de Kaiser) que maximiza la expresión:
 #
∗ 2
m
" p Pp
1 X X i=1 cij
M axV = M ax  c∗4 − .
p j=1 i=1 ij p
Este criterio Varimax-Kaiser, ya fue considerado en la sección 1.4.2 •

Los métodos descritos de rotación de factores, pueden aplicarse a unos factores comunes estimados “ini-
cialmente” por algún método de estimación (componentes principales o máxima-verosimilitud). A su vez, las
rotaciones pueden realizarse con alguno de los criterios analı́ticos descritos antes. Por ejemplo, tomando el
ejemplo que venı́mos utilizando (stocks prices/ rendimientos semanales), vamos a realizar una rotación de tipo
ortogonal, con criterio Varimax para clarificar la estructura de los factor loadings en el caso del Análisis
Factorial máximo verosı́mil y para m = 2. En este caso los factor loadings (rotados y sin rotar), las varianzas
especı́ficas y proporción acumulada de varianza explicada son recogidas en tabla 1.3.
En el modelo sin rotar, veı́amos clara la existencia de un primer factor, que identificábamos con el “factor
de mercado” y otro segundo factor que no estaba tan claro, ya que podı́a marcar diferencias entre las industrias
petrolı́feras y quı́micas o entre DuPont frente a Texaco. Precisamente por este motivo realizábamos la rotación.
Los factores rotados indican que las empresas quı́micas (Allied Chemical, DuPont y Union Carbide) están
más cargadas en el primer factor mientras que las petrolı́feras (Exxon y Texaco) tienen mayores cargas en el
segundo factor. Por lo tanto, los dos factores rotados nos marcarán diferencias entre los tipos de industrias. Es
difı́cil etiquetar estos factores; el Factor 1 podrı́a representar las fuerzas económicas que causan movimientos
conjuntos en la cotización de las empresas quı́micas. El Factor 2 podrı́a representar las condiciones económicas
que afectan a las empresas petrolı́feras.
Es importante destacar, cómo el factor F1 original, que es un factor general, dado que todas las variables
están ponderadas casi por igual, tiende a“destrozarse” tras la rotación. Esta es la razón por la que en los casos
en que exista un factor “general” es interesante rotar los factores manteniendo fijo uno o varios con dicho
carácter general. Esto posible en el software actual sobre Análisis Factorial.
Cuadro 1.3: Rotación ortogonal

Estimación de los Estimación de los
factor loadings factor loadings Varianzas
Max. Verosimil rotados especı́ficas
Variable F1 F2 F1∗ F2∗ ψ̂i = 1 − ĥ2i
Allied Chemical 0,684 0,189 0,601 0,377 0,50
DuPont 0,694 0,517 0,850 0,164 0,25
Union Carbide 0,681 0,248 0,643 0,335 0,47
Exxon 0,621 -0,073 0,365 0,507 0,61
Texaco 0,792 -0,442 0,208 0,883 0,18
del total de la
varianza explicada 0,485 0,598 0,335 0,598
1.6. Puntuaciones en los factores (Factor Scores)

El interés primordial en el Análisis Factorial es el de estimar los parámetros del Modelo. Pero una vez
estimados estos, se aborda el problema de estimar valores de los factores comunes, llamados “factor scores”,
para cada caso de la muestra observada. Estos valores se utilizan para varios pasos posteriores, por ejemplo
para diagnósticos del Modelo o para “entradas” de análisis estadı́sticos posteriores.
En el Modelo de Análisis Factorial exploratorio que venimos analizando, los factores Fj , ası́ como los errores
i , son inobservables y aleatorios. Por tanto al hablar de su estimación se entiende que ésta es de naturaleza
diferente a la estimación de parámetros.
De hecho por “factor scores” (puntuación en F para el caso j-ésimo de individuo) entenderemos unos valores
fˆj tales que:
fˆj = estimación del valor fj que toma Fj (caso j-ésimo); j=1,2,. . . ,n

en donde fˆj y Fj son vectores (m × 1), siendo m el número de factores comunes.
La dificultad de obtener estas estimaciones reside, además, en el hecho de que las cantidades fj y j , inob-
servables, exceden en número a las observaciones xj .
Para obviar esta dificultad, se han ideado varios métodos como el de Mı́nimos Cuadrados Ponderados
(weighted least squares methods) o el método de Regresión, que son en realidad aproximaciones
heurı́sticas al problema, basadas en planteamientos razonables de tipo estadı́stico-técnico. Estos dos métodos,
tienen dos caracterı́sticas comunes:
1. Los factor loadings, ˆli y las varianzas especı́ficas ψ̂i , estimados, son considerados como los verdaderos
valores.
2. Son métodos “robustos” frente a transformaciones de los datos originales del tipo habi- tualmente utilizado
en Análisis Factorial (rotaciones; tipificación, etc.).
A continuación se describen ambos métodos.
1.6.1. El método de mı́nimos cuadrados ponderados

Versión teórica.
Supongamos el modelo de Análisis Factorial X − µ = LF + antes manejado, y supongamos que
conocemos µ, L y las varianzas especı́ficas Ψ. Sea el vector de errores = (1 , . . . , p )0 , de modo que
V ar[i ] = ψi ; i = 1, . . . , p. Bartlett (1947) sugirió estimar los factores comunes por el método de mı́nimos
cuadrados ponderados (“weighted least squares”) dado que no es preciso que los ψi sean iguales (hetero-
cedasticidad), método que se describe a continuación.
La idea es simple: consideramos la suma de los cuadrados de los errores ponderada por el recı́proco de
sus varianzas respectivas:
p
X 2i
= 0 Ψ−1 = (x − µ − Lf )0 Ψ−1 (x − µ − Lf ).
i=1
V ar[i ]
Bartlett propuso estimar f por un fˆ tal que haga mı́nima esa suma ponderada. La solución de este
problema de minimización viene dada por:
−1
fˆj = L0 Ψ−1 L m×m L0m×p Ψ−1
p×p (x − µ)p×1 .
Nota 10. La solución indicada es bien conocida en la teorı́a del Modelo de Regresión mı́nimo-cuadrática
ponderada. •
Versión muestral.
Cuando no se conocen µ, L y Ψ, pueden ser sustituidos por sus estimaciones obtenidas a partir de las
observaciones de X, de donde se obtienen los factor scores para cada caso j = 1, . . . , n (obsérvese que
dado el vector de factores f , los factor scores son “estimaciones” de los valores que dicho vector de factores
toma para cada elemento de la muestra x1 , . . . , xn ). Ası́:
−1
fˆjm×1 = L̂0 Ψ̂−1 L̂ L̂0m×p Ψ̂−1
p×p (xj − x̄)p×1 ; j = 1, . . . , n
m×m
con x̄ el vector media muestral y xj el elemento j-ésimo de la muestra, es decir, un vector (xj )p×1 .
Obsérvese que lo anterior equivale a tomar como verdaderos valores de L, Ψ y µ, sus respectivos estima-
dores.
El aspecto que toma fˆj varı́a según el método que se haya empleado para ajustar el modelo. Veamos dos
casos:
a) Si se ha empleado el método de máxima verosimilitud, se ha de tener en cuenta la condición
de unicidad que se ha exigido en este método: L̂0 Ψ̂−1 L̂ = ∆ ˆ diagonal. Siendo los factores obtenidos
por Mı́nimos Cuadrados Ponderados, a partir de estimadores máximo verosı́miles:
−1
fˆj = L̂0 Ψ̂−1 L̂ ˆ −1 L̂0 Ψ̂−1 (xj − x̄) j = 1, 2, . . . , n.
L̂0 Ψ̂−1 (xj − µ̂) = ∆
Si se ha actuado con la matriz de correlación, entonces:

−1
fˆj = L̂0z Ψ̂−1
z L̂z L̂0z Ψ̂−1 ˆ −1 0 −1
z (zj ) = ∆z L̂z Ψ̂z zj j = 1, 2, . . . , n
siendo zj = D−1/2 (xj − x̄) y ρ̂ = L̂z L̂0z + Ψ̂z .

Nota 11. En lo anterior se tiene en cuenta los resultados vistos en la sección 1.3.4, correspondientes
al Análisis Factorial sobre datos tipificados, para los que Σ se transforma en ρ = R. •
Puede probarse fácilmente que los factor scores generados por este procedimiento, tienen media
muestral cero (vector media cero), covarianzas muestrales cero y varianzas muestrales unidad. Esto
quiere decir que
n n
1Xˆ 1 X ˆ ˆ0
fj = 0; fj fj = Im×m .
n j=1 n − 1 j=1
Por otra parte, si se rotan los factores mediante una matriz ortogonal T de modo que tuviéramos
una matriz de factor loadings rotada L∗ , entonces L → LT = L∗ ⇒ L̂∗ = L̂T y entonces los factor
scores quedan transformados análogamente fˆj → fˆj∗ = T 0 fˆj .
b) Si se hubiera empleado el método de las componentes principales para la extracción de los

factores, las cosas son más simples. En realidad se supone que las ψi son la unidad o valores próximos
a la unidad. Esto implica que puede emplearse unos mı́nimos cuadrados no ponderados (es decir,
mı́nimos cuadrados ordinarios LQO). En este caso el planteamiento anterior tipo Bartlett (con
Ψ = I) conduce a:
fˆj = (L̂0 L̂)−1 L̂0 (xj − x̄)

o si se actúa con la matriz de correlaciones:
fˆj = (L̂0z L̂z )−1 L̂0z (zj )
en donde zj son los datos tipificados (zj = D−1/2 (xj − x̄), j = 1, . . . , n).
Ahora bien, en este método de componentes principales, como ya se vio;

"q #
q
L̂p×m = λ̂1 ê1 . . . λ̂m êm

p×1 p×1
por lo que :
" #0
1 1
fˆj 0
= (L̂ L̂)−1
L̂ (xj − x̄) = p (xj − x̄)0 ê1 . . . p (xj − x̄)0 êm
0
(m×1) λ̂1 (1×p) (p×1) λ̂m (1×p) (p×1)
puesto que:  1 
λ̂1
0 ··· 0
 0 1
λ̂2
0 
(L̂0 L̂)−1 = 
 
 .. ..

.

 . 0 
1
0 ··· 0 λ̂m m×m
dado que ê1 . . . êm son los primeros autovectores ortogonales y unitarios que proporcionan las m
primeras componentes principales utilizadas en el método de extracción de factores por el método
de componentes principales. Pudiéndose comprobar que:
n n
1Xˆ 1 X ˆ ˆ0
fj = 0; fj fj = I.
n j=1 n − 1 j=1
Nota 12. Obsérvese que los fˆj obtenidos, no son más que los valores de las m primeras componentes
principales evaluadas en xj con el factor de escala √1 . •
λ̂i
1.6.2. El método de regresión

Versión teórica.
Sea otra vez el modelo original de Análisis Factorial X − µ = LF + , con parámetros conocidos. Y
coloquémonos bajo hipótesis de Normalidad. Ello quiere decir que tanto F como , son vectores normales
multivariantes, con medias y matrices de covarianzas las correspondientes. Es decir que F Nm (0; I)
(caso ortogonal); Np (0; Ψ). Entonces, es claro que:
X − µ = LF + Np [0; LL0 + Ψ]
dado que: LF Nm (0; LL0 ) y según las hipótesis F y son incorreladas y por tanto independientes por
ser Normales ambos.
Además, la distribución conjunta de X − µ y F es una Nm+p (0; Σ∗ ) en donde, en virtud de las hipótesis
del modelo de Análisis Factorial ortogonal que estamos considerando:
Σp×p = LL0 + Ψ Lp×m

∗ Σ11 Σ12
Σ = = .
L0m×p Im×m (m+p)×(m+p) Σ21 Σ22
Podemos considerar, entonces, en este ambiente normal, la distribución condicionada de los factores al
vector x : F/X = x. Y en particular la correspondiente media condicionada que será:
−1
E [F/X = x] = L0 Σ−1 (x − µ) = L0 (LL0 + Ψ) (x − µ) Σ21 Σ−1

11 (x − µ)
y como también sabemos:
Cov[F/X = x] = I − L0 Σ−1 L = I − L0 (LL0 + Ψ)−1 L (Σ22·1 ).
Nota 13. Esta última es la que al estudiar el modelo de regresión lineal múltiple llamamos Σ22·1 =
Σ22 − Σ21 Σ−1 0 0
11 Σ12 . Como también sabemos de la regresión múltiple, la matriz L (LL + Ψ)
−1
no es otra
cosa que la matriz de coeficientes de regresión en la regresión lineal multiple de los factores F sobre las
variables X (superficie de la regresión lineal múltiple de F sobre X = x). •
Versión muestral.
La idea entonces, a efectos de estimar los factor scores, es aprovechar estos resultados teóricos, vı́a
regresión multiple de F sobre las variables, de modo que si disponemos de estimadores máximo-verosı́miles
de L y Ψ, podemos tomarlos como verdaderos valores y entonces, podemos estimar L0 (LL0 + Ψ)−1 ,
−1
mediante L̂0 L̂L̂0 + Ψ̂ , y podemos tomar como factor scores los valores dados por la correspondiente
regresión de F sobre X estimada, en definitiva:
fˆj = E[f\
/X = x] = L̂0 (L̂L̂0 + Ψ̂)−1 (xj − x̄) j = 1, . . . , n.
(hiperplano estimado de regresión lineal múltiple de F sobre X).
1.6.3. Comparación de los “factor scores” dados por los dos métodos
Los factor scores dados por estos dos métodos (LS y R) pueden compararse en general, si se tienen en
cuanta lo siguiente:
L̂0 (L̂L̂0 + Ψ)−1 = (I + L̂0 Ψ̂−1 L̂)−1 L̂0 Ψ̂−1
lo que permite simplificar el cálculo de las fˆj en el método de regresión descrito antes (sección 1.6.2). Además
ello permite también comparar los factor scores generados por ambos métodos. Se tiene
fˆj = (L̂0 Ψ̂−1 L̂)−1 L̂0 Ψ̂−1 (xj − x̄) −→ fˆjLS mı́nimos cuadrados
fˆj = (I + L̂0 Ψ̂−1 L̂)−1 L̂Ψ̂−1 (xj − x̄) −→ fˆjR regresión.

Es claro entonces que:
fˆjLS = (L̂0 Ψ̂−1 L̂)−1 (I + L̂0 Ψ̂−1 L̂)fˆjR = I + (L̂0 Ψ̂−1 L̂)−1 fˆjR .

Nota 14. A su vez podemos proceder a analizar esta relación, en función del método que se hubiera seguido
en el caso de mı́nimos cuadrados, de tal forma que si se hubiera adoptado el de máxima verosimilitud, para la
estimación de factores, entonces:
ˆ −1
(L̂0 Ψ̂−1 L̂)−1 = ∆
ya que habrı́amos de utilizar la condición de unicidad L0 Ψ−1 L = ∆ (matriz diagonal). De tal manera entonces
ˆ −1 es tal que sus elementos (de la diagonal principal) fueran próximos a cero, entonces:
que si ∆
fˆjLS → fˆjR .
Es decir, ambos métodos darı́an factor scores “parecidos”. •
Nota 15. Se suele en la práctica del Análisis Factorial, actuar con la matriz S de covarianzas muestrales
iniciales, en lugar de con Σ̂ = L̂L̂0 + Ψ̂, que es fruto de la estimación del modelo de Análisis Factorial con
un determinado número de factores m. Ası́ se pretende en la práctica, reducir el efecto que pudiera tener una
posiblemente incorrecta determinación del número de factores. Se calcula entonces:
fˆj = L̂0 S −1 (xj − x̄) j = 1, . . . , n.
De modo que resumiendo:

i) Los factor scores obtenidos por regresión, basados en S son:
fˆj = L̂0 S −1 (xj − x̄), j = 1, 2, . . . , n.
ii) Los factor scores obtenidos por regresión y datos tipificados son:
fˆj = L̂0z R−1 (zj ); zj = D−1/2 (xj − x̄)
con zj = D1/2 (xj − x̄) y R la matriz de correlaciones muestrales.

Es evidente, que si se rotan los factores, se rotan los factor scores:
fˆj → fˆj∗ = T 0 fˆj = T 0 L̂0 S −1 (xj − x̄)•

Nota 16. Los autores y prácticos de Análisis Factorial, indican que no existe unas superioridad uniforme de
un método sobre otro (regresión y mı́nimos cuadrados). Cada caso de aplicación debe ser analizado “ad hoc”.
Un procedimiento práctico de efectuar la comparación entre los factor scores proporcionados por los dos
métodos, es calcular numéricamente el coeficiente de correlación muestral entre scores de un mismo factor.
Normalmente, los factor scores se calculan sobre los datos transformados (tipificados) y sobre los rotados
por algún método de rotación de los ejes factoriales. Por cada combinación de un método de estimación de
factores y factor scores, con un método de rotación y con datos tipificados o no, aparece una solución concreta.
•
1.6.4. Los “scatterplots” bivariantes de los factor scores

En diversos puntos antes desarrollados, la hipótesis de normalidad ha jugado un papel primordial (que origi-
na en particular la posibilidad de aplicación de métodos de máxima verosimilitud sobre poblaciones normales).
Por tanto, comprobaciones de normalidad o grado de normalidad, tanto para las variables X como para los
factores F deben ser hechas.
Cuando el número de variables y factores es grande, ya sabemos que comprobar la normalidad es un proble-
ma difı́cil y teóricamente imposible de resolver exactamente. Una herramienta útil en el análisis de la posible
normalidad de los factores (y de las variables también) es proceder a representaciones gráficas bivariantes mar-
ginales (bivariate scatterplots). Es obvio que contornos elı́pticos son la “traza” de la normalidad, por ejemplo,
de los factores. Lo que se hace pues, es representar dos a dos los factor scores y analizar los contornos elı́pticos
frente a no elı́pticos que se producen en las diferentes parejas.
Hay que tener en cuenta que si los factor scores, van a usarse como “datos de entrada” para otros análisis
multivariantes que exigen normalidad, es de gran interés conocer la posible normalidad de los factor scores.
Por otra parte, quede dicho que estos “bivariate scatterplots” pueden hacerse con los factor scores obtenidos
por dos métodos distintos (máxima verosimilitud o componentes principales).
Los scatterplots también son útiles para la detección de posibles outliers.

A continuación, obtendremos los factor scores, por los métodos de mı́nimos cuadrados y regresión, para
el ejemplo del stock-prices. En apartados anteriores, actuando con la la matriz R y con el método máximo-
verosı́mil, obtuvimos la estimación de los factor loadings rotados, L̂∗ , y la estimación Ψ̂ que son:
   
0,601 0,377 0,5 0 0 0 0
 0,850 0,164   0 0,25 0 0 0 
L̂∗ = 
   
 0,643 0,335  ; Ψ̂ =  0
  0 0,47 0 0  .
 0,365 0,507   0 0 0 0,61 0 
0,208 0,883 0 0 0 0 0,18
Aplicamos los dos métodos descritos teóricamente antes, es decir, el método de Mı́nimos Cuadrados Pon-
∗
derados y el método de Regresión. En este último caso, por ejemplo, la matriz L̂0 z R−1 es

0,187 0,657 0,222 0,050 −0,210
.
0,037 −0,185 0,013 0,107 0,864
Por ejemplo, si se toma la observación tipificada de la segunda semana observada:
z 0 = (0,50; −1,40; −0,20; −0,70; 1,40) .
La “puntuación” (factor score de z) en los dos factores comunes estimados-rotados F1∗ y F2∗ , serı́an, por
componentes principales y máxima verosimilitud, respectivamente:
−1 ∗
ˆ
∗
0 −1 ∗ 0 −1 −1,8
f = L̂ z Ψ̂z L̂z L̂ z Ψ̂z z =
2,0
 
0,50
 −1,40 
∗ 0,187 0,657 0,222 0,050 −0,210 −1,2
fˆ = L̂0 z R−1 z =
 
 −0,20 = .
0,037 −0,185 0,013 0,107 0,864   1,4
 −0,70 
1,40
Se puede observar que las puntuaciones son diferentes según el método de estimación empleado.
Si se partiera de una Análisis Factorial por componentes principales, se utilizarı́an las matrices L̂∗ y Ψ̂∗ ,
de factor loadings y unicidades respectivamente, obtenidas por dicho método. Concretamente, las matrices de
factor loadings, original (L̂) y rotada (L̂∗ ) serı́an:
   
0,784 −0,216 0,746 0,323
 0,773 −0,458   0,889 0,128 
∗
   
L̂ =  0,795 −0,234  y L̂ = L̂T = 
 
 0,766 0,316  .

 0,712 0,473   0,258 0,815 
0,712 0,524 0,226 0,854
Factor Scores
X − µ = LF + −→ Fj ,  = 1, . . . , n; vector de factores para el caso j-ésimo con n el número de casos −→ fj valor de Fj

en el caso j-ésimo e inobservable −→ fˆj estimación de fj . Donde Fj , fj y fˆj son vectores (m × 1).
Análisis Factorial
Métodos de calcular la “estimación”, o “puntuación ”, fj (versión teórica.)
1. Mı́nimos Cuadrados Ponderados (WLSM).

p
X 2i
a) Método de Bartllet: Estimar f por el vector fˆ tal que minimice = (x − µ − Lf )0 Ψ−1 (x − µ − Lf ).
i=1
V ar[i ]
b) Solución analı́tica: estimación del vector de factores F en la población.
−1
fˆm×1 = L0m×p Ψ−1
p×p Lp×m m×m
L0m×p Ψ−1
p×p (x − µ)p×1 m×1
.
2. Método de Regresión (RM), bajo Normalidad Multivariante de F y (Maxwell-Lawley).
Caso de µ, L y Ψ desconocidos (versión muestral.)
Hay que sustituir µ, L y Ψ por estimaciones proporcionadas por alguno de los métodos de estimación del Análisis Factorial. Llamaremos µ̂, L̂ y Ψ̂ a
estas estimaciones (independientemente del método por el que se obtengan):
fˆj = (L̂0 Ψ̂L̂)−1 L̂0 Ψ̂−1 (xj − x̄), j = 1, . . . , n.
con x̄ el vector de medias muestrales j = 1, . . . , n y xj el vector j-ésimo de la muestra. Entonces fˆj son los factor scores estimados para cada caso
j = 1, . . . , n.
Métodos de obtención de µ̂,L̂ y Ψ̂.
1. Máxima Verosimilitud: bajo la condición de unicidad: L̂0 Ψ̂−1 L̂ = ∆

ˆ diagonal. A su vez puede emplearse con matriz de covarianzas muestrales o
con matriz de correlaciones.
2. Método de Componentes principales: ψi ≈ 1 (WLSM→ LSM) (LSM≡ LQO)≡ Ψ = I → fˆj = (L̂L̂)−1 L̂0 (xj − x̄) o fˆj = (L̂0z L̂z )−1 L̂0z zj con
zj = D−1/2 (xj − x̄), según se empleen datos no tipificados o tipificados respectivamente.
36
1.7. Contrastes de Hipótesis en Análisis Factorial

En este apartado vamos a considerar un test clásico del Análisis Factorial ortogonal de Lawley-Maxwell,
es decir en un modelo factorial en el que sus elementos aleatorios X, F y se distribuyen según normales
d
multivariantes, y en particular X Np (µ; Σ), con Σ = LL0 + Ψ. Esta es la situación en la que en la sección
1.3.4 se ha analizado la estimación (extracción) de factores. Obviamente, la construcción de test de hipótesis
en dicho contexto se basa, en un enfoque clásico, en la “metodologı́a del cociente de verosimilitudes” y su
comportamiento asintótico en distribución bajo conocidas condiciones de regularidad. Esta metodologı́a es
viable bajo la hipótesis de normalidad del modelo Factorial. De esta manera se obtiene a continuación el test
asintótico de Bartlett (o Bartlett-Lawley) sobre la existencia de un Análisis Factorial con un número dado
m de factores comunes ortogonales. También se considera la obtención de un contraste en Análisis Factorial,
basado en la metodologı́a de criterios de información (test de Akaike) que marca una dirección más reciente
en la cuestión. En el Anexo B de este tema, se hace un estudio pormenorizado de los contrastes clásicos en
Análisis Factorial ortogonal (ver Anexo B.4) en el Modelo Lawley-Maxwell, obteniéndose los contrastes de
Bartlet-Lawley y Lawley-Maxwell sobre el número m de factores adecuados.
1.7.1. Test asintótico (Bartlett) sobre la adecuación de un modelo factorial orto-

gonal con m factores comunes
Consideramos aquı́ el contraste asintótico de Bartlett-Lawley en un Análisis Factorial ortogonal de Lawley-
Maxwell. Lo hacemos de manera resumida. Su estudio detallado se realiza en el citado Anexo B, junto con su
expresión alternativa (test de Lawley-Maxwell).
La aceptación de la hipótesis de una población normal nos lleva directamente a los test de hipótesis sobre
la adecuación del modelo. Supongamos que el modelo tiene m factores comunes; en estas circunstancias, Σ =
LL0 + Ψ y el test de adecuación del modelo con m factores comunes es equivalente a contrastar que:
H0 : Σp×p = Lp×m L0m×p + Ψp×p (1.1)
frente a H1 : Σ es otra cualquiera matriz definida positiva. Cuando Σ no tiene ninguna forma especial, el
máximo de la función de verosimilitud (con Σ̂ = NN−1 S = SN = N
A
) es proporcional a

−N/2 Np
|Σ̂| exp − .
2
Concretamente, la verosimilitud maximizada, bajo la hipótesis H1 (alternativa) tiene la forma:

−N/2
A pN A pN
L X̄; = exp − ln(2π) exp −
N 2 N 2
(ver Anexo B.4.1).
Bajo la hipótesis nula, H0 , Σ está restringida a tener la forma de la ecuación 1.1. En este caso, el máximo
de la verosimilitud (con µ̂ = x̄ y Σ̂ = L̂L̂0 + Ψ̂, donde L̂ y Ψ̂ son los estimadores de máxima verosimilitud de
L y Ψ) es proporcional a
−N/2
1 1
Σ̂ exp − tr Σ̂−1 A = L̂L̂0 + Ψ̂ exp − tr N Σ̂−1 SN =

2 2
−N/2

0 N −1
L̂L̂ + Ψ̂ exp − tr Σ̂ SN .

2
Concretamente (véase Anexo B.4.1) la verosimilitud maximizada es
−N/2
pN 0 pN
M ax L = exp − ln(2π) Ψ̂ + L̂L̂ exp − .

A.F actorial 2 2
En consecuencia, siguiendo la metodologı́a del “cociente de verosimilitudes (multivariante de Wilks)” y calcu-

lados los dos máximos del cociente de verosimilitudes, éste se expresa finalmente ası́:
A N/2  N/2
M ax L A
A.F actorial
= N N/2 = 
N  = W.
M axL 0 Ψ̂ + L̂L̂0
Ψ̂ + L̂L̂

µ;Σ
Por tanto, según el método de construcción de test de hipótesis basado en el cociente de verosimilitudes
(procedimiento habitual en hipótesis nulas y alternativas compuestas con estimadores obtenidos bajo máxima
verosimilitud), “se ha de tender a rechazar H0 (en este caso la existencia de un Análisis Factorial con m
factores) en la medida en que W sea pequeño”. La cuestión es como definir “valores pequeño” de W, en
términos estadı́sticos. Habrı́a que conocer para ello la distribución exacta de W, que no es posible. Como es
sabido, existe un resultado asintótico para la distribución de W en el contexto aquı́ supuesto, de Normalidad
multivariante (test de la χ2 ). Para ello consideraremos −2 ln W es decir:
     
0
N A A Ψ̂ + L̂ L̂
−2 ln W = −2 ln  N  = −N ln  N  = N ln  A 
2 Ψ̂ + L̂L̂0

Ψ̂ + L̂L̂0

N

que es tal que se comporta (test de Bartlett), bajo la H0 de existencia de Análisis Factorial, ası́:
 
Ψ̂ + L̂L̂0

2p + 4m + 5
N −1− ln  A  χ2v−v0
6
N
N →∞
en donde se ha sustituido N por la expresión indicada (aproximación sugerida por Bartlett (1947)) y en donde
v − v0 = 21 p(p + 1) − [p(m + 1) − m(m − 1)/2] = 12 [(p − m)2 − p − m] = d es decir: El número de parámetros
(elementos) de Σ, p(p+1)
2 , más el número de restricciones identificadas, m(m−1)
2 , menos el número de parámetros
2
en L y Ψ, pm + p = p (m + 1).
Obsérvese que hemos sustituido: “rechazar H0 para valores pequeños de W, por rechazar H0 para valores
grandes de −2 ln W ”. Por tanto el test final obtenido puede formularse en los siguientes términos:
Se rechaza H0 (existencia de un Análisis Factorial con m factores comunes), al nivel de significación α, si:
 
Ψ̂ + L̂L̂0

2p + 4m + 5
N −1− ln  A  > χ2(p−m)2 −p−m (α).
6
N 2
En este test aproximado, como los grados de libertad han de ser positivos en una χ2 , es claro que el número
de factores comunes m, ha de verificar:
1 p
m < 2p + 1 − 8p + 1
2
es decir, (p − m)2 − p − m > 0.
Nota 17. al implementar el test, estamos contrastando la adecuación de los m factores del modelo comparando
las varianzas generalizadas, |L̂L̂0 +Ψ̂| y |SN |. Si N es grande y m es pequeño en relación a p, la hipótesis H0 será
normalmente rechazada, indicándonos ello la necesidad de tomar más factores. Sin embargo, si Σ̂ = L̂L̂0 + Ψ̂
puede ser aproximarse lo suficiente a SN de tal manera que aumentar el número de factores no produce ninguna
mejora, aunque estos con los que se aumenta, fueran significativos. •
Veamos a continuación la forma que toma el test de Bartlett-Lawley, cuando los datos están “tipificados”.
Ya se vió en la sección 1.3.4 la forma que adoptan los E.M.V., L̂ y Ψ̂ cuando se efectúa un tal cambio de
tipificación. En efecto el estadı́stico del test basado en el cociente de varianzas generalizadas será:
|L̂L̂0 + Ψ̂|
.
|SN |
Sea V̂ −1/2 la matriz diagonal tal que V̂ −1/2 SN V̂ −1/2 = R. Por las propiedades de los determinantes:
−1/2
|V̂ ||L̂L̂0 + Ψ̂||V̂ −1/2 | = |V̂ −1/2 L̂L̂0 V̂ −1/2 + V̂ −1/2 Ψ̂V̂ −1/2 |
y
|V̂ −1/2 ||L̂L̂0 + Ψ̂||V̂ −1/2 | = |V̂ −1/2 SN V̂ −1/2 |
por tanto
|L̂L̂0 + Ψ̂| |V̂ −1/2 | |L̂L̂0 + Ψ̂| |V̂ −1/2 | |V̂ −1/2 L̂L̂0 V̂ −1/2 + V̂ −1/2 Ψ̂V̂ −1/2 |
= = =
|SN | |V̂ −1/2 | |SN | |V̂ −1/2 | |V̂ −1/2 SN V̂ −1/2 |
|L̂z L̂0z + Ψ̂z |
.
|R|
Para muestras grandes, las varianzas y covarianzas para los estimadores máximo verosı́miles de ˆlij , ψ̂ij
han sido obtenidos cuando estos estimadores han sido determinados por la matriz de covarianzas S. Estas
expresiones son en general bastante complicadas. Un análisis detallado de la Inferencia Estadı́stica sobre L y
Ψ en un modelo de Análisis Factorial y en otros modelos más generales puede verse en el Anexo C.

Aplicamos el test de Bartlett-Lawley deducido. Teniendo en cuenta que los datos están tipificados aplicamos
dicho test en términos de R (matriz de correlaciones muestrales). Por tanto, utilizaremos los estimadores de
L̂z , Ψ̂z obtenidos antes (véase sección 1.3.5), se tiene:

1

0,572 1

0,513 0,602 1

0,411 0,393 0,405 1

0 0,458 0,322 0,430 0,523 1
|L̂z L̂z + Ψ̂z | 0,194414
= = = 1,0065.
|R| 1
0,193163
0,577 1

0,509 0,599 1

0,387 0,389 0,436 1

0,462 0,322 0,426 0,523 1
Usando el test corregido de Bartlett-Lawley, con SN = R, se tiene:
|L̂L̂0 + Ψ̂|

10 + 8 + 5
(N − 1 − (2p + 4m + 5)/6) ln = 100 − 1 − ln 1,0065 = 0,62
|SN | 6
y como 21 [(p − m)2 − p − m] = 21 [(5 − 2)2 − 5 − 2] = 1, entonces, el valor de la χ21;(0,05) = 3,84, por lo que
aceptamos la hipótesis nula. Por lo que concluimos que el modelo con dos factores es aceptable. De hecho,
vemos que P [χ21;(0,05) > 62] = 0,43, lo que implica que no será rechazada la hipótesis para niveles razonables.
1.7.3. Criterios basados en la información estadı́stica. El criterio de Akaike (AIC)

para la elección de un modelo factorial con r-factores comunes
Recientemente, se ha investigado la utilización de criterios basados en estadı́sticos de información basados
en la Entropı́a para estimar el número de factores explicatorios que pueden extraerse de una matriz de cova-
rianzas. La razón principal que motiva la utilización de estos criterios es que la estimación clásica de factores
por máxima verosimilitud tiende frecuentemente a elegir un número mayor de factores (por ejemplo, en Análi-
sis Factorial), es decir en general, a elegir un modelo con un número excesivo de dimensiones que pueden ser
interpretadas. Es decir el criterio de Máxima Verosimilitud, tiende a no ser apropiado para obtener un modelo
(factorial) correcto (en el sentido del número de factores). El problema se presenta también en el contexto
de las series temporales. También, por otra parte, ya hemos comentado antes otros inconvenientes de los test
basados en máxima verosimilitud en el Análisis Factorial, relacionados con su carácter asintótico y el tamaño
muestral adecuado (ver sección 1.7.1 y Anexo B).
El criterio básico de esta lı́nea de test basados en la Información, es el criterio de Akaike (AIC) que fue ini-
cialmente desarrollado en Series Temporales y en Análisis Factorial máximo verosı́mil (Akaike (1974) y (1987))
y su idea clave es la de penalizar un exceso de parámetros ajustados, cosa que no hace el test de la χ2 asintótico.
Siguiendo a Basilewsky (1994) (sección 6.2.2) que a su vez sigue a Bozdogan (1987), los criterios basados en
Información para seleccionar modelos se basan en el planteamiento general siguiente:
Sea un vector aleatorio X con densidad f (X; θ), con θ un vector paramétrico. Si existe un verdadero valor
θ∗ del parámetro θ, la medida de bondad de ajuste viene dada por la Información de Kullback-Leibler, −I
dada por
E ln f (X; θ) − ln f (X; θ∗ ) = −I.

(1.2)
∗
Bajo el principio de “maximización de Entropı́a” se estima f (X; θ ) por medio de f (X; θ) tal que se
maximize la entropı́a media
h i h i
Ex [B] = Ex E[ln f (X; θ)] − E[ln f (X; θ∗ )] = Ex E[ln f (X; θ)] , entropı́a media,
puesto que grandes valores de E[B] implican que el modelo f (X/θ) es un buen ajuste de f (X/θ∗ ). Obsérvese
que en la medida que esto último es cierto, ff(X/θ
(X/θ) f (X/θ)
∗ ) tiende a 1, con lo que ln f (X/θ ∗ ) tiende a 0. Obsérvese
también que maximizar E[B] equivale a minimizar (−I).
En consecuencia, E[B] = E[−I] puede ser considerado como una función riesgo que mide el error medio
de estimación (average estimation error) del modelo ajustado. En tales circunstancias se define el criterio de
Akaike.
Criterio de Akaike
h i
El criterio de Akaike es un estimador muestral de E ln f (X/θ) , esperanza de la log-verosimilitud (o
negantropı́a) que es dada por la expresión general:
AIC(r) = −2 ln L(r) + 2m (1.3)
en donde: L(r) es la verosimilitud del modelo ajustado y m es el número de parámetros “libres” después de
que un modelo ha sido ajustado.
La ecuación 1.3 obtenida por Akaike (1974) para series temporales, puede ser adaptada al caso de la
metodologı́a máximo verosı́mil del Análisis Factorial exploratorio. Supongamos que hemos ajustado
un modelo con r factores comunes. Entonces sabemos que la verosimilitud L(r) es:
p
N X
L(r) = ln θ̂i
2 i=r+1
y el valor de m será el número de parámetros “libres” que será:
1
m = p(r + 1) − r(r − 1)
2
en consecuencia el criterio de Akaike (AIC) toma la forma:
p
N X
AIC(r) = −2 ln θ̂i + [2p(r + 1) − r(r − 1)] (1.4)
2 i=r+1
En lo anterior, como ya se vio, θ̂i ; i = r + 1, . . . , p, son las (p − r) últimas (más pequeñas) raı́ces carac-
terı́sticas. Para más detalles, puede verse el Anexo B, sección B.4.2.
En base al AIC(r), se establece la siguiente metodologı́a para la selección de un modelo factorial de un

mı́nimo de factores, r adecuado. En efecto, se utiliza la ecuación 1.4 para r = 1 y se va variando el número
de factores posibles, seleccionándose el modelo factorial con el r tal que para dicho modelo se minimice AIC(r).
Esta forma de selección de un modelo factorial adecuado no es un test realmente, aunque depende de los
valores de L(r), es decir, las (p − r) raı́ces caracterı́sticas estimadas θ̂i , como, en definitiva, le ocurre al criterio
de Lawley-Maxwell antes visto:
p
2 2p + 4r + 5 X
χ =− N −1− ln(ηi + 1).
6 i=r+1
Sin embargo, el m del criterio de Akaike no es el número de grados de libertad de una χ2 como ocurre en el
test de hipótesis del criterio de la χ2 , sino que responde al número de parámetros libres del sistema (Basilewsky
(1994), p.388).
Corrección de Schwarz al criterio de AIC

Es curioso observar que el término de penalización (2m) no depende del tamaño muestral N . Esto conduce al
hecho de que el mismo número de parámetros comunes es seleccionado por el AIC(r) para muestras pequeñas
o para muestras grandes, es decir, una misma estructura común. Por tanto, el AIC(r) no es un estimador
consistente del número adecuado (o correcto) de factores comunes. Para evitar en lo posible estos inconvenientes
del AIC(r), Schwarz (1987) introdujo un nuevo criterio que se expresa de la forma:
p
N X m
SIC(r) = − ln θ̂i + ln N (1.5)
2 i=r+1 2
El valor de r es calculado minimizando SIC(r) en r. Puede comprobarse que el criterio SIC(r) selecciona
modelos con un número de factores r más pequeño que los seleccionados por el AIC(r), cuando N > 8. Hay
otros criterios alternativos al AIC(r) y al SIC(r), como los propuestos por Sclove (1987) y Bozdogan (1987).
Ejemplos metodológicos
Un interesante ejemplo metodológico (sobre 32 modelo de automóvil), resuelto mediante los criterios de
Akaike y de Schwarz, con discusión, puede verse en Basilewsky (1994) pp. 388-392, que compara además con
los resultados obtenidos vı́a test de Lawley-Bartlett.
Tema 2
Aplicación mediante R
Para realizar un análisis factorial en R, existen varias funciones que podemos usar, las más usuales son las
que comentamos a continuación.
2.1. Paquete Factanal

Este paquete está incluido dentro de la librerı́a stats, por lo que tendremos que cargarlo. Este método
realiza un análisis factorial sobre una matriz de datos o de covarianzas por el método de máxima verosimilitud.
Su sintaxis es:
factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,subset, na.action,

start = NULL,scores = c("none", "regression", "Bartlett"),
rotation = "varimax", control = NULL, ...)
donde:
x: fórmula o matriz de datos u objeto que contenga una matriz numérica.
factors: número de factores que se extraen.
data: fichero de datos (solo si x es formula).
covmat: matriz de covarianzas (o correlaciones).

n.obs: número de observaciones.
subset: vector opcional que selecciona filas de la matriz de datos.
na.action: actitud ante los datos faltantes.

stat: valor nulo o matriz con los valores de las unicidades iniciales.
scores: criterio para el cálculo de las puntuaciones factoriales (no calcularlas, por regresión o por el
método de Bartlett).
rotation: para elegir entre no rotar o una función (por defecto se realiza la varimax).
Los objetos de esta clase son:
loadings: matriz con las cargas factoriales. Los factores están ordenados en forma decreciente de las
sumas de los cuadrados de las cargas.
uniquenesses: vector con las unicidades.
correlation: matriz de correlaciones.
42
criteria: resultados del proceso de optimización: menos el logaritmo de la verosimilitud

factors: factores introducidos.
dof : grados de libertad.
method: método utilizado (siempre mle, estimación máximo verosı́mil).
scores: matriz de puntuaciones factoriales.
n.obs: número de observaciones.
STATISTIC, PVAL: significación de la adecuación del modelo.
También son interesantes los paquetes:

varimax(x, normalize = TRUE, eps = 1e-5)
promax(x, m = 4)
donde:
varimax: realiza la rotación varimax.
x: es una matriz de factor loadings.
normalize: es el procedimiento de normalización de Kaiser.
eps: es la tolerancia de la rotación.
m: la potencia de la rotación promax.
y el paquete:
loadings(x)
## S3 method for class ’loadings’:

print(x, digits = 3, cutoff = 0.1, sort = FALSE, ...)
## S3 method for class ’factanal’:

print(x, digits = 3, ...)
con el que podemos imprimir las cargas factoriales, decidiendo el número de dı́gitos (digits = 3), el punto de
corte a partir de que valor de las cargas no se imprimen (cutoff = 0.1) y si se ordenan los factores de menor a
mayor.
2.2. Paquete prcomp

El paquete prcomp esta incluido en la librerı́a stats y lo utilizaremos para realizar análisis de componentes
principales:
## S3 method for class ’formula’:
prcomp(formula, data = NULL, subset, na.action, ...)
## Default S3 method:
prcomp(x, retx = TRUE, center = TRUE, scale. = FALSE,
tol = NULL, ...)
## S3 method for class ’prcomp’:

predict(object, newdata, ...)
donde:
formula: formula que incluye solo las variables numéricas con ninguna dependiente.
data: objeto que contiene las variables de la formula anterior.
subset: vector opcional para seleccionar filas de la matriz de datos.
na.action: indica que hacer con los datos faltantes.
x: fórmula o matriz de datos (o un objeto que contenga una matriz numérica).
retx: indica si se devuelve la rotación.
center: valor lógico que indica si las variables serán centradas por las medias.
scale: valor lógico que indica si las variables deben ser escaladas para tener varianza uno.
tol: valor a partir del cuál las componentes no se calculan. Una componente será omitida si su desviación
tı́pica es menor o igual que tol veces la correspondiente a la primera componente.
los objetos de esta clase son:
sdev: desviaciones tı́picas de cada componente
rotation: matriz de las cargas factoriales.
x: si retx es verdadero, devuelve el valor de los datos rotados.
También podemos usar las órdenes screeplot o biplot.
2.3. Ejemplo de aplicación

En primer lugar, vamos a realizar el análisis mediante la extracción de factores por componentes principales.
Para ello, abriremos el fichero “factorial.txt”. y aplicaremos el paquete prcomp:
> datos<-read.table("factorial.txt",header=TRUE,row.names=1)
> attach(datos)
Antes de empezar a trabajar debemos contrastar una serie de hipótesis previas. Estas son la normalidad,
la linealidad y la correlación.
panel.hist <- function(x, ...)

{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)
}
#linealidad
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
8
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste(prefix, txt, sep = "")
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)

text(0.5, 0.5, txt, cex = cex.cor * r)
}
pairs(datos, diag.panel = panel.hist, lower.panel = panel.smooth, upper.panel = panel.cor)
Con estas órdenes podemos analizar gráficamente las opciones de normalidad y linealidad
Figura 2.1: Gráfico multiple
Evidentemente al tener muchas variables (y este no es un ejemplo demasiado extenso) analizar estas salidas
gráficas es complicado, por ello contrastaremos la normalidad de la siguiente forma:
> library(mvnormtest)
> mshapiro.test(t(datos))
Shapiro-Wilk normality test
data: Z
W = 0.38221, p-value = 7.654e-09
El contraste de normalidad tiene como hipótesis nula que los datos sigan una distribución normal, por lo que
rechazamos esta hipótesis. El rechazar esta hipótesis no es un problema para realzar el Análisis Factorial, solo
que no podremos utilizar (o no serán fiables) la metodologı́a máximo verosı́mil.
Finalmente estudiaremos la correlación de los datos. Esta hipótesis es complicada de contrastar, ya que
bivariantemente es fácil pero multivariantemente es muy complicada. Para contrastarla se suelen utilizar tres
métodos.
- Estudio de la matriz de correlaciones: en este caso se estudia si las correlaciones son significativas y si el
determinante de la matriz es pequeño
- Medida de adecuación muestral de Kayser, Meyer y Olkin (KMO): esta medida está comprendida entre
0 y 1 y cuanto mayor sea mejor se adecuan los datos a un análisis factorial.
- ] Contraste de esfericidad de Bartlet: contrasta si la matriz de correlaciones es igual a la identidad (en
cuyo caso no existirı́a correlación) frente a que la matriz de correlaciones sea significativa.
> Redatos<-cor(datos,method = c("pearson"))
> symnum(Redatos)
mr_cp mr_cr c h mr_p mr espvdh espvdm d pr_m pr_h pb a g pb_s pb_g
mor_cpulmon 1
mor_cirro 1
c_alcohol . , 1
he_trafico . . . 1
mor_perinatal . . 1
morinf . . + 1
espvidah . . . . , 1
espvidam . . . . . + 1
diascama . 1
por_ambu 1
por_hos , 1
pobcama , . . . 1
adhos . B . 1
gast_medi . . . . . . . 1
pib_salud . . . . . * 1
pib_gsalud . . . . . . . 1
attr(,"legend")
[1] 0 ? ? 0.3 ?.? 0.6 ?,? 0.8 ?+? 0.9 ?*? 0.95 ?B? 1
> det(Redatos)
> 1.353152e-10
Vemos que pares de variables son significativos y que el determinante es pequeño, por lo que asumiremos que
la matriz va a ser significativo.
Si realizamos la prueba KMO, en este caso el valor es pequeño, como podemos observar 0,48, pero por el
contraste de esfericidad podemos asumir que la matriz de correlaciones es significativa.
> library(psych)
> KMO(datos)
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = datos)
Overall MSA = 0.48
MSA for each item =
mor_cpulmon mor_cirro c_alcohol he_trafico mor_perinatal morinf espvidah espvidam diascama
0.19 0.40 0.43 0.45 0.64 0.65 0.45 0.42 0.45
por_ambu por_hos pobcama adhos gast_medi pib_salud pib_gsalud
0.27 0.53 0.60 0.45 0.58 0.46 0.65
> cortest.bartlett(datos,n=NULL)
chisq
[1] 359.7874
p.value
[1] 8.871193e-26
df
[1] 120
Una vez analizados estos pasos previos, pasamos al análisis factorial propiamente dicho. En primer lugar,
es importante, imprimir el resumen del análisis y la gráfica de los autovalores (plot) para determinar el número
de factores
> fac<-prcomp(datos, retx=,center=TRUE,scale.=TRUE,tol=NULL)

> summary(fac)
> plot(fac)
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
Standard deviation 2.244 1.762 1.561 1.291 1.0677 0.9107 0.7678 0.6396 0.5170
Proportion of Variance 0.315 0.194 0.152 0.104 0.0712 0.0518 0.0369 0.0256 0.0167
Cumulative Proportion 0.315 0.509 0.661 0.765 0.8366 0.8885 0.9253 0.9509 0.9676
PC10 PC11 PC12 PC13 PC14 PC15 PC16
0.4320 0.36799 0.31884 0.23911 0.15520 0.11249 0.02793
0.0117 0.00846 0.00635 0.00357 0.00151 0.00079 0.00005
0.9793 0.98773 0.99408 0.99765 0.99916 0.99995 1.00000
donde el gráfico de será:
Figura 2.2: Gráfico autovalores
Al igual que en el caso anterior, vamos a seleccionar una estructura factorial con 4 factores. Y las cargas
factoriales serán:
PC1 PC2 PC3 PC4 PC5

mor_cpulmon 0.002168196 0.24391538 0.21620153 -0.15629688 0.64670436 ...
mor_cirro -0.274470311 0.15946595 0.02306329 -0.35162771 -0.44665337 ...
c_alcohol -0.243529081 0.28720356 0.05367817 -0.35495787 -0.12788598 ...
he_trafico -0.083559197 0.30921647 -0.11425616 -0.34620682 0.27314116 ...
mor_perinatal -0.406846958 -0.02365215 -0.07845725 0.13711280 -0.18437938 ...
morinf -0.396082688 0.08733273 0.04789417 0.12148711 -0.08938349 ...
espvidah 0.278959235 -0.28955421 -0.25057776 -0.17050323 -0.18482621 ...
espvidam 0.240003427 -0.36167443 -0.24289345 -0.07703057 0.06623038 ...
diascama 0.223234628 0.24830160 0.32273752 0.31526741 -0.21652480 ...
por_ambu -0.022042121 -0.29450448 0.31056835 -0.41217839 -0.12708072 ...
por_hos 0.006599818 -0.30750787 0.46182849 -0.21065155 -0.11744582 ...
pobcama -0.287841288 -0.06081815 -0.31438870 0.22459135 -0.05037179 ...
adhos 0.221617224 0.25176743 0.32435086 0.31792081 -0.21288421 ...
gast_medi 0.302546520 0.28236802 -0.25471943 -0.16802946 -0.13588538 ...
pib_salud 0.240571634 0.32789209 -0.30715603 -0.13333042 -0.23077746 ...
pib_gsalud 0.262312659 0.12984779 0.17142060 -0.16225424 -0.11989525 ...
PC12 PC13 PC14 PC15 PC16
mor_cpulmon 0.27544210 -0.0125490166 -0.03438996 0.09824789 -0.028552850
mor_cirro 0.17596029 0.0964441318 0.01118108 0.25219226 -0.002263703
c_alcohol -0.30121624 -0.0448466115 0.12059012 -0.15226902 0.024657921

he_trafico -0.01452360 -0.2227244252 -0.09969925 -0.06958286 0.005898783
mor_perinatal 0.19195731 -0.0905213011 -0.71522997 -0.17462231 -0.042364411
morinf -0.29630419 -0.0209752650 0.45019830 0.21423540 0.025748558
espvidah 0.13427616 -0.6266094839 0.02005375 0.37183765 -0.060920541
espvidam -0.27318343 0.3107593764 0.02207572 -0.26481106 0.067509566
diascama -0.06835936 -0.0004524565 -0.01290453 -0.06887355 -0.697831268
por_ambu -0.23123832 0.0303680119 -0.15125158 -0.31377594 0.004968104
por_hos 0.52608321 0.2310465485 0.20720898 0.06391198 0.006957487
pobcama 0.16564159 0.0750781697 0.19875576 -0.02145276 0.022909413
adhos 0.02009988 -0.1085776821 -0.06764019 -0.04606519 0.706562952
gast_medi -0.03317821 0.5598272655 -0.24845997 0.42639435 0.024869279
pib_salud 0.38517378 -0.0486000902 0.28331619 -0.56335858 -0.017804547
pib_gsalud -0.26965890 -0.2314723558 -0.08384447 0.06992847 0.008781721
Estas cargas factoriales corresponden a los autovectores de la matriz de correlaciones. Para obtener las
cargas factoriales debemos multiplicar cada columna por la raı́z cuadrada del autovalor correspondiente. Con
las siguientes ordenes obtenemos el procedimiento varimax con normalización de Kaiser:
> cargas<-matrix(0,16,4)
> for (i in 1:4) cargas[,i]<-fac$rotation[,i]*fac$sdev[i]
> cargas2<-varimax(cargas,normalize=T)$loadings
> print(cargas2,cutoff=0.3)
Loadings:
[,1] [,2] [,3] [,4]
[1,] 0.451 0.338
[2,] 0.731
[3,] 0.857
[4,] 0.679
[5,] -0.860
[6,] -0.822 0.406
[7,] 0.617 -0.534 -0.434
[8,] 0.466 -0.649 -0.454
[9,] 0.891
[10,] 0.849
[11,] 0.933
[12,] -0.676 -0.338 -0.426
[13,] 0.897
[14,] 0.764 -0.562
[15,] 0.637 -0.670
[16,] 0.613 0.359
[,1] [,2] [,3] [,4]

SS loadings 4.093 2.941 2.579 2.634
Proportion Var 0.256 0.184 0.161 0.165
Cumulative Var 0.256 0.440 0.601 0.765
En relación a las comunalidades, R no P las obtiene de forma directa, pero se pueden hacer de modo inmediato
m 2
sabiendo que el modelo verifica que hi = i=1 lij , donde hi es la comunalidad de la variable i y lij la carga de
la variable i en el factor j; y m el número de factores. También podemos calcular las unicidades a partir de la
relación σi2 = hi + ψi2 , donde σi2 es la varianza de la i-ésima variable y ψi2 es la unicidad.
> comunalidad<-matrix(0,16,2)
> for (i in 1:16)
+ {for (j in 1:4)
+ {comunalidad[i,1]=comunalidad[i,1]+cargas[i,j]^2
+ comunalidad[i,2]=1-comunalidad[i,1]}}
> comunalidad
[,1] [,2]
[1,] 0.3394337 0.66056632
[2,] 0.6657523 0.33424767
[3,] 0.7718379 0.22816210
[4,] 0.5636492 0.43635079
[5,] 0.8817385 0.11826148
[6,] 0.8440028 0.15599722
[7,] 0.8537956 0.14620436
[8,] 0.8499947 0.15000532
[9,] 0.8620354 0.13796462
[10,] 0.7900783 0.20992166
[11,] 0.8878025 0.11219749
[12,] 0.7538266 0.24617340
[13,] 0.8691386 0.13086140
[14,] 0.9138220 0.08617801
[15,] 0.8849610 0.11503900
[16,] 0.5144237 0.48557627
Podemos también calcular la contribución de cada factor en la explicación de cada variable, tanto para el
total de la varianza de la variable (cargas3) como para el total explicado por el modelo factorial (cargas4):
> cargas3<-matrix(0,16,4)
> cargas4<-matrix(0,16,4)
> for (i in 1:16){
+ cargas3[i,]<-cargas2[i,]^2
+ cargas4[i,]<-cargas3[i,]/comunalidad[i,1]}
> cargas3
[,1] [,2] [,3] [,4]
[1,] 0.017248489 0.202987894 5.282009e-03 0.113915290
[2,] 0.066487146 0.533836607 8.538384e-03 0.056890195
[3,] 0.031265522 0.734258618 4.933675e-05 0.006264427
[4,] 0.020143626 0.460466884 6.735249e-02 0.015686209
[5,] 0.739802051 0.061144580 1.567207e-03 0.079224681
[6,] 0.675585924 0.165080940 9.948114e-06 0.003325968
[7,] 0.380238305 0.284904671 6.916454e-04 0.187961020
[8,] 0.217212319 0.421236276 5.223742e-03 0.206322338
[9,] 0.050122100 0.010331747 6.845696e-03 0.794735837
[10,] 0.022405662 0.005826094 7.212907e-01 0.040555924
[11,] 0.002584568 0.007580848 8.695894e-01 0.008047701
[12,] 0.456647415 0.001293899 1.140132e-01 0.181872113
[13,] 0.048178017 0.009554947 7.275845e-03 0.804129793
[14,] 0.583933947 0.009478536 3.156569e-01 0.004752650
[15,] 0.405683008 0.029299635 4.487775e-01 0.001200829
[16,] 0.375328196 0.003380011 6.716384e-03 0.128999137
> cargas4
[,1] [,2] [,3] [,4]
[1,] 0.050815490 0.598019303 1.556124e-02 0.335603967
[2,] 0.099867688 0.801854656 1.282517e-02 0.085452491
[3,] 0.040507886 0.951311945 6.392113e-05 0.008116248
[4,] 0.035737877 0.816938758 1.194936e-01 0.027829736
[5,] 0.839026577 0.069345479 1.777406e-03 0.089850539
[6,] 0.800454619 0.195592886 1.178683e-05 0.003940708

[7,] 0.445350487 0.333691878 8.100831e-04 0.220147551
[8,] 0.255545506 0.495575194 6.145618e-03 0.242733683
[9,] 0.058143901 0.011985293 7.941317e-03 0.921929489
[10,] 0.028358785 0.007374071 9.129356e-01 0.051331522
[11,] 0.002911197 0.008538890 9.794852e-01 0.009064742
[12,] 0.605772491 0.001716442 1.512459e-01 0.241265184
[13,] 0.055431915 0.010993582 8.371329e-03 0.925203173
[14,] 0.639001855 0.010372410 3.454249e-01 0.005200849
[15,] 0.458419079 0.033108392 5.071156e-01 0.001356928
[16,] 0.729609029 0.006570479 1.305613e-02 0.250764360
También podemos calcular la matriz de covarianzas reproducida por el modelo teniendo en cuenta que en
el modelo ortogonal Σ = LL0 + Ψ, donde L es la matriz de cargas factoriales y Ψ la matriz de unicidades. Por
ello:
> ajuste<-cor(datos)-cargas2%*%t(cargas2)
> ajuste
V2 V3 V4 V5 V6
V2 0.66056632 -0.285385639 -0.016327730 0.047268598 -0.081954235 ...
V3 -0.28538564 0.334247668 0.048306656 -0.150075943 0.072282084 ...
V4 -0.01632773 0.048306656 0.228162096 -0.221238893 0.033533607 ...
V5 0.04726860 -0.150075943 -0.221238893 0.436350793 -0.113454819 ...
V6 -0.08195424 0.072282084 0.033533607 -0.113454819 0.118261481 ...
V7 -0.04625032 0.012905722 -0.058198119 0.023197570 0.064506999 ...
V8 -0.05283505 0.105591041 0.076716127 -0.063147397 0.046755301 ...
V9 0.13361131 0.025594037 0.018457621 0.005961687 0.019409038 ...
V10 -0.12680774 0.139537512 0.030093670 0.013078282 0.022614985 ...
V11 -0.06689097 0.052610669 -0.028764848 0.058475065 -0.013040248 ...
V12 -0.12056362 0.017934096 -0.019142356 0.005192506 0.059410845 ...
V13 0.03127195 0.006872933 0.006157417 0.025922133 -0.001540014 ...
V14 -0.11834557 0.138397868 0.032367012 0.002992101 0.024934739 ...
V15 -0.09241361 0.028060648 0.008076320 -0.015152724 0.035269224 ...
V16 -0.13992665 0.104285225 0.009624363 -0.117849889 0.087309408 ...
V17 -0.09263401 -0.007144761 -0.008586208 -0.157931781 0.119302616 ...
V13 V14 V15 V16 V17
V2 0.031271952 -0.118345565 -0.09241361 -0.139926650 -0.092634008
V3 0.006872933 0.138397868 0.02806065 0.104285225 -0.007144761
V4 0.006157417 0.032367012 0.00807632 0.009624363 -0.008586208
V5 0.025922133 0.002992101 -0.01515272 -0.117849889 -0.157931781
V6 -0.001540014 0.024934739 0.03526922 0.087309408 0.119302616
V7 -0.007474052 0.030877174 0.04988578 0.057599096 0.054552140
V8 0.052087254 0.114553326 0.03771915 0.043161098 -0.094566345
V9 0.004467101 0.029216712 -0.01694584 -0.028217303 -0.023747956
V10 0.074127171 0.132322482 0.05479351 0.025195736 -0.106219379
V11 0.122423448 0.114705826 0.08548316 0.011596760 -0.124323854
V12 0.018796432 -0.002470833 0.03232525 0.060653822 0.095368898
V13 0.246173403 0.066526000 0.05786995 -0.006192487 0.047342500
V14 0.066526000 0.130861397 0.05069499 0.029906942 -0.112831427
V15 0.057869950 0.050694988 0.08617801 0.034184690 -0.012120209
V16 -0.006192487 0.029906942 0.03418469 0.115038998 0.084987961
V17 0.047342500 -0.112831427 -0.01212021 0.084987961 0.485576272
A continuación realizaremos las opciones gráficas. La primer de ellas, será representar el gráfico biplot
> biplot(fac)
Figura 2.3: Gráfico bidimensional
y las gráficas bidimensionales de las cargas factoriales con la orden

> par(mfrow=c(3,1))
> for (i in 1:3){
+ plot(cargas2[,i],cargas2[,i+1])
+ text(cargas2[,i],cargas2[,i+1],labels=row.names(datos))}
Figura 2.4: Gráficos de las cargas factoriales
Por último representamos las puntuaciones factoriales de los individuos:

> par(mfrow=c(3,2))
> for (i in 1:3){
+ for(j in 1:4){
+ {plot(fac$x[,i],fac$x[,j])}
+ text(fac$x[,i],fac$x[,j],labels=row.names(fac$x))}}
Figura 2.5: Puntuaciones factoriales
Finalmente vamos a comprobar si la hipótesis del número de factores considerado es correcta. Para ello
recurriremos al paquete factanal:
> facmle<-vector("list",4)
> for (i in 1:4) {facmle<-factanal(datos,i)}
> facmle
Call:
factanal(x = datos, factors = i)
Uniquenesses:
V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.665 0.599 0.527 0.545 0.005 0.129 0.113 0.149 0.005 0.684 0.572
V13 V14 V15 V16 V17
0.444 0.005 0.075 0.033 0.670
Loadings:
Factor1 Factor2 Factor3 Factor4
V2 -0.228 0.523
V3 0.516 0.184 0.295 -0.117
V4 0.373 0.224 0.519 -0.121
V5 0.324 0.547 -0.209
V6 0.970 -0.194
V7 0.868 -0.107 0.327
V8 -0.455 0.152 -0.789 -0.184
V9 -0.414 -0.773 -0.282

V10 -0.262 0.958
V11 -0.155 -0.517 -0.119 -0.101
V12 -0.110 -0.639
V13 0.689 -0.123 -0.257
V14 -0.256 0.959
V15 -0.509 0.801 0.127
V16 -0.313 0.927
V17 -0.461 0.271 0.195
Factor1 Factor2 Factor3 Factor4

SS loadings 3.752 2.505 2.323 2.206
Proportion Var 0.234 0.157 0.145 0.138
Cumulative Var 0.234 0.391 0.536 0.674
Test of the hypothesis that 4 factors are sufficient.

The chi square statistic is 89.7 on 62 degrees of freedom.
The p-value is 0.0123
Por lo que concluirı́amos que 4 factores son suficientes, aunque como hemos recordado la hipótesis de
normalidad no se cumple en este caso.
Apéndice A
Rotaciones Oblicuas en el Análisis

Factorial. Estructuras factorial y de
referencia. Criterios analı́ticos
Todo lo dicho anteriormente en las secciones 1.4 y 1.5 sobre la “rotación de factores” supone que las rota-
ciones son ortogonales, de modo que los nuevos factores F ∗ son ortogonales, como los primitivos F .
En la historia del Análisis Factorial, no obstante, se ha justificado por muchos autores, teóricos y prácticos,
que las rotaciones no tiene que ser obligatoriamente de tipo ortogonal y que en muchas situaciones prácticas
una rotación no ortogonal contribuye a obtener una interpretación más adecuada de la estructura factorial del
fenómeno.
Analizamos a continuación la posibilidad de efectuar rotaciones oblicuas y las repercusiones que ello tiene
en el Modelo de Análisis Factorial y en su interpretación.
Por tanto, renunciamos a obtener unos factores, F ∗ , rotados que sean incorrelados (ortogonales) y en su
lugar, relajando las condiciones de obtención de los factores rotados, planteamos la obtención de unos factores
(R) (R)
rotados correlados (es decir oblicuos), F1 , . . . , Fm , que siguen siendo combinaciones lineales de los primitivos
factores F1 , . . . , Fm , con varianzas la unidad. Los nuevos factores ası́ obtenidos, ya no verifican la ecuación del
modelo de Análisis Factorial ortogonal que venimos considerando, es decir, la ecuación:
m

 X
 X =µ + + l F , i = 1, . . . , p.
i i i ij ij
 j=1
Cov(F ) = I; Σ = LL0 + Ψ

El proceso de obtención de un tal conjunto de nuevos factores correlados se llama Rotación Oblicua.
El modelo ası́ rotado (oblicuamente) puede ser representado aún por la relación:
m
(R)
X
Xi = µi + cij Fj + i , i = 1, . . . , p
j=1
con
m
X
cij = lik qkj , i = 1, . . . , p; j = 1, . . . , m.
k=1
Lo que ocurre ahora, es que pudiendo ser los nuevos factores no ortogonales (correlados) el rango en el que
tomen valores los qij es más amplio, más general, que en el caso ortogonal.
54
A.1. Métodos oblimin directos

Reciben este nombre los métodos analı́ticos que minimizan en las condiciones planteadas en una rotación
oblicua, la función objetivo:
m X m
" p p
! p !#
X X
2 2 γ X 2 X
2
G= cij cik − c cik
j=1 i=1
p i=1 ij i=1
k−1
j6=K
en donde γ tiene un rango, en este caso, de (−∞, 0], según sugiere Harman (1967) (página 336). Puede obser-
varse que esta función G, es la misma de la que se parte en las rotaciones ortogonales (véase sección 1.5.1). Lo
que ocurre es que en éste último caso, el rango de γ es de cero a uno, en lugar de (−∞, 0].
Cuanto más negativo sea γ, mayor correlación existirá entre los nuevos factores oblicuamente rotados.
Cuando γ = 0, el método que minimiza G se llama Cuartimin Directo, que es la versión oblicua equiva-
lente al método cuartimax en el caso ortogonal.
Como aquı́ los factores no son ortogonales, este criterio no es equivalente (como en el caso cuartimax) a
maximizar la varianza de los cuadrados de los factor loadings (ver sección 1.5.1).
A.2. Estructura factorial y estructura de referencia

Los métodos tipo Oblimin-directo para rotaciones oblicuas, no fueron históricamente hablando los primeros
que se desarrollaron en el Análisis Factorial. Es ası́ de interés revisar brevemente las ideas que guiaron en el
desarrollo histórico de esta cuestión de las rotaciones oblicuas. A este respecto conviene revisar los conceptos
de “Estructura Factorial” y “Estructura de Referencia” (introducida por Thurstone (1945)).
1. Se llama estructura factorial a la matriz p × m de las correlaciones entre las variables respuesta Xi y
(R)
los factores rotados Fj , j = 1, . . . , m. Obviamente si la rotación es ortogonal esta matriz coincide con
la de “factor loadings” (ver sección 1.5.1).
(R)
2. Asociado a cada factor rotado Fi , i = 1, . . . , m, se puede encontrar un factor Gi que sea incorrelado con
(R)
los restantes factores rotados Fj j = 1, . . . , m; j 6= i. Los factores G1 , . . . , Gm se dice que constituyen
(R) (R)
factores de referencia y se dice que son bi-ortogonales a F1 , . . . , Fm . Este concepto es debido a
(R)
Thurstone (1945). Obviamente si los factores rotados son ortogonales, entonces Gi = Fi , i = 1, . . . , m.
3. Se llama estructura factorial de referencia, a la matriz de coeficientes de correlación entre las variable
respuesta Xi , i = 1, . . . , p y los factores de referencia Gj ; j = 1, . . . , m. (o simplemente a dicha matriz
p × m se llama “estructura de referencia”). Obviamente, si la rotación es ortogonal y por tanto los
factores rotados son incorrelados, entonces ocurre que la estructura factorial de referencia coincide con
la estructura factorial (y esta con la matriz de los factor loading).
Dado este planteamiento general, las rotaciones ortogonales pretenden encontrar la “estructura factorial mas
simple”. En cambio, las rotaciones oblicuas buscan la “estructura de referencia más simple”. En consecuencia,
una rotación oblicua busca minimizar la siguiente función objeto:
m X m
" p p
! p !#
X X
2 2 γ X 2 X
2
G= vij vik − v vik
j=1 i=1
p i=1 ij i=1
k=1
j6=K
siendo vij la correlación entre [Xi ; Gj ]; con γ = [0, 1].
Los métodos analı́ticos que buscan la minimización indicada se llaman en general Métodos Oblimin In-
directos u Oblimin métodos, simplemente.
Es claro que los métodos que antes hemos llamado Oblimin directos, están relacionados con estos a través
de
vij = dj cij , dj = cte, i = 1, . . . , p; j = 1, . . . , m.
Cuando en la función G anterior, γ = 0, se obtiene el Método Indirecto Cuartimin; cuando γ = 1
estamos ante el Método Covarimin Indirecto;, y si γ = 12 se habla del Método Bi-cuartimin Indirecto.
Puede verse en Harman (1967) (pp 326) , que si γ = 0 los ejes rotados, son más oblicuos y si γ = 1 son
menos oblicuos.
A.3. Aplicaciones
Las rotaciones oblicuas son ampliamente utilizadas en las aplicaciones del Análisis Factorial en muchos
campos cientı́ficos. Los ejercicios de aplicación requieren una detallada discusión “ad hoc” a cada ejemplo.
En realidad las rotaciones oblicuas, empleadas cuando los giros ortogonales no producen resultados claros y
definitivos, conducen en muchos casos a “factores de referencia” (antes definidos) que una vez obtenidos, son de
difı́cil interpretación real pero que constituyen la base de análisis posteriores de muchas situaciones prácticas.
Por tanto, conviene en una fase formativa en Análisis Factorial, conocer ejemplos paradigmáticos que ayuden
al futuro estadı́stico profesional a adquirir habilidades en el manejo de los citados factores de referencia y de
su utilidad posterior.
Entre los muchos ejemplos reales bien conocidos en los que es de interés un Análisis Factorial oblicuo,
citamos los siguientes incluidos en importantes textos de Técnicas Multivariantes.
Afifi and Azen (1979) (pp. 330-339) estudian un caso de 13 variables medidas en una UVI a 113 pacientes
en estado crı́tico. Utiliza, en particular, el criterio quartimin directo para los giros oblicuos.
Basilewsky (1994) (ejemplo 6.5) también utiliza un ejemplo paradigmático (datos de Still, 1977) estudiado
por varios autores, sobre 181 pacientes con artritis reumatoide, mediante giros oblicuos, discutiendo los factores
de referencia obtenidos.
También Basilewsky (1994) (pp. 411-414), considera un buen ejemplo, en el que se clasifican respecto a
dos factores oblicuos 52 paı́ses en función de 20 variables socioeconómicas. Es un interesante ejemplo porque
establece una metodologı́a basada en Análisis Factorial oblicuo para construir un “ranking” de paı́ses respecto,
por ejemplo, su estado de desarrollo.
Casos “históricos” en el campo de la Geologı́a y Biologı́a (Sedimentologı́a, Estratigrafı́a, Paleontologı́a,

Ecologı́a, etc.) de giros ortogonales y oblicuos, pueden consultarse en Reyment and Jöreskog (1993) (cap. 8).
Apéndice B
El Modelo de Análisis Factorial

ortogonal de Lawley-Maxwell:
Estimación máximo-verosı́mil y
contrastes de hipótesis
A continuación consideramos algunas cuestiones básicas del Modelo de Análisis Factorial de Lawley-Maxwell
basado en la hipótesis de normalidad multivariante de X, F y . Concretamente se consideran: La estimación
de Modelo de Análisis Factorial Ortogonal, por Máxima Verosimilitud, obteniéndose las ecuaciones satisfechas
por Λ̂ y Ψ̂. Después se consideran una serie de cálculos que conduce a un conjunto de resultados que permiten
obtener una adecuada expresión de la verosimilitud que, junto con otros resultados, permiten la obtención
de los contrastes de hipótesis de existencia de factores comunes y del número adecuado de ellos. Esta última
cuestión, crucial en el Análisis Factorial de Lawley-Maxwell es tratada también con detalle a partir del cociente
de verosimilitudes.
B.1. Estimadores de Máxima Verosimilitud

En el método de máxima verosimilitud de extracción de factores desarrollado en la sección 1.3.4, se supone
que el vector p-dimensional de respuestas observadas, X, tiene una distribución Np (µ; Σ) no singular con media
µp , y covarianza Σ = Λ Φ Λ0 + Ψ. La matriz Λp×m tiene m factores comunes, donde m ha sido especificado
antes de la extracción de los factores estimados. Veamos a continuación el proceso de estimación de Máxima
Verosimilitud de µ, Λ y Ψ.
B.1.1. Estimador de µ y de Σ de una Np (µ; Σ)

Vamos a imponer en Φ y en Λ unas condiciones para hacerlas perfectamente identificadas (lo cual no es
ninguna restricción para Λp×m Φm×m Λ0m×p que es una matriz definida positiva de rango m). Por convenien-
cia supondremos que Φ = Im×m , por ejemplo, los factores son ortogonales o incorrelados, y que Γm×m =
Λ0m×p Ψ−1
p×p Λp×m es una matriz diagonal. Entonces la verosimilitud va a depender de la media µ y de la matriz
de varianzas-covarianzas Σp×p = Λ Λ0 + Ψ . Los estimadores de máxima verosimilitud (en adelante E.M.V.)
de Λ y Φ bajo cualesquiera otras condiciones que permitan una perfecta identificación, como por ejemplo
Λ = (Im , Λ02 )0 , son transformaciones de los E.M.V. de Λ bajo las condiciones precedentes.
Si X1 , . . . , XN son un conjunto de N observaciones en X, la función de verosimilitud de la muestra es:

N
!
− 21 pN − 21 N 1X 0 −1
L(Xα /µ; Σ) = (2π) |Σ| exp − (Xα − µ)1×p Σp×p (Xα − µ)p×1 . (B.1)
2 α=1
57
El E.M.V. de µ será el E.M.V. de una población Np (µ; Σ).
Vamos a operar en esa expresión.
La traza de un escalar es el propio escalar, y tr(CD) = tr(DC) y tr(C + D) = tr(C) + tr(D) para C y D
matrices.
N
X
Vamos a razonar en (Xα − µ)01×p Σ−1
p×p (Xα − µ)p×1 .
α=1
N X
X
0 −1
0
(Xα − µ) Σ (Xα − µ) = tr Xα − µ 1×p Σ−1 Xα − µ =
p×1
α=1
al ser escalar
N N
X X
tr (Xα − µ)0 Σ−1 (Xα − µ) = tr Σ−1 (Xα − µ)(Xα − µ)0 =
α=1 α=1
N
! N
!
X X
−1 0 −1 0

tr Σ (Xα − µ)(Xα − µ) = tr Σ (Xα − µ)(Xα − µ) · [R]
α=1 α=1
Para continuar, necesitamos el siguiente Lema:

Lema 1. Supongamos una muestra aleatoria independiente X1 , . . . , XN con cada Xi vector de columnas p-
dimensional. Sea el vector de medias muestrales X̄ = (X̄1 , . . . , X̄p )0 de dimensión p × 1. Entonces ∀ bp×1 vector
columna, es cierto que:
N
X N
X
(Xα − b)(Xα − b)0p×p = (Xα − X̄)(Xα − X̄)0p×p + N (X̄ − b)p×1 (X̄ − b)0 .
α=1 α=1
Demostración. Sumamos y restamos X̄ a Xα − b;

N
X 0
(Xα − X̄) + (X̄ − b) (Xα − X̄) + (X̄ − b) =
p×1 1×p
α=1
N
X
(Xα − X̄)(Xα − X̄)0 + (Xα − X̄)(X̄ − b)0 + (X̄ − b)(Xα − X̄)0 + (X̄ − b)(X̄ − b)0 =
α=1
N
X
(Xα − X̄)(Xα − X̄)0 + N (X̄ − b)(X̄ − b)0
α=1
(ya que los dos términos intermedios son cero al quedar en ambos casos un factor (X̄ − X̄)).
Si aplicamos a la expresión anterior [R] el Lema 1 con b = µ, nos queda (desarrollando dentro de exp):
N
!!!
1 −1
X
0 0
L(Xα /µ; Σ) = K exp − tr Σ (Xα − X̄)(Xα − X̄) + N (X̄ − µ)(X̄ − µ)
2 α=1
N
X
y si denotamos A = (Xα − X̄)(Xα − X̄)0 queda (con L(Xα ) = K exp(− 21 T )).
α=1
T = tr Σ−1 A + tr Σ−1 N (X̄ − µ)(X̄ − µ)0 .

Si sacamos N en el último término, queda:
tr Σ−1 (X̄ − µ)(X̄ − µ)0 = tr (X̄ − µ)01×p (Σ−1 (X̄ − µ))p×1

que es la traza de un escalar, con lo que es el propio escalar. Por tanto:

0
T = tr Σ−1 A) + N (X̄ − µ Σ−1 (X̄ − µ)
y por consiguiente

− 1 N 1 N
L(X1 , . . . , XN /µ; Σ) = (2π)p |Σ| 2 exp − tr(Σ−1 A) − (X̄ − µ)0 Σ−1 (X̄ − µ)
2 2

y si calculamos ln L(xα /µ; Σ) nos queda
N N 1 N
ln L(xα /µ; Σ) = −p ln(2π) − ln |Σ| − tr(Σ−1 A) − (X̄ − µ)0 Σ−1 (X̄ − µ).
2 2 2 2
Los E.M.V. son las soluciones µ, Σ que maximizan la expresión anterior en virtud del hecho de pertenecer la
Np (µ; Σ) a la familia exponencial. Por tanto, hay que obtener M ax ln L. Una forma de obtenerlos, es resolver
µ;Σ
el sistema de ecuaciones

∂ ln L ∂ ln L
= 0; =0 .
∂µ ∂Σ
Vamos a maximizar en µ sin derivar. Para ello, veamos el valor de µ que maximiza la expresión obtenida
anteriormente (para lo cual es necesario que Σ sea definida positiva, lo cual se verifica por hipótesis).
Σ definida positiva ⇒ Σ−1 es definida positiva ⇒ (X̄ − µ)0 Σ−1 (X̄ − µ) ≥ 0 ∀ (X̄ − µ)
y tan sólo se anulará si (X̄ − µ) = 0 ⇒ X̄ = µ.
Fijado N , 21 pN ln(2π) es fijo. Y si queremos actuar tan sólo en µ; N

2 ln |Σ| y tr(Σ−1 A) no influyen en la
expresión. Ası́ pues el
M axp L(µ; Σ)
µ∈R
se alcanza donde se anule

N
(X̄ − µ)0 Σ−1 (X̄ − µ)
2
dado que es una cantidad mayor o igual que cero, como ha quedado visto, y en la expresión que queremos ma-
ximizar aparece con un signo menos delante. Toda la dependencia de µ está aquı́. Luego L(µ; Σ) será máximo
si eso es mı́nimo, y al ser Σ (y por tanto Σ−1 ) definida positiva su valor mı́nimo es cero; el cual se alcanza tan
sólo si X̄ = µ.
El máximo alcanzado es
N 1
−2−1 pN ln(2π) − ln |Σ| − tr(Σ−1 A).
2 2
Por tanto, el estimador máximo verosı́mil de µ, que denotaremos µ̂, es X̄.
En cuanto al E.M.V. de Σ, sin restricciones sobre Σ (véase Gutiérrez and Gónzalez (1991)) resulta ser
A A
Σ̂ = N , con A la matriz de dispersión de la muestra. Por tanto, el máximo de ln L en (X̄; N ) tiene la expresión:
−1 !
A pN N A 1 A
M ax ln L = ln L X̄; =− ln(2π) − ln − tr A (B.2)
µ;Σ N 2 2 N 2 N
−1
siendo 12 tr A
N A = − N2p y por tanto:
− N
A pN N p A 2
M axL = L X̄; = exp − ln(2π) exp − .
µ;Σ N 2 2 N
B.1.2. Estimadores de Máxima Verosimilitud de Σ, según el Análisis Factorial

Vamos a maximizar el ln de la ecuación B.1 según la fórmula hallada explı́citamente con anterioridad:
1 N 1 N
ln L(x/µ; Σ) = − pN ln(2π) − ln |Σ| − tr(Σ−1 A) + (X̄ − µ)0 Σ−1 (X̄ − µ). (B.3)
2 2 2 2
En nuestro caso
1 N 1 N
ln L = − pN ln(2π) − ln |ΛΛ0 + Ψ| − tr (ΛΛ0 + Ψ)−1 A + (X̄ − µ)0 Σ−1 (X̄ − µ).
2 2 2 2
Para simplificar maximizaremos con µ sustituida por su E.M.V. µ̂ = X̄ es decir, maximizaremos ln L(Σ; X̄),
que tiene la forma:
1 N 1
ln |ΛΛ0 + Ψ| − tr (ΛΛ0 + Ψ)−1 A .

ln L = − pN ln(2π) −
2 2 2
∂ ln L
Por tanto hay que obtener la ecuación: = 0 con Σ = ΛΛ0 + Ψ.
∂Σ
Derivada parcial con respecto Ψ

∂ ln L
Vamos a calcular , con ψii perteneciente a la diagonal de Ψ, (i = 1, . . . , p). Recordemos que en Análisis
∂ψii
Factorial ortogonal, Σ = ΛΛ0 + Ψ. Es decir:
 
σ11 · · · σ1p
Σ =  ... .. ..  =

. . 
σp1 ··· σpp
 
   ψ11
λ11 ··· λ1m λ11 ··· λp1
.. ..   ..

..  +  ψ22 
 .. .. =

 . . .  . . .   ..
 . 
λp1 ··· λpm λ1m ··· λpm
ψpp
m m m
 
X X X
2
λ λ1k λ2k ··· λ1k λpk  
ψ11

 k=1 1k

k=1 k=1


.. .. ..
  ψ22 
=
 .. 
+
 
⇒
 m . . . .  .. 
 X m m


 . 
X X
 λpk λ1k λpk λ2k ··· 2
λpk  ψpp p×p
k=1 k=1 k=1 p×p
 m
X
λ2ik + ψii




 σii =

 k=1

 m
X

 σij = λik λjk



k=1
Ası́ pues:
∂ − 21 pN ln(2π) 1
∂ 2−1 tr(Σ−1 A)

∂ ln L ∂ 2N ln |Σ|
= − −
∂ψii ∂ψii ∂ψii ∂ψii
Veamos cuanto vale cada uno de sus tres términos.
En primer lugar, la primera derivada parcial del segundo miembro es cero, ya que no aparece en ella ningún
ψii . Por otra parte
∂ 2−1 N ln |Σ|

N ∂ ln |Σ| N
= = σ ii ; con σ ii ∈ Σ−1 .
∂ψii 2∂ψii 2
Según el resultado CDM.2 con X = Σ; xij = ψii (∈ Σ). También se puede ver aplicando el mismo resultado
a Σ descompuesta en suma de dos matrices; ya que por la forma que adopta σii se puede descomponer en Puna
matriz igual a Σ salvo que en el lugar σii aparezca ψii , y otra de ceros salvo en el lugar ii donde estará λ2ik
(con lo que la derivada de esta segunda matriz será cero).
N
1 1 X 0
Si C = N −1 A; (C = (cij )) =

A= Xα − X̄ Xα − X̄ :
N N α=1

∂ 1 ∂ 1 ∂ N ∂
trAΣ ) = 2−1
−1
tr(AΣ−1 ) = tr N CΣ−1 = tr CΣ−1 =

∂ψii 2 ∂ψii 2 ∂ψii 2 ∂ψii
N −1
Σ CΣ−1 por CDM.3

=−
2
Y si Σ−1 = (σ ij )
p
N −1 −1 N X
− (Σ CΣ )ii = − ckj σ ji σ ik
2 2
k,j=1
Por tanto:  
p
∂ ln L N  ii X
=− σ − ckj σ ji σ ik 
∂ψii 2
k,j=1
Para hallar el máximo, y en notación matricial, tenemos que igualar toda esa expresión a cero

∂ ln L N
=− diag(Σ−1 ) − diag(Σ−1 CΣ−1 ) = 0 ⇒
∂ψii i=1,...,p 2
⇒ diag(Σ−1 ) = diag Σ−1 CΣ−1 )

(donde diag(H) indica los términos de la diagonal de la matriz H).
Equivalentemente:
diag Σ−1 (Σ − C)Σ−1 = diag(0p×p ).

(B.4)
Derivadas parciales respecto de Λ.

La derivada parcial de B.3 respecto de λkt es

∂ ∂ 1 1 ∂ 1 ∂
tr AΣ−1

ln L = − pN ln(2π) − N ln |Σ| −
∂λkt ∂λkt 2 2 ∂λkt 2 ∂λkt
Vamos a calcularlo

∂ 1
a) − pN ln(2π) = 0.
∂λkt 2
1 ∂ ∂ ∂ ln |Σ| ∂|Σ|
b) N ln |Σ| = por regla de la cadena ln |Σ| =
2 ∂λkt ∂λkt ∂λkt ∂λkt
Y por uno de los corolarios de la proposición CDM.4, al ser λkt escalar, y Σ no singular:

∂|Σ| −1 ∂Σ
= |Σ|tr Σ .
∂λkt ∂λkt
Y por ser |Σ| un escalar:

∂ ln |Σ| 1
= .
∂λkt |Σ|
Por tanto p
∂ ln |Σ| −1 ∂Σ 1 X
= tr Σ |Σ| =2 σ kj λjt
∂λkt ∂λkt |Σ| j=1
∂Σ
al ser Σ simétrica. (Nota: posteriormente calcularemos de un modo explı́cito).
∂λkt
Es decir:
p p
1 ∂ 1 X X
− ln |Σ| = − N 2 σ kj λjt = −N σ kj λjt .
2 ∂λkt 2 j=1 j=1
c)
1 ∂ ∂
tr AΣ−1 = ( por resultado CDM.3) = tr AΣ−1 =

−
2 ∂λkt ∂λkt
−1

∂Σ −1 ∂Σ −1 −1 −1 ∂Σ
tr A = (por resultado CDM.1) = tr −AΣ Σ = tr −Σ AΣ
∂λkt ∂λkt ∂λkt
∂Σ
Vamos a utilizar ahora el cálculo de partiendo del resultado de CDM.4
∂λkt
 
0 ··· ··· λ1t ··· 0
 .. .. 
 . λ2t . 
∂Σ  
∂λkt  λ1t λ2t · · ·
= λkt ··· λpt .
 . .. .. 
 .. . . 
0 ··· ··· λpt ··· 0
Por tanto
p
−1 ∂Σ −1 ∂Σ
X
−1 −1
tr −Σ N CΣ = −N tr Σ CΣ = −N σ kh chg σ gj λjt
∂λkt ∂λkt
h,g,j=1
(con k = 1, . . . , p; t = 1, . . . , m ).
Por tanto, la expresión conjunta queda:

 
p p
∂ X
kj
X
kh gj k = 1, . . . , p
ln L = −N  σ λjt − σ chg σ λjt  con .
∂λkt t =, 1, . . . , m
j=1 h,g,j=1
Y en notación matricial, derivando respecto de Λ queda

1 ∂
− N ln |Σ|
2 ∂Λ
(por el resultado CDM.5 y al ser Σp×p = Λp×m Im×m Λ0m×p con B = I; X 0 = Λ; X = Λ0 ) se obtiene:
∂ −1 0
ln |Σ| = Im×m Λ0m×p Σ−1 0

p×p + Im×m Λm×p Σ p×p
=
∂Λ
0
Λ0 Σ−1 + Λ0 Σ−1 = 2Λ0 Σ−1 = 2 Σ−1 Λ = 2Σ−1 Λ
al ser Σ−1 simétrica.
Luego:
1 ∂ 1
− N ln |Σ| = − N 2Σ−1 Λ = N Σ−1 Λ
2 ∂Λ 2

∂ −1 −1 ∂Σ −1
tr(N CΣ ) = −N tr CΣ Σ
∂Λ ∂Λ
y al ser
∂Σ
Σ = ΛΛ0 + Ψ , = 2Λ
∂Λ
con lo que
∂ 1 ∂
tr(N CΣ−1 ) = −2N Σ−1 CΣ−1 Λ ⇒ − tr(AΣ−1 ) = N Σ−1 CΣ−1 Λ
∂Λ 2 ∂Λ
e igualando a cero esa expresión matricial tenemos:
∂ ln L
= 0 ⇒ −N Σ−1 Λ + N Σ−1 CΣ−1 Λ = 0 ⇒
∂Λ
⇒ N Σ−1 Λ = N Σ−1 CΣ−1 Λ ⇒ Σ−1 Λ = Σ−1 CΣ−1 Λ. (B.5)
Por tanto B.4 y B.5 constituyen las ecuaciones que han de verificar los estimadores de máxima verosimilitud
buscados, en Λ y Ψ a través de Σ = ΛΛ0 + Ψ.
Nota 18 (Algunas reglas de cálculo diferencial matrical (CDM) utilizadas en la sección B.1.2).
∂X −1 ∂X −1
CDM.1: = −X −1 X suponiendo que existe X −1 y que X depende de una función escalar de
∂θ ∂θ
elementos de X.
∂ ln |X|
CDM.2: = (X −1 )0 , supuesto que existe X −1 .
∂X
∂tr(AX −1 )
CDM.3: = −(X −1 AX −1 )0 ; A simétrica.
∂X
Si A y X son simétricas,
∂
tr(AX −1 ) = −2(X −1 AX −1 )ij ; i 6= j
xij
∂
tr(AX −1 ) = −(X −1 AX −1 )ii .
xii

∂|A| ∂A
CDM.4: = |A|tr B ; α escalar, B = A−1 .
∂α ∂α
∂ ln |A|
CDM.5: Si A es no singular = BXA−1 + B 0 XA0−1 ; con B tal que A = X 0 BX.
∂X
B.1.3. Obtención de las ecuaciones cuya solución son los E.M.V.

A continuación se efectúan una serie de cálculos que permiten expresar las ecuaciones B.4 y B.5 de manera
más adecuada para su resolución.
Por tanto, además de lo anterior, tenemos:
Σp×p Ψ−1 0
p×p Λp×m = (ΛΛ + Ψ)Ψ
−1
Λ = ΛΛ0 Ψ−1 Λ + ΨΨ−1 Λ =
Λp×m Γm×m + Λp×m = Λp×m (Γm×m + Im×m ). (B.6)

Es decir ΣΨ−1 Λ = Λ(Γ + I), con Γ = Λ0 Ψ−1 Λ.
Multiplicando a la izquierda en la expresión de arriba, queda:
Ψ−1
p×p Λp×m = Σp×p Λp×m (Γ + I)m×m .
Y multiplicando a la derecha por (Γ + I)−1 nos queda:
Ψ−1
p×p Λp×m (Γ + I)m×m = (Σ
−1
Λ)p×m . (B.7)
Multiplicando B.5 por Σ queda:
Σp×p Σ−1
p×p Λp×m = (ΣΣ
−1
C)p×p Σ−1
p×p Λp×m ⇒ Λ = CΣ
−1
Λ
pero por la expresión de Σ−1 Λ obtenida en B.7 nos queda:
Λ = CΨ−1 Λ(Γ + I)
Y multiplicando por la derecha por (Γ + I) nos queda:
Λ(Γ + I) = CΨ−1 Λ (B.8)
O bien, desarrollando esa expresión:
ΛΓ + Λ = CΨ−1 Λ ⇒ ΛΓ = CΨ−1 Λ − Λ =
(CΨ−1
p×p − Ip×p )Λp×m = (CΨ
−1
− ΨΨ−1 )Λ = (C − Ψ)Ψ−1 Λ.
Luego:
ΛΓ = (C − Ψ)Ψ−1 Λ ⇒ Λ(Γ + I) = CΨ−1 Λ. (B.9)
Vamos a seguir haciendo operaciones con las matrices. Ahora queremos demostrar que
Σ−1 − Σ−1 CΣ−1 = Σ−1 ΣΣ−1 − Σ−1 CΣ−1 = Σ−1 (Σ − C)Σ−1
es igual a:
Ψ−1 (Σ − C)Ψ−1
cuando B.5 es cierto. Vamos a empezar para ello multiplicando Ψ−1 (Σ − C)Ψ−1 por Σ a derecha e izquierda
ΣΨ−1 (Σ − C)Ψ−1 Σ = (ΛΛ0 + Ψ)Ψ−1 (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) =
(ΛΛ0 Ψ−1 + Ip×p )(ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) =

ΛΛ0 Ψ−1 (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) (Y ) + + (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) (W ) (= N )

Vamos a proceder operando en ambos sumandos, (Y ) y (W ).
(Y ) ΛΛ0 Ψ−1 (ΛΛ0 + Ψ + C)Ψ−1 (ΛΛ0 + Ψ).
Veamos previamente uno de los factores en que se descompone ese producto.
ΛΛ0 Ψ−1 (ΛΛ0 + Ψ − C) = ΛΛ0 Ψ−1 ΛΛ0 + ΛΛ0 − ΛΛ0 Ψ−1 C =
ΛΓΛ0 + ΛIm×m Λ0 − ΛΛ0 Ψ−1 C = Λ (Γ + I)Λ0 − Λ0 Ψ−1 C .

Y por fórmula B.8 Λ(Γ + I) = CΨ−1 Λ. Luego
Λ (CΨ−1 Λ)0 − (Λ0m×p Ψ−1

0 −1
C)m×p − (Λ0 Ψ−1 C) = 0p×p

p×p C) = Λp×m (Λ Ψ
(C 0 = C al ser simétrica).
Por tanto, el sumando (Y ) vale 0.
(W ) (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) = (ΛΛ0 + Ψ − C)(Ψ−1 ΛΛ0 + Ip×p ) =
ΛΛ0 Ψ−1 ΛΛ0 + ΛΛ0 − CΨ−1 ΛΛ0 + ΛΛ0 + Ψ − C = ( por B.8 CΨ−1 Λ = Λ(Γ + I))

ΛΓΛ0 + ΛIm×m Λ0 − Λ(Γ + I)Λ0 + ΛΛ0 + Ψ − C = Λ [(Γm×m + Im×m ) − (Γ + I)] Λ0 + ΛΛ0 + Ψ − C =
Λ0m×m Λ0 + ΛΛ0 + Ψ − C = 0p×p + ΛΛ0 + Ψ − C = Λp×m Λ0m×p + Ψp×p − Cp×p

Por tanto:
ΣΨ−1 (Σ − C)Ψ−1 Σ = Ψ + ΛΛ0 − C = Σ − C. (B.10)
−1
Ası́ (multiplicando en ambos miembros a la derecha y a la izquierda por Σ )
Ψ−1 (Σ − C)Ψ−1 = Σ−1 (Σ − C)Σ−1 .
Entonces
diag Σ−1 = diag Σ−1 CΣ−1 ⇔ diag Σ−1 (Σ − C)Σ−1 = diag 0
es equivalente, al ser Ψ diagonal a
diag(ΛΛ0 + Ψ) = diag C (B.11)

ya que diag(Ψ−1 ΣΨ−1 − Ψ−1 CΨ−1 ) = diag 0 ⇒ diag Σ = diag C.
Ası́ pues, las ecuaciones para los estimadores de máxima verosimilitud de Λ y Ψ , Λ̂ y Ψ̂ son las siguientes:
 Λ(Γ + I) = CΨ−1 Λ

diag(ΛΛ0 + Ψ) = diag C
 0 −1
Λ Ψ Λ diagonal
En la primera ecuación se respetan las dimensiones, ya que se puede ver que ambas son p × m, ası́ como la
segunda y la tercera son ambas matrices cuadradas, la segunda de orden p × p en ambos miembros, y la tercera
de orden m × m.
B.2. Cálculos sobre las ecuaciones de B.1.3 y obtención de la vero-

similitud maximizada
1
Podemos multiplicar B.9 por la izquierda por Ψ−( 2 ) y nos queda:
1 1 1 1 1 1
Ψ− 2 (C − Ψ)Ψ−1 Λ = Ψ− 2 ΛΓ ⇒ Ψ− 2 (C − Ψ)Ψ− 2 (Ψ− 2 Λ) = (Ψ− 2 Λ)Γ
1
lo que prueba que las columnas de Ψ− 2 Λ son vectores propios de
1 1 1 1
Ψ− 2 (C − Ψ)Ψ− 2 = Ψ− 2 CΨ− 2 − Ip×p
y los correspondientes elementos de la diagonal de Γ son los valores propios.
1 1 1 1
Nota 19. De hecho, los vectores propios de Ψ− 2 CΨ− 2 − I son los vectores propios de Ψ− 2 CΨ− 2 porque
1 1 1 1
(Ψ− 2 CΨ− 2 − I)x = γx es equivalente a Ψ− 2 CΨ− 2 x = (1 + γ)x.•
Los vectores son normalizados porque
1 1
(Ψ− 2 Λ)0 (Ψ− 2 Λ) = ΛΨ−1 Λ = Γ.
Las raı́ces caracterı́sticas son escogidas para que maximicen la verosimilitud.
Para evaluar la función de máxima verosimilitud, calcularemos:

h i
tr(C Σ̂−1 ) = tr(C Σ̂−1 I) = tr C Σ̂−1 [(Σ̂ − Λ̂Λ̂0 )Ψ̂−1 ] =
h i h i
tr C Σ̂−1 Σ̂Ψ̂−1 − C Σ̂−1 Λ̂λ̂0 Ψ̂−1 = tr C Ψ̂−1 − (C Σ̂−1 Λ̂)(Λ̂0 Ψ̂−1 ) = (G)
Por B.5
Σ̂−1 Λ̂ = Σ̂−1 C Σ̂−1 Λ̂ ⇒ Σ̂Σ̂−1 Λ̂ = Σ̂Σ̂−1 C Σ̂−1 Λ̂ ⇒ Λ̂ = C Σ̂−1 Λ̂
y h i
(G) = tr C Ψ̂−1 − Λ̂Λ̂0 Ψ̂−1 = (H).
Y por el hecho de que diag(Λ̂Λ̂0 + Ψ̂) = diag C y dado que Ψ es diagonal

h i h i
(H) = tr (Λ̂Λ̂0 + Ψ̂)Ψ̂−1 − Λ̂Λ̂0 Ψ̂−1 = tr Λ̂Λ̂0 Ψ̂−1 + I − Λ̂Λ̂0 Ψ̂−1 = tr [Ip×p ] = p.
En resumen: h i
tr(C Σ̂−1 ) = tr C(Ψ̂ + Λ̂Λ̂0 )−1 = p. (B.12)
Seguidamente encontramos, y dado que
1 1 1 1
Σ = ΛΛ0 + Ψ = Ψ 2 (Ψ− 2 ΛΛ0 Ψ− 2 + Ip )Ψ 2 y Σ̂ es E.M.V.
entonces 1 1
1 1
|Σ̂| = Ψ̂ 2 Ψ̂− 2 Λ̂Λ̂0 Ψ̂− 2 + Ip Ψ̂ 2

lo que es igual, por resultados matriciales conocidos a

p m
− 12 − 21
Y Y
|Ψ̂| Λ̂0m×p Ψ̂p×p Ψ̂p×p Λ̂p×m + Im = |Ψ̂||Γ̂m + Im | = ψii (γj + 1)

i=1 j=1
ya que ambas son diagonales.
Del hecho visto anteriormente de que las raı́ces caracterı́sticas de

1 1
Ψ− 2 (C − Ψ)Ψ− 2
son los valores γ1 > γ2 > . . . . . . > γp de 0 = |C − Ψ − γΨ| = |C − (1 − γ)Ψ| tenemos
p
C Y
= (1 + γi )
|Ψ̂| i=1
1 1 1 1
Nota 20. Los valores 1 + γi de Ψ− 2 CΨ− 2 son positivos. Las raı́ces γi de Ψ− 2 (C − Ψ)− 2 en cambio, no son
necesariamente positivas. Usualmente, incluso, serán negativas.•
Entonces: Q
|C| j∈S (1 + γ̂j ) |C|
|Σ̂| = Qp =Q (B.13)
i=1 (1 + γ̂ j ) / (1 + γ̂j )
j ∈S
donde S es el conjunto de ı́ndices correspondientes a las raı́ces en Γ̂.
Por tanto, el logaritmo de la función de verosimilitud maximizada, serı́a:

pN N 1
ln L(X̄; Σ̂) = − ln(2π) − ln |Σ̂| − tr(Σ̂−1 A) = según B.12
2 2 2

pN N |C| pN
− ln(2π) − ln Q − =

2 2 j ∈S / (1 + γ̂ )
j 2
1 1 1 X 1
− pN ln(2π) − N ln |C| + N ln(1 + γ̂j ) − N p (B.14)
2 2 2 2
j ∈S
/
donde el último término corresponde a la tr(CΣ−1 ); y el segundo y tercero al ln |Σ̂| = ln |C| −

Q
j ∈S
/ ln(1 + γ̂j ).
Las raı́ces mayores, γ̂1 > γ̂2 > . . . > γ̂m deben ser seleccionadas para los elementos de la diagonal de Γ̂.
Entonces S = (1, . . . , m). El logaritmo de la verosimilitud (ecuación B.3) es una función de Σ = ΛΛ0 + Ψ. Esta
matriz es definida positiva para cada Λ y cada matriz diagonal Ψ que es definida positiva.
Es también definida positiva para alguna matriz Ψ diagonal, que no sea definida positiva. Por tanto, no es
necesario un máximo relativo para Ψ definida positiva. Además, la función de verosimilitud concentrada puede
incrementarse de modo que uno o más elementos de la matriz diagonal Ψ se aproximen a 0. En ese caso, las
ecuaciones derivadas pueden no ser satisfechas por Ψ definida positiva.
B.3. Notas sobre la resolución de las ecuaciones de Máxima Vero-

similitud
Las ecuaciones para los estimadores:
(C − Ψ)Ψ−1 Λ = ΛΓ

diag(ΛΛ0 + Ψ) = diagC
pueden ser escritas como ecuaciones polinomiales. Ası́:

p
Y
|Ψ|(C − Ψ)Ψ−1 Λ = |Ψ|ΛΓ y |Ψ| = ψii
i=1
pero no se puede resolver directamente. Hay, no obstante, varios procedimientos iterativos para encontrar el
máximo de la función de verosimilitud, de los cuales hablaremos con posterioridad.
Como puede no haber un máximo relativo en la región para la cual ψii > 0, i = 1, . . . , p; un método
iterativo puede definir una sucesión de valores de Λ̂ y Ψ̂ que incluye ψ̂ii < 0 para algunos ı́ndices i. Pero
tales valores negativos son inadmisibles ya que ψii se interpreta como la varianza de un error. Se puede poner
la condición de que ψii > 0 (i = 1, . . . , p). Entonces el máximo puede suceder en el lı́mite, y no todas las
ecuaciones derivadas lo satisfarán.
Para algunos ı́ndices i, la varianza estimada del error es cero; es decir, algunas puntuaciones de test son
exactamente combinación lineal de los factores. Si las condiciones de identificación Φ = Im y Λ0 Ψ−1 Λ diagonal
son omitidas, podemos encontrar un sistema coordenado para los factores tales que las puntuaciones de los test
con varianza del error igual a cero pueden ser interpretadas como puntuaciones de los factores (transformados).
Una alternativa a requerir que los ψii sean positivos, es pedir que estén fuera de un entorno de cero. Una
posibilidad es que ψii ≥ εσii para ε pequeño, por ejemplo 0,005. Naturalmente, el valor de ε es arbitrario.
Incrementando ε decrecerá el valor del máximo si éste no está en el interior de la región restringida, y no todas
las ecuaciones derivadas lo satisfarán.
La naturaleza de la verosimilitud concentrada es tal, que más de un máximo relativo es posible. Tal máximo,
que será aproximado por un procedimiento iterativo, dependerá de los valores iniciales. Ası́, Rubin and Tha-
yer (1982) han dado un ejemplo de tres conjuntos de estimadores, desde tres diferentes estimaciones iniciales,
usando el algoritmo EM (Expectación-Maximización). Este algoritmo es un posible dispositivo computacional
para los E.M.V..
La idea consiste en tratar a las f no observables como valores “missing”. Bajo las hipótesis de que f y U
tienen una distribución normal conjunta, los estadı́sticos suficientes son las medias y las covarianzas de la x y las
f . La etapa E del algoritmo es obtener lo que se espera de las covarianzas en base a los valores experimentados
de los parámetros. El paso M es maximizar la función de verosimilitud en base a esas covarianzas. Este paso
nos proporciona valores anteriores de los parámetros. Las etapas se alternan, y usualmente el procedimiento
converge a los E.M.V..
Como ya vimos, los “factor score” son invariantes bajo los cambios en la unidad de medida de las variables
observadas X −→ DX donde D es una matriz diagonal, con elementos positivos en la diagonal, y Λ se identifica
para que Λ0 Ψ−1 Λ sea diagonal. Si asignamos:
Dp×p Λp×m = Λ∗p×m ; Dp×p Ψp×p D = Ψ∗p×p ; Dp×p Cp×p D = Cp×p

∗
entonces el logaritmo de la función de verosimilitud es una constante, más un número fijo de veces:
∗ ∗
− ln Ψ∗ + Λ∗ Λ0 − tr C ∗ (Ψ∗ + Λ∗ Λ0 )−1 =

− ln DΨD + DΛΛ0 D − tr DCD(DΨD + DΛΛ0 D)−1 =

− ln D(Ψ + ΛΛ0 )D − tr DCDD−1 (Ψ + ΛΛ0 )−1 D−1

− ln Ψ + ΛΛ0 − tr C(Ψ + ΛΛ0 )−1 − 2 ln |D|.

Los estimadores de máxima verosimilitud de Λ∗ y Ψ∗ son:
Λ̂∗ = DΛ̂, Ψ̂∗ = DΨ̂D

∗
y Λ̂0 Ψ̂∗−1 Λ̂∗ = Λ̂0 DD−1 Ψ̂−1 D−1 DΛ̂ = Λ̂0 Ψ̂−1 Λ̂ es diagonal.
Es decir, los “factor loadings” estimados y sus varianzas del error son meros cambios en la unidad de medida.
Es igualmente conveniente usar

1
dii = √
cii
Ası́: DCD = (rij ) con rij los coeficientes de correlación muestrales. El análisis es independiente de las unidades
de medida. Este hecho está relacionado con el hecho de que las puntuaciones de los test psicológicos no tienen
unas unidades naturales de medida.
El hecho de que los factores no dependan del establecimiento y escala, es una razón para considerar el
Análisis Factorial como un análisis de interdependencia.
Por último, es conveniente dar algunas reglas de manejo para las estimaciones iniciales de las comunalidades.
m
X
λ̂2ij = 1 − ψ̂ii
j=1
2
en términos de las correlaciones observadas. Una regla es emplear Ri;1,...,i−1,i+1,...,p (donde R es el coeficiente
de correlación parcial). Otra regla es utilizar
max|rih |
h6=i
B.4. Test de hipótesis para el modelo de factores ortogonales

B.4.1. Test de Bartlett-Lawley
Vamos ahora a deducir el test de razón de verosimilitudes que nos permita ajustar el modelo de Análisis
Factorial ortogonal con m factores comunes; esto es, que para un m determinado la matriz de covarianza puede
ser escrita como:
Σp×p = Ψp×p + Λp×m Λ0m×p
para alguna matriz diagonal Ψ definida positiva, y alguna matriz Λ de dimensión p × m. El criterio de la razón
de verosimilitudes se calcula hallando:
M ax L(µ, Ψ + ΛΛ0 ) M ax L
µ,Λ,Ψ H0
≡
M ax L(µ; Σ) M ax L
µ,Σ H
designando H0 a la hipótesis nula (es decir que es válido un ajuste factorial con m factores), y H la hipótesis
general de ajuste de una distribución Normal multivariante Np (µ; Σ).
Calculamos a continuación dicho cociente de verosimilitudes.
Bajo la hipótesis general (sin restricciones sobre Σ, es decir que no necesariamente Σ = ΛΛ0 + Ψ) se tiene
(considerando los ln L en lugar de L):

1 N A N −1 1 N A N
M ax ln L = − pN ln(2π) − ln − tr(A A) = − pN ln(2π) − ln − p
µ,Λ 2 2 N 2 2 2 N 2
A
dado que (ver sección B.1.1) el E.M.V. de Σ es Σ̂ = N y el ln L maximizado viene dado por la ecuación B.2
anterior. Por tanto:
−N/2
A pN A pN
M axL = L X̄; = exp − ln(2π) exp − .
µ,Λ N 2 N 2
Bajo la H0 , existencia de Análisis Factorial con m factores comunes, se tiene:
pN N N −1
M ax ln L = − ln(2π) − ln Ψ̂ + Λ̂Λ̂0 − tr Ψ̂ + Λ̂Λ̂0 A .

A.F actorial 2 2 2
h i h i
Teniendo en cuenta el resultado dado por ecuación B.12, se verifica que tr (Ψ̂ + Λ̂Λ̂0 )−1 A = tr A(Ψ̂ + Λ̂Λ̂0 )−1 =
p, luego en definitiva
pN N N
M ax ln L = ln L X̄; Σ̂ = Λ̂Λ̂0 + Ψ̂ = − ln(2π) − ln Ψ̂ + Λ̂Λ̂0 − p

2 2 2
por tanto
pN −N/2 Np
0
M ax L = exp − ln(2π) Ψ̂ + Λ̂Λ̂ exp − .

A.F actorial 2 2
Calculados los dos máximos del cociente de verosimilitudes, éste se expresa finalmente ası́:
A N/2  N/2
M ax L A
A.F actorial
= N N/2 = 
N  = W.
M axL 0 Ψ̂ + Λ̂ Λ̂0
Ψ̂ + Λ̂Λ̂

µ;Σ
Por tanto, según el método de construcción de test de hipótesis basado en el Cociente de verosimilitudes
(procedimiento habitual en hipótesis nulas y alternativas compuestas con estimadores obtenidos bajo máxima
verosimilitud), “se ha de tender a rechazar H0 (en este caso la existencia de un Análisis Factorial con m
factores) en la medida en que W sea pequeño”. La cuestión es como definir “valores pequeño” de W, en
términos estadı́sticos. Habrı́a que conocer para ello la distribución exacta de W, que no es posible. Como es
sabido, existe un resultado asintótico para la distribución de W en el contexto aquı́ supuesto, de Normalidad
multivariante (test de la χ2 ). Para ello consideraremos −2 ln W es decir:
     
Ψ̂ + Λ̂Λ̂0
A

N  N A
N
−2 ln W = −2 ln  = −N ln   = N ln  A 
2 Ψ̂ + Λ̂Λ̂0

Ψ̂ + Λ̂Λ̂0

N
que es tal que se comporta (test de Bartlett), bajo la H0 de existencia de Análisis Factorial, ası́:
 
Ψ̂ + Λ̂Λ̂0

2p + 4m + 5
N −1− ln  A  χ2v−v0
6
N
N →∞
en donde se ha sustituido N por la expresión indicada (aproximación sugerida por Bartlett (1947)) y en donde
v − v0 = 21 p(p + 1) − [p(m + 1) − m(m − 1)/2] = 12 [(p − m)2 − p − m] = d es decir: El número de parámetros
(elementos) de Σ, p(p+1)
2 , más el número de restricciones identificadas, m(m−1)
2 , menos el número de parámetros
2
en Λ y Ψ, pm + p = p (m + 1).
Obsérvese que hemos sustituido: “rechazar H0 para valores pequeños de W, por rechazar H0 para valores
grandes de −2 ln W ”. Por tanto el test final obtenido puede formularse en los siguientes términos:
Se rechaza H0 (existencia de un Análisis Factorial con m factores comunes), al nivel de significación α, si:
 
0

2p + 4m + 5
Ψ̂ + Λ̂Λ̂
N −1− ln  A  > χ2(p−m)2 −p−m (α).
6
N 2
En este test aproximado, como los grados de libertad han de ser positivos en una χ2 , es claro que el número
de factores comunes m, ha de verificar:
1h p i
m < 2p + 1 − 8p + 1
2
es decir, (p − m)2 − p − m > 0.
B.4.2. Otra forma de expresar el contraste de hipótesis de Bartlett (Lawley-

Maxwell, 1971)
Cuando, aplicando el contraste anterior, con un m dado, se acepta la existencia de al menos un factor
común (m=1), porque se acepta la H0 , el problema práctico que se plantea es estimar el número “correcto”
de factores comunes. Para ello el test visto se aplica para valores mayores del m inicial. Para este proceso de
búsqueda, es de interés expresar el test de una forma alternativa, que a continuación consideramos. En efecto,
hemos visto en el punto anterior que:
A N/2  N/2
M ax L A
A.F actorial
W = = N N/2 = 
N  .
M axL 0
Ψ̂ + Λ̂Λ̂

Ψ̂ + Λ̂Λ̂0

µ;Σ
A partir de esta expresión y utilizando el resultado visto en sección B.2 anterior, ecuación B.13, que asegura
que: A

0 N
Ψ̂ + Λ̂Λ̂ = Q

/ (1 + γ̂j )
j ∈S
en donde S designa el conjunto de ı́ndices correspondientes a las raı́ces tomadas para Γ̂ = Λ̂0 Ψ̂−1 Λ̂, matriz
introducida en sección B.1 anterior (véanse los cálculos del apartado B.1.3). Se verifica entonces:
A A
Y
N
= N = (1 + γ̂j )
Σ̂ Ψ̂ + Λ̂Λ̂0 j ∈S

/
en donde (1 + γ̂j ) son las raı́ces caracterı́sticas de Ψ̂−1/2 N

A −1/2
Ψ̂ que, si suponemos ordenadas las raı́ces
γ̂1 > γ̂2 > . . . > γ̂m > . . . > γ̂p , puede escribirse como
p
Y
(1 + γ̂j )
j=m+1
ya que γ̂1 > γ̂2 > · · · > γ̂m se seleccionaron para los elementos de la diagonal de Γ̂. Por tanto los ı́ndices j que
no pertenecen a S son j = m + 1, . . . , p.
En conclusión, el test calculado por el procedimiento de la razón de verosimilitudes, es el siguiente:

  12 N
p
Y
W = (1 + γ̂j ) .
j=m+1
Y por tanto se rechazará H0 (el modelo está bien ajustado) si W es “suficientemente” pequeño. Vamos a
encontrar una precisión a lo que queremos decir con “suficientemente”. Para ello podemos usar −2 veces el
logaritmo del test de razón de verosimilitudes.
  21 N
p p
Y 1 X
−2 ln W = −2 ln  (1 + γ̂j ) = −2 N ln (1 + γ̂j ) =
j=m+1
2 j=m+1
p
X
−N ln (1 + γ̂j ) (B.15)
j=m+1
y rechazaremos H0 si esta cantidad es demasiado grande. Hemos pasado, pues, de tener una cantidad “suficien-
temente” pequeña, a tener que se rechaza si el resultado es “demasiado” grande. Pero por las propiedades del
test de razón de verosimilitud, si las condiciones de regularidad para Ψ̂ y Λ̂ de ser asintóticamente normales son
ciertas, entonces sabemos que la distribución lı́mite de −2 ln W bajo H0 es una χ2 con 21 (p − m)2 − p − m

grados de libertad, ya que eso es el número de elementos de Σ más el número de restricciones identificadas,
menos el número de parámetros en Λ y Ψ (ver sección 1.2.1). También podemos apuntar que Bartlett sugirió
reemplazar N por N − (2p − 11)/6, lo cual es un resultado heurı́stico.
Resolviendo el resultado asintótico anterior con el mismo reemplazamiento de N utilizado en el contraste

de Bartlett-Lawley visto antes, podemos en definitiva formular el siguiente test:
“Aceptamos H0 (existencia de m factores comunes), al nivel de significación α, si:

Xp
2 1
χ = − N − 1 − (2p + 4m + 5) ln(1 + γj ) < χ2d (α)
6 j=m+1
1

con d = 2 (p − m) − (p + m) .” (Test de Lawley and Maxwell (1971)).
Nota 21. Para una óptima aplicación de este test deben tenerse en cuenta ciertas precauciones teóricas y
prácticas, sobre las condiciones de validez del comportamiento asintótico χ2 del cociente de verosimilitudes;
tamaños muestrales mı́nimos, etc. Véase por ejemplo Basilewsky (1994) página 386, que enuncia el anterior
test en términos de las (p − m) raı́ces (1 + γj ) de Ψ̂−1/2 N
A −1/2
Ψ̂ que son diferentes de la unidad.
Del hecho de que diag(ΛΛ0 + Ψ) = diag C por B.11 y que γ1 , γ2 , . . . , γp son las raı́ces caracterı́sticas de
1
1
Ψ̂− 2 C − Ψ̂ Ψ̂− 2
tenemos:
h 1
1
i h 1
1
i h 1 1
i
0 = tr Ψ̂− 2 C − Ψ̂ − Λ̂Λ̂0 Ψ̂− 2 = tr Ψ̂− 2 C − Ψ̂ Ψ̂− 2 − tr Λ̂0 Ψ̂− 2 Ψ̂− 2 Λ̂ =
h i p p p
1 1
X X X
tr Ψ̂− 2 C − Ψ̂ Ψ̂− 2 − trΓ̂ = γ̂i − γ̂i = γ̂i .
j=1 i=m+1 i=m+1

Si |γ̂| < 1, j = m + 1, . . . , p; podemos estudiar −2 ln W desarrollando ln 1 + γ̂j :
p m
X 1 1 1 X 2 2 3
−N γ̂j − γ̂j2 + γ̂j3 − · · · = N γ̂ − γ̂j + · · · .
j=m+1
2 3 2 j=1 j 3
Este criterio es, aproximadamente, igual a

p
X
−N γ̂j2 .
j=m+1
Los estimadores Ψ̂ y Λ̂ son encontrados para que C − Ψ̂ − Λ̂Λ̂0 sea pequeño en un sentido estadı́stico, o
equivalentemente de ese modo C − Ψ̂ sea aproximadamente de rango m. Entonces las p−m raı́ces más pequeñas
de
1 1
Ψ̂− 2 C − Ψ̂ Ψ̂− 2
deberán estar próximas a cero. Y ası́, el criterio lo que hace es medir las desviaciones de esas raı́ces de cero.
1
1
Como γ̂m+1 , ..., γ̂p son las raı́ces distintas de cero de Ψ̂− 2 C − Σ̂ Ψ̂− 2 , tenemos que:
p
1 X 1 h 1 2
1
i h i
γ̂j = tr Ψ̂− 2 C − Σ̂ Ψ̂− 2 = − tr Ψ̂−1 C − Σ̂ Ψ̂−1 C − Σ̂ =
2 j=m+1 2
X (cij − σ̂ij )2
=
i<j ψ̂ii ψ̂jj
dado que los elementos diagonales de la matriz C − Σ̂ son iguales a cero.
En numerosas ocasiones, el investigador no conoce el valor del número de factores, m, que supone. Entonces
quiere determinar el menor número posible para que el modelo sea consistente con los datos. Ası́ es usual hacer
el test para sucesivos valores de m. El investigador arranca con un test tal que el número de factores es un
especı́fico m0 (posiblemente 0 ó 1). Si la hipótesis es rechazada, procede a comprobar el test con m0 +1 factores.
Uno continúa de tal forma hasta que la hipótesis se acepta, o hasta que
h i
2
− (p − m) − p − m ≤ 0
En el último caso se concluye que se ajusta un modelo con factores no triviales. Desgraciadamente, las posibi-
lidades de error bajo ese modelo son desconocidas, incluso de manera asintótica.
Apéndice C
Distribución asintótica de los

estimadores máximo verosı́miles bajo
condiciones generales (modelos de
relaciones lineales funcionales; de
relaciones estructurales y factoriales)
C.1. Introducción
El estudio del comportamiento asintótico en distribución de los estimadores de máxima verosimilitud de
los elementos de Λ (factor loadings) y del vector de errores U , en Análisis Factorial, constituye un importante
tópico tanto en el Modelo Lawley-Maxwell (con normalidad) como en el caso de no normalidad. En las últimas
décadas importantes estadı́sticos han contribuido con sus resultados al conocimiento en profundidad del tópico
y muchos de estos resultados son también válidos para otros modelos estructurales de Σ, distintos del Factorial.
Las principales aportaciones teóricas fueron obtenidas por Anderson and Rubin (1956); Lawley and Maxwell
(1971); Anderson and Amemiya (1985); Amemiya, Fuller, and Pantula (1987), entre otros. Algunos de estos
resultados son recogidos a continuación en este Anexo, siguiendo básicamente a Anderson and Amemiya (1988).
Antes hemos calculado los estimadores de máxima verosimilitud para el modelo de Análisis Factorial. Ahora
vamos a discutir sus propiedades asintóticas, en un contexto bastante general. En el caso clásico de Análisis
Factorial de Maxwell-Lawley, son conocidos resultados bajo normalidad. Por ejemplo los resultados de inferen-
cia asintótica sobre los Factor loadings, obtenidos por Lawley and Maxwell (1971) (Cap. 5) y por Jennrich and
Thayer (1973) (Ver Basilewsky (1994), sección 6.6.3).
Como anteriormente, el modelo es identificado por restricciones en los elementos de la matriz de los “factor
loadings”. El número de restricciones puede exceder de los requeridos para la identificación. Puede demostrarse
que un tipo particular de E.M.V. que, derivado bajo la hipótesis de normalidad de las observaciones produce
una distribución normal asintótica, es común para una amplia clase de distribuciones del vector de los factores
y el de los errores.
En particular, la matriz de covarianza asintótica del estimador de los “factor loadings” obtenida bajo la
hipótesis de normalidad, es válida para los vectores de los factores que contienen una parte fija y otra aleatoria
con cualquier distribución que tenga segundos momentos finitos, y para los vectores de error que consisten en
componentes independientes con cualquier distribución que tenga momentos de segundo orden finitos. Ası́ los
errores estandar asintóticos de los estimadores de los “factor loadings” calculados bajo paquetes estándar de
software son válidos virtualmente para cualquier tipo de Análisis Factorial no normal. Los resultados son
73
también extensibles a ciertos modelos de ecuaciones estructurales.
C.2. Definición del modelo

El Análisis Factorial, como es sabido, es ampliamente utilizado en las ciencias sociales y del comporta-
miento, en parte gracias a la disponibilidad del software informático, que nos proveen de estimadores y de sus
errores estándar asintóticos bajo las hipótesis de que las observaciones son normalmente distribuidas. Vamos
a probar que tales errores estándar son válidos para una amplia clase de distribuciones. Esta teorı́a asintótica
es válida para funcionales lineales y relaciones estructurales, ası́ como si la matriz de covarianzas del error es
diagonal. También veremos que esto es válido para modelos estructurales lineales tales como el modelo LISREL
(Jöreskog).
Ya vimos que el modelo de Análisis Factorial para un vector columna aleatorio p-dimensional, xα puede ser
escrito como:
xα = µ + Λfα + uα ; α = 1, . . . , N (C.1)
con µ vector p-dimensional de parámetros, Λ matriz p × m de los “factor loadings”; fα un vector m × 1 no
observable que puede contener componentes fijos o aleatorios, y uα un vector p × 1 no observable de errores
aleatorios. Supondremos también que los fα y uα son incorrelados ∀ α, y que E[uα ] = 0; E[uα ; u0α ] = Ψ
con Ψ diagonal y de elementos (ψ11 , . . . , ψpp ). Con estas condiciones, el modelo de relaciones funcionales
lineales, se define como:
xα = zα + uα ; α = 1, . . . , N (C.2)
Bzα = β0 (C.3)
donde zα es un vector fijo de p componentes, B es r × p y β0 es un vector de r componentes. El modelo de
relaciones estructurales son las ecuaciones C.2 y C.3 con zα aleatorio. Si r = p − m, la ecuación C.1 es
equivalente a las ecuaciones C.2 y C.3, poniendo zα = µ + Λfα y exigiendo que
Br×p Λp×m = 0r×m y Br×p µp×1 = β0r×1 (C.4)
Según vimos, para reducir la indeterminación del modelo, es preciso imponer unas condiciones de iden-
tificación en Σ = ΛΦΛ0 + Ψ; como por ejemplo, Φ = Im y Λ0 Ψ−1 Λ = Γ diagonal. Sin embargo, se pueden
exigir restricciones alternativas en los elementos de Λ, Φ y Ψ. Ası́, en el Análisis Factorial exploratorio
(sin restricciones), las restricciones se ponen sólo para eliminar la indeterminación. Entonces ΛΦΛ0 es una
matriz semidefinida positiva cualquiera (no restringida), y de rango m. En el Análisis Factorial confirmatorio el
investigador usa el conocimiento previo de las variables para formular una hipótesis que imponga restricciones
a los parámetros tal como que ciertos factor loadings valgan 0. El modelo puede ser restringido en el sentido
de que el número de restricciones pueda exceder de las requeridas para la identificación Jöreskog (1969). Una
especificación particular que produce la identificación es

Λ1
Λ= (C.5)
Im
En las relaciones funcionales-estructurales lineales existe la indeterminación de multiplicar C.3 por la iz-
quierda por una matriz arbitraria y no singular de dimensión r × r. Esta indeterminación puede ser eliminada,
por ejemplo, especificando:
B = (Ir , B2 ). (C.6)
Si las ecuaciones C.5 y C.6 y BΛ = 0 son válidas, entonces B2 = −Λ1 y la inferencia en las relaciones
funcionales/estructurales lineales es idéntica a la del modelo de Análisis Factorial.
Un método general para parametrizar los modelos exploratorio y confirmatorio es asumir que las restriccio-
nes se colocan sólo en la matriz Λ y que cada elemento de Λ puede ser expresado como una función lineal de
un vector λ de parámetros de dimensión q × 1. Entonces:
V ec[Λ] = a + Aλ (C.7)
donde a es un vector conocido pm × 1, y A es una matriz conocida de dimensión pm × q y de rango q. La para-

metrización C.7 cubre a los modelos más comúnmente usados en el Análisis Factorial confirmatorio. Ası́, por
ejemplo, el modelo identificado por ceros y unos especı́ficos en Λ satisface C.7 donde a y Λ consisten en ceros
y unos en posiciones determinadas. La estructura C.7 incluye también casos donde algunos factor loadings se
suponen iguales. La parametrización C.7 sin restricciones en la matriz de covarianzas de fα y las varianzas de
error ψii nos permite tener una aproximación unificada al modelo donde el vector de los factores fα puede tener
componentes fijas o aleatorias. Además, como veremos, bajo esta parametrización la distribución asintótica de
los factor loadings estimados es común a una muy amplia clase de distribuciones del vector de factores fα y
del vector de errores uα . También vamos a ver que los resultados obtenidos por la restricción lineal C.7 pueden
extenderse al modelo donde V ec[Λ] es una función no lineal de λ.
Bajo las hipótesis de que (fα0 , u0α )0 se distribuye normalmente, el E.M.V. del parámetro de los factor loadings
λ, la matriz Φ de covarianza de los factores, y las varianzas del error ψii ; ası́ como sus errores estándar asintóticos
pueden ser calculados con un adecuado software informático. Hablaremos de la aplicabilidad de la inferencia
asintótica basada en tales estimadores cuando fα y uα no son normales, y fα contiene posiblemente componentes
no aleatorias. Probaremos además que la inferencia asintótica del parámetro λ en C.7 basada en la hipótesis de
normalidad es válida también para el modelo con, virtualmente, cualquier tipo de fα y uα , una vez visto que
las p componentes de uα son independientes, y no sólo incorreladas. También veremos que estos resultados son
aplicables no sólo al Análisis Factorial, sino también a más complicados modelos de ecuaciones estructurales.
C.3. Teoremas básicos

Los estimadores que vamos a considerar son los E.M.V. de λ en C.7, la matriz de covarianza de los factores
Φ y las varianzas del error Ψ, obtenidas bajo la hipótesis de que (fα0 , u0α )0 se distribuye normalmente, con matriz
de covarianzas muestrales insesgada S = NC−1 .
Si fα y uα se distribuyen normalmente, entonces nS se distribuye según una Wishart Wp (n, Σ) donde

n = N − 1. La matriz de covarianzas dada por Σ = ΛΦΛ0 + Ψ es Σ(θ) una función de
θ = (λ0 , V ech[Φ]0 , ψ 0 )0
donde λ es el de C.7; V ech[Φ] es el vector de dimensión 21 , m(m + 1) × 1 que coloca uno detrás de otro los
elementos de Φ que están en o por debajo de la diagonal principal empezando por la primera columna, y
ψ = (ψ11 , . . . ψpp )0 .
Sean Ωλ , ΩΦ , Ωψ los espacios paramétricos de λ, V ech(Φ) y ψ respectivamente, con Ωλ ∈ Rq ; ΩΦ consta

de los V ech(Φ) tal que Φ es definida no negativa; y Ωψ consta de los ψ con componentes no negativas. La
verosimilitud de Wishart basada en S es − n2 veces
L(θ, S) = ln |Σ(θ)| + tr SΣ−1 θ

(C.8)
más términos no dependientes de θ. El E.M.V. de Wishart θ̂ es
h i0 0
0 0
θ̂ = λ̂ , V ech(Φ̂) , ψ̂
que es el valor de θ en Ω = Ωλ × ΩΦ × Ωψ que minimiza la Eq.C.8.
Notemos que en el cálculo de θ podemos encontrar estimaciones singulares de Φ (menores que m factores)
y estimaciones cero para algún ψii (caso de Heywood). Posteriormente supondremos que el verdadero valor de
θ está en el interior de Ω, es decir, la verdadera Φ es definida positiva y el verdadero ψii es positivo.
La función de verosimilitud normal basada directamente en las observaciones y concentrada con respecto a
µ̂ = x̄ es menos n2 veces
N
ln |Σ(θ)| + tr SΣ−1 θ

n
más términos independientes de θ. En este capı́tulo vamos a tratar la verosimilitud de Wishart teniendo un uso
frecuente al factor N
n . Los estimadores que maximizan la verosimilitud normal se obtienen de los de Wishart
n
reemplazando S por N S. Naturalmente, todos los resultados asintóticos son ciertos para esos estimadores.
La idea clave en este desarrollo de la teorı́a asintótica es que asignando normalidad lı́mite, los estimadores
Φ̂ y ψ̂ están centrados alrededor de cantidades que dependen de n. Esas cantidades están definidas mediante
las sumas de cuadrados no observables y productos cruzados de fα y uα
N
1X 0
fα − f¯ fα − f¯

Φ(n) =
n α=1
N
1X 0
Ψ(n) = (uα − ū) (uα − ū) (C.9)
n α=1
N
1X 0
fα − f¯ (uα − ū)

Γ(n) =
n α=1
donde f¯ y ū son las medias de los fα y uα . Sea ψ(n) el vector p × 1 que consiste en los p elementos de la
diagonal de Ψ(n); y sea ψb (n) el vector de dimensión 12 p(p − 1) × 1 obtenido colocando los elementos de Ψ(n)
que están debajo de la diagonal principal. El separar la parte diagonal de la de fuera de la diagonal facilitará
el desarrollo de la teorı́a asintótica.
El primer teorema nos proporciona la consistencia del estimador de Wishart de máxima verosimilitud θ̂
bajo hipótesis débiles en Φ(n), Ψ(n) y Γ(n) y unas condiciones de identificación. Sea λ0 el verdadero valor de
λ dado en C.7.
Teorema 3. En el modelo de ecuaciones C.1 y C.7 supongamos:
i) p lı́mn→∞ Φ(n) = Φ0
ii) p lı́mn→∞ ψ(n) = ψ0

iii) p lı́mn→∞ ψb (n) = 0
iv) p lı́mn→∞ Γ(n) = 0
v) ∀ ε > 0, ∃η > 0
tal que cualquier θ ∈ Ω t q||θ − θ0 || > ε verifica que mod(vi − 1) > η para algún i = 1, 2, . . . , p donde
0
θ0 = [λ00 , V ech(Φ0 )0 , ψ00 ] ; y las vi son las p raı́ces de |Σ(θ) − vΣ(θ0 )| = 0 y mod(vi − 1) es el valor absoluto de
vi − 1.
Entonces:
p lı́m θ̂ = θ0
n→∞
Demostración. El resultado se obtiene de p lı́mn→∞ S = Σ(θ0 ) , y la consistencia está probada en Amemiya,

Fuller, and Pantula (1987).
Notemos que si todos los elementos de fα son fijos, entonces el lı́mite en probabilidad de la hipótesis (i) es
el lı́mite usual.
0 0
Sea θ(n) = λ00 , [V ech(Φ(n))] , ψ(n)0 . La primera parte de θ(n) es el verdadero valor λ0 de λ, y es
independiente de n. Recordemos que ψ(n) es el vector de los elementos de la diagonal de Ψ(n), y que Φ(n) y
Ψ(n) están definidas en C.9. El siguiente teorema muestra que el término primero en el desarrollo de θ̂ − θ(n)
es una función lineal de ψb (n) y Γ(n) definidas en C.9.
Teorema 4. En el modelo de ecuaciones C.1 y C.7 y supongamos ciertas las hipótesis (i), (ii), (v). Supongamos
además:
iii-a) ψb (n) = Op n−(1/2)

iv-a) Γ(n) = Op n−(1/2)

vi) λ0 es un punto interior de Ωλ

Φ0 es definida positiva y cada elemento de ψ0 es positivo, donde Φ0 y ψ0 están definidas en (i) y (ii) respecti-
vamente. La matriz
∂V ecΣ(θ)
∂θ0
θ=θ0
tiene rango total (por columnas).
Entonces:
θ̂ − θ(n) = C1 (θ0 )ψb (n) + C2 (θ0 )V ecΓ(n) + op n−(1/2) = Op n−(1/2)
0
donde C1 (θ0 ), C2 (θ0 ) son matrices no estocásticas que dependen sólo de θ0 = [λ00 , (V ech(Φ0 ))0 , ψ00 ] .
Demostración. Dado que θ̂ es consistente para θ0 , un punto interior de Ω; y dado que L(θ; S) en C.8 es
diferenciable con respecto a θ en un entorno de θ0 , la probabilidad de que θ̂ satisfaga la ecuación derivada
tiende a 1 si n → ∞. Ası́:
∂L(θ̂; S) ∂L[θ(n); S] ∂ 2 L(θ∗ ; S) h i
op n−(1/2) = = + · θ̂ − θ(n) (C.10)
∂θ ∂S ∂θ∂θ0
donde θ∗ está en el segmento que une θ(n) con θ̂. Dado que
p lı́m θ(n) = p lı́m θ̂ = θ0

n→∞ n→∞
y dado que la derivada segunda de L(θ; S) con respecto a θ es una función continua de θ y S
∂ 2 L(θ∗ ; S) ∂ 2 L [θ0 ; Σ(θ0 )]

p lı́m 0
= = H0 (C.11)
n→∞ ∂θ∂θ ∂θ∂θ0
donde H0 es definida positiva por (vi). También
∂L[θ(n); S]
= −F (n)V ec (S − Σ[θ(n)]) (C.12)
∂θ
donde: 0
∂, V ecΣ[θ(n)]
Σ−1 [θ(n)] ×T Σ−1 [θ(n)] = F0 + Op

F (n) = 0
∂θ
0
∂V ecΣ[θ0 ]
Σ−1 (θ0 ) ×T Σ−1 (θ0 )

F0 = 0
(C.13)
∂θ
(con ×T = producto tensorial de matrices).
Podemos observar que:

S − Σ[θ(n)] = Λ0 Γ(n) + Γ0 (n)Λ00 + Ψ(n) − diag(ψ(n)) (C.14)
donde V ec(Λ0 ) = a + Aλ0 . Los elementos de la diagonal de Ψ(n) − diag(ψ(n)) son ceros, y los elementos de
fuera de la diagonal pertenecen a ψb (n). Ası́:
1
S − Σ[θ(n)] = Op n− 2 (C.15)
y de C.9-C.15 obtenemos 1
θ̂ − θ(n) = H0−1 F0 V ec (S − Σ[θ(n)]) + op n− 2
y el resultado se obtiene de C.14.
1
Este teorema prueba que el término de Op n− 2 en el desarrollo de θ̂ − θ(n) depende sólo de los produc-
h i
tos cruzados Γ(n) y los elementos de fuera de la diagonal ψb (n) de Ψ(n). Ası́, n(1/2) θ̂ − θ(n) tiene una
distribución lı́mite si los elementos de 1 1
n 2 Γ(n) y n 2 ψb (n)
tienen una distribución lı́mite conjunta.
Anderson and Rubin (1956) investigaron condiciones para que las derivadas sean finitas, y demostraron el
siguiente teorema en el contexto del Análisis Factorial:
Teorema 5. Sea −1
(θij ) = Θp×p = Ψ − Λ Λ0 Ψ−1 Λ Λ0
Si (θij )2 es no singular, si Λ y Ψ son identificadas por la condición de que Λ0 Ψ−1 Λ es diagonal, y los
p
elementos de la digonal son diferentes y ordenados; Si C → Ψ + ΛΛ0 y si N (1/2) (C − Σ) tiene una distribución
normal en el lı́mite, entonces:
1 1
n 2 Λ̂ − Λ y n 2 Ψ̂ − Ψ
tienen una distribución lı́mite normal.
Entre las consecuencias de este resultado, podemos citar que, por ejemplo, N (1/2) (C − Σ) tendrá distri-
bución lı́mite si (f 0 U 0 )0 tiene una distribución
con cuartos
momentos finitos. La matriz de covarianzas de la
distribución lı́mite de N 1/2 Λ̂ − Λ y N (1/2) Ψ̂ − Ψ es muy complicada. Lawley and Maxwell (1971) en-

contró covarianzas para N (1/2) Λ̂ − Λ apropiada para Ψ conocido, y posteriormente extendió el trabajo para
Ψ estimado.

La covarianza de N (1/2) ψ̂ii − Ψii y N (1/2) ψ̂jj − Ψjj en la distribución lı́mite es:
2 2 ij
2ψii ψjj ξ
con ξ ij = Ξ−1 , y Ξ = (θij

2
). (i, j = 1, . . . , p).
Sobre la base de este resultado (teorema 5), Anderson and Rubin (1956), es posible obtener una extensión
que prueban Anderson and Amemiya (1988):
Teorema 6. En el modelo C.1 y C.7 supongamos válidas las hipótesis i, ii, v, vi. Supongamos además:
(iii-iv-b) Para algún G,

1 0 0 L
n 2 (V ec[Γ(n)]) , ψb (n) −→ N (0, G)
Entonces se verifica que h i
1 L
n 2 θ̂ − θ(n) −→ N (0, V )
para algún V . Si además G depende sólo de Φ0 y ψ0 , entonces V depende sólo de

0 0
θ0 = λ00 , (V ech[Φ0 ]) , ψ00

Demostración. Por el teorema 3, θ̂ − θ(n) es asintóticamente, una función lineal de

0 0
[V ec[Γ(n)]] , ψb0 (n)
De aquı́ se obtiene la distribución lı́mite normal. Y dado que V es una función de C1 (θ0 ), C2 (θ0 ) y G,
entonces V es una función de θ0 si G depende solamente de Φ0 y ψ0 .
Notemos que la distribución lı́mite en el teorema 6 se obtuvo bajo hipótesis débiles en las fα y las Uα son
las hipótesis i, ii y iii - (iv-b). Por ejemplo, no es una hipótesis que las Uα sean independientes e idénticamente
distribuidas, o que las f y las U sean independientes. La primera parte de θ̂ − θ(n)
h es λ̂ −i λ0 donde λ0 es
el verdadero valor de λ. El uso de la segunda parte de θ̂ − θ(n) llamada V ech Φ̂ − Φ(n) lo veremos con
posterioridad.
En el teorema 5 de Anderson and Rubin (1956), como podemos ver, tan sólo se asume la normalidad lı́mite
de ψb (n). Sin embargo, la hipótesis iii - (iv-b) es necesaria incluso si añadimos las hipótesis de que las fα y Uα
sean independientes, y que las Uα sean independientes e idénticamente distribuidas. Esto es porque el resultado
requiere la normalidad lı́mite conjunta de Γ(n) y ψb (n) por separado. El propósito de la última afirmación del
teorema es que, aun cuando la distribución de las f y de las U puede depender de otros parámetros, la
distribución lı́mite no dependerá si la distribución lı́mite de
1 0 0
n 2 [V ec[Γ(n)]] , ψb (n)
no lo hace.
C.3.1. Corolarios e implicaciones

Vamos a desarrollar
ahora
las importantes aplicaciones prácticas que tiene el teorema 6. La distribución
(1/2)
lı́mite de n θ̂ − θ(n) es común para una amplia clase de fα y Uα , y los procedimientos asintóticos tı́picos
0
de inferencia para el parámetro λ basadas en la normalidad de (fα0 , Uα0 ) son válidas virtualmente para cualquier
tipo de fα , bien fijos, bien no necesariamente normales y de Uα no normales.
Vamos a ver en primer lugar un caso especial del teorema 6 donde el vector de factores fα satisface una muy
débil hipótesis y el vector de error satisface una condición de normalidad relativamente fuerte (más adelante
suprimiremos la normalidad de Uα ).
Corolario 1. En el modelo C.1 y C.7 supongamos ciertas las hipótesis v y vi y además:
i-a) lı́mn→∞ Φ(n) = Φ0 c. s.

vii) Las fα son independientes de las Uα
viii) Las Uα son independientes e idénticamente distribuidas
ix) Uα N (0, diag[ψ0 ] ) donde diag(ψ0 ) es una matriz diagonal con los p elementos de ψ0 en la diagonal.
Entonces
1 L
n 2 θ̂ − θ(n) −→ N (0, V0 ) (C.16)
para algún V0 donde V0 depende sólo de θ0 .
Demostración. Aplicando el teorema 6 notamos que las hipótesis (i-a) y viii implican i y ii respectivamente.
Por tanto, la demostración se completa cuando veamos que bajo las hipótesis (i-a), viiI, viii y ix la hipótesis
(iii - (iv-b)) en el teorema 6 es cierta con G dependiendo solamente de θ (En Anderson and Amemiya (1985)
viene la demostración completa).
La clase de las fα que satisfacen las hipótesis del Corolario 1 es amplia. Si cada componente de fα está
fijada, entonces la hipótesis VII es cierta trivialmente y el lı́mite casi seguro en (I-a) se reduce al lı́mite usual. La
hipótesis I-a se satisface para fα aleatorios si las fα son i.i.d. con matriz de covarianza
Φ0 . El Corolario 1 prueba
que la matriz de covarianza V0 de la distribución normal lı́mite de (n)1/2 θ̂ − θ(n) es común para una gran
clase de fα . Un caso especial es el modelo normal, donde las (fα0 , Uα0 )0 son i.i.d., acordando una distribución
normal que tenga matriz de covarianza con bloques diag [Φ0 , diag(ψ0 )]. Ası́ el caso normal lı́mite con
matriz de covarianzas V0 es válido para una clase de fα mucho más amplia que la normal.
En el Corolario 1, las Uα se suponen normales. Veamos ahora

que esta hipótesis puede ser debilitada sin
1/2
alterar la matriz V0 de la distribución lı́mite de n θ̂ − θ(n) . Veamos ahora los siguientes dos Corolarios
que prueban que V0 es válida para una gran clase de fα y Uα .
Corolario 2. En el modelo C.1 y C.7, supongamos ciertas (i-a), v, vi, vii y viii. Supongamos:
(IX-a) ∀ i > j y ∀k > 1 se verifica:
0 0
E(uiα ujα ukα ulα ) = ψii ψjj para i = k > j = 1
0
donde uiα es la i-ésima componente de Uα y ψii es la i-ésima componente de ψ0 .
Entonces sigue siendo válido el resultado del Corolario 1.

Demostración. Bajo las hipótesis supuestas, la matriz de covarianza de
0
[(V ec(Γ(n)))0 , ψb0 (n)]
es la misma que para el caso de Uα normales. Ası́ se consigue el resultado como en el Corolario 1.
Este corolario prueba que en el caso lı́mite normal de matriz de covarianza, V0 es válido para una amplia
clase de fα y Uα si la parte de fuera de la diagonal ψb (n) de Ψ(n) tiene una distribución normal en el lı́mite
con matriz de covarianzas idénticas a las del caso de Uα normal. Tal hipótesis en Uα no es muy restrictiva,
ya que por la estructura del modelo del Análisis Factorial,
las p componentes Uα son incorreladas. No hay
restricciones en los momentos de cuarto orden E u4iα ni incluso si existen.
El siguiente corolario prueba que si las p componentes de Uα son independientes, V0 es válida sin impor-
tar cual sea la distribución de las Uα . Este resultado, un poco sorprendente, tiene importantes aplicaciones
prácticas.
Corolario 3. En el modelo C.1 y C.7 supongamos ciertas (i-a), v, vi, vii y viii. Asumimos además:
(ix-b) Las uiα i = 1, . . . , p son independientes.
Entonces C.16 es cierto para V0 del Corolario 1.

Demostración. ix-b ⇒ ix-a y el resultado se obtiene del Corolario 2.
Ası́, si asumimos la independencia
de ui α , y no sólo la incorrelación, en el modelo C.1, entonces la distri-
bución lı́mite de (n)1/2 θ̂ − θ(n) es común para casi todas las distribuciones de fα y Uα que satisfagan el
modelo y con la hipótesis de segundos momentos asociados. Combinando los resultados de los Corolarios 2 y
3, la normalidad lı́mite y la matriz de covarianzas lı́mite V0 para el caso normal (fα0 , Uα0 )0 son válidas para una
enorme clase de (fα0 , Uα0 )0 si ∀ i, los uiα son independientes. Las componentes de las fα pueden ser bien fijas
o aleatorias mientras que las hipótesis lı́mite de los segundos momentos (hipótesis i-a) y de la independencia
de las Uα (hipótesis vii) sean satisfechas. Los Uα pueden ser cualquier vector aleatorio i.i.d. con componentes
independientes que tengan segundos momentos finitos. Una interpretación del modelo del A.F. es que toda
la inter-dependencia entre las p componentes de las observaciones xα se explica por el factor fα . Desde éste
punto de vista, la independencia de las componentes del error ui α es una parte de las hipótesis del modelo,
y las hipótesis del Corolario 3 son satisfechas por cualquier Análisis Factorial confirmatorio con restricciones
distribucionales sobre fα y vα insignificantes prácticamente. En Anderson and Amemiya (1988), página 768-
769, se consideran ejemplos de Análisis Factorial no-normales para los cuales los resultados de inferencia aquı́
recogidos son válidos.
Referencias Bibliográficas
Afifi, A. A., and S. P. Azen. 1979. Statistical analysis, A computer orieoriented approahc. Academic Press.
Second Edition.
Akaike, H. 1974. “A new look at the statistical model identification.” IEEE Trans Autom Control AC-19:716–
723.
. 1987. “Factor analysis and AIC.” Psychometrika 52:317–332.
Amemiya, Y., W. A. Fuller, and S. G. Pantula. 1987. “The asymptotic distributions of some estimations for
a factor analysis model.” Journal of Multivariate Analysis 22:51–64.
Anderson, T. W. 1984. An introduction to multivariate statistical analysis. John Wiley & Sons.
Anderson, T. W., and Y. Amemiya. 1985. “The asymptotic normal distribution of estimators in factor
analysis under general conditions.” Technical Report, Technical Report no 12, Econometric Workshop
Stanford University.
. 1988. “The asymptotic normal distribution of estimators in factor analysis under general conditions.”
The Annals of Statistics 16(2):759–771.
Anderson, T. W., and H. Rubin. 1956. “Statistical inference in factor analysis.” Proceedings of the third
Berkeley Symp., Volume Vol. V. University of California, Berkeley, 111–150.
Bartlett, M. S. 1947. “Multivariate Analysis.” Journal of the Royal Statistical Society Suppl. 9B:176–197.
Basilewsky, A. 1994. Statistical factor analysis and related methods: theory and applications. New York.: John
Wiley and Sons.
Bozdogan, H. 1987. “Model selection and Akaike’s information criterion (AIC): the general theory and its
analytical extension.” Psychometrika 52:345–370.
Gutiérrez, R., and A. Gónzalez. 1991. Introducción al análisis multivariante; Volumen 1. Universidad de
Granada.
Harman, H. 1967. Modern factor analysis. U. University Chicago Press. (Traduccion española Análisis
factorial moderno,, Editorial Saltés, Madrid (1980)).
Howe, W. G. 1955. “Some contributions in factor analysis.” Technical Report, Atomic Energy Comm. Report
Oak Ridge Laboratory, Tennessee, USA.
Jennrich, R. I., and D. T. Thayer. 1973. “A note on Lawley’s formulas for standard errors in maximun
likelihood factor analysis.” Psychometrica 38:571–580.
Johnson, R. A., and D. W. Wichern. 1998. Applied multivariate statistical analysis. Prentice-Hall.
Jöreskog, K. G. 1969. “A general approach to confirmatory maximun likelihood factor analysis.” Psychome-
trica 34:183–202.
Kaiser, H. F. 1958. “The varimax criterion for analysis rotation in factor analysis.” Psychometrica 23:187–200.
Lawley, D. N., and E. Maxwell. 1971. Factor analysis as a statistical method. Ed. Butterworths, London.
Reiersol, O. 1950. “On the identifiability of parameters in Thurstone’s multiple factor analysis.” Psychometrica
15:121–159.
Reyment, R., and K. +G. Jöreskog. 1993. Applied factor analysis in the natural sciences. Cambridge
University Press.
81
Rubin, D. B., and D. T. Thayer. 1982. “EM algorithms for ML factor analysis.” Psychometrika 48:253–257.
Schwarz, G. 1987. “Estimating the dimension of a model.” Annals of Statistics 6:431–464.
Sclove, S. 1987. “Applications of the model selection criteria to some problem in multivariate analysis.”
Psychometrika 52:333–343.
Takeuchi, K., H. Yanai, and B. N. Mukherjee. 1982. The foundations of multivariante analysis. Wiley Eastern
Ltd, New Delhi.
Thurstone, L. L. 1945. Multiple-Fsctor Analysis. University Chicago Press.

Factorial 2

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Factorial 2

Enviado por

Direitos autorais:

Formatos disponíveis

Índice general

A. Rotaciones Oblicuas en el Análisis Factorial. Estructuras factorial y de referencia. Criterios

B. El Modelo de Análisis Factorial ortogonal de Lawley-Maxwell: Estimación máximo-verosı́mil

C. Distribución asintótica de los estimadores máximo verosı́miles bajo condiciones generales

1.1. Introducción: El modelo teórico básico de Análisis Factorial.

1.1.1. Modelo de Análisis Factorial no-restringido y aleatorio

Los vectores X, F y  son aleatorios y la matriz L es no aleatoria (modelo de Análisis Factorial

Finalmente, X es observable y F y  son no observables.

Supondremos que los elementos aleatorios antes citados, verifican:

- E[X] = µ vector media poblacional (p × 1).

1.1.2. Algunos resultados sobre el Modelo

Cov X; F = E (X − µ)F 0 = E (LF + )F 0 = E LF F 0 + E F 0 =

por las condiciones i)-iv) = LE F F 0 = LΦ

También se verifica lo siguiente. Supongamos que en efecto Σ se estructura en la forma:

1.1.3. Análisis Factorial, oblicuo, ortogonal y normal (Lawley)

Cov(F ) = E[F F 0 ] = Im×m

li1 + lk1 + li2 + lk2 + . . . + lim + lkm .

2. La comunalidad de X1 , por ejemplo, es h21 = l11

1.2. Problemas básicos inherentes al modelo de Análisis Factorial

(L; Φ; Ψ) ; L∗ = LC; Φ∗ = C −1 ΦC 0−1 ; Ψ , C m × m no singular.

En general, el problema de la existencia de solución, se puede enunciar en términos de matrices ası́:

Por ejemplo, podemos considerar el siguiente modelo:

1.2.2. Un problema de “ambigüedad” en el Análisis Factorial. Rotación de fac-

con L∗ = LT y F ∗ = T 0 F . Entonces, puesto que:

Cov[F ] = T 0 Cov[F ]T = T T 0 = Im×m

L̂∗ = L̂T con T 0 T = T T 0 = I

es una matriz de “loading rotados”. Además a:

que es la estimación de Σ, le ocurre que:

es decir, que la estimación de Σ, no se altera cuando “se giran los factores”.

Además si Sn es la estimación “directa” de Σ en base a la muestra; L̂L̂0 + Ψ̂ es la estimación de Σ a través

1.2.3. Cambio de unidades de medida

el modelo de Análisis Factorial inicial se transforma en este

de modo que los “factor loadings” quedan multiplicados por D.

Por otra parte la ecuación estructural de Σ se transforma ası́:

Σ = LΦL0 + Ψ → E (X ∗ − µ∗ )(X ∗ − µ∗ )0 = E (L∗ F + )(L∗ F + ) =

en donde Ψ∗ = DΨD0 = DΨD y Φ = E[F F 0 ] (en el caso oblicuo Φ 6= I).

Por otra parte Σ∗ = Cov[X ∗ ] = DΣD, por lo que

1.3. Métodos de estimación en el Análisis Factorial

1.3.2. El método de las componentes principales

Lo cual significa que la estructura buscada para factorizar Σ se consigue de la forma:

En definitiva el Análisis Factorial es aproximado mediante la metodologı́a del Análisis de Componentes

En definitiva, este procedimiento de estimación de Análisis Factorial, denominado de componentes princi-

2. Se toman, cuando m < p, los primeros λ̂1 , . . . , λ̂m y se construye:

es decir, la diagonal principal de la matriz S − L̂L̂0 .

Por tanto Ψ̂ = diag(ψ1 , . . . , ψp ), es la matriz estimada de unicidades.

4. Las comunalidades estimadas ĥ2i se construyen entonces como:

La manera de actuar es análoga a la que se emplea en las componentes principales:

es pequeño entonces la suma de cuadrados de los errores es pequeña.

La contribución del primer factor a la varianza muestral es ˆli1

s11 + . . . + spp = tr(S)

la contribución a ella del primer factor será:

Variable Estimación de los factor loading Comunalidades Varianzas especı́ficas

siendo h2i , i = 1, . . . , p, las comunalidades de las variables Xi .

en donde L∗r = lij

1.3.4. El método de Máxima Verosimilitud en el Modelo de Análisis Factorial

Estimación de parámetros del Modelo de Análisis Factorial (ortogonal y oblicuo)

Xp×1 Np [µ; Σ = LL0 + Ψ]

Supongamos que disponemos de observaciones:

que constituyen una muestra aleatoria independiente del vector poblacional X.

Supongamos los estadı́sticos muestrales:

L0 Ψ−1 L = ∆ con ∆ una matriz (m × m) diagonal

(ver Anexo B, para la justificación teórica).

En segundo lugar, la función de verosimilitud anterior puede escribirse ası́:

Los vectores X, F y son aleatorios y la matriz L es no aleatoria (modelo de Análisis Factorial

Finalmente, X es observable y F y son no observables.

Cov X; F = E (X − µ)F 0 = E (LF + )F 0 = E LF F 0 + E F 0 =

Σ = LΦL0 + Ψ → E (X ∗ − µ∗ )(X ∗ − µ∗ )0 = E (L∗ F + )(L∗ F + ) =

X − µ = LF + −→ Fj ,  = 1, . . . , n; vector de factores para el caso j-ésimo con n el número de casos −→ fj valor de Fj