Escolar Documentos
Profissional Documentos
Cultura Documentos
agosto 2012
ii
Indice general
1. Introducci
on
1.1. Algebra
lineal . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
12
13
13
13
14
15
15
1.2.
iii
INDICE GENERAL
iv
15
1.3.7. Propiedades . . . . . . . . . . . . . . . . . . . . . . . .
16
17
17
17
18
. . . . . . . . . . . . . . . . . . .
2. Componentes principales
19
3. An
alisis de factores
27
28
. . . . . . . . . . . . . . . . . . .
30
31
32
32
33
3.2.2. Inconvenientes . . . . . . . . . . . . . . . . . . . . . . .
33
3.1.2.
Captulo 1
Introducci
on
1.1.
Algebra
lineal
Empezaremos tomando la
X
11
X21
..
.
X=
Xi1
..
.
Xn1
siguiente matriz:
X12
X1j
X1p
X21
..
.
X2j
..
.
X2p
..
.
Xi2
..
.
Xij
..
.
Xip
..
.
Xn2
Xnj
Xnp
1.1.1.
Combinaci
on lineal de vectores
CAPITULO 1. INTRODUCCION
10
x1 = 3 , x2 = 1 , x3 = 1
6
2
2
Solucion
2
1
10
x1 + x2 3x3 = 3 + 1 3 1
6
2
2
1.1.2.
2 + 1 30
= 3+13
6+26
27
1
2
Independencia lineal
1.1.3.
1.1. ALGEBRA
LINEAL
25
Obtener el rango de x1 = 64 , x2 = 8 , x3 = 1
144
12
1
Solucion: x1 , x2 , x3 son linelamente independientes,ya que no existen k1 ,
k2 y k3 diferentes de 0 tales que k1 x1 + k2 x2 + k3 x3 = 0 por lo tanto el rango
del conjunto de vectores x1 , x2 , x3 es 3.
A continuacion se presentan algunos teoremas relacionados con estos temas.
Teorema 1. Si un conjunto de vectores contiene el vector nulo (0), el conjunto
de vectores es linealmente dependiente.
Sea A1 , A2 , , Ap un conjunto de vectores de dimension n, entonces
k1 A1 + k2 A2 + . . . + kp Ap = A0 es una combinacion lineal de p vectores.
Si asumimos que A1 es el vector 0, cualquier valor de k1 con k2 = k3 =
. . . = kp = 0 satisface la ecuacion de arriba. De aqu se tiene que el conjunto
de vectores es linealmente dependiente ya que existe una solucion diferente a
k1 = k2 = k3 = . . . = kp = 0
Teorema 2. Si un conjunto de vectores son linealmente independientes, entonces un subconjunto de los p vectores tiene que ser linealmente independiente.
Sea este subconjunto Aa1 , Aa2 , , Aap donde m<p. Suponiendo que este
subconjunto es linealmente dependiente, la combinacion lineal k1 Aa1 +k2 Aa2 +
. . . + kp Aap = 0 tiene una solucion no-trivial. Entonces k1 Aa1 + k2 Aa2 +
. . . + kp Aap + 0k1 Aa(p+1) + . . . + 0kp Aam = 0 tambien tiene una solucion
no trivial, donde Aa(p+1) , , Aa m son los (m p) vectores restantes. Esto
es una contradiccion. Entonces un subconjunto de un conjunto de vectores
linealmente independiente no puede ser linealmente dependiente.
Teorema 3. Si un conjunto de vectores es linealmente dependiente, entonces
al menos un vector puede escribirse como combinacion lineal de otros.
CAPITULO 1. INTRODUCCION
k1
A
km 1
...
km1
Am1
km
km+1
Am+1
km
...
kp
A
km p
1.1.4.
c1
..
.
..
.
xm1 k1 + . . . + xmn kn = cn
donde k1 , k2 , . . . , kn son desconocidas. Podemos reescribir estas ecuaciones
con la notacion de vectores de la siguiente manera
k1 x1 + k2 x2 + . . . + kn xn = C
donde
x1 =
x11
x
12
..
..
. x2 = .
xm1
xm2
xn =
x1n
..
.
xmn
k1 x1 + k2 x2 + . . . + kn xn = C.
1.1. ALGEBRA
LINEAL
1.1.5.
Producto punto
ady
Px
xy
=
=
hip
kxk
kxk kyk
donde x y es el tama
no de la proyeccion de x sobre y, por ejemplo
x = (2, 3) y y = (5, 3) entonces
xy
kyk
19
34
= 3,2584
|x y|
|xi yi |
= p 2
kyk
yi
Ejemplo
Si tenemos dos vectores aleatorios con media 0, el coseno del angulo entre
ellos es su correlacion. x = 0, y = 0
i yi
rxy = x2
xi
yi2
= cos
CAPITULO 1. INTRODUCCION
1.1.6.
Transformaciones lineales
x
y
cos sin
sin
cos
x
y
0
x
cos sin
x
=
y0
sin cos
y
matriz para cambiar de escala (ya sea amplificar k > 1 o reducir k < 1
0
x
kX 0
x
=
y0
0 kY
y
Inclinando con respecto al eje x
0
x
1 k
x
=
y0
0 1
y
inclinando respecto al eje y
x0
1 0
x
=
y0
k 1
y
reflejando respecto al eje y
0
x
1 0
x
=
y0
0 11
y
1.1. ALGEBRA
LINEAL
1.1.7.
Eigenvalores y eigenvectores
Ax = x
Cada vector x diferente de cero que satisface la ecuacion de arriba es
llamado un eigenvector de A asociado al eigenvalor . A los eigenvalores
tambien se les llama valores propios, valores caractersticos o valores latentes.
As mismo, a det(In A) se le llama polinomio caracterstico de A.
Procedimientos para calcular valores y vectores propios
1. Encontrar p() = det(A I).
2. Calcular las races 1 , 2 , . . . , p de p() = 0.
3. Resolver el sistema homogeneo (A i I)ci = 0 que corresponde a cada
valor caracterstico de i .
EJEMPLO
A continuacion se presenta un ejemplo para calcular los valores propios de
una matriz.
Sea
A=
2 4
CAPITULO 1. INTRODUCCION
1 1
x
x
1 = 1
2 4
x2
x2
Esta ecuacion equivale a:
x1 + x2 = x1
2x1 + 4x2 = x2
o
( 1)x1 x2 = 0
2x1 + ( 4)x2 = 0
Esta ecuacion es un sistema homogeneo de dos ecuaciones con dos incognitas. Se puede decir que este sistema tiene solucion no trivial si y solo si el
determinante de la matriz de coeficientes es cero, esto es
1 1
=0
2
4
Esto quiere decir que
( 1)( 4) + 2 = 0
o
2 5 + 6 = 0 = ( 3)( 2).
por lo que
1 = 2 y 2 = 3
son los eigenvalores de A. De esta forma podemos calcular el eigenvector
1 1
x
x
1 = 2 1
2 4
x2
x2
Esta ecuacion equivale a:
x1 + x2 = 2x1
2x1 + 4x2 = 2x2
finalmente tenemos
1.1. ALGEBRA
LINEAL
x 1 x2 = 0
2x1 2x2 = 0
entonces los vectores que satisfacen estas ecuaciones son de la forma x1 = x2
para = 2, por ejemplo, el vetor x = (1, 1). De forma analoga procedemos
con = 3 obteniendo que los eigenvectores asociados a este valor son de la
forma x1 = x2 /2, por ejemplo el vector x = (1, 2).
Propiedades
Sea A una matriz de orden p p. Entonces
1.
Pp
i=1
i = traza(A).
2. |A| = det(A) =
Qp
i=1
i = 1 2 p .
1.1.8.
Diagonalizaci
on de matrices
CAPITULO 1. INTRODUCCION
10
1 2 2
A= 2 1 2
2 2 1
1.1. ALGEBRA
LINEAL
11
1
2
0
1/ 3 1 , 1/ 6 1 y 1/ 2 1 .
1
1
1
respectivamente.
Entonces por la descomposicion espectral se tiene que
2
1
h
i
A = 5/3 1 1 1 1 1/6 1
1
1
h
h
i
i
2 1 1 1/2 1 0 1 1
1.1.9.
Este tipo de matrices son las que nos interesan principalmente, debido a
esto, se tomaran en cuenta las siguientes propiedades.
Definicion
Cuando x0 Ax > 0 para todo x diferente a x = 0 se dice que se x0 Ax es una
forma cuadratica positiva definida, y A es una matriz positiva definida(p.s.).
Definicion
Cuando x0 Ax 0 para todo x y x0 Ax = 0 para algunos x 6= 0 entonces x0 Ax es una forma cuadratica semi-positiva definida, y A es una matriz
semi positiva definida(p.s.d.).
Definicion
Los dos tipos de matrices tomados juntos, positivo definido y positivo semidefinido, son llamados no negativos definidos(n.n.d.).
Si son simetricas tienen las siguientes propiedades:
1. Todos sus eigenvalores son reales.
CAPITULO 1. INTRODUCCION
12
2. Son diagonalizables.
3. El rango iguala el n
umero de eigenvalores diferentes de cero.
Teorema 7. Los eigenvalores de una matriz simetrica son todos no-negativos
si y solo si la matriz es n.n.d.
1.2.
Distancia
1.2.1.
Definici
on de distancia
Para que una funcion entre dos puntos sea considerada distancia debe cumplir con las siguientes propiedades:
d(x, y) > 0 x 6= y
d(x, y) = 0 x y
d(x, y) d(x, z) + d(z, y) x, y, z
Ejemplo
La distancia Euclideana:
d2 (x, y) = (x y)0 A(x y)
donde A > 0 es decir una matriz positiva definida.
Podemos representar a todos los elipsoides con la siguiente expresion:
Ed = x <p tales que(x x0 )0 A(x x0 ) = d2 . De esta manera si tenemos
que A = I la representacion nos da un crculo, de otra forma tenemos elipsoides
que dependen directamente de la matriz A.
1.2.2.
Norma de un vector
13
kxk = d(0, x) = x0 x
kxkA = x0 Ax
La u
ltima notacion se lee como norma modulo A.
1.3.
Retomando
X
11
X21
..
.
X=
Xi1
..
.
Xn1
la matriz
X12
X1j
X1p
X21
..
.
X2j
..
.
X2p
..
.
Xi2
..
.
Xij
..
.
Xip
..
.
Xn2
Xnj
Xnp
1.3.1.
Media Pobalcional
1.3.2.
CAPITULO 1. INTRODUCCION
14
R
V ar[X1 ] = (x1 1 )2 f (x1 )dx1 = 12
..
.
R
V ar[Xp ] = (xp p )2 f (xp )dxp = p2
1.3.3.
RR
i.e.
..
..
.
.
(1.1)
E[(X1 1 )(Xn p )]
E[(X2 2 )(Xn p )]
..
E[(Xp p )(Xp p )]
x1 x1
x2 x1
=
..
..
.
.
xp x1
1.3.4.
x1 xp
15
x2 xp
..
xp xp
x1 x1 x1 xp
x2 x1 x2 xp
R=
..
..
..
.
.
.
xp x1 xp xp
1.3.5.
Media Muestral
1.3.6.
CAPITULO 1. INTRODUCCION
16
s1 2 . . . s1p
Pn
..
.. . .
1
0
(x
)(x
)
=
S = n1
.
.
. .
i
i
i=1
2
sp1 . . . sp
1.3.7.
Propiedades
17
1.4.
Normal multivariada
1.4.1.
Funci
on de densidad
La funcion de densidad probabilstica para x normal multivariada con media y matriz varianzas covarianzas .
1
f (x) = (2)p/2 det()1/2 exp[ (x )0 1 (x )]
2
1.4.2.
Transformaci
on de Mahalanobis
1
CAPITULO 1. INTRODUCCION
18
var(z) = Sz = S 2 SS 2 = Ip
Con esta trasformacion se elimina la correlacion entre las variables y estandariza la varianza.
1.4.3.
Mezcla de Normales
0.06
0.00
0.02
0.04
Density
0.08
0.10
12
16
Captulo 2
Componentes principales
Para tener una idea del analisis de componentes principales, dare un ejemplo en el plano. Si se tienen mediciones x1 como alturas y x2 como pesos de
un grupo de personas. Abajo aparece la grafica de dispersion de los datos. El
analisis de componenetes principales tiene como objetivo reducir la dimension
y conservar en lo posible su estructura, es decir la formade la nube de datos,
que por cierto no depende de los ejes utilizados para dar las coordenadas.
En este ejemplo se buscara proyectar los datos sobre un eje que reproduzca
de la mejor manera la formade la nube de datos.
1, X
2 ) y despues se
El primer paso es centrar los datos en el centroide (X
hace una rotacion, de manera que la las proyeccionessean lo mas parecidas
posibles a los vectores originales. En la figura de arriba puede verse que los
individuos que quedan a la izquierda en el eje OY 1, son los mas peque
nos
en talla, y a la derecha los mas grandes. Tomado en cuenta el otro eje OY 2,
los sujetos que quedan por encima de este son los aquellos que tienen un peso
mayor dada la estatura, y por debajo los que tienen poco peso dada su estatura,
es decir este eje habla de habla de la forma de los sujetos. Para estos sujetos
ocurre que varan mucho en talla y hay poca variacion en la forma.
Para este procedimiento se requiere girar los ejes, esto se consigue aplicando
19
20
Estatura vs Peso
80
46
Y1
31
37
44
17
70
21
26
15
32
47
45
41
peso
Y2
43
36
50
10
42
8
2
13
19
33
34 7
16
22
18
2928
60
40
6
14
11 5
35
39
9
25
30
48
4
2420
3
50
49
12
1
23
40
38
27
140
150
160
estatura
170
21
unatransformaci
esto
es
1 =
1 =
X1 sin + X2 cos
X2
sin cos
Y2
Las proyecciones de los puntos sobre el eje OY 1 son una buena aproximacion a los datos, ya que en la otra direccion hay poca variacion.
Entonces se puede usar u
nicamente
Y1 = X1 cos + X2 sin , y as la nueva variable Y1 resume a las otras dos.
20
Pi
10
20
10
dir1[, 2]
P'i
20
10
10
20
dir1[, 1]
(OPi )2
n1
(OPi0 )2
n1
(Pi Pi0 )2
n1
(Pi Pi0 )2
n1
22
y por tanto minimizar
(Pi Pi0 )2
n1
es equivalente a maximizar
(OPi0 )2
,
n1
esta u
ltima
23
donde f es una funcion diferenciable. Existe una tal que
f
xi
g
x
= 0.
i
en este caso es
...
p
NOTA. Esto se da pues la matriz es simetrica y semi positiva definida.
Cual de ellos determina a la primer componente?
var(a01 X) = a01 a1
= a01 Ia1
=
Como interesa que sea el que maximize la varianza, es el mayor de los
i , digamos 1 .
Entonces a1 es el eigenvector asociado a 1 .
Para buscar la segunda componente y2 = a02 X, se impone tambien la condicion a02 a2 = 1, y ademas y2 debe ser no correlacionada a y1 , entonces su
covarianza debe ser cero. Haciendo el desarrollo se tiene
cov(y2 , y1 ) = cov(a02 X, a01 X)
= E[a02 (x )(x )0 a1 ]
= a02 a1
Se sabe que
a1 = 1 a1 y sustituyendo en la expresion anterior se tiene
24
1 a02 a1 = a02 1 a1 = 0
a02 a1 = 0
= 2( I)a2 a1 = 0
0 0 ... 0
0 2 0 . . . 0
...
0 0 0 . . . p
var(Y ) = A0 A = A0 AA0 A =
P
P
traza() = pi=1 i = pi=1 var(yi )
traza() = traza(A0 A) = traza(AA0 ) = traza() =
Pp
Pp
i=1 var(yi ) =
i=1 var(xi )
Pp
i=1
var(xi )
Esto es u
til para determinar el n
umero de componentes a utilizar.
P
Si se considera como varianza generalizada a pi=1 2 i = traza(), entonces
traza() =
Pp
i=1
i .
25
Pp j
i=1
j aij
= i
26
Captulo 3
An
alisis de factores
Nuevamente el vector x0 = (x1 , . . . , xp ) contiene las p variables que interesan estudiar los n individuos de la muestra. Las variables consideradas tienen
unaescala de medicion continua.
La correlacion rij entre dos variables xi y xj puede deberse a que ambas
tienen una relacion con otra variable zk que se considera como no observable,
es decir que si xi esta relacionada con zk y xj esta relacionada con zk , entonces
debe haber una relacion entre xi y xj .
El coeficiente de correlacion parcial rij.k mide la asociacion que hay entre xi
y xj luego de remover el efecto que tiene zk en cada una. Se puede pensar que
si el valor de rij.k se acerca s cero, sucede que zk ha explicado la correlacion
existente entre xi y xj ; pueden considerarse varias variables z1 , . . . , zm para
explicar la asociacion entre xi y xj .
La idea en analisis de factores es explicar las correlaciones contenidas en
R = [rij ] a traves de un conjunto de variables no observables f1 , . . . , fm de
manera que las correlaciones parciales rij.f1 ,...,fm sean muy peque
nas, se
busca tambien que esa m sea peque
na.
Por ejemplo las calificaciones que los estudiantes puedan sacar en calculo mental, manejo de vocabulario, comprension de lectura, dibujo,etc, estan
27
CAPITULO 3. ANALISIS
DE FACTORES
28
correlacionadas entre si, ya que cada estudiante posee cualidades como inteligencia, memoria, habilidad espacial,etc, todas estas cualidades no pueden
medirse directamente por lo que se les considera como no observables.
3.1.
Modelo B
asico
xj = 1 + j1 f1 + . . . + jm fm + ej
Las j y las ji son constantes, mientras que ej y los fi (con j = 1 . . . p y
i = 1 . . . m) son variables aleatorias. Se considera a los ej no correlacionados
entre s y los ej son no correlacionados con fi . A los ej se les llama factores
especficos.
De manera matricial se puede escribir como
x = + f + e o centrando la variable en cero x = f + e donde
x = (x1 , x2 , . . . , xp ), e0 = [e1 , e2 , . . . , ep ] , f 0 = [f1 , f2 , . . . , fm ] y la matriz
contiene solo constantes
. . . 1m
11 12
..
..
= .
.
p1 . . . . . . pm
3.1. MODELO BASICO
12
...
29
0
0 22 . . . 0
...
0 . . . 0 p2
Suponiendo que la matriz de varianzas y covarianzas de f es , por ser
simetrica y semipositiva definida se puede escribir como = LL0 , si se considera el vector f = L1 f , este vector mantiene su media en cero y tiene
0
2
| {zjk}
comunalidad
j2
|{z}
especif icidad
m
X
ik jk
k=1
= 0 +
Al calcular la covarianza entre los factores comunes y las varibles originales
se tiene que:
cov(x, f ) = E((f + e)f 0 ) =
CAPITULO 3. ANALISIS
DE FACTORES
30
3.1.1.
Factores principales
y1 = 11 x1 + . . . + 1p xp
..
.
yp = p1 x1 + . . . + pp xp
como los eigenvectores j son ortogonales se tiene que
x1 = 11 y1 + . . . + 1p yp
..
.
xp = p1 y1 + . . . + pp yp
de tal forma que en los u
ltimos terminos se explica poco pues las componentes principales van reduciendo su varianza.
Podemos escribir lo anterior como
xi = 1i y1 + 2i y2 + . . . + mi ym + i
que se parece a
xi = 1i f1 + 2i f2 + . . . + mi fm + ei
donde i = m+1 i ym+1 + . . . + p yp .
Hay que fijarse que los i no cumplen con el supuesto de ser no correlacionados. Como i = m+1 ym+1 + . . . + p yp para cada i aparecen las mismas
componenetes principales yj , entonces las i s estan correlacionadas.
3.1. MODELO BASICO
31
yj
var(yj )
3.1.2.
Pm
k=1
matriz
Se hace un metodo iterativo para hallar los factores comunes de la manera
siguiente:
1. encontrar una comunalidad inicial.
usar las cargas de
2. hacer un componentes principales de la matriz S ,
0
3. recalcular como la diagonal de S
CAPITULO 3. ANALISIS
DE FACTORES
32
3.1.3.
Factores por m
axima verosimilitud
3.2.
33
3 4 5 6 7 8 9 10 15 20
Maximo n
umero de factores 1 1 2 3 3 4 5
3.2.1.
10 14
Rotaci
on de factores
3.2.2.
Inconvenientes