Você está na página 1de 45

Analise Fatorial

Prof. Caio Azevedo

Prof. Caio Azevedo


Analise Fatorial
Motivacao

Charles Spearman, Thomson, Thurstone e Burt, buscaram obter


uma melhor compreensao para inteligencia. Este conceito esta
relacionado a variaveis cognitivas.

Eles conjecturaram a possibilidade de que os desempenhos de


indivduos (habilidades) em testes cognitivos, em diferentes areas,
pudessem ser representados por um numero menor de variaveis nao
observaveis (latentes).

Colocando de uma outra forma, tais variaveis latentes podem ser


mensuradas atraves do desempenho dos indivduos.

Prof. Caio Azevedo


Analise Fatorial
Exemplo 5: Johnson & Wichern

Notas de indivduos em diferentes testes. Matriz de correlacoes


baseada nos resultados de 220 indivduos. Analise: dados simulados
a partir da matriz de correlacoes.
Variaveis:
Gaelic: idioma gaelico (Ga).
English: lngua inglesa (I).
History: Historia (H).
Arithmetic: Aritmetica (Ar).
Algebra: Algebra (Al).
Geometry: Geometria (Ge).

Prof. Caio Azevedo


Analise Fatorial
Matriz de correlacoes

Ga I H Ar Al Ge
Ga 1,000 0,439 0,410 0,288 0,329 0,248
I 0,439 1,000 0,351 0,354 0,320 0,329
H 0,410 0,351 1,000 0,164 0,190 0,181
Ar 0,288 0,354 0,164 1,000 0,595 0,470
Al 0,329 0,320 0,190 0,595 1,000 0,464
Ge 0,248 0,329 0,181 0,470 0,464 1,000

Prof. Caio Azevedo


Analise Fatorial
Dados simulados (N6 (, ))

Medias e variancias artificiais: = (8, 2; 8, 0; 7, 6; 9, 1; 9, 4; 8, 9)0 e


= (1, 0; 1, 5; 0, 8; 1, 3; 1, 7; 2)0 .

Matriz de covariancias (). Seja R a matriz de correlacoes anterior



e = diag( 1, 0; 1, 5; 0, 8; 1, 3; 1, 7; 2, 0). Entao
= R.

Na matriz de dados simulados, digamos X , foi realizada a seguinte


transformacao (a fim de assegurar que a matriz de covariancias,
portanto a de correlacoes, amostrais, sejam muito proximas das
desejadas): X = (X (Chol(S 2 ))1 ) Chol(), em que S 2 e a
matriz de covariancias amostrais de X .
Prof. Caio Azevedo
Analise Fatorial
Correlacoes

Geometria

Aritmtica

lgebra
Histria
Galico

Ingls
1

Galico
0.8

0.6

Histria

0.4

0.2
Ingls

Geometria
0.2

0.4

Aritmtica

0.6

0.8
lgebra

Prof. Caio Azevedo


Analise Fatorial
Modelo de analise fatorial (MAF)

Temos:
X1 = 1 + l11 F1 + l12 F2 + ... + l1m Fm + 1

X2 = 2 + l21 F1 + l22 F2 + ... + l2m Fm + 2


.. ..
. = .

Xp = p + lp1 F1 + lp2 F2 + ... + lpm Fm + p

Fi , i = 1, 2, .., m, sao os fatores (ou fatores comuns), i , i = 1, ..., p


sao erros aleatorios (ou fatores especficos) e lij , i = 1, .., p;
j = 1, .., m sao as chamadas cargas fatoriais (m < p).
Varias estruturas podem ser consideradas para Fi e i . Veremos o
chamado modelo de analise fatorial ortogonal (MAFO).
Prof. Caio Azevedo
Analise Fatorial
MAFO (forma matricial)
X = + LF +

X1 F1 1 l11 l12 ... l1m

X2 F2 2 l21 l22 ... l2m


X =
..
;F =

; =
.. ..
;L =
.. .. .. ..
;

. . . . . . .

Xp Fm p lp1 lp2 ... lpm

1

2


=
..
.


.

p
Prof. Caio Azevedo
Analise Fatorial
MAFO (forma matricial)

Adicionalmente, E(F ) = 0m , E() = 0p , Cov (F ) = I m , Cov () = e



1 0 . . . 0

0 2 . . . 0


Cov (, F ) = 0(pm) , em que =
.. .. . . .
.
. ..

. .

0 0 ... p

Prof. Caio Azevedo


Analise Fatorial
MAFO (forma matricial)

Assim, o MAF (e, particularmente o MAFO) e um modelo de


regressao linear multivariado no qual as variaveis explicativas (F )
nao sao observaveis.

Com efeito, os fatores sao considerados variaveis aleatorias.

E chamado de ortogonal pois esta-se admitindo que os fatores


comuns sao nao correlacionados (Cov (F ) = I m ).

Prof. Caio Azevedo


Analise Fatorial
MAFO: caractersticas e propriedades
F : vetor de fatores (comuns).

: vetor de fatores especficos (ou erros aleatorios).

L : matriz de cargas fatoriais.

E(X ) = + E(F ) + E() = + 0 + 0 = .

Cov (X ) = Cov (LF ) + Cov () + Cov (LF , ) =


LCov (F )L0 + + 0 = LL0 + .

Cov (X , F ) = Cov ( + LF + , F ) =
Cov (, F ) + Cov (LF , F ) + Cov (, F ) = 0 + LCov (F , F ) + 0 = L.

Objetivo: estimar L (quantidade nao aleatoria) e predizer F


(quantidade aleatoria) com base em uma matriz de dados.
Prof. Caio Azevedo
Analise Fatorial
MAFO: propriedades
Note que

l11 l12 ... l1m l11 l21 ... lp1

l21 l22 ... l2m l12 l22 ... lp2

0

LL =
.. .. .. ..

.. .. .. ..
=

. . . . . . . .

lp1 lp2 . . . lpm l1m l2m ... lpm
P
m Pm Pm
l2 j=1 l1j l2j ... j=1 l1j lpj
P j=1 1j
m Pm 2 Pm
j=1 l1j l2j j=1 l2j ... j=1 l2j lpj


.. .. ..

..
. . . .

Pm Pm Pm 2
j=1 l1j lpj j=1 l2j lpj ... j=1 lpj

Prof. Caio Azevedo


Analise Fatorial
MAFO: propriedades
Variancia:
m
X
V(Xi ) = lij2 + i . (1)
|{z}
j=1
| {z } especificidade
comunalidade
Pm
Cov (Xi , Xj ) = k=1 lik ljk .

Seja T(mm) uma matriz ortogonal (T 1 = T 0 ) e defina L = LT ,


assim:
L (L )0 + = (LT )(LT )0 + = LT T 0 L0 + = LL0 +

Assim, note que qualquer transformacao ortogonal na matriz de


cargas fatoriais leva a mesma representacao da matriz de
covariancias.
Prof. Caio Azevedo
Analise Fatorial
MAFO: propriedades

Isso pode levar a um problema de falta de identificabilidade se, por


exemplo, estimarmos as quantidades de interesse utilizando metodos
baseados na verossimilhanca.

Resultado: Se Y |X = x Np (Ax + B, ) e X Nq (, ), entao


Y Np (A + B, AA0 + ).

Exemplo: Se F Nm (0, I ) e Np (0, ) entao


X |F = f Np ( + Lf , ). Assim, X Np (, LL0 + )

Prof. Caio Azevedo


Analise Fatorial
MAFO: propriedades
Seja L(L, ) = f (x), entao

 
0 1/2 1 0 0
1
L(L, ) fx (x) |LL + | exp (x ) LL + (x )
2

L(L, ) = L(L , )

Falta de identificabilidade: diferentes valores dos parametros levam


ao mesmo valores da verossimilhanca.

Tal aspecto pode ter de ser levado em consideracao, consoante o


mecanismo de estimacao adotado para as cargas fatoriais.

Prof. Caio Azevedo


Analise Fatorial
Analise fatorial Analise de componentes principais

Analise fatorial Analise de componentes princi-


pais
Modelo estatstico Sem modelo estatstico
Impoe uma estrutura especfica Nao impoe estrutura
para matriz de covariancas dos da-
dos
Busca, por definicao, diminuir a di- A diminuicao da dimensionalidade
mensionalidade dos dados e uma consequencia

Prof. Caio Azevedo


Analise Fatorial
Estimacao

Seja uma matriz de dados X (np)

Indivduo Variavel 1 Variavel 2 ... Variavel p


1 X11 X12 ... X1p
2 X21 X22 ... X2p
.. .. .. .. ..
. . . . .
n Xn1 Xn2 ... Xnp

Estima-se as cargas fatoriais e, posteriormente, prediz-se os fatores.

Prof. Caio Azevedo


Analise Fatorial
MAFO para uma matriz de dados

Xi1 = 1 + l11 Fi1 + l12 Fi2 + ... + l1m Fim + i1

Xi2 = 2 + l21 Fi1 + l22 Fi2 + ... + l2m Fim + i2


.. .. ..
. = . .

Xip = p + lp1 Fi1 + lp2 Fi2 + ... + lpm Fim + ip

i=1,2,...,n.

Prof. Caio Azevedo


Analise Fatorial
MAFO (matriz de dados)

X (np) = 1n 0 + F (nm) L0(mp) + (np)

X : matriz de dados.
: vetor de medias e 1n e um vetor de 1s de tamanho n.
F : matriz de fatores (comuns), desconhecida e aleatoria.
L: matriz de cargas fatoriais, desconhecida e nao aleatoria.
: matriz de resduos.
E(F i ) = 0m , E( i ) = 0p , Cov (F i ) = I m , Cov ( i ) = e
Cov ( i , F j ) = 0(pm) , i, j, em que = diag(1 , ..., p ),
i,j=1,2,...,n.
Prof. Caio Azevedo
Analise Fatorial

X11 X12 ... X1p 1 l11 l12 ... l1m

X21 X22 ... X2p 2 l21 l22 ... l2m


X =
.. .. .. ..
; =
..
;L =
.. .. .. ..


. . . . . . . . .

Xn1 Xn2 ... Xnp p lp1 lp2 ... lpm

F11 F12 ... F1m F1

F21 F22 ... F2m F2


F =
.. .. .. ..
=
..
; =

. . . . .

Fn1 Fn2 ... Fnm Fn

11 12 ... 1p 1

21 22 ... 2p 2


= ;
.. .. .. ..

..
. . . . .

n1 n2 ... np n

Prof. Caio Azevedo


Analise Fatorial
Estimacao de L: metodo das componentes principais

Pela decomposicao espectral, temos que: = E E 0 (os autovetores


ortonormalizados correspondem as colunas da matriz E ), em que

e11 e21 . . . ep1

e12 e22 . . . ep2 h
i
E = .. .. ..
= e e ... e
.. 1 2 p
. . . .

e1p ep2 . . . epp

Prof. Caio Azevedo


Analise Fatorial
Estimacao de L: metodo das componentes principais

Suponha um modelo com p fatores e sem contribuicao dos erros


aleatorios (fatores especficos), ou seja, i = 0, i = 1, 2, ..., p, assim,
teramos

= E E 0 = (E 1/2 )(1/2 E 0 ) = LL0 + |{z}



0

e0
1 1
2 e 02
i
h
= LL0


p
1 e 1 2 e 2 ... p e p

...
p
p e 0p

Prof. Caio Azevedo


Analise Fatorial
Estimacao de L: metodo das componentes principais

Logo

h p i
L = 1 e 1 2 e 2 ... p e p
p
l11 l12 ... l1p 1 e11 2 e21 ... p ep1
p
l21 l22 ... l2p 1 e12 2 e22 ... p ep2



.. .. .. .. =

.. .. .. ..


. . . . . . . .


p
lp1 lp2 ... lpp 1 e1p 2 ep2 ... p epp
p
Assim lij = j eji . Na pratica, utilizamos a matriz de
q
variancias-covariancias amostrais, assim e lij = ej eeji .
Prof. Caio Azevedo
Analise Fatorial
Estimacao de L: metodo das componentes principais

Suponha que agora que m < p (m fatores), assim = E E 0 + ,


logo (veja equacao (1)), uma estimativa para i , i = 1, 2, .., p e dada
por

m
X
ei2
ei = lij2
e
j=1

ei2 e a variancia amostral da variavel i.


em que
Para estimar utilizamos o vetor de medias amostrais (x), como
visto anteriormente.
e L
Naturalmente desejamos que eLe0 + .
e

Neste procedimento nao ha problemas de falta de identificabilidade.


Prof. Caio Azevedo
Analise Fatorial
Observacoes

De (1), temos que a contribuicao do fator j para explicar a variancia


da variavel i e dada por lij2 .

Assim, tal contribuicao, para explicar a soma das variancias de todas


Pp 2
as variaveis (variancia total) e dada por i=1 e
lij .
Pp e2 e
Pode-se provar que i=1 lij = j .

Prof. Caio Azevedo


Analise Fatorial
Observacoes

Assim, um outro criterio que pode auxiliar na escolha do numero de


fatores a serem considerados e a proporcao da variancia total

Pp j
e
explicada por cada fator (e acumulada), ou seja ei2

(PVE pelo
i=1

fator j).
Os resultados tambem se aplicam se trabalharmos com variaveis
com variancia unitaria, ou seja, se usarmos ao inves de .
Nesse caso () :

m
X
ej
ei = 1 lij2 ; PVEj =
e
p
j=1

Prof. Caio Azevedo


Analise Fatorial
Estimacao de L e : metodo de maxima verossimilhanca

Maximizar

( n
)
0 n/2 1X 0 0
1
L(L, ) |LL + | exp (x i ) LL + (x i )
2
i=1

em relacao a L e .

Problema: falta de identificabilidade.

A maximizacao analtica e complicada. Algum metodo numerico de


otimizacao tem de ser utilizado (Newton-Raphson, Escore de Fisher,
BFGS, Nelder-Mead).

Prof. Caio Azevedo


Analise Fatorial
Identificabilidade

Fixar alguns valores de L ou de LL0 .

Restricao: L0 1 L = , em que e uma matriz diagonal. Note


que a verossimilhanca depende de e L somente atraves de
1
+ LL0 . Alem disso:

1 1 0 1
+ LL0 = 1 1 L I + L0 1 L L

1
1 0 1
= I L I + |L {z L} L0 1

Prof. Caio Azevedo


Analise Fatorial
Cont.

Note que (sendo T uma matriz ortogonal):

1 1
L (I + ) L0 = LT T 0 (I + ) (LT T 0 )0
1
= LT T 1 (I + ) (T 1 )1 T 0 L0
1 0 0
= LT T T 1 + T T 1 T L
1
LT I + T T 0 T 0 L0

=
1 0
= L I + T T 0 (L )

em que L = LT e T T 0 6= .
Prof. Caio Azevedo
Analise Fatorial
Determinacao do numero de fatores

e L
Desejamos que eLe0 + .
e

Um outro criterio que pode auxiliar na escolha do numero de fatores


a serem considerados e a proporcao da variancia total explicada por
Pp e2
l
cada fator (e acumulada), ou seja Ppi=1 ij2 (PVE pelo fator j).
i=1
ei

Se trabalharmos com variaveis com variancia unitaria, ou seja, se


Pp e2
i=1 lij
usarmos ao inves de , teremos PVEi = p

Testes de hipotese.

Prof. Caio Azevedo


Analise Fatorial
Testes de hipotese para determinacao do numero de
fatores via MV

O resultado e valido se considerarmos ou

Desejamos testar se H0 : = LL0 + vs H1 : 6= LL0 + . Seja


= (, ) (irrestrito), 0 = (, L, ) (restrito).

Teste da razao de verossimilhancas: 0 - espaco parametrico sob H0


- espaco parametrico irrestrito.
sup0 L(,) sup0 L(,L,)
Estatstica: = sup L(,) = sup L(,) .

Sob H0 ou irrestritamente o emv de e dado por X .

Prof. Caio Azevedo


Analise Fatorial
Testes de hipotese para determinacao do numero de
fatores via MV

Irrestritamente o emv de e dado por


b = 1 Pn (x i x) (x i x)0 .
n i=1

Os estimadores de MV de L e sao obtidos numericamente.

E bastante complicado obter a distribuicao exata (mesmo usando


aproximacoes analticas) de ou mesmo = 2 ln .

Contudo, sob H0 , 2(r ) , para n suficientemente grande.

Vamos determinar r .

Prof. Caio Azevedo


Analise Fatorial
Testes de hipotese para determinacao do numero de
fatores via MV

tem p(p + 1)/2 parametros, L tem pm parametros e p.


Contudo, devido a restricao L0 1 L = , temos ainda mais
m(m+1)
2 m = m(m1)
2 restricoes (note que L0 1 L, que e simetrica,
tem m(m + 1)/2 parametros, os quais devem ser iguais a m
parametros (em ))
h i
p(p+1) m(m1)
Assim, r = 2 p(m + 1) 2 = 12 [(p m)2 p m].

Prof. Caio Azevedo


Analise Fatorial
MMV (metodo de maxima verossimilhanca) MCP
(metodo das componentes principais)
MMV MCP
Inferencia atraves de resultados as- Inferencia atraves de reamostra-
sintoticos ou de reamostragem gem
Teste de hipotese para determinar Determinacao de fatores atraves
a quantidade de fatores de metodologias descritivas
Complicado do ponto de vista Simples do ponto de vista compu-
computacional tacional
Ha problemas de falta de identifi- Nao ha problemas de falta de iden-
cabilidade tificabilidade
Prof. Caio Azevedo
Analise Fatorial
5 6 7 8 9 10 11 7 8 9 10 11 12 6 8 10 12

11








9







Galico







5


11











Ingls























7

9

















Histria




11





















Aritmtica
9

12

















lgebra


















10











Geometria













8

5 6 7 8 9 10 11 5 6 7 8 9 6 8 10 12

Prof. Caio Azevedo


Analise Fatorial


12




10
8
6

Galico Ingls Histria Aritmtica lgebra Geometria

Prof. Caio Azevedo


Analise Fatorial

2



2


1





1

Histria
Galico

Ingls

0

1



1

2




2

3

3

3
3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 2 1 0 1 2 3

quantil da N(0,1) quantil da N(0,1) quantil da N(0,1)

2


2

Geometria
Aritmtica




lgebra

0






1

1




2

2
3

3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 2 1 0 1 2 3

quantil da N(0,1) quantil da N(0,1) quantil da N(0,1)

Prof. Caio Azevedo


Analise Fatorial
3000
2500
2000
forma quadrtica

1500
1000
500
0

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

quantil da distribuio quiquadrado

Prof. Caio Azevedo


Analise Fatorial
Estimativas das cargas fatoriais: componentes principais
Comun. ( m 2
P
Var. Fator 1 Fator 2 j=1 lij ) Var. Especf. (i )
Gaelico 0,646 0,526 0,694 0,306
Ingles 0,738 0,098 0,554 0,446
Historia 0,447 0,750 0,763 0,237
Artimetica 0,772 -0,361 0,726 0,274
Algebra 0,776 -0,325 0,707 0,293
Geometria 0,691 -0,313 0,576 0,424
Proporcao da soma das variancias explicadas:
Fator 1 Fator 2

ei 2,84 1,18
PVE 47,27 19,71
PVEA 47,27 66,98

Prof. Caio Azevedo


Analise Fatorial
0
R L
eLe

Gaelico Ingles Historia Aritmetica Algebra Geometria


Gaelico 0,306 -0,102 -0,217 -0,035 -0,004 0,007
Ingles -0,102 0,446 -0,113 -0,049 -0,109 -0,131
Historia -0,217 -0,113 0,237 0,058 0,044 0,055
Aritmetica -0,035 -0,049 0,058 0,274 -0,091 -0,157
Algebra -0,004 -0,109 0,044 -0,091 0,293 -0,135
Geometria 0,007 -0,131 0,055 -0,157 -0,135 0,424

QMresduos = 0,128.

Prof. Caio Azevedo


Analise Fatorial
R L
eLe0
e

Gaelico Ingles Historia Aritmetica Algebra Geometria


Gaelico 0,000 -0,102 -0,217 -0,035 -0,004 0,007
Ingles -0,102 0,000 -0,113 -0,049 -0,109 -0,131
Historia -0,217 -0,113 0,000 0,058 0,044 0,055
Aritmetica -0,035 -0,049 0,058 0,000 -0,091 -0,157
Algebra -0,004 -0,109 0,044 -0,091 0,000 -0,135
Geometria 0,007 -0,131 0,055 -0,157 -0,135 0,000

QMresduos = 0,073.

Prof. Caio Azevedo


Analise Fatorial
A funcao factanal do R estima as cargas fatoriais apenas pelo
metodo de maxima verossimilhanca utilizando sempre a matriz de
correlacoes.

Sintaxe basica: factanal(x=mx,factors=2,rotation=none) (mx e


a matriz de dados). Tambem e possvel introduzir diretamente a
matriz de covariancias (ou de correlacoes) amostrais (covmat =
matriz de covariancias ou matriz de correlacoes)
factanal(covmat=sigma,factors=2,rotation=none).

Se e utilizado uma matriz de dados em que as variaveis nao estao


padronizados (variancia unitaria) a funcao as padroniza. Se e
utilizada a matriz de covariancias ela e transformada na respectiva
matriz de correlacoes.
Prof. Caio Azevedo
Analise Fatorial
Estimativas das cargas fatoriais: maxima verossimilhanca
Comun. ( m 2
P
Var. Fator 1 Fator 2 j=1 lij ) Var. Especf. (i )
Gaelico 0,583 0,533 0,625 0,375
Ingles 0,641 0,103 0,422 0,578
Historia 0,354 0,490 0,365 0,635
Aritmetica 0,760 -0,297 0,665 0,335
Algebra 0,742 -0,218 0,599 0,401
Geometria 0,604 -0,143 0,386 0,614
Proporcao da soma das variancias explicadas:
Fator 1 Fator 2
Pp e2
i=1 lij 2,37 0,691
PVE 39,50 11,50
PVEA 39,50 51,00

Prof. Caio Azevedo


Analise Fatorial
Teste para dois fatores: = 3, 04(0, 55). (Observacao, para um
fator = 60, 71(< 0, 0001).
0
R L
eLe

Gaelico Ingles Historia Aritmetica Algebra Geometria


Gaelico 0,375 -0,003 -0,002 -0,011 0,010 0,012
Ingles -0,003 0,578 0,013 0,028 -0,023 -0,024
Historia -0,002 0,013 0,635 0,009 -0,009 -0,015
Aritmetica -0,011 0,028 0,009 0,335 -0,003 -0,012
Algebra 0,010 -0,023 -0,009 -0,003 0,401 0,023
Geometria 0,012 -0,024 -0,015 -0,012 0,023 0,614

QMresduos = 0,093.

Prof. Caio Azevedo


Analise Fatorial
R L
eLe0
e

Gaelico Ingles Historia Aritmetica Algebra Geometria


Gaelico 0,000 -0,003 -0,002 -0,011 0,010 0,012
Ingles -0,003 0,000 0,013 0,028 -0,023 -0,024
Historia -0,002 0,013 0,000 0,009 -0,009 -0,015
Aritmetica -0,011 0,028 0,009 0,000 -0,003 -0,012
Algebra 0,010 -0,023 -0,009 -0,003 0,000 0,023
Geometria 0,012 -0,024 -0,015 -0,012 0,023 0,000

QMresduos = 0,011.

Prof. Caio Azevedo


Analise Fatorial

Você também pode gostar