Escolar Documentos
Profissional Documentos
Cultura Documentos
ANLISE FATORIAL
Uma Introduo
NDICE
Pgina
1. INTRODUO........................................................................................................1
2. MODELO TERICO...............................................................................................2
3. PROCEDIMENTOS GERAIS PARA A ANLISE FATORIAL ("FACTOR
ANALYSIS")...........................................................................................................5
4. MTODOS DE ESTIMAO DAS CARGAS DOS FATORES..........................6
5. ROTAO DOS FATORES.................................................................................15
6. ESTIMAO DOS VALORES DOS FATORES.................................................20
7. EXEMPLOS DE APLICAO ............................................................................23
8. POSSVEIS FONTES DE ERROS EM ANLISE FATORIAL/ ........................39
9. NMERO E SIGNIFICADO DOS FATORES ....................................................40
10. PERSPECTIVAS E ESTRATGIAS PARA ANLISE FATORIAL................42
11. REFERNCIAS BIBLIOGRFICAS.................................................................43
1. INTRODUO
A anlise fatorial ("Factor Analysis") a principal e a mais antiga tcnica de anlise
multivariada. A idia fundamental foi proposta por Sperman e por Pearson, no incio do
sculo, para entender problemas relacionados psicologia educacional, na tentativa de definir
inteligncia (MARRIOTT, 1974).
Seu desenvolvimento e principalmente, a sua utilizao, foram limitados durante
muitos anos, devido complexidade dos clculos envolvidos. Com o advento do
processamento de dados computadorizado, o uso e interesse pela anlise fatorial foi renovado
e retomado (MENEZES et al., 1978). A anlise fatorial tem sido usada nas mais diversas
reas do conhecimento, como por exemplo, Agronomia (FACHEL, 1978), Biologia
(FOWLER, 1993), Floresta (QUEIROZ, 1984), Cincias Sociais (MENEZES et al., 1978),
em que o pesquisador se depara com observaes de vrias variveis para cada elemento de
uma amostra de plantas, animais, ou de outros tipos de unidades experimentais.
MENEZES et al., 1978 comentam que a anlise fatorial pode ser usada no agrupamento de variveis ou no agrupamento de unidades de observaes. No primeiro caso a matriz
de dados iniciais tem as variveis nas colunas e as unidades de amostra nas linhas. No
segundo caso, transpe-se a matriz anterior, obtendo-se as unidades nas colunas e as variveis
nas linhas.
Se o nmero de variveis estudadas grande, uma estratgia de anlise seria a de
tentar simplificar ou melhor estruturar o conjunto de dados, a partir das inter-relaes entre
tais variveis. Tais inter-relaes podem ser medidas pelas covarincias ou pelos coeficientes
de correlao entre as variveis. Duas tcnicas estatsticas de anlise multivariada so
comumente utilizadas para tratar este problema: Anlise de Componentes Principais e Anlise
Fatorial (JOHNSON & WICHERN, 1988).
A Anlise Fatorial um conjunto de mtodos estatsticos que, em certas situaes,
permite "explicar" o comportamento de um nmero relativamente grande de variveis observadas, em termos de um nmero relativamente pequeno de variveis latentes ou fatores. Os
fatores podem ser no correlacionados (fatores ortogonais) ou correlacionados (fatores
oblquos). As variveis so agrupadas por meio de suas correlaes, ou seja, aquelas pertencentes a um mesmo grupo sero fortemente correlacionadas entre si, mas pouco correlacionadas com as variveis de outro grupo. Cada grupo de variveis representar um fator
(JOHNSON & WICHERN, 1988).
Como uma tcnica de anlise multivariada, relevante mostrar como se situa a
Anlise Fatorial em relao s outras tcnicas. Segundo Kendal (1950), citado por FACHEL
(1976), as tcnicas de anlise multivariada podem ser distinguidas em:
a) Anlise de dependncia: quando queremos estudar a dependncia de uma ou mais
variveis em relao s outras. Consideramos, ento, dois subconjuntos: um no qual as
variveis so denominadas independentes e outro em que tratamos das variveis dependentes.
b) Anlise de interdependncia: quando estamos interessados nas relaes de um
conjunto de variveis entre si, sem selecionarmos nenhuma delas em especial, como varivel
dependente.
No primeiro tipo de anlise enquadram-se, por exemplo, Anlise de Regresso e Anlise de Varincia Multivariada, enquanto que no segundo tipo de classificao, salientandose apenas o carter de interdependncia das variveis que se enquadram as tcnicas de Anlise
Fatorial e de Componentes Principais.
2. MODELO TERICO
Considerando um conjunto de p variveis, com n observaes para cada varivel,
obtm-se o arranjo de valores
[ x ij ], i = 1, 2,..., n , j = 1, 2,..., p
partir do seguinte conjunto de dados
Variveis
indivduos
X1
X2
...
Xp
x11
x12
...
x1p
x 21
...
x n1
x 22
...
x n2
...
x 2p
...
x np
...
n
...
X p = a p1F1 + a p2 F2 + + a pm Fm + e p
ou seja,
X j = a j1F1 + a j2 F2 + + a jm Fm + e j ,
(eq.2.1)
exposio terica, mas sem perda de generalidade. Seria como se estivssemos trabalhando com as observaes centradas, o
que consiste em subtrair, de cada observao, o valor da mdia das observaes. O modelo, considerando-se o vetor de
X j = + a j1F1 + a j 2 F2 + + a jm Fm + e j o que corresponde a
mdias, seria:
X j = a j1F1 + a j2 F2 + + a jm Fm + e j
2
Matricialmente teramos
X = ( pxm
) ( mxF1) + ( px1)
(eq.2.2)
( px1)
Uma verificao direta do modelo fatorial, partir das observaes X1, X2,..., Xp,
impossibilitada por tantas quantidades no observveis. Entretanto, com algumas pressuposies impostas aos vetores aleatrios, F e , o modelo fatorial implica em certas relaes de
covarincia, que podem ser verificadas (JOHNSON & WICHERN, 1988). Assim os vetores F
e devem satisfazer as seguintes condies:
0)
Cov(,F) = E(F`) = ( pxm
(eq.2.3)
(eq.2.4)
X j = a j1F1 + a j2 F2 +... + a jm Fm + e j
rotao (multiplicao por uma matriz ortogonal), a qual determinada por critrios de
facilidade de interpretao. Obtidas as cargas e as varincias especficas, os fatores so
identificados e comumente calcula-se os valores dos escores fatoriais.
De alguma forma, pode-se dizer que a matriz de correlaes ou de covarincias das
variveis constitui o gentipo responsvel pela variao das unidades de observao,
enquanto a matriz de escores das unidades nos fatores constitui o fentipo, isso , o
posicionamento das mesmas no gentipo. O gentipo pode ser constitudo por um (gentipo
parcial) ou mais fatores (gentipo complexo ou geral) (MENEZES et al., 1978).
3. PROCEDIMENTOS GERAIS PARA A ANLISE FATORIAL ("FACTOR
ANALYSIS")
3.1. Consideraes Iniciais
Dado n observaes de p variveis, geralmente, correlacionadas queremos saber se o
modelo de fatores (eq.2.2), com um pequeno nmero de fatores m (m < p), representa
adequadamente os dados. Essencialmente, poderamos solucionar este problema tentando
verificar a relao das covarincias de X.
A matriz de covarincia amostral S um estimador da matriz de covarincias populacionais desconhecidas . Se os elementos fora da diagonal principal de S forem pequenos ou
ainda se os correspondentes elementos da matriz de correlao amostral R, forem essencialmente iguais a zero, ento as variveis no so relacionadas (ou muito pouco relacionadas), e
a anlise de fatores no ter utilidade. Nessas circunstncias, os fatores especficos desempenham papel dominante e, portanto, a anlise fatorial ser pouco eficiente, pois busca a determinao de um pequeno nmero de fatores comuns importantes. Entretanto, se S aparenta
desviar significativamente da matriz diagonal, ento o modelo de fatores pode ser ajustado
(JOHNSON & WICHERN, 1988).
3.2. Estgios
Existem trs estgios na anlise de fatores. O problema inicial a determinao das
cargas dos fatores (aj k) com j = 1 a p, e k = 1 a m (sendo m < p). H vrios mtodos para a
estimao de parmetros na anlise fatorial, dos quais os mais comuns so o Mtodo do
Componente Principal e o Mtodo da Mxima Verossimilhana.
No importando qual mtodo seja usado para a determinao das cargas dos fatores,
possvel mostrar que tais cargas no so nicas. Se F 1, F2, ..., Fm so os fatores provisrios,
ento, combinaes lineares desses fatores na forma
vista como uma aproximao da anlise fatorial, na medida que ao remover-se os primeiros
componentes principais da matriz de correlaes, as correlaes entre os resduos usualmente
so reduzidas. Entretanto, ao extrair os componentes mais importantes, a anlise de componentes principais no assume, necessariamente, que os resduos no sero correlacionados ou
que sero normalmente distribudos. Portanto, a distino entre a anlise fatorial clssica e a
anlise de componentes principais reside no fato de que a primeira assume um modelo
matemtico definido, no qual o relacionamento entre as variveis explicado precisamente
por m fatores, que os fatores e resduos so normalmente distribudos e as relaes so
lineares (MARRIOTT, 1974).
Segundo MENEZES et al (1978), a diferena bsica entre o modelo de anlise de
componentes principais e o modelo clssico de anlise fatorial que, no primeiro caso,
considera-se a varivel como tal, sem tentar extrair dela o fator nico (soma do termo erro e
varincia nica). Na anlise fatorial, faz-se uma estimativa atravs da comunalidade, que
inserida na diagonal da matriz, obviamente com valores menores que um. Como a varincia
explicada pelo modelo a relao entre a soma dos valores na diagonal e a soma dos valores
fora da diagonal, quanto mais o valor diagonal exceder a comunalidade correta (aproximar-se
de um), tanto maior ser a parcela da varincia no comum sendo tomada como se fosse
varincia comum. Essa distoro ser tanto maior quanto mais inflada estiver a diagonal da
matriz, cujo resultado ser a obteno de fatores que no sejam comuns, construdos com
parcelas da varincia comum das variveis que o compem. Ao contrrio, eles estariam
misturados com a varincia nica, de tal forma que poderia obscurecer (ao invs de
simplificar) as relaes entre as variveis, gerando falsas interpretaes e resultados.
A matriz de covarincia pode ser fatorada pelo processo de expanso de matrizes
simtricas, denominado decomposio espectral. Dessa forma, ser formada por pares de
autovalores
( j )
e
correspondentes
autovetores
normalizados
( v j ),
com
1 2 p 0 (JOHNSON & WICHERN, 1988). Ou seja:
,
,
,
= 1v1v1 + 2 v 2 v 2 + + p v p v p =
1 v1,
2 v2,
1 v1 2 v2 p v p
v,
p p
4
13
2
2
2
10
(eq.4.1)
1
23
v1 = 2 3 ,v2 = 1
4
1 3
1 2
ev = 1 2
18 3
0
18
18
13 4 2
23
4 13 2 = 18 2 [ 2
3 3
2 2 10
13
1 2
+9 1 2 [ 1
0
49
=184 9
2 9
4
4
+9 1
4
1
[
18
18
18
18
18
]+
0]=
118
2 +9 1
9
18
1
4 18
9
2
18
1
18
1
18
4
18
12
4 +9 1
18
2
16
0
18
4
18
1
1
0
0
0
2
2
( pxp )
' + 0
( pxp ) ( pxp )
( pxp )
'
(eq.4.2)
1 v1,
2 v2,
= 1 v1 | 2 v2 | | m vm = '
( pxm) (mxp)
v,
m m
(eq.4.3)
xip x p xip x p
tero a mesma matriz de covarincia amostral S, que os dados originais.
Nos casos em que as unidades das variveis em estudo no so comensurveis,
prefervel trabalhar com as variveis padronizadas
zij =
xij x j
n
( xij x j )
i =1
x ij x j
s2j
n 1
( xi1 x1 )
2
s
1
( xi 2 x2 )
, i = 1, 2, ..., n
2
zi' =
s
2
( xip x p )
2
s
p
X = ( pxm
) ( mxF1) + ( px1)
( px1)
j v ji
Aps a rotao, caso tenha sido necessria, a nova soluo ter a forma:
X = GF* + ou seja
x1 = g11 F1* + g12 F2* + ... + g1m Fm* + e1
x 2 = g 21 F1* + g 22 F2* + ... + g 2 m Fm* + e 2
...
x p = g p1 F1* + g p2 F2* +... + g pm Fm* + e p
onde Fk representa o novo k-simo fator, e x representa os valores padronizados da varivel
em apreo (ou seja, poderiam ser representados por z), e g pm representa as novas cargas dos
fatores aps a rotao. importante salientar que aps a rotao a comunalidade no
alterada.
*
10
r12 h22 r2 p
*
R =
2
r1 p r2 p h p
em que h 2j so obtidos a priori, por um dos processos descritos na seo 4.2.1.
Dessa maneira, todos os elementos da matriz de correlao reduzida R* poderiam ser
determinados pelos m fatores comuns.
partir da matriz de correlao reduzida R*, aplica-se o mtodo dos componentes
principais conforme comentado na seo 4.1. Escolhe-se ento os m primeiros maiores
autovalores dessa matriz e os m autovetores normalizados correspondentes, obtendo-se, ento,
a matriz das cargas fatoriais estimadas pela soluo dos fatores principais e que dada por:
= j v j
a
k =1
11
2
kj
JOHNSON & WICHERN (1988) comentam tambm que tal procedimento pode ser
usado iterativamente, com as comunalidades reestimadas pela expresso anterior como sendo
as estimativas iniciais para o estgio seguinte.
Embora o mtodo do componente principal de R possa ser visto como mtodo do fator
principal, com as comunalidades iniciais estimadas iguais a unidade, ou varincias especficas
iguais a zero, os dois mtodos so filosfica e geometricamente diferentes (HARMAN, 1967).
Na prtica, no entanto, os dois freqentemente geram carregamentos fatoriais comparveis, se
o nmero de variveis for grande e o nmero de fatores comuns pequeno (JOHNSON &
WICHERN, 1988).
4.2.1. O Problema da Comunalidade
Foi observado acima, que a soluo pelo mtodo do fator principal requer um
2
2
2
conhecimento a priori das p comunalidades h 1 , h 2 , , h p , para formar a matriz de
correlao reduzida R*.
Existem vrios mtodos para estimar as comunalidades. Os mais comuns, conforme
citado por KARSON (1982), so:
a) h 2j = 1 (j = 1, 2, ..., p), ou seja, tomar cada comunalidade como sendo igual a 1. Dessa
forma R* = R e a soluo pelo mtodo do fator principal seria idntica soluo pelo
mtodo do componente principal.
b) h 2j = R 2j.1 , 2,..., j1 , j+1 ,..., p , onde R 2 o quadrado do coeficiente de correlao mltipla entre
a varivel X j e todas as outras. Tipicamente esse valor calculado por
1
1
rjj
rj j '
k =1
h 2j
2
kj
computado para
cada j. Esses valores so tomados como novas comunalidades , e uma nova soluo
obtida. Esse processo iterativo mantido at que tenhamos pequenas diferenas nas
comunalidades de uma etapa para a outra.
Para um nmero de variveis (p) maior que 10, Gnanadesikan (1977), citado por
KARSON (1982), diz parecer haver pequenas diferenas nas solues baseadas nos cinco
mtodos
12
L =| |( n 1)/ 2 e ( n 1)/ 2 t r( S
ln L = ( n 1) / 2 ln| | + tr (S 1 )
(eq.4.4)
]}
(eq.4.5)
Temos que a matriz S dada por A/(n-1), sendo A a matriz formada pelas somas de quadrados e somas de
produtos das variveis em questo. Para maiores detalhes sobre essa distribuio, ver KARSON (1982) pginas
75-77 e JOHNSON & WICHERN (1988).
13
I +
'
1
= S
1
(eq.4.6)
(eq.4.7)
')
= diag ( S
'+
|
2 p + 4m + 5
|
'+
1 S p
+ tr
)ln
|S|
14
'+
1 S p
tr
2
calc
. = ( n 1
'+
|
2 p + 4m + 5
|
)ln
6
|
S
|
H 0 : = * * ' + *
contra
H 1 : * * ' + *
em que a estatstica do teste seria
2
calc
. = ( n 1
*
* '+
*
|
2 p + 4m + 5
) ln
6
|R|
sendo R a matriz de correlao amostral, e * e * as matrizes das cargas dos fatores e das
varincias especficas, respectivamente, obtidas partir dos dados padronizados. Pode-se
provar (JOHNSON & WICHERN, 1988) que os valores dos qui-quadrados calculados,
considerando a padronizao das variveis ou no , seriam exatamente os mesmos.
15
cargas. Em outras palavras, se ns multiplicarmos a matriz de cargas fatoriais pm, por uma
matriz ortogonal mMmN, a decomposio da matriz de covarincia no nica, pois se M
ortogonal, ento:
( )
1 p
s = a 2jk
p j =1
2
k
1 p
2 a 2jk
p j =1
2
k
16
p2
p a 2jk
k =1 j =1 h j
m
Ou, de uma maneira mais simples, aps a multiplicao da expresso anterior por p ,
j que a multiplicao por uma constante no afeta o processo de maximizao:
2
4
m p
a jk
V = p
a 2jk h 2j
hj
k =1 j =1
k =1 j =1
(eq.5.1)
Esta expresso foi chamada por Kaiser como critrio varimax normal ou simplesmente
critrio varimax.
O procedimento de clculo para a soluo varimax a que se segue. Os fatores so
rotacionados dois por vez de acordo com o esquema abaixo:
B = M 12 M 13 ...M kq ...M ( m1) ,m`
a jq
hj
e as cargas rotadas por Xj, Yj. A transformao de x j e y j em Xj e Yj se faz da seguinte
maneira:
cos sen
( X j Y j ) = ( x j y j )
cos
sen
17
onde o ngulo de rotao no plano dos fatores k e q. Desde que quadrados e produtos
cruzados das cargas normalizadas sero requeridas no clculo, as seguintes notaes sero
necessrias:
u j = x2j y 2j
v j = 2x jy j
A = uj
B = vj
C = ( u2j v 2j )
D = 2 u jv j
D 2 AB / n
C ( A 2 B2 ) / n
(eq.5.2)
________________________
Obs.: Para cada rotao Tkq , o ngulo que faz com que (eq.5.1) seja mxima pode ser
determinado do seguinte modo:
a) substitumos na expresso (eq.5.1) os valores das novas cargas normalizados, obtidos do
produto
cos sen
( x j y j )
cos
sen
Quadrante
resultante de 4
I:0<4<90o
18
Limites de
0o a 22,5o
II:90o<4<180o
III:-180o<4<-90o
22,5o a 45o
-45o a -22,5o
IV:-90o<4<0o
-22,5o a 0o
soluo inicial
a j1
a j2
0,830
0,818
0,777
0,798
0,786
0,672
0,594
0,647
-0,396
-0,469
-0,470
-0,401
0,500
0,458
0,444
0,333
h 1/j
0,9196
0,9429
0,9081
0,8931
0,9316
0,8132
0,7416
0,7277
cargas normalizadas
variveis auxiliares
xj
yj
uj
vj
u2j v 2j
0,9026
0,8675
0,8556
0,8935
0,8437
0,8264
0,8010
0,8891
-0,4306
-0,4974
-0,5176
-0,4490
0,5367
0,5632
0,5987
0,4576
0,6293
0,5051
0,4641
0,5967
0,4238
0,3657
0,2832
0,5811
3,8490
-0,7773
-0,8630
-0,8857
-0,8024
0,9056
0,9309
0,9591
0,8137
0,2809
-0,2082
-0,4896
-0,5691
-0,2878
-0,6405
-0,7328
-0,8397
-0,3244
-4,0921
Este modelo de tabela indicada como apropriada para todos os dados que porventura
possam ser utilizados no processo de rotao de um par de fatores. Logicamente, para a
rotao de 3 ou mais fatores, tal processo manual seria deveras trabalhoso e, portanto, no se
justificaria. A idia principal deste exemplo apenas compreender melhor como seria
realizada a rotao de fatores pelo mtodo varimax.
Os valores de 2ujvj para cada varivel no foram apresentados no Quadro 2, j que
apenas seu somatrio D requerido, sendo, portanto, facilmente obtido e igual ao valor
2
2
-0,6930. Por outro lado, desde que as diferenas u j v j no so facilmente acumuladas
numa calculadora simples, elas so apresentadas para cada varivel. Somente os somatrios
(A, B e C), requeridos no clculo do ngulo de rotao, so apresentados na ltima linha do
quadro.
1A
soluo inicial apresentada no Quadro 2, segundo HARMAN (1968), foi obtida pelo Mtodo Centride, a
partir de um conjunto de 8 variveis fsicas de 305 garotas (ver HARMAN, 1968, pgina 80. O mesmo autor
comenta ainda (pg. 171) que tal mtodo tem apenas interesse histrico, por ter sido de grande importncia antes
da farta disponibilidade de computadores.
19
0,6782
0,7349
Cargas Normalizadas
Rotacionadas
Quadrados
Soluo Final
Xj
Yj
X2j
Yj2
b j1
b j2
0,9554
0,9749
0,9798
0,9611
0,2560
0,2254
0,1826
0,3431
0,2957
0,2228
0,1999
0,2760
0,9666
0,9744
0,9832
0,9393
0,9128
0,9504
0,9600
0,9237
0,0655
0,0508
0,0333
0,1177
4.0142
0,0874
0,0496
0,0400
0,0762
0,9343
0,9495
0,9667
0,8823
3,9860
0,879
0,919
0,890
0,858
0,238
0,183
0,135
0,250
0,272
0,210
0,182
0,246
0,900
0,792
0,729
0,684
3,5331
3,5049
3,316
2,648
20
fatores em termos das variveis observadas. Para isto, estimam-se os valores de cada fator
para cada indivduo. Estes valores so denominados escores fatoriais.
Sero considerados dois mtodos de estimao dos escores dos fatores, o mtodo dos
mnimos quadrados ponderados e o mtodo da regresso. Estes mtodos sero descritos
conforme apresentado por FACHEL (1976), ou seja, supondo-se que os fatores sejam
correlacionados, por ser mais geral. No caso de fatores no correlacionados e padronizados,
os resultados so obtidos do mesmo modo, considerando-se Cov(F) = = I.
Ambos os mtodos apresentam os seguintes pressupostos (JOHNSON & WICHERN,
1988):
a) As estimativas das cargas fatoriais (ajk) e das varincias especficas (j) so
tomadas como valores paramtricos;
b) Os mtodos envolvem transformaes lineares dos dados originais padronizados, e
geralmente, utilizam as cargas estimadas nos clculos dos escores.
Em anlise de Componentes Principais, as componentes so definidas como funes
lineares das variveis observadas e ento, os valores de cada componente, para cada
indivduo, podem ser facilmente encontrados. Em Anlise Fatorial, os fatores no so funes
lineares das variveis observadas apenas e os escores de um indivduo sobre eles no podem
ser encontrados da mesma maneira. necessrio, ento, introduzir um princpio de mnimos
quadrados, para se obter razoveis estimadores dos escores fatoriais (FACHEL, 1976).
6.1. Mtodo da Regresso (Mtodo de Thomson)
Seja X = (X1, X2, ...,Xp)' o vetor das observaes. Seja F = (F1, F2, ...,Fm)' o vetor
dos escores fatoriais e seja = (e1, e2, ..., ep)' o vetor dos resduos. As pressuposies do
modelo fatorial, discutidas anteriormente, porm com uma modificao, seriam:
E(FF') =
E(XF') = E[(F+e)F'] = E(FF') =
E(XX') = = '+
onde , , so constantes, por terem sido estimados para um conjunto particular de dados.
O mtodo de Thomson, baseado na regresso de F sobre X equivalente, segundo
Lawley e Maxwell (1971), citado por Fachel (1976), a encontrar para cada k, k = 1, 2, ..., m,
uma funo linear das observaes, que dar um bom preditor de Fk, dado por
F k = aj'X = X'aj
onde aj um vetor de ordem p, escolhido de tal maneira que a varincia de ( F
k - Fk)
mnima. Temos
21
F = '-1X
(eq.6.1)
Para evitar a inverso de uma matriz pxp, podemos escrever esta expresso de forma
alternativa. Para isto fazemos uso da seguinte identidade:
'-1 = ('-1+I)-1'-1
(eq.6.2)
F = (I+'-1)-1'-1X
que a expresso para se obter os estimadores dos escores fatoriais, para o caso de fatores
correlacionados (oblquos). Para = I, isto , quando os fatores so no correlacionados
(ortogonais), temos
F = (I+'-1)-1'-1X
6.2. Mtodo dos Mnimos Quadrados Ponderados (Mtodo de Bartlett)
Este mtodo, desenvolvido por Bartlett (1938), citado por FACHEL (1976) adota o
princpio de mnimos quadrados. Os escores so obtidos de tal forma que a soma de
quadrados dos resduos padronizados seja mnima, em relao aos elementos de F. Assim
p
e 2j
j=1
= e ' 1e = ( X F)' 1 ( X F)
j
F * = ('-1)-1'-1X
que a expresso para se obter os estimadores dos escores fatoriais, tanto no caso de fatores
correlacionados, como no caso de fatores no correlacionados.
Para o caso de fatores no correlacionados e quando a matriz '-1 diagonal,
observa-se que os estimadores de Fk , pelos dois mtodos descritos, diferem apenas por um
fator escala.
Lawley & Maxwell (1971), citado por FACHEL (1976), mostram que os estimadores
obtidos pelo mtodo de regresso so viesados, enquanto que os obtidos pelo mtodo de
Bartlett so no viesados. No entanto, os estimadores do mtodo de regresso tm menor
varincia do que os de Bartlett.
__________________________
Obs.: De uma maneira mais simples, conforme apresentado por MANLY (1986), os novos
fatores poderiam ser estimados pela seguinte expresso:
F* = ( G G ) 1 G X
22
(eq.6.3)
`
onde ( F * ) = ( F1* , F2* ,..., Fm* ), X ` = ( X 1 , X 2 ,..., X p ) , e G a matriz ( pxm ) das novas cargas
dos fatores.
7. EXEMPLOS DE APLICAO
Nesse captulo sero dados dois exemplos. O primeiro, mais simples, no ligado rea
florestal, apenas para o leitor ter uma noo inicial de como proceder aos clculos. O
segundo, mais complexo, ligado rea florestal, ser dado logo a seguir, e conter as
principais sadas do programa computacional utilizado, acrescido de alguns comentrios.
AGR
MIN
MAN
PS
CON
SER
FIN
SPS
TC
Blgica
3,3
0,9
27,6
0,9
8,2
19,1
6,2
26,6
7,2
Dinamarca
9,2
0,1
21,8
0,6
8,3
14,6
6,5
32,2
7,1
10,8
0,8
27,5
0,9
8,9
16,8
6,0
22,6
5,7
6,7
1,3
35,8
0,9
7,3
14,4
5,0
22,3
6,1
Irlanda
23,2
1,0
20,7
1,3
7,5
16,8
2,8
20,8
6,1
Itlia
15,9
0,6
27,6
0,5
10,0
18,1
1,6
20,1
5,7
7,7
3,1
30,8
0,8
9,2
18,5
4,6
19,2
6,2
Frana
Alemanha Oc.
Luxemburgo
1/
23
Pases Baixos
6,3
0,1
22,5
1,0
9,9
18,0
6,8
28,5
6,8
UK
2,7
1,4
30,2
1,4
6,9
16,9
5,7
28,3
6,4
Austria
12,7
1,1
30,2
1,4
9,0
16,8
4,9
16,8
7,0
Finlndia
13,0
0,4
25,9
1,3
7,4
14,7
5,5
24,3
7,6
Grcia
41,4
0,6
17,6
0,6
8,1
11,5
2,4
11,0
6,7
Noruega
9,0
0,5
22,4
0,8
8,6
16,9
4,7
27,6
9,4
Portugal
27,8
0,3
24,5
0,6
8,4
13,3
2,7
16,7
5,7
Espanha
22,9
0,8
28,5
0,7
11,5
9,7
8,5
11,8
5,5
Sucia
6,1
0,4
25,9
0,8
7,2
14,4
6,0
32,4
6,8
Suia
7,7
0,2
37,8
0,8
9,5
17,5
5,3
15,4
5,7
Turquia
66,8
0,7
7,9
0,1
2,8
5,2
1,1
11,9
3,2
Bulgria
23,6
1,9
32,3
0,6
7,9
8,0
0,7
18,2
6,7
Checoslovquia
16,5
2,9
35,5
1,2
8,7
9,2
0,9
17,9
7,0
4,2
2,9
41,2
1,3
7,6
11,2
1,2
22,1
8,4
Hungria
21,7
3,1
29,6
1,9
8,2
9,4
0,9
17,2
8,0
Polnia
31,1
2,5
25,7
0,9
8,4
7,5
0,9
16,1
6,9
Romnia
34,7
2,1
30,1
0,6
8,7
5,9
1,3
11,7
5,0
URSS
23,7
1,4
25,8
0,6
9,2
6,1
0,5
23,6
9,3
Iugoslvia
48,7
1,5
16,8
1,1
4,9
6,4
11,3
5,3
4,0
Alemanha Or.
MIN
MAN
PS
CON
SER
FIN
SPS
Agricultura
1,000
Minerao
0,036
1,000
Manufatura
-0,671
0,445
1,000
Suprimento de energia
-0,400
0,406
0,385
1,000
Construo
-0,538
-0,026
0,495
0,060
1,000
Indstrias de servios
-0,737
-0,397
0,204
0,202
0,356
1,000
Finanas
-0,220
-0,443
-0,156
0,110
0,016
0,366
1,000
-0,747
-0,281
0,154
0,132
0,158
0,572
0,108
1,000
Transp. e Comunic.
-0,565
0,157
0,351
0,375
0,388
0,188
-0,246
0,568
TC
1,000
24
autovetores normalizados
autovalores
X1
X2
X3
X4
X5
X6
X7
X8
X9
3,487
0,524
0,001
-0,348
-0,256
-0,325
-0,379
-0,074
-0,387
-0,367
2,130
0,054
0,618
0,355
0,261
0,051
-0,350
-0,454
-0,222
0,203
1,099
-0,049
0,201
0,151
0,561
-0,153
0,115
0,587
-0,312
-0,378
0,995
0,029
0,064
-0,346
0,393
-0,668
-0,050
-0,052
0,412
0,314
0,543
0,213
-0,164
-0,385
0,295
0,472
-0,283
0,280
-0,220
0,513
0,383
-0,153
0,101
0,289
-0,357
-0,130
-0,615
0,526
0,263
0,124
0,226
0,021
-0,726
0,479
0,256
-0,211
0,229
-0,188
-0,191
0,068
0,137
0,008
0,088
0,126
-0,341
0,356
0,388
0,174
-0,506
0,545
0,000
-0,806
-0,049
-0,366
-0,019
-0,083
-0,238
-0,145
-0,351
-0,072
Existem 3 autovalores maiores que 1. Seguindo o mtodo prtico, conforme apresentado na seo 9, consideraramos, portanto, apenas 3 fatores. No entanto, o quarto autovalor
quase igual ao terceiro, de modo que poderamos, ento, optar por escolher 2 ou 4 fatores.
Consideremos, a princpio, 4 fatores.
Os autovetores normalizados juntamente com os autovalores do Quadro 6 nos do as ij
= ( pxm
) ( mxF1) + ( px1) com i = 1 a 9 e j = 1 a
cargas associadas aos 4 fatores, segundo o modelo ( X
px1)
4. Lembremos que as cargas dos fatores so dadas por a ij = j v ji , sendo j o autovalor j
considerado e vji o autovetor normalizado correspondente ao autovalor j e varivel i.
- 0,05 F3
+ 0,03 F4 (0,97)
X2 = 0,00 F1 + 0,90 F2
+ 0,21 F3
+ 0,06 F4 (0,86)
X3 = - 0,65 F1 + 0,52 F2
+ 0,16 F3
- 0,35 F4 (0,83)
X4 = - 0,48 F1 + 0,38 F2
+ 0,59 F3
+ 0,39 F4 (0,87)
X5 = - 0,61 F1 + 0,08 F2
- 0,16 F3
- 0,67 F4 (0,84)
X6 = - 0,71 F1 - 0,51 F2
+ 0,12 F3
- 0,05 F4 (0,78)
X7 = - 0,14 F1 - 0,66 F2
+ 0,62 F3
- 0,05 F4 (0,84)
X8 = - 0,72 F1 - 0,32 F2
- 0,33 F3
+ 0,41 F4 (0,90)
X9 = - 0,69 F1 + 0,30 F2
- 0,39 F3
+ 0,31 F4 (0,81)
2 v 21 = 2,130.0, 054
25
aproximao. Pode ser observado que as comunalidades so razoavelmente altas. Isto quer
dizer que a maior parte da varincia para as variveis X1 a X9 devido aos 4 fatores comuns.
As cargas dos fatores que so maiores do que 0.50 (desconsiderando o sinal) esto
sublinhadas nas equaes acima. Estas cargas grandes e moderadas indicam como as variveis
esto relacionadas com os fatores. Pode ser observado que X 1 quase completamente
responsabilizada pelo fator 1 sozinho, X2 responsabilizada principalmente pelo fator 2, X3
responsabilizada pelos fatores 1 e 2, etc. Uma propriedade indesejvel da escolha dos fatores
que 4 das 9 variveis X (X 3, X5, X6 e X7) esto fortemente relacionadas com 2 dos fatores.
Isto sugere que a rotao dos fatores pode trazer simplificaes.
Aps a rotao, usando-se o critrio varimax normal, obtemos o seguinte conjunto de
equaes:
X1 =
X2 =
X3 =
X4 =
X5 =
X6 =
X7 =
X8 =
X9 =
0,68 F1
0,22 F1
0,13 F1
-0,23 F1
-0,16 F1
-0,53 F1
0,07 F1
-0,93 F1
-0,77 F1
+
+
+
+
+
0,27 F2
0,70 F2
0,49 F2
0,89 F2
0,11 F2
0,03 F2
0,03 F2
0,05 F2
0,23 F2
+
+
+
+
-
0,31 F3
0,55 F3
0,12 F3
0,16 F3
0,03 F3
0,62 F3
0,91 F3
0,17 F3
0,33 F3
+
+
-
0,57 F4
0,13 F4
0,75 F4
0,02 F4
0,90 F4
0,33 F4
0,05 F4
0,04 F4
0,23 F4
1/
Muitas vezes esta tcnica de anlise multivariada desprezada pela dificuldade em se nomear cada um dos
fatores obtidos e de se fazer as interpretaes e discusses corretas.
26
O passo seguinte seria a obteno dos valores dos fatores partir da expresso (eq.6.3)
em que a matriz G seria dada pelas novas cargas dos fatores acima. Por exemplo, g 11 = 0.68 e
g12 = -0.27 , para duas casas decimais, etc.
Efetuando-se a multiplicao e inverso constantes na equao, obteramos as
equaes:
F1* = 0 , 176 X 1 + 0 , 127 X 2 + 0 , 147 X 3 + 0 , 430 X 9
F2* = 0 , 082 X 1 + 0 , 402 X 2 + 0 , 176 X 3 + + 0 , 014 X 9
F3* = 0 , 122 X 1 0 , 203 X 2 0 , 025 X 3 + 0 , 304 X 9
F4* = 0 , 175 X 1 0 , 031X 2 0 , 426 X 3 + + 0 , 088 X 9
Blgica
Dinamarca
Franca
Alemanha Oc.
Agricultura e
carncia de
indstrias de
servios
Minerao e
suprimento de
energia
-0,93
-1,30
0,02
-0,04
-0,04
-1,09
-0,20
0,45
27
3
Finanas e
indstrias de
servios e
carncia de
minerao
0,86
0,59
0,98
0,45
4
Carncia de
industrializao
-0,08
0,44
-0,43
-0,32
Irlanda
Itlia
Luxemburgo
Pases Baixos
UK
Austria
Finlndia
Grcia
Noruega
Portugal
Espanha
Sucia
Suia
Turquia
Bulgria
Checoslovquia
Alemanha Or.
Hungria
Polnia
Romnia
URSS
Iugoslvia
-0,32
0,08
0,37
-0,90
-0,85
0,06
-0,92
0,56
-1,77
0,40
1,67
-1,29
0,68
1,29
0,26
0,30
-0,61
-0,12
0,42
1,55
-0,99
2,35
0,37
-1,40
0,59
-0,59
1,23
0,83
0,47
-1,12
-0,67
-1,11
-0,64
-0,38
-0,39
-1,57
-0,25
1,18
1,70
2,37
0,26
-0,30
-0,87
1,17
0,35
-0,07
0,18
1,17
0,95
0,68
0,62
-0,56
-0,09
-0,07
0,93
0,61
0,98
-0,85
-1,39
-1,19
-1,19
-1,07
-1,41
-1,11
-2,06
1,70
0,82
-1,19
-1,05
-0,24
0,59
-0,45
0,73
0,42
0,31
-0,17
-1,67
0,67
-1,62
3,00
-0,34
-0,63
-0,44
0,42
0,06
-0,67
-0,06
1,91
7.2. Exemplo 2
A ttulo de ilustrao do uso da anlise fatorial no campo florestal, selecionou-se parte
dos dados publicados no trabalho de HOOGH & DIETRICH (1979). O trabalho envolve a
avaliao de stios para Araucaria angustifolia em povoamentos artificiais, localizados em
diversos municpios dos Estados do Rio Grande do Sul, Santa Catarina, Paran, So Paulo e
Minas Gerais.
Tomaremos como objetivo verificar a relao entre a produtividade dos stios,
expressa pelo ndice de Stio, e as caractersticas do solo. Para tanto, foram selecionados 21
stios (Quadro 8) e 10 variveis (Quadro 9), dentre as apresentadas por HOOGH &
DIETRICH (1979), cujas correlaes lineares com o ndice de Stio foram maiores do que 0,3.
Perfil solo
SC-28
SC-30
PR-32
PR-37
PR-44
PR-68
PR-73
Localidade
Trs Barras - SC
Trs Barras - SC
Teixeira Soares - PR
Teixeira Soares - PR
Ponta Grossa - PR
Telmaco Borba - PR
Telmaco Borba - PR
28
IS*
15,7
10,2
13,6
19,5
8,8
16,6
18,9
8
9
10
11
12
13
14
15
16
17
18
19
20
21
PR-83
RS-85
RS-87
RS-107
RS-113
PR-123
SC-142
SC-146
SP-152
SP-153
MG-187
SP-216
PR-240
SC-246
Jussara - PR
So Francisco de Paula - RS
So Francisco de Paula - RS
Passo Fundo - RS
Passo Fundo - RS
Cascavel - PR
Caador - SC
Chapec - SC
Capo Bonito - SP
Capo Bonito - SP
Passa Quatro - MG
Caieiras - SP
Renascena - PR
Rio Negrinho - SC
19,8
16,3
17,9
16,6
14,5
18,7
15,8
19,1
10,7
9,3
13,5
21,9
20,8
11,2
V1
4,3
3,9
3,8
4,0
3,8
3,8
4,0
3,8
4,0
4,5
3,7
4,0
V2
4,1
4,0
3,9
5,2
4,0
4,2
4,2
4,0
4,0
4,0
3,9
3,9
V3
20,1
17,5
19,8
21,6
10,7
6,6
18,6
6,1
11,4
16,3
17,0
16,3
V4
9,80
11,20
6,80
9,00
3,80
2,80
9,40
3,80
9,80
18,00
10,40
13,00
Variveis*
V5
V6
11,60
2,00
19,40
1,33
6,80
10,00
9,80
25,00
5,40
4,44
4,80
10,00
10,40
15,00
4,40
15,00
9,80
6,67
18,00
2,00
11,40
0,01
13,00
17,50
V7
6
9
7
9
5
16
7
9
27
77
6
30
V8
6
9
13
12
15
12
9
18
8
20
8
18
V9
5,5
4,3
2,7
6,2
1,4
1,0
3,8
2,8
2,3
2,6
4,1
3,8
V10
5,5
3,2
3,3
6,2
1,4
1,5
5,2
25,0
2,2
2,6
10,2
7,8
Continua...
Quadro 9, Cont.
Parc.
13
14
15
16
17
18
19
V1
4,2
3,8
4,0
4,0
3,8
4,0
6,7
V2
4,0
3,9
4,2
4,2
4,0
4,3
6,0
V3
24,2
19,8
18,6
6,6
12,0
13,7
14,7
V4
28,20
21,00
17,50
2,60
6,40
4,00
6,60
Variveis*
V5
V6
27,80
6,67
20,20
2,50
10,10
3,33
3,30
5,00
7,90
5,00
5,20
10,00
9,80
60,00
29
V7
9
21
6
10
16
8
88
V8
5
9
9
12
5
8
67
V9
7,4
4,9
5,4
2,7
3,2
11,0
4,2
V10
5,2
4,7
5,7
1,8
4,8
7,0
9,3
20
21
3,7
3,7
3,9
3,8
19,1
11,8
21,60
4,90
22,70
4,10
3,33
2,50
4
7
18
9
19,0
2,4
8,2
1,6
* V1 = pH KCl horiz.A; V2 = pH KCl horiz.B; V3 = Al 2O3 total horiz.A; V4 = Fe 2O3 total horiz.A; V5 =
Fe2O3 total horiz.B; V6 = Mg/K trocveis horiz.B; V7 = saturao de bases horiz. A; V8 = saturao de bases
horiz.B; V9 = argila/silte horiz.A; V10 = argila/silte horiz.B.
V2
V3
V4
V1
1,00000
V2
0,82020
1,00000
V3
0,06980
0,06033 1,00000
V5
V6
V7
V8
V9
V4
1,00000
V5
0,92705
V6
0,83291
1,00000
V7
0,80509
0,53532 -0,04946
0,12672
0,59442
1,00000
V8
0,89243
0,86571
0,77032 1,00000
V9
-0,05391
V10
0,09076
0,01495 0,42672
0,08025
0,47071
V10
1,00000
1,00000
0,17153
1,00000
Os resultados iniciais de comunalidades, autovalores e percentuais de varincia explicada por cada fator so mostrados no Quadro 11. Nesse caso, o Mtodo do Componente
Principal foi usado, devido a maior facilidade de obteno dos resultados.
Comunal.*
0,90357
0,87504
0,70916
0,88693
0,87344
0,91351
Fator
1
2
3
4
5
6
Autovalor
4,21030
2,89058
1,19116
0,74910
0,49495
0,14695
30
V7
V8
V9
V10
0,79563
0,90775
0,50310
0,32338
7
8
9
10
0,11797
0,08866
0,06701
0,04333
1,2
0,9
0,7
0,4
98,0
98,9
99,6
100,0
* Comunalidades iniciais estimadas por R2 e usadas nos Mtodos da Mxima Verossimilhana e do Fator
Principal.
No modelo inicial completo com 10 fatores (Quadro 11), somente os trs primeiros
fatores apresentaram autovalores maiores do que um. Esses trs fatores explicaram,
individualmente, 42,1; 28,9 e 11,9% da varincia, acumulando 82,9% da variao total.
Diante disso, optou-se por prosseguir a anlise considerando apenas os trs primeiros fatores
comuns. As estruturas fatoriais iniciais ficaram compostas pelas matrizes apresentadas no
Quadro 12, considerando os trs mtodos de estimao.
As comunalidades iniciais foram consideradas iguais a um, quando do uso do Mtodo
do Componente Principal, ou foram estimadas pelos quadrados dos coeficientes de correlao
mltipla (R2) de equaes de regresso entre a varivel considerada e todas as demais
variveis (Quadro 11).
Com apenas trs fatores, o Mtodo do Componente Principal mostrou o melhor ajuste,
explicando 82,9% da varincia e apresentando comunalidades finais que oscilaram entre 0,68
e 0,94 (Quadro 13).
Os Mtodos da Mxima Verossimilhana e do Fator Principal explicaram 75% da
varincia total. As comunalidades foram baixas para algumas variveis, ou seja, pelo Mtodo
da Mxima Verossimilhana elas variaram entre 0,08 e 0,95 e pelo Mtodo do Fator Principal,
entre 0,11 e 0,96. Nesse caso, para ambos os mtodos, as variveis V9 e V10 (argila/silte
horiz. A e B, respectivamente) apresentaram pouca contribuio no modelo fatorial ajustado,
principalmente V10 (Quadro 13).7-10 (13)
A estatstica Qui-Quadrado ( 2 ), calculada para o modelo com trs fatores ajustado
pelo Mtodo da Mxima Verossimilhana, com 18 graus de liberdade, atingiu o valor de
12,85 (P=0,8006), indicando uma boa estimativa da matriz R.
As matrizes de correlao estimadas por cada um dos trs mtodos, com os respectivos
resduos em relao matriz de correlaes original R (Quadro 10), so apresentadas no
Quadro 14. Nesse caso, as melhores estimativas de R foram obtidas pelos Mtodos da
Mxima Verossimilhana e do Fator Principal. Para o Mtodo da Mxima Verossimilhana,
obteve-se 1,16732 de soma de resduos absolutos (mdia = 0,02594), sendo que 20% deles
foram maiores do que 0,05. Pelo Mtodo do Fator Principal, obteve-se 1,3764 de soma de
resduos absolutos (mdia = 0,03058), sendo 17% deles maiores do que 0,05.
Quadro 12 Cargas iniciais dos trs primeiros fatores extrados pelos trs mtodos de
estimao
Variveis
V1
V2
V3
V4
V5
V6
Fator 1
0,92992
0,88350
-0,14197
-0,25661
-0,19138
0,93733
Fator 2
Mtodo do Componente Principal
0,23728
0,09561
0,83565
0,91073
0,92349
0,05297
31
Fator 3
-0,13261
0,06094
-0,07549
-0,08451
-0,09395
0,15171
V7
V8
V9
V10
0,77744
0,94301
-0,15080
0,21760
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
0,93223
0,85514
-0,10684
-0,20624
-0,13962
0,91043
0,82132
0,93133
-0,14827
0,15831
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
0,92710
0,85219
-0,12136
-0,24697
-0,18049
0,94104
0,78498
0,92666
-0,12961
0,17314
0,20603
0,11726
0,62078
-0,01300
Mtodo da Mxima Verossimilhana
0,18797
-0,04189
0,71718
0,94985
0,94355
-0,05701
0,28273
0,06768
0,44386
-0,05260
Mtodo do Fator Principal
0,22627
0,06824
0,74242
0,93703
0,94226
0,03191
0,21523
0,10161
0,51149
-0,01838
-0,35831
0,05190
0,52063
0,85031
0,02913
0,36392
0,37997
0,04710
0,05464
0,31597
-0,43674
0,02461
0,42670
0,24914
-0,08641
0,24398
0,13428
-0,10111
-0,09822
0,28123
-0,54895
0,01653
0,39712
0,27849
Comunalid.
V1
V2
V3
V4
V5
V6
0,93864
0,79342
0,72417
0,90243
0,89829
0,90440
Fator
Autovalor
% da Var.
Mtodo do Componente Principal
1
4,21030
42,1
2
2,89058
28,9
3
1,19116
11,9
32
% Acum.
42,1
71,0
82,9
V7
V8
V9
V10
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
0,77525
0,90571
0,67917
0,77055
0,90524
0,86546
0,67014
0,94697
0,91277
0,93197
0,94525
0,87257
0,40107
0,08990
0,91818
0,79041
0,58395
0,94925
0,93008
0,96566
0,96387
0,86929
0,43613
0,10787
41,0
26,9
7,2
40,9
67,2
75,4
41,0
67,9
75,1
J o Mtodo do Componente Principal apresentou 2,54337 de soma de resduos absolutos (mdia = 0,05652), com 51% deles acima de 0,05 (Quadro 14). Em termos percentuais,
considerando o valor de soma dos resduos pelo Componente Principal como 100%, o Mtodo
da Mxima Verossimilhana atingiu 46% e o Mtodo do Fator Principal alcanou 54%.
Esse resultado j era esperado, pois os Mtodos da Mxima Verossimilhana e do
Fator Principal envolvem iteraes e clculos mais elaborados do que o Componente
Principal, e por isso, oferecem melhor estimativa da estrutura de correlaes original.
Buscando obter-se uma estrutura fatorial mais simples para cada modelo, procedeu-se
a rotao ortogonal Varimax dos trs fatores. Os resultados so mostrados no Quadro 15. As
estruturas fatoriais obtidas, aps a rotao dos eixos, pouco se alteraram em relao s
estruturas originais (Quadro 12).
33
Quadro 14 Matrizes de correlao estimadas e resduos obtidos por cada um dos trs
mtodos de estimao*
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
0,93864
0,83619
0,07627
-0,01133
0,05361
0,86409
0,81936
0,89786
-0,06198
0,08651
V2
-0,01599
0,79342
-0,05013
-0,14479
-0,08651
0,84243
0,68473
0,84752
-0,04215
0,24282
V3
-0,00648
0,11046
0,72417
0,80387
0,80598
-0,10026
0,08885
-0,03981
0,50086
-0,10595
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
0,90523
0,79991
0,04628
-0,01236
0,04879
0,84722
0,80608
0,88165
-0,04236
0,14495
V2
0,02029
0,86545
0,01687
-0,19902
-0,13904
0,89592
0,53156
0,80254
0,00990
0,22825
V3
0,02352
0,04345
0,67014
0,72115
0,71237
-0,01810
-0,05093
-0,04161
0,49630
0,04003
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V1
0,91818
0,78442
0,04387
-0,00821
0,05436
0,85535
0,82389
0,88067
-0,03874
0,13230
V2
0,03578
0,79041
-0,02000
-0,17119
-0,11347
0,87273
0,54971
0,80066
0,02134
0,21424
V3
0,02593
0,08033
0,58395
0,71207
0,70827
-0,05276
-0,00919
-0,03480
0,44880
0,00274
V8
-0,00543
-0,08472
-0,06915
0,01198
0,02118
-0,03228
0,03163
0,90571
-0,04239
0,24781
V9
0,00807
0,05710
-0,07414
-0,08935
-0,06961
-0,02137
-0,02286
0,03348
0,67917
0,40182
V10
0,00425
-0,12267
-0,02616
0,09272
0,07586
-0,04610
0,13103
-0,00455
-0,23029
0,77055
V8
0,01078
-0,03973
-0,06735
-0,00097
0,00895
0,01388
-0,00299
0,87256
-0,09755
0,15001
V9
-0,01155
0,00505
-0,06958
-0,00157
0,02081
-0,02537
-0,01610
0,08864
0,40107
0,05949
V10
-0,05419
-0,10810
-0,17214
0,02406
0,00045
0,06033
-0,01350
0,09325
0,11204
0,08990
V8
0,01177
-0,03785
-0,07415
0,00771
0,01725
-0,01421
0,03012
0,86929
-0,06157
0,16318
V9
-0,01517
-0,00639
-0,02207
-0,00042
0,01729
-0,05688
0,01091
0,05265
0,43613
0,07875
V10
-0,04154
-0,09409
-0,13484
0,04133
0,01826
0,04551
0,01376
0,08008
0,09278
0,10787
* O tringulo inferior esquerdo de cada matriz contm a matriz estimada de R; a diagonal, as comunalidades
finais, conforme o Quadro 13; e o tringulo superior direito, os resduos entre as correlaes observadas e as
estimadas.
Quadro 15 Estruturas fatoriais aps a rotao ortogonal Varimax dos eixos coordenados
Variveis
V1
V2
V3
V4
V5
V6
Fator 1
Fator 2
Mtodo do Componente Principal
0,96586
0,06335
0,87671
-0,07674
0,02191
0,85017
-0,07563
0,94598
-0,00857
0,94662
0,91328
-0,13343
34
Fator 3
-0,04170
0,13750
-0,02983
-0,04285
-0,04617
0,22919
V7
V8
V9
V10
0,83141
0,93977
-0,08056
0,13320
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
0,90949
0,69515
-0,02630
0,02313
0,08197
0,75569
0,94959
0,88091
-0,14288
0,07068
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
0,95291
0,78860
0,00184
-0,03760
0,02691
0,86020
0,90007
0,90917
-0,09979
0,11133
0,07324
-0,06632
0,61042
-0,09780
Mtodo da Mxima Verossimilhana
0,04093
-0,05898
0,80707
0,93756
0,92366
-0,09659
0,00261
-0,07317
0,57159
0,00336
Mtodo do Fator Principal
0,04812
-0,06108
0,76166
0,95164
0,94521
-0,10884
0,01752
-0,06383
0,56263
-0,02167
-0,28043
0,13473
0,54778
0,86212
0,27639
0,61542
0,13448
-0,25967
-0,23000
0,59293
-0,20864
0,30199
0,23226
0,29136
0,08843
0,40595
0,06176
-0,20548
-0,18959
0,46246
-0,39171
0,19656
0,33109
0,30824
35
das variveis V9 e V10 (argila/silte horiz. A e B). A varivel V9 tambm apresentou parcela
de contribuio significativa no Fator 2, o que no deixa de ser lgico, pois sempre h relao
entre a mineralogia e as fraes texturais do solo, notadamente as mais finas.
Os modelos finais, gerados pelos Mtodos da Mxima Verossimilhana e do Fator
Principal (Quadro 15), apresentaram estruturas similares do Mtodo do Componente
Principal, para os Fatores 1 e 2. Porm, no Fator 3, voltaram a incluir as variveis V2 e V6,
enquanto a varivel V10 no foi "carregada" em nenhum dos trs fatores extrados. Nesse
caso, os modelos iniciais, antes da rotao (Quadro 12), mostraram uma estrutura terica mais
lgica do que aps a rotao (Quadro 15).
Foi eleito o modelo fatorial ajustado pelo Mtodo do Componente Principal como o
melhor.
No presente caso, gerou-se, ento, a matriz de coeficientes dos escores dos fatores
(Quadro 16) e finalmente, calculou-se os escores de cada um dos trs fatores, pelo mtodo da
regresso que, no caso do Mtodo do Componente Principal, d resultados coincidentes aos
obtidos pelo Mtodo de Bartley. Isso foi feito para cada uma das 21 unidades de amostra
(Quadro 17). Assim, cada unidade de amostra passou a ser caracterizada no mais por 10
variveis, mas, agora, por apenas trs.
Quadro 16 Matriz de coeficientes dos escores dos fatores rotacionados, extrados pelo
Mtodo do Componente Principal
Variveis
V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
Fator 1
0,24141
0,20680
0,02604
0,00486
0,02156
0,20966
0,22121
0,22271
-0,03525
-0,01520
Fator 2
0,04439
-0,00995
0,29312
0,32414
0,32594
-0,03077
0,05042
-0,00490
0,19483
-0,05101
Fator 3
-0,08756
0,06984
-0,04615
-0,05409
-0,06043
0,14565
-0,27962
0,06393
0,44637
0,71375
Quadro 17 Matriz de escores dos fatores, extrados pelo Mtodo do Componente Principal
Unid. Amostra
1
2
3
4
5
6
Fator 1
-0,30147
-0,39386
-0,30241
0,52647
-0,37114
-0,16489
Fator 2
0,30655
0,54345
-0,24660
0,20411
-1,01120
-1,33242
36
Fator 3
-0,02706
-0,52960
-0,43030
0,59964
-0,73891
-0,78151
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
-0,10108
-0,22096
-0,15365
0,70846
-0,62582
0,18691
-0,22436
-0,32563
-0,30860
-0,24847
-0,43633
-0,26252
4,12529
-0,49336
-0,61257
0,01128
-1,50556
-0,38631
0,82952
-0,00270
0,19270
2,25605
1,19761
0,46846
-1,32062
-0,61489
-0,41754
-0,18436
1,91736
-0,90488
-0,03215
2,84876
-0,92570
-1,69472
0,53879
0,04780
-0,16686
-0,49028
0,04205
-0,54128
-0,29308
1,10724
0,31015
1,85108
-0,69407
De posse dos escores dos fatores, e a ttulo de ilustrar como poderia ser feito um
posterior estudo baseado nos novos fatores, procedeu-se o ajuste de uma regresso linear
mltipla, considerando os trs fatores como as variveis independentes (Quadro 17) e o ndice
de Stio (Quadro 8) como a varivel dependente do modelo (Quadro 18). Nesse caso, tem-se
a certeza absoluta de que o modelo linear ajustado no apresenta problemas de
multicolinearidade, o que certamente no ocorreria, caso fossem utilizadas as variveis
originais, devido s altas correlaes entre algumas delas (Quadro 10).
A equao final ajustada, considerando o nvel de 5% de significncia, foi a seguinte:
37
Quadro 18 - Ajuste de modelo linear mltiplo pelo mtodo Stepwise conforme sada das
anlises do SPSS
Equao Nmero 1 - Varivel Includa no Passo Nmero 1. FATOR 1 REGR FATOR ESCORE 1
R Mltiplo
R2
.45099
.20339
R2 Ajustado
Erro Padro (SE)
F = 4.85106
.16146
3.59238
Signif. F = .0402
Varivel
SE B
Beta
Sig F
Varivel
Beta In
Parcial
Sig F
.457906
Min
Toler
1.000000
FATOR 1
1.769236
.803281
.
450987
4.851
.0402
FATOR 2
.408695
4.776
.0423
(Constante)
15.67142
9
.783922
399.642
.0000
FATOR 3
.442452
.495728
1.000000
5.865
.0262
*****************************
Equao nmero 2 - Variveis Includas no Passo Nmero 2. FATOR 3 REGR FATOR ESCORE 3
R Mltiplo
R2
.63179
.39915
R2 Ajustado
Erro Padro (SE)
F = 5.97887
.33239
3.20540
Signif. F = .0102
SE B
Beta
Sig F
Varivel
Beta In
Parcial
Min
Toler
Sig F
1.769236
1.735753
15.67142
9
.716748
.716748
.699475
.450987
.442452
6.093
5.865
501.964
.0238
.0262
.0000
FATOR 2
.408695
.527251
1.000000
6.546
.0204
*****************************
Equao nmero 3 - Varivel Includa no Passo Nmero 3. FATOR 2 REGR FATOR ESCORE 2
R Mltiplo
R2
.75245
.56619
.48963
R2 Ajustado
Erro Padro (SE)
2.80262
F = 7.39575
Signif.F = .0022
------------------ Variveis na Equao ----------------------Varivel
SE B
Beta
Sig F
FATOR
1
1.769236
.626685
.450987
7.970
.0117
FATOR
3
1.735753
.626685
.442452
7.671
.0131
FATOR
2
1.603322
.626685
.408695
6.546
.0204
(Constan
te)
15.671429
.611581
656.612
.0000
38
Essa seo ser baseado na exposio apresentada por MENEZES et al, (1978).
39
mao a uma distribuio normal, pode ser a soluo adequada (logaritmo, raiz quadrada,
etc.).
Comrey (1973), citado por MENEZES et al (1978) chama a ateno para numerosas
outras fontes de erros na anlise fatorial, como o uso de variveis no independentes; por
exemplo:
a) utilizar uma varivel que represente uma resposta em um item e outra alternativa em
outro item, quer dizer, duas variveis dizendo a mesma coisa, diferente apenas pela
natureza da resposta (por exemplo, porcentagem da populao rural e urbana, se
uma das duas no estiver relacionada a outro conjunto de variveis );
b) utilizar uma varivel que seja uma combinao linear de outras duas, tais como,
crescimento demogrfico entre 1950/70 e 1960/70 e 1950/60, j que pode ter uma
correlao forada da primeira com qualquer das duas outras ou com as duas.
Outra fonte de erros pode ser o de ter fatores pouco representativos, no sentido de ter
um nmero de variveis pouco superior ao nmero de fatores hipotetizados. O nmero de
variveis deve ser de quatro a cinco vezes superior ao nmero de fatores hipotetizados, pois
do contrrio, ele pode estar sendo apenas uma construo matemtica.
Comrey (1973), citado por MENEZES et al (1978), assinala ainda que o uso de
variveis complexas, embora possa ajudar a interpretao, se utilizado em excesso, torna
impossvel a interpretao dos resultados. Se variveis complexas so usadas, pode-se correr
o risco de interpretao de um fator com significao mltipla. Se, por exemplo, utilizamos
uma varivel que descreva um fator A e B, ao mesmo tempo, indispensvel que no conjunto
da anlise haja variveis que descrevem A sem descrever B, ao mesmo tempo que outras
descrevem B sem descrever A, de maneira que se tenham os dois fatores A e B puros,
descritos por um nmero adequado de variveis, e assim, com a possvel interseo de um
com outro, por via de variveis complexas
A no indicao do que se poderia chamar varivel pura (em contraposio a uma
varivel complexa), que descreva bem um fator, pode faz-lo surgir de qualquer maneira (a
varincia existente ser forada a aparecer em algum fator) sem explicao adequada e
produzir falsas interpretaes
Um outro ponto importante, que afeta os resultados, a representatividade da amostra.
O primeiro cuidado ter-se uma amostra (de alguma forma um nmero de observaes)
suficientemente grande para que as correlaes sejam estveis. Uma fonte de perturbao
pode ser a combinao de dois grupos de lugares (ou unidades experimentais) de natureza
essencialmente diferentes, que tenham estruturas fatoriais diferentes, em uma s anlise.
Nesse caso, deve-se proceder anlises separadas de cada grupo, para se obter a estrutura
parcial, e posteriormente, obter a anlise global e uma estrutura global (Comrey, 1973, citado
por MENEZES et al, 1978).
40
41
j
s11 + s22 + + s pp
Proporo do total da varincia amostral
devido ao j-simo fator comum
j
p
a + a + + a 2pj
2
1j
2
2j
s11 + s22 + + s pp
a 12j + a 22 j + + a 2pj
p
Pelo critrio anterior, o nmero de fatores comuns retidos no modelo pode ser
incrementado, at que uma proporo adequada da varincia amostral total tenha sido
obtida.
d) Outra maneira usual determinar m igual ao nmero de autovalores de R maiores
do que um, ou igual ao nmero de autovalores positivos de S.
Entretanto, JOHNSON & WICHERN (1988) consideram que o melhor procedimento
consiste em reter o menor nmero de fatores possvel, mas que proporcione uma explicao
satisfatria dos dados e um ajuste adequado de S ou de R.
Segundo MENEZES et al, (1978), cinco a seis fatores e quatro a seis variveis por
fator so, supostamente, adequados, subordinados ao princpio de que estes fatores expliquem
uma frao de 60 a 70% da variao total.
10. PERSPECTIVAS E ESTRATGIAS PARA ANLISE FATORIAL
A deciso crucial e mais importante da anlise fatorial envolve a escolha do nmero de
fatores comuns (m). Amostras grandes e/ou dados com distribuio aproximadamente normal
so adequadas para uso do modelo fatorial. Entretanto, o modelo fatorial poder no ajustarse, corretamente, para um pequeno nmero de fatores comuns, se o nmero de variveis e de
observaes for grande. Freqentemente, a deciso final acerca do nmero de fatores comuns
baseia-se nos seguintes pontos (JOHNSON & WICHERN, 1988):
a) A proporo da varincia amostral total explicada;
b) O conhecimento terico da matria em pauta;
c) A racionalidade dos resultados.
A deciso acerca do mtodo de estimao e do tipo de rotao so menos cruciais.
Normalmente, a soluo mais satisfatria aquela obtida pela confirmao substancial de
uma mesma estrutura de fatores, gerada aps a rotao dos resultados, e alcanada por mais
de um mtodo de estimao.
Uma opo de estratgia de trabalho pode ser a seguinte (JOHNSON & WICHERN,
1988):
a) Executar uma anlise fatorial pelo Mtodo do Componente Principal;
Este mtodo apropriado para uma primeira inspeo dos dados. Nessa etapa,
observaes duvidosas poderiam ser encontradas, plotando-se os escores fatoriais, ou
calculando-se os escores padronizados de cada observao. Poderia ser tentado uma
rotao varimax dos eixos coordenados.
42
MANLY, B. F. J. Multivariate statistical methods. New York, Chapman and Hall, 1986.
159 p.
MARRIOT, F.H.C. The interpretation of multiple observations. New York, Academic
Press, 1974. 117 p.
MENEZES, A.C.F.; FAISSOL, S.; FERREIRA, M.L. Anlise da matriz geogrfica:
estruturas e inter-relaes. In: IBGE. Tendncias atuais na geografia urbano-regional:
teorizao e quantificao. Rio de Janeiro, 1978. p. 67-109.
QUEIROZ, W.T. Anlise de fatores ("Factor Analysis") pelo mtodo da mxima
verossimilhana: aplicao no estudo da estrutura de florestas tropicais. Piracicaba,
ESALQ, 1984. 112p. (Tese D.S.)
SRIVASTAVA, M. S. & CARTER, E. M. An introduction to applied multivarite
statistics. North-Holland, Elsevier Science Publishing Co., 1983. 394 p.
44