P. 1
ANÁLISE DE COMPONENTES PRINCIPAIS E FATORIAL

ANÁLISE DE COMPONENTES PRINCIPAIS E FATORIAL

|Views: 6|Likes:
Publicado porWilliam Salles

More info:

Published by: William Salles on Aug 05, 2013
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/31/2014

pdf

text

original

ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL

1
Análise Factorial
O propósito essencial da análise factorial é descrever, se possível, a estrutura
de covariâncias entre as variáveis em termos de um nº menor de variáveis (não
observáveis) chamadas factores. Por outras palavras, a análise factorial estuda
os inter-relacionamentos entre as variáveis, num esforço para encontrar um
conjunto de factores (em menor nº que o conjunto de variáveis originais) que
exprima o que as variáveis originais partilham em comum.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
2
Basicamente o modelo de análise factorial é motivado pelo seguinte:
Suponhamos que as variáveis podem ser agrupadas tendo em conta as
correlações entre elas. Isto é, todas as variáveis de um dado grupo estão
fortemente correlacionadas entre si, mas têm correlações relativamente
pequenas com variáveis de outro grupo. É concebível que cada grupo de
variáveis represente um factor, factor esse que é responsável pelas
correlações observadas.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
3
Em geral o primeiro passo a dar neste tipo de análise, consiste no exame das
relações entre as variáveis utilizando o coeficiente de correlação como medida
de associação entre cada par de variáveis. A matriz de correlações poderá
permitir identificar subconjuntos de variáveis que estão muito correlacionadas
entre si no interior de cada subconjunto, mas pouco associados a variáveis de
outros subconjuntos. Neste caso a aplicação da análise factorial permitir-nos-á
concluir se é possível explicar este padrão de correlações através de um menor
nº de variáveis - os factores.
De forma resumida, podemos dizer que a análise factorial é uma técnica
estatística usada para identificar um número relativamente pequeno de factores
que podem ser usados para identificar relacionamentos entre um conjunto de
muitas variáveis inter-relacionadas entre si.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
4
EXEMPLO:
Suponha que um director de uma fábrica de automóveis pretende entender o
que leva um consumidor a escolher um modelo específico de automóvel, isto é,
quais os factores que levam os consumidores a escolher um modelo específico
de automóvel. Para isso foram consideradas as opiniões de um conjunto de
consumidores acerca da importância das seguintes variáveis para a escolha de
um automóvel:
CRB - custos de reparação baixos VC - variedade de cores à disposição
EIA - espaço interior amplo BC - bom consumo
FM - fácil de manejar DM - design moderno
BM - bom motor PRA - preço de revenda alto
C - confortável AS - aparência suave
FC - fácil de conduzir MA - modelo atraente
MG - mala grande FE - fácil de estacionar
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
5
É difícil avaliar 14 variáveis separadamente ou desenvolver planos de acção
tendo em conta tantas variáveis.
Em vez disso seria ideal saber como pensam os consumidores em termos de
dimensões (factores) mais gerais.
Para identificar estas dimensões foi aplicada a análise factorial, cujos resultados
sugerem que as 14 variáveis podem ser caracterizadas por
4 factores (I, II, III e IV) relacionados com
I ÷ conforto
II ÷ custo/eficiência
III ÷ estilo
IV ÷ facilidade de manipulação
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
6
EIA
BC
CRB
VC
BM
AS
FC
DM
MA
FE
MG
PRA
FM
C
I
CRB
PRA
BM
BC
EIA
C
MG
VC
AS
DM
MA
FM
FC
FE
II
III
IV
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
7
MODELO FACTORIAL (ORTOGONAL)
Seja X
T
=(X
1
, X
2
,...,X
p
) um vector aleatório de média µ
T
=(µ
1
, µ
2
,..., µ
p
) e matriz de
covariâncias E.
Modelo de análise factorial:
X
1

1
= l
11
F
1
+ l
12
F
2
+...+ l
1m
F
m
+c
1
X
2

2
= l
21
F
1
+ l
22
F
2
+...+ l
2m
F
m
+c
2
.
X
p

p
= l
p1
F
1
+ l
p2
F
2
+...+ l
pm
F
m
+c
p
em notação matricial: X - µ = L F + c
(px1) (pxm) (px1)
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
8
onde:
- l
ij
- loading (ou peso) da variável X
i
no factor F
j
- L=
(
(
(
¸
(

¸

pm 1 p
m 1 11
l l
l l

. .

- matriz de loadings
- F
T
=| |
m 2 1
F F F - vector de variáveis aleatórias não observáveis
chamadas factores comuns
- c
T
=| |
m 2 1
c c c - vector de variáveis aleatórias não observáveis
chamadas factores específicos ou factores únicos
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
9
Note que:
i) o factor específico c
i
está associado apenas com a variável X
i
;
ii) os p desvios X
1

1
, X
2

2
,..., X
p

p
são expressos em termos de p+m
variáveis não observáveis: F
1
, F
2
,...,F
m
, c
1
, c
2
,..., c
p
.
Pressupostos:
- E(F) =
(
(
(
(
¸
(

¸

) E(F
) E(F
) E(F
m
2
1
.
=
(
(
(
(
¸
(

¸

0
0
0
.
- Cov(F) = E(FF
T
) = I =
(
(
(
(
¸
(

¸

1 0 0
0 1 0
0 0 1

. . .

÷
os factores são
independentes entre si
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
10
- E(c) =
(
(
(
(
¸
(

¸

) E(İ
) E(İ
) E(İ
p
2
1
.
=
(
(
(
(
¸
(

¸

0
0
0
.
- Cov(c) = E(cc
T
) = + =
(
(
(
(
¸
(

¸

¢
¢
¢
p
2
1
0 0
0 0
0 0

. . .

÷ matriz diagonal
- F e c são independentes
logo
Cov(c
i
, F
j
) = E(c
i
F
j
) - E(c
i
) E(F
j
) = 0, i=1,2,...p e j=1,2,...m
e
Cov(c, F) = E(c F
T
) =
(
(
(
(
¸
(

¸

) F , Cov(İ ) F , Cov(İ ) F , Cov(İ
) F , Cov(İ ) F , Cov(İ ) F , Cov(İ
) F , Cov(İ ) F , Cov(İ ) F , Cov(İ
m p 2 p 1 p
m 2 2 2 1 2
m 1 2 1 1 1

. . .

= 0
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
11
Estrutura de covariâncias para o modelo:
1. _ = Cov(X) = LL
T
+ +
i.e. Var(X
i
) =
¸
específica
variância
i
h
2
i
+ + + + +
¸ ¸ ¸ ¸ ¸ _ ¸

2
im
2
i2
2
i1
l l l
Cov(X
i
,X
k
) = l
i1
l
k1
+ l
i2
l
k2
+.+ l
im
l
km
2. Cov(X,F) = L
i.e. Cov(X
i
,F
j
) = l
ij
comunalidade
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
12
Em que:
-
2
i
h – comunalidade
!
porção da Var(X
i
) que pode ser atribuída aos factores comuns
explicada pelos factores comuns
que é partilhada com todas as outras variáveis
- +
i
– variância especifica
!
˜ porção da Var(X
i
) que é específica de X
i
e que não está associada com
outras variáveis
˜ indica até que ponto os factores comuns falham na explicação da
variância total da variável
-
2
ij
l – contribuição do factor F
j
para a variância de X
i
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
13
Ambiguidade associada ao modelo:
A matriz L de loadings é determinada a menos de uma transformação
ortogonal.
Se L é a matriz de loadings associada a um modelo factorial e T é uma matriz
ortogonal (i.e., tal que TT
T
=I), então a matriz L
*
= LT é também uma matriz
admissível para o modelo factorial:
X - µ = LF + c =
¸
F T T L
I
T
+ c = L
*
F
*
+ c
com
˜ F
*
e c independentes
˜ E(F
*
) = 0 e Cov(F
*
) = I
˜ E(c) = 0 e Cov(c) = +
As comunalidades dadas na diagonal de LL
T
e de L
*
(L
*
)
T
não são afectadas
pela escolha de T.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
14
Métodos de Estimação:
Dadas n observações das p variáveis correlacionadas X
1
, X
2
,...,X
p
, a análise
factorial procura responder à questão:
Será que o modelo factorial ortogonal com um pequeno nº de factores
representa adequadamente os dados?
Para tal, à que tentar verificar a estrutura de covariâncias do modelo.
Quando os elementos fora da diagonal principal da matriz amostral de
covariâncias S forem muito pequenos, ou no caso da matriz amostral de
correlações R forem próximos de zero, as variáveis não estão relacionadas ou
estão pouco relacionadas e a análise factorial não será útil.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
15
Nestas circunstâncias os factores específicos têm um papel dominante e o
objectivo principal da análise factorial é determinar alguns factores comuns.
Por isso, uma vez calculada a matriz amostral de correlações, se existirem
variáveis não correlacionadas em número elevado deverá ser testada a validade
de aplicação deste tipo de análise.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
16
Existem vários métodos de estimação (ou de extracção de factores), de entre os
quais:
 método das componentes principais - principal components;
 método da máxima verosimilhança - maximum likelihood;
 método dos mínimos quadrados - unweighted least squares (ULS) e
generalized least squares (GLS);
 principal-axes factoring;
 método alfa.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
17
Método das componentes principais:
É um método para estimar L, que se baseia no seguinte:
¸
T
C
T
2
1
C
2
1
CC P D PD
T
= = _
¸ _ ¸
onde:
| |
p 2 1
a a a P . = ÷ matriz ortogonal cujas colunas são os vectores
próprios de _
(
(
(
(
¸
(

¸

=
p
2
1
Ȝ 0 0
0 Ȝ 0
0 0 Ȝ
D

. . .

e
(
(
(
(
(
¸
(

¸

=
p
2
1
2
1
Ȝ 0 0
0 Ȝ 0
0 0 Ȝ
D

. . .

ì
i
÷ i-ésimo maior valor próprio da matriz _
a
i
÷ vector próprio normalizado associada a ì
i
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
18
As variâncias específicas são nulas se são considerados tantos factores como
variáveis. Mas é desejável ter m<p factores.
Um procedimento possível quando os últimos p-m valores próprios são
pequenos é negligenciar a contribuição de
T
p p p
T
1 m 1 m 1 m
a a a a ì + + ì
+ + +
para _.
Desprezando as últimas colunas da matriz C, tem-se a matriz L:
C=| |
p 1
a a
p 1
ì ì ÷ L=| |
m 1
a a
m 1
ì ì , com m < p
_ = CC
T
=
T
p p p
T
1 m 1 m 1 m
T
m m m
T
1 1 1
a a a a a a a a ì + + ì + ì + + ì
+ + +

~ LL
T
+ +
onde
_ _
+ = =
ì = ì ÷ =
p
1 m j
2
ij i
m
1 j
2
ij i i i
a a Var(X Ȍ )
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
19
Solução das componentes principais do modelo factorial:
| |
m m 2 2 1 1
a a a
~
ì ì ì = L i.e.
ij j ij
a l ì =
~
(
(
(
(
(
¸
(

¸

=
p
Ȍ
Ȍ
Ȍ
Ȍ
~
0 0
0
~
0
0 0
~
~
2
1

. . .

onde
_
=
÷ =
m
1 j
2
ij ii
l s Ȍ
~ ~
i
÷
2
im
2
i2
2
i1
2
i
l l l h
~ ~ ~ ~
+ + + = ÷ soma dos quadrados da linha i de L
_
=
ì =
m
1 j
j
2
ij
a ÷ é exactamente a comunalidade do modelo 1 da ACP
porção da Var(X
i
) explicada pelos factores comuns onde
2
a
~
ij j
2
ij
l ì = é a
contribuição do j-ésimo factor comum para a Var(X
i
)
Nota: Usamos S estimativa de _, mas também se pode fazer para R estimativa de µ.
elementos da
diagonal de
T
L L - S
~ ~
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
20
Escolha do nº de factores:
Dado que o objectivo é identificar m factores que expliquem a estrutura de
covariâncias, devemos escolher m tal que, o que se despreza na matriz de
covariâncias estimadas seja quase nulo, i.e.,
( ) 0
~ ~ ~
~ + +
T
L L - S ÷matriz residual
Os elementos diagonais são nulos, mas se o que está fora da diagonal também
for próximo de zero, então o valor de m considerado é apropriado:
soma dos quadrados das
entradas de ( ) + +
~ ~ ~
T
L L - S
s
2
p 1 m
ì + + ì
+

2
¹
um valor baixo para a soma dos quadrados dos valores
próprios rejeitados implica um valor baixo para a soma
dos quadrados dos erros cometidos na aproximação
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
21
proporção da variância total amostral
explicada pelo j-ésimo factor
Outra maneira de determinar m:
R de factorial
análise uma para
p
S de factorial
análise uma para
s s
j
p
1 i
i
j
pp 22 11
j
s
ì
ì
ì
=
+ + +
ì
_
=

Escolhemos m, de modo a que uma proporção suficiente da variância total amostral
seja explicada.
Outras regras:
valor próprio maior que 1 (análise a partir de R)
scree-test
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
22
Resumindo, a solução apresentada por este método escolhe para os m
factores as primeiras m componentes principais divididas pela raiz quadrada da
sua variância
) Var(Y
Y Y
F
j
j
j
j
j
=
ì
= j=1,…,m
Estimando os loadings da seguinte maneira: l
ij
=
ij j
a ì
estamos a considerar o modelo
¸ ¸ ¸ ¸ ¸ _ ¸

i
s específico factores
dos estimativa
P iP P m im m 1 i1 i
F a F a F a X
c
ì + + ì + + ì =
1
e portanto o modelo factorial estimado é:
i
m
1 j
j ij i
İ F l X + =
_
=
, i = 1,…,p com l
ij
=
ij j
a ì
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
23
Neste modelo estimado, cada factor comum tem variância unitária, e os factores
são não correlacionados.
Mais, os factores comuns são não correlacionados com os factores específicos.
No entanto, note-se que a covariância entre c
i
e c
k
é
k i a a ) İ , Cov(İ
j
p
1 m j
kj ij k i
= =
_
+ =
Ȝ
Como estas covariâncias não são necessariamente nulas, isto constitui uma
violação dos pressupostos originais do modelo.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
24
TABELA DE RESULTADOS
Análise feita a partir da matriz de covariâncias amostral S.
Loadings j
l
ij
= ij j
a ì Y
1
. Y
n
Soma dos quadrados por linha
Comunalidades h
i
X
1
11
a
1
ì .
1m m
a Ȝ
2
1
m
1 j
2
1j j
h a =
_
=
Ȝ
i . . . .
X
p
p1
a
1
ì .
pm m
a Ȝ
2
p
m
1 j
2
pj j
h a =
_
=
Ȝ
Soma dos quadrados por
coluna = ì
j
ì
1
. ì
m
total em linha = total em coluna
ì
1
+.+ ì
m
=
_
=
m
1 j
2
1j j
a Ȝ + .+
_
=
m
1 j
2
pj j
a Ȝ
proporção da variância
total amostral explicada
pelo j-ésimo factor
_
=
p
1 i
i
1
Ȝ
Ȝ
.
_
=
p
1 i
i
m
Ȝ
Ȝ
proporção da variância total
explicada pelos m factores
_
_
=
=
p
1 i
i
m
1 j
j
Ȝ
Ȝ
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
25
Este quadro de resultados, resume o essencial de uma aplicação da ACP ou da
Análise Factorial (AF) pelo método das componentes principais.
Apesar de ACP e AF se tratarem de duas técnicas conceptualmente diferentes,
na prática os resultados da ACP e da AF pelo método das componentes
principais, podem ser resumidos na tabela anterior, sendo válidas as
respectivas interpretações.
Se a análise é feita a partir da matriz de correlações R, o quadro é o mesmo,
mas ì
j
e a
j
são extraídos da matriz R.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
26
EXEMPLO
Consideremos novamente o exemplo (exercício 6).
15 alunos de uma determinada escola foram classificados a 6 disciplinas
Na ACP identificaram-se 2 componentes principais, a reter:
1º Factor: Factor Geral de Inteligência
2º Factor: Factor Matemática / não Matemática
Se aplicarmos a AF pelo método das componentes principais, os factores
comuns podem ser obtidos dividindo as 2 componentes principais pela raiz
quadrada dos valores próprios:
3.87
X 0.42 X 0.39 X 0.44 X 0.44 X 0.41 X 0.33 Y
F
6 5 4 3 2 1 1
1
× + × + × + × + × + ×
=
ì
=
1
1.55
X 0.39 X 0.45 X 0.31 X 0.3 X 0.42 X 0.53 Y
F
6 5 4 3 2 1 2
2
× ÷ × ÷ × ÷ × + × + ×
=
ì
=
2
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
27
As variáveis podem-se escrever em função dos factores da seguinte maneira:
1 2
0.66
1
0.65
1
İ F 0.53 1.55 F 0.33 3.87 X + × × + × × =
¸ ¸¸ ¸ ¸_ ¸ ¸ ¸¸ ¸ ¸_ ¸
2 2
0.52
1
0.81
2
İ F 0.42 1.55 F 0.41 3.87 X + × × + × × =
¸ ¸¸ ¸ ¸_ ¸ ¸ ¸¸ ¸ ¸_ ¸
.
1 2
0.49
1
0.83
6
İ F 0.39 1.55 F 0.42 3.87 X + × × ÷ × × =
÷
¸ ¸ ¸ ¸ ¸ _ ¸ ¸ ¸¸ ¸ ¸_ ¸
com
¸ ¸
3
6
3
3
Y
6 i6 6
Y
3 i3 3 i
F a Ȝ F a Ȝ İ
Ȝ Ȝ
+ + =
O quadro de resultados do slide 4 da secção anterior resume o essencial da AF
pelo método das componentes principais.
Este exemplo ilustra bem o motivo pelo qual existe dificuldade na distinção das
duas técnicas.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
28
ESTIMAÇÂO DOS VALORES DOS FACTORES (FACTOR SCORES)
Ao contrário do que se passa com a ACP, onde os scores das componentes
principais são determinados, os scores dos factores na AF têm de ser
estimados, isto resulta do facto de no modelo da AF existirem mais parâmetros
a estimar do que valores observados.
Existem diversos métodos para estimação dos scores dos factores, sendo os
mais usados:
ƒ Método de Bartlet ou método dos mínimos quadrados ponderados;
ƒ Método de Thompson ou método de regressão.
ANÁLISE DE COMPONENTES PRINCIPAIS E ANÁLISE FACTORIAL
29
Conclusão:
¾a ACP procura resumir a informação presente num conjunto de variáveis
correlacionadas através de um modelo matemático concreto, bem definido
e conduz geralmente a uma única solução;
¾a AF procura encontrar a explicação, sobre a forma de um ou mais
factores latentes, para as relações existentes entre as variáveis e é
passível de várias soluções igualmente aceitáveis.

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->