Análise Fatorial de Componentes Principais

Análise Factorial em
Componentes Principais
(AFCP)
Licenciatura em Sociologia
Análise de Dados em Sociologia
cveiga@ics.uminho.pt
Objectivo da AFCP
Tentar reduzir o número de variáveis utilizadas para descrever uma dada
realidade ou fenómeno, cuja medição directa será difícil de conseguir;
Fundamentalmente pretende-se criar uma nova variável que representa

uma série de outras variáveis que se correlacionam entre si (pode
designar-se de variável latente), o que implica um bom conhecimento do
tema que está a ser analisado;
A que se procura dar resposta?
Qual é o número de factores? Sobretudo os que fizerem sentido….
O que representam? Para isso é preciso que se possa ou consiga dar um

NOME a cada factor a partir da interpretação do analista ao conjunto de
variáveis que com ele estão correlacionadas (que o representam)
Principal Fraqueza da AFCP
Poder cair-se facilmente em interpretações
subjectivas, o que torna a AFCP de maior
utilidade como técnica exploratória de dados
(para explorar as relações entre um conjunto
de variáveis do que como técnica
confirmatória (para confirmar hipóteses ou
teorias que se escondam por debaixo da
estrutura de um conjunto de variáveis);
ANÁLISE FACTORIAL VS ANÁLISE DE

COMPONENTES PRINCIPAIS
Semelhanças:
Podem ser ambas aplicadas a matrizes de correlação;
Diferenças:
No aspecto técnico na forma como tentam ajustamento à
matriz de correlações;
A análise de componentes principais tenta captar a máxima variação
no conjunto de variáveis.
A análise factorial tenta captar a correlação entre as variáveis;
identificar relações entre as variáveis;
A análise de componentes principais é usada para dar maior

relevo à redução de dados e menor à interpretação;
Etapas a seguir na realização da AFCP
Procedimentos prévios
Procedimentos:
- Verificar se o tamanho da amostra é adequado considerando que pode ser:

Um rácio de 10 casos para cada variável;
Ter casos em número 10 a 25 vezes superior ao número das variáveis incluídas na análise;
Um tamanho próximo de 300 casos;
- Determinar se os dados estão numa escala de medida que sirva para a análise factorial se
cumprem determinados pressuposto (se provém de variáveis contínuas relacionadas
linearmente ou eventualmente de tipo ordinal)
- Verificar a normalidade dos dados a um nível de significância determinado (0.05) e para

todas as variáveis através dos testes de ;
- Kolgomorov-smirnov
- Shapiro-Wilk
(se os valores não forem significativos assume-se a normalidade dos dados)
- Verificação dos outliers – para saber se afectam muito as medidas de localização e de

dispersão.
1º Passo (Análise da Matriz de Correlações)
Para confirmar se existem correlações aceitáveis entre as variáveis

que permitam ter boas condições para produzir um modelo. É que se
as correlações entre as variáveis foram pequenas é pouco provável
que partilhem factores comuns (R<0,3).
Correlation Matrix
SATISF AUTONOMI ROTINA IDADE ANOS

Correlation SATISF 1,000 ,736 -,568 ,131 ,170
AUTONOM ,736 1,000 -,485 ,099 ,095
ROTINA -,568 -,485 1,000 ,071 ,101
IDADE ,131 ,099 ,071 1,000 ,683
ANOS ,170 ,095 ,101 ,683 1,000
Sig. (1-tailed SATISF ,000 ,000 ,002 ,000
AUTONOM ,000 ,000 ,015 ,019
ROTINA ,000 ,000 ,061 ,014
IDADE ,002 ,015 ,061 ,000
ANOS ,000 ,019 ,014 ,000
(Por exemplo uma variável que tenha mais de 50% de correlações abaixo desse valor dificilmente
servirá para usar na AFCP. Salvo se tiver loadings (pesos nos factores) superiores a 0.5)
2º Passo (realização dos testes de KMO (Kaiser,
Meyer, Olkin) ou de esfericidade de Bartlett)
2º Passo (realização dos testes de KMO (Kaiser, Meyer, Olkin) ou de esfericidade de
Bartlett):
O teste de KMO- é uma medida da adequação das variáveis para entrarem no modelo
(compara as correlações simples com as correlações parciais).
Valor de KMO = Valia da Análise Factorial KMO and Bartlett's Test

< 0,5 Inválida Kaiser-Meyer-Olkin Measure of Sampling
0,5 - 0,6 Má Adequacy. ,608
0,6 - 0,7 Razoável
Bartlett's Test of Approx. Chi-Square 899,207
0,7 – 0,8 Média Sphericity df 10
0,8 – 0,9Boa Sig. ,000
0,9 – 1 Muito Boa
O teste de BARTLETT testa a hipótese de a matriz de correlações se a matriz identidade.

Este teste é muito sensível ao tamanho da amostra, sendo pouco usado.
H0:Π =I vs H1: Π ≠ I
3º passo (Análise da matriz de correlação anti-imagem)

3º passo (Análise da matriz de correlação anti-imagem)
Para medir a adequação de cada variável para ser usada na AFCP. Em
caso de se detectarem valores pequenos na diagonal (r < 0,5) deve
considerar-se a eliminação da variável.
Anti-image Matrices
SATISF AUTONOMI ROTINA IDADE ANOS

Anti-image Covariance SATISF ,380 -,259 ,191 4,849E-03 -7,80E-02
AUTONOMI -,259 ,451 6,105E-02 -2,46E-02 2,196E-02
ROTINA ,191 6,105E-02 ,628 -1,35E-02 -9,31E-02
IDADE 4,849E-03 -2,460E-02 -1,35E-02 ,531 -,346
ANOS -7,80E-02 2,196E-02 -9,31E-02 -,346 ,510
Anti-image Correlation SATISF ,612a -,626 ,391 1,079E-02 -,177
AUTONOMI -,626 ,660a ,115 -5,03E-02 4,581E-02
ROTINA ,391 ,115 ,748a -2,34E-02 -,164
IDADE 1,079E-02 -5,026E-02 -2,34E-02 ,529a -,664
ANOS -,177 4,581E-02 -,164 -,664 ,507a
a. Measures of Sampling Adequacy(MSA)
4º passo (Análise da tabela das
comunalidades)
As comunalidades indicam a proporção da variância explicada pelas
componentes principais.
Communalities
Initial Extraction
SATISF 1,000 ,834
AUTONOMI 1,000 ,764
ROTINA 1,000 ,667
IDADE 1,000 ,826
ANOS 1,000 ,840
Extraction Method: Principal Component Analysis.
No caso da AFCP as “iniciais” são sempre iguais a 1

Existem tantas quantas são as variáveis do modelo
Após a extracção variam de 0 (zero) a 1. Sendo 0 quando os factores
comuns não explicam nenhuma variância da variàvel e 1 quando a
explicam totalmente.
As variáveis com comunalidades inferiores a 0,2 ou mesmo 0,3

têm pouco em comum com as outras e não são explicadas
pelas componentes ou factores devendo sair da análise.
A soma dos quadrados dos loadings dos factores para cada

variável são as comunalidades – cf. tabela component matrix.
0,862 2 + 0,1412 = 0,834
5º passo (Definir o nº de factores a reter e
determinar a variância explicada)
Total Variance Explained
Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Component Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 2,240 44,803 44,803 2,240 44,803 44,803 2,196 43,927 43,927
2 1,690 33,798 78,601 1,690 33,798 78,601 1,734 34,674 78,601
3 ,507 10,144 88,745
4 ,324 6,482 95,227
5 ,239 4,773 100,000
O indicador principal são os eigenvalues (valores próprios) que representam a

variância das variáveis captada pela componente ou factor.
Cada valor próprio mede a quantidade da variância captada pelo factor.
Existem tantos factores quanto os valores próprios superiores a 1, pois se um factor
tiver valor próprio superior a 1 irá conter a variância de mais que uma variável.
A soma dos valores próprios é igual ao número de variáveis (neste caso igual a 5);
os valores próprios podem ser usados para expressar a % da variância captada pelo
factor.
Como proceder à escolha do nº de

factores a reter
1- Quando os valores
próprios são > 1
Scree Plot
2,5 2- Analisando o SCREE
2,0
PLOT que pode ser uma boa
solução sempre que:
- K < 30
1,5

1,0
- as comunalidades têm no
mínimo um valor igual a 0,6
Eigenvalue
,5
0,0 - n > 250 casos

1 2 3 4 5
Component Number
3- usando como referencial

uma % acumulada > 70%
6º passo (Analisar a matriz das componentes
antes da rotação)
Esta matriz mostra a
correlação entre as variáveis e
os factores;
Component Matrixa Os loadings representam a
Component correlação entre as variáveis e
1 2 o factor;
satisf
autonomi
,908
,862
-,099
-,141
Cada factor explica uma % da
rotina -,714 ,397 variância total;
idade ,283 ,864 Quanto maior for a % maior é
anos ,288 ,870
a capacidade explicativa do
a. 2 components extracted.
factor;
a soma dos quadrados dos
loadings é igual ao valor
próprio (0,9082 + ... + 0,2832 ) = 2,240
6º passo (Analisar a matriz das componentes

com rotação)
Tipos de rotação a usar:
a
Varimax: cujo objectivo é obter
Rotated Component Matrix uma estrutura factorial na qual
Component cada variável original esteja
1 2
fortemente associado a um único
satisf ,899 ,161 factor e pouco com os restantes.
autonomi ,867 ,108
rotina -,797 ,180 Quartimax: o objectivo é
idade ,028 ,908 encontrar uma estrutura factorial
anos ,031 ,916 onde todas as variáveis têm pesos
Extraction Method: Principal Component Analysis
elevados num factor (dito geral) e
Rotation Method: Varimax with Kaiser Normalizati
que cada uma possui pesos
a. Rotation converged in 3 iterations.
factoriais elevados num outro
factor (dito comum) e reduzidos
nos restantes.
7º passo (denominação dos factores
retidos)
Quando a AFCP é bem sucedida obtemos um pequeno nº
de factores interpretáveis que captam parte significativa
da variância das variáveis originais e que servem para
simplificar a solução encontrada.
NESTE CASO PODEMOS (eventualmente)

DENOMINAR OS DOIS FACTORES ASSIM:
F1- Condições trabalho e F2- Temporalidade
Verificações complementares (dimensão da

rotação e gráfico das componentes)
Neste caso o nível de Podemos ver a
rotação foi elevado localização das
(>0,5) variáveis no plano
Component Plot in Rotated Space
1,0
Component Transformation Matrix

,5
Component 1 2
1 ,959 ,282
0,0
2 -,282 ,959
Component 2
Extraction Method: Principal Component Analysis. -,5

Rotation Method: Varimax with Kaiser Normalizatio
-1,0
-1,0 -,5 0,0 ,5 1,0
Component 1
Identificação de ouliers e análise de
missing values
Identificação de outliers:
Usando o comando save para produzir os scores que permitem

identificar os outliers (produzindo duas novas variáveis no ficheiro de
dados), em que os casos com valores absolutos superiores 2
consideram-se outliers.
Análise de missing values:
Se as não respostas forem em numero superior a 10% e caso não se

distribuam aleatoriamente podem estar a distorcer os resultados,
podendo por exemplo reportarem-se a segmentos de população com
características especificas. Usando as opções listwise e pairwise podem
comparar-se os factores criados e ver se diferem entre si.

Análise Fatorial de Componentes Principais

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise Fatorial de Componentes Principais

Enviado por

Direitos autorais:

Formatos disponíveis

Análise Factorial em

 Fundamentalmente pretende-se criar uma nova variável que representa

 A que se procura dar resposta?

 Qual é o número de factores? Sobretudo os que fizerem sentido….

 O que representam? Para isso é preciso que se possa ou consiga dar um

ANÁLISE FACTORIAL VS ANÁLISE DE

 A análise de componentes principais é usada para dar maior

 - Verificar se o tamanho da amostra é adequado considerando que pode ser:

 - Verificar a normalidade dos dados a um nível de significância determinado (0.05) e para

 - Verificação dos outliers – para saber se afectam muito as medidas de localização e de

1º Passo (Análise da Matriz de Correlações)

 Para confirmar se existem correlações aceitáveis entre as variáveis

SATISF AUTONOMI ROTINA IDADE ANOS

 Valor de KMO = Valia da Análise Factorial KMO and Bartlett's Test

 O teste de BARTLETT testa a hipótese de a matriz de correlações se a matriz identidade.

3º passo (Análise da matriz de correlação anti-imagem)

SATISF AUTONOMI ROTINA IDADE ANOS

 No caso da AFCP as “iniciais” são sempre iguais a 1

 As variáveis com comunalidades inferiores a 0,2 ou mesmo 0,3

 A soma dos quadrados dos loadings dos factores para cada

0,862 2 + 0,1412 = 0,834

 O indicador principal são os eigenvalues (valores próprios) que representam a

Como proceder à escolha do nº de

0,0  - n > 250 casos

 3- usando como referencial

6º passo (Analisar a matriz das componentes

 NESTE CASO PODEMOS (eventualmente)

F1- Condições trabalho e F2- Temporalidade

Verificações complementares (dimensão da

Component Transformation Matrix

Extraction Method: Principal Component Analysis. -,5

Usando o comando save para produzir os scores que permitem

 Análise de missing values:

Se as não respostas forem em numero superior a 10% e caso não se

Você também pode gostar

Fundamentalmente pretende-se criar uma nova variável que representa

A que se procura dar resposta?

Qual é o número de factores? Sobretudo os que fizerem sentido….

O que representam? Para isso é preciso que se possa ou consiga dar um

A análise de componentes principais é usada para dar maior

- Verificar se o tamanho da amostra é adequado considerando que pode ser:

- Verificar a normalidade dos dados a um nível de significância determinado (0.05) e para

- Verificação dos outliers – para saber se afectam muito as medidas de localização e de

Para confirmar se existem correlações aceitáveis entre as variáveis

Valor de KMO = Valia da Análise Factorial KMO and Bartlett's Test

O teste de BARTLETT testa a hipótese de a matriz de correlações se a matriz identidade.

No caso da AFCP as “iniciais” são sempre iguais a 1

As variáveis com comunalidades inferiores a 0,2 ou mesmo 0,3

A soma dos quadrados dos loadings dos factores para cada

O indicador principal são os eigenvalues (valores próprios) que representam a

0,0 - n > 250 casos

3- usando como referencial

NESTE CASO PODEMOS (eventualmente)

Análise de missing values: