Você está na página 1de 9

Análise Factorial em

Componentes Principais
(AFCP)

Licenciatura em Sociologia
Análise de Dados em Sociologia

cveiga@ics.uminho.pt

Objectivo da AFCP
† Tentar reduzir o número de variáveis utilizadas para descrever uma dada
realidade ou fenómeno, cuja medição directa será difícil de conseguir;

† Fundamentalmente pretende-se criar uma nova variável que representa


uma série de outras variáveis que se correlacionam entre si (pode
designar-se de variável latente), o que implica um bom conhecimento do
tema que está a ser analisado;

† A que se procura dar resposta?

† Qual é o número de factores? Sobretudo os que fizerem sentido….

† O que representam? Para isso é preciso que se possa ou consiga dar um


NOME a cada factor a partir da interpretação do analista ao conjunto de
variáveis que com ele estão correlacionadas (que o representam)
cveiga@ics.uminho.pt
Principal Fraqueza da AFCP
† Poder cair-se facilmente em interpretações
subjectivas, o que torna a AFCP de maior
utilidade como técnica exploratória de dados
(para explorar as relações entre um conjunto
de variáveis do que como técnica
confirmatória (para confirmar hipóteses ou
teorias que se escondam por debaixo da
estrutura de um conjunto de variáveis);
cveiga@ics.uminho.pt

ANÁLISE FACTORIAL VS ANÁLISE DE


COMPONENTES PRINCIPAIS
† Semelhanças:
Podem ser ambas aplicadas a matrizes de correlação;

† Diferenças:
† No aspecto técnico na forma como tentam ajustamento à
matriz de correlações;
„ A análise de componentes principais tenta captar a máxima variação
no conjunto de variáveis.
„ A análise factorial tenta captar a correlação entre as variáveis;
identificar relações entre as variáveis;

† A análise de componentes principais é usada para dar maior


relevo à redução de dados e menor à interpretação;
cveiga@ics.uminho.pt
Etapas a seguir na realização da AFCP
Procedimentos prévios
† Procedimentos:

† - Verificar se o tamanho da amostra é adequado considerando que pode ser:


† Um rácio de 10 casos para cada variável;
† Ter casos em número 10 a 25 vezes superior ao número das variáveis incluídas na análise;
† Um tamanho próximo de 300 casos;

„ - Determinar se os dados estão numa escala de medida que sirva para a análise factorial se
cumprem determinados pressuposto (se provém de variáveis contínuas relacionadas
linearmente ou eventualmente de tipo ordinal)

„ - Verificar a normalidade dos dados a um nível de significância determinado (0.05) e para


todas as variáveis através dos testes de ;
† - Kolgomorov-smirnov
† - Shapiro-Wilk
„ (se os valores não forem significativos assume-se a normalidade dos dados)

„ - Verificação dos outliers – para saber se afectam muito as medidas de localização e de


dispersão.

cveiga@ics.uminho.pt

1º Passo (Análise da Matriz de Correlações)

† Para confirmar se existem correlações aceitáveis entre as variáveis


que permitam ter boas condições para produzir um modelo. É que se
as correlações entre as variáveis foram pequenas é pouco provável
que partilhem factores comuns (R<0,3).
Correlation Matrix

SATISF AUTONOMI ROTINA IDADE ANOS


Correlation SATISF 1,000 ,736 -,568 ,131 ,170
AUTONOM ,736 1,000 -,485 ,099 ,095
ROTINA -,568 -,485 1,000 ,071 ,101
IDADE ,131 ,099 ,071 1,000 ,683
ANOS ,170 ,095 ,101 ,683 1,000
Sig. (1-tailed SATISF ,000 ,000 ,002 ,000
AUTONOM ,000 ,000 ,015 ,019
ROTINA ,000 ,000 ,061 ,014
IDADE ,002 ,015 ,061 ,000
ANOS ,000 ,019 ,014 ,000

† (Por exemplo uma variável que tenha mais de 50% de correlações abaixo desse valor dificilmente
servirá para usar na AFCP. Salvo se tiver loadings (pesos nos factores) superiores a 0.5)

cveiga@ics.uminho.pt
2º Passo (realização dos testes de KMO (Kaiser,
Meyer, Olkin) ou de esfericidade de Bartlett)
† 2º Passo (realização dos testes de KMO (Kaiser, Meyer, Olkin) ou de esfericidade de
Bartlett):

„ O teste de KMO- é uma medida da adequação das variáveis para entrarem no modelo
(compara as correlações simples com as correlações parciais).

„ Valor de KMO = Valia da Análise Factorial KMO and Bartlett's Test


„ < 0,5 Inválida Kaiser-Meyer-Olkin Measure of Sampling
„ 0,5 - 0,6 Má Adequacy. ,608
„ 0,6 - 0,7 Razoável
Bartlett's Test of Approx. Chi-Square 899,207
„ 0,7 – 0,8 Média Sphericity df 10
„ 0,8 – 0,9Boa Sig. ,000
„ 0,9 – 1 Muito Boa

„ O teste de BARTLETT testa a hipótese de a matriz de correlações se a matriz identidade.


Este teste é muito sensível ao tamanho da amostra, sendo pouco usado.

H0:Π =I vs H1: Π ≠ I

cveiga@ics.uminho.pt

3º passo (Análise da matriz de correlação anti-imagem)


† 3º passo (Análise da matriz de correlação anti-imagem)
„ Para medir a adequação de cada variável para ser usada na AFCP. Em
caso de se detectarem valores pequenos na diagonal (r < 0,5) deve
considerar-se a eliminação da variável.
Anti-image Matrices

SATISF AUTONOMI ROTINA IDADE ANOS


Anti-image Covariance SATISF ,380 -,259 ,191 4,849E-03 -7,80E-02
AUTONOMI -,259 ,451 6,105E-02 -2,46E-02 2,196E-02
ROTINA ,191 6,105E-02 ,628 -1,35E-02 -9,31E-02
IDADE 4,849E-03 -2,460E-02 -1,35E-02 ,531 -,346
ANOS -7,80E-02 2,196E-02 -9,31E-02 -,346 ,510
Anti-image Correlation SATISF ,612a -,626 ,391 1,079E-02 -,177
AUTONOMI -,626 ,660a ,115 -5,03E-02 4,581E-02
ROTINA ,391 ,115 ,748a -2,34E-02 -,164
IDADE 1,079E-02 -5,026E-02 -2,34E-02 ,529a -,664
ANOS -,177 4,581E-02 -,164 -,664 ,507a
a. Measures of Sampling Adequacy(MSA)

cveiga@ics.uminho.pt
4º passo (Análise da tabela das
comunalidades)
„ As comunalidades indicam a proporção da variância explicada pelas
componentes principais.
Communalities

Initial Extraction
SATISF 1,000 ,834
AUTONOMI 1,000 ,764
ROTINA 1,000 ,667
IDADE 1,000 ,826
ANOS 1,000 ,840
Extraction Method: Principal Component Analysis.

† No caso da AFCP as “iniciais” são sempre iguais a 1


† Existem tantas quantas são as variáveis do modelo
† Após a extracção variam de 0 (zero) a 1. Sendo 0 quando os factores
comuns não explicam nenhuma variância da variàvel e 1 quando a
explicam totalmente.
cveiga@ics.uminho.pt

† As variáveis com comunalidades inferiores a 0,2 ou mesmo 0,3


têm pouco em comum com as outras e não são explicadas
pelas componentes ou factores devendo sair da análise.

† A soma dos quadrados dos loadings dos factores para cada


variável são as comunalidades – cf. tabela component matrix.

0,862 2 + 0,1412 = 0,834

cveiga@ics.uminho.pt
5º passo (Definir o nº de factores a reter e
determinar a variância explicada)
Total Variance Explained

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Component Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 2,240 44,803 44,803 2,240 44,803 44,803 2,196 43,927 43,927
2 1,690 33,798 78,601 1,690 33,798 78,601 1,734 34,674 78,601
3 ,507 10,144 88,745
4 ,324 6,482 95,227
5 ,239 4,773 100,000
Extraction Method: Principal Component Analysis.

† O indicador principal são os eigenvalues (valores próprios) que representam a


variância das variáveis captada pela componente ou factor.
† Cada valor próprio mede a quantidade da variância captada pelo factor.
† Existem tantos factores quanto os valores próprios superiores a 1, pois se um factor
tiver valor próprio superior a 1 irá conter a variância de mais que uma variável.
† A soma dos valores próprios é igual ao número de variáveis (neste caso igual a 5);
† os valores próprios podem ser usados para expressar a % da variância captada pelo
factor.
cveiga@ics.uminho.pt

Como proceder à escolha do nº de


factores a reter
† 1- Quando os valores
próprios são > 1
Scree Plot
2,5 † 2- Analisando o SCREE
2,0
PLOT que pode ser uma boa
solução sempre que:
- K < 30
1,5
†
1,0
† - as comunalidades têm no
mínimo um valor igual a 0,6
Eigenvalue

,5

0,0 † - n > 250 casos


1 2 3 4 5

Component Number

† 3- usando como referencial


uma % acumulada > 70%

cveiga@ics.uminho.pt
6º passo (Analisar a matriz das componentes
antes da rotação)
† † Esta matriz mostra a
correlação entre as variáveis e
os factores;
Component Matrixa † Os loadings representam a
Component correlação entre as variáveis e
1 2 o factor;
satisf
autonomi
,908
,862
-,099
-,141
† Cada factor explica uma % da
rotina -,714 ,397 variância total;
idade ,283 ,864 † Quanto maior for a % maior é
anos ,288 ,870
a capacidade explicativa do
Extraction Method: Principal Component Analysis.
a. 2 components extracted.
factor;
† a soma dos quadrados dos
loadings é igual ao valor
próprio (0,9082 + ... + 0,2832 ) = 2,240

cveiga@ics.uminho.pt

6º passo (Analisar a matriz das componentes


com rotação)
† Tipos de rotação a usar:

a
† Varimax: cujo objectivo é obter
Rotated Component Matrix uma estrutura factorial na qual
Component cada variável original esteja
1 2
fortemente associado a um único
satisf ,899 ,161 factor e pouco com os restantes.
autonomi ,867 ,108
rotina -,797 ,180 † Quartimax: o objectivo é
idade ,028 ,908 encontrar uma estrutura factorial
anos ,031 ,916 onde todas as variáveis têm pesos
Extraction Method: Principal Component Analysis
elevados num factor (dito geral) e
Rotation Method: Varimax with Kaiser Normalizati
que cada uma possui pesos
a. Rotation converged in 3 iterations.
factoriais elevados num outro
factor (dito comum) e reduzidos
nos restantes.

cveiga@ics.uminho.pt
7º passo (denominação dos factores
retidos)
† Quando a AFCP é bem sucedida obtemos um pequeno nº
de factores interpretáveis que captam parte significativa
da variância das variáveis originais e que servem para
simplificar a solução encontrada.

† NESTE CASO PODEMOS (eventualmente)


DENOMINAR OS DOIS FACTORES ASSIM:

F1- Condições trabalho e F2- Temporalidade

cveiga@ics.uminho.pt

Verificações complementares (dimensão da


rotação e gráfico das componentes)
Neste caso o nível de Podemos ver a
rotação foi elevado localização das
(>0,5) variáveis no plano
Component Plot in Rotated Space
1,0

Component Transformation Matrix


,5

Component 1 2
1 ,959 ,282
0,0
2 -,282 ,959
Component 2

Extraction Method: Principal Component Analysis. -,5


Rotation Method: Varimax with Kaiser Normalizatio
-1,0
-1,0 -,5 0,0 ,5 1,0

Component 1

cveiga@ics.uminho.pt
Identificação de ouliers e análise de
missing values
† Identificação de outliers:

Usando o comando save para produzir os scores que permitem


identificar os outliers (produzindo duas novas variáveis no ficheiro de
dados), em que os casos com valores absolutos superiores 2
consideram-se outliers.

† Análise de missing values:

Se as não respostas forem em numero superior a 10% e caso não se


distribuam aleatoriamente podem estar a distorcer os resultados,
podendo por exemplo reportarem-se a segmentos de população com
características especificas. Usando as opções listwise e pairwise podem
comparar-se os factores criados e ver se diferem entre si.

cveiga@ics.uminho.pt

Você também pode gostar