Trabalho Estatistica Aplicada Diogo 2 - Cópia PDF

Estatística Aplicada – Análise fatorial Docente: Prof. Dr.
Liliana Ferreia
Diogo Silva, M5845
Ciências Sociais e Humanas Ciências do Desporto Estatística aplicada
Resumo – Analise
fatorial
Definição de Análise Fatorial
A análise factorial é utilizada para descobrir a estrutura latente (dimensões) de um

conjunto de variáveis. Ela reduz o espaço de atributos de um grande número de
variáveis para um menor número de factores e como tal é um procedimento “não
dependente”. Isto é, não assume quando uma variável dependente é especificada. A
análise factorial pode ser utilizada para qualquer uma das seguintes finalidades:
 Para reduzir um grande número de variáveis a um número menor de factores para
fins de modelagem, onde o grande número de variáveis impede a modelagem de
todas as medidas individualmente. Como tal, a análise factorial é integrada no
modelo de equações estruturais (SEM – Structural Equation Modeling), ajudando a
confirmar as variáveis latentes modeladas pelo SEM.
 Provar que vários testes podem medir o mesmo factor, dando assim justificativa para
administrar menos testes. A análise factorial teve origem há um século atrás com
tentativas de Charles Spearman para mostrar que uma grande variedade de testes de
capacidade mental poderiam ser explicados por um factor de inteligência única
subjacente (uma noção agora rejeitada).
 Para validar uma escala ou índice, demonstrando que seus itens constituintes
possuem valores de loading no mesmo factor, e não validar os itens da escala
proposta, que possuem valores de loading em mais de um factor.
 Para selecionar um subconjunto de variáveis de um conjunto maior, com base no
qual as variáveis originais têm as maiores correlações com os factores dos
componentes principais.
 Para criar um conjunto de factores que devem ser tratados como variáveis não
correlacionadas como uma abordagem para manipulação de multicolinearidade em
procedimentos como regressão múltipla.
 Para identificar grupos de casos e/ou outliers.
 Para determinar os grupos de rede através da determinação de quais grupos de
pessoas se aglomeram (usando análise factorial de modo Q).
A análise factorial é parte da família do modelo geral linear (GLM) de procedimentos e
faz muitos dos mesmos pressupostos da regressão múltipla: relações lineares, intervalo
ou quase intervalo de dados, variáveis não truncadas, especificações apropriadas
(incluindo as variáveis relevantes, as estranhas excluídas), a falta de multicolinearidade
elevada, e a normalidade multivariada para testes de significância. A análise de factores
gera uma tabela na qual as linhas são as variáveis observadas e as colunas são os
factores ou variáveis latentes que explicam o máximo da variância dessas variáveis tanto
quanto possível. As células nesta tabela são loads factoriais (loads), e o significado dos
factores deve ser induzido na observação de quais variáveis possuem mais loads e em
quais factores.
Existem vários tipos diferentes de análise factorial, sendo o mais comum o de análise
dos componentes principais (PCA – Principal Components Analysis) que é o preferido para
fins de redução de dados. No entanto, a análise de factores comuns também chamada
de "análise de factores principais" (PFA – Principal Factor Analysis), é o preferido para
fins de análise causal e para a análise factorial confirmatória na modelagem de
equações estruturais, entre outras definições.
O processo de análise fatorial oferece um alto grau de flexibilidade:

- Existem 7 métodos de extração fatorial disponíveis;
- Existem 5 métodos de rotação disponíveis, incluindo Oblimin direto e o Promax para a
rotação ortogonal;
- Existem 3 métodos disponíveis para calcular as pontuações fatoriais que podem ser
guardadas como variáveis para uma investigação mais aprofundada.
Métodos de Extração da Análise
EFA – Exploratory Factor Analysis: A análise factorial exploratória pretende descobrir

a estrutura subjacente de um conjunto relativamente grande de variáveis. A
suposição inicial do pesquisador é que qualquer indicador pode ser associado a
qualquer factor. Esta é a forma mais comum de análise factorial. Não há nenhuma
teoria prévia e este utiliza os loads para determinar a estrutura factorial dos dados.
CFA – Confirmatory Factor Analysis: A análise factorial confirmatória visa determinar

se o número de factores e os loads das variáveis medidas estão em conformidade com o
que é esperado com base em teoria pré-estabelecida. Variáveis indicadoras são
selecionadas com base na teoria previamente formulada e a análise factorial é utilizada
para verificar se os loads se enquadram com o número de factores esperado. O
pesquisador faz uma suposição a priori que cada factor é associado com um
subconjunto especificado de variáveis indicadoras.
Image factoring: Baseado na matriz de correlação das variáveis previstas em vez das
variáveis reais, onde cada variável é prevista a partir das outras através de regressão
múltipla;
Minimum residual factoring: Também extrai factores da matriz de correlação, mas este
método ignora a diagonal da matriz de correlação;
Maximum likelihood factoring (MLF): Baseado numa combinação linear de variáveis para
formar factores, onde as estimativas dos parâmetros são as mais prováveis de se
tornarem resultados na matriz de correlação observados. As correlações são ponderadas
pela singularidade de cada variável. O maximum likelihood factoring gera um teste de
qui-quadrado. O pesquisador pode aumentar o número de factores, um de cada vez, até
o teste ser satisfatório. Para grandes amostras podem existir muito pequenas melhorias
na variância levando o pesquisador a selecionar muitos factores.
Alpha factoring: Baseado em maximizar a fiabilidade dos factores, as variáveis

assumidas são aleatoriamente extraídas dum universo de variáveis.
Unweighted least squares (ULS) factoring: Com base na minimização da soma das
diferenças ao quadrado entre matrizes de correlação observada e estimada, sem contar
as diagonais.
Generalized least squares (GLS) factoring: Com base no ajuste do ULS através da
ponderação das correlações inversamente, de acordo com a sua singularidade (variáveis
mais únicas são menos ponderadas). A singularidade (uniqueness) é 1 - h2, onde h2 é a
comunalidade (communality). Como o MLF, o GLS também gera um teste qui-quadrado
de ajuste. O pesquisador pode aumentar o número de factores, um de cada vez, até o
resultado obtido ser satisfatório.
Canonical factor analysis (CFA) também chamado de Rao's canonical factoring: é um

método diferente de calcular o mesmo modelo PCA, que utiliza o método dos eixos
principais. O CFA procura factores que têm a mais alta correlação canônica com as
variáveis observadas.
Rotação da Análise
A rotação serve para tornar o output mais compreensível e geralmente é necessária para
facilitar a interpretação dos factores. A soma dos valores próprios não é afetada pela
rotação, mas a rotação vai alterar os autovalores (e percentagem de variância
explicada) de elementos e vai mudar os loads factoriais. Como rotações alternativas
podem explicar a mesma variância (autovalor tem o mesmo total), mas têm loads
factoriais diferentes, e uma vez que os loads factoriais são usados para intuir o
significado de factores, isso significa que diferentes significados podem ser atribuídos
aos factores, dependendo da rotação - um problema frequentemente citado como uma
desvantagem para a análise factorial. Se a análise do factor é utilizada, o pesquisador
pode querer experimentar com métodos alternativos de rotação para ver o que leva a
estrutura a um factor mais interpretável.
Rotações oblíquas: Permitem que os factores sejam correlacionados gerando assim uma
matriz de correlação de factores quando este tipo de rotação é solicitado.
Normalmente, porém, quando um método ortogonal varimax é selecionado, nenhuma
matriz de correlação de factores é produzida dado que a correlação de qualquer factor
com outro é zero.
Sem rotação: É o padrão no SPSS,

mas é uma boa ideia selecionar um
método de rotação, normalmente a
rotação varimax. Originalmente, a
solução dos principais componentes
sem rotação maximiza a soma dos
loads factoriais ao quadrado, criando
de forma eficiente um conjunto de
factores que explicam o máximo da
variância nas variáveis originais, tanto quanto possível. A porção explicada reflete-se na
soma dos autovalores de todos os factores. No entanto, as soluções sem rotação são
difíceis de interpretar, porque as variáveis tendem a ter múltiplos factores.
Rotação varimax: É uma rotação

ortogonal dos eixos para maximizar a
variância dos loads ao quadrado de
um factor (coluna) em todas as
variáveis (linhas) numa matriz de
factores, que tem o efeito de
diferenciar as variáveis originais pelo
factor extraído. Cada factor tende a
ter ou loads elevados ou pequenos de
qualquer variável. Uma solução
varimax gera resultados que o tornam tão fácil quanto possível para identificar cada
variável com um único factor. Esta é a opção de rotação mais comum.
Rotação Quartimax: É uma alternativa
ortogonal que minimiza o número de
factores necessários para explicar cada
variável. Este tipo de rotação, muitas
vezes gera um factor geral em que a
maioria das variáveis possuem loads num
grau alto ou médio. Tal estrutura de
factores geralmente não é útil para a
finalidade da pesquisa.
Rotação Equamax: É um compromisso entre os critérios Varimax e Quartimax.
Rotação oblimin direct: Às vezes

chamada apenas de "rotação oblíqua", é
o método padrão quando se deseja uma
solução não-ortogonal (oblíquo) - isto é,
aquela em que os factores estão
autorizados a ser correlacionados. Isto
irá resultar em autovalores mais
elevados, mas interpretabilidade
diminuída dos factores. O factor de
Delta pode ser especificado para restringir o grau de correlação permitido na solução,
com 0, permitindo uma maior correlação e um Delta negativo grande restringir a solução
até ser quase ortogonal (factores correlacionados).
Rotação Promax: É um método de

rotação alternativa não-ortogonal
(oblíquo), que é computacionalmente
mais rápido que o método oblimin
direct e, portanto, é por vezes utilizado
para conjuntos de dados muito grandes.
A matriz de transformação de componentes no SPSS mostra a correlação dos factores

antes e depois da rotação.
Termos e Definições
Análise factorial R-mode: O R-mode é de longe o mais comum. As linhas são os casos, as
colunas são as variáveis, e as entradas das células são os scores dos casos das variáveis.
Os factores são grupos de variáveis num conjunto de pessoas ou outras entidades num
determinado ponto do tempo.
Análise factorial Q-mode: Também chamada análise factorial inversa, é a análise

factorial que procura agrupar os casos em vez das variáveis (por exemplo, pessoas). Isto
é, na Q-mode as linhas são variáveis e as colunas são casos,e as entradas de células são
scores dos casos. Em Q-mode os factores são grupos de pessoas para um conjunto de
variáveis. A análise factorial Q-mode é usado para estabelecer a composição entre as
facções de um grupo sobre um conjunto de questões num determinado ponto no tempo.
Uma nota acerca dos loads factoriais negativos: na análise factorial convencionalos loads
são loads das variáveis nos factores, sendo qu e uma load negativa indica uma relação
negativa da variável para o factor. Na análise factorial Q-mode os loads são loads de
casos (geralmente pessoas físicas) em factores e uma load negativa indica que o
caso/respostas individuais se opõem aqueles que apresentam um load positivo do factor.
Na análise factorial convencional o load de zero indica que uma dada variável não está
relacionada com o factor. Na análise factorial Q-mode um load próximo de zero indica
que determinado caso está próximo da média para o factor.
Loads factoriais: Os loads factoriais são os coeficientes de correlação entre as variáveis

(linhas) e factores (colunas). Análogo ao r de Pearson, o load factorial ao quadrado é a
percentagem de variância nessa variável explicada pelo factor. Para obter a
percentagem da variância em todas as variáveis, adicione a soma dos loads factoriais ao
quadrado para esse factor (coluna) e divida pelo número de variáveis. (Note o número
de variáveis é igual à soma das suas variâncias assim como a variância de uma variável
padronizada é de 1.) Este é o mesmo que dividir o eigenvalue do factor pelo número de
variáveis.
Componente, factor, padrão e matrizes de estrutura: No SPSS, os loads factoriais são
encontrados numa matriz chamada de matrix factor se a análise de factores comuns for
solicitada.
Rotação oblíqua: obtém-se tanto a matriz do padrão com a matriz de estrutura. A matriz
de estrutura é simplesmente a matriz de load factorial da mesma maneira que é obtida
numa rotação ortogonal, representando a variância de uma variável medida explicada
por um factor numa base de contribuições únicas e comuns. A matriz padrão, pelo outro
lado, contém os coeficientes que apenas representam contribuições originais. Quantos
maior for o número de factores, menores vão ser os coeficientes padrão tendo em conta
que haverá mais contribuições para a variância explicada. Para a rotação oblíqua, o
pesquisador olha para a estrutura e padrão de coeficientes ao atribuir um rótulo a um
factor.
Soma dos loads factoriais ao quadrado: para todos os factores e para uma dada variável
(linha) é a variância em que a variável explicada é comum a todos os factores, e isso é
chamado de comunalidade (communality). Num PCA completo, sem exclusão de
factores, vai ser 1.0, ou 100% da variância. A relação entre os loads factoriais ao
quadrado para uma dada variável (linha na matrix factor) mostra a importância dos
diferentes factores para explicar a variância da variável dada. Os Loads factoriais são a
base para a imputação de um rótulo para os diferentes factores.
Comunalidade (h2): é a correlação múltipla ao

quadrado para a variável como dependente
usando os factores como elementos de previsão. A
comunalidade mede a percentagem de variância
numa dada variável explicada por todos os
factores em conjunto e pode ser interpretada
como a fiabilidade do indicador. No exemplo ao
lado, focado nas preferências musicais de
indivíduos, os factores extraídos explicam mais de
95% das preferências para a música rap, mas
apenas 56% para a música country. Em geral, a
comunalidade mostra para que variáveis medidas
a análise factorial está a funcionar melhor ou
menos bem.
Comunalidade baixa: Quando uma variável tem um indicador de comunalidade baixo, o

modelo de factor não está a funcionar bem para esse indicador e, possivelmente, ele
deve ser removido do modelo. Comunalidades baixas em todo o conjunto de variáveis
indica que as variáveis são pouco relacionadas entre si. No entanto, a comunalidade
deve ser interpretada em relação à interpretabilidade dos factores. A comunalidade de
0,75 parece elevada, mas não tem significado a menos que o factor da variável seja
interpretável. A comunalidade de 0,25 parece baixa, mas pode ser significativa se o item
está a contribuir para um factor bem definido. Isto é, o que é crítico não é o coeficiente
de comunalidade em si, mas a medida em que o item tem um papel na interpretação do
factor, embora muitas vezes este papel é maior quando a comunalidade é alta.
Soluções espúrias: Se a comunalidade for superior a 1,0 existe uma solução espúria, o
que pode refletir uma amostra muito pequena ou excesso ou défice de factores.
Scores factoriais:
Geralmente referem-se ao
tipo padrão (default no
SPSS), que são "scores de
regressão", baseados em
estimativas dos mínimos
quadrados ordinários (OLS).
O score factorial é a
pontuação para um
determinado indivíduo ou
observação sobre um
determinado factor. Podem
ser correlacionados, mesmo
quando uma extração
ortogonal de um factor foi
realizada. Para calcular a pontuação para um factor de determinado caso, levamos em
conta o score padronizado do caso em cada variável indicadora que por sua vez se
multiplica pelo load correspondente da variável indicadora. De seguida, somam-se esses
produtos em todas as variáveis medidas. Assim, para a análise demonstrada na imagem
seguinte, os scores mostrados nas células rosa multiplicados pelos scores medidos de um
sujeito padrão nas variáveis de linha, somam-se ao score do componente 1.
Singularidade de uma variável (1-h2): Ou seja, a singularidade é 1 menos a sua

comunalidade. O "1" representa 100% da variabilidade da variável e singularidade
representa a variabilidade total menos a variabilidade comum, representada por
comunalidade.
Autovalores (eigenvalues): Também chamados de características de raiz. O autovalor de

um determinado factor mede a variância em todas as variáveis que são explicadas por
esse factor. A relação de autovalores é a razão da importância explicativa dos factores
com relação às variáveis. Se um factor tem um autovalor baixo, então ele está a
contribuir pouco para a explicação das variações nas variáveis e pode ser tido como
redundante com factores mais importantes.
Bartlett Scores: os scores de Bartlett podem ser
preferíveis relativamente aos scores de regressão
na medida em que eles estão em conformidade com
a estrutura factorial original. Num estudo de
simulação, Beauducel (2005: 157) concluiu, "a
congruência extremamente elevada do padrão
componente Bartlett com o padrão de factor
original torna-os mais compatíveis com a prática
comum na análise factorial exploratória e de
confirmação." Os scores de Bartlett são computados
através da minimização dos resíduos ao quadrado como na pontuação de regressão, mas
os resíduos são ponderados pela recíproca do desvio padrão único. Os scores de Bartlett
também têm uma média de 0 e podem ser correlacionados. No SPSS, podem ser
selecionados clicando em "Scores" no botão "Factor Analysis" de diálogo, levando aos
"scores factoriais" de diálogo mostrados abaixo.
Anderson-Rubin Scores: os scores de Anderson-Rubin são uma modificação dos scores de

Bartlett para garantir a ortogonalidade. Portanto são não correlacionados. Eles têm uma
média de 0 e um desvio padrão de 1.
Interpretação dos Loads Factoriais
Os loads devem ter um valor de 0,7 ou superior para confirmar que as variáveis
independentes que foram identificadas a priori são representadas por um determinado
factor, com a justificação de que o nível de 0,7 que corresponde a cerca de metade da
variação no indicador ser explicada pelo factor. No entanto, o padrão de 0,7 é elevado e
dados reais podem não cumprir este critério, razão pela qual alguns pesquisadores,
especialmente para fins exploratórios, usam um nível inferior, tais como 0,4 para o
factor central e 0,25 para outros factores (Raubenheimer, 2004). Hair et al. (1998)
chama loads acima de 0,6 "elevados" e os que estão abaixo 0,4 "baixos". Em qualquer
caso, os loads factoriais devem ser interpretados à luz da teoria, e não por níveis de
corte arbitrários.
No exemplo ao lado, focado
nas preferências musicais de
indivíduos (codificadas a
partir de 1=”gosto” a
3=”não gosto”), as células
vermelhas mostram os loads
para variáveis medidas
(linha) mais associados com
cada um dos seis factores
extraídos. A célula verde
ilustra uma fraca a
moderada correlação.
Idealmente, o pesquisador
quer um "factor de estrutura
simples" com todos os principais loads superiores a 0,70 e sem correlações maiores do
que 0,40 (alguns dizem maiores do que 0,3). O rap, preferência musical na componente
3, é a preferência mais clara com o load maior.
Interpretação dos Eigenvalues
Os autovalores medem a quantidade de variação na amostra total explicada por cada

factor. Note-se que o autovalor não é a percentagem de variância explicada, mas sim
uma medida da quantidade de variância em relação à variação total (desde que as
variáveis sejam padronizadas para ter médias de 0 e variâncias de 1, a variância total é
igual ao número de variáveis). O SPSS irá imprimir uma coluna correspondente intitulado
“% da variância”. O autovalor de um factor pode ser calculado através da soma dos seus
loads factoriais ao quadrado para todas as variáveis.
No exemplo abaixo, mais uma vez na análise de preferências musicais, seriam
necessários 18 componentes (factores) para explicar 100% da variância nos dados. No
entanto, usando o critério convencional de parar quando o autovalor inicial cai abaixo
de 1.0, apenas 6 dos 18 factores foram extraídos. Estes seis representam 72% da
variância nos dados.
Determinar o Número de Factores
- Critérios para determinar o número de factores
Compreensibilidade: Embora não seja um critério estritamente matemático, não há

muito a ser dito para limitar o número de factores para aqueles cuja dimensão do
significado é facilmente compreensível. Muitas vezes isto é os dois primeiros ou três.
Usando um ou mais dos métodos a seguir, o pesquisador determina um conjunto
adequado de soluções para investigar. Por exemplo, o critério de Kaiser pode sugerir
três factores e o teste de scree pode sugerir 5, de modo que o pesquisador pode solicitar
3, 4 e 5 soluções e escolher a solução que gera a estrutura mais compreensível.
Critério de Kaiser: Uma regra comum para excluir factores menos importantes da
análise é a regra K1. Embora tendo origem anteriormente por Guttman, em 1954, o
critério geralmente é referenciado em relação ao trabalho de Kaiser, em 1960. A regra
de Kaiser consiste em excluir todos os componentes com eigenvalues menores que 1.0. O
verdadeiro número de factores pode ser subestimado ou sobrestimado. O critério de
Kaiser é padrão no SPSS e na maioria dos programas de computador, mas não é
recomendado quando usado como critério de corte único para estimar o número de
factores.
Scree plot: O teste de scree de

Catell representa em gráfico os
componentes no eixo X e os
autovalores correspondentes no
eixo Y. Quando a queda cessa e a
curva faz um cotovelo em
direção ao componente de
número mais elevado, o teste de
scree diz para excluir todos os
componentes adicionais após o
início do cotovelo. Esta regra é
muitas vezes criticada por ser
passível de "falsificação". Isto é, como escolher o "cotovelo" pode ser subjetivo, porque a
curva tem cotovelos múltiplos ou é uma curva suave, o pesquisador pode ser tentado a
definir o corte no número de factores desejados pela necessidade da sua pesquisa. O
critério de scree pode resultar em menos ou mais componentes do que o critério de
Kaiser. No exemplo acima, o critério Kaiser parou em 6 componentes, mas alguns
pesquisadores podem usar o critério scree plot para parar em 5 ou mesmo 3.
Critério da variância explicada: Alguns pesquisadores simplesmente usam a regra de

manter os factores suficientes para explicar 90% (às vezes 80%) da variação. Onde o
objetivo do pesquisador enfatiza parcimónia (explicando desacordo com factores como
menor número possível), o critério poderia ser tão baixo quanto 50%.
Critério de Joliffe: A regra menos utilizados, sendo mais liberal do que o critério de
Kaiser podendo daqui resultar no dobro dos factores excluídos. A regra de Joliffe exclui
todos os componentes com eigenvalues em 0,7.
Média do autovalor (eigenvalue): Esta regra utiliza apenas os factores cujos autovalores
são iguais ou superiores ao autovalor médio. Sendo uma regra rígida pode resultar em
muito poucos factores.
Antes de excluir um factor o pesquisador deve verificar sua correlação com a variável
dependente. Factores muito pequenos podem ter uma grande correlação com a variável
dependente, caso em que não deve ser abandonada. Além disso, como regra geral, os
factores devem ter pelo menos três loads elevados e interpretáveis.
- Utilizando resíduos de correlação reproduzida para validar a

escolha do número de factores
Correlação reproduzida: é a matriz de correlação dos itens originais que resultaria na

suposição de que os factores computados foram os factores verdadeiros e únicos. Para
um dado par de variáveis, a correlação reproduzida é o produto dos seus loads sobre o
primeiro factor mais o produto no segundo factor, etc, para todos os factores. Os valores
na diagonal são as comunalidades extraídas.
Resíduos de correlação reproduzida ou "matriz de correlação residual": é a matriz das

diferenças entre as correlações reproduzidas e reais. Quanto mais próximo os resíduos
são de zero (ou seja, baixa ou não significativa), mais confiança o pesquisador tem na
sua selecção do número de factores na solução. No SPSS, notas de rodapé para a tabela
de correlações residuais informam a percentagem de correlações residuais superiores a
0,05, não-redundantes. Numa análise de um bom factor, essa percentagem é baixa. (Isto
não é um teste utilizado para rejeitar um modelo).
A matriz de correlação resídual pode ajudar o pesquisador a identificar correlações

particulares que estão mal reproduzidas pelo modelo de factores, com o número atual
de factores. Experimentando com diferentes modelos, com diferentes números de
factores, o pesquisador pode avaliar qual o modelo que melhor reproduz as correlações
que são mais críticas para fins de investigação dele ou dela.
Suposições
Imputação válida da rotulagem dos factores: É notória a subjetividade envolvida na

imputação de rótulos dos factores a partir dos loads factoriais. Para o mesmo conjunto
de loads factoriais, um pesquisador pode rotular um factor "satisfação no trabalho" e
outro pode rotular o mesmo factor "eficácia pessoal", por exemplo. O pesquisador pode
querer envolver um painel de especialistas neutros no processo de imputação, embora
em última análise, não exista solução "correcta" para este problema.
Nenhum critério de seleção / especificação correta: A exclusão de variáveis relevantes e

a inclusão de variáveis irrelevantes na matriz de correlação afectarão, muitas vezes e
substancialmente, os factores que são descobertos. Embora os cientistas sociais possam
ser atraídos para a análise de factores como uma forma de exploração de dados cuja
estrutura é desconhecida, conhecendo a estrutura factorial antecedente ajuda a
seleccionar as variáveis a serem incluídas e potencia a melhor análise de factores. Este
dilema gera um problema do género da galinha e do ovo. Note que esta não é apenas
uma questão de incluir todas as variáveis relevantes.
Sem outliers: Os outliers podem ter um forte impacto nas correlações e assim distorcer a
análise dos factores. Pode-se usar a distância de Mahalanobis para identificar os casos
que são outliers multivariados, em seguida, removê-los a partir da análise antes da
análise de factores. Pode-se também criar um conjunto de variáveis dummy a 1 para os
casos com a distância de Mahalanobis alta, então regredir este dummy em todas as
outras variáveis. Se esta regressão é não significativa (ou simplesmente tem um R-
quadrado para grandes amostras baixo), então os outliers são julgados de forma
aleatória e há menos perigo em retê-los. A relação dos pesos beta nessa regressão indica
quais variáveis são as mais associadas com os casos de outlier.
Intervalos de dados são assumidos: No entanto, Kim e Mueller (1978b 74-5) notam que os
factores, o pesquisador pode avaliar qual o modelo que melhor reproduz as correlações
dados ordinais podem ser usados se se pensar que a atribuição da categoria ordinal dos
dados não distorcer seriamente a escala métrica subjacente. Da mesma forma, esses
autores permitem o uso de dados dicotómicos, se as correlações subjacentes métricas
entre as variáveis forem pensadas para ser moderadas (0,7) ou inferiores. O resultado da
utilização de dados ordinais é que os factores podem ser muito mais difíceis de
interpretar.
o Problemas com variáveis categóricas: Note-se que as variáveis categóricas com

divisões similares tendem a correlacionar-se umas com as outras,
independentemente do seu conteúdo (veja Gorsuch, 1983). Isto é particularmente
possível de ocorrer quando são usadas dicotomias. A correlação refletirá a
semelhança da "dificuldade" para os itens num contexto de teste, por isso, tais
variáveis correlacionadas são chamadas de factores de dificuldade. O pesquisador
deve examinar os loads factoriais das variáveis categóricas com cuidado para avaliar
se o load comum reflete um factor de dificuldade ou correlação de fundo. Uso
indevido de dicotomias pode resultar em muitos factores.
o Problemas com dados dicotómicos: Shapiro, Lasarev, & McCauley (2002) utilizaram
métodos de simulação para estudar tendências de análise factorial num conjunto de
dados de variáveis dicotómicas. "O nosso trabalho tem mostrado", concluíram eles,
"que a aplicação das normas-padrão a 19 variáveis dicotómicas geradas
aleatoriamente e independentes pode resultar em modelos contendo cinco factores,
o que explicou aproximadamente 30 por cento da variação total. Ainda mais
preocupante é a constatação de que os loads rotacionados acima de 0,40 ocorreu em
mais de 95 por cento do tempo no nosso conjunto de dados gerados aleatoriamente.
Se, como a nossa simulação demonstrou, resultados semelhantes podem ser obtidos
usando dados gerados aleatoriamente, somos forçados a reconsiderar a existência de
síndromes encontrados em estudos anteriores, especialmente aqueles descobertos
através da análise factorial de variáveis dicotómicas". Ou seja, os dados dicotómicos
tendem a render muitos factores (pelo critério de Kaiser), e muitas variáveis
carregadas sobre esses factores (pelo corte 0,40 usual), mesmo para os dados gerados
aleatoriamente.
Linearidade: A análise factorial é um procedimento linear. Claro que tal como a
regressão linear múltipla, a transformação não-linear das variáveis selecionadas pode ser
uma etapa de pré-processamento. Quanto menor for o tamanho da amostra mais
importante é a linearidade.
Ortogonalidade (para análise de factor comum, mas não PCA): os factores únicos devem
ser correlacionados entre si ou com os factores comuns.
Tamanho de amostra adequado: No mínimo, deve haver mais casos do que os factores.
Obter uma Análise Factorial no SPSS
Para exemplificar uma análise factorial, utilizou-se uma base de dados que continha as
preferências musicais (bigband, blues, blues3, blugrass, classicl, classic3, country,
hvymetal, jazz, jazz3, musicals, opera, rap, and rap3) de um conjunto de indivíduos,
tendo cada estilo musical sido pontuado pelos respondentes numa escala de 1 = ”gosto
muito” a 5 = ”não gosto muito”. Utilizaram-se como variáveis as já listadas em cima e
também as referentes ao sexo, idade, educação e ordenado de cada respondente.
Para se obter a Análise Fatorial:

1. No menu escolher: Analyze -> Dimension Reduction -> Factor
2. Selecionam-se as variáveis pretendidas.
3. Escolher Descriptives e seleccionar as correlações pretendidas. Neste caso,
escolhemos as opções coefficients e o teste de Bartlett e KMO.
4. De seguida seleccionamos a opção Extraction e escolhemos uma análise sem

rotação, com scree plot e com eigenvalues superiores a 1.
5. Na opção Rotation seleccionamos o tipo de rotação Varimax, com solução
rotacionada e com o carregamento dos respectivos gráficos.
6. Escolhendo Scores, seleccionamos a opção que permite termos acesso à matriz

dos coeficientes dos scores.
7. Em Options, escolhemos ver os coeficientes por ordem de grandeza.

8. Carregamos em OK e de seguida temos acesso aos seguintes dados.
Factor Analysis
A análise factorial utiliza a matriz de correlação para determinar quais as variáveis que
vão ser agrupadas.
Correlation Matrix
Broadway Musicals
Heavy Metal Music
Age of Respondent
Classical Music (3)
School Completed
Respondent's Sex
Country Western
Bluegrass Music
Highest Year of
Classical Music
Blues and R&B

Blues or R & B
Jazz Music (3)

Bigband Music
Respondent's
Jazz Music
Folk Music
Rap Music
ap Mic (3)
Income
Opera
Music
Music
Music
Bigband Music 1,000 ,357 ,158 ,292 ,521 ,393 ,357 ,269 ,406 -,026 -,096 ,388 ,268 -,031 ,287 -,334 -,074 -,084 -,060
Bluegrass Music ,357 1,000 ,385 ,253 ,169 ,152 ,393 ,094 ,174 -,015 -,001 ,151 ,117 -,035 ,228 -,175 ,012 ,057 ,079
Country W estern ,158 ,385 1,000 ,044 ,030 -,098 ,180 -,083 ,028 ,006 -,100 -,093 -,067 -,018 ,011 -,112 ,105 ,237 -,046
Music
Blues or R & B ,292 ,253 ,044 1,000 ,216 ,224 ,198 ,546 ,191 ,155 ,068 ,235 ,530 ,152 ,925 ,031 -,075 -,097 ,008
Music
Broadway ,521 ,169 ,030 ,216 1,000 ,521 ,417 ,232 ,465 ,037 -,119 ,502 ,237 ,046 ,215 -,233 -,062 -,198 -,287
Musicals
Classical Music ,393 ,152 -,098 ,224 ,521 1,000 ,437 ,301 ,573 ,003 -,006 ,935 ,289 ,008 ,202 -,085 -,106 -,337 -,074
Folk Music ,357 ,393 ,180 ,198 ,417 ,437 1,000 ,134 ,355 -,054 -,055 ,412 ,152 -,052 ,160 -,248 -,113 -,167 ,018
Jazz Music ,269 ,094 -,083 ,546 ,232 ,301 ,134 1,000 ,269 ,145 ,057 ,298 ,933 ,170 ,529 ,083 -,109 -,165 ,026
Opera ,406 ,174 ,028 ,191 ,465 ,573 ,355 ,269 1,000 ,097 -,018 ,540 ,255 ,071 ,173 -,189 -,053 -,186 -,054
Rap Music -,026 -,015 ,006 ,155 ,037 ,003 -,054 ,145 ,097 1,000 ,279 ,002 ,146 ,916 ,132 ,267 ,084 -,001 -,052
Heavy Metal -,096 -,001 -,100 ,068 -,119 -,006 -,055 ,057 -,018 ,279 1,000 ,014 ,065 ,229 ,076 ,380 ,146 ,020 ,124
Music
Classical Music (3) ,388 ,151 -,093 ,235 ,502 ,935 ,412 ,298 ,540 ,002 ,014 1,000 ,296 ,014 ,230 -,078 -,103 -,318 -,072
Jazz Music (3) ,268 ,117 -,067 ,530 ,237 ,289 ,152 ,933 ,255 ,146 ,065 ,296 1,000 ,181 ,549 ,117 -,109 -,167 ,034
Rap Music (3) -,031 -,035 -,018 ,152 ,046 ,008 -,052 ,170 ,071 ,916 ,229 ,014 ,181 1,000 ,129 ,248 ,093 -,006 -,053
Blues and R&B ,287 ,228 ,011 ,925 ,215 ,202 ,160 ,529 ,173 ,132 ,076 ,230 ,549 ,129 1,000 ,035 -,091 -,111 -,012
Music
Age of -,334 -,175 -,112 ,031 -,233 -,085 -,248 ,083 -,189 ,267 ,380 -,078 ,117 ,248 ,035 1,000 ,178 -,120 ,011
Respondent
Respondent's -,074 ,012 ,105 -,075 -,062 -,106 -,113 -,109 -,053 ,084 ,146 -,103 -,109 ,093 -,091 ,178 1,000 ,335 -,235
Income
Highest Year of -,084 ,057 ,237 -,097 -,198 -,337 -,167 -,165 -,186 -,001 ,020 -,318 -,167 -,006 -,111 -,120 ,335 1,000 ,000
Correlation
School Completed
Respondent's Sex -,060 ,079 -,046 ,008 -,287 -,074 ,018 ,026 -,054 -,052 ,124 -,072 ,034 -,053 -,012 ,011 -,235 ,000 1,000
Verificamos que o teste KMO é superior a 0,7 e que a significância do teste de Bartlett é
inferior a 0,05.
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,704
Bartlett's Test of Sphericity Approx. Chi-Square 8956,936
df 171
Sig. ,000
Acerca das comunalidades, podemos verificar que os factores extraídos explicam mais de
95% das preferências para a música rap, enquanto que a ópera é o tipo de música menos
preferido com 54%.
Communalities
Initial Extraction
Bigband Music 1,000 ,556

Bluegrass Music 1,000 ,664
Country Western Music 1,000 ,559
Blues or R & B Music 1,000 ,779
Broadway Musicals 1,000 ,662
Classical Music 1,000 ,855
Folk Music 1,000 ,560
Jazz Music 1,000 ,763
Opera 1,000 ,544
Rap Music 1,000 ,954
Heavy Metal Music 1,000 ,645
Classical Music (3) 1,000 ,826
Jazz Music (3) 1,000 ,763
Rap Music (3) 1,000 ,942
Blues and R&B Music 1,000 ,775
Age of Respondent 1,000 ,636
Respondent's Income 1,000 ,743
Highest Year of School 1,000 ,512
Completed
Respondent's Sex 1,000 ,700
Extraction Method: Principal Component Analysis.
Podemos verificar que foram extraídos 6 factores da tabela explicada da variância,
cumprindo-se o critério de Kaiser. O componente 7 já possui um eigenvalue inferior a 1 o
que o exclui automaticamente.
Total Variance Explained

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings
Component Total % Variance Cumulative% Total % Variance Cumulative% Total % Variance Cumulative%
1 4,688 24,673 24,673 4,688 24,673 24,673 3,571 18,795 18,795

2 2,697 14,195 38,867 2,697 14,195 38,867 3,118 16,412 35,207
3 1,857 9,775 48,643 1,857 9,775 48,643 1,935 10,183 45,390
4 1,778 9,359 58,001 1,778 9,359 58,001 1,821 9,582 54,972
5 1,269 6,679 64,681 1,269 6,679 64,681 1,603 8,437 63,408
6 1,150 6,054 70,735 1,150 6,054 70,735 1,392 7,327 70,735
7 ,898 4,726 75,461
8 ,800 4,212 79,673
9 ,669 3,523 83,196
10 ,596 3,136 86,332
11 ,554 2,917 89,249
12 ,514 2,705 91,954
13 ,484 2,548 94,502
14 ,415 2,186 96,688
15 ,349 1,839 98,527
16 ,092 ,486 99,013
17 ,078 ,412 99,425
18 ,060 ,314 99,739
19 ,050 ,261 100,000
Analisando o scree plot podemos

vir a ter outra leitura, visto que
existe a possibilidade do números
de factores extraídos não
coincidir com a extração da
tabela anterior. Neste caso e
analisando a curva, podemos
extrair entre 4 a 6 factores.
A matriz seguinte fornece-nos os loading factors que representam as correlações entre
as variáveis (linhas) e os factores (colunas). De salientar que neste caso, uma correlação
positiva indica uma discordância com o tipo de música e uma correlação negativa uma
concordância. Esta é a solução sem rotação. Na tabela seguinte apresentamos a tabela
com a rotação escolhida.
a
Component Matrix
Component
1 2 3 4 5 6
Classical Music ,748 -,236 -,437 ,037 ,037 ,214
Classical Music (3) ,741 -,215 -,419 ,032 ,033 ,230
Jazz Music (3) ,666 ,422 ,176 -,300 -,141 ,003
Jazz Music ,666 ,412 ,166 -,310 -,162 -,011
Broadway Musicals ,654 -,277 -,174 ,238 -,232 -,128
Blues or R & B Music ,644 ,377 ,433 -,165 -,086 ,015
Opera ,639 -,193 -,239 ,199 ,041 ,019
Bigband Music ,631 -,285 ,179 ,191 -,018 -,091
Blues and R&B Music ,630 ,380 ,423 -,204 -,117 ,013
Folk Music ,548 -,353 ,052 ,198 ,297 ,069
Rap Music ,133 ,685 -,216 ,519 ,174 -,348
Rap Music (3) ,139 ,683 -,220 ,495 ,140 -,378
Age of Respondent -,152 ,615 -,249 -,053 ,024 ,413
Country Western Music ,023 -,178 ,528 ,476 ,145 ,026
Bluegrass Music ,362 -,190 ,493 ,316 ,357 ,163
Highest Year of School -,340 ,019 ,462 ,367 -,174 ,133
Completed
Respondent's Sex -,073 ,065 ,143 -,333 ,744 ,074
Heavy Metal Music -,010 ,482 -,159 ,133 ,301 ,529
Respondent's Income -,186 ,149 ,073 ,492 -,426 ,506
Podemos verificar que as 6 primeiras variáveis têm elevados loads no componente 1,
pelo que a partir daqui poderíamos construir uma lista comum de música.
Rotated Component Matrixa

Component
1 2 3 4 5 6
Classical Music ,904 ,138 -,058 -,095 ,083 -,024
Classical Music (3) ,883 ,155 -,062 -,090 ,101 -,018
Opera ,713 ,119 ,102 ,079 -,070 ,014
Broadway Musicals ,688 ,164 ,089 ,046 -,317 ,225
Folk Music ,592 ,057 -,049 ,402 -,089 -,187
Bigband Music ,519 ,271 -,007 ,345 -,305 ,037
Blues and R&B Music ,092 ,864 ,041 ,138 ,006 -,014
Blues or R & B Music ,109 ,855 ,063 ,180 ,014 -,022
Jazz Music (3) ,198 ,838 ,074 -,102 ,055 -,046
Jazz Music ,201 ,837 ,069 -,122 ,034 -,037
Rap Music ,014 ,092 ,956 ,011 ,174 ,030
Rap Music (3) ,010 ,111 ,953 -,020 ,139 ,040
Bluegrass Music ,224 ,157 -,046 ,754 ,016 -,136
Country Western Music -,059 -,043 ,045 ,726 -,111 ,108
Highest Year of School -,404 -,094 -,025 ,440 ,024 ,381
Completed
Heavy Metal Music ,024 ,038 ,168 ,052 ,781 -,049
Age of Respondent -,165 ,103 ,166 -,274 ,699 ,082
Respondent's Sex -,145 ,004 -,091 ,166 ,257 -,760
Respondent's Income -,086 -,098 -,015 ,204 ,385 ,732
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 8 iterations.
A tabela seguinte indica-nos as correlações dos factores antes e depois da rotação.
Component Transformation Matrix

Compo
nent 1 2 3 4 5 6
1 ,758 ,625 ,085 ,121 -,096 -,062
2 -,364 ,482 ,586 -,212 ,495 ,037
3 -,474 ,442 -,232 ,696 -,206 ,014
4 ,197 -,363 ,543 ,554 ,057 ,474
5 ,075 -,223 ,174 ,350 ,280 -,845
6 ,156 -,005 -,519 ,165 ,789 ,238
O gráfico tridimensional abaixo representado representa a informação verificada nas
tabelas anteriores para os primeiros 3 factores. No entanto, e como o número de
variáveis é elevado, torna-se extremamente difícil uma conclusão.
De seguida apresentam-se as tabelas dos scores relativos aos factores e à covariância dos
factores.
Component Score Coefficient Matrix
Component
1 2 3 4 5 6
Bigband Music ,102 ,040 ,024 ,147 -,146 ,033
Bluegrass Music ,037 ,003 -,024 ,429 ,103 -,123
Country Western Music -,042 -,026 ,049 ,404 -,026 ,037
Blues or R & B Music -,079 ,305 -,029 ,076 -,006 ,016
Broadway Musicals ,183 -,011 ,072 -,035 -,176 ,178
Classical Music ,300 -,062 -,063 -,073 ,146 ,013
Folk Music ,172 -,071 -,003 ,215 ,037 -,143
Jazz Music -,036 ,294 -,031 -,096 -,010 ,020
Opera ,217 -,054 ,057 ,018 ,006 ,017
Rap Music ,004 -,046 ,518 ,028 -,037 -,043
Heavy Metal Music ,078 -,035 -,033 ,103 ,539 -,050
Classical Music (3) ,292 -,053 -,070 -,069 ,158 ,018
Jazz Music (3) -,035 ,292 -,031 -,082 ,006 ,013
Rap Music (3) -,002 -,035 ,520 ,006 -,066 -,034
Blues and R&B Music -,085 ,315 -,043 ,051 -,014 ,026
Age of Respondent ,008 ,035 -,037 -,096 ,430 ,064
Respondent's Income ,029 -,009 -,117 ,119 ,292 ,525
Highest Year of School -,127 ,023 -,032 ,248 ,024 ,249
Completed
Respondent's Sex -,040 -,027 -,038 ,159 ,202 -,566
Component Score Covariance Matrix
Compo
nent 1 2 3 4 5 6
1 1,000 ,000 ,000 ,000 ,000 ,000
2 ,000 1,000 ,000 ,000 ,000 ,000
3 ,000 ,000 1,000 ,000 ,000 ,000
4 ,000 ,000 ,000 1,000 ,000 ,000
5 ,000 ,000 ,000 ,000 1,000 ,000
6 ,000 ,000 ,000 ,000 ,000 1,000

Bibliografia
 Ferreira, S. (2011). Apontamentos. Departamento de Matemática.
 Pestana, D. e Velosa, S. (2002), Introdução à Probabilidade e à Estatística, Fundação
Calouste Gulbenkian, Lisboa.
 Livro: Microsoft Corporation, SPSS Statistics Base 17.0 Users Guide, 2009
 http://www.eps.ufsc.br/teses96/camargo/anexo/apendice2.htm
 http://carloscollares.blogspot.pt/2011/01/interpretacao-dos-resultados-gerados.html

Trabalho Estatistica Aplicada Diogo 2 - Cópia PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Trabalho Estatistica Aplicada Diogo 2 - Cópia PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística Aplicada – Análise fatorial Docente: Prof. Dr.

Diogo Silva, M5845

Ciências Sociais e Humanas Ciências do Desporto Estatística aplicada

Definição de Análise Fatorial

A análise factorial é utilizada para descobrir a estrutura latente (dimensões) de um

O processo de análise fatorial oferece um alto grau de flexibilidade:

EFA – Exploratory Factor Analysis: A análise factorial exploratória pretende descobrir

CFA – Confirmatory Factor Analysis: A análise factorial confirmatória visa determinar

Alpha factoring: Baseado em maximizar a fiabilidade dos factores, as variáveis

Canonical factor analysis (CFA) também chamado de Rao's canonical factoring: é um

Sem rotação: É o padrão no SPSS,

Rotação varimax: É uma rotação

Rotação Equamax: É um compromisso entre os critérios Varimax e Quartimax.

Rotação oblimin direct: Às vezes

Rotação Promax: É um método de

A matriz de transformação de componentes no SPSS mostra a correlação dos factores

Análise factorial Q-mode: Também chamada análise factorial inversa, é a análise

Loads factoriais: Os loads factoriais são os coeficientes de correlação entre as variáveis

Comunalidade (h2): é a correlação múltipla ao

Comunalidade baixa: Quando uma variável tem um indicador de comunalidade baixo, o

Singularidade de uma variável (1-h2): Ou seja, a singularidade é 1 menos a sua

Autovalores (eigenvalues): Também chamados de características de raiz. O autovalor de

Anderson-Rubin Scores: os scores de Anderson-Rubin são uma modificação dos scores de

Interpretação dos Loads Factoriais

Interpretação dos Eigenvalues

Os autovalores medem a quantidade de variação na amostra total explicada por cada

Determinar o Número de Factores

- Critérios para determinar o número de factores

Compreensibilidade: Embora não seja um critério estritamente matemático, não há

Scree plot: O teste de scree de

Critério da variância explicada: Alguns pesquisadores simplesmente usam a regra de

- Utilizando resíduos de correlação reproduzida para validar a

Correlação reproduzida: é a matriz de correlação dos itens originais que resultaria na

Resíduos de correlação reproduzida ou "matriz de correlação residual": é a matriz das

A matriz de correlação resídual pode ajudar o pesquisador a identificar correlações

Imputação válida da rotulagem dos factores: É notória a subjetividade envolvida na

Nenhum critério de seleção / especificação correta: A exclusão de variáveis relevantes e

o Problemas com variáveis categóricas: Note-se que as variáveis categóricas com

Obter uma Análise Factorial no SPSS

Para se obter a Análise Fatorial:

4. De seguida seleccionamos a opção Extraction e escolhemos uma análise sem

6. Escolhendo Scores, seleccionamos a opção que permite termos acesso à matriz

7. Em Options, escolhemos ver os coeficientes por ordem de grandeza.

Heavy Metal Music

Blues and R&B

Jazz Music (3)

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,704

Bartlett's Test of Sphericity Approx. Chi-Square 8956,936

Bigband Music 1,000 ,556

Total Variance Explained

1 4,688 24,673 24,673 4,688 24,673 24,673 3,571 18,795 18,795

Analisando o scree plot podemos

Rotated Component Matrixa

A tabela seguinte indica-nos as correlações dos factores antes e depois da rotação.

Component Transformation Matrix

1 1,000 ,000 ,000 ,000 ,000 ,000

2 ,000 1,000 ,000 ,000 ,000 ,000

3 ,000 ,000 1,000 ,000 ,000 ,000

4 ,000 ,000 ,000 1,000 ,000 ,000

5 ,000 ,000 ,000 ,000 1,000 ,000

6 ,000 ,000 ,000 ,000 ,000 1,000