Escolar Documentos
Profissional Documentos
Cultura Documentos
Liliana Ferreia
Resumo – Analise
fatorial
Para criar um conjunto de factores que devem ser tratados como variáveis não
correlacionadas como uma abordagem para manipulação de multicolinearidade em
procedimentos como regressão múltipla.
Para identificar grupos de casos e/ou outliers.
Para determinar os grupos de rede através da determinação de quais grupos de
pessoas se aglomeram (usando análise factorial de modo Q).
A análise factorial é parte da família do modelo geral linear (GLM) de procedimentos e
faz muitos dos mesmos pressupostos da regressão múltipla: relações lineares, intervalo
ou quase intervalo de dados, variáveis não truncadas, especificações apropriadas
(incluindo as variáveis relevantes, as estranhas excluídas), a falta de multicolinearidade
elevada, e a normalidade multivariada para testes de significância. A análise de factores
gera uma tabela na qual as linhas são as variáveis observadas e as colunas são os
factores ou variáveis latentes que explicam o máximo da variância dessas variáveis tanto
quanto possível. As células nesta tabela são loads factoriais (loads), e o significado dos
factores deve ser induzido na observação de quais variáveis possuem mais loads e em
quais factores.
Existem vários tipos diferentes de análise factorial, sendo o mais comum o de análise
dos componentes principais (PCA – Principal Components Analysis) que é o preferido para
fins de redução de dados. No entanto, a análise de factores comuns também chamada
de "análise de factores principais" (PFA – Principal Factor Analysis), é o preferido para
fins de análise causal e para a análise factorial confirmatória na modelagem de
equações estruturais, entre outras definições.
Image factoring: Baseado na matriz de correlação das variáveis previstas em vez das
variáveis reais, onde cada variável é prevista a partir das outras através de regressão
múltipla;
Minimum residual factoring: Também extrai factores da matriz de correlação, mas este
método ignora a diagonal da matriz de correlação;
Maximum likelihood factoring (MLF): Baseado numa combinação linear de variáveis para
formar factores, onde as estimativas dos parâmetros são as mais prováveis de se
tornarem resultados na matriz de correlação observados. As correlações são ponderadas
pela singularidade de cada variável. O maximum likelihood factoring gera um teste de
qui-quadrado. O pesquisador pode aumentar o número de factores, um de cada vez, até
o teste ser satisfatório. Para grandes amostras podem existir muito pequenas melhorias
na variância levando o pesquisador a selecionar muitos factores.
Generalized least squares (GLS) factoring: Com base no ajuste do ULS através da
ponderação das correlações inversamente, de acordo com a sua singularidade (variáveis
mais únicas são menos ponderadas). A singularidade (uniqueness) é 1 - h2, onde h2 é a
comunalidade (communality). Como o MLF, o GLS também gera um teste qui-quadrado
de ajuste. O pesquisador pode aumentar o número de factores, um de cada vez, até o
resultado obtido ser satisfatório.
Rotação da Análise
A rotação serve para tornar o output mais compreensível e geralmente é necessária para
facilitar a interpretação dos factores. A soma dos valores próprios não é afetada pela
rotação, mas a rotação vai alterar os autovalores (e percentagem de variância
explicada) de elementos e vai mudar os loads factoriais. Como rotações alternativas
podem explicar a mesma variância (autovalor tem o mesmo total), mas têm loads
factoriais diferentes, e uma vez que os loads factoriais são usados para intuir o
significado de factores, isso significa que diferentes significados podem ser atribuídos
aos factores, dependendo da rotação - um problema frequentemente citado como uma
desvantagem para a análise factorial. Se a análise do factor é utilizada, o pesquisador
pode querer experimentar com métodos alternativos de rotação para ver o que leva a
estrutura a um factor mais interpretável.
Rotações oblíquas: Permitem que os factores sejam correlacionados gerando assim uma
matriz de correlação de factores quando este tipo de rotação é solicitado.
Normalmente, porém, quando um método ortogonal varimax é selecionado, nenhuma
matriz de correlação de factores é produzida dado que a correlação de qualquer factor
com outro é zero.
Termos e Definições
Análise factorial R-mode: O R-mode é de longe o mais comum. As linhas são os casos, as
colunas são as variáveis, e as entradas das células são os scores dos casos das variáveis.
Os factores são grupos de variáveis num conjunto de pessoas ou outras entidades num
determinado ponto do tempo.
Rotação oblíqua: obtém-se tanto a matriz do padrão com a matriz de estrutura. A matriz
de estrutura é simplesmente a matriz de load factorial da mesma maneira que é obtida
numa rotação ortogonal, representando a variância de uma variável medida explicada
por um factor numa base de contribuições únicas e comuns. A matriz padrão, pelo outro
lado, contém os coeficientes que apenas representam contribuições originais. Quantos
maior for o número de factores, menores vão ser os coeficientes padrão tendo em conta
que haverá mais contribuições para a variância explicada. Para a rotação oblíqua, o
pesquisador olha para a estrutura e padrão de coeficientes ao atribuir um rótulo a um
factor.
Soma dos loads factoriais ao quadrado: para todos os factores e para uma dada variável
(linha) é a variância em que a variável explicada é comum a todos os factores, e isso é
chamado de comunalidade (communality). Num PCA completo, sem exclusão de
factores, vai ser 1.0, ou 100% da variância. A relação entre os loads factoriais ao
quadrado para uma dada variável (linha na matrix factor) mostra a importância dos
diferentes factores para explicar a variância da variável dada. Os Loads factoriais são a
base para a imputação de um rótulo para os diferentes factores.
Soluções espúrias: Se a comunalidade for superior a 1,0 existe uma solução espúria, o
que pode refletir uma amostra muito pequena ou excesso ou défice de factores.
Scores factoriais:
Geralmente referem-se ao
tipo padrão (default no
SPSS), que são "scores de
regressão", baseados em
estimativas dos mínimos
quadrados ordinários (OLS).
O score factorial é a
pontuação para um
determinado indivíduo ou
observação sobre um
determinado factor. Podem
ser correlacionados, mesmo
quando uma extração
ortogonal de um factor foi
realizada. Para calcular a pontuação para um factor de determinado caso, levamos em
conta o score padronizado do caso em cada variável indicadora que por sua vez se
multiplica pelo load correspondente da variável indicadora. De seguida, somam-se esses
produtos em todas as variáveis medidas. Assim, para a análise demonstrada na imagem
seguinte, os scores mostrados nas células rosa multiplicados pelos scores medidos de um
sujeito padrão nas variáveis de linha, somam-se ao score do componente 1.
Os loads devem ter um valor de 0,7 ou superior para confirmar que as variáveis
independentes que foram identificadas a priori são representadas por um determinado
factor, com a justificação de que o nível de 0,7 que corresponde a cerca de metade da
variação no indicador ser explicada pelo factor. No entanto, o padrão de 0,7 é elevado e
dados reais podem não cumprir este critério, razão pela qual alguns pesquisadores,
especialmente para fins exploratórios, usam um nível inferior, tais como 0,4 para o
factor central e 0,25 para outros factores (Raubenheimer, 2004). Hair et al. (1998)
chama loads acima de 0,6 "elevados" e os que estão abaixo 0,4 "baixos". Em qualquer
caso, os loads factoriais devem ser interpretados à luz da teoria, e não por níveis de
corte arbitrários.
No exemplo ao lado, focado
nas preferências musicais de
indivíduos (codificadas a
partir de 1=”gosto” a
3=”não gosto”), as células
vermelhas mostram os loads
para variáveis medidas
(linha) mais associados com
cada um dos seis factores
extraídos. A célula verde
ilustra uma fraca a
moderada correlação.
Idealmente, o pesquisador
quer um "factor de estrutura
simples" com todos os principais loads superiores a 0,70 e sem correlações maiores do
que 0,40 (alguns dizem maiores do que 0,3). O rap, preferência musical na componente
3, é a preferência mais clara com o load maior.
Média do autovalor (eigenvalue): Esta regra utiliza apenas os factores cujos autovalores
são iguais ou superiores ao autovalor médio. Sendo uma regra rígida pode resultar em
muito poucos factores.
Antes de excluir um factor o pesquisador deve verificar sua correlação com a variável
dependente. Factores muito pequenos podem ter uma grande correlação com a variável
dependente, caso em que não deve ser abandonada. Além disso, como regra geral, os
factores devem ter pelo menos três loads elevados e interpretáveis.
Suposições
Sem outliers: Os outliers podem ter um forte impacto nas correlações e assim distorcer a
análise dos factores. Pode-se usar a distância de Mahalanobis para identificar os casos
que são outliers multivariados, em seguida, removê-los a partir da análise antes da
análise de factores. Pode-se também criar um conjunto de variáveis dummy a 1 para os
casos com a distância de Mahalanobis alta, então regredir este dummy em todas as
outras variáveis. Se esta regressão é não significativa (ou simplesmente tem um R-
quadrado para grandes amostras baixo), então os outliers são julgados de forma
aleatória e há menos perigo em retê-los. A relação dos pesos beta nessa regressão indica
quais variáveis são as mais associadas com os casos de outlier.
Intervalos de dados são assumidos: No entanto, Kim e Mueller (1978b 74-5) notam que os
factores, o pesquisador pode avaliar qual o modelo que melhor reproduz as correlações
dados ordinais podem ser usados se se pensar que a atribuição da categoria ordinal dos
dados não distorcer seriamente a escala métrica subjacente. Da mesma forma, esses
autores permitem o uso de dados dicotómicos, se as correlações subjacentes métricas
entre as variáveis forem pensadas para ser moderadas (0,7) ou inferiores. O resultado da
utilização de dados ordinais é que os factores podem ser muito mais difíceis de
interpretar.
o Problemas com dados dicotómicos: Shapiro, Lasarev, & McCauley (2002) utilizaram
métodos de simulação para estudar tendências de análise factorial num conjunto de
dados de variáveis dicotómicas. "O nosso trabalho tem mostrado", concluíram eles,
"que a aplicação das normas-padrão a 19 variáveis dicotómicas geradas
aleatoriamente e independentes pode resultar em modelos contendo cinco factores,
o que explicou aproximadamente 30 por cento da variação total. Ainda mais
preocupante é a constatação de que os loads rotacionados acima de 0,40 ocorreu em
mais de 95 por cento do tempo no nosso conjunto de dados gerados aleatoriamente.
Se, como a nossa simulação demonstrou, resultados semelhantes podem ser obtidos
usando dados gerados aleatoriamente, somos forçados a reconsiderar a existência de
síndromes encontrados em estudos anteriores, especialmente aqueles descobertos
através da análise factorial de variáveis dicotómicas". Ou seja, os dados dicotómicos
tendem a render muitos factores (pelo critério de Kaiser), e muitas variáveis
carregadas sobre esses factores (pelo corte 0,40 usual), mesmo para os dados gerados
aleatoriamente.
Linearidade: A análise factorial é um procedimento linear. Claro que tal como a
regressão linear múltipla, a transformação não-linear das variáveis selecionadas pode ser
uma etapa de pré-processamento. Quanto menor for o tamanho da amostra mais
importante é a linearidade.
Ortogonalidade (para análise de factor comum, mas não PCA): os factores únicos devem
ser correlacionados entre si ou com os factores comuns.
Tamanho de amostra adequado: No mínimo, deve haver mais casos do que os factores.
Para exemplificar uma análise factorial, utilizou-se uma base de dados que continha as
preferências musicais (bigband, blues, blues3, blugrass, classicl, classic3, country,
hvymetal, jazz, jazz3, musicals, opera, rap, and rap3) de um conjunto de indivíduos,
tendo cada estilo musical sido pontuado pelos respondentes numa escala de 1 = ”gosto
muito” a 5 = ”não gosto muito”. Utilizaram-se como variáveis as já listadas em cima e
também as referentes ao sexo, idade, educação e ordenado de cada respondente.
Factor Analysis
A análise factorial utiliza a matriz de correlação para determinar quais as variáveis que
vão ser agrupadas.
Correlation Matrix
Broadway Musicals
Age of Respondent
Classical Music (3)
School Completed
Respondent's Sex
Country Western
Bluegrass Music
Highest Year of
Classical Music
Respondent's
Jazz Music
Folk Music
Rap Music
ap Mic (3)
Income
Opera
Music
Music
Music
Bigband Music 1,000 ,357 ,158 ,292 ,521 ,393 ,357 ,269 ,406 -,026 -,096 ,388 ,268 -,031 ,287 -,334 -,074 -,084 -,060
Bluegrass Music ,357 1,000 ,385 ,253 ,169 ,152 ,393 ,094 ,174 -,015 -,001 ,151 ,117 -,035 ,228 -,175 ,012 ,057 ,079
Country W estern ,158 ,385 1,000 ,044 ,030 -,098 ,180 -,083 ,028 ,006 -,100 -,093 -,067 -,018 ,011 -,112 ,105 ,237 -,046
Music
Blues or R & B ,292 ,253 ,044 1,000 ,216 ,224 ,198 ,546 ,191 ,155 ,068 ,235 ,530 ,152 ,925 ,031 -,075 -,097 ,008
Music
Broadway ,521 ,169 ,030 ,216 1,000 ,521 ,417 ,232 ,465 ,037 -,119 ,502 ,237 ,046 ,215 -,233 -,062 -,198 -,287
Musicals
Classical Music ,393 ,152 -,098 ,224 ,521 1,000 ,437 ,301 ,573 ,003 -,006 ,935 ,289 ,008 ,202 -,085 -,106 -,337 -,074
Folk Music ,357 ,393 ,180 ,198 ,417 ,437 1,000 ,134 ,355 -,054 -,055 ,412 ,152 -,052 ,160 -,248 -,113 -,167 ,018
Jazz Music ,269 ,094 -,083 ,546 ,232 ,301 ,134 1,000 ,269 ,145 ,057 ,298 ,933 ,170 ,529 ,083 -,109 -,165 ,026
Opera ,406 ,174 ,028 ,191 ,465 ,573 ,355 ,269 1,000 ,097 -,018 ,540 ,255 ,071 ,173 -,189 -,053 -,186 -,054
Rap Music -,026 -,015 ,006 ,155 ,037 ,003 -,054 ,145 ,097 1,000 ,279 ,002 ,146 ,916 ,132 ,267 ,084 -,001 -,052
Heavy Metal -,096 -,001 -,100 ,068 -,119 -,006 -,055 ,057 -,018 ,279 1,000 ,014 ,065 ,229 ,076 ,380 ,146 ,020 ,124
Music
Classical Music (3) ,388 ,151 -,093 ,235 ,502 ,935 ,412 ,298 ,540 ,002 ,014 1,000 ,296 ,014 ,230 -,078 -,103 -,318 -,072
Jazz Music (3) ,268 ,117 -,067 ,530 ,237 ,289 ,152 ,933 ,255 ,146 ,065 ,296 1,000 ,181 ,549 ,117 -,109 -,167 ,034
Rap Music (3) -,031 -,035 -,018 ,152 ,046 ,008 -,052 ,170 ,071 ,916 ,229 ,014 ,181 1,000 ,129 ,248 ,093 -,006 -,053
Blues and R&B ,287 ,228 ,011 ,925 ,215 ,202 ,160 ,529 ,173 ,132 ,076 ,230 ,549 ,129 1,000 ,035 -,091 -,111 -,012
Music
Age of -,334 -,175 -,112 ,031 -,233 -,085 -,248 ,083 -,189 ,267 ,380 -,078 ,117 ,248 ,035 1,000 ,178 -,120 ,011
Respondent
Respondent's -,074 ,012 ,105 -,075 -,062 -,106 -,113 -,109 -,053 ,084 ,146 -,103 -,109 ,093 -,091 ,178 1,000 ,335 -,235
Income
Highest Year of -,084 ,057 ,237 -,097 -,198 -,337 -,167 -,165 -,186 -,001 ,020 -,318 -,167 -,006 -,111 -,120 ,335 1,000 ,000
Correlation
School Completed
Respondent's Sex -,060 ,079 -,046 ,008 -,287 -,074 ,018 ,026 -,054 -,052 ,124 -,072 ,034 -,053 -,012 ,011 -,235 ,000 1,000
Verificamos que o teste KMO é superior a 0,7 e que a significância do teste de Bartlett é
inferior a 0,05.
df 171
Sig. ,000
Acerca das comunalidades, podemos verificar que os factores extraídos explicam mais de
95% das preferências para a música rap, enquanto que a ópera é o tipo de música menos
preferido com 54%.
Communalities
Initial Extraction
a
Component Matrix
Component
1 2 3 4 5 6
Classical Music ,748 -,236 -,437 ,037 ,037 ,214
Classical Music (3) ,741 -,215 -,419 ,032 ,033 ,230
Jazz Music (3) ,666 ,422 ,176 -,300 -,141 ,003
Jazz Music ,666 ,412 ,166 -,310 -,162 -,011
Broadway Musicals ,654 -,277 -,174 ,238 -,232 -,128
Blues or R & B Music ,644 ,377 ,433 -,165 -,086 ,015
Opera ,639 -,193 -,239 ,199 ,041 ,019
Bigband Music ,631 -,285 ,179 ,191 -,018 -,091
Blues and R&B Music ,630 ,380 ,423 -,204 -,117 ,013
Folk Music ,548 -,353 ,052 ,198 ,297 ,069
Rap Music ,133 ,685 -,216 ,519 ,174 -,348
Rap Music (3) ,139 ,683 -,220 ,495 ,140 -,378
Age of Respondent -,152 ,615 -,249 -,053 ,024 ,413
Country Western Music ,023 -,178 ,528 ,476 ,145 ,026
Bluegrass Music ,362 -,190 ,493 ,316 ,357 ,163
Highest Year of School -,340 ,019 ,462 ,367 -,174 ,133
Completed
Respondent's Sex -,073 ,065 ,143 -,333 ,744 ,074
Heavy Metal Music -,010 ,482 -,159 ,133 ,301 ,529
Respondent's Income -,186 ,149 ,073 ,492 -,426 ,506
Extraction Method: Principal Component Analysis.
Podemos verificar que as 6 primeiras variáveis têm elevados loads no componente 1,
pelo que a partir daqui poderíamos construir uma lista comum de música.
1 2 3 4 5 6
Classical Music ,904 ,138 -,058 -,095 ,083 -,024
Classical Music (3) ,883 ,155 -,062 -,090 ,101 -,018
Opera ,713 ,119 ,102 ,079 -,070 ,014
Broadway Musicals ,688 ,164 ,089 ,046 -,317 ,225
Folk Music ,592 ,057 -,049 ,402 -,089 -,187
Bigband Music ,519 ,271 -,007 ,345 -,305 ,037
Blues and R&B Music ,092 ,864 ,041 ,138 ,006 -,014
Blues or R & B Music ,109 ,855 ,063 ,180 ,014 -,022
Jazz Music (3) ,198 ,838 ,074 -,102 ,055 -,046
Jazz Music ,201 ,837 ,069 -,122 ,034 -,037
Rap Music ,014 ,092 ,956 ,011 ,174 ,030
Rap Music (3) ,010 ,111 ,953 -,020 ,139 ,040
Bluegrass Music ,224 ,157 -,046 ,754 ,016 -,136
Country Western Music -,059 -,043 ,045 ,726 -,111 ,108
Highest Year of School -,404 -,094 -,025 ,440 ,024 ,381
Completed
Heavy Metal Music ,024 ,038 ,168 ,052 ,781 -,049
Age of Respondent -,165 ,103 ,166 -,274 ,699 ,082
Respondent's Sex -,145 ,004 -,091 ,166 ,257 -,760
Respondent's Income -,086 -,098 -,015 ,204 ,385 ,732
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 8 iterations.
De seguida apresentam-se as tabelas dos scores relativos aos factores e à covariância dos
factores.
Component Score Coefficient Matrix
Component
1 2 3 4 5 6
Bigband Music ,102 ,040 ,024 ,147 -,146 ,033
Bluegrass Music ,037 ,003 -,024 ,429 ,103 -,123
Country Western Music -,042 -,026 ,049 ,404 -,026 ,037
Blues or R & B Music -,079 ,305 -,029 ,076 -,006 ,016
Broadway Musicals ,183 -,011 ,072 -,035 -,176 ,178
Classical Music ,300 -,062 -,063 -,073 ,146 ,013
Folk Music ,172 -,071 -,003 ,215 ,037 -,143
Jazz Music -,036 ,294 -,031 -,096 -,010 ,020
Opera ,217 -,054 ,057 ,018 ,006 ,017
Rap Music ,004 -,046 ,518 ,028 -,037 -,043
Heavy Metal Music ,078 -,035 -,033 ,103 ,539 -,050
Classical Music (3) ,292 -,053 -,070 -,069 ,158 ,018
Jazz Music (3) -,035 ,292 -,031 -,082 ,006 ,013
Rap Music (3) -,002 -,035 ,520 ,006 -,066 -,034
Blues and R&B Music -,085 ,315 -,043 ,051 -,014 ,026
Age of Respondent ,008 ,035 -,037 -,096 ,430 ,064
Respondent's Income ,029 -,009 -,117 ,119 ,292 ,525
Highest Year of School -,127 ,023 -,032 ,248 ,024 ,249
Completed
Respondent's Sex -,040 -,027 -,038 ,159 ,202 -,566
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
Component Score Covariance Matrix
Compo
nent 1 2 3 4 5 6
Bibliografia
Ferreira, S. (2011). Apontamentos. Departamento de Matemática.
Pestana, D. e Velosa, S. (2002), Introdução à Probabilidade e à Estatística, Fundação
Calouste Gulbenkian, Lisboa.
Livro: Microsoft Corporation, SPSS Statistics Base 17.0 Users Guide, 2009
http://www.eps.ufsc.br/teses96/camargo/anexo/apendice2.htm
http://carloscollares.blogspot.pt/2011/01/interpretacao-dos-resultados-gerados.html