Você está na página 1de 2

ANÁLISE FATORIAL – PCA

Trata-se de uma técnica não supervisionada, os resultados não são preditivos, valem apenas
para as observações existentes do “dataset”. Ou seja, analisamos o conjunto de informação que
possuímos, verificamos a correlação entre as variáveis, no entanto, não conseguimos a partir daí
prevê o comportamento do sistema se houver a entrada de mais dados.

Essa análise tem como objetivo criar fatores que reduzam as informações existentes em
diversas variáveis para estabelecer uma nova que captura o comportamento do conjunto das
variáveis que deram origem. Elas devem ser métricas e possuírem correlação alta entre si. Pretende-
se identificar os fatores que possuam comportamento de conjunto delas de forma interdependente.
1

Assim, lizemos o load do data set no programa RStudio, escolhemos as variáveis que seriam
utilizadas para o teste de adequabilidade dos dados. Precisamos alterar o “dataset” no “excel”,
colocamos as colunas que iriamos utilizar agrupadas no lado direito da tabela, separando-as daquelas
com variáveis categóricas.

Fizemos o comando “summary” em todas as colunas para verificar as estatísticas descritivas


delas. Algumas variáveis não passaram, estavam no tipo diferente, precisamos recarregar a base e
alterar o tipo da variável no momento do carregamento. (colar resultados)

Após obter os resultados estatísticos, passamos para a construção da matriz de correlações


de Pearson. Essa matriz foi resultado de um estudo de Spearman2, pois em um estudo com alunos
ele teria percebido que as razões entre duas linhas quaisquer da matriz eram aproximadamente
proporcionais, um fator aleatório comum existia para todos, a comunalidade. Anos depois, a partir
da maximização da variância dos dados originais, Hotelling3 passou a chamar de Princial Component
Analysis - PCA.

Assim, a partir da matriz extraímos os fatores, ou componentes principais, ele é simétrica em


relação à diagonal, por isso, esta apresenta o valor inteiro “1”. Também geramos a matriz de
significância. (colar matriz de significância)

Em seguida geramos o gráfico de correlações. (colar o gráfico de dispersão correlações).


Verificamos que de tantas variáveis poucas mostraram correlação significativa.

Com tantas observações fica impraticável visualizar bem no gráfico. Desta feita, verificamos a
adequação da análise. Como este pretende identificar se as variáveis escolhidas podem ser utilizadas
na análise. Utilizamos a função “cortest.bartlett” para realizar o teste de esfericidade de Bartlett.
(incluir figura da fórmula de bartlett)

Esse pretende determinar, de acordo com um número escolhido de graus de liberdade e


nível valor crítico. Quando isso acontece, entende-se que os valores das correlações de Pearson são
estatisticamente diferentes de “0”, de modo que é possível retirar os fatores. (Incluir resultados do
teste).

O nosso resultado do teste trouxe um valor muito próximo de “0” e menor que o índice de
significância de 0,05. Sendo assim, nós rejeitamos H0 e ficamos com H1, pois nossa matriz de
correlações é estatisticamente diferente da matriz identidade. Podemos então, extrair fatores a
partir das variáveis originais.
O número apropriado de fatores a serem extraídos para análise a mesma quantidade de
variáveis. Usamos a função “nfactors”. Criamos um arquivo chamado “fatores”, com os “outputs”. A
partir deles fomos buscar os chamados: autovalores, ou “eigenvalues”. (colocar tabela de
autovalores). Geralmente o cálculo é inverso. Primeiro busca-se ou autovalores, depois os
autovetores e por fim, chega-se aos fatores propriamente ditos, no “R”, é automático com a função.
Extraímos os autovetores também. (colocar tabela).

Por curiosidade fazemos a soma total dos “eigenvalues”, o valor consiste no número de itens
extraídos.

Em seguida fizemos a verificação da variância compartilhada das variável original, como os


fatores são formados por percentuais de autovalores, temos que dividem ela. (incluir variância
compartilha).

Passamos então para o cálculo dos “scores” fatoriais. Basta elevar a carga fatorial ao
quadrado para saber a proporção de variância explicada4. Espera-se que todas as variáveis tenham
todos os fatores em si.

Você também pode gostar