Você está na página 1de 19

-4 5

UNSUPERVISED . 4 9 8 MACHINE
2 9
LEARNING: 4 5 2 .3 Análise Fatorial
s
S a n to e PCA
os
o D
ri t
i s B Prof. Dr. Wilson Tarantin Junior
El v
-4 5
4 9 8
*A responsabilidade pela idoneidade, 2 9 .
.3
originalidade e licitude4dos 52 conteúdos
o s
t é do professor.
didáticos apresentados a n
s S
Proibida a reprodução, D o total ou parcial, sem
i
autorização.
r t o Lei nº 9610/98
i s B
El v
Contextualização

-4 5
• Quando aplicar a análise fatorial? 98
. 4
3 2 9
• Quando as variáveis forem métricas: depende 5 2 .
das correlações entre variáveis
s 4
n to
• Trata-se do agrupamento das variáveis S a em fatores. Os objetivos podem ser:
o s
o D de variáveis, combinando-as para redução estrutural
• Obter o comportamento
ri t conjunto
• Análise da validadeB
• Elaboração del v i s de construtos pela identificação das variáveis alocadas aos fatores

E rankings para classificação de desempenho por meio dos fatores


• Criação de fatores ortogonais entre eles e posterior uso em modelos supervisionados

3
Contextualização

-4 5
• Análise fatorial por componentes principais 98
. 4
3 2 9
• Componentes principais: método de determinação 5 2 . dos fatores que se baseia
na criação de fatores não correlacionados s 4a partir da combinação linear das
n to
variáveis originais
S a
os
o D
• Análise fatorial PCA: modelorit não supervisionado de machine learning
i s B
l v
E não tem um caráter preditivo para observações que não
• Portanto, a técnica
estejam presentes na amostra. Se surgirem novas observações, novos fatores
atualizados devem ser gerados

4
-4 5
. 498
3 2 9
52 .
s 4
Implementação
n to
S a
os
o D
i t
i s Br
El v
Matriz de correlações

-4 5
• Procedimento inicial
. 98
4
3 2 9
• A PCA fundamenta-se na existência de correlações 5 2 . entre variáveis originais
para a criação dos fatores s 4
n to
S a
o s relação linear entre duas variáveis métricas
• Coeficiente de correlação de Pearson:
o D
r it mais próximos dos valores extremos (-1; +1) propiciam a
s B fator → indicam existência de relação entre as variáveis
• Coeficientes de correlação
extração de umiúnico
E l v
• Coeficientes de correlação mais próximos de zero propiciam a extração de diferentes
fatores → indicam que a relação entre as variáveis é (praticamente) inexistente

6
Matriz de correlações

-4 5
• Procedimento inicial
. 98
4
3 2 9
• A seguir, tem-se a representação da matriz de 5 2 .
correlações para K variáveis e a
s 4
expressão de cálculo do coeficiente de correlação
to
de Pearson
a n
s S
D o
rit o
i s B
E l v

Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

7
Adequação global

-4 5
• A extração de fatores é adequada? 98 . 4
3 2 9
• Para que que a análise fatorial seja adequada, 5 2 .
devem existir valores elevados
(-1; +1) e estatisticamente significantes na s 4matriz de correlações
n to
S a
• Para investigar a adequação global o s da análise fatorial, vamos utilizar o teste
o D
de esfericidade de Bartlett
r it
s B
ide correlação de Pearson são estatisticamente diferentes de zero?
l v
• Os coeficientes
E

8
Adequação global

-4 5
• Teste de esfericidade de Bartlett 98
. 4
3 2 9
• Compara a matriz de correlações com a matriz 5 2 .identidade de mesma dimensão
s
e espera-se que tais matrizes sejam diferentes4 para que a análise seja aplicável
n to
S a
os
o D
rit
i s B
E l v
com graus de liberdade

Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

9
Autovalores e autovetores

-4 5
• Autovalores 98
. 4
3 2 9
• A matriz de correlações de dimensão K x K possui 5 2 . K autovalores (λ²) e podem
ser obtidos da seguinte forma: s 4
n to
S a
o s
• Solução de
o D
equivalente a
ri t
i s B
v
El indicam o percentual da variância compartilhada pelas
• Os autovalores
variáveis originais para a formação de cada fator
Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

10
Autovalores e autovetores

-4 5
• Autovetores 98
. 4
3 2 9
• Os autovetores da matriz de correlações são5obtidos2 . com base em cada um
dos autovalores s 4
n to
S a
os para o K-ésimo autovalor (λ²) em análise
• v1k, v2k, ... , vkk são os autovetores
o D
rit
s B
• Solução de lvi
E ou

Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

11
Obtenção dos fatores

-4 5
• Identificação dos scores fatoriais 98
. 4
3 2 9
2
• Após a análise fatorial ser considerada adequada
5 . pelos testes anteriores, será
4 propriamente ditos
necessário criar os scores que geram os sfatores
n to
S a
o s que relacionam o fator com as variáveis
• Scores fatoriais: são os parâmetros
originais, representadostoemDum modelo linear
ri
i s B
l v
E originais, existem, no máximo, K fatores (F1, F2, ... , Fk)
• Para K variáveis

• Os scores vêm a partir dos autovalores e autovetores da matriz de correlações

12
Scores fatoriais

-4 5
• Definindo os scores
. 4 98
3 2 9
• A partir dos autovalores e autovetores, obtém-se5 2 . os scores fatoriais s1, s2, ... , sk
São gerados K grupos de scores (é o limite s 4máximo de K fatores possíveis)
n to
S a
os
o D
rit
i s B
E l v

Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

13
Fatores

-4 5
• Definindo os K fatores
.98
4
3 2 9
• O valor do fator F é obtido com as variáveis 5 .
X 2transformadas pelo Z-Score (ZX)
s
• Tais fatores são ortogonais entre si, ouoseja,4 não são correlacionados
n t
S a
os
o D
rit
i s B
E l v

Fonte das equações: Fávero & Belfiore (2017, Capítulo 10)

14
Escolha dos fatores

-4 5
• Todos os K fatores serão utilizados? 98
. 4
3 2 9
2
• Embora seja possível estabelecer a priori quantos
5 . fatores são desejados, é de
s
fundamental importância realizar uma análise 4 por meio dos autovalores
n to
S a
os o percentual da variância compartilhada
• Lembrando: os autovalores indicam
o D a formação de cada fator
pelas variáveis originaistpara
ri
s B
i formados a partir de autovalores menores do que 1
• Neste sentido,lvfatores
E
podem não ter representatividade. O critério de Kaiser (ou critério da raiz
latente) indica que sejam considerados apenas fatores correspondentes a
autovalores > 1
15
Cargas fatoriais

-4 5
• Análise da composição dos fatores 98 . 4
3 2 9
• As cargas fatoriais representam as correlações 5 2 .
de Pearson entre os fatores e
as variáveis originais s 4
n to
S a
s
• Pode ser interpretada como aoimportância de cada variável na constituição
o D
daquele fator em particular
r it
s B
l
• Quanto maior vai carga fatorial, mais aquele fator é influenciado pela variável
E

16
Comunalidades

-4 5
• Composição dos fatores selecionados 98
. 4
3 2 9
2
• Ao utilizar o critério da raiz latente, somente5os . fatores que são derivados de
autovalores maiores que 1 serão considerados s 4
n to
S a
o
• Portanto, as comunalidades mostrams a variância total compartilhada, para
cada variável, em todostos o D
ri fatores extraídos e selecionados com base no
i s B
critério da raiz latente
El v
• É possível analisar se houve perda de variância, por variável, após a exclusão
de fatores por meio do critério da raiz latente

17
Criação de rankings

-4 5
• Soma ponderada e ordenamento
. 98
4
3 2 9
• Para criar rankings a partir dos fatores obtidos 5 2 .
utilizando o critério da soma
ponderada e ordenamento, para cada observação s 4
to
da amostra, calcula-se:
a n
S
• Resultado = (F * % var. comp. Fs) + (F * % var. comp. F ) + ... + (F * % var. comp. F )
i 1i
D o1 2i 2 ki k

i t o
r o resultado obtido de cada fator por seu percentual
• Em resumo, multiplica-se
i s B
l v
de variância compartilhada
E
e depois é realizado o ordenamento do resultado

18
Referência

-4 5
98
. 4
3 2 9
5
Fávero, Luiz Paulo; Belfiore, Patrícia. (2017). Manual2 .
de análise de dados: estatística e
modelagem multivariada com Excel®, SPSS® esStata®. 4 Rio de Janeiro: Elsevier
n to
S a
os
o D
rit
i s B
E l v

19

Você também pode gostar