Escolar Documentos
Profissional Documentos
Cultura Documentos
• Apresentações
• Critérios de avaliação
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
• Extensões de métodos matriciais
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Apresentações
Prof. Mateus Ponchio
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Critérios de Avaliação
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Sumário
Análise fatorial exploratória (AFE) é um método estatístico multivariado
usado para investigar a estrutura subjacente de um conjunto relativamente
grande de variáveis.
Altura
Posição do Preferências
banco do para dirigir
carro
Análise fatorial exploratória: medindo
um construto latente
Variável
erro
observável
(indicador)
Fonte de Variável
variabilidade Latente ou Fonte de
comum aos Fator Comum variabilidade
indicadores específica
Variável
observável erro
(indicador)
Análise fatorial exploratória: medindo
um construto latente
• Indicadores
– Notas dos alunos de uma classe
• His história
• Mat matemática
• Geo geografia
• Qui química
• Fis física
Análise fatorial exploratória: medindo
um construto latente
Matriz de correlações
Hist 1,00
Hab. em Hab. em
0,79 MAT
exatas humanas
QUI GEO
5 Variáveis 2 Fatores
originais ortogonais
F1 - Habilidade em Exatas
F2 – Habilidade em Humanas
Análise fatorial exploratória: um pouco
de álgebra
Variação
Variação
não
Valores explicada
explicada
observados pelos
pelos
fatores
fatores
Outras variáveis (assistir Outras variáveis Outras variáveis
ao Mundo de Beakman) (didática do (gosto por filmes
professor no épicos, etc.)
FIS colégio, etc.)
HIS
Hab. em
0,72 0,34 Hab. em
0,79 MAT
exatas humanas
Nº de variáveis
Análise fatorial exploratória: exemplo
DIDAT didática
PONTUAL pontualidade
Matriz de correlações
DIDAT 0,55
MATRL 0,60 0,43
RELACION 0,43 0,81 0,48
DISPON 0,05 0,22 0,3 0,33
PONTUAL -0,13 -0,18 0,02 -0,18 -0,06
Análise fatorial exploratória: exemplo
Cargas fatoriais
Variable Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Comm
AUDVIS -0,74 0,09 -0,47 0,29 -0,36 0,11 1
DISPON -0,41 0,14 0,85 0,20 -0,20 -0,01 1
DIDAT -0,86 -0,13 -0,07 -0,40 -0,11 -0,26 1
MATRL -0,75 0,38 -0,08 0,40 0,36 -0,09 1
PONTUAL 0,23 0,91 -0,05 -0,32 -0,08 0,02 1
RELACION -0,86 -0,10 0,12 -0,38 0,18 0,25 1
• Como fixar m?
– análise do fenômeno pode sugerir valor
de m
– trabalhos similares de outros
pesquisadores
– critérios numéricos (regras empíricas)
• rodar com m = p e selecionar fatores que correspondam a
autovalores maiores que 1
• verificar proporção da variância explicada pelos primeiros
m fatores
Análise fatorial exploratória: exemplo
cargas em F2
cargas em F1 cargas em F1
Análise fatorial exploratória: rotação de
fatores
Fração da variabilidade
Variance 2,55 1,17 1,09 4,81
dos indicadores explicada
% Var 0,43 0,20 0,18 0,80 pelos fatores.
Análise fatorial exploratória: análise dos
resultados
• Surrogate variable
Selecionar uma variável representando cada
fator.
– maior carga no fator selecionado;
– mais representativa na opinião do analista;
– custo de aquisição da variável;
– erro de medição da variável
– inconvenientes:
• uma única variável pode não representar o verdadeiro
significado do fator
Análise fatorial exploratória: redução de
dimensionalidade
• Summated Scales
Combinar duas ou mais variáveis representando cada
fator.
• Em geral média (simples ou ponderada) das variáveis
• Considerar mesmos critérios do item anterior
• Variáveis escolhidas devem ter carga alta em um único fator
(representam uma dimensão única no estudo)
• Correlação da nova variável com fator deve ser alta
• Escores fatoriais
• Calculados pelo R
Análise fatorial exploratória: redução de
dimensionalidade
• Escores fatoriais
– vantagem:
• ortogonalidade (não correlacionadas)
– desvantagens:
• (às vezes) difíceis de entender e explicar a terceiros
• influência de todas as variáveis (mesmo com carga baixa)
Análise fatorial exploratória: escores
fatoriais
X1...Xp AF F1....Fm
• Vantagens:
– Menor dimensionalidade sem grande perda de
informação
– Ortogonalidade
Análise fatorial exploratória: exemplo
Exemplo: Avaliações
dataset_AVALIACOES.xlsx
View(dataset_AVALIACOES)
dados = subset(dataset_AVALIACOES, select = -
c(PROFESSOR, AGLOB))
View(dados)
attach(dados)
cor(dados)
Análise fatorial exploratória: exemplo
library(psych)
cortest.bartlett(dados)
print(modelo2rot$scores)
• Representação gráfica
• Eixos: escores fatoriais Fator (i) vs Fator (j)
Variável Pergunta
Ranking de reputação acadêmica do programa
RankingAcademico
Ranking de reputação do programa no setor privado
RankingPrivado
Ranking de dificuldade de entrada no programa
RankingEntrada
Ranking de remuneração média dos alunos que terminaram
RankingColocacao o programa
Média dos alunos do programa no GMAT (prova geral
MediaGMAT utilizada para seleção de alunos pelos programas)
Média geral das notas de graduação dos alunos do
MediaGraduacao programa
Percentual de alunos empregados até 3 meses após
PercentualEmpregados terminarem o programa
Valor médio do total de semestralidades e outras tarifas
CustoCurso cobradas pelo programa
Análise fatorial exploratória: Caso –
Avaliação de MBAs
View(MBAs)
dados2 = subset(MBAs, select = -c(Escola))
View(dados2)
attach(dados2)
cor(dados2)
plot(facilidade, desprestigio)
abline(a=0, b=0)
abline(v=0)
text(facilidade, desprestigio, MBAsScores$Escola, pos=1, cex = 0.5)
Análise fatorial exploratória: Caso –
Avaliação de MBAs
Fatores
com
variância
acima de 1
Análise fatorial exploratória: Caso –
Avaliação de MBAs
Comunalidades elevadas
77,2% da variabilidade
(des)Prestígio Facilidade de dos indicadores é
do programa entrada explicada pelos fatores
Análise fatorial exploratória: Caso –
Avaliação de MBAs
Escores Fatoriais
Análise fatorial exploratória: Caso –
Avaliação de MBAs
Mapa perceptual
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Análise de Agrupamentos (clusters)
• Segmentação de mercados
– Consumidores caracterizados por variáveis que expressam hábitos de
consumo.
• Classificação de produtos
– Os produtos de um mesmo grupo são percebidos como similares pelos
consumidores potenciais.
200
Tiago
Gordon
Carne
Ítalo
180 Alexandre
Maria
160
140
Solstícia Antônia
120
Equinócio
100
0 50 100 150 200 250
Carboidratos
Distance
0,00
132,33
264,66
396,99
Alexandre
Franco
Gordon
Ítalo
Antônia
Equinócio
Técnicas de clusterização: introdução
Maria
Tiago
Solstícia
Cláudia
Roberval
Filipeto
Joana
Ward linkage; Euclidean distance
Técnicas de clusterização: introdução
0,00
214,89
429,78
644,67
Alexandre
Franco
Ítalo
Antônia
Solstícia
Cláudia
Técnicas de clusterização: introdução
Filipeto
Equinócio
Gordon
Roberval
Joana
Maria
Tiago
Técnicas de clusterização: roteiro
4. Coletar os dados
5. Analisar e tratar os dados
Outliers
Missing values
Transformação de variáveis
correlações entre variáveis , etc.
• Transformação de variáveis
alternativa 1
x xj Todas as variáveis Zj
zj (j=1,...,p) terão mesma
sj variância. Isto pode ser
inconveniente.
alternativa 2 x j min j
zj
max j min j
Cliente X1 X2 X3 Total
A 22 0 1 23
B 93 26 74 193
C 0 8 58 66
D 65 10 72 147
E 26 5 5 36
F 0 14 56 70
G 20 300 60 380
H 68 14 90 172
I 5 26 131 162
J 100 500 60 660
K 80 320 0 400
L 55 10 0 65
Técnicas de clusterização: roteiro
Transformação de variáveis
Exemplo de transformação
Dados transformados considerando a % investida em cada aplicação.
Cliente Z1 Z2 Z3
A 96 0 4
B 48 13 38
C 0 12 88
D 44 7 49
E 72 14 14
F 0 20 80
G 5 79 16
H 40 8 52
I 3 16 81
J 17 76 9
K 20 80 0
L 85 15 0
Técnicas de clusterização: roteiro
Variáveis quantitativas
Distância euclidiana
Distância “city-block” (Manhattan)
etc.
Variáveis qualitativas
Coeficiente de concordâncias simples
Coeficiente de Jaccard
etc.
Técnicas de clusterização: roteiro
6. Selecionar critério(s) de parecença
X1 X2 X3 X4 X5 X6 X7 X8
A 0 1 1 1 0 1 1 0
B 0 0 1 0 0 1 1 1
concordâncias 5
Concordâncias Simples S1 0.63
p 8
concordâncias(1 1) 3
Concordâncias positivas S 2 0.38
p 8
concordâncias(1 1) 3
Coeficiente de Jaccard S3 0.50
p concordâncias (0 0) 6
Alternativa :
• dividir em mais categorias (quartis, por exemplo)
• gerar dummies mantendo estrutura de ordem - slide seguinte
Técnicas de clusterização: roteiro
6. Selecionar critério(s) de parecença
Estado Civil X1 X2 X3 X4
k dummies quando
Solteiro 1 0 0 0
diferenciamos 1-1 de 0-0
Casado 0 1 0 0
(k-1) dummies quando
Separado 0 0 1 0
não diferenciamos 1-1 de 0-0
Viuvo 0 0 0 1
Grupo B Ideias ?
Grupo A
Grupo C
Técnicas de clusterização: roteiro
6. Selecionar critério(s) de parecença
B
A
D
C E
GRUPO 1 GRUPO 2
B
A
D
C E
GRUPO 1 GRUPO 2
B
A
D
C E
GRUPO 1 GRUPO 2
A distância entre dois grupos pode ser medida pela distância entre
os centróides desses grupos. Se o cluster A é formado pelos
indivíduos ai (i=1,..., an) e o cluster B pelos indivíduos bj (j=1,...,bn),
os centróides de A e B são definidos por
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
A análise dos perfis permite em muitos casos que batizemos cada um dos
grupos obtidos de forma adequada. A identificação dos grupos através de
denominações apropriadas facilita a comunicação entre os usuários dos
resultados.
Técnicas de clusterização: roteiro
9. Validar resultados
A validação de uma partição não deve ser confundida com a obtenção de grupos
que vão ao encontro das expectativas do analista. Um dos benefícios maiores da
Análise de Agrupamentos é a identificação de novas formas de classificar
indivíduos, permitindo gerar ou confirmar hipóteses acerca de seu
comportamento.
Técnicas de clusterização: exemplo de
ligação pela média
dij A B C D E
A 0.0
A B C DE
A 0.0
B 2.0 0.0
C 4.0 10.0 0.0
DE 7.0 7.0 3.0 0.0
AB C DE AB CDE
AB 0.0
AB 0.0
C 7.0 0.0
CDE 7.0 0.0
DE 7.0 3.0 0.0
Técnicas de clusterização: dendrograma
7,00
4,67
Distance
2,33
0,00
a b c d e
Observations
Técnicas de clusterização: exemplo
completo
Adaptação a partir de
LILIEN Gary L., RANGASWAMY, Arvind.
Marketing Engineering - Computer-Assisted Marketing Analysis and Planning.
Addison-Wesley, Inc. 1997
Técnicas de clusterização: exemplo
completo
Grupo 4
Grupos 1, 2 e 3
Técnicas de clusterização: Aplicação
Atividade em Sala
Lojas Grampers
Técnicas de clusterização: Aplicação
attach(dados)View(dados)
Técnicas de clusterização: Aplicação
summary(dados$zDESP_TRI)
summary(dados$zFREQ_TRI)
summary(dados$zITEM_TRI)
# Item b
# Item c
library(dplyr)
library(ggplot2)
# Drivers da segmentação:
300
200
DESP_TRI
100
7.5
FREQ_TRI
5.0
1 2 3
factor(gruposWARD)
6
2.5
1 2 3
factor(gruposWARD)
4
ITEM_TRI
1 2 3
factor(gruposWARD)
Técnicas de clusterização: Aplicação
15 8
15 8
6
6
10 5
EST_CIVIL
SEXO
4 4 4
count
CAS
count
F 4
7 SEP
M
SOLT
3 3 3
5 5 5
5
2
3
0 0
1 2 3 1 2 3
factor(gruposWARD) factor(gruposWARD)
15
15
80
10
60
JORNAL
count
IDADE
7 7 ABC
QWR
5
5
40
3 3
1 2 3
0 factor(gruposWARD)
1 2 3
factor(gruposWARD)
Técnicas de clusterização: Aplicação