Escolar Documentos
Profissional Documentos
Cultura Documentos
Adicionalmente, qualquer problema com sua turma/curso deve ser resolvido, em primeira
instância, pela secretaria de sua unidade. Caso você não tenha obtido, junto a sua
secretaria, as orientações e os esclarecimentos necessários, utilize o canal institucional da
Ouvidoria.
ouvidoria@fgv.br
www.fgv.br/fgvmanagement
1
Sumário
• Apresentações
• Critérios de avaliação
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
• Extensões de métodos matriciais
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Apresentações
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Critérios de Avaliação
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Sumário
Altura
Posição do Preferências
banco do para dirigir
carro
Variável
erro
observável
(indicador)
Fonte de Variável
variabilidade Latente ou Fonte de
comum aos Fator Comum variabilidade
indicadores específica
Variável
observável erro
(indicador)
• Indicadores
– Notas dos alunos de uma classe
• His história
• Mat matemática
• Geo geografia
• Qui química
• Fis física
Matriz de correlações
Hist 1,00
FIS HIS
Hab. em Hab. em
0,79 MAT
exatas humanas
QUI GEO
5 Variáveis 2 Fatores
originais ortogonais
F1 - Habilidade em Exatas
F2 – Habilidade em Humanas
Variação
Variação
não
Valores explicada
explicada
observados pelos
pelos
fatores
fatores
FIS HIS
0,72 0,34
Hab. em Hab. em
0,79 exatas
MAT
humanas
Nº de variáveis
DIDAT didática
PONTUAL pontualidade
DIDAT 0,55
MATRL 0,60 0,43
RELACION 0,43 0,81 0,48
DISPON 0,05 0,22 0,3 0,33
PONTUAL -0,13 -0,18 0,02 -0,18 -0,06
• Como fixar m?
– análise do fenômeno pode sugerir valor
de m
– trabalhos similares de outros
pesquisadores
– critérios numéricos (regras empíricas)
• rodar com m = p e selecionar fatores que correspondam a
autovalores maiores que 1
• verificar proporção da variância explicada pelos primeiros
m fatores
cargas em F2
cargas em F1 cargas em F1
Fração da variabilidade
Variance 2,55 1,17 1,09 4,81
dos indicadores explicada
% Var 0,43 0,20 0,18 0,80 pelos fatores.
• Surrogate variable
Selecionar uma variável representando cada
fator.
– maior carga no fator selecionado;
– mais representativa na opinião do analista;
– custo de aquisição da variável;
– erro de medição da variável
– inconvenientes:
• uma única variável pode não representar o verdadeiro
significado do fator
• Summated Scales
Combinar duas ou mais variáveis representando cada
fator.
• Em geral média (simples ou ponderada) das variáveis
• Considerar mesmos critérios do item anterior
• Variáveis escolhidas devem ter carga alta em um único fator
(representam uma dimensão única no estudo)
• Correlação da nova variável com fator deve ser alta
• Escores fatoriais
• Calculados pelo R
• Escores fatoriais
– vantagem:
• ortogonalidade (não correlacionadas)
– desvantagens:
• (às vezes) difíceis de entender e explicar a terceiros
• influência de todas as variáveis (mesmo com carga baixa)
X1...Xp AF F1....Fm
• Vantagens:
– Menor dimensionalidade sem grande perda de
informação
– Ortogonalidade
Exemplo: Avaliações
dataset_AVALIACOES.xlsx
View(dataset_AVALIACOES)
dados = subset(dataset_AVALIACOES, select = -
c(PROFESSOR, AGLOB))
View(dados)
attach(dados)
cor(dados)
library(psych)
cortest.bartlett(dados)
print(modelo2rot$scores)
• Representação gráfica
• Eixos: escores fatoriais Fator (i) vs Fator (j)
plot(facilidade, desprestigio)
abline(a=0, b=0)
abline(v=0)
text(facilidade, desprestigio, MBAsScores$Escola, pos=1, cex = 0.5)
Fatores
com
variância
acima de 1
77,2% da variabilidade
(des)Prestígio Facilidade de dos indicadores é
do programa entrada explicada pelos fatores
Sumário
• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
Análise de Agrupamentos
(clusters)
Técnicas de clusterização:
Exemplos de aplicação
• Segmentação de mercados
– Consumidores caracterizados por variáveis que expressam hábitos de
consumo.
• Classificação de produtos
– Os produtos de um mesmo grupo são percebidos como similares pelos
consumidores potenciais.
Técnicas de clusterização:
introdução
Técnicas de clusterização:
introdução
200
Tiago
Gordon
Carne
Ítalo
180 Alexandre
Maria
160
140
Solstícia Antônia
120
Equinócio
100
0 50 100 150 200 250
Carboidratos
Técnicas de clusterização:
introdução
396,99
264,66
Distance
132,33
0,00
Equinócio
Roberval
Solstícia
Gordon
Tiago
Franco
Ítalo
Filipeto
Alexandre
Antônia
Maria
Cláudia
Joana
Técnicas de clusterização:
introdução
Técnicas de clusterização:
introdução
644,67
429,78
Distance
214,89
0,00
Equinócio
Roberval
Solstícia
Gordon
Tiago
Franco
Ítalo
Filipeto
Alexandre
Antônia
Cláudia
Joana
Maria
4. Coletar os dados
5. Analisar e tratar os dados
• Outliers
• Missing values
• Transformação de variáveis
• correlações entre variáveis , etc.
• Transformação de variáveis
alternativa 1
x − xj Todas as variáveis Zj
zj = (j=1,...,p) terão mesma
sj variância. Isto pode ser
inconveniente.
alternativa 2 x j − min j
zj =
max j− min j
Cliente X1 X2 X3 Total
A 22 0 1 23
B 93 26 74 193
C 0 8 58 66
D 65 10 72 147
E 26 5 5 36
F 0 14 56 70
G 20 300 60 380
H 68 14 90 172
I 5 26 131 162
J 100 500 60 660
K 80 320 0 400
L 55 10 0 65
Cliente Z1 Z2 Z3
A 96 0 4
B 48 13 38
C 0 12 88
D 44 7 49
E 72 14 14
F 0 20 80
G 5 79 16
H 40 8 52
I 3 16 81
J 17 76 9
K 20 80 0
L 85 15 0
Variáveis quantitativas
Distância euclidiana
Distância “city-block” (Manhattan)
etc.
Variáveis qualitativas
Coeficiente de concordâncias simples
Coeficiente de Jaccard
etc.
indivíduos X1 X2
X1 aplicação: poupança (R$1000)
A 150 1200
X2 aplicação: dólares (US$)
B 100 2000
X1 X2 X3 X4 X5 X6 X7 X8
A 0 1 1 1 0 1 1 0
B 0 0 1 0 0 1 1 1
concordâncias 5
Concordâncias Simples S1 = = = 0.63
p 8
concordâncias(1 − 1) 3
Concordâncias positivas S 2 = = = 0.38
p 8
concordâncias(1 − 1) 3
Coeficiente de Jaccard S3 = = = 0.50
p −concordâncias (0 − 0) 6
Alternativa :
• dividir em mais categorias (quartis, por exemplo)
• gerar dummies mantendo estrutura de ordem - slide seguinte
Estado Civil X1 X2 X3 X4
k dummies quando
Solteiro 1 0 0 0
diferenciamos 1-1 de 0-0
Casado 0 1 0 0
(k-1) dummies quando
Separado 0 0 1 0
não diferenciamos 1-1 de 0-0
Viuvo 0 0 0 1
Grupo B Ideias ?
Grupo A
Grupo C
B
A
D
C E
GRUPO 1 GRUPO 2
B
A
D
C E
GRUPO 1 GRUPO 2
B
A
D
C E
GRUPO 1 GRUPO 2
A distância entre dois grupos pode ser medida pela distância entre
os centróides desses grupos. Se o cluster A é formado pelos
indivíduos ai (i=1,..., an) e o cluster B pelos indivíduos bj (j=1,...,bn),
os centróides de A e B são definidos por
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
A análise dos perfis permite em muitos casos que batizemos cada um dos
grupos obtidos de forma adequada. A identificação dos grupos através de
denominações apropriadas facilita a comunicação entre os usuários dos
resultados.
9. Validar resultados
A validação de uma partição não deve ser confundida com a obtenção de grupos
que vão ao encontro das expectativas do analista. Um dos benefícios maiores da
Análise de Agrupamentos é a identificação de novas formas de classificar
indivíduos, permitindo gerar ou confirmar hipóteses acerca de seu
comportamento.
Técnicas de clusterização:
exemplo de ligação pela média
dij A B C D E
A 0.0
Técnicas de clusterização:
exemplo de ligação pela média
A B C DE
A 0.0
B 2.0 0.0
C 4.0 10.0 0.0
DE 7.0 7.0 3.0 0.0
AB C DE AB CDE
AB 0.0
AB 0.0
C 7.0 0.0
CDE 7.0 0.0
DE 7.0 3.0 0.0
7,00
4,67
Distance
2,33
0,00
a b c d e
Observations
Técnicas de clusterização:
exemplo completo
Técnicas de clusterização:
exemplo completo
Adaptação a partir de
LILIEN Gary L., RANGASWAMY, Arvind.
Marketing Engineering - Computer-Assisted Marketing Analysis and Planning.
Addison-Wesley, Inc. 1997
Técnicas de clusterização:
exemplo completo
Variável Pergunta Como responder
Primeiro “Eu costumo ser um dos primeiros a adotar novas de 1 (discordo muito)
tecnologias.” a 7 (concordo muito)
Enviar Quão frequentemente você envia para os outros de 1 (nunca)
informações onde o tempo é relevante? a 7 (sempre)
Fora Que percentagem do seu tempo você gasta fora do seu de 1 (0%)
escritório? a 7 (70% ou mais)
Sem_fio Quão importante é comunicação sem fio para você? de 1 (nada importante)
a 7 (muito importante)
Compartilhar Quão importante é para você compartilhar informações de 1 (nada importante)
rapidamente com seus colegas enquanto está fora do seu a 7 (muito importante)
escritório?
Técnicas de clusterização:
exemplo completo
Técnicas de clusterização:
exemplo completo
Técnicas de clusterização:
exemplo completo
Alguém disse que a milhagem em um cartão de crédito emitido somente para
advogados pode ser uma boa variável discriminante para se determinar bons
prospects para oferecer o StrawBerry. Você concorda?
Grupo 4
Grupos 1, 2 e 3
Técnicas de clusterização:
Aplicação
Atividade em Sala
Lojas Grampers
Técnicas de clusterização:
Aplicação
### Lojas Grampers
### Importe o banco de dados Lojas_Grampers.xlsx, disponível no ECLASS.
attach(dados)View(dados)
Técnicas de clusterização:
Aplicação
summary(dados$zDESP_TRI)
summary(dados$zFREQ_TRI)
summary(dados$zITEM_TRI)
Técnicas de clusterização:
Aplicação
# Item b
# Item c
Técnicas de clusterização:
Aplicação
# Item d - caracterização dos clusters obtidos
library(dplyr)
library(ggplot2)
# Drivers da segmentação:
Técnicas de clusterização:
Aplicação
# Variáveis de caracterização: SEXO EST_CIVIL JORNAL IDADE
Técnicas de clusterização:
Aplicação
300
200
DESP_TRI
100
7.5
FR EQ _TR I
5.0
1 2 3
factor(gruposWARD)
6
2.5
1 2 3
factor(gruposWARD)
4
ITEM_TRI
1 2 3
factor(gruposWARD)
Técnicas de clusterização:
Aplicação
15 8
15 8
6
6
10
5
EST_CIVIL
SEXO
4 4 4 CAS
count
count
F 4
7 SEP
M
SOLT
3 3 3
5 5 5
5
2
3
0 0
1 2 3 1 2 3
factor(gruposWARD) factor(gruposWARD)
15
15
80
10
60
JORNAL
count
IDADE
7 7 ABC
QWR
5
5
40
3 3
1 2 3
0 factor(gruposWARD)
1 2 3
factor(gruposWARD)
Técnicas de clusterização:
Aplicação
Técnicas de clusterização:
considerações finais
Não há nenhuma técnica que seja sempre superior!
Técnicas de clusterização:
considerações finais
OBRIGADO!