01 Met Matric e Analise Clusters MPonchio F

A cópia do material didático utilizado ao longo do curso é de propriedade do(s) autor(es),
não podendo a contratante vir a utilizá-la em qualquer época, de forma integral ou

parcial. Todos os direitos em relação ao design deste material didático são reservados à
Fundação Getulio Vargas. Todo o conteúdo deste material didático é de inteira
responsabilidade do(s) autor(es), que autoriza(m) a citação/divulgação parcial, por
qualquer meio convencional ou eletrônico, para fins de estudo e pesquisa, desde que
citada a fonte.
Adicionalmente, qualquer problema com sua turma/curso deve ser resolvido, em primeira
instância, pela secretaria de sua unidade. Caso você não tenha obtido, junto a sua
secretaria, as orientações e os esclarecimentos necessários, utilize o canal institucional da
Ouvidoria.
ouvidoria@fgv.br
www.fgv.br/fgvmanagement
1
Métodos Matriciais e Análise de

Clusters
Prof. Dr. Mateus C. Ponchio
MBA Business Analytics e Big Data

Disciplina: Métodos Matriciais e Análise de Clusters
Prof. Dr. Mateus C. Ponchio
Agradecimento ao Prof. Dr. Abraham Laredo Sicsú pela

elaboração de parte deste conteúdo.
Métodos Matriciais e Análise de Clusters

2
Sumário
• Apresentações
• Critérios de avaliação
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
• Extensões de métodos matriciais
Sumário
• Apresentações
• Revisão de álgebra matricial, vetores e
matrizes

3
Apresentações
Prof. Mateus Ponchio
Doutor em Administração pela Escola de Administração de Empresas de São Paulo da

Fundação Getulio Vargas - FGV-EAESP (2006) com Estágio Doutoral na University of
Otago - Nova Zelândia (2006) e Graduado em Administração de Empresas pela FGV-
EAESP (2002). Concluiu seu pós-doutorado (2016) na Georgia State University
Robinson College of Business. Foi professor titular e Coordenador do Programa de Pós-
Graduação em Administração (PPGA/ESPM). Coordenou a criação de um MINTER e um
DINTER no estado do Mato Grosso em 2019 e 2020, respectivamente. Desde 2008 é
professor da FGV-EAESP. É Editor Científico da RAE - Revista de Administração de
Empresas (FGV) e membro do corpo editorial do International Journal of Bank
Marketing (Emerald). Possui bolsa de produtividade em pesquisa nível 2 do CNPq em
curso (2021 - 2024).
Sumário
• Apresentações
matrizes

4
Critérios de Avaliação
• Trabalhos em aula (grupo): 30%

• Prova: 70%
Sumário
• Apresentações
matrizes

5
Sumário
Análise fatorial exploratória (AFE) é um método estatístico multivariado

usado para investigar a estrutura subjacente de um conjunto relativamente
grande de variáveis.
O objetivo principal da AFE é identificar as relações subjacentes entre um

conjunto de variáveis. Pode-se a partir desse conhecimento reduzir
dimensionalidade, substituindo-se conjuntos de variáveis observadas por
novas variáveis, em menor número, chamadas de fatores. Pode-se também
empregar a análise fatorial exploratória em estágios iniciais de
desenvolvimento de instrumentos de mensuração.
A AFE é baseada no modelo de fator comum: espera-se que um fator

subjacente influencie a variabilidade de variáveis observadas. A variabilidade
de cada variável observada, nesse modelo, é decomposta em uma componente
específica e em outra componente “comum”.
Análise fatorial exploratória:

construtos
Exemplo • Há grande interesse em medir inteligência

inicial • Talvez seja uma característica das pessoas: pessoa “mais” ou
“menos” inteligente
• Medida de peso  diretamente na balança
• Medida de inteligência  instrumento de medida?
X=10 • Inteligência é um contruto: conceito que tem significado, é
útil, mas não tem tangibilidade
• Testes de QI: se medem de fato alguma característica única e
real (a tal “inteligência”), então espera-se que sejam todos
correlacionados
• QI: uma única variável latente?
• Como medir? motivação, materialismo, felicidade

6

construtos
• Ideia: os dados observados são na realidade

“produzidos” por alguns fatores “escondidos”
• Raízes na Psicologia (notas em certos testes de aptidão
refletem na verdade habilidades quantitativas,
capacidade analítica, etc.)
• Metas:
– mensuração de construtos - caracterização de fatores
“escondidos” (variáveis latentes)
– redução de variáveis – transformação de um conjunto de
variáveis correlacionadas entre si em um número menor de
variáveis.

construtos
• Imagine que a altura de uma pessoa é uma variável latente (ou

seja, não é possível medir diretamente).
• Como poderíamos medir a altura por meio de um
questionário? (não vale perguntar a altura...)
• Você alcança a barra de apoio do metrô?
1 – não alcanço
2 – alcanço na ponta do pé
3 – alcanço com o braço esticado
4 – alcanço sem esticar o braço
5 – alcanço com o braço dobrado
• Em que posição você ajusta o banco do carro?
1 – no limite máximo para frente
2 – à frente do ponto médio
3 – no ponto médio
4 – para trás do ponto médio
5 – no limite máximo para trás

7

medindo um construto latente
Facilidade para Relação

alcançar a braço/altura
barra do metrô
Altura
Posição do Preferências
banco do para dirigir
carro

• As respostas às questões são variáveis observáveis

(indicadores)
• Os indicadores refletem, em parte, a variável
latente de interesse (altura)
– Se uma pessoa é alta, tende a alcançar a barra de apoio do
metrô com mais facilidade
• No entanto, as variáveis observáveis sofrem,
também, a influência de outras variáveis além da
altura
– Uma pessoa alta pode não alcançar a barra do metrô
porque tem um braço curto.

8

• O que todos os indicadores têm em comum?

– A altura...
• Se conseguirmos estimar o que é comum a todos

os indicadores, eliminaremos o que é específico a
cada um e se deve a outras variáveis.
• Esta “parte comum” da variabilidade de todos os

indicadores está associada à altura.

Variável
erro
observável
(indicador)
Fonte de Variável
variabilidade Latente ou Fonte de
comum aos Fator Comum variabilidade
indicadores específica
Variável
observável erro
(indicador)

9

• Indicadores
– Notas dos alunos de uma classe
• His  história
• Mat  matemática
• Geo  geografia
• Qui  química
• Fis  física

Matriz de correlações
Hist Mat Geo Qui Fis

Hist 1,00
Mat 0,02 1,00
Geo 0,96 0,13 1,00
Qui 0,42 0,71 0,50 1,00
Fis 0,01 0,85 0,11 0,79 1,00

10

Matriz de correlações (reordenada)
Hist Geo Mat Qui Fis
Hist 1,00
Geo 0,96 1,00
Mat 0,02 0,13 1,00
Qui 0,42 0,50 0,71 1,00
Fis 0,01 0,11 0,85 0,79 1,00

• O que está por trás dessas correlações altas?

– Habilidade em exatas?
– Habilidade em humanas ?
– Bom desempenho escolar?
• Como medir essas habilidades?

11
Outras variáveis (assistir Outras variáveis

Outras variáveis
ao Mundo de Beakman) (gosto por filmes
(didática do professor
no colégio, etc.) épicos, etc.)
FIS HIS
Hab. em Hab. em
0,79 MAT
exatas humanas
QUI GEO
Outras variáveis Outras variáveis (gosto

(interesse por por viagens, etc.)
laboratório, etc. )

redução de dimensionalidade
HIST MAT GEO QUI FIS F1 F2
1 6,4 5,9 6,9 6,9 5,0 0,4 -0,4
2 8,3 6,1 7,6 9,4 3,0 1,0 -0,3
3 8,0 4,9 4,3 4,0 5,0 -0,2 0,4
4 8,7 4,2 9,1 2,4 4,0 0,6 0,7
5 4,8 1,0 5,8 6,3 4,0 0,2 1,6
6 3,5 6,9 7,4 2,9 3,0 -0,8 -0,9
7 1,0 5,2 4,3 1,0 4,0 -2,0 -0,2
.. .. .. .. .. .. .. ..
5 Variáveis 2 Fatores
originais ortogonais
F1 - Habilidade em Exatas
F2 – Habilidade em Humanas

12
Análise fatorial exploratória: um

pouco de álgebra
Para cada aluno i a nota em Matemática será

representada por
Mati = 0,72 F1i + 0,34 F2i + Emi
Emi: aptidão específica do aluno i em matemática
0,72 e 0,34: cargas fatoriais (factor loadings)
Variação
Variação
não
Valores explicada
explicada
observados pelos
pelos
fatores
fatores
Outras variáveis (assistir Outras variáveis (gosto

ao Mundo de Beakman) Outras variáveis (didática
por filmes épicos, etc.)
do professor no colégio,
etc.)
FIS HIS
0,72 0,34
Hab. em Hab. em
0,79 exatas
MAT
humanas
QUI Correlação entre o

GEO
indicador e cada
fator
Outras variáveis (interesse Outras variáveis (gosto

por laboratório, etc. ) por viagens, etc.)

13

pouco de álgebra
fatores comuns F1,...,Fm

Valor observado da
Variáveis não observáveis
variável Xi para o
indivíduo k
fator específico ei para
a variável Xi
X ik = λi1 F1k + λi 2 F2 k + ... + λim Fmk + eik

pouco de álgebra
X ik = λi1 F1k + λi 2 F2 k + ... + λim Fmk + eik

Xik: valor observado da variável Xi para o indivíduo k
i = 1, ..., p (variáveis padronizadas)
k = 1, ..., n (indivíduos)
Fjk: valor do j-ésimo fator comum para o indivíduo k
j=1, ..., m (m ≤ p) (fatores)  variáveis não
observáveis
λij: carga de Xi em Fj (“factor loading”)
parâmetros desconhecidos
eik: valor do fator específico de Xi para o indivíduo k (às
vezes denominado erro do modelo fatorial)  variáveis
não observáveis
Se variáveis quantitativas padronizadas, então:

λ = correlações entre os fatores e os indicadores.

14

pouco de álgebra
Var(Xi) = λi12 + λi22+ ...+ ϕi2 =1
Comunalidade Variância específica ou

especificidade de Xi
Correl (Xi; Fj)= λij
“Variância total” = Σi Var(Xi) = p
Nº de variáveis

exemplo
• Alunos avaliam 30 professores de uma escola.

• Planilha: médias das notas em 6 itens
• Dados: dataset_AVALIACOES.xlsx
AUDVIS qualidade dos audio visuais
DISPON disponibilidade fora da sala de aula
DIDAT didática
MATRL qualidade do material didático
PONTUAL pontualidade
RELACION relacionamento com alunos
AGLOB avaliação global

15

exemplo
AUDVIS DISPON DIDAT MATRL PONTUAL RELACION
1 6,4 5,9 6,9 6,9 5,0 8,2
2 8,3 6,1 7,6 9,4 3,0 8,7
3 8,0 4,9 4,3 4,0 5,0 6,2
4 8,7 4,2 10,0 2,4 4,0 8,5
5 4,8 1,0 5,8 6,3 4,0 7,5
--- --- --- --- --- --- ---

--- --- --- --- --- --- ---
32 3,5 6,9 7,4 2,9 3,0 8,0
29

exemplo
Matriz de correlações
AUDVIS DIDAT MATRL RELAC DISPON
DIDAT 0,55
MATRL 0,60 0,43
RELACION 0,43 0,81 0,48
DISPON 0,05 0,22 0,3 0,33
PONTUAL -0,13 -0,18 0,02 -0,18 -0,06

16

exemplo
Cargas fatoriais
Variable Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Comm
AUDVIS -0,74 0,09 -0,47 0,29 -0,36 0,11 1
DISPON -0,41 0,14 0,85 0,20 -0,20 -0,01 1
DIDAT -0,86 -0,13 -0,07 -0,40 -0,11 -0,26 1
MATRL -0,75 0,38 -0,08 0,40 0,36 -0,09 1
PONTUAL 0,23 0,91 -0,05 -0,32 -0,08 0,02 1
RELACION -0,86 -0,10 0,12 -0,38 0,18 0,25 1
Variance 2,81 1,03 0,98 0,69 0,35 0,15 6
% Var 0,47 0,17 0,16 0,12 0,06 0,03 1
% Var Acum 0,47 0,64 0,80 0,92 0,98 1,00
Fração da variabilidade das variáveis Comunalidade = 100%

observáveis explicada pelo fator
Análise fatorial exploratória: exemplo –

escolha do número de fatores
• Quantos fatores? Qual o valor de m?

– parcimônia & boa explicação
• Como fixar m?
– análise do fenômeno pode sugerir valor
de m
– trabalhos similares de outros
pesquisadores
– critérios numéricos (regras empíricas)
• rodar com m = p e selecionar fatores que correspondam a
autovalores maiores que 1
• verificar proporção da variância explicada pelos primeiros
m fatores

17
Análise fatorial exploratória: exemplo
Qual fator influencia mais fortemente cada variável?

Algumas variáveis têm cargas relativamente altas em
mais de um fator.
Variable Factor1 Factor2 Factor3 Comm
AUDVIS -0,74 0,09 -0,47 0,77
DISPON -0,41 0,14 0,85 0,92
DIDAT -0,86 -0,13 -0,07 0,76
MATRL -0,75 0,38 -0,08 0,70
PONTUAL 0,23 0,91 -0,05 0,89
RELACION -0,86 -0,10 0,12 0,76
Variance 2,808 1,031 0,975 4,814
% Var 0,468 0,172 0,162 0,802

rotação de fatores
• Solução ( λ’s estimados) não é única

• Solução inicial pode não ser a melhor para interpretar os fatores.
• Soluções alternativas: rotação dos fatores
cargas em F2
cargas em F2
cargas em F1 cargas em F1

18

rotação de fatores
• Rotação ortogonal - métodos usuais
– VARIMAX
• Recomendado se desconfiamos que cada
variável tem carga alta em um e apenas um
fator. MAIS UTILIZADO
• Busca maximizar a carga de cada variável
em apenas um fator
– Outros métodos
• QUARTIMAX
• EQUIMAX
Análise fatorial exploratória
Cada indicador tem carga alta em apenas um fator.
Variable Factor1 Factor2 Factor3 Com Comunalidade: fração da

variabilidade do indicador
AUDVIS 0,86 0,18 0,01 0,77 explicada pelo conjunto
de fatores.
DISPON 0,11 -0,95 0,00 0,92
DIDAT 0,80 -0,20 0,28 0,76 Como batizar os

fatores?
MATRL 0,78 -0,22 -0,24 0,70
Cuidado com o
PONTUAL -0,06 0,01 -0,94 0,89 sinal das cargas!
RELACION 0,74 -0,38 0,26 0,76
Fração da variabilidade
Variance 2,55 1,17 1,09 4,81
dos indicadores explicada
% Var 0,43 0,20 0,18 0,80 pelos fatores.

19

análise dos resultados
• Análise dos valores das cargas fatoriais.

– Associação de cada variável a um fator.
• Interpretação e batismo dos fatores.

• Análise das comunalidades para cada variável.
– Variáveis com comunalidades muito baixas não se
ajustam bem ao modelo.

• Em geral, problemas começam com um grande número de

variáveis
– Dificulta entendimento
– Causa redundância
– Aumenta custo de aquisição dos dados
• Análise Fatorial sugere formas de reduzir número de

variáveis sem perda significante de informação.

20

• Surrogate variable
Selecionar uma variável representando cada
fator.
– maior carga no fator selecionado;
– mais representativa na opinião do analista;
– custo de aquisição da variável;
– erro de medição da variável
– inconvenientes:
• uma única variável pode não representar o verdadeiro
significado do fator

• Summated Scales
Combinar duas ou mais variáveis representando cada
fator.
• Em geral média (simples ou ponderada) das variáveis
• Considerar mesmos critérios do item anterior
• Variáveis escolhidas devem ter carga alta em um único fator
(representam uma dimensão única no estudo)
• Correlação da nova variável com fator deve ser alta
• Escores fatoriais
• Calculados pelo R

21

• Surrogate variable e summated scales

– vantagem:
• mais fáceis de explicar e entender (importante!)
– desvantagem
• não ortogonais (correlacionadas)
• Escores fatoriais
– vantagem:
• ortogonalidade (não correlacionadas)
– desvantagens:
• (às vezes) difíceis de entender e explicar a terceiros
• influência de todas as variáveis (mesmo com carga baixa)

escores fatoriais
• Já estimamos as cargas fatoriais λ
X ik = λ i1 F1k + λ i 2 F2k + ... + λ im Fmk + uik
• Falta agora calcular os escores

fatoriais Fjk
– Quanto vale o fator 1 (qualidade

de ensino) para o professor k?

22

escores fatoriais
• Podem ser utilizados em outras técnicas no

lugar das variáveis originais.
X1...Xp AF F1....Fm
• Vantagens:
– Menor dimensionalidade sem grande perda de
informação
– Ortogonalidade
Exemplo: Avaliações
dataset_AVALIACOES.xlsx
View(dataset_AVALIACOES)
dados = subset(dataset_AVALIACOES, select = -
c(PROFESSOR, AGLOB))
View(dados)
attach(dados)
cor(dados)

23
# Teste de esfericidade de Bartlett: Testa a hipótese de que as correlações entre

# as variáveis são maiores do que seria esperado pelo acaso: Tecnicamente, testa
# se a matriz de correlações é uma matriz identidade. O valor-p deve ser significante:
# ou seja, a hipótese nula de que todas as correlações fora da diagonal principal são
# iguais a zero é rejeitada.
library(psych)
cortest.bartlett(dados)
# No caso de nossa matriz de correlações, o valor-p < 0,01 sugere que

# podemos rejeitar a hipótese nula (por exemplo, se alfa = 5%).
# Mas, como determinamos o número de fatores a extrair?

modelo <- psych::principal(dados, nfactors = 6, rotate = "none")
print(modelo, digits =3)
scree(dados, pc=TRUE, factors=FALSE)
# Vamos adotar 3 fatores...

modelo2 <- psych::principal(dados, nfactors = 3, rotate = "none")
print(modelo2, digits=3)
# Solução rotacionando os fatores...

modelo2rot <- psych::principal(dados, nfactors = 3, rotate = "varimax", scores = TRUE)
print(modelo2rot, digits=3, sort = TRUE)
print(modelo2rot$scores)

24
print(modelo2rot$scores)
plot(modelo2rot$scores[,1], modelo2rot$scores[,2], main="Mapa Perceptual",

xlab="Fator 1", ylab="Fator2")
abline(a=0, b=0)
abline(v=0)
# Batismo dos fatores...

mapas de percepção
• Representação gráfica
• Eixos: escores fatoriais Fator (i) vs Fator (j)
• Permite avaliar posição relativa dos indivíduos

• Indivíduos próximos: similares (competem) no que diz
respeito a essas duas dimensões
• Cluster dos indivíduos

25

mapas de percepção
Qual o quadrante ideal? O que significa? (cuidado com os sinais
dos valores) Qual o significado dos demais quadrantes?
Análise fatorial exploratória: cuidados...
Cuidado com tamanho amostral:

n >> p
População tem diferentes estratos?

(sexo, setor...)
• estruturas de correlação podem diferir
• pode ser interessante analisar cada estrato
separadamente e comparar resultados
Cuidado com outliers. Podem afetar correlações.

26
Análise fatorial exploratória: roteiro
1. Definir o objeto do estudo

2. Selecionar variáveis para análise
3. Calcular a matriz de correlações e avaliá-la
(se correlações baixas, esquecer AF...)
4. Escolher o número de fatores
5. Calcular e analisar cargas fatoriais
6. Calcular e analisar comunalidades
7. Rotacionar fatores, se necessário
8. Interpretar / batizar fatores
9. Calcular escores fatoriais
10. Validar o modelo

Caso – Avaliação de MBAs
Uma pesquisa realizada em 1997

avaliou 49 programas de MBAs das mais
conceituadas universidades americanas,
considerando oito variáveis.

27

Variável Pergunta
Ranking de reputação acadêmica do programa
RankingAcademico
Ranking de reputação do programa no setor privado
RankingPrivado
Ranking de dificuldade de entrada no programa
RankingEntrada
Ranking de remuneração média dos alunos que
RankingColocacao terminaram o programa
Média dos alunos do programa no GMAT (prova geral
MediaGMAT utilizada para seleção de alunos pelos programas)
Média geral das notas de graduação dos alunos do
MediaGraduacao programa
Percentual de alunos empregados até 3 meses após
PercentualEmpregados terminarem o programa
Valor médio do total de semestralidades e outras tarifas
CustoCurso cobradas pelo programa

Estes indicadores refletem características

(variáveis latentes) dos cursos?
É possível reduzir estas variáveis a um

conjunto mais parcimonioso de fatores?

28

View(MBAs)
dados2 = subset(MBAs, select = -c(Escola))
View(dados2)
attach(dados2)
cor(dados2)
#Teste de Esfericidade de Bartlett:

library(psych)
cortest.bartlett(dados2)
# P-valor próximo de zero... podemos prosseguir...

# Solução com 8 fatores, não rotacionada:
modelo <- psych::principal(dados2, nfactors = 8, rotate = "none")
print(modelo, digits =3, sort = TRUE)
scree(dados2, pc=TRUE, factors=FALSE)

# Vamos extrair 2 fatores e vamos rotacioná-los:
modelo2 <- psych::principal(dados2, nfactors = 2, rotate = "varimax", scores = TRUE)

print(modelo2, digits =3, sort = TRUE)
desprestigio <- modelo2$scores[,1]

facilidade <- modelo2$scores[,2]
MBAsScores <- cbind(MBAs, facilidade, desprestigio)

View(MBAsScores)
plot(facilidade, desprestigio)
abline(a=0, b=0)
abline(v=0)
text(facilidade, desprestigio, MBAsScores$Escola, pos=1, cex = 0.5)

29

Há correlações elevadas entre as variáveis, o

que sugere que a análise fatorial é adequada

Fatores
com
variância
acima de 1

30

Comunalidades elevadas
77,2% da variabilidade
(des)Prestígio Facilidade de dos indicadores é
do programa entrada explicada pelos fatores

Escores Fatoriais

31

Mapa perceptual
Sumário
• Apresentações
matrizes

32
Análise de Agrupamentos
(clusters)
• Análise de agrupamentos (AA) é o nome dado a um conjunto de técnicas

cujo objetivo é agrupar n indivíduos em grupos homogêneos.
• A parecença entre indivíduos de um mesmo grupo deverá maior que a

parecença entre indivíduos de grupos distintos.
• Indivíduos de grupos distintos devem diferir significativamente entre si.
• AA é uma técnica de análise exploratória de dados: os métodos

utilizados, ainda que sejam denominados, em certos casos, como
técnicas de otimização, são métodos heurísticos.
• São sinônimos: técnicas de clusterização, taxonomia numérica,

classificação.
Técnicas de clusterização:
Exemplos de aplicação
• Segmentação de mercados
– Consumidores caracterizados por variáveis que expressam hábitos de
consumo.
• Classificação dos clientes de um banco

– Com base na distribuição de seus investimentos.
– Com base nos serviços considerados importantes.
• Classificação de produtos
– Os produtos de um mesmo grupo são percebidos como similares pelos
consumidores potenciais.
• Classificação de diferentes mercados (“praças”)

– Para analisar e definir estratégias mercadológicas.

33
Técnicas de clusterização: por

que agrupar?
• Agrupar indivíduos é uma necessidade básica em qualquer área de

conhecimento.
• Classificar indivíduos de forma consistente.
• Síntese de informação: a informação sobre N indivíduos é reduzida de

forma conveniente à informação sobre apenas k grupos.
• “Entender” melhor a população em estudo.
• Como etapa no processo de elaborar e testar hipóteses.
• Previsão do comportamento de novos indivíduos.
introdução
Cliente Carne Carboidratos

Preferência alimentar Alexandre 172 224
ingestão no almoço por tipo
Antônia 120 108
de alimento, em gramas Cláudia 244 28
Equinócio 112 96
Agrupar pessoas
Filipeto 256 76
com preferências similares
Franco 228 152
Gordon 184 128
Roberval 260 20
Ítalo 180 160
Joana 244 56
Maria 164 20
Solstícia 120 8
Tiago 188 16

34
introdução
Scatterplot of Carne vs Carboidratos

Roberval
260 Filipeto
Cláudia Joana
240
Franco
220
200
Tiago
Gordon
Carne
Ítalo
180 Alexandre
Maria
160
140
Solstícia Antônia
120
Equinócio
100
0 50 100 150 200 250
Carboidratos
introdução
396,99
264,66
Distance
132,33
0,00
Equinócio
Roberval
Solstícia
Gordon
Tiago
Franco
Ítalo
Filipeto
Alexandre
Antônia
Maria
Cláudia
Joana
Ward linkage; Euclidean distance

35
introdução
Cliente Carne Carboidratos Verduras Doces

Alexandre 172 224 24 192
Antônia 120 108 25 200
Cláudia 244 28 23 184
Equinócio 112 96 6 48
Filipeto 256 76 21 168
Franco 228 152 24 192
Gordon 184 128 3 24
Roberval 260 20 5 40
Ítalo 180 160 23 184
Joana 244 56 6 48
Maria 164 20 1 8
Solstícia 120 8 21 168
Tiago 188 16 1 8
introdução
644,67
429,78
Distance
214,89
0,00
Equinócio
Roberval
Solstícia
Gordon
Tiago
Franco
Ítalo
Filipeto
Alexandre
Antônia
Cláudia
Joana
Maria

36
Técnicas de clusterização: roteiro
1. Definir objetivos do estudo

2. Selecionar observações a serem agrupadas
3. Identificar variáveis (drivers e discriminadoras)
4. Coletar os dados
5. Analisar e tratar os dados
• Outliers
• Missing values
• Transformação de variáveis
• Correlações entre variáveis , etc.
6. Selecionar critério(s) de parecença
7. Selecionar e aplicar algoritmo(s) de agrupamento
8. Identificar, analisar (interpretar) os agrupamentos
9. Validar resultados
1. Definir objetivos do estudo
A primeira dificuldade é saber qual ou quais são os objetivos que se

espera alcançar ao agrupar os indivíduos. Apesar de esta questão
parecer simples e óbvia, muitos estudos acabam sendo interrompidos
ou inutilizados, pois os objetivos não foram claramente definidos.
Por exemplo, pense na seguinte questão, aparentemente simples:

como você classificaria seus colegas de trabalho? Talvez a primeira
coisa que lhe venha à mente é classificá-los por departamento ou por
nível hierárquico. Mas será que essa é a melhor forma de agrupá-los
se o objetivo for organizar uma competição esportiva na empresa?
Provavelmente não, pois nem todos têm interesse pelos mesmos
esportes.

37
2. Selecionar observações a serem agrupadas
Podemos desejar agrupar um conjunto de indivíduos, produtos,

empresas, países.... O esforço de agrupamento pode ser feito sobre
uma amostra ou uma população.
Variáveis chamadas de drivers são aquelas efetivamente utilizadas

para definir os agrupamentos.
A seleção das variáveis a partir das quais se classificarão os indivíduos

depende dos objetivos do estudo. Por exemplo, para agrupar empresas
de acordo com seu desempenho financeiro, devemos determinar quais
os índices através dos quais compararemos as diferentes empresas. No
entanto, como desempenho financeiro é um conceito amplo, o analista
deverá caracterizar melhor o que se espera do estudo para proceder à
correta seleção de variáveis.

38
A omissão de uma variável importante ou a inclusão de uma variável

que não atenda aos objetivos do problema pode alterar a classificação
obtida e conduzir a hipóteses ou conclusões errôneas a respeito dos
indivíduos considerados.
Em geral um número reduzido e bem selecionado de variáveis

conduzirá a soluções interessantes de interpretação e avaliação mais
fácil.
Variáveis discriminadoras são aquelas utilizadas para caracterizar e

descrever os grupos obtidos.
4. Coletar os dados
5. Analisar e tratar os dados
• Outliers
• Missing values
• correlações entre variáveis , etc.
Definidas as variáveis, coletamos os dados correspondentes para cada

observação do conjunto de observações a serem classificadas em
grupos. Como em todo projeto de análise multivariada a primeira tarefa
a realizar é a análise de cada uma dessas variáveis individualmente,
detectando inconsistências, outliers e missing values e tomando,
quando necessário, as devidas ações corretivas.

39
Em geral, ao agrupar observações, trabalhamos com medidas de

naturezas e de magnitudes distintas. Por exemplo, admita que
desejamos agrupar as empresas clientes de um banco utilizando as
variáveis seguintes:
· VAR1: Saldo médio na conta corrente (milhares de R$)

· VAR2: Faturamento no ano anterior (milhões de US$)
· VAR3: Tempo de conta (anos completos)
· VAR4: Utiliza o cartão empresarial (1:sim; 0:não)
· VAR5: Porte da empresa (A; B; C)
Como veremos adiante, medir as similaridades (ou distâncias) entre

essas empresas requer que calculemos expressões que mesclam os
valores das diferentes variáveis. Mas qual o sentido de somar moeda
com idade? Isto sem contar que as duas últimas variáveis são variáveis
qualitativas! Uma saída para contornar esta dificuldade é transformando
as variáveis em escalas compatíveis.

Transformação de variáveis
alternativa 1
x − xj Todas as variáveis Zj
zj = (j=1,...,p) terão mesma
sj variância. Isto pode ser
inconveniente.
alternativa 2 x j − min j
zj =
max j− min j
Todos os valores ficam entre 0 e 1.

Sugestão: retirar os outliers antes de fazer essa transformação.
•Existem muitas formas de transformar os dados.
•Transformação mais conveniente depende do problema em estudo.

40

Exemplo: X1, X2 e X3 são quantidades (em milhares de R$) em três

aplicações financeiras distintas.
Cliente X1 X2 X3 Total
A 22 0 1 23
B 93 26 74 193
C 0 8 58 66
D 65 10 72 147
E 26 5 5 36
F 0 14 56 70
G 20 300 60 380
H 68 14 90 172
I 5 26 131 162
J 100 500 60 660
K 80 320 0 400
L 55 10 0 65

Exemplo de transformação
Dados transformados considerando a % investida em cada aplicação.
Cliente Z1 Z2 Z3
A 96 0 4
B 48 13 38
C 0 12 88
D 44 7 49
E 72 14 14
F 0 20 80
G 5 79 16
H 40 8 52
I 3 16 81
J 17 76 9
K 20 80 0
L 85 15 0

41
Utilizamos o termo parecença para designar a similaridade ou diferença

entre os indivíduos a serem agrupados. Não há uma formalização do
que seja “parecença” entre dois indivíduos. Isto implica na existência de
um sem-número de formas de medi-la. Em geral, não é possível dizer
qual a forma mais adequada. A adoção de diferentes medidas de
similaridade pode conduzir a diferentes resultados.
O pesquisador deve, dentre as medidas que servem ao seu problema,

escolher a que lhe parecer mais conveniente. Uma alternativa é utilizar
diferentes medidas de similaridade e comparar os resultados obtidos.
Caso estes sejam semelhantes, é uma indicação da consistência dos
resultados obtidos.
sij  semelhança entre indivíduo (i) e indivíduo (j)
dij  distância entre indivíduo (i) e indivíduo (j)
Transformação: dij = 1 – sij ou dij = 1 / sij
Variáveis quantitativas
Distância euclidiana
Distância “city-block” (Manhattan)
etc.
Variáveis qualitativas
Coeficiente de concordâncias simples
Coeficiente de Jaccard
etc.

42

indivíduos X1 X2
X1 aplicação: poupança (R$1000)
A 150 1200
X2 aplicação: dólares (US$)
B 100 2000
Distância euclidiana: C 100 1500
d( A,B ) = (150 − 100 )2 + (1200 − 2000 )2 = 801.6

X1
d( A, C) = (150 − 100 )2 + (1200 − 1500 )2 = 304.1

200 A
100 B
d(B, C) = (100 − 100 )2 + ( 2000 − 1500 )2 = 500 .0
1000 2000 X2
Note que a distância é praticamente determinada por x2 !

X1 aplicação: poupança (R$1000) indivíduos X1 X2

X2 aplicação: dólares (US$) A 150 1200
B 100 2000
C 100 1500
Distância absoluta (city-block metric ou Manhattan distance):
Note que este critério

também depende da
escala em que
definimos as variáveis.

43

X1 X2 X3 X4 X5 X6 X7 X8
A 0 1 1 1 0 1 1 0
B 0 0 1 0 0 1 1 1
concordâncias 5
Concordâncias Simples  S1 = = = 0.63
p 8
concordâncias(1 − 1) 3
Concordâncias positivas  S 2 = = = 0.38
p 8
concordâncias(1 − 1) 3
Coeficiente de Jaccard  S3 = = = 0.50
p −concordâncias (0 − 0) 6
Concordâncias “reais” (1-1)

+
Discordâncias “reais” (0-1 ou 1-0)

Transformação de variável quantitativa em 0 - 1

Cliente Compra ($) Z
A 55 1
B 21 0
C 28 0
D 85 1
E 63 1
Mediana das compras = $55
Perda de informação vs. Simplicidade
Alternativa :
• dividir em mais categorias (quartis, por exemplo)
• gerar dummies mantendo estrutura de ordem - slide seguinte

44

Estado Civil X1 X2 X3 X4
k dummies quando
Solteiro 1 0 0 0
diferenciamos 1-1 de 0-0
Casado 0 1 0 0
(k-1) dummies quando
Separado 0 0 1 0
não diferenciamos 1-1 de 0-0
Viuvo 0 0 0 1
Qualitativa ordinal em (0-1)

Nível Educacional X1 X2 X3
Primário 1 0 0
Secundário 1 1 0
Superior 1 1 1

Como medir a distância entre grupos ?
Grupo B Ideias ?
Grupo A
Grupo C

45

Ligação pela média
B
A
D
C E
GRUPO 1 GRUPO 2
d( AB ) + d( AD ) + d( AE ) + d(CB ) + d(CD ) + d(CE )

d (1,2) =
6

Ligação simples (vizinho mais próximo)
B
A
D
C E
GRUPO 1 GRUPO 2
d(1,2) = min [ d(AB), d(AD), d(AE), d(CB), d(CD), d(CE) ]

46

Ligação completa (vizinho mais distante)
B
A
D
C E
GRUPO 1 GRUPO 2
d(1,2) = max [ d(AB), d(AD), d(AE), d(CB), d(CD), d(CE) ]

Ligação pelos centróides
A distância entre dois grupos pode ser medida pela distância entre
os centróides desses grupos. Se o cluster A é formado pelos
indivíduos ai (i=1,..., an) e o cluster B pelos indivíduos bj (j=1,...,bn),
os centróides de A e B são definidos por
E a distância entre A e B é definida pela distância euclidiana entre

CA e CB .

47

A Soma de Quadrados dos Resíduos (SQRES ou SSW, sum of

squares within) para um agrupamento é dada pela soma dos
quadrados das distâncias de cada indivíduo do grupo ao centróide
desse grupo.
Técnicas de análise de agrupamento baseadas nessa medida

buscam realocar indivíduos entre grupos de forma a minimizar essa
soma de quadrados, o que é condizente com a ideia de buscar
maximizar a homogeneidade dentro do grupo.

A soma das distâncias ao quadrado de todos os indivíduos ao centróide da
amostra de n indivíduos é a soma de quadrados total, normalmente designada
por SQT. Resultado bastante conhecido, a SQT = SQB + SQW, onde SQB é a
soma de quadrados entre agrupamentos (B se deve ao termo inglês between).
Como SQT é constante para a amostra de n indivíduos, podemos concluir que

quanto menor SQW (e, portanto, maior SQE) menor a variação dentro dos grupos
e, portanto, eles são mais homogêneos. Por outro lado, quanto maior SQE, que é
função apenas dos centróides, os grupos serão mais distantes entre si.

48
Os métodos de análise de agrupamentos são regras para agrupar

indivíduos que, em geral, buscam atender a dois critérios:
• Grande homogeneidade “dentro” de cada agrupamento, ou seja, a

semelhança entre os indivíduos de um mesmo grupo deve ser a maior
possível.
• Heterogeneidade entre agrupamentos, ou seja, a distância entre

grupos deve ser a maior possível. Em outras palavras, buscam-se
agrupamentos que sejam muito diferentes entre si.

49
7. Selecionar e aplicar algoritmo(s) de agrupamento – tipos de métodos:
• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)
• Métodos de partição: K-means
Nos métodos hierárquicos aglomerativos os n indivíduos

definem inicialmente n grupos; a seguir os dois grupos mais
próximos são fundidos e, assim por diante, os grupos vão sendo
fundidos passo a passo até chegarmos a um único agrupamento
formado por todos os n indivíduos.
– Aglomerativos
Nos métodos hierárquicos divisivos, os n indivíduos definem

inicialmente um único grupo; a seguir esse grupo é dividido em
dois grupos; depois, cada um destes é dividido em outros dois
grupos e assim por diante até chegarmos a n grupos, cada um
formado por um único indivíduo.

50
– Aglomerativos
Nos métodos de partição formam-se grupos iniciais arbitrários e

os indivíduos vão sendo realocados entre grupos até que a
configuração obtida otimize um critério previamente definido de
homogeneidade interna e /ou heterogeneidade entre grupos.
8. Identificar, analisar (interpretar) os agrupamentos
Para entender, interpretar e validar os clusters obtidos é necessário descrever e

comparar o perfil de seus indivíduos.
Ao estudar as diferenças entre os grupos é melhor utilizar as variáveis em sua

forma original, ou seja, sem os valores padronizados. A utilização de gráficos
das distribuições, box-plots para variáveis quantitativas e diagramas de barras
para variáveis qualitativas ou quantitativas discretas com poucos valores
distintos é extremamente útil para analisar as diferenças entre os grupos.
Medidas descritivas de posição e dispersão também devem ser utilizadas.
A análise dos perfis permite em muitos casos que batizemos cada um dos
grupos obtidos de forma adequada. A identificação dos grupos através de
denominações apropriadas facilita a comunicação entre os usuários dos
resultados.

51
9. Validar resultados
Quando agrupamos um conjunto de indivíduos esperamos obter uma solução que

seja lógica, ou seja, que possa ser interpretada dentro do contexto do problema
que estamos estudando. Essa interpretação requer a análise por parte de um
especialista no assunto. Por exemplo, se estamos classificando os clientes de um
banco em função da forma como aplicam seu dinheiro, o analista deverá
conhecer bem os produtos financeiros para poder interpretar a solução obtida. O
mesmo ocorre quando desejamos agrupar diferentes tipos de alimentos em
função de seus nutrientes. Dificilmente um analista sem profundos conhecimentos
de nutrição poderá interpretar os grupos obtidos e suas principais diferenças.
A validação de uma partição não deve ser confundida com a obtenção de grupos
que vão ao encontro das expectativas do analista. Um dos benefícios maiores da
Análise de Agrupamentos é a identificação de novas formas de classificar
indivíduos, permitindo gerar ou confirmar hipóteses acerca de seu
comportamento.
exemplo de ligação pela média
dij A B C D E
A 0.0
Matriz de B 2.0 0.0

distâncias C 4.0 10.0 0.0
D 6.0 8.0 2.0 0.0
E 8.0 6.0 4.0 1.0 0.0

52
exemplo de ligação pela média
A B C DE
A 0.0
B 2.0 0.0
C 4.0 10.0 0.0
DE 7.0 7.0 3.0 0.0
AB C DE AB CDE
AB 0.0
AB 0.0
C 7.0 0.0
CDE 7.0 0.0
DE 7.0 3.0 0.0
Técnicas de clusterização: dendrograma
Dendrogram with Average Linkage
7,00
4,67
Distance
2,33
0,00
a b c d e
Observations

53
exemplo completo
A empresa Straw S/A estuda o mercado para o StrawBerry – versão

avançada do Blackberry, próprio para uso profissional fora do escritório,
com design inovador. Além de pesar apenas 30 gramas, possui 3 mm de
espessura e é totalmente maleável. Pode ser tranquilamente colocado no
bolso traseiro da calça.
Straw S/A precisa identificar segmentos de mercado e escolher um ou mais

segmentos-alvo para seu produto, de forma a posicionar o produto no(s)
segmento(s) escolhido(s).
exemplo completo
Foi encomendada uma pesquisa de mercado. Somente foram considerados os

entrevistados que responderam, logo de início, terem já pensado na hipótese de
possuir uma solução semelhante ao StrawBerry.
Cada um dos entrevistados respondeu a sete questões.
Adaptação a partir de
LILIEN Gary L., RANGASWAMY, Arvind.
Marketing Engineering - Computer-Assisted Marketing Analysis and Planning.
Addison-Wesley, Inc. 1997

54
exemplo completo
Variável Pergunta Como responder
Primeiro “Eu costumo ser um dos primeiros a adotar novas de 1 (discordo muito)
tecnologias.” a 7 (concordo muito)
Enviar Quão frequentemente você envia para os outros de 1 (nunca)
informações onde o tempo é relevante? a 7 (sempre)
Fora Que percentagem do seu tempo você gasta fora do seu de 1 (0%)
escritório? a 7 (70% ou mais)
Sem_fio Quão importante é comunicação sem fio para você? de 1 (nada importante)
a 7 (muito importante)
Compartilhar Quão importante é para você compartilhar informações de 1 (nada importante)
rapidamente com seus colegas enquanto está fora do seu a 7 (muito importante)
escritório?
Aluguel Quanto você estaria disposto em pagar mensalmente em R$

(aluguel) pelo produto?
Comprar Quanto você estaria disposto em pagar para comprar? em R$
Técnicas de clusterização: exemplo completo -

dendrograma

55
exemplo completo
Análise das variáveis

• variáveis utilizadas para agrupar (drivers)
• outras variáveis (discriminadoras?)
Descrição das diferenças entre clusters

• Tabelas comparando estatísticas
• Box–plots
• Descrição verbal enfatizando diferenças

56

57

58

59

60
exemplo completo
Descreva os quatro clusters.
Qual ou quais clusters deveriam ser alvo do

esforço de comunicação de marketing para
vender o StrawBerry ?

61
exemplo completo
Alguém disse que a milhagem em um cartão de crédito emitido somente para
advogados pode ser uma boa variável discriminante para se determinar bons
prospects para oferecer o StrawBerry. Você concorda?
Grupo 4
Grupos 1, 2 e 3
Aplicação
Atividade em Sala
Lojas Grampers

62
Aplicação
### Lojas Grampers
### Importe o banco de dados Lojas_Grampers.xlsx, disponível no ECLASS.
dados <- Lojas_Grampers

attach(dados)
View(dados)
# Item a, subitem i: padronizar as variáveis que servirão de drivers de segmentação
dados$zDESP_TRI <- (dados$DESP_TRI - mean(dados$DESP_TRI)) /(sd(dados$DESP_TRI))

dados$zFREQ_TRI <- (dados$FREQ_TRI - mean(dados$FREQ_TRI))/(sd(dados$FREQ_TRI))
dados$zITEM_TRI <- (dados$ITEM_TRI - mean(dados$ITEM_TRI))/(sd(dados$ITEM_TRI))
attach(dados)View(dados)
Aplicação
# Item a, subitem ii: inspecionando para possíveis outliers
summary(dados$zDESP_TRI)
summary(dados$zFREQ_TRI)
summary(dados$zITEM_TRI)
# Considerando outlier como |z| > 3, não há nenhum.
# Item a, subitem iii: matriz de correlações
a <- cbind.data.frame(dados$zDESP_TRI, dados$zFREQ_TRI, dados$zITEM_TRI)

View(a)
cor(a)

63
Aplicação
# Item b
d <- dist(a, method = "euclidean")

fit <- hclust(d, method="average")
plot(fit) # imprime o dendrograma com ligação pela média
fit2 <- hclust(d, method="ward.D")

plot(fit2) # imprime o dendrograma com ligação WARD
# O dendrograma gerado pela ligação WARD é mais fácil de ser analisado.
# Item c
gruposWARD <- cutree(fit2, k=3) # "corta" o dendrograma em 3 grupos

rect.hclust(fit2, k=3, border="red")
dados <- cbind.data.frame(dados, gruposWARD)

View(dados)
attach(dados)
Aplicação
# Item d - caracterização dos clusters obtidos
library(dplyr)
library(ggplot2)
# Drivers da segmentação:
ggplot(dados, aes(x = factor(gruposWARD), y = DESP_TRI)) +

geom_boxplot()
ggplot(dados, aes(x = factor(gruposWARD), y = FREQ_TRI)) +

geom_boxplot()
ggplot(dados, aes(x = factor(gruposWARD), y = ITEM_TRI)) +

geom_boxplot()

64
Aplicação
# Variáveis de caracterização: SEXO EST_CIVIL JORNAL IDADE
ggplot(dados, aes(x = factor(gruposWARD), fill = SEXO)) +

geom_bar(position="dodge") +
geom_text(aes(label = ..count..), stat = "count", vjust = -0.5,
position = position_dodge((1)))
ggplot(dados, aes(x = factor(gruposWARD), fill = EST_CIVIL)) +

ggplot(dados, aes(x = factor(gruposWARD), fill = JORNAL)) +

ggplot(dados, aes(x = factor(gruposWARD), y = IDADE)) +

geom_boxplot()
Aplicação
300
200
DESP_TRI
100
7.5
FR EQ _TR I
5.0
1 2 3
factor(gruposWARD)
6
2.5
1 2 3
factor(gruposWARD)
4
ITEM_TRI
1 2 3
factor(gruposWARD)

65
Aplicação
15 8
15 8
6
6
10
5
EST_CIVIL
SEXO
4 4 4 CAS
count
count
F 4
7 SEP
M
SOLT
3 3 3
5 5 5
5
2
3
0 0
1 2 3 1 2 3
factor(gruposWARD) factor(gruposWARD)
15
15
80
10
60
JORNAL
count
IDADE
7 7 ABC
QWR
5
5
40
3 3
1 2 3
0 factor(gruposWARD)
1 2 3
factor(gruposWARD)
Aplicação
Variável Cluster 1 (n = 10) Cluster 2 (n = 18) Cluster 3 (n = 12)

Despesas médias baixa média alta
Frequência média alta baixa baixa
Num. Médio de itens baixo/médio baixo/médio médio
Idade Média de 58,6 anos Média de 32,7 anos Média de 39 anos
Sexo predominante - Masculino -
Est. Civil predominante - - -
Jornal predominante ABC QWR ambos
Gasto total (médio) - R$ 264,43 147,07 240,16
Batizar clusters Costumazes Ocasionais Gastadores eventuais
Clientes mais velhos que gastam

pouco por compra, mas que visitam a Predominantemente do sexo Clientes maduros de ambos os sexos,
loja com bastante frequência. Não masculino e jovens, esses clientes visitam a loja com baixa frequência,
Descrição costumam comprar muitos itens por visitam a loja com baixa frequência. mas por visita são os que mais
compra. São o grupo que mais gasta São os que menos gastam na loja, em gastam. Não há clareza quanto ao
na loja, em média. Preferem o jornal média. Preferem o jornal QWR. jornal preferido.
ABC.

66
considerações finais
Não há nenhuma técnica que seja sempre superior!
Alguns estudos, tentando reproduzir estruturas de agrupamentos

conhecidas, concluíram pela recomendação de K-means, Ward e ligação
pela média. Não significa que são sempre melhores.
K-means busca a melhor partição. Permite realocar elementos entre

grupos. Métodos hierárquicos não permitem realocação.
Recomendação: rodar com diferentes técnicas e comparar resultados.

Entender o porquê das inconsistências.
Seleção da técnica tem maior influência no resultado que seleção do

critério de parecença.
Maior parte das técnicas é muito sensível a outliers. Recomendação:

removê-los ou suavizá-los.
considerações finais
Agrupar com diferentes distâncias e técnicas. Comparar

resultados. Verificar consistência.
Dividir amostra em duas partes. Rodar separadamente e comparar

resultados. Identificar eventuais inconsistências.
Eliminar algumas variáveis arbitrariamente e comparar os

diferentes resultados.

67
OBRIGADO!

01 Met Matric e Analise Clusters MPonchio F

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

01 Met Matric e Analise Clusters MPonchio F

Enviado por

Direitos autorais:

Formatos disponíveis

A cópia do material didático utilizado ao longo do curso é de propriedade do(s) autor(es),

não podendo a contratante vir a utilizá-la em qualquer época, de forma integral ou

Métodos Matriciais e Análise de

Prof. Dr. Mateus C. Ponchio

MBA Business Analytics e Big Data

Prof. Dr. Mateus C. Ponchio

Agradecimento ao Prof. Dr. Abraham Laredo Sicsú pela

Métodos Matriciais e Análise de Clusters

Métodos Matriciais e Análise de Clusters

Prof. Mateus Ponchio

Doutor em Administração pela Escola de Administração de Empresas de São Paulo da

Métodos Matriciais e Análise de Clusters

• Trabalhos em aula (grupo): 30%

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória (AFE) é um método estatístico multivariado

O objetivo principal da AFE é identificar as relações subjacentes entre um

A AFE é baseada no modelo de fator comum: espera-se que um fator

Análise fatorial exploratória:

Exemplo • Há grande interesse em medir inteligência

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória:

• Ideia: os dados observados são na realidade

Análise fatorial exploratória:

• Imagine que a altura de uma pessoa é uma variável latente (ou

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória:

Facilidade para Relação

Análise fatorial exploratória:

• As respostas às questões são variáveis observáveis

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória:

• O que todos os indicadores têm em comum?

• Se conseguirmos estimar o que é comum a todos

• Esta “parte comum” da variabilidade de todos os

Análise fatorial exploratória:

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória:

Análise fatorial exploratória:

Hist Mat Geo Qui Fis

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória:

Hist Geo Mat Qui Fis

Geo 0,96 1,00

Mat 0,02 0,13 1,00

Qui 0,42 0,50 0,71 1,00

Fis 0,01 0,11 0,85 0,79 1,00

Análise fatorial exploratória:

• O que está por trás dessas correlações altas?

• Como medir essas habilidades?

Métodos Matriciais e Análise de Clusters

Outras variáveis (assistir Outras variáveis

Outras variáveis Outras variáveis (gosto

Análise fatorial exploratória:

Métodos Matriciais e Análise de Clusters

Análise fatorial exploratória: um

Para cada aluno i a nota em Matemática será

Mati = 0,72 F1i + 0,34 F2i + Emi

Emi: aptidão específica do aluno i em matemática

0,72 e 0,34: cargas fatoriais (factor loadings)

Outras variáveis (assistir Outras variáveis (gosto

QUI Correlação entre o

Outras variáveis (interesse Outras variáveis (gosto

Métodos Matriciais e Análise de Clusters