Você está na página 1de 69

A cópia do material didático utilizado ao longo do curso é de propriedade do(s) autor(es),

não podendo a contratante vir a utilizá-la em qualquer época, de forma integral ou


parcial. Todos os direitos em relação ao design deste material didático são reservados à
Fundação Getulio Vargas. Todo o conteúdo deste material didático é de inteira
responsabilidade do(s) autor(es), que autoriza(m) a citação/divulgação parcial, por
qualquer meio convencional ou eletrônico, para fins de estudo e pesquisa, desde que
citada a fonte.

Adicionalmente, qualquer problema com sua turma/curso deve ser resolvido, em primeira
instância, pela secretaria de sua unidade. Caso você não tenha obtido, junto a sua
secretaria, as orientações e os esclarecimentos necessários, utilize o canal institucional da
Ouvidoria.

ouvidoria@fgv.br

www.fgv.br/fgvmanagement
1

Métodos Matriciais e Análise de


Clusters

Prof. Dr. Mateus C. Ponchio

MBA Business Analytics e Big Data


Disciplina: Métodos Matriciais e Análise de Clusters

Prof. Dr. Mateus C. Ponchio

Agradecimento ao Prof. Dr. Abraham Laredo Sicsú pela


elaboração de parte deste conteúdo.

Métodos Matriciais e Análise de Clusters


2

Sumário

• Apresentações
• Critérios de avaliação
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações
• Extensões de métodos matriciais

Sumário

• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações

Métodos Matriciais e Análise de Clusters


3

Apresentações

Prof. Mateus Ponchio

Doutor em Administração pela Escola de Administração de Empresas de São Paulo da


Fundação Getulio Vargas - FGV-EAESP (2006) com Estágio Doutoral na University of
Otago - Nova Zelândia (2006) e Graduado em Administração de Empresas pela FGV-
EAESP (2002). Concluiu seu pós-doutorado (2016) na Georgia State University
Robinson College of Business. Foi professor titular e Coordenador do Programa de Pós-
Graduação em Administração (PPGA/ESPM). Coordenou a criação de um MINTER e um
DINTER no estado do Mato Grosso em 2019 e 2020, respectivamente. Desde 2008 é
professor da FGV-EAESP. É Editor Científico da RAE - Revista de Administração de
Empresas (FGV) e membro do corpo editorial do International Journal of Bank
Marketing (Emerald). Possui bolsa de produtividade em pesquisa nível 2 do CNPq em
curso (2021 - 2024).

Sumário

• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações

Métodos Matriciais e Análise de Clusters


4

Critérios de Avaliação

• Trabalhos em aula (grupo): 30%


• Prova: 70%

Sumário

• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações

Métodos Matriciais e Análise de Clusters


5

Sumário

Análise fatorial exploratória (AFE) é um método estatístico multivariado


usado para investigar a estrutura subjacente de um conjunto relativamente
grande de variáveis.

O objetivo principal da AFE é identificar as relações subjacentes entre um


conjunto de variáveis. Pode-se a partir desse conhecimento reduzir
dimensionalidade, substituindo-se conjuntos de variáveis observadas por
novas variáveis, em menor número, chamadas de fatores. Pode-se também
empregar a análise fatorial exploratória em estágios iniciais de
desenvolvimento de instrumentos de mensuração.

A AFE é baseada no modelo de fator comum: espera-se que um fator


subjacente influencie a variabilidade de variáveis observadas. A variabilidade
de cada variável observada, nesse modelo, é decomposta em uma componente
específica e em outra componente “comum”.

Análise fatorial exploratória:


construtos

Exemplo • Há grande interesse em medir inteligência


inicial • Talvez seja uma característica das pessoas: pessoa “mais” ou
“menos” inteligente
• Medida de peso  diretamente na balança
• Medida de inteligência  instrumento de medida?
X=10 • Inteligência é um contruto: conceito que tem significado, é
útil, mas não tem tangibilidade
• Testes de QI: se medem de fato alguma característica única e
real (a tal “inteligência”), então espera-se que sejam todos
correlacionados
• QI: uma única variável latente?
• Como medir? motivação, materialismo, felicidade

Métodos Matriciais e Análise de Clusters


6

Análise fatorial exploratória:


construtos

• Ideia: os dados observados são na realidade


“produzidos” por alguns fatores “escondidos”
• Raízes na Psicologia (notas em certos testes de aptidão
refletem na verdade habilidades quantitativas,
capacidade analítica, etc.)
• Metas:
– mensuração de construtos - caracterização de fatores
“escondidos” (variáveis latentes)
– redução de variáveis – transformação de um conjunto de
variáveis correlacionadas entre si em um número menor de
variáveis.

Análise fatorial exploratória:


construtos

• Imagine que a altura de uma pessoa é uma variável latente (ou


seja, não é possível medir diretamente).
• Como poderíamos medir a altura por meio de um
questionário? (não vale perguntar a altura...)
• Você alcança a barra de apoio do metrô?
1 – não alcanço
2 – alcanço na ponta do pé
3 – alcanço com o braço esticado
4 – alcanço sem esticar o braço
5 – alcanço com o braço dobrado
• Em que posição você ajusta o banco do carro?
1 – no limite máximo para frente
2 – à frente do ponto médio
3 – no ponto médio
4 – para trás do ponto médio
5 – no limite máximo para trás

Métodos Matriciais e Análise de Clusters


7

Análise fatorial exploratória:


medindo um construto latente

Facilidade para Relação


alcançar a braço/altura
barra do metrô

Altura

Posição do Preferências
banco do para dirigir
carro

Análise fatorial exploratória:


medindo um construto latente

• As respostas às questões são variáveis observáveis


(indicadores)
• Os indicadores refletem, em parte, a variável
latente de interesse (altura)
– Se uma pessoa é alta, tende a alcançar a barra de apoio do
metrô com mais facilidade
• No entanto, as variáveis observáveis sofrem,
também, a influência de outras variáveis além da
altura
– Uma pessoa alta pode não alcançar a barra do metrô
porque tem um braço curto.

Métodos Matriciais e Análise de Clusters


8

Análise fatorial exploratória:


medindo um construto latente

• O que todos os indicadores têm em comum?


– A altura...

• Se conseguirmos estimar o que é comum a todos


os indicadores, eliminaremos o que é específico a
cada um e se deve a outras variáveis.

• Esta “parte comum” da variabilidade de todos os


indicadores está associada à altura.

Análise fatorial exploratória:


medindo um construto latente

Variável
erro
observável
(indicador)

Fonte de Variável
variabilidade Latente ou Fonte de
comum aos Fator Comum variabilidade
indicadores específica

Variável
observável erro
(indicador)

Métodos Matriciais e Análise de Clusters


9

Análise fatorial exploratória:


medindo um construto latente

• Indicadores
– Notas dos alunos de uma classe
• His  história
• Mat  matemática
• Geo  geografia
• Qui  química
• Fis  física

Análise fatorial exploratória:


medindo um construto latente

Matriz de correlações

Hist Mat Geo Qui Fis


Hist 1,00
Mat 0,02 1,00
Geo 0,96 0,13 1,00
Qui 0,42 0,71 0,50 1,00
Fis 0,01 0,85 0,11 0,79 1,00

Métodos Matriciais e Análise de Clusters


10

Análise fatorial exploratória:


medindo um construto latente
Matriz de correlações (reordenada)

Hist Geo Mat Qui Fis

Hist 1,00

Geo 0,96 1,00

Mat 0,02 0,13 1,00

Qui 0,42 0,50 0,71 1,00

Fis 0,01 0,11 0,85 0,79 1,00

Análise fatorial exploratória:


medindo um construto latente

• O que está por trás dessas correlações altas?


– Habilidade em exatas?
– Habilidade em humanas ?
– Bom desempenho escolar?

• Como medir essas habilidades?

Métodos Matriciais e Análise de Clusters


11

Outras variáveis (assistir Outras variáveis


Outras variáveis
ao Mundo de Beakman) (gosto por filmes
(didática do professor
no colégio, etc.) épicos, etc.)

FIS HIS

Hab. em Hab. em
0,79 MAT
exatas humanas

QUI GEO

Outras variáveis Outras variáveis (gosto


(interesse por por viagens, etc.)
laboratório, etc. )

Análise fatorial exploratória:


redução de dimensionalidade
HIST MAT GEO QUI FIS F1 F2
1 6,4 5,9 6,9 6,9 5,0 0,4 -0,4
2 8,3 6,1 7,6 9,4 3,0 1,0 -0,3
3 8,0 4,9 4,3 4,0 5,0 -0,2 0,4
4 8,7 4,2 9,1 2,4 4,0 0,6 0,7
5 4,8 1,0 5,8 6,3 4,0 0,2 1,6
6 3,5 6,9 7,4 2,9 3,0 -0,8 -0,9
7 1,0 5,2 4,3 1,0 4,0 -2,0 -0,2
.. .. .. .. .. .. .. ..

5 Variáveis 2 Fatores
originais ortogonais
F1 - Habilidade em Exatas
F2 – Habilidade em Humanas

Métodos Matriciais e Análise de Clusters


12

Análise fatorial exploratória: um


pouco de álgebra

Para cada aluno i a nota em Matemática será


representada por

Mati = 0,72 F1i + 0,34 F2i + Emi

Emi: aptidão específica do aluno i em matemática

0,72 e 0,34: cargas fatoriais (factor loadings)

Variação
Variação
não
Valores explicada
explicada
observados pelos
pelos
fatores
fatores

Outras variáveis (assistir Outras variáveis (gosto


ao Mundo de Beakman) Outras variáveis (didática
por filmes épicos, etc.)
do professor no colégio,
etc.)

FIS HIS

0,72 0,34
Hab. em Hab. em
0,79 exatas
MAT
humanas

QUI Correlação entre o


GEO
indicador e cada
fator

Outras variáveis (interesse Outras variáveis (gosto


por laboratório, etc. ) por viagens, etc.)

Métodos Matriciais e Análise de Clusters


13

Análise fatorial exploratória: um


pouco de álgebra

fatores comuns F1,...,Fm


Valor observado da
Variáveis não observáveis
variável Xi para o
indivíduo k
fator específico ei para
a variável Xi

X ik = λi1 F1k + λi 2 F2 k + ... + λim Fmk + eik

Análise fatorial exploratória: um


pouco de álgebra

X ik = λi1 F1k + λi 2 F2 k + ... + λim Fmk + eik


Xik: valor observado da variável Xi para o indivíduo k
i = 1, ..., p (variáveis padronizadas)
k = 1, ..., n (indivíduos)
Fjk: valor do j-ésimo fator comum para o indivíduo k
j=1, ..., m (m ≤ p) (fatores)  variáveis não
observáveis
λij: carga de Xi em Fj (“factor loading”)
parâmetros desconhecidos
eik: valor do fator específico de Xi para o indivíduo k (às
vezes denominado erro do modelo fatorial)  variáveis
não observáveis

Se variáveis quantitativas padronizadas, então:


λ = correlações entre os fatores e os indicadores.

Métodos Matriciais e Análise de Clusters


14

Análise fatorial exploratória: um


pouco de álgebra

Var(Xi) = λi12 + λi22+ ...+ ϕi2 =1

Comunalidade Variância específica ou


especificidade de Xi

Correl (Xi; Fj)= λij

“Variância total” = Σi Var(Xi) = p

Nº de variáveis

Análise fatorial exploratória:


exemplo

• Alunos avaliam 30 professores de uma escola.


• Planilha: médias das notas em 6 itens
• Dados: dataset_AVALIACOES.xlsx

AUDVIS qualidade dos audio visuais

DISPON disponibilidade fora da sala de aula

DIDAT didática

MATRL qualidade do material didático

PONTUAL pontualidade

RELACION relacionamento com alunos

AGLOB avaliação global

Métodos Matriciais e Análise de Clusters


15

Análise fatorial exploratória:


exemplo

AUDVIS DISPON DIDAT MATRL PONTUAL RELACION

1 6,4 5,9 6,9 6,9 5,0 8,2

2 8,3 6,1 7,6 9,4 3,0 8,7

3 8,0 4,9 4,3 4,0 5,0 6,2

4 8,7 4,2 10,0 2,4 4,0 8,5

5 4,8 1,0 5,8 6,3 4,0 7,5

--- --- --- --- --- --- ---


--- --- --- --- --- --- ---
32 3,5 6,9 7,4 2,9 3,0 8,0
29

Análise fatorial exploratória:


exemplo
Matriz de correlações

AUDVIS DIDAT MATRL RELAC DISPON

DIDAT 0,55
MATRL 0,60 0,43
RELACION 0,43 0,81 0,48
DISPON 0,05 0,22 0,3 0,33
PONTUAL -0,13 -0,18 0,02 -0,18 -0,06

Métodos Matriciais e Análise de Clusters


16

Análise fatorial exploratória:


exemplo
Cargas fatoriais

Variable Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Comm

AUDVIS -0,74 0,09 -0,47 0,29 -0,36 0,11 1

DISPON -0,41 0,14 0,85 0,20 -0,20 -0,01 1

DIDAT -0,86 -0,13 -0,07 -0,40 -0,11 -0,26 1

MATRL -0,75 0,38 -0,08 0,40 0,36 -0,09 1

PONTUAL 0,23 0,91 -0,05 -0,32 -0,08 0,02 1

RELACION -0,86 -0,10 0,12 -0,38 0,18 0,25 1

Variance 2,81 1,03 0,98 0,69 0,35 0,15 6

% Var 0,47 0,17 0,16 0,12 0,06 0,03 1

% Var Acum 0,47 0,64 0,80 0,92 0,98 1,00

Fração da variabilidade das variáveis Comunalidade = 100%


observáveis explicada pelo fator

Análise fatorial exploratória: exemplo –


escolha do número de fatores

• Quantos fatores? Qual o valor de m?


– parcimônia & boa explicação

• Como fixar m?
– análise do fenômeno pode sugerir valor
de m
– trabalhos similares de outros
pesquisadores
– critérios numéricos (regras empíricas)
• rodar com m = p e selecionar fatores que correspondam a
autovalores maiores que 1
• verificar proporção da variância explicada pelos primeiros
m fatores

Métodos Matriciais e Análise de Clusters


17

Análise fatorial exploratória: exemplo

Qual fator influencia mais fortemente cada variável?


Algumas variáveis têm cargas relativamente altas em
mais de um fator.
Variable Factor1 Factor2 Factor3 Comm

AUDVIS -0,74 0,09 -0,47 0,77

DISPON -0,41 0,14 0,85 0,92

DIDAT -0,86 -0,13 -0,07 0,76

MATRL -0,75 0,38 -0,08 0,70

PONTUAL 0,23 0,91 -0,05 0,89

RELACION -0,86 -0,10 0,12 0,76

Variance 2,808 1,031 0,975 4,814

% Var 0,468 0,172 0,162 0,802

Análise fatorial exploratória:


rotação de fatores

• Solução ( λ’s estimados) não é única


• Solução inicial pode não ser a melhor para interpretar os fatores.
• Soluções alternativas: rotação dos fatores
cargas em F2

cargas em F2

cargas em F1 cargas em F1

Métodos Matriciais e Análise de Clusters


18

Análise fatorial exploratória:


rotação de fatores
• Rotação ortogonal - métodos usuais
– VARIMAX
• Recomendado se desconfiamos que cada
variável tem carga alta em um e apenas um
fator. MAIS UTILIZADO
• Busca maximizar a carga de cada variável
em apenas um fator
– Outros métodos
• QUARTIMAX
• EQUIMAX

Análise fatorial exploratória

Cada indicador tem carga alta em apenas um fator.

Variable Factor1 Factor2 Factor3 Com Comunalidade: fração da


variabilidade do indicador
AUDVIS 0,86 0,18 0,01 0,77 explicada pelo conjunto
de fatores.
DISPON 0,11 -0,95 0,00 0,92

DIDAT 0,80 -0,20 0,28 0,76 Como batizar os


fatores?
MATRL 0,78 -0,22 -0,24 0,70
Cuidado com o
PONTUAL -0,06 0,01 -0,94 0,89 sinal das cargas!
RELACION 0,74 -0,38 0,26 0,76

Fração da variabilidade
Variance 2,55 1,17 1,09 4,81
dos indicadores explicada
% Var 0,43 0,20 0,18 0,80 pelos fatores.

Métodos Matriciais e Análise de Clusters


19

Análise fatorial exploratória:


análise dos resultados

• Análise dos valores das cargas fatoriais.


– Associação de cada variável a um fator.

• Interpretação e batismo dos fatores.


• Análise das comunalidades para cada variável.
– Variáveis com comunalidades muito baixas não se
ajustam bem ao modelo.

Análise fatorial exploratória:


redução de dimensionalidade

• Em geral, problemas começam com um grande número de


variáveis
– Dificulta entendimento
– Causa redundância
– Aumenta custo de aquisição dos dados

• Análise Fatorial sugere formas de reduzir número de


variáveis sem perda significante de informação.

Métodos Matriciais e Análise de Clusters


20

Análise fatorial exploratória:


redução de dimensionalidade

• Surrogate variable
Selecionar uma variável representando cada
fator.
– maior carga no fator selecionado;
– mais representativa na opinião do analista;
– custo de aquisição da variável;
– erro de medição da variável

– inconvenientes:
• uma única variável pode não representar o verdadeiro
significado do fator

Análise fatorial exploratória:


redução de dimensionalidade

• Summated Scales
Combinar duas ou mais variáveis representando cada
fator.
• Em geral média (simples ou ponderada) das variáveis
• Considerar mesmos critérios do item anterior
• Variáveis escolhidas devem ter carga alta em um único fator
(representam uma dimensão única no estudo)
• Correlação da nova variável com fator deve ser alta

• Escores fatoriais
• Calculados pelo R

Métodos Matriciais e Análise de Clusters


21

Análise fatorial exploratória:


redução de dimensionalidade

• Surrogate variable e summated scales


– vantagem:
• mais fáceis de explicar e entender (importante!)
– desvantagem
• não ortogonais (correlacionadas)

• Escores fatoriais
– vantagem:
• ortogonalidade (não correlacionadas)
– desvantagens:
• (às vezes) difíceis de entender e explicar a terceiros
• influência de todas as variáveis (mesmo com carga baixa)

Análise fatorial exploratória:


escores fatoriais

• Já estimamos as cargas fatoriais λ

X ik = λ i1 F1k + λ i 2 F2k + ... + λ im Fmk + uik

• Falta agora calcular os escores


fatoriais Fjk

– Quanto vale o fator 1 (qualidade


de ensino) para o professor k?

Métodos Matriciais e Análise de Clusters


22

Análise fatorial exploratória:


escores fatoriais

• Podem ser utilizados em outras técnicas no


lugar das variáveis originais.

X1...Xp AF F1....Fm

• Vantagens:
– Menor dimensionalidade sem grande perda de
informação
– Ortogonalidade

Análise fatorial exploratória: exemplo

Exemplo: Avaliações
dataset_AVALIACOES.xlsx
View(dataset_AVALIACOES)
dados = subset(dataset_AVALIACOES, select = -
c(PROFESSOR, AGLOB))
View(dados)

attach(dados)
cor(dados)

Métodos Matriciais e Análise de Clusters


23

Análise fatorial exploratória: exemplo

# Teste de esfericidade de Bartlett: Testa a hipótese de que as correlações entre


# as variáveis são maiores do que seria esperado pelo acaso: Tecnicamente, testa
# se a matriz de correlações é uma matriz identidade. O valor-p deve ser significante:
# ou seja, a hipótese nula de que todas as correlações fora da diagonal principal são
# iguais a zero é rejeitada.

library(psych)
cortest.bartlett(dados)

# No caso de nossa matriz de correlações, o valor-p < 0,01 sugere que


# podemos rejeitar a hipótese nula (por exemplo, se alfa = 5%).

Análise fatorial exploratória: exemplo

# Mas, como determinamos o número de fatores a extrair?


modelo <- psych::principal(dados, nfactors = 6, rotate = "none")
print(modelo, digits =3)
scree(dados, pc=TRUE, factors=FALSE)

# Vamos adotar 3 fatores...


modelo2 <- psych::principal(dados, nfactors = 3, rotate = "none")
print(modelo2, digits=3)

# Solução rotacionando os fatores...


modelo2rot <- psych::principal(dados, nfactors = 3, rotate = "varimax", scores = TRUE)
print(modelo2rot, digits=3, sort = TRUE)
print(modelo2rot$scores)

Métodos Matriciais e Análise de Clusters


24

Análise fatorial exploratória: exemplo

print(modelo2rot$scores)

plot(modelo2rot$scores[,1], modelo2rot$scores[,2], main="Mapa Perceptual",


xlab="Fator 1", ylab="Fator2")
abline(a=0, b=0)
abline(v=0)

# Batismo dos fatores...

Análise fatorial exploratória:


mapas de percepção

• Representação gráfica
• Eixos: escores fatoriais Fator (i) vs Fator (j)

• Permite avaliar posição relativa dos indivíduos


• Indivíduos próximos: similares (competem) no que diz
respeito a essas duas dimensões

• Cluster dos indivíduos

Métodos Matriciais e Análise de Clusters


25

Análise fatorial exploratória:


mapas de percepção
Qual o quadrante ideal? O que significa? (cuidado com os sinais
dos valores) Qual o significado dos demais quadrantes?

Análise fatorial exploratória: cuidados...

Cuidado com tamanho amostral:


n >> p

População tem diferentes estratos?


(sexo, setor...)
• estruturas de correlação podem diferir
• pode ser interessante analisar cada estrato
separadamente e comparar resultados

Cuidado com outliers. Podem afetar correlações.

Métodos Matriciais e Análise de Clusters


26

Análise fatorial exploratória: roteiro

1. Definir o objeto do estudo


2. Selecionar variáveis para análise
3. Calcular a matriz de correlações e avaliá-la
(se correlações baixas, esquecer AF...)
4. Escolher o número de fatores
5. Calcular e analisar cargas fatoriais
6. Calcular e analisar comunalidades
7. Rotacionar fatores, se necessário
8. Interpretar / batizar fatores
9. Calcular escores fatoriais
10. Validar o modelo

Análise fatorial exploratória:


Caso – Avaliação de MBAs

Uma pesquisa realizada em 1997


avaliou 49 programas de MBAs das mais
conceituadas universidades americanas,
considerando oito variáveis.

Métodos Matriciais e Análise de Clusters


27

Análise fatorial exploratória:


Caso – Avaliação de MBAs
Variável Pergunta
Ranking de reputação acadêmica do programa
RankingAcademico
Ranking de reputação do programa no setor privado
RankingPrivado
Ranking de dificuldade de entrada no programa
RankingEntrada
Ranking de remuneração média dos alunos que
RankingColocacao terminaram o programa
Média dos alunos do programa no GMAT (prova geral
MediaGMAT utilizada para seleção de alunos pelos programas)
Média geral das notas de graduação dos alunos do
MediaGraduacao programa
Percentual de alunos empregados até 3 meses após
PercentualEmpregados terminarem o programa
Valor médio do total de semestralidades e outras tarifas
CustoCurso cobradas pelo programa

Análise fatorial exploratória:


Caso – Avaliação de MBAs

Estes indicadores refletem características


(variáveis latentes) dos cursos?

É possível reduzir estas variáveis a um


conjunto mais parcimonioso de fatores?

Métodos Matriciais e Análise de Clusters


28

Análise fatorial exploratória:


Caso – Avaliação de MBAs
View(MBAs)
dados2 = subset(MBAs, select = -c(Escola))
View(dados2)
attach(dados2)
cor(dados2)

#Teste de Esfericidade de Bartlett:


library(psych)
cortest.bartlett(dados2)

# P-valor próximo de zero... podemos prosseguir...


# Solução com 8 fatores, não rotacionada:
modelo <- psych::principal(dados2, nfactors = 8, rotate = "none")
print(modelo, digits =3, sort = TRUE)
scree(dados2, pc=TRUE, factors=FALSE)

Análise fatorial exploratória:


Caso – Avaliação de MBAs
# Vamos extrair 2 fatores e vamos rotacioná-los:

modelo2 <- psych::principal(dados2, nfactors = 2, rotate = "varimax", scores = TRUE)


print(modelo2, digits =3, sort = TRUE)

desprestigio <- modelo2$scores[,1]


facilidade <- modelo2$scores[,2]

MBAsScores <- cbind(MBAs, facilidade, desprestigio)


View(MBAsScores)

plot(facilidade, desprestigio)
abline(a=0, b=0)
abline(v=0)
text(facilidade, desprestigio, MBAsScores$Escola, pos=1, cex = 0.5)

Métodos Matriciais e Análise de Clusters


29

Análise fatorial exploratória:


Caso – Avaliação de MBAs

Há correlações elevadas entre as variáveis, o


que sugere que a análise fatorial é adequada

Análise fatorial exploratória:


Caso – Avaliação de MBAs

Fatores
com
variância
acima de 1

Métodos Matriciais e Análise de Clusters


30

Análise fatorial exploratória:


Caso – Avaliação de MBAs
Comunalidades elevadas

77,2% da variabilidade
(des)Prestígio Facilidade de dos indicadores é
do programa entrada explicada pelos fatores

Análise fatorial exploratória:


Caso – Avaliação de MBAs
Escores Fatoriais

Métodos Matriciais e Análise de Clusters


31

Análise fatorial exploratória:


Caso – Avaliação de MBAs
Mapa perceptual

Sumário

• Apresentações
• Critérios de avaliação
• Revisão de álgebra matricial, vetores e
matrizes
• Análise fatorial exploratória
• Extração por componentes principais
• Técnicas de clusterização
• Algoritmos hierárquicos e de partição
• K-means e aplicações

Métodos Matriciais e Análise de Clusters


32

Análise de Agrupamentos
(clusters)

• Análise de agrupamentos (AA) é o nome dado a um conjunto de técnicas


cujo objetivo é agrupar n indivíduos em grupos homogêneos.

• A parecença entre indivíduos de um mesmo grupo deverá maior que a


parecença entre indivíduos de grupos distintos.

• Indivíduos de grupos distintos devem diferir significativamente entre si.

• AA é uma técnica de análise exploratória de dados: os métodos


utilizados, ainda que sejam denominados, em certos casos, como
técnicas de otimização, são métodos heurísticos.

• São sinônimos: técnicas de clusterização, taxonomia numérica,


classificação.

Técnicas de clusterização:
Exemplos de aplicação

• Segmentação de mercados
– Consumidores caracterizados por variáveis que expressam hábitos de
consumo.

• Classificação dos clientes de um banco


– Com base na distribuição de seus investimentos.
– Com base nos serviços considerados importantes.

• Classificação de produtos
– Os produtos de um mesmo grupo são percebidos como similares pelos
consumidores potenciais.

• Classificação de diferentes mercados (“praças”)


– Para analisar e definir estratégias mercadológicas.

Métodos Matriciais e Análise de Clusters


33

Técnicas de clusterização: por


que agrupar?

• Agrupar indivíduos é uma necessidade básica em qualquer área de


conhecimento.

• Classificar indivíduos de forma consistente.

• Síntese de informação: a informação sobre N indivíduos é reduzida de


forma conveniente à informação sobre apenas k grupos.

• “Entender” melhor a população em estudo.

• Como etapa no processo de elaborar e testar hipóteses.

• Previsão do comportamento de novos indivíduos.

Técnicas de clusterização:
introdução

Cliente Carne Carboidratos


Preferência alimentar Alexandre 172 224
ingestão no almoço por tipo
Antônia 120 108
de alimento, em gramas Cláudia 244 28
Equinócio 112 96
Agrupar pessoas
Filipeto 256 76
com preferências similares
Franco 228 152
Gordon 184 128
Roberval 260 20
Ítalo 180 160
Joana 244 56
Maria 164 20
Solstícia 120 8
Tiago 188 16

Métodos Matriciais e Análise de Clusters


34

Técnicas de clusterização:
introdução

Scatterplot of Carne vs Carboidratos


Roberval
260 Filipeto
Cláudia Joana
240
Franco
220

200
Tiago
Gordon
Carne

Ítalo
180 Alexandre
Maria
160

140
Solstícia Antônia
120
Equinócio
100
0 50 100 150 200 250
Carboidratos

Técnicas de clusterização:
introdução

396,99

264,66
Distance

132,33

0,00
Equinócio

Roberval
Solstícia
Gordon

Tiago
Franco

Ítalo

Filipeto
Alexandre

Antônia

Maria

Cláudia

Joana

Ward linkage; Euclidean distance

Métodos Matriciais e Análise de Clusters


35

Técnicas de clusterização:
introdução

Cliente Carne Carboidratos Verduras Doces


Alexandre 172 224 24 192
Antônia 120 108 25 200
Cláudia 244 28 23 184
Equinócio 112 96 6 48
Filipeto 256 76 21 168
Franco 228 152 24 192
Gordon 184 128 3 24
Roberval 260 20 5 40
Ítalo 180 160 23 184
Joana 244 56 6 48
Maria 164 20 1 8
Solstícia 120 8 21 168
Tiago 188 16 1 8

Técnicas de clusterização:
introdução

644,67

429,78
Distance

214,89

0,00
Equinócio

Roberval
Solstícia

Gordon

Tiago
Franco

Ítalo

Filipeto
Alexandre

Antônia

Cláudia

Joana

Maria

Métodos Matriciais e Análise de Clusters


36

Técnicas de clusterização: roteiro

1. Definir objetivos do estudo


2. Selecionar observações a serem agrupadas
3. Identificar variáveis (drivers e discriminadoras)
4. Coletar os dados
5. Analisar e tratar os dados
• Outliers
• Missing values
• Transformação de variáveis
• Correlações entre variáveis , etc.
6. Selecionar critério(s) de parecença
7. Selecionar e aplicar algoritmo(s) de agrupamento
8. Identificar, analisar (interpretar) os agrupamentos
9. Validar resultados

Técnicas de clusterização: roteiro

1. Definir objetivos do estudo

A primeira dificuldade é saber qual ou quais são os objetivos que se


espera alcançar ao agrupar os indivíduos. Apesar de esta questão
parecer simples e óbvia, muitos estudos acabam sendo interrompidos
ou inutilizados, pois os objetivos não foram claramente definidos.

Por exemplo, pense na seguinte questão, aparentemente simples:


como você classificaria seus colegas de trabalho? Talvez a primeira
coisa que lhe venha à mente é classificá-los por departamento ou por
nível hierárquico. Mas será que essa é a melhor forma de agrupá-los
se o objetivo for organizar uma competição esportiva na empresa?
Provavelmente não, pois nem todos têm interesse pelos mesmos
esportes.

Métodos Matriciais e Análise de Clusters


37

Técnicas de clusterização: roteiro

2. Selecionar observações a serem agrupadas

Podemos desejar agrupar um conjunto de indivíduos, produtos,


empresas, países.... O esforço de agrupamento pode ser feito sobre
uma amostra ou uma população.

Técnicas de clusterização: roteiro

3. Identificar variáveis (drivers e discriminadoras)

Variáveis chamadas de drivers são aquelas efetivamente utilizadas


para definir os agrupamentos.

A seleção das variáveis a partir das quais se classificarão os indivíduos


depende dos objetivos do estudo. Por exemplo, para agrupar empresas
de acordo com seu desempenho financeiro, devemos determinar quais
os índices através dos quais compararemos as diferentes empresas. No
entanto, como desempenho financeiro é um conceito amplo, o analista
deverá caracterizar melhor o que se espera do estudo para proceder à
correta seleção de variáveis.

Métodos Matriciais e Análise de Clusters


38

Técnicas de clusterização: roteiro

3. Identificar variáveis (drivers e discriminadoras)

A omissão de uma variável importante ou a inclusão de uma variável


que não atenda aos objetivos do problema pode alterar a classificação
obtida e conduzir a hipóteses ou conclusões errôneas a respeito dos
indivíduos considerados.

Em geral um número reduzido e bem selecionado de variáveis


conduzirá a soluções interessantes de interpretação e avaliação mais
fácil.

Variáveis discriminadoras são aquelas utilizadas para caracterizar e


descrever os grupos obtidos.

Técnicas de clusterização: roteiro

4. Coletar os dados
5. Analisar e tratar os dados
• Outliers
• Missing values
• Transformação de variáveis
• correlações entre variáveis , etc.

Definidas as variáveis, coletamos os dados correspondentes para cada


observação do conjunto de observações a serem classificadas em
grupos. Como em todo projeto de análise multivariada a primeira tarefa
a realizar é a análise de cada uma dessas variáveis individualmente,
detectando inconsistências, outliers e missing values e tomando,
quando necessário, as devidas ações corretivas.

Métodos Matriciais e Análise de Clusters


39

Técnicas de clusterização: roteiro

• Transformação de variáveis

Em geral, ao agrupar observações, trabalhamos com medidas de


naturezas e de magnitudes distintas. Por exemplo, admita que
desejamos agrupar as empresas clientes de um banco utilizando as
variáveis seguintes:

· VAR1: Saldo médio na conta corrente (milhares de R$)


· VAR2: Faturamento no ano anterior (milhões de US$)
· VAR3: Tempo de conta (anos completos)
· VAR4: Utiliza o cartão empresarial (1:sim; 0:não)
· VAR5: Porte da empresa (A; B; C)

Como veremos adiante, medir as similaridades (ou distâncias) entre


essas empresas requer que calculemos expressões que mesclam os
valores das diferentes variáveis. Mas qual o sentido de somar moeda
com idade? Isto sem contar que as duas últimas variáveis são variáveis
qualitativas! Uma saída para contornar esta dificuldade é transformando
as variáveis em escalas compatíveis.

Técnicas de clusterização: roteiro


Transformação de variáveis

alternativa 1

x − xj Todas as variáveis Zj
zj = (j=1,...,p) terão mesma
sj variância. Isto pode ser
inconveniente.

alternativa 2 x j − min j
zj =
max j− min j

Todos os valores ficam entre 0 e 1.


Sugestão: retirar os outliers antes de fazer essa transformação.

•Existem muitas formas de transformar os dados.

•Transformação mais conveniente depende do problema em estudo.

Métodos Matriciais e Análise de Clusters


40

Técnicas de clusterização: roteiro


Transformação de variáveis

Exemplo: X1, X2 e X3 são quantidades (em milhares de R$) em três


aplicações financeiras distintas.

Cliente X1 X2 X3 Total
A 22 0 1 23
B 93 26 74 193
C 0 8 58 66
D 65 10 72 147
E 26 5 5 36
F 0 14 56 70
G 20 300 60 380
H 68 14 90 172
I 5 26 131 162
J 100 500 60 660
K 80 320 0 400
L 55 10 0 65

Técnicas de clusterização: roteiro


Transformação de variáveis
Exemplo de transformação
Dados transformados considerando a % investida em cada aplicação.

Cliente Z1 Z2 Z3
A 96 0 4
B 48 13 38
C 0 12 88
D 44 7 49
E 72 14 14
F 0 20 80
G 5 79 16
H 40 8 52
I 3 16 81
J 17 76 9
K 20 80 0
L 85 15 0

Métodos Matriciais e Análise de Clusters


41

Técnicas de clusterização: roteiro

6. Selecionar critério(s) de parecença

Utilizamos o termo parecença para designar a similaridade ou diferença


entre os indivíduos a serem agrupados. Não há uma formalização do
que seja “parecença” entre dois indivíduos. Isto implica na existência de
um sem-número de formas de medi-la. Em geral, não é possível dizer
qual a forma mais adequada. A adoção de diferentes medidas de
similaridade pode conduzir a diferentes resultados.

O pesquisador deve, dentre as medidas que servem ao seu problema,


escolher a que lhe parecer mais conveniente. Uma alternativa é utilizar
diferentes medidas de similaridade e comparar os resultados obtidos.
Caso estes sejam semelhantes, é uma indicação da consistência dos
resultados obtidos.

Técnicas de clusterização: roteiro

6. Selecionar critério(s) de parecença

sij  semelhança entre indivíduo (i) e indivíduo (j)

dij  distância entre indivíduo (i) e indivíduo (j)

Transformação: dij = 1 – sij ou dij = 1 / sij

Variáveis quantitativas
Distância euclidiana
Distância “city-block” (Manhattan)
etc.

Variáveis qualitativas
Coeficiente de concordâncias simples
Coeficiente de Jaccard
etc.

Métodos Matriciais e Análise de Clusters


42

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

indivíduos X1 X2
X1 aplicação: poupança (R$1000)
A 150 1200
X2 aplicação: dólares (US$)
B 100 2000

Distância euclidiana: C 100 1500

d( A,B ) = (150 − 100 )2 + (1200 − 2000 )2 = 801.6


X1

d( A, C) = (150 − 100 )2 + (1200 − 1500 )2 = 304.1


200 A
100 B
d(B, C) = (100 − 100 )2 + ( 2000 − 1500 )2 = 500 .0
1000 2000 X2

Note que a distância é praticamente determinada por x2 !

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

X1 aplicação: poupança (R$1000) indivíduos X1 X2


X2 aplicação: dólares (US$) A 150 1200
B 100 2000
C 100 1500
Distância absoluta (city-block metric ou Manhattan distance):

Note que este critério


também depende da
escala em que
definimos as variáveis.

Métodos Matriciais e Análise de Clusters


43

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

X1 X2 X3 X4 X5 X6 X7 X8
A 0 1 1 1 0 1 1 0
B 0 0 1 0 0 1 1 1
concordâncias 5
Concordâncias Simples  S1 = = = 0.63
p 8
concordâncias(1 − 1) 3
Concordâncias positivas  S 2 = = = 0.38
p 8
concordâncias(1 − 1) 3
Coeficiente de Jaccard  S3 = = = 0.50
p −concordâncias (0 − 0) 6

Concordâncias “reais” (1-1)


+
Discordâncias “reais” (0-1 ou 1-0)

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

Transformação de variável quantitativa em 0 - 1


Cliente Compra ($) Z
A 55 1
B 21 0
C 28 0
D 85 1
E 63 1
Mediana das compras = $55
Perda de informação vs. Simplicidade

Alternativa :
• dividir em mais categorias (quartis, por exemplo)
• gerar dummies mantendo estrutura de ordem - slide seguinte

Métodos Matriciais e Análise de Clusters


44

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

Estado Civil X1 X2 X3 X4
k dummies quando
Solteiro 1 0 0 0
diferenciamos 1-1 de 0-0
Casado 0 1 0 0
(k-1) dummies quando
Separado 0 0 1 0
não diferenciamos 1-1 de 0-0
Viuvo 0 0 0 1

Qualitativa ordinal em (0-1)


Nível Educacional X1 X2 X3
Primário 1 0 0
Secundário 1 1 0
Superior 1 1 1

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

Como medir a distância entre grupos ?

Grupo B Ideias ?
Grupo A

Grupo C

Métodos Matriciais e Análise de Clusters


45

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença
Ligação pela média

B
A
D
C E

GRUPO 1 GRUPO 2

d( AB ) + d( AD ) + d( AE ) + d(CB ) + d(CD ) + d(CE )


d (1,2) =
6

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença
Ligação simples (vizinho mais próximo)

B
A
D
C E

GRUPO 1 GRUPO 2

d(1,2) = min [ d(AB), d(AD), d(AE), d(CB), d(CD), d(CE) ]

Métodos Matriciais e Análise de Clusters


46

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença

Ligação completa (vizinho mais distante)

B
A
D
C E

GRUPO 1 GRUPO 2

d(1,2) = max [ d(AB), d(AD), d(AE), d(CB), d(CD), d(CE) ]

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença
Ligação pelos centróides

A distância entre dois grupos pode ser medida pela distância entre
os centróides desses grupos. Se o cluster A é formado pelos
indivíduos ai (i=1,..., an) e o cluster B pelos indivíduos bj (j=1,...,bn),
os centróides de A e B são definidos por

E a distância entre A e B é definida pela distância euclidiana entre


CA e CB .

Métodos Matriciais e Análise de Clusters


47

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença
Ligação pelos centróides

A Soma de Quadrados dos Resíduos (SQRES ou SSW, sum of


squares within) para um agrupamento é dada pela soma dos
quadrados das distâncias de cada indivíduo do grupo ao centróide
desse grupo.

Técnicas de análise de agrupamento baseadas nessa medida


buscam realocar indivíduos entre grupos de forma a minimizar essa
soma de quadrados, o que é condizente com a ideia de buscar
maximizar a homogeneidade dentro do grupo.

Técnicas de clusterização: roteiro


6. Selecionar critério(s) de parecença
Ligação pelos centróides
A soma das distâncias ao quadrado de todos os indivíduos ao centróide da
amostra de n indivíduos é a soma de quadrados total, normalmente designada
por SQT. Resultado bastante conhecido, a SQT = SQB + SQW, onde SQB é a
soma de quadrados entre agrupamentos (B se deve ao termo inglês between).

Como SQT é constante para a amostra de n indivíduos, podemos concluir que


quanto menor SQW (e, portanto, maior SQE) menor a variação dentro dos grupos
e, portanto, eles são mais homogêneos. Por outro lado, quanto maior SQE, que é
função apenas dos centróides, os grupos serão mais distantes entre si.

Métodos Matriciais e Análise de Clusters


48

Técnicas de clusterização: roteiro

7. Selecionar e aplicar algoritmo(s) de agrupamento

Os métodos de análise de agrupamentos são regras para agrupar


indivíduos que, em geral, buscam atender a dois critérios:

• Grande homogeneidade “dentro” de cada agrupamento, ou seja, a


semelhança entre os indivíduos de um mesmo grupo deve ser a maior
possível.

• Heterogeneidade entre agrupamentos, ou seja, a distância entre


grupos deve ser a maior possível. Em outras palavras, buscam-se
agrupamentos que sejam muito diferentes entre si.

Técnicas de clusterização: roteiro

7. Selecionar e aplicar algoritmo(s) de agrupamento

Métodos Matriciais e Análise de Clusters


49

Técnicas de clusterização: roteiro

7. Selecionar e aplicar algoritmo(s) de agrupamento – tipos de métodos:

• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)

• Métodos de partição: K-means

Nos métodos hierárquicos aglomerativos os n indivíduos


definem inicialmente n grupos; a seguir os dois grupos mais
próximos são fundidos e, assim por diante, os grupos vão sendo
fundidos passo a passo até chegarmos a um único agrupamento
formado por todos os n indivíduos.

Técnicas de clusterização: roteiro

7. Selecionar e aplicar algoritmo(s) de agrupamento – tipos de métodos:

• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)

• Métodos de partição: K-means

Nos métodos hierárquicos divisivos, os n indivíduos definem


inicialmente um único grupo; a seguir esse grupo é dividido em
dois grupos; depois, cada um destes é dividido em outros dois
grupos e assim por diante até chegarmos a n grupos, cada um
formado por um único indivíduo.

Métodos Matriciais e Análise de Clusters


50

Técnicas de clusterização: roteiro

7. Selecionar e aplicar algoritmo(s) de agrupamento – tipos de métodos:

• Algoritmos hierárquicos
– Aglomerativos
– Divisivos (não faz parte deste curso)

• Métodos de partição: K-means

Nos métodos de partição formam-se grupos iniciais arbitrários e


os indivíduos vão sendo realocados entre grupos até que a
configuração obtida otimize um critério previamente definido de
homogeneidade interna e /ou heterogeneidade entre grupos.

Técnicas de clusterização: roteiro

8. Identificar, analisar (interpretar) os agrupamentos

Para entender, interpretar e validar os clusters obtidos é necessário descrever e


comparar o perfil de seus indivíduos.

Ao estudar as diferenças entre os grupos é melhor utilizar as variáveis em sua


forma original, ou seja, sem os valores padronizados. A utilização de gráficos
das distribuições, box-plots para variáveis quantitativas e diagramas de barras
para variáveis qualitativas ou quantitativas discretas com poucos valores
distintos é extremamente útil para analisar as diferenças entre os grupos.
Medidas descritivas de posição e dispersão também devem ser utilizadas.

A análise dos perfis permite em muitos casos que batizemos cada um dos
grupos obtidos de forma adequada. A identificação dos grupos através de
denominações apropriadas facilita a comunicação entre os usuários dos
resultados.

Métodos Matriciais e Análise de Clusters


51

Técnicas de clusterização: roteiro

9. Validar resultados

Quando agrupamos um conjunto de indivíduos esperamos obter uma solução que


seja lógica, ou seja, que possa ser interpretada dentro do contexto do problema
que estamos estudando. Essa interpretação requer a análise por parte de um
especialista no assunto. Por exemplo, se estamos classificando os clientes de um
banco em função da forma como aplicam seu dinheiro, o analista deverá
conhecer bem os produtos financeiros para poder interpretar a solução obtida. O
mesmo ocorre quando desejamos agrupar diferentes tipos de alimentos em
função de seus nutrientes. Dificilmente um analista sem profundos conhecimentos
de nutrição poderá interpretar os grupos obtidos e suas principais diferenças.

A validação de uma partição não deve ser confundida com a obtenção de grupos
que vão ao encontro das expectativas do analista. Um dos benefícios maiores da
Análise de Agrupamentos é a identificação de novas formas de classificar
indivíduos, permitindo gerar ou confirmar hipóteses acerca de seu
comportamento.

Técnicas de clusterização:
exemplo de ligação pela média

dij A B C D E

A 0.0

Matriz de B 2.0 0.0


distâncias C 4.0 10.0 0.0

D 6.0 8.0 2.0 0.0

E 8.0 6.0 4.0 1.0 0.0

Métodos Matriciais e Análise de Clusters


52

Técnicas de clusterização:
exemplo de ligação pela média

A B C DE
A 0.0
B 2.0 0.0
C 4.0 10.0 0.0
DE 7.0 7.0 3.0 0.0

AB C DE AB CDE

AB 0.0
AB 0.0
C 7.0 0.0
CDE 7.0 0.0
DE 7.0 3.0 0.0

Técnicas de clusterização: dendrograma

Dendrogram with Average Linkage

7,00

4,67
Distance

2,33

0,00
a b c d e
Observations

Métodos Matriciais e Análise de Clusters


53

Técnicas de clusterização:
exemplo completo

A empresa Straw S/A estuda o mercado para o StrawBerry – versão


avançada do Blackberry, próprio para uso profissional fora do escritório,
com design inovador. Além de pesar apenas 30 gramas, possui 3 mm de
espessura e é totalmente maleável. Pode ser tranquilamente colocado no
bolso traseiro da calça.

Straw S/A precisa identificar segmentos de mercado e escolher um ou mais


segmentos-alvo para seu produto, de forma a posicionar o produto no(s)
segmento(s) escolhido(s).

Técnicas de clusterização:
exemplo completo

Foi encomendada uma pesquisa de mercado. Somente foram considerados os


entrevistados que responderam, logo de início, terem já pensado na hipótese de
possuir uma solução semelhante ao StrawBerry.

Cada um dos entrevistados respondeu a sete questões.

Adaptação a partir de
LILIEN Gary L., RANGASWAMY, Arvind.
Marketing Engineering - Computer-Assisted Marketing Analysis and Planning.
Addison-Wesley, Inc. 1997

Métodos Matriciais e Análise de Clusters


54

Técnicas de clusterização:
exemplo completo
Variável Pergunta Como responder
Primeiro “Eu costumo ser um dos primeiros a adotar novas de 1 (discordo muito)
tecnologias.” a 7 (concordo muito)
Enviar Quão frequentemente você envia para os outros de 1 (nunca)
informações onde o tempo é relevante? a 7 (sempre)
Fora Que percentagem do seu tempo você gasta fora do seu de 1 (0%)
escritório? a 7 (70% ou mais)
Sem_fio Quão importante é comunicação sem fio para você? de 1 (nada importante)
a 7 (muito importante)
Compartilhar Quão importante é para você compartilhar informações de 1 (nada importante)
rapidamente com seus colegas enquanto está fora do seu a 7 (muito importante)
escritório?

Aluguel Quanto você estaria disposto em pagar mensalmente em R$


(aluguel) pelo produto?
Comprar Quanto você estaria disposto em pagar para comprar? em R$

Técnicas de clusterização: exemplo completo -


dendrograma

Métodos Matriciais e Análise de Clusters


55

Técnicas de clusterização:
exemplo completo

Análise das variáveis


• variáveis utilizadas para agrupar (drivers)
• outras variáveis (discriminadoras?)

Descrição das diferenças entre clusters


• Tabelas comparando estatísticas
• Box–plots
• Descrição verbal enfatizando diferenças

Métodos Matriciais e Análise de Clusters


56

Métodos Matriciais e Análise de Clusters


57

Métodos Matriciais e Análise de Clusters


58

Métodos Matriciais e Análise de Clusters


59

Métodos Matriciais e Análise de Clusters


60

Técnicas de clusterização:
exemplo completo

Descreva os quatro clusters.

Qual ou quais clusters deveriam ser alvo do


esforço de comunicação de marketing para
vender o StrawBerry ?

Métodos Matriciais e Análise de Clusters


61

Técnicas de clusterização:
exemplo completo
Alguém disse que a milhagem em um cartão de crédito emitido somente para
advogados pode ser uma boa variável discriminante para se determinar bons
prospects para oferecer o StrawBerry. Você concorda?

Grupo 4

Grupos 1, 2 e 3

Técnicas de clusterização:
Aplicação

Atividade em Sala

Lojas Grampers

Métodos Matriciais e Análise de Clusters


62

Técnicas de clusterização:
Aplicação
### Lojas Grampers
### Importe o banco de dados Lojas_Grampers.xlsx, disponível no ECLASS.

dados <- Lojas_Grampers


attach(dados)
View(dados)

# Item a, subitem i: padronizar as variáveis que servirão de drivers de segmentação

dados$zDESP_TRI <- (dados$DESP_TRI - mean(dados$DESP_TRI)) /(sd(dados$DESP_TRI))


dados$zFREQ_TRI <- (dados$FREQ_TRI - mean(dados$FREQ_TRI))/(sd(dados$FREQ_TRI))
dados$zITEM_TRI <- (dados$ITEM_TRI - mean(dados$ITEM_TRI))/(sd(dados$ITEM_TRI))

attach(dados)View(dados)

Técnicas de clusterização:
Aplicação

# Item a, subitem ii: inspecionando para possíveis outliers

summary(dados$zDESP_TRI)
summary(dados$zFREQ_TRI)
summary(dados$zITEM_TRI)

# Considerando outlier como |z| > 3, não há nenhum.

# Item a, subitem iii: matriz de correlações

a <- cbind.data.frame(dados$zDESP_TRI, dados$zFREQ_TRI, dados$zITEM_TRI)


View(a)
cor(a)

Métodos Matriciais e Análise de Clusters


63

Técnicas de clusterização:
Aplicação
# Item b

d <- dist(a, method = "euclidean")


fit <- hclust(d, method="average")
plot(fit) # imprime o dendrograma com ligação pela média

fit2 <- hclust(d, method="ward.D")


plot(fit2) # imprime o dendrograma com ligação WARD

# O dendrograma gerado pela ligação WARD é mais fácil de ser analisado.

# Item c

gruposWARD <- cutree(fit2, k=3) # "corta" o dendrograma em 3 grupos


rect.hclust(fit2, k=3, border="red")

dados <- cbind.data.frame(dados, gruposWARD)


View(dados)
attach(dados)

Técnicas de clusterização:
Aplicação
# Item d - caracterização dos clusters obtidos

library(dplyr)
library(ggplot2)

# Drivers da segmentação:

ggplot(dados, aes(x = factor(gruposWARD), y = DESP_TRI)) +


geom_boxplot()

ggplot(dados, aes(x = factor(gruposWARD), y = FREQ_TRI)) +


geom_boxplot()

ggplot(dados, aes(x = factor(gruposWARD), y = ITEM_TRI)) +


geom_boxplot()

Métodos Matriciais e Análise de Clusters


64

Técnicas de clusterização:
Aplicação
# Variáveis de caracterização: SEXO EST_CIVIL JORNAL IDADE

ggplot(dados, aes(x = factor(gruposWARD), fill = SEXO)) +


geom_bar(position="dodge") +
geom_text(aes(label = ..count..), stat = "count", vjust = -0.5,
position = position_dodge((1)))

ggplot(dados, aes(x = factor(gruposWARD), fill = EST_CIVIL)) +


geom_bar(position="dodge") +
geom_text(aes(label = ..count..), stat = "count", vjust = -0.5,
position = position_dodge((1)))

ggplot(dados, aes(x = factor(gruposWARD), fill = JORNAL)) +


geom_bar(position="dodge") +
geom_text(aes(label = ..count..), stat = "count", vjust = -0.5,
position = position_dodge((1)))

ggplot(dados, aes(x = factor(gruposWARD), y = IDADE)) +


geom_boxplot()

Técnicas de clusterização:
Aplicação
300

200
DESP_TRI

100
7.5
FR EQ _TR I

5.0
1 2 3
factor(gruposWARD)

6
2.5

1 2 3
factor(gruposWARD)
4
ITEM_TRI

1 2 3
factor(gruposWARD)

Métodos Matriciais e Análise de Clusters


65

Técnicas de clusterização:
Aplicação
15 8
15 8

6
6

10
5

EST_CIVIL
SEXO
4 4 4 CAS

count
count

F 4
7 SEP
M
SOLT
3 3 3
5 5 5
5

2
3

0 0

1 2 3 1 2 3
factor(gruposWARD) factor(gruposWARD)

15
15

80

10

60
JORNAL
count

IDADE
7 7 ABC
QWR

5
5
40

3 3

1 2 3
0 factor(gruposWARD)

1 2 3
factor(gruposWARD)

Técnicas de clusterização:
Aplicação

Variável Cluster 1 (n = 10) Cluster 2 (n = 18) Cluster 3 (n = 12)


Despesas médias baixa média alta
Frequência média alta baixa baixa
Num. Médio de itens baixo/médio baixo/médio médio
Idade Média de 58,6 anos Média de 32,7 anos Média de 39 anos
Sexo predominante - Masculino -
Est. Civil predominante - - -
Jornal predominante ABC QWR ambos
Gasto total (médio) - R$ 264,43 147,07 240,16
Batizar clusters Costumazes Ocasionais Gastadores eventuais

Clientes mais velhos que gastam


pouco por compra, mas que visitam a Predominantemente do sexo Clientes maduros de ambos os sexos,
loja com bastante frequência. Não masculino e jovens, esses clientes visitam a loja com baixa frequência,
Descrição costumam comprar muitos itens por visitam a loja com baixa frequência. mas por visita são os que mais
compra. São o grupo que mais gasta São os que menos gastam na loja, em gastam. Não há clareza quanto ao
na loja, em média. Preferem o jornal média. Preferem o jornal QWR. jornal preferido.
ABC.

Métodos Matriciais e Análise de Clusters


66

Técnicas de clusterização:
considerações finais
Não há nenhuma técnica que seja sempre superior!

Alguns estudos, tentando reproduzir estruturas de agrupamentos


conhecidas, concluíram pela recomendação de K-means, Ward e ligação
pela média. Não significa que são sempre melhores.

K-means busca a melhor partição. Permite realocar elementos entre


grupos. Métodos hierárquicos não permitem realocação.

Recomendação: rodar com diferentes técnicas e comparar resultados.


Entender o porquê das inconsistências.

Seleção da técnica tem maior influência no resultado que seleção do


critério de parecença.

Maior parte das técnicas é muito sensível a outliers. Recomendação:


removê-los ou suavizá-los.

Técnicas de clusterização:
considerações finais

Agrupar com diferentes distâncias e técnicas. Comparar


resultados. Verificar consistência.

Dividir amostra em duas partes. Rodar separadamente e comparar


resultados. Identificar eventuais inconsistências.

Eliminar algumas variáveis arbitrariamente e comparar os


diferentes resultados.

Métodos Matriciais e Análise de Clusters


67

OBRIGADO!

Métodos Matriciais e Análise de Clusters

Você também pode gostar