Analise Clusters2010

Análise de Clusters
Mestrado em Gestão
Análise de Dados para Negócios I
2009/2010
Andreia Dionísio
Cesaltina Pires
Sumário
1. Estatística Multivariada 7. Selecção do algoritmo
2. Análise de Clusters – 1. Métodos hierárquicos
definição e aplicações 2. Métodos não hierárquicos
3. Análise de clusters – ideias 3. Combinação dos 2
básicas métodos
4. Etapas na análise de clusters 8. Escolha do número de
5. Selecção das variáveis clusters
6. Selecção das medidas de 9. Interpretação e
semelhança/distância caracterização dos clusters
1. Medidas de correlação 10. Validação dos resultados
2. Medidas de distância 11. Análise de clusters no SPSS
3. Medidas de Associação – exemplo
1
1. Estatística Multivariada
A Estatística Multivariada incluí todas as técnicas estatísticas que

analisam simultaneamente duas ou mais variáveis para os indivíduos
ou objectos em análise.
• Análise factorial
• Análise de clusters
• Análise de variância multivariada
• Análise de correspondências
• Análise de regressão
• Análise discriminante
• Modelos de equações estruturais
Análise factorial
O objectivo da análise factorial é identificar a estrutura subjacente a
um conjunto de variáveis em análise. A ideia é representar ou
descrever as variá
variáveis iniciais a partir de um nú
número menor de
variá
variáveis hipoté
hipotéticas (os
( factores)) com a menor perda de informaç
informação
possí
possível.
– Pode ser vista como uma técnica exploratória para reduzir a
dimensão dos dados.
– Mas também pode ser usada como técnica confirmatória. Se a
teoria sugerir um certo número de factores subjacentes, podemos
usar a análise factorial para testar essa teoria.
– Em muitos campos da gestão há conceitos que são difíceis de
medir. Suponhamos que arranjamos várias formas de medir esse
conceito. Podemos testar se essas medidas definem 1 único factor
(consistência interna).
2
Análise factorial
Inquérito à satisfação dos trabalhadores com 30 perguntas acerca da satisfação em
relação a vários aspectos. Será que é possível identificar factores subjacentes à
satisfação dos trabalhadores?
Satisfação com as características do trabalho
Satisfação com o ambiente de trabalho
Satisfação com as recompensas
Um estudo para identificar grupos estratégicos continha 16 variáveis relacionadas
com as opções estratégicas das empresas e com os seus recursos. Obtiveram-se os
seguintes factores:
Tamanho e diversificação geográfica
Diferenciação em qualidade
Idade e experiência da empresa
Integração vertical
Muitas vezes os factores têm significado e podem corresponder a conceitos que não
podem ser medidos por uma única variável.
Análise discriminante
O objectivo da análise discriminante é descobrir as características que
distinguem dois ou mais grupos de indivíduos, de forma a que,
conhecidas as características de um novo indivíduo se possa prever a
que grupo pertence.
Depois de seleccionar as variáveis que se julga serem importantes

para discriminar os grupos identificam-se as funções discriminantes.
Estas funções são depois usadas para prever a que grupo é que
pertence um novo indivíduo.
Exemplo: um banco está interessado em identificar o que distingue o

grupo de clientes de risco elevado em termos de crédito do grupo com
risco de crédito baixo. Se conhecermos as características de um novo
cliente do banco é possível prever a que grupo é que ele pertence.
3
Análise discriminante
Rendimento Agregado Possui
da família familiar frigorífico
2500 1 Não
O Rendimento por si só não permite
3000 2 Não
distinguir o grupo das famílias que possui
4000 2 Sim
frigorífico das que não possui. O
4500 5 Sim
tamanho do agregado familiar também é
5000 4 Não variável discriminante.
5500 2 Sim
6000 4 Sim
7000 4 Sim Função discriminante
8500 2 Sim
10000 4 Sim
12000
10000
8000
Rendimento
6000
4000
2000
0
0 1 2 3 4 5 6
Agregado familiar
Análise de regressão
A teoria económica indica que muitos fenómenos podem ser
influenciados por diversos factores, daí a necessidade que o
modelo integre mais variáveis explicativas.
Yi = β 0 + β1 X 1i + β 2 X 2 i + β 3 X 3i + ... + β k X ki + ε i
A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de

regressão simples, ou seja :
-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas (ainda que nem
sempre faça sentido que certas variáveis tomem o valor zero);
-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma
unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados
de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis
explicativas, assumindo que todas as outras se mantêm constantes.
4
Análise de regressão
A teoria económica indica que muitos fenómenos podem ser
influenciados por diversos factores, daí a necessidade que o
modelo integre mais variáveis explicativas.
Yi = β 0 + β1 X 1i + β 2 X 2 i + β 3 X 3i + ... + β k X ki + ε i
A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de

regressão simples, ou seja :
-β₀ dá o valor de Y quando todas as variáveis explicativas são nulas (ainda que nem
sempre faça sentido que certas variáveis tomem o valor zero);
-os demais βj dão a sensibilidade de Y quando a respectiva variável explicativa varia uma
unidade, mantendo-se todas as outras constantes. Estes parâmetros são também designados
de parâmetros parciais, pois fornecem uma medida da influência de cada uma das variáveis
explicativas, assumindo que todas as outras se mantêm constantes.
Aná
- Originalmente usada na Biologia – classificação de organismos
Em que consiste?
Organizaç
Organização de um conjunto de indiví
indivíduos, para os quais é
conhecida informaç
informação detalhada, em grupos relativamente
homogé
homogéneos. Podem agrupar-
agrupar-se casos ou variá
variáveis.
Aplicaç
Aplicações
•Segmentação de mercados a partir de características
geográficas, demográficas e psicográficas dos consumidores;
•Identificação de mercados potenciais para determinados
produtos;
•Determinação de mercados idênticos em diferentes países;
•Encontrar grupos de consumidores que possam servir de
referência na previsão de vendas…
5
Aná
Dado um conjunto de n indiví
indivíduos, para os quais existe
informaç
informação sob a forma de p variá
variáveis a aná
análise de clusters
procede ao agrupamento dos indiví
indivíduos em funç
função da
informaç
informação existente, de tal modo que os indiví indivíduos
pertencentes a um mesmo grupo são tão semelhantes
quanto possí
possível e mais semelhantes entre si do que face a
elementos de outros grupos.
Quais os objectos de aná

análise:
1. Casos – semelhanças e utilização conjunta com análise
discriminante
2. Variáveis – semelhanças com análise factorial
Aná
Etapas
1. Selecção dos indivíduos ou amostra a serem agrupados –

Formulação do problema a estudar;
2. Definição das variáveis (informação para classificar e
agrupar os indivíduos);
3. Selecção das medidas de semelhança ou distância entre
cada 2 indivíduos;
4. Selecção do algoritmo de partição/classificação a usar;
5. Interpretação dos resultados;
6. Validação dos resultados obtidos.
6
1 - Definiç
Definição das variá
variáveis
Colocam-se
-se 22problemas:
Colocam-
Colocam problemas:
problemas
a)a) Qual
Qualooobjecto
objectodedeestudo?
estudo?HáHáque
queescolher
escolheras
asvariáveis
variáveismais
maissignificativas
significativas
para dar resposta ao problema colocado
para dar resposta ao problema colocado
b) Tipo
b) Tipode
devariáveis
variáveisaausar?
usar?Estão
Estãodefinidas
definidasem
emque
queescala?
escala?
AAescala
escaladiferente
diferentedas
dasvariáveis
variáveispode
podeoriginar
originarproblemas.
problemas.
x−µ
Possível Solução: Standartização Z= ≈ N ( 0,1)
σ
Podeser
Pode serproblemática
problemáticapois
poisreduz
reduzas
asdiferenças
diferençasentre
entreos
osindivíduos,
indivíduos,anulando
anulando
agrupamentos naturais que possam existir
agrupamentos naturais que possam existir
2 - Selecç
Selecção das medidas de semelhanç
semelhança ou distância
Os índices de semelhança/distância devem respeitar as propriedades das

medidas métricas:
1. Simetria
2. Desigualdade triangular
3. Diferenciabilidade de não idênticas
4. Indiferenciabilidade
As categorias:
Coeficiente de correlação
Medidas de distância Mais usadas na análise de clusters
Coeficiente de associação
Medidas de semelhança probabilística
7
2 - Selecç
Coeficiente de correlaç
correlação de Pearson
∑(x )( x )
p
iv − xi jv − xj
Rij = v =1
∑( )( )
p 2 2 Puramente linear
xiv − xi x jv − x j Não é métrica.
v =1
p n.º de variáveis
xiv variável v para o indivíduo i
2 - Selecç
Medidas de Distância
∑(x − x jv )
p
2
Distância Euclidiana dij = iv
v =1
dij 2 = ∑ ( xiv − x jv )
p
2
Distância Euclidiana ao Quadrado
v =1
p
Distância Absoluta ou City-Block Metric dij = ∑ xiv − x jv
v =1
1/ r
 p r

Distância de Minkowski dij =  ∑ xiv − x jv 
 v =1 
 
Distância de Chebischev dij = max xiv − x jv

v
8
2 - Selecç
Medidas de Associaç
Associação
Usadas para definir semelhança entre indivíduos caracterizados por variáveis
qualitativas do tipo boleano (binárias).
Indivíduo i
Indivíduo j 1 0 Totais
1 a b a+b
0 c d c+d
Totais a+c b+d p = a+b+c+d
“a” número de características que assumem valor 1 em ambos os indivíduos
Coeficientes de emparelhamento simples:

a+d b+c
sij = dij =
a+b+c+d a+b+c+d
3 - Selecç
Selecção do algoritmo
Processo de cluster
Não Hierárquico
Hierárquico
(K-Means)
Aglomerativo Divisivo Entrada sequencial Entrada paralela Optimização
Método do Centróide
Método da variância
Método de Ward’s
Mét . ligação em
cadeia (linkage)
Single Linkage
Complete Linkage
Average Linkage
9
3 - Selecç
Método hierá
hierárquico – envolve a construç
construção de uma hierarquia em
árvore e pode ser usado em casos ou em variá
variáveis
Método aglomerativo – o processo de clusters inicia-se com n grupos de

apenas 1 indivíduo que vão sendo agrupados até se encontrar um grupo que
inclui a totalidade dos indivíduos.
Método divisivo - o processo de clusters inicia-se com 1 grupo de n indivíduos

que vão sendo desagrupados até se encontrarem n grupos com 1 indivíduo.
3 - Selecç
No método aglomerativo, podemos optar por diversas abordagens:
Métodos de ligação em Cadeia (linkage)
Método do vizinho mais próximo ou single linkage ou nearest neighbor – dois grupos
são reagrupados num só de acordo com a distância mínima entre eles.
Método do vizinho mais afastado ou complete linkage ou furthest neighbor– inverso

ao anterior, em que é considerada a distância entre os elementos mais afastados.
10
3 - Selecç
Métodos de ligação em Cadeia (linkage)
Método da média de grupo ou average linkage between groups – o critério de

formação de grupo é a medida das distâncias entre todos os pares de indivíduos
constituídos por elementos dos 2 grupos.
3 - Selecç
Método do centróide – a distância entre dois grupos é determinada entre os seus

centróides. O centróide de um novo grupo é a combinação ponderada dos centróides dos
2 grupos separados. As ponderações são proporcionais às dimensões dos grupos.
O centróide é o valor médio da variável/caso num dado cluster.
Método da variância – trabalha com o critério de Ward. Neste calculam-se inicialmente

as médias das variáveis de cada grupo, em seguida calcula-se a distância euclidiana ao
quadrado. Seguidamente calculam-se as distâncias para todos os indivíduos e optimiza-se
a variância mínima dentro dos grupos.
11
3 - Selecç
Método não hierárquico (K-Means)– exige que antecipadamente se defina o
número de clusters que conterão todos os casos. Só pode ser usado para casos e
apresenta melhor robustez quando se têm grandes amostras (n>200).
A maior desvantagem consiste no facto de a selecção dos centros ser arbitrária.

Entrada sequencial – inicia-se seleccionando um centro de cluster que inclui todos os
indivíduos que estão à sua volta, depois selecciona-se outro centro de cluster… e assim
sucessivamente.
Um centro de cluster é um ponto inicial de partida do processo de formação de clusters
não hierárquico.
Entrada paralela – os centros dos clusters são determinados em simultâneo.
Optimização – Permite novas reafectações dos indivíduos aos clusters.
4 – Validaç
Validação dos resultados
Método hierárquico - deve utilizar-se o dendograma para determinar o número

adequado de clusters
Método não hierárquico (K-Means)– exige que antecipadamente se defina o

número de clusters que conterão todos os casos, o que é muito subjectivo. Um
método alternativo será a comparação gráfica do número de clusters com o
coeficiente de fusão (valor numérico de semelhança ou distância para o qual
vários casos se unem para formar um grupo) – cria-se o gráfico do cotovelo.
O problema do gráfico do cotovelo surge quando a representação gráfica mostra

apenas pequenos saltos e não existe maneira de avaliar graficamente o número
óptimo de clusters.
12
4 – Validaç
Validação dos resultados
Outras formas de validação:

•Repartir a amostra em 2 e comparar resultados
•Efectuar a análise de clusters com os mesmos dados e medir distâncias
diferentes na formação do cluster
•Usar métodos diferentes
•Apagar algumas variáveis aleatoriamente e efectuar a análise
•No método não hierárquico, o cluster pode depender da ordem dos dados. Pode
alterar-se a ordem das observações e verificar se há mudanças significativas nos
resultados.
As variáveis que contribuem significativamente para as diferenças entre os

clusters podem ser identificadas via análise discriminante.
Aná
Análise de Clusters no SPSS
Caso: Compras
Suponha-se que se pretende fazer análise de cluster e começar pelo
método hierárquico. Há que seleccionar “Hierarchical Cluster”
13
Aná
Clica-se em “Plots” e selecciona-se a opção Dendogram e Icicle, para
podermos ter acesso ao Dendograma e ao Icicle.
Aná
Entretanto, há que seleccionar a medida de distância ou semelhança a ter em conta.
O mais usual é escolher a medida Squared Euclidean Distance e o método da
média de grupo ou average linkage between groups.
Se houver
necessidade de
estandardizar
variáveis
14
Aná
O calendário de agregação fornece a informação sobre os objectos ou casos que
são combinados em cada estágio (etapa) do processo hierárquico de agregação.
Na primeira linha podemos ver que os casos 14 e 16 são combinados neste estágio.
A distância euclidiana ao quadrado entre eles é indicada na coluna Coefficients.
Agglomeration Schedule
Stage Cluster First

A coluna Stage Cluster
Cluster Combined Appears First Appears indica o
Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage
1 14 16 2,000 0 0 3 estágio em que um cluster
2 6 7 2,000 0 0 7
3 10 14 3,000 0 1 8
é formado pela primeira
4 2 13 3,000 0 0 14 vez. A coluna Nest Stage
5 5 11 3,000 0 0 9
6 3 8 3,000 0 0 15
indica o próximo estágio
7 6 12 4,000 2 0 10 em que o cluster actual é
8 4 10 4,333 0 3 11
9 5 9 4,500 5 0 12
combinado com outro.
10 1 6 5,000 0 7 13
11 4 19 7,250 8 0 17
12 5 20 7,333 9 0 14
13 1 17 8,250 10 0 15
14 2 5 10,750 4 12 18
15 1 3 11,300 13 6 16
16 1 15 14,000 15 0 19
17 4 18 20,200 11 0 18
18 2 4 38,611 14 17 19
19 1 2 48,292 16 18 0
Aná
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
14
16
10  3 clusters
4 
19 
18  
2
13     4 clusters
5  
11   
9   
20  
3 
8   
6 
7    
12  
1   
17  
15 
15
Aná
Depois podemos usar o coeficiente de determinação, através das tabelas ANOVA
para cada número de clusters.
5 clusters
ANOVA
Sum of
Squares df Mean Square F Sig.
C. é engraçado Between Groups 58,588 4 14,647 22,055 ,000
R52clusters = 0, 831
Within Groups 9,962 15 ,664
Total 68,550 19
C. é mau Between Groups 30,886 4 7,721 16,751 ,000
R 42clusters = 0, 804
Total 37,800 19
Comprar e comer Between Groups 69,488 4 17,372 34,921 ,000
Total 76,950 19
R32clusters = 0, 758
Comprar bem Between Groups 32,871 4 8,218 11,279 ,000
Total 43,800 19
Não me importo Between Groups 46,250 4 11,563 13,656 ,000
Within Groups
Total
12,700
58,950
15
19
,847
R 22clusters = 0, 475
Poupar comparando Between Groups 35,160 4 8,790 17,840 ,000
preços Within Groups 7,390 15 ,493
Total 42,550 19
Variação explicada Soma dos quadrados entre os grupos

R2 = =
Variação total Soma dos quadrados total
Aná
Para analisar os cluster, podemos utilizar uma tabela com esses dados.
16
Aná
Cluster Membership
Case 5 Clusters 4 Clusters 3 Clusters 2 Clusters

1 1 1 1 1 Obtém-se uma tabela que se
2 2 2 2 2 denomina “Cluster
3 1 1 1 1 Membership”.
4 3 3 3 2
5
Esta tabela indica o cluster a
2 2 2 2
6 1 1 1 1 que cada caso pertence.
7 1 1 1 1
8 1 1 1 1
9 2 2 2 2
10 3 3 3 2
11 2 2 2 2
12 1 1 1 1
13 2 2 2 2
14 3 3 3 2
15 4 1 1 1
16 3 3 3 2
17 1 1 1 1
18 5 4 3 2
19 3 3 3 2
20 2 2 2 2
Aná
Podemos usar o “gráfico do cotovelo”
N.º Coef
Clus Aglomer
ters ação 60,000
1 48,292
2 38,611 50,000
Coef aglomeração
3 20,200
4 14,000 40,000
5 11,300
6 10,750
30,000
7 8,250
20,000
8 7,333
9 7,250
10,000
10 5,000
11 4,500
0,000
12 4,333
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
13 4,000
N.º Clusters
14 3,000
15 3,000
16 3,000
17 3,000
18 2,000
19 2,000
3 ou 4 clusters
17
Aná
Método não hierárquico
Há que seleccionar a
técnica K-Means Cluster
Aná
Método não hierárquico Introduzir as variáveis
Seleccionar o
número de clusters
Definir o número de iterações, caso se tenha escolhido o Método

“Iterate and Classify”
18
Aná
Cluster Membership
Esta tabela mostra o cluster a que pertence
Case Number Cluster Distance
1 3 1,414 cada caso e a distância a que cada caso está
2 2 1,323 do centro do cluster.
3 3 2,550
4 1 1,404
5
O caso 18 é o mais afastado do centro do
2 1,848
6 3 1,225 cluster 1, sendo a distância de 3,455.
7 3 1,500
8 3 2,121
9 2 1,756
10 1 1,143
11 2 1,041
O caso 13 é o mais afastado do centro do
13 2 2,598
14 1 1,404
15 3 2,828
16 1 1,624 O caso 15 é o mais afastado do centro do
18 1 3,555
19 1 2,154
20 2 2,102
Aná
Final Cluster Centers
Cluster
1 2 3
C. é engraçado 4 2 6
C. é mau 6 3 4
Esta tabela fornece as médias
Comprar e comer 3 2 6 estandardizadas das variáveis para
Comprar bem 6 4 3 cada cluster. As médias de cada
Não me importo 4 6 2 cluster definem o centro do cluster.
Poupar comparando
6 3 4
preços
Distances between Final Cluster Centers
Cluster 1 2 3 Fornece as distâncias entre clusters.

1 5,568 5,698 Os clusters mais afastados entre si
2 5,568 6,928
3 5,698 6,928
são C2 e C3. os mais próximos são
C1 e C2.
19
Aná
Between Cluster Within Cluster
ANOVA
Cluster Error
Mean Square df Mean Square df F Sig.
C. é engraçado 29,108 2 ,608 17 47,888 ,000
C. é mau 13,546 2 ,630 17 21,505 ,000
Comprar e comer 31,392 2 ,833 17 37,670 ,000
Comprar bem 15,713 2 ,728 17 21,585 ,000
Não me importo 22,538 2 ,816 17 27,614 ,000
Poupar comparando
12,171 2 1,071 17 11,363 ,001
preços
The F tests should be used only for descriptive purposes because the clusters have been chosen to
maximize the differences among cases in different clusters. The observed significance levels are not
corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
A média da Variável 1 é a que mais se afasta ao longo dos 3 clusters, tendo o

maior valor da estatística F.
Aná
Esta tabela mostra o número de casos (indivíduos) existente em cada cluster
Number of Cases in each Cluster

Cluster 1 6,000
2 6,000
3 8,000
Valid 20,000
Missing ,000
20
Aná
Interpretação dos resultados
Pode usar-se a análise estatística em “Cross Tabs” onde em linha se têm as
variáveis e em coluna Cluster Membership.
Aná
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
C. é engraçado * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
C. é mau * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
Comprar e comer *
20 100,0% 0 ,0% 20 100,0%
Cluster Number of Case
Comprar bem * Cluster
20 100,0% 0 ,0% 20 100,0%
Number of Case
Não me importo *
20 100,0% 0 ,0% 20 100,0%
Poupar comparando
preços * Cluster Number 20 100,0% 0 ,0% 20 100,0%
of Case
21
Aná
C. é engraçado * Cluster Number of Case Crosstabulation

1 2 3 Total
C. é 1 Count 0 2 0 2
engraçado % within C. é engraçado ,0% 100,0% ,0% 100,0%
2 Count 0 4 0 4
% within C. é engraçado ,0% 100,0% ,0% 100,0%
3 Count 3 0 0 3
% within C. é engraçado 100,0% ,0% ,0% 100,0%
4 Count 3 0 1 4
% within C. é engraçado 75,0% ,0% 25,0% 100,0%
4
5 Count 0 0 2 2 respondentes
% within C. é engraçado ,0% ,0% 100,0% 100,0%
atribuíram a
6 Count 0 0 3 3
% within C. é engraçado ,0% ,0% 100,0% 100,0% classificação
7 Count 0 0 2 2 4 a esta
% within C. é engraçado ,0% ,0% 100,0% 100,0%
Total Count 6 6 8 20
variável
% within C. é engraçado 30,0% 30,0% 40,0% 100,0%
6 respondentes pertencem ao Cluster 1.
Aná
Quem atribuiu a classificação 1

e 2 ficou no cluster 2. os
respondentes que atribuíram a
classificação 3 e 4 ficaram no
cluster 1 e os restantes ficaram
no cluster 3.
22
Aná
Distance of Case from its Classification Cluster Center
Caso compras Este caso apresenta-se
muito afastado do

respectivo cluster e tudo

indica tratar-se do caso 18.
3,00000

2,00000

1,00000
1 2 3
Aná
C1 C2 C3
Comprar é engraçado X
Comprar é mau X
Comprar e comer X
Comprar bem X
Compras não têm X
importância
Poupar comparando X
preços
O Cluster 1 caracteriza-se por consumidores que consideram que fazer
compras é algo de mau para o orçamento, tentam fazer bem as suas
compras, comparando preços pois pretendem poupar.
O Cluster 2 caracteriza-se essencialmente por ter indivíduos que não dão
qualquer importância às compras
O Cluster 3 caracteriza-se por ter indivíduos para os quais as compras

são algo de engraçado e que procuram associar as compras com a acção
de comer.
23

Analise Clusters2010

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise Clusters2010

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Clusters

A Estatística Multivariada incluí todas as técnicas estatísticas que

Depois de seleccionar as variáveis que se julga serem importantes

Exemplo: um banco está interessado em identificar o que distingue o

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de

A interpretação dos parâmetros βj é semelhante à interpretação realizada na análise de

Quais os objectos de aná

1. Selecção dos indivíduos ou amostra a serem agrupados –

Os índices de semelhança/distância devem respeitar as propriedades das

Distância de Chebischev dij = max xiv − x jv

Coeficientes de emparelhamento simples:

Aglomerativo Divisivo Entrada sequencial Entrada paralela Optimização

Método aglomerativo – o processo de clusters inicia-se com n grupos de

Método divisivo - o processo de clusters inicia-se com 1 grupo de n indivíduos

Métodos de ligação em Cadeia (linkage)

Método do vizinho mais afastado ou complete linkage ou furthest neighbor– inverso

Métodos de ligação em Cadeia (linkage)

Método da média de grupo ou average linkage between groups – o critério de

Método do centróide – a distância entre dois grupos é determinada entre os seus

Método da variância – trabalha com o critério de Ward. Neste calculam-se inicialmente

A maior desvantagem consiste no facto de a selecção dos centros ser arbitrária.

Entrada paralela – os centros dos clusters são determinados em simultâneo.

Optimização – Permite novas reafectações dos indivíduos aos clusters.

Método hierárquico - deve utilizar-se o dendograma para determinar o número

Método não hierárquico (K-Means)– exige que antecipadamente se defina o

O problema do gráfico do cotovelo surge quando a representação gráfica mostra

Outras formas de validação:

As variáveis que contribuem significativamente para as diferenças entre os

Stage Cluster First

Rescaled Distance Cluster Combine

Variação explicada Soma dos quadrados entre os grupos

Case 5 Clusters 4 Clusters 3 Clusters 2 Clusters

Definir o número de iterações, caso se tenha escolhido o Método

Final Cluster Centers

Distances between Final Cluster Centers

Cluster 1 2 3 Fornece as distâncias entre clusters.

Between Cluster Within Cluster

A média da Variável 1 é a que mais se afasta ao longo dos 3 clusters, tendo o

Esta tabela mostra o número de casos (indivíduos) existente em cada cluster

Number of Cases in each Cluster

Case Processing Summary

Cluster Number of Case

6 respondentes pertencem ao Cluster 1.

Quem atribuiu a classificação 1

respectivo cluster e tudo

Cluster Number of Case

O Cluster 3 caracteriza-se por ter indivíduos para os quais as compras

Você também pode gostar