Você está na página 1de 41

Anlise de Dados

MEE, MEGI e MGRH


ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 1
Anlise de Dados Anlise de Dados
5. Anlise de 5. Anlise de clusters clusters
1. Segmentao de mercado
1.1. Conceito
1.2. Bases de segmentao
1.3. Mtodos de classificao
2. Anlise de clusters
2.1. Notas introdutrias
2.2. Mtodos hierrquicos
2.3. Mtodos no hierrquicos
3. Casos
3.1. Classificao de entidades
3.2. Classificao de variveis
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 2
Segmentao de mercado... Segmentao de mercado...
consists of viewing a heterogeneous market (one
characterized by divergent demand) as a number of
smaller homogeneous markets in response to differing
product preferences among important market segments
it is attributable to the desires of consumers or
users for more precise satisfaction of their varying
wants
Smith, 1956
Smith, Wendell R. (1956). Product Differentiation and Market
Segmentation as Alternative Marketing Strategies. The
Journal of Marketing, Vol. XXI (1): 3-8.
1
1. Segmentao de Mercado 1.1. Introduo 1.2.Bases 1.3. Mtodos . 2. Anlise de clusters 3. Casos
Segmentao de mercado... Segmentao de mercado...
a theoretical marketing concept partitioning a
market with heterogeneous demand into sub markets with
homogeneous demand, with the propose of a more precise
adjustment of brands, products, or services to
consumer needs, to determine the potentially most
profitable allocation of marketing efforts.
Wedel e Kamakura, 2000
dividing the market into distinct groups of buyers
with different needs, characteristics or behavior, who
might require separate products or marketing mixes.
Kotler,Amstrong, Saunders e Wong 2002
1. Segmentao de Mercado 1.1. Introduo 1.2.Bases 1.3. Mtodos . 2. Anlise de clusters 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 3
Segmentao de Mercado Segmentao de Mercado
Bases de
Segmentao
Mtodos de
Classificao
1. Segmentao de Mercado 1.1. Introduo 1.2.Bases 1.3. Mtodos . 2. Anlise de clusters 3. Casos
Bases de Segmentao Bases de Segmentao
Natureza da varivel
Gerais Especficas do produto
Observveis
Variveis geogrficas,
demogrficas e
socioeconmicas
Ocasies de uso, estatuto de
uso, fidelidade ( loja,
marca), processo de difuso e
processamento de informao
No
observveis
Variveis psicogrficas,
valores, personalidade e
estilo de vida
Benefcios, percepes,
elasticidades, preferncias,
intenes, psicogrficas
(especficas do produto)
1. Segmentao de Mercado 1.1. Introduo 1.2.Bases 1.3. Mtodos . 2. Anlise de clusters 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 4
Mtodos de Classificao Mtodos de Classificao
priori Post hoc
Descritivos
Tabelas cruzadas,
modelos log-lineares
Mtodos de classificao:
mtodos no sobrepostos,
mtodos sobrepostos e
mtodos difusos; modelos
mistura; redes neuronais
Preditivos
Regresso, modelos
logit/probit e anlise
discriminante
AID, CART, clusterwise
regression, redes
neuronais; modelos mistura
de regresso; anlise
conjunta; modelos
hierrquicos bayesianos
1. Segmentao de Mercado 1.1. Introduo 1.2.Bases 1.3. Mtodos . 2. Anlise de clusters 3. Casos
As tcnicas numricas para a derivao de classificaes
so originrias das cincias naturais (incio do sculo XX),
nomeadamente a zoologia e biologia, desenvolvidas com o
propsito de fornecer uma taxonomia de espcies animais
e plantas. Na segunda metade do sculo XX assistiu-se a
um acrscimo exponencial nos mtodos de classificao
divulgados na literatura especializada, fenmeno suportado
pela melhoria dos meios de clculo automtico disponveis.
Paralelamente, verificou-se uma expanso similar nas suas
reas de aplicao, sendo hoje abordagens populares em
vrios campos do conhecimento cientfico. Diferente, e por
vezes conflituosa, a terminologia empregue nas
diferentes disciplinas: Numerical Taxonomy, na Biologia, Q
Analysis, na Psicologia, Unsupervised Pattern Recognition,
na Inteligncia Artificial, sendo os termos Clumping e
Grouping tambm usados ocasionalmente. No entanto, o
termo genrico mais comum na literatura anglosaxnica
Cluster Analysis.
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 5
Anlise de Clusters Anlise de Clusters
Dado um conjunto de N objectos, caracterizados por
um conjunto de K variveis, derivar uma partio num
nmero de grupos ou segmentos que sejam
internamente homogneos e externamente
heterogneos.
Procedimento multivariado para a deteco de grupos
homogneos nos dados, podendo esses grupos ser
constitudos por variveis ou casos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Objectivos da Anlise de Objectivos da Anlise de
Clusters Clusters
Formao e descrio de taxonomias i.e.
classifcao de objectos
Simplificao dos dados
Agrupamento das observaes ou variveis
Identificao de relaes
Estudo de relaes entre os casos
Estudo de relaes entre variveis
Estudo das relaes entre os grupos formados e
outras variveis de interesse
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 6
Mtodos de Anlise de Clusters Mtodos de Anlise de Clusters
Sobreposto No Sobreposto Difuso
Mtodos de Agrupamento
( )

=
=

=
* k p
0 p 1 p
S
1 s
ns
ns ns
( )

=
=

=
S
1 s
ns
ns ns
1 p
0 p 1 p

=
1 p 0
1 p
ns
S
1 s
ns
* K (inteiro) define o grau de sobreposio (n de grupos a
que um objecto pode pertencer simultaneamente).
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Agrupamento no sobreposto Agrupamento sobreposto Agrupamento difuso
1 2 3 1 2 3 1 2 3
1 1 0 0 1 0 1 1 1 0.1 0.1 0.8
2 0 0 1 2 1 1 0 2 0.6 0.4 0.0
3 0 1 0 3 0 1 0 3 0.2 0.3 0.5
4 1 0 0 4 1 0 1 4 0.2 0.2 0.6
Objecto
Grupo Grupo
Objecto Objecto
Grupo
Estrutura da matriz de partio
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 7
FORMAS DOS GRUPOS
Anlise de Clusters Anlise de Clusters - - Fases Fases
Seleco dos objectos (amostra ou censo);
Definio de um conjunto de variveis a partir
das quais ser obtida a informao necessria
para o agrupamento dos objectos;
Escolha de um mtodo de agrupamento;
Validao dos resultados e interpretao da
soluo.
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 8
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 9
Mtodos de agrupamento no sobreposto Mtodos de agrupamento no sobreposto
Mtodos Hierrquicos Hierarchical Cluster
Mtodos Aglomerativos
Mtodos Divisivos
Mtodos No Hierrquicos K-means Cluster
Mtodos bi-etpicos Two Step Cluster
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
SPSS SPSS
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 10
MTODOS MTODOS
HIERRQUICOS HIERRQUICOS
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Notas Gerais Notas Gerais
Dados
Variveis mtricas
Variveis binrias
Count data
Pressupostos
As medidas de distncia ou semelhana so adequadas
para os dados em anlise
Todas as variveis relevantes so includas na anlise
Os mtodos hierrquicos aplicam-se no
agrupamento de casos e de variveis
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 11
Medidas de semelhana e de Medidas de semelhana e de
distncia distncia
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
M
e
d
i
d
a
s

d
e

p
r
o
x
i
m
i
d
a
d
e
M
e
d
i
d
a
s

d
e

p
r
o
x
i
m
i
d
a
d
e
Os conceitos de semelhana e de
dissemelhana (proximidades)esto na base
do processo de construo de clusters.
Dois objectos pertencem ao mesmo clusters
se so semelhantes e pertencem a clusters
diferentes se so dissemelhantes.
A dissemelhana reflecte o grau de diferena,
afastamento ou divergncia entre dois objectos;
quanto mais distintos forem os objectos maior a
dissemelhana entre eles.
A semelhana mede o grau de parecena ou
proximidade entre dois objectos; quanto mais
parecidos dois objectos maior a semelhana
entre eles.
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 12
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13
n 1 0 1 1 1 0 1 1 1 1 0 1 0
m 1 1 0 0 1 0 1 1 0 1 1 0 0
1 0 1 0
objecto m 1 5 2 objecto m 1 a b
0 4 2 0 c d
objecto n objecto n
( )
1 2
13
2
nm
n=1
nm
nm
. Euclidiana = 2, 45
5
. de Jaccard s 0, 45
5 4 2
a+d 5 2
. de Cocordncia Simples s = 0, 7
a+b+c+d 5 4 2 2
nk mk
Dist x x
a
Coef
a b c
Coef
(
=
(

= = =
+ + + +
+
= =
+ + +

1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 13
Coeficiente Descrio
Coeficiente de
correlao de
Pearson
( )( )
( ) ( )

=
=


K
1 k
2
m mk
2
n nk
K
1 k
m mk n nk
x x x x
x x x x

Medida de semelhana de fcil
interpretao geomtrica, insensvel s
diferenas de escala das variveis (j
que impe a sua normalizao) e muito
sensvel aos perfis dos dois objectos e
ao paralelismo desses perfis.
Distncia
Euclideana
( )

=
=
K
1 k
2
mk nk nm
x x d
A distncia entre dois casos a raiz
quadrada do somatrio dos quadrados
das diferenas entre valores de n e m
para todas as variveis.
Distncia
Euclideana ao
quadrado
( )

=
=
K
1 k
2
mk nk nm
x x d
A distncia entre dois casos definida
como o somatrio dos quadrados das
diferenas entre os valores das K
variveis para esses casos.
Distncia
City block

=
=
K
1 k
mk nk nm
x x d
A distncia entre dois elementos a
soma dos valores absolutos das
diferenas entre os valores das K
variveis para os dois casos.
Distncia de
Chebishev
mk nk
k
nm
x x max d =
A distncia entre dois casos o valor
mximo para todas as variveis, das
diferenas entre esses dois objectos.
Distncia de
Mahalanobis
( ) ( )
m n
1 '
m n nm
x x x x d =


Considera a matriz de varincia e co-
varincia no clculo da distncia
entre dois objectos, sendo adequada
quando as variveis apresentam
unidades de medida distintas e
disperses elevadas ou so fortemente
correlacionadas.

1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 14
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Normalizao das variveis
A standardizao justificada
principalmente por trs razes:
As variveis so medidas em unidades
diferentes
As variveis tm varincias muito diferentes
As variveis so de diferentes tipos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 15
Variveis Variveis Variveis Variveis
Originais Originais Originais Originais
Variveis Variveis Variveis Variveis
Normalizadas Normalizadas Normalizadas Normalizadas
1596, 52 1938, 06
1763, 97

=
Concelho Varivel
% Populao
residente
activa na
agricultura
Densidade
populacional
% Populao residente
em lugares com mais
de 100000 habitantes
Espinho -0,506 -0,19 0,14
Gondomar -0,519 -0,39 0,96
Maia -0,438 -0,28 0,80
Matosinhos -0,422 0,43 0,14
Porto -0,605 2,49 1,57
Pvoa de Varzim 0,855 -0,66 -0,84
Valongo -0,524 -0,46 -1,30
Vila do Conde 0,664 -0,82 -1,23
Vila Nova de Gaia -0,505 -0,13 -0,24
Concelho Varivel
% Populao residente
activa empregada na
agricultura
Densidade
populacional
% Populao residente em
lugares com mais de 100000
habitantes
Espinho (E) 0,68 1596,52 66,75
Gondomar (G) 0,63 1248,54 85,81
Maia (M) 0,91 1443,17 81,99
Matosinhos (MT) 0,97 2698,04 66,73
Porto (P) 0,33 6337,42 100,00
Pvoa de Varzim (PV) 0,89 773,47 43,82
Valongo (V) 0,61 1134,36 33,12
Vila do Conde (VC) 0,23 499,20 34,59
Vila Nova de Gaia (VNG) 0,68 1711,81 57,77
Mdia 1938,06
Desvio-padro 1763,97
E G M MT P PV V VC VG
E 0
G 0,839 0
M 0,661 0,213 0
MT 0,630 1,162 0,965 0
P 3,042 2,949 2,884 2,513 0
PV 2,599 2,989 2,840 2,708 4,666 0
V 1,462 2,255 2,099 1,692 4,110 2,431 0
VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0
MATRIZ DE
DISTNCIAS
EUCLIDIANAS
Concelho Varivel
% Populao
residente
activa na
agricultura
Densidade
populacional
% Populao residente
em lugares com mais
de 100000 habitantes
Espinho -0,506 -0,19 0,14
Gondomar -0,519 -0,39 0,96
Maia -0,438 -0,28 0,80
Matosinhos -0,422 0,43 0,14
Porto -0,605 2,49 1,57
Pvoa de Varzim 1,855 -0,66 -0,84
Valongo -0,524 -0,46 -1,30
Vila do Conde 1,664 -0,82 -1,23
Vila Nova de Gaia -0,505 -0,13 -0,24
VARIVEIS
NORMALIZADAS
( ) ( ) ( )
2 2 2
0, 506 0, 519 0,19 0, 39 0,14 0, 96 + + + +
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 16

Presenas Ausncias
Presenas a b
Ausncias c d
Objecto m Objecto m Objecto m Objecto m
Objecto n Objecto n Objecto n Objecto n
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Coeficiente Descrio
Jaccard
c b a
a
+ +

Medida de semelhana em que as
ausncias simultneas so excludas e as
presenas simultneas tm peso idntico
s restantes situaes.
Czesanowski
c b a 2
a 2
+ +

Medida de semelhana onde as ausncias
simultneas so excludas e as presenas
simultneas tm peso duplo.
Sokal e
Sneath 1
( )
c b d 2 a 2
d a 2
+ + +
+

Medida de semelhana que atribui um
peso duplo s presenas e ausncias
simultneas.
Sokal e
Sneath 2
c 2 b 2 a
a
+ +

Medida de semelhana que atribui um
peso duplo s caractersticas discordantes
e exclui as ausncias simultneas.
Russel e Rao
d c b a
a
+ + +

Medida de semelhana com valor mnimo 0
e sem limite superior.
Hamann
d c b a
c b d a
+ + +
+

Medida de semelhana que corresponde
diferena entre a probabilidade de uma
caracterstica ter igual valor nos objectos
(estar presente ou ausente em ambos) e a
probabilidade de ter diferentes valores nos
dois objectos; varia entre 1 e 1.
Rogers e
Tanimoto
d 2 c 2 b a
d a
+ + +
+

Medida de semelhana que inclui as
ausncias simultneas e atribui peso duplo
s situaes discordantes.
Q de Yule
bc ad
bc ad
+


Medida de semelhana funo do rcio
cruzado de uma tabela 2 2 ; varia entre
1 e 1.
Kulczynski
c b
a
+

Quociente entre presenas simultneas e
situaes discordantes, excluso das
ausncias simultneas; medida de
semelhana com valor mnimo 0 e sem
limite superior.
Phi
( )( )( )( ) d b c a d c b a
bc ad
+ + + +


Varia entre 0 e 1 e equivalente ao
coeficiente de Pearson para variveis
binrias.

( ) ( ) a d a b c d + + + +
Simple Matching
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 17
Estrutura de um algoritmo aglomerativo Estrutura de um algoritmo aglomerativo
INICIAO
Grupos S
1
, S
2
,..., S
n
, cada um contendo apenas um objecto.
ITERAO
(1) Procurar o par mais prximo de classes (S
s
e S
t
);
(2) Unir S
t
a S
s
;
(3) Eliminar S
t
e diminuir o nmero de grupos em 1;
(4) Calcular a distncia dos grupos formados aos restantes objectos;
CRITRIO DE PARAGEM
Se o nmero de grupos igual a 1, parar; se no, realizar uma iterao.
Tree Diagram for 7 Cases
Single Linkage
Euclidean distances
Linkage D
istance
0,5
1,0
1,5
2,0
2,5
3,0
3,5
E G F D C B A
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Agrupamento hierrquico: Agrupamento hierrquico:
mtodos mtodos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 18
Algoritmo
(Referncia)
Conceito de distncia
Critrio do vizinho mais prximo Single-linkage/
Nearest neighbor
(FLOREK et al. 1951, SNEATH 1957)
Menor distncia entre dois elementos de dois
segmentos.
Critrio do vizinho mais afastado Complete-
linkage furthest neighbor
(MCQUITTY 1960)
Maior distncia entre dois elementos de dois
segmentos.
Distncia mdia entre clusters Average linkage
between groups
Aps formado o primeiro grupo, a distncia deste aos
restantes objectos a mdia das distncias de cada um
dos elementos contituintes deste grupo a cada um dos
restantes elementos..
Distncia mdia dentro do grupos Average linkage
between groups
Os grupos so unidos de forma a que a soma de
quadrados dos erros (variabilidade dentro dos grupos)
seja a menor possvel
Critrio da soma de quadrados incremental
Incremental sum of squares / Wards method
(WARD 1963)
Acrscimo mnimo na soma dos quadrados dos desvios
das observaes individuais relativamente s mdias
dos grupos em que so classificadas.
Critrio do centride Centroid/ Centroid
clustering
(SOKAL e MICHENER 1958, GOWER 1967)
Distncia entre os centros dos grupos (mdia das
variveis para os membros desse grupo).
Critrio da mediana Median/ Median clustering
(LANCE e WILLIAMS 1966, GOWER 1967)
Distncia entre as medianas das variveis nos
segmentos.
E G M MT P PV V VC VG
E 0
G 0,839 0
M 0,661 0,213 0
MT 0,630 1,162 0,965 0
P 3,042 2,949 2,884 2,513 0
PV 2,599 2,989 2,840 2,708 4,666 0
V 1,462 2,255 2,099 1,692 4,110 2,431 0
VC 2,644 3,122 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,228 1,049 0,683 3,186 2,492 1,104 2,482 0
MATRIZ DE DISTNCIAS EUCLIDIANAS
ITERAO 1
{ }
.
min : , 0, 213
nm nm G M
d d n m d = = =
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
. . .
. . .
. . .
. . .
. . .
min ; min 0, 839; 0, 661 0, 661
min ; min 1,162; 0, 965 0, 965
min ; min 2, 949; 2, 884 2, 884
min ; min 2, 989; 2, 840 2, 840
min ; min 2, 255; 2, 099 2, 09
G E M E G M E
G MT M MT G M MT
G P M P G M P
G PV M PV G M PV
G V M V G M V
d d d
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= = =
= = =
| |
( ) ( )
| |
( ) ( )
. . .
. . .
9
min ; min 3,122; 2, 969 2, 969
min ; min 1, 228;1, 049 1, 049
G VC M VC G M VC
G VG M VG G M VG
d d d
d d d
= = =
= = =
E [G.M] MT P PV V VC VG
E 0
[G.M] 0,661 0
MT 0,630 0,965 0
P 3,042 2,884 2,513 0
PV 2,599 2,840 2,708 4,666 0
V 1,462 2,099 1,692 4,110 2,431 0
VC 2,644 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0
D1 D1 D1 D1
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 19
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
.[ . ] .[ . ] . [ . ]
. . .
. . .
. . .
. .
min ; min 0, 661;1, 049 0, 661
min ; min 0, 630; 0, 683 0, 630
min ; min 3, 042; 3,186 3, 042
min ; min 2, 599; 2, 492 2, 492
min ;
E G M VG G M E VG G M
E MT VG MT E VG MT
E P VG P E VG P
E PV VG PV E VG PV
E V VG E VG V
d d d
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= = =
= ( ) ( )
| |
( ) ( )
.
. . .
min 1, 462;1,104 1,104
min ; min 2, 644; 2, 482 2, 482
V
E VC VG VC E VG VC
d d d
= =
= = =
E [G.M] MT P PV V VC VG
E 0
[G.M] 0,661 0
MT 0,630 0,965 0
P 3,042 2,884 2,513 0
PV 2,599 2,840 2,708 4,666 0
V 1,462 2,099 1,692 4,110 2,431 0
VC 2,644 2,969 2,792 4,892 0,465 2,219 0
VG 0,390 1,049 0,683 3,186 2,492 1,104 2,482 0
D1 D1 D1 D1
[E.VG] [G.M] MT P PV V VC
[E.VG] 0
[G.M] 0,661 0
MT 0,630 0,965 0
P 3,042 2,884 2,513 0
PV 2,492 2,840 2,708 4,666 0
V 1,104 2,099 1,692 4,110 2,431 0
VC 2,482 2,969 2,792 4,892 0,465 2,219 0
D2 D2 D2 D2
ITERAO 2
[E.VG] [G.M] MT P PV V VC
[E.VG] 0
[G.M] 0,661 0
MT 0,630 0,965 0
P 3,042 2,884 2,513 0
PV 2,492 2,840 2,708 4,666 0
V 1,104 2,099 1,692 4,110 2,431 0
VC 2,482 2,969 2,792 4,892 0,465 2,219 0
D2 D2 D2 D2
ITERAO 3
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
| |
( ) ( )
.[ . ] .[ . ] . .[ . ]
.[ . ] .[ . ] . .[ . ]
. . . .
. . . .
min ; min 2, 492; 2, 482 2, 482
min ; min 2, 840; 2, 969 2, 840
min ; min 2, 708; 2, 792 2, 708
min ; min 4, 666; 4, 892
PV E VG VC E VG PV VC E VG
PV G M VC G M PV VC G M
PV MT VC MT PV VC MT
PV P VC P PV VC P
d d d
d d d
d d d
d d d
= = =
= = =
= = =
= =
| |
( ) ( )
. . .
4, 666
min ; min 2, 431; 2, 219 2, 219
PV V VC V PV VC V
d d d
=
= = =
[E.VG] [G.M] MT P [PV.VC] V
[E.VG] 0
[G.M] 0,661 0
MT 0,630 0,965 0
P 3,042 2,884 2,513 0
[PV.VC] 2,482 2,840 2,708 4,666 0
V 1,104 2,099 1,692 4,110 2,219 0
D3 D3 D3 D3
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 20
D4 D4 D4 D4
[E.VG.MT] [G.M] P [PV.VC] V
[E.VG.MT] 0
[G.M] 0,661 0
P 2,513 2,884 0
[PV.VC] 2,482 2,840 4,666 0
V 1,104 2,099 4,110 2,219 0
[E.VG.MT.G.M] P [PV.VC] V
[E.VG.MT.G.M] 0
P 2,513 0
[PV.VC] 2,482 4,666 0
V 1,104 4,110 2,219 0
[E.VG.MT.G.M.V] P [PV.VC]
[E.VG.MT.G.M.V] 0
P 2,513 0
[PV.VC] 2,219 4,666 0
[E.VG.MT.G.M.V.PV.VC] P
[E.VG.MT.G.M.V.PV.VC] 0
P 2,219 0
D5 D5 D5 D5
D6 D6 D6 D6
D7 D7 D7 D7
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
L
i
n
k
a
g
e

D
i
s
t
a
n
c
e
0,0
0,5
1,0
1,5
2,0
2,5
3,0
P VC PV V M G MT VG E
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 21
L
i
n
k
a
g
e

D
i
s
t
a
n
c
e
0,0
0,5
1,0
1,5
2,0
2,5
3,0
P VC PV V M G MT VG E
N DE CLASSES
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Single linkage Single linkage (critrio do vizinho mais (critrio do vizinho mais
prximo) prximo)
Define como semelhana entre dois grupos a semelhana
mxima entre quaisquer dois casos pertencentes a esses
grupos
Dois grupos so reagrupados num s de acordo com a
distncia entre os seus casos mais prximos
Dados dois grupos (i,j) e k, a distncia entre dois a menor
das distncias entre os elementos dos dois grupos
( )
{ }
jk ik k j , i
d ; d min d =
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 22
Exemplo
A B C D E F G
Lealdade a lojas 3 4 4 2 8 7 6
Lealdade a marcas 2 5 7 8 6 9 9
Matriz de distncias euclideanas
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
Consumidores
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 7,616 4,472 2,828 4,123 3,162 -
A B-C D E F-G
A -
B-C 3,162 -
D 6,083 2,236 -
E 6,403 4,123 6,325 -
F-G 7,616 2,828 4,123 3,162 -
A B-C-D E F-G
A -
B-C-D 3,162 -
E 6,403 4,123 -
F-G 7,616 2,828 3,162 -
A B-C-D-F-G E
A -
B-C-D-F-G 3,162 -
E 6,403 3,162 -
A-B-C-D-F-G E
A-B-C-D-F-G -
E 3,162 -
Tree Diagram for 7 Cases
Single Linkage
Euclidean distances
L
in
k
a
g
e

D
is
t
a
n
c
e
0,5
1,0
1,5
2,0
2,5
3,0
3,5
E G F D C B A
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 23
Complete linkage Complete linkage (critrio do vizinho mais (critrio do vizinho mais
afastado) afastado)
A distncia entre dois grupos definida como sendo a
distncia entre os seus elementos mais afastados ou menos
semelhantes
( )
{ }
jk ik k j , i
d ; d max d =
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 8,062 5,000 3,606 5,099 3,606 -
A B-C D E F-G
A -
B-C 5,099 -
D 6,083 3,606 -
E 6,403 4,123 6,325 -
F-G 8,062 5,000 5,099 3,606 -
A B-C-D E F-G
A -
B-C-D 6,083 -
E 6,403 6,325 -
F-G 8,062 5,099 3,606 -
A B-C-D E-F-G
A -
B-C-D 6,083 -
E-F-G 8,062 6,325 -
A-B-C-D E-F-G
A-B-C-D -
E-F-G 8,062 -
Complete Linkage
Euclidean distances
L
in
k
a
g
e

D
is
t
a
n
c
e
0
1
2
3
4
5
6
7
8
9
G F E D C B A
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 24
Pair Pair- -group average group average (critrio da (critrio da
mdia dos grupos) mdia dos grupos)
Estratgia de agrupamento que define a distncia entre dois
grupos como sendo a mdia das distncias entre todos os
pares de indivduos constitudos por elementos dos dois
grupos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
A B C D E F G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F 8,062 5,000 3,606 5,099 3,162 -
G 7,616 4,472 2,828 4,123 3,606 1,000 -
A B C D E F-G
A -
B 3,162 -
C 5,099 2,000 -
D 6,083 3,606 2,236 -
E 6,403 4,123 4,123 6,325 -
F-G 7,839 4,736 3,217 4,611 3,384 -
A B-C D E F-G
A -
B-C 4,131 -
D 6,083 2,921 -
E 6,403 4,123 6,325 -
F-G 7,839 3,977 4,611 3,384 -
A B-C-D E F-G
A -
B-C-D 4,781 -
E 6,403 4,857 -
F-G 7,839 4,188 3,384 -
A B-C-D E-F-G
A -
B-C-D 4,781 -
E-F-G 7,360 4,411 -
A B-C-D-E-F-G
A -
B-C-D-E-F-G 6,071 -
Unweighted pair-group average
Euclidean distances
L
in
k
a
g
e

D
is
t
a
n
c
e
0
1
2
3
4
5
6
7
C_7 C_6 C_5 C_4 C_3 C_2 C_1
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 25
Critrio de Ward Critrio de Ward
Baseia-se na perda de informao resultante do
agrupamento dos indivduos medida atravs da
soma dos quadrados dos desvios das observaes
individuais relativamente s mdias dos grupos em
que so classificadas
Etapas:
Calculo das mdias das variveis para cada grupo
Calculo do quadrado da distncia euclidiana entre essas
mdias e os valores das variveis para cada indivduo
Soma das distncias para todos os indivduos
Optimizao da varincia mnima dentro dos grupos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Centroid/Median linkage
Complete linkage
Single linkage
Algoritmos Aglomerativos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 26
Seleco do nmero de Seleco do nmero de
grupos grupos
Quando utilizado um mtodo de agrupamento hierrquico
surge o problema de determinao do nvel de proximidade para
o corte da rvore de agrupamento, por forma a obter o nmero
de grupos ptimo. Neste contexto, so frequentemente utilizadas
duas abordagens:
- Inspeco visual do dendograma, procurando a identificao de
ramos relativamente densos e perfeitamente distinguveis entre
si;
- Comparao grfica do coeficiente de fuso (valor numrico
para o qual vrios indivduos ou grupos se unem para formar
uma nova classe) com o nmero de grupos; a escolha ptima
para o nmero de grupos coincidir com uma marcada
horizontalidade na curva.
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Mtodos de Agrupamento No Hierrquico Mtodos de Agrupamento No Hierrquico
Disperso intra-grupo
Disperso inter-grupo
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 27
Estrutura de um algoritmo de Estrutura de um algoritmo de
agrupamento no hierrquico agrupamento no hierrquico
(1) Procurar uma partio inicial dos objectos em S grupos.
(2) Calcular as alteraes no critrio de agrupamento produzidas
pelo movimento de cada objecto do seu grupo actual para outro.
(3) Efectuar as alteraes que conduzam ao melhor valor do
critrio de agrupamento.
(4) Repetir os passos (2) e (3) at que nenhum movimento de um
objecto provoque uma melhoria no critrio de agrupamento.
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
1. Segmentao de Mercado 2. Anlise de clusters 2.1. Introduo 2.2. Mtodos Hierrquicos 2.3. Mtodos No Hierrquicos 3. Casos
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 28
Exemplo 1 Exemplo 1
Classificao de
Aeroportos
INFORMAO DA BASE INFORMAO DA BASE
Rede Aeroporturia:
39 aeroportos ibricos: 36 em territrio
espanhol e 3 em territrio portugus
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S
#S#S
#S
#S
#S
#S
#S
#S
#S #S #S
#S #S
#S
#S
#S
#S
#S
#S
#S
#S
#S
FARO
LEON
REUS
VIGO
IBIZA
JEREZ
PORTO
BILBAO
GIRONA
LISBOA
MALAGA
MURCIA
ALMERI A
BADAJOZ
GRANADA
MELILLA
MENORCA
SEVILLA
VITORIA
ALICANTE
ASTURIAS
LA PALMA
PAMPLONA SANTIAGO
VALENCIA
ZARAGOZA
A CORUNHA
BARCELONA
L HIERRO
LANZAROTE
SALAMANCA
VALLADOLID
GRAN CANARI A
FUERTEVENTURA
MADRID BARAJAS
MADRID TORREJON
NB: Em Portugal no foram considerados os
aeroportos insulares, por dificuldade de
obteno da informao
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 29
Atributos recolhidos para cada aeroporto
Trfego de passageiros
Trfego de passageiros internacionais
N Destinos Ibricos (frequncia Mdia superior a 2
movimentos/semana)
N Destinos No Ibricos (frequncia Mdia superior
a 2 movimentos/semana)
Comprimento da Pista
Taxa de Crescimento Mdia 1992-1999
N Companhias (mais do que uma ligao
semanal)
Trfego de Carga
Trfego Mximo Mensal
Trfego Mnimo Mensal
(Todos os dados se referem a 1999)
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 30
Cdigo Varivel Mdia Mnimo Mximo
Desvio-
Padro
GINTER
Relao Passageiros Internacionais/
Passageiros
0.405 0.000 0.992 0.347
NDPEN
N Destinos na Pennsula com Freq. Mdia
Sup. a 2 movimentos/semana*
8 0 35 8
DFPEN
N Destinos Fora da Pennsula com Freq.
Mdia Sup. a 2 movimentos/semana*
22 0 94 28
C
r
e
s
c
i
m
e
n
t
o
TAXCESC Taxa Crescimento Mdia Anual (%) 6.222 -7.090 29.780 5.700
PASST Trfego Anual de Passageiros 3661252 15634 27699324 5936070
PISTA Comprimento da Pista (m) 2695 1080 4100 673
NCOMPN
N de Companhias com Freq. Mdia Sup. a 2
Movimentos/Semana
23 0 80 24
CARGA Carga Movimentada (ton) 18716 0 294398 50324
S
a
z
o
n
a
l
i
d
a
d
e
SAZON
Ratio trafego max mensal 99/trafego min
mensal 99
0.447 0.126 1.901 0.397
G
r
a
u

d
e

I
n
t
e
r
n
a
c
i
o
n
a
l
i
z
a

o
D
i
m
e
n
s

o
* por cidade
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
D
i
s
t

n
c
i
a
0
5
10
15
20
25
30





M
A
D





L
I
S





A
G
P





T
F
S





L
P
A





P
M
I





B
C
N





R
E
U





B
J
Z





G
R
O





M
A
H





I
B
Z





F
A
O





M
J
V





X
R
Y





L
E
I





A
C
E





F
U
E





O
P
O





A
L
C





Z
A
Z





T
F
N





V
I
T





S
V
Q





V
L
C





S
C
Q





B
I
O





S
D
R





V
L
L





G
R
X





S
P
C





V
G
O





O
V
D





M
L
N





V
D
E





S
L
M





P
N
A





E
A
S





L
C
G
Dendograma segundo o Mtodo de Agrupamento de Ward
3 Grupos de Aeroportos
Cluster Membership
1
2
2
1
2
3
1
1
2
2
2
3
1
2
2
1
2
3
3
3
1
2
2
3
1
2
2
1
1
1
1
1
1
3
1
1
1
1
1
Case
1:LCG
2:ALC
3:LEI
4:OVD
5:BJZ
6:BCN
7:BIO
8:VDE
9:FAO
10:FUE
11:GRO
12:LPA
13:GRX
14:IBZ
15:XRY
16:SPC
17:ACE
18:LIS
19:MAD
20:AGP
21:MLN
22:MAH
23:MJV
24:PMI
25:PNA
26:OPO
27:REU
28:SLM
29:EAS
30:SDR
31:SCQ
32:SVQ
33:TFN
34:TFS
35:VLC
36:VLL
37:VGO
38:VIT
39:ZAZ
3 Clusters
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 31
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Indica os casos que so unidos em cada
passo da anlise de clusters
- os casos 8 e 21 so agrupados no passo 1
- os casos 4 e 37 so agrupados no passo 2
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Quando grupos os casos so unidos, recebem
um label com o menor valor dos membros
do grupo.
- por exemplo o grupo formado pelos casos
4 e 37 foi unido ao caso 16.
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 32
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
- Indica a distncia
entre dois grupos (ou
casos) que so unidos em
cada passo
- Os valores destes
coeficientes dependem da
medida de proximidade e do
mtodo aglomerativo usado
na anlise.
Etapa Coeficiente Variao
1 0,17344754
2 0,40019944 131%
3 0,66911419 67%
4 0,96953072 45%
5 1,30824669 35%
6 1,69433937 30%
7 2,11521677 25%
8 2,58404534 22%
9 3,05684994 18%
10 3,54929663 16%
27 19,7884748 9%
28 21,9734411 11%
29 24,2861574 11%
30 26,6844578 10%
31 29,2697334 10%
32 32,1721799 10%
33 35,1883892 9%
34 38,5818199 10%
35 42,9115011 11%
36 47,5195781 11%
37 56,6309901 19%
38 71,5821704 26%
0
10
20
30
40
50
60
70
80
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37
Passo
C
o
e
f
i
c
i
e
n
t
e

d
e

f
u
s

o
1. Numa boa soluo de
agrupamento verifica-se
um salto no
coeficiente de fuso.
2. O passo antes desse
salto indica o ponto
de paragem
Aps o passo 36 existem
3 grupos.
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 33
Agglomeration Schedule
8 21 ,173 0 0 29
4 37 ,400 0 0 13
25 28 ,669 0 0 20
13 36 ,970 0 0 12
1 29 1,308 0 0 20
15 23 1,694 0 0 9
7 31 2,115 0 0 16
32 38 2,584 0 0 26
3 15 3,057 0 6 30
10 17 3,549 0 0 23
12 34 4,090 0 0 18
13 30 4,641 4 0 21
4 16 5,234 2 0 21
33 39 5,857 0 0 26
14 22 6,496 0 0 19
7 35 7,162 7 0 27
2 26 7,882 0 0 23
12 20 8,644 11 0 24
9 14 9,489 0 15 25
1 25 10,557 5 3 29
4 13 11,643 13 12 27
6 24 12,765 0 0 28
2 10 14,001 17 10 31
12 18 15,286 18 0 28
9 11 16,658 19 0 30
32 33 18,094 8 14 35
4 7 19,788 21 16 32
6 12 21,973 22 24 36
1 8 24,286 20 1 32
3 9 26,684 9 25 31
2 3 29,270 23 30 34
1 4 32,172 29 27 35
5 27 35,188 0 0 34
2 5 38,582 31 33 37
1 32 42,912 32 26 37
6 19 47,520 28 0 38
1 2 56,631 35 34 38
1 6 71,582 37 36 0
Stage
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Cluster 1 Cluster 2
Cluster Combined
Coefficients Cluster 1 Cluster 2
Stage Cluster First
Appears
Next Stage
Indica o passo em que cada
grupo aparece em primeiro
lugar;
Quando se inicia a anlise
esistem casos isolados,
denotados por 0.
Mostra a etapa posterior em
que um novo grupo
formado.
No passo 12, o grupo 13 o
grupo que se formou no passo
4
No estado 12, o grupo que
se formou no passo 4
unido com outro grupo ou
caso
Mtodos No Mtodos No
Hierrquicos Hierrquicos
K-Means
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 34
Como as variveis esto definidas em escalas de
medida com amplitudes muito distintas,
necessria a sua normalizao.
ANALYSE
DESCRIPTIVE STATISTICS
DESCRIPRIVES
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
O grupo 2 isolou o aeroporto de Madrid,sugerindo
que este um outlier na amostra
Deve ser efectuado um agrupamento com 4 grupos
Number of Cases in each Cluster
12,000
1,000
26,000
39,000
,000
1
2
3
Cluster
Valid
Missing
Soluo Soluo
11
K K- -means com 3 means com 3
grupos grupos
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 35
Iteration History
a
2,291 2,347 ,000 2,418
,179 ,335 ,000 ,951
,178 ,233 ,000 ,784
,000 ,000 ,000 ,000
Iteration
1
2
3
4
1 2 3 4
Change in Cluster Centers
Convergence achieved due to no or small change in
cluster centers. The maximum absolute coordinate
change for any center is ,000. The current iteration is 4.
The minimum distance between initial centers is 6,000.
a.
Progresso da estimao em cada iterao
0,179
Em cada iterao, medida que
novos casos so reafectados em
grupos diferentes, os
centroides de cada grupo
alteram-se;
Cada nmero no quadro indica a
distncia do centroide numa
dada iterao do seu valor na
iterao anterior
Iterao 1 Iterao 2
Quando a variao nos centroides
suficientemente pequena para
todos os grupos, o algoritmo
alcana o critrio de paragem
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Quando o algoritmo utiliza muitos passos at convergir pode ser um sinal de:
Seleco inadequada do
nmero de grupos
Incluso de variveis
desestabilizadoras
Utilizao de centroides
iniciais fracos
1
2
3
4
Complexidade do problema
(pode ser necessrio alterar
neste caso o nmero mximo
de iteraes)
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 36
Final Cluster Centers
-,38060 -,21816 -,63907 2,28240
-,49686 ,78345 4,04949 -,34733
-,68070 ,96783 ,26700 ,81246
-,31239 ,67760 3,34426 -,78506
-,65485 1,14681 2,59664 -,16099
-,35098 ,53560 2,08709 -,05141
-,27665 ,16244 ,00661 ,85858
-,64346 1,16759 2,27351 -,19218
-,28389 ,22128 5,47816 -,33333
Zscore: Rcio Trfego
Mximo Mensal Trafego
Mnimo Mensal
Zscore: Trfego Anual de
Passageiros
Zscore: Rcio
Passageiros
Internacionais
Passageiros Totais
Zscore: N de Destinos
na Pennsula com Freq.
Mdia Superior a 2
Movimentos por Semana
Zscore: N de Destinos
Fora da Pennsula com
Freq. Mdia Superior a 2
Movimentos por Semana
Zscore: Comprimento da
Pista
Zscore: Taxa de
Crescimento Mdia Anual
[n passageiros]
Zscore: N de
Companhias com
Frequncia Mdia
Superior a 2 Movimentos
por Semana
Zscore: Carga
Movimentada [ton]
1 2 3 4
Cluster
Valores para os centros dos grupos na
soluo final
Centroide mdia de todas as
variveis para cada grupo
Os centroides refletem os
atributos de uma caso
tpico para cada grupo
Cada grupo representado
pelo respectivo centrode
-3
-2
-1
0
1
2
3
4
5
6
SAZON PASST GINTER NDP NDFP PISTA TAXA NC CARGA
Cluster 1
Cluster 2
Cluster 3
Cluster 4
MADRID
GRANDES
AEROPORTOS
PEQUENOS
AEROPORTOS
DOMSTICOS
AEROPORTOS
INTERNACIONAIS
DINMICOS
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 37
O Grupo 4 rene osAeroportos Internacionais Dinmicos:
apresentam o maior grau de internacionalizao (varivel GINTER),
a maior taxa de crescimento, o maior ndice de sazonalidade e, em
termos dimensionais, situam-se numa posio intermdia. Os
aeroportos de Reus e Badajoz apresentam a maior distncia ao
centroide representativo: Reus exibe uma taxa de crescimento
superior mdia e Badajoz um ndice de sazonalidade superior
mdia e um grau de internacionalizao inferior mdia da classe.
O Grupo 2 constitudo pelos Grandes Aeroportos ibricos.
Estes 7 aeroportos apresentam o maior volume de trfego de
passageiros e de carga, oferecem o maior nmero de destinos fora
e dentro da pennsula, registam a maior capacidade de atraco de
companhias areas e as maiores infra-estruturas fsicas. Revelam
valores moderados em termos de taxas de crescimento e graus de
internacionalizao e valores baixos no ndice de sazonalidade.
O aeroporto de Madrid apresenta o maior trfego de passageiros,
volume de carga e oferta interna na amostra, sendo isolado no
grupo 3.No entanto dada a sua distnia ao centrode do grupo 2
fraca.
O grupo 1 representa os 20 Pequenos Aeroportos Domsticos.
Trata-se de aeroportos de pequena dimenso, frequentados
essencialmente por passageiros nacionais, com taxas de
crescimento reduzidas e ndices de sazonalidade baixos.
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Distances between Final Cluster Centers
3,623 9,660 3,376
3,623 7,200 3,794
9,660 7,200 9,898
3,376 3,794 9,898
Cluster
1
2
3
4
1 2 3 4
Distncia Euclideana entre os centros dos grupos finais:
valores elevados indicam que os grupos so bastante
diferentes entre si
valores reduzidos indicam que os grupos no so muito
diferentes etre si
a tabela simtrica
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 38
ANOVA
10,055 3 ,224 35 44,922 ,000
9,728 3 ,252 35 38,623 ,000
7,956 3 ,404 35 19,707 ,000
7,154 3 ,472 35 15,142 ,000
10,258 3 ,206 35 49,679 ,000
3,412 3 ,793 35 4,301 ,011
1,887 3 ,924 35 2,042 ,126
9,819 3 ,244 35 40,235 ,000
10,959 3 ,146 35 74,879 ,000
Zscore: Rcio Trfego
Mximo Mensal Trafego
Mnimo Mensal
Zscore: Trfego Anual de
Passageiros
Zscore: Rcio
Passageiros
Internacionais
Passageiros Totais
Zscore: N de Destinos
na Pennsula com Freq.
Mdia Superior a 2
Movimentos por Semana
Zscore: N de Destinos
Fora da Pennsula com
Freq. Mdia Superior a 2
Movimentos por Semana
Zscore: Comprimento da
Pista
Zscore: Taxa de
Crescimento Mdia Anual
[n passageiros]
Zscore: N de
Companhias com
Frequncia Mdia
Superior a 2 Movimentos
por Semana
Zscore: Carga
Movimentada [ton]
Mean Square df
Cluster
Mean Square df
Error
F Sig.
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize
the differences among cases in different clusters. The observed significance levels are not corrected for this and
thus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
A tabela ANOVA
indica quais as
varveis que
mais contribuem
para a soluo
final.
As variveis s
quais se associam
os maiores
valores para F
fornecem o maior
grau de separao
entre os grupos
Os grupos
formados no se
distinguem na
varivel taxa
mdia de
crescimento
Para analisar a diferena entre as mdias dos grupos
necessria a verificao dos pressupostos de aplicao
da ANOVA e se adequada, a aplicao alternativa do
teste no paramtrico equivalente.
Utilizao dos centrides obtidos a partir dos
mtodos hierrquicos como inicializao
Soluo Soluo
22
K K- -means com 3 means com 3
grupos grupos
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 39
Exemplo 2 Exemplo 2
Aplicao de Mtodos Hierrquicos no
agrupamento de variveis
Uma empresa de telecomunicaes pretende
melhor compreender os padres de uso dos seus
servios pelos consumidores actuais.
Se os servios puderem ser agrupados pelo uso,
ento a empresa poder oferecer packages mais
atractivos aos compradores
File: telco.sav (tutorial do SPSS)
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Variveis
Tollfree
Equip
Callcard
Wireless
Multiline
Voice
Pager
Internet
Callid
Callwait
Confer
ebill
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 40
Ward Ward Squared Euclidian Distance Squared Euclidian Distance
1
2
3
O grupo 1 est mais prximo do grupo 2 do que do grupo 3
Between Groups Between Groups Simple Simple
Matching Matching
Anlise de Dados
MEE, MEGI e MGRH
ISLA
5. Anlise de Clusters
Ana Oliveira-Brochado
Outubro 2011 41
Between Groups Between Groups Jaccard Jaccard
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis

Presenas Ausncias
Presenas a b
Ausncias c d
Objecto m Objecto m Objecto m Objecto m
Objecto n Objecto n Objecto n Objecto n
c b a
a
Jaccard
d c b a
d a
simples ia concordnc
+ +
=
+ + +
+
=
A medida de Jaccard no considera 2 servios para os
quais 2 indivduos so so subscritores na definio de
semelhana entre dois indivduos.
O simple matching considera dois consumidores
semelhantes quando possuem ambos os dois servios ou
quando ambos so possuem os 2 servios
A medida a usar depende da definio do semelhante
que se aplica situao.
1. Segmentao de Mercado 2. Anlise de clusters 3. Casos 3.1. Classificao de entidades 3.2. Classificao de variveis

Você também pode gostar