Você está na página 1de 32

CLUSTER ANALISYS

CONCEITOS E DISTINES
um grupo de tcnicas de anlise multivariada cujo
propsito primrio reunir objetos baseado nas
caractersticas dos mesmos.
Alta homogeneidade interna (within-cluster) e alta
heterogeneidade externa (between-cluster).
Outras
denominaes: Q analysis, typology,
classification analysis, numerical taxonomy; anlise
de agrupamento, anlise de conglomerados.

OBJETIVOS, UTILIDADES E
APLICAES

Reduo de dados de uma amostra a um nmero


determinado de perfis (reduo do nmero de objetos).
Desenvolver hipteses quanto natureza dos dados
(caso do presente trabalho) ou examinar hipteses j
estabelecidas.
utilizada mais para estudos exploratrios, mas pode
ser empregada para fins confirmatrios.

PRESSUPOSTOS E LIMITAES

A validade das concluses depender das variveis


selecionadas (cluster variate) a partir do conhecimento
que o pesquisador tem da realidade observada.
descritiva, aterica e no inferencial (no tem base
estatstica) sempre cria grupos independentemente da
verdadeira existncia de uma estrutura nos dados.
No existe o melhor, apenas bons e maus agrupamentos
(exemplo das cartas do baralho).
5

O PROCESSO DE DECISO NA
ANLISE CLUSTER

Metodologia proposta por Hair (1998): modelo de


seis estgios: (1) definio dos objetivos; (2)
delineamento da pesquisa; (3) presunes; (4)
determinao e avaliao dos grupos; (5)
interpretao dos grupos; (6) validao e definio
dos perfis dos grupos.
Bussab (1990) prope metodologia semelhante,
apenas com uma etapa (a segunda) a mais, relativa
obteno dos dados.
6

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 1: objetivos da anlise cluster

Objetivos: descrio taxonmica, simplificao de dados


ou identificao de relaes.
Seleo das variveis baseada em aspectos tericos e
prticos. Deve haver um referencial terico que
justifique a escolha.
Deve-se buscar variveis distintivas. Variveis
irrelevantes aumentam as chances de surgimento de
outliers.
7

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (I)

Trs questes devem ser resolvidas: (1) existem


outliers? (2) como deve ser medida a similaridade? e
(3) os dados devem ser padronizados?
Outliers podem representar: (1) verdadeiras aberraes,
no representativas da populao; ou (2) itens de um
determinado grupo obtidos de uma amostra ruim.
Anlise pode ser feita com base no diagrama de perfis.
Se necessrio, devem ser excludos.
8

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (II)

Medidas de similaridade (ou dissimilaridade): (1) medidas


de correlao; (2) medidas de distncia; e (3) medidas de
associao.
As duas primeiras requerem dados quantitativos (metric),
enquanto que as ltimas so para dados qualitativos
(nonmetric).
Bussab (1990) refere-se ao coeficiente de parecena,
dividindo-os em medidas de similaridade e dissimilaridade.
9

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (III)

Medidas correlacionais: semelhante ao Q-type da


anlise fatorial. No se fixa na magnitude, mas nos
padres dos valores.
Medidas de distncia: so medidas de dissimilaridade,
com altos valores denotando menor similaridade.
Medidas de distncia x medidas correlacionais:
magnitudes x padres.
10

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (IV)

Tipos de medidas de distncia:


Distncia euclidiana simples;
Distncia euclidiana quadrada ou absoluta;
Distncia City-block (Manhattan);
Distncia Chebychev;
Distncia Customized;
Distncia Minkowski.
11

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (V)

Impacto da no-padronizao dos dados nas medidas de


distncia:
Inconsistncias entre as solues quando a escala das variveis

mudada.
Distncia Mahalanobis (D 2) utiliza escala
desvios-padres e soma a varincia-covarincia
com ajustes das intercorrelaes entre
(recomendvel quando h multicolinearidade
detectar outliers).

em termos de
total do grupo,
as variveis
e til para

12

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (VI)

Medidas de associao: usadas para comparar objetos

mensurados em termos no-mtricos ou qualitativos


(nominais ou ordinais).
A medida mais simples seria a percentagem de vezes
que existiu concordncia entre as respostas (ambos os
respondentes disseram sim ou no a uma questo).

13

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (VII)

Padronizando os dados:
atravs das variveis: mdia igual a zero e
desvio-padro igual a 1 (escore Z).
atravs das observaes: padroniza no para a
mdia da amostra, mas para o escore mdio de
cada respondente.

14

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 2: delineamento da pesquisa (VIII)
Ponderando

os dados: recomendado quando as


variveis no tm a mesma importncia para o
problema;
Deve ser aplicada com cautela, dada a alta
subjetividade desse procedimento;
O mais comum se atribuir o mesmo peso para
todas as variveis.
15

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 3: pressupostos
Representatividade

da amostra: a anlise cluster ser


boa na medida em que a amostra for representativa.
Impacto da multicolinearidade: as variveis que so
multicolineares esto, de uma forma implcita,
ponderadas mais pesadamente. Alternativas para
compensar o problema: distncia Mahalanobis e
escores fatoriais.
16

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (I)
Envolve:

a escolha do algoritmo de agrupamento e a


deciso quanto ao nmero de grupos.
Algoritmo de agrupamento: qual o procedimento deve ser
usado para colocar objetos similares dentro de grupos?
Temos os hierrquicos e os no-hierrquicos.
Todo algoritmo visa maximizar as diferenas entre os
grupos em confronto com a variao dentro dos mesmos
(between-cluster x within-cluster).
17

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (II)
Procedimentos

hierrquicos
de
agrupamento:
envolvem a construo de uma hierarquia semelhante
a uma rvore. So de dois tipos: aglomerativos e
divisivos.
Algoritmos mais populares: (1) single linkage; (2)
complete linkage; (3) avarage linkage; (4) Wards
method; e (5) centroid method.
18

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (III)
1)

Single linkage: baseado na distncia mnima entre


dois objetos. tambm chamado de nearest neighbor.
Problema da cadeia.

2)

Complete linkage: baseado na distncia mxima,


razo pela qual conhecido como a abordagem do
vizinho mais longe (furthest neighbor).
19

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (IV)
3)

Avarage linkage: ou ligao mdia, onde o critrio a


distncia de todos os indivduos de um grupo em relao
a todos de outro (no SPSS, as opes between-groups e
within-groups linkage). Tende a produzir grupos com
aproximadamente a mesma varincia.

4)

Wards method: minimiza a soma dos quadrados entre


dois grupos em relao a todas as variveis. Tende a
produzir grupos com mesmo nmero de observaes.
20

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (V)
5)

Centroid method: a distncia entre os grupos a


distncia entre seus centrides, que so os valores
mdios das observaes em relao s variveis. Cada
vez que indivduos so agrupados, um novo centride
calculado. Tanto este mtodo quanto o de Ward
exigem a distncia euclidiana.

21

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (VI)
Mtodos

no-hierrquicos de agrupamento: ou mtodos


de partio, atribuem objetos a um grupo uma vez que o
nmero de grupos a ser formado esteja especificado. So
referidos como K-means clustering.
Seleciona um grupo semente (seed) como grupo
inicial, e todos os objetos prximos so includos nesse
grupo. Um novo grupo semente escolhido, e o processo
continua at todas as observaes serem distribudas.
22

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (VII)
O

mtodos no-hierrquicos so os seguintes:


Sequential threshold: ou princpio seqencial,
seleciona um grupo semente e inclui todos os objetos
dentro de uma distncia preestabelecida. Aps, um
novo grupo semente selecionado, e o processo
continua. Quando um objeto destinado a um grupo
semente, ele no mais considerado nos
subseqentes.
23

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (VII)
Parallel

threshold: ou princpio paralelo, seleciona


vrios grupos semente e inclui todos os objetos dentro
daquele mais prximo. medida que o processo
evolui, as distncias podem ser ajustadas para incluir
menos ou mais objetos (disponvel no SPSS).
Optimization: similar aos anteriores, exceto que ele
permite a realocao de objetos em funo da maior
proximidade com outro grupo (disponvel no SPSS).
24

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (VIII)
Seleo

dos grupos sementes: pode ser aleatrio ou


escolhidos pelo pesquisador. Um dos problemas no primeiro
caso que o resultado final depende da ordem dos dados.
Vantagens e desvantagens dos mtodos hierrquicos:
(v) so rpidos e exigem menos tempo de processamento;
(d) no realocam combinaes anteriores;
(d) sensivelmente impactado por outliers;
(d) no so apropriados para amostras muito grandes.

25

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (IX)
Vantagens e desvantagens dos mtodos no- hierrquicos:
(v) podem realocar combinaes anteriores;
(v) so menos sensveis a outliers, medida de distncia e a

variveis inapropriadas (quando os grupos sementes so


escolhidos pelo pesquisador);
(d) os resultados dependem do processo de escolha dos pontos
semente. Segundo Hair, o processo aleatrio inferior s
tcnicas hierrquicas;
(d) Johnson e Wichern criticam prefixao do n o de grupos.

26

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (X)
Uma combinao de ambos os mtodos:
primeiro, uma tcnica hierrquica estabelece o
nmero de grupos, traa o perfil dos ncleos
centrais e identifica outliers;
Depois de eliminar eventuais outliers, aplica-se um
mtodo no-hierrquico, tendo como grupos
sementes os ncleos centrais definidos atravs do
mtodo hierrquico.
27

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (XI)
Quantos

grupos devem ser formados?

No existe um critrio categrico


Uma regra de parada (stopping rule) simples examinar a

distncia entre os grupos a cada passo sucessivo;


Outra regra seria adaptar um teste estatstico de significncia;
Alm disso, o pesquisador deve confrontar com o referencial
terico, que pode sugerir um nmero natural de grupos;
Deve-se, ao final, buscar a melhor soluo dentre as possveis.

28

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 4: determinao e avaliao dos grupos (X)
A anlise cluster deve ser estruturada novamente?
Analisar se existe um disparate acentuado entre o tamanho dos

grupos, ou se existem grupos com uma ou duas observaes


(possveis outliers);
Comparar a soluo final com as expectativas do pesquisador;
Bussab refere uma tcnica quantitativa para avaliao dos
agrupamentos, o Coeficiente de Correlao Cofentica, que
relaciona a matriz de distncias originais com a oriunda da
classificao (matriz cofentica); algo em torno de 0,8 j seria bom.

29

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 5: interpretao dos grupos
Envolve o exame de cada grupo, tendo em vista o conjunto
de variveis, para denominar ou atribuir uma identificao
que descreva adequadamente a natureza dos mesmos.
Para esse processo, podem ser utilizados escores, de modo
a identificar alguma hierarquia dentre os mesmos.
Nessa fase, o pesquisador deve comparar os resultados com
aqueles propostos anteriormente pela teoria ou pela
experincia prtica.
30

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 6: validao e definio dos perfis dos grupos (I)
Alguns procedimentos de validao da soluo:
1) dividir a amostra em dois grupos;
2) usar outras variveis conhecidas por discriminar
entre os grupos, ou refazer a anlise excluindo
algumas variveis;
3) refazer a anlise utilizando outros mtodos de
agrupamento e outras medidas de similaridade.
31

O PROCESSO DE DECISO NA
ANLISE CLUSTER
Estgio 6: validao e definio dos perfis dos grupos (II)
Definindo

o perfil da soluo: consiste na descrio das


caractersticas de cada grupo para explicar como elas podem
diferir em dimenses relevantes.
Utilizam-se dados no previamente includos no procedimento de

agrupamento (demogrficos, psicogrficos etc.).


O enfoque na descrio, no do que determinou diretamente os
grupos, mas das caractersticas dos grupos depois de que eles foram
identificados.
Pode-se utilizar a anlise discriminante: a varivel dependente
categrica so os grupos.

32

Você também pode gostar