Você está na página 1de 8

ANLISE DE AGRUPAMENTOS

(Cluster Analysis)

x1,1 x1,2
x
2 ,1 x 2 ,2
X i, j x 3,1 x 3,2

x m,1 x m,2

v1,1 v1,2

v 2 ,1 v 2 ,1
R i, j

v n,1 v n,2

v1,n

v 2 ,n

v n,n

Distncias dentro
dos grupos so
minimizadas

Termo usado para descrever diversas tcnicas numricas


cujo propsito fundamental classificar os valores de
uma matriz de dados sob estudo em grupos discretos.
A tcnica classificatria multivariada pode ser utilizada
quando se deseja explorar as similaridades entre casos,
indivduos ou objetos (modo Q) ou entre variveis
(modo R) definindo-os em grupos, considerando
simultaneamente, no primeiro caso, todas as variveis
medidas em cada indivduo e, no segundo, todos os
indivduos nos quais foram feitas as mesmas
mensuraes.
Procura-se por agrupamentos homogneos de itens
representados por pontos num espao n-dimensional em
um nmero conveniente de grupos relacionando-os
atravs de coeficientes de similaridades ou de
correspondncias.
2

OBJETIVO: AGRUPAR OBJETOS DE

x1,n
x 2 ,n
x 3,n


x m,n

ACORDO

COM SUAS SEMELHANAS

o1,1 o1,2 o1,3


o
2 ,1 o 2 ,2 o 2 ,3
Qi, j o 3,1 o 3,2 o 3,2

om,1 om,2 om,3

o1,m
o 2 ,m
o 3,m

o3m,m

Distncias entre
grupos so
maximizadas

Cluster:
Agrupamento
de objetos
semelhantes
entre si e
separados
de outros
objetos

Quantos grupos?

Seis grupos

Dois grupos

Quatro grupos
6

MTODOS DE CLASSIFICAO

Mtodo

Mtodos de partio: classificam regies no espao,


definido em funo de variveis, que sejam mais
densamente ocupados, em termos de observaes,
daqueles com ocupao mais esparsa.

Preliminarmente

decidir em quantos grupos (k) o


conjunto inicial de dados sera dividido.

Atribuir

a cada grupo um centroide para iniciar o


processo de partio.

Mtodos com origem arbitrria: procuram classificar


as observaes segundo k conjuntos previamente
definidos; neste caso k pontos arbitrrios serviro
como centrides iniciais e as observaes iro se
agrupando, por similaridade, em torno desses
centrides para formar agrupamentos.

Cada

Mtodos por similaridade mtua: procuram agrupar


observaes que tenham uma similaridade comum
com outras observaes;
7

Aps esta primeira verificao, recalcular


exaustivamente a posio dos centroides at que
todos os elementos estejam perfeitamente alocados
em seus respectivos grupos.

elemento do conjunto inicial de dados


comparado com cada centroide, por meio de uma
medida de distncia; o criterio para um elemento
ser alocado num determinado grupo a sua
menor distncia em relao ao centride.
8

METODOLOGIA PARA AGRUPAMENTOS HIERRQUICOS

Partindo de uma matriz inicial de dados [N x P], feitas as


comparaes entre linhas, obtm-se uma matriz inicial de
coeficiente de similaridade [N x N] , que ser utilizada no
modo Q. Se a comparao for entre colunas, obtm-se
uma matriz inicial de coeficientes de similaridade inicial
[P x P] , que ser utilizada no modo R.
Diversas medidas de similaridade tem sido propostas,
somente duas so geralmente usadas: o coeficiente de
correlao de Pearson e a medida de distncia
euclidiana.
Se as variveis forem padronizadas a partir da matriz
inicial de dados, dando o mesmo peso a cada uma delas,
qualquer um desses coeficientes poder ser diretamente
11
transformado no outro.

Tcnicas mais comumente usadas


A partir de uma matriz inicial de dados obtm-se
uma matriz simtrica de similaridades e inicia-se a
deteco de pares de casos em funo do
coeficiente de similaridade escolhido;
Para essa combinao, escolhe-se, segundo nveis
hierrquicos de similaridade, entre os diversos
procedimentos aglomerativos de tal modo que cada
ciclo de agrupamento obedea a uma ordem
sucessiva no sentido do decrscimo de similaridade

Coeficiente de similaridade: correlao


Coeficiente de dissimilaridade: distncia

Coeficiente de correlao/Pearson

10

(x i x)(y i y)
( x i x)2 ( y i y)2

Distncia euclidiana

Di , j

(x ik x jk )2 / n

k 1

12

DENDROGRAMA
Na

matriz de coeficientes de similaridade, estes


representam o grau de semelhana entre pares
de objetos e os mesmos devero ser arranjados
de acordo com os respectivos graus de
similaridade de modo a ficarem agrupados
segundo uma disposio hierrquica.

Os

resultados quando organizados em grfico,


do tipo dendrograma, mostraro as relaes
das amostras agrupadas.

13

Nele esto dispostos linhas ligadas segundo os


nveis de similaridade que agruparam pares de
espcimes ou de variveis.
Como este grfico uma simplificao em duas
dimenses de uma relao n-dimensional
inevitvel que algumas distores quanto
similaridade apaream.
A medida de tal distoro pode ser obtida por um
coeficiente de correlao, dito "cofentico", entre
os valores da matriz inicial de similaridade e
aqueles derivados do dendrograma.

TCNICAS

14

DE AGRUPAMENTOS

simples (single linkage method ou


nearest neighbor);
ligao completa (complete linkage method
ou farthest neighbor);
ligao

agrupamento

15

MTODOS

pareado proporcionalmente
ponderado (weighted pair-group method,
WPGM);
agrupamento pareado igualmente
ponderado (unweighted pair-group method,
UPGM);
varincia mnima (minimum variance
clustering ou Wards method of sum-ofsquares method).

16

DE AGRUPAMENTOS

MTODO DE WARD

17

Agrupamentos timos que minimizam a variao


intra-grupos e maximizam a variao entre-grupos

18

Dados no espao multidimensional


Dendrograma: imagem distorcida em 2D
Coeficiente cofentico

19

20

Matriz de dados: 7 amostras com 6 variveis

Matriz de similaridades inicial: distncia euclidiana

Coeficiente cofentico: 0,947

21

22

Diversos coeficientes binrios utilizam o critrio


presente-ausente

23

24

Am01

V01

V02

V03

V04

V05

V06

Am01

Am02

Am03

Am04

Am05

Am06

Am02

Am01

Am03

Am02

0.000

1.000

Am04

Am03

0.250

0.333

1.000

Am05

Am04

0.333

0.400

0.400

1.000

Am06

Am05

0.167

0.500

0.200

0.500

1.000

Am07

Am06

1.000

0.000

0.250

0.333

0.167

1.000

Am07

0.167

0.500

0.200

0.500

1.000

0.167

1.000

Am07

1.000

25

26

Mtodos

pareados igualmente ponderado so


superiores aos demais

Coeficiente

distncia usualmente agrupa melhor


espcimes ou amostras, enquanto o coeficiente
de correlao recomentado para o
agrupamento entre variveis

Correlao

cofentica com valores abaixo de 0,8


indicam distores significativas no dendrograma
obtido.

27

28

XLStat

ANLISE

DE AGRUPAMENTOS:

XLSTAT

Aplicar a anlise de agrupamentos/modo Q (coeficiente de


correlao/ (agrupamento pareado igualmente pareadoUPGM) aos dados do exerccio 01
Para o caso das amostras retiradas a uma profundidade de 020 cm:
1) Padronizar as variveis: Preparao de
dados/Transformao de variveis/Padronizar (n1). Usar a matriz de dados padronizados para a anlise de
agrupamentos.
2) Usar a matriz de dados originais, mas em Opes:
centrar/reduzir/colunas.
Comparar os dois dendrogramas resultantes.
Para o caso das amostras retiradas a uma profundidade de
60-80 cm:
Aplicar apenas o procedimento (2).
Verificar para ambos os casos se os agrupamentos
encontrados mostram algum padro espacial.

29

30

Dados padronizados

0-20 cm de profundidade

zi

(x i x)
sx

31

32

33

34

35

36

Ambas

as anlises de agrupamentos
fornecem o mesmo resultado.
Como esperado!

37

38

Padro de distribuio espacial

39

40

60-80 cm de profundidade

41

42

43

44

45

46

Padro de distribuio
espacial no o mesmo para
ambas as profundidades

47

48

Você também pode gostar