Analise de Agrupamento

ANLISE MULTIVARIADA APLICADA AS CINCIAS
AGRRIAS
Ps-graduao em agronomia cincia do solo: CPGA-CS
ANLISE DE AGRUPAMENTO
Carlos Alberto Alves Varella
INTRODUO
Anlise de agrupamento ou Cluster analysis:
Sequncia de regras (algoritmo) para agrupar
objetos sem inferncia de probabilidade a priori
dos grupos. Tcnica utilizada em classificadores
denominados de no supervisionados.
Dado um conjunto de n unidades amostrais
(tratamentos, objetos, indivduos, ...), os quais
so medidos segundo p variveis, obter um
algoritmo que possibilite reunir os indivduos, tal
que exista homogeneidade dentro do grupo e
heterogeneidade entre grupos (Regazzi, 2000).
MEDIDAS DE DISSIMILARIDADE
Distncia euclidiana
Distncia euclidiana mdia
Distncia de Mahalanobis
A maioria dos algoritmos de anlise de
agrupamento tm como base estas
medidas de dissimilaridade;
Quanto maior for a medida de
dissimilaridade menor ser a semelhana
entre os indivduos.
MEDIDAS DE SIMILARIDADE
O coeficiente de correlao uma medida
de similaridade, enquanto que a distncia
euclidiana uma medida de
dissimilaridade;
Quanto maior for a medida de similaridade
maior semelhana entre os indivduos.
Distncia euclidiana
A
distncia euclidiana entre os indivduos
a e b dada analiticamente por:
Distncia euclidiana
A distncia euclidiana ente os indivduos a
e b dada matricialmente por:
Distncia euclidiana
recomendvel a padronizao das
variveis antes de se obter o valor da
distncia euclidiana, devido que
normalmente todos os dados no esto no
mesmo padro de medidas.
Distncia euclidiana mdia
A distncia euclidiana cresce medida
que cresce o nmero de variveis. Uma
maneira de eliminar o efeito do nmero de
variveis dividir o valor da distncia
euclidiana pela raiz quadrada do nmero
de variveis.
Distncia de Mahalanobis
A
distncia de Mahalanobis entre os indivduos a
e b dada por:
em que,
MTODOS DE AGRUPAMENTO
Existem diversos mtodos de
agrupamento que podem resultar em
diferentes padres de agrupamento. O
pesquisador deve decidir qual o mtodo
mais adequado ao seu trabalho. Os
mtodos mais utilizados so:
Mtodos hierrquicos
Mtodos hierrquicos de
agrupamento
Nestes mtodos os indivduos so
alocados nos grupos em diferentes etapas,
de modo hierrquico, o resultado final
uma rvore de classificao. Os mtodos
hierrquicos mais utilizados so:
Vizinho mais prximo

Vizinho mais distante
Mtodo do vizinho mais prximo
Tambm chamado de mtodo do
encadeamento simples single linkage
method.
Neste mtodo calcula-se a matriz de
distncias entre os n indivduos da
populao, em seguida os indivduos mais
prximos so agrupados.
Mtodo do vizinho mais distante
Tambm chamado de mtodo do
encadeamento completo complete
linkage method.
Este mtodo o inverso do vizinho mais
prximo. Calcula-se a matriz de distncias
entre os n indivduos da populao, em
seguida os indivduos mais distantes so
agrupados.
Exemplo de agrupamento
Mtodo: vizinho mais prximo
Dissimilaridade: distncia euclidiana
Dendrograma
Matriz de distncia D1
Matriz de distncia euclidiana entre os n
indivduos da populao;
Como d15 a menor distncia em D1, os
indivduos 1 e 5 so agrupados.
Ind. 1 2 3 4 5
(n)
1 0 5 10 7 1
2 0 5 2 6
3 0 3 11
4 0 8
5 0
Distncia euclidiana entre d15 e os demais
indivduos da populao ;
O menor valor em D2 d24=2, ento os
indivduos 2 e 4 so agrupados.
(15) 2 3 4
(15) 0 5 10 7
2 0 5 2
3 0 3
4 0
Distncia euclidiana entre d24 e os demais
indivduos da populao ;
O menor valor em D3 d(24)3 = 3, ento
o indivduo 3 includo no grupo de 2 e 4.
Ind. (15) (24) 3
(15) 0 5 10
(24) 0 3
3 0
Distncia euclidiana entre (234) e (15) ;
O grupo (234) includo no grupo (15),
formando assim um nico grupo. Fim do
agrupamento.
(15) (234)
(15) 0 5
(234) 0
Resumo do mtodo do vizinho mais
prximo
Tabela resumindo passos, grupos e
distncias entre grupos.
PASSO GRUPOS DISTNCIA

1 1,5 1
2 2,4 2
3 24,3 3
4 15,234 5
Exemplo no SAS: distncia
euclidiana e vizinho mais prximo
proc distance data=cluster.exemplo1 out=cluster.Dist
method=Euclid;
var interval(X1 / std=Std);
id trat;
run;
options ls=120;
proc print data=cluster.Dist(Obs=10);
title2 'Output data set from PROC DISTANCE';
run;
proc cluster method=single data=cluster.dist

outtree=cluster.tree;
id trat;
run;
proc tree spaces=2;
id trat;
run;
Nmero de grupos
Grupos constituem uma proposio sobre
a organizao bsica e desconhecida dos
dados;
Os algoritmos de agrupamento no
apresentam soluo para determinao do
nmero ideal de grupos;
Uma maneira de determinar o nmero de
grupos pelo exame do dendrograma.
Exame do dendrograma
O dendrograma um grfico em forma de
rvore onde podemos observar alteraes
dos nveis de similaridade para as
sucessivas etapas do agrupamento;
O eixo vertical nvel de similaridade;
Eixo horizontal indivduos;
As linhas verticais partindo dos indivduos
agrupados tem altura correspondente ao
nvel que os indivduos so considerados
semelhantes.
Exame do dendrograma
No exemplo apresentado podemos
observar que o maior nvel ocorreu na
ltima etapa, sugerindo a existncia de
dois grupos homogneos: (1,5) e (2,3,4).
Ajuste do agrupamento
Devido a inexistncia de um mtodo para
selecionar a melhor tcnica de
agrupamento, importante avaliar o grau
de ajuste do agrupamento;
Coeficiente de correlao cofentica (ccc),
proposto por Sokal & Rohlf (1962);
Quanto maior ccc melhor agrupamento;
ccc menor que 0,7 indica inadequao do
mtodo de agrupamento (Rohlf, 1970).
Coeficiente de correlao
cofentica, ccc
Mede o grau de ajuste entre a matriz de
dissimilaridade (matriz fentica F ou D1) e
a matriz resultante da simplificao devido
ao mtodo de agrupamento (matriz
cofentica C).
Quando ccc > 0,7 conclumos que o mtodo

de agrupamento foi adequado.
Nmero de Grupos
Sarle and Kuo (1993) teste de aproximao no
paramtrica para o nmero de grupos est
implementado no procedimento MODECLUS. O
mtodo est descrito no captulo do
procedimento MODECLUS.
Algumas vantagens do mtodo:
1. No pressupe nenhuma distribuio ;

2. Robusto o suficiente para ser aplicado em
situaes prticas;
3. Os dados podem ser vetor de caractersticas ou
distncias.
Procedimento MODECLUS do SAS
The MODECLUS procedure clusters observations in a SAS
data set using any of several algorithms based on
nonparametric density estimates. The data can be numeric
coordinates or distances. PROC MODECLUS can perform
approximate significance tests for the number of clusters
and can hierarchically join nonsignificant clusters. The
significance tests are empirically validated by simulations
with sample sizes ranging from 20 to 2000.
PROC MODECLUS produces output data sets containing
density estimates and cluster membership, various cluster
statistics including approximate p-values, and a summary of
the number of clusters generated by various algorithms,
smoothing parameters, and significance levels.
MTODOS DE OTIMIZAO
(continuar)
FIM DA AULA

Analise de Agrupamento

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise de Agrupamento

Enviado por

Direitos autorais:

Formatos disponíveis

ANLISE MULTIVARIADA APLICADA AS CINCIAS

Vizinho mais prximo

PASSO GRUPOS DISTNCIA

proc cluster method=single data=cluster.dist

Quando ccc > 0,7 conclumos que o mtodo

1. No pressupe nenhuma distribuio ;

Você também pode gostar