Você está na página 1de 29

ANLISE MULTIVARIADA APLICADA AS CINCIAS AGRRIAS

Ps-graduao em agronomia cincia do solo: CPGA-CS

ANLISE DE AGRUPAMENTO
Carlos Alberto Alves Varella

INTRODUO
Anlise de agrupamento ou Cluster analysis: Sequncia de regras (algoritmo) para agrupar objetos sem inferncia de probabilidade a priori dos grupos. Tcnica utilizada em classificadores denominados de no supervisionados. Dado um conjunto de n unidades amostrais (tratamentos, objetos, indivduos, ...), os quais so medidos segundo p variveis, obter um algoritmo que possibilite reunir os indivduos, tal que exista homogeneidade dentro do grupo e heterogeneidade entre grupos (Regazzi, 2000).

MEDIDAS DE DISSIMILARIDADE
Distncia euclidiana Distncia euclidiana mdia Distncia de Mahalanobis A maioria dos algoritmos de anlise de agrupamento tm como base estas medidas de dissimilaridade; Quanto maior for a medida de dissimilaridade menor ser a semelhana entre os indivduos.

MEDIDAS DE SIMILARIDADE
O coeficiente de correlao uma medida de similaridade, enquanto que a distncia euclidiana uma medida de dissimilaridade; Quanto maior for a medida de similaridade maior semelhana entre os indivduos.

Distncia euclidiana
A distncia euclidiana entre os indivduos a e b dada analiticamente por:
1 2

=
=1

= 1,2, , ; = ; = .

Distncia euclidiana
A distncia euclidiana ente os indivduos a e b dada matricialmente por: =
1 2

= 1 2 = ; = 1 2 = .

Distncia euclidiana
recomendvel a padronizao das variveis antes de se obter o valor da distncia euclidiana, devido que normalmente todos os dados no esto no mesmo padro de medidas.

= , =

~ 0 , 1 , ~ , 1

Distncia euclidiana mdia


A distncia euclidiana cresce medida que cresce o nmero de variveis. Uma maneira de eliminar o efeito do nmero de variveis dividir o valor da distncia euclidiana pela raiz quadrada do nmero de variveis. 1 = = ; = ; = .

Distncia de Mahalanobis
A distncia de Mahalanobis entre os indivduos a e b dada por:
2 = 1

em que,
2 = ; = ; = ; = .

MTODOS DE AGRUPAMENTO
Existem diversos mtodos de agrupamento que podem resultar em diferentes padres de agrupamento. O pesquisador deve decidir qual o mtodo mais adequado ao seu trabalho. Os mtodos mais utilizados so: Mtodos hierrquicos

Mtodos hierrquicos de agrupamento


Nestes mtodos os indivduos so alocados nos grupos em diferentes etapas, de modo hierrquico, o resultado final uma rvore de classificao. Os mtodos hierrquicos mais utilizados so: Vizinho mais prximo Vizinho mais distante

Mtodo do vizinho mais prximo


Tambm chamado de mtodo do encadeamento simples single linkage method. Neste mtodo calcula-se a matriz de distncias entre os n indivduos da populao, em seguida os indivduos mais prximos so agrupados.

Mtodo do vizinho mais distante


Tambm chamado de mtodo do encadeamento completo complete linkage method. Este mtodo o inverso do vizinho mais prximo. Calcula-se a matriz de distncias entre os n indivduos da populao, em seguida os indivduos mais distantes so agrupados.

Exemplo de agrupamento
Mtodo: vizinho mais prximo Dissimilaridade: distncia euclidiana Dendrograma

Matriz de distncia D1
Matriz de distncia euclidiana entre os n indivduos da populao; Como d15 a menor distncia em D1, os indivduos 1 e 5 so agrupados.
Ind. (n) 1 2 3 4 5 1 0 2 5 0 3 10 5 0 4 7 2 3 0 5 1 6 11 8 0

Matriz de distncia D2
Distncia euclidiana entre d15 e os demais indivduos da populao ; O menor valor em D2 d24=2, ento os indivduos 2 e 4 so agrupados.
(15) (15) 2 3 4 0 2 5 0 3 10 5 0 4 7 2 3 0

Matriz de distncia D3
Distncia euclidiana entre d24 e os demais indivduos da populao ; O menor valor em D3 d(24)3 = 3, ento o indivduo 3 includo no grupo de 2 e 4.
Ind. (15) (24) 3

(15) (24)
3

5 0

10 3
0

Matriz de distncia D4
Distncia euclidiana entre (234) e (15) ; O grupo (234) includo no grupo (15), formando assim um nico grupo. Fim do agrupamento.
(15) (15) (234) 0 (234) 5 0

Resumo do mtodo do vizinho mais prximo


Tabela resumindo passos, grupos e distncias entre grupos.
PASSO
1 2 3 4

GRUPOS
1,5 2,4 24,3 15,234

DISTNCIA
1 2 3 5

Exemplo no SAS: distncia euclidiana e vizinho mais prximo


proc distance data=cluster.exemplo1 out=cluster.Dist method=Euclid; var interval(X1 / std=Std); id trat; run; options ls=120; proc print data=cluster.Dist(Obs=10); title2 'Output data set from PROC DISTANCE'; run; proc cluster method=single data=cluster.dist outtree=cluster.tree; id trat; run; proc tree spaces=2; id trat; run;

Nmero de grupos
Grupos constituem uma proposio sobre a organizao bsica e desconhecida dos dados; Os algoritmos de agrupamento no apresentam soluo para determinao do nmero ideal de grupos; Uma maneira de determinar o nmero de grupos pelo exame do dendrograma.

Exame do dendrograma
O dendrograma um grfico em forma de rvore onde podemos observar alteraes dos nveis de similaridade para as sucessivas etapas do agrupamento; O eixo vertical nvel de similaridade; Eixo horizontal indivduos; As linhas verticais partindo dos indivduos agrupados tem altura correspondente ao nvel que os indivduos so considerados semelhantes.

Exame do dendrograma
No exemplo apresentado podemos observar que o maior nvel ocorreu na ltima etapa, sugerindo a existncia de dois grupos homogneos: (1,5) e (2,3,4).

Ajuste do agrupamento
Devido a inexistncia de um mtodo para selecionar a melhor tcnica de agrupamento, importante avaliar o grau de ajuste do agrupamento; Coeficiente de correlao cofentica (ccc), proposto por Sokal & Rohlf (1962); Quanto maior ccc melhor agrupamento; ccc menor que 0,7 indica inadequao do mtodo de agrupamento (Rohlf, 1970).

Coeficiente de correlao cofentica, ccc


Mede o grau de ajuste entre a matriz de dissimilaridade (matriz fentica F ou D1) e a matriz resultante da simplificao devido ao mtodo de agrupamento (matriz cofentica C).

Quando ccc > 0,7 conclumos que o mtodo de agrupamento foi adequado.

Nmero de Grupos
Sarle and Kuo (1993) teste de aproximao no paramtrica para o nmero de grupos est implementado no procedimento MODECLUS. O mtodo est descrito no captulo do procedimento MODECLUS. Algumas vantagens do mtodo: 1. No pressupe nenhuma distribuio ; 2. Robusto o suficiente para ser aplicado em situaes prticas; 3. Os dados podem ser vetor de caractersticas ou distncias.

Procedimento MODECLUS do SAS


The MODECLUS procedure clusters observations in a SAS data set using any of several algorithms based on nonparametric density estimates. The data can be numeric coordinates or distances. PROC MODECLUS can perform approximate significance tests for the number of clusters and can hierarchically join nonsignificant clusters. The significance tests are empirically validated by simulations with sample sizes ranging from 20 to 2000. PROC MODECLUS produces output data sets containing density estimates and cluster membership, various cluster statistics including approximate p-values, and a summary of the number of clusters generated by various algorithms, smoothing parameters, and significance levels.

MTODOS DE OTIMIZAO
(continuar)

FIM DA AULA

Você também pode gostar