Escolar Documentos
Profissional Documentos
Cultura Documentos
ANLISE DE AGRUPAMENTO
Carlos Alberto Alves Varella
INTRODUO
Anlise de agrupamento ou Cluster analysis: Sequncia de regras (algoritmo) para agrupar objetos sem inferncia de probabilidade a priori dos grupos. Tcnica utilizada em classificadores denominados de no supervisionados. Dado um conjunto de n unidades amostrais (tratamentos, objetos, indivduos, ...), os quais so medidos segundo p variveis, obter um algoritmo que possibilite reunir os indivduos, tal que exista homogeneidade dentro do grupo e heterogeneidade entre grupos (Regazzi, 2000).
MEDIDAS DE DISSIMILARIDADE
Distncia euclidiana Distncia euclidiana mdia Distncia de Mahalanobis A maioria dos algoritmos de anlise de agrupamento tm como base estas medidas de dissimilaridade; Quanto maior for a medida de dissimilaridade menor ser a semelhana entre os indivduos.
MEDIDAS DE SIMILARIDADE
O coeficiente de correlao uma medida de similaridade, enquanto que a distncia euclidiana uma medida de dissimilaridade; Quanto maior for a medida de similaridade maior semelhana entre os indivduos.
Distncia euclidiana
A distncia euclidiana entre os indivduos a e b dada analiticamente por:
1 2
=
=1
= 1,2, , ; = ; = .
Distncia euclidiana
A distncia euclidiana ente os indivduos a e b dada matricialmente por: =
1 2
= 1 2 = ; = 1 2 = .
Distncia euclidiana
recomendvel a padronizao das variveis antes de se obter o valor da distncia euclidiana, devido que normalmente todos os dados no esto no mesmo padro de medidas.
= , =
~ 0 , 1 , ~ , 1
Distncia de Mahalanobis
A distncia de Mahalanobis entre os indivduos a e b dada por:
2 = 1
em que,
2 = ; = ; = ; = .
MTODOS DE AGRUPAMENTO
Existem diversos mtodos de agrupamento que podem resultar em diferentes padres de agrupamento. O pesquisador deve decidir qual o mtodo mais adequado ao seu trabalho. Os mtodos mais utilizados so: Mtodos hierrquicos
Exemplo de agrupamento
Mtodo: vizinho mais prximo Dissimilaridade: distncia euclidiana Dendrograma
Matriz de distncia D1
Matriz de distncia euclidiana entre os n indivduos da populao; Como d15 a menor distncia em D1, os indivduos 1 e 5 so agrupados.
Ind. (n) 1 2 3 4 5 1 0 2 5 0 3 10 5 0 4 7 2 3 0 5 1 6 11 8 0
Matriz de distncia D2
Distncia euclidiana entre d15 e os demais indivduos da populao ; O menor valor em D2 d24=2, ento os indivduos 2 e 4 so agrupados.
(15) (15) 2 3 4 0 2 5 0 3 10 5 0 4 7 2 3 0
Matriz de distncia D3
Distncia euclidiana entre d24 e os demais indivduos da populao ; O menor valor em D3 d(24)3 = 3, ento o indivduo 3 includo no grupo de 2 e 4.
Ind. (15) (24) 3
(15) (24)
3
5 0
10 3
0
Matriz de distncia D4
Distncia euclidiana entre (234) e (15) ; O grupo (234) includo no grupo (15), formando assim um nico grupo. Fim do agrupamento.
(15) (15) (234) 0 (234) 5 0
GRUPOS
1,5 2,4 24,3 15,234
DISTNCIA
1 2 3 5
Nmero de grupos
Grupos constituem uma proposio sobre a organizao bsica e desconhecida dos dados; Os algoritmos de agrupamento no apresentam soluo para determinao do nmero ideal de grupos; Uma maneira de determinar o nmero de grupos pelo exame do dendrograma.
Exame do dendrograma
O dendrograma um grfico em forma de rvore onde podemos observar alteraes dos nveis de similaridade para as sucessivas etapas do agrupamento; O eixo vertical nvel de similaridade; Eixo horizontal indivduos; As linhas verticais partindo dos indivduos agrupados tem altura correspondente ao nvel que os indivduos so considerados semelhantes.
Exame do dendrograma
No exemplo apresentado podemos observar que o maior nvel ocorreu na ltima etapa, sugerindo a existncia de dois grupos homogneos: (1,5) e (2,3,4).
Ajuste do agrupamento
Devido a inexistncia de um mtodo para selecionar a melhor tcnica de agrupamento, importante avaliar o grau de ajuste do agrupamento; Coeficiente de correlao cofentica (ccc), proposto por Sokal & Rohlf (1962); Quanto maior ccc melhor agrupamento; ccc menor que 0,7 indica inadequao do mtodo de agrupamento (Rohlf, 1970).
Quando ccc > 0,7 conclumos que o mtodo de agrupamento foi adequado.
Nmero de Grupos
Sarle and Kuo (1993) teste de aproximao no paramtrica para o nmero de grupos est implementado no procedimento MODECLUS. O mtodo est descrito no captulo do procedimento MODECLUS. Algumas vantagens do mtodo: 1. No pressupe nenhuma distribuio ; 2. Robusto o suficiente para ser aplicado em situaes prticas; 3. Os dados podem ser vetor de caractersticas ou distncias.
MTODOS DE OTIMIZAO
(continuar)
FIM DA AULA