Escolar Documentos
Profissional Documentos
Cultura Documentos
Mtodos Jerrquicos
Los llamados mtodos jerrquicos tienen por objetivo agrupar clusters para formar uno nuevo
o bien separar alguno ya existente para dar origen a otros dos, de tal forma que, si
sucesivamente se va efectuando este proceso de aglomeracin o divisin, se minimice alguna
distancia o bien se maximice alguna medida de similitud.
En este mtodo se considera que la distancia o similitud entre dos clusters viene dada,
respectivamente, por la mnima distancia (o mxima similitud) entre sus componentes. As, si
tras efectuar la etapa K-sima, tenemos ya formados n K clusters, la distancia entre los clusters
Ci (con ni elementos) y Cj (con nj elementos) sera:
mientras que la similitud, si estuviramos empleando una medida de tal tipo, entre los dos
clusters sera:
En este mtodo se considera que la distancia o similitud entre dos clusters hay que medirla
atendiendo a sus elementos ms dispares, o sea, la distancia o similitud entre clusters viene
dada, respectivamente, por la mxima distancia (o mnima similitud) entre sus
componentes. As pues, al igual que en la estrategia anterior, si estamos ya en la etapa K-
sima, y por lo tanto hay ya formados n K clusters, la distancia y similitud entre los clusters
Ci y Cj (con ni y nj elementos respectivamente), sern:
En esta estrategia la distancia, o similitud, del clster Ci con el Cj se obtiene como la media
aritmtica entre la distancia, o similitud, de las componentes de dichos clusters. As, si el clster
Ci (con ni elementos) est compuesto, a su vez, por dos clusters Ci1 y Ci2 (con ni1 y ni2 elementos
respectivamente), y el clster Cj posee nj elementos, la distancia, o similitud, entre ellos se
calcula como
Notemos que en este mtodo no se tiene en cuenta el tamao de ninguno de los clusters
involucrados en el clculo, lo cual significa que concede igual importancia a la distancia d(Ci1 ,
Cj ) que a la distancia d(Ci2 , Cj ).
A continuacin, vamos a exponer una expresin debida a Lance y Williams en 1967 que intenta
aglutinar varios mtodos anteriores bajo una misma frmula.
Concretamente la expresin proporciona la distancia entre un grupo K y otro grupo (I, J) formado
en una etapa anterior por la fusin de dos grupos. La frmula en cuestin es la siguiente
De esta manera el clculo de las distancias entre grupos usadas por otras tcnicas jerarquicas
son casos particulares de la expresin anterior, para una eleccin conveniente de los parmetros
I , J , y . Algunos de estos coeficientes han sido ya deducidos en la descripcin de los
mtodos.
- Amalgamiento simple
El mtodo del amalgamamiento simple determina que la distancia entre ambos clusters se
establece como la menor distancia existente entre los elementos de ambos clusters
Uno de los mtodos ms prominentes es conocido como modelo de mezcla Gaussiana (utilizado
en el algoritmo de expectation-maximization). Aqu, el conjunto de datos es normalmente
modelado con un nmero fijo (para evitar el sobreajuste) de distribuciones Gaussianas que est
inicializado aleatoriamente, y cuyos parmetros son iterativamente optimizados para clasificar
mejor al conjunto de datos. Esto converger a un ptimo local, mltiples corridas pueden
producir resultados diferentes. Para obtener un agrupamiento duro, los objetos son a menudo
entonces asignados a la distribucin Gaussiana con mayor probabilidad de pertenecer; para
agrupamiento suave, esto no es necesario.
En agrupamiento basado en densidad, los grupos estn definidos como reas de densidad ms
alta que en el resto del conjunto de datos. Objetos en reas esparcidas son conocidos como
ruido o puntos frontera.
Bibliografa