Você está na página 1de 5

Tecnológico de Costa Rica

Introducción al Reconocimiento de Patrones

Tarea 5 | Aglomeración

Estudiantes:
Pablo Rodríguez Quesada - 2014084649
Oscar Josué Ulate Alpízar - 201229559

Criterio de evaluación:

Para medir la calidad de los resultados de agrupaciones, hay dos tipos de índices de
validación: índices externos e índices internos.

Un índice externo es la medida de acuerdo entre dos particiones donde la primer


partición es conocida a priori, la segunda partición resulta del procedimiento de agrupación.
Índices internos son usados para medir qué tan bueno es una agrupación sin información
externa.

Cómo en temas pasados del curso, índices externos se basa en un set de datos que
ya se conoce su valor real y se fuerza al algoritmo a aprender bajo estos parámetros dados.

¿Qué significa cada criterio de evaluación?

Silhouette Index:

El análisis de Silhouette puede ser usado para estudiar la distancia de la separación entre
los clusters resultados. Este provee una gráfica de la que se obtiene la medida de que tan
cerca cada punto de un cluster está con respecto a sus clusters vecinos y por lo tanto
provee un método para evaluar parámetros como el número de clusters visualmente.

Davies-Bouldin:
La intuición detrás del índice de Davies-Bouldin es la relación entre las distancias dentro del
cluster y las distancias entre el cluster y el cálculo del promedio general de los grupos. Es
relativamente simple calcular, delimitado: de 0 a 1, cuanto más bajo sea el puntaje, mejor.
Como mide la distancia entre los centroides de los grupos, se limita a usar la función de
distancia euclidiana.

Calinski-Harabasz:
El índice Calinski-Harabasz es un dispositivo heurístico. Está basado en la ideología
ANOVA , lo que implica que los objetos clusterizados se encuentran en un espacio
Euclideo de escala variable.Si los datos agrupados no fueran objetos X variables, sino
una matriz de diferencias entre objetos, entonces la medida de disimilitud debería ser
(cuadrada) distancia euclidiana (o, en el peor de los casos, otra distancia métrica que se
aproxima a la distancia euclidiana por propiedades).El criterio CH es más adecuado en
caso de que los grupos sean más o menos esféricos y compactos en su parte media.

Dunn index:

Dunn index (índice de Dunn) es la razón de la distancia más pequeña entre observaciones
que no están dentro del mismo cluster hasta la distancia más larga dentro del cluster. Dunn
Index tiene un valor entre cero e infinito y debe ser maximizado.

R-squared index:

Es una medida estadística que indica que tan cerca están los datos de la línea de regresión
lineal.

Hubert-Levin (C-index):
El índice-C puede ser representado por cuatro integrales: dos para el evento de tiempo y
dos para el marcador continuo. El rango de la variable de evento tiempo variable puede
estar restringida por un límite superior tau.

¿Qué significa cada modo de Inicialización?

k-means++: ​Inicialmente selecciona un centroide aleatoriamente, en la segunda iteración


se elige el siguiente centroide basándose en una probabilidad de pesos, el cual se
selecciona por lejanía del centroide actual seleccionado. Así continua hasta obtener los n
centroides.

Random: ​Se eligen k puntos de manera aleatoria de los datos presentes para obtener los
centroides iniciales. Los centroides seleccionados, elegidos aleatoriamente, se van
ajustando dependiendo del algoritmo utilizado como criterio de evaluación. Para escoger
estos centroides iniciales, se puede utilizar algún tipo de semilla que indique una posición
un poco menos aleatoria.

PCA-Based​​: ​Se utiliza PCA para calcular los componentes principales en el dataset inicial.
Una vez con está informacion se pueden escoger los centroides que se ubiquen donde está
la mayor informacion y devolverse a través del proceso inverso. Esto garantiza un centroide
en una zona concentrada.
Resultados - Punto 7

k=3
k = 10
k = 20

Você também pode gostar