Escolar Documentos
Profissional Documentos
Cultura Documentos
MODULO IV
TCNICAS
DE
CLASIFICACIN NO
SUPERVISADA
DEFINICIN
TIPOS DE ALGORITMOS
Clustering
Modelos Gaussianos Mixtos
Mquinas restringidas de Boltzmann
CLUSTERING
Se basan en un criterio de distancia para generar los grupos
Resumen de tcnicas:
Mtodo
Usos
Mtrica
Affinity propagation
Mean-shift
K-Means
Spectral clustering
Hierarchical Clustering
DBSCAN
K-MEANS
Intenta separar en grupos de igual varianza.
Requiere indicar a priori el nmero de clusters
Escala bien con el nmero de observaciones
Divide un conjunto de N vectores X en K clusters disjuntos C
descritos por la media j de las observaciones (centroide)
Escoge centroides que minimizan la varianza intra-cluster:
min ( x
n
i=0
j C
AFFINITY PROPAGATION
Crea clusters enviando mensajes entre pares de muestras hasta
converger
Formalmente se define como la responsabilidad de la observacin
sea ejemplar para la observacin i dada por:
a ( i, k ) min 0, r ( k, k ) + r ( , k )
s.t . {i, k }
sea
MEAN SHIFT
Consiste en el descubrimiento de blobs en una densidad suave de
muestras.
Es un algoritmo basado en centroides que no necesita el
establecimiento a priori del nmero de grupos.
Para cada iteracin, el algoritmo actualiza los candidatos a centones
de acuerdo a la siguiente expresin:
xi
t+1
= xi + m ( xi
t
m(x ) =
K
x
x
x
j
i
j
x N ( x )
j
K
x
x
j
i
x N ( x )
j
SPECTRAL CLUSTERING
Hace un empotramiento de baja dimensin de la matriz de
afinidades entre observaciones seguido de un k-means en el espacio
de dimensin baja.
Requiere el nmero de clusters a priori.
HIERARCHICAL CLUSTERING
Consiste en la particin (a aglomeracin) sucesiva de clusters anidados.
No se requiere especificar el nmero de clusters a priori.
Los criterios de enlace son 3 principalmente:
Ward: Minimiza suma de cuadrados de las diferencias dentro de
todos los clusters.
Complete Linkage: Minimiza la mxima distancia entre pares de
observaciones.
Average Linkage: Minimiza el promedio de las distancias entre todas
las observaciones de cada par de clusters.
DBSCAN
Las observaciones son vistas como reas de alta densidad separadas
pot reas de baja densidad.
Los clusters son de cualquier forma.
La base es el concepto de core sample, las cuales son observaciones
que se encuentran en reas de alta densidad, as, un cluster ser un
conjunto de core samples y un conjunto de non-core samples que
estn cerca de las core samples.
1
1/2
1 ! ! T 1 ! !
exp ( x ) ( x )
d/2
2
( 2 )
F ( v ) = b'v log e
i
hi
hi ( ci +Wi v )
DESEMPEO DE MNS
Adjusted Rand Index: mide la similitud entre dos asignaciones
ignorando permutaciones.
Mutual information Based Scores: mide el nivel de acuerdo de dos
asignaciones.
Calinski-Harabaz Index: est dado por el radio de la media de la
dispersin inter-cluster y la media de la dispersin intra-cluster
PREPARACIN DE DATOS
PARA CLASIFICACIN NO
SUPERVISADA
SELECCIN DE VARIABLES
Todas las variables deben ser numricas.
Se recomienda hacer uso de algn algoritmo de reduccin de
dimensionalidad en caso de de tener un conjunto grande de
variables.
Al ser basados en criterios de distancia la mayora de los algoritmos,
se recomienda estandarizar los datos antes.
El anlisis exploratorio de datos debe ser llevado a cabo antes del
agrupamiento.
SOPORTE GRFICO
Antes de realizar el anlisis cluster, es posible anticipar la forma, nmero y
tamao posible de los grupos mediante una exploracin grfica.
La tcnica ms comn de representacin grfica para alta dimensionalidad
es el anlisis de componentes principales (PCA)
PCA resume la informacin contenida en los datos mediante la
transformacin del espacio de variables original en un nuevo espacio con la
caracterstica de ser ortogonal, cada variable del nuevo sistema es llamada
componente principal y tiene asignado un porcentaje de varianza
explicada.
Las componentes principales son una combinacin lineal de las variables
originales.