MSNS

DIPLOMADO EN MINERA DE DATOS
MODULO IV
MODELOS DE SOPORTE NO SUPERVISADOS
MTRO. JOS GUSTAVO FUENTES CABRERA
TCNICAS
DE
CLASIFICACIN NO
SUPERVISADA
DEFINICIN
En el contexto de machine learning, es el

conjunto de tcnicas
cuyo objeto es la
descripcin de la estructura oculta dentro
de un conjunto de datos no etiquetado.
El objetivo principal es encontrar grupos
latentes dentro de los datos.
TIPOS DE ALGORITMOS
Clustering
Modelos Gaussianos Mixtos
Mquinas restringidas de Boltzmann
CLUSTERING
Se basan en un criterio de distancia para generar los grupos
Resumen de tcnicas:
Mtodo
Usos
Mtrica
Propsito general, clusters de tamao similar, pocos clusters, geometra

eucldea
Distancia entre puntos
Affinity propagation
Muchos clusters, tamaos distintos, geometras no eucldeas
Distancia en grafo (vecinos ms cercanos)
Mean-shift
Muchos clusters, tamaos distintos, geometras no eucldeas
Distances between points
Pocos clusters, tamaos distintos, geometras no eucldeas
Graph distance (e.g. nearest-neighbor graph)
Muchos clusters, posibles restricciones de conectividad
Distancia entre puntos
Tamaos distintos, geometras no eucldeas
Distances between nearest points
K-Means
Spectral clustering
Hierarchical Clustering
DBSCAN
K-MEANS
Intenta separar en grupos de igual varianza.
Requiere indicar a priori el nmero de clusters
Escala bien con el nmero de observaciones
Divide un conjunto de N vectores X en K clusters disjuntos C
descritos por la media j de las observaciones (centroide)
Escoge centroides que minimizan la varianza intra-cluster:
min ( x
n
i=0
j C
AFFINITY PROPAGATION
Crea clusters enviando mensajes entre pares de muestras hasta
converger
Formalmente se define como la responsabilidad de la observacin
sea ejemplar para la observacin i dada por:
r ( i, k ) s ( i, k ) max a ( i, k ') + s ( i, k ') k ' k

En la expresin anterior, s ( i, k ) es la similitud entre las
observaciones k e i y la disponibilidad de que la observacin
ejemplar para la observacin estar dada por:
a ( i, k ) min 0, r ( k, k ) + r ( , k )
s.t . {i, k }
sea
MEAN SHIFT
Consiste en el descubrimiento de blobs en una densidad suave de
muestras.
Es un algoritmo basado en centroides que no necesita el
establecimiento a priori del nmero de grupos.
Para cada iteracin, el algoritmo actualiza los candidatos a centones
de acuerdo a la siguiente expresin:
xi
t+1
= xi + m ( xi
t
m(x ) =
K
x
x
x
j
i
j
x N ( x )
j
K
x
x
j
i
x N ( x )
j
SPECTRAL CLUSTERING
Hace un empotramiento de baja dimensin de la matriz de
afinidades entre observaciones seguido de un k-means en el espacio
de dimensin baja.
Requiere el nmero de clusters a priori.
HIERARCHICAL CLUSTERING
Consiste en la particin (a aglomeracin) sucesiva de clusters anidados.
No se requiere especificar el nmero de clusters a priori.
Los criterios de enlace son 3 principalmente:
Ward: Minimiza suma de cuadrados de las diferencias dentro de
todos los clusters.
Complete Linkage: Minimiza la mxima distancia entre pares de
observaciones.
Average Linkage: Minimiza el promedio de las distancias entre todas
las observaciones de cada par de clusters.
DBSCAN
Las observaciones son vistas como reas de alta densidad separadas
pot reas de baja densidad.
Los clusters son de cualquier forma.
La base es el concepto de core sample, las cuales son observaciones
que se encuentran en reas de alta densidad, as, un cluster ser un
conjunto de core samples y un conjunto de non-core samples que
estn cerca de las core samples.
MODELOS GAUSSIANOS MIXTOS

Se basan es una estimacin de densidad de probabilidades.
Capturan clusters no necesariamente esfricos
Son una combinacin lineal de distribuciones de probabilidad
normales multivariantes:
! !
N = ( x ; , ) =
1
1/2
1 ! ! T 1 ! !
exp ( x ) ( x )
d/2
2
( 2 )
Cada observacin se asigna a un grupo dependiendo de la

probabilidad de pertenencia a cada componente.
MQUINAS RESTRINGIDAS DE BOLTZMANN

Son modelos no lineales basados en probabilidad
Algunas de las variables se consideran ocultas , es decir, no
observables
Utilizan una funcin de energa libre para el aprendizaje
F ( v ) = b'v log e
i
hi
hi ( ci +Wi v )
DESEMPEO DE MNS
Adjusted Rand Index: mide la similitud entre dos asignaciones
ignorando permutaciones.
Mutual information Based Scores: mide el nivel de acuerdo de dos
asignaciones.
Calinski-Harabaz Index: est dado por el radio de la media de la
dispersin inter-cluster y la media de la dispersin intra-cluster

PREPARACIN DE DATOS
PARA CLASIFICACIN NO
SUPERVISADA
SELECCIN DE VARIABLES
Todas las variables deben ser numricas.
Se recomienda hacer uso de algn algoritmo de reduccin de
dimensionalidad en caso de de tener un conjunto grande de
variables.
Al ser basados en criterios de distancia la mayora de los algoritmos,
se recomienda estandarizar los datos antes.
El anlisis exploratorio de datos debe ser llevado a cabo antes del
agrupamiento.
SOPORTE GRFICO
Antes de realizar el anlisis cluster, es posible anticipar la forma, nmero y
tamao posible de los grupos mediante una exploracin grfica.
La tcnica ms comn de representacin grfica para alta dimensionalidad
es el anlisis de componentes principales (PCA)
PCA resume la informacin contenida en los datos mediante la
transformacin del espacio de variables original en un nuevo espacio con la
caracterstica de ser ortogonal, cada variable del nuevo sistema es llamada
componente principal y tiene asignado un porcentaje de varianza
explicada.
Las componentes principales son una combinacin lineal de las variables
originales.

MSNS

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

MSNS

Enviado por

Direitos autorais:

Formatos disponíveis

DIPLOMADO EN MINERA DE DATOS

MODELOS DE SOPORTE NO SUPERVISADOS

MTRO. JOS GUSTAVO FUENTES CABRERA

MODELOS DE SOPORTE NO SUPERVISADOS

En el contexto de machine learning, es el

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

Propsito general, clusters de tamao similar, pocos clusters, geometra

Distancia entre puntos

Muchos clusters, tamaos distintos, geometras no eucldeas

Distancia en grafo (vecinos ms cercanos)

Muchos clusters, tamaos distintos, geometras no eucldeas

Distances between points

Pocos clusters, tamaos distintos, geometras no eucldeas

Graph distance (e.g. nearest-neighbor graph)

Muchos clusters, posibles restricciones de conectividad

Distancia entre puntos

Tamaos distintos, geometras no eucldeas

Distances between nearest points

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

r ( i, k ) s ( i, k ) max a ( i, k ') + s ( i, k ') k ' k

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS GAUSSIANOS MIXTOS

Cada observacin se asigna a un grupo dependiendo de la

MODELOS DE SOPORTE NO SUPERVISADOS

MQUINAS RESTRINGIDAS DE BOLTZMANN

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS DE SOPORTE NO SUPERVISADOS

Você também pode gostar