Você está na página 1de 17

DIPLOMADO EN MINERA DE DATOS

MODULO IV

MODELOS DE SOPORTE NO SUPERVISADOS

MTRO. JOS GUSTAVO FUENTES CABRERA

TCNICAS
DE
CLASIFICACIN NO
SUPERVISADA

MODELOS DE SOPORTE NO SUPERVISADOS

DEFINICIN

En el contexto de machine learning, es el


conjunto de tcnicas
cuyo objeto es la
descripcin de la estructura oculta dentro
de un conjunto de datos no etiquetado.
El objetivo principal es encontrar grupos
latentes dentro de los datos.

MODELOS DE SOPORTE NO SUPERVISADOS

TIPOS DE ALGORITMOS
Clustering
Modelos Gaussianos Mixtos
Mquinas restringidas de Boltzmann

MODELOS DE SOPORTE NO SUPERVISADOS

CLUSTERING
Se basan en un criterio de distancia para generar los grupos
Resumen de tcnicas:
Mtodo

Usos

Mtrica

Propsito general, clusters de tamao similar, pocos clusters, geometra


eucldea

Distancia entre puntos

Affinity propagation

Muchos clusters, tamaos distintos, geometras no eucldeas

Distancia en grafo (vecinos ms cercanos)

Mean-shift

Muchos clusters, tamaos distintos, geometras no eucldeas

Distances between points

Pocos clusters, tamaos distintos, geometras no eucldeas

Graph distance (e.g. nearest-neighbor graph)

Muchos clusters, posibles restricciones de conectividad

Distancia entre puntos

Tamaos distintos, geometras no eucldeas

Distances between nearest points

K-Means

Spectral clustering

Hierarchical Clustering

DBSCAN

MODELOS DE SOPORTE NO SUPERVISADOS

K-MEANS
Intenta separar en grupos de igual varianza.
Requiere indicar a priori el nmero de clusters
Escala bien con el nmero de observaciones
Divide un conjunto de N vectores X en K clusters disjuntos C
descritos por la media j de las observaciones (centroide)
Escoge centroides que minimizan la varianza intra-cluster:

min ( x
n

i=0

j C

MODELOS DE SOPORTE NO SUPERVISADOS

AFFINITY PROPAGATION
Crea clusters enviando mensajes entre pares de muestras hasta
converger
Formalmente se define como la responsabilidad de la observacin
sea ejemplar para la observacin i dada por:

r ( i, k ) s ( i, k ) max a ( i, k ') + s ( i, k ') k ' k


En la expresin anterior, s ( i, k ) es la similitud entre las
observaciones k e i y la disponibilidad de que la observacin
ejemplar para la observacin estar dada por:

a ( i, k ) min 0, r ( k, k ) + r ( , k )
s.t . {i, k }

sea

MODELOS DE SOPORTE NO SUPERVISADOS

MEAN SHIFT
Consiste en el descubrimiento de blobs en una densidad suave de
muestras.
Es un algoritmo basado en centroides que no necesita el
establecimiento a priori del nmero de grupos.
Para cada iteracin, el algoritmo actualiza los candidatos a centones
de acuerdo a la siguiente expresin:

xi

t+1

= xi + m ( xi
t

m(x ) =

K
x

x
x
j
i
j
x N ( x )
j

K
x

x
j
i
x N ( x )
j

MODELOS DE SOPORTE NO SUPERVISADOS

SPECTRAL CLUSTERING
Hace un empotramiento de baja dimensin de la matriz de
afinidades entre observaciones seguido de un k-means en el espacio
de dimensin baja.
Requiere el nmero de clusters a priori.

MODELOS DE SOPORTE NO SUPERVISADOS

HIERARCHICAL CLUSTERING
Consiste en la particin (a aglomeracin) sucesiva de clusters anidados.
No se requiere especificar el nmero de clusters a priori.
Los criterios de enlace son 3 principalmente:
Ward: Minimiza suma de cuadrados de las diferencias dentro de
todos los clusters.
Complete Linkage: Minimiza la mxima distancia entre pares de
observaciones.
Average Linkage: Minimiza el promedio de las distancias entre todas
las observaciones de cada par de clusters.

MODELOS DE SOPORTE NO SUPERVISADOS

DBSCAN
Las observaciones son vistas como reas de alta densidad separadas
pot reas de baja densidad.
Los clusters son de cualquier forma.
La base es el concepto de core sample, las cuales son observaciones
que se encuentran en reas de alta densidad, as, un cluster ser un
conjunto de core samples y un conjunto de non-core samples que
estn cerca de las core samples.

MODELOS DE SOPORTE NO SUPERVISADOS

MODELOS GAUSSIANOS MIXTOS


Se basan es una estimacin de densidad de probabilidades.
Capturan clusters no necesariamente esfricos
Son una combinacin lineal de distribuciones de probabilidad
normales multivariantes:
! !
N = ( x ; , ) =

1
1/2
1 ! ! T 1 ! !
exp ( x ) ( x )
d/2
2

( 2 )

Cada observacin se asigna a un grupo dependiendo de la


probabilidad de pertenencia a cada componente.

MODELOS DE SOPORTE NO SUPERVISADOS

MQUINAS RESTRINGIDAS DE BOLTZMANN


Son modelos no lineales basados en probabilidad
Algunas de las variables se consideran ocultas , es decir, no
observables
Utilizan una funcin de energa libre para el aprendizaje

F ( v ) = b'v log e
i

hi

hi ( ci +Wi v )

MODELOS DE SOPORTE NO SUPERVISADOS

DESEMPEO DE MNS
Adjusted Rand Index: mide la similitud entre dos asignaciones
ignorando permutaciones.
Mutual information Based Scores: mide el nivel de acuerdo de dos
asignaciones.
Calinski-Harabaz Index: est dado por el radio de la media de la
dispersin inter-cluster y la media de la dispersin intra-cluster

PREPARACIN DE DATOS
PARA CLASIFICACIN NO
SUPERVISADA

MODELOS DE SOPORTE NO SUPERVISADOS

SELECCIN DE VARIABLES
Todas las variables deben ser numricas.
Se recomienda hacer uso de algn algoritmo de reduccin de
dimensionalidad en caso de de tener un conjunto grande de
variables.
Al ser basados en criterios de distancia la mayora de los algoritmos,
se recomienda estandarizar los datos antes.
El anlisis exploratorio de datos debe ser llevado a cabo antes del
agrupamiento.

MODELOS DE SOPORTE NO SUPERVISADOS

SOPORTE GRFICO
Antes de realizar el anlisis cluster, es posible anticipar la forma, nmero y
tamao posible de los grupos mediante una exploracin grfica.
La tcnica ms comn de representacin grfica para alta dimensionalidad
es el anlisis de componentes principales (PCA)
PCA resume la informacin contenida en los datos mediante la
transformacin del espacio de variables original en un nuevo espacio con la
caracterstica de ser ortogonal, cada variable del nuevo sistema es llamada
componente principal y tiene asignado un porcentaje de varianza
explicada.
Las componentes principales son una combinacin lineal de las variables
originales.

Você também pode gostar