Escolar Documentos
Profissional Documentos
Cultura Documentos
ANLISIS CLUSTER
IDEA CONCEPTUAL BSICA:
La heterogeneidad de una poblacin constituye la materia prima del anlisis cuantitativo..... ... sin embargo, en ocasiones, el individuo u objeto particular, aislado, resulta un "recipiente" de heterogeneidad demasiado pequeo,..... la unidad de observacin es demasiado reducida con relacin al objetivo del anlisis.... ... en estos casos, se trata entonces de agrupar a los sujetos originales en grupos, centrando el anlisis en esos grupos, y no en cada uno de los individuos...... ... si existe una "taxonoma" ya diseada que resulte til, ajustada al objetivo de anlisis, se recurre a ella, ... pero si no es as, deberemos crearla, generando una nueva "agrupacin" que responda bien a las dimensiones de nuestro anlisis.
DEFINICIN:
Se utiliza la informacin de una serie de variables para cada sujeto u objeto y, conforme a estas variables se mide la similitud entre ellos. Una vez medida la similitud se agrupan en: grupos homogneos internamente y diferentes entre s. La "nueva dimensin" lograda con el cluster se aprovecha despus para facilitar la aproximacin "segmentada" de un determinado anlisis.
Que la tcnica no tiene vocacin / propiedades inferenciales Que por tanto, los resultados logrados para una muestra sirven slo para ese diseo (su valor atae slo a los objetivos del analista): eleccin de individuos, variables relevantes utilizadas, criterio similitud utilizado, nivel de agrupacin final elegido.... definen diferentes soluciones. Que cluster y discriminante no tiene demasiado en comn: el discriminante intenta explicar una estructura y el Cluster intenta determinarla.
ANLISIS CLUSTER
2 OBJETIVOS BSICOS:
Anlisis "taxonmico" con fines exploratorios o confirmatorios. Cambio (simplificacin) de la dimensin de los datos (lo descrito al inicio de este documento: agrupacin de objetos individuales en nuevas estructuras de estudio (grupales))
ANLISIS CLUSTER
ETAPAS DE UN ANLISIS CLUSTER
1.SELECCIN DE LA MUESTRA DE DATOS
2.-
3.-
4.-
SELECCIN y AGRUPACIN
APLICACIN
DEL
CRITERIO
DE
5.-
ANLISIS CLUSTER
1.- SELECCIN DE LA MUESTRA
Adecuar al mximo la muestra al objeto de anlisis Depuracin de atpicos (interesan elementos como miembros de grupos, no interesa la excesiva "individualidad")
No elegir variables indiscriminadamente: RECORDAMOS: cada estructura se manifiesta en una serie de variables y cada grupo de variables revela, slo, una determinada estructura. Resultado muy sensible a la inclusin de alguna variable irrelevante. La inclusin indiscriminada de variables aumenta la probabilidad de atpicos.
TRANSFORMACIN ?
Depende / Afecta a muchas decisiones posteriores (medida de distancia / similitud empleada, por ejemplo) Estandarizacin por variable: aunque resulta til para mediciones posteriores de distancia puede afectar al resultado del anlisis y no se recomienda si las diferencias de medidas reflejan alguna cualidad natural de inters conceptual. Estandarizacin por encuestado: singular, pero en bateras de indicadores elimina patrones de respuesta en los sujetos, ofreciendo la importancia relativa de cada indicador. Factorizacin: puede resultar interesante factorizar previamente las variables y realizar el Cluster con factores en lugar de con variables. El tipo de escala de medida afectar a fases posteriores del procedimiento.
ANLISIS CLUSTER
3.- MEDIDAS DE SIMILITUD O DISTANCIA TIPOS A.CORRELACIN: Se traslada el concepto tradicional de covariacin, de conexin entre variables, de "pautas" de transicin (por ejemplo, el clculo de un coeficiente de correlacin) aplicndolo a las observaciones de los sujetos como si fuesen observaciones de variables. Medidas de SIMILITUD / DISTANCIA: Definen proximidad, no Covariacin, y su eleccin (tipos) viene determinada por la escala de medida de las variables: binaria u ordinal o de intervalo/razn.
B.-
Medidas de distancia para escalas ordinales, de intervalo o razn; amplia variedad, Medidas de similitud para variables nominales binarias: reciben el nombre de medidas de asociacin
ANLISIS CLUSTER
ALGUNAS MEDIDAS DE DISTANCIA
EUCLDEA (para "t" variables)
dij =
(X
k =1
ik
X jk )2
Problemas con las unidades de medida: normalizacin previa de variables recomendable. Ojo: en SPSS obtenemos por defecto su cuadrado
d ij = X ik X jk
k =1
Problemas con la colinealidad. En SPSS esta medida aparece con el nombre de BLOCK
s dij = (X ik X jk ) k =1
t
ANLISIS CLUSTER
D 2 DE MAHALANOBIS
d ij = (X i X j )
(X
Xj)
Donde Xi y Xj son matrices fila (1 x p) de observaciones para cada sujeto y es la matriz de varianzas - covarianzas de las variables consideradas.
Dos ventajas de la D 2:
A 1 1 0
B 0 1 1
VARIABLE C 0 0 1
D 1 1 0
E 1 1 1
Convenimos: (a) si los individuos I y J tienen la variable, (b) si el individuo I tiene la variable y J no, (c) el individuo J tiene la variable e I no, (d) los individuos I y J no tienen la variable y p =a+b+c+d
(* *)
SEMEJANZA SIMPLE: (a+d) /p JACARD: a / (a+b+c) DICE: 2a/ (2a+b+c+) (* *) RUSSELL Y KAO: a/p
ANLISIS CLUSTER
4.- ALGORITMO DE AGRUPACIN - DIVISIN PARA LA OBTENCIN DE CONGLOMERADOS I. JERRQUICOS ARBOL) (ESTRUCTURA PROGRESIVA
ANLISIS CLUSTER
MTODOS JERRQUICOS
Definicin: la agrupacin se realiza mediante proceso un con fases de agrupacin o desagrupacin sucesivas. El resultado final es una jerarqua de unin completa en la que cada grupo se une o separa en una determinada fase. Mtodo jerrquico aglomerativo:
ANLISIS CLUSTER
DISTINTOS MTODOS AGLOMERATIVOS (Ejemplos)
La seleccin de uno u otro mtodo se basa en la forma en que la distancia se considera en el algoritmo de agrupacin:
ANLISIS CLUSTER
SCI = SCI K
k =1
SCI K = X ijk X ik
i =1 j =1
nk
Suma cuadrtica intra del grupo k Suma de desviaciones en todas las variables (m) para todos los sujetos (nj ) dentro del grupo k.
ANLISIS CLUSTER
DISTINTOS MTODOS NO JERRQUICOS (Ejemplos)
II.B.- UMBRAL SECUENCIAL
Se seleccionan una tras otra, "semillas" de conglomerado agrupando en torno a ellas todos los objetos que caen dentro de una determinada distancia. Cada objeto ya asignado no se considera para posteriores asignaciones.
III.D.- OPTIMIZACIN
Similares a los jerrquicos pero no se clasifican como tales porque en las etapas sucesivas se permite la reasignacin de sujetos.
ANLISIS CLUSTER
5.- NMERO PTIMO DE GRUPOS
No existen criterios objetivos y ampliamente vlidos Hay una IDEA importante: A medida que vamos formando grupos estos son menos homogneos (las distancias para las que se forman los grupos iniciales son menores que las de los grupos finales)..... pero la estructura es ms clara... Por tanto, podemos fijar un OBJETIVO: Identificar el punto de equilibrio entre la estructura incompleta y la estructura mezclada o confusa..... No obstante, tenemos un problema......: Es difcil definir conceptualmente y ms an estadsticamente la situacin de estructura correcta, no confusa, o la contraria de falta de estructura. (Estructura por asociacin o diferenciacin).... NOS APOYAREMOS, PARA DEFINIR LA ESTRUCTURA, en la observacin, tanto de las variables iniciales, como de la definicin inicial de los sujetos y el significado de cada una de las etapas del proceso de agrupacin. Podemos, adems, utilizar alguna herramienta tcnica: discriminante, cada brusca en la similitud o en la homogeneidad, .... dendograma, .
ANLISIS CLUSTER
TCNICAS DE AYUDA PARA DETERMINAR LA AGRUPACIN PTIMA
- Observacin de la variacin intragrupal Variacin Intra Total
Punto de C. Tendencia
Nmero de Grupos
.. 7
25
ANLISIS CLUSTER
- Grfico ICICLE
Sujetos
1 1 2 3 4 5 6 7 8 9 10 11
1 2
1 0
1 1
Nmero de grupos
Las barras negras delimitan la separacin entre grupos. En el ejemplo, los cinco grupos son: (1,6) - (2,4) (3,12,7,5,9,10) (8) y (11)