Você está na página 1de 45

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 1

Alumna: Javiera Soledad Carmona Lpez

2013

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 2

Anlisis Cluster

Contenidos
1. Introduccin ................................................................................................................................................... 3 2. Objetivos ........................................................................................................................................................... 4 3. Qu es el anlisis cluster? ................................................................................................................... 5 4. Cmo funciona el anlisis cluster? ............................................................................................... 8 5. Proceso de decision con el anlisis cluster................................................................................ 9 5.1 Primer Paso: Objetivos del anlisis............................................................................................ 9 5.2 Segundo Paso: Diseo de Investigacin mediante anlisis Cluster ................ 11 5.3 Tercer Paso: Supuestos del Anlisis cluster........................................................................ 14 5.4 Cuarto Paso: Obtencin de conglomerados y valoracin del ajuste conjunto .......................................................................................................................................................... 17 5.5 Paso 5: Interpretacin de los conglomerados .............................................................. 20 5.6 Paso 6: Validacin y perfil de los grupos ........................................................................... 21 6. Ejemplo Prctico con programa SPSS ........................................................................................ 23 7. Ejemplo Prctico R ................................................................................................................................... 35 8. Conclusiones ................................................................................................................................................ 44 9. Bibliografa ..................................................................................................................................................... 45

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 3

Anlisis Cluster
1. Introduccin
Los acadmicos y los investigadores de mercado se encuentran a menudo con situaciones cuya mejor forma de resolverlas es definiendo grupos de objetos homogneos, tanto si son individuos como si son empresas, productos o incluso comportamientos. Las opciones estratgicas basadas en los grupos identificados en la poblacin, como la segmentacin y los objetivos de marketing no seran posibles sin una metodologa objetiva. Esta misma necesidad se encuentra en otras reas, que van desde las ciencias naturales a las ciencias sociales. En todos estos casos, el investigador est buscando una estructura <<natural>> entre las observaciones basadas en un perfil multivariante. La tcnica ms utilizada para este fin es el Anlisis Cluster. El anlisis cluster agrupa a los individuos y a los objetos en conglomerados, de tal forma que los objetos del mismo conglomerado son ms parecidos entre s que a los objetos de otros conglomerados. Lo que se intenta es maximizar la homogeneidad de los objetos dentro de los objetos dentro de los conglomerados mientras que a la vez se maximiza la heterogeneidad entre los agregados. El captulo 9 del Anlisis Multivariante (Hair, Anderson, Tatham y Black, 5 Edicin) explica la naturaleza y el propsito del anlisis cluster y gua al investigador en la seleccin y uso de los diversos enfoques del mismo.

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 4

2. Objetivos
Definir las cuestiones apropiadas a investigar para ser tratadas por el anlisis cluster. Entender cmo se mide la similitud entre objetos. Distinguir entre las diferentes medidas de distancia. Diferenciar entre los algoritmos de cluster y sus aplicaciones adecuadas. Entender las diferencias entre las tcnicas cluster jerrquicas y no jerrquicas. Entender cmo se selecciona el nmero de conglomerados a formar. Seguir las lneas principales de validacin del conglomerado. Construir los perfiles de los conglomerados derivados y evaluar su significacin prctica. Exponer las limitaciones del anlisis cluster. Utilizar el programa computacional de Estadstica R para la ejemplificacin y aplicacin del Anlisis Cluster.

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 5

3. Qu es el anlisis cluster?
El anlisis cluster es la denominacin de un grupo de tcnicas multivariantes cuyo principal propsito es agrupar objetos basndose en las caractersticas que poseen. El anlisis cluster clasifica objetos(es decir, encuestados, productos u otras entidades) de tal forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algn criterio de seleccin predeterminado. Los conglomerados de los objetos resultantes deberan mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de heterogeneidad externa (entre conglomerados). Por tanto si la clasificacin es acertada, los objetos dentro de los conglomerados estarn muy prximos cuando se representen grficamente, y los diferentes grupos estarn muy alejados. En el anlisis Cluster, de nuevo el concepto de valor terico es central, pero en forma muy diferente del resto de las tcnicas multivariantes. El valor terico del Anlisis cluster es el conjunto de variables que representan las caractersticas utilizadas para comparar objetos en el anlisis cluster. Dado que el valor terico del anlisis cluster incluye slo las variables utilizadas para comparar objetos, determina el <<carcter>> de los objetos. El anlisis cluster es la nica tcnica multivariante que no estima el valor terico empricamente sino que utiliza el valor terico especificado pro el investigador. El objetivo del anlisis cluster es la comparacin de objetos basndose en el valor terico, no en la estimacin del valor terico en s misma. Esto hace crucial la definicin que d el investigador al valor terico para el anlisis cluster. El anlisis de cluster es un mtodo que permite descubrir asociaciones y estructuras en los datos que no son evidentes a priori pero que pueden ser tiles una vez que se han encontrado. Los resultados de un Anlisis de Clusters

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 6


pueden contribuir a la definicin formal de un esquema de clasificacin tal como una taxonoma para un conjunto de objetos, a sugerir modelos estadsticos para describir poblaciones, a asignar nuevos individuos a las clases para diagnstico e identificacin, etc. El anlisis cluster es muy til cuando un investigador desea desarrollar las hiptesis concernientes a la naturaleza de los datos o para examinar las hiptesis previamente establecidas. Por ejemplo, un investigador puede creer que las actitudes hacia el consumo de refrescos normales frente a <<lights>> podran utilizarse para separar a los consumidores de refrescos en segmentos lgicos o grupos. El anlisis cluster puede clasificar consumidores de refrescos por sus actitudes hacia los refrescos normales frente a los light, y los conglomerados resultantes, si los hay, pueden perfilarse mediante diferencias y similitudes demogrficas y similitudes demogrficas. Estos ejemplos son slo una reducida fraccin de los tipos de aplicaciones del anlisis cluster. Desde la derivacin de taxonomas en biologa para la agrupacin de todos los organismos vivientes a clasificaciones psicolgicas basadas en la personalidad y otros rasgos personales, pasando por los anlisis de segmentacin de los mercados, el anlisis cluster ha tenido siempre una fuerte tradicin en la agrupacin de individuos. Esta tradicin se ha extendido a la clasificacin de objetos, incluyendo la estructura de mercado, anlisis de similitudes y diferencias entre productos nuevos y evaluacin de rendimiento de empresas para identificar agrupaciones basadas en las estrategias de las empresas u orientaciones estratgicas. El resultado ha sido una profusin de aplicaciones en casi todas las reas de investigacin, creando no slo una riqueza de conocimiento en el uso del anlisis de conglomerados sino tambin la necesidad de una mejor comprensin de la tcnica para minimizar su mala utilizacin. Sin embargo junto con los beneficios del anlisis cluster existen algunos inconvenientes. El anlisis cluster puede caracterizarse como: Descriptivo. Aterico. No inferencial.

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 7


El anlisis cluster no tiene bases estadsticas sobre las cuales deducir inferencias estadsticas para una poblacin a partir de una muestra, y se utiliza fundamentalmente como una tcnica exploratoria. Las soluciones no son nicas, en la medida en que la pertenencia al conglomerado para cualquier nmero de soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas soluciones diferentes variando uno o ms de estos elementos. Adems, el anlisis cluster crear conglomerados, a pesar de la existencia de una autntica estructura en los datos. Finalmente, la solucin cluster es totalmente dependiente de las variables utilizadas como base para la medida de similitud. La adicin o destruccin de variables relevantes puede tener un impacto sustancial sobre la solucin resultante. Por tanto, el investigador debe tener particular cuidado en evaluar el impacto de cada decisin implicada en el desarrollo de un anlisis cluster.

Anlisis de Interdependencia

Relacin entre variables

Relacin entre casos

Relacin entre objetos

Mtricas

No Mtricas

Componentes principales Anlisis Factorial

Anlisis Correspondencias

Anlisis Cluster

Escalamiento multidimensional

Figura1: Tipos de Anlisis de Interdependencia

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 8

4. Cmo funciona el anlisis cluster?


La naturaleza del anlisis cluster puede ilustrarse mediante un simple ejemplo bivariante. El objetivo principal del anlisis cluster es definir la estructura de los datos colocando las observaciones ms parecidas en grupos. Pero para llevar a cabo la tarea, se debe tratar 3 cuestionamientos bsicos. I. Cmo medimos la similitud? Se necesita un mtodo de observaciones simultneamente comparadas sobre 2 variables de aglomeracin. Son posibles varios mtodos, incluyendo la correlacin entre objetos, una medida de asociacin utilizada en otras tcnicas multivariantes o quiz midiendo su proximidad en un espacio bidimiensional de tal forma que la distancia entre las observaciones indica similitud. II. Cmo formamos los conglomerados? No importa cmo se mida la similitud, el procedimiento debe agrupar aquellas observaciones que son ms similares dentro de un conglomerado. Este procedimiento debe determinar la pertenencia al grupo de cada observacin. III. Cuntos grupos formamos?

Puede utilizarse cualquier nmero de <<reglas>>, pero la tarea fundamental es evaluar la similitud <<media>> dentro de los conglomerados, de tal forma que a medida que la media aumenta, el conglomerado se hace menos similar. El investigador se enfrenta a continuacin a un trade-off: pocos conglomerados frente a menos homogeneidad. Una estructura simple, al tender hacia la parsimomia, se refleja en el menor nmero de conglomerados posible. Pero a medida que el nmero de conglomerados disminuye, la homogeneidad dentro de los conglomerados necesariamente disminuye. Por tanto, se debe buscar un equilibrio entre la definicin de las estructuras ms bsicas (pocos conglomerados) que todava mantienen el necesario nivel de similitud dentro de los conglomerados. Una vez que se tenga procedimientos para cada asunto, se podr realizar el anlisis cluster.

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 9

5. Proceso de decision con el anlisis cluster


El anlisis cluster, puede verse como una aproximacin a la construccin de modelos en seis pasos. Comenzando con los objetivos de investigacin que pueden ser tanto confirmatorios como exploratorios, el diseo de un anlisis cluster interviene en la participacin del conjunto de datos para formar conglomerados, la interpretacin de los conglomerados y la validacin de los resultados, el proceso de participacin determina como se pueden desarrollar los conglomerados. El proceso que defina apropiadamente de interpretacin implica entender las caractersticas de cada conglomerado y desarrollar un nombre o etiqueta su naturaleza. El proceso final comprende la evaluacin de la validacin de la solucin cluster (es decir, determinacin de su estabilidad y generalidad), junto con la descripcin de las caractersticas de cada conglomerado para explicar cmo puede diferir en dimensiones relevantes como las demogrficas. Las siguientes secciones detallan todos estos asuntos a lo largo de un proceso de construccin de modelos.

5.1 Primer Paso: Objetivos del anlisis


El objetivo fundamental del anlisis cluster es la obtencin de un conjunto de objetos en dos o ms grupos basndose en su similitud para un conjunto de caractersticas especificadas (valor terico del anlisis cluster). Al formar grupos homogneos, el investigador puede conseguir los siguientes objetivos: I. Descripcin de una taxonoma: El uso ms tradicional del anlisis cluster ha sido para propsitos exploratorios y la formulacin de una taxonoma una clasificacin de objetos realizada empricamente .Como se ha descrito previamente, el anlisis cluster se ha utilizado para un amplio rango de aplicaciones debido a su capacidad para la participacin. Pero el anlisis cluster puede generar tambin hiptesis relacionadas con la estructura de los objetos. Sin embargo, aunque visto principalmente como una tcnica de exploracin, el anlisis cluster puede utilizarse a efectos confirmatorios. Si una estructura propuesta puede definirse para un

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 10


conjunto de objetos, se puede aplicar el anlisis cluster, y puede compararse una tipologa propuesta (clasificacin basada en la teora) a la derivada del anlisis cluster. II. Simplificacin de los datos: En el curso de una obtencin Con una estructura definida, de una taxonoma, el anlisis cluster las observaciones pueden agruparse tambin obtiene una perspectiva simplificada de las observaciones. para anlisis ulteriores. Mientras el anlisis factorial intenta proporcionar dimensiones o estructuras de variables, el anlisis cluster desarrolla la misma tarea para las observaciones .Por tanto, en lugar de ver todas las observaciones miembros generales. III. Identificacin de relacin: Con los conglomerados definidos y la estructura subyacente de los datos representados en dichos conglomerados, el investigador tiene un medio de revelar anlisis tales relaciones entre las observaciones que quiz el discriminante para identificar no fuesen posibles con las observaciones individuales. Mientras se utilizan como relaciones empricamente, o los grupos estn sujetos a mtodos ms cualitativos, la estructura simplificada del anlisis cluster muchas veces representa relaciones o similitudes y diferencias no reveladas previamente. Seleccin de variables del anlisis cluster En cualquier aplicacin, los objetivos del anlisis cluster no pueden separarse de la seleccin de variables y utilizadas para caracterizar los objetos a agrupar. Tanto si el objetivo es exploratorio como confirmatorio, el investigador ha restringido efectivamente los resultados posibles por las variables elegidas para el uso. Los conglomerados derivados reflejan la estructura inherente de los datos slo como definida por la variable. La seleccin de las variables a incluir con el valor terico del anlisis cluster debe hacerse con relacin a consideraciones tericas, conceptuales y como nicas, pueden ser consideradas como de un conglomerado y perfiladas por sus caractersticas

10

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 11


prcticas. Cualquier aplicacin de anlisis cluster debe descansar en cierta lgica en funcin de la cual se seleccionan las variables. Tanto si dicha lgica se basa en una teora explicita, investigacin pasada o suposicin, el solo aquellas investigador debe darse cuenta de la importancia de incluir refieren especficamente los objetivos del anlisis cluster. Las tcnicas del anlisis cluster no tienen un medio para diferenciar las

variables que (1) caracterizan los objetos que se estn agrupando, y (2) se

variables relevantes de las irrelevantes. Solo obtiene los grupos de objetos ms consistentes, aunque diferenciados, para todas las variables. La conclusin de una variable irrelevante aumenta la posibilidad de que se creen atpicos sobre stas variables, que puedan tener un efecto importante sobre los resultados. Por tanto, uno nunca debera incluir variables indiscriminadamente sino en su lugar elegir las variables utilizando el objetivo de investigacin como criterio de seleccin. A efectos prcticos, el anlisis cluster puede verse drsticamente afectada por la inclusin de una o dos variables inapropiadas o escasamente diferenciadas. Se anima al investigador a examinar los resultados y eliminar las variables que no son distintivas (es decir, que no difieren significativamente) de todos los conglomerados deducidos. Este procedimiento permite a las tcnicas cluster maximizar los conglomerados definidos basndose solo en aquellas variables que exhiban diferencias para todos los objetos.

5.2 Segundo Paso: Diseo de Investigacin mediante anlisis Cluster


Con los objetivos definidos y variables seleccionadas, el investigador debe tratar tres cuestiones antes de empezar el proceso de particin: (1)Pueden detectarse los atpicos y, si es posible, deberan ser destruidos? (2)Cmo debera medirse la similitud de los objetos? (3)Deberan estandarizarse los datos? Se pueden utilizar muchos enfoques para contestar a estas preguntas. Sin embargo, ninguno de ellos ha sido evaluado suficientemente como para

11

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 12


ofrecer una respuesta definitivamente a cualquiera de esas cuestiones, y, desafortunadamente, muchas de las aproximaciones ofrecen diferentes resultados para el mismo conjunto de datos. Por tanto, el anlisis cluster junto con el anlisis factorial, es ms un arte que una ciencia. Por sta razn, nuestra discusin revisa stos supuestos de forma muy general ofreciendo ejemplos de los enfoques habitualmente ms utilizados y una evaluacin de las limitaciones prcticas siempre que sea posible. La importancia de estos supuestos y las decisiones hechas en los ltimos pasos se hacen aparentes cuando nos damos cuenta de que aunque el anlisis cluster est buscando una estructura de los datos debe imponer en realidad una estructura a partir de una metodologa seleccionada. El anlisis Cluster no puede evaluar todas las posibles participaciones porque, incluso para un problema relativamente pequeo de participacin de 25 objetos en 5 conglomerados no solapados, existen 2,4 x 10^15 participaciones posibles. En su lugar basndose en las decisiones del investigador, la tcnica identificada una de las posibles situaciones como (correcta). Desde ste punto de vista, los supuestos del diseo de investigacin y la eleccin de metodologas hechas por el investigador tienen quizs un impacto superior al del resto de las tcnicas multivariables. Deteccin de Atpicos En la bsqueda de una estructura, el anlisis cluster es muy sensible a la inclusin de variables irrelevantes. Pero el anlisis cluster es tambin sensible a los atpicos. Los atpicos pueden representar tanto (1) Observaciones verdaderamente aberrantes que no son representativas de la poblacin en general. (2) Una muestra reducida del grupo de la poblacin que provoca una mala representacin del grupo de la muestra. En ambos casos, los atpicos distorsionan la verdadera estructura de la poblacin. Por esta razn, siempre es necesaria una representacin preliminar

12

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 13


de los atpicos. Probablemente la forma ms sencilla de llevar a cabo es esta representacin es preparar un diagrama de perfil grfico, tal como se muestra en la figura.

Figura 2: Perfiles de Clusters, segn fuentes de seguridad econmica de los adultos mayores. Medidas de Similitud La similitud es una medida de correspondencia o semejanza entre los objetos que van a ser agrupados. La estrategia ms comn consiste en medir la equivalencia en trminos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son ms parecidos entre s que aquellos que tienen distancias mayores y se agruparan, por tanto, dentro del mismo cluster. Segn la clasificacin de Sneath y Sokal (Prez, 2007) existen cuatro grandes tipos de medidas de similitud: I. II. Distancias: pone el nfasis en sobre el grado de diferencia o existente entre dos elementos. El ejemplo ms clsico es la distancia eucldea. Coeficientes de asociacin: se utiliza preferentemente para datos cualitativos. Estas medidas son, bsicamente, una forma de medir la concordancia o conformidad entre los estados de dos columnas de datos.

13

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 14


III. Coeficientes angulares: se utilizan para medir la proporcionalidad e independencia entre los vectores que definen los individuos. El ms comn es el coeficiente de correlacin aplicado a variables continuas. IV. Coeficientes de similitud probabilstica: miden la homogeneidad del sistema por particiones o subparticiones del conjunto de individuos e incluye informacin estadstica. Se relacionan los coeficientes a diferentes clasificaciones utilizando para ellas criterios de bondad o buenos ajustes estadsticos. Tipificacin de datos La mayora de las medidas de distancias son bastantes sensibles a las diferentes escalas o magnitudes de las variables. En general, las variables con una mayor dispersin (es decir, grandes desviaciones estndar) tienen mayor impacto en el valor final de similitud. La forma ms comn de estandarizacin es la conversin de cada variable a unas puntuaciones estndar (puntuaciones Z) restando la media y dividiendo por la desviacin de cada variable. Este proceso convierte cada puntuacin de los datos originales en un valor estandarizado con media de 0 (cero) y desviacin estndar de 1 (uno). Esta transformacin, a cambio, elimina el sesgo introducido por las diferencias en las mediciones de varios atributos o variables utilizadas en el anlisis. Tambin existe la estandarizacin por observacin, si se quiere identificar los grupos de acuerdo a su estilo de respuesta en una encuesta. En este caso la estandarizacin por encuestado estandarizara cada cuestin no por la media de la muestra sino por la puntuacin del encuestado. Esta tipificacin entre sujetos o centrada por filas puede ser bastante efectiva al eliminar efectos de respuestas y especialmente adecuada para muchas formas de datos de actitud.

5.3 Tercer Paso: Supuestos del Anlisis cluster


El anlisis cluster no es tcnica de inferencia estadstica en la que se analizan los parmetros de una muestra en la medida en que puedan ser representativos de una poblacin. Por el contrario, este anlisis es una

14

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 15


metodologa objetiva de cuantificacin de las caractersticas estructurales de un conjunto de observaciones. Por ello, tiene fuertes propiedades matemticas pero no fundamentos estadsticos. Los requisitos de normalidad, linealidad y homocedasticidad tienen poca consistencia en el anlisis cluster. Sin embargo, se debe centrar la atencin en dos cuestiones esenciales: representatividad de la muestra y la multicolinealidad. La multicolinealidad acta como proceso de ponderacin no aparente para el observador pero que sin embargo afecta al anlisis. Aquellas variables que son multicolineales estn implcitamente ponderadas con ms fuerza. La solucin a este problema es, o bien reducir las variables al mismo nmero en cada conjunto o bien utilizar la medida de distancia de Mahalanobis que compensa esta correlacin.

15

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 16

Figura 3: Diagrama de decisin de los pasos 1-3. (Anlisis multivariante, 5ta edicin de Hair, Anderson, Tatham y Black).

16

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 17

5.4 Cuarto Paso: Obtencin de conglomerados y valoracin del ajuste conjunto


Los diferentes mtodos de anlisis de conglomerados surgen de las distintas formas de llevar a cabo la agrupacin de los individuos, es decir, dependiendo del algoritmo que se utilice para llevar a cabo la agrupacin de individuos, se obtienen diferentes mtodos de anlisis de conglomerados. Prez Lpez (2007) proporciona la siguiente clasificacin de los mtodos de anlisis cluster basada en los algoritmos de agrupacin de individuos:

I.

Mtodos Aglomerativos-Divisivos: mtodo aglomerativo es aquel que considera tantos grupos como individuos y sucesivamente va agrupando los dos grupos ms similares, hasta llegar a una clasificacin determinada; mientras que el mtodo divisivo parte de un solo grupo formado por todos los individuos, y en cada etapa posterior va apartando individuos de formando nuevos grupos. los grupos establecidos anteriormente,

II.

Mtodos Jerrquicos-No Jerrquicos: el mtodo jerrquico consiste en una secuencia de g+1 cluster: G0, , Gg en la que G0 es la participacin disjunta de todos los individuos y Gg es el conjunto particin. Progresivamente, el nmero de partes de cada una de las particiones disminuye, lo que hace que estas sean cada vez ms amplias y menos homogneas. Por el contrario, en el mtodo no jerrquico se forman grupos homogneos sin establecer relaciones de orden o jerrquicas entre dichos grupos.

III.

Mtodos Solapados-Exclusivos: el mtodo solapado acepta que un individuo pueda pertenecer a dos grupos simultneamente en alguna de las etapas de clasificacin, mientras que se dice exclusivo si prohbe a los individuos pertenecer simultneamente a dos grupos en la misma etapa.

IV.

Mtodos Secuenciales-Simultneos: en el mtodo secuencial se aplica el mismo algoritmo en forma recursiva a cada grupo, mientras que los mtodos simultneos son aquellos en los que la clasificacin se logra por una simple y no reiterada operacin sobre los individuos.

17

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 18


V. Mtodos Monotticos-Politticos: el mtodo monottico est basado en una caracterstica nica de los objetos a clasificar; mientras que el polittico no exige que todos los objetos posean las mismas caractersticas, aunque s las suficientes como para poder justificar la analoga entre los miembros de una misma clase. VI. Mtodos Directos-Iterativos: el mtodo directo utiliza algoritmos en los que una vez establecido un individuo a un grupo ya no se saca del mismo, mientras que los mtodos iterativos comprueban en cada iteracin si la asignacin de un individuo a un conglomerado es ptima llevando a cabo un nuevo reagrupamiento de los individuos si es necesario. VII. Mtodos Ponderados-No Ponderados: el mtodo no ponderado establece el mismo peso a todas las caractersticas (o variables) de los individuos a clasificar; mientras que el ponderado hace recaer mayor peso en determinadas caractersticas. VIII. Mtodos Adaptativos-No Adaptativos: en el mtodo no adaptativo, el algoritmo utilizado se dirige hacia una solucin en la que el procedimiento de formacin de conglomerados es fijo y est predeterminado, mientras que el adaptativo es aquel que de alguna manera aprende durante el proceso de formacin de los grupos y cambia el criterio de optimizacin o la medida de similitud a utilizar. Los mtodos de anlisis de conglomerados que ms se usan son los que son a la vez secuenciales, aglomerativos, jerrquicos y exclusivos, y que reciben el acrnimo, en lengua inglesa, de S.A.H.N. (Sequential, Agglomerative, Hierarchic y Nonoverlaping). Entre los diferentes mtodos de anlisis de conglomerados de tipo S.A.H.N. tenemos los siguientes:

Mtodo de Unin Simple, entorno o vecino ms cercano o mtodo del mnimo. Mtodo de la distancia mxima, entorno o vecino ms lejano o mtodo del mximo. Mtodo de la media o de la distancia promedio no ponderado. Mtodo de la media ponderada o de la distancia promedio ponderado.

18

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 19


Mtodo de la mediana o de la distancia mediana. Mtodo del centroide o de la distancia prototipo. Mtodo de Ward o de mnima varianza.

Los mtodos no jerrquicos se diferencian de los mtodos jerrquicos en que el investigador debe especificar a priori los grupos que deben ser formados y que trabajan con la matriz de datos original y no requieren su conversin a una matriz de proximidades. Pedret en (Prez, 2007) agrupa los mtodos no jerrquicos en las cuatro familias siguientes: I. Mtodos de reasignacin: admiten que un objeto asignado a un grupo en un paso del proceso sea reubicado en otro grupo en un paso posterior si esto optimiza el criterio de seleccin. El proceso concluye cuando no quedan individuos cuya reasignacin permita optimizar el resultado. El algoritmo ms conocido dentro de estos mtodos es el mtodo de K-medias. II. Mtodos de bsqueda de la densidad: presentan dos aproximaciones. La aproximacin tipolgica, donde los grupos se forman buscando las zonas en las cuales se da una mayor concentracin de individuos. El anlisis modal de Wishart es uno de los algoritmos ms conocidos dentro estos mtodos. En la aproximacin probabilstica, se parte del postulado de que las variables siguen una ley de probabilidad segn la cual los parmetros varan de un grupo a otro. Se trata de encontrar los individuos que pertenecen a la misma distribucin. Se destaca en esta aproximacin el mtodo de las combinaciones de Wolf. III. IV. Mtodos directos: clasifican simultneamente a los individuos y a las variables. Mtodos de reduccin de dimensiones: buscan factores en el espacio de los individuos, correspondiendo cada factor a un grupo. Determinacin del nmero de conglomerados en la solucin final Como ya habr quedado claro, en la seleccin de la solucin cluster definitiva se deja al juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso aunque se han desarrollado mtodos ms sofisticados para ayudar en la evaluacin de las soluciones cluster, sigue recayendo en el investigador de la decisin final del nmero de conglomerados aceptados en

19

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 20


la solucin final. El anlisis cluster es ms simple en este caso bivariante porque los datos estn en dos dimensiones. En la mayora de los estudios de marketing, sin embargo, se miden ms de dos variables con cada objeto, y la situacin es mucho ms compleja con muchas ms observaciones.

5.5 Paso 5: Interpretacin de los conglomerados


Una vez configurados los conglomerados definitivos, conviene caracterizarlos mediante un patrn de comportamiento respecto a las variables observadas. El mtodo ms usual de caracterizacin consiste en representar los perfiles de las medias aritmticas por variables de los distintos centroides. La interpretacin y el perfil de los grupos comprenden el anlisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. El objetivo de esta etapa es, esencialmente, examinar la variacin de los clusteres para asignar etiquetas que describan de un modo veraz su naturaleza. Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es ms que la descripcin de las caractersticas de cada cluster para explicar cmo podran inferir en dimensiones relevantes. Para conseguir esto, se recurre normalmente al empleo del Anlisis Discriminante o a algn otro estadstico apropiado. El analista utiliza los datos no incluidos previamente en el procedimiento de aglomeracin para perfilar las caractersticas de cada cluster. Estos datos suelen ser caractersticas demogrficas, perfiles psicogrficos, etc. En resumen, el anlisis de perfiles se enfoca a describir no a lo que determinan directamente los clusters sino (una vez se han determinado los distintos grupos) a sus caractersticas propias. Por ello, se hace especial nfasis en las caractersticas que definen los grupos y en la capacidad de los miembros de cada conglomerado para predecir una actitud particular del cluster en cuestin.

20

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 21

5.6 Paso 6: Validacin y perfil de los grupos


La validacin incluye los intentos del investigador por asegurar que la solucin cluster es representativa de la poblacin general y por tanto generalizable a otros objetos y estable en el tiempo. La aproximacin ms directa en este sentido es realizar anlisis cluster para muestras distintas. Dados los criterios generales que comprende el anlisis cluster, no debe aceptarse ninguna solucin de agrupacin sin una evaluacin de su confianza y validez. La validacin es el intento por parte del analista de asegurar que los clusters obtenidos sean representativos de la poblacin original y que sean generalizables a otros objetos y estables a lo largo del tiempo. Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los resultados de la agrupacin: Realizar el anlisis cluster con los mismos datos y utilizar distintas medidas de distancia. Comparar los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones. Utilizar diversos mtodos de conglomerado y comparar los resultados. Dividir los datos a la mitad de forma aleatoria. Realizar el anlisis cluster por separado en cada mitad (submuestra). Comparar las soluciones de los dos anlisis y evaluar la correspondencia de los resultados o bien comparar los centroides de grupo de las dos submuestras. Eliminar las variables de forma aleatoria. Realizar la agrupacin basndose en el conjunto reducido de variables. Comparar los resultados basados en el conjunto completo con los que se obtuvieron al realizar el conglomerado.

En el conglomerado no jerrquico la solucin puede depender del orden de los casos en el conjunto de datos. Para estudiar esto, es recomendable llevar a cabo corridas mltiples y utilizar distintos rdenes de los casos hasta estabilizar la solucin.

21

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 22

Figura 4: Diagrama de decisin de los pasos 4-6. (Anlisis multivariante, 5ta edicin de Hair, Anderson, Tatham y Black).

22

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 23

6. Ejemplo Prctico con programa SPSS


Formulacin del problema La idea de regin hace referencia a espacios geogrficos constituidos en razn de homogeneidades o similitudes socioeconmicas, de nodos funcionales o de proyectos unitarios de accin (Boudeville citado en Clment, 2000). En este trabajo se ha aplicado el anlisis cluster a las distintas comunidades regionales de la provincia de Crdoba buscando una estructura natural que identifique grandes zonas de anlisis basndose en el parecido o similaridad existente entre ellas. Inicialmente, se parte de una matriz de datos n x p con n=26 observaciones departamentos- y p=13 variables. Las variables corresponden a indicadores socioeconmicos respecto de la poblacin de la provincia de Crdoba y estn elaboradas a partir de los Informes Departamentales en el ao 2006 realizados por la Direccin General de Estadsticas y Censos de la provincia de Crdoba. Entre las caractersticas recolectadas se encuentran: el Producto Bruto Geogrfico per cpita (PBG), Gasto Pblico Provincial per cpita, Planes de Empleo por cada mil habitantes, Inseguridad, Inversin Pblica Provincial, Poblacin Total, (NBI), Tipo de Vivienda, Social, Condicin Necesidades Bsicas Insatisfechas Obra Ocupacin, Jubilacin, Fecundidad,

Educacin. La descripcin de las variables se encuentra detallada en el anexo de este trabajo. Seleccin de las variables a utilizar El anlisis cluster debe atender a dos criterios, que la muestra sea representativa y a la existencia de multicolinealidad. La representatividad de la muestra, en este caso de estudio, no constituye un problema porque las unidades de anlisis implican toda la estructura de la poblacin. Sin embargo, en una etapa preliminar del anlisis se puede anticipar la existencia de multicolinealidad entre las variables por la naturaleza del problema que se est trabajando, las variables en su conjunto representan atributos socio-econmicos de la poblacin en los distintos departamentos. Para detectar formalmente la existencia de multicolinealidad se utiliza como

23

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 24


medida estadstica la Tolerancia2. Este estadstico confirma que las variables incorporadas al trabajo presentan un alto grado de colinealidad. Por ello, se procede a eliminar del modelo aquellas variables con ms baja Tolerancia. Las variables PBG, Inseguridad, Inversin Pblica, Poblacin y NBI resultan con un grado de multicolinealidad mnimo y, perfectamente puede continuarse el trabajo de anlisis sin adoptar medidas remediables.

La tabla con la estadstica descriptiva revela la gran variabilidad de los datos en cada variable y la diferencia de escalas entre ellas, lo que justifica la estandarizacin. Diseo de la investigacin El primer paso dentro del diseo de investigacin es decidir sobre la medida de similitud entre los objetos. Entre las distintas alternativas, se ha optado por la distancia eucldea al cuadrado dado que el conjunto de variables incorporadas es mtrico. Como las variables se encuentran medidas en distintas escalas es necesario que se estandaricen previamente, para ello se elige la tipificacin a travs de las puntuaciones Z para cada variable. El siguiente paso ha consistido en la eleccin del mtodo de aglomeracin. En el ejemplo que aqu se expone, de las distintas aproximaciones posibles para obtener grupos mediante esta tcnica, se ha elegido el mtodo de agrupamiento jerrquico. Adems, el mtodo de encadenamiento escogido es el mtodo de Ward o de varianza mnima. La idea bsica de este mtodo es ir agrupando elementos, en este caso departamentos de la provincia de Crdoba, de forma jerrquica y minimizando la variacin intragrupo de la estructura formada.

24

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 25


Interpretacin y Elaboracin del Perfil de los Clusteres A continuacin, se detallan los resultados de aplicar el Anlisis de Conglomerado Jerrquico Aglomerativo con el Mtodo de Ward utilizando el paquete estadstico SPSS. Determinacin del nmero de grupos

El historial de aglomeracin muestra las distancias de aglomeracin y los grupos que se han ido formando al aplicar el algoritmo. El dendrograma que se expone en la pgina siguiente, proporciona dicha informacin de forma grfica.

25

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 26

Un primer examen del dendrograma indica que la diferencia entre los grupos es amplia, ya que la unin de los mismos se va realizando a niveles de la escala altos, siendo la unin final en el ltimo valor posible, es decir, en el 25. El dendrograma, adems, permite la identificacin visual de la existencia de casos atpicos, donde un atpico sera una rama que no se uni hasta muy tarde. El departamento Capital como grupo unipersonal puede interpretarse como un componente estructural vlido en la muestra, sin embargo, se opta por incluirlo dentro de un cluster junto a otros departamentos con los cuales comparte ciertas caractersticas (que ms tarde se detallan). En cuanto a la decisin del nmero de conglomerados, en esta investigacin se ha optado por elegir la cantidad de grupos segn la claridad de las descripciones para cada uno y su aplicacin prctica. Por tanto, se examina la solucin de tres grupos.

26

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 27


Determinacin del perfil de los grupos Una vez determinada la cantidad de clusters, se debe interpretar el perfil de cada uno de ellos. Las tablas con informacin referida a las cinco variables utilizadas y que permiten el anlisis en esta etapa, se presentan a continuacin.

27

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 28


Junto con la tabla de valores extremos, la comparacin de medias entre grupos permite elaborar el siguiente perfil de los conglomerados: El Grupo 1 est compuesto por 13 departamentos que muestran mayor PBG e Inversin Pblica per cpita. Para las variables Inseguridad, Poblacin y NBI este cluster presenta un nivel menor al promedio poblacional. El Grupo 2 incluye a 4 de los departamentos de mayor tamao poblacional. Sin embargo, se caracteriza por mayor nivel de Inseguridad y menor nivel de Inversin Pblica per cpita. El Grupo 3 queda definido por los 9 departamentos con mayor nivel de NBI y menor tamao poblacional. No obstante, contiene a los departamentos con menor nivel de Inseguridad. En base a estos resultados, puede categorizarse a cada grupo en funcin de su condicin socioeconmica en Alta, Media y Baja; as, el grupo 1 posee una condicin Alta, el grupo 2 un nivel Medio y el grupo 3 una posicin socioeconmica Baja. Por medio del ANOVA y utilizando la variable de conglomerado de pertenencia que resulta del anlisis cluster se puede comprobar la existencia de diferencias significativas entre los grupos obtenidos.

28

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 29

El ANOVA permite indagar sobre la existencia de igualdad de medias entre los conglomerados. De la tabla se advierte que existen diferencias significativas en todas las variables con excepcin de la variable Inversin. Esta variable no sera til para clasificar pues los grupos definidos poseen el mismo nivel promedio de inversin. En un trabajo posterior que avance sobre la aplicacin de esta tcnica, se debera eliminar esta variable o construir un ndice que muestre el desarrollo en Infraestructura para cada departamento.

29

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 30

La tabla anterior contiene el estadstico de Levene, el cual permite contrastar la hiptesis de que las varianzas poblacionales son iguales. Puesto que el nivel crtico de las variables PBG, Inversin y NBI son mayores que 0,05 se acepta la hiptesis de igualdad de varianzas, mientras que para las variables Inseguridad y Poblacin se concluye que en las poblaciones definidas por los tres grupos, las varianzas de las variables no son iguales. Este resultado es til para encarar el anlisis de los grupos por medio del siguiente contraste denominado Comparaciones Mltiples Post Hoc. El ANOVA Post Hoc permite averiguar qu grupos difieren entre s en cada una de las variables. La primera columna de la tabla indica que los procedimientos post hoc seleccionados fueron: la diferencia honestamente significativa (HSD) de Tukey asume varianzas iguales - y el mtodo de Games-Howes no asume varianzas iguales-. Para las variables PBG, Inversin y NBI se debe prestar atencin a la solucin propuesta por Tukey, mientras que, para las variables Inseguridad y Poblacin la solucin apropiada es la de Games-Howes. De la tabla surge que los promedios comparados para la variable PBG no difieren significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos tanto por la variable Inseguridad como por la variable NBI presentan promedios que no difieren significativamente entre s. Por medio del ANOVA Post Hoc, se confirma nuevamente la irrelevancia de la variable Inversin pues los promedios comparados para cada grupo no difieren significativamente. Por ltimo, la variable Poblacin tambin presenta dificultades en la mayora de las comparaciones entre las medias de los grupos.

30

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 31

31

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 32

Validacin de Conglomerados Obtenidos Para confirmar la solucin obtenida del anlisis cluster, se ha aplicado un anlisis factorial y anlisis discriminante sobre la matriz de datos bajo estudio. Anlisis Factorial A continuacin se detalla el resultado del anlisis factorial con la solucin rotada mediante el mtodo Equamax. Para cuantificar las distancias entre las variables se utiliza el coeficiente de correlacin de Pearson y el mtodo de extraccin de factores es por medio de Componentes Principales. La tabla muestra como en el primer factor saturan las variables Inseguridad, Inversin, Poblacin y NBI, mientras que, en el segundo factor satura, fundamentalmente, la variable PBG.

El grfico de Biplot muestra al grupo 1 ms asociado a la variable PBG; el grupo 2 a la variable Poblacin y el grupo 3 se encuentra ms asociado a la variable NBI. Este resultado se correspondera con la solucin hallada en el anlisis cluster.

32

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 33

Anlisis Discriminante Utilizando como variable de clasificacin el conglomerado de pertenencia resultante del anlisis cluster se puede realizar un anlisis discriminante para interpretar la diferencia entre los grupos.

33

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 34


La figura muestra la distribucin de las comunidades departamentales en el espacio definido por las dos funciones discriminantes. Los departamentos del grupo 1 obtienen puntuaciones medias en la primera funcin y puntuaciones bajas en la segunda. Los departamentos del grupo 2 alcanzan puntuaciones altas en las dos funciones discriminantes. Los departamentos del grupo 3 tienen puntuaciones bajas en la primera funcin y puntuaciones medias-altas en la segunda.

La tabla muestra la matriz de los coeficientes estandarizados de las dos funciones discriminantes obtenidas. La primera funcin atribuye la mayor importancia a Inseguridad, Inversin y Poblacin, mientras que la segunda funcin atribuye mayor importancia al PBG y al NBI. Se puede pensar que los departamentos del grupo 1 tienen niveles medios de Inseguridad, Inversin y Poblacin, nivel bajo de NBI y un alto PBG. El grupo 2 est constituido por los departamentos ms poblados, con niveles altos de Inseguridad, Inversin y NBI, como tambin niveles bajos de PBG. El grupo 3 est compuesto por departamentos con niveles bajos de Inseguridad, Inversin y Poblacin, con nivel medio bajo de PBG y con nivel medio-alto de NBI. Este resultado es prcticamente semejante a las conclusiones del anlisis cluster. Aunque estos resultados no coinciden absolutamente con el anlisis cluster se puede deducir un perfil de los grupos muy prximo a la solucin que provee esta tcnica.

34

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 35

7. Ejemplo Prctico R
Se realiz un anlisis de componentes principales a un conjunto de datos donde aparecan las caractersticas de tcnicas de distintos coches, a partir de la matriz de correlaciones se vio que con una componente podamos explicar el 88% de la varianza total del conjunto de datos. Pues ahora se proceder a realizar sobre el valor que toma esta componente para cada observacin un anlisis de agrupamiento. Primero de todo se debe crear el conjunto de datos sobre el que vamos a trabajar:
> > > > x<-as.matrix(conjunto) y<-componentesI$vectors[1:7] comp.obs<-x %*% y comp.obs [,1] 1 -2110.7416 ... 30 -1218.8272

Tenemos un conjunto de datos con 30 observaciones y una variable. En todo anlisis cluster existen dos fases; en una primera fase a partir de los datos se construye una matriz de distancias o similaridades y despus se realiza el proceso de agrupacin de individuos. Como paso previo es interesante realizar una representacin grfica de los datos para ver si se puede reconocer algn grupo:

35

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 36

No parecen que se formen grupos diferenciados pero prosigamos para ver si podemos aplicar una regla de agrupamiento. Disponemos de dos tcnicas de formacin de cluster: tcnicas jerrquicas aglo: merativas de formacin de conglomerados y tcnicas no jerrquicas. En este ejemplo se va a emplear la tcnica jerrquica que consiste en considerar en primera instancia cada observacin como un cluster y posteriormente agrupar las obsevarciones ms "similares", las observaciones que menos disten las unas de las otras, por eso lo primero que debemos hacer es calcularnos una matriz de distancias entre pares de observaciones. En este punto se realiza un inciso para explicar un aspecto de R que no haba comentado hasta ahora. Con R se puede hacer multitud de anlisis estadsticos y adems existe un grupo de programadores que colaboran con ms paquetes y ms programas. Para poder emplear estos paquetes es

36

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 37


necesario tenerlos en una librera library que en mi caso est en: C:\Archivos de programa\R\rw1051\library En esta librera tengo todos los paquetes de los que puedo disponer, pero cuando tu abres una sesin de R es necesario que carges el paquete que vas a emplear. Para hacer esto est la funcin library(nombre_librera) o bien abrimos el men Packages de R y seleccionamos el paquete que queremos utilizar. Os he contado esto porque para realizar el anlisis cluster necesitamos cargar en paquete mva:
> library(mva)

Ya estamos en disposicin de poder empezar a realizar los clculos pertinentes para nuestro anlisis. Como hemos dicho antes lo primero es calcular la matriz de distancias y para ello tenemos la funcin dist:
> matriz.distancias<-dist(comp.obs)

Se ha creado una matriz diagonal de 30x30 a partir de la matriz de componentes principales donde vienen recogidas las distancias. Por defecto dist calcula la distancia eucldea entre observaciones, si se ejecuta ?dist el archivo de ayuda le presenta las distintas distancias que se pueden calcular. Una vez obtenida esta matriz hemos de emplear la funcin hclust(<matriz_de_distancias>,method). En method indicamos por qu mtodo queremos que R realice los agrupamientos, veamos grficamente los mtodos ms comunes:

Cluster simple method="single"

37

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 38

Cluster completo method="complete"

Cluster promedio method="centroid" Tambin se tiene el mtodo Ward que es una tcnica inferencial de formacin de conglomerados que se basa en la minimizacin de la suma de cuadrados dentro de los cluster que se pueden formar. Por defecto el mtodo que tiene hclust en "complete". A continuacin se muestra cmo funciona hclust:
> clusterI<-hclust(matriz.distancias) > summary(clusterI) Length Class Mode merge 58 -none- numeric height 29 -none- numeric order 30 -none- numeric labels 30 -none- character method 1 -none- character call 2 -none- call dist.method 1 -none- character

Se ha creado un objeto clusterI que contiene 7 variables a partir de las cuales realizaremos el anlisis. R nos ha hecho las tareas de clculo pero ahora somos nosotros los que tenemos que continuar determinando cuantos grupos se deben tomar y como analizar los grupos creados. Comenzamos "atacando" el

38

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 39


objeto clusterI creado viendo la variable merge. Esta variable merge indica como se han ido formando los cluster:
> attach(clusterI) > merge [,1] [,2] [1,] -3 -23 cluster '1' [2,] -13 -19 [3,] -1 -4 [4,] -26 3 formando el '4' [5,] 1 2 cluster '5' ... [27,] 24 25 [28,] 20 26 [29,] 27 28

#se unen la obs 3 y la obs 23 que forman el #se unen las 13 y 19 formando el '2' #la 1 y la 4 #la 26 con el cluster 3 (observaciones 1 y 4) #el cluster 1 y 2 formando de este modo el #se unen el cluster 24 y 25 #el 20 y el 26 #el 27 y el 28

Esto ofrece una idea de la forma en la que se van uniendo, pero no se puede establecer una regla de unin entre observaciones, sera ms til ordenar el conjunto de datos de menor a mayor de forma que se pudiera hacer una regla de unin entre observaciones (recordar: que cuanto menor es el valor de la componente ms potente y ms grande es el coche) y de este modo se podra ver intuitivamente la forma que tienen de unirse los datos. Para ordenar los datos empleamos la funcin sort:
> > > > > ordenado<-sort(comp.obs) dist.ordenado<-dist(ordenado) clusterII<-hclust(dist.ordenado) attach(clusterII) merge [,1] [,2] [1,] -13 -14 [2,] -11 -12 [3,] -7 -8 #los gama media [4,] -9 3 #enseguida se unen [5,] 1 2 [6,] -22 -23 #los ms simples [7,] -16 -17 #se van uniendo [8,] -10 5 [9,] -24 -25 [10,] -27 -28 [11,] -19 -20 [12,] -6 4 [13,] -29 -30 [14,] -15

Parece que los coches de gama media se unen enseguida, insistimos en que la componente principal ofreca una medida de la potencia-prestaciones-

39

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 40


tamao de los coches, cuanto menor era la componente ms potente, ms rpido y ms grande era el coche. Pues como se deca los gama media se unen con facilidad, tambin ocurre esto con los coches ms pequeos que son los siguientes en agruparse, por ltimo son los coches "buenos" los que se van agrupando. Poco a poco los gama media se acercan a los coches buenos dejando de lado a las observaciones superiores a la 20 como se puede ver en los pasos [18] con observaciones 24,25,26; [23] con observaciones 27,28,29,30 y [24] cuyas observaciones son 22,23,18,21,19,20 posteriormente en [25] y [27] se unen. Determinar el nmero de cluster con esta variable merge es bastante complicado por eso no puede servir mejor para analizar como se van creando los grupos. Cmo determinar el nmero de cluster? En mi opinin la mejor manera es el anlisis grfico, el dendograma que es un grfico de formacin de cluster, para hacerlo se emplea la funcin plot.hclust(clusterII):

40

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 41

Este dendograma se puede admitir dos cortes que se exponen de manera grfica para que se entienda mejor, los cortes se han realizado con el paint de Windows:

41

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 42

Estas son las 2 opciones que se plantean: en la primera opcin se puede por un lado formar dos grupos donde tendramos los coches medianos-grandes donde las observaciones 1, 2 y 3 parece que les cuesta unirse (son coches muy potentes y grandes) y donde las observaciones de 4 a la 16 son muy parecidos; y por el otro lado tenemos los coches utilitarios (observaciones de la 18 a la 30) que si se pueden considerar bastante parecidos entre s aunque los hay un poco mejores. La segunda opcin sera el hacer los cuatro grupos donde el grupo I encuadrara a los coches "menos malos" el grupo II a lo "malos", el grupo III a los "mejores" y el grupo IV a los "buenos". Este es el anlisis mediante el mtodo completo, veamos el dendograma para el mtodo promedio:
> clusterIII<-hclust(dist.ordenado,method="centroid") > plot.hclust(clusterIII)

42

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 43

A la vista de este grfico tambin se pueden hacer tres grupos, adems por este mtodo se distinguen muy claramente las tres primeras observaciones como los mejores coches quedando ms unidos los coches "menos malos" con los "buenos" con lo que se poda establecer un grupo que podan ser los utilitarios dentro de los cuales los hay mejores y peores.

43

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 44

8. Conclusiones
Durante el desarrollo del informe se pudo apreciar que el anlisis cluster puede ser muy til como tcnica de reduccin de datos. Pero dado que su aplicacin es ms un arte que una ciencia, se puede abusar fcilmente o aplicar mal por parte de los investigadores. Diferentes algoritmos y medidas entre objetos pueden afectar a los resultados existentes. La seleccin del conglomerado de la solucin final se basa en la mayora de los casos tanto en consideraciones objetivas como subjetivas. El investigador prudente, por lo tanto considera estos temas y siempre evala el impacto de todas las decisiones. El anlisis cluster, junto con el anlisis multidimensional, debido a su falta de base estadstica para inferir de la poblacin, tiene una mayor necesidad de aplicarse varias veces bajo condiciones cambiantes. Si el investigador procede con cautela, sin embargo, el anlisis cluster puede ser un instrumento valioso en la identificacin de pautas latentes mediante la sugerencia de agrupaciones (conglomerados) de objetos que no son dicernibles mediante otras tcnicas multivariantes.

44

Anlisis Cluster - Alumna: Javiera Soledad Carmona Lpez 45

9. Bibliografa
Curso de R Captulo 10. Consulta: 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R10.html. Curso de R. Consulta 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R11.html.
Hair, Anderson Tatham & Black, 2008. Anlisis multivariante, 5ta edicin, pp. 491-532.

Mariel, P. Anlisis cluster: una aplicacin a los Departamentos de la provincia de Crdoba. Perea, J. Anlisis multivariante para investigacin en sistemas Agropecuarios. Curso de Postgrado en Herramientas Estadsticas Avanzadas. Prez Lpez C., Santn Gonzlez D. Minera de Datos: Tcnicas y

Herramientas. Thomson Paraninfo S. A. Espaa. 2007. ISBN 978-84-9732-492-2. Vicente, J.Introduccin al Anlisis de Cluster. Universidad de Salamanca. Departamento de Estadstica, pp 1-22.

45

Você também pode gostar