Escolar Documentos
Profissional Documentos
Cultura Documentos
2013
Anlisis Cluster
Contenidos
1. Introduccin ................................................................................................................................................... 3 2. Objetivos ........................................................................................................................................................... 4 3. Qu es el anlisis cluster? ................................................................................................................... 5 4. Cmo funciona el anlisis cluster? ............................................................................................... 8 5. Proceso de decision con el anlisis cluster................................................................................ 9 5.1 Primer Paso: Objetivos del anlisis............................................................................................ 9 5.2 Segundo Paso: Diseo de Investigacin mediante anlisis Cluster ................ 11 5.3 Tercer Paso: Supuestos del Anlisis cluster........................................................................ 14 5.4 Cuarto Paso: Obtencin de conglomerados y valoracin del ajuste conjunto .......................................................................................................................................................... 17 5.5 Paso 5: Interpretacin de los conglomerados .............................................................. 20 5.6 Paso 6: Validacin y perfil de los grupos ........................................................................... 21 6. Ejemplo Prctico con programa SPSS ........................................................................................ 23 7. Ejemplo Prctico R ................................................................................................................................... 35 8. Conclusiones ................................................................................................................................................ 44 9. Bibliografa ..................................................................................................................................................... 45
Anlisis Cluster
1. Introduccin
Los acadmicos y los investigadores de mercado se encuentran a menudo con situaciones cuya mejor forma de resolverlas es definiendo grupos de objetos homogneos, tanto si son individuos como si son empresas, productos o incluso comportamientos. Las opciones estratgicas basadas en los grupos identificados en la poblacin, como la segmentacin y los objetivos de marketing no seran posibles sin una metodologa objetiva. Esta misma necesidad se encuentra en otras reas, que van desde las ciencias naturales a las ciencias sociales. En todos estos casos, el investigador est buscando una estructura <<natural>> entre las observaciones basadas en un perfil multivariante. La tcnica ms utilizada para este fin es el Anlisis Cluster. El anlisis cluster agrupa a los individuos y a los objetos en conglomerados, de tal forma que los objetos del mismo conglomerado son ms parecidos entre s que a los objetos de otros conglomerados. Lo que se intenta es maximizar la homogeneidad de los objetos dentro de los objetos dentro de los conglomerados mientras que a la vez se maximiza la heterogeneidad entre los agregados. El captulo 9 del Anlisis Multivariante (Hair, Anderson, Tatham y Black, 5 Edicin) explica la naturaleza y el propsito del anlisis cluster y gua al investigador en la seleccin y uso de los diversos enfoques del mismo.
2. Objetivos
Definir las cuestiones apropiadas a investigar para ser tratadas por el anlisis cluster. Entender cmo se mide la similitud entre objetos. Distinguir entre las diferentes medidas de distancia. Diferenciar entre los algoritmos de cluster y sus aplicaciones adecuadas. Entender las diferencias entre las tcnicas cluster jerrquicas y no jerrquicas. Entender cmo se selecciona el nmero de conglomerados a formar. Seguir las lneas principales de validacin del conglomerado. Construir los perfiles de los conglomerados derivados y evaluar su significacin prctica. Exponer las limitaciones del anlisis cluster. Utilizar el programa computacional de Estadstica R para la ejemplificacin y aplicacin del Anlisis Cluster.
3. Qu es el anlisis cluster?
El anlisis cluster es la denominacin de un grupo de tcnicas multivariantes cuyo principal propsito es agrupar objetos basndose en las caractersticas que poseen. El anlisis cluster clasifica objetos(es decir, encuestados, productos u otras entidades) de tal forma que cada objeto es muy parecido a los que hay en el conglomerado con respecto a algn criterio de seleccin predeterminado. Los conglomerados de los objetos resultantes deberan mostrar un alto grado de homogeneidad interna (dentro del conglomerado) y un alto grado de heterogeneidad externa (entre conglomerados). Por tanto si la clasificacin es acertada, los objetos dentro de los conglomerados estarn muy prximos cuando se representen grficamente, y los diferentes grupos estarn muy alejados. En el anlisis Cluster, de nuevo el concepto de valor terico es central, pero en forma muy diferente del resto de las tcnicas multivariantes. El valor terico del Anlisis cluster es el conjunto de variables que representan las caractersticas utilizadas para comparar objetos en el anlisis cluster. Dado que el valor terico del anlisis cluster incluye slo las variables utilizadas para comparar objetos, determina el <<carcter>> de los objetos. El anlisis cluster es la nica tcnica multivariante que no estima el valor terico empricamente sino que utiliza el valor terico especificado pro el investigador. El objetivo del anlisis cluster es la comparacin de objetos basndose en el valor terico, no en la estimacin del valor terico en s misma. Esto hace crucial la definicin que d el investigador al valor terico para el anlisis cluster. El anlisis de cluster es un mtodo que permite descubrir asociaciones y estructuras en los datos que no son evidentes a priori pero que pueden ser tiles una vez que se han encontrado. Los resultados de un Anlisis de Clusters
Anlisis de Interdependencia
Mtricas
No Mtricas
Anlisis Correspondencias
Anlisis Cluster
Escalamiento multidimensional
Puede utilizarse cualquier nmero de <<reglas>>, pero la tarea fundamental es evaluar la similitud <<media>> dentro de los conglomerados, de tal forma que a medida que la media aumenta, el conglomerado se hace menos similar. El investigador se enfrenta a continuacin a un trade-off: pocos conglomerados frente a menos homogeneidad. Una estructura simple, al tender hacia la parsimomia, se refleja en el menor nmero de conglomerados posible. Pero a medida que el nmero de conglomerados disminuye, la homogeneidad dentro de los conglomerados necesariamente disminuye. Por tanto, se debe buscar un equilibrio entre la definicin de las estructuras ms bsicas (pocos conglomerados) que todava mantienen el necesario nivel de similitud dentro de los conglomerados. Una vez que se tenga procedimientos para cada asunto, se podr realizar el anlisis cluster.
10
variables que (1) caracterizan los objetos que se estn agrupando, y (2) se
variables relevantes de las irrelevantes. Solo obtiene los grupos de objetos ms consistentes, aunque diferenciados, para todas las variables. La conclusin de una variable irrelevante aumenta la posibilidad de que se creen atpicos sobre stas variables, que puedan tener un efecto importante sobre los resultados. Por tanto, uno nunca debera incluir variables indiscriminadamente sino en su lugar elegir las variables utilizando el objetivo de investigacin como criterio de seleccin. A efectos prcticos, el anlisis cluster puede verse drsticamente afectada por la inclusin de una o dos variables inapropiadas o escasamente diferenciadas. Se anima al investigador a examinar los resultados y eliminar las variables que no son distintivas (es decir, que no difieren significativamente) de todos los conglomerados deducidos. Este procedimiento permite a las tcnicas cluster maximizar los conglomerados definidos basndose solo en aquellas variables que exhiban diferencias para todos los objetos.
11
12
Figura 2: Perfiles de Clusters, segn fuentes de seguridad econmica de los adultos mayores. Medidas de Similitud La similitud es una medida de correspondencia o semejanza entre los objetos que van a ser agrupados. La estrategia ms comn consiste en medir la equivalencia en trminos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son ms parecidos entre s que aquellos que tienen distancias mayores y se agruparan, por tanto, dentro del mismo cluster. Segn la clasificacin de Sneath y Sokal (Prez, 2007) existen cuatro grandes tipos de medidas de similitud: I. II. Distancias: pone el nfasis en sobre el grado de diferencia o existente entre dos elementos. El ejemplo ms clsico es la distancia eucldea. Coeficientes de asociacin: se utiliza preferentemente para datos cualitativos. Estas medidas son, bsicamente, una forma de medir la concordancia o conformidad entre los estados de dos columnas de datos.
13
14
15
Figura 3: Diagrama de decisin de los pasos 1-3. (Anlisis multivariante, 5ta edicin de Hair, Anderson, Tatham y Black).
16
I.
Mtodos Aglomerativos-Divisivos: mtodo aglomerativo es aquel que considera tantos grupos como individuos y sucesivamente va agrupando los dos grupos ms similares, hasta llegar a una clasificacin determinada; mientras que el mtodo divisivo parte de un solo grupo formado por todos los individuos, y en cada etapa posterior va apartando individuos de formando nuevos grupos. los grupos establecidos anteriormente,
II.
Mtodos Jerrquicos-No Jerrquicos: el mtodo jerrquico consiste en una secuencia de g+1 cluster: G0, , Gg en la que G0 es la participacin disjunta de todos los individuos y Gg es el conjunto particin. Progresivamente, el nmero de partes de cada una de las particiones disminuye, lo que hace que estas sean cada vez ms amplias y menos homogneas. Por el contrario, en el mtodo no jerrquico se forman grupos homogneos sin establecer relaciones de orden o jerrquicas entre dichos grupos.
III.
Mtodos Solapados-Exclusivos: el mtodo solapado acepta que un individuo pueda pertenecer a dos grupos simultneamente en alguna de las etapas de clasificacin, mientras que se dice exclusivo si prohbe a los individuos pertenecer simultneamente a dos grupos en la misma etapa.
IV.
Mtodos Secuenciales-Simultneos: en el mtodo secuencial se aplica el mismo algoritmo en forma recursiva a cada grupo, mientras que los mtodos simultneos son aquellos en los que la clasificacin se logra por una simple y no reiterada operacin sobre los individuos.
17
Mtodo de Unin Simple, entorno o vecino ms cercano o mtodo del mnimo. Mtodo de la distancia mxima, entorno o vecino ms lejano o mtodo del mximo. Mtodo de la media o de la distancia promedio no ponderado. Mtodo de la media ponderada o de la distancia promedio ponderado.
18
Mtodo de la mediana o de la distancia mediana. Mtodo del centroide o de la distancia prototipo. Mtodo de Ward o de mnima varianza.
Los mtodos no jerrquicos se diferencian de los mtodos jerrquicos en que el investigador debe especificar a priori los grupos que deben ser formados y que trabajan con la matriz de datos original y no requieren su conversin a una matriz de proximidades. Pedret en (Prez, 2007) agrupa los mtodos no jerrquicos en las cuatro familias siguientes: I. Mtodos de reasignacin: admiten que un objeto asignado a un grupo en un paso del proceso sea reubicado en otro grupo en un paso posterior si esto optimiza el criterio de seleccin. El proceso concluye cuando no quedan individuos cuya reasignacin permita optimizar el resultado. El algoritmo ms conocido dentro de estos mtodos es el mtodo de K-medias. II. Mtodos de bsqueda de la densidad: presentan dos aproximaciones. La aproximacin tipolgica, donde los grupos se forman buscando las zonas en las cuales se da una mayor concentracin de individuos. El anlisis modal de Wishart es uno de los algoritmos ms conocidos dentro estos mtodos. En la aproximacin probabilstica, se parte del postulado de que las variables siguen una ley de probabilidad segn la cual los parmetros varan de un grupo a otro. Se trata de encontrar los individuos que pertenecen a la misma distribucin. Se destaca en esta aproximacin el mtodo de las combinaciones de Wolf. III. IV. Mtodos directos: clasifican simultneamente a los individuos y a las variables. Mtodos de reduccin de dimensiones: buscan factores en el espacio de los individuos, correspondiendo cada factor a un grupo. Determinacin del nmero de conglomerados en la solucin final Como ya habr quedado claro, en la seleccin de la solucin cluster definitiva se deja al juicio del observador y es considerado por muchos como un proceso muy subjetivo. Incluso aunque se han desarrollado mtodos ms sofisticados para ayudar en la evaluacin de las soluciones cluster, sigue recayendo en el investigador de la decisin final del nmero de conglomerados aceptados en
19
20
En el conglomerado no jerrquico la solucin puede depender del orden de los casos en el conjunto de datos. Para estudiar esto, es recomendable llevar a cabo corridas mltiples y utilizar distintos rdenes de los casos hasta estabilizar la solucin.
21
Figura 4: Diagrama de decisin de los pasos 4-6. (Anlisis multivariante, 5ta edicin de Hair, Anderson, Tatham y Black).
22
Educacin. La descripcin de las variables se encuentra detallada en el anexo de este trabajo. Seleccin de las variables a utilizar El anlisis cluster debe atender a dos criterios, que la muestra sea representativa y a la existencia de multicolinealidad. La representatividad de la muestra, en este caso de estudio, no constituye un problema porque las unidades de anlisis implican toda la estructura de la poblacin. Sin embargo, en una etapa preliminar del anlisis se puede anticipar la existencia de multicolinealidad entre las variables por la naturaleza del problema que se est trabajando, las variables en su conjunto representan atributos socio-econmicos de la poblacin en los distintos departamentos. Para detectar formalmente la existencia de multicolinealidad se utiliza como
23
La tabla con la estadstica descriptiva revela la gran variabilidad de los datos en cada variable y la diferencia de escalas entre ellas, lo que justifica la estandarizacin. Diseo de la investigacin El primer paso dentro del diseo de investigacin es decidir sobre la medida de similitud entre los objetos. Entre las distintas alternativas, se ha optado por la distancia eucldea al cuadrado dado que el conjunto de variables incorporadas es mtrico. Como las variables se encuentran medidas en distintas escalas es necesario que se estandaricen previamente, para ello se elige la tipificacin a travs de las puntuaciones Z para cada variable. El siguiente paso ha consistido en la eleccin del mtodo de aglomeracin. En el ejemplo que aqu se expone, de las distintas aproximaciones posibles para obtener grupos mediante esta tcnica, se ha elegido el mtodo de agrupamiento jerrquico. Adems, el mtodo de encadenamiento escogido es el mtodo de Ward o de varianza mnima. La idea bsica de este mtodo es ir agrupando elementos, en este caso departamentos de la provincia de Crdoba, de forma jerrquica y minimizando la variacin intragrupo de la estructura formada.
24
El historial de aglomeracin muestra las distancias de aglomeracin y los grupos que se han ido formando al aplicar el algoritmo. El dendrograma que se expone en la pgina siguiente, proporciona dicha informacin de forma grfica.
25
Un primer examen del dendrograma indica que la diferencia entre los grupos es amplia, ya que la unin de los mismos se va realizando a niveles de la escala altos, siendo la unin final en el ltimo valor posible, es decir, en el 25. El dendrograma, adems, permite la identificacin visual de la existencia de casos atpicos, donde un atpico sera una rama que no se uni hasta muy tarde. El departamento Capital como grupo unipersonal puede interpretarse como un componente estructural vlido en la muestra, sin embargo, se opta por incluirlo dentro de un cluster junto a otros departamentos con los cuales comparte ciertas caractersticas (que ms tarde se detallan). En cuanto a la decisin del nmero de conglomerados, en esta investigacin se ha optado por elegir la cantidad de grupos segn la claridad de las descripciones para cada uno y su aplicacin prctica. Por tanto, se examina la solucin de tres grupos.
26
27
28
El ANOVA permite indagar sobre la existencia de igualdad de medias entre los conglomerados. De la tabla se advierte que existen diferencias significativas en todas las variables con excepcin de la variable Inversin. Esta variable no sera til para clasificar pues los grupos definidos poseen el mismo nivel promedio de inversin. En un trabajo posterior que avance sobre la aplicacin de esta tcnica, se debera eliminar esta variable o construir un ndice que muestre el desarrollo en Infraestructura para cada departamento.
29
La tabla anterior contiene el estadstico de Levene, el cual permite contrastar la hiptesis de que las varianzas poblacionales son iguales. Puesto que el nivel crtico de las variables PBG, Inversin y NBI son mayores que 0,05 se acepta la hiptesis de igualdad de varianzas, mientras que para las variables Inseguridad y Poblacin se concluye que en las poblaciones definidas por los tres grupos, las varianzas de las variables no son iguales. Este resultado es til para encarar el anlisis de los grupos por medio del siguiente contraste denominado Comparaciones Mltiples Post Hoc. El ANOVA Post Hoc permite averiguar qu grupos difieren entre s en cada una de las variables. La primera columna de la tabla indica que los procedimientos post hoc seleccionados fueron: la diferencia honestamente significativa (HSD) de Tukey asume varianzas iguales - y el mtodo de Games-Howes no asume varianzas iguales-. Para las variables PBG, Inversin y NBI se debe prestar atencin a la solucin propuesta por Tukey, mientras que, para las variables Inseguridad y Poblacin la solucin apropiada es la de Games-Howes. De la tabla surge que los promedios comparados para la variable PBG no difieren significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos tanto por la variable Inseguridad como por la variable NBI presentan promedios que no difieren significativamente entre s. Por medio del ANOVA Post Hoc, se confirma nuevamente la irrelevancia de la variable Inversin pues los promedios comparados para cada grupo no difieren significativamente. Por ltimo, la variable Poblacin tambin presenta dificultades en la mayora de las comparaciones entre las medias de los grupos.
30
31
Validacin de Conglomerados Obtenidos Para confirmar la solucin obtenida del anlisis cluster, se ha aplicado un anlisis factorial y anlisis discriminante sobre la matriz de datos bajo estudio. Anlisis Factorial A continuacin se detalla el resultado del anlisis factorial con la solucin rotada mediante el mtodo Equamax. Para cuantificar las distancias entre las variables se utiliza el coeficiente de correlacin de Pearson y el mtodo de extraccin de factores es por medio de Componentes Principales. La tabla muestra como en el primer factor saturan las variables Inseguridad, Inversin, Poblacin y NBI, mientras que, en el segundo factor satura, fundamentalmente, la variable PBG.
El grfico de Biplot muestra al grupo 1 ms asociado a la variable PBG; el grupo 2 a la variable Poblacin y el grupo 3 se encuentra ms asociado a la variable NBI. Este resultado se correspondera con la solucin hallada en el anlisis cluster.
32
Anlisis Discriminante Utilizando como variable de clasificacin el conglomerado de pertenencia resultante del anlisis cluster se puede realizar un anlisis discriminante para interpretar la diferencia entre los grupos.
33
La tabla muestra la matriz de los coeficientes estandarizados de las dos funciones discriminantes obtenidas. La primera funcin atribuye la mayor importancia a Inseguridad, Inversin y Poblacin, mientras que la segunda funcin atribuye mayor importancia al PBG y al NBI. Se puede pensar que los departamentos del grupo 1 tienen niveles medios de Inseguridad, Inversin y Poblacin, nivel bajo de NBI y un alto PBG. El grupo 2 est constituido por los departamentos ms poblados, con niveles altos de Inseguridad, Inversin y NBI, como tambin niveles bajos de PBG. El grupo 3 est compuesto por departamentos con niveles bajos de Inseguridad, Inversin y Poblacin, con nivel medio bajo de PBG y con nivel medio-alto de NBI. Este resultado es prcticamente semejante a las conclusiones del anlisis cluster. Aunque estos resultados no coinciden absolutamente con el anlisis cluster se puede deducir un perfil de los grupos muy prximo a la solucin que provee esta tcnica.
34
7. Ejemplo Prctico R
Se realiz un anlisis de componentes principales a un conjunto de datos donde aparecan las caractersticas de tcnicas de distintos coches, a partir de la matriz de correlaciones se vio que con una componente podamos explicar el 88% de la varianza total del conjunto de datos. Pues ahora se proceder a realizar sobre el valor que toma esta componente para cada observacin un anlisis de agrupamiento. Primero de todo se debe crear el conjunto de datos sobre el que vamos a trabajar:
> > > > x<-as.matrix(conjunto) y<-componentesI$vectors[1:7] comp.obs<-x %*% y comp.obs [,1] 1 -2110.7416 ... 30 -1218.8272
Tenemos un conjunto de datos con 30 observaciones y una variable. En todo anlisis cluster existen dos fases; en una primera fase a partir de los datos se construye una matriz de distancias o similaridades y despus se realiza el proceso de agrupacin de individuos. Como paso previo es interesante realizar una representacin grfica de los datos para ver si se puede reconocer algn grupo:
35
No parecen que se formen grupos diferenciados pero prosigamos para ver si podemos aplicar una regla de agrupamiento. Disponemos de dos tcnicas de formacin de cluster: tcnicas jerrquicas aglo: merativas de formacin de conglomerados y tcnicas no jerrquicas. En este ejemplo se va a emplear la tcnica jerrquica que consiste en considerar en primera instancia cada observacin como un cluster y posteriormente agrupar las obsevarciones ms "similares", las observaciones que menos disten las unas de las otras, por eso lo primero que debemos hacer es calcularnos una matriz de distancias entre pares de observaciones. En este punto se realiza un inciso para explicar un aspecto de R que no haba comentado hasta ahora. Con R se puede hacer multitud de anlisis estadsticos y adems existe un grupo de programadores que colaboran con ms paquetes y ms programas. Para poder emplear estos paquetes es
36
Ya estamos en disposicin de poder empezar a realizar los clculos pertinentes para nuestro anlisis. Como hemos dicho antes lo primero es calcular la matriz de distancias y para ello tenemos la funcin dist:
> matriz.distancias<-dist(comp.obs)
Se ha creado una matriz diagonal de 30x30 a partir de la matriz de componentes principales donde vienen recogidas las distancias. Por defecto dist calcula la distancia eucldea entre observaciones, si se ejecuta ?dist el archivo de ayuda le presenta las distintas distancias que se pueden calcular. Una vez obtenida esta matriz hemos de emplear la funcin hclust(<matriz_de_distancias>,method). En method indicamos por qu mtodo queremos que R realice los agrupamientos, veamos grficamente los mtodos ms comunes:
37
Cluster promedio method="centroid" Tambin se tiene el mtodo Ward que es una tcnica inferencial de formacin de conglomerados que se basa en la minimizacin de la suma de cuadrados dentro de los cluster que se pueden formar. Por defecto el mtodo que tiene hclust en "complete". A continuacin se muestra cmo funciona hclust:
> clusterI<-hclust(matriz.distancias) > summary(clusterI) Length Class Mode merge 58 -none- numeric height 29 -none- numeric order 30 -none- numeric labels 30 -none- character method 1 -none- character call 2 -none- call dist.method 1 -none- character
Se ha creado un objeto clusterI que contiene 7 variables a partir de las cuales realizaremos el anlisis. R nos ha hecho las tareas de clculo pero ahora somos nosotros los que tenemos que continuar determinando cuantos grupos se deben tomar y como analizar los grupos creados. Comenzamos "atacando" el
38
#se unen la obs 3 y la obs 23 que forman el #se unen las 13 y 19 formando el '2' #la 1 y la 4 #la 26 con el cluster 3 (observaciones 1 y 4) #el cluster 1 y 2 formando de este modo el #se unen el cluster 24 y 25 #el 20 y el 26 #el 27 y el 28
Esto ofrece una idea de la forma en la que se van uniendo, pero no se puede establecer una regla de unin entre observaciones, sera ms til ordenar el conjunto de datos de menor a mayor de forma que se pudiera hacer una regla de unin entre observaciones (recordar: que cuanto menor es el valor de la componente ms potente y ms grande es el coche) y de este modo se podra ver intuitivamente la forma que tienen de unirse los datos. Para ordenar los datos empleamos la funcin sort:
> > > > > ordenado<-sort(comp.obs) dist.ordenado<-dist(ordenado) clusterII<-hclust(dist.ordenado) attach(clusterII) merge [,1] [,2] [1,] -13 -14 [2,] -11 -12 [3,] -7 -8 #los gama media [4,] -9 3 #enseguida se unen [5,] 1 2 [6,] -22 -23 #los ms simples [7,] -16 -17 #se van uniendo [8,] -10 5 [9,] -24 -25 [10,] -27 -28 [11,] -19 -20 [12,] -6 4 [13,] -29 -30 [14,] -15
Parece que los coches de gama media se unen enseguida, insistimos en que la componente principal ofreca una medida de la potencia-prestaciones-
39
40
Este dendograma se puede admitir dos cortes que se exponen de manera grfica para que se entienda mejor, los cortes se han realizado con el paint de Windows:
41
Estas son las 2 opciones que se plantean: en la primera opcin se puede por un lado formar dos grupos donde tendramos los coches medianos-grandes donde las observaciones 1, 2 y 3 parece que les cuesta unirse (son coches muy potentes y grandes) y donde las observaciones de 4 a la 16 son muy parecidos; y por el otro lado tenemos los coches utilitarios (observaciones de la 18 a la 30) que si se pueden considerar bastante parecidos entre s aunque los hay un poco mejores. La segunda opcin sera el hacer los cuatro grupos donde el grupo I encuadrara a los coches "menos malos" el grupo II a lo "malos", el grupo III a los "mejores" y el grupo IV a los "buenos". Este es el anlisis mediante el mtodo completo, veamos el dendograma para el mtodo promedio:
> clusterIII<-hclust(dist.ordenado,method="centroid") > plot.hclust(clusterIII)
42
A la vista de este grfico tambin se pueden hacer tres grupos, adems por este mtodo se distinguen muy claramente las tres primeras observaciones como los mejores coches quedando ms unidos los coches "menos malos" con los "buenos" con lo que se poda establecer un grupo que podan ser los utilitarios dentro de los cuales los hay mejores y peores.
43
8. Conclusiones
Durante el desarrollo del informe se pudo apreciar que el anlisis cluster puede ser muy til como tcnica de reduccin de datos. Pero dado que su aplicacin es ms un arte que una ciencia, se puede abusar fcilmente o aplicar mal por parte de los investigadores. Diferentes algoritmos y medidas entre objetos pueden afectar a los resultados existentes. La seleccin del conglomerado de la solucin final se basa en la mayora de los casos tanto en consideraciones objetivas como subjetivas. El investigador prudente, por lo tanto considera estos temas y siempre evala el impacto de todas las decisiones. El anlisis cluster, junto con el anlisis multidimensional, debido a su falta de base estadstica para inferir de la poblacin, tiene una mayor necesidad de aplicarse varias veces bajo condiciones cambiantes. Si el investigador procede con cautela, sin embargo, el anlisis cluster puede ser un instrumento valioso en la identificacin de pautas latentes mediante la sugerencia de agrupaciones (conglomerados) de objetos que no son dicernibles mediante otras tcnicas multivariantes.
44
9. Bibliografa
Curso de R Captulo 10. Consulta: 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R10.html. Curso de R. Consulta 30/08/2013. http://www.geocities.ws/r_vaquerizo/Manual_R11.html.
Hair, Anderson Tatham & Black, 2008. Anlisis multivariante, 5ta edicin, pp. 491-532.
Mariel, P. Anlisis cluster: una aplicacin a los Departamentos de la provincia de Crdoba. Perea, J. Anlisis multivariante para investigacin en sistemas Agropecuarios. Curso de Postgrado en Herramientas Estadsticas Avanzadas. Prez Lpez C., Santn Gonzlez D. Minera de Datos: Tcnicas y
Herramientas. Thomson Paraninfo S. A. Espaa. 2007. ISBN 978-84-9732-492-2. Vicente, J.Introduccin al Anlisis de Cluster. Universidad de Salamanca. Departamento de Estadstica, pp 1-22.
45