Análisis de Conglomerados PDF

Recurso bsico
de Aprendizaje
Departamento de Ciencias Ex actas
(OA)
Versin
ESTADSTICA APLICADA AL MERCADO
DOCENTE: Mat. Jos Ernesto CAIZAGUANO VIMOS , MSc.
1 Tema
3. Anlisis de conglomerados
2 Motivacin
Se dice que el Anlisis de Conglomerados tiene sus orgenes en la Biologa, concretamente en el

campo de la clasificacin de las especies y ha sido aplicado posteriormente con xito a otras
ciencias.
Supngase que el responsable de marketing de una empresa tiene una base de datos con las
caractersticas sociodemogrficas de sus clientes: edad, nivel educativo, nivel de ingresos, estado
civil, tipo de ocupacin, nmero de hijos, etc. Este directivo se plantea si podra dividir a sus
clientes en subgrupos que tuvieran caractersticas sociodemogrficas similares entre s, pero que
fueran lo ms diferentes posible unos subgrupos de otros. Si esto fuera as, el directivo de
marketing podra, por ejemplo, disear campaas de publicidad distintas para cada grupo, con
creatividades diferentes o utilizando diarios, revistas o cadenas de televisin distintas segn el
grupo al que fuera dirigida la campaa. (Uriel, 2005).
3 Resultado del aprendizaje:
Realiza informe sobre anlisis de datos, datos provenientes de situaciones concretas,

utilizando la teora del anlisis de conglomerados.
Identifica problemas reales en los que debe aplicar de manera correcta la tcnica del
anlisis de conglomerados jerrquico.
Analiza e interpreta los resultados obtenidos.
4 Contenido:
3.1. Introduccin.
El anlisis de conglomerados, al que tambin se denomina comnmente anlisis cluster, es una
tcnica diseada para clasificar distintas observaciones en grupos de tal forma que:
(a.) Cada grupo (conglomerado o cluster) sea homogneo respecto a las variables utilizadas para
caracterizarlos, es decir, que cada observacin contenida en l sea parecida a todas las que
estn incluidas en ese grupo.
(b.) Que los grupos sean lo ms distintos posible unos de otros respecto a las variables
consideradas.
Es importante sealar, que la composicin de los grupos es desconocida a priori y es necesario

derivarlos a partir de las observaciones. En otras tcnicas, las observaciones ya estn
previamente clasificadas en dos o ms grupos, buscndose las razones que explican esa
clasificacin y no la clasificacin en s.
(Uriel, 2005) Una secuencia lgica que se debe seguir al efectuar un anlisis de conglomerados,
es:
(1.) Inicialmente, el investigador dispone de n observaciones (individuos, empresas, etc.) de las

que tiene informacin sobre k variables (edad, estado civil, nmero de hijos, etc.)
(2.) A continuacin se establece un indicador que nos diga en qu medida cada par de
observaciones se parece entre s. A esta medida se le denomina distancia o similaridad.
(3.) El paso siguiente consiste en crear grupos, de forma que cada grupo contenga aquellas
observaciones que ms se parezcan entre s, de acuerdo con la medida de similaridad calculada
anteriormente.
Para llevar a cabo la creacin de grupos se puede optar entre dos tipos de anlisis de
conglomerados: jerrquico y no jerrquico. A su vez, en cada tipo se pueden utilizar distintos
mtodos de agrupacin y conglomeracin (por ejemplo, el mtodo del centroide o el del vecino
ms cercano, entre otros, en el conglomerado jerrquico).
(4.) Finalmente el investigador debe describir los grupos que ha obtenido y compararlos unos con
los otros. Para ello bastar con ver qu valores promedio toman las k variables utilizadas en el
anlisis de conglomerados en cada uno de los g grupos obtenidos (g <= n).
3.2. Medidas de similaridad.
Supongamos que un investigador tiene informacin del presupuesto que un conjunto de

empresas ha destinado a publicidad el ltimo ao y de las ventas que han logrado en ese mismo
ejercicio fiscal.
Tabla 3.1. Inversin en publicidad y ventas de ocho empresas.

Inversin en publicidad Ventas
Nombre de la empresa
(decenas de millones; 10 000 000) (millardos; 1 000 000 000)
E1 16 10
E2 12 14
E3 10 22
E4 12 25
E5 45 10
E6 50 15
E7 45 25
E8 50 27
Puede preguntarse si estas empresas pueden agruparse en funcin de la rentabilidad en trminos

de ventas que han sido capaces de generar con su inversin publicitaria. Por ejemplo, el
investigador puede examinar si existe un grupo de empresas que, invirtiendo en publicidad
relativamente poco, ha logrado una elevada cifra de ventas o, por el contrario, si existe un grupo
que, aun invirtiendo mucho en publicidad, no ha sido capaz de vender tanto como sus
competidoras. En definitiva, qu tipologa de empresas puede establecerse en funcin de la
rentabilidad obtenida de su inversin publicitaria?
Al haber utilizado slo dos variables, ste grfico permite responder de manera intuitiva a las
preguntas que se hace el investigador. A la vista de este grfico pueden distinguirse cuatro
grupos de empresas.
El grupo formado por las empresas E1 y E2 que, con una pequea inversin en publicidad ha
obtenido tambin pocas ventas.
El grupo formado por las empresas E3 y E4 que, pese a haber invertido tan poco como las
empresas del grupo anterior, ha obtenido una gran rentabilidad en trminos de ventas.
El grupo formado por las empresas E5 y E6 que, pese a haber efectuado un gran esfuerzo
publicitario no ha sido capaz de obtener unas ventas razonables.
El grupo formado por las empresas E7 y E8 que, con inversiones tambin elevadas, s que ha
logrado, rentabilizar su inversin en trminos de ventas.
Cmo se han obtenido los grupos anteriores?

De una manera intuitiva hemos visto, por ejemplo, que la empresa E1 est a una distancia menor
de E2 que de E3 o de cualquiera de las empresas restantes y, las hemos puesto en un mismo
grupo.
Lo primero que se ha hecho de manera intuitiva es ver que E1 est ms cerca de E2 que de E3.
Este ms cerca se traduce en el anlisis de conglomerados en el clculo de alguna medida de
proximidad o similaridad entre cada par de observaciones. En funcin del tipo de variables que se
estn utilizando para caracterizar a los objetos, las medidas ms adecuadas sern diferentes.
3.2.1. Medidas de similaridad para variables mtricas.
(Uriel, 2005) En el caso en que las variables que se utilizan para caracterizar las observaciones
sean mtricas, es decir, de intervalo o de razn, se puede recurrir a cualquiera de las siguientes
medidas de similaridad.
Distancia eucldea:
Si consideramos dos observaciones i y j de las n posibles y si llamamos x ip y x jp al valor que toma
la variable x p de las k existentes en dichas observaciones, la distancia eucldea Dij entre ambas
observaciones se calcula as:
x x jp
k

2
D ij ip
p 1
Distancia eucldea al cuadrado:
x x jp
k

2
D ij ip
p 1
Distancia de Minkowski:
1/ n
k n
D ij xip x jp
p 1
3.2.2. Medidas de similaridad para datos binarios.
En algunas ocasiones, las variables utilizadas para caracterizar a las observaciones estn
codificadas como ficticias, es decir, nicamente contemplan la presencia (1) o ausencia (0) del
atributo considerado. Estas variables suelen aflorar en el proceso de codificacin de atributos
medidos en escalas nominales u ordinales.
Para ilustrar el clculo de algunas medidas de similaridad para datos binarios, consideremos una
hipottica base de datos formada por 5 observaciones de 4 variables, as:
Tabla 3.2. Base de datos hipottica de variables binarias.

Variables
Observaciones
X1 X2 X3 X4
E1 1 1 0 0
E2 0 1 1 1
E3 1 1 0 1
E4 0 0 0 1
E5 1 1 1 0
Para calcular las medidas de similaridad se construye en primer lugar una matriz 2x2 para cada
par de observaciones que se estn comparando. En esta matriz se recogen las coincidencias y
las divergencias entre las distintas variables correspondientes a las dos observaciones
comparadas (frecuencias), tal y como se ilustra para el caso de las observaciones E1 y E2, as:
Tabla 3.3. Clculo de similitudes (frecuencias).

E1
1 0
1 1 2
E2
0 1 0
E1
1 0
1 a b
E2
0 c d
Dado que, la observacin E1 presenta un 1 a la vez que la E2 en una sola ocasin (para la
variable X2), la celda a que recoge este hecho aparece como 1. Como para las variables X3 y X4,
el atributo est presente en E2 y ausente en E1, en la casilla b aparece un 2. Anlogamente, las
casillas c y d toman los valores 1 y 0, respectivamente.
Las medidas de similaridad ms utilizadas para dos observaciones i y j cualquiera, son:
Distancia eucldea al cuadrado:

Dij b c
Distancia eucldea:
Dij b c
Diferencia de tamao:
Dij
b c 2
a b c d 2
Diferencia de configuracin:
bc
Dij
a b c d 2
Importante!
El programa SPSS calcula distintas medidas de similaridad; como parte del Mtodo del
procedimiento Anlisis de conglomerados jerrquico.
Salida del SPSS para un anlisis de conglomerados que utiliza como distancia el mtodo de la
diferencia de tamao, para los datos de la Tabla 3.2.
Tabla 3.4. Matriz de distancias con la medida diferencia de tamao.

3.2.3. Estandarizacin de los datos.
Las medidas de distancia, estn basadas en la sustraccin, para cada par de observaciones, de
los valores de las variables utilizadas en su caracterizacin. Por ello, se puede esperar que las
medidas de disimilaridad sean muy sensibles a las unidades en que estn medidas dichas
variables.
Para evitar la influencia no deseable de una variable debida exclusivamente a la unidad en que
viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de
estandarizacin.
Importante!
El programa SPSS ofrece distintas posibilidades para Estandarizar los datos, la ms conocida es:
Puntuaciones Z
Los datos son estandarizados, restando al valor de cada observacin de una variable
determinada, la media de esa variable para el conjunto de las observaciones y dividiendo el
resultado por su desviacin tpica. De esta forma la variable estandarizada tiene media 0 y
desviacin tpica 1.
3.2.3.1. Ejemplo. (Uriel, 2005).
Tabla 3.5. Activos y nmero de trabajadores de ocho empresas.

Nombre de la empresa Activos (pesetas) Trabajadores
E1 10 000 000 000 100
E2 10 050 000 000 90
E3 10 000 000 000 200
E4 10 050 000 000 190
E5 20 000 000 000 200
E6 20 050 000 000 190
E7 20 000 000 000 100
E8 20 050 000 000 90
Si pretendemos agrupar empresas en funcin de dos variables como el tamao de su activo

medido en pesetas y el nmero de trabajadores, la primera variable contribuir mucho ms a
establecer los grupos que la segunda. Y esto no se debe a que conceptualmente una sea mucho
ms importante que la otra, sino a que, con esas unidades, su valor absoluto siempre ser muy
superior.
Tabla 3.6. Matriz de distancias de las 8 empresas.
Al realizar un anlisis de conglomerados con las unidades originales, la matriz de distancias que
se obtiene, muestra que los dos grupos obtenidos responden exclusivamente a la variable
activos de la empresa, puesto que sita en un mismo grupo a aquellas empresas con cifras que
rondan los 10000 millones de pesetas (E1, E2, E3 y E4) y en otro grupo a las que tienen activos
en torno a los 20000 millones (E5, E6, E7 y E8). Es decir, la influencia del nmero de trabajadores
en la obtencin de estos conglomerados es prcticamente nula.
Si estandarizamos los datos de la Tabla 3.5., por ejemplo mediante el procedimiento de las
puntuaciones Z, se logra corregir la influencia desproporcionada de la variable activos de la
empresa en la formacin de los grupos.
Tabla 3.7. Activos y nmero de trabajadores de ocho empresas, estandarizados mediante

puntuaciones Z.
Valores estandarizados
Nombre de la empresa Activos (pesetas) Trabajadores
Activos Trabajadores
E1 10000000000,00 100,00 -1,0050 -0,8955
E2 10050000000,00 90,00 -0,9950 -1,0945
E3 10000000000,00 200,00 -1,0050 1,0945
E4 10050000000,00 190,00 -0,9950 0,8955
E5 20000000000,00 200,00 0,9950 1,0945
E6 20050000000,00 190,00 1,0050 0,8955
E7 20000000000,00 100,00 0,9950 -0,8955
E8 20050000000,00 90,00 1,0050 -1,0945
Media 15025000000,00 145,00 0,0000 0,0000
Desviacin tpica 5000062499,61 50,25 1,0000 1,0000
Si efectuamos un anlisis de conglomerados con los datos estandarizados, la matriz de distancias

que se obtiene, muestra cmo ahora aparecen cuatro grupos formados por dos empresas que se
parecen mucho entre s.
Tabla 3.8. Matriz de distancias de las ocho empresas con datos estandarizados.
Grupo 1: E1 y E2
Grupo 2: E3 y E4
Grupo 3: E5 y E6
Grupo 4: E7 y E8
3.3. Formacin de los grupos: Anlisis jerrquico de conglomerados.
(Uriel, 2005) Una vez que, mediante el clculo de la matriz de distancias, se sabe qu
observaciones estn ms prximas entre s, y ms distantes de otras, es necesario formar los
grupos, lo que implica tomar dos decisiones: (a) seleccin del algoritmo de agrupacin que se
elige, y (b) determinacin de un nmero de grupos razonable.
Los algoritmos de agrupacin existentes responden a dos grandes enfoques:
1. Mtodos jerrquicos. Inicialmente, cada individuo es un grupo en s mismo. Sucesivamente se

van formando grupos de mayor tamao fusionando grupos cercanos entre s. Finalmente, todos
los individuos confluyen en un solo grupo.
2. Mtodos no jerrquicos. Los grupos no se forman en un proceso secuencial de fusin de

grupos de menor tamao. En estos mtodos se establece inicialmente un nmero de grupos a
priori y los individuos se van clasificando en cada uno de esos grupos.
3.3.1. Mtodo del centroide.
(Uriel, 2005) El mtodo del centroide comienza uniendo aquellas dos observaciones que estn
ms cercanas. A continuacin, el grupo formado es sustituido por una observacin que lo
representa y en la que las variables toman los valores medios de todas las obs ervaciones que
constituyen el grupo representado (centroide). En ese momento se recalcula la matriz de
distancias, se unen entonces aquellas dos observaciones que estn de nuevo ms cerca y se
repetir el proceso. ste termina cuando todas las empresas estn en un solo grupo.
3.3.1.1. Ejemplo.
(Uriel, 2005) Con los datos de las ocho empresas de la Tabla 3.1. En primer lugar, se calcula la
matriz de distancias, en este caso con la distancia eucldea al cuadrado, entre las ocho empresas,
entonces se tiene:
Tabla 3.9. Matriz de distancias de las ocho empresas.
El mtodo del centroide comienza uniendo aquellas dos observaciones que estn ms cercanas,
en este caso las empresas E3 y E4 (la distancia es 13). A continuacin el grupo formado es
sustituido por una observacin que lo representa y en la que las variables toman los valores
medios de todas las observaciones que constituyen el grupo representado (centroide).
En nuestro ejemplo, las empresas E3 y E4 son sustituidas por una empresa promedio que
llamaremos E3_4 para las que el gasto en publicidad y las ventas toman los valores; 11 y 23,5
respectivamente.
Tabla 3.10. Inversin en publicidad y ventas para una solucin de siete grupos.
E1 16 10
E2 12 14
E3_4 11 23,5
E5 45 10
E6 50 15
E7 45 25
E8 50 27
Ahora, se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas
E7 y E8 (la distancia es 29). El grupo formado es sustituido por una observacin que lo
representa y en la que las variables toman los valores medios de todas las observaciones que
constituyen el grupo representado (centroide). Las empresas E7 y E8 son sustituidas por una
empresa promedio que llamaremos E7_8 para las que el gasto en publicidad y las ventas toman
los valores; 47,5 y 26 respectivamente.
Tabla 3.11. Inversin en publicidad y ventas para una solucin de seis grupos.
E1 16 10
E2 12 14
E3_4 11 23,5
E5 45 10
E6 50 15
E7_8 47,5 26
Luego, se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas
E1 y E2 (la distancia es 32). Las empresas E1 y E2 son sustituidas por una empresa promedio
que llamaremos E1_2 para las que el gasto en publicidad y las ventas toman los valores; 14 y 26
respectivamente.
Tabla 3.12. Inversin en publicidad y ventas para una solucin de cinco grupos.
E1_2 14 12
E3_4 11 23,5
E5 45 10
E6 50 15
E7_8 47,5 26
Se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas E5 y
E6 (la distancia es 50). Las empresas E5 y E6 son sustituidas por una empresa promedio que
llamaremos E5_6 para las que el gasto en publicidad y las ventas toman los valores; 47,5 y 12,5
respectivamente.
Tabla 3.13. Inversin en publicidad y ventas para una solucin de cuatro grupos.
E1_2 14 12
E3_4 11 23,5
E5_6 47,5 12,5
E7_8 47,5 26
Y as sucesivamente, hasta obtener un solo grupo.
Importante!
Una vez que se tienen almacenados los datos de manera correcta, en un archivo SPSS. El
mdulo de anlisis de conglomerados jerrquicos del programa SPSS permite obtener los
resultados correspondientes:
Analizar / Clasificar / Conglomerados jerrquicos /
Tabla 3.14. Historial de conglomeracin.
En la columna Coeficientes que aparece en la Tabla 3.14., se reflejan las distancias a las que
estaban los grupos que se van fusionando en cada etapa. El coeficiente de la primera etapa es 13
porque, las empresas que se fusionan E3 y E4 estn a esa distancia.
El historial de conglomeracin tiene una traduccin grfica que es de gran utilidad para
determinar el nmero razonable de grupos que debe retenerse. A este grfico se le denomina
dendograma.
Cmo sirve el dendograma para determinar cul es el nmero razonable de grupos que debe
retenerse?.
Sabemos que el anlisis de conglomerados jerrquico comienza considerando a cada individuo
como un grupo independiente y sucesivamente va fusionando a los ms cercanos hasta que
todos forman un solo grupo. Pero cada etapa une individuos ms distantes, es decir, ms
diferentes, menos susceptibles de formar un grupo. Obsrvese en la Tabla 3.14., que mientras la
primera etapa fusiona observaciones que distan 13 unidades, en la etapa cinco se unen
individuos que distan 141,25 unidades.
Dnde cortar y dejar de fusionar?
En aquel momento en que la fusin siguiente va a unir individuos muy distintos, es decir, donde el
dendograma da un gran salto. Obsrvese cmo los grupos que se formaron en la etapa cinco (E3,
E4, E1 y E2) y los que se formaron en la etapa seis (E7, E8, E5 y E6) estn a tal distancia que no
es razonable fusionarlos. Estos dos grupos son los que el analista debera retener.
3.3.2. Seleccin del nmero de conglomerados de la solucin.
El anlisis de conglomerados jerrquico ofrece al investigador la posibilidad de elegir entre

muchas soluciones que difieren en cuanto al nmero de conglomerados finales que las
conforman: desde un grupo por cada observacin, hasta un nico grupo que integraran todas las
observaciones. Ha de decidirse, pues, cul es el nmero de conglomerados que conforman una
solucin razonable. (Uriel, 2005).
El programa estadstico SPSS, ofrece el dendograma como herramienta de apoyo para tomar
esta decisin. Debe detenerse el proceso de fusin cuando los grupos que se han de unir estn a
una distancia significativamente mayor de los que previamente se han fusionado.
3.4. Formacin de los grupos: Anlisis no jerrquico de conglomerados.
(Uriel, 2005) El anlisis de conglomerados no jerrquico se caracteriza porque, a diferencia del

jerrquico, se conoce a priori el nmero k de grupos que se desea, y las observaciones son
entonces asignadas a cada uno de esos k conglomerados de tal forma que se maximiza la
homogeneidad de los sujetos asignados a un mismo grupo y la heterogeneidad entre los distintos
conglomerados.
El anlisis de conglomerados no jerrquico contempla la realizacin de los siguientes pasos:
1. Se ha de determinar los centroides iniciales de los k grupos, esto es, los valores medios de las
variables que caracterizan las observaciones en cada uno de esos grupos. Estos centroides
iniciales, que se conocen como semillas, pueden ser fijados por el investigador de acuerdo con
informacin previa (el resultado de un conglomerado jerrquico, por ejemplo) o dejar que sea el
algoritmo de conglomeracin quien decida sus valores mediante su propio procedimiento.
2. Una vez establecidas las semillas, cada observacin se asigna a aquel conglomerado, de entre
los k existentes, cuyo centroide est ms cercano a esa observacin en trminos de distancia
ecucldea.
3. Se recalculan entonces los centroides de los k grupos de acuerdo con las observaciones que
han sido clasificadas en cada uno de ellos. Si el cambio en los centroides (distancia entre nuevos
y viejos centroides) es mayor que un valor criterio de convergencia preestablecido, entonces se
vuelve al paso 2.; finalizando el proceso cuando se cumpla el criterio de convergencia o se supere
un nmero prefijado de iteraciones.
Importante!
Una vez que se tienen almacenados los datos de manera correcta, en un archivo SPSS. El
mdulo de anlisis de conglomerados de K medias del programa SPSS permite obtener los
resultados correspondientes:
Analizar / Clasificar / Conglomerado de K medias /
3.5. Eleccin entre los distintos tipos de anlisis de conglomerados.
Existen dos enfoques en el anlisis de conglomerados: jerrquicos y no jerrquicos; y, dentro de

los jerrquicos existen distintos mtodos de conglomeracin; entonces, cul ofrece mejores
resultados?, cul es el ms adecuado para los objetivos de determinada investigacin?.
Responder a estas preguntas no es sencillo, por cuanto la respuesta depender de los objetivos
del estudio y de las caractersticas de los distintos mtodos.
Eleccin entre anlisis de conglomerados jerrquico y no jerrquico.
Esta decisin no debe tomarse en trminos disyuntivos, pues un enfoque es un buen

complemento del otro. Si el investigador tiene una presuncin razonable de cul puede ser el
nmero de grupos naturales en que se agregan sus observaciones, el anlisis no jerrquico sera
una buena opcin. Sin embargo, este enfoque requiere que se suministren los centroides iniciales
de esos grupos y stos rara vez estn disponibles, no siendo siempre recomendable que el
programa estadstico la elija aleatoriamente.
Eleccin entre los distintos mtodos de agrupacin en el anlisis de conglomerados jerrquico.
Se han realizado estudios comparativos de los distintos procedimientos de agrupacin, sin llegar
a resultados concluyentes. Se debe probar varios de estos procedimientos en un mismo estudio.
Si los resultados son coherentes, se habr obtenido agrupaciones naturales, si no es as, habr
que elegir entre los resultados aquel que le parezca ms razonable al investigador o que est en
concordancia con trabajos similares efectuados.
3.6. Ejemplo de aplicacin del anlisis de conglomerados.
(Uriel, 2005) Diseo de un plan de incentivos para vendedores.
El director de ventas de una cadena de tiendas de electrodomsticos con cobertura nacional

desea analizar el plan de incentivos de sus vendedores. Considera que los incentivos deben estar
ajustados a las dificultades de las distintas zonas de ventas, siendo necesario fijar incentivos ms
altos en aquellas zonas geogrficas en que las condiciones de vida de sus habitantes hacen ms
difcil las ventas. Por este motivo quiere determinar si las comunidades autnomas se pueden
segmentar en grupos homogneos respecto al equipamiento de los hogares.
Tabla 3.15. Equipamiento de los hogares en las Comunidades Autnomas.

Porcentaje de hogares que poseen
Comunidad Autnoma
Automvil TV Color Vdeo Microondas Lavavajillas Telfono
Espaa 69,0 97,6 62,4 32,3 17,0 85,2
Andaluca 66,7 98,0 62,7 24,1 12,7 74,7
Aragn 67,2 97,5 56,8 43,4 20,6 88,4
Asturias 63,7 95,2 52,1 24,4 13,3 88,1
Baleares 71,9 98,8 62,4 29,8 10,1 87,9
Canarias 72,7 96,8 68,4 27,9 5,8 75,4
Cantabria 63,4 94,9 48,9 36,5 11,2 80,5
Castilla y Len 65,8 97,1 47,7 28,1 14,0 85,0
Castilla-La Mancha 61,5 97,3 53,6 21,7 7,1 72,9
Catalua 70,4 98,1 71,1 36,8 19,8 92,2
Comunidad Valenciana 72,7 98,4 68,2 26,6 12,1 84,4
Extremadura 60,5 97,7 43,7 20,7 11,7 67,1
Galicia 65,5 91,3 42,7 13,5 14,6 85,9
Madrid 74,0 99,4 76,3 53,9 32,3 95,7
Murcia 69,0 98,7 59,3 19,5 12,1 81,4
Navarra 76,4 99,3 60,6 44,0 20,6 87,4
Pas Vasco 71,3 98,3 61,6 45,7 23,7 94,3
La Rioja 64,9 98,6 54,4 44,4 17,6 83,4
Fuente: Panel de Hogares de la Unin Europea. INE.
Mediante el SPSS efectuamos un anlisis de conglomerados jerrquico aplicando algunos de los

mtodos de agrupacin del anlisis de conglomerados jerrquico.
Luego de observar, analizar y comparar los resultados, mostramos el dendograma

correspondiente al mtodo de la vinculacin promedio intra-grupos.
Si trazamos una lnea vertical a una distancia razonablemente grande, de unas 13 unidades,
tenemos los siguientes grupos:
Conglomerado 1. Aragn, La Rioja, Navarra, Pas Vasco, Baleares, Comunidad Valenciana, y

Catalua. El valor medio de Espaa se ha aadido como referencia para futuros comentarios.
Conglomerado 2. Andaluca, Murcia, Castilla-La Mancha, Canarias, y Extremadura.
Conglomerado 3. Asturias, Castilla y Len, Cantabria, y Galicia.
Conglomerado 4. Madrid. El anlisis de conglomerados identifica as un outlier, cuyo

comportamiento se debe explicar.
Una vez que ya hemos determinado el nmero de conglomerados con el que vamos a realizar el
anlisis no jerrquico, obtenemos los centroides, es decir, las medias de las seis variables
utilizadas en los cuatro grupos.
En el programa SPSS basta con guardar la pertenencia al conglomerado como una nueva
variable, para luego obtener una tabla cruzada entre esta variable y las variables que caracterizan
a los grupos.
Tabla 3.16. Centroides del anlisis de conglomerados jerrquico.

Ahora, con la informacin obtenida, procedemos a realizar un anlisis de conglomerados no
jerrquico que nos dar la mejor solucin posible de cuatro grupos.
Los centroides iniciales pueden proporcionarse al SPSS mediante su inclusin en un archivo, de

datos *.sav, como el siguiente:
O mediante la siguiente sintaxis para el programa SPSS:
DATASET ACTIVATE Conjunto_de_datos1.

QUICK CLUSTER Automovil TVColor Video Microondas Lavavajillas Telefono
/INITIAL = (70.475 98.325 62.188 37.875 17.688 87.900
66.080 97.700 57.540 22.780 9.880 74.300
64.600 94.625 47.850 25.625 13.275 84.875
74.000 99.400 76.300 53.900 32.300 95.700)
/MISSING=LISTWISE
/CRITERIA=CLUSTER(4) MXITER(20) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/PRINT ID(Comunidad) INITIAL ANOVA CLUSTER DISTAN.
El programa SPSS informa de cules han sido los centroides iniciales de los que se ha partido
para, para informarnos de los centroides finales una vez concluido el proceso iterativo.
Tabla 3.17. Centroides del anlisis de conglomerados no jerrquico.
De la comparacin se desprende que son prcticamente idnticos. Este hecho confirma la

estabilidad de los conglomerados formados y que la aproximacin de centroides proporcionada
por el anlisis de conglomerados jerrquico estaba prxima a la solucin ptima para este
nmero de grupos.
Antes de interpretar las caractersticas de los grupos formados, debe analizarse si el anlisis de
conglomerados no jerrquico ha agrupado a las comunidades autnomas del mismo modo que lo
hizo el anlisis jerrquico. Dada la similitud de los centroides finales puede esperarse esa
coincidencia.
Tabla 3.18. Asignacin de observaciones a conglomerados.
Conglomerado 1. Espaa, Aragn, Baleares, Catalua, Comunidad Valenciana, Navarra, Pas

Vasco, y La Rioja.
Conglomerado 2. Andaluca, Canarias, Castilla-La Mancha, Extremadura, y Murcia.

Conglomerado 3. Asturias, Cantabria, Castilla y Len, y Galicia.
Conglomerado 4. Madrid.
De comparar la Tabla 3.18., donde se explicita la pertenencia a cada conglomerado de las

observaciones, con el dendograma resultante del anlisis jerrquico, se desprende que la
clasificacin en ambos casos es similar.
Entonces, se tiene una solucin de cuatro grupos que, es la mejor solucin.
Tambin, se debe caracterizar a cada uno de los grupos formados. El programa SPSS
proporciona dos elementos tiles para esta caracterizacin. Por un lado los centroides finales; y,
por otro lado, un seudoanlisis de varianza que, nos ayuda a establecer qu variables toman
valores medios claramente distintos en los diferentes grupos y, por ello, son ms tiles para
caracterizarlos.
Tabla 3.19. Anlisis de la varianza de las variables caracterizadoras respecto al

conglomerado de pertenencia.
De todos los resultados obtenidos, podemos concluir:
(1.) Madrid es una observacin con un comportamiento distinto a todas las dems comunidades
autnomas, es decir, es un outlier. Por esto aparece formando su propio grupo. Madrid es una
comunidad autnoma donde el equipamiento de los hogares es superior al del resto del pas.
(2.) En el resto de conglomerados se establecen tres niveles en el grado de equipamiento. El

grupo formado por las Comunidades Autnomas de Aragn, La Rioja, Navarra, Pas Vasco,
Baleares, Comunidad Valenciana, y Catalua conformaran el grupo con mayor equipamiento
promedio. El hecho de que la observacin Espaa, que contiene los valores medios de las
variables consideradas, est en este grupo permitira considerar este grupo como el que
representa al promedio del pas.
(3.) Los otros dos grupos se caracterizan por tener un equipamiento por debajo del promedio
nacional. La diferencia entre ellos reside en que el grupo dos tiene respecto al tres una mayor
dotacin en la mayora de bienes, salvo lavavajillas y telfono.
5 Autoevaluacin
Autoevaluacin 1.
En qu consiste la tcnica del Anlisis de Conglomerados?
Respuesta:
La tcnica multivariante del Anlisis de Conglomerados, permite la agrupacin de distintas

observaciones en grupos homogneos y lo ms distintos posible unos de otros.
Autoevaluacin 2.
En el Anlisis de Conglomerados, inicialmente, el investigador dispone de n observaciones

(individuos, empresas, productos, marcas, etc.) de los que tiene informacin sobre k variables o
caractersticas (edad, estado civil, nmero de hijos, actividad econmica, color, etc.)?
Respuesta:
Efectivamente esto constituye una tabla o matriz de datos, donde, en las filas estn los individuos
y en las columnas las variables, y esta tabla de datos constituye el punto de partida para un
Anlisis de Conglomerados.
Autoevaluacin 3.
Por qu es importante estandarizar los datos?
Respuesta:
El indicador denominado distancia o similaridad es muy sensible a las unidades en que estn
medidas las variables, debido a que estas medidas de disimilaridad estn basadas en la
sustraccin de los valores de las variables utilizadas, por lo que para evitar la influencia no
deseable de una variable debido a la unidad en que viene medida, es necesario corregir el efecto
de los datos recurriendo a alguno de los procesos de estandarizacin disponibles, tales como:
puntuaciones Z, rango 1, o rango 0 a 1.
Autoevaluacin 4.
Cules son y en qu consisten los mtodos para formar los grupos o conglomerados?
Respuesta:
Los distintos mtodos para formar los grupos se han agrupado en dos grandes tipos de mtodos
de conglomeracin: el anlisis de conglomerados jerrquico; y, el anlisis de conglomerados no
jerrquico.
En el anlisis de conglomerados jerrquico, inicialmente, cada individuo es un grupo en s mismo;
y sucesivamente se van formando grupos de mayor tamao fusionando grupos cercanos entre s,
para finalmente obtener un solo grupo con todos los individuos.
En el anlisis de conglomerados no jerrquico, inicialmente, se establece un nmero de grupos a
priori y los individuos se van clasificando en cada uno de esos grupos, por ejemplo una solucin
de cinco grupos es aquella en la que existe una mayor homogeneidad entre los miembros que
pertenecen a cada uno de los cinco grupos; y, cada grupo es lo ms distinto posible de los dems
grupos.
Autoevaluacin 5.
Calcular la matriz de distancias con la medida distancia eucldea para la siguiente base de datos
(hipottica) formada por 4 observaciones de 3 variables, as:
Tabla 3.20. Base de datos hipottica de variables binarias.

Variables
Observaciones
X1 X2 X3
E1 1 1 0
E2 0 1 1
E3 1 1 0
E4 0 0 0
Respuesta:
6 Recursos Complementarios
Anlisis de conglomerados:
http://www.uco.es/zootecniaygestion/img/pictorex/09_13_25_sesion_8.pdf
http://www.ugr.es/~jhermoso/TC3%20GMIM/APUNTES/Tema%209%20TC3%20Cluster%202014-
2015.pdf
http://personal.us.es/analopez/ac.pdf
http://www.uv.mx/iiesca/files/2013/01/conglomerados2000.pdf
http://wdb.ugr.es/~bioestad/guia-spss/practica-8/
Programas informticos:
Microsoft Excel
SPSS
7 Referencias / Bibliografa
URIEL JIMNEZ, Ezequiel; ALDS MANZANO, Joaqun. (2005). Anlisis Multivariante Aplicado.
Aplicaciones al Marketing, Investigacin de Mercados, Economa, Direccin de Empresas y
Turismo. Madrid: Thomson Editores Spain.
PEDRET, Ramn; SAGNIER, Laura; CAMP, Francesc. (2003). Herramientas para Segmentar
Mercados y Posicionar Productos. Anlisis de Informacin Cuantitativa en Investigacin
Comercial. Barcelona: Ediciones Deusto.
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012). Estadstica Aplicada a los
Negocios y a la Economa, 15 ed. Mxico: McGraw Hill.

Análisis de Conglomerados PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análisis de Conglomerados PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Recurso bsico

DOCENTE: Mat. Jos Ernesto CAIZAGUANO VIMOS , MSc.

Se dice que el Anlisis de Conglomerados tiene sus orgenes en la Biologa, concretamente en el

3 Resultado del aprendizaje:

Realiza informe sobre anlisis de datos, datos provenientes de situaciones concretas,

Es importante sealar, que la composicin de los grupos es desconocida a priori y es necesario

(1.) Inicialmente, el investigador dispone de n observaciones (individuos, empresas, etc.) de las

3.2. Medidas de similaridad.

Supongamos que un investigador tiene informacin del presupuesto que un conjunto de

Tabla 3.1. Inversin en publicidad y ventas de ocho empresas.

Puede preguntarse si estas empresas pueden agruparse en funcin de la rentabilidad en trminos

Cmo se han obtenido los grupos anteriores?

Distancia eucldea al cuadrado:

3.2.2. Medidas de similaridad para datos binarios.

Tabla 3.2. Base de datos hipottica de variables binarias.

Tabla 3.3. Clculo de similitudes (frecuencias).

Las medidas de similaridad ms utilizadas para dos observaciones i y j cualquiera, son:

Distancia eucldea al cuadrado:

Tabla 3.4. Matriz de distancias con la medida diferencia de tamao.

3.2.3.1. Ejemplo. (Uriel, 2005).

Tabla 3.5. Activos y nmero de trabajadores de ocho empresas.

Si pretendemos agrupar empresas en funcin de dos variables como el tamao de su activo

Tabla 3.6. Matriz de distancias de las 8 empresas.

Tabla 3.7. Activos y nmero de trabajadores de ocho empresas, estandarizados mediante

Si efectuamos un anlisis de conglomerados con los datos estandarizados, la matriz de distancias

3.3. Formacin de los grupos: Anlisis jerrquico de conglomerados.

Los algoritmos de agrupacin existentes responden a dos grandes enfoques:

1. Mtodos jerrquicos. Inicialmente, cada individuo es un grupo en s mismo. Sucesivamente se

2. Mtodos no jerrquicos. Los grupos no se forman en un proceso secuencial de fusin de

3.3.1. Mtodo del centroide.

Tabla 3.9. Matriz de distancias de las ocho empresas.

Y as sucesivamente, hasta obtener un solo grupo.

Analizar / Clasificar / Conglomerados jerrquicos /

Tabla 3.14. Historial de conglomeracin.

3.3.2. Seleccin del nmero de conglomerados de la solucin.

El anlisis de conglomerados jerrquico ofrece al investigador la posibilidad de elegir entre

(Uriel, 2005) El anlisis de conglomerados no jerrquico se caracteriza porque, a diferencia del

El anlisis de conglomerados no jerrquico contempla la realizacin de los siguientes pasos:

Analizar / Clasificar / Conglomerado de K medias /

3.5. Eleccin entre los distintos tipos de anlisis de conglomerados.

Existen dos enfoques en el anlisis de conglomerados: jerrquicos y no jerrquicos; y, dentro de

Eleccin entre anlisis de conglomerados jerrquico y no jerrquico.

Esta decisin no debe tomarse en trminos disyuntivos, pues un enfoque es un buen

Eleccin entre los distintos mtodos de agrupacin en el anlisis de conglomerados jerrquico.

3.6. Ejemplo de aplicacin del anlisis de conglomerados.

(Uriel, 2005) Diseo de un plan de incentivos para vendedores.

El director de ventas de una cadena de tiendas de electrodomsticos con cobertura nacional

Tabla 3.15. Equipamiento de los hogares en las Comunidades Autnomas.

Mediante el SPSS efectuamos un anlisis de conglomerados jerrquico aplicando algunos de los

Luego de observar, analizar y comparar los resultados, mostramos el dendograma

Conglomerado 1. Aragn, La Rioja, Navarra, Pas Vasco, Baleares, Comunidad Valenciana, y

Conglomerado 2. Andaluca, Murcia, Castilla-La Mancha, Canarias, y Extremadura.

Conglomerado 3. Asturias, Castilla y Len, Cantabria, y Galicia.

Conglomerado 4. Madrid. El anlisis de conglomerados identifica as un outlier, cuyo

Tabla 3.16. Centroides del anlisis de conglomerados jerrquico.

Los centroides iniciales pueden proporcionarse al SPSS mediante su inclusin en un archivo, de

O mediante la siguiente sintaxis para el programa SPSS:

DATASET ACTIVATE Conjunto_de_datos1.

Tabla 3.17. Centroides del anlisis de conglomerados no jerrquico.

De la comparacin se desprende que son prcticamente idnticos. Este hecho confirma la

Conglomerado 1. Espaa, Aragn, Baleares, Catalua, Comunidad Valenciana, Navarra, Pas

Conglomerado 2. Andaluca, Canarias, Castilla-La Mancha, Extremadura, y Murcia.

De comparar la Tabla 3.18., donde se explicita la pertenencia a cada conglomerado de las