Escolar Documentos
Profissional Documentos
Cultura Documentos
de Aprendizaje
Departamento de Ciencias Ex actas
(OA)
Versin
ESTADSTICA APLICADA AL MERCADO
1 Tema
3. Anlisis de conglomerados
2 Motivacin
Supngase que el responsable de marketing de una empresa tiene una base de datos con las
caractersticas sociodemogrficas de sus clientes: edad, nivel educativo, nivel de ingresos, estado
civil, tipo de ocupacin, nmero de hijos, etc. Este directivo se plantea si podra dividir a sus
clientes en subgrupos que tuvieran caractersticas sociodemogrficas similares entre s, pero que
fueran lo ms diferentes posible unos subgrupos de otros. Si esto fuera as, el directivo de
marketing podra, por ejemplo, disear campaas de publicidad distintas para cada grupo, con
creatividades diferentes o utilizando diarios, revistas o cadenas de televisin distintas segn el
grupo al que fuera dirigida la campaa. (Uriel, 2005).
4 Contenido:
3.1. Introduccin.
El anlisis de conglomerados, al que tambin se denomina comnmente anlisis cluster, es una
tcnica diseada para clasificar distintas observaciones en grupos de tal forma que:
(a.) Cada grupo (conglomerado o cluster) sea homogneo respecto a las variables utilizadas para
caracterizarlos, es decir, que cada observacin contenida en l sea parecida a todas las que
estn incluidas en ese grupo.
(b.) Que los grupos sean lo ms distintos posible unos de otros respecto a las variables
consideradas.
(Uriel, 2005) Una secuencia lgica que se debe seguir al efectuar un anlisis de conglomerados,
es:
Al haber utilizado slo dos variables, ste grfico permite responder de manera intuitiva a las
preguntas que se hace el investigador. A la vista de este grfico pueden distinguirse cuatro
grupos de empresas.
El grupo formado por las empresas E1 y E2 que, con una pequea inversin en publicidad ha
obtenido tambin pocas ventas.
El grupo formado por las empresas E3 y E4 que, pese a haber invertido tan poco como las
empresas del grupo anterior, ha obtenido una gran rentabilidad en trminos de ventas.
El grupo formado por las empresas E5 y E6 que, pese a haber efectuado un gran esfuerzo
publicitario no ha sido capaz de obtener unas ventas razonables.
El grupo formado por las empresas E7 y E8 que, con inversiones tambin elevadas, s que ha
logrado, rentabilizar su inversin en trminos de ventas.
Lo primero que se ha hecho de manera intuitiva es ver que E1 est ms cerca de E2 que de E3.
Este ms cerca se traduce en el anlisis de conglomerados en el clculo de alguna medida de
proximidad o similaridad entre cada par de observaciones. En funcin del tipo de variables que se
estn utilizando para caracterizar a los objetos, las medidas ms adecuadas sern diferentes.
3.2.1. Medidas de similaridad para variables mtricas.
(Uriel, 2005) En el caso en que las variables que se utilizan para caracterizar las observaciones
sean mtricas, es decir, de intervalo o de razn, se puede recurrir a cualquiera de las siguientes
medidas de similaridad.
Distancia eucldea:
Si consideramos dos observaciones i y j de las n posibles y si llamamos x ip y x jp al valor que toma
la variable x p de las k existentes en dichas observaciones, la distancia eucldea Dij entre ambas
observaciones se calcula as:
x x jp
k
2
D ij ip
p 1
x x jp
k
2
D ij ip
p 1
Distancia de Minkowski:
1/ n
k n
D ij xip x jp
p 1
En algunas ocasiones, las variables utilizadas para caracterizar a las observaciones estn
codificadas como ficticias, es decir, nicamente contemplan la presencia (1) o ausencia (0) del
atributo considerado. Estas variables suelen aflorar en el proceso de codificacin de atributos
medidos en escalas nominales u ordinales.
Para ilustrar el clculo de algunas medidas de similaridad para datos binarios, consideremos una
hipottica base de datos formada por 5 observaciones de 4 variables, as:
Para calcular las medidas de similaridad se construye en primer lugar una matriz 2x2 para cada
par de observaciones que se estn comparando. En esta matriz se recogen las coincidencias y
las divergencias entre las distintas variables correspondientes a las dos observaciones
comparadas (frecuencias), tal y como se ilustra para el caso de las observaciones E1 y E2, as:
E1
1 0
1 a b
E2
0 c d
Dado que, la observacin E1 presenta un 1 a la vez que la E2 en una sola ocasin (para la
variable X2), la celda a que recoge este hecho aparece como 1. Como para las variables X3 y X4,
el atributo est presente en E2 y ausente en E1, en la casilla b aparece un 2. Anlogamente, las
casillas c y d toman los valores 1 y 0, respectivamente.
Distancia eucldea:
Dij b c
Diferencia de tamao:
Dij
b c 2
a b c d 2
Diferencia de configuracin:
bc
Dij
a b c d 2
Importante!
El programa SPSS calcula distintas medidas de similaridad; como parte del Mtodo del
procedimiento Anlisis de conglomerados jerrquico.
Salida del SPSS para un anlisis de conglomerados que utiliza como distancia el mtodo de la
diferencia de tamao, para los datos de la Tabla 3.2.
Las medidas de distancia, estn basadas en la sustraccin, para cada par de observaciones, de
los valores de las variables utilizadas en su caracterizacin. Por ello, se puede esperar que las
medidas de disimilaridad sean muy sensibles a las unidades en que estn medidas dichas
variables.
Para evitar la influencia no deseable de una variable debida exclusivamente a la unidad en que
viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de
estandarizacin.
Importante!
El programa SPSS ofrece distintas posibilidades para Estandarizar los datos, la ms conocida es:
Puntuaciones Z
Los datos son estandarizados, restando al valor de cada observacin de una variable
determinada, la media de esa variable para el conjunto de las observaciones y dividiendo el
resultado por su desviacin tpica. De esta forma la variable estandarizada tiene media 0 y
desviacin tpica 1.
Al realizar un anlisis de conglomerados con las unidades originales, la matriz de distancias que
se obtiene, muestra que los dos grupos obtenidos responden exclusivamente a la variable
activos de la empresa, puesto que sita en un mismo grupo a aquellas empresas con cifras que
rondan los 10000 millones de pesetas (E1, E2, E3 y E4) y en otro grupo a las que tienen activos
en torno a los 20000 millones (E5, E6, E7 y E8). Es decir, la influencia del nmero de trabajadores
en la obtencin de estos conglomerados es prcticamente nula.
Si estandarizamos los datos de la Tabla 3.5., por ejemplo mediante el procedimiento de las
puntuaciones Z, se logra corregir la influencia desproporcionada de la variable activos de la
empresa en la formacin de los grupos.
Tabla 3.8. Matriz de distancias de las ocho empresas con datos estandarizados.
Grupo 1: E1 y E2
Grupo 2: E3 y E4
Grupo 3: E5 y E6
Grupo 4: E7 y E8
(Uriel, 2005) Una vez que, mediante el clculo de la matriz de distancias, se sabe qu
observaciones estn ms prximas entre s, y ms distantes de otras, es necesario formar los
grupos, lo que implica tomar dos decisiones: (a) seleccin del algoritmo de agrupacin que se
elige, y (b) determinacin de un nmero de grupos razonable.
(Uriel, 2005) El mtodo del centroide comienza uniendo aquellas dos observaciones que estn
ms cercanas. A continuacin, el grupo formado es sustituido por una observacin que lo
representa y en la que las variables toman los valores medios de todas las obs ervaciones que
constituyen el grupo representado (centroide). En ese momento se recalcula la matriz de
distancias, se unen entonces aquellas dos observaciones que estn de nuevo ms cerca y se
repetir el proceso. ste termina cuando todas las empresas estn en un solo grupo.
3.3.1.1. Ejemplo.
(Uriel, 2005) Con los datos de las ocho empresas de la Tabla 3.1. En primer lugar, se calcula la
matriz de distancias, en este caso con la distancia eucldea al cuadrado, entre las ocho empresas,
entonces se tiene:
El mtodo del centroide comienza uniendo aquellas dos observaciones que estn ms cercanas,
en este caso las empresas E3 y E4 (la distancia es 13). A continuacin el grupo formado es
sustituido por una observacin que lo representa y en la que las variables toman los valores
medios de todas las observaciones que constituyen el grupo representado (centroide).
En nuestro ejemplo, las empresas E3 y E4 son sustituidas por una empresa promedio que
llamaremos E3_4 para las que el gasto en publicidad y las ventas toman los valores; 11 y 23,5
respectivamente.
Tabla 3.10. Inversin en publicidad y ventas para una solucin de siete grupos.
Inversin en publicidad Ventas
Nombre de la empresa
(decenas de millones; 10 000 000) (millardos; 1 000 000 000)
E1 16 10
E2 12 14
E3_4 11 23,5
E5 45 10
E6 50 15
E7 45 25
E8 50 27
Ahora, se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas
E7 y E8 (la distancia es 29). El grupo formado es sustituido por una observacin que lo
representa y en la que las variables toman los valores medios de todas las observaciones que
constituyen el grupo representado (centroide). Las empresas E7 y E8 son sustituidas por una
empresa promedio que llamaremos E7_8 para las que el gasto en publicidad y las ventas toman
los valores; 47,5 y 26 respectivamente.
Tabla 3.11. Inversin en publicidad y ventas para una solucin de seis grupos.
Inversin en publicidad Ventas
Nombre de la empresa
(decenas de millones; 10 000 000) (millardos; 1 000 000 000)
E1 16 10
E2 12 14
E3_4 11 23,5
E5 45 10
E6 50 15
E7_8 47,5 26
Luego, se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas
E1 y E2 (la distancia es 32). Las empresas E1 y E2 son sustituidas por una empresa promedio
que llamaremos E1_2 para las que el gasto en publicidad y las ventas toman los valores; 14 y 26
respectivamente.
Tabla 3.12. Inversin en publicidad y ventas para una solucin de cinco grupos.
Inversin en publicidad Ventas
Nombre de la empresa
(decenas de millones; 10 000 000) (millardos; 1 000 000 000)
E1_2 14 12
E3_4 11 23,5
E5 45 10
E6 50 15
E7_8 47,5 26
Se unen aquellas dos observaciones que estn ms cercanas, en este caso las empresas E5 y
E6 (la distancia es 50). Las empresas E5 y E6 son sustituidas por una empresa promedio que
llamaremos E5_6 para las que el gasto en publicidad y las ventas toman los valores; 47,5 y 12,5
respectivamente.
Tabla 3.13. Inversin en publicidad y ventas para una solucin de cuatro grupos.
Inversin en publicidad Ventas
Nombre de la empresa
(decenas de millones; 10 000 000) (millardos; 1 000 000 000)
E1_2 14 12
E3_4 11 23,5
E5_6 47,5 12,5
E7_8 47,5 26
Importante!
Una vez que se tienen almacenados los datos de manera correcta, en un archivo SPSS. El
mdulo de anlisis de conglomerados jerrquicos del programa SPSS permite obtener los
resultados correspondientes:
En la columna Coeficientes que aparece en la Tabla 3.14., se reflejan las distancias a las que
estaban los grupos que se van fusionando en cada etapa. El coeficiente de la primera etapa es 13
porque, las empresas que se fusionan E3 y E4 estn a esa distancia.
El historial de conglomeracin tiene una traduccin grfica que es de gran utilidad para
determinar el nmero razonable de grupos que debe retenerse. A este grfico se le denomina
dendograma.
Cmo sirve el dendograma para determinar cul es el nmero razonable de grupos que debe
retenerse?.
Sabemos que el anlisis de conglomerados jerrquico comienza considerando a cada individuo
como un grupo independiente y sucesivamente va fusionando a los ms cercanos hasta que
todos forman un solo grupo. Pero cada etapa une individuos ms distantes, es decir, ms
diferentes, menos susceptibles de formar un grupo. Obsrvese en la Tabla 3.14., que mientras la
primera etapa fusiona observaciones que distan 13 unidades, en la etapa cinco se unen
individuos que distan 141,25 unidades.
Dnde cortar y dejar de fusionar?
En aquel momento en que la fusin siguiente va a unir individuos muy distintos, es decir, donde el
dendograma da un gran salto. Obsrvese cmo los grupos que se formaron en la etapa cinco (E3,
E4, E1 y E2) y los que se formaron en la etapa seis (E7, E8, E5 y E6) estn a tal distancia que no
es razonable fusionarlos. Estos dos grupos son los que el analista debera retener.
El programa estadstico SPSS, ofrece el dendograma como herramienta de apoyo para tomar
esta decisin. Debe detenerse el proceso de fusin cuando los grupos que se han de unir estn a
una distancia significativamente mayor de los que previamente se han fusionado.
3.4. Formacin de los grupos: Anlisis no jerrquico de conglomerados.
1. Se ha de determinar los centroides iniciales de los k grupos, esto es, los valores medios de las
variables que caracterizan las observaciones en cada uno de esos grupos. Estos centroides
iniciales, que se conocen como semillas, pueden ser fijados por el investigador de acuerdo con
informacin previa (el resultado de un conglomerado jerrquico, por ejemplo) o dejar que sea el
algoritmo de conglomeracin quien decida sus valores mediante su propio procedimiento.
2. Una vez establecidas las semillas, cada observacin se asigna a aquel conglomerado, de entre
los k existentes, cuyo centroide est ms cercano a esa observacin en trminos de distancia
ecucldea.
3. Se recalculan entonces los centroides de los k grupos de acuerdo con las observaciones que
han sido clasificadas en cada uno de ellos. Si el cambio en los centroides (distancia entre nuevos
y viejos centroides) es mayor que un valor criterio de convergencia preestablecido, entonces se
vuelve al paso 2.; finalizando el proceso cuando se cumpla el criterio de convergencia o se supere
un nmero prefijado de iteraciones.
Importante!
Una vez que se tienen almacenados los datos de manera correcta, en un archivo SPSS. El
mdulo de anlisis de conglomerados de K medias del programa SPSS permite obtener los
resultados correspondientes:
Se han realizado estudios comparativos de los distintos procedimientos de agrupacin, sin llegar
a resultados concluyentes. Se debe probar varios de estos procedimientos en un mismo estudio.
Si los resultados son coherentes, se habr obtenido agrupaciones naturales, si no es as, habr
que elegir entre los resultados aquel que le parezca ms razonable al investigador o que est en
concordancia con trabajos similares efectuados.
Una vez que ya hemos determinado el nmero de conglomerados con el que vamos a realizar el
anlisis no jerrquico, obtenemos los centroides, es decir, las medias de las seis variables
utilizadas en los cuatro grupos.
En el programa SPSS basta con guardar la pertenencia al conglomerado como una nueva
variable, para luego obtener una tabla cruzada entre esta variable y las variables que caracterizan
a los grupos.
El programa SPSS informa de cules han sido los centroides iniciales de los que se ha partido
para, para informarnos de los centroides finales una vez concluido el proceso iterativo.
Antes de interpretar las caractersticas de los grupos formados, debe analizarse si el anlisis de
conglomerados no jerrquico ha agrupado a las comunidades autnomas del mismo modo que lo
hizo el anlisis jerrquico. Dada la similitud de los centroides finales puede esperarse esa
coincidencia.
Tabla 3.18. Asignacin de observaciones a conglomerados.
Conglomerado 4. Madrid.
Tambin, se debe caracterizar a cada uno de los grupos formados. El programa SPSS
proporciona dos elementos tiles para esta caracterizacin. Por un lado los centroides finales; y,
por otro lado, un seudoanlisis de varianza que, nos ayuda a establecer qu variables toman
valores medios claramente distintos en los diferentes grupos y, por ello, son ms tiles para
caracterizarlos.
(1.) Madrid es una observacin con un comportamiento distinto a todas las dems comunidades
autnomas, es decir, es un outlier. Por esto aparece formando su propio grupo. Madrid es una
comunidad autnoma donde el equipamiento de los hogares es superior al del resto del pas.
(3.) Los otros dos grupos se caracterizan por tener un equipamiento por debajo del promedio
nacional. La diferencia entre ellos reside en que el grupo dos tiene respecto al tres una mayor
dotacin en la mayora de bienes, salvo lavavajillas y telfono.
5 Autoevaluacin
Autoevaluacin 1.
Respuesta:
Autoevaluacin 2.
Respuesta:
Efectivamente esto constituye una tabla o matriz de datos, donde, en las filas estn los individuos
y en las columnas las variables, y esta tabla de datos constituye el punto de partida para un
Anlisis de Conglomerados.
Autoevaluacin 3.
Respuesta:
El indicador denominado distancia o similaridad es muy sensible a las unidades en que estn
medidas las variables, debido a que estas medidas de disimilaridad estn basadas en la
sustraccin de los valores de las variables utilizadas, por lo que para evitar la influencia no
deseable de una variable debido a la unidad en que viene medida, es necesario corregir el efecto
de los datos recurriendo a alguno de los procesos de estandarizacin disponibles, tales como:
puntuaciones Z, rango 1, o rango 0 a 1.
Autoevaluacin 4.
Cules son y en qu consisten los mtodos para formar los grupos o conglomerados?
Respuesta:
Los distintos mtodos para formar los grupos se han agrupado en dos grandes tipos de mtodos
de conglomeracin: el anlisis de conglomerados jerrquico; y, el anlisis de conglomerados no
jerrquico.
En el anlisis de conglomerados jerrquico, inicialmente, cada individuo es un grupo en s mismo;
y sucesivamente se van formando grupos de mayor tamao fusionando grupos cercanos entre s,
para finalmente obtener un solo grupo con todos los individuos.
En el anlisis de conglomerados no jerrquico, inicialmente, se establece un nmero de grupos a
priori y los individuos se van clasificando en cada uno de esos grupos, por ejemplo una solucin
de cinco grupos es aquella en la que existe una mayor homogeneidad entre los miembros que
pertenecen a cada uno de los cinco grupos; y, cada grupo es lo ms distinto posible de los dems
grupos.
Autoevaluacin 5.
Calcular la matriz de distancias con la medida distancia eucldea para la siguiente base de datos
(hipottica) formada por 4 observaciones de 3 variables, as:
Respuesta:
6 Recursos Complementarios
Anlisis de conglomerados:
http://www.uco.es/zootecniaygestion/img/pictorex/09_13_25_sesion_8.pdf
http://www.ugr.es/~jhermoso/TC3%20GMIM/APUNTES/Tema%209%20TC3%20Cluster%202014-
2015.pdf
http://personal.us.es/analopez/ac.pdf
http://www.uv.mx/iiesca/files/2013/01/conglomerados2000.pdf
http://wdb.ugr.es/~bioestad/guia-spss/practica-8/
Programas informticos:
Microsoft Excel
SPSS
7 Referencias / Bibliografa
URIEL JIMNEZ, Ezequiel; ALDS MANZANO, Joaqun. (2005). Anlisis Multivariante Aplicado.
Aplicaciones al Marketing, Investigacin de Mercados, Economa, Direccin de Empresas y
Turismo. Madrid: Thomson Editores Spain.
PEDRET, Ramn; SAGNIER, Laura; CAMP, Francesc. (2003). Herramientas para Segmentar
Mercados y Posicionar Productos. Anlisis de Informacin Cuantitativa en Investigacin
Comercial. Barcelona: Ediciones Deusto.
LIND, Douglas A.; MARCHAL, William G.; WATHEN, Samuel A. (2012). Estadstica Aplicada a los
Negocios y a la Economa, 15 ed. Mxico: McGraw Hill.