Você está na página 1de 25

ANÁLISIS DE COMPONENTES PRINCIPALES Y ANALISIS DE

CONGLOMERADOS.

David Cafiel Gomez Beltran

José David González Camacho

Camilo José Andrade López

Daniel David Cabarcas Madera

Fornel Polanco Mejía

Taller de química analítica

Presentado al ing.

Idelfonso Baldiris.

Fecha: 30 de noviembre

Fundación Universitaria Tecnológico Comfenalco

Facultada de ingeniería

Tecnología en control de calidad

2016
ANÁLISIS DE COMPONENTES PRINCIPALES

En muchas ocasiones, en estudios estadísticos, se disponen datos referentes a


varias variables numéricas, por lo cual, se plantea si se podría crear grupos de
variables de modo que cada agrupación contenga variables que estén entre si
correlacionadas, es decir, que nos brinde el mismo tipo de información, y que
además, los grupo o agrupaciones entre si sean independientes, es decir, que
brinden informaciones distintas, para ello, se realiza el Análisis de
Componentes Principales (ACP), está es una técnica estadística de síntesis
de la información, o reducción del número de variables, es decir, ante un banco
de datos con muchas variables, el objetivo será reducirlas a un menor número
perdiendo la menor cantidad de información posible. Este tipo de análisis se
efectúa únicamente a variables cuantitativas numéricas. A cada grupo se le llama
componente o factor.

Por ejemplo, si se quiere crear dichas agrupaciones de variables, las cuales se


denomina componentes o factores, cuando es posible crear solamente dos
componentes, esta técnica permite analizar gráficamente que características
definen a cada elemento de la muestra, en función al cuadrante XY en el que
salga situado. El tipo de grafico que presenta este análisis tiene le siguiente
aspecto:

Donde los puntos rojos son los elementos de la muestra.

Obtención e interpretación de los datos:

Supongamos que tenemos información referente a varios países del mundo,


referente a unas determinadas variables, que se denominaran como V 1, V2. V3,
V4, V5 y V6. Se desea agrupar las variables en 2 componentes (lo ideal es agrupar
en dos componentes para luego poder identificar las características de cada país
en función de cómo se hallan posicionado en el gráfico). Para realizar el análisis
de componentes principales, se puede utilizar el software estadístico Minitab,
utilizando el siguiente procedimiento:
𝑆𝑡𝑎𝑡 → 𝑀𝑢𝑙𝑡𝑖𝑣𝑎𝑟𝑖𝑎𝑡𝑒 → 𝑃𝑟𝑖𝑛𝑐𝑖𝑝𝑎𝑙 𝑐𝑜𝑚𝑝𝑜𝑛𝑒𝑛𝑡

Suponiendo que la salida que nos ofrece Minitab es la siguiente:

Principal Component Analysis

Eigenanalysis of the Correlation Matrix

Eingenvalue 3,2004 1,6476 0,8076 0,1610 0,1448 0,0387


Proportion 0,533 0,275 0,135 0,027 0,024 0,006
Cumulative 0,533 0,808 0,943 0,969 0,994 1,000
Variable PC1 PC2
V1 0,229 0,670
V2 0,362 0,508
V3 0,510 0,097
V4 0,504 0,285
V5 0,524 0,140
V6 0,667 0,127

Los pasos que se deben seguir para interpretar estos resultados son:

Paso #1: Identificar el número de componentes a seleccionar para recoger el


máximo de información posible.
Para saber cuántos componentes se deben seleccionar, de modo que, la
cantidad de información que aporte sea la máxima posible, se debe observar los
datos calculados en el apartado ‘’ Eigenanalysis of the Correlation Matrix’’, y más
concretamente en la línea ‘’Cumulative’’.

En primer lugar, aparece ‘’Eigenvalue’’, el cual hace referencia a los valores


propios de cada componente principal, y justo debajo aparece ‘’proportion’’, el
cual es la proporción de varianza explicada por cada uno de ellos, y por ultimo
‘’Culmulative’’, el cual es la varianza explicada acumulada. Esta última informa
sobre el porcentaje de varianza acumulada o explicada dependiendo el número
de componentes seleccionados, ya sea 1 solo componente (primera columna),
o con 2 componentes (segunda columna) o con 6 componentes (sexta columna).

Los datos de varianza explicada son muy importantes para saber cuántos
componentes principales vamos a utilizar en nuestro análisis. No existe una regla
definida sobre el número que se debe seleccionar, con lo cual se debe decidir en
función del número de variables iniciales (hay que recordar que se trata de
reducirlas lo más posible).

Ya que se quiere seleccionar solamente dos componentes, el porcentaje de


varianza explicada alcanza un 80,8%, el cual es un porcentaje muy bueno, ya
que esta próximo al 100%. Por lo tanto, en este caso se podrá optar por agrupar
las variables en dos componentes.

Paso #2: Identificar a que componente corresponde cada variable y asignarle un


nombre a cada componente en función de las variables que se agrupan.

Para poder identificar las variables que están asignadas a cada componente, se
debe observar los siguientes resultados:

Variable PC1 PC2


V1 0,229 0,670
V2 0,362 0,508
V3 0,510 0,097
V4 0,504 0,285
V5 0,524 0,140
V6 0,667 0,127
Donde PC1 es el primer componente y PC2 es el segundo componente (Se debe
tener en cuenta que el dato de cada componente se debe fijar en valor absoluto).
Las variables se deben asignar al componente cuyo valor sea más alto que el
otro, por ejemplo, la variable V1 fue asignada al componente dos porque su valor
es mayor al obtenido en el componente 1 (0,670 > 0,229).

Tal como se observa en los resultados, el primer componente está formado por
las variables V3, V4, V5 y V6, por lo tanto estas variables se encuentran
correlacionadas entre sí, es decir, brindan la misma información referida a un
mismo aspecto, por lo tanto, a este componente se le asignara un nombre que
resuma la información que brindan estas variables, lo mismo se realizara con el
segundo componente.

En conclusión, el resultado final es:

Componente 1 (PC1) agrupa las variables V3, V4, V5 y V6.

Componente 2 (PC2) agrupa las variables V1 y V2.

A cada componente se le asigna un nombre dependiendo de la información


contenida en cada agrupación.

Paso #3: Analizar gráficamente que características definen a cada elemento de


la muestra.

Para poder analizar gráficamente las características que definen a cada


elemento la muestra, se utiliza el grafico cartesiano que se observó
anteriormente.

Aquellos que se encuentren en el primer cuadrante (+, +), son los países que
tienen un buen resultado tanto en el primer componente y en el segundo
componente.

Aquellos que se encuentren en el segundo cuadrante (−, +), son los países que
obtuvieron un mal resultado en el primer componente, pero tenían un buen
resultado en el segundo componente.

Aquellos países que se encuentran en el tercer cuadrante (−, −), son los que
obtuvieron un mal resultado en ambos componentes.
Y aquellos países que se encuentran en el cuarto cuadrante (+, −), obtuvieron
un buen resultado en el primer componente y un mal resultado en el segundo
componente.

EJEMPLO: Se recogen las calificaciones de 15 alumnos de una clase del


Instituto Educativo Nuestra Señora del Carmen en 9 asignaturas distintas.

La salida que nos ofrece Minitab es la siguiente:

Principal Component Analysis

Eigenanalysis of the Correlation Matrix

Eingenvalue 3,7014 2,8608 0,9535 0,2156 0,1513 0,0628


Proportion 0,464 0,358 0,119 0,027 0,019 0,008
Cumulative 0,464 0,821 0,941 0,968 0,986 0,994
Eingenvalue 0,0317 0,0139
Proportion 0,004 0,002
Cumulative 0,998 1,000

Variable PC1 PC2 PC3 PC4 PC5 PC6


LENGUA 0,500 0,085 -0,028 -0,235 0,434 0,112
MATEMATI -0,113 0,555 0,133 -0,254 -0,245 -0,686
FISICA -0,052 0,575 0,076 0,059 0,386 0,093
INGLES 0,499 0,037 -0,005 -0,550 0,102 0,001
FILOSOFI 0,450 0,122 -0,303 0,702 0,145 -0,340
HISTORIA 0,493 0,064 -0,011 0,027 -0,736 0,140
QUIMICA -0,073 0.574 -0,021 0,135 -0,163 0,611
GIMNASIA 0.187 -0,069 0,940 0,250 0,052 -0,002
Variable PC7 PC8
LENGUA -0,372 0,589
MATEMATI -0,247 0,075
FISICA 0,696 0,126
INGLES 0,115 -0,651
FILOSOFI -0,087 -0,232
HISTORIA 0,318 0,300
QUIMICA -0,436 -0,239
GIMNASIA -0,066 -0,084
En este caso, parece razonable tomar solamente los 3 primeros componentes
principales, ya que, con ellos se tiene un 94,1% de la varianza explica, y teniendo
en cuenta que añadiendo otro componente principal más, sólo se obtendrá un
2,7%, y quitando uno se pierde un 12%. Finalmente, nos aparecen las
correlaciones de cada componente principal con cada variable:

En este caso, se observa que el primer componente (PC1) tiene la mayor


correlación positiva con las asignaturas LENGUA, INGLÉS, HISTORIA y
FILOSOFÍA, mientras que tiene correlación negativa con MATEMÁTICAS y casi
nula con el resto de asignaturas. Por tanto, es claro que estamos hablando de la
facilidad para las asignaturas de Letras.

En cuanto al segundo componente (PC2), ocurre justo, al contrario, ya que tiene


correlación positiva con FÍSICA, QUÍMICA y MATEMÁTICAS, y cercana a 0 con
el resto de asignaturas. Evidentemente, se está refiriendo a la facilidad en las
asignaturas de Ciencias.

Por último, el tercer componente (PC3) tiene una correlación positiva muy alta
(casi 1) con GIMNASIA, con lo cual habría que interpretarla como la facilidad en
dicha asignatura, bastante independiente del resto.

También se obtiene el grafico en dos dimensiones de PC1 y PC2, donde


podemos ver la variabilidad de las observaciones:
Ejemplo en statgraphics:
Una muestra con 100 participantes en un estudio, de las cuales de mide su
peso, altura, ancho de hombros y ancho de caderas. Suponemos que se tienen
las siguientes medidas:
Ancho de Ancho de
Peso Altura
hombro caderas
Promedio 54.2 161.7 36.5 30.1

Suponemos que tenemos los datos en una matriz S:


𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒
[1,] 44.70 17.79 5.99 9.19
[2,] 17.79 26.15 4.52 4.44
[3,] 5.99 4.52 3.33 1.34
[4,] 9.19 4.44 1.34 4.56
Calculamos los componentes principales por medio de statgraphics siguiendo
los siguientes pasos:
Paso #1: Ingresamos los datos a analizar:

Paso #2: Seleccionar en describir, datos multivariados y componentes


principales:
Seleccionamos las variables, luego seleccionamos el tipo de tabla y grafico a
analizar las cuales son:

Componente Porcentaje de Porcentaje


Eigenvalor
Número Varianza Acumulado
1 2,45279 61,320 61,320
2 0,711902 17,798 79,117
3 0,509364 12,734 91,851
4 0,325947 8,149 100,000

Se ha extraído 1 variable ponderada, esta variable son combinaciones lineales


de las varíales originales, la cual arroja un 61,320% de la varianza o variabilidad
acumulada, es decir, lo que se explicaba con las 4 variables originales ahora se
explica con la nueva variable.
De igual modo el grafico de sedimentación también nos representa con cuantas
variables nos vamos a quedar tal como lo muestra a continuación:
Este grafico muestra el efecto de codo, el cual donde hace codo, hay debemos
cortar y mirar cuantas variables debemos tomar, en este caso tal como lo dicho
anterior mente debemos tomar 1 variable la cual está por encima de la línea roja
ubicada en valor 1 del eje de las Y.
Conclusión:
La interpretación del modelo implica que el primer componente principal es un
componente de tamaño. Las variables 𝑋1, 𝑋2, 𝑋3, 𝑋4 son los datos: Peso, altura,
ancho de hombros y ancho de caderas. También se puede observar que se
redujo la dimensión de los datos de 4 dimensiones (𝑋1, 𝑋2, 𝑋3, 𝑋4) a 2
dimensiones (𝑌1, 𝑌2).

ANÁLISIS DE CONGLOMERADOS
Está diseñado para agrupar observaciones o variables en conglomerados
basados en similar ida des entre ellos. Los renglones de los datos para el
procedimiento pueden estar en cualquiera de las dos formas:
1. n renglones o casos, cada uno conteniendo los valores de las p variables
cuantitativas.
2. n renglones y n columnas si se conglomera a las observaciones o p renglones
y p columnas si se conglomera a las variables, conteniendo una medida de
“distancia “entre todos los pares de objetos. Si un renglón de datos es la entrada,
el procedimiento calculara las distancias entre las observaciones o variables.
Si un renglón de datos es la entrada, el procedimiento calculara las distancias
entre las observaciones o variables.
Un número de algoritmos son dados para generar conglomerados. Algunos de
estos son aglomera TiVo, empezando con conglomerados separados para cada
observación o variable y uniéndolos de acuerdo a sus similaridades. Otros
métodos empiezan con un conjunto de semillas y van uniendo otras
observaciones o variables a cada semilla para formar conglomerados. Los
resultados del análisis son desplegados de distintas maneras, incluyendo un
dendograma, una tabla de miembros, y una gráfica icicle.
DATOS DEL EJEMPLO:
El archivo cities.sf6 contiene información de n= 10 ciudades grandes de U.S.,
obtenidas dewww.city-data.com. Los datos consisten de variables demográficas,
económicas y ambientales. La siguiente tabla muestra una lista parcial de los
datos en este archivo

Las ciudades serán conglomeradas de acuerdo a las siguientes p= 12 variables:


Population/Land Area
Percent Female
Median age
Median income
Median house value
Percent college
Commute time
Percent married
Percent foreign born
Lowest temperature
Highest temperature
Precipitation
Entrada de Datos
La caja de dialogo de datos de entrada requiere los nombres de las columnas
que contienen los datos de entrada:

Datos: Si las observaciones son conglomeradas, los nombres de las p variables


de entrada contienen los valores para los n casos, o una matriz de n por n
contiene las distancias entre cada par de casos. Si las variables son
conglomeradas, los nombres de las p variables de entrada contienen los valores
para los n casos, o una matriz de p por p contiene las distancias entre cada par
de variables.
Etiquetas de Puntos: Etiquetas opcionales para cada renglón en la hoja de
datos.
Selección: Selección de un subconjunto de los datos.

Resumen del Análisis


El resumen del análisis resume los resultados de la conglomeración
Incluidas en la tabla están:
• Variables de Entrada: Identificación de las variables de entrada.
•Número de casos completos: El número de casos n con información sobre
todas las variables de entrada. Cualquier renglón en la hoja de datos con valores
perdidos para alguna variable es excluido del análisis.
•Método de Aglomeración: El método usado para derivar la conglomeración
(ver discusión abajo).
•Métrica Distancia: Si los datos consisten de observaciones, la métrica usada
para medirla distancia entre los conglomerados. Si la matriz de distancias ha
sido, indicada por el usuario.
• Conglomeración: Cualquieras observaciones o variables, dependiendo de
acuerdo a que se requiera la conglomeración.
•Estandarizados: Si los datos fueron estandarizados antes de que las distancias
fueran calculadas.
•Resumen de Conglomeración: El número de conglomerados creados y el
porcentaje de observaciones o variables puestas en cada conglomerado.
•Centroides: El valor promedio para cada variable en cada conglomerado (si las
observaciones
Han sido conglomeradas).

Opciones del Análisis


•Método: Método usado para crear los conglomerados.
•Número de Conglomerados: El número final deseado de conglomerados.
•Métrica Distancia: La métrica usada para medir la distancia entre los casos.
•Conglomerar: Si genera conglomerados para observaciones o variables.
•Estandarizar: Si se selecciona, las variables serán estandarizadas antes de
hacer la conglomeración. Si se conglomeran observaciones, cada variable es
estandarizada sustrayendo su media muestral y dividiendo por su desviación
estándar muestral. Si se conglomeran variables, la conglomeración se
basa en la matriz de correlaciones muéstrales en lugar de en la matriz de
covarianzas muéstrales.
•Semilla: Cuando usamos el método de k-medias, se muestra una caja de
dialogo para introducir las k semillas.
Metodología Estadística
Con el objetivo de crear conglomerados de observaciones o variables, es
importante tener una medida de” cercanía” o “similar dad” tal que los objetos
parecidos puedan ser juntados. Cuando observaciones son conglomeradas, la
cercanía es típicamente medida por la distancia entre observaciones en el p-
dimensional espacio de variables. El procedimiento Análisis de Conglomerados
provee 3 diferentes métricas para medir la distancia entre 2 objetos,
representados por x y y:
Cuando se conglomeran variables, la distancia es definida similarmente excepto
que x y y
Representan la localización de 2 variables en el n-dimensional espacio de las
observaciones, y la suma es sobre las observaciones en lugar de sobre las
variables. Si alguna otra métrica de distancia es preferida, el usuario puede
introducir la matriz de distancias directamente en lugar de introducir las
observaciones originales. Hay dos tipos básicos de métodos para conglomerar
objetos:

Hay dos tipos básicos de métodos para conglomerar objetos:

Métodos Jerárquicos Aglomerativo: Métodos de conglomeración jerárquicos


aglomerativo inician poniendo cada observación en un conglomerado separado.
Conglomerados son unidos, dos cada vez, hasta que el número de
conglomerados es reducido a un objetivo deseado. En cada etapa, los
conglomerados son unidos en pares de acuerdo a su cercanía.2.

Método de k-Medias: Este método inicia identificando k objetos como semillas


iniciales para cada conglomerado. Los objetos son adheridos al conglomerado
más cercano. Métodos Aglomerativo Los métodos aglomerativo inician poniendo
cada objeto en un conglomerado separado y después combinando
conglomerados de acuerdo a sus distancias con todos los demás. El proceso
continúa hasta que el número deseado de conglomerados es alcanzado. Donde
los métodos difieren es en cómo estos definen la distancia entre dos
conglomerados cuando uno o ambos delos conglomerados contienen más que
un miembro:

Métodos Aglomerativo:
Los métodos aglomerativo inician poniendo cada objeto en un conglomerado
separado y después combinando conglomerados de acuerdo a sus distancias
con todos los demás. El proceso continúa hasta que el número deseado de
conglomerados es alcanzado. Donde los métodos difieren es en cómo estos
definen la distancia entre dos conglomerados cuando uno o ambos delos
conglomerados contienen más que un miembro:

1. Vecino más cercano (liga simple): Define la distancia entre 2


conglomerados como el mínimo de las distancias entre cualquier miembro
de un conglomerado con cualquier miembro del otro conglomerado.
2. Vecino más lejano (liga compuesta): Define la distancia entre 2
conglomerados como el máximo de las distancias entre cualquier
miembro de un conglomerado con cualquier miembro del otro
conglomerado.

3. Centroides: Define la distancia entre 2 conglomerados como la distancia


entre los Centroides de cada conglomerado, donde el centroide es
localizado en el valor promedio dé cada variable sobre todos los miembros
del conglomerado.

4. Mediana: Define la distancia entre 2 conglomerados como la distancia


entre las medianas de cada conglomerado, donde la mediana es
localizada en al valor mediano década variable sobre todos los miembros
del conglomerado.

5. Promedio de Grupo (liga promedio): Define la distancia entre 2


conglomerados como la distancia promedio entre todos los miembros de
un conglomerado a todos los miembros del otro.

6. Método de Ward: Define la distancia entre 2 conglomerados en términos


del incremento en la suma de las desviaciones cuadradas alrededor de la
media del conglomerado que ocurriría si los dos conglomerados
estuvieran unidos.

Método de k-Medias:
El método de k-medias trabaja como sigue:
1. k objetos son seleccionados para ser las semillas iniciales (semillas) para los
k conglomerados deseados.
2. Los restantes objetos son asignados a el conglomerado cuya semilla este más
cercana de estos.
3. Los Centroides de cada conglomerado son calculados.
4. Cada objeto es revisado para determinar si es más cercano al centroide de
otro que centroide del conglomerado que está actualmente asignado. Si es así
este se asigna al otro y ambos Centroides son recalculados.
5. El paso 4 es repetido hasta que no hay cambios de lugar.
Dendograma
El mejor modo para ver la salida del análisis de conglomerados es usualmente
un Dendograma
Trabajando con este dendograma muestra la sucesión de uniones que fueron
hechas entre conglomerados. Líneas son dibujadas conectando las
conglomeraciones unidas en cada paso, mientras que el eje vertical muestra las
distancias a las que fueron unidos los conglomerados. Por ejemplo, el
dendograma anterior muestra el resultado de conglomerar las n= 10 ciudades en
el archivo del ejemplo usando el método vecino más lejano y la distancia
cuadrada Euclidiana. En el inicio cada una de las 10 ciudades forma un
conglomerado separado. Los primeros conglomerados unidos fueron aquellos
que contenían Boston y Washington, en una distancia de aproximadamente 4.
Después, Atlanta fue unida al conglomerado que contiene Boston y Washington.
En un tercer paso, New York y Chicago fueron unidas en un solo conglomerado,
y entonces Los Ángeles y Houston fueron unidos. El procedimiento continúa
hasta que un solo conglomerado es formado. La forma general de un
dendograma sugiere agrupar las ciudades en dos grupos:
Grupo #1: New York, Chicago, Boston, Washington, Atlanta y San Francisco.
Grupo #2: Los Ángeles, Houston, Phoenix, y Miami.
Ya que el Grupo #2 contiene ciudades que tienden a estar localizadas en áreas
más calientes, hace parecer que el clima juega un papel importante en el
agrupamiento de las ciudades cuando el método vecino más lejano es usado.
Algo diferente se obtiene usando el método vecino más cercano:
Particularmente los saltos son los cambios de localización entre Los Ángeles y
San Francisco. Los Ángeles parecen unirse a otras “grandes” ciudades más
pronto que con el método anterior.
Tabla de Miembros
La Tabla de Miembros muestra la asignación de las observaciones o variables a
cuáles conglomerados. Su uso será ilustrado en el siguiente ejemplo.
Ejemplo – Método de k medias Ambos
Métodos usados anteriormente indican que New York y Miami son muy
diferentes entre ellas. Es interesante ver que agrupación ocurriría si uno pide
crear 2 conglomerados, usando esas ciudades como semillas. Para hacer esto,
ingresamos a Opciones del Análisis.

Selecciona k-medias y escribe 2 en Número de Conglomerados Clúster. Luego


presiona semilla e introduce los números de renglón de New York y Miami
Presiona OK un par de veces para generar el análisis. Aunque el dendograma
no está disponible cuando se usa el método de k-medias (ya que la
conglomeración no es), la Tabla de Miembros muestra las asignaciones finales
de los conglomerados:

La única cuidad que es puesta con Miami es Houston. Todas las demás caen en
el conglomerado de New York.

Selecciona Ordenar por Clúster para ordenas los objetos por número de
conglomerado.
Gráfico Icicle
El Gráfico Icicle provee un modo adicional para ilustrar el conglomerado que ha
ocurrido. Esto es muy útil cuando el número de objetos es pequeño:

Bajo cada Numero de Conglomerados esta un renglón de X’s. Cualesquiera


objetos conectados por X’s contiguas son contenidas en el
mismo conglomerado. Por ejemplo, el renglón abajo del “2” muestra que cuando
las ciudades son divididas en dos conglomerados, los conglomerados consisten
de las primeras 6 ciudades y de las ultimas 4.

•Ancho del Gráfico: el máximo número de caracteres a ser mostrados en una


sola página.

Gráfico de Dispersión 2D
El Gráfico de Dispersión 2D muestra la conglomeración con respecto a algún par
de variables de entrada
Cada observación en la hoja de datos es graficada, junto con los Cancroides de
los conglomerados. Si se desea, una curva puede ser usada para conectar
observaciones en los bordes de cada conglomerado. En los datos del ejemplo,
los conglomerados son bastante bien separados en el espacio de Lowest
temperature (temperatura más baja) y Precipitación (precipitación)

• Ejes X y Y: las variables a ser graficadas en el eje horizontal y vertical.


• Conglomerados en Círculos: si se selecciona, una curva será usada para
conectar las observaciones alrededor de los bordes de cada conglomerado.
Gráfico de Dispersión 3D
El Gráfico de Dispersión 3D muestra la conglomeración con respecto a
cualesquiera 3 variables de entrada
 Ejes X, Y y Z: las variables son graficadas en 3 ejes

Esquema de Aglomeración
El Esquema de Aglomeración provee un resumen de cada paso en el
algoritmo de conglomeración aglomerativo:

La sección superior muestra:


•Etapas: El número de pasos en el algoritmo.
•Conglomerados Combinados: El número de observaciones o variables
combinadas en cada etapa. Por ejemplo, en la etapa 1, ciudades #2 y #4
fueron combinadas para formar un solo conglomerado. El conglomerado
retiene el más pequeño de los dos números para combinar
conglomerados (i.e., “2”). En la segunda etapa, las ciudades en el
conglomerado fueron combinados con la ciudad #5.
•Distancia: La distancia entre los conglomerados cuando ellos estas
unidos.
•Etapa Previa: El número de la etapa en la cual cada conglomerado ha
aparecido por última vez, o 0 si estos no han sido unidos en algún
conglomerado en una etapa más temprana.

•Etapa Siguiente: La etapa próxima en la cual el conglomerado


nuevamente aparece.

La sección inferior de la salida exhibe el número más pequeño de la fila


de la hoja de datos entre los miembros de cada conglomerado

Gráfico de Distancia de Aglomeración


El Gráfico de Distancia de Aglomeración muestra la distancia mínima
entre conglomerados cuando ellos son combinados:
Nótese que en los datos del ejemplo las distancias a través de la etapa 4
son pequeñas. Las primeras 4 uniones evidentemente suceden entre
ciudades que son muy similares entre ellas:
Etapas 1 y 2: Boston, Washington y Atlanta
Etapa 3: New York y Chicago
Etapa 4: Los Ángeles y Houston

Después de esto, los conglomerados combinados están a distancias


considerables uno de otro. La grafica de distancia de aglomeración pueda
ser de ayuda para determinar cuántos conglomerados naturales existen
en los datos.

Guardar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Números de Conglomerado: Los números de conglomerado
asignados a los datos en cada renglón de las variables de entrada.
2. Matriz de Distancia: La matriz de distancias derivada entre objetos que
son conglomerados.