Notas Estadistica Descriptiva Multivariado V12

5.
Coordenadas principales - escalamiento multidimensional

El trabajo más antiguo que se encuentra en la literatura estadı́stica es el de Schoenberg (1935)
realizado con la intención de recuperar las coordenadas originales de un conjunto de puntos a partir de
sus distancias; dos años más tarde apareció el trabajo de Young & Householder (1938) aplicado en el
contexto de la psicologia.
En el parágrafo 4.1 se resolvió el problema de representar un grupo de variables observadas en un

grupo de n individuos por medio de un conjnto de r < p variables independientes llamadas factores
o componentes preincipales, a través de los valores y vectores propios de la matriz X X. Además, en
4.2 se demostró que los valores y vectores propios de XX se pueden obtener a partir de los de X X y
viceversa. En este capı́tulo se muestra cómo utilizar los valores y vectores propios de XX a partir de
las distancias entre objetos definidas por los productos escalares contenidos en el producto XX .
Sin pérdida de generalidad y para facilitar las interpretaciones se asume que la matriz de datos
está centrada X = {x̃ij } = {xij − x̄j } de manera que m(X) = 0. Defı́nase la i-ésima fila de X por
X
x̃i = (x̃i1 , . . . , x̃ip ), entonces los elementos de X son los productos escalares entre las filas de X,
los

cuales para dos filas cualesquiera i e i de X tienen la forma:
p

πii = x̃i x̃i = x̃ij x̃i j = |x̃i | |x̃i | cos(θii ) (36)
j=1
donde |x̃i | es la raı́z cuadrada de la norma de la fila i y θii es el ángulo entre las filas i e i . Por otra
parte la distancia euclideana entre los objetos i e i tiene la forma:
p
p
p
p

d2i,i = (x̃ij − x̃i j )2 = x̃2ij + x̃2i j − 2 x̃ij x̃i j (37)
j=1 j=1 j=1 j=1
= πii + πii − 2πii = 2(1 − πii ) (38)
El hecho de que las distancias entre las filas de X se puedan expresar en función del coseno entre
ellas, permite interpretar el producto escalar como una medida de similitud entre pares de objetos obser-
vados, de manera que cuando están cerca (se parecen) el ángulo formado por ellos es pequeño, mientras
que si están lejos (no se parecen) tienden a estar lejos su producto escalar tenderá a ser pequeño. En
este sentido XX o sea entre los objetos.
puede verse como una matriz de similitudes entre las filas de X
La situación se ilustra en la siguiente gráfica
i e i similares i e i diferentes
cos θij 1 cos θij 0
31
La interpretación dada y la representacion matemática que tiene producen una solución al problema
de qué hacer cuando no se dispone de los datos originales que describen los objetos de interés y en su
lugar se dispone de las distancias entre ellos. Visto de otra forma, el problema consiste en utilizar una
matriz simétrica D de distancias entre objetos y ceros en la diagonal para obtener las variables que
generaron estas distancias. El problema dual cuando se dispone de una matriz de similitudes se resuelve
utilizando la relación
distancia = 1 − similitud
para obtener las distancias entre los objetos y aplicar la misma técnica.
La metodologı́a para resolver dicho problema se conoce como la técnica de escalamiento multidi-
mensional, y puede verse como una técnica dual a la de las componentes principales, que parten de
asoiciaciones (covarianzas o correlaciones) entre variables, mientras que en el escalamiento multidimen-
sional la información de arranque es similitudes (o distancias) entre objetos.
Ejemplos tı́picos de aplicaciones del escalamiento multidimensional reportados en Trevor F. Cox
(2001) son:
El estudio de la estructura de proximidad social de una colonia de 14 simios japoneses realizado
por Corradino (1990) observados durante 273 horas entre 1984 y 1985.
El estudio de los más reconocidos whiskies de una sola malta y sus caracterı́sticas y si hay alguna
influencia geográfica respecto a estos contextos reportado en (Lapointe & Legendre 1994)
El análisis del desempeño de pilotos novatos y expertos en vuelos de combate simulados, mostrando
que los pilotos expertos se caracterizaban por sus capacidades de maniobrabilidad y uso de la
energı́a realizado por Polzella & Reid (1989)
Poste & Patterson (1988) seleccionaron 4 clases de yogourth de marca y 8 de yogourth tipo suizo
para evaluar similitudes e intensidad de 9 atributos: color, cantidad de fruta presente, sabor,
dulzura, acidez, grumosidad, grano, viscosidad ajustada y gusto después de la prueba.
Formalmente, y siguiendo a Trevor F. Cox (2001) se define la mariz centrada por:
= X − 1 11 X = P X, donde P = I − 1 11

X (39)
n n
de manera que las distancias euclideanas definidas en (37) se pueden expresar por:
d2ii = (xi − xi ) (xi − xi ) = xi xi + xi xi − 2xi xi (40)
obtiene la matriz Π que contiene los productos escalares entre sus filas:
A partir de X
X
Π=X = {xi xi } , (41)
la cual es semi-definida positiva de rango p y por tqnto tiene p valores porpios diferentes de cero.
Ahora para obtener Π a partir de las distancias se utiliza el hecho de que X está centrada y por
tanto, para todo i = 1, . . . , n:
n
x̃ij = 0 (42)
i=1
Ahora, a partir de las distancias d2ii definidas en (40) se obtienen primero los productos escalares
de la matriz Π y de ésta las coordenadas (desconocidas) que originaron las distancias como sigue:
Sumando en (40) con respecto a i y luego con respecto a i , y utilizando (42) se obtiene4 :
4 Para el despeje debe hacerse primero la multiplicación en el término negativo y después intercambiar el orden de la
doble suma
32
n n
1 2 1
dii = x xi + xi xi
n i=1 n i=1 i
n n
1 2 1
dii = xi xi + x i x i
n n
i =1 i =1
n n
1 2
d2ii = x xi (43)
n2 i=1
n i=1 i
Despejando xi xi en (40) y reemplazando las igualdades obtenidas en (43) se obtienen las siguientes
expresiones para los productos escalares en términos de las distancias:
n n n n

1 1 2 1 2 1 2
xi xi =− d2ii − dii − dii + 2 dii (44)
2 n i=1 n n i=1
i =1 i =1
Ahora se define una matriz Δ = {δii } = {− 12 d2ii } y se definen los siguientes elementos:
n n n n
1 2 1 2 1 2
δi. = d δ .i = dii δ.. = 2 dii (45)
n i=1 ii n n i=1
i =1 i =1
de manera que
xi xi = δii − δi. − δ.i + δ.. (46)
De esta forma usando P como se dfinió en (??PX)) se puede reconstruir la matriz de productos
escalares en términos de las distancias ası́:
Π = P ΔP (47)
Para completar la recosntrucción de la matriz Π a partir de las distancias, sea Λ = diagλ1 , . . . , λp ,
donde λ1 , . . . , λp son los p valores propios diferentes de cero de Π y V una matriz que contiene los p
vectores propios correspondientes a dichos valores propios. Entonces del teorema de la descomposición
espectral se obtiene:
Π = V ΛV (48)
1 1/2 1/2
y por taanto, defieniendo Λ 2 = {diagλ1 , . . . , λp } y X = V Λ1/2 queda reconstruida la mariz de
coordenadas originales a partir de las distancias por:
Π = XX (49)
Ejemplo 5.1. Reconstruir la geografı́a del colombiana a partir de las distancias por tierra en kilometros
por carretera entre varias ciudades colombianas, tomadas de la página
http://repositorio.utp.edu.co/dspace/bitstream/handle/11059/3192/Costos
Parte del archivo se reproduce a continuación
> CColombianas<-read.csv2("DISTANCIAS_C_COlombianas.csv")
> CColombianas[1:10,1:10]
X Armen Barranq Bogota Bucaram Buenav Cali Cartag Cucuta Floren

1 Armen 0 1098 286 725 235 194 974 935 533
2 Barranq 1098 0 1302 739 1116 1212 124 926 1849
3 Bogota 286 1302 0 439 519 484 1178 649 547
33
4 Bucaram 725 739 439 0 937 923 917 210 986
5 Buenav 235 1116 519 937 0 129 1154 1138 564
6 Cali 194 1212 484 923 129 0 1088 1133 521
7 Cartag 974 124 1178 917 1154 1088 0 1050 1507
8 Cucuta 935 926 649 210 1138 1133 1050 0 1179
9 Floren 533 1849 547 986 564 521 1507 1179 0
10 Ibague 81 1179 205 644 319 279 1055 854 452
El mapa reproducido y mostrado en el gráfico refleja de manera bastante aproximada las posiciones
de las ciudades colombianas. Se encuentra un poco distrosionado debido a que las distancias utilizadas
son mediaas por carretera y como nuestro paı́s no comunica todas las ciudades por carretera no están
disponibles las distancias a Leticia, Mocoa, Puerto Inı́rida entre otras.
> colombianas<-CColombianas[,1]
> rownames(CColombianas)<-CColombianas[,1]
> CColombianas[,1]<-NULL
> CColombianas<-as.dist(CColombianas)
> DistCol<-cmdscale(CColombianas)
> x<--DistCol[,1]
> y<--DistCol[,2]
> plot(y, x, type = "n", xlab = "", ylab = "", asp = 1, axes = FALSE,
+ main = "Distancias entre ciudades colombianas", cex=0.7)
> text(y,x,rownames(DistCol), cex = 1.2)
34
Distancias entre ciudades colombianas
Rioacha
San_Mart
Barranq
Valledu
Cartag
Sincele
Monteria
Cucuta
Bucara
Medellin
Quibdo Tunja
Maniza Villavo
Bogota
Pereira
Armen
Ibague
Buenav
Cali
Neiva
Popay
Pasto Floren
35

Notas Estadistica Descriptiva Multivariado V12

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Notas Estadistica Descriptiva Multivariado V12

Enviado por

Direitos autorais:

Formatos disponíveis

5.

Coordenadas principales - escalamiento multidimensional

En el parágrafo 4.1 se resolvió el problema de representar un grupo de variables observadas en un

= πii + πii − 2πii = 2(1 − πii ) (38)

cos θij 1 cos θij 0

= X − 1 11 X = P X, donde P = I − 1 11

X Armen Barranq Bogota Bucaram Buenav Cali Cartag Cucuta Floren

Você também pode gostar