Você está na página 1de 5

5.

Coordenadas principales - escalamiento multidimensional


El trabajo más antiguo que se encuentra en la literatura estadı́stica es el de Schoenberg (1935)
realizado con la intención de recuperar las coordenadas originales de un conjunto de puntos a partir de
sus distancias; dos años más tarde apareció el trabajo de Young & Householder (1938) aplicado en el
contexto de la psicologia.

En el parágrafo 4.1 se resolvió el problema de representar un grupo de variables observadas en un


grupo de n individuos por medio de un conjnto de r < p variables independientes llamadas factores
o componentes preincipales, a través de los valores y vectores propios de la matriz X  X. Además, en
4.2 se demostró que los valores y vectores propios de XX  se pueden obtener a partir de los de X  X y
viceversa. En este capı́tulo se muestra cómo utilizar los valores y vectores propios de XX  a partir de
las distancias entre objetos definidas por los productos escalares contenidos en el producto XX  .

Sin pérdida de generalidad y para facilitar las interpretaciones se asume que la matriz de datos
está centrada X  = {x̃ij } = {xij − x̄j } de manera que m(X)  = 0. Defı́nase la i-ésima fila de X por
X
x̃i = (x̃i1 , . . . , x̃ip ), entonces los elementos de X   son los productos escalares entre las filas de X,
 los
 
cuales para dos filas cualesquiera i e i de X tienen la forma:
p

πii = x̃i x̃i = x̃ij x̃i j = |x̃i | |x̃i | cos(θii ) (36)
j=1

donde |x̃i | es la raı́z cuadrada de la norma de la fila i y θii es el ángulo entre las filas i e i . Por otra
parte la distancia euclideana entre los objetos i e i tiene la forma:
p
 p
 p
 p

d2i,i = (x̃ij − x̃i j )2 = x̃2ij + x̃2i j − 2 x̃ij x̃i j (37)
j=1 j=1 j=1 j=1

= πii + πii − 2πii = 2(1 − πii ) (38)

El hecho de que las distancias entre las filas de X  se puedan expresar en función del coseno entre
ellas, permite interpretar el producto escalar como una medida de similitud entre pares de objetos obser-
vados, de manera que cuando están cerca (se parecen) el ángulo formado por ellos es pequeño, mientras
que si están lejos (no se parecen) tienden a estar lejos su producto escalar tenderá a ser pequeño. En
este sentido XX  o sea entre los objetos.
  puede verse como una matriz de similitudes entre las filas de X
La situación se ilustra en la siguiente gráfica

i e i similares i e i diferentes

cos θij  1 cos θij  0

31
La interpretación dada y la representacion matemática que tiene producen una solución al problema
de qué hacer cuando no se dispone de los datos originales que describen los objetos de interés y en su
lugar se dispone de las distancias entre ellos. Visto de otra forma, el problema consiste en utilizar una
matriz simétrica D de distancias entre objetos y ceros en la diagonal para obtener las variables que
generaron estas distancias. El problema dual cuando se dispone de una matriz de similitudes se resuelve
utilizando la relación
distancia = 1 − similitud
para obtener las distancias entre los objetos y aplicar la misma técnica.
La metodologı́a para resolver dicho problema se conoce como la técnica de escalamiento multidi-
mensional, y puede verse como una técnica dual a la de las componentes principales, que parten de
asoiciaciones (covarianzas o correlaciones) entre variables, mientras que en el escalamiento multidimen-
sional la información de arranque es similitudes (o distancias) entre objetos.
Ejemplos tı́picos de aplicaciones del escalamiento multidimensional reportados en Trevor F. Cox
(2001) son:
El estudio de la estructura de proximidad social de una colonia de 14 simios japoneses realizado
por Corradino (1990) observados durante 273 horas entre 1984 y 1985.
El estudio de los más reconocidos whiskies de una sola malta y sus caracterı́sticas y si hay alguna
influencia geográfica respecto a estos contextos reportado en (Lapointe & Legendre 1994)
El análisis del desempeño de pilotos novatos y expertos en vuelos de combate simulados, mostrando
que los pilotos expertos se caracterizaban por sus capacidades de maniobrabilidad y uso de la
energı́a realizado por Polzella & Reid (1989)
Poste & Patterson (1988) seleccionaron 4 clases de yogourth de marca y 8 de yogourth tipo suizo
para evaluar similitudes e intensidad de 9 atributos: color, cantidad de fruta presente, sabor,
dulzura, acidez, grumosidad, grano, viscosidad ajustada y gusto después de la prueba.
Formalmente, y siguiendo a Trevor F. Cox (2001) se define la mariz centrada por:

 = X − 1 11 X = P X, donde P = I − 1 11


X (39)
n n
de manera que las distancias euclideanas definidas en (37) se pueden expresar por:

d2ii = (xi − xi ) (xi − xi ) = xi xi + xi xi − 2xi xi (40)
 obtiene la matriz Π que contiene los productos escalares entre sus filas:
A partir de X
X
Π=X   = {xi xi } , (41)

la cual es semi-definida positiva de rango p y por tqnto tiene p valores porpios diferentes de cero.
Ahora para obtener Π a partir de las distancias se utiliza el hecho de que X  está centrada y por
tanto, para todo i = 1, . . . , n:
n
x̃ij = 0 (42)
i=1

Ahora, a partir de las distancias d2ii definidas en (40) se obtienen primero los productos escalares
de la matriz Π y de ésta las coordenadas (desconocidas) que originaron las distancias como sigue:

Sumando en (40) con respecto a i y luego con respecto a i , y utilizando (42) se obtiene4 :
4 Para el despeje debe hacerse primero la multiplicación en el término negativo y después intercambiar el orden de la

doble suma

32
n n
1 2 1 
dii = x xi + xi xi
n i=1 n i=1 i
n n
1 2 1 
dii = xi xi + x i x i
n  n 
i =1 i =1
 n n
1 2 
d2ii = x xi (43)
n2 i=1
n i=1 i

Despejando xi xi en (40) y reemplazando las igualdades obtenidas en (43) se obtienen las siguientes
expresiones para los productos escalares en términos de las distancias:

 n n n n

1 1 2 1 2 1  2
xi xi =− d2ii − dii − dii + 2 dii (44)
2 n i=1 n  n i=1 
i =1 i =1

Ahora se define una matriz Δ = {δii } = {− 12 d2ii } y se definen los siguientes elementos:
n n n n
1 2 1 2 1  2
δi. = d  δ .i = dii δ.. = 2 dii (45)
n i=1 ii n  n i=1 
i =1 i =1

de manera que
xi xi = δii − δi. − δ.i + δ.. (46)
De esta forma usando P como se dfinió en (??PX)) se puede reconstruir la matriz de productos
escalares en términos de las distancias ası́:

Π = P ΔP (47)
Para completar la recosntrucción de la matriz Π a partir de las distancias, sea Λ = diagλ1 , . . . , λp ,
donde λ1 , . . . , λp son los p valores propios diferentes de cero de Π y V una matriz que contiene los p
vectores propios correspondientes a dichos valores propios. Entonces del teorema de la descomposición
espectral se obtiene:
Π = V ΛV (48)
1 1/2 1/2
y por taanto, defieniendo Λ 2 = {diagλ1 , . . . , λp } y X = V Λ1/2 queda reconstruida la mariz de
coordenadas originales a partir de las distancias por:

Π = XX  (49)

Ejemplo 5.1. Reconstruir la geografı́a del colombiana a partir de las distancias por tierra en kilometros
por carretera entre varias ciudades colombianas, tomadas de la página
http://repositorio.utp.edu.co/dspace/bitstream/handle/11059/3192/Costos
Parte del archivo se reproduce a continuación

> CColombianas<-read.csv2("DISTANCIAS_C_COlombianas.csv")
> CColombianas[1:10,1:10]

X Armen Barranq Bogota Bucaram Buenav Cali Cartag Cucuta Floren


1 Armen 0 1098 286 725 235 194 974 935 533
2 Barranq 1098 0 1302 739 1116 1212 124 926 1849
3 Bogota 286 1302 0 439 519 484 1178 649 547

33
4 Bucaram 725 739 439 0 937 923 917 210 986
5 Buenav 235 1116 519 937 0 129 1154 1138 564
6 Cali 194 1212 484 923 129 0 1088 1133 521
7 Cartag 974 124 1178 917 1154 1088 0 1050 1507
8 Cucuta 935 926 649 210 1138 1133 1050 0 1179
9 Floren 533 1849 547 986 564 521 1507 1179 0
10 Ibague 81 1179 205 644 319 279 1055 854 452

El mapa reproducido y mostrado en el gráfico refleja de manera bastante aproximada las posiciones
de las ciudades colombianas. Se encuentra un poco distrosionado debido a que las distancias utilizadas
son mediaas por carretera y como nuestro paı́s no comunica todas las ciudades por carretera no están
disponibles las distancias a Leticia, Mocoa, Puerto Inı́rida entre otras.

> colombianas<-CColombianas[,1]
> rownames(CColombianas)<-CColombianas[,1]
> CColombianas[,1]<-NULL
> CColombianas<-as.dist(CColombianas)
> DistCol<-cmdscale(CColombianas)
> x<--DistCol[,1]
> y<--DistCol[,2]
> plot(y, x, type = "n", xlab = "", ylab = "", asp = 1, axes = FALSE,
+ main = "Distancias entre ciudades colombianas", cex=0.7)
> text(y,x,rownames(DistCol), cex = 1.2)

34
Distancias entre ciudades colombianas

Rioacha
San_Mart
Barranq
Valledu
Cartag

Sincele
Monteria
Cucuta
Bucara

Medellin
Quibdo Tunja
Maniza Villavo
Bogota
Pereira
Armen
Ibague
Buenav
Cali
Neiva
Popay

Pasto Floren

35

Você também pode gostar