Você está na página 1de 30

10.1.

Introduccin. o

em

E[ c]2 = E [ E[] + E[] c]2 c c c c 2 = E [ E[]] + E [E[] c]2 + 2 E [ E[]] [E[] c] c c c c c c

at

ic a1

.c om

De acuerdo con el teorema de Gauss-Markov (Teorema 3.2, pg. 21), a los estimadores m nimo cuadrticos ordinarios (MCO) son los de varianza a m nima en la clase de los estimadores lineales insesgados. Cualesquiera otros que consideremos, si son lineales y de varianza menor, habrn de ser sesgados. a Si consideramos adecuado como criterio en la eleccin de un estimador c o def su error cuadrtico medio, ECM = E[ c]2 , y reparamos en que: a c

=0

podemos plantearnos la siguiente pregunta: Es posible reducir el ECM en la estimacin tolerando un sesgo? Si la respuesta fuera armativa, podr o amos preferir el estimador resultante que, aunque sesgado, tendr un ECM menor, a producido por una disminucin en la varianza capaz de compensar el segundo o sumando en (11.1). El Cap tulo 10 pon de maniesto que vectores propios de (X X) con a valor propio asociado nulo o muy pequeo eran responsables de la inestimabin lidad (en el caso extremo de valores propios exactamente cero) o estimacin o muy imprecisa de formas lineales c en los parmetros. Analizaremos ahora a las implicaciones del anlisis realizado. a

ww w.

= var() + (sesgo c) c

at

(10.1)

Si los valores propios pequeos son causantes de elevada varianza en las n estimaciones, caben varias soluciones: 1. Incrementarlos mediante observaciones adicionales, segn se indic en u o la Seccin 10.6, pg. 136. o a 2. Incrementarlos mediante procedimientos ad-hoc, que no requieren la toma de observaciones adicionales (ridge regression). 3. Prescindir, simplemente, de ellos (regresin en componentes principales o y regresin en races latentes). o Nos ocuparemos de procedimientos tomando las alternativas 2) y 3) para reducir la varianza de los estimadores. De acuerdo con los comentarios anteriores, los procedimientos que diseemos habrn perdido la condicin de n a o insesgados. Observacin 10.1 De ah la denominacin colectiva de mtoo o e dos de regresin sesgada. Denominaciones alternativas son regresin o o regularizada o mtodos de estimacin por encogimiento (shrinkage e o estimators), est ultima abarcando un conjunto de estimadores mua cho ms amplio que el considerado aqu a . Si se utilizan, es con la fundada creencia de que, en presencia de multicolinealidad acusada, la reduccin de varianza que se obtiene compensa la o introduccin de sesgo. Existe incluso un resultado (Teorema 11.1, pg. 147) o a que demuestra la existencia de un estimador sesgado que domina (en trmie nos de ECM) al MCO; su aplicacin prctica est limitada por el hecho de o a a que no es inmediato saber cul precisamente es este estimador. a
om

10.2.

Una aproximacin intuitiva. o

Antes de introducir los estimadores sesgados ms utilizados en la prctica, a a es util ver sobre un ejemplo simple las ideas que explotan. Ejemplo 10.1 Consideremos la siguiente situacin. Tenemos dos o
2 2 poblaciones con media com n y varianzas respectivas 1 , 2 . Nuesu tro objetivo es estimar , para lo que contamos con dos observaciones, 2 una de cada poblacin. Sean stas X1 , X2 . Sabemos adems que 2 o e a 2. es mucho mayor que 1 Es claro que 1 = (X1 + X2 ) (10.2) 2

ww

w.

at

em

at

ic a

1.c

2 2 es un estimador insesgado de . Su varianza ser Var( ) = 1 /4+2 /4. a Es de m nima varianza? No; y en general puede ser sumamente 2 2 ineciente. Imaginemos, por ejemplo, que 1 = 1 y 2 = 99; entonces, 2 + 2 )/4 = (1 + 99)/4 = 25, mientras que = X , por Var( ) = (1 1 2 ejemplo, ser tambin insesgado con Var( ) = 1. a e La conclusin a la que llegamos es que es mejor prescindir de la o observacin X2 dando muy imprecisa informacin acerca del valor o o de que utilizarla en pie de igualdad con X1 . Si examinamos el ejemplo con ms cuidado, se nos hace evidente a que podemos hacerlo mejor: si nos limitamos a estimadores lineales por simplicidad cualquier estimador insesgado ser de la forma a = 1 X1 + 2 X2

con 1 + 2 = 1 (pues de otro modo al tomar valor medio en (11.3), no obtendr amos , como requiere la condicin de insesgadez). o Podemos a continuacin plantearnos cules son 1 y 2 = 1 1 o a o ptimos. De (11.3) deducimos que

Derivando respecto a 1 e igualando a cero obtenemos 1 = 99/100 y consecuentemente 2 = 1/100. Fcilmente se comprueba que se traa ta de un m nimo. El estimador insesgado de varianza m nima es por tanto: 99 1 = X1 + X2 . 100 100 El resultado parece lgico; debemos ponderar las dos observaciones o dando ms peso a la ms able. La segunda conclusin a que llegamos a a o es que cuando tengamos observaciones con grado de precisin muy o variable, convendr ponderarlas de forma inversamente proporcional a a sus respectivas varianzas.
ww w.

at e

2 = 99 1981 + 1001

at ic

2 = 1 1 + (1 1 )2 99

a1

2 2 2 2 Var( ) = 1 1 + 2 2

.c

om

Fin del ejemplo

El ejemplo anterior pretende ilustrar dos principios, que se resumen en uno: es mejor prescindir de informacin imprecisa que hacerle demasiado o caso. El primer estimador construido, , prescind directamente de X2 ; el a segundo, , se serv de dicha observacin pero hacindole poco caso. a o e Se ha razonado sobre estimadores a los que hemos impuesto la condicin o de ser insesgados, por mantener el ejemplo simple, pero esta condicin es o

inesencial. (De hecho, como veremos a continuacin, todav ser posible o a a mejorar en trminos de ECM si tolerasemos un sesgo.) e Qu implicaciones tiene lo anterior sobre la estimacin de (o, en genee o ral, de c ) en un modelo lineal? Recordemos la discusin en la Seccin 10.5. o o El estimador de cualquier forma lineal c puede escribirse como combina cin lineal de v 1 , v 2 , . . . , v p , segn muestra (10.29), pg. 136. Adems, o u a a 1 v i para i = 1, . . . , p son variables aleatorias incorreladas con varianzas respectivas Var(vi ) = 2 /i , (10.26), pg. 135. a Tenemos pues c puede escribirse como combinacin lineal de observao ciones v i con varianzas muy diferentes. Al igual que en el Ejemplo 11.1 al estimar , podemos tener inters en prescindir de algunas de estas observae ciones v i , atenuarlas, si sus varianzas son muy grandes; ello acontecer o a cuando los valores propios i sean muy pequeos. n Los estimadores que se presentan a continuacin hacen precisamente esto. o El estimador en componentes principales de la Seccin 11.4 prescinde de alguo a nas v i ; el estimador ridge de la Seccin 11.3 atena las v i ms inestables. o u Volveremos de nuevo sobre la cuestin en la Seccin 11.4.3, pg. 158. o o a

10.3.1.

Error cuadrtico medio del estimador m a nimo cuadrtico ordinario a

Dado que hay varios parmetros a estimar, deniremos como ECM del a estimador MCO: ECM() = E[( ) ( )]

ww w.

10.3.

Regresin ridge. o

at em

at

ic a

1 .c

om

(10.3)

que podemos ver tambin como el valor medio del cuadrado de la distancia e eucl dea ordinaria entre y . Supondremos (X X) de rango total, y por tanto que (X X)1 existe (este supuesto se puede relajar). Como E[] =
1

Independientes, si se verica el supuesto de normalidad.

y = 2 (X X)1 , tenemos que:


ECM() = E[traza ( ) ( )] = E[traza ( )( ) ]

= 2 traza (X X)1 = 2 traza (X X)1 V V = 2 traza V (X X)1 V


p

(V = diagonalizadora de (X X)1 )

2 i=1

1 , i

(10.4)

en que los i son los valores propios de la matriz (X X). (Recurdese que e 1 los vectores propios de las matrices (X X) y (X X) son los mismos, y los valores propios de una los inversos de los de la otra.)

10.3.2.

Clase de estimadores ridge


(k) = (X X + kI)1 X Y

a1

.c o

Denicin 10.1 Deniremos el estimador ridge de parmetro k as o a :


m

El estimador ridge es idntico al MCO en el caso particular en que k = 0. La e relacin entre ambos para un valor arbitrario de k queda de maniesto en la o siguiente cadena de igualdades: (k) = (X X + kI)1 (X X)(X X)1 X Y = (X X + kI)1 (X X) 1 = (X X)1 (X X + kI) = I + k(X X)1 = Z
1 1

ww

w.

at e

siendo k una constante positiva a determinar.

at ic

(10.5)

(10.6)

siendo Z = [I + k(X X)1 ] . El Teorema 11.1, que muestra la superioridad del estimador ridge sobre el MCO para algn valor de k, es consecuencia del Lema 11.1 a continuacin. u o Lema 10.1 El error cuadrtico medio del estimador ridge de parmetro k a a viene dado por la expresin o
p

def

ECM[ (k) ]

2 i=1

i + (i + k)2

i=1

2 k 2 i (i + k)2

(10.7)

en que los i son los valores propios de la matrix (X X) y = V , siendo V una matriz cuyas columnas son vectores propios de (X X). Demostracion: El ECM del estimador ridge que habremos de comparar con (11.4) es: ECM[ (k) ] = E[( (k) ) ( (k) )] (por (11.6)) = E[(Z ) (Z )]

= E[(Z Z + Z ) (Z Z + Z )] = E[(Z Z ) (Z Z )] + (Z ) (Z )
(a) (b)

(10.8) Obsrvese que el primer trmino (a) es la suma de varianzas de los elementos e e (k) , mientras que (b) es la suma de los sesgos al cuadrado de dichos elede mentos. Examinemos por separado los dos sumandos de la expresin anterior: o (a) = E[( ) Z Z( )] = E[traza{( ) Z Z( )}] = E[traza{( )( ) Z Z}] = traza{E( )( ) Z Z}
ww

= 2 traza [(X X)1 Z Z]


w.

at

em

at

ic

a1

.c o

(10.9)
1 1

= 2 traza (X X)1 I + k(X X)

I + k(X X)
1

1 1

= 2 traza (X X) + kI + kI + k 2 (X X)1 = 2 traza


p

(X X) + 2kI + k 2 (X X)1

VV (10.10) (10.11) (10.12)

= 2 traza V [(X X) + 2kI + k 2 (X X)1 ]1 V = 2


i=1 p

1 i + 2k + 1 k 2 i i . (i + k)2

= 2
i=1

La obtencin de la expresin (11.9) hace uso de el habitual intercambio de o o los operadores de traza y valor medio, as como del hecho de que si es el es )( )] = 2 (X X)1 timador MCO y X X es de rango completo, E[( (Teorema 3.2, pg. 21). En el paso de (11.10) a (11.11) se ha empleado el a hecho de que si V diagonaliza a (X X) diagonaliza tambin a cada una de las e

matrices en el corchete, y por consiguiente a la matriz inversa de la contenida en el corchete. Tomando ahora el segundo trmino de (11.8), e (b) = (Z ) (Z ) = (Z I) (Z I) = I + k(X X)1
1

= k 2 ( + kI)2 = traza k 2 ( + kI)2


p

I + k(X X)1

I (10.13)

=
i=1

2 k 2 i (i + k)2

(10.14)

El paso a (11.13) desde la expresin anterior hace uso de que = V . o Sustituyendo (11.12) y (11.14) en (11.8) se obtiene (11.7)

El Teorema 11.1 se sigue casi inmediatamente del resultado anterior. Teorema 10.1 Hay algn valor de k > 0 para el ECM[ (k) ] dado por (11.7) u es estrictamente menor que el ECM del estimador MCO dado por (11.4). Demostracion:
ww w.

Hemos visto ms arriba que cuando k = 0, el estimador ridge (k) coina cide con el MCO. Por consiguiente, para k = 0 la expresin (11.7) debe o coincidir con (11.4), como en efecto puede comprobarse que sucede. Derivando (??) respecto de k, es fcil comprobar que la derivada en k = 0 existe y a p 2 2 es 2 i=1 i , claramente negativa. Por consiguiente, siempre podremos (incrementando ligeramente k) lograr que: ECM[ (k) ] < ECM[ (0) ] = ECM[] lo que demuestra el teorema. (10.15)

Una percepcin intuitiva del resultado anterior la proporciona la compao racin de las expresiones (11.4) y (11.8), valores medios respectivamente de o ) ( ) y ( (k) ) ( (k) ). Se observa que (11.4) puede hacerse ( arbitrariamente grande si i 0 para algn i. La expresin (11.12) est a u o a

at

em

at ic a1

.c om

Figura 10.1: Componentes del ECM( (k) ) en el estimador ridge. Las l neas 2 de trazos y puntos representa respectivamente la varianza y (sesgo) de (k) (k) en funcin de k. La curva slida representa ECM[ ]. La l o o nea horizontal MCO. es la varianza (y ECM) del estimador

0.35

0.30

ECM ridge (a) + (b)

ECM, varianza y (sesgo)2

0.20

0.25

ECM MCO

Sesgo ridge (b)

0.15

0.10

0.05

0.00

0.02

ww

w.

M at

0.00

em
0.04

Var ridge (a)

at
0.06 k

ic
0.08

a1 .c

om

0.10

cobijo de tal eventualidad, pues ninguno de los sumandos puede crecer por encima de i /k 2 . La Figura 11.1 muestra en un caso concreto cmo var en funcin de o an o k los componentes (a) y (b) de (11.8), y su suma. Como trmino de come paracin se ha representado mediante una l o nea horizontal la varianza del MCO (igual a su varianza, puesto que es insesgado). Puede verse que, tal como el Teorema 11.1 establece, hay valores de k en que el ECM( (k) ) des ciende por debajo del ECM(); ocurre para valores de k menores que 0.039 aproximadamente.

10.3.3.

Eleccin de k o

Sabemos que existe un k (de hecho, un intervalo de valores de k) mejorando el ECM del estimador MCO; pero nada en la discusin anterior nos o permite decidir cul es su valor. En la prctica, se recurre a alguna o varias a a de las siguientes soluciones: Uso de trazas ridge. Se prueban diversos valores de k representndose a las diferentes estimaciones del vector (trazas ridge); se retiene entonces aquel valor de k a partir del cual se estabilizan las estimaciones. La idea es intuitivamente atrayente: pequeos incrementos de k partiendo n de cero tienen habitualmente un efecto drstico sobre , al coste de introducir a algn sesgo. Incrementaremos k por tanto hasta que parezca que su inuencia u sobre se atena hasta que las trazas ridge sean casi horizontales. El u decidir dnde ocurre esto es, no obstante, bastante subjetivo. o Eleccin de k por validacin cruzada. La idea es tambin muy simple, o o e aunque computacionalmente algo laboriosa. Sea y(i),k la prediccin que hace o mos de la observacin yi cuando empleamos el estimador ridge de parmetro o a k obtenido con una muestra de la que excluimos la observacin i-sima. Deo e namos
om

at

w.

em

ww

CV (k) =
i=1

es decir, CV (k) es la suma de cuadrados de los residuos obtenidos al ajustar cada observacin con una regresin que la ha dejado fuera al estimar los o o parmetros. Entonces, a kCV = arg m CV (k), n
k

y la idea es emplear este valor kCV . En principio, calcular CV (k) para un valor de k requerir llevar a cabo N regresiones, excluyendo cada vez una a observacin distinta. En la prctica, el clculo puede agilizarse de modo cono a a siderable. Eleccin de k por validacin cruzada generalizada (GCV). Es un o o criterio estrechamente emparentado con el anterior. Sean A(k) = X((X X) + kI)1 X y = X (k) = A(k)y ;

at
N

ic

(yi y(i),k )2 ;

a1

.c

entonces, elegimos kGCV = arg m n


k

||(I A(k))y ||2 . [traza(I A(k))]2

(10.16)

Sobre la justicacin de dicha eleccin puede verse Eubank (1988) o Brown o o (1993), por ejemplo; no podemos entrar aqu en detalles. Baste decir que la expresin que se minimiza en (11.16) se reduce a SSE/(N p)2 cuando k = 0 o (m nimos cuadrados ordinarios), como resulta inmediato de la denicin de o A(k); una expresin cuya minimizacin parece razonable. Para otros valores o o de k el numerador de (11.16) contina siendo una suma de cuadrados de u los residuos y el denominador el cuadrado del nmero de grados de libertad u equivalentes. Otros criterios. Nos limitamos a mencionarlos. Detalles adicionales pueden encontrarse en Brown (1993) o en los trabajos originales de sus respectivos proponentes.

at ic

kHKB = (p 2) 2 / 2

a1

.c

om

(10.17)

at em

kLW = (p 2) traza(X X)/(p (X X))

(10.18) i 2 (10.19)

kM U R = arg m 2 n

El criterio (11.17) fue propuesto por Hoerl et al. (1975) y tiene una justicacin bayesiana. El criterio (11.18) fue propuesto en Lawless and Wang (1976). o El criterio (11.19) estima el ECM del estimador ridge insesgadamente y toma el k que minimiza dicha estimacin. o Observacin 10.2 En las ecuaciones (11.17)(11.19), p es el oro den y rango de la matrix (X X). En caso de que (X X) sea de rango deciente r, r < p, puede sustituirse ste por p tomando como el ese timador m nimo cuadrtico de m a nima longitud; ver detalles en Brown (1993), pg. 63. a

10.3.4.

Comentarios adicionales

Es evidente que la forma del ECM propuesto pondera por igual las discrepancias en la estimacin de un i cuyo valor real es muy grande que o aqullas en la estimacin de uno cuyo valor real es muy pequeo. Por ello, e o n es aconsejable antes de emplear el procedimiento normalizar los regresores. Alternativamente podr reproducirse el desarrollo anterior empleando como a

ww w.

i k + k2 i (i + k)

(i + k)2

ECM una expresin del tipo: ( ) M( ), siendo M una matriz denida o positiva adecuada2 tipicando los ( ). Es habitual no slo normalizar sino tambin centrar tanto las columnas o e de X como y . El parmetro 0 se sustrae as al proceso de estimacin ridge, a o restaurndolo al nal. a Finalmente, es de inters sealar que el estimador ridge puede verse dese n de distintos puntos de vista. Uno de ellos lo interpreta como un estimador bayesiano, en la l nea esbozada en los Ejercicios 5.6 y 5.7, pg. 61. a R: Ejemplo 10.1 (ejemplo de regresin ridge) o
El siguiente cdigo muestra el uso de regresin ridge sobre un cono o junto de datos acusadamente colineal. La Figura 11.2 muestra las trazas ridge de los seis parmetros estimados y el valor del criterio GCV a para distintos valores de k. En ambas grcas, que comparten la escaa la de abscisas, se ha trazado una recta vertical al nivel de kGCV . Los valores de kHKB y kLW son tambin output de la funcin lm.ridge e o y podr haberse utilizado. El primero es prcticamente idntico a an a e kGCV y no se ha representado en la Figura 11.2; el segundo s . > > > > > > options(digits = 4) options(columns = 40) library(MASS) data(longley) names(longley)[1] <- "y" longley[1:3, ]
ww w.

y GNP 1947 83.0 234.3 1948 88.5 259.4 1949 88.2 258.1 Population 1947 107.6 1948 108.6 1949 109.8

Unemployed Armed.Forces 235.6 159.0 232.5 145.6 368.2 161.6 Year Employed 1947 60.32 1948 61.12 1949 60.17

> longley.mco <- lm(y ~ ., longley) > summary(longley.mco) Call: lm(formula = y ~ ., data = longley) Residuals:
Es decir, empleando una mtrica distinta de la eucl e dea ordinaria para medir la dis crepancia entre y ; M = (X X) ser una eleccin natural. a o
2

at

em

at

ic a1

.c o

Figura 10.2: Trazas ridge y GVC para los datos longley

Trazas ridge
kGCV 20 i 10 0 10

at e

ww

w.

Criterio GCV
kGCV kLW

GCV

0.120

0.130

0.140

0.00

0.02

0.04 k

at

0.00

0.02

0.04

ic

a1
0.06 0.08

.c om

0.10

0.06

0.08

0.10

Min 1Q Median -2.009 -0.515 0.113 Coefficients:

3Q 0.423

Max 1.550

Residual standard error: 1.19 on 9 degrees of freedom Multiple R-squared: 0.993, Adjusted R-squared: 0.988 F-statistic: 203 on 6 and 9 DF, p-value: 4.43e-09 Ntese la fuerte multicolinealidad, aparente en los reducidos t-ratios o y elevada R2 . Probemos ahora regresin ridge con valores de k (= o lambda) entre 0 y 0.1 variando de milsima en milsima. Imprimiremos e e a continuacin las estimaciones correspondientes a los tres primeros o valores de k ensayados. Cuando k = 0, deben coincidir las estimaciones con las obtenidas por MCO. > longley.rr <- lm.ridge(y ~ ., longley, + lambda = seq(0, 0.1, 0.001)) > summary(longley.rr) Length coef 606 scales 6 Inter 1 lambda 101 Class -none-none-none-noneMode numeric numeric numeric numeric
ww w.

at

em

Estimate Std. Error t value (Intercept) 2946.8564 5647.9766 0.52 GNP 0.2635 0.1082 2.44 Unemployed 0.0365 0.0302 1.21 Armed.Forces 0.0112 0.0155 0.72 Population -1.7370 0.6738 -2.58 Year -1.4188 2.9446 -0.48 Employed 0.2313 1.3039 0.18 Pr(>|t|) (Intercept) 0.614 GNP 0.038 * Unemployed 0.258 Armed.Forces 0.488 Population 0.030 * Year 0.641 Employed 0.863 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

at ic

a1

.c om

ym xm GCV kHKB kLW

1 6 101 1 1

-none-none-none-none-none-

numeric numeric numeric numeric numeric

> coef(longley.rr)[1:3, ] GNP Unemployed Armed.Forces 2947 0.2635 0.03648 0.011161 1896 0.2392 0.03101 0.009372 1166 0.2210 0.02719 0.008243 Population Year Employed -1.737 -1.4188 0.23129 -1.644 -0.8766 0.10561 -1.565 -0.5011 0.03029

0.000 0.001 0.002 0.000 0.001 0.002

modified HKB estimator is 0.006837 modified L-W estimator is 0.05267 smallest value of GCV at 0.006
ww w.

Podemos seleccionar el k ptimo de acuerdo, por ejemplo, al criterio o GCV, y hacer regresin ridge con l: o e > nGCV <- which.min(longley.rr$GCV) > lGCV <- longley.rr$lambda[nGCV] > lm.ridge(y ~ ., longley, lambda = lGCV) GNP 1.765e-01 Population -1.328e+00 Unemployed 1.937e-02 Year 2.556e-01

-3.144e+02 Armed.Forces 6.565e-03 Employed -5.812e-02

El cdigo a continuacin genera las grcas en la Figura 11.2. o o a

at e

> select(longley.rr)

at

ic

a1

La funcin select aplicada al objeto que devuelve lm.ridge devuelve o los valores ptimos de tres de los criterios mencionados m as arriba. o n
.c om

> > + + > > > > + + > > > >

par(mfrow = c(2, 1)) matplot(longley.rr$lambda, t(longley.rr$coef), type = "l", xlab = expression(k), ylab = expression(beta[i])) abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) title(main = "Trazas ridge") plot(longley.rr$lambda, longley.rr$GCV, type = "l", xlab = expression(k), ylab = "GCV", main = "Criterio GCV") abline(v = lGCV) mtext(expression(k[GCV]), side = 3, at = lGCV) abline(v = longley.rr$kLW) mtext(expression(k[LW]), side = 3, at = longley.rr$kLW)

Fin del ejemplo

10.4.1.

Descripcin del estimador o

Consideraremos, por conveniencia notacional, el modelo habitual en que la columna de unos, si existe, ha sido segregada, y los restantes regresores han sido centrados y normalizados. Esto tiene por unico efecto multiplicar los parmetros y sus estimadores por constantes respectivamente iguales a a la norma de las columnas de X afectadas. Con este convenio, el modelo de regresion lineal que consideramos se puede escribir as : y = 10 + W + (10.20)

Supondremos, consistentemente con la notacin anterior, que es un o vector (p 1) 1, y W una matriz N (p 1). La matriz W W es una matriz con unos en la diagonal principal, simtrica, y denida no negativa. e Existe siempre una diagonalizadora ortogonal V tal que: V (W W )V = ( W W = V V ) (10.21)

ww

w.

10.4.

Regresin en componentes principales. o

at

em

at

ic

a1

.c

om

Sean v1 , . . . , vp1 los vectores columna de V . Llamaremos componentes principales de W a los vectores u1 , . . . , up1 denidos as : u1 u2 up1 o abreviadamente: U = WV (10.23) = W v1 = W v2 . . . = W vp1 (10.22)

La matriz U es N (p 1), con columnas combinacin lineal de las de o W . Es adems aparente que las columnas de U son ortogonales: U U = a V (W W )V = , y que generan el mismo subespacio de RN que las de W . Siendo V ortogonal, (11.20) puede transformarse as :

Teniendo en cuenta (ver Problema 11.2) que 1 ui , (i = 1, . . . , p 1), el vector de estimadores puede escribirse as : 0
ww

y (U U)1 U y

w.

M at em

at ic

= 10 + W V V + = 10 + U +

a1

.c

y = 10 + W +

(10.24) (10.25) (10.26)

om

y U y
1

(10.27)

Todo lo que hemos hecho hasta el momento es tomar una diferente base del espacio de proyeccin la formada por las columnas de U en lugar de o la formada por las columnas de W . Llegados a este punto, tenemos que recuperar los estimadores de los parmetros originales a partir de . Si a lo hacemos mediante = V estaremos obteniendo exactamente los estimadores MCO. La idea del estima dor en componentes principales CP es emplear slo algunos de los trminos o e en : CP = V (q) . 0 (10.28)

Necesitamos por tanto criterios para escoger los estimadores i que incluimos en (q) y los que reemplazamos por cero en (11.28).

10.4.2.

Estrategias de seleccin de componentes prino cipales

Hay varias estrategias. Una discusin ms pormenorizada que el resumen o a a continuacin puede encontrarse en Brown (1993) o en Jollie (1986). o Eleccin basada en i . Como quiera que la varianza de i es 2 1 (vase o e i (10.26), pg. 135), una estrategia consistir en tomar los i asociados a i a a ms grande (es decir, con menos varianza), despreciando los restantes. El a nmero de componentes principales a retener (= el nmero de i s grandes) u u es en buena medida subjetivo. Ntese que puede ocurrir que componentes asociadas a parmetros i con o a mucha varianza y por tanto desechados tengan no obstante gran poder predictivo de y . En este caso, podr ser preferible emplear la estrategia a a continuacin. o
.c o

Eleccin basada en el contraste de nulidad de los i . Se procede as o : 1. Se calcula

la ultima igualdad haciendo uso de la ortogonalidad entre las columnas de U. Entonces, SSR = PU y 2 , y SSE = y y 2 U 2 . 2. Se contrasta la hiptesis de nulidad para cada uno de los parmetros, o a (Hi : i = 0, i = 1, . . . , p 1), mediante el estad stico: Qi = N p i2 ui 1 SSE
2

ww

w.

M at

em

PU y

= U

at

ic a1
2

= 1 u 1 2

+ + p1 up1 2

(10.29)

F1,N p

(10.30)

que sigue la distribucin indicada bajo los supuestos habituales ms o a normalidad cuando Hi es cierta. Obsrvese que, gracias a ser ortogonales las columnas de U, la fraccin e o de SSR atribuible a cada regresor es independiente de los que pueda haber ya incluidos en la ecuacin de regresin; por tanto, la diferencia o o de suma de cuadrados explicada con y sin el regresor ui es precisamente i2 ui 2 . 3. Se introducen todos los regresores cuyo estad stico Qi supere un nivel prejado. Sin prdida de generalidad, supondremos que stos son los q e e primeros, formando el vector (q) .

4. Los CP se obtienen mediante la transformacin (11.28). o Ntese que mientras que la estrategia precedente consist en desechar o a componentes principales asociadas a reducido i , la presente propone desechar las asociadas a reducido Qi ; frecuentemente, no suele haber conicto entre ambos objetivos: ui 2 = i 0 Qi 0 a menos que simultneaa mente i 0. Puede ocurrir, sin embargo, que una componente principal asociada a un i muy pequeo tenga apreciable valor predictivo (si i es n grande). Proceder incluir dicha componente principal como predictor si el a valor de Qi lo justica y la prediccin es el objetivo del anlisis3 . o a Estrategia mixta. Propuesta por Jollie (1986), ordena los i de menor a mayor i y realiza en este orden un contraste como el del apartado anterior sobre cada uno de ellos. Cuando se encuentra el primer i signicativo, se retiene junto a todos los que le siguen (con i mayor, por tanto). Todos los i retenidos componen el vector (q) . Validacin cruzada. Computacionalmente muy laboriosa. Puede ocurrir o que al omitir distintas observaciones, dos componentes principales permuten su orden. Vanse detalles en Brown (1993). e

El sesgo de CP es: E[CP ] = E V y su matriz de covarianzas:


CP

ww

w.

10.4.3.

Propiedades del estimador en componentes principales

at

em

at

ic

a1

.c

om

(q) i vi V = 0 i=q+1

p1

(10.31)

= V = 2

2
q

Iq 0 I 0 1 q 0 0 0 0 1 vi vi i

(10.32) (10.33) (10.34) (10.35)

i=1 p1

1 vi vi i

= (W W )1
3

i=1 2

Pero este criterio no es unnimemente compartido. Vase Hocking (1976). a e

en que el s mbolo indica elementos no mayores en la diagonal principal. La diferencia entre la matriz de covarianzas de los estimadores MCO y la de los estimadores en componentes principales es:
p1

2 i=q+1

1 vi vi i

(10.36)

y ser importante si entre las componentes principales exclu a das como regresores hay alguna asociada a un i muy pequeo. n Las expresiones (11.31) y (11.32)(11.35) muestran el conicto varianzasesgo en el caso de la regresin en componentes principales. De (11.31) se o deduce la siguiente expresin para la suma de los sesgos al cuadrado: o
p1 [E(CP ) ] [E(CP ) ] =

(i )2
i=q+1

(10.37)

Es interesante comparar el estimador en componentes principales con el proporcionado por el estimador ridge, y examinarlo a la luz del anlisis a efectuado en el Cap tulo 10. En realidad, todo cuanto hace el estimador en componentes principales es reparametrizar el modelo, estimarlo por MCO, y obtener los estimadores de los parmetros originales despreciando informaa cin (algunos i ) de gran varianza (si se sigue el criterio de despreciar sin o ms componentes principales con pequeo i ) o de reducido Qi (i )2 i ; a n este ultimo estad stico puede contemplarse como relacin seal/ruido. o n El estimador ridge no hace una eleccin tan drstica sino que, mediante o a la introduccin del parmetro k, atena las componentes principales reso a u ponsables en mayor medida de la varianza de . Esto se hace evidente si comparamos la siguiente expresin: o
ww

CP = V

Iq 0 =V 0 0

w.

M at

em

at

ic

a1

Iq 0 1 U y 0 0

.c o

(10.38)

con la del estimador ridge equiparable4 : (k) = (W W + kI)1 W y = V V (W W + kI)1 V V W y = V ( + kI)1 U y (10.39) (10.40) (10.41)

En (11.38) slo q columnas de U y se utilizan; en (11.41), todas, si bien las o que corresponden a componentes principales con i ms pequeo reciben una a n
Es decir, tras haber centrado y normado los regresores y segregado la columna de unos.
4

ponderacin menor, al ser divididas por i +k en lugar de por i . Por ejemplo, o si 1 = 5, 4 = ,002 y k = 0,01, la primera columna de U y ser dividida a por 5,01 5, mientras que la cuarta resultar dividida por 0,012 0,002, a es decir, su ponderacin se reducir a la sexta parte de la original. o a R: Ejemplo 10.2 (regresin en componentes principales) o
La funcin regCP que sigue traduce directamente de la teor exo a puesta el mtodo para llevar a cabo estimacin en componentes prine o cipales. Admite como argumentos la matriz de regresores, el vector respuesta, y uno de dos argumentos: tomar: Vector de ndices de las componentes principales a retener. Por ejemplo, tomar=1:3 tomar las tres primeras. a sig: Nivel de signicacin de las componentes principales a reo tener. Se toman todas aqullas sea cual fuere su valor propio e asociado signicativas al nivel sig. La funcin es ineciente, no hace comprobacin de errores y tiene slo o o o inters didctico. e a > regCP <- function(X, y, tomar = NULL, + sig = 0.05) { + X.c <- scale(X, scale = FALSE) + y.c <- scale(y, scale = FALSE) + W <- scale(X.c, center = FALSE)/sqrt(nrow(X) + 1) + WW <- crossprod(W) + factores.escala <- X.c[1, ]/W[1, ] + N <- nrow(X) + p <- ncol(X) + res <- eigen(WW) + V <- res$vectors + landas <- res$values + U <- W %*% V + gamas <- (1/landas) * t(U) %*% y.c + if (is.null(tomar)) { + fit <- lsfit(X.c, y.c, intercept = FALSE) + SSE <- sum(fit$residuals^2) + qi <- (N - p) * (gamas * landas)^2/SSE + tomar <- (1:p)[sig > (1 - pf(qi, + 1, N - p))] + } + betasCPstar <- V[, tomar] %*% gamas[tomar] + betasCP <- betasCPstar/factores.escala
ww w.
om

at

em

at

ic

a1

.c

+ + + + + + + + }

m.X <- apply(X, 2, mean) m.Y <- mean(y) beta0 <- m.Y - sum(m.X * betasCP) betasCP <- c(beta0, betasCP) names(betasCP) <- c("Intercept", dimnames(X)[[2]]) return(list(betasCP = betasCP, landas = landas, CP.usadas = tomar))

Veamos el modo de emplearla, con los datos longley, frecuentemente empleados como banco de pruebas por su muy acusada multicolinealidad: > > > > > library(MASS) data(longley) y <- longley[, 1] X <- as.matrix(longley[, -1]) regCP(X, y, tomar = 1:3) GNP 2.459e-02 Population 3.391e-01
ww w.

$betasCP Intercept -9.731e+02 Armed.Forces 1.553e-02 Employed 7.239e-01

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 Una comprobacin util consiste en ver que el estimador en CP, cuando o se utilizan todas las componente principales, coincide con el estimador MCO. Vemoslo: a > regCP(X, y, tomar = 1:ncol(X)) $betasCP Intercept 2946.85636 GNP 0.26353 Unemployed 0.03648

at

em

at

Unemployed 9.953e-03 Year 4.967e-01

ic a1

.c o

Armed.Forces 0.01116 Employed 0.23129

Population -1.73703

Year -1.41880

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 3 4 5 6 > lsfit(X, y)$coefficients Intercept 2946.85636 Armed.Forces 0.01116 Employed 0.23129 GNP 0.26353 Population -1.73703 Unemployed 0.03648 Year -1.41880

> regCP(X, y, sig = 0.1) $betasCP Intercept -961.37468 Armed.Forces 0.01991 Employed 0.66205 GNP 0.02372 Population 0.33197 Unemployed 0.01373 Year 0.49223

$landas [1] 4.5478430 1.1858692 0.2517070 0.0124261 [5] 0.0018422 0.0003126 $CP.usadas [1] 1 2 Fin del ejemplo

ww

w.

Para que la funcin seleccione aquellas componentes principales con o un nivel de signicacin de sus parmetros asociados prejado, la ino a vocamos as :

at e

at

ic

a1

.c

om

10.5.

Regresin en ra o ces latentes


y = 10 + W + (10.42)

Consideramos el modelo:

o alternativamente: y = W + (10.43)

en que tanto los regresores como la variable respuesta y han sido normalizados y centrados. Es decir, y = 1 (y y) siendo 2 = N (yi y)2 . Si i=1 constru mos la matriz N p siguiente: A = [y | W ]
om

(10.44)

Entonces, utilizando (11.44), tenemos


ww

Avj = v0j y + W vj , dnde vj o


(0)

w.

at e

(0)

V (A A)V = V V = A A

at ic

a1

tenemos que la matriz (A A) es una matriz de correlacin (tiene unos en la o diagonal principal, es simtrica y semidenida positiva). Sea V = (v1 | | e vp ) la matriz que la diagonaliza:
.c

(10.45)

(j = 1, . . . , p)

(10.46)

es vj desprovisto de su primer elemento: vj = v0j (0) . vj

Tomando norma al cuadrado de (11.46), Avj


2

= =

v0j yi + W vj
N

(0) 2 p1 2

yi v0j +
i=1 (0) k=1

Wik vkj

(10.47)

en que vkj es la k-sima coordenada de vj . Como por otra parte e Avj


2

= vj (A A)vj = j ,

(10.48)

igualando (11.47) y (11.48) deducimos que si j 0


p1 yi v0j

Wik vkj
k=1

i [1, . . . , N]

(10.49)

Si, adems, v0j = 0, podemos escribir: a


1 y v0j W vj (0) def

y(j)

(10.50)

Como y = 1 (y y), y = y + y y denominando y(j) = y + (j) y tenemos: (y y(j) ) (y y(j) ) = 2 (y y(j) ) (y y(j) )
om

(10.51)

= (v0j y v0j y(j) ) (v0j y v0j y(j) )

2 2 v0j

Ntese que la aproximacin de y en (11.50) y suma de cuadrados de los o o residuos en (11.52), hacen uso exclusivamente de una parte de la informacin o disponible; la de que j es aproximadamente cero para un determinado j. Podemos pensar en hacer uso de toda la informacin disponible aproximano do y mediante una combinacin lineal de y(i) (i = 1, . . . , p), debidamente o ponderadas por coecientes di a determinar:
ww w.
p

y =
i=1 p

at e

j 2 = 2 v0j

at ic

= (Avj ) (Avj )

2 2 v0j
.c

a1

(10.52)

di y(i) di y + W (v0i 1 vi )
i=1 p p (0)

[usando (11.50) y (11.51)] =

=
i=1

di y + W

di v0i 1 vi
i=1

(0)

Por otro lado, de (11.42) tenemos 0 1 + W

que junto con la igualdad precedente proporciona:


p

0 = y
i=1 p

di di v0i 1 vi
i=1 (0)

(10.53) (10.54)

Como los regresores W estn centrados, es claro que 0 = y, y por tanto a p de (11.53) se deduce i=1 di = 1. Haciendo uso de (11.52), (11.53), y (11.54) obtenemos la suma de cuadrados de los residuos: (y y ) (y y ) = 2 (y y ) (y y )
p (0) vi p

y +W
i=1 p

di v0i

y +W
i=1 (0)

di v0i 1 vi

(0)

= 2
i=1 p

at em

i=1 p

at ic

=
2

di v0i di v0i

a1
p

.c o

(y v0i + W vi ) Avi
i=1

m
(0)

di v0i

(y v0i + W vi )

= 2
i=1

ww

i=1 p

w.

di v0i

Avi (10.55)
p i=1

i d 2 i v0i 2

Podemos ahora minimizar la expresin (11.55) sujeta a que o El lagrangiano es:


p

di = 1.

(d ) = cuyas derivadas

2 i=1

i d 2 i v0i 2

i=1

di 1

(10.56)

(d ) = 2 2 di

d i i v0i 2

=0

(i = 1, . . . , p)

(10.57)

permiten (multiplicando cada igualdad en (11.57) por v0i 2 1 y sumando) i obtener:


p

= 2

2 i=1

2 v0i i

(10.58)

Llevando (11.58) a (11.57) obtenemos: i 2 di 2 = = 2 2 v0i


2 p 2 v0i i 1

(10.59)

i=1

y por tanto: v2 di = 0i i
p 2 v0i i 1

(10.60)

i=1

Los estimadores deseados se obtienen llevando (11.60) a (11.53)(11.54): 0 = y =


p i=1

(10.61) v0i v (0) i i 2 v0i p i=1 i


.c om

(10.62)

Podr amos detenernos aqu pero hay ms. Cabe distinguir dos tipos de , a multicolinealidades entre las columnas de la matriz [y | W ]; aqullas en e que v0i 0 que llamaremos (multicolinealidades predictivas), y aqullas en e que v0i 0 (multicolinealidades no predictivas); las primeras permiten despejar y , y son aprovechables para la prediccin, en tanto las segundas son o multicolinealidades fundamentalmente entre los regresores. (0) El estimador anterior pondera cada vi en proporcin directa a v0i e o inversa a i . Es lo sensato: lo primero, prima las multicolinealidades predictivas sobre las que lo son menos; lo segundo, a las multicolinealidades ms a fuertes (en que la igualdad aproximada (11.49) es ms ajustada). Pero podea mos eliminar en (11.62) trminos muy inestables, cuando v0i y i son ambos e muy pequeos, para evitar que el sumando correspondiente en (11.62) reciba n gran ponderacin, si parece evidente que se trata de una multicolinealidad o no predictiva. La relacin (11.62) se transformar entonces en: o a
ww w.

at em

iP

at ic

v0i v (0) i i 2 v0i iP i

a1

(10.63)

siendo P un subconjunto de (1, . . . , p). La determinacin de P es una tarea eminentemente subjetiva; se suele o (0) desechar una multicolinealidad cuando i < 0,10 y v0i < 0,10, si adems vi a se aproxima a un vector propio de W W .

10.6.

Lectura recomendada

Sobre regresin ridge, el trabajo original es Hoerl and Kennard (1970) (ver o tambin Hoerl et al. (1975)). Hay una enorme literatura sobre los estimadores e ridge y en componentes principales. Pueden verse por ejemplo Brown (1993), Cap. 4, Trocniz (1987a) Cap. 10 Pea (2002) Sec. 8.3.4, que relaciona el o o n estimador ridge con un estimador bayesiano. Los mtodos de regresin sesgada se contemplan a veces como alternativas e o a los mtodos de seleccin de variables en situaciones de acusada multicolie o nealidad: vase por ejemplo Miller (2002), Cap. 3. De hecho, estudiaremos en e el Cap tulo 13 estimadores como el LASSO y garrote no negativo que pueden tambin verse como mtodos de regresin sesgada. e e o El trabajo original regresin en ra o ces latentes puede verse en Webster et al. (1974). Hay tambin descripciones completas del mtodo en manuales e e como Trocniz (1987a) (pg. 247 y ss.) o Gunst and Mason (1980), Sec. 10.2. o a
ww w.

at

em

at

ic a1

.c om

Complementos y ejercicios 10.1 Al nal de la Seccin 11.3 se propon emplear un criterio o a


del tipo ( ) M ( ) con M = (X X). Dse una justicacin para esta eleccin de M . e o o

10.2 Demustrese que si ui es denida como en (11.22), se vee rica que 1 ui . 10.3 Sea una muestra formada por n observaciones, X1 , . . . , Xn , generadas por una distribucin con media. Demustrese que, para alo e g n c, cX es mejor estimador (en terminos de error medio cuadrtico, u a ECM) que X. Es esto un caso particular de alguno de los procedimientos de estimacin examinados en este cap o tulo? 10.4 Es fcil realizar regresin ridge incluso con programas pena o sados slo para hacer regresin m o o nimo cuadrtica ordinaria. Basta a prolongar el vector con p ceros, y la matriz X con p las adicionay les: las de la matriz kIpp . Llamamos X e y a la matriz de regresores y vector respuesta as ampliados. Al hacer regresin ordinaria de y so o obtenemos: bre X
ww
.c om

= (X X)1 X y
w.

at e

at

ic

a1

= (X X + kI) = (X X + kI) = (k)

(X y + X y

(10.64) kI 0 ) (10.65) (10.66) (10.67)

n Alternativamente, se puede formar X a adiendo a X las las de una matriz unidad, y realizar regresin ponderada (dando a cada obsero vacin normal peso unitario y a las p seudo-observaciones a adidas o n peso k). La alteracin de los pesos es habitualmente ms cmoda o a o que la creacin de una nueva matriz de regresores. Este ser de ordio a nario el mtodo a utilizar cuando hayamos de probar muchos valores e diferentes de k y dispongamos de un programa para hacer regresin o m nimo cuadrtica ponderada. Las funciones lsfit y lm (disponibles a en R) admiten ambas el uso de pesos y por tanto se prestan al uso descrito. La librer MASS contiene no obstante la funcin lm.ridge, a o que hace estimacin ridge de modo ms cmodo para el usuario. o a o

10.5 Supongamos una muestra formada por pares de valores (yi , xi ), i = 1, . . . , N . La variable Y es peso, la variable X es edad,

y las observaciones corresponden a N diferentes sujetos. Estamos interesados en especicar la evolucin del peso con la edad. Podr o amos construir la matrix de dise o n 1 x1 x2 x3 . . . xp1 1 1 1 p1 1 x2 x2 x3 . . . x 2 2 2 p1 2 3 (10.68) X = 1 x3 x3 x3 . . . x 3 . . . . . . . . . p1 2 3 1 x N xN xN . . . x N
om

y contrastar hiptesis tales como H0 : 2 = 3 = . . . = p1 = 0 o (tendencia no ms que lineal), H0 : 3 = . . . = p1 = 0 (tendena cia no ms que cuadrtica), etc. Sucede sin embargo, como es fcil a a a comprobar, que una matriz como la anterior adolece de una acusada multicolinealidad, sean cuales fueren los valores x1 , . . . , xN . Podr amos ortogonalizar los vectores columna de la matriz de dise o (por ejemplo mediante el procedimiendo de Gram-Schmidt: vase n e Grafe (1985) o cualquier libro de Algebra Lineal), para obtener una nueva matriz de dise o. Los nuevos vectores columna generan el misn mo espacio y el contraste puede hacerse del mismo modo que con los originales, pero sin problemas de multicolinealidad. Otra posibilidad es sustituir las potencias creciente de xi en las columnas de X por polinomios ortogonales evaluados para los mismos valores xi (ver por ejemplo Seber (1977), Dahlquist and Bjrck (1974), o o cualquier texto de Anlisis Numrico). a e Ambos procedimientos tienen por nalidad encontrar una base ortogonal o aproximadamente ortogonal generando el mismo espacio que los vectores columna originales de la matriz de dise o. n

10.6 ( 11.5) Por qu, para la nalidad perseguida en el Ejere


cicio 11.5, no ser de utilidad hacer regresin en componentes princia o pales?

ww

w.

at

em

at

ic a

1.c

170

CAP ITULO 10. REGRESION SESGADA.

ww

w.

at

em

at ic

a1

.c om

Você também pode gostar