Você está na página 1de 40

Universidad del Pacfico

Maestra en Economa 2013


Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Algebra matricial

Estas notas presentan resultados de lgebra matricial que sern de utilidad a lo largo de sus cursos de econometra.
Dominar estos conceptos permitir facilitar el planteamiento y la demostracin de propiedades importantes de
estimadores economtricos.
1.1

Productos matriciales

Los productos matriciales son multiplicaciones del tipo fila-columna. Sea A una matriz de dimensin n m cuya
i-sima fila es el vector ai 0 (es decir, ai Rm es la i-sima columna de A0 ), sea C una matriz de orden r s cuya
i-sima fila es el vector ci 0 (ci R s ) y sea B una matriz de dimensin n r con elemento tpico bi j . As
A BC =
0

n X
r
X

bi j ai c j 0 .

(1)

i=1 j=1

1.2

Rango

El rango de una matriz A de dimensin n r (r n) es definido como el nmero de columnas (o filas) linealmente
independientes y se denota como rk( A). Obviamente, rk( A) r. Cuando rk( A) = r se dice que A tiene rango
completo. Una propiedad de utilidad es que rk(A) = rk(A0 A).
1.3

Inversa

La inversa de una matriz cuadrada A de dimensin n n es otra matriz (nica) de dimensin n n denotada como
A1 que satisface A A1 = A1 A = In . La inversa no siempre existe. Cuando A1 no existe se dice que A es una
matriz singular, mientras que de existir la inversa A es no singular.
Una matriz cuadrada es no singular si tiene rango completo, rk(A) = n, lo que significa que no existe ningn vector
c , 0 tal que Ac = 0. Si tal vector existiera, entonces A sera singular y por tanto rk(A) < n.
Algunas propiedades de la inversa (para A y B no singulares):
(A0 )1 = ( A1 )0 .
(AB)1 = B1 A1 .
(A + B)1 = A1 ( A1 + B1 )1 B1 .
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 1 - Algebra matricial

A1 (A + B)1 = A1 ( A1 + B1 )A1 .
La inversa de una matriz puede calcularse como
A1 =

adj A
,
det A

donde adjA es la matriz adjunta de A (la traspuesta de la matriz de cofactores de A). La matriz adjunta siempre
existe y se concluye que una condicin suficiente para la existencia de la inversa es det A , 0.
En general, es tedioso calcular adjA, con la excepcin de una matriz de 2 2 (se intercambian los elementos de la
diagonal principal y se cambia el signo a los elementos de la diagonal secundaria):
"
#
"
#
"
#
1
a b
d b
d b
1
Si A =
,
adj A =
por tanto
A =
.
(2)
c d
c a
ad bc c a
1.4

Inversa y determinante de matrices estructuradas

Un resultado de inters es la frmula de Woodbury


(A + BC D)1 = A1 A1 B(C1 + D A1 B)1 D A1 ,
de donde se deduce que, para dos vectores b y d
!
1
0 1
1
A1 bd0 A1 ,
( A bd ) = A
1 d0 A1 b

(3)

(4)

un resultado conocido como la frmula de ShermanMorrison. Asimismo,


det(A BC D) = det A det(I C D A1 B) .

(5)

Por su parte, dos igualdades relacionadas con una matriz simtrica particionada son:
"

A B
B0 C

#1

"
=

A1 0
0 0

"
+

#
h
i
A1 B
W 1 B0 A1 I ,
I

(6)

y
"
det

A B
B0 C

#
= det A det W

(7)

donde W = C B0 A1 B es el complemento de Schur de la matriz A.


1.5

Valores y vectores propios

La ecuacin caracterstica de una matriz cuadrada A de orden n es


det(A In ) = 0 .
El lado izquierdo es un polinomio de grado n en que contiene exactamente n races, reales o complejas. Estas
races son los valores propios de A. Por construccin, si i es un valor propio de A, (A i In ) es singular y por
tanto existe un vector hi , 0 que satisface
(A i In )hi = 0

o, alternativamente,

Ahi = i hi .

El vector hi es el vector propio de A asociado con i . Usualmente hi es normalizado tal que khi k = 1.
Sea una matriz diagonal de orden n que contiene sobre la diagonal los valores propios de A, []ii = i y
[]i j = 0 para i , j. Asimismo, defina H como la matriz cuadrada de orden n cuyas columnas vienen dadas por
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 1 - Algebra matricial

los vectores propios correspondientes, H = [ h1 h2 hn ]. Si todos valores propios de A son distintos, entonces
H es no singular y A presenta la siguiente descomposicin espectral
A = H1 H

o, anlogamente,

= H AH1 .

(8)

Si A es simtrica, entonces h0i h j = 0 para todo i , j. Ello implica que H es una matriz ortogonal, H1 = H0 :
A = H0 H

= H AH0

cuando A es simtrica .

(9)

Algunas propiedades importantes:


1
Los valores propios de A1 son 1
= H1 1 H.
i , esto es los recprocos de los valores propios de A: A

Los valores propios de Ak son ki , esto es los valores propios de A a la k-sima potencia: Ak = H1 k H.
A es no singular si y slo si todos sus valores propios son i , 0.
El rango de A es el nmero de valores propios distintos de cero.
Q
det(A) = det() = ni=1 i .
Si A es idempotente, A A = A, entonces i = 1 i = 0.
Si A es ortogonal, A0 A = A A0 = In , entonces i = 1.
1.6

Matrices definidas

Una matriz cuadrada y simtrica A es semidefinida positiva (A  0) si para todo vector c , 0 se cumple que la
forma cuadrtica c0 Ac 0. Por su parte, A es definida positiva ( A  0) si la desigualdad es estricta c0 Ac > 0.
Igualmente, una matriz cuadrada A es semidefinida negativa ( A  0) si c0 Ac 0, mientras que A es definida
negativa ( A 0) si c0 Ac < 0. Una matriz no es definida si c0 Ac 0 para algunos vectores c y c0 Ac 0 para otros.
Entre las propiedades ms importantes se tiene:
Si A = B0 B para cualquier matriz B, entonces A  0: para cualquier c , 0, c0 Ac = d0 d 0, donde d = Bc.
Si B es de rango completo (es no singular), entonces A  0.
Si A  0, entonces A es no singular y A1 es tambin definida positiva.
A  0 [resp., A 0] si todos sus valores propios son positivos [negativos].
A  0 [resp., A  0] si todos sus valores propios son positivos [resp., negativos] y al menos uno es igual a
cero. Es decir, una matriz semidefinida es singular.
Si A  0, es posible encontrar una matriz B tal que A = BB0 . Usualmente, B se denomina raz cuadrada
de A y no es necesariamente nica. Una manera comn de encontrar B es inspirada por la descomposicin
espectral (9): B = H 1/2 .
A B  0 si y slo si B1 A1  0.
1.7

Traza

La traza de una matriz cuadrada A = [ai j ] es la suma de los elementos de la diagonal:


tr( A) = a11 + a22 + . . . + ann .

(10)

Algunas propiedades importantes de este operador son:


tr( A + B + C) = tr( A) + tr(B) + tr(C)
Bajo la traza el producto matricial es cclicamente conmutativo: tr(ABC) = tr(BC A) = tr(C AB).
Para dos matrices semidefinidas positivas, 0 tr( AB) tr( A)tr(B).
De la segunda propiedad se desprenden los siguientes colorarios:
Para un vector y de dimensin n, y0 Ay = tr(y0 Ay) = tr( Ayy0 ).
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 1 - Algebra matricial

P
tr( A) = ni=1 i , donde i son los valores propios de A. Para ello, note que A = H H1 , donde es la
matriz diagonal cuyo i-simo es i . Luego, tr(A) = tr().
Si A es idempotente, tr( A) = rk(A). Ello se debe a que los valores propios de A son en este caso iguales a 0
1. El nmero de valores propios distintos de cero (es decir, iguales a 1) corresponde al rango de A.
1.8

Normas

Las normas son escalares que miden, en tminos simples, distancias entre los elementos de vectores y matrices.
Las normas ms usuales son las Euclidianas: kak2 = a0 a para vectores y kAk2 = tr( A0 A) para matrices.
1.9

Desigualdad de Cauchy-Schwarz

Sean a y b dos vector de la misma dimensin. Luego,


(a0 b)2 kak kbk = (a0 a)(b0 b) ,

(11)

con igualdad si y slo si a y b son colineales (a = b).


Una versin ms general de esta desigualdad involucra a una matriz semidefinida positiva Q:
(a0 Qb)2 (a0 Qa)(b0 Qb) ,

(12)

y se comprueba inmediatamente dada la descomposicin Q = R0 R que admite la matriz semidefinida positiva.


Finalmente, la desigualdad puede establecerse en trminos de normas matriciales. Para dos matrices A y B,
kA0 Bk kAk kBk

que implica

tr( A0 B)2 tr( A0 A)tr(B0 B) ,

(13)

con igualdad si B = AW donde W es no singular.


1.10

Producto Kronecker

Sea A una matriz de dimensin m n y sea B una matriz de dimensin r s. El producto Kronecker de A y B se
denota como A B y da como resultado la siguiente matriz de dimensin m r n s:

a11 B a12 B a1n B


a B a B a B
22
2n

21
A B = .
..
.. .
.
.
.
.
.
.
.

am1 B am2 B amn B

(14)

Algunas propiedades:
A diferencia del producto matricial AB, el producto Kronecker A B siempre existe, sin importar las
dimensiones de A y B .
(A + B) C = A C + B C .
(A B) C = A (B C) .
(A B)(C D) = AC B D siempre y cuando AC y B D existan.
(A B)0 = A0 B0 .
(A B)1 = A1 B1 siempre y cuando las matrices involucradas sean no singulares.
tr( A B) = tr( A)tr(B) .
Si A es n n y B es m m, det(A B) = (det A)m (det B)n .
Los valores propios de A B son los valores propios de A multiplicados por los valores propios de B .
Si A  0 y B  0, entonces (A B)  0 .

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 1 - Algebra matricial

1.11

Clculo vectorial

Sea x Rn y defina una funcin g : Rn R. El vector de primeras derivadas o gradiente g(x)/x tiene como
i-simo elemento g(x)/xi , mientras que la matriz de segundas derivadas o Hessiano 2 g(x)/xx0 es simtrica y
contiene como (i, j)-simo elemento 2 g(x)/xi x j .
Algunos resultados son:
x0 a a0 x
x0 a a0 x
=
= a y, anlogamente,
=
= a0 ,
x
x
x0
x0
Ax
Ax

= A0 y, anlogamente,
= A0 ,
x
x0
x0 Ax

= A + A0 .
x
Es bueno notar que las segundas derivadas vectoriales en el Hessiano implican dos operaciones: primero,
diferenciacin y segundo post o pre multiplicacin. El resultado de primera diferenciacin, asociada con x, entra
premultiplicando mientras que el resultado de la segunda diferenciacin, asociada con x0 , entra postmultiplicando.
Esta manera de computar la matriz de segundas derivadas es particularmente til al combinarla con la regla de la
cadena.

Por ejemplo,
!
2 x0 Ax
x0 Ax
( A + A0 )x
=
=
= A + A0 .
xx0
x x0
x
Otros ejemplos ms ilustrativos son:
2 (x0 a)2
xx0

2 log(x0 a)
xx0

2 exp(x0 a)
xx0

1.12

!
(x0 a)2
(x0 a)2 x0 a
(x0 a) 0
=
=
2
a = 2aa0 .
x
x0
x (x0 a) x0
x
!
!
aa0
log(x0 a)
a0
log(x0 a) x0 a
(x0 a) a0
=
=

.
=
=

x
x0
x (x0 a) x0
x x0 a
x (x0 a)2
(x0 a)2
!
exp(x0 a)
exp(x0 a) x0 a exp(x0 a) 0 exp(x0 a) (x0 a) 0
=
=
a =
a = exp(x0 a)aa0 .
x
x0
x (x0 a) x0
x
(x0 a)
x

Teorema del valor medio

Sea f (x) una funcin escalar de la variable escalar x y suponga que f () es continua y diferenciable en el intervalo
x [a, b]. Luego, si f 0 (x) denota la derivada de f () respecto a x, existe un punto c [a, b] tal que
f (a) = f (b) + f 0 (c)(a b) .

(15)

Al resultado en (15) se le conoce como expansin del valor medio.


El teorema del valor medio se aplica tambin a funciones vectoriales. Sea f : Rn Rm una funcin vectorial que
da como resultado f (x) Rm tras ser evaluada en el vector x Rn . Se asume que f () es continua y diferenciable
en un conjunto convexo que contiene los vectores a y b. Defina J (x) como el Jacobiano de f (), es decir la matriz
de dimensin m n que contiene las derivadas de los elementos de f (x) respecto a los elementos de x. As,
f (a) = f (b) + J (c)(a b) .

(16)

donde cada elemento del vector c se encuentra en el segmento que conecta los elementos correspondientes de los
vectores a y b. Es decir, ci = i ai + (1 i )bi y por tanto ci [ai , bi ], donde xi denota al i-simo elemento de x (para
x = a, b, c) y i [0, 1] (para i = 1, 2, . . . , n).

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 1 - Algebra matricial

Pgina en blanco

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

Universidad del Pacfico


Maestra en Economa 2013
Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Conceptos generales de estadstica multivariada

A continuacin se repasan algunos conceptos de estadstica multivariada. Se trabajar con dos variables aleatorias,
w e y, y ocasionalmente se har referencia al comportamiento de un grupo de variables aleatorias recogidas en el
vector w junto con un conjunto de otras variables aleatorias recogidas en el vector y.
2.1

Funciones de probabilidad o funciones de distribucin

Sea f (w, y) la funcin de densidad conjunta de dos variables aleatorias w e y. Esta funcin dicta el comportamiento
aleatorio de w e y y define cmo una depende de la otra. Por su parte, defina f (w) y f (y) como las respectivas
funciones de densidades marginales. Las distribuciones marginales rescatan el comportamiento de una de las
variables, una vez que se toma en cuenta todos los posibles eventos que ocurrirn con la otra. Estas funciones se
definen como
Z
Z
f (w) =
f (w, y) d y
y, de la misma manera,
f (y) =
f (w, y) d w .
(1)
La integracin es el modo de descontar toda la influencia de una variable aleatoria sobre la otra.
Finalmente, la funcin de densidad condicional de w dado y, denotada por f (w | y), da cuenta del comportamiento
de w tomando a y como dado (es decir, ignorando la aleatoriedad en y). Obviamente, los momentos de f (w | y) son
funciones de y. Por la ley multiplicativa de probabilidades, f (w, y) = f (w | y) f (y), se deduce que
f (w | y = y ) =

f (w, y )
f (y)

y, anlogamente,

f (y | w = w)
=

f (w,
y)
,
f (w)

(2)

para los puntos en donde f (y) , 0 y/o f (w)


, 0.
2.2

Expectativa

Dada una variable aleatoria w y una funcin g(), puede crease una nueva variable aleatoria g(w). La expectativa o
valor esperado de g(w) es un promedio ponderado de todos los posibles valores de g(w), donde las ponderaciones
vienen dadas por la probabilidad de ocurrencia de los diversos valores que puede tomar g(w):
Z
E( g(w) ) =
g(w) f (w) d w .
(3)

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 2 - Conceptos generales de estadstica multivariada

A menudo al valor esperado de w, es decir E( w ) =

Z
w f (w) d w, se le conoce como media poblacional.

En el caso de contar con una funcin de densidad bivariada, por ejemplo de w e y, el valor esperado de una funcin
arbitraria g(w, y) se define como
Z Z
E( g(w, y) ) =
g(w, y) f (w, y) d w d y ,
(4)
definicin que se extiende naturalmente a integrales de rdenes superiores. En general, si w denota un vector de
variables aleatorias, (3) se generaliza a
Z
E( g(w) ) =
g(w) f (w) d w .
(5)
donde se entiende que la integracin es sobre cada elemento del vector w.
El operador de expectativas es tan slo una integral y como tal hereda sus propiedades. En particular, E( ) es un
operador lineal: si w1 , w2 , . . . , w p denotan vectores o matrices con elementos aleatorios y A1 , A2 , . . . , A p , B denotan
vectores o matrices confortables de constantes (elementos no aleatorios), es fcil verificar que
E( A1 w1 + A2 w2 + . . . + A p w p + B ) = A1 E( w1 ) + A2 E( w2 ) + . . . + A p E( w p ) + B .
2.3

(6)

Matriz de covarianzas

La varianza es la medida de dispersin ms popular. Para un escalar w, sta es definida como


V( w ) = E( (w E( w ))2 ) = E( w2 ) E( w )2 ,

(7)

y es siempre positiva, al menos que w no sea una variable aleatoria, en cuyo caso V( w ) = 0.
La covarianza entre dos variables aleatorias w e y es la medida de asociacin lineal relacionada:
C( w, y ) = E( (w E( w ))(y E( y )) ) = E( xy ) E( x )E( y ) .

(8)

La desigualdad de Cauchy-Schwarz implica que C( w, y )2 V( w )V( y ).


Para un vector w Rn , (7) se generaliza a una matriz de covarianzas de dimensin n n:
V( w ) = E( (w E( w ))(w E( w ))0 ) = E( ww0 ) E( w )E( w )0 .

(9)

El elemento (i, i) de V( w ) es igual a V( wi ), la varianza del i-simo elemento de w, mientras que el elemento (i, j)
contiene la covarianza entre wi y w j . Debido a que C( wi , w j ) = C( w j , wi ), la matriz de covarianzas V( w ) es
necesariamente simtrica.
Considere un vector de variables aleatorias de dimensin m 1 que es formado por combinaciones lineales de los
elementos del vector w (de dimension n 1), y = Aw donde A es una matriz de constantes de dimensin m n.
Luego, la matriz de covarianzas de y de dimensin m m viene dada por
V( y ) = E( yy0 ) E( y )E( y )0 = E( Aww0 A0 ) E( Aw )E( w0 A0 ) = AV( w ) A0 .

(10)

En el clculo anterior la matriz A no es afectada por la expectativa al no contener elementos aleatorios. El resultado
(10) se conoce como la forma sandwich de la matriz de covarianzas. sta es una generalizacin del resultado escalar
V( aw ) = a2 V( w ) para una constante a.
El resultado en (10) permite concluir que las matrices de covarianza son, en general, definidas positivas. Considere al
vector aleatorio w y un vector de constantes a. El escalar a0 w es una variable aleatoria formada por una combinacin
lineal arbitraria de los elementos del vector w. Como tal, su varianza debe ser positiva. Utilizando la forma sandwich
se tiene luego que
V( a0 w ) = a0 V( w )a > 0 .

(11)

Dado que a es arbitrario, la desigualdad en (11) se cumple si y slo si V( w ) es definida positiva, ver seccin 1.6.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 2 - Conceptos generales de estadstica multivariada

2.4

Error cuadrtico medio

La pregunta de cun cerca se encuentran dos variables aleatorias es central en estadstica. El objetivo de los
ejercicios de inferencia es encontrar variables aleatorias observadas que sean cercanas a otras variables aleatorias
no observadas o a parmetros (desconocidos) de inters. Estas variables aleatorias de denominan estimadores
cuando la cantidades no observadas son parmetros (no aleatorios), mientras que se llaman predictores si las
variables no observadas son aleatorias. El error cuadrtico medio es un criterio de cercana muy difundido y al
que prestaremos especial atencin en este curso.
Sea q el estimador (o predictor) de (no observable). El error cuadrtico medio de q es
ECM( q, ) = E( (q )2 ) .

(12)

As, el estimador (o predictor) q es mejor que la alternativa q si ECM( q, ) < ECM( q,


). Note que mejor se
refiere a que q est ms cerca de que q,
de acuerdo con la distancia esperada tomada como criterio en (12).
Considere ahora el caso multivariado, donde q es el estimador (o predictor) del vector (no observable). El error
cuadrtico medio matricial es
ECM( q, ) = E( (q )(q )0 ) .

(13)

No es difcil verificar que


ECM( q, ) = V( q ) + E( q )E( q )0 ,

(14)

es decir, el error cuadrtico medio es la suma de un componente de varianza ms un componente de sesgo (al
cuadrado). Cuando no es aleatorio, el caso ms estudiado en este curso, (14) se simplifica a
ECM( q, ) = V( q ) + ( E( q ) )( E( q ) )0 .

(15)

Note que si q es insesgado, E( q ) = , el error cuadrtico medio coincide con la matriz de covarianzas de q.
En general, q ser preferible a la alternativa q si ECM( q,
) ECM( q, ) es una matriz semidefinida positiva . Este
postulado es equivalente a la siguiente condicin: para toda matriz semi definida positiva A,
E( ( q )0 A( q ) ) E( (q )0 A(q ) )

si y slo si ECM( q,
) ECM( q, )  0 ,

por lo que pasamos de un criterio de comparacin matricial a uno escalar. Cuando A = I las formas cuadrticas
anteriores se suelen llamar funcin de riesgo.
Asimismo, utilizando A = aa0 , donde a es un vector, es posible estudiar comparaciones de combinaciones lineales
de , a0 . Dado que ECM( a0 q, a0 ) = a0 ECM( q, )a, se concluye que
ECM( a0 q,
a0 ) ECM( a0 q, a0 ) = a0 (ECM( q,
) ECM( q, ))a 0
si y slo si
2.5

ECM( q,
) ECM( q, )  0 . (16)

Mtodo de momentos

El r-simo momento poblacional de w es definido como


Z
r
r = E( w ) =
wr f (w) d w .

(17)

Un momento tiene una contraparte muestral. Si se tiene informacin de n observaciones, el r-simo momento
muestral es
n
1X
mr =
(wi )r .
(18)
n i=1
El mtodo de momentos es un principio de estimacin que consiste en igualar los momentos poblacionales, que
dependen de parmetros desconocidos, con los momentos muestrales. Es decir, el valor de que resuelve igualdades
del tipo mr = r () es un estimador del mtodo de momentos.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

NC 2 - Conceptos generales de estadstica multivariada

2.6

Ley de expectativas iteradas

La ley de expectativas iteradas (LEI) provee un mtodo para computar expectativas que involucran mltiples
variables aleatorias. Sean w e y dos variables aleatorias cuya funcin densidad conjunta es f (w, y). Si se desea
calcular la expectativa de w, la LEI indica que primero puede calcularse (y) = Ew ( w | y ), que es una funcin
exclusivamente de y (ya que w fue integrada), y luego calcular Ey ( (y) ). Formalmente,
E( w ) = Ey ( Ew ( w | y ) ) .

(19)

Los subndices en las expectativas son slo indicativos. La demostracin utiliza propiedades de integracin doble y
distribuciones multivariadas (seccin 2.1):
Ey ( Ew ( w | y ) ) =

Ew ( w | y ) f (y) d y
#
Z "Z
Z Z
=
w f (w | y) d w f (y) d y =
w f (w | y) f (y) d w d y
Z Z
Z Z
=
w f (w, y) d w d y =
w f (w, y) d y d w
#
Z "Z
Z
w
f (w, y) d y d w =
w f (w) d w = E( w ) .
=

La LEI se generaliza naturalmente a ms de dos variables: E( w ) = E( E( w | y ) ) donde w e y son vectores de


dimensin arbitraria, ver (5).
2.7

Independencia

La nocin de independencia en estadstica apunta a que el comportamiento aleatorio de w ser el mismo sin importar
lo que suceda con y. Ello ocurre cuando la funcin de probabilidad condicional es idntica a la funcin de densidad
marginal. Formalmente,
f (w | y) = f (w)

si w e y son independientes .

(20)

Una consecuencia importante de (20) y de la descomposicin f (w, y) = f (w | y) f (y) es


f (w, y) = f (w) f (y)

si w e y son independientes .

(21)

Es decir, si w e y son independientes, la funcin de densidad conjunta es igual al producto de las respectivas
funciones marginales.
Independencia y expectativas

De (20) se desprende que, para cualquier funcin g() bien comportada en el soporte de w,
Z
Z
E( g(w) | y ) =
g(w) f (w | y) d w =
g(w) f (w) d w = E( g(w) ) .

(22)

La relacin del tipo f (w | y) = f (w) se cumple tambin al nivel de expectativas.


Por su parte, combinando (22) con la LEI, se obtiene para dos funciones g() y h() cualesquiera,
E( g(w)h(y) ) = Ey ( E( g(w)h(y) | y ) ) = Ey ( E( g(w) | y )h(y) ) = Ey ( Ew ( g(w) )h(y) ) = E( g(w) )E( h(y) ) . (23)
La relacin del tipo f (w, y) = f (w) f (y) se cumple tambin al nivel de expectativas.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

10

NC 2 - Conceptos generales de estadstica multivariada

Independencia y covarianza

La covarianza (y, por tanto la correlacin) entre dos variables aleatorias independientes es cero: Si w e y son
independientes, de (23) se concluye que E( xy ) = E( w )E( y ) y, por tanto, C( x, y ) = E( xy ) E( w )E( y ) = 0.
El resultado converso no es necesariamente cierto. El hecho que C( w, y ) = 0 no implica necesariamente que w e y
sean independientes. Considere un contraejemplo: sean w e y dos variables aleatorias discretas tal que
- y toma los valores de 1 2 con igual probabilidad;
- una vez obtenido el valor de y, w toma los valores de y o y con igual probabilidad.
En este caso E( w | y = 1 ) = E( w | y = 2 ) = 0, es decir la expectativa condicional es independiente de y. Para
obtener E( w ) note que existen cuatro posible valores para w, cada uno con probabilidad 14 . As,
E( w ) =

1
4

(1 1 + 2 2) = 0.

De este modo se obtiene que E( w ) = E( w | y = y ) para todo y : la expectativa condicional es igual a la incondicional,
un resultado parecido a (22). No obstante, por construccin w e y no son independientes. Si lo fueran, se tendra que
Pr( w = 1, y = 2 ) = Pr( w = 1 ) Pr( y = 2 ) > 0 ,
igualdad que no se cumple ya que cuando y = 2 es imposible observar w = 1, por tanto Pr( w = 1, y = 2 ) = 0.
Lo que ocurre en este contraejemplo es que y afecta la variabilidad de w pero no su media (diferentes valores de y
resultan en diferentes distribuciones de w que son ms o menos disperas alrededor de la media cero). De este modo,
existe dependencia entre w e y que se manifiesta a travs del segundo momento, la informacin sobre y no ayuda a
predecir la media de w.
2.8

Media condicional

Como se aprecia en la demostracin de la LEI lneas arriba, la expectativa condicional E( w | y ) es simplemente


una expectativa ordinaria calculada utilizando la distribucin condicional f (w | y).
Para un valor dado y , la expectativa condicional E( w | y ) es, como cualquier otra expectativa, determinstica o no
aleatoria. Sin embargo, si se considera la expectativa de w condicional a toda posible realizacin de y, E( w | y ) es
una nueva variable aleatoria al ser una funcin (determinstica) de la variable aleatoria y.
Una propiedad (un poco obvia) de expectativas condicionales es que para cualquier funcin determinstica h(),
E( h(y) | y ) = h(y). As,
E( h(y)w | y ) = h(y)E( w | y ) .

(24)

Una consecuencia de este resultado junto con la LEI es que si E( w | y ) = E( w ), entonces para cualquier h():
E( h(y)w ) = E( E( h(y)w | y ) ) = E( h(y)E( w | y ) ) = E( h(y)E( w ) ) = E( h(y) )E( w ) .

(25)

La condicin E( w | y ) = E( w ) se denomina independencia de w e y en media condicional y es un requerimiento


ms fuerte que la simple falta de correlacin w no slo no est correlacionado con y sino con toda funcin que
dependa de y, C( h(y), w ) = 0 pero ms debil que independencia en distribucin, ver (20).
2.9

Varianza condicional

La varianza condicional del vector w dado el vector y es V(w | y) = E( ww0 | y ) E( w | y )E( w | y )0 . sta, al igual
que E( w | y ), es claramente una funcin de y. Utilizando la LEI es posible mostrar el siguiente resultado:
V( w ) = E( V( w | y ) ) + V( E( w | y ) ) .

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

(26)

11

NC 2 - Conceptos generales de estadstica multivariada

2.10

Expectativas como predictores

Las expectativas y expectativas condicionales tienen propiedades de optimalidad como predictores.


Suponga que desea predecir una variable aleatoria w mediante una constante Cul es el valor ptimo de si la
bondad de la prediccin se mide en trminos del error cuadrtico medio E( k w k2 )? Note que
(w )2 = [ (w E( w )) (E( w ) ) ]2 = (w E( w ))2 + (E( w ) )2 2(w E( w ))(E( w ) ) ,
de modo que al tomar expectativas se tiene
E( (w )2 ) = V( w ) + (E( w ) )2 .
El primer trmino, V( w ), no depende de , mientras que el segundo es minimizado cuando = E( w ). El valor
esperado de w es, pues, la constante que como predictor minimiza el error cuadrtico medio.
Un caso ms interesante se da cuanto se desea predecir w no en trminos de una constante sino de una funcin del
vector aleatorio y, h(y). Siguiendo un procedimiento similar al anterior, se tiene que
(w h(y))2 = [ ( w E( w | y ) ) ( E( w | y ) h(y) ) ]2
= ( w E( w | y ) )2 + ( E( w | y ) h(y) )2 2( w E( w | y ) )( E( w | y ) h(y) ) .
La expectativa del tercer trmino es igual a cero. Para corroborar esta afirmacin aplique la LEI junto con (24),
E( ( w E( w | y ) )( E( w | y ) h(y) ) ) = E( E( ( w E( w | y ) )( E( w | y ) h(y) ) | y ) )
= E( E( ( wE( w | y ) ) | y )( E( w | y )h(y) ) ) = E( ( E( w | y )E( w | y ) )( E( w | y )h(y) ) ) = E( 0 ) = 0.
De este modo,
E( (w h(y))2 ) = E( ( w E( w | y ) )2 ) + E( ( E( w | y ) h(y) )2 )
es minimizado por h(y) = E( w | y ). El mejor predictor de w basado en la informacin contenida en y es la
expectativa condicional.
Defina u = w E( w | y ). Se tienen las siguientes propiedades:
E( u | y ) = 0 ya que E( u | y ) = E( w | y ) E( E( w | y ) | y ) = E( w | y ) E( w | y ) = 0.
E( u ) = 0, lo que se desprende por la LEI: E( u ) = E( E( u | y ) ) = E( 0 ) = 0. Es decir, el error de prediccin
u y el vector y son independientes en media condicional.
Se desprende adems que E( u h(y) | y ) = 0 y del mismo modo que E( u h(y) ) = 0 para cualquier funcin
h()).
Finalmente, u e y no estn correlacionados: C( u, y ) = E( u y ) E( u )E( y ) = 0.
Estos resultados tienen la siguiente interpretacin: u es el error de la mejor prediccin de w basada en y. Si u tuviera
alguna dependencia con y, por ejemplo estuviera correlacionado con y, entonces podra utilizarse esta dependencia
para mejorar la proyeccin basada en y. Dado el carcter de ptimo de E( w | y ), tal dependencia no debe existir.
2.11

Proyeccin lineal

La proyeccin lineal de una variable aleatoria w sobre el conjunto de otras variables aleatorias y Rm es
definida como una funcin lineal de y que minimiza el error cuadrtico medio de prediccin. Es decir, es el mejor
predictor lineal de w basado en la informacin contenida en y. Formalmente, la proyeccin lineal de w sobre y es
L( w | y ) = y0 , donde es el vector de Rm que soluciona
= argmin E( k w y0 c k2 ) .
cRm

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

12

NC 2 - Conceptos generales de estadstica multivariada

La forma explcita de es
= E( yy0 )1 E( y w )

y, consecuentemente,

L( w | y ) = y0 E( yy0 )1 E( y w ) .

Algunas propiedades:
Si E( w | y ) = y0 , entonces L( w | y ) = y0 .
Defina u = w y0 . Luego, E( y u ) = 0 . El desvo de w respecto a L( w | y ) no est correlacionado con y.
Ley de Proyecciones Iteradas: L( w | y ) = L( L( w | y, z ) | y ) .
Como aplicacin de esta propiedad, suponga que
L( w | y, z ) = y0 + z0 ,

L( w | y ) = y0

y adems

L( z | y ) = y0 .

Es sencillo verificar que


L( w | y ) = L( y0 + z0 | y ) = y0 + L( z | y )0 = y0 ( + ) .
Es decir, = + .

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

13

NC 2 - Conceptos generales de estadstica multivariada

Pgina en blanco

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

14

Universidad del Pacfico


Maestra en Economa 2013
Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Resultados sobre distribuciones especficas

A continuacin se revisan propiedades importantes de variables normalmente distribuidas y distribuidas como chicuadrado. Ambas son de primera importancia en el anlisis economtrico.
3.1

Variables normalmente distribuidas

Sea w Rn un vector cuyos elementos son normalmente distribuidos con media E( w ) = Rn y varianza
V( w ) = (una matriz definida positiva de dimensin n n). Ello se denota cotidianamente como w N(, )
ya que y caracterizan completamente la distribucin de w. La funcin de densidad conjunta de w es
(
)
1
1
1
0
f (w) =
exp (w ) (w ) .
(1)
2
( 2)n (det )1/2
Resultado 1: Combinaciones lineales

Las variables aleatorias obtenidas como combinaciones lineales de variables normalmente distribuidas, son
normalmente distribuidas. Es decir, si w N(, ) luego y = Aw N( A, A A0 ), donde A es una matriz
arbitraria de dimensin m n matrix (tal que y R p ).
Corolario 1: Distribuciones marginales

Si w N(, ), entonces wi N(i , ii ), donde wi es el i-simo elemento de w, i es el i-simo elemento de


y ii es el elemento (i, i) de . Ello implica que la distribucin marginal de todo elemento wi (i = 1, 2, . . . , n) es
tambin normal.
Esta proposicin se demuestra fcilmente al utilizar el Resultado 1 para un vector A de dimensin 1n que contiene
1 en la i-sima posicin y cero como cualquier otro elemento, tal que y = Aw = wi .
Ms an, bajo la misma lgica el Corolario se extiende a cualquier subconjunto de w. Considere por ejemplo
w = (w1 , w2 , w4 )0 R3 . Luego w N( A, A A0 ), donde

1 0 0 0 0 0

A = 0 1 0 0 0 0 .

0 0 0 1 0 0

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

15

NC 3 - Resultados sobre distribuciones especficas

Resultado 2: Distribucin condicional

Suponga que w N(, ) y considere la siguiente particin


#
#
"
#
"
"
1
11 12
w1
.
,
=
y
=
w=
2
21 22
w2

(2)

La distribucin de w1 condicional a w2 es tambin normal, w1 | w2 N(1|2 , 1|2 ) donde


1|2 = 1 + 12 1
22 (w2 2 )

1|2 = 11 12 1
22 21 .

Por definicin, la distribucin de w1 condicional a w2 (es decir, tomando w2 como dado) es igual a
Distribucin conjunta entre w1 y w2
f (w)
=
.
f (w1 | w2 ) =
Distribucin marginal de w2
f (w2 )
Siguiendo el Corolario 1, se tiene que si w N(, ), entonces w2 N(2 , 22 ). As,
(
)
1
(
)
(2)(n1 +n2 )/2 (det )1/2 exp (w )0 1 (w )
2
1
1
)
(
f (w1 | w2 ) =
exp B .
A
2
1
0
n
/2
1/2
(2) 2 (det 22 )
exp (w2 2 ) 22 (w2 2 )
2
La siguiente igualdad sencilla de verificar se utiliza para obtener f (w1 | w2 ):
"
# "
#
# "
I n1
0
1|2
0
In1 12 1
22

=
.
0
22
0
In2
1
22 21 In2

(3)

(4)

(5)

donde la matriz 1|2 es definida en (3). Tomando determinantes a (5) ver ecuacin (7) se consigue
det = det 1|2 det 22 .

(6)

y, por consiguiente, el escalar A en (4) es igual a


A = (2)(n1 +n2 )/2n2 /2 (det / det 22 )1/2 = (2)n1 /2 (det 1|2 )1/2 .
Por su parte, tomando inversas a (5) y resolviendo para la inversa de se tiene que
"
#"
#
#"
1
0
I
0
I 12 1
1|2
22
1 =
.
0
I
1
0
1
22 21 I
22

(7)

(8)

Luego de postmultiplicar la primera matriz de (8) por el vector (w )0 y de premultiplicar la ltima por w se
obtiene
1
0
(w )0 1 (w ) = (w1 1|2 )0 1
1|2 (w1 1|2 ) + (w2 2 ) 22 (w2 2 ) ,

(9)

donde el vector 1|2 es definido en (3). De este modo, el escalar B en (4) es igual a
1
0
B = (w )0 1 (w ) (w2 2 )0 1
22 (w2 2 ) = (w1 1|2 ) 1|2 (w1 1|2 ) .

(10)

Resultado 3: Independencia

Anteriormente se concluy que un conjunto de variables aleatorias independientes mostraran covarianza igual a
cero, pero el resultado converso no era necesariamente cierto. El caso de variables normalmente distribuidas es
particular: si dos variables normales tienen covarianza cero entonces son independientes.
Es sencillo verificar este resultado. Si 12 = 0 en la particin (2), entonces los momentos de la distribucin
condicional w1 | w2 en (3) se simplifican a 1|2 = 1 y 1|2 = 11 y, por consiguiente, la distribucin condicional
es idntica a la distribucin marginal, f (w1 | w2 ) = f (w1 ), ver (20).
Alternativamente, cuando 12 = 0 en la particin (2), la forma cuadrtica de la distribucin conjunta puede
escribirse como la suma de dos formas cuadrticas:
1
0
(w )0 1 (w ) = (w1 1 )0 1
11 (w1 1 ) + (w2 2 ) 22 (w2 2 ) .

Asimismo, det = det 11 det 22 . De esta forma, es posible escribir la distribucin conjunta de w como el
producto de la distribucin de w1 por la distribucin de w2 , f (w) = f (w1 ) f (w2 ).
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

16

NC 3 - Resultados sobre distribuciones especficas

Corolario 2

Bajo normalidad y la particin (2), las variables w1 1|2 y w2 son independientes.


Para aliviar la notacin, defina w i = wi i para i = 1, 2. As,
2 ) = 12 12 = 0 .
C( w1 1|2 , w2 ) = E( (w 1 12 1
2 )w 2 0 ) = E( w 1 w 2 0 ) 12 1
22 V( w
22 w

(11)

Como era de esperar, w1 1|2 puede entenderse como w1 libre de toda influencia de w2 .
3.2

Formas cuadrticas y distribucin chi-cuadrado

Considere un vector de n variables independientes y normalmante distribuidas, w N(, In ). Luego, la distribucin


de la suma de cuadrados
w0 w = w21 + w22 + . . . + w2n 2n ()

(12)

es chi-cuadrado no central con n grados de libertad y parmetro de no-centralidad = 21 0 .


Si w N(0, In ), la distribucin de w0 w 2n es chi-cuadrado (central) con n grados de libertad (el parmetro de nocentralidad es cero). En otras palabras, la distribucin chi-cuadrado proviene de la suma de cuadrados de variables
normales estndares independientes.
Momentos: Si w 2n (), entonces E( w ) = n + 2 y V( w ) = 2n + 8.
Resultado 1

Considere w N(, In ). Luego, Q = w0 Aw 2v () donde = 12 0 A si y slo si A es simtrica e idempotente de


rango v.
Como caso particular, si w N(0, In ) entonces la forma cuadrtica Q = w0 Aw 2v se distribuye como chicuadrado con v grados de libertad si y slo si A es simtrica e idempotente de rango v.1
Resultado 2

Suponga que w N(, In ) y considere p formas cuadrticas Qi = w0 Ai w donde A1 + A2 + . . . + A p = In . Luego,


Qi 2vi (i ) donde i = 21 0 Ai y vi = rk( Ai ). Ms an, Qi y Q j son independientes, para todo i , j.
Cuando = 0 el resultado se conoce como el teorema de Cochran-Fisher: Suponga que w N(0, In ) y considere
p formas cuadrticas Qi = w0 Ai w donde A1 + A2 + . . . + A p = In . Luego, Qi 2vi donde vi = rk( Ai ), independiente
de Q j (i , j).
Resultado 3

Suponga que w N(, ) donde es la matriz de covarianzas (usualmente no singular) de orden n. Si A


es una matriz idempotente, la forma cuadrtica Q = w0 Aw se distribuye como chi-cuadrado con parmetro de
no-centralidad = 12 0 A y v = rk(A) grados de libertad.

Dado que A es simtrica e idempotente, se puede descomponer como A = H H0 donde es una matriz diagonal con elementos ii = 1
para i v (el rango de A) y ii = 0 para i > v, y H es una matriz ortogonal H0 H = HH0 = In .
Defina y = H0 w tal que Q = w0 Aw = w0 H H0 w = y0 y. Note que y contiene variables normalmente distribuidas con media
E( y ) = H0 E( w ) = 0 y varianza V( y ) = H0 V( w )H = H0 H = In . Ms an,
Q = w0 Aw = y0 y =

n
X
i=1

ii y2i =

v
X

y2i ,

i=1

por lo que Q es la suma del cuadrado de v variables normales independientes. La distribucin de Q se desprende inmediatamente por la
definicin de la distribucin chi-cuadrado.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

17

NC 3 - Resultados sobre distribuciones especficas

Para el caso central, = 0, si w N(0, ) la forma cuadrtica Q = w0 Aw 2v donde v es el rango de A, si y slo


si A es idempotente.
Una aplicacin de este resultado es que si w N(0, ) donde es no singular, entonces la forma cuadrtica
Q = w0 1 w se distribuye como 2n .2
Resultado 4

Suponga que w N(, ). Luego, Q1 = w0 Aw y Q2 = w0 Bw son independentes si y slo si A B = 0.


Corolario (Distribucin F)

Si Q1 2v1 y Q2 2v2 son dos variables independientes, entonces el ratio (Q1 /v1 )/(Q2 /v2 ) es una variable aleatoria
que se distribuye como F(v1 , v2 ).
De los Resultados 1 y 4 se deduce que si w N(0, In ), entonces
w0 Aw rk(B)

F( rk(A), rk(B) )
w0 Bw rk(A)

(13)

si A y B son idempotentes y si, adems, AB = 0.

Como es definida positiva, puede escribirse como = L0 L lo que implica que 1 = (L1 )(L1 )0 .
Defina y = (L1 )0 w tal que Q = w0 1 w = w0 (L1 )(L1 )0 w = y0 y. Note que y contiene variables normalmente distribuidas con media
E( y ) = (L1 )0 E( w ) = 0 y varianza V( y ) = (L1 )0 V( w )(L1 ) = (L1 )0 L0 L(L1 ) = In . La distribucin de Q se desprende inmediatamente
de la definicin de la distribucin chi-cuadrado.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

18

Universidad del Pacfico


Maestra en Economa 2013
Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Teora asinttica (con nfasis en muestras aleatorias)

Obtener resultados analticos en muestras finitas sobre las propiedades de estadsticos y estimadores de inters
puede ser sumamente engorroso o requerir de supuestos muy restrictivos. La teora asinttica provee un marco de
anlisis en donde se estudian estas propiedades a medida que el tamao muestral va creciendo indefinidamente,
n . Este lmite elimina la aleatoriedad observada en la muestra (digamos, la variabilidad muestral) y provee
aproximaciones del comportamiento de los estadsticos en muestras grandes.
4.1

Convergencia en probabilidad

Una secuencia de variables aleatorias w1 , w2 , . . . (o ms compactamente {wn }


n=1 ) converge en probabilidad a w si,
para cualquier  > 0,
Pr {kwn wk > } 0

conforme

n .

(1)

El lmite w se denomina lmite probablstico o lmite en probabilidad y usualmente se denota como


plim wn = w
4.2

o, alternativamente,

wn w .

(2)

Consistencia

Sea qn un estimador del vector de parmetros obtenido a partir de una muestra de tamao n. Luego, {qn }
n=1
es la secuencia de estimadores de conseguidos a medida que el tamao muestral aumenta. El estimador qn es
consistente si
plim qn =

o, alternativamente,

qn .

(3)

En otras palabras, un estimador es consistente si converge (en probabilidad) al valor del parmetro que pretende
estimar conforme n tiende a infinito. La consistencia es quiz uno de los requerimientos mnimos (en muchas
ocasiones es el requerimiento) para que un estimador sea considerado aceptable.
4.3

Convergencia en distribucin

Sean F1 (), F2 (), . . . las funciones de distribucin acumuladas (fda) asociadas con una secuencia de variables
aleatorias {wn }
n=1 . Esto es, F n (w) = Pr(wn w).
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

19

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Suponga que la variable aleatoria w tiene una fda F(). Luego, wn converge en distribucin a w si
Fn (w) F(w)

conforme

n .

(4)

para todos los valores de w. La fda F() usualmente se denomina distribucin lmite o distribucin asinttica y la
convergencia en distribucin se denota como
d

wn w .
4.4

(5)

Equivalencia asinttica
p

Considere dos secuencias de vectores aleatorios wn y w n . Si wn w y wn w n 0, entonces w n w.


Cuando wn y w n presentan la misma distribucin asinttica se dice que son asintticamente equivalentes.
Notar que la equivalencia asinttica es muy utilizada para simplificar el anlisis bsicamente para determinar
el comportamiento de un estimador complejo a travs de las caractersticas de un estimador ms sencillo pero
asintticamente equivalente.
Resultados tiles en econometra

El anlisis asinttico de los estimadores ms utilizados en econometra consiste escencialmente en tres pasos.
Primero, los estimadores son escritos como funciones (continuas) de momentos muestrales, es decir de promedios
muestrales. Segundo, una batera de teoremas que conforman la teora asinttica (leyes de grandes nmeros y
teoremas de lmite central) muestran cmo estos promedios convergeran en probabilidad a momentos poblacionales
y proveen informacin sobre su distribucin asinttica. Tercero, el teorema del mapeo continuo o el teorema de
Cramr entran en accin. A continuacin se presentan resultados vinculados con los dos ltimos puntos arriba
mencionados.
4.5

Teorema de Slustky

Un atractivo de los lmites probablsticos es que, a pesar de lidiar con variables aleatorias, tienen el mismo
tratamiento que lmites ordinarios (aquellos aplicados a secuencias determinsticas) para funciones continuas. ste
es el teorema de Slutsky:
p

Sea g(.) una funcin continua de w. Si wn w, entonces


p

g(wn ) g(w)

o, alternativamente,

plim g(wn ) = g(plim wn ) .

(6)

Note que el operador de expectativas no presenta esta propiedad: en general, E( g(wn ) ) , g(E( wn )).
4.6

Teorema del mapeo continuo

Este teorema es una suerte de generalizacin del teorema de Slutsky.


p

Sea g(w, a) una funcin continua en sus dos argumentos, w y a. Si wn w y an a, entonces


d

g(wn , an ) g(w, a) .

(7)
d

Obviamente, si g(.) depende slo de wn , entonces g(wn ) g(w).


4.7

Teorema de Cramr
d

Este teorema es un corolario popular del teorema del mapeo continuo. Si qn N(, ) y An A, luego
d

An qn N( A, A A0 ) .
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

(8)
20

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Note que An qn = Aqn +(An A)qn . El segundo trmino converge, por el teorema del mapeo continuo, a cero por una
variable aleatoria normalmente distribuida, o en concreto converge a cero. As, se tiene que An qn es asintticamente
equivalente a Aqn que converge a una distribucin normal (note que A no es aleatoria).
4.8

Teorema de Khinchine (Ley dbil de los grandes nmeros)

Este teorema sostiene en trminos simples que, en una muestra aleatoria, promedios muestrales tienden a
expectativas conforme n crece. En otras palabras, momentos muestrales convergen hacia momentos poblacionales.
Suponga que se tiene una muestra wi para i = 1, 2, . . . , n donde todas las variables aleatorias wi son idntica e
independientemente distribuidas, iid. Adems, considere que E( wi ) = para todo i. Luego,
n

w n =

4.9

p
1X
wi .
n i=1

(9)

Teorema de Chebyshev

En la ley dbil de los grandes nmeros, el supuesto de que todas las wi son iid puede relajarse tras imponer
ciertas restricciones en los momentos de estas variables. Suponga que wi es tal que E( wi ) = i , V( wi ) = i
y C( wi , w j ) = 0 para todo i , j. Sea n el promedio de los n vectores i . Si
n
1 X
i 0
n2 i=1

(10)

entonces,
n

w n n =

p
1X
( wi i ) 0 .
n i=1

(11)

Es decir, el promedio muestral converge en probabilidad al lmite del promedio de las medias problacionales:
p

w n lim n .
n

4.10

(12)

Teorema del Lmite Central (Linderberg - Lvy)

Recuerde que si wi N(, ) para i = 1, 2, . . . , n, entonces la distribucin muestral del promedio w n (en una
muestra aleatoria) es

n(w n ) N(0, ) .
(13)
w n N(, /n)
o, alternativamente,
El teorema del lmite central generaliza (asintticamente) este resultado.
Suponga que wi (i = 1, 2, . . . , n) son iid con E( wi ) = y V( wi ) = , ambas cantidades finitas. Luego,

d
n(w n ) N(0, ) .

(14)

Frecuentemente este resultado se escribe tal que la funcin lmite sea normal estndar. Sea B la raz cuadrada de
, = BB0 (ver seccin 1.6, p. 3), entonces
1
d
nB (w n ) N(0, I) .

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

(15)

21

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

4.11

Teorema del Lmite Central (Linderberg - Feller)

Suponga que wi (i = 1, 2, . . . , n) son independientes con E( wi ) = i y V( wi ) = i finitas para todo i. Sea n el


promedio de los n vectores i y defina el lmite
n

1X
.
i
n i=1

(16)

Luego,

d
).
n(w n n ) N(0,
4.12

(17)

Ilustracin: ley de grandes nmeros y teorema del lmite central

Con el propsito de ilustrar el funcionamiento de la ley de grandes nmeros y del teorema del lmite central,
considere el siguiente ejercicio de simulacin. Para u N(0, 1) se generan variables aleatorias de la forma
w= p

ua E( ua )
E( u2a ) E( ua )2

donde a es un nmero entero. Note que w es una variable estandarizada, de modo que para cualquier valor de a,
E( w ) = 0 y V( w ) = 1. Conforme a se incrementa, la distribucin de w se vuelve cada vez ms asimtrica, con una
cola larga hacia la derecha. El caso de a = 1 corresponde a w N(0, 1) y por tanto a puede interpretarse como una
medida de desvo de la normalidad. Asimismo, se disponen de resultados analticos para a = 1, w N(0, 1/n) y

nw N(0, 1). Las medias y varianzas muestrales sern las mismas para a , 1, pero la distribuciones variarn.

Este procedimiento se
Para un valor de a se generan n nmeros aleatorios w y se calcula su promedio w y nw.
repite un gran nmero de veces (un milln) y se reporta la distribucin muestral de estos estadsticos (dado el gran
nmero de repeticiones en la simulacin, esta distribucin ser casi idntica a la distribucin muestral analtica).
El panel (a) del Grfico 1 muestra cmo opera la ley de grandes nmeros. Conforme n se incrementa, la distribucin
muestral de w va concentrado cada vez ms masa probabilstica alrededor de E( w ) = 0. Ello refleja que muestrar
cada vez ms observaciones de w (provenientes de la misma distribucin) provee informacin creciente para
caracterizar tal variable aleatoria. En particular, dado que V( w ) = 1/n, cuando n se incrementa la dispersin
de distintas realizaciones de w alrededor de E( w ) = 0 se amortigua. En el lmite, conforme n , V( w ) ir
convergiendo a cero, por lo que plim w deja de ser aleatorio. Grficamente, la distribucin muestral de w colapsa
a una masa de probabilidad igual a 1 ubicada en E( w ) = E( w ), tal y cmo predice la ley dbil de los grandes
nmeros.

El panel (b) muestra la distribucin muestral de nw para a = 4 (la distribucin de w es bastante asimtrica) y para
distintos valores de n. Note que a diferencia de lo ocurrido con la distribucin de w,
estas distribuciones muestrales

no colapsan conforme n . La razn es simple. La multiplicacin de w por n estabiliza la varianza del

estimador y evita que sta converja a cero, V( nw ) = nV( w ) = 1. Tras estabilizar la varianza y mantener la media,

que en todo caso es cero, nw = n(w E( w )), se aprecia que mayores valores de n van redituando distribuciones
cada vez ms cercanas a la normal estndar. En particular, se observa cmo a medida que n se incrementa la
asimetra en las distribuciones muestrales va reducindose y sus modas van aproximndose a E( w ) = 0. ste es el
principal postulado del teorema del lmite central.
Los paneles (c) y (d) permiten reflexionar sobre el alcance de este teorema. En ambos paneles los casos donde a = 1
corresponden a la distribucin normal estndar predicha por el teorema del lmite central. En el panel (c) se aprecia
que para tamaos muestrales reducidos (n = 25 en este caso), no hay garanta que las aproximaciones asintticas
sean satisfactorias. Esto es particularmente cierto cuando la distribucin de w es lejana a la normal (a = 4 y a = 6),
caractersticas que se transmiten a las distribuciones muestrales de los estadsticos de inters. Por su parte, el panel
(d) muestra cmo un mayor tamao muestral (en este caso se pasa de n = 25 a n = 100) aminora los efectos de la
no-normalidad y da respaldo emprico al teorema del lmite central. En resumen, cuando el tamao de la muestra
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

22

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Grfico 1. Ilustracin de la ley de grandes nmeros y del teorema del lmite central

(a) Distribucin muestral de w para a = 4


(b) Distribucin muestral de nw para a = 4
3.0

n = 25
n = 50
n = 100
n = 200

0.6

n = 25
n = 50
n = 100
n = 200

2.0
0.3
1.0

0.6

0.4

0.2

(c) Distribucin muestral de

0.2

0.4

0.6

nw para n = 25
a=6
a=4
a=2
a=1

1.2

0.6

0.6

0.3

0.3

nw para n = 100
a=6
a=4
a=2
a=1

1.2

0.9

(d) Distribucin muestral de

0.9

Nota: Los paneles muestran los histogramas de w y nw basados en un milln de repeticiones. En el caso del panel (a) el eje vertical
muestra frecuencias relativas porcentuales, mientras que el eje vertical del resto de paneles son funciones de densidad.

es lo suficientemente grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal (por
ejemplo, no son muy asimtricas), la aproximacines asintticas proveen un marco de inferencia adecuado. Cun
grande n depende de las caractersticas poblacionales de w, y es por tanto una pregunta abierta. Por ejemplo, para
a 2, n = 25 parece ser razonable, mientras que n = 100 provee aproximaciones aceptables para a 4.
4.13

El mtodo delta

Suponga que plim qn = y que

d
n(qn ) N(0, ) .

(18)

El mtodo delta provee una herramienta sencilla para derivar la distribucin asinttica de una funcin continua del
vector qn , g(qn ). Utilizando el teorema del valor medio (seccin 1.12, p. 5), g(qn ) puede expresarse como
g(qn ) g() = J ( n )(qn ) ,

(19)

donde J () es el Jacobiano (la matriz que contiene derivadas parciales) de g(). Note que si g : Rk R p , entonces
J () es de dimensin p k.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

23

NC 4 - Teora asinttica (con nfasis en muestras aleatorias)

Por el postulado del teorema del valor medio, cada elemento del vector n se encuentra en el segmento que une a
los elementos correspondientes de los vectores qn y . Un caso muy particular es que n es una combinacin lineal
convexa de qn y : n = qn + (1 ) para [0, 1]. Dado que plim qn = , se deduce que plim n = . Luego,
considerando que J () es una funcin continua, el teorema de Slutsky implica que plim J ( n ) = J (). Aplicando
este hallazgo en (19), junto con el teorema de Cramr y la distribucin en (18), se obtiene

d
n( g(qn ) g() ) N(0, J () J ()0 ) .
4.14

(20)

Distribucin asinttica de formas cuadrticas

Los teoremas de lmite central dan un lugar primordial a la distribucin normal en el anlisis asinttico. As como
en muestras finitas, a partir de formas cuadrticas de variables normalmente distribuidas en el lmite, es posible
encontrar estadsticos cuya distribucin converja a una chi-cuadrado. Estos procedimientos son muy utilizados en
el contexto de pruebas de hiptesis.
Suponga que

d
n(qn ) N(0, ) .

(21)
p

Considere una matriz confortable tal que An A, donde v = rk( A). El teorema de Cramr establece que

d
nAn (qn ) N(0, A A0 ) .

(22)

Utilizando el Resultado 3 de la p. 17, se obtiene


i0
i d
h
h
Q1 = nAn (qn ) (A A0 )1 nAn (qn ) 2v .

(23)

Dado que An A, el teorema de Slustky establece que una forma cuadrtica asintticamente equivalente a Q1 es
h
i0
i d
h
Q2 = nAn (qn ) (An An 0 )1 nAn (qn ) 2v .
(24)
p

ya que An An 0 A A0 0. Ms an, usualmente es una matriz desconocida y precisa ser reemplazada por
p
un estimator. Si n es un estimador consistente de , se concluye que
d

Q3 = n (qn )0 An 0 ( An n An 0 )1 An (qn ) 2v .

(25)

es asintticamente equivalente a Q2 (y, por tanto, a Q1 ) en virtud nuevamente del teorema de Slustky.
4.15

Juego de palabras sobre la varianza asinttica

Suponga que

d
n(qn ) N(0, ) .
La matriz es la varianza asinttica de qn y se denota AV( qn ) = /n. La divisin entre n puede causar confusin
ya que es obvio que /n 0 a medida que n . Es por ello que el uso de igualdades como AV( qn ) = /n

debe entenderse como que es la varianza de la distribucin lmite (que es usualmente normal) de n(qn ) o,

en su defecto, el lmite de V( n(qn ) ).


a
Usualmente, de manera poco rigurosa, se suele denotar la normalidad asinttica de qn como qn
N(, /n).
Ello da nfasis al hecho de que la distribucin muestral de qn (la mayora de veces desconocida), es aproximada
mediante una distribucin normal.
p

Rutinariamente se precisa un estimador consistente de , digamos
. En este caso lo usual es decir que
/n es un estimador consistente de AV( qn ), que deber entenderse como una forma corta de decir que
es

consistente para el lmite de V( n(qn ) ).

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

24

Universidad del Pacfico


Maestra en Economa 2013
Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Mnimos cuadrados: lgebra y primeras propiedades

El modelo de regresin lineal establece una relacin lineal entre la variable aleatoria y llamada variable
dependiente y un conjunto de variables independientes, variables explicativas o regresores recogidas en el vector
x de dimensin k 1. Para una muestra aleatoria de tamao n que contiene observaciones independientes indizadas
por i = 1, 2, . . . , n se postula que
yi = xi 0 + i

(1)

donde i es una variable aleatoria de media cero, E( i ) = 0 para todo i, denominada error de regresin o
perturbacin. El vector contiene k parmetros desconocidos y el objetivo es estimarlo.
El modelo (1) tiene la siguiente representacin matricial:
y = X + ,

(2)

donde y es un vector de dimensin n 1 cuyo i-simo elemento es yi , es un vector de dimensin n 1 cuyo i-simo
elemento es i y X es una matriz de dimensin n k cuya i-sima fila es xi 0 .
Supuestos clsicos

Adems del supuesto de muestra aleatoria, considere los siguientes supuestos:


S1: i es independiente en media condicional de xi para todo i, E( i | xi ) = 0.
S2: i es homocedstico dado xi para todo i, V( i | xi ) = E( 2i | xi ) = 2 .
S3: i | xi N(0, 2i ) para todo i.

Veremos cul es el rol de cada supuesto en el anlisis en muestras finitas de estimadores de en (1). El supuesto
ms importante es S1 e implica que la media condicional de yi dado xi es una funcin lineal:
E( yi | xi ) = xi 0

bajo el supuesto S1 .

(3)

En otras palabras, S1 establece que en la poblacin la relacin entre yi y xi es lineal y i se interpreta como el
desvo de yi respecto a su media condicional, i = yi E( yi | xi ). Es decir, es un supuesto sobre la forma funcional
de (1). Note que (3) establece adems que E( yi | xi ) = L( yi | xi ) por lo que es el coeficiente de proyeccin
lineal de yi sobre xi en la poblacin: = E( xx0 )1 E( x y ). Ms an, en una muestra se observa yi y xi y a partir de
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

25

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

esa informacin se desea inferir sobre el vector de parmetros y la variable aleatoria i , ambos no observables.
El supuesto S1 permite separar la contribucin de estos dos componentes sobre la variable observable yi y es, por
tanto, un supuesto de identificacin.
1

Mnimos cuadrados

El principio de estimacin ms popular en el contexto del modelo lineal es el de mnimos cuadrados. El estimador
de Mnimos Cuadrados Ordinarios (MCO) se obtiene tras minimizar la suma de perturbaciones (vistas como una
funcin de ) al cuadrado
n

1
1
1X
1X
Q() = ()0 () =
i ()2 =
(yi xi 0 )2 = (y X)0 (y X) .
2
2 i=1
2 i=1
2

(4)

El vector gradiente de Q() es1


n

n
n
X
X
X

Q()

xi yi +
S() =
=
xi (yi xi 0 ) =
xi xi 0 = X0 y + (X0 X) .

i=1
i=1
i=1

(5)

El estimador MCO es el vector b de dimension k 1 que satisface las k condiciones de primer orden S(b) = 0.
Estas condiciones de optimalidad son las denominadas ecuaciones normales y equivalen a X0 Xb = X0 y.
El Hessiano de Q() es igual a
n

Q() X
=
xi xi 0 = X0 X .
0
i=1

(6)

Un supuesto usual que no hemos detallado, pero que es importante para la existencia de b, es que la matriz X0 X
sea no singular. Si X0 X es definida positiva, las condiciones de segundo orden establecen que Q() es estrictamente
convexa y por tanto que el estimador MCO es un mnimo global y es nico. Cuando X0 X es semidefinida positiva
(es singular), entonces existen mltiples mnimos locales y en general las ecuaciones normales son satisfechas por
un nmero indeterminado de vectores b. Una condicin suficiente para la no singularidad de X0 X (y por tanto para
la unicidad del estimador MCO) es que el rango de X sea igual a k, lo que se traduce en que las columnas de X
sean linealmente independientes: cada regresor debe contener informacin nica.
Luego, con una matrix X de rango k, las ecuaciones normales se resuelven para
n
1 n
X
X
b =
xi xi 0
xi yi = (X0 X)1 X0 y .
i=1

1.1

(7)

i=1

Linealidad

Dado X, MCO es un estimador lineal. Ello significa que b es un vector aleatorio que puede ser expresado como una
combinacin lineal de los elementos de y, b = W y:
b=

n
X
i=1

w i yi

donde

1
n

X
0

xi xi xi = (X0 X)1 xi .
wi =

(8)

i=1

Un estimador es no lineal cuando no puede ser expresado como en (8). En otras palabras, cuando las ponderaciones
wi dependen de y. La linealidad es un atributo conveniente de b ya que sus propiedades estadsticas en muestras
finitas (dado X) pueden ser deducidas directamente a travs de las caractersticas de y o de .
1

Recuerde que (A)/ = A0 y que (0 A)/ = (A + A0 ).

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

26

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

1.2

Mtodo de momentos

El estimador MCO es tambin un estimador del mtodo de momentos. Como se mencion, la relacin lineal en (1)
puede entenderse como una proyeccin lineal de y sobre x y, por consiguiente, en la poblacin = E( xx0 )1 E( x y ).
Tras reemplazar las expectativas E( xx0 ) y E( x y ) por sus contrapartes muestrales X0 X/n y X0 y/n se obtiene (7).
Alternativamente, al surgir de la proyeccin lineal de y sobre x se cumple por construccin que E( xi i ) = 0.
stas son las condiciones de momentos que definen al estimador de . La contraparte muestral de estas condiciones
es X0 e/n = 0, donde e = y Xb, lo que deriva en las ecuaciones normales.
1.3

Valores predichos y residuos

El vector y puede descomponerse en dos partes: un vector de valores predichos (y, el anlogo muestral de X) y un
vector de residuos (e, el anlogo muestral de ).
El vector de valores predichos de y es y = Xb, donde b es el estimador MCO de . Tras reemplazar el estimador b
por (7) se obtiene y = X(X0 X)1 X0 y. Se aprecia que cada elemento de y es una combinacin lineal de los elementos
de y. La matriz
P = X(X0 X)1 X0

(9)

es una matriz de proyeccin y, como su nombre sugiere, la operacin y = Py proyecta el vector y sobre el espacio
vectorial formado por las columnas de X. Por construccin, la matriz P es simtrica (P = P0 ), idempotente
(PP = P) y de rango igual a k (rk(P) = tr(P) = tr(X(X0 X)1 X0 ) = tr((X0 X)1 X0 X) = tr(Ik ) = k). Adems,
se cumple que PX = X.
Por su parte, el vector de residuos de la regresin es e = y y = y Xb. Tras reemplazar b por (7) se obtiene
que e = (In X(X0 X)1 X0 )y = My donde M = In P es la matriz de proyeccin al espacio ortogonal al espacio
formado por las columnas de X. Por definicin, sta es simtrica (M = M0 ), idempotente (M M = M) y de rango
igual a n k (rk(M) = tr(M) = tr(In P) = n tr(P) = n k). Adems, se cumple que MX = 0.
Note que debido a que e = My, se tiene que X0 e = X0 My = 0: los residuos son ortogonales a X. Ello se da por
construccin a travs de las condiciones de primer orden del problema de minimizacin que da lugar a MCO (las
ecuaciones normales, S(b) = 0). Una implicancia es que si algunas de las columnas de X es un vector de dimensin
n 1 lleno de unos 1, es decir si el modelo incluye una constante como regresor (una prctica muy usual), entonces
P
la suma y por tanto el promedio muestral de los residuos es exactamente igual a cero: 10 e = ni=1 ei = 0 donde ei es
el i-simo elemento de e (ver ejercicio E2, p. 32).
Asimismo, dado que PM = M P = 0 (ya que estas matrices proyectan espacios ortogonales), entonces el vector de
valores predichos es ortogonal al vector de residuos: e0 y = y0 M Py = 0. Este resultado permite entender cmo opera
el estimador MCO: escencialmente el estimador utiliza toda la informacin disponible en X al dividir el universo
en el espacio formado por las columnas de X, donde cae lo que la regresin predice o explica Py, y su espacio
ortogonal, donde reside el componente no explicado de la regresin My.
1.4

Regresiones particionadas

Considere el modelo de regresin lineal en forma matricial y = X + donde la matriz de regresores X es


particionada en dos bloques X = (X1 : X2 ) que contienen k1 y k2 = k k1 columnas. El vector de parmetros
se particiona de manera anloga, = (1 0 , 2 0 )0 . En otras palabras, se expresa (2) como
y = X1 1 + X2 2 + .

(10)

El inters se centra en derivar un mtodo para la estimacin MCO de 1 sin necesidad de calcular el estimador MCO
de todo el vector . El postulado principal de esta seccin, conocido como el teorema de Frisch-Waugh-Lovell, es
de utilidad cuando se cuenta con dos conjuntos de variables, un grupo de variables relevantes (X1 ) y un grupo de
variables menos importantes (X2 ). Las variables menos importantes son conocidas como variables de control y
su rol es asistir la estimacin de 1 ya que usualmente los parmetros en 2 no son de inters per se.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

27

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Recuerde las ecuaciones normales (X0 X)b = X0 y. Tras particionar este sistema se obtiene
(X1 0 X1 )b1 + (X1 0 X2 )b2 = X1 0 y ,

(11a)

(X2 0 X1 )b1 + (X2 0 X2 )b2 = X2 0 y .

(11b)

De (11b) se deduce que


b2 = (X2 0 X2 )1 X2 0 (y X1 b1 ) .

(12)

Denote P2 = X2 (X2 0 X2 )1 X2 0 a la matriz de proyeccin (simtrica e idempotente) sobre el espacio formado por las
columnas de X2 (P2 X2 = X2 ) y llame M2 = In P2 a la matriz de proyeccin ortogonal a X2 (M2 X2 = 0). Tras
reemplazar (12) en (11a) se tiene que
(X1 0 X1 )b1 + X1 0 P2 (y X1 b1 ) = X1 0 y

que reordenando implica

(X1 0 M2 X1 )b1 = X1 0 M2 y .

(13)

De esta forma,
b1 = (X1 0 M2 X1 )1 X1 0 M2 y .

(14)

Note que e2 = M2 y es el vector de residuos de una regresin de y sobre X2 . Del mismo modo, cada columna de la
matriz E1|2 = M2 X1 (de dimensin n k1 ) es el vector de residuos de la regresin de la columna correspondiente de
X1 sobre el conjunto de regresores X2 . Dado que M2 es simtrica e idempotente, X1 0 M2 X1 = (M2 X1 )0 (M2 X1 ) =
E1|2 0 E1|2 y X1 0 M2 y = (M2 X1 )0 (M2 y) = E1|2 0 e2 tal que b1 es el resultado de estimar por MCO una regresin de e2
sobre E1|2 : b1 = (E1|2 0 E1|2 )1 E1|2 0 e2 .
Este hallazgo sugiere que la estimacin MCO de un modelo de regresin lineal puede efectuarse en dos etapas.
Primero, se estiman regresiones auxiliares sobre las variables X2 y, segundo, utilizando los residuos generados se
consiguen los coeficientes de las variables X1 . Mediante el procedimiento de preservar los residuos e2 y E1|2 se
obtienen las variables y y X1 tras haber descontado el efecto comn que puedan tener con las variables X2 o, en
jerga economtrica, las variables y y X1 controlando por X2 (es decir, netas de X2 ).
Una aplicacin directa se da cuando X2 = 1, un vector lleno de unos, por lo que el modelo original incluye
una constante. En este caso M2 = In 110 /n por lo que e2 = y y 1, donde y es el promedio muestral de las
observaciones en el vector y. En palabras, corregir el efecto de un intercepto en la regresin equivale a ingresar
los datos como desvos de sus promedios muestrales. Otra aplicacin usual se da cuando se incluye como X2 un
conjunto de variables ficticias (dummies) estacionales o que denotan la pertenencia a un grupo (ver ejercicio E3, p.
32): el teorema sugiere primero desestacionalizar o remover las medias grupales de y y X1 a travs de regresiones
de las variables en cuestin sobre el conjunto de dummies, y utilizar los datos desestacionalizados o como desvos
de los promedios grupales para obtener los coeficientes de inters.
2

Propiedades en muestras finitas

Recuerde que b es un vector aleatorio. A continuacin se describen sus propiedades estadsticas y se estudia cmo
se ven afectadas por diversos supuestos sobre la relacin entre xi y i .
2.1

Sesgo

Tras reemplazar (2) en (7) se obtiene b como una combinacion lineal del vector no observable ,
b = + (X0 X)1 X0 .

(15)

Tomando expectativas condicionales a X se encuentra que


E( b | X ) = + (X0 X)1 X0 E( | X ) .

(16)

Dada la muestra aleatoria, E( i | X ) = E( i | x1 , . . . , xn ) = E( i | xi ) para todo i. Por tanto, el supuesto S1 implica


E( | X ) = 0 y permite concluir que E( b | X ) = : MCO es condicionalmente insesgado. Ms an, aplicando la
LEI, E( b ) = E( E( b | X ) ) = E( ) = , se concluye que el insesgamiento se cumple incondicionalmente.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

28

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

2.2

Varianza

De (15), b E( b | X ) = (X0 X)1 X0 . Luego, de (15) se desprende que


V( b | X ) = E( ( b E( b | X ) )( b E( b | X ) )0 | X ) = (X0 X)1 X0 X(X0 X)1 ,

(17)

donde = E( 0 | X ). Al tratarse de una muestra aleatoria los elementos de son


(i, i) E( 2i | X ) = E( 2i | xi ) = 2i ,
(i, j) E( i j | X ) = E( i | X )E( j | X ) = E( i | xi )E( j | x j ) = 0 ,
es decir, es una matriz diagonal. De este modo, la varianza (condicional) del estimador MCO es
n
1 n
n
1
X
X 2
X

0
1 0
0
1
0
0
0
V( b | X ) = (X X) X X(X X) =
xi xi
i xi xi
xi xi .

(18)

El supuesto S2 (es decir, = 2 In ) simplifica considerablemente la expresin de V( b | X ): 2


n
1
X

2
0
1
2
0
V( b | X ) = (X X) =
xi xi .

(19)

i=1

i=1

i=1

i=1

2.3

Residuos

Utilizando la definicin del modelo lineal (2) se tiene que


e = My = M(X + ) = M ,

(20)

de modo que cada elemento del vector e es una combinacin lineal de todos los elementos de . En el anlisis de
regresin, los residuos juegan un rol primordial ya que permiten inferir ciertas propiedades de las perturbaciones
poblacionales, al ser ei un predictor de i (se reserva el trmino estimador para variables aleatorias que infieren
sobre un parmetro y predictor para variables aleatorias que infieren sobre otras variables aleatorias). Sin embargo,
las propiedades de e son distintas a las de . Ello se debe en parte a que en el modelo lineal no est identificado
por la prdida de grados de libertad, en el contexto de la relacin e = M donde M es no singular.
En particular, si bien bajo S1
E( e | X ) = ME( | X ) = 0 ,

y por la LEI

E( e ) = 0 ,

(21)

(una consecuencia del insesgamiento de b y que implica E( y | X ) = y) la matriz de covarianzas de e es


V( e | X ) = MV( | X )M0 = M M0 ,

(22)

que, a diferencia de con observaciones independientes, no es diagonal: mientras que i y j no presentan


correlacin, ei y e j estn correlacionados. Note que ei = yi xi 0 b = i xi 0 (b ) por lo que
E( ei e j | X ) = E( i j + xi 0 (b )(b )0 x j j xi 0 (b ) i x j 0 (b ) | X )
= E( xi 0 (b )(b )0 x j | X ) = xi 0 V( b | X )x j , 0 . (23)
La expresin (22) se simplifica bajo el supuesto S2: V( e | X ) = 2 M, donde se puede apreciar con mayor
claridad la existencia de correlacin entre residuos: M no es diagonal. Ms an, a pesar de suponer que i es
condicionalmente homocedstico, ei es siempre heterocedstico: V( ei | X ) = 2 mii , donde mii es el i-simo
elemento de la diagonal de M y depende de xi .
2

La varianza de b depende de X y en ese sentido la inferencia es condicional. La varianza no condicional de b es, bajo S2, igual a
V( b ) = 2 E( (X0 X)1 ), por lo que en general se precisan supuestos sobre la naturaleza aleatoria de X para llegar a conclusiones ms
definitivas. El ejercicio E11 muestra, sin embargo, que podran establecerse ordenamientos categricos de varianzas no condicionales a
partir de V( b | X ), bajo circunstancias bastante generales.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

29

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

2.4

Varianza del error

En general, no es posible hallar un estimador insesgado de la matriz de covarianzas (18), aunque s es posible
encontrar estimadores consistentes (ver NC 6). Sin embargo, bajo el supuesto S2 la matriz de covarianzas
(condicional) de b se reduce a (19) que depende de un nico parmetro, 2 , que puede ser estimado sin sesgo.
De hecho,
s2 =

e0 e
nk

(24)

es un estimador insesgado de 2 . Recuerde que e = M de modo que e0 e = 0 M. As,


E( s2 | X ) =

E( e0 e | X ) E( 0 M | X ) tr(M E( 0 | X )) tr(M )
=
=
=
.
nk
nk
nk
nk

(25)

Bajo S2, = 2 In y
E( s2 | X ) = 2

tr(M)
nk
= 2
= 2
nk
nk

(26)

y por la LEI E( s2 ) = E( E( s2 | X ) ) = E( 2 ) = 2 .3
Un estimador alternativo es
2 = e0 e/n que es sesgado (aunque el sesgo no es importante si n es grande): utilizando
los mismos pasos arriba descritos es sencillo verificar que E(
2 | X ) = E(
2 ) = 2 (nk)/n < 2 . La diferencia se
debe a que s2 incluye una correccin por la prdida de grados de libertad (el rango de M es n k). En el ejercicio
E10 (p. 34) se consideran otros estimadores (en general, sesgados).
3

Inferencia en el modelo normal homocedstico

Los supuestos S2 y S3 (note que S3 reemplaza a S1) son la base para un marco de inferencia exacta en el modelo
de regresin lineal. Ellos permiten obtener resultados relevantes para el contraste de hiptesis lineales sobre los
elementos del vector en muestras finitas.
3.1

Normalidad

Dado X, tanto b como e pueden expresarse como combinaciones lineales de , ver las ecuaciones (15) y (20).
El supuesto de normalidad S3 implica | X N(0, ), lo que lleva a concluir que b | X N(, V( b | X )) y del
mismo modo, e | X N(0, V( e | X )).
Ms an bajo S2 y condicional en X,
#!
#
" # " 2 0 1
"
# "
(X X)
0
0
(X0 X)1 X0
b
,
N
=
0
2 M
0
M
e

(27)

por lo que b y e son independientes (con cero covarianza).


3.2

Varianza del error

En la seccin 2.4 se determin que e0 e = 0 M. Bajo S2 y S3, / | X N(0, In ) y por consiguiente,


(/)0 M(/) = e0 e/2 2nk . Se concluye que
(n k)s2
2nk .
(28)
2

Es bueno notar que a diferencia de (27), la distribucin en (28) depende nicamente del nmero de grados de
libertad n k y no depende de X. Ello implica que el resultado en (28) se cumple tanto condicional en X como
incondicionalmente.
3

Este resultado implica directamente que s2 (X0 X)1 es un estimador insesgado de la varianza 2 (X0 X)1 definida en (19). Ms an,
utilizando la LEI se tiene que E( s2 (X0 X)1 ) = E( E( s2 | X )(X0 X)1 ) = 2 E( (X0 X)1 ), por lo que tambin es un predictor (tomando
en cuenta la aleatoriedad en X) incondicionalmente insesgado. Ver nota al pie 2.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

30

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

3.3

Restricciones lineales

El inters es contrastar hiptesis lineales del tipo H0 : R = r donde R es una matriz no aleatoria de dimensin qk
y r es un vector de constantes de dimensin q 1. Se asume que las q < k filas de R son linealmente independientes,
de otra forma se incluiran restricciones lineales redundantes. Ello implica que q = rk(R).4
Recuerde que = (1 , 2 , . . . , k )0 . Algunos ejemplos de las matrices R y r bajo diversas restricciones lineales son:
H0 : 1 = 0, entonces q = 1, R = (1, 0, . . . , 0) y r = 0;
H0 : 1 + 22 = 3, entonces q = 1, R = (1, 2, 0, . . . , 0) y r = 3;
P
H0 : ki=1 i = 0, entonces q = 1, R = (1, 1, . . . , 1) y r = 0;
H0 : 1 + 2 = 1 y adems 1 3 = 0, entonces q = 2,
"
#
" #
1 1
0 0
1
R=
y
r=
;
1 0 1 0
0
H0 : 1 + 2 = 3, 3 24 = 5 y 1 5

0
0 0
1 1 0

0 0
R = 0 0 1 2

1 0 0
0 1 0

= 0, entonces q = 3,


0
3


0
y
r = 5 ;


0
0

H0 : = 0, entonces q = k, R = Ik y r = 0.
Bajo normalidad S3, b | X N(, V( b | X )) por lo que Rb r | X N(R r, R0 V( b | X )R). Si se impone la
hiptesis nula Rb r | X N(0, RV( b | X )R0 ) y por ende
(Rb r)0 (RV( b | X )R0 )1 (Rb r) | X 2q .

(29)

Bajo S2, (29) se simplifica a


(Rb r)0 (R(X0 X)1 R0 )1 (Rb r)/2 | X 2q .

(30)

Los estadsticos del tipo (29) (30) se conocen como criterios de Wald. Intuitivamente, casi siempre ocurrir
que Rb r , 0 pero la pregunta relevante desde el punto de vista estadstico es si esta discrepancia de cero
puede atribuirse a un simple error de muestreo o si es significativa. Note que cuanto ms grande es Rb r, es
decir en ocasiones donde el estimador MCO b incumple las restricciones notoriamente, el estadstico chi-cuadrado
(una forma cuadrtica) toma un valor ms alto. As, un valor elevado de los estadsticos en (29) (30) constituye
evidencia en contra de la hiptesis H0 : R = r.
Si bien la prueba de Wald (30) ofrece una alternativa de contraste H0 , no es del todo til en la prctica ya que depende
del parmetro 2 que es desconocido y precisa ser reemplazado por un estimador factible. El estadstico (30)
depende de b y de X y de (27) se desprende que es independiente de e y funciones derivadas de este vector, como
s2 . En otras palabras (30) y (28) son dos variables aleatorias distribuidas como chi-cuadrado que son independientes.
Ello forma la base para construir un estadstico F. As, bajo la hiptesis nula5
=

(Rb r)0 (R(X0 X)1 R0 )1 (Rb r) n k

F(q, n k) .
e0 e
q

(31)

El procedimiento de prueba de hiptesis es mecnico. Dadas las restricciones R = r, se calcula y ese valor se
compara con las tabulaciones de la funcin de distribucin F con q y n k grados de libertad. Si > F , el valor
4
5

Cuando q = k, R es una matriz cuadrada. Si fuera no singular, los coeficientes satisfaran = R1 r y no habra problema de estimacin.
Note que bajo H0 , Rb r = R(b ) = R(X0 X)1 X0 A. Luego, el numerador de (31) es igual a (/)0 A0 B1 A(/)/q donde
B = R(X0 X)1 R0 y es igual a una variable 2q dividida por q. Asimismo, el denominador es igual a (/)0 M(/)/(n k) que es igual a una
variable 2nk dividida por n k, ver (28). Ya que M A = 0, la distribucin F en (31) se obtiene al combinar el Resultado 4 y el Colorario
de la p. 18.

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

31

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

crtico al nivel de significacin del 100(1 )% o el 100-simo percentil de F(q, n k), entonces se rechaza H0 .
Por el contrario, si < F entonces no se cuenta con suficiente evidencia como para rechazar H0 (se acepta H0 ).
Note que al igual que (28), la distribucin del estadstico bajo H0 depende nicamente del nmero de grados de
libertad nk y del nmero de restricciones q. No depende de X. El marco de hiptesis es vlido incondicionalmente.
Pruebas t

Cuando se contrasta una sola restriccin (q = 1) se puede utilizar la distribucin de Student para inferencia. Ello se
debe a que si tv ( se distribuye como una t de Student con v grados de libertad), entonces 2 F(1, v). As, si
R = c0 es un vector de dimension 1 k, (31) implica que
= p

c0 b r
s2 c0 (X0 X)1 c

tnk

(32)

puede emplearse para contrastar la hiptesis c0 = r. El denominador de (32) es igual a un estimador de la


desviacin estndar de c0 b. La aplicacin ms conocida de la prueba t es el contraste de significacin de coeficientes
individuales, H0 : h = 0, en cuyo caso c es un vector con 1 en la h-sima posicin y 0 de otro modo, y r = 0.
Ejercicios
E1

Proyecciones lineales

Sean y y x dos variables aleatorias con varianzas finitas y positivas. Si se quiere predecir y a partir de una funcin
lineal de la forma + x, muestre que la eleccin de y que minimiza ECM( y, + x ) es = C( x, y )/V( x ) y
= E( y ) E( x ). Encuentre, adems, el error cuadrtico medio de este predictor lineal.
Considere ahora el predictor de y que se obtiene a partir de la combinacin lineal de un vector aleatorio x. En
particular, muestre que el vector que minimiza ECM( y, x0 ) es = E( xx0 )1 E( x y ).
E2

Intercepto en la regresin

Considere el modelo de regresin y = X + , donde X es tal que existe un vector a de dimensin k 1 que satisface
1 = Xa, donde 1 es un vector de dimensin n 1 lleno de unos. Defina el vector x 0 = 10 X/n, cuyo j-simo elemento
es el promedio muestral de los elementos de la j-sima columna de X.
Utilizando las ecuaciones normales del problema de estimacin MCO, muestre que y = x 0 b, donde b es el
estimador MCO de .
Muestre que los residuos de esta regresin tienen una media muestral igual a cero.
Este resultado significa que la lnea de regresin (mejor dicho, el plano de regresin) contiene a los promedios de
los datos. Cuando a es igual a un vector unitario, un vector lleno de ceros excepto por el j-simo elemento que es
igual a 1, entonces el modelo de regresin incluye una constante como regresor (es un modelo con intercepto).
E3

Variable ficticia o dummy

Considere el modelo de regresin lineal


E( yi | xi ) = 1 + xi 2

para i = 1, 2, . . . , n .

donde xi = 1 si el individuo i pertenece al grupo 1 y xi = 0 si el individuo individuo i pertenece al grupo 2. Muestre


que el estimador MCO de 2 puede expresarse como b2 = y 1 y 2 , donde y j es el promedio de las observaciones del
grupo j ( j = 1, 2). Muestre adems que el estimador MCO de 1 es b1 = y 2 Podra interpretar estos resultados a la
luz del mtodo de momentos?

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

32

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

E4

Alterando los regresores

Considere el modelo de regresin lineal en forma matricial y = X + , donde es un vector de k parmetros.


Suponga que los regresores son sometidos a una transformacin lineal Z = X A donde A es una matriz no singular
de dimensin k k: cada columna de Z es una combinacin lineal de las columnas de X.
Muestre que el vector de residuos de la regresin de y sobre X es el mismo que el vector de residuos de la
regresin de y sobre Z. Explique a qu se debe este resultado.
Compare los estimados MCO de las dos regresiones anteriores.
Utilizando los resultados previos muestre que si en un modelo de regresin lineal una variable explicativa es
multiplicada por una constante , el coeficiente estimado MCO correspondiente es multiplicado por 1/.
Suponga que el modelo contiene una constante (la primera de columna de X es un vector de unos). Muestre,
utilizando los resultados previos, que si una constante es sumada a una variable explicativa, el coeficiente
estimado MCO correspondiente no se altera Algn otro coeficiente estimado vara con esta transformacin?
Suponga que todas las variables del modelo estn en logaritmos Cul es el efecto sobre el vector de
coeficientes estimados de cambiar la unidad de medida de las variables originales (por ejemplo, de kilmetros
a millas o de kilos a libras)?
E5

Suma de residuos al cuadrado

Suponga que b es el estimador MCO de una regresin de y sobre X y considere un vector arbitrario b de dimensin
k 1. Defina S (b ) = (y Xb )0 (y Xb ) (y Xb)0 (y Xb). Muestre que S (b ) = (b b)0 X0 X(b b) y que
S (b ) > 0 si b , b Cmo se puede interpretar este resultado?
E6

Modelo de regresin simple I

Considere el modelo de regresin simple


yi = + xi + i

i = 1, 2, . . . , n .

para

Esta ecuacin equivale a (1) con xi = (1, xi )0 y = (, )0 . Por simplicidad, asuma que xi es determinstico.
Utilizando los resultados matriciales derivados en estas notas por ejemplo (7) muestre que los estimadores
MCO de y son, respectivamente
Pn
Pn
)
(xi x)yi
i=1 (xi x )(yi y
b=
= Pi=1
y
a = y xb ,
Pn
n
2
2
i=1 (xi x )
i=1 (xi x )
P
P
donde y = ni=1 yi /n y x = ni=1 xi /n son los promedios muestrales de yi e xi . Compare estos resultados con
el caso escalar del ejercicio E1 a la luz del mtodo de momentos.
Encuentre V( b ), V( a ) y C( a, b ) bajo el supuesto de homocedasticidad S2.
E7

Modelo de regresin simple II

Considere el modelo de regresin


yi = xi + i

para

i = 1, 2, . . . , n ,

donde los valores de xi son determinsticos, E( i ) = 0 y V( i ) = 2 para todo i.


Obtenga b, el estimador MCO de , diga si es insesgado y encuentre su varianza.
Considere el estimador alternativo
Pn
(xi x)(yi y )

.
b = i=1
Pn
2
i=1 (xi x )
Como se vio anteriormente, ste sera el estimador MCO de si el modelo original incluyera una constante.
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

33

NC 5 - Mnimos cuadrados: lgebra y primeras propiedades

Considere el estimador alternativo


Pn
yi

b = Pni=1 .
i=1 xi
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?
E8

Modelo de regresin simple III

Considere el modelo de regresin simple del ejercicio E6,


yi = + xi + i

i = 1, 2, . . . , n ,

para

y considere el estimador
Pn
xi yi

b = Pi=1
.
n
2
i=1 xi
Muestre que b es sesgado, E( b ) , , siempre que , 0.
Calcule la varianza de b y muestre que es menor a la varianza de b, el estimador MCO analizado en el
ejercicio E6.
Sea a el estimador MCO de . Muestre que ECM( b , ) es menor que ECM( b, ) si y slo si 2 < V( a ).
Encuentre el estadstico F que contrasta H0 : = 0. Concluya que ECM( b , ) < ECM( b, ) si y slo si
F < 1.
E9

Prediccin

Suponga que y = X + d + donde X es n k y d es un vector que contiene una variable dummy igual a 1 en la
ltima observacin [d]n = 1 y 0 de otro modo, [d]i = 0 para i < n. Utilizando el teorema de Frisch-Waugh-Lovell
muestre que los estimadores MCO de b y de son
1 X 0 y
b = ( X 0 X)

= yn xn 0 b ,

donde X es la matriz de dimensin (n 1) k que se obtiene al eliminar la ltima fila de X (xn ) y anlogamente y
es el vector de Rn1 que se obtiene al eliminar el ltimo elemento de y (yn ).
Ello significa que es el error de prediccin de la regresin de y sobre X en la n-sima observacin, que ha sido
excluida de la regresin a travs de la inclusin de la variable ficticia d.
E10

Estimador de varianza

Considere una regresin lineal bajo los supuestos S2 y S3. Considere, adems estimadores de 2 de la forma
s2m =

e0 e
,
m

donde e es el vector de residuos de la regresin y m es una constante por determinar. Claramente, m = n k redita
el estimador insesgado (24). Encuentre el valor de m que minimiza ECM( s2m , 2 ).
Ayuda: Recuerde que e0 e/2 2nk . Ms an, no olvide que si w 2q , entonces E( w ) = q y V( w ) = 2q.
E11

Ordenamientos de varianzas

Sean b1 y b2 dos estimadores de . Suponga que V( b1 | X )  V( b2 | X ), para X aleatorio Bajo qu condiciones


V( b1 )  V( b2 )? Qu podemos concluir respecto al ordenamiento de V( b1 ) y V( b2 ) si b1 y b2 son ambos
estimadores insesgados?
Ayuda: Utilice la LEI para varianzas.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

34

Universidad del Pacfico


Maestra en Economa 2013
Curso de Preparacin en Econometra
Profesor Diego Winkelried

Notas de clase

Mnimos cuadrados: Anlisis asinttico

Anteriormente analizamos las propiedades en muestras finitas del estimador MCO de en el modelo lineal
yi = xi 0 + i

para i = 1, 2, . . . , n

y = X + ,

o matricialmente

(1)

con ayuda de los supuestos clsicos:


S1: i es independiente en media condicional de xi para todo i, E( i | xi ) = 0.
S2: i es condicionalmente homocedstico para todo i, V( i | xi ) = 2 .
S3: i es normalmente distribuido, dado xi : i | xi N(0, 2i ) para todo i.

A continuacin se estudian las propiedades asintticas (conforme n ) del estimador MCO. El anlisis en
muestras grandes permite relajar o debilitar algunos supuestos y, por tanto, provee resultados que se aplican en
contextos ms generales. En particular, los supuestos clsicos sern reemplazados por:
S1*: i y xi no estn correlacionados para todo i, E( xi i ) = 0.
S2*: i es homocedstico, E( 2i ) = 2 , y C( 2i , xi xi 0 ) = 0 para todo i.

Cuando i es independiente en media condicional de xi significa que i no est correlacionado con ninguna funcin
de xi . Es decir, S1 implica S1* pero lo contrario no ocurre necesariamente. Igualmente, note que por construccin
S2* implica
E( 2i xi xi 0 ) = C( 2i , xi xi 0 ) + E( 2i )E( xi xi 0 ) = E( 2i )E( xi xi 0 ) = 2 E( xi xi 0 ) ,
lo que constituye un requerimiento menos exigente que S2. Finalmente, no se requieren supuestos distributivos
de i . Basta con trabajar con una muestra aleatoria para que los teoremas de lmite central otorguen normalidad
asinttica, lo que es el punto de partida de un marco de inferencia en muestras grandes.
Note que X0 X/n y X0 /n son promedios muestrales con observaciones tpicas xi xi 0 y xi i , respectivamente. De
este modo, se puede aplicar una ley de grandes nmeros para analizar sus lmites probabilsticos. Cuando xi y i
son iid, por el teorema de Khinchine
n

p
X0 X 1 X
=
xi xi 0 E( xi xi 0 ) Q
n
n i=1

p
X0 1 X
=
xi i E( xi i ) ,
n
n i=1

(2)

y se asumir que Q es una matriz no singular. Casi siempre, Q y el lmite probabilstico de X0 /n pueden
ser redefinidos con las condiciones ms dbiles del teorema de Chebyshev. Dado que tanto xi como i son
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

35

NC 6 - Mnimos cuadrados: Anlisis asinttico

independientemente distribuidas en este caso, xi xi 0 y xi i son tambin variables aleatorias independientes de xt xt 0


y de xt t para i , t. As, bajo la ptica del teorema de Chebyshev
n

p
1X
X0 X 1 X
=
xi xi 0 lim
E( xi xi 0 ) Q
n n
n
n i=1
i=1

p
X0 1 X
1X
=
xi i lim
E( xi i ) .
n n
n
n i=1
i=1

(3)

Por brevedad, asumiremos que xi y i son iid y por tanto favoreceremos el uso de la ley de grandes nmeros de
Khinchine. No obstante, anotaremos las circunstancias en donde los resultados ms generales (3) aplican sin alterar
las principales conclusiones cualitativas del anlisis asinttico.
1

Propiedades asintticas

El estimador MCO es consistente si se trabaja con el supuesto S1* y es asintticamente normal bajo condiciones
bastante generales.
1.1

Consistencia

De la ecuacin (15) de las NC 5 (p. 28) se tiene que


X0 X
b=
n

!1

n
1 n

1 X
p
X0 1 X
0

=
xi xi
xi i Q1 E( xi i )
n
n i=1
n i=1

(4)

donde se han utilizado los lmites probabilsticos en (2) y el teorema de Slustky. De este modo, bajo S1*,
p

b + Q1 0 =

(5)

y por tanto MCO es consistente. El uso de la ley dbil de los grandes nmeros podra reemplazarse por el teorema
de Chebyshev sin comprometer la consistencia de MCO. En ambos casos, X0 /n converge a 0 de acuerdo con S1*.
1.2

Normalidad asinttica

Bajo S1*, E( xi i ) = 0. De esta forma, el teorema del lmite central de Linderberg - Lvy permite concluir que1
n

n
d
1 X
X0
1 X
xi i = n
( xi i E( xi i ) ) N(0, E( 2i xi xi 0 )) .
(6)
=
n i=1
n
n i=1
Luego, utilizando el teorema de Cramr se llega a

X0 X
n(b ) =
n

!1

X0 d
N(0, Q1 E( 2i xi xi 0 )Q1 ) .
n

(7)

Vale la pena notar que n(b) es una funcin de dos matrices aleatorias: Qn = X0 X/n y qn = X0 / n. Conforme
n se incrementa, el primer trmino Qn se aproxima a su lmite a una velocidad n, mientras que el segundo qn lo hace

a una tasa n. Es decir, dado que la velocidad de convergencia de qn es menor que la de Qn , llegar un momento
(digamos, un tamao muestral n0 tal que para todo n > n0 ) en donde qn se sigue aproximando a su lmite (una
variable aleatoria normalmente distribuida), mientras que Qn ya habr alcanzado su lmite probabilstico Q. Por
ello, la aleatoriedad de Qn qn en muestras grandes la otorga qn , mientras que Qn slo afecta la varianza, de un modo
casi determinstico. Otra manera de analizar el problema es reescribir (7) como
1
1
1
Q1
n qn = Q qn + (Qn Q )qn
1

(8)

Se concluye lo mismo al utilizar el teorema del lmite central de Linderberg - Feller con la salvedad de que la varianza asinttica E( 2i xi xi 0 )
debe ser reemplazada por el lmite de la expectativa promedio de 2i xi xi 0 .

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

36

NC 6 - Mnimos cuadrados: Anlisis asinttico

1
donde se ha agregado y restado la expresin Q1 qn . El segundo trmino es importante. Note que Q1
0
n Q
mientras que, siguiendo a (6), qn converge en distribucin a un vector normalmente distribuido. Por el teorema
del mapeo continuo se tiene, luego, que este segundo trmino converge en probabilidad a cero. Es decir, Q1
n qn es
asintticamente equivalente a Q1 qn . La distribucin asinttica de este ltimo trmino (conocido como la funcin
de influencia del estimador) es, precisamente, (7).

Finalmente, la varianza asinttica de b se simplifica bajo el supuesto S2*:

d
n(b ) N(0, 2 Q1 ) .
2

(9)

Inferencia en muestras grandes

Una ventaja evidente del enfoque asinttico sobre el anlisis en muestras finitas es que el mismo marco terico
ofrece un procedimiento para el contraste de restricciones no lineales bajo condiciones ms generales que en
muestras finitas. Ello es consecuencia de una simple aplicacin del mtodo delta. Las frmulas (10) a (14) lneas
abajo se aplican no slo a MCO sino que son vlidas para una gran variedad de estimadores economtricos
(asegrese de entenderlas a plenitud).
Defina la funcin vectorial g : Rk Rq tal que g() es un vector de dimensin q 1 y la matriz Jacobiana
J () = [ g()/] tiene rango q. Partiendo de

d
n(b ) N(0, V) ,

(10)

donde V es la varianza asinttica en (7) o en (9), se tiene que

d
n(g(b) g()) N(0, J ()VJ ()0 ) .

(11)

Suponga que se desea contrastar H0 : g() = 0. As, bajo la hiptesis nula


d

n g(b)0 (J ()VJ ()0 )1 g(b) 2q .

(12)
p

Dado que b es consistente bajo S1*, el teorema de Slutsky conlleva a J (b) J (). Luego, para un estimador
consistente de V, que denotamos como V n , el estadstico factible
d

w = n g(b)0 (J (b)V n J (b)0 )1 g(b) 2q

(13)

es asintticamente equivalente a (12). Este criterio de Wald es vlido asintticamente para el contraste H0 : g() = 0
y no requiere de supuestos distributivos. La regla de decisin respecto a la evidencia en torno a H0 es mecnica.
Si w > 2q (), el 100-simo percentil de 2q , entonces se rechaza H0 . De otro modo, no se cuenta con suficiente
evidencia como para rechazar H0 (en corto, se acepta H0 ).
Un caso particular se da cuando las restricciones son lineales, g() = R r, J () = R y (13) se reduce a
d

w = n (Rb r)0 (RV n R0 )1 (Rb r) 2q .

(14)

Conviene comparar esta expresin con la ecuacin (29) de las NC 5 (p. 31):
w = (Rb r)0 (RV( b | X )R0 )1 (Rb r) | X 2q .
Ambos estadsticos presentan claras similitudes. Mientras que (14) contiene a V n /n como estimador de la varianza
asinttica de b, el estadstico w utiliza la varianza muestral V( b | X ). Es bueno enfatizar, sin embargo, que mientras
que la elaboracin de w requiere condiciones dbiles, w es vlido slo bajo el supuesto distributivo S3.
En la misma lnea, el estadstico F presentado en la ecuacin (31) de las NC 5 (p. 31), , incorpora correcciones por
grados de libertad y reemplaza la varianza muestral por un estimador. Bajo los supuestos de las NC 5, F(q, nk).
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

37

NC 6 - Mnimos cuadrados: Anlisis asinttico

No obstante, se deduce que nicamente bajo el supuesto de homocedasticidad S2 (o, mejor an, S2*), el estadstico
q (es decir, despus de remover un ajuste por grados de libertad) es asintticamente equivalente a w en (14) y
por tanto converge en distribucin a una variable chi-cuadrado con q grados de libertad. Ms an, el estadstico
utiliza s2 , el estimador insesgado de 2 . Ello puede cambiarse por cualquiera de los estimadores barajados en las
NC 5 (e0 e/n presentado en la p. 30 o el estimador deducido en el ejercicio E10, p. 34) sin alterar en absoluto la
distribucin asinttica de q (ver seccin 2.1 lneas abajo).
Por su parte, cuando se contrasta slo una restriccin, R0 = c Rk , el estadstico t converge a una variable aleatoria
z distribuida como normal estndar (recuerde que si a N(0, 2 ) entonces a = z donde z N(0, 1)):
s
0
nc (b ) d
c0 Vc
c0 b r
c0 (b )
=
z = z,
(15)

=
=
plim c0 V n c
c0 V n c/n
c0 V n c/n
c0 V n c
por el teorema de Cramr aplicado a (10) y el teorema de Slutsky. Luego, si || > z , el 100-simo percentil de
una normal estndar, entonces se rechaza H0 : c0 = r. De otro modo, se acepta H0 .
En resumen, se ha conseguido un marco de constraste de hiptesis general sin la necesidad de imponer supuestos
distributivos muy estrictos a las variables involucradas en la muestra aleatoria. Un requisito fundamental es contar
con el estimador consistente V n , un punto que se aborda enseguida.
2.1

Varianza con homocedasticidad

Como se vio en las NC 5, bajo S2, la varianza condicional de MCO es V( n(b ) | X ) = 2 (X0 X/n)1 y un
estimador insesgado (bajo S1 y S2) es V n = s2 (X0 X/n)1 . Para que este estimador sea consistente de la varianza
asinttica en (9), se necesita (por el teorema de Slutsky) que s2 sea consistente bajo S2*. Note que

!0
!1 0 !
e0 e
X0 X0 X
X 0
n
0 M
n 0
2
s =
=

+ a.
(16)

nk nk
n
nk n
n
n
n
n
p

Dado que n/(n k) 1 y que X0 /n 0, es sencillo verificar que a 0. Por tanto, el lmite probabilstico de s2
es igual al lmite probabilstico de 0 /n que, a su vez, es igual a la varianza no condicional de i (por la ley dbil
de grandes nmeros):
0 p
E( 2i ) = V( i ) = 2
n

si S2* se cumple.

(17)

Se concluye que s2 2 con las condiciones arriba discutidas. En general, cualquier estimador de la forma e0 e/m
donde m/n 1 conforme n ser consistente (ver ejercicio E18, p. 40).
2.2

Varianza robusta

En el caso ms general (sin imponer S2*), la varianza asinttica de b es V = Q1 E( 2i xi x0i )Q1 . Dado que ya se
cuenta con un estimador consistente de Q, se precisa un estimador consistente de = E( 2i xi xi 0 ) para implementar
V n . Sea ei el i-simo residuo de la regresin. Luego, el estimador de momentos de
n

1X 2
=
e xi xi 0 ,
n i=1 i

(18)

es consistente y, usando el teorema de Slustky,


p
V n = (X0 X/n)1 (X0 X/n)1 V .

(19)

Recuerde que ei = i xi 0 (b ). As,


n

1X 2
1X 2
2X 2
1X
=
ei xi xi 0 =
i xi xi 0
i xi xi 0 [xi 0 (b )] +
xi xi 0 [xi 0 (b )]2 = T 1 + T 2 + T 3 . (20)
n i=1
n i=1
n i=1
n i=1
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

38

NC 6 - Mnimos cuadrados: Anlisis asinttico

P
El segundo trmino es tal que kT 2 k kb k[ 2 kxi k3 2i /n ] mientras que el tercer tmino satisface kT 3 k
P
kb k kxi k4 /n (demostrar estas desigualdades va ms all del alcance de esta clase). En ambos casos se tiene
que las normas son menores que kb k multiplicado por la norma de promedios que convergen en probabilidad a
cantidades finitas, por la ley dbil de los grandes nmeros. Dado que b es consistente, se tiene que plim kb k = 0
y, en virtud del teorema de Slustky, se puede concluir que tanto T 2 como T 3 convergen en probabilidad a 0.
p
p
Asimismo, es sencillo notar que T 1 E( 2i xi xi 0 ), dictado por el teorema de Khinchine. De este modo, .
Ms an, (20) establece la equivalencia asinttica entre el promedio de los trminos e2i xi xi 0 y los trminos 2i xi xi 0 ,
por lo que su consistencia ocurre bajo condiciones ms generales como las del teorema de Chebyshev:
n

1X
1X 2
plim lim
E( 2i xi xi 0 ) = plim plim
i xi xi 0 = 0.
n n
n
i=1
i=1
Note la versatilidad que ofrece este estimador. La inferencia correcta del estimador MCO con un estimador de
varianza como (19) es posible valindose slo de un supuesto: el de identificacin S1*. No se requiere especificar
la forma de heterocedasticidad V( i ) o V( i | xi ), un atributo muy valioso en situaciones donde no se sabe con
certeza la naturaleza de la heterocedasticidad (probablemente, la mayora de veces). Adems, los residuos ei pueden
ser reemplazados por residuos basados en cualquier estimador de que sea consistente (ver ejercicio E19, p. 40).
Finalmente, el estimador es vlido tambin bajo homocedasticidad (supuesto S2*).
El estimador V n se conoce como estimador robusto (de la varianza), estimador corregido por heterocedasticidad
o estimador consistente de White. Es bueno hacer una aclaracin sobre la naturaleza de este estimador. Para ello,
compare la expresin de la varianza de b deducida en la ecuacin (18) de las NC 5 (p. 29) con nV n :
V( b | X ) = (X0 X)1 X0 X(X0 X)1

nV n = (X0 X)1 X0 HX(X0 X)1 ,

donde = diag(21 , 22 , . . . , 2n ) y H = diag(e21 , e22 , . . . , e2n ). A primera vista podra pensarse que e2i es un estimador
consistente de 2i . Esto es, sin embargo, una conclusin apresurada e incorrecta. Sin imponer restricciones o
estructura a los elementos de , no es posible obtener estimadores consistentes de 2i . La razn es que conforme
n , se incrementa tambin el nmero de parmetros por estimar y por tanto a pesar de disponer de muestras
cada vez ms grandes, no se dispone de ms informacin para la estimacin de estos parmetros. Las n varianzas 2i
son lo que se denominan parmetros incidentales. El estimador de White explota (creativamente) el hecho de que
el estadstico relevante para la determinacin de la varianza de b es X0 X/n que es de dimensin k k (contiene
tan slo k(k + 1)/2 parmetros) y es estimado consistentemente por X0 HX/n. En resumen, (19) se cumple a pesar
de que H no es necesariamente un buen estimador de .
Ejercicios
E12

Convergencia en media cuadrtica

Un estimador qn converge en media cuadrtica a , si E( qn ) y V( qn ) 0. Si qn converge en media


cuadrtica a , entonces plim qn = .
Considere el modelo de regresin lineal yi = xi + i , donde xi es determinstico. Utilizando el resultado sobre
convergencia en media cuadrtica, muestre si el estimador MCO de es consistente, cuando:

xi = i y V( i ) = 2 i.
xi = i y V( i ) = 2 .
P
P
Ayuda: Recuerde que ni=1 i = n(n + 1)/2 y ni=1 i2 = n(n + 1)(2n + 1)/6.
E13

Convergencia en distribucin y convergencia en probabilidad

d
n(b ) N(0, V) Ello implica b ?

Ayuda: b = ( n)1 n(b ).

Suponga que

c 2012, Diego Winkelried


Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

39

NC 6 - Mnimos cuadrados: Anlisis asinttico

E14

Estimadores alternativos

Suponga que en el modelo de regresin lineal


yi = xi + i

i = 1, 2, . . . , n ,

para

donde xi > 0 es una variable aleatoria escalar, se cumplen los supuestos S1 y S2. Considere los estimadores:
Pn
Pn
n
yi
1 X yi
i=1 xi yi

.
b = Pn 2 ,
y
b =
b = Pni=1
n i=1 xi
i=1 xi
i=1 xi
Muestre que estos estimadores son consistentes, encuentre sus distribuciones asintticas y establezca cul de ellos
es asintticamente ms eficiente.
E15

Motivacin para perturbaciones heterocedsticas

Considere un modelo de regresin de la forma yi = xi 0 i + ui , donde E( ui | xi ) = 0 y V( ui | xi ) = 2u . A diferencia


de la regresin estndar, el coeficiente de regresin depende de i. Suponga que i = + vi , donde vi iid(0, )
es independiente de xi . Muestre que este modelo de parmetros aleatorios puede expresarse como una regresin
estndar yi = xi 0 + i con perturbaciones no correlacionadas, C( i , j ) = 0 para i , j, y condicionalmente
heterocedsticas, V( i | xi ) = 2i .
E16

Mtodo delta

Suponga que se tiene la siguiente regresin y = 0 + 1 x + 2 x2 + . El valor ptimo de x es x = 1 /(22 ).


Explique cmo calculara un estimador del error estndar de x y cmo contrastara H0 : x = 1.
E17

Sobre el estimador s2

En la seccin 2.1 se concluy que


s2 =

0
+ a.
n
p

Encuentre a y compruebe que a 0 y, ms an,


E18

na 0.

Estimador consistente de 2
p

En la seccin 2.1 se concluy que s2 E( 2i ). Muestre la siguiente generalizacin de este resultado:


n

s2 =

p
1X
2 E( 2 )
(yi xi 0 b)
i
m i=1
p

donde b es cualquier estimador consistente, b (no necesariamente MCO bajo S1*), y m/n 1.
E19

Estimador consistente de

Considere el modelo lineal yi = xi 0 + i . Estudie la siguiente generalizacin del resultado en (20):


n

p
1X
2 zi zi 0 E( 2 zi zi 0 ) ,
(yi xi 0 b)
i
n i=1
p

donde b es cualquier estimador consistente, b , y zi es cualquier vector (no necesariamente xi ).


Esboce una prueba como la de la seccin 2.2 (p. 38). Si gusta, asuma que zi es un escalar, y que existe alguna
constante C tal que | E( zi ) | < C, k E( zi xi ) k < C y k E( zi xi xi 0 ) k < C para todo > 0.
c 2012, Diego Winkelried
Derechos reservados
Prohibida su reproduccin y distribucin fuera de la Universidad del Pacfico

40

Você também pode gostar