Você está na página 1de 89

Captulo 5

Violacin de los Supuestos del Modelo de Regresin Lineal

Estudiamos problemas derivados de la violacin de los seis supuestos del modelo de


regresin lineal.

estudiamos el efecto de la violacin sobre los estimadores mnimos cuadrados y


los diferentes tipos de tests.
propondremos alguna solucin vlida si es posible.

cmo sabemos que se ha violado un supuesto?

No es simple porque hay muchas consecuencias de violar un supuesto

Adems, se pueden violar varios supuestos simultneamente.

Aunque no hay reglas al respecto, algunos fenmenos que delatan la violacin son:

Los errores que no son ruido blanco.


Los parmetros estimados no son congruentes con los pre/juicios que se tenan
antes de hacer el experimento

signos opuestos a los esperados

baja significancia

poco robustos

Existen problemas asociados a la regresin (autocorrelacin, heterocedasticidad, etc.)

Baja capacidad predictiva del modelo estimado

Sesgo sistemtico en la prediccin.

5.01 Problemas de Especificacin I: Regresores Inadecuados

Frecuentemente hay varias alternativas de variables que puede incluir o excluir del
modelo.

Primero, la teora debiera sugerir una especificacin completa. Y las hiptesis que
se va a estudiar.
Pero a veces las teoras no son muy finas y hay espacio para probar distintas
especificaciones.

Hay dos tipos de variables (pertinentes e irrelevantes) y dos situaciones (incluidas y


excluidas). Dos combinaciones son obvias; pertinente incluida e irrelevante excluida.

Las otras dos son ms interesantes de estudiar.

Omisin de variable pertinente

Problema comn es la omisin de variables que pueden ser potencialmente importantes

mala especificacin analtica

limitaciones de los datos

Sea el modelo y=x es particionado en dos grupos de variables:


y=x 1 1x 2 2

Supongamos ahora que la estimacin excluye x 2 . Entonces:


1
1= x 1 ' x 1 x 1 ' y
1
=x 1 ' x 1 x 1 ' [x 1 1x 2 2]
1
1
=1 x 1 ' x 1 x 1 ' x 2 2 x 1 ' x 1 x 1 '

Entonces
E [ 1 ]=E [1 x 1 ' x 1 x 1 ' x 2 2 x 1 ' x 1 x 1 ' ]
1
=1 E [ x 1 ' x 1 x 1 ' x 2 2 ]
1

As,
E [ 1 ]= 1 si x 1 ' x 2 =0
1 si x 1 ' x 2 0

La omisin de variables pertinentes no correlacionadas con aquellas que quedan en el


modelo no sesga el estimador de los coeficientes.
La omisin de variables pertinentes correlacionadas con aquellas que quedan en el
modelo sesga los estimadores.
El sesgo es de direccin y tamao desconocidos, porque no conocemos 2 .

Hay un segundo efecto:

La varianza del verdadero estimador, incluyendo x 2 , es


2
1
1
V [ 1 ]= [ x 1 ' x 1 x 1 ' x 2 x 2 ' x 2 x 2 ' x 1 ]

La varianza del estimador en el modelo que excluye x 2 es


2
1
V [ 1 ]= x 1 ' x 1

Por lo tanto, en el segundo caso el estimador de

es sesgado pero de menor varianza

Usualmente es necesario usar el estimador de 2 , 2 = ' /nk1 , donde son


los residuos del modelo estimado excluyendo x 2 (no los del modelo completo, ).
Pero
=M 1 y
=M 1 x 1 1x 2 2
=M 1 x 2 2 M 1

Por lo tanto, en los residuos muestrales estn los verdaderos residuos ms el efecto de
la correlacin de x 1 y x 2 ponderado por 2 .

Cmo afecta esto al estimador de la varianza de los residuos?

Tomando la ltima ecuacin, multiplicando por su traspuesta, y tomando el valor


esperado se obtiene la siguiente expresin:

E [ ' ]= 2 ' x 2 ' M 1 x 2 2E [ ' M 1 ]

Entonces
2

E [ ' ]= 2 ' x 2 ' M 1 x 2 2 tr M 1


2
= 2 ' x 2 ' M 1 x 2 2 nk1

El primer trmino del lado derecho es no-negativo, ya que es una forma cuadrtica.
El segundo trmino es el estimador de la varianza de los residuos para el modelo que
excluye x 2 .

Por ello, la varianza estimada de los residuos obtenida como la suma de los residuos al
cuadrado ajustada por grados de libertad estar sesgada.
Notar que an si x 1 ' x 2 =0 , el estimador de la varianza de los residuos y los tests t
estn sesgados.

Adicin de variable irrelevante

Nuevamente, debemos contestar las clsicas preguntas:

Es el estimador de insesgado?

Se ha afectado la varianza del estimador de ?

Se ha afectado 2 ?

Cul es el impacto sobre los tests?

Dejo de tarea encontrar las respuestas, que son bastante obvias.

Ejemplo: demanda de dinero


Cuadro 5.1
Adicin y Omisin de Variables
Modelo completo
Estimadores
Test t
R2
0.9600

Constante
-13.2728
-22.1688

LPIB
1.0748
26.0638

Deval
-0.1616
-0.8083

Tcol
-0.0531
-3.9820

-0.3461
-0.5782

-0.3026
-10.8883

XX

Modelo con variable omitida


Estimadores
Test t
R2
0.6409

2.3206
33.8532

Modelo con variable irrelevante incluida


Estimadores
Test t
R2
0.9596

-13.3048
-21.9483

1.0770
25.8037

-0.1668
-0.8288

-0.0522
-3.8473

-0.0048
-0.4321

Una conclusin errnea, popular y peligrosa

En trminos de la calidad de los estimadores resulta preferible incluir variables


irrelevantes a excluir variables pertinentes.
Ello sugerira que la mejor estrategia de modelacin economtrica es poner de todo al
lado derecho de la regresin, mientras alcancen los grados de libertad.
As, si bien los estimadores tendran problemas de eficiencia, no habra problemas de
sesgo. Estos ltimos son, naturalmente, ms graves.

Existen problemas graves con esta estrategia.

El modelo de regresin ha sido derivado bajo la premisa que ste describe un


experimento aleatorio en un espacio de probabilidad asociado a un conjunto de
posibles eventos de inters.
En tal caso, el diseo del experimento debe ser hecho ex-ante y debe producir
tanto el conjunto de hiptesis que se desea estudiar como la especificacin
funcional particular que se debe usar.

Cuando se incluyen variables aleatorias con el fin de maximizar algn criterio


(usualmente bondad de ajuste)

en rigor, no puede compararse el parmetro de inters entre modelos. Considere


los dos modelos planteados en la ecuacin:
a y i =01 x i
b y i =0 1 x i 2 w i

el parmetro 1 de la ecuacin (a) se refiere a un experimento cuyo espacio de


eventos es distinto del que se considera implcitamente en la ecuacin (b), lo que
impide la comparacin entre modelos.
Alternativamente, considere que la modelar equivale a estudiar la distribucin
condicional F y | x , la que puede ser muy distinta de F y | x , w .

cuando se usa la muestra de variables aleatorias para sugerir una especificacin no puede
usarse esa misma muestra para (in)validar dicha especificacin.

Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en una


verdadera carrera de caballos con distintos modelos economtricos, ponderando sus
virtudes y defectos por medio de una batera de tests.

Cmo sabemos, entonces, si un modelo est bien especificado?

Slo la teora econmica nos puede sugerir una especificacin. Una vez obtenida una
muestra acorde al testeo que se desea hacer, hay dos alternativas:

si la teora es congruente con los datos, nos quedamos con sta como una
representacin adecuada de datos caracterizados por algunas regularidades
empricas.
si la teora no es congruente con los datos, cambie de teora.

Existe la tentacin a poner cosas del lado derecho, slo para encontrarse despus que
no hay como justificar en serio la inclusin de dichas variables.

Las clsicas objeciones a la idea que un investigador debe limitarse a la disciplina que le
impone su teora econmica:

Si el test t de estas variables adicionales es mayor que 2 por qu no incluirlas?


El re sultado es el peor.
La (o las) variable(s) parece(n) ser importante(s) desde un punto de vista
estadstico para describir la media condicional de y, pero no tenemos idea por qu
o qu papel desempean desde el punto de vista analtico.

Por qu no usar las k variables disponibles y hacemos una competencia todos-contra-todos


seleccionando aquellas que maximizan R con tests t significativos al, digamos, 95%?
la seleccin es mecnica con independencia de las restricciones que impone la
teora.
es difcil comparar entre modelos (cmo se distribuye el test de distancia entre
dos o ms R?).
esto es data mining.

5.02 Problemas de Especificacin II: Cambio de Rgimen

Forma comn de violar el supuesto que el modelo sea lineal es el caso en el que hay
cambio de rgimen (un caso frecuente en series de tiempo).
Cambio de rgimen es una expresin un tanto vaga que se utiliza para denotar que el
fenmeno de inters tiene un comportamiento caractersticamente diferente en diversos
periodos de tiempo. En dichos segmentos, la media condicional y sus determinantes
pueden diferir de manera apreciable.
Ejemplos comunes de quiebres se presentan en la siguiente figura.

Si hay cambio de rgimen, un modelo lineal es inadecuado.

Supongamos que el cambio de rgimen slo afecta el intercepto de la regresin, lo que


se debera usar es una especificacin del tipo:

y i =x i i i [1,15] [40,60]
y i =x i i i [16,39] [61,80]

El modelo anidado usando variables ficticias (mudas o dummies), que toman valores 0 y
1 dependiendo del rgimen. es:
y i =x i D i i

donde

D i =1 i [16,39][61,80]
D i =0 en el resto

Cuando la variable muda D es 1, el intercepto es = , en tanto que si es 0 ste es


.
Es decir, interpretamos como la diferencia de interceptos.
Supongamos ahora que el cambio de rgimen es tanto en el intercepto como en los
otros coeficientes de la regresin. Se debera usar es una especificacin del tipo:

y i =x i i i [1,15][40,60]
y i =x i i i [16,39][61,80]

El modelo anidado es:


y i =x i [ D i ] D i i

As, cuando D toma valor 1, el intercepto es = y la pendiente es = .


Cuando D=0, obtenemos los parmetros y .

Cmo descubrimos si hay cambio de rgimen?

Dos tcnicas de amplia difusin: las tcnicas recursivas y el test RESET.

Test RESET (Regression specification error test) consiste en realizar una regresin auxiliar al
modelo y t = x t t , con N 0, I , y consideremos la siguiente regresin
auxiliar:
y t =01 x t 2 z t t

donde z t ={ y t 2 , y t 3 ,} y y t son los valores predichos del modelo original.

Si el modelo original estaba bien especificado, entonces los coeficientes de las variables
auxiliares no debiesen ser estadsticamente significativos.
En caso contrario, el estimador de es inconsistente.
Por ello la hiptesis nula del test es H 0 : 2 =0 .

La tcnicas recursivas se aplican a series de tiempo y consisten en estimar el modelo


incrementando de modo paulatino (recursivo) el tamao de muestra. Consideremos el
modelo y t = x t t y la siguiente regresin auxiliar:
y t =t 1 x t t

donde t es el estimador del parmetro obtenido mediante una regresin hecha con
1
una muestra de datos { y i , x i }ii =t
=k1 .

La tcnica consiste en hacer un conjunto de regresiones auxiliares incrementando el


tamao de muestra desde i =k1 hasta T , donde k es el rango de x. Note que k1
es la primera regresin que es posible hacer.

Estimacin recursiva de los estimadores de los parmetros

5.03 Problemas de Especificacin III: Datos errneos, perdidos, etc.

Datos Perdidos

Pueden haber datos perdidos en la variable de inters, y, o en los regresores, x.

porque no existen los datos para algn determinado perodo de tiempo o segmento
de la muestra.
porque los datos existen pero estn en distinta frecuencia a la necesaria para hacer el
anlisis emprico (p.e., datos mensuales versus trimestrales).

Si los datos se han perdido de manera aleatoria, los estimadores de mnimos cuadrados
sern consistentes pero ms ineficientes que en el caso que la muestra estuviese
completa. La razn es que la muestra con datos perdidos contiene menos informacin.
Si se han perdido datos de forma no aleatoria slo para la variable de lado izquierdo,
entonces no hay sesgo y slo hay problemas de eficiencia (sesgo de seleccin exgeno).
Si se han perdido datos de forma no aleatoria slo para las variables de lado derecho,
entonces hay sesgo de seleccin endgeno (correlacin entre regresor y residuo) hay sesgo en
el estimador de mnimos cuadrados.

La existencia de datos perdidos suele llevar a los econometristas despistados a intentar


soluciones que, como se discute a continuacin, no son efectivas.

Cuadro 5.1
Problemas de disponibilidad de datos
Datos
yA
xA
existen
Datos
xB
perdidos
Datos
yC
perdidos

Note que siempre podemos estimar el estimador en el subconjunto A.

cmo usar los datos restantes?

Datos perdidos en la variable condicionada.

Una sugerencia frecuente es utilizar algn mtodo para hacer una prediccin de y B y
usar posteriormente el modelo economtrico completo para estimar , es decir usando
[ y A yB , x A x B ] . El quid del asunto radica en cmo predecir y B . Hay dos alternativas
populares:

Alternativa popular 1.
Rellene los datos faltantes con la media de y A . Es fcil
demostrar que como resultado se produce sesgo en los parmetros.

Alternativa popular 2.
Estime en el subgrupo A, prediga yB usando dicho
estimador, y luego estime el modelo completo. Es directo demostrar que el
procedimiento es intil.

Datos perdidos entre los condicionantes.

Nuevamente la sugerencia popular es hacer una prediccin de y C y usar el modelo


completo para estimar , es decir usando [ y A y C , x A x C ] . Cmo predecir x C ?

Alternativa popular 1.
Rellene los datos faltantes con la media de x A . Demuestre
que este procedimiento es equivalente a eliminar los datos del segmento C.

Alternativa popular 2.
Haga una regresin de x en y en el subgrupo A, estime un
parmetro y prediga x C usando dicho estimador. Luego estime el modelo completo.
Demuestre que este procedimiento viola el espritu del anlisis economtrico.

Variables cercanas (proxies)

Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera


variable que no es observable o no est disponible.

Usualmente el uso de variables cercanas puede ser entendido como la presencia de


variables medidas con error.
Puede haber proxies de la variable de inters o de los regresores, pero el efecto sobre el
estimador de mnimos cuadrados ordinarios de los parmetros no es igual.
Escribimos el estimador mnimos cuadrados como:
1

[ ][ ]

x'x

=
n

x'
n

Hasta el momento plim [


]= Q xx x , pero la matriz de covarianzas se desvanece
cuando n. Veamos ahora qu sucede cuando se usan variables cercanas.

Proxy para la variable de inters:

Sea el modelo que nos gustara estimar y *=x . Pero slo disponemos de
2
y *= y , donde es un shock aleatorio, con media cero y varianza .

Entonces el modelo estimable es y=x =x , donde = .

Notese que es una variable aleatoria con media cero y cuya covarianza con x tambin
es cero. Luego se satisfacen todos los supuestos del modelo clsico y no hay problemas
de sesgo en los estimadores de mnimos cuadrados.

Obviamente, la varianza del estimador de los residuos est sesgada (ms grande) porque
incluye tanto la varianza de como la de .

2
Sin embargo, ese sesgo no es posible corregirlo sin conocer .

Proxy de los regresores:

Sea el modelo que nos gustara estimar y=x . Pero slo disponemos de
2
x =x , donde es un shock aleatorio con media cero y varianza .
Ahora el modelo es y=x =x donde = .
El problema radica en que hay correlacin entre regresor y residuo porque
cov [x , ]=cov [ x , ]= 2 .
n

plim del estimador de mnimos cuadrados es plim =

plim 1/n x *i x *i
i =1

plim 1/ n x *i 2
i =1

como x*, , y son independientes entre s, se obtiene:


plim =

2
1 *
Q

con Q *= plim 1/n x * ' x * .

2
por lo tanto, si 0 , el estimador de mnimos cuadrados ordinarios del parmetro
es inconsistente y sesgado hacia cero.

A mayor error de medida, ms fuerte este efecto de atenuacin.

Datos influyentes y extremos (outliers)

Es usual encontrar valores tanto para la variable de inters como sus determinantes que
no parecen formar parte del experimento en cuestin.

Se entiende por datos influyentes aquellos que de ser incluidos o excluidos de la


muestra producen grandes variaciones en la estimacin, sea en los estimadores de los
parmetros o en los estadsticos asociados (p.e., bondad de ajuste).

La influencia de estas observaciones se debe tanto a la naturaleza del estimador de


mnimos cuadrados como al tamao de la muestra usada para obtener el estimador.

Como el estimador de mnimos cuadrados minimiza la suma de residuos,


observaciones ms alejadas del promedio de los datos reciben ms valoracin. Eso
puede hacer que el estimador sea sensible a valores extremos.
el tamao de muestra determina el impacto de valores extremos, pues este
problema ser ms agudo mientras ms pequea sea la muestra.

Se distingue entre valores extremos (outliers) y valores influyentes.

Valores extremos se refieren usualmente a valores de y que se desvan mucho de la


media condicional en x.
Valores influyentes se refieren a valores de x que se desvan de la media muestral y
que, por lo tanto influyen mucho en la estimacin.

Valores influyentes y extremos

Causas

Errores al ingresar los datos de la muestra

Muestras mal diseadas (experimento mal especificado)

Mala suerte

Deteccin

Estudiar los residuos: si el valor predicho se desva del efectivo de manera notoria se
puede tratar de un valor extremo.
No obstante, esta no es una manera que garantice la deteccin. La razn es que el
residuo se mide con respecto a la recta de regresin la que podra variar si se incluye o
excluye el valor extremo.

Usualmente se estudian los residuos estandarizados es decir, los residuos


divididos por su desviacin estndar de modo de normalizar su tamao.

5.04 Problemas de Especificacin IV: Colinealidad

Problema de colinealidad consiste en que los regresores no son independientes entre s.


El supuesto de identificacin es que x ' x 1 fuese positiva definida. Ello no impide
que los regresores estn correlacionados imperfectamente.
Consideremos el siguiente modelo:
y i =1 x 1i 2 x 2i 3 x 3i i
Si los regresores estn correlacionados de acuerdo a la siguiente relacin:
x 3i =1 x 1i 2 x 2i i

Resulta obvio que:


1

y i = 11 3 x i 22 3 x i t 3 i

Hay dos interpretaciones interesantes de la ecuacin anterior.

Se puede estimar j j pero no podemos identificar j .


El efecto marginal de xk sobre y tiene dos componentes: uno directo ( j ) y otro
que se filtra indirectamente a travs de xj ( k j ).
Ntese, adems, que la varianza del error ( 3 ) tiene una estructura particular.

El efecto de la colinealidad sobre el estimador mnimos cuadrados es algo


sorprendente. Tomando el estimador

E [ ]=E
[ x ' x 1 x ' y ]
=E [ x ' x 1 x i ' x ]
=E [ x ' x 1 x ' ]

Por lo tanto, en tanto la matriz de momentos de los regresores exista, el estimador sigue
siendo insesgado.

Ello porque independientemente de si los regresores son estocsticos o no, la

correlacin entre regresor y error es cero lo que implica que E [ ]=


.

Si los parmetros no son sesgados, dnde est el efecto de la colinealidad?

Debido a que el problema es que cov x 1, x 2 0 , entonces tiene que afectar la matriz
de momentos de los regresores, x x .
Recordemos que la inversa de x x es su adjunta dividida por el determinante, es
decir:

1
a 11 a 12
a 22 a 12
1
entonces =
a 11 a 22 a 12 a 21 a 21 a 11
a 21 a 22

Entonces, por ejemplo,

[ ]

[ ]

1 1 0
1 0
1
=
1 0 1
0 1

y ahora consideremos casos donde la covarianza entre las variables no es cero:

1
1 0.6
1
1
0.6
=
0.64 0.6
0.6 1
1

1
1 0.9
1
1
0.9
=
0.19 0.9
0.9 1
1

Resulta evidente cmo se va reduciendo el determinante de la inversa.


2
1

Dado que V =
x i ' x i , la colinealidad se traduce en varianzas de los
estimadores de los parmetros cada vez ms grandes. En el lmite la varianza tiende a
infinito.

An as, el estimador sigue siendo MELI.

Esto es congruente con lo que obtuvimos antes. Cuando la colinealidad es perfecta no es


posible distinguir entre el efecto directo e indirecto.

Es decir, no podemos precisar el valor de los parmetros (varianza infinita).

En la realidad, la colinealidad perfecta no existe (salvo por error).

Pero tampoco existe, usualmente, la ausencia de colinealidad (piense en el papel de las


expectativas y cmo stas correlacionan muchas variables econmicas). Por ello,
siempre habr algn grado de colinealidad.

Otro sntoma de la colinealidad es que los estimadores de los parmetros se vuelven


inestables (poco robustos).

La inestabilidad se produce porque la estimacin punto de los parmetros bajo alta


colinealidad depende de la conformacin de la muestra.
Si sacamos un(os) dato(s) de la muestra, la estimacin de los parmetros suele
cambiar fuertemente.

Como detectamos la presencia de colinealidad?

Podramos estudiar la correlacin de los regresores antes de estimar el modelo. Esta


prctica es esencial en cualquier modelacin economtrica, pues aparte de detectar
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos.

Un problema prctico, no obstante, es que no es muy claro cundo hay alta colinealidad
entre dos o ms variables. Naturalmente una correlacin de 99% es alta y una de 5% es
baja, pero para una correlacin de 57% no es clara la conclusin.

Otra alternativa es investigar si los estimadores de los parmetros son inestables. Si bien
esto es correcto, existen otros problemas que veremos ms adelante que tambin
producen inestabilidad. Por ello, este test no es conclusivo.

Una tercera alternativa es que, si bien los parmetros no son significativos por la alta
covarianza, como un todo la regresin es satisfactoria. Ello se traducira en el caso R
alto pero no significativos. No es una regla muy firme, porque una variable
irrelevante en un modelo satisfactorio tendra el mismo sntoma.
2

Qu solucin tiene la colinealidad?

En estricto rigor, no existe ninguna solucin.

La colinealidad no es un problema.

Es una caracterstica de las variables aleatorias utilizadas en el modelo.

Es decir, una caracterstica del problema econmico.

Pseudo soluciones al problema de colinealidad:

descubrir su inaplicabilidad

porque existen otros usos para estas tcnicas que se utilizan a menudo.

Elimine alguna variable para la que haya evidencia de colinealidad con otras.
a) Obviamente, el problema de colinealidad se reduce.
b) Sin embargo, los estimadores estn sesgados.
c) Las varianzas de los estimadores pueden estar sobre-estimadas.

El mtodo de ridge.

Los parmetros son difciles de identificar porque las varianzas de los parmetros son
relativamente pequeas en comparacin con las covarianzas.
Las varianzas estn en la diagonal de 2 x x 1 .
Este estimador sugiere sumarle algo a dicha diagonal, de modo que los parmetros
sean identificables. El estimador de ridge es:
1
RD= [ x i ' x i rD ] x i ' y i

donde r es un escalar pequeo (p.e., 0.01) y D una matriz diagonal.

Obviamente, ahora las varianzas de los parmetros estimados van a ser menores.
1
2
Var RD = [ x i ' x i rD ]

Pero este beneficio se obtiene a costa de:

1
E [ RD ]=E [ x i ' x i rD ] x i ' y i

=E [x i ' x i rD ]1 x i ' x i

Hemos vuelto a obtener dos resultados importantes:


(a) modelos con variables pertinentes omitidas producen parmetros sesgados, y
(b) es posible tener estimadores sesgados ms eficientes que un estimador insesgado.

Mtodo de componentes principales.

Otra propuesta de solucin de colinealidad consiste en extraer de la matriz x x los


componentes principales de sta.
Si el problema de las x es que no hay independencia lineal, por qu no seleccionamos
aquellos x que son ms independientes?
As, mejorara la estimacin del modelo, pues el subconjunto de x seleccionado
representara bien a todas las variables del modelo.
La pregunta es equivalente a cul combinacin lineal de las x es la que tiene el mejor
ajuste a todas las x? Esa ser la mejor representante.

Sea la combinacin lineal z 1=x a 1 . Entonces, z 1 ' z 1 =a 1 ' x ' x a 1 .

Buscamos a 1 tal que maximicemos z 1 ' z 1 .

Obviamente, si no restringimos a 1 es posible que [z 1 ' z 1 ] .

Por ello, optimizamos restringiendo a que a 1 ' a 1 =1 (a esto se le llama normalizar).

Usando la tcnica de Lagrange:


max a =a 1 ' x ' x a 1 1 a 1 ' a 11
1

derivando obtenemos la siguiente condicin de primer orden:

=2x ' xa 12 1 a 1=0


a 1

es decir:
x ' x a 11 a 1 =0

por lo tanto, a 1 es un vector caracterstico.

Recuerde, a 1 es el vector caracterstico asociado a 1 la raz caracterstica.

Cul vector caracterstico? Aquel asociado a la raz caracterstica ms grande de x ' x .

As, hemos escogido el primer componente principal.

Ahora, escogemos el segundo, a 2 .

Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 ' a 2=0


max a =a 2 ' x ' x a 2 2 a 2 ' a 2 1a 1 ' a 2
2

As, obtenemos la siguiente condicin de primer orden del problema restringido

=2x ' xa 2 2 2 a 2 a 1 =0
a 2

entonces, premultiplicamos por a 1 '


2 a 1 ' x ' x a 2 2 2 a 1 ' a 2 a 1 ' a 1=0

pero a 1 ' a 2=0 y a 1 ' a 1 =1 . Por ello, =0 .

Se deduce entonces que x ' x a 2=2 a 2 , es decir a 2 es el segundo vector caracterstico


(correspondiente a la segunda raz caracterstica, 2 ).

Podemos hacer esto k veces, obteniendo a k soluciones.

Obtenemos una representacin exactamente la matriz original x x .


Juntamos los resultados en la matriz A=[a 1 , a 2 ,... , a k ] que describe los
ponderadores de los componentes principales de x x , tal que Z =xA son los Z
componentes principales.
Note que

1 0
0 2
Z ' Z = A ' x ' xA==

0

0
0

k

Adems, si el rango de x es r k habr kr valores propios iguales a cero.

Finalmente, el estimador de componentes principales ser:


cp =[Z ' Z ]1 Z ' y

Pero Z ' y= A ' x ' y= A ' x ' [ x ]= A ' x ' x = A ' x ' x .

Se desprende cp = A1 de donde se deduce que:

el estimador de componentes principales es una combinacin lineal de los


verdaderos parmetros.

que el estimador de componentes principales es sesgado.

la varianza del estimador cp es menor que la de ols .

Otros problemas.

los estimadores son sensibles a la escala de los datos (estandarizar) pero esto afecta
los resultados (cambia A).
la seleccin de los componentes principales se hace en funcin de x y no de y, lo que
sera preferible.
la interpretacin de los parmetros es muy difcil, pues no sern los coeficientes
asociados a las variables sino aqullos asociados a una combinacin lineal de las
variables.

Ntese que nuevamente encontramos que

modelos con variables pertinentes omitidas producen parmetros sesgados, y

es posible tener estimadores sesgados ms eficientes que un estimador insesgado.

5.05 Modelos de Varianza No Constante

Esta es una familia con dos ramas principales:

heterocedasticidad (corte transversal)

correlacin de residuos (series de tiempo)

existen casos de heterocedasticidad y correlacin residual

Heterocedasticidad

Los residuos (innovaciones) provienen de distribuciones con distintas varianzas.


En el caso en que la varianza de los errores no sea diagonal, el modelo general se
escribe de la siguiente manera:
y i =x i i
E [i ]=0
2
E [i i ' ]=

donde es una matriz definida positiva.

Obviamente, cuando =I, volvemos al caso de mnimos cuadrados ordinarios.

Modelo es llamado modelo de regresin generalizado.

Bajo heterocedasticidad la matriz de covarianzas de los errores es del tipo:

12 0 0
2
2
0

0
2
=

0 0 2n

Ntese que las covarianzas son cero.

Cual es el efecto de la heterocedasticidad sobre un estimador mnimos cuadrados?

Recordemos que el estimador mnimos cuadrados se puede escribir como


x ' x 1 x ' y=x ' x 1 x '
=

Tomando esperanza en obtenemos E [ ]=E


x [E [ | x ]]= , es decir el estimador

sigue siendo insesgado.

Esto es razonable porque el problema de heterocedasticidad se refiere al segundo


momento (varianzas) y no a la media de los errores.
Tomemos la varianza del estimador para el caso que x es no estocstico:

Var [ | x ]=E [
'
|x ]
=E [ x ' x 1 x ' ' x x ' x 1 | x ]
= x ' x 1 x ' E [ ' ]x x ' x 1
= x ' x 1 x ' [ 2 ]x x ' x 1

x ] .
Si x es estocstico, la varianza no condicional es E x [Var |

Si se distribuye Normal, entonces N [ , 2 x ' x 1 x ' x x ' x 1 ] .

La varianza del estimador ahora no es 2 x x 1 , por lo que las inferencias basadas en


esta ltima estn sesgadas.
Por otro lado, el estimador de no tiene por qu haber retenido sus propiedades. No
podemos saber si los test t o F resultan adecuados.

La varianza asinttica del estimador ser:


2

1
1
1
V.A. = Q plim x ' x Q
n
n

En resumen, la heterocedasticidad no afecta la estimacin punto de los parmetros


porque stos no dependen de la varianza de la distribucin.
Pero, obviamente afecta la varianza del estimador. Recordemos que:
Var [ | x ]=x ' x 1 x ' [ 2 ] x x ' x 1

Bajo homocedasticidad, E [i i ' ]= 2 I , por lo que el problema se reduce a tener un


estimador de 2 .
Por el contrario, el problema que presenta la existencia de heterocedasticidad en un
experimento es exactamente nuestra ignorancia respecto de la estructura de sta, es
decir, respecto de E [i i ' ] .
Vamos a realizar un truco que es estndar en la literatura economtrica:

derivamos el estimador ptimo y sus propiedades bajo el supuesto que conocemos


E [i i ' ] (estimador eficiente)
luego estudiamos qu sucede si esta ltima suposicin no es correcta (estimador
posible)

Estimacin eficiente

Si tuvisemos E [i i ' ] podramos resolver el problema. En ese caso podramos usar


directamente el estimador de la varianza:
Var OLS = x ' x 1 x ' E [ ' ] x x ' x 1

Basados en la idea que una matriz positiva y definida puede ser factorizada, vamos a
hacer una factorizacin conveniente.

Tomemos una matriz T(nn) y premultipliquemos el modelo, tal que


Ty i =Tx i T i

Se sigue cumpliendo que E [T ]=0 , por lo que podemos obtener:


2

E [T ' T ' ]= T ' T

Si T ' T =I habramos solucionado el problema de heterocedasticidad, pues


podemos estimar el modelo transformado por mnimos cuadrados ordinarios ya que los
errores seran homocedsticos. Luego se recuperan los estimadores de los parmetros
del modelo original.

Queremos encontrar T tal que 1=T ' T para ponderar el modelo.

El estimador de mnimos cuadrados ponderados de Aitken sera:


GLS = x i ' T ' T x i 1 x i ' T ' T y i pero T ' T =1
= x i ' 1 x i 1 x i ' 1 y i

Ntese que este estimador es ms general de lo que parece.

Cualquier forma de heterocedasticidad puede ser acomodada en el estimador,


provisto que la matriz de covarianza de los errores sea diagonal del tipo 2 .
Nuevamente, note que el estimador de mnimos cuadrados ordinarios es un caso
particular de mnimos cuadrados generalizados, aquel donde T=I.

Estimacin Posible

Qu sucede cuando es desconocida?

En algunas ocasiones, un reducido nmero de parmetros, , es capaz de describir el


patrn de heterocedasticidad.

, es decir, el estimador de
Si 2i = 2 f z i ; entonces, podramos usar =

basado en el estimador de .

Tests de Heterocedasticidad

1.

Una razn para estudiar tests de heterocedasticidad es detectar y corregir el problema.


Otra razn es que cada tipo de test ensea sobre formas particulares de
heterocedasticidad.

Tests en muestras repetidas

Este es el test ms simple de heterocedasticidad.

Se aplica cuando se tienen varias muestras repetidas de un mismo experimento.

Por ejemplo: si hay datos agrupados (p.e., ciudades) en cada cada ubicacin habr
ni observaciones de distribuciones con varianzas potencialmente diferentes.

La lgica de operacin es la siguiente:

Estime el modelo y i =x i i y compute 2i para cada muestra i=1, ..., m.

Estime el modelo y i =x i i y compute 2* con todos los datos.

La hiptesis nula es que la varianza de los grupos no difiere de aquella de la


muestra completa, ajustando por tamaos relativos
m

Homocedasticidad H 0 : nm ln * n j 1 ln i =0
2

j =1
m

Heterocedasticidad H 1 : n m ln 2* n j 1 ln 2i 0
j =1

El test es, directamente, un test de razones de verosimilitud

2 ln n j 1 ln i m 1

2
*

j =1

Los grados de libertad se derivan del nmero de varianzas libres (m) menos la
restriccin de una nica varianza comn.

2. Test de Breusch y Pagan

Este test se aplica cuando no hay muestras repetidas y no es posible disponer de varias
realizaciones de la variable aleatoria 2 .

Estimado el modelo y i =x i i

Compute una variable aleatoria auxiliar g i =2i / 2

Haga una regresin entre gi y las variables que quiera, incluyendo x, y compute la
suma de cuadrados explicados, SCE.

El test consiste en estudiar la SCE. Si una regresin puede explicar la proxy de


heterocedasticidad, entonces hay heterocedasticidad. Alternativamente, si hay
homocedasticidad, solo la constante debiese ser estadsticamente significativa. Por ello,
H 0 : Homocedasticidad SCE=0
H 1 : Heterocedasticidad SCE 0

Como los estimadores de las varianzas por muestra y totales son formas cuadrticas de
errores normalizados, SCE se distribuye (p-1) bajo la hiptesis nula. Los grados de
libertad se derivan del rango de regresores, p, en la segunda regresin.

3.

Test de Goldfeld y Quandt

Este test usa informacin extra-muestral para estudiar problemas de heterocedasticidad.


Si creemos que la variable xk es la causante de heterocedasticidad, el procedimiento es:

Ordene la muestra de mayor a menor segun xk.

Remueva c observaciones del centro de la muestra.

Haga la regresin del modelo y i =x i i en cada grupo y compute la suma de


cuadrados residuales, SRC.

El test consiste en estudiar la diferencia entre las SRC. Si stas son iguales, significa que
no hay heterocedasticidad. Por ello,
H 0 : Homocedasticidad SRC 1=SRC 2
H 1 : Heterocedasticidad SRC 1 SRC 2

Como estamos comparando dos SRC y hay el mismo nmero de regresores y datos en
SCR 1
nc /2k
F
cada sub-grupo, entonces el test es
.
SCR 2
nc /2k

4.

Test de White

Lgica similar a Breusch y Pagan. Hace una regresin entre la proxy de la varianza de
los errores y el grupo de regresores de la regresin original, x, pero lo extiende para
incluir sus cuadrados y productos cruzados. Es decir,
Computar i = y i
x i
Hacer una regresin entre 2i y las variables x i , x 2i y los productos cruzados x i x j . Es
decir,
2i = x i x 2i x i x j ' i

La hiptesis nula es que bajo homocedasticidad ninguno de los coeficientes, mas all de
la constante, debe ser significativo.
El test preferido de White es tipo multiplicador de Lagrange.
Aunque la distribucin de muestra finita es desconocida, es posible demostrar que nR2
se distribuye asintticamente 2(p), donde p es el nmero de estimadores excepto la
constante.

Matrices de Covarianzas Robustas

Hay muchsimos tests de heterocedasticidad.

Pero realmente necesitamos estos tests?

necesitamos entender qu es lo que causa la heterocedasticidad?

Verdaderamente, no.

Lo que queremos es 2 para poder hacer mnimos cuadrados generalizados.

, un estimador de 2 .
En realidad, no. Lo que queremos es 2

x ' x
Tampoco, lo que queremos es un estimador de =
n

sino slo su diagonal.


En realidad, lo que queremos no es todo

White
S 0=

(1980)

demuestra

que

un

buen

estimador

de

= 2

x 'x
n

es

1
2i x i ' x i .

Por ello, la matriz de correccin de la varianza de los parmetros para el caso de


heterocedasticidad tambin llamada matriz de errores robustos es:

Var =n
x i ' x i S 0 x i ' x i
1

No es necesario conocer la forma de la heterocedasticidad, pues el estimador es general.

Extensin de Newey y West


Newey y West (1987) han extendido el estimador de White para el caso en que no es
diagonal. El estimador es:
J

=S 0 1 n j t t j x t ' x t j x t j ' x t
Q
n j =1 i = j 1 J 1

donde j/(J+1) es una correccin no paramtrica por tamao de muestra.

5.07 Correlacin de residuos


Supongamos ahora que que E [i , j ] 0 . En tal caso, la matriz de covarianza de
residuos es:

11 12
21 22

n1 n2

1n
2n

nn

An si consideramos el problema de residuos son homocedsticos

12 ... 1n
21 2 2n


2
n1 n2

y simtrica, es decir, ij = ji resulta imposible de estimar el patrn de correlacin con una


muestra finita. Hay ms incgnitas que grados de libertad.

Usualmente:

Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es


estimable.
Si la forma de ij es parametrizable, es decir tiene una estructura (simple), es estimable.
Si es estimable, los parmetros estimados por mnimos cuadrados del modelo
y t = x t t siguen siendo insesgados, excepto si las variables de lado derecho
contienen un rezago de la variable endgena. La demostracin del primer caso es:
x t ' x t 1 x t ' y t pero y t = x t t
=
x t ' x t 1 x t ' [ x t t ]= x t ' x t 1 x t ' t
=

y por lo tanto, E [ ]=
.

Supongamos que y t = x t t y t = t 1t donde t es ruido blanco. Entonces,

V [ ]=

xt

2 2

x 2t

x t x t 1

2 x t x t 2
N 1 x 1 x N

...
2
2
x
x
t
t
x t2

por lo tanto, V [ ]=V


[ OLS ] slo si =0 , es decir cuando no hay correlacin.

La varianza del estimador bajo autocorrelacin podr ser mayor o menor que la de
mnimos cuadrados dependiendo del valor de .

Si es positivo, se sobreestima la varianza.

Si es negativo, no es claro el sesgo.

La solucin al problema es, naturalmente, usar mnimos cuadrados generalizados, pero


esto slo es posible si conocemos .

Cmo sabemos si hay correlacin residual?

Un test bastante comn es el de Durbin y Watson, para el caso de errores con


correlacin de orden 1.

Es decir, t = t 1t (correlacin de orden 2 es t =1 t 12 t 2 t ).

El test requiere computar:


T

d=

2
t t 1

i =2
T

2t
i =1

La lgica es que:

si hay correlacin positiva, t ser cercano a t 1 y, por lo tanto, d ser cercano a


cero.
si hay correlacin negativa t ser lejano a t 1 y, por lo tanto, d ser distinto de
cero.

Desarrollemos el cuadrado del numerador de la ecuacin anterior.


T

2
2
t t 1 = [t t 12 t t1 ]

i =2
i =2
2

Sumando y restando convenientemente:


T

t t 1 =
2

t =2

t =2
T

T
2
t


t =2
T

T
2
t 1

2 t t 1
t =2
T

2t 12 2t 2T 2 t t 1
t =1

de vuelta en d

t =1

t =2

d=

i =1
i =1
2
t

2
1

2
t 1

2 t t 1
2
T

i =2

2t
i =1

es decir,
T

d =1

2
1

i =1

2
t

2
t1

i =1
T

i =1

2
t

T
T

i =1

2
t

2 t t 1

i =2
T

2t
i =1

Notemos que:

Si T es razonablemente grande, el segundo y cuarto trminos sern cercanos a cero.


Igualmente, el tercer trmino ser cercano a 1.
El ltimo trmino es interesante, porque es

cov t , t 1
var t 1

es decir, es el estimador natural de mnimos cuadrados de . En resumen, podemos


escribir d 21 .
Volvamos al test de Durbin y Watson. Si d 21 , entonces tenemos los siguientes
casos:

Si no hay correlacin d = 0.
Si hay correlacin positiva, 0 , d es menor que 2. En el lmite, d es 0 cuando es 1.
Si hay correlacin negativa, 0 , d es mayor que 2. En el lmite, d es 4 cuando es
-1.
por lo tanto, d estar entre 0 y 4.

La aplicacin del test no es tan simple, porque hay tres casos que estudiar. En este caso
habr dos tests son:

H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin positiva
H 0 : No hay autocorrelacin
H 1 : Hay autocorrelacin negativa

Como se ve, la hiptesis nula es siempre la misma pero la hiptesis alternativa es


compleja.

Otro problema es que usamos los residuos del mnimos cuadrados como estimadores
de los residuos verdaderos, es decir, stos dependen de x.

Por ello, la distribucin del test no es estndar y tiene distintos lmites superiores e
inferiores.

Si hacemos un test de correlacin positiva al 95%, entonces (1) si d est por encima del
limite superior no puedo rechazar la H 0 que no hay autocorrelacin y (2) si d est por
debajo del lmite inferior tengo correlacin positiva.

Figura 5.9

Inconcluso

No hay o negativa

Positiva

LI LS

Si hacemos un test de correlacin negativa al 95%, entonces (1) si d est por debajo de
4-limite superior no puedo rechazar la H 0 que no hay autocorrelacin y (2) si d est
por debajo del lmite inferior tengo correlacin positiva.

Figura 5.10

Inconcluso

Positiva o no hay

Negativa

4-LS 4-LI

El test completo de Durbin y Watson para autocorrelacin es:


Figura 5.10

Inconcluso

Inconcluso
Negativa

Positiva

No hay correlacin

LI LS

4-LS 4-LI

Soluciones al problema de correlacin de primer orden.

Volvamos al modelo original.


y t = x t t
t = t 1 t

Podemos multiplicar el modelo original por , rezagarlo un periodo y restarlo del


original para obtener:
y t y t1= x t x t 1t t 1

es decir:
y t = y t1[x t x t 1 ]t

Ntese que ahora no hay problema con los errores.

Si conocieramos , podramos transformar los datos y estimar con mnimos


cuadrados.
En realidad esto equivale a hacer mnimos cuadrados generalizados.

Lo conocemos? No. Pero tenemos una aproximacin, d. Obtenemos d haciendo una


regresin en los residuos originales de mnimos cuadrados y luego usamos =1d

/2 .

Hay una estrategia estadsticamente mejor (Cochrane-Orcutt).


1. Estimar el modelo original por mnimos cuadrados y obtener los residuos.
2. Hacer una regresin entre residuos y su rezago, obteniendo 1
3. Transformar el modelo usando 1 (es decir, y t 1 y t 1 , etc).
4. Ir a 1 y volver a hacer el ejercicio hasta que el converja.

Un problema del mtodo de Cochrane-Orcutt es que nada garantiza que la distribucin


del estimador converja a un ptimo global y, de hecho, podra ser el caso en que
haya ms de una moda en dicha distribucin.
Es por ello que se sugiere usar una estrategia de bsqueda sobre la base de una grilla
que verifique todos los valores de y satisfaga algn criterio de ptimo (p.e., mejor
ajuste).
En tal caso, un mtodo sencillo es el de Hildreth y Lu que consiste en estimar el
modelo transformado con =1, 0.99, 0.98, ... 0, ... -0.99, -1 y se escoge el estimador
minimizando la suma de residuos al cuadrado.

5.08 Variables instrumentales

Ausencia de correlacin entre los regresores y el error, es decir, E [x , ]=0 .

Causas
1. Variables omitidas que estn correlacionadas con aquellas que se usan para modelar.
Por ejemplo, cuando se estudia el rendimiento escolar y se omite la educacin de los
padres como determinante, entonces la estimacin entrega resultados sesgados porque
algunas variables independientes (p.e., ingresos familiares) estn tpicamente
relacionadas con la variable omitida.
2. Problemas de endogeneidad en alguna variable del lado derecho: esto es llamado
sesgo de simultaneidad.
3. Variables independientes estn medidas con error. En tal caso cada vez que se
observa x no se observa la verdadera variable sino una medicin con ruido el cual
estando correlacionado con x queda incluido en el error.
4. Sesgo de seleccin, es decir cuando la conformacin de la muestra no es
independiente del diseo del experimento. Es decir, cuando aquellos que ms se
benefician del tratamiento son aquellos que ms participan del mismo.

Efectos
Qu sucede con el estimador de mnimos cuadrados si E [x , ] 0 ?

Ninguno de los resultados que obtuvimos sobre las propiedades del estimador de
mnimos cuadrados se mantienen.

Va a haber sesgo, usualmente de tamao y direccin desconocidas.

Las varianzas de los estimadores estn distorsionadas (tpicamente, subestimadas).

Solucin

Usar una o ms variables que, estando correlacionadas con los regresores, no est
relacionadas con el error.

En ese caso, vamos a usar dicho conjunto de variables auxiliares como un


instrumento de x.
En trminos sencillos, buscamos un conjunto z tal que la correlacin entre z y x
sea alta pero que la correlacin entre z y sea baja.

El estimador mnimos cuadrados bajo la hiptesis que los residuos estn


correlacionados con x en el modelo de inters es inconsistente.

Como existe correlacin entre regresor y residuo:


E [ | x ]=i

=> existe informacin en los regresores para la expectativa del residuo.

Supongamos que E []=0 . Este supuesto es irrelevante si la ecuacin incluye una


constante.
La correlacin entre regresor y residuo puede ser escrita como:
Cov [x i , i ]=Cov [x i , i | x ]=Cov [x i ,i ]=

E [ ]=
x ' x x '

El Teorema de Gauss-Markov no se sostiene. El estimador es inconsistente porque


1
1

plim =
plim x ' x plim x ' = Q

En particular notemos que la varianza no condicional de es


2

Var [i ]=Var [ | x i E [i | x i ] ]=

Derivemos ahora el estimador de variables instrumentales, IV . Los supuestos


necesarios son:

[x i ,z i , i ] son variables aleatorias

2
E [ x ij ]= Q xx y constante

2
E [ z ij ]= Q zz y constante

E [ x ij ,z ij ] = Q xz y constante

E [ ij |z ij ]=0

As lo que se obtiene es:


1
plim Z ' Z= Q zz
n

1
plim Z ' X = Q zx
n

1
plim Z ' =0
n

Estas condiciones definen el conjunto de instrumentos admisibles.

Sea entonces el modelo y i =x i i y supongamos que tenemos un conjunto de


variables z. Entonces premultipliquemos el modelo por z :
z i ' y i =z i ' x i z i ' i

Aplicando el plim tenemos


plim

1
1
1
z i ' y i = plim z i ' x i plim z i ' i
n
n
n

pero el ltimo trmino es cero. Entonces

1
plim z i ' x i
n

plim

1
z i ' y i =
n

Note que para que tenga sentido, z ' x tiene que ser una matriz conformable. Por ello,
debe haber k variables en la matriz z.

En este caso, estimador de variables instrumentales es


IV =z ' x 1 z ' y

Ntese que este estimador es consistente.

Es decir, sus propiedades son asintticas (vlidas en muestra grande).


El tamao de muestra es una consideracin importante al momento de usar
variables instrumentales.
En el caso especial que i =0 , entonces =0 y obtenemos el estimador de
cuadrados mnimos ordinarios.
El estimador de variables instrumentales es ms general que el de cuadrados
mnimos.

El estimador de la varianza de los residuos es, naturalmente,


n

2
1
= y i x i ' IV
n i =1
2

Qu sucede si la matriz tiene un rango mayor a k?

Naturalmente, z ' x no es cuadrada y no tiene inversa.

(existe)

Sin embargo, consideremos el siguiente algoritmo:

a)

Hacer una regresin de x en z (para todo x).

b)

Hacer una prediccin de x basada en z llamada x .

c)

Hacer una regresin de y en x .

Note que el estimador derivado en la etapa a) no tiene problemas de consistencia y que


la proyeccin derivada en b) es una representacin ptima de x y que, adems, por el
hecho de ser una prediccin es ortogonal a .

Entonces, el estimador del modelo estimado usando la prediccin sera:


IV = x ' x 1 x ' y

Este es un procedimiento de mnimos cuadrados en dos etapas (2SLS). Es muy comn


en la literatura emprica.

Pero es posible estimar todo en un slo paso.

Debido a que x =z z ' z 1 z ' x , entonces


IV = x ' z z ' z 1 z ' x 1 x ' z z ' z 1 z ' y

Eficiencia

Cmputo de varianzas

Tarea: Obtener

la varianza del estimador de variables instrumentales

el estimador de la varianza de los residuos.

Un punto que no es menor es el de la dimensionalidad.

Para que la estimacin sea posible es necesario que el nmero de instrumentos sea
al menos igual al nmero de variables que se est instrumentando.

Você também pode gostar