Você está na página 1de 60

FA C U LTAD D E E S T U D I O S S U P E R I O R E S

ARAGÓN

SISTEMA UNIVERSIDAD ABIERTA

ECONOMÍA

MATERIAL DIDÁCTICO

ECONOMETRÍA II
El Sistema Universidad Abierta desde su fundación ha contribuido a la innovación de los procesos de aprendizaje en la Universidad Nacional Autónoma
de México y en todo el país. En 1972, a iniciativa del Dr. Pablo González Casanova se creó el Sistema Universidad Abierta enfocado al aprendizaje y en
las necesidades a satisfacer del estudiante, permitiéndole a éste integrar su educación a las exigencias prácticas de la vida tanto cotidiana como
profesional.
La educación abierta y a distancia es una forma de organización y políticas que tienden a la flexibilización en cuanto a tiempos, plazos y formas de
interacción entre estudiante y asesor.
La participación de estudiante y asesor en la construcción del conocimiento es en base a la corresponsabilidad de ambos protagonistas, especialmente
del primero.
En este sentido, la División del Sistema Universidad Abierta y Educación Continua tiene la responsabilidad de poner al alcance de la mano todos los
elementos necesarios para la consecución de los objetivos de aprendizaje. Un elemento básico de este proceso lo constituye el material didáctico en
torno al cual giran las fortalezas del sistema abierto.
Los materiales didácticos más que una antología de lecturas, es una estrategia de trabajo diferente para garantizar su uso adecuado. En este caso, los
materiales didácticos son autoadministrables, es decir, cuentan con los elementos suficientes para que el estudiante por sí mismo pueda comprender
los objetivos de aprendizaje, desarrollar las actividades que le permitan alcanzarlos y contar con los elementos de evaluación y autoevaluación en el
momento en que deben realizar sus exámenes.
Complementando lo anterior, la labor del asesor es potenciar la utilidad de estos materiales didácticos para hacer que los elementos básicos que se
encuentran en ellos sean ampliados y profundizados a través de la discusión no sólo con un estudiante en particular sino con el total de participantes
en cada asignatura.
El material didáctico y las sesiones de asesorías personalizadas o grupales, a distancia o presenciales son espacios de análisis donde el estudiante es
activo promotor de su aprendizaje y no un pasivo oyente.
En este orden de ideas se cuenta con material didáctico de cuidadosa selección de lecturas que abarca los variados temas del programa de estudio e
incluye de manera clara los objetivos y actividades para conseguirlos, asimismo, se encuentra en este material didáctico los elementos para medir el
avance del aprendizaje.
Por otro lado el continuo avance tecnológico permite ofrecerte el material didáctico en Internet, accediendo a la plataforma “SUAragón en línea”, lo que
permite consultarlo desde cualquier lugar y momento, así como interactuar con tus asesores y compañeros por medio del foro de discusión y recibir
información propia de tus asignaturas.
Como toda actividad universitaria es un material que está sujeto a la crítica bajo la premisa de que todo es perfectible. Dado el vertiginoso avance de la
ciencia en esta era del conocimiento, se considera también que es una obra temporal constantemente sujeta a revisión y modificación para mantenerla
a tono con los cambios que el estudio de la Economía imponen.
Finalmente, la División del SUA Aragón destaca el esfuerzo que significó hacer llegar a sus manos este material didáctico. Para lograrlo se conjugaron
muchos esfuerzos tanto académicos como prácticos por parte de los autores en un trabajo pionero en la más joven de las Facultades de la Universidad
Nacional Autónoma de México.

Material didáctico adaptado con fines educativos, no lucrativos.


INDICE
Introducción
Datos de identificación de la asignatura
Objetivo general
Criterios de evaluación
Tema l. MODELOS UNIECUACIONALES DINAMICOS
1.1 Características de modelos económicos dinámicos.
1.2 Estimación directa con variables rezagados.
1.3 Interpretación y estimación de rezagas distribuidos de forma geométrica, la Prueba H de Durbin.
1.4 Estimación de rezagas distribuidos de forma polinomial.

Tema II. MODELOS CON VARIABLES EXPLICATORIAS DICÓTOMAS


2.1 Características
2.2 Aplicación con variables cualitativas.
2.3 Regresión por tramos y la Prueba de Chow.
2.4 Desestacionalizar con variables dicotómicas.

Tema III. ECUACIONES SIMULTÁNEAS


3.1 Características y tipos de sistemas de ecuaciones.
3.2 Identificación de ecuaciones simultaneas.
3.3 Métodos de estimación de información limitada.
3.4 Métodos de estimación de información completa.

UNIDAD IV: PREDICCIÓN CON MODELOS UNIECUACIONALES.


4.1 Características del método de predicción.
4.2 Construir intervalos de confianza de la predicción.
4.3 Realizar predicciones en presencia de correlación serial.

UNIDAD V. ECONOMETRIA APLICADA.


5.1 Modelos microeconómicos.
5.2 Modelos macroeconómicos.
5.3 Modelos macroeconométricos.
INTRODUCCIÓN

“El arte del econometrista consiste en encontrar el conjunto de supuestos que sean
suficientemente específicos y suficientemente realistas como
para aprovechar al máximo los datos a su disposición”
Malinvaud, 1966.
Tanto los estudiantes como los profesores de economía necesitan, cada vez más, estar familiarizados con los métodos cuantitativos, para entender la
literatura económica actual y ser efectivos en sus propias tareas de investigación. El presente curso abarca la mayor parte de los métodos estadísticos y
econométricos que los economistas modernos pueden requerir y se ha estructurado en tres bloques correspondientes a cinco temas. Se tomarán en
cuenta aspectos relativos tanto a la estimación del modelo como a la evaluación de resultados, bajo la adopción de criterios económicos, estadísticos y
econométricos.
Se abordará un aspecto esencial en el ámbito económico: la predicción. La adopción de cualquier medida de Política Económica se apoya precisamente
en este aspecto. También se considerarán los factores cualitativos en la especificación del modelo y se centrará principalmente en las variables
explicativas. Se analizarán, en forma individual, los problemas más habituales dentro de la econometría aplicada, esto es, la autocorrelación, la
multicolinealidad y la heterescedasticidad.
Finalmente, se hará una introducción al análisis de los modelos de ecuaciones simultáneas. El establecimiento de los conceptos más importantes, las
condiciones de identificación del modelo, así como de las técnicas más habituales para su estimación. Por ejemplo, en un sistema de ecuaciones
simultáneas, todas las variables endógenas son variables aleatorias: un cambio en cualquier término de perturbación cambia todas las variables
endógenas, ya que se determinan simultáneamente.
En conclusión, la competencia genuina en el empleo de la estadística económica tiende a desarrollarse en estrecha relación con la meticulosa
comprensión de la teoría económica, las instituciones y las fuentes de información en el o los terrenos de la economía. El economista debe ser capaz,
en su práctica diaria, de integrar en forma correcta y casi automática las teorías económicas y las técnicas estadísticas pertinentes, pero sin dejar de
reexaminar y revaluar permanentemente esa integración.

NOMBRE DE LA ASIGNATURA: Econometría II

LICENCIATURA: Economía

SEMESTRE: Sexto

CICLO Y ÁREA A LA QUE PERTENECE: Métodos Cuantitativos

CARÁCTER: Obligatoria

NUMERO DE CRÉDITOS: 6 Créditos


Objetivo general del curso
_____________________________________________________________________________
Comprender y aplicar algunos temas de Econometría especialmente introduciendo aspectos dinámicos y en el caso de las ecuaciones simultáneas
analizar y aplicar métodos de predicción para modelos de regresión uniecuacionales, comprender investigaciones de Econometría aplicada

Criterios para la evaluación


________________________________________________________________________

El alumno de la asignatura de Econometría II, debe leer los materiales didácticos correspondientes a cada uno de los temas del programa de la
asignatura (antología), para que al final resuelva un cuestionario por unidad temática, el cual le permitirá apreciar desde su perspectiva el conocimiento
y comprensión de los mismos.

Este cuestionario es una modalidad dentro del proceso de evaluación del aprendizaje del alumno, que el maestro puede tomar como parte de su
proceso de evaluación además de los requerimientos individuales que bajo el principio de la libertad de cátedra le otorga la Universidad Nacional
Autónoma de México, como lo son exámenes parciales por unidad, examen final, trabajos de investigación, controles de lectura, ensayos, etc.
UNIDAD I
___________________________________________________________________________
Modelos uniecuacionales dinámicos
INTRODUCCIÓN
En la economía, igual que en otros estudios del comportamiento humano, es necesario algunas veces tener en cuenta el hecho de lo que sucede hoy
depende en gran parte de lo que sucedió ayer. Cuando en la investigación econométrica se quiere expresar la relación entre los valores presentes y
pasados de las variables económicas, en las ecuaciones que han de figurar como estimadores aparecen observaciones que incluyen tanto valores del
periodo actual, t
Y ,X t así como valores para uno o más periodos anteriores Y ,X
t -1 t -1 ,Xt -2 ,...
A los últimos valores se les describe como lo
valores rezagados de las variables. Se le llama un modelo autorregresivos al modelo que incluye entre sus variables independientes, los valores
rezagados de la variable dependiente. Un modelo en el cual la variable dependiente está explicada por el valor actual y una serie de valores pasados de
una variable independiente es también un modelo autorregresivos.
ACTIVIDADES DE APRENDIZAJE
 Realiza la lectura del material correspondiente a la unidad.
 Enlista las características de los modelos económicos.
 Responde a la guía de autoevaluación que se encuentra al final del documento

Objetivos particulares
El alumno comprenderá cuáles son los fundamentos económicos de primeros modelos económicos dinámicos uniecuacionales, sabrá aplicar e
interpretar los principales métodos econométricos al respecto.
CONTENIDOS
1.1 Características de modelos económicos dinámicos.
1.2 Estimación directa con variables rezagados.
1.3 Interpretación y estimación de rezagas distribuidos de forma geométrica, la prueba H de Durbin.
1.4 Estimación de rezagas distribuidos de forma polinomial.

Para cubrir la información de los subtemas, consultar las siguientes fuentes:

Fichas bibliográficas de los documentos

Documento Ficha
1.A GUJARATI N. Damodar
Econometría
4ª.ed., Ed. Mc. Graw Hill, México, 2004
Págs. 632-678
1. B TIRADO de Alonso Irma
Métodos econométricos
Edit. Sothwestern E.U.A, 1982
Págs.241-281

GUJARATI N. Damodar
1.A
Econometría
4ª ed. Mc Graw Hill, México, 2004.
Págs. 632-678
En el análisis de regresión que contiene información de series de tiempo, cuando el modelo de regresión incluye no solamente los valores actuales sino
además los valores rezagados (pasados) de las variables explicativas (las X), se denomina modelo de rezagos distribuidos. Si el modelo incluye uno
o más valores rezagados de la variable dependiente entre sus variables explicativas, se denomina modelo autorregresivo. Así, representa un modelo
de rezago distribuido mientras que
Yt     o X t  1 X t 1   2 X t 2  u1
Representa un modelo de rezago distribuido mientras que
Y1     X 1  Yt 1  ut
es un ejemplo de un modelo autorregresivo. Estos últimos también se conocen como modelos dinámicos puesto que señalan la trayectoria en el
tiempo de la variable dependiente en relación con su(s) valor(es) pasado(s).
Los modelos autorregresivos y de rezagos distribuidos son utilizados extensamente en el análisis econométrico y en este capítulo se estudian en detalle
tales modelos con el objeto de averiguar lo siguiente:
1. ¿Cuál es el papel de los rezagos en economía?
2. ¿Cuáles son las razones para justificar los rezagos?
3. ¿Existe alguna justificación teórica para los modelos rezagados comúnmente utilizados en la econometría empírica?
4. ¿Cuál es la relación, de existir ésta, entre los modelos autorregresivos y los modelos de rezagos distribuidos? ¿Pueden derivarse unos de
otros?
5. ¿Cuáles son algunos de los problemas estadísticos relacionados con la estimación de tales modelos?
6. ¿La relación adelantada-rezagada entre variables implica causalidad? De ser así, ¿cómo se puede medir?
17.1 EL PAPEL DEL “TIEMPO”, O DEL “REZAGO”, EN ECONOMÍA
En economía, la dependencia de una variable Y (la variable dependiente) respecto de otra u otras variables X (las variables explicativas) raramente es
instantánea. Muy frecuentemente, Y responde a X en un lapso de tiempo, el cual se denomina rezago. Para ilustrar la naturaleza del rezago, se
consideran aquí diversos ejemplos.
Más generalmente, se puede escribir

EJEMPLO 17.1
LA FUNCIÓN CONSUMO
Supóngase que una persona recibe un incremento salarial de US $2 000 en su pago anual y supóngase que se trata de un incremento
“permanente” en el sentido de que se mantiene el incremento en el salario. ¿Cuál será el efecto de este incremento eh el ingreso sobre el gasto
de consumo anual de la persona?
Inmediatamente después del aumento en el ingreso, la gente usualmente no se apura a gastarse todo el incremento inmediatamente. Así, el
beneficiario del ejemplo puede decidir aumentar su gasto de consumo en US $800 durante el primer año después del incremento salarial en el
ingreso, en US $600 el siguiente año y en otros US $400 un año después, ahorrando el resto. A finales del tercer año, el gasto de consumo anual
de la persona habrá aumentado en US $1 800. Se puede entonces escribir la función de consumo como
Yt  cons tan te  0.4 X t  0.3 X t 1  0.2 t 2  U t (17.1.1)
donde Y es el gasto de consumo y X es el ingreso.
La ecuación (17.1.1) muestra que el efecto de un incremento en el ingreso de US $2 000 se propaga, ose distribuye, durante un periodo de tres
años. Por consiguiente, modelos como (17.1.1) se denominan modelos de rezagas distribuidos porque el efecto de una causa dada (el ingreso) se
propaga durante varios periodos. Geométricamente, el modelo de rezagos distribuidos (17.1.1) se muestra en la figura 17.1 o, alternativamente,
en la figura 17.2.

FIGURA 17.1 Ejemplo de rezagos distribuídos

FIGURA 17.2 efecto de un cambio unitario en X sobre Y en el tiempo t y sobre los


periodos subsiguientes
Yt     0 X t   t X t 1   2 X t 2  ...   k X t  k  ut (17.1.2)
que es el modelo de rezagos distribuidos con un rezago finito de k periodos. El coeficiente  0 se conoce como el multiplicador de corto plazo o de
impacto porque da el cambio en el valor medio de Y que sigue a un cambio unitario en X en el mismo periodo. 1 Si el cambio en X se mantiene al mismo
nivel desde el principio, entonces (  0  1 ) nos da el cambio en (el valor medio de) Y en el periodo siguiente, (  0  1   2 ) en el que le sigue
y así sucesivamente. Estas sumas parciales se denominan multiplicadores interim, o intermedios. Finalmente, después de k periodos se obtiene
k

         ...    
i 0
t 0 1 2 t (17.1.3)

que se conoce como el multiplicador de rezagos distribuidos de largo plazo o total, siempre y cuando la suma  exista (esto será explicado en otra
parte)
Si se define
t 
 i*   i (17.1.4)
 t 
Se obtiene  t “estandarizado”. Las sumas parciales del  i estandarizados dan entonces la proposición del impacto a largo plazo, o total, sentido
durante cierto periodo
Retornando a la regresión de consumo (17.1.1), se observa que el multiplicador de corto plazo, que no es otra cosa que la propensión marginal a
consumir de corto plazo (PMC), es 0.4, mientras que el multiplicador de largo plazo, que es la propensión marginal a consumir de largo plazo, es 0.4 +
0.3 + 0.2 = 0.9. Es decir, después de un incremento de US $1 en el ingreso, el consumidor aumentará su nivel de consumo en alrededor de 40 centavos
de dólar en el año del aumento, en otros 30 centavos en el año siguiente y en otros 20 centavos más en el siguiente año. El impacto de largo plazo de
un incremento de US $1 en el ingreso es entonces 90 centavos. Si se divide cada 1 por 0.9, se obtiene 0.44, 0.33 y 0.23 respectivamente, lo cual
indica que 44% del impacto total de un cambio unitario en X sobre Y se siente inmediatamente, el 77% se siente después de un
año y el 100% al finalizar el segundo año.

EJEMPLO 17.2
CREACIÓN DE DINERO BANCARIO (DEPÓSITOS A LA VISTA)
Supóngase que el Sistema de la Reserva Federal emite US $1 000 de dinero nuevo, el cual entrega sistema bancario mediante la compra de títulos
del gobierno. ¿Cuál será la cantidad total del dinero bancario, o depósitos a la vista, que se generarán en último término?
Siguiendo el sistema de reservas fraccionales, si se supone que la ley exige a los bancos retener un 20% de las reservas para respaldar los depósitos
que ellos crean entonces, mediante el conocido proceso multiplicador, el total de los depósitos a la vista que serán generados será igual a US $1
000[1I (1 — 0.8)1 = US $5 000. Por supuesto, US $5 000 en depósitos a la vista no serán creados de la noche a la mañana. El proceso toma tiempo,
como puede verse esquemáticamente en la figura 17.3.

FIGURA 17.3 Expansión de depósitos bancarios (reserva


inicial US $ 1 000 y requerimientos de encaje del 20%)

EJEMPLO 17.3
VÍNCULO ENTRE EL DINERO Y LOS PRECIOS
De acuerdo con los monetaristas, la inflación es esencialmente un fenómeno monetario en el sentido de que un incremento continuo en el nivel
general de precios se debe a la tasa de expansión en la oferta monetaria que excede en mayor medida la cantidad de dinero realmente demandada
1
Técnicamente  0 es la derivada parcial de y con respecto a X t , 1 con respecto X t .1,  2 a con respecto a X t 2 y así sucesivamente. Simbólicamente
Yt / X t .k  k
por las unidades económicas. Por supuesto, este vínculo entre inflación y cambios en la oferta monetaria no es instantáneo. Algunos estudios han
demostrado que el rezago entre las dos está en alguna parte entre 3 y alrededor de 20 trimestres. Los resultados de tal estudio se presentan en la
tabla 17.12, donde se ve que el efecto de un cambio de 1% en la oferta monetaria MIB (= dinero circulante depósitos a la vista en las instituciones
financieras) se siente durante un periodo de 20 trimestres. El impacto de largo plazo de un cambio de un 1% en la oferta monetaria sobre la inflación
es de alrededor de 1(m1 ) , que es estadísticamente significativo, mientras que el impacto de corto plazo es de alrededor de 0.04, que no es
significativo, aunque los multiplicadores intermedios por lo general parecen ser significativos. A propósito, obsérvese que puesto que P y M están
ambos expresados en forma porcentual, las m1 ( 1 en nuestra flotación usual) dan la elasticidad de P con respecto a M, es decir, la respuesta
porcentual de los precios a un incremento de 1% en la oferta monetaria. Así, m0  0.041 significa que para un incremento de 1% en la oferta
monetaria, la elasticidad de corto plazo de los precios es de alrededor de 0.04%. La elasticidad de largo plazo es 1.03%, lo cual implica que en el largo
plazo, un incremento de 1% en la oferta monetaria se refleja en apenas alrededor del mismo incremento porcentual en los precios. En resumen, un
incremento de 1% en la oferta monetaria está acompañado en el largo plazo por un incremento de 1% en la tasa de inflación.
TABLA 17.1
ESTIMACION DE LAECIACION DINERO-ESPECIFICACION ORIGINAL
Periodo mustral: 1995-I a 1969-IV: m21  0
20
P  0146   mi M 1
i 0
(0.395)
Coef. ItI Coef ItI Coef. ItI
mo 0.041 1.276 m8 3.249 m16 0.069 3.943
m1 0.034 1.538 m9 3.783 m17 0.062 3.712
m2 0.030 1.903 m10 4.305 m18 0.053 3.511
m3 0.029 2.171 m11 4.637 m19 0.039 3.338
m4 0.030 2.235 m12 4.795 m20 0.022 3.191
m5 0.033 2.294 m13 4.694 mi 1.031 7.870
m6 0.037 2.475 m14 4.468 Rezago 10.956 5.634
medio
m7 0.042 2.798 m15 4.202
2 0.525
R
ee 1.066
D.W 2.00
Notación: P= tasa de cambio anual compuesta del deflactor del PNB
M= tasa de cambio anual compuesta del M1B
Fuente: SEIT M. Carlosn, The Lag Money to Prices”, Federal Reserve Bank of St, Louis, ocubre en 1980, tambka 1, p. 4
EJEMPLO 17.4
REZAGOS ENTRE EL GASTO EN l &D Y LA PRODUCTIVIDAD
La decisión de invertir en gastos de investigación y desarrollo (l &D) y su compensación definitiva en términos de mayor productividad involucra un
considerable rezago, de hecho formado por diversos rezagos, tales como, “...el rezago entre la inversión de los fondos y el momento en el cual los
inventos realmente empiezan a aparecer, el rezago entre la invención de una idea o mecanismo y su desarrollo hasta llegar a la etapa en que sea
comercialmente aplicable y el rezago que se introduce en razón del proceso de difusión: se requiere tiempo para reemplazar las máquinas viejas
por nuevas y mejores”.3

EJEMPLO 17.5
LA CURVA J DE LA ECONOMÍA INTERNACIONAL
Los estudiantes de economía internacional están familiarizados con lo que se conoce como curva J, la cual muestra la relación entre el balance
comercial y la depreciación de la moneda. Al dar seguimiento a la depreciación de la moneda de un país (por ejemplo, a causa de una
devaluación), al principio la balanza comercial se deteriora, pero a la larga, mejora, si se supone que lo demás se mantiene igual. La curva se
muestra en la figura 17.4.

3
Zvi Griliches, “Dristributed Lags: A Survey”, Econometrica, Vol. 36 Num. 1, enero de 1967, pp. 6-49
FIGURA 17.4 La curva J
Fuente: Paul R. Krugman y Maurice Obstfeld, international Economics: Theory and Practice,
·3a ed. Haper Collins, Nueva York, 1994, p. 465

EJEMPLO 17.6
EL MODELO ACELERADOR DE LA INVERSIÓN
En su forma más simple, el principio de aceleración de la teoría de la inversión establece que la inversión resulta proporcional a los cambios en la
producción. De manera simbólica,
I i   ( X t  X t i )  0

donde l es la inversión en el tiempo t, X t , es la producción en el tiempo t y Xt-i es la producción en el tiempo (t— 1).

Los ejemplos anteriores son solamente una muestra del uso de los rezagos en economía. Sin duda, el lector puede dar diversos ejemplos con base en
su propia experiencia.
17.2 RAZONES PARA LOS REZAGOS 4
Aunque los ejemplos citados en la sección 17.1 señalan la naturaleza de los fenómenos rezagados, éstos no explican plenamente la razón por la cual
ocurren los rezagos. Hay tres razones principales:
1. Razones sicológicas. Como resultado de la fuerza del hábito (inercia), la gente no cambia sus hábitos de consumo inmediatamente después de
una reducción de precios o de un incremento en el ingreso probablemente debido a que el proceso de cambio puede conllevar alguna desventaja
inmediata. Así, aquellos que se convierten instantáneamente en millonarios al ganar loterías pueden no cambiar el estilo de vida al cual estaban
acostumbrados durante largo tiempo porque pueden no saber cómo reaccionar inmediatamente a una ganancia repentina como ésa. Por supuesto,
después de un tiempo razonable, ellos pueden aprender a vivir con su recién adquirida fortuna. También, la gente puede no saber si un cambio es
“permanente” o “transitorio”. Así, mi reacción a un incremento en mi ingreso dependerá de que el incremento sea permanente o no lo sea. Si es
solamente un incremento que no se repite y en los períodos siguientes mi ingreso retorna a su nivel anterior, quizá ahorre la totalidad del incremento,
mientras que otra persona en mi posición podría decidir “disfrutarlo”.
2. Razones tecnológicas. Supóngase que el precio del capital relativo al trabajo se reduce, haciendo que la sustitución del capital por trabajo sea
económicamente factible. Por supuesto, la adición de capital toma tiempo (el periodo de gestación). Además, si se espera que la caída en precios sea
temporal, las empresas pueden no apurarse a sustituir el capital por trabajo, especialmente si esperan que luego de la caída temporal el precio del
capital tal vez aumente más allá de su nivel anterior. Algunas veces, el conocimiento imperfecto también explica los rezagos. En este momento, el
mercado de computadoras personales está lleno de toda clase de computadoras con diversas características y precios. Además, desde su introducción
a finales de la década de los años setenta, los precios de la mayoría de los computadores personales se han reducido en forma drástica. Como
resultado, los posibles consumidores de computadoras personales pueden dudar en comprar hasta que hayan tenido tiempo de revisar las
características y los precios de todas las marcas que compiten. Además, ellos pueden dudar en comprar ante la expectativa de mayores descensos en
el precio o de innovaciones.
3. Razones institucionales. Estas razones también contribuyen a los rezagos. Por ejemplo, las obligaciones contractuales pueden impedir que las
empresas cambien de una fuente de trabajo o de materias primas a otra. Como otro ejemplo, aquellos quienes han colocado fondos en cuentas de
ahorro de largo plazo a término fijo, tales como uno, tres o siete años, están esencialmente “atrapados” aun cuando las condiciones del mercado de
dinero puedan ser tales que existan rendimientos más altos disponibles en otras partes. En forma similar, los patrones frecuentemente permiten escoger
a sus empleados entre diversos planes de seguro de salud, pero sólo se hace una selección y un empleado no puede cambiarse a otro plan durante un
año por lo menos. Aunque esto puede hacerse por conveniencia administrativa, el empleado está comprometido durante un año.
Por las razones recién expuestas, el rezago desempeña un papel central en economía. Esto se refleja claramente en la metodología económica del
corto y largo plazos. Por esta razón, se dice que las elasticidades precio-ingreso de corto plazo son generalmente menores (en valores absolutos) que

4
Esta sección se apoya bastante en Marc Nerlove, Distriubuted lags nad damand Análisis for Agricultural and other Commodities, Agricultura Handbook, num. 141, Departamento de
agricultura de Estados Unidos, junio de 1958
las elasticidades correspondientes de largo plazo o que la propensión marginal a consumir de corto plazo es generalmente menor, que la propensión
marginal a consumir de largo plazo.
17.3 ESTIMACIÓN DE MODELOS DE REZAGOS DISTRIBUIDOS
Una vez que se está de acuerdo en que los modelos de rezagos distribuidos desempeñan un papel bastante útil en economía, ¿cómo se estiman dichos
modelos? Supóngase específicamente, que se tiene el siguiente modelo de rezagos distribuidos en una variable explicativa: 5
Yt     0 X t  1 X t i   2 X t 2  ...  ut (17.3.1)
donde no se ha definido la longitud del rezago, es decir, qué tan atrás en el pasado se desea ir. Tal modelo se denomina modelo de rezago infinito,
mientras que un modelo del tipo (17.1.2) se denomina modelo de rezago distribuido ( rezago) finito porque la longitud del rezago k está
especificada. Se continuará utilizando (17.3.1) por ser fácil de manejar matemáticamente, como se verá. 6
¿Cómo se estiman a y las  de (17.3.1)? Pueden adoptarse dos enfoques: 1) estimación ad hoc y 2) restricciones a priori sobre las  suponiendo
que (las  ) siguen un patrón sistemático. Se considerará la estimación ad hoc en esta sección y el otro enfoque en la sección 17.4.
Estimación ad hoc de los modelos de rezagos distribuidos
Puesto que se supone que la variable explicativa X t no es estocástica (o por lo menos no correlacionada con el término de perturbación u t), igualmente
son no estocásticas Xt-1, X1-2’, y así sucesivamente. Por consiguiente, en principio, el método de mínimos cuadrados ordinarios (MCO) puede ser
aplicado a (17.3.1). Este es el enfoque adoptado por Alt 7 y Tinbergen.8 Sugieren que para estimar (17.3.1) se puede proceder secuencialmente; es decir,
primero hacer la regresión Yt sobre Xt-1, luego de Y, sobre X y X, después efectúan la regresión de Y t sobre Xt, Xt-1 y así sucesivamente. Este
procedimiento secuencial se detiene cuando los coeficientes de regresión de las variables rezagadas empiezan a hacerse estadísticamente
insignificantes y/o el coeficiente de por lo menos una de las variables cambia su signo de positivo a negativo o viceversa. Al seguir este precepto, Alt
efectuó la regresión de Y, consumo de gasolina, sobre nuevos pedidos X. Con base en información trimestral durante el periodo 1930-1939, los
resultados fueron los siguientes:

Ŷt = 8.37 + 0.171Xt


Ŷt = 8.27 + 0.111Xt + 0.064Xt-1
Ŷt = 8.27 + 0.109Xt + 0.071Xt-1 — 0.055Xt-2
Ŷt = 8.32 + 0.108Xt + 0.063Xt-1 + 0.022Xt-2—0.020Xt-3
Alt escogió la segunda regresión como la “mejor” porque en las últimas dos ecuaciones el signo de X t-2 no fue estable y en la última ecuación el signo de
X3 fue negativo, lo cual puede ser difícil de interpretar en términos económicos.
Aunque la estimación ad hoc parece sencilla y discreta, ésta posee muchas desventajas, como las siguientes:
1. No hay guía a priori sobre la longitud máxima que debe tener el rezago. 9
2.A medida que se estiman rezagos sucesivos, quedan menos grados de libertad, con lo cual la inferencia estadística se hace algo débil. Generalmente,
los economistas no tienen la suerte de contar con series largas que les permitan estimar numerosos rezagos.
3. Aún más importante, en la información de series de tiempo económicas, los valores (de rezagos) sucesivos tienden a estar altamente
correlacionados; por tanto, la multicolinealidad sale a relucir. Como se anotó en el capítulo 10, la multicolinealidad conduce a estimación imprecisa; es
decir, los errores estándar tienden a ser grandes en relación con los coeficientes estimados. Como resultado, basados en las razones t calculadas
computacionalmente, se puede tender a declarar (erróneamente), que uno o varios coeficientes de los rezagos son estadísticamente no significativos.
4. La búsqueda secuencial de la longitud de los rezagos hace que el investigador pueda incurrir en “ datamining”. También, como se anotó en la
sección 13.4, el nivel de significancia nominal y verdadero para probar hipótesis estadísticas se convierte en un asunto importante en tales búsquedas
secuenciales [véase la ecuación (13.4.2)].
En vista de los problemas anteriores, es muy poco lo que puede recomendarse en el procedimiento de estimación ad hoc. Claramente, deben tenerse
en cuenta algunas consideraciones previas o teóricas para tratar las diversas  si se desea salir adelante con el problema de estimación.
17.4 MÉTODO DE KOYCK PARA LOS MODELOS DE REZAGOS DISTRIBUIDOS

5
Si hay mas una variable explicativa en el modelo, cada variable puede tener un efecto rezagado sobre Y. por simplicidad, se supone solamente una variable explicativa.
6
En la práctica, sin embargo, se espera que lo coeficientes de los valores de los valores X distantes efecto insignificado sobre Y
7
J. Tinbergen, “Lon-term Foreig Trade Elasticies”, Metroeconomia, vol. 1, 1949, pp. 174-185
8
Si la longitud de rezago, K, esta incorrectamente, se tendrá que enfrentar el problema de os errores de especificación analizados en le capitulo 13
9
Si la longitud del rezago, k , esta especificada incorrectamente, se tendrás que enfrentar el problema de error de especificación analizado en el capitulo 13. téngase en mente también la
advertencia sobre “la búsqueda exhaustiva de datos”
Koyck ha propuesto un método ingenioso de estimación de los modelos de rezagos distribuidos. Supóngase que se empieza con un modelo de rezago
distribuido infinito (17.3.1). Suponiendo que las  tienen todas el mismo signo , Koyck da por hecho que éstos se reducen geométricamente de la
siguiente manera.10

 k   0  k k  0,1... (17.4.1) 11

donde.  , tal que 0    1 , se conoce como la tasa de descenso, o de caída, del rezago distribuido y donde 1 —  se conoce como la velocidad
de ajuste.
Lo que se postula en (17.4.1) es que cada coeficiente  sucesivo es numéricamente inferior a cada  anterior (esta afirmación se debe a que
 ) , lo cual implica que a medida que se retorna al pasado distante, el efecto de ese rezago sobre Yt , se hace progresivamente menor, un
supuesto bastante razonable. Después de todo, se espera que los ingresos actuales y del pasado reciente afecten al gasto de consumo actual con
mayor peso que el ingreso en el pasado distante. Geométricamente, el esquema Koyck se ilustra en la figura 17.5.
Como lo muestra la siguiente figura, el valor del coeficiente del rezago  k , depende, aparte del  0 común, del valor de  . Entre más cerca de 1
esté  , más lenta será la tasa de descenso en  k mientras que, entre más cerca esté de cero, más rápido será el descenso en  k En el primer
caso, los valores del pasado distante de X ejercerán un impacto considerable sobre Yt ' , mientras que en el ultimo caso su influencia sobre Yt
desaparecerá rápidamente. Este patrón puede verse claramente en la siguiente ilustración:

 0 1 2 3 4 5 ... 10
0.75 0 0.75  0 0.56  0 0.42  0 0.32  0 0.24  0 … 0.06  0
0.25 0 0.25  0 0.06  0 0.02  0 0.004  0 0.001  0 … 0.0

FIGURA 17.5 ESQUEMA DE Koyck (distribución geométrica descendiente)

Obsérvense estas características del esquema de Koyck: 1) al suponer valores no negativos para  . Koyck elimina la posibilidad de que las 
cambien de signo; 2) al suponer que   1 , le da un menor peso a las  en el pasado distante que a las actuales, y 3) asegura que la suma de las
 , que proporciona el multiplicador de largo plazo, es finita, a saber:

 1 

k 0
k   
1  
(17.4.2) 12

Como resultado de 17.4.1), el modelo de rezagos infinito (17.3.1) puede

Yt    0 X t   0 2 X t 2   0 2 X t 3  ...  ut (17.4.3)
Como está planteado, el modelo aún no está adecuado para su fácil estimación puesto que un gran número (literalmente infinito) de parámetros quedan
aún por ser estimados y el parámetro  . ingresa en una forma por completo no lineal:
estrictamente hablando, el método de análisis de regresión lineal (en parámetros) no puede ser aplicado a un modelo de este tipo. Pero ahora Koyck
sugiere una forma ingeniosa para lograrlo. Rezaga (17.4.3) en un periodo para obtener.

10
L.M. K, Distributed Lags Investment Analysis, North Holland Publishing Company, Amsterdam, 1954
11
Algunas veces esto se escribe también
 k   0 (1   )k k  0,1...
12
Esto se debe a que
 1 
 k   (1    2  3  ...) 0  
1  
Yt    0 X t   0 2 X t 2   0 2 X t 3  ...  ut 1 (17.4.4)
Luego multiplicar (17.4.4) por  para obtener

Yt 1     0 X t 1   0 2 X t 1 (17.4.5)
Al restar (17.4.5) de (17.4.3)
Yt  Yt 1   (1   )   0 X t  (u t  u t 1 ) (17.4.6)
O reordenamiento
Yt   (1   )   0 X t  Yt 1  vt (17.4.7)

donde vt  (u t  u t 1 ) es un promedio móvil de u t y u t 1


El procedimiento recién descrito se conoce como la transformación de Koyck. Comparando (17.4.7) con (17.3.1), se vela enorme simplificación lograda
por Koyck. Mientras que antes era preciso estimar ay un número infinito de /3, ahora se tienen que estimar solamente tres incógnitas:  ,  0 y  .
Ahora bien, no hay razón para esperar multicolinealidad. En cierto sentido, la multicolinealidad resuelve reemplazando X t 1 , X t  2,..., por una
variable única, a saber, Yt 1 Pero obsérvense las siguientes características de la transformación de Koyck:

1. Se empezó con un modelo de rezagos distribuidos y se terminó con un modelo autorregresivo porque Yt 1 aparece como una de las variables
explicativas. Esta transformación muestra la forma como un modelo de rezagos distribuidos se puede “convertir” en un modelo autorregresivo.
2. Es probable que la aparición de Yt 1 cree algunos problemas estadísticos. Yt 1 al igual que Yt ' es estocástica, lo cual significa que se tiene
una variable explicativa estocástica en el modelo. Recuérdese que la teoría clásica de mínimos cuadrados se basa en el supuesto de que las variables
explicativas o bien son no estocásticas o, en caso de serlo, están distribuidas independientemente del término de perturbación estocástico. Por tanto, se
debe averiguar si Yt 1 satisface este supuesto. (Se volverá a este punto en la sección 17.8.)

3. En el modelo original (17.3.1), el término de perturbación era u t ' mientras que en el modelo transformado es vt  u t 1 . Las propiedades
estadísticas ut ' dependen de lo que se suponga sobre las propiedades estadísticas de u t ya que, como se muestra más adelante, si las u t
originales no están seriamente correlacionadas, las v están seriamente correlacionadas. Por consiguiente, se puede tener que enfrentar el problema de
correlación serial adicionalmente a la variable explicativa estocástica Y1. Esto se hará en la sección 17.8.
4. La presencia de la Y rezagada viola uno de los supuestos en los cuales se basa la prueba d de Durbin-Watson. Por consiguiente, se deberá
desarrollar una prueba alternativa para verificar la correlación serial en presencia de una Y rezagada. Una alternativa es la prueba h de Durbin, que
se analiza en la sección 17.10.
Como se vio en (17.1.4), las sumas parciales de las Bi estandarizadas reflejan la proporción del impacto de largo plazo, o total, sentido durante un
cierto periodo. En la práctica, sin embargo, el rezago medio o mediano es utilizado frecuentemente para caracterizar la naturaleza de la estructura de
los rezagos de un modelo de rezagos distribuidos.
Mediana de los rezagos
La mediana de los rezagos es el tiempo requerido para la primera mitad, o el 50%, del cambio total ocurrido en Y como consecuencia de un cambio
unitario sostenido en X . Para el modelo de Koyck, la mediana de los rezagos es la siguiente (véase el ejercicio 17.6):
log 2
Modelo de Koyck: mediana de los rezagos   (17.4.8)
log 
Así, si   0.2 , = 0.2, la mediana de rezagos es 0.4306, pero si  = 0.8, la mediana de rezagos es 3.1067. Expresado verbalmente, en el primer
caso, el 50% del cambio total en Y se logra en menos de la mitad de un periodo, mientras que en el último caso, requiere más de 3 periodos para
alcanzar el cambio del 50%. Pero este contraste no debe sorprender, ya que como es sabido, entre más alto sea el valor de  menor será la velocidad
del ajuste y entre menor sea el valor de, mayor será la velocidad del ajuste.
Rezago medio
Siempre y cuando todas las  K sean positivas, el rezago medio promedio, se define como

 0 k k
Rezago medio  (17.4.9)
 0  k
que es simplemente el promedio ponderado de todos los rezagos involucrados, con los coeficientes  actuando como ponderaciones. En resumen,
es un promedio ponderado rezagado de tiempo. Para el modelo de Koyck, el rezago medio es (véase ejercicio 17.7)

Modelo de Koyck: rezago medio  (17.4.10)
1 
1
Asi si   , el rezago medio es 1
2
Y responde a
De la exposición anterior, es claro que la mediana y la media de los rezagos sirven como medida resumen de la velocidad con la cual
X . En el ejemplo dado en la tabla 17.1, el rezago medio es alrededor de 11 trimestres, indicando que se requiere
algún tiempo, en promedio, para que el efecto de los cambios en la oferta monetaria se sienta en los cambios de
precios.

EJEMPLO 17.7
CONSUMO PERSONAL PER CÁPITA
Este ejemplo analiza el gasto de consumo personal per cápita (GCPC) en relación con el ingreso disponible par cápita (IDPC) en Estados Unidos
para el periodo de 1970 a 1999; todos los datos están dados en dólares encadenados de 1996. Como una ilustración del modelo Koyck,
considérense los datos dados en la tabla 17.2. La regresión del GCPC sobre el IDPC y el GCPC rezagado arrojó los siguientes resultados:
GCPC t  1242.169  0.6033IDPC t  0.4106GCPC t 1

ee   402.5784  0.1502   0.1546


t    3.0855 4.0155  2.6561
R 2  0.9926 d  1.0056 Durbin h  5.119
Nota: el cálculo de la h de Durbin se analiza en la sección 17.10.
Si se supone que este modelo es resultado de la transformación tipo Koyck, entonces  a es 0.4106.
La mediana del rezago es:
log(2) log(2)
   0.07786
log  log(0.4106)
y la media del rezago resulta:
 0.4106
  0.6966
1   0.5894
En palabras, parece que el GCPC se ajusta al 1 DPC en el transcurso de un tiempo relativamente breve.
TABLA 17.2 GCPC E IDPC, 1970-1 999
observación GCPC IDPC observación GCPC IDPC
1970 11 300 12 823 1985 16 020 18 229
1971 11 581 13 218 1986 16 541 18 641
1972 12 149 13 682 1987 16 389 18 870
1973 12 626 14 496 1988 17 463 19 522
1974 12 407 14 268 1989 17 760 19 833
1975 12 551 14 393 1990 17 899 20 058
1976 13 155 14 873 1991 17 677 19 919
1977 13 583 15 256 1992 17 989 20 318
1978 14 035 15 845 1993 18 399 20 384
1979 14 230 16 120 1994 18 910 20 709
1980 14 021 16 063 1995 19 249 21 055
1981 14 069 16 256 1996 20 727 21 385
1982 14 105 16 328 1997 20 232 21 838
1983 14 741 16 673 1998 21 989 22 672
1984 15 401 17 799 1999 21 901 23 191
Nota: GCPC =gasto de consumo personal per capital, en dólares de 1986
IDPC= ingreso disponible per capital, en dólares de 1996.
Fuente: Economic Repot of the President , 2001, tabla B-31, p. 131

17.5 RACIONALIZACIÓN DEL MODELO DE KOYCK: EL MODELO DE EXPECTATIVAS ADAPTATI VAS


Aunque es muy claro, el modelo de Koyck (17.4.7) es ad hoc puesto que fue obtenido mediante un proceso puramente algebraico; está desprovisto de
cualquier soporte teórico. Pero esta falla puede suplirse si se empieza desde una perspectiva diferente. Supóngase que se postula el siguiente modelo:
Yt   0  1 X 1  u t (17.5.1)

donde Y  demanda de dinero (balances reales de efectivo)


X *  tasa de interés normal o esperada de largo plazo o de equilibrio, u óptima
u término de error
La ecuación (17.5.1) postula que la demanda de dinero es función de la tasa de interés esperada (en el sentido de anticipación).
Puesto que la variable de expectativas X *  no es directamente observable, se puede proponer la siguiente hipótesis sobre la manera como se
conforman las expectativas:

X t*  X t 1   ( X t  X * t 1 ) (17.5.2) 13

donde  , tal que 0    1 , es conocido como el coeficiente de expectativas. La hipótesis (17.5.2) es conocida como hipótesis de expectativas
adaptativas, expectativas progresivas o de aprendizaje por error, popularizada por Cagan14 y Friedman.15
Lo que (17.5.2) implica es que los “agentes económicos adaptarán sus expectativas a la luz de la experiencia pasada y que en particular, ellos
aprenderán de sus errores”.16 Más específicamente, (17.5.2) establece que las expectativas son corregidas cada periodo por una fracción  de la
brecha entre el valor actual de la variable y su valor esperado anterior. Así, para nuestro modelo esto significaría que las expectativas sobre tasas de
interés son corregidas cada periodo por una fracción  de la discrepancia entre la tasa de interés observada en el periodo actual y lo que había sido
su valor anticipado en el periodo anterior. Otra forma de plantear esto sería escribir (17.5.2) como
X t*  X t  (1   ) X t*1 (17.5.3)

lo cual muestra que el valor esperado de la tasa de interés en el tiempo t es un promedio ponderado del valor actual de la tasa de interés en el tiempo
t y su valor esperado en el periodo anterior, con ponderaciones de  y 1   , respectivamente. Si,   1, X t*  X t ' lo cual significa que las
expectativas se cumplen inmediatamente y en forma completa, es decir, en el mismo periodo. Si, por otra parte,   0, X t  X t 1 , lo que significa
* *

que las expectativas son estáticas, es decir, “las condiciones que prevalecen hoy se mantendrán en todos los periodos subsiguientes. Los valores
futuros esperados se identifican entonces con los valores actuales”. 17
Sustituyendo (17.5.3) en (17.5.1), se obtiene
Yt   0  1 X 1  (1   )Yt 1  u t  (1   )u t 1 (17.5.5)

  0   1 X t  (1   )Yt 1  vt

Donde v t  u t  (1   )u t 1

Antes de continuar, es preciso advertir sobre la diferencia entre (17.5.1) y (17.5.5). En la primera,  1 mide la respuesta promedio de
Y ante un
cambio unitario en X , el valor de equilibrio o de largo plazo de X . En (17.5.5), por otra parte,  1 mide la respuesta promedio de Y ante un
*

cambio unitario en el valor actual u observado de X . Estas respuestas no serán las mismas a menos, por supuesto, que   1 es decir, los valores
actuales y de largo plazo de X sean los mismos. En la práctica, primero se estima (17.5.5). Una vez que se ha obtenido una estimación de  a partir
del coeficiente de la  rezagada, se puede calcular  1 , con facilidad simplemente dividiendo el coeficiente X t (   1 ) por 
La similitud entre el modelo de expectativas adaptativas (17.5.5) y el modelo de Koyck, (17.4.7) debe verse fácilmente aunque las interpretaciones de
los coeficientes en los dos modelos son diferentes. Obsérvese que el modelo de expectativas adaptativas es autorregresivo, lo mismo que el modelo de
Koyck y su término de error es similar al término de error de Koyck. Se volverá a tratar la estimación del modelo de expectativas adaptativas en la
sección 17.8 y se darán algunos ejemplos en la sección 17.12. Ahora que se ha delineado el modelo de expectativas adaptativas (EA), ¿qué tan realista

13
algunas veces el modelo expresado como X t*  X t*1   ( X t 1  X t*1 )
14
P. Pagan, “The Monetary Dynamics of Hyperinflations”, en M. Friedman (ed.), Studies in the quantity Theory of Money, University of Chicago Press, Chicago
15
Milton Friedman, A Theory of the Consumption function, national Bureau of economic research, Princeton University Press, Princeton, N.J. 1957
16
G.K, Shaw, Rational Expectations: An Elementary Exposition, St. Martin’s Press, Nuevo York, 1984, p. 25
17
Ibid., pp-20
es éste? Es cierto que es más atractivo que el enfoque de Koyck puramente algebraico pero, ¿la hipótesis EA es razonable? En favor de la hipótesis EA
se puede decir lo siguiente:
Proporciona un medio relativamente simple de diseñar modelos de expectativas en la teoría económica mientras que a la vez, postula una forma de
comportamiento por parte de los agentes económicos que parece ser eminentemente razonable. La creencia de que la gente aprende de la experiencia es,
obviamente, un punto de partida más razonable que el supuesto implícito de que ella está totalmente desprovista de memoria, característica de la tesis de
expectativas estáticas. Además, la afirmación de que experiencias más distantes ejercen un efecto menor que las experiencias más recientes estarían de acuerdo
con el sentido común y parecerían estar ampliamente confirmados por la simple observación.18
Hasta la llegada de la hipótesis de expectativas racionales (ER), planteada inicialmente por J. Muth y difundida más adelante por Robert Lucas y
Thomas Sargent, la hipótesis EA fue bastante popular en la economía empírica. Los proponentes de la hipótesis ER sostienen que la hipótesis EA es
inadecuada porque la formulación de expectativas se basa tan sólo en los valores pasados de una variable,” 19 mientras que la hipótesis ER supone,
“que los agentes económicos individuales utilizan información actual disponible y relevante en la formación de sus expectativas y no se apoyan
únicamente en la experiencia pasada”. 20 En resumen, la hipótesis ER sostiene que “las expectativas son ‘racionales’ en el sentido de que incorporan
eficientemente toda la información disponible en el momento en que se formulan las expectativas” 21 y no solamente la información pasada.
La crítica dirigida por los proponentes de la ER en contra de la hipótesis EA es bien recibida, aunque hay muchas críticas a la propia hipótesis ER. 22
Éste no es el lugar para dejarse enredar con este material reciente. Posiblemente se puede estar de acuerdo con Stephen McNees en que, “en el mejor
de los casos, el supuesto de las expectativas adaptativas puede ser defendido solamente como una ‘hipótesis de trabajo’ o aproximación a un
mecanismo de formación de expectativas más complejo, posiblemente cambiante” 23
EJEMPLO 17.8
EJEMPLO 17.7 RECONSIDERADO
Si se considera el modelo (1 7.4.11) como generado por el mecanismo de expectativas adaptativas (es decir, el GCPC como una función del IDPC
esperado), entonces  el coeficiente de expectativas, puede ser obtenido de (17.5.5) como   1  0.4106  0.5894 Luego, siguiendo el
análisis anterior sobre el modelo EA, se puede decir que alrededor de 59% de la discrepancia entre el GCPC observado y el esperado es
eliminada en el término de un año.
17.6 OTRA RACIONALIZACIÓN DEL MODELO DE KOYCK: MODELO DE AJUSTE DE EXISTENCIAS O DE AJUSTE PARCIAL
El modelo de expectativas adaptativas es una forma de racionalizar el modelo de Koyck. Otra racionalización ha sido dada por Marc Nerlove en el
llamado modelo de ajuste de existencias o de ajuste parcial (MAP). 24 Para ilustrar este modelo, considérese el modelo de acelerador flexible de la
teoría económica, que supone que hay un nivel de existencias de capital de equilibrio, óptimo, deseado, o de largo plazo requerido para generar una
*
producción dada bajo unas condiciones dadas de tecnología, tasa de interés, etc. Por simplicidad, supóngase que este nivel de capital deseado Yi es
una función lineal de la producción X de la siguiente manera:

Yt*   0  1t  ut (17.6.1)


Puesto que el nivel deseado de capital no es directamente observable, Nerlove postula la siguiente hipótesis, conocida como hipótesis de ajuste parcial
o de ajuste de existencias:
Yt  Yt 1 (Yt *  Yt 1 ) (17.6.2) 25

donde  , tal que  0   (Yt  Yt 1 ) , es conocido como el coeficiente de ajuste y donde Y tYt 1 cambio observado, y (Yt  Yt 1 )
* *

cambio deseado.
Puesto que Yt  Yt 1  , el cambio en las existencias de capital entre dos periodos, no es otra cosa que la inversión, (17.6.2) puede escribirse
alternativamente como
I t   (Yt *  Yt 1 )

Donde I t inversión en el periodo t

18
Ibíd. . p 27
19
Al igual que el modelo de Koyck, puede demostrarse que, bajo EA, las expectativas de una variable son el proceso ponderado exponencialmente de valores pasados de dicha variable
20
G.K. Shaw, op cit., p. 47. para detalles adicionales de la hipótesis ER, véase Steven M. CEFRIN, Racional Expectations, Cabridge University Prees, Nueva York, 1983
21
Stephen K. McNess, “the Phillips Curve: Forward-or
22
para una reciente evaluación critica de la hipótesis ER, véase Michel C. Novell, “Test of the Racional Expectations Hipótesis”
23
Stephen K. McNess,op cit., p. 50
24
Marc Nerlove, Distrubuted Lags and Deman Análysis ford Agruculrural and Other Commodities, op Cit
25
Algunos autores no agregan el término estocástico de error u t a la relación (17.6.1) pero lo atañe a esta relación, creyendo que si la primera es verdadera una relación de equilibrio, el
término de error no tiene fundamento, mientras que el mecanismo de ajuste puede ser imperfecto y pueden requerir el termino de perturbación. A propósito, obsérvese que /17.6.2) se
escribe algunas veces también como Yt  Yt 1   (Yt *  Yt 1 )
La ecuación (17.6.2) postula que el cambio observado en las existencias de capital (la inversión) en cualquier momento del tiempo t es alguna
fracción (5 del cambio deseado durante ese periodo. Si   1 , significa que las existencias de capital reales son iguales a las existencias deseadas;
es decir, las existencias reales se ajustan instantáneamente (durante el mismo periodo) a las deseadas. Sin embargo, si   0 significa que nada
cambia puesto que las existencias actuales en el tiempo t son las mismas que las observadas en el periodo anterior. Típicamente, se espera que  se
encuentre dentro de estos extremos puesto que es probable que el ajuste a las existencias deseadas de capital sea incompleto debido a rigideces,
inercia, obligaciones contractuales, etc., de aquí el nombre de modelo de ajuste parcial. Obsérvese que el mecanismo de ajuste (17.6.2) puede
escribirse alternativamente como

I t   (Yt *  Yt 1 ) (17.6.3)

mostrando que las existencias de capital observadas en el tiempo t son un promedio ponderado de las existencias de capital deseado en ese
momento y las existencias de capital observadas en el periodo anterior, siendo  y (1   ) las ponderaciones. Ahora, la sustitución de (17.6.1) en
(17.6.4) da
Y   (  0  1 X t  ut )  (1   )Yt 1 (17.6.5)

  0  1 X 1  (1   )Yt 1  u t
Este modelo se denomina modelo de ajuste parcial (MAP)
Puesto que (17.6.1) representa la demanda de existencias de capital de largo plazo o de equilibrio, (17.6.5) puede denominarse la función de demanda
de existencias de capital de corto plazo, puesto que en el corto plazo, las existencias de capital pueden no ser necesariamente iguales a su nivel en el
largo plazo. Una vez que se estima la función de corto plazo (17.6.5) y se obtiene la estimación del coeficiente de ajuste  (del coeficiente de Yt 1
), se puede derivar fácilmente la función de largo plazo dividiendo simplemente  0 y 1 omitiendo el término rezagado de Y, lo cual dará entonces
(17.6.1).
Geométricamente, el modelo de ajuste parcial puede mostrarse como aparece en la figura 17.6 26 En esta figura, Y * son las existencias deseadas de
capital y Y1 las existencias reales de capital del periodo en curso. Para fines ilustrativos, supóngase que   0.5. Esto implica que la empresa
planea cerrar la mitad de la brecha entre las existencias de capitales reales y deseados de cada periodo. Así, en el primer periodo, ésta se mueve a
Y2 ' con una inversión igual a, que a su vez, es igual (Y2 '  Y1 ) a la mitad de En cada periodo subsiguiente, éste cierra la mitad (Y *  Yt ) de
la brecha entre las existencias de capital a principios del periodo y las existencias deseadas de capital Y *
El modelo de ajuste parcial se parece a los modelos de Koyck y de expectativas adaptativas en que es autorregresivo. Sin embargo, tiene un término de
perturbación mucho más sencillo: el término de perturbación original u multiplicado por una constante  . Pero téngase en mente que aunque son
similares en apariencia, los modelos de expectativas adaptativas y de ajuste parcial conceptualmente son muy diferentes. El primero está basado en la
incertidumbre (sobre el curso futuro de los precios, las tasas de interés, etc.), mientras que el último se debe a rigideces técnicas o institucionales, a la
inercia, al costo del cambio, etc. Sin embargo, teóricamente ambos modelos son mucho más sólidos que el modelo de Koyck.
Puesto que aparentemente los modelos de expectativas adaptativas y de ajuste parcial son indistinguibles, el coeficiente y de 0.5894 del modelo de
expectativas
FIGURA 17.6. Ajuste gradual existencias de capital

adaptativas puede ser


interpretado también como
el coeficiente  del
modelo de ajuste de
existencias si se supone que
el último modelo es
operativo en el presente caso
(es decir, es el GCPC
deseado o esperado que está relacionado linealmente con el IDPC actual).
El punto importante para tener en cuenta es que puesto que el modelo de Koyck, el de expectativas adaptativas y el de ajuste de existencias aparte de
la diferencia en la apariencia del término de error— producen al final el mismo modelo estimado; así que se debe tener gran cuidado al decir al lector
cuál modelo está utilizando el investigador y por qué. Por tanto, los investigadores deben especificar el soporte teórico de sus modelos.

177 COMBINACIÓN DE LOS MODELOS DE EXPECTATIVAS ADAPTATIVAS Y DE AJUSTE PARCIAL

26
Esto es adaptado de la figura 7.4 de Rudiger Dornbusch y Stander y Fricher, macroeconomics, 3ª ED., Mc Graw-Hill, Nueva York, 1984, p.216

Opcional
Considérese el siguiente modelo:
Yt *   0  1 X t*  ut (17.7.1)
donde Y = existencias de capital deseadas y X = nivel de producción esperado. Puesto que ni y; ni X son directamente observables, se puede utilizar el
mecanismo de ajuste parcial para y y el modelo de expectativas adaptativas para
a fin de llegar a la siguiente ecuación de estimación (véase el ejercicio 17.2):
Yt   0  1X 1   (1   )  (1   )Yt 1

 (1   )(1   )Yt 2  ut   (1   )ut 1  (17.7.2)

  0   1 X t   2Yt 1   3Yt 2  vt

 
donde vt   ut  (1   )u t 1 . Este modelo es también autorregresivo y en el que la única diferencia con respecto al modelo de expectativas
puramente adaptativas consiste en que Yt  2 aparece junto con Yt 1 como variable explicativa. Al igual que los modelos de Koycky AE, el término
de error en (17.7.2) sigue un proceso de promedios móviles. Otra característica de este modelo es que aunque el modelo es lineal en las a, no es lineal
en los parámetros originales.
Una aplicación conocida de (17.7.1) ha sido la hipótesis del ingreso permanente de Friedman, que plantea que el consumo “permanente” o de largo
plazo es una función del ingreso “permanente” o de largo plazo. 27
La estimación de (17.7.2) presenta los mismos problemas de estimación que el modelo de Koyck o que el modelo EA, ya que todos estos modelos son
autorregresivos con estructuras similares de error. Adicionalmente, (17.7.2) involucra algunos problemas de estimación no lineal que se considerarán
brevemente en el ejercicio 17.10, pero los cuales no se tratarán a fondo en este libro.
17.8 ESTIMACIÓN DE MODELOS AUTORREGRESIVOS
Del análisis realizado hasta el momento se tienen los tres modelos siguientes:
Koyck
Y1   (1   )   0 X t  t 1  (ut  ut 1 ) (17.4.7)
Expectativas adaptativas
Yt   0  1 X t  (1   )Yt 1   ut  (1   )ut 1  (17.5.5)
Ajuste parcial
Yt   0  1 X t  1   Yt 1  ut (17.6.5)

Todos estos modelos tienen la forma común siguiente


Yt   0   1 X t   2Yt 1  vt (17.8.1)
es decir, todos son autorregresivos por naturaleza. Por consiguiente, se debe mirar ahora el problema de estimación de dichos modelos, porque los
mínimos cuadrados clásicos pueden no ser aplicables directamente a ellos. La razón es doble: la presencia de variables explicativas
estocásticas y la posibilidad de correlación serial.
Ahora, como se mencionó anteriormente, para la aplicación de la teoría clásica de mínimos cuadrados, debe demostrarse que la variable explicativa
estocástica Yt 1 está distribuida independientemente del término de perturbacíón vt  Para determinar si esto es así, es esencial conocer las

propiedades de vt  . Si se supone que el término de perturbación original u t , satisface todos los supuestos clásicos, tales como E (u t )  0 , var

(u t )   2 (el supuesto de homoscedasticidad) y cov(ut 'ut s )  0 para s  0 (el supuesto de no autocorrelación), vt puede no heredar
todas estas propiedades. Considérese, por ejemplo, el término de error en el modelo de Koyck, que es vt  (u t  u t 1 ) Dados los supuestos sobre
u t ' , se puede demostrar fácilmente que vt está serialmente correlacionada porque

E (vt vt 1 )   2 (17.8.2) 28

27
Milton Friedman, A Thery of Consumption Funcion, princeton University Press, Princeton, N.J., 1957
28 E (vt vt 1 )  E (uut  ut 1 )(u t 1  ut 2 )
que es diferente de cero (a menos de que 2 resulte ser cero). Y puesto que aparece en el modelo de Koyck como variable explicativa, está limitado a
estar correlacionado con y, (a través de la presencia de u1 en éste). De hecho, puede demostrarse que

covYt 1' (u t  ut 1 )   2 (17.8.3)


que es lo mismo que (17.8.2). El lector puede verificar que lo mismo es cierto con respecto al modelo de expectativas adaptativas.
¿Cuál es la implicación de encontrar que en el modelo de Koyck, al igual que en el modelo de expectativas adaptativas, la variable explicativa
estocástica Yt 1 está correlacionada con el término de error vt  ? Como se mencionó anteriormente, si una variable explicativa en un modelo
de regresión está correlacionada con el término de perturbación estocástico, los estimadores MCO no solamente están sesgados sino
que además, no son siquiera consistentes; es decir aun si el tamaño de la muestra se aumenta indefinidamente, los estimadores no se
aproximan a sus valores poblacionales verdaderos. 29 Por consiguiente, la estimación de los modelos de Koyck y de expectativas
adaptativas mediante el procedimiento usual MCO pueden producir resultados inconducentes o erróneos.
Sin embargo, el modelo de ajuste parcial es diferente. En este modelo, vt  ut ' .donde 0    1 Por consiguiente, si u t satisface los supuestos

del modelo clásico de regresión lineal dado anteriormente, igual lo hará ut . Por tanto, la estimación MCO del modelo de ajuste parcial dará
estimaciones consistentes aun cuando las estimaciones tiendan a estar sesgadas (en muestras finitas o pequeñas). 30 Intuitivamente, la razón para la
consistencia es ésta: aunque Yt 1 depende de u t 1 y de todos los términos de perturbación anteriores, no está relacionada con el término de
error actual u t . Por consiguiente, siempre que u t . sea seriamente independiente, Yt 1 también será independiente o por lo menos no estará
correlacionada con u t ' satisfaciendo con esto un supuesto importante de MCO, a saber, la no correlación entre la(s) variable(s) explicativa(s) y el
término de perturbación estocástico.
Aunque la estimación MCO del modelo de ajuste de existencias, o parcial, proporciona una estimación consistente debido a la estructura simple del
término de error en un modelo de éstos, no se debe suponer que se aplica en lugar del modelo de Koyck o de expectativas adaptativas. 31 Se aconseja
al lector no hacer esto. Un modelo debe seleccionarse con base en consideraciones teóricas sólidas, no simplemente porque pueda conducir a una
estimación estadística sencilla. Todo modelo debe ser considerado por sus propios méritos, prestando debida atención a las perturbaciones estocásticas
que aparecen en ellos. Si en modelos tales como el de Koyck o el de expectativas adaptativas no es posible aplicar directamente el MCO, se deben
diseñar métodos para resolver el problema de estimación. Existen diversos métodos alternativos de estimación disponibles aunque algunos pueden ser
computacionalmente tediosos. En la siguiente sección se considera uno de estos métodos.
17.9 MÉTODO DE VARIABLES INSTRUMENTALES (IV)
La razón por la cual el MCO no puede aplicarse al modelo de Koyck o de expectativas adaptativas es que la variable explicativa Yt 1 tiende a estar

correlacionada con el término de error vt  . Si de alguna manera es posible eliminar esta correlación, se pueden aplicar MCO para obtener
estimaciones consistentes, como se mencionó anteriormente. (Nota: habrá algún sesgo de muestra pequeña.) ¿Cómo puede lograrse esto? Liviatan ha
propuesto la siguiente solución.32

Supóngase que se encuentra una variable representante para Yt 1 que esté altamente correlacionada con Yt 1 pero que no lo está con vt 
donde vt  es el término de error que aparece en el modelo de Koyck o en el de expectativas adaptativas. Tal representación se denomina variable
instrumental (VI).33 Liviatan sugiere a X t 1 como variable instrumental para Yt 1 y sugiere además que los parámetros de la regresión (17.8.1)
pueden ser obtenidos al resolver las siguientes ecuaciones normales:
Yt  nˆ 0  ˆ1X 1  ˆ 2 t 1

Yt X t  ˆ 0  t  ˆ1 2  ˆ 2 t 1  t

 E (u t 1 ) 2 puesto que se supone que las covarianzas entre u son cero
  2

29
la prueba se sale del alcance de este libro y puede encontrarse den Grilches, op., cit pp. 36-38. sin embargo, véase en el capitulo 18 un esquema de la prueba en otro contexto. Véase
también Asatoshi Mechero, “theaching regresión with a lagged Depandet Variable and Autocorrelated Disturbances”, the Journal Of Economic education, invierno de 1996, vol. 27, num. 1
pp72-84
30
Para una prueba, véase además J. Johnston, Econometric Methods 3ª. Ed., McGraw-Hill, Nueva York, 1984, pp. 360-362.
31
También, como lo menciona J. Johnston (op., cit.p 50), el patrón de ajuste
32
N Liviatan, “Consistent Estimation of Distribuited Lags internacional Econometric Review, Vol. 4 enero de 1963, pp. 44-52
33
Estas variantes instrumentales se utilizan frecuentemente en modelos de ecuaciones simultaneas (véase capitulo)
t  t 1  ˆ 0  t 1  ˆ1 t  t 1ˆ 2 t 1  t 1 (17.9.1)
Obsérvese que si fuera a aplicar MCO directamente (17.8.1), las ecuaciones normales MCO usuales serian (véase la sección 7.4)

Yt  nˆ 0  ˆ1X 1  ˆ 2 t 1

Yt X t  ˆ 0  t  ˆ1 2  ˆ 2 t 1  t (17.9.2)

t  t 1  ˆ 0  t 1  ˆ1 t  t 1  ˆ 2  2 t 1
La diferencia entre los dos conjuntos de ecuaciones normales debe verse fácilmente. Liviatan ha demostrado que las estimadas a partir de (17.9.1) son
consistentes, mientras que aquellas estimadas de (17.9.2) pueden no serlo porque Yt 1 y 
vt  ut  ut 1out (1 ) ut 1  pueden estar
correlacionadas, mientras que X t y X t 1 no están correlacionadas con vt  . (¿Por qué?)
Aunque en la práctica es fácil de aplicar una vez que se ha encontrado una variable representante apropiada, es probable que la técnica de Liviatan
presente el problema de multicolinealidad debido a que es factible que, X t y X t 1 que son parte de las ecuaciones normales de (17.9.1), estén
altamente correlacionadas (como se mencionó en el capítulo 12, es típico que la mayoría de las series de tiempo económicas presenten un alto grado
de correlación entre valores sucesivos). La implicación, entonces, es que aunque el procedimiento de Liviatan genera estimaciones consistentes, es
probable que los estimadores sean ineficientes. 34
Antes de continuar, la pregunta obvia es: cómo encontrar una “buena” variable representante para Yt 1' , de tal manera que, aunque esté altamente

correlacionada con Yt 1' no lo esté con vt  Hay algunas sugerencias en la literatura, que se consideran aquí en forma de ejercicio (véase el
ejercicio 17.5). Pero debe afirmarse que encontrar buenas variables representantes no siempre es fácil, en cuyo caso el método VI es de poca utilidad
práctica y puede ser necesario recurrir a las técnicas de estimación de máxima verosimilitud, que están fuera del alcance de este libro. 35
¿Aquí existe una prueba que puede utilizarse para averiguar si el (los) instrumento(s) es (son) válido(s)? Dennis Sargan desarrolló una prueba,
conocida como la prueba SARG, para este propósito, misma que se describe en el apéndice
17.10 DETECCIÓN DE AUTOCORRELACIÓN EN MODELOS AUTORREGRESI VOS: PRUEBA h DE DURBIN

Como se ha visto, la probable correlación serial en los errores vt  hace que el problema de estimación en el modelo autorregresivo sea algo

complejo: en el modelo de ajuste de existencias, el término de error vt  no tenía correlación serial (de primer orden) cuando el término de error u t

en el modelo original no estaba serial- mente correlacionado, mientras que en los modelos de Koyck y de expectativas adaptativas, vt  estaba

serialmente correlacionado aun cuando u t fuera serialmente independiente. La pregunta entonces es: ¿cómo se sabe si hay correlación serial en el
término de error que aparece en los modelos autorregresivos?
Como se mencionó en el capítulo 12, el estadístico d de Durbin-Watson no puede ser utilizado para detectar correlación serial (de primer orden) en
modelos autorregresivos porque el valor d calculado en tales modelos generalmente tiende a 2, que es el valor de d esperado en una secuencia
verdaderamente aleatoria. En otras palabras, si el estadístico d suele calcularse en forma computacional para tales modelos, se forma un sesgo
inherente que impide descubrir la correlación serial (de primer orden). A pesar de esto, muchos investigadores calculan el valor  por falta de algo
mejor. Recientemente, sin embargo, Durbin mismo ha propuesto una prueba de muestras grandes para la correlación serial de primer orden en modelos
autorregresivos.36 Esta prueba se llama el estadístico h.
Ya se analizó la prueba h de Durbin en el ejercicio 12.36. Por conveniencia, se reproduce el estadístico h (con un ligero cambio en la notación):

n
h  pˆ

1  n var(ˆ 2 )  (17.10.1)

34
Para ver la forma como puede mejorarse la eficiencia de los estimadores, conultese Lawrece R. Klien, A Texttbook of Economics, 2ª. Ed., Prentice-Hall Englewood, N.,J 1974, p. 99. Vease
tambien en Wiliam H. Greene, Econometric Analysis, Macmillan, 2a ed. Nueva York 1993, pp. 535-538
35
Para un análisis condensado de los métodos de Mv, vease J.Jhonson, op. cit., pp. 366-371, al igual que el apéndice 4ª y el apéndice 15A
36
J.Durbin, “Testinfor >Serial Correlation in Leas-Squares regression When Some Of The Repressor Are Lagged Depended Variables” Econometrical, Vol. 38, 1970, pp. 410-421
donde n = tamaño de la muestra, var(ˆ 2 )  varianza del coeficiente del rezago Yt (  Yt 1 ) en (17.8.1), yp
ˆ es la estimación de p , la
correlación serial de primer orden analizada en el capítulo 12.
Como se mencionó en el ejercicio 12.36, para un tamaño de muestra grande, Durbin ha demostrado que si p  0 , el estadístico h sigue la
distribución normal estándar. Es decir
hasi  N (0,1) (17.10.2)
donde así significa asintóticamente.
En la practica puede calculare p , como se ha visto en el capitulo 12, de la siguiente manera:
d
pˆ  1  (17.10.3)
2
Es interesante observar que aunque no puede utilizarse la d de Durbin para probar la autocorrelación en los modelos autorregresivos, puede
emplearse como un dato para determinar el estadístico h
Se ilustrará el empleo del estadístico h con el ejemplo 17.7. En dicho ejemplo, n  30, p
ˆ  (1  d / 2)  0.4972 (nota: d = 1.0056), y var
(ˆ 2 )  var(GCPCt 1 )  (0.1546) 2  0.0239. . Sustituyendo esos valores en (17.10.1), se obtiene

30
h  0.4972  5.1191 (17.10.4)
1  30(0.0239)

Puesto que este valor h presenta una distribución normal estándar bajo la hipótesis nula, la probabilidad de obtener tal valor h tan alto es muy
pequeña. Recuérdese que la probabilidad de que una variable normal estándar rebase el valor de  3 es demasiado reducida. Así que en el ejemplo
presente, la conclusión es seguir la distribución normal estándar asintóticamente. La muestra de 30 observaciones quizá no sea necesariamente
grande.
Obsérvense estas características del estadístico h :
1. No importa cuántas variables  o cuántos valores rezagados de Y se incluyan en el modelo de regresión. Para calcular h , se debe considerar
solamente la varianza del coeficiente de rezago t 1

 
2. La prueba no es aplicable si n var(ˆ 2 ) excede a 1. (¿Por qué?) En la práctica, sin embargo, no es usual que esto suceda.

3. Puesto que se trata de una prueba de muestras grandes, su aplicación en muestras pequeñas, no se justifica estrictamente, como lo demuestran
Inder37 y Kiviet. 38 Se ha sugerido que la prueba de Breusch-Godfrey (BG), también conocida como prueba del multiplicador de Lagrange, analizada en
el capítulo 12, es estadísticamente más potente, no solamente en las muestras grandes, sino también en muestras finitas, o pequeñas y, por
consiguiente, es preferible a la prueba h .39
17.11 EJEMPLO NUMÉRICO: LA DEMANDA DE DINERO EN CANADÁ DE I-1 979 A IV-1 988
Para ilustrar la utilización de los modelos que se han visto hasta este momento, téngase en cuenta una de las primeras aplicaciones empíricas, a saber,
la demanda de dinero (o saldos reales de efectivo). En particular, considérese el siguiente modelo. 40

M t*   0RtB1Yt B1e ut (17.11.1)

Donde M t  demanda de dinero (balances reales de efectivo) deseada, o de largo plazo


*

Rt  tasa de interés a largo plazo, %

Y t ingreso nacional real agregado


Para la estimación estadística, (17.11.1) puede expresarse convenientemente en forma logarítmica como
InM t*  In 0  1 InRt   2 InYt  u t (17.11.2)

Puesto que la variable de demanda deseada no es observable directamente, supóngase la hipótesis de ajuste de existencias, a saber,
37
B. Inder “ An Approximation to the Nul Distribution of the Durban- Watson Attic In Models Containing Lagged Dependent Variables”, Econometric Theory, Vol2, num. 34, pp 413-428
38
J. F. Kivet, “on the Vogour of Some Misspecification Tests for Modelling Dynamic Relationships” review of Economic Studies, vol. 53, num. 173, 1986, pp. 241-262.
39
Gabor Korosi, Laszlo Matyas e Istvan. P. Sleekly, Practical Econometrics, Ash gate Publishing Company, Brookfield, Vermont, 1992
40
Para un modelo similar, véase Gregory C. Chow, “On the Lon-Run and Short-Rund Demand for Money”, Journal of Polítical Economy, vol. 74, num. 2 1996, pp. 111-131 obsérvese que una
ventaja de la función multiplicativa es que los exponentes de las variables proporcionan estimados directos de las elasticidades (véase el Cáp.6 )

M t  M t* 
  0    1 (17.11.3)
M t  M t 1 
La ecuación (17.11.3) establece que un porcentaje constante (¿por qué?) de la discrepancia entre los balances reales de efectivo observados y los
deseados es eliminada en un solo periodo (año). En forma logarítmica, la ecuación (17.11.3) puede expresarse como
InM t  InM t 1   ( InM t*  InM t 1 ) (17.11.4)
Sustituyendo ln M de (17.11.2) en la ecuación (17.11.4) y reordenando, se obtiene
InM t  In 0  1InR   2InYt  (1   ) InM t 1  ut (17.11.5) 41

que puede llamarse la función de demanda de dinero a corto plazo. (¿ Por qué?)
TABLA 17.3 DINERO, TASA DE INTERES, INDICE DE PRECION Y PIB PARA CANADÁ
Observación M1 R P PIB
1979-1 22 175.00 11.13333 0.77947 334 800
1979-2 22 841.00 11.16667 0.80861 336 708
1979-3 23 461.00 11.80000 0.82649 340 096
1979-4 23 247.00 14.18333 0.84863 341 844

1980-1 23 811.00 14.38333 0.86693 342 776


1980-2 23 612.33 12.98333 0.88950 342 776
1980-3 24 543.00 10.71667 0.91553 342 264
1980-4 25 638.66 14.53333 0.93743 347 780

1981-1 24 316.00 17.13333 0.9523 354 836


1981-2 25 501.33 18.56667 0.98774 359 352
1981-3 25 382.33 21.01666 1.01314 356 152
1981-4 24 735.00 16.61665 1.03410 353 636

1982-1 25 094.33 15.35000 1.05743 349 568


1982-2 25 253.66 16.04999 1.07748 345 284
1982-3 25 553.00 14.31667 1.09666 343 028
1982-4 25 553.00 10.88333 1.11641 340 292

1983-1 26 755.33 9.616670 1.12303 346 072


1983-2 27 412.00 9.316670 1.13395 353 860
1983-3 28 403.33 9.333330 1.14721 359 544
1983-4 28 402.33 9.550000 1.16059 362 304

1984-1 28 715.66 10 08333 1.17117 368 280


1984-2 28 996.33 11.45000 1.17406 376 768
1984-3 28 479.33 12.45000 1.17795 381 016
1984-4 28 669.00 10.76667 1.18438 385 396

1985-1 29 018.66 10.51667 1.18990 390 240


1985-2 29 398.66 9.666670 1.20625 391 580
1985-3 30 203.66 9.033330 1.21492 396 384
1985-4 31 059.33 9.016670 1.21805 405 308

1986-1 30 745.33 11.03333 1.22408 405 680


1986-2 30 477.66 8.733330 1.22856 408 116
1986-3 31 563.66 8.466670 1.23916 409 160
1986-4 32 800.66 8.40000 1.25368 409 616

1987-1 33 958.33 7.25000 1.27117 416 484


1987-2 35 795.66 8.30000 1.28429 422 916
1987-3 35 878.66 9.30000 1.29599 429 980
1987-4 36 336.00 8.70000 1.31001 436 264

1988-1 36 480.33 8.616670 1.32325 440 592


1988-2 37 108.66 9.133330 1.33219 446 680

41
A propósito, obsérvese que este modelo es esencialmente no lineal en los parámetros. Por consiguiente, aunque MCO puede general una estimación insesgada de, por ejemplo
1 , toando en conjunto, puede no dar estimaciones insesgadas de 1 y individualmente, especialmente si la muestra es pequeña
1988-3 38 423.00 10.05000 1.35065 450 328
1988-4 38 480.66 10.83333 1.36648 453 516
Notas: M1=$C, millones.
P= desflator implícito de precio (1981=100)
R= tasa de interese corporativa preferencial a 90 días %
PIB=$C, millones (precios de 1981)
Funte:Rao, op.cit pp.21
Como una ilustración de la demanda de saldos reales de efectivo a corto y largo plazos, considérense ¡os datos dados en la tabla 17.3. Tales datos
trimestrales pertenecen a Canadá, para el periodo de 1979 a 1988. Las variables están definidas de la siguiente forma: M [como se definió por la oferta
de dinero M1 de tener cifras de saldos en efectivo reales. A priori se espera que la demanda , en dólares canadienses (C$), millones], P (deflator de
precio implícito, 1981 = 100), PIB a precios constantes de 1981 (C$, millones) y R (tasa preferencial de interés empresarial a 90 días, %) 42 P tuvo un
efecto de deflación sobre Mi, a fin de tener las cifras de los saldos de efectivos reales. A priori, se espera que la demanda de dinero real éste
positivamente relacionada con el PIB (efecto de ingreso positivo) y negativamente relacionada con R (mientras mayor sea la tasa de interés, mayor será
la oportunidad de costo de poseer dinero, en vista de que el dinero MI paga muy poco interés, si llega a pagar alguno)

Los resultados de la regresión fueron los siguientes:

InM t  0.8561  0.0634 InRt  0.0237 InPBI t 0.9607 InM t 1


ee  (0.5101)(0.0131)(0.0366)(0.0414)
t  (1.6782)(4.8134)(0.6466)(23.1972)
R 2  0.9482 d  2.4582 F  213.7234 (17.11.6) 43

La función de demanda a corto plazo estimada muestra que la elasticidad del interés a corto plazo tiene el signo apropiado y que es estadísticamente
muy significativa, debido a que, su valor p es casi cero. La elasticidad del ingreso a corto plazo sorprendentemente resulta negativa, a pesar de que
desde un punto de vista estadístico no es diferente de cero. El coeficiente de ajuste es   (1 0.9607) = 0.0393, lo cual implica que sólo cerca de 4%

de la discrepancia entre el saldo de efectivo real y el deseado se elimina en un trimestre, en vez de que se haga mediante un ajuste lento

A fin de volver a obtener la función de demanda a largo plazo (17.11.2), todo lo que se necesita hacer es dividir la función de demanda a corto plazo por
 (¿por qué?) y eliminar el término In M t 1 . Los resultados son:
InM t*  21.7888  1.6132InRt  0.6030InPIB (17.11.7)44

Como puede observarse, la elasticidad del interés a largo plazo para la demanda de dinero es sustancialmente más grande (en términos absolutos) que
la correspondiente a la elasticidad a corto plazo, lo cual también se cumple para la elasticidad de ingreso, aunque en el presente ejemplo su
significancia económica y estadística es dudosa.
Obsérvese que la d de Durbin-Watson estimada es de 2.4582, valor que está muy cerca de 2, lo cual apoya la observación anterior respecto a que en
los modelos autor regresivos la d calculada por lo general está próxima a 2. En consecuencia, no se debe confiar en la d calculada para averiguar si
existe una correlación serial en los datos. El tamaño de la muestra para este caso es de 40 observaciones, lo cual es razonablemente grande para que
se aplique la prueba h . En este ejemplo, el lector puede verificar que el valor h estimado es —1.5008, que no resulta significativo al nivel del 5%, con
lo cual quizá se sugiere que no existe una auto correlación de primer orden en el término de error.

17.12 EJEMPLOS ILUSTRATIVOS


En esta sección, se presentan algunos ejemplos de modelos de rezagos distribuidos para mostrar la forma como los investigadores los han utilizado en
estudios empíricos.

EJEMPLO 17.9 Si esta doctrina es válida, entonces se debe esperar que los
EL BANCO DE LA RESERVA FEDERAL Y LATASA DE INTERÉS REAL coeficientes a1 de los rezagos distribuidos, al igual que su suma, sean
estadísticamente no diferentes de cero. Para averiguar si éste es el
Para evaluar el efecto del crecimiento de M 1 (circulante+depósitos a la caso, los autores estimaron (17.12.1) para dos periodos diferentes,
vista) sobre la tasa de interés real de los bonos Aaa, G. J. Santoni y febrero 1951 a septiembre 1979 y octubre 1979 a noviembre 1982, el
42
Estos datos se obtuvieron de B. Bhaskar Rao (ed), Cointegracion for Applied Economist, St. Marin`s Press, nueva York, 1994, PP. 210-213. los datos originales abarcan el primer trimestre
de 1956 al cuarto de 1998 pero para propósito de ejemplificación, se comenzó el análisis desde el primer trimestre de 1979.
43
Obsérvese esta característica de los errores estándar estimados. El error estándar de por ejemplo el coeficiente de In R t se refiere al estandar 1  que es un estimado de 1 .

No existe una forma sencilla de obtener los errores estándar de ˆ yˆ


B se obtiene de manera aproximada, pero os cálculos resultan intrincados. Véase Jan Kmenta of Elements of
1,
Economic, Macmillan, nueva York, 1971, p.444
44
Nótese que no se han presentado los errores estándar de los coeficientes estimado, por estimados, por las razones dadas en lanota 43 de pie de pagina
Courtenay C. Stone45 estimaron, utilizando información mensual, el último para considerar el cambio en la política monetaria del Banco de
siguiente modelo de rezagos distribuidos para Estados Unidos. la Reserva Federal, la cual desde octubre 1979 ha prestado mayor
11 atención a la tasa de crecimiento de la oferta monetaria que a la tasa
r t
 cons tan te   ai M t 1  u i (17.12.1) de interés, cuando esta última había sido la política en el periodo
i 0 anterior. Los resultados de su regresión se presentan en la tabla 17.4.
donde rt=índice de rendimiento de los bonos Aaa de Moody menos la Estos resultados parecen apoyar la “doctrina monetaria de neutralidad”,
tasa de cambio promedio anual en el índice de precios al consumidor puesto que durante el periodo de febrero 1951 a septiembre 1979 el
ajustadas estacionalmente durante los 36 meses anteriores, que se crecimiento monetario del periodo en curso al igual que el rezagado, no
utiliza como medida de la tasa de interés real y M t =crecimiento tuvieron un efecto estadísticamente significativo sobre la medida de la
mensual de M1. tasa de interés real. Igualmente, durante el último periodo, la doctrina

 a , no es
De acuerdo con la “doctrina monetaria de neutralidad” que establece
que las variables económicas reales tales como la producción, el de neutralidad parece mantenerse puesto que
i
empleo, el crecimiento económico y la tasa de interés real no están estadísticamente diferente de cero; solamente el coeficiente a 1 es
influidas en forma permanente por el crecimiento monetario y, por significativo, pero tiene el signo equivocado. (.Por qué?).
consiguiente, no están afectados esencialmente por la política
monetaria. Dado este argumento, la Reserva Federal no tiene
influencia permanente alguna sobre la tasa real de interés 46.

TABLA 17.4
INFLUENCIA DEL CRECIMIENTO MENSUAL DE M1 SOBRE UNA MEDIDA DE TASA DE INTERES REAL DE BONOS AAA: FEBRERO 1951 A
NOVIEMBRE 1982.
11

r t
 cons tan te   ai M t 1
i 0
Febrero 1951 a septiembre 1979 Octubre 1979 a noviembre 1982
Coeficiente ItI* Coeficiente /t/
1.4885+ 2.068 1.0360 0.801
A0 -0.0088 0.388 0.00840 1.014
A1 0.00171 0.510 0.03960+ 3.419
A2 0.00170 0.423 0.03112 2.003
A3 0.00233 0.542 0.02719 1.502
A4 -0.00249 0.553 0.00901 0.423
A5 -0.00160 0.348 0.01940 0.863
A6 0.00292 0.631 0.02411 1.056
A7 0.00253 0.556 0.01446 0.666
A8 0.00000 0.001 -0.00036 0.019
A9 0.00074 0.181 -0.00499 0.301
A10 0.00016 0.045 -0.01126 0.888
A11 0.00025 0.107 -0.00178 0.211

a
0.00737 0.221 0.1549 0.926
i
0.9826 0.8662
2
R
D-W 2.07 2.04
RH01 1.27+ 24.536 1.40+ 9.838
RH02 -.028 5.410 -.48+ 3.373
NOB 344. 38.
SER(=SRC) 0.1548 0.3899
ItI=valor absoluto de t
+Significativamente diferente de cero al nivel del 0.05.
Fuente :G.J Santoni y Courtenay C.stone,”the Fed and the Real Rate of interest”
Review, Federal Reserve Bank of st.Louis diciembre de 1982p16

A partir de los datos anuales de Sri Lanka para el periodo de 1967 a


EJEMPLO 17.10 1993, dados en la tabla 17.5, e obtuvieron los siguientes resultados de
la regresión:47
EL CONSUMO AGREGADO DE CORTO Y LARGO PLAZOS PARA SRI C=1 038.403 + 0.4043Xt+ 0.5009 Ct-1
LANKA, 1967-1993 ee = (2 501.455) (0.0919) (0.1213) (17.12.4)
Supóngase que el consumo C está relacionado linealmente con el t= (0.41 51) (4.3979) (4.1293)

45
“The Fed and the Real Rate of Interest”, Review, Federal Reserve Bank of St. Louis, diciembre de 1982,pp.8-18.
46
Ibid.,p.15
47
Los datos se obtuvieron del disco incluido en la obra de chandan Mukherjee, Howard white y Marc Wuyts,Econometrics an data Análisis for Developing Countries,Routledge,Nueva
york,1998. Los datos originales son de las World tables (tablas mundiales), del Banco mundial.
ingreso permanente X*: R2=0.9912 d=1.4162 F=1298.466

C     X u
t 1 2 t t
(17.12.2) donde C= gasto de consumo privado y X= PIB, ambos a precios
constantes. También se introdujo la tasa de interés real en el modelo,
Puesto que
t X
no es observable directamente, se necesita pero no fue estadísticamente significativa.
Los resultados muestran que la propensión marginal a corto plazo a
especificar el mecanismo que genera el ingreso permanente. consumir (PMC) es igual a 0.4043, lo que sugiere que un incremento de
Supóngase que se adopta la hipótesis de expectativas adaptativas una rupia en el ingreso real observado o actual (tal y como lo mide el
especificada en (17.5.2). Utilizando (17.5.2) y simplificando, se obtiene PIB) aumentaría el consumo medio en casi 0.40 rupias. Pero si el
la siguiente ecuación de estimación (compárese con 17.5.5): aumento en el ingreso se conserva, entonces a la larga el PMC, sin el

C     X   C V
t 1 2 t 3 t 1 t
(17.12.3) ingreso permanente, sería de  2 =   /
2
= 0.4043/0.4991 =

Donde   
1 1
0.8100, o de casi 0.81 rupias. En otras palabras, cuando los
consumidores tengan tiempo para ajustarse al cambio de 1 rupia en el

   2 2
ingreso, incrementarán su consumo a final de cuentas en 0.81 rupias.

 3
 (1   )

V  u  (1   ) u 
t t t 1

Como se sabe,  2 da la respuesta media del consumo a, por


ejemplo, un incremento de un dólar en el ingreso permanente, mientras
que
 2
da la respuesta media del consumo a un incremento de un
dólar en el ingreso actual.

TABLA 17.5 GASTO DE CONSUMO PRIVADO Y PIB, SRI LANKA


Observación GACP PIB Observación GACP PIB
1967 61284 78221 1981 120477 152846
1968 68814 83326 1982 133868 164318
1969 76766 90490 1983 148004 172414
1970 73576 92692 1984 149735 178433
1971 73256 94814 1985 155200 185753
1972 67502 92590 1986 154165 192059
1973 78832 101419 1987 155445 191288
1974 80240 105267 1988 157199 196055
1975 84477 112149 1989 158576 202477
1976 86038 116078 1990 169238 223225
1977 96275 122040 1991 179001 233231
1978 101292 128578 1992 183687 242762
1979 105448 136851 1993 198273 259555
1980 114570 144734
Notas: GACP = gasto común privado
PIB = producto interno bruto
Fuentes: véase nota 47 de pie de pagina
Ahora, supóngase que la función de consumo fuera
 2
mide la PMC de largo plazo, mientras que  2
(  ) da la
2

Ct     1 2 X t  ut (17.12.5) PMC de corto plazo; la primera puede obtenerse de la segunda dividiendo esta
última por  el coeficiente de ajuste.
En esta formulación, el consumo permanente o de largo plazo C es una función

lineal del ingreso actual u observado. Puesto que


T C
no es observable
Retornando a (17.12.4), se puede interpretar ahora a 0.4043 como la PMC de
corto plazo. Puesto que  =0.4991, la PMC a largo plazo es 0.81. Obsérvese
directamente, es preciso acudir al modelo de ajuste parcial (17.6.2). Utilizando que el coeficiente de ajuste de alrededor de 0.50 sugiere que en cualquier
este modelo y luego de un reordenamiento algebraico, se obtiene periodo de tiempo dado, los consumidores solamente ajustan su consumo a

C     X  (1   ) C t 1  U t
una mitad hacia su nivel deseado o de largo plazo.
t t Este ejemplo considera el punto crucial de que, en apariencia, los modelos de
1 2
expectativas adaptativas y de ajuste parcial, o el modelo de Koyck para este
  1   2 X t   3 C t 1  V t caso, son tan similares que no se puede decir cuál es la especificación correcta
solamente con observar la regresión estimada, tal como (17.12.4). Por esta
(17.12.6) razón, es vital que se especifique la base teórica del modelo seleccionado para
En apariencia, este modelo no se diferencia del modelo de expectativas el análisis empírico y proceder luego apropiadamente. Si el hábito o la inercia
adaptativas (17.12.3). Por consiguiente, los resultados de la regresión dados en caracterizan el comportamiento del consumo, entonces el modelo de ajuste
(17.12.4) son igualmente aplicables aquí. Sin embargo, hay una gran diferencia parcial es el apropiado. Por otra parte, si el comportamiento del consumo mira
en la interpretación de los dos modelos, para no mencionar el problema de hacia adelante en el sentido de que está basado en el ingreso futuro esperado,
estimación asociado con el modelo auto regresivo y posiblemente con el entonces el modelo de expectativas adaptativas es el apropiado. Si es el último,
serialmente correlacionado (17.12.3). El modelo (17.12.5) es la función de entonces se tendrá que prestar mucha atención al problema de estimación para
consumo a largo plazo, o de equilibrio, mientras que (17.12.6) es la función de obtener estimadores consistentes. En el primer caso, el MCO proporcionará
consumo de corto plazo. estimadores consistentes, siempre y cuando se cumplan los usuales supuestos
de MCO.

17.13 EL MÉTODO DE ALMON PARA LOS MODELOS DE REZAGOS DISTRIBUIDOS: REZAGO DISTRIBUIDO POLINOMIAL O DE
ALMON (RDP) 48
Aunque se ha utilizado extensamente en la práctica, el modelo de rezagos distribuidos de Koyck está basado en el supuesto de que los coeficientes
 se reducen geométricamente a medida que el rezago aumenta (véase figura 17.4). Este supuesto puede ser muy
restrictivo en algunas situaciones. Considérese, por ejemplo, la figura 17.7.

Figura 17.7 Esquema de Almon para el rezago polinominal.

En la figura 17.7a se supone que las  aumentan al principio y luego disminuyen, mientras que en la figura 17.7c se supone que siguen un patrón
cíclico. Obviamente, el esquema de Koyck de modelos de rezagos distribuidos no funcionará en estos casos. Sin embargo, después de mirarla figura
17.7a y c, parece posible expresar  i
, como función de i, la duración del rezago (tiempo) y ajustar curvas apropiadas para reflejar la relación
funcional entre las dos, como lo indican las figuras 17.7b y d. Este método es precisamente el sugerido por Shirley Almon. Para ilustrar su técnica, se
considera nuevamente el modelo finito de rezagos distribuidos analizado anteriormente, a saber,

Y    X   X
t 0 t 1 t 1

2 X t 2
 ....  
k X t k
 ut (17.1.2.)
el cual puede escribirse en forma más compacta como
k

Y t
    X t i
 ut (17.13.1)
i
i 0

Siguiendo un teorema en matemáticas conocido como el teorema de Weierstras, Almon supone que  i
, puede ser aproximado mediante un
polinomio en i, la longitud del rezago 49 de un grado apropiado. Por ejemplo, si el esquema de rezagos que se muestra en la figura 17.7a se aplica,
puede escribirse

 a a ia i
i 0 1 2
2
(17.13.2)

que es un polinomio cuadrático, o de segundo grado en i (véase la figura 1 7.7b). Sin embargo, si las  siguen el patrón de la figura 17.7e, se puede
escribir
48
Shirley Almon, “The Distributed Lag between Capital Appropriations and Expenditures”, Econometrica, vol. 33, enero de 1965, pp. 178-196.
49
En términos generales, el teorema plantea que en un intervalo cerrado finito, cualquier función continua puede ser aproximada uniformemente mediante un polinomio de un grado
apropiado
 a a ia i a i
i 0 1 2
2
3
3
(17.13.3)
que es un polinomio de tercer grado en i (véase la figura 17.7d). Más generalmente, se puede escribir

 a a ia i
i 0 1 2
2
 ...  a m i
m
(17.13.4)
que es un polinomio de grado m en i. Se supone que m (el grado del polinomio) es menor que k (longitud máxima del rezago).
Para explicar la forma como funciona el esquema de Almon, se supone que las  siguen el patrón que aparece en la figura 17.7a y, por consiguiente,
la aproximación polinomial de segundo grado es apropiada. Sustituyendo (17.13.2) en (17.13.1), se obtiene
k
    (a0  a1 i  a 2 i ) X t i  u t
2
Y t
i 0
k k k
   a0  X t i  a1  iX t i  a 2  i
2
X t i
 ut (17.13.5)
i 0 i 0 i 0
Definiendo
k

Z 0t
 X i 0
t i

Z 1t
  iXi 0
t i
(17.13.6)

i X
2
Z 2t

i 0
t i

(17.13.5) puede escribirse como

Y t
   a0 Z 0t  a1 Z 1t  a2 Z 2t  U t (17.13.7)

En el esquema de Almon, se hace una regresión de Y sobre las variables Z construidas, no sobre las variables X originales. Obsérvese que (17.13.7)
puede ser estimada mediante el procedimiento usual MCO. Las estimaciones de y  i
así obtenidas tendrán todas las propiedades estadísticas
deseables siempre y cuando el término de perturbación estocástico U satisfaga los supuestos del modelo clásico de regresión lineal. A este respecto, la
técnica de Almon tiene una clara ventaja sobre el método de Koyck porque, como se ha visto, el último tiene algunos problemas graves de estimación
que resultan de la presencia de la variable explicativa estocástica
Y t 1
y de su probable correlación con el término de perturbación.

Una vez se han estimado las a de (17.13.7), pueden estimarse las  originales de (17.13.2) [o más generalmente de (17.13.4)] de la siguiente
manera:
 
 0
 a0 
   
 1
 a0  a1  a 2

   
 2
 a0  2 a1  4 a 2
(17.13.8)

   
  a  3a 9 a
3 0 1 2

    


   
 k
 a0  k a1  k
2
a 2

Antes de aplicar la técnica de Almon, se deben resolver los siguientes problemas prácticos.
1. La longitud máxima del rezago k debe ser especificada por adelantado. Aquí, posiblemente se puede seguir el consejo de Davidson y MacKinnon:
El mejor método es probablemente definir primero la cuestión de la longitud del rezago, empezando con un valor muy grande de q [la longitud del
rezago] y luego ver si el ajuste del modelo se deteriora significativamente cuando éste es reducido sin imponer restricción alguna sobre la forma del
rezago distribuido50.
Este consejo está en la dirección del enfoque de Hendry de arriba hacia abajo analizado en el capítulo 13. Recuérdese que si hay alguna longitud de
rezago “verdadera”, la selección de una cantidad menor de rezagos conducirá al “sesgo por omisión de variable relevante”, cuyas consecuencias, como
se vio en el capítulo 13, pueden ser muy graves. Por otra parte, la selección de más rezagos de los necesarios conducirá al “sesgo por inclusión de
variable irrelevante”, cuyas consecuencias son menos graves; los coeficientes pueden ser estimados consistentemente por MCO, aunque sus varianzas
pueden ser menos eficientes.
Se puede utilizar el criterio de información Akaike o Schwarz analizado en el capítulo 13, a fin de elegir la duración apropiada del rezago. Dichos
criterios también pueden usarse para analizar el grado adecuado del polinomio, además del análisis hecho en el punto 2.
2. Habiendo especificado k, se debe especificar también el grado m del polinomio. Generalmente, el grado del polinomio debe ser por lo menos uno
más que el número de puntos de inflexión en la curva que relaciona  i
, con i. Así, en la figura 17.7a, solamente hay un punto de inflexión: por tanto,
un polinomio de segundo grado será una buena aproximación. En la figura 1 7.7c, hay dos puntos de inflexión: por tanto, un polinomio de tercer grado
será una buena aproximación. A priori, sin embargo, no puede saberse el número de puntos de inflexión y, por consiguiente, la selección de m es
bastante subjetiva. Sin embargo, la teoría puede sugerir una forma particular en algunos casos. En la práctica, se espera que un polinomio de
relativamente pocos grados (por ejemplo m =2 o 3) dará buenos resultados. Habiendo seleccionado un valor particular de m, si se desea averiguar si un
polinomio de mayor grado dará un mejor ajuste, se puede proceder de la siguiente manera.
Supóngase que se debe decidir entre polinomios de segundo y tercer grados. Para el polinomio de segundo grado, la ecuación de estimación es como
(17.13.7). Para el polinomio de tercer grado, la ecuación correspondiente es

Y t
    0 Z 0t  a1 Z 1t  a2 Z 2t  a3 Z 3t  ut (17.13.9)

3
donde Z 3t
 i 
k

0
i X t i
Después de efectuar la regresión (17.13.9), si se encuentra que a2 es estadísticamente significativo pero que

a3 no lo es, se puede suponer que el polinomio de segundo grado proporciona una aproximación razonablemente buena.
Alternativamente, como lo sugieren Davidson y MacKinnon: “Después de determinar q [la longitud del rezago], se puede tratar de determinar d [el grado
del polinomio] empezando de nuevo con un valor grande para luego reducirlo.”
Sin embargo, se debe tener cuidado con el problema de la multicolinealidad, que probablemente surgirá debido a la forma como están construidas las Z
a partir de las X, como se muestra en (17.13.6) [véase también (17.13.10)]. Como se muestra en el capítulo 10, en casos de multicolinealidad grave,

a 3
puede resultar estadísticamente no significativo, no porque el verdadero
a 3
sea cero, sino simplemente porque la muestra disponible no

permite evaluar el impacto separado de


3 Z
sobre Y. Por consiguiente, en la ilustración, antes de aceptar la conclusión de que el polinomio de tercer
grado no es la selección correcta, se debe asegurar que el problema de multicolinealidad no sea lo suficientemente grave, lo cual puede hacerse
aplicando las técnicas analizadas en el capítulo 10.
3. Una vez que m y k han sido especificadas, las Z pueden construirse fácilmente. Por ejemplo, si m = 2 y k 5, las Z son
5

Z 0t
 X t i
 (X t  X t 1
 X t 2
 X t 3
 X t 4
 X t 5
)
i 0
5

Z 1t
 i X
i 0
t i
 ( X t 1  2 X t  2  3 X t 3  4 X t  4  5 X t 5) (17.13.10)

i X
2
Z 2t
 t i
 ( X t 1  4 X t  2  9 X t 3  16 X t  4  25 X t 5)
i 0

Obsérvese que las Z son combinaciones lineales de las X originales. Obsérvese también la razón por la cual es probable que las Z presenten
multicolinealidad.
Antes de proceder a un ejemplo numérico, adviértanse las ventajas del método de Almon. Primero, éste proporciona un método flexible de incorporar
una diversidad de estructuras de rezago (véase el ejercicio 17.17). La técnica de Koyck, por otra parte, es bastante rígida en el sentido de que supone
que las  se reducen geométricamente. Segundo, a diferencia de la técnica de Koyck, en el método de Almon no causa preocupación la presencia de
la variable dependiente rezagada como variable explicativa en el modelo y los problemas de estimación que esto crea. Finalmente, si se puede ajustar
50
Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, Nueva York, 1993, pp. 675-676.
un polinomio de un grado suficientemente bajo, el número de coeficientes que ha de ser estimado (las a) es considerable-mente menor que el número
original de coeficientes (las  ).
Pero debe hacerse nuevamente énfasis en los problemas de la técnica de Almon. Primero, el grado del polinomio, al igual que el valor máximo del
rezago, es en gran medida una decisión subjetiva. Segundo, por las razones anotadas anteriormente, es probable que las variables Z presenten
multicolinealidad. Por consiguiente, en modelos como (17.13.9) es probable que las  estimadas muestren errores estándar grandes (relativos a los
valores de estos coeficientes), con lo cual se obtienen uno o más de tales coeficientes estadísticamente no significativos con base en la prueba t

convencional. Pero esto no necesariamente significa que uno o más de los coeficientes  originales también sean estadísticamente no significativos.
(La prueba de esta afirmación es ligeramente complicada pero se sugiere en el ejercicio 17.18.) Como resultado, el problema de multicolinealidad puede
no ser tan serio como se podría pensar. Además, como se sabe, en casos de multicolinealidad aun si no se puede estimar un coeficiente individual en
forma precisa, es posible estimar una combinación lineal (la función estimable) de tales coeficientes en forma más exacta.
EJEMPLO 17.11
ILUSTRACIÓN DEL MODELO DE REZAGO DISTRIBUIDO DE ALMON
Para mostrar la técnica de Almon, era tabla 17.6 se presenta información sobre inventarlos Y y ventas X en Estados Unidos durante el periodo 1954-
1999.
Para fines ilustrativos, supóngase que los inventarios dependen de las ventas en el año en curso y en los tres años anteriores, de la siguiente manera:

Y t
  X  X
t t 1
 X t 2
 X t 3
 ut (17.13.11)
0 1 2 3

Además, supóngase que  i


puede ser aproximado mediante un polinomio de segundo grado como se muestra en (17.13.2). Entonces, siguiendo
(17.13.5), se puede escribir

Y t
   a0 Z 0t  a1 Z 1t  a2 Z 2t  ut (17.13.12)
Donde
3

Z 0t
 X t i
 (X t  X t 1
 X t 2
 X )
t 3
i 0
3

Z 1t
 i X
i 0
t i
 ( X t 1  2 X t  2  3 X t 3) (17.13.13)

i X
2
Z 2t
 t i
 ( X t 1  4 X t  2  9 X t 3)
i 0
Las variables Z, así construidas, se muestran en la tabla 17.6. Utilizando la información sobre Y y sobre Z, se obtiene la siguiente regresión:

Y t
 25845.06  1.1149 Z 0t  0.3713 Z 1t  0.0600 Z 2t
ee  (6596.998)(0.5381)(1.3743)(0.4549)
(17.13.14)
t  (3.9177)(2.0718)(.2702)(0.1319)
2
R  0.9755......d  0.1643......F  517.7656
Nota: puesto que se esta utilizando un rezago de tres años, el numero total de observaciones se redujo de 46 a 43 .
TABLA 17.6
INVENTARIOS Y y VENTAS X, SECTOR MANUFACTURERO DE EU, Z CONSTRUIDAS
Observación inventario Ventas Z0 Z1 Z2
1954 41612 23355 NA NA NA
1955 45069 26480 NA NA NA
1956 50642 27740 NA NA NA
1957 51871 28736 106311 150765 343855
1958 50203 27248 110204 163656 378016
1959 52913 30286 114010 167940 391852
1960 53786 30878 117148 170990 397902
1961 54871 30922 119334 173194 397254
1962 58172 33358 125444 183536 427008
1963 60029 35058 130216 187836 434948
1964 63410 37331 136669 194540 446788
1965 68207 40995 146742 207521 477785
1966 77986 44870 158254 220831 505841
1967 84646 46486 169682 238853 544829
1968 90560 50229 182580 259211 594921
1969 98145 53501 195086 277811 640003
1970 101599 52805 203021 293417 672791
1971 102567 55906 212441 310494 718870
1972 108121 63027 225239 322019 748635
1973 124499 72931 244669 333254 761896
1974 157625 84790 276654 366703 828193
1975 159708 86589 307337 419733 943757
1976 174636 98797 343107 474962 1082128
1977 188378 113201 383377 526345 1208263
1978 211691 126905 425492 570562 1287690
1979 242157 143936 482839 649698 1468882
1980 265215 154391 538433 737349 1670635
1981 283413 168129 593361 822978 1872280
1982 311852 163351 629807 908719 2081117
1983 312379 172547 658418 962782 225386
1984 339516 190682 694709 1003636 2339112
1985 334749 194538 721118 1025829 2351029
1986 322654 194657 752424 1093543 2510189
1987 338109 206326 786203 1155779 2688947
1988 369374 224619 820140 1179254 2735796
1989 391212 236698 862300 1221242 2801836
1990 405073 242686 910329 1304914 2992108
1991 390905 239847 943850 1389939 3211049
1992 382510 250394 969625 1435313 3340873
1993 384039 260635 993562 1458146 3393956
1994 404877 279002 1029878 1480964 3420834
1995 430985 299555 1089586 1551454 3575088
1996 436729 309622 1148814 1639464 3761278
1997 456133 327452 1215631 1745738 4018860
1998 466798 337687 1274316 1845361 4261935
1999 470377 354961 1329722 1921457 4434093
Notas: Y y X están en millones de dólares, ajustados por temporada
Fuente: Economic Report of the president, 2001, tabla B-57, p 340. Las z son como las que se muestran en
(17.13.13)

Un breve comentario sobre los resultados anteriores. De las tres variables Z, sólo Z 0 es estadísticamente significativa a nivel individual, al nivel deI 5%;
pero las otras no lo son, a pesar de que el valor F es tan alto que se puede rechazar la hipótesis nula de que, de manera colectiva, las Z no tienen
efecto alguno sobre Y. Como se puede sospechar, lo anterior bien podría deberse a la multicolinealidad. Asimismo, obsérvese que el valor d calculado
es muy bajo, lo cual no necesariamente significa que los residuos presenten auto correlación. Lo más probable que el bajo valor de d sugiera que el
modelo que se ha utilizado esté mal especificado. Se comentará lo anterior más adelante.
De los coeficientes a estimados dados en la ecuación (17.13.13), fácilmente se estiman los coeficientes originales  de la relación (1 7.13.8). En el
ejemplo presente, los resultados son los siguientes:

 
 a 
0 0
 1.1149
   
 a a  a
1 0 1 2
 0.6836
   
 2
 a0  2 a1  4 a 2
 0.1321 (17.13.15)

   
 3
 a0  3 a1  9 a 2
 0.5394
Así, el modelo de rezagos distribuidos estimado correspondiente a (1 7.13.11) es

Y t
 25845.0  1.1150 X 0
 0.6836 X t 1  0.1321 X t  2  0.5394 X t 3
ee  (6596.99)(0.5381)(0.4672)(0.4656)(0.5656) (17.13.16)
t  (3.9177)(2.0718)(1.4630)(0.2837)(09537)

Geométricamente, las  i
estimadas se muestran en la figura 17.8.

FIGURA 17.8 Estructura de rezagos del ejemplo ilustrativo

Nuestro ejemplo numérico puede ser utilizado para señalar algunas características adicionales del procedimiento de Almon:
1. Los errores estándar de los coeficientes a se obtienen directamente de la regresión MCO (17.13.14), pero los errores estándar de algunos de los

coeficientes  que son el objetivo de principal interés, no pueden ser obtenidos así. Pero pueden calcularse fácilmente de los errores estándar de los
coeficientes a estimados utilizando una fórmula de estadística bien conocida, que está dada en el ejercicio
17.18. Por supuesto, no hay necesidad de hacer esto de forma manual, ya que la mayoría del software estadístico puede llevarlo a cabo de manera
rutinaria. Los errores estándar dados en (17.13. 15) se obtuvieron mediante Eviews 4.

2. Las  obtenidas en (17.13.16) se denominan estimaciones no restringidas en el sentido de que no se colocan restricciones a priori sobre ellas. En

algunas situaciones, sin embargo, se puede desear imponer las llamadas restricciones de punto final sobre las s  suponiendo que

 0
y

 k
(el coeficiente del periodo actual y el del k-ésimo rezago) son cero. Debido a razones sicológicas, institucionales o tecnológicas, el valor de la
variable explicativa en el periodo actual puede no tener impacto alguno sobre el valor actual de la variable dependiente, lo cual justifica con esto el valor
de cero para  0
. Por las mismas razones, más allá de cierto periodo, la variable explicativa k puede no tener impacto alguno sobre la variable

dependiente, lo cual apoya el supuesto de que  k


es cero. En el ejemplo del inventario, el coeficiente de
t 3 X
, tuvo un signo negativo, lo cual
quizá no tenga sentido económico. Por lo tanto, tal vez se desee restringir ese coeficiente a cero. 51 Por supuesto, no se tienen que restringir ambos
extremos; se podría imponer limitantes sólo al primer coeficiente (lo cual se conoce como restricción en el extremo próximo) o al último coeficiente
(conocido como restricción en el extremo lejano). Para el ejemplo del inventario, esto se ilustra en el ejercicio 17.28. A veces las  están estimadas
con la restricción de que su suma sea igual a la unidad. Pero no se deberían imponer restricciones de manera negligente, pues éstas también afectan a
los valores de los otros coeficientes rezagados (sin restricciones).
3. En vista de que la elección del número de los coeficientes rezagados, así como el grado del polinomio se dejan al criterio del que elabora el modelo,
resulta inevitable cierto grado de ensayo y error, además de la carga que significa la búsqueda exhaustiva de datos. En esta situación es cuando los
criterios de información de Akaike y Schwarz, analizados en el capítulo 13, pueden resultar útiles.
4. Puesto que se estimó (17. 13.16) utilizando tres rezagos y el polinomio de segundo grado, es un modelo de mínimos cuadrados restringidos.
Supóngase que se decide usar los tres rezagos pero no se emplea el método polinomial Almon; es decir, se calcula (17.13.11) mediante MCO. ¿Qué
sucede entonces? Primero se verán los resultados:

51
para una aplicación concreta, véase D. B. Batten y Daniel Thornton, “Polynomial Distributed Lags and the Estimation of the St. Louis Equation”, Review, Banco de la Reserva Federal de St.
Louis, abril de 1983, pp. 13-25.

Y t
 26008.60  0.9771 X t  1.0139 X t 1  0.2022 X t  2  0.3935 X t 3
ee  (6691.12)(0.6820)(1.0920)(1.1021)(0.7186)
t  (3.8870)(1.4327)(0.9284)(0.1835)(0.5476)

2
R  0.9755......d  0.1643......F  517.7656 (17.13.17)
Si se comparan estos resultados con los obtenidos en (17.13.16), se verá que la R 2 general es prácticamente la misma, aunque el patrón de rezago en
(17.13.17) muestra una forma más corvada que la que exhibe (17.13.16).
Tal y como este ejemplo lo ilustra, se debe tener cuidado al utilizar la técnica de rezago distribuido Almon, puesto que los resultados pudieran llegar a
ser sensibles a la hora de elegir el grado del polinomio y/o el número de coeficientes rezagados.
17.14 CAUSALIDAD EN ECONOMÍA: PRUEBA DE CAUSALIDAD DE GRANGER 52
Antes, en la sección 1.4, se mencionó que aunque el análisis de regresión trata sobre la dependencia de una variable sobre otras variables, esto no
necesariamente implica causación. En otras palabras, la existencia de una relación entre las variables no propicia que haya causalidad o dirección de la
influencia. Pero en las regresiones que involucran datos de series de tiempo, la situación podría ser un cuanto distinta porque, como un autor lo
mencionó:
…el tiempo no corre hacia atrás. Es decir, si un acontecimiento A sucede antes de un suceso B, entonces es posible que A esté causando a B. Sin
embargo, no es posible que B esté provocando A. En otras palabras, los acontecimientos pasados pueden propiciar sucesos que se estén dando en
la actualidad. Lo cual no ocurre con los sucesos futuros. 53 (Las cursivas son nuestras.)
Ésta es la idea general que está detrás de la así llamada prueba de causalidad de Granger 54. Pero debe hacerse notar con toda claridad que el asunto
de la causalidad es en gran medida filosófico, con todo el tipo de controversias que esto conlleva. En un extremo, existen personas que creen que “todo
es causa de todo”, y en el otro hay gente que niega la existencia de cualquier clase de causación 55.El econometrista Edward Lamer prefiere el término
predecencia en vez del de causalidad. Francis Diebold se inclina más por el término causalidad predictiva. Tal y como lo expresa:

….el enunciado “ y i
causa y j
es sólo una forma abreviada para el enunciado más preciso, aunque más extenso de que y i
contiene

información útil para predecir y j


(en el sentido de los mínimos cuadrados lineales), además de las historias pasadas de las otras variables del

sistema”. Para ahorrar espacio, se dice que y i


causa a y j
56

Prueba de Granger
Para explicar la prueba Granger, se considerará la pregunta que a menudo se plantea en macroeconomía: ¿el PIB “causa” la oferta de dinero M (PIB →
M), o la oferta de dinero M causa el PIB (M→ PIB)? La flecha señala la dirección de la causalidad. La prueba de causalidad de Granger supone que la
información relevante para la predicción de las variables respectivas, PIB y M, está contenida únicamente en la información de series de tiempo sobre
estas variables. La prueba involucra la estimación de las siguientes regresiones:
N n

PIB t
  i M t  i   
i 1 j 1
j PIB t j
 u1t (17.14.1)

N n

M t
  M
i 1
i t i
 
j 1
j PIB t j
 u 2t (17.14.2)

donde se supone que las perturbaciones


u yu 1t 2t
, no están correlacionadas. A propósito, obsérvese que en vista de que hay dos variables, se
tiene una causalidad bilateral. En los capítulos sobre la econometría de series de tiempo, se generalizará ésta a la causalidad multivariable mediante
la técnica de la regresión vectorial (VAR).

52
Existe otra prueba de causalidad que a ves se utiliza, la así llamada prueba Sims de la causalidad. Se estudiará mediante un ejercicio.
53
Gary Koop, Analysis of Economic Data, John Wiley & Sons, Nueva York, 2000, p. 175.
54
C. W. J. Granger, “Investigating Causal Relations by Econometric Models and Cross-Spectral Methods”, Econometrica, Julio de l969pp. 424-438. Aunque se conoce popularmente como la
prueba Granger de causalidad, resulta apropiado llamarla prueba Wiener-Granger de causalidad, en vista de que ya la había sugerido antes Wiener. Véase N. Wiener, “The Theory of
Prediction”, en E. E Beckenback (ed.), Modern Mathematics for Engineers, McGraw-Hill, Nueva York, 1956, pp. 165-190.
55
53Para un excelente análisis de este tema, véase Arnold Zellner, “Causality and Econometrics”, Carnegie-Rochester Conference Series, 10, K. Brunner yA. H. Meltzer (eds.), North Holland
Publishing Company, Amsterdam, 1979, pp. 9-50
56
Francis X. Diebold, Elements of Forecasting, South Western Publishing, 2a. ed., 2001, p. 254
La ecuación (17.14.1) postula que el PIB actual está relacionado con los valores pasados del PIB mismo, al igual que con los de M, y (17.14.2)
postula un comportamiento similar para
M t
. Obsérvese que estas regresiones pueden realizarse en forma de crecimientos, PIB y M, donde un
punto sobre una variable indica su tasa de crecimiento. Ahora bien, se distinguen cuatro casos:
1. La causalidad unidireccional de M hacia el PIB es la indicada si los coeficientes estimados sobre la M rezagada en (17.14.1) son

estadísticamente diferentes de cero considerados en grupo (es decir,  i  0 ) y el conjunto de coeficientes estimados sobre el PIB rezagado
en (17.14.2) no es estadísticamente diferente de cero (es decir,  j
 0 ).
2. En forma contraria, la causalidad unidireccional de PIB hacia M existe si el conjunto de coeficientes de M rezagada en (17.14.1) no son

estadísticamente diferentes de cero (es decir  i  0 ,) y el conjunto de coeficientes del PIB rezagado en (17.14.2) es estadísticamente
diferente de cero (es decir,  j
 0 ).
3. La retroalimentación, o causalidad bilateral, es sugerida cuando los conjuntos de coeficientes de M y de PIB son estadísticamente
significativos, diferentes de cero, en ambas regresiones.
4. Finalmente, se sugiere independencia cuando los conjuntos de coeficientes de M y de PIB no son estadísticamente significativos en ambas
regresiones.
Más generalmente, puesto que el futuro no puede predecir el pasado, si la variable X causa (Granger) la variable Y, entonces los cambios en X deben
preceder a los cambios en Y. Por consiguiente, en una regresión de Y sobre otras variables (incluyendo sus propios valores pasados), si se incluyen
valores pasados o rezagados de X y esto mejora significativamente la predicción de Y, entonces se puede decir que X causa (Granger) a Y. Una
definición similar se aplica si Y causa (Granger) a X.
Los pasos comprendidos en la implantación de la prueba de causalidad de Granger son los siguientes. Se ilustran estos pasos con el ejemplo PIB-
dinero dado en la ecuación (17.14.1).
1. Haga la regresión del PIB actual sobre todos los términos rezagados del PIE y otras variables, de existir, pero no incluya las variables M rezagadas
en esta regresión. De acuerdo con el capítulo 8, ésta es la regresión restringida. A partir de esta regresión, obténgase la suma de residuos restringidos
al cuadrado, SRC.R
2. Ahora efectúese la regresión incluyendo los términos rezagados M. En el lenguaje del capítulo 8, ésta es la regresión no restringida. A partir de esta
regresión, obténgase la suma de residuos no restringidos al cuadrado, SRC NR.

3. La hipótesis nula es
H : 
0 i
0 , es decir, los términos rezagados de M no pertenecen a la regresión.

4. Para probar esta hipótesis, se aplica la prueba F dada por (8.7.9), a saber:

( SRC R  SRC NR ) / m
F (8.7.9)
SRC NR /(n  k )
que sigue la distribución F con m y (n — k) g de 1. En el presente caso, m es igual al número de términos rezagados de M, y k es el número de
parámetros estimados en la regresión no restringida.
5. Si el valor F calculado excede al valor F crítico al nivel seleccionado de significancia, se rechaza la hipótesis nula, en cuyo caso los términos
rezagados de M pertenecen a la regresión. Ésta es otra forma de decir que M causa al PIB.
6. Los pasos 1 a 5 pueden repetirse para probar el modelo (17.14.2), es decir, para definir si el PIB causa a M.
Antes de proceder a las aplicaciones de la prueba de Granger, considérese lo siguiente:
1. Se supone que las dos variables, PIB y M, son estacionarias. Ya antes se ha estudiado el concepto de estacionariedad en términos intuitivos y se
analizará de una manera más formal en el capítulo 21. A veces al tomar las primeras diferencias de las variables las convierte en estacionarias, si es
que aún no son estacionarias en la forma de nivel.
2. El número de términos rezagados que se debe introducir en las pruebas de causalidad es una cuestión práctica importante. Como en el caso de los
modelos de retraso distribuido, quizá se tenga que utilizar el criterio de información Akaike o Schwarz con el objeto de elegir. Pero se debe añadir que la
dirección de la causalidad tal vez dependa de manera crítica del número de términos rezagados incluidos.
3. Se ha supuesto que los términos de error que se incluyen en la prueba de causalidad no están correlacionados. Si no fuese así, debería levarse a
cabo la transformación adecuada, tal y como se analizó en el capítulo 12 57
4. Puesto que se está interesado en probar la causalidad, no se requiere presentar los coeficientes estimados de los modelos (17 ’.14.1) y
(17.14.2) en forma explícita (para ahorrar espacio); sólo bastarán los resultados de la prueba F dados en (8.7.9).
EJEMPLO 17.12
CAUSALIDAD ENTRE EL DINERO Y EL INGRESO
R. W. Hafer utilizó la prueba de Granger para establecer la naturaleza de la causalidad entre el PNB (en vez del PIB) y M para Estados Unidos
durante el periodo 1960-I a 1980-IV. En vez de utilizar los valores brutos de estas variables, empleó sus tasas de crecimiento, su PNB y M
asimismo, utilizó cuatro rezagos de cada variable en las dos regresiones dadas antes. Los resultados fueron como sigue. 58 En cada caso, la
hipótesis nula establece que la variable bajo consideración no causa “a la manera Granger” la otra variable.
Dirección de casualidad Valor F Decisión
M →PNB 2.68 Se rechaza
PNB→ M 0.56 No se rechaza
Estos resultados sugieren que la dirección de la causalidad va del crecimiento del dinero al del PNB, puesto que el valor F estimado es
significativo al nivel del 5%; el valor F crítico es 2.50 (para 4 y 71 g de 1). Por otra parte, no hay una “causación reversible” del crecimiento del PNB
al del dinero, puesto que el valor F calculado no es estadísticamente significativo.

EJEMPLO 17.13
CASUALIDAD ENTRE EL DINERO Y LA TASA DE INTERES EN CANADA
Refiérase a los datos sobre Canadá suministrados en la tabla 17.3. Supóngase que se desea averiguar si existe una casualidad entre la oferta de
dinero y la tasa de interés en Canadá para periodos trimestrales durante 1979-1988. Afín de demostrar que la prueba de Granger para casualidad
depende de manera crítica del número de términos rezagados introducidos en el modelo, se presentan en seguida los resultados de la prueba F
en la que se emplearon varios rezagos (trimestrales). En cada caso, la hipótesis nula es que la tasa de interés no causa (al modo Granger) la
oferta de dinero y viceversa.
Dirección de la casualidad Numero de rezagos Valor F Decisión
R→M 2 12.92 Rechazar
M→R 2 3.22 Rechazar
R→M 4 5.59 Rechazar
M→R 4 2.45 Rechazar (al 7%)
R→M 6 3.5163 Rechazar
M→R 6 2.71 Rechazar
R→M 8 1.40 No Rechazar
M→R 8 1.62 No Rechazar
Obsérvese estas características de los resultados anteriores de la prueba F de uno a seis rezagos existe una casualidad bilateral entre la oferta de
dinero y la tasa de interés. No obstante, a los ocho rezagos, no existe una relación estadísticamente discernible entre las dos variables. Lo anterior
refuerza la observación hecha antes de que el resultado de prueba Granger es sensible al número de rezagos introducidos en el modelo.

EJEMPLO 17.14 Para concluir el análisis de la causalidad Granger, téngase en cuenta que
la cuestión que se está examinando es si se puede detectar
LA CAUSALIDAD ENTRE EL CRECIMIENTO DEL PIB Y LA TASA DE
estadísticamente la dirección de la causalidad cuando temporalmente
AHORRO BRUTA EN NUEVE PAÍSES DEL ESTE ASIÁTICO
existe una relación propiciada por los rezagos en dos variables. Si se
Un estudio de la causalidad bilateral entre la tasa de crecimiento del PIB establece la existencia de la causalidad, entonces ésta sugeriría que
(g) y los ahorros brutos (s) mostraron los resultados proporcionados en puede utilizarse una variable para predecir la otra variable mejor de lo que
la tabla 17.759 Con fines comparativos, los resultados para Estados se haría si se usaran simplemente los antecedentes de esta última
Unidos también se suministraron en la tabla. Por mucho, los resultados variable. En el caso de las economías del este asiático, parece que puede
mostrados en la tabla 17.7 muestran que para la mayoría de los países predecirse mejor la tasa de ahorros bruta si se consideran los valores
del este asiático la causalidad tiene una dirección desde la tasa de rezagados de la tasa de crecimiento del PIB, en vez de únicamente tener
crecimiento del PIB hacia la tasa de ahorros brutos. En contraste, para en cuenta los valores rezagados de la tasa de ahorros bruta.

57
Para mayores detalles, véase Wojciech W Charemza y Derek F. Deadman, New Directions in Econometric Practice: General to Specific Modeling, Cointegration and Vector Autoregression,
3a. ed., Edward Elgar Publisher, 1997, cap. 6.
58
R.W Hafer”the role of fiscal policy in the ST.Louis Equation”Review, Banco Federal de la reserve de st Louis , enero de 1982.pp17-22, véase la nota de pie de pagina para los detalles de
procedimiento
59
Estos resultados se obtuvieron de the East Asian Miracle: Growth an public Policy, Publicado para el Banco Mundial por Oxford Press, 1993p244.
Estados Unidos la causalidad se da en ambas direcciones durante el
periodo 1950-1 988 hasta el tercer rezago; pero a partir del cuarto y
quinto rezagos, la causalidad va de la tasa de crecimiento del PIB hacia
la tasa de ahorros, pero no en sentido inverso.
TABLA 17.7
PRUEBA DE LA CASUALIDAD GRANGER BIVARIADA ENTRE LA TASA DE CRECIMIENTO REAL
DEL PIB PER CAPITA Y LA TASA DE AHORROS BRUTA
Economía años, Años de Variable derecha Crecimiento Economía años Años de Variable derecha Crecimiento
rezago rezagada de rezago rezagada de
ahorros ahorros
Estados Unidos 1 Sig Sig Republica de Corea 1 Sig Sig
1955-88 2 Sig Sig 1955-88 2 NS Sig
3 Sig Sig 3 NS Sig
4 NS Sig 4 NS Sig
5 NS Sig 5 NS Sig
Filipinas 1 NS Sig Singapur 1 NS NS
1955-88 2 NS Sig 1955-88 2 NS NS
3 NS Sig 3 NS NS
4 NS Sig 4 Sig NS
5 NS Sig 5 Sig NS
Hong Kong 1 Sig Sig Indonesia 1 Sig Sig
1955-88 2 Sig Sig 1955-88 2 NS Sig
3 Sig Sig 3 NS Sig
4 Sig Sig 4 NS Sig
5 Sig Sig 5 NS Sig
Japón 1 NS Sig Taiwán China 1 Sig Sig
1955-88 2 NS Sig 1955-88 2 NS Sig
3 NS Sig 3 NS Sig
4 NS Sig 4 NS Sig
5 Sig Sig 5 NS Sig
Malasia 1 Sig Sig Tailandia 1 NS Sig
1955-88 2 Sig Sig 1955-88 2 NS Sig
3 NS NS 3 NS Sig
4 NS NS 4 NS Sig
5 NS Sig 5 NS Sig
Sig Significativa
NS no significativa
Nota se considera al crecimiento como el crecimiento real per. capita de PIB a precios internacionales de 1985
Fuente Banco Mundial , The East Asian Miracle: Economic Growth and Public, Oxford University Press Nueva York 1993 p 244
Tabla A5-2 La fuente original es Robert Summers y Alan Heston “ The penn World Tables (mark5) An expanded set of international Comparisons 1950 -88 Quarterly Journal of
economics vol 105 num 2 1991.

*Una nota sobre la causalidad y la exogeneidad


Como se estudiará en los capítulos sobre el modelo con ecuaciones simultáneas en la Parte IV de esta obra, a menudo las variables económicas se
clasifican según dos amplias categorías: endógenas y exógenas. Hablando en términos generales, las variables endógenas equivalen a las variables
dependientes de un modelo de regresión con una sola ecuación, y las exógenas son las equivalentes a las variables X, o regresoras, en tal modelo,
siempre y cuando las variables X no estén correlacionadas con el término de error de esa ecuación. 60°
Ahora surge una pregunta importante: supóngase que mediante la prueba de causalidad Granger se descubre que una variable X causa (en la forma
Granger) la existencia de una variable Y, sin que esta última cause a aquélla (es decir, no existe causalidad bilateral), ¿se puede considerar entonces a
la variable X como exógena? En otras palabras, ¿se puede utilizar la causalidad Granger (o la no causalidad) para establecer la exogeneidad?
Para responder lo anterior, se requiere distinguir tres tipos de exogeneidad:
1) Débil, 2) fuerte y 3) súper. A fin de conservar la simplicidad en la exposición, supóngase que se -tienen sólo dos variables, Y t y Xt, además supóngase
que se hace la regresión de Yt, sobre Xt. Se dice que Xt es débilmente exógena si Yt explica tampoco la existencia de X. En este caso, la estimación y la
prueba del modelo de regresión pueden hacerse en función de los valores de X t. De hecho, recordando el capítulo 2, se observa que el modelo de
regresión estaba condicionado a los valores de las variables X. Se dice que X t es fuertemente exógena si los valores Y actuales y rezagados, no la
explican (es decir, no existe una relación de retroalimentación). Asimismo, X t es superexógena si los parámetros en la regresión de Y y X no cambian

60
supuesto, si las variables explicativas incluyen uno o más términos rezagados de la variable
endógena, este requisito quizá no se satisfaga
aunque los valores de X varíen; es decir, los valores de los parámetros son invariantes a los cambios en el(los) valor(es) de X. Si así sucediese en
efecto, entonces la famosa “crítica de Lucas” perdería su fuerza. 61
La razón para hacer la distinción entre los tres tipos de exogeneidad es que... “En general, la exogeneidad débil es todo lo que se requiere para la
estimación y la comprobación, la exogeneidad fuerte es necesaria para la predicción, y la superexogeneidad se necesita para el análisis de políticas”. 62
Volviendo al tema de la causalidad Granger, si una variable, por ejemplo Y, no causa otra variable, X por ejemplo, ¿se puede suponer entonces que esta
última es exógena? Por desgracia, la respuesta no es inmediata. Si se está hablando de exogeneidad débil, se puede demostrar que la causalidad
Granger no es ni necesaria ni suficiente para establecer la exogeneidad. Por otra parte, la causalidad Granger es necesaria (pero no suficiente) para la
exogeneidad fuerte. Las pruebas de ambos enunciados están más allá del alcance de este libro. 63 Así pues, para los propósitos actuales, resulta mejor
conservar separados los conceptos de causalidad Granger y exogeneidad, y tratar al primero de éstos como una herramienta descriptiva útil para los
datos de las series de tiempo. En el capítulo 19 se analizará una prueba para averiguar si una variable puede considerarse exógena.
17.15 RESUMEN Y CONCLUSIONES
1. Por razones sicológicas, tecnológicas e institucionales, una variable regresada puede responder a una o varias regresoras con un rezago de tiempo.
Los modelos de regresión que tienen en cuenta rezagos de tiempo se conocen como modelos de regresión dinámicos o rezagados.
2. Hay dos tipos de modelos rezagados: de rezagos distribuidos y autorregresivos. En el primero, los valores actuales y rezagados de los
regresores son variables explicativas. En el último, el (los) valor(es) rezagado(s) de la regresada aparece(n) como variable(s) explicativa(s).
3. Un modelo puramente de rezagos distribuidos puede ser estimado mediante MCO, pero en ese caso está el problema de multicolinealidad, puesto
que los valores rezagados sucesivos de una regresora tienden a estar correlacionadas.
4. Como resultado, se han diseñado algunos métodos abreviados. Estos incluyen los mecanismos de Koyck, de expectativas adaptativas y de ajuste
parcial. El primero es un método puramente algebraico y los otros dos se basan en principios económicos.
5. Pero una característica única de los modelos de Koyck, de expectativas adaptativas y de ajuste parcial es que todos son autorregresivos por
naturaleza, es decir, el valor o valores de la variable regresada aparecen como una de las variables explicativas.
6. La autorregresividad plantea desafíos en la estimación; si la variable regresada rezagada está correlacionada con el término de error, los estimadores
MCO de tales modelos no solamente están sesgados, sino que también son inconsistentes. El sesgo y la inconsistencia se presentan con los modelos
de Koyck y de expectativas adaptativas; el modelo de ajuste parcial es diferente y puede ser estimado consistentemente mediante MCO, no obstante la
presencia de la variable regresada rezagada.
7. Para estimar los modelos de Koyck y de expectativas adaptativas consistentemente, el método más popular es el método de variables
instrumentales. La variable instrumental es una variable representante para la variable regresada rezagada pero con la propiedad de que no está
correlacionada con el término de error.
8. Una alternativa para los modelos rezagados de regresión recién analizada es el modelo polinomial de rezagos distribuidos de Almon, con el cual
se evitan los problemas de estimación asociados a los modelos autorregresivos. El principal problema con el método de Almon, sin embargo, es que se
debe preespecificar la longitud del rezago y el grado del polinomio. Hay métodos formales e informales de resolver la selección de la longitud del rezago
y el grado del polinomio.
9. A pesar de los problemas de estimación, que pueden ser resueltos, los modelos distribuidos y autorregresivos han demostrado ser extremadamente
útiles en la economía empírica porque con ellos es posible dinamizar la teoría económica que, de otra forma, sería estática, al tener en cuenta
explícitamente el papel del tiempo. Tales modelos permiten diferenciar respuestas a corto y largo plazos de la variable dependiente ante cambios
unitarios en el valor de la(s) variable(s) explicativa(s). Así, para la estimación del precio a corto y a largo plazos del ingreso, de la sustitución y de otras
elasticidades, estos modelos han demostrado ser bastante útiles.
10. Debido a los rezagos involucrados, los modelos distribuidos y/o autorregresivos conducen al tema de la causalidad en las variables económicas. En
el trabajo aplicado, la elaboración de modelos de causalidad de Granger ha recibido considerable atención. Pero se debe tener mucho cuidado al
utilizar la metodología de Granger porque ésta es muy sensible a la longitud del rezago utilizado en el modelo.
11. Incluso si una variable (X) causa (a la manera Granger) otra variable (Y), eso no significa que X sea exógena. Se clasificaron tres tipos de
exogeneidad (débil, fuerte y súper) y se señalo la importancia de dicha clasificación.
1.B TIRADO de Alonso Irma
Métodos Econométricos
Edit. Southwestern, E. U. A., 1982
Págs. 241-281.
Análisis de varianza-cobranza, análisis de componente principal y regresión ortogonal

61
Robert Lucas, ganador del premio Nobel, planteó que 1elaciones existentes entre las variables
62
62Keith Cuthbertson, Stephen G. Hall y Mark P. Taylor, Applied Econometric Techniques, University of Michigan Press, 1992, p. 100.
63
Para un análisis comparativamente simple, véase G. S. Maddala, Introduction to Econometrics,
2a. ed., Macmillan, Nueva York, 1992, pp. 394-395, y también David F. Hendxy, Dynamic Econometrics, Oxford University Press, Nueva York, capítulo 5.
8.0 El marco de referencia: la distribución chi-cuadrado y la distribución de F.
El formato de este libro excluye una discusión exhaustiva de las teorías de la distribución. En el transcurso de la discusión del modelo de regresión
hemos hecho referencia a la distribución normal, a la distribución normal estandarizada, y a la distribución t. Sin embargo, en este capitulo discutiremos
las distribuciones chi-cuadrado y F., ya que ellas proveen la base para el análisis de la varianza y la covarianza. *
La distribución chi-cuadrado *
Supóngase que Xi sea una muestra aleatoria de N observaciones (i  1, 2, ..., N ) extraída de una población generatriz normal con promedio 
y varianza  2 . Defínase:

xi  
Zi  donde z i  m(0,1)

La variable z i es una variable estandarizada normalmente distribuida con promedio igual a cero y varianza igual a uno. Si elevamos al cuadrado y
sumamos las N variables independientes y normalmente estandarizadas obtenemos una variable chi-cudrado normalizada con N grados de libertad.
Estableciéndolo formalmente,
N
(X i  )2
w 8.0.1
i 1 2
Lo cual tiene una distribución de x 2 con N grados de libertad.
Obsérvese que la expresión 8.0.1 es una suma de variables independientes e idénticamente distribuidas, y que también es una suma de cuadrados.
Obsérvese además que el uso de la distribución de x 2 envuelve el conocimiento de  2 , que no tenemos.
La distribución de F
Un dato estadístico muy útil que sirve para probar hipótesis es la distribución F, la cual consiste en la proporción de dos variables con distribuciones chi-
cuadrado. Si x 12 y x 22 son dos distribuciones chi-cuadrado independientemente distribuidas con grados de libertad N 1 y N 2 , la distribución de F
se puede formular así:

N 2 x12
F 8.0.2
N 1 x 22
Es conveniente desarrollar este argumente en base a una comparación entre dos varianzas. Dado los grados de libertad N 1 y N 2 respectivamente,

N1 S12 N 2 S 22
x  2
2
1 y x  22
2
1 2
En que S12 y S 22 son dos estimados muestrales independientes de  12 y  22 respectivamente. Aplicando la estadìstica F para comprobar la
hipótesis  1   2   0 cuando  0 es la varianza verdadera, tenemos:
2 2 2 2

Si resultará valida la hipótesis de que las varianzas de la población de las dos muestras sea verdaderamente iguales y que sean iguales a la varianza
verdadera, la estadística F de la ecuación 8.0.3 se convertiría en la promoción de dos varianzas muéstrales con los grados de libertad apropiados:

S12
F 8.0.3
S 22
Si resultara válida la hipótesis de que las varianzas de la población de las dos muestras son verdaderamente iguales y que sean iguales a la varianza
verdadera, la estadística F de la ecuación 8.0.3 se convertiría en la proporción de dos varianzas muestrales con los grados de libertad apropiados:

S12
F 8.0.4
S 22
Siendo N 1 y N 2 , respectivamente los grados de libertad del numerador y del denominador respectivamente

*
R. L. Anderson y T. A. Bancroft, Statiscal Theory in Research (Nueva York. Mac Graw-Hill Book Co., 1952), pp.68-85.
*
También llamado Ji-cuadrado.
La distribución F es simétrica y puede ser utilizada para pruebas de dos colas. Una tabla ha sido computada de valores de F para los grados de libertad
N 1 y N 2 . Los valores incluidos en la tabla son los valores críticos de la proporción F y son tales que a un nivel de probabilidad escogido, el valor
tabular de F en su valor mayor de lo que permitirían aceptar la hipótesis nula. Dicho de otra manera, existe una probabilidad de que las dos muestras
aleatorias extraídas de dos poblaciones normales rindan las mismas varianzas. Si el valor computado de F es menor que el valor crítico de acuerdo a
los grados de libertad apropiados y el nivel de probabilidad escogido, aceptamos la hipótesis nula. Esto es, concluimos por la evidencia que no hay
diferencia significativa entre las dos varianzas estando dado el nivel de confianza.
Dos supuestos limitadores de la prueba F pueden ser establecidos como a continuación.
1. la prueba F esta basada en muestras independientes, normalmente aleatorias con el promedio cero y la varianza uno.
2. las muestras extraídas de la población normal determinada tienen varianzas constantes. Esto es las varianzas son homoscedasticas se
verifican sólo aproximadamente
El análisis de varianza.
El análisis de varianza es una técnica estadística muy poderosa para probar, utilizando observaciones muestrales, sea que una variable esta en verdad
asociada con otra, o sea que la observación observada entre las dos variables se debe a fluctuaciones muéstrales. *La técnica está basada en dividir la
varianza total de un conjunto de datos en varias varianzas y componentes, y que cada componente represente un atributo diferente. Si se descubre que
la varianza componente relativa a un atributo en particular es mayor que la varianza muestral en los datos que había sido estimado, mayor de los que se
puede explicar por las fluctuaciones muestrales solamente, se considera entonces que es significativa la variable que reprensenta el atributo en
cuestión.
Clasificaciones unidireccionales
El uso más simple del análisis de varianza es el caso en el cual las observaciones se clasifican en grupos en base a un solo atributo. La tabla 8-1
contiene datos sobre gastos familiares, y se supone que los datos son una muestra aleatoria extraída de una distribución normal que tiene una varianza
común.
Tabla 8-1
xi 3  Separado
X i 1  casado x i 2  soltero
o divorciado

xij ( x1 j  x1 ) 2 X2j ( x2 j  x2 ) 2 x3 j ( x 3 j  x3 ) 2
j =1 $144 9 $140 16 $151 1
j =2 $139 64 $137 49 $147 9
j =3 $133 196 $128 256 $137 169
j =4 $156 81 $153 81 $152 4
j =5 $143 16 $138 36 $142 64
j =6 $156 81 $151 49 $163 169
j =7 $147 0 $145 1 $146 16
j =8 $158 121 $160 256 $162 144
568 744 576
La muestra total de 24 familias se agrupa en tres clases que corresponden a tres tipos de estado civil. Calcúlese:
X1  X 2  X 3
X 1  147 X 2  144 X 3  150 X   147
3
Y utilizando:

(X ij  X i )2
S t2  i

Ni 1

S12  81.1 S 22  106.3 S 32  82.3

Podemos ahora calcular la varianza “dentro” de las clases y la denotamos S 2*2

* 2
J. E. Freund Modern Elementary Statics (3a ed.; Englewood Cliffs, New Jersey; Prentice-Hall,1967). P. G. Hoel, Elementary statics 2 a ed; Nueva York: Jhon Willey & Sons, 1966). H. Scheffé
The analysis of Variance (Nueva York: Jhon Wiley & Sons, 1959). M G Kendall, A Course in Multivariate Analysis (Nueva York: Hafner Publishing Co., 1957). T. W. Anderson, An introduction
to Multivariate Statistical Analysis (Nueva York: Jhon Wiley & Sons, 1958).
1 1
S 2*2  
N C i
(X
j
ij  X1)2 
N C
(568  744  576)

1
 (1888)
21
 89.9
Obsérvese que N  24 , el número total de observaciones, y que C=3, el número de clases entre las cuales hemos agrupado las observaciones.

Luego se puede calcular la varianza S1*2 ”entre” las clases así:

1
S1*2    ( X i X ) 2
C 1 i j

En que X i es el promedio de las ocho observaciones en cada clase i , y X es el promedio de la muestra total.

S1*2 
1
3 1

xN i ( X 1  X ) 2  ( X 2  X ) 2  ( X 3  X ) 2 

1
3 1

x8 (147  147) 2  (144  147) 2  (150  147 ) 2  8.1.2

1
 (8) (8)
2
 72
Nótese que N 1  el número de observaciones, como sucede muchas veces en el análisis de varianza, la formula tendrá que ser ajustada
apropiadamente.
En la próxima etapa se computa:

S1*2 72
F  *2   0.80 8.1.3
Sx 89.9
Estamos interesados en poner en prueba la hipótesis que la diferencia en los gastos medios de consumo de familias de diferentes estados civiles no
son estadísticamente significativas. Para este propósito formamos la hipótesis nula en base a las varianzas No existe diferencia verdadera entre las
dos estimaciones de varianza simbólicamente.

H 0 :  1*2   2*2 ………………………………………………………………………..8.1.4


Si esta hipótesis nula es cierta, entonces la diferencia numérica entre los dos estimados de varianza se atribuye a una causalidad muestral, y la
conclusión es que los dos estimados son estocásticamente iguales, en términos del valor esperado:

E ( S1*2 )  E ( S 2*2 ) …………………………………………………………………….8.1.4.A


Para verificar la hipótesis nula comparamos el valor tabular de F (la tabla de distribución de F) con el valor calculado de F. La tabla ofrece el valor de la
proporción entre dos parámetros (dos varianzas) como una función de los grados de libertad del numerador y del denominador. * Calculamos los grados
de libertad como N 1  2 , y N 2  21 , el numero total de observaciones N menos el número de clases C según fueron especificadas.

Al nivel de significación del cinco por ciento, el valor crítico de Frelacionado con N 1  2 , y N 2  21 , es 3.47. Ya que nuestro valor calculado es
0.80, que es mucho menor, llegamos a la conclusión de aceptar la hipótesis nula. No existe diferencia significativa entre los dos estimados de varianzas.
Por lo general, el gasto de consumo de las familias no está afectado significativamente por su estado civil.
La identidad fundamental y el resultado generalizado
Con estos resultados podemos hacer unas generalizaciones útiles utilizando el suscrito para las filas y r c para las columnas y denotando X ij , el
j-ésimo elemento de la i-ésima columna, podemos construir una tabla general como la siguiente:

*
Al leer cualquiera tabla F, hay que estar seguro de que los grados de libertad calculados para el numerador y denominador corresponden a los valores señalados de la tabla. Usualmente
los grados de libertad del numerador se consignan horizontalmente y los del denominador verticalmente.
X 11 X 21 X 31  X c1
X 12 X 22 X 32  X c2
   
8.1.5
   
   
X 1r X 2r X 3r X cr

El estimado de la varianza natural de esta matriz de observaciones es:


( X  X )2
ˆ 2   N  1 8.1.6
i j

Luego obtenemos un resultado interesante llamado la identidad fundamental. Escribamos:


( X ij  X )  ( X ij  X i )  ( X i  X ) 8.1.7

 ( X
i j
ij  X ) 2   ( X ij  X i ) 2   ( X i  X ) 2
i j i j

 2 ( X ij  X i ) ( X i  X ) 8.1.8
i j

El término de los productos cruzados desaparece ya que:


 
2  ( X ij  X i )( X i  X )  2 ( X i  X )  ( X ij  X i )  8.1.9
i j i  j 

y (X
j
ij  X i )  0 , siendo la suma de las desviaciones con respecto al promedio dentro de u grupo. Por lo tanto tenemos:

 ( X
i j
ij  X ) 2   ( X ij  X i ) 2   ( Xi  X ) 2
i j i j
8.1.10

La suma total de cuadros = la suma de cuadros “dentro” de las clases


+ la suma de cuadros “entre” las clases
Por lo cual,
var ianza estimada " entre" las clases
F 
var ianza estimada " dentro" de las clases

S1*2
 *2 8.1.11
S2
Con relación al modelo de regresión la suma de las desviaciones cuadradas “entre” las clases son las desviaciones explicadas de la variable
dependiente con respecto a su promedio; y la suma de desviaciones cuadradas “dentro” de las clases es el residuo o las desviaciones no explicadas. El
ejemplo numérico simple que se ilustra en la tabla 8-2 ayudará en el entendimiento de estos resultados.
Tabla 8-2
Clase 1 Clase 2 Clase 3
X 1j X 2j X 3j
( X1 j  X1)2 ( X 2 j  X 2 )2 ( X 3 j  X 3 )2
2 4 3 4 6 0
5 1 6 1 5 1
4 0 6 1 6 0
3 1 3 4 6 0
6 4 7 4 7 1
20 10 25 14 30 2

X1  4 X 2  5 X 3  6
X1  X 2  X 3
X 5
3
(X  ( X
2 2
ij  Xi ) y i  X) :
i j i j

 ( X  X i )   ( X 1 j  X1 )2   ( X 2 j  X 2 )   ( X 3 j  X 3 )2
2 2
ij
i j j j j

 10  14  2
 26
Computamos entonces
 ( X i 
 X )2  Ni ( X1  X )2  ( X 2  X )2  ( X 3  X )2 
i j


 5 ( 4  5) 2  (5  5) 2  (6  5) 2 
 5 ( 4  5)  (5  5)  (6  5)
2 2 2

 5 (1  0  1) 
 10
Para examinar la identidad fundamental, tenemos que demostrar que la ecuación 8.1.10 se verifica en función del ejemplo numérico. Esto es, tenemos
que obtener el resultado siguiente

(X
i j
ij  X ) 2   ( X 1  X ) 2  ( X ij  X ) 2
i j i j

O bien 26+10=36
Se puede probar que es esto es así, puesto que:

 ( X
i j
ij  X ) 2  9  0  1  4  1  4  1  1  4  4  1  0  1  1  4  36

Corrigiendo en atención a los grados de libertad apropiados, tenemos:

S 2*2 =varianza “dentro” de las clases


1 1
 ( X ij  X i ) 2  15  3 (26)  2.17
N C i j

S 2*2 = varianza “entre” las clases


1
  ( X i  X ) 2
C 1 i j
1
 (10)
3 1
5
La varianza total es:
1
V    (X ij  X ) 2
N 1 i j
1
 (36)
15  1
 2.57
La prueba F es como antes:
S1*2
F
S 2*2
1
(10)
 3  1
1 8.1.12
(26)
15  3
5

2.17
 2.3
Al comparar este valor con 8.39, el valor crítico que da la Tabla F al nivel del 5por ciento de significación, cuando N 1 y N2 = 12, uno concluye que no
existe diferencia significativa entre los dos estimados de varianzas. La diferencia observada entre las dos varianzas se debe a una variación aleatoria en
las observaciones.
Podemos construir ahora la tabla de análisis de varianza, la Tabla 8-3.
Tabla 8-3
LA TABLA DE ANÁLISIS DE VARIANZAS
Fuente Suma de cuadrados Grados de libertad Varianza estimada
Entre
 ( X
i j
i  X) 2 C-1 Suma de cuadrados / C – 1

Dentro
 ( X
i j
ij  X i )2 N–C Suma de cuadrados / N – C

Total
 (Xi j
ij  X )2 N -1 Suma de cuadrados / N – 1

Nota: La suma de los cuadrados: entre + dentro = total


Los grados de libertad: C-1 +N – C = N - 1
La clasificación en dos direcciones
Es posible componer un modelo de clasificación en n direcciones para el análisis de varianzas. Para ilustrar un modelo de clasificación en dos
direcciones, suponemos que las X ij son variables independientes aleatorias que tienen una distribución normal con promedio  ij y una varianza
 2 . La fórmula del cómputo se puede desarrollar así (no representa prueba):

 ( X
i j
ij  X ) 2    ( X i  X ) 2   ( X j  X ) 2
i j i j
8.1.13
  ( X ij  X i  X  j  X ) 2
i j
En que las columnas tienen el índice i y las filas el índice j, y:

X i   media por columnas de la columna i-ésima


X  j  media por filas de la fila j-ésima
X  promedio general
Luego computamos:

 ( X i  X )2 r  ( X i  X )2 8.1.14
i j
Sc2   i
c 1 c 1
  (X j  X ) 2
c ( X  j  X ) 2
i j j 8.1.15
S r2  
r 1 r 1
 ( X ij  X i  X  j  X )2
i j 8.1.16
S02 
(r  1) (c  1)
en que S c2  variaciones en las columnas o variaciones debidas al atributo de acuerdo al cual se escogen las columnas
S r2  variaciones en las filas o variaciones debidas al atributo de acuerdo al cual se arreglan las filas

S 02  otras variaciones o las variaciones remanentes después de que se ha dado cuenta de las variaciones atribuibles a las variaciones en
las columnas y a las variaciones en las filas
Componemos dos pruebas F:

2
c(c  1) ( X  j  X ) 2
S j
Fr  r

S 2
0  ( X
i j
ij  X i  X  j  X ) 2 8.1.17

N 1  r  1, N 2  (r  1)(c  1)
y
2 r (r  1) ( X i  X ) 2
S 8.1.18
Fc  c
 i

S 2
0  ( X
i j
ij  X i  X  j  X ) 2

N 1  c  1, N 2  (r  1)(c  1)

Considérese el siguiente modelo de clasificación a dos vías en que se ha compuesto una prueba para determinar el
significado de dos variables que no son cuantitativas, la religión y el color, relativamente al ingreso medio anual.
Que A, B, y C sean tres religiones la protestante, la Católica, y la Judía arregladas en forma de columna; y que
blanco y negro sean los dos colores, organizados en forma de fila. (Los números aquí son hipotéticos.)
Protestante Católico Judío
A B C
Blanco $ 8 500 $ 9 100 $ 9 400 X 1  9000
Negro $ 7 100 $ 6 900 $ 7 000 X  2  7000

X1  7800 X 2  8000 X3  8200 X  8000


r  ( X i  X )2
S c2  i
c 1



2 (7800  8000) 2  (8000  8000) 2  (7000  8000) 2 
3 1
 160,000 / 2  80,000
c ( X  j  X ) 2
S r2 
j


3 (9000  8000) 2  (7000  8000) 2 
r 1 2 1
6,000,000
  6,000,000
1
  ( X ij  X i   X  j  X ) 2
i j
S 02 
( r  1) (c  1)
( 300)  (100) 2  ( 200) 2  (300) 2  (100) 2  ( 200) 2
2

( 2  1) (3  1)
280,000
  140,000
2
Se puede usar la siguiente fórmula para el cómputo
  ( X ij  X i   X  j  X ) 2    ( X ij  X ) 2    ( X  j  X ) 2
i j i j i j

y   ( X ij  X ) 2
y puede computarse en base a   X ij2  rcX 2 .
i j i j
Regresando a la ilustración
80,000
Fc   0.5714 8.1.19
140,000
6,000,000
Fr   42.8471 8.1.20
140,000

El valor calculado de Fc (0.5714) es menor que el valor crítico de F ( N1  2, N 2  2)  19,000 al nivel del 5 por ciento, y
Fr ( 42.8471) es mayor que F ( N1  1, N  2)  18.51 al nivel del 5 por ciento.

De acuerdo a esta prueba, la religión no tiene significación, pero el color tiene significación en lo que a las
diferencias medias anuales en el ingreso se refiere. La Tabla 8-4 resume los resultados obtenidos para este ejemplo.
TABLA 8-4
TABLA DE ANÁLISIS DE VARIANZAS (II)
Fuente Suma de cuadrados Grados de libertad Varianza Estimada
Entre columnas 160,000 2= (c - 1) 80,000
Entre filas 6,000,000 1= (r - 1) 6,000,000
Residuos 280,000 2=(r - 1) (c - 1) 140,000
Total 6,440,000 5= (N - 1) 1,288,000
Nota: La suma de los cuadrados: entre columnas + entre filas + residuo= total
Los grados de libertad: (c – 1) +(r – 1) + (r – 1) (c – 1)= N – 1

Análisis de varianza y el modelo de regresión


Es fácil ver que el modelo de análisis de varianzas por clasificación a dos vías puede arreglarse en base al modelo de regresión. Las observaciones
correspondientes al ingreso pueden ser designadas Yi y X2i respectivamente. La relación puede entonces ser escrita en la forma conocida:
Yi   0  X 1i   2 X 2i  U i i  1,2,..., N 8.1.21
La misma clase de transformación es posible operarla con de modelo de clasificación en una sola dirección comprobando la influencia del estado civil
sobre el gasto en consumo. Podemos escribir:
Yi   0  1 X 1  U i i  1,2,..., N 8.1.22
En que Y= gasto en consumo
X= estado civil
Las observaciones numéricas sobre el estado civil no están disponibles directamente, Sin embargo, hemos visto que el uso de las variables mudas
(capitulo 6) para representar diferentes categorías del estado civil puede facilitar al investigador la aplicación directa del análisis de regresión. La
introducción de la técnica de las varianza en la investigación econométrica. Sin embrago, la estadística F continúa usándose ampliamente, por lo menos
como una prueba suplementaria del grado de asociación entre las variables de la relación postulada.
Tampoco es una exageración decir que en tiempos recientes parece que el análisis de varianzas ha sido redescubierto en la investigación
econométrica, particularmente cuando el analista está ansioso de verificar en algún estudio la significación de variables que no se pueden calificar o que
son cualitativas.
En lo que sigue, examinaremos más a fondo la relación entre el modelo de regresión y el modelo de análisis de varianzas. Vamos a considerar el
modelo de regresión simple 8.1.22
Yi   0  1 X i  U i
O, a base de las desviaciones del promedio:
yi  1 xi  U i

El modelo de análisis divide la


varianza total en y así como el total de los grados de libertad para identificar las fuentes de
las variaciones. Siguiendo el modelo del análisis de varianzas, podemos formular la Tabla 8-5
TABLA 8 – 5
Fuente Suma de Cuadrados Grados de libertad Varianza Estimada

Total (y observada)
 yi2 N-1
 yi2 /( N  1)
 yˆ i ˆ12  x12
2
Regresión (y estimada) 1

 y12  ˆ12  x12


2
Residuo
 yi2  ˆ12  x1 N-2

(  Uˆ 12
N 2
La suma total de cuadrados se descompone así en dos componentes, la regresión y el residuo, con grados de libertad 1 y N – 2 respectivamente. Si los
sumamos ambos, obtenemos un total de N – 1 grados de libertad para las N observaciones de los datos. Obsérvese que la suma total de cuadrados
está asociada con N – 1 grados de libertad. La suma de cuadrados residual está asociada con grado de libertad. En caso del número K de variables,
tendrá K grados de libertad. La suma de cuadrados residual está asociada con N – 2 grados de libertad, puesto que los residuos tienen que satisfacer
las dos condiciones de mínimos cuadrados con relación al presente modelo. Claramente, los grados de libertad de la suma de cuadrados residual
dependen del número de parámetros estimados en el modelo particular. En este caso, los residuos se obtienen estimando parámetros  0 ,  1 que
tienen dos condiciones de mínimos cuadrados; mientras que en el caso del número K de variables, los residuos tendrán el número N – K – 1 de grados
de libertad ya que los residuos satisfacen el número de K + 1 de condiciones de mínimos cuadrados, una para cada uno de los parámetros estimados
más una para el intercepto  0 .
Siguiendo la discusión de la distribución normal estándar podemos establecer que la variable

ˆ1  1
z
S ˆ1
Esta distribuida normalmente con promedio cero y varianza unitaria, 0:
ˆ1  1
se distribuye m(0,1) 8.1.23
 u /  xi2
en que 1 es el valor (medio) verdadero de 1 y S ˆ   u2 /  xi2  Luego, siguiendo la ecuación 8.0.1, esta variable normal estándar cuando
1

se eleva al cuadrado, tiene una distribución chi-cuadrado con un grado de libertad. Esto es, ( ˆ1  1 ) /( u /
2 2
x 2
i ) tendrá una distribución chi-
cuadrado con un grado de libertad. Similarmente,
Ui U
se distribuye m(0,1) 8.1.24
u
en que U es el verdadero valor medio de la población U i . Puesto que E (U i )  U  0, U i /  u tiene una distribución chi-cuadrado y
2 2

obtenemos la distribución F siguiente:


( ˆ1  1 )  u2
F 
 u2  U i2
 xi2 8.1.25


( ˆ1  1 ) 2
x 2
i

U i
2
Podemos ahora verificar la hipótesis de que Y no depende funcionalmente de X, según lo postulado en el modelo; esto es H 0 : 1  0. Bajo esta
hipótesis nula,
12  xi2
F 8.1.26
U i2
O siguiendo la tabla de análisis de varianzas, Tabla 8-3,
var ianza de la regresión var ianza exp licada
F  8.1.27
var ianza residual var ianza sin exp licar

Comparamos entonces el valor computado de F con el valor de F consignado en la tabla a nivel de significación escogido para los grados de libertad del
numerador (1en ese caso) y el denominador (N-2 en este caso). Si el valor computado de F es menor que el valor de la tabla, aceptamos la hipótesis
nula y concluimos que 1  0. Esto es, las variaciones en Y no están en verdad asociadas con las variaciones en X, al nivel de significación
escogido.
Para ilustrar conforme al modelo de regresión 3.4.1, construimos la tabla 8 – 6.
Tabla 8-6
Fuente Suma de cuadrados Grados de libertad Varianza estimada
Total ( Y ) 2 13
Y Y   276.1686
N
Regresión
Yˆ Yˆ 
 (Y ) 2  227.9500
1 227.9500

N
Residuo Y Y  Y Y   48.2186
ˆ ˆ 12 4.0182
var ianza de regresión 227.9500
F   56.7294 8.1.27.A
var ianza residual 4.0182

El valor de la tabla de F (1.12) es igual a 4.75 al nivel de significación del 5 por ciento, de manera que rechazamos la hipótesis de que  2  0. La
conclusión es que la asociación entre las dos variables es significativa estadísticamente.
Con relación a la regresión múltiple utilizada para ilustrar el modelo 3.4.2, la tabla de análisis de varianzas, puede componerse como en la Tabla 8-7.
Tabla 8-7
Fuente Suma de cuadrados Grados de libertad Varianza estimada
Total ( Y ) 2 13
Y Y   276.1686
N
Regresión
Yˆ Yˆ 
 (Y ) 2  254.0402
2 127.0201

N
Residuo Y Y  Yˆ Yˆ  22.1284 11 2.0117
var ianza de la regresión 127.0201
F   63.1407 8.1.27.B
var ianza residual 2.0117

El valor tabular de F (2,11) es igual a 3.98 al nivel de significación del 5 por ciento de manera que rechazamos la hipótesis de que   2  3   0.
Concluimos por lo tanto que existe una asociación significativa, una covariación, entre las tres variables incluidas en el modelo. Podemos analizar más a
fondo la significación de la asociación de Y con X 2 o X3 separadamente, aplicando la prueba F a la proporción en que el numerador es la regresión o la
varianza explicada en base a X2 o X3 solamente, y el denominador es la varianza residual según ha sido computada
apropiadamente. La Tabla 8-8 ilustra este caso.
Tabla 8.8
Fuente Suma de cuadrados Grados de Varianza
libertad Estimada
Total 276.1686 13
Regresión (X2) 227.9500 1 227.9500
Regresión (X2 y X3) 254.0402 2
Regresión (X3 por resta) 26.0902 1 26.0902
Residuo 22.1284 11 2.0117
Utilizando los datos de la Tabla 8-8, la prueba para comprobar el efecto adicional de X 3 es entonces:
26.0902
F  12.9692 8.1.28
2.0117
El valor tabular de F(1,11) es igual a 4.84 al nivel de significación del 5 por ciento, de manera que rechazamos la hipótesis nula. Es decir, concluimos
que la covariación entre Y y X3 de una X2 dada, es significativa estadísticamente.
La significación de X2 sola se puede determinar como en la Tabla 8-9.
Tabla 8-9
Fuente Suma de cuadrados Grados de libertad Varianza Estimada
Total 276.1686 13
Regresión con (X2) 277.9500 1 227.9500
Residuo 48.2186 12 4.0182
227.9500
F  56.7294 8.1.29
4.0182
Este resultado es, por supuesto, el que obtuvimos en la ecuación 8.1.27.A. El valor tabular de F (1,12) es igual a 4.75 al nivel de significación del 5 por
ciento. La conclusión es, igual que anteriormente, que la asociación entre Y y X 2 para una X3 dada, es significativa estadísticamente. Obviamente, una
forma alternativa seria la de aplicar la prueba directamente con respecto a X 3 y después a X2 por medio de la recta.
Así, resulta ser fácil ver la relación entre el modelo de regresión lineal y el modelo de análisis de varianzas. Sin embargo, si la relación de regresión no
es lineal, la prueba F no tendrá significado.
8.2 Análisis de covarianzas
El análisis de covarianzas es básicamente una extensión del análisis de varianzas. *También está basado en la distribución F, y como tal está sujeto a
los mismos supuestos restrictivos como lo está el análisis de varianza. El análisis de covarianzas permite el análisis de la relación entre ciertas variables
mutuamente dependientes a la vez que verifica si otras variables (las cuales pueden no ser cuantificables) afectan o no a la relación bajo investigación.
Por ejemplo, de acuerdo al razonamiento económico, el gasto de consumo de una familia depende del nivel de ingreso de la familia. Al mismo tiempo se
cree que los patrones de consumo de la familia pueden variar en las diferentes regiones de la misma economía nacional y que los efectos regionales
pueden influir en la estimación de los coeficientes de regresión en base a datos nacionales. Si explícitamente no se da cuenta de estos efectos en el
modelo de regresión los estimados serán sesgados en formas desconocidas. El modelo de análisis de covarianzas pretende analizar los efectos de
ambas variables, el ingreso y el patrón regional, a la misma vez. En verdad el análisis de covarianzas es una alternativa de combinar los métodos de
regresión con el análisis de varianzas. De lo contrario uno se valdría de dos análisis independientes –el análisis de varianzas para comprobar el impacto
regional sobre el patrón de consumo y el análisis de regresión para estimar el efecto del ingreso.
Considérese el modelo:
Yi    X i  U i 8.2.1
Con las siguientes condiciones a priori adyacentes:
  0,   0, i  1,..., N
Yi  consumo de familia i-ésima

X i  Ingreso de la familia i-ésima

U i  término de la perturbación

Se supone que las U i son aleatorias, normalmente distribuidas, así homoscedásticas, como sucede con los supuestos del análisis de varianzas.
Recuérdese que en el modelo de regresión simple se daba por sentado que los U i eran aleatorias y homoscedásticas, pero no necesariamente
distribuidas normalmente.
Considérese ahora si el problema de si las  y  estimadas varían entre grupos de individuos, que digamos de un grupo regional a otro, cuando los
datos provienen de unidades familiares de diversos antecedentes regionales. Supóngase que existe el número P de tales patrones regionales.
Podríamos estimar  y  para cada región de número P de relaciones de regresión diferentes basadas en datos obtenidos separadamente en
cada región. Alternativamente, podemos decir idear un experimento para verificar la hipótesi de que los parámetros ̂ j y ˆ j estimados para las
diferentes regiones son iguales a las mismas  y  verdaderas respectivamente, sin tener en cuenta las diferencias regionales. Esta prueba puede
ejecutarse mediante el análisis de covarianzas, el cual nos permite evaluar con un cálculo los efectos sobre el consumo de la variable cuantitativa, el
ingreso, así como la variable cualitativa, el patrón regional. La Tabla 8-10 ilustra el análisis de covarianzas.

*
E. Malinvaud, Statiscal Methods of Econometrics (Amsterdam: Northolland Publishing Co., 1966), pp. 233-236. R. L. Anderson y T. A. Bancroft, Statiscal Theory in Research (Nueva York:
McGraw-Hill Book Co., 1952), pp. 297-312.
Tabla 8-10
TABLA DE ANÁLISIS DE COVARIANZAS *
Fuente de variación Grados Suma de cuadrados
de libertad
Dentro de las clases con N-2P P
efectos desiguales

j 1
i
j
(Yi  Y j ) 2 
P

   (Y
j
*
j i i  Y j )( X i  X j )
Diferencias entre las j P-1 j 1
P

 (j 1
*
j   )  ij (Yi  Y j  )( X i  X j )
Dentro de las clases con N-P-1
efectos iguales P

 j 1
i
j
(Yi  Y j  ) 2 

P
 j 1
i
j
(Yi  Y j )( X i  X j )

i=1,2,…,N j=1,2,…,P.

 i
j
 la suma de todas las i de todas las observaciones de la j-ésima clase. Nótese que en la Tabla 8-10, Y 1 y X1 pueden leerse Yji y Xji
respectivamente

Y j ., X j  los promedios de Y y X respectivamente en la j-ésima clase.


i i

ˆ 
*  (Y  Y )( X  X )
i
j
i j i j

 (X  X )
8.2.2
j j 2
i i j
P


j 1
i
j
(Yi  Y j )( X i  X j )
̂  P
8.2.3


2
i
j
( X i  X j )
j 1
Nótese que ˆ y ˆ son coeficientes de regresión por mínimos cuadrados. Esencialmente, ˆ j es el coeficiente estimado de  con respecto a la j-
* *
j

ésima clase, y ˆ es el coeficiente estimado de  para toda la muestra.


P

N  2P
(ˆ  ˆ ) (Y  Y )
j 1
*
j
j
i i j

F 8.2.4
P 1 P P

 (Y  Y )   ˆ  (Y  Y )( X  X )
j 1
j
i i j
2

j
*
j
j
i i j i j

En que N1=P-1
N2=N-2P

*
E. Malinvaud, Statistical Methods of Econometrics (Amsterdam: North-Holland Publishing Co., 1966), p.234.
Dados el nivel de confianza apropiado y los grados de libertad N 1 y N2 se consulta la tabla para encontrar el valor de F. Si el valor computado de F, se
rechaza la hipótesis nula de que los parámetros estimados son los mismos e iguales al parámetro “verdadero” con
independencia de clasificación regional. La Tabla 8-11 provee un ejemplo numérico.
TABLA 8-11
Y X R
8 12 1
4 6 1
2 6 1
6 8 1
7 12 2
3 7 2
8 8 2
i=1,2,…,7(N=7). j=1,2(P=2).

 1
iYi  20 Y1  5
 1
i X i  32 X 1  8
 2
i Yi  18 Y2  6
 2
i X i  27 X 2  9
(8  5)(12  8)  ( 4  5)(6  8)  ( 2  5)( 6  8)  (6  5)(8  8)
ˆ1* 
(12  8) 2  (6  8) 2  (6  8) 2  ((8  8) 2
20
 0.83
24
(7  6)(12  9)  (3  6)( 7  9)  (8  6)(8  9)
ˆ 2* 
(12  9) 2  (7  9) 2  (8  9) 2
7
 0.5
14
20  7 27
ˆ  
24  14 38
 0.71
 1
i (Yi  Y1 ) 2 (8  5) 2  ( 4  5) 2  ( 2  5) 2  (6  5) 2
 20
 2
i (Yi  Y2 ) 2  (7  6) 2  (3  6) 2  (8  6) 2
 14
 1
i (Yi  Y1 )( X i  X 1 )  20
 2
i (Yi  Y2 )( X i  X 2 )  7
Se calcula entonces la porción F:
Numerador  ( ˆ1* /  ˆ ) 1i (Yi  Y1 )( X i  X 1 )
 ( ˆ2*  ˆ ) i2 (Yi  Y2 )( X i  X 2 )
 (0.83  0.71)( 20)  (0.50  0.71)(7)
 1
Deno min ador   1i (Yi  Y1 ) 2   i2 (Yi  Y2 ) 2

 ˆ1*  1i (Yi  Y1 )( X i  X 1 )  ˆ2*  i2 (Yi  Y2 )( X i  X 2 ) 
 20  14   (0.83)(20)  (0.50)(7)
 14
N  2P  7  4  3
8.2.5
P 1  2 1  1
3 1
F 
1 14
3

14
 0.21
El valor crítico extraído de la tabla F para N1 =1, N2=3 al nivel de significación del 5 por ciento es 10.13. Por lo tanto aceptamos la hipótesis de que todos
los parámetros ˆ j son iguales a la misma  desconocida sin tener en cuenta las diferencias regionales. Es decir, E ( ˆ1* )  E ( ˆ 2* )  ... , y las
*

diferencias observadas entre las regiones se deben al azar o a las fluctuaciones muestrales.
El análisis de covarianzas, aunque bien conocido en otras disciplinas, no se ha utilizado extensamente en la investigación econométrica. En su lugar, el
uso de variable mudas ha prevalecido. Utilizando un valor mudo igual a 1 cuando la familia i-ésima pertenece a la región j-ésima, y a un valor mudo
igual a 1cuando la familia i-ésima pertenece a la región j-ésima, y a un valor mudo de 0 en los demás casos, e introduciendo una variable muda para las
pendientes diferenciales, podemos reformular la ecuación de regresión y aplicar directamente el análisis de regresión. Estimamos entonces, omitiendo
los suscritos i :
Y   0  1 X   2 DX   3 D  U 8.2.6

E (Y )   0  1 X para la región 1 8.2.7

E (Y )  (  0   3 )  ( 1   2 ) X para la región 2 2.2.8


Cuando D = para la región 2
= 0 para la región 1
Debe ser evidente que la prueba de igualdad de los interceptos se puede hacer mediante la técnica de análisis de varianzas o por la introducción de
variables mudas diferenciales de intercepto (sección 6.1), mientras que la prueba de igualdad de las pendientes se puede hacer mediante el método de
análisis de covarianzas o introduciendo variables diferenciales mudas de pendientes (sección 6.2)
8.3 Regresión ortogonal
Hasta ahora hemos limitado la presentación al modelo de regresión que desarrollamos en los capítulos 2 y 3. El marco de referencia de ese análisis
está basado en un modelo lineal cuya línea estimada de regresión está construida matemáticamente de tal manera que minimiza la suma de cuadrados
de las desviaciones entre puntos observados y la línea estimada, estando medidas verticalmente las desviaciones a minimizar.
Supóngase, como en la gráfica 8-1, que decidimos medir las desviaciones por líneas perpendiculares a la línea de regresión y que minimizamos la
suma de cuadrados de tales desviaciones en lo que respecta a la estimación de parámetros de la línea de regresión. La ecuación a ser estimada la da:
1X i   2Yi   0  U~i 8.3.1
Grafica 8.1

En que 12  22  1. Nótese que U~ es la desviación perpendicular, que es diferente de U


i i , la cual denota la desviación vertical como anteriormente.

Este método es la regresión ortogonal.*La línea de regresión se obtiene por medio de minimizar U i2 en vez de ~ 
U i2 , salvo que se cumpla la
restricción adicional de la suma de cuadrados de los coeficientes de las variables que describen la función, Y y X, sea igual a la unidad; esto es

12  22  1 . Vamos a examinar este caso más a fondo.


En la gráfica 8-2 en que Yi es linealmente dependiente de Xi, la pendiente de la línea es 1 , y por lo tanto:

tan   1 8.3.2
~
Según se indica, el ángulo entre U i y U i es  . Por lo tanto:
U~i  U i cos 8.3.3
La ecuación de mínimos cuadrados ordinarios la da:
Yi   0  1 X i  U i
O bien,
Yi   0  1 X 1  U i 8.3.4
Sustituyendo, tenemos:
U~i  (Yi   0  1 X 1 ) cos 8.3.5

Grafica 8.2

Usando la ecuación 8.3.2 y reagrupando:


U~i  Yi cos  X i tan  cos  0 cos 8.3.6
Puesto que
sin 
 ,
cos
8.3.7
~  Y cos   X sin  cos   cos
U
cos
i i i 0

*
E. Malienvaud, Statistical Methods of Econometrics (Amsterdam: North-Holland Publishing Co., 1966), pp. 7-10 y 40-44. L. R. Klein, A Textbook of Econometrics (Evanston, Illinois: Row,
Peterson & Co. 1956), pp. 289-291.
Dejando que    2,  sin   1, y  0 cos    0, podemos expresar la ecuación de estimación para la regresión ortogonal cuando los
U~
términos de perturbación son denotados por i así:

U~i   0   2Yi  1X i 8.3.8

Esta es exactamente la misma ecuación que la ecuación 8.3.1 Esta ecuación de estimación tiene que satisfacer la condición correspondiente a la
identidad trigonométrica:

sin 2   cos 2   1 8.3.9

Ya que  2  cos y 1   sin  , tendremos como la restricción correspondiente sobre 2 1  22  1 8.3.10

Nos interesa obtener los estimadores  0 , 1, y  2 como en el caso del modelo de regresión MCO. Trabajamos ahora con la función:

L  (1X i  2Yi  0 )  (1  2 )


   2 2 2
8.3.11

En que  es el multiplicador de Lagrange. Tomamos las derivadas de esta función con respecto a  0 , 1, y  2 y las igualamos a cero. La
diferenciación con respecto  0 nos da el siguiente resultado:
 0  1X   2Y 8.3.12

Alternativamente, escribiendo todas las variables en función de las desviaciones con respecto a sus promedios respectivos (eliminando así a  0 ) y
diferenciando con respecto a 1 y  2 e igualándolas a cero, obtenemos los siguientes resultados:*
1( xi2   )   2  xi yi  0
8.3.13
1 xi y i   2 ( yi2   )  0

Las ecuaciones anteriores pueden ser comparadas con el conjunto de ecuaciones normales del modelo de regresión MCO.

Obsérvese que las ecuaciones 8.3.13 son un sistema lineal y homogéneo de ecuaciones (algebraicas) en 1 y  2 tendrán por lo tanto una solución
diferente de cero si y sólo si el determinante es cero.

1 y  2 , U~ , la cantidad a minimizar toma el valor de  . Esto se puede


2
También nótese que para obtener una solución diferente de cero de i

ver como a continuación. Escribiendo en términos de las desviaciones con respecto a los promedios,

U~   ( x    y )
i
2
1 i 2 i
2

8.3.14
    x     y  2    x y
1
2 2
i 2
2 2
i 1 2 i i
A base de las ecuaciones 8.3.13 encontramos las soluciones de 1 xi y  2  y i para obtener:
2 2

1 xi2  1   2  xi yi


8.3.15
 2  yi2   2   1 xi yi
Multiplicando la primera ecuación por 1 y la segunda por  2 , tenemos:

*
La educación de la línea de regresión expresada en términos de las desviaciones con respecto al promedio, x i, y yi sin término constante corresponde a una transformación lineal en el plano
XY, la cual transforma la línea de regresión en la línea paralela a ella, que pasa a través del origen. Puesto que  0  1X   2Y , el coeficiente  0 puede ser calculado a base
de los coeficientes de la línea transformada 1xi   2 y1  U~i .
12  xi2  12  1 2  xi yi
8.3.16

 2  y i   2   1 2  xi yi
2 2 2

Cuando los lados derechos de estas ecuaciones se introducen en las ecuaciones 8.3.14, obtenemos:

 i 1 2
~
u 2
   2
    2

8.3.17

  (12   22
Ya que 12  22  1 de acuerdo a ala ecuación 8.3.10, dándonos así el resultado deseado:
 u~
 i
2
8.3.18
~
Así para minimizar  U i , necesitamos resolver las ecuaciones 8.3.13 para obtener 1 y  2 utilizando 1 , la raíz menor de  extraída de:
2

x  x y  0
2
i ii
8.3.19

x y y 
ii
2
i
En este caso simple la expansión del determinante es una expresión cuadrática en  , y la raíz 1 menor está dada por:

1  1 ( xi2   yi2 )  4( xi yi ) 2
2
 8.3.20

Alternativamente, la ecuación 8.3.19 se puede expresar como el problema matemático de encontrar los valores de la  escalar los cuales satisfacen:
AX  X 8.3.21
O bien AX  X  0 8.3.22
En que A= a una matriz cuadrada
X  0 (Un vector característico)
  A una raíz característica
Escribimos entonces:
( A  I ) X  0 8.3.23
Habrá una solución de X diferente de cero sólo si:
A  I  0 8.3.24
Siguiendo la ilustración simple 2 2 ,

11   12
0 8.3.25

21 22  
Por lo cual (a11   )(a 22   )  (a12 a 21 )  0 8.3.26
O bien, 2  (a11  a22 )  a11 a22  a12 a21  0 8.3.27
Y las raíces son:


1  1 (a11  a22  (a11  a22 ) 2  4(a11 a22  a12 a21
2

 
8.3.28
2  12 (a11  a22  (a11  a22 ) 2  4(a11 a22  a12 a21
En el caso de una matriz simétrica, como en el análisis de regresión  12   21 , tenemos los siguientes resultados:


1  1 (a11  a22  (a11  a22 ) 2  (a11 a22  4a122
2

 
8.3.29
2  1 (a11  a22  (a11  a22 ) 2  (a11 a22  4a122
2
Nótese que ya lo que tenemos bajo el signo del radical es la suma de dos cantidades cuadradas, las raíces 1 y 2 son reales en el caso simétrico.
El trabajo de hacer los cómputos en una regresión múltiple (que ya no es el caso simple 2  2 ), será indudablemente muy abrumador.

Grafica 8.3

Es conveniente enfocar el problema de la población ortogonal por una ruta alternativa, la de la geometría. Vamos a denotar, como en la Grafica 8-3, la
~
desviación vertical U i , como antes, la desviación horizontal U i , y la desviación perpendicular U i . El área de un triangulo es igual a la mitad de la
base multiplicada por la altura. Si consideramos el triangulo con los lados U i ,U i, y H , podemos obtener los siguientes resultados.

1 (U iU i )  área del triangulo


2
 1 ( HU~i ) 8.3.30
2
Por lo tanto, 1 ( HU~i )  1 (U iU i ) 8.3.31
2 2
Multiplicando ambos lados por dos,
~  U U
HU i i i 8.3.32

Elevando al cuadrado ambos lados,

H 2U i2  U i2  U i2 8.3.33

También sabemos que la suma de los cuadrados de los dos lados de un triángulo rectángulo es igual al cuadrado de la hipotenusa. Así que podemos
escribir:

H 2  U i2  U i2 8.3.34
Por lo tanto,

~ ~
H U  U i2 (U i2  U i2 )
2 2
8.3.35
i
Sustituyendo la ecuación 8.3.35 en la ecuación 8.3.33,

~U 2(U 2 U2) U 2U2 8.3.36


i i i ii
1 es la pendiente de la línea de regresión, y:
Ui
1  8.3.37
U i

U i2
Por lo tanto,   2
2
8.3.38
U i
1

1
O bien U i2  2 U i2 8.3.39
1
Sustituyendo la ecuación 8.3.39 en la ecuación 8.3.36,
2 2
U U
U~i2 (U i2  i2 )  U i2 i2 8.3.40
i 1
Se sigue que:

U 2 U 2U 2
U~12U 12  U~12 12  1 2 1 8.3.41
1 1
Multiplicando ambos lados por B12 /U 12 , tenemos:

2
U~i2U i2 12  U~i2  U i2 8.3.42
Ui
~2 ~2
, U i 1  U i  U i
2 2
O bien 8.3.43

O bien, U i2 ( 12  1)  U i2 8.3.44

~ U i2
O bien, Ui  2
2
8.3.45
1  1
Nótese que U i es la desviación vertical usual del modelo de regresión MCO, y que:

U i2  (Yi   0  1 X i ) 2
De manera que si queremos minimizar la siguiente expresión:

 (Y    1 X i ) 2
U~i2  i 0

1   i2
8.3.46
La expresión anterior a minimizar es una función de los dos parámetros  0 y 1 y diferenciemos U i
2
con respecto a  0 y 1
respectivamente.
Podemos reformular las variables en términos de las desviaciones de sus respectivos promedios y escribir:

(y   1 xi ) 2
U~i2  i

1  12
8.3.47

Diferenciando con respecto a 1 ,

  U~i2  2( y i  1 xi )( xi ) (y i  1 xi ) 2 (2 1 )


 
1 1  12 (1  12 ) 2
8.3.48

 2( y i  1 xi )( xi )

 2( y 2
i  2 1 xi yi  12 xi2 ) 1
1  12 (1  12 ) 2

(1  12 )
Multiplicando por e igualando a cero,
2
( 1  yi2  212  xi yi  13  xi2 )
(   xi y i   1  x 1 ) 
2
0 8.3.49
1  12

Multiplicando por (1  12 ),

(  xi yi  1  x12 )  12 (  xi yi  1  x12 )  1  yi2


8.3.50
 2 12  xi y i  13  xi2  0

Reagrupando,

x y  x  x y  x
i i 1
2
i 1
2
i i 1
3 2
i  1  yi2
8.3.51
 2  x y    x  0
1
2
i i 1
3 2
i

O bien, 12  xi yi  1 ( xi2   yi2 )   xi yi  0 8.3.52

de lo cual:

( xi2   yi2 )  ( x i


2

)  ( yi2 )  4( xi yi ) 2
2

1  8.3.53
2( xi yi )

Evidentemente 1 tiene dos soluciones. Deseamos minimizar la ecuación 8.3.47, y la condición

de minimización queda satisfecha cuando la segunda derivada de la ecuación 8.3.47 con respecto a 1 es positiva. Tomaremos así la solución de
1 que satisfaga esta condición.
Luego obtenemos  0 diferenciando U~ i
2
en la ecuación 8.3.46 con respecto a  0 :

 U~i2
 0

1
1   i2

 2 (Yi   0  1 X i )  8.3.54

Igualando a cero el lado derecho de la expresión y reagrupando, obtenemos el resultado apropiado.


8.4 El análisis del componente principal
El análisis del componente principal es un método que permite que un grupo de variables se exprese mediante un conjunto de componentes
ortogonales.* Supóngase que el número K de variables predeterminadas que aparecen en una ecuación en particular sean linealmente dependientes y
por lo tanto, colineales severamente, o que el número de variables bajo consideración es mayor que el número de observaciones. El análisis del
componente principal pone a nuestra disposición una técnica por medio de la cual el conjunto del número K de variables observadas puede ser
expresado como una combinación lineal de un conjunto menor del número M de componentes principales que son linealmente independientes. En
general, estos componentes principales no se pueden observar. El análisis del componente principal provee información sobre estas variables
componentes. En realidad resultan ser los vectores característicos de la matriz de covarianza de las variables independientes. Si tenemos el número K
de variables independientes observadas, habrá el número K de tales componentes. Las variables observadas entonces se definen de nuevo en función
de la combinación lineal de estos componentes designados como componentes principales. El primer número M de componentes principales se calcula
bajo el concepto de que son los que explican la mayor parte de la variación en las observaciones muestrales, mientras que la variación explicada por
otros componentes remanentes, M +1,M+2,…,K, se considera insignificante, El análisis del componente principal reemplaza así el conjunto de
observaciones sobre las variables originales por una combinación lineal del primer número M de componentes principales. “En efecto, transformar el
vector de variables originales aun vector de componentes principal es igual a una rotación de los ejes de coordenadas hasta formar un nuevo sistema
de coordenadas que tiene propiedades inherentes estadísticas.” *
Comenzamos definiendo un conjunto de combinaciones lineales de variables independientes X i (i  1,2,..., K ) de tal modo que hay una
10 *
condición particular respecto de los coeficientes de las Xi .

K
Y Pi   f i X i i  1,2,...K 8.4.1
i 1

fi 1
i
2
1 8.4.2

El primer Componente principal P1 se define entonces como el P para el cual la varianza es un máximo. La varianza de P es:
K K K
var(Pi )   f i 2 var( X i )   f i f j cov( X i X j )
i 1 j 1 i 1 8.4.3
i, j  1,2,..., K , cuando i  j
Para maximizar var(P) sujeto a la limitación 8.4.2, escribimos la expresión a maximizar como una Lagrange:
K K K K
L   f i 2 var( X i )   f i f j cov( X i X j )   ( f i 2  1) 8.4.4
j 1 j 1 i 1 j 1

En que  es el multiplicador Lagrange. Diferenciando la ecuación 8.4.4 con respecto a cada una de las f1 e igualándolas a cero, obtenemos:
K
2 f1 (var X 1   )  2 f j cov( X 1 X j )  0
j
j 1

8.4.5
K
2 f 2 (var X 2   )  2 f j cov( X 2 X j )  0
j
j 2
K
2 f k (var X k   )  2  f j cov( X k X j )  0
j
j K

Para cada caso i  1,2,3 estas ecuaciones pueden ser escritas como:
2 f1 (var X 1   )  2 f 2 cov( X 1 X 2 )  2 f 3 cov( X 1 X 3 )  0
2 f1 cov( X 1 X 2 )  2 f 2 (var X 2   )  2 f 3 cov( X 2 X 3 )  8.4.6
2 f1 cov( X 1 X 3 )  2 f 2 cov( X 2 X 3 )  2 f 3 (var X 3   )  0
De lo cual,
f1 (var X 1 )  f 2 (cov X 1 X 2 )  f 3 cov( X 1 X 3 )  f1
f1 (cov X 1 X 2 )  f 2 (var X 2 )  f 3 (cov X 2 X 3 )  f 2 8.4.7
f1 (cov X 1 X 3 )  f 2 (cov X 2 X 3 )  f 3 (var X 3 )  f 3
En notación matriarcal,
(V  I ) f  0 8.4.8

*
H. Hotelling “analices of a Complexo f Statistical Variables into Principal Componenets,” Journal of education Psicology, Vol. 24 (1993), pp. 417-441. M. A. Girshick, “principal components,”
Journal of the American Statical Asociation, Vol. 31, (1936), pp. 519-528. W. F. Massy, “Principal Components Regression in Explanatory Statistical Reserch.” Journal of the American
statistical Asociation, Vol. 60, núm. 309 (marzo, 1965), pp. 234-256. G. Tintner Econometrics (Nueva York: John Wiley & Sons, 1952), pp. 102-114. T. W. Anderson, An Introduction to
Multivariate Sytatistical Analysis (Nueva York :John Wiley &Sons, 1958). P.J. Dhrymes, Economestrics: Statistical Foundations and Applications (Nueva York: Harper & Row, Publishers, 1970).
*
T. W. Anderson, An Introduction to Multivariate Statistical Analysis (Nueva York: John Wiley & Sons, 1985), p.272.
*
El índice i va desde 1,2,…, K y se refiere a las X, y no al número de observaciones sobre cada X i . Para hacerse una idea de la restricción de la ecuación 8.4.2 repásese la sección
pasada que trata la regresión ortogonal.
En que V es la matriz de varianza-covarianza de Xi, y f es el vector de los coeficientes fi.

var X1 cov 1XX 2 cov 1XX 3 f1 f1


cov XX varX cov XX  f f 
  
8.4.9

1 2 2 2 3 2 2

cov 1XX 3 cov 2XX 3 varX3 f3 f3


Para resolver el sistema lineal homogénea 8.4.8, observemos que el sistema puede tener una solución diferente de cero, sólo si su determinante:
V  I  0 8.4.10
La expansión de este determinante será un polinomio de grado K(=al rango de V), y tendrá tres raíces, 1 , 2 , y 3 en este caso. Que éstas sean
1  2 3 . Remplazando  por 1 , la raíz más grande, uno determina el primer componente principal P1 resolviendo el sistema lineal
homogéneo para obtener f1 , f 2 , y f 3 y utilizando luego estos valores como coeficientes en una combinación lineal de las variables X 1 , X 2 y
X3 .
Los componentes principales pueden ser obtenidos de las observaciones originales de las X i o de las variables estandarizadas correspondientes z i
, en que:
( X it  X i )
z it 
Sxi
Y X i  el promedio de todas las observaciones t acerca de la í-ésima X, t=1,2,…, T para cada Xi, y sxi=la desviación estándar de las observaciones
muestrales de Xi. esta transformación produce un nuevo conjunto de variables z i con la observación individual zit. Los dos resultados que expresan los
componentes principales a base de observaciones o directamente o con relación a los valores estandarizadas, ya que éstas son todas independientes
frente a las unidades de mediación originales. Recuérdese que la variable estandarizada z i tiene una distribución normal aproximada con promedio cero
y varianza unitaria. En lo que sigue la mecánica del análisis del componente principal será trazada para el caso de cuatro variables explicatorios.
Supóngase que tenemos X 1 , X 2 , X 3 y X 4 , los conjuntos de observaciones sobre las variables y z1 , z 2 , z 3 y z 4 , las variables estandarizadas
correspondientes. Tenemos un conjuntote componentes principales que explica la mayor parte de las variaciones observadas en las z i . Remplazando
cada conjunto de observaciones sobre las variables X i por los valores correspondientes de un conjuntote observaciones acerca de la variable normal
estandarizada z i notamos que:

var( z i )  rii  1 8.4.11


cov( z i z j )  rij  cov( z j z i )  r ji
Entonces por las manipulaciones apropiadas, obtenemos:

r1 r12 r13 r14  f1 f1


r r r r   f   f 
21 2 23 24   2 2
r31 r32 r3 r34  f3 f3
8.4.12

  
r41 r42 r43 r4  f4 f4
O bien, ( R  I ) f  0 8.4.13
En la próxima etapa se puede resolver el sistema de ecuaciones lineales homogéneas. La condi9ción para que este sistema tenga solución es que el
siguiente determinante sea cero:
R  I  0 8.4.14
O bien,

1   r12 r13 r14


r12 1   r23 r24
0 8.4.15

r13 r23 1   r34


r14 r24 r34 1  
La raíz mayor de la ecuación 8.4.14, 1 , se determina como una ecuación 8.4.10. Luego, las cuatro ecuaciones lineales homogéneas de la ecuación
8.4.13 pueden ser resueltas para obtener fi , obteniendo P1 el primer componente principal.

P1  f1 z1  f2 z 2  f3 z 3  f4 z 4 8.4.16
Es posible escribir para cada Pi como una expresión lineal de las z i y entonces regresar a la ecuación original para explicar las variaciones en la
variable dependiente dada, digamos Yi en base a los Pi en lugar de las z i o las X i si las variables X i son variables explicatorios del modelo.
Observe que uno puede continuar esta complicada mecánica para obtener 2 , 3 4 y P2 , P3 , P4 . Resulta que los primer5os varios componentes
principales explican la mayor parte de las varianzas de las z i y generalmente no es necesario determinar todos los cuatro componentes principales.
Sin embrago, aún queda el problema de dar una interpretación económica al número M de componentes principales que explican la mayor parte de las
varianzas de las muestras observadas acerca del número K de variables. Es una ayuda, por supuesto, en cuanto a los cómputos y mencionáramos
anteriormente, que M sea menor que K; pero queda aún el probela de cuantos M de tales componentes principales pueden ser descritos de manera
única en función de las variables económicas observadas. Si el i-ésimo componente principal estuviera correlacionado de una manera única con una
variable observada en particular., es costumbre describir ese componente en términos de esa variable observada correlacionada.
Considérese la Tabla 8-12 como la matriz de correlación de una situación hipotética dada.
Tabla 8-12
La matriz de correlación para un caso hipotético
P1 P2 P3 P4 X1 X2 X3 X4
P1 1 0 0 0 0.96 0.02 0.01 0.01
P2 0 1 0 0 0.15 0.86 0.03 0.01
P3 0 0 1 0 0.01 0.05 0.02 0.90
P4 0 0 0 1 0.05 0.04 0.86 0.02

En base a esta tabla uno puede concluir que P1 se relaciona con X 1 , P2 con X 2 , P3 con X 4 y P4 con X 3 cuando X 1 , X 2 , X 2 y
X 4 son las cuatro variables observadas cuya descripción económica esta bien definida. Pero la descripción en términos económicos del conjunto de
componentes principales es siempre problemática, puesto que cualquiera de ellas puede tener una correlación significativa con más de una de las
variables observadas. El investigador tendrá entonces que hacer uso de su juicio personal para interpretar los componentes principales a base de las
variables económicas observadas.
Preguntas para la discusión
1. Discuta usted la distribución chi-cuadrado y la distribución de F.
2. Repase usted el modelo de análisis de varianzas y defina la identidad fundamental.
3. demuestre usted la relación entre el modelo de análisis de varianzas y el modelo de regresión.
4. El análisis de covarianzas permite el análisis de de las relaciones entre ciertas variables mutuamente dependientes mientras comprueba si
otras variables (que pueden no ser cuantificables) afectan la relación bajo investigación. Examine usted esta aseveración utilizando la tabla de
análisis de covarianzas.
5. (a) Defina usted la regresión ortogonal.
(b) Compruebe usted las ecuaciones normales del modelo MCO con las ecuaciones 8.3.13
(c) Resuma usted la exposición geométrica de la regresión ortogonal.
6. (a) Analice usted la mecánica de derivar los componentes principales de un conjunto de variables observadas. ¿Son mutuamente ortogonales
estos componentes derivados?
(b)Evalué usted la conveniencia relativa de derivar los componentes principales de las variables estandarizadas correspondientes en lugar de
las observaciones originales.
(c) Interprete usted los componentes principales a base de las variables observadas cuyas interpretaciones económicas se conocen a priori.

GUÍA DE AUTOEVALUACIÓN

Preguntas abiertas
Responda a los siguientes cuestionamientos

Y = β +β Y +U1 t -1
1. Considera el modelo t 0 t y demuestra que los estimados por mínimos cuadrados de los coeficientes de regresión son

sesgados, ¿Son consistentes? Si no lo son, ¿por qué?


2. El modelo de rezago distribuido que propuso Koyck ha sido utilizado extensamente. Toma, por ejemplo:
C t = β 0 + β1Yt + λC t -1 + U t en que C = consumo agregado y Y = ingreso agregado. Qué podemos decir del modelo anterior respecto a la
conocida hipótesis del ingreso permanente. Discute el problema que surge al estimar el modelo anterior mediante el método de mínimos cuadrados.
Describe la solución propuesta por Koyck.

3. Explica la modificación de la Prueba Durbin-Watson para un modelo como el siguiente:


C t = β 0 + β1Yt + λC t -1 + U t .

4. En términos del problema de estimación de los coeficientes de regresión por el método de mínimos cuadrados, los modelos de expectativas
adaptativas difieren de los modelos de ajuste parcial ¿Por qué?
5. Repasa la función racional del rezago distribuido y demuestra que la función de rezago distribuido de Koyck es un caso especial de la función
generalizada.

Y = β +β Y +β X +U
1 t -1 U = ρU + Vt -1 V
6. Considera el modelo t 0 2 t t donde la t t y la t están distribuidos en forma independiente con un

promedio cero y una varianza finita. Obtén el estimador de Wallis; Discute los criterios para la selección de la variable instrumental y; ¿Cómo puede
utilizarse el método cuando varias variables X aparecen como variables independientes en a relación?
¿Qué se quiere decir por modelo de retardos distribuidos?
7. Escribe la ecuación del modelo general de retardos distribuidos con un número de retardos infinito y con k retardos.
8. ¿Cuáles son las dificultades prácticas a la hora de estimar un modelo de retardos distribuidos con k retardos?
9. ¿Cuál es la estructura de retardos del modelo de retardos de Almon?
10. ¿Qué ventajas y desventajas presenta el modelo de retardos de Almon al de Koyck?
BIBLIOGRAFÍA COMPLEMENTARIA
 Berndt, R. Ernst (1991), The Practice of Econometrics. Classic and Contemporary, Editorial Addison-Wesley.
 Bowerman L. Bruce, O´Connell T. Robert y Koehler B. Anne (2007), 4ª. ed, Pronósticos, Series de Tiempo y Regresión , Editorial
Thomson.
 Fox Karl, (1973), Manual de econometría, Edit. Amorrortu editores, Buenos Aires.
 Greene, W.H. (1999), Análisis Econométrico, 3ª. Ed., Edit. Prentice Hall.
 Judge, G. et al. (1988) Introduction to the Theory and Practices of Econometrics, 2a. ed., Edit. Wiley & Sons.
 Kennedy Peter, (1997), Introducción a la econometría, 1ª. Ed. En español, Edit. Fondo de Cultura Económica.
 Klein R. Lawrence y Young M. Richard, (1982), An Introduction to Econometric Forecasting and Forecasting Models , 4a. ed., Edit.
Lexington Books, cuarta edición.
 Kmenta Jan, (1985), Elementos de Econometría, 1ª. reedición, Edit. VICENS Universidad.
 Wooldridge, Jeffrey M. (2001), Introducción a la Econometría: Un enfoque moderno, Edit. Thomson.
 Wynn R. F y Holden K., (1978), Introducción al Análisis Econométrico Aplicado, Edit. Ariel.

Você também pode gostar