Você está na página 1de 17

EL MODELO DE REGRESIN LINEAL

CAPITULO 1

1.1. EL ANLISIS DE REGRESIN 1.1.1 Interpretacin


El ingls Francis Galton1 (1822 - 1911) fue el primero en introducir el trmino regresin. Cuando estudiaba la relacin entre las estaturas de los hijos y los padres observ que la estatura de los hijos era alta o baja cuando los padres eran altos o bajos, respectivamente. Sin embargo, la estatura promedio de los hijos cuyos padres tenan una estatura dada, tenda a moverse o converger hacia el promedio de la poblacin. As, determin una regresin de la estatura de los hijos hacia el promedio o, en trminos de Galton, una regresin hacia la mediocridad. La Ley de Regresin Universal de Galton fue confirmada, aos despus, por Karl Pearson, quien realiz un estudio similar utilizando ms de mil observaciones. Con el estudio de Pearson se confirm que la estatura promedio de los hijos de un grupo de padres altos era menor que la estatura de sus padres y la estatura promedio de los hijos de padres de estatura baja era mayor que la de sus padres. As, se observa que los hijos de estatura alta o baja, regresan en forma similar hacia la estatura promedio de la poblacin. En este sentido, la regresin de una variable aleatoria Y sobre otra variable X fue entendida como la media de Y condicional en X, a travs de una relacin funcional entre X e Y. El estimador de los coeficientes involucrados en esta forma funcional fue hallado utilizando el criterio de estimacin de Mnimos Cuadrados Ordinarios (MCO), que ser estudiado en el siguiente captulo, y las observaciones muestrales de X e Y. Una interpretacin ms moderna de regresin indica que la misma es cualquier aproximacin de la distribucin de probabilidad de Y condicionada a los valores de las observaciones de X,
1

Francis Galton, Family Likeness in Stature, Proceedings of Royal Society, Londres,vol, 40, 1886, pp. 42-72.

Econometra Moderna

El Modelo de Regresin Lineal

siendo Y una funcin de X. En otras palabras, el anlisis de regresin estudia la relacin existente entre una variable endgena o dependiente (Y) y una o ms variables exgenas o independientes (X), con el objeto de estimar la media o valor promedio poblacional de la primera en trminos de los valores conocidos o fijos de las ltimas. Ahora, resulta ms clara la relacin entre el estudio de Galton y la definicin moderna del trmino regresin. A menudo se confunden los trminos regresin y correlacin, los cuales estn estrechamente ligados a pesar de que existen diferencias substanciales entre ellos. Por un lado el anlisis de correlacin pretende medir el grado de asociacin lineal entre dos variables a travs del coeficiente de correlacin2. Por ejemplo, se puede estar interesado en conocer la correlacin entre la cuenta de capitales y la tasa de inters, entre los trminos de intercambio y la balanza comercial, entre la tasa de encaje y crditos del sistema bancario, etc. En cambio, cuando se analiza una regresin se trata de estimar o de predecir el valor promedio de una variable (llamada explicada, dependiente o endgena) utilizando valores fijos3 de las variables explicativas (tambin llamadas independientes o exgenas) . Utilizando el ejemplo anterior, puede ser que se desee predecir el saldo de la cuenta de capitales teniendo informacin muestral de la tasa de inters o que se desee predecir el monto total de crditos conociendo la tasa de encaje bancaria. As, y conociendo la relacin existente entre estas variables a travs de un anlisis de regresin, ser posible predecir valores de la variable dependiente utilizando realizaciones de las independientes.

1.1.2 Cmo se conecta el anlisis econmico con el anlisis de regresin?


El anlisis econmico toma en consideracin diversas variables en conjunto. La relacin entre las tasas de inflacin y el desempleo, la relacin intertemporal entre las tasas de inters y el consumo o la relacin entre ste y los precios de los bienes relacionados de un bien, son algunos de los tantos ejemplos que se encuentran en el anlisis emprico en economa. Como ejemplo concreto, se puede citar la Ley de Okun4, la cual afirma que por cada punto porcentual que caiga la tasa de desempleo el producto tiende a crecer 3 puntos porcentuales. Esto significa que existe una relacin negativa entre las dos variables y, para contrastar el modelo, se necesitar utilizar simultneamente datos de ambas variables. Para ello, se deben utilizar distribuciones de probabilidad conjuntas o multivariadas5. Se sabe por nociones bsicas de estadstica que la funcin de probabilidad conjunta se puede plantear de la siguiente forma: f( y/ x1 , x2 , x3 ) = F ( y/ x1 , x2 , x3 ) * f (x1 , x2 , x3 ) (1.1)

Siendo la primera la funcin de probabilidad condicional y la segunda la marginal. En el anlisis economtrico, y tal como se indic anteriormente, se busca estimar la distribucin condicional mientras que la marginal no se utilizar, por el momento.
2

El coeficiente de correlacin entre dos variables aleatorias expresa el grado de dependencia entre el comportamiento

de dichas variables. Formalmente:


3

Cov (Y , X ) ( x )( y )

Se debe resaltar que las variables explicativas pueden ser de naturaleza estocstica, pero por simplicidad para el anlisis de regresin se asume que los valores de X no cambian en diversas muestras, es decir son fijos en el muestreo repetido. De hecho este supuesto deber imponerse al momento de querer obtener estimados de los verdaderos parmetros. El problema asociado a la presencia de regresores (variables exgenas) estocsticos, ser abordado en otro captulo. Se puede expresar matemticamente de la siguiente manera: 3(un u+ ) = (Q+1 Q f ) , donde un y Qf 1 indican que el producto est en pleno empleo y por tanto la tasa de desempleo (u) es la natural. 5 Son las funciones de probabilidad generadas por el comportamiento aleatorio conjunto de dos o ms variables y se utilizan en el estudio de las relaciones existentes entre stas.
4

Econometra Moderna

El Modelo de Regresin Lineal

De esta manera, si se tiene la siguiente funcin conjunta: C = f (r, Yd, w, Yp), sta nos indica que el consumo es una funcin de la tasa de inters, el ingreso disponible, el salario y el ingreso permanente. La funcin anterior expresa nicamente una relacin matemtica, sin embargo, y tal como se indic en la introduccin del libro, uno de los objetivos de la econometra es formular un modelo economtrico a partir de un modelo econmico, para luego proceder a la estimacin y comprobacin del mismo a partir de los datos muestrales. En consecuencia, se debe transformar la funcin anterior en un modelo economtrico, por ejemplo consideremos el siguiente modelo de regresin lineal6:
C = 0 + 1 r + 2 Yd + 3 w + 4 Yp +

(1.2)

donde u es el componente estocstico o aleatorio, que recoge los efectos de variables no incluidas en el modelo que no afectan de manera sistemtica a la variable endgena o explicada (el consumo). Se supone que u es una variable aleatoria y tiene una distribucin de probabilidad conocida que ser materia de estudio en un captulo posterior. El otro miembro de la ecuacin indica la relacin exacta entre la variable explicada (C) y las dems variables llamadas explicativas, es decir, es el componente determinstico (o predecible) del modelo. Los son conocidos como parmetros y recogen los efectos ocasionados por las variaciones de las variables r, Yd, w, y Yp sobre la variable C que se desea explicar. En trminos matemticos 7, cada parmetro indica la sensibilidad de la variable dependiente ante un cambio unitario en la variable independiente. El modelo economtrico especificado en la expresin (1.2), tiene como objetivo estimar el valor del consumo sobre la base de valores fijos de las variables explicativas, utilizando un conjunto de datos muestrales. Por tanto, una regresin de C sobre las dems variables se interpreta como el valor esperado de la distribucin de probabilidad de C dado los valores de las variables r, Yd, w y Yp, es decir, y tal como se dijo en la primera parte de este captulo, una regresin puede interpretarse como la media condicional de Y dado X. Formalmente: E (C /r, Yd, w, Yp ) = f (Xi) (1.3)

Un punto importante que debe notarse es que la estructura de la relacin entre la variable explicada y las variables explicativas se supone que es lineal lo cual puede ser un aproximacin muy gruesa de la realidad porque de hecho muchos eventos o fenmenos que se pretenden explicar son de naturaleza no lineal. En todo caso el modelo de regresin lineal puede pensarse como una aproximacin lineal de Taylor de un problema no lineal.

1.1.3

Definiciones Bsicas

Una vez que hemos entendido el concepto de regresin como la modelacin de la media condicional de una distribucin de probabilidades es deseable realizar algunas definiciones bsicas que vamos a utilizar a lo largo del libro. El modelo de regresin lo podemos plantear de manera general de la siguiente forma: y t = 1 + 2 x 2 t + 3 x 3t + .......... ... + k x kt + t La variable Y que es aquella que condicionamos a los valores que adopte las dems variables (X) recibe indistintamente le nombre de variable explicada, endgena o dependiente. Las
6

Este modelo ser estudiado en el Captulo III. Formalmente:

X i

= i es decir, cada parmetro representa la derivada parcial de la variable dependiente con

respecto a cada variable explicativa.

10

Econometra Moderna

El Modelo de Regresin Lineal

variables a la derecha del modelo reciben el nombre de variables explicativas, exgenas o independientes. Como vemos el modelo es un modelo lineal el cual supone que los efectos de cada una de las variables explicativas se pueden agrupar de manera separada y el efecto conjunto se da de manera aditiva. El plantear el modelo de esta manera nos permite decir que lo que estamos haciendo es separar a la variable explicada en dos conjuntos: La parte sistemtica o determinstica que viene representada por :

1 + 2 x 2t + 3 x 3t + .......... ... + k x kt
Esta es la parte que es sugerida por el investigador y establece una relacin sistemtica y de dependencia entre la variable explicada y las variables explicativas. Dado el concepto de media condicional de la regresin, la parte sistemtica representa lo que en promedio se dar cuando los valores de las X estn dados. Esta ser la parte explicada por nuestro modelo de los valores de Y. Otra forma de apreciar esta parte es que representa lo que nosotros podremos predecir con nuestro modelo. Dado el carcter de media condicional, la prediccin ser aquel valor que esperamos tenga nuestra variable dependiente con mayor probabilidad. La parte aleatoria o estocstica que viene representada por el trmino de error ( ). Dado que la economa busca estudiar el comportamiento econmico de las personas no podemos pensar en encontrar relaciones exactas que gobiernen el comportamiento de los agentes econmicos. Las personas, empresas o el Estado se desenvuelven en un contexto estocstico debido a que existen muchos factores no controlables como los estados de la naturaleza, movimientos bruscos en el mercado, factores polticos o los descubrimientos de nuevos productos y tecnologas que pueden afectar de manera inesperada cualquier relacin que queramos estimar. Estos factores pueden ser importantes en un momento determinado pero no afectan de manera permanente a la variable dependiente. Un ejemplo de ello puede ser la presencia del fenmeno del nio. Como sabemos, este fenmeno aparece de manera inesperada y no se sabe cada qu tiempo afecta al Per. As, en un determinado ao podramos tener que todas las variables que afectan la producto de manera sistemtica (incluidas en la parte explicada de la regresin) tengan un determinado valor. Si utilizamos nuestra relacin estimada podramos obtener algn resultado esperado, pero si se produce el fenmeno del nio, nos podramos alejar considerablemente del valor que el modelo nos arroja como el ms probable.

Otro concepto que debemos utilizar es el referido al tipo de datos que podemos encontrar en la realizacin de trabajos empricos. Los datos pueden clasificarse de la siguiente manera: Datos de Series de Tiempo: En este caso podemos pensar que el individuo sobre el cual se mide la variable es el mismo y se observa ste a lo largo del tiempo. Un ejmplo podra ser el individuo PERU para el cual se miden a lo largo del tiempo los valores del producto bruto interno. Datos de Corte Transversal: En este caso lo fijo es la unidad de tiempo y lo que varan son los individuos. Un ejemplo de esto son las encuestas que se hacen en un momento determinado del tiempo. En el Per tenemos varios casos de encuestas realizadas como la Encuesta Nacional de Niveles de Vida (ENNIV) que sirve para analizar la calidad de vida de las personas a travs de la medicin de ingresos y acceso a servicios bsicos como la salud, educacin, nutricin. Etc. Datos Longitudinales: Esta tercera categora es una combinacin de las dos anteriores. Podramos pensar en encuestas o mediciones que se hacen a distintos individuos en

11

Econometra Moderna

El Modelo de Regresin Lineal

diferentes perodos de tiempo. Esto implica construir un panel de datos cuya realizacin es costosa porque implica hacer un seguimiento a los individuos a fin de poder ubicarlos para realizar la recoleccin de la informacin a lo largo del tiempo. En el Per son pocos los casos en donde se han construido estos paneles de datos. Sin embargo, empresas privadas han invertido en la construccin de estos paneles dado que proveen muy buena informacin acerca de cambios en los patrones de consumo e ingresos de las personas. Una vez realizada esta definicin de conceptos bsicos es de suma utilidad iniciar el estudio de los mtodos y formas que se encuentran disponibles para la obtencin de los parmetros de los modelos que pretendamos estimar.

1.1.4

Cmo obtener los parmetros?

Si analizamos nuestro modelo, veremos que dada una muestra determinada, conocemos los valores muestrales tanto de la variable dependiente como de la dependiente. Sin embargo, los parmetros verdaderos (los s) son desconocidos. Por ello, debemos desarrollar una estrategia que nos permita realizar una estimacin adecuada de los mismos. En este punto es conveniente tener claro el concepto de estimacin. Un estimador se define como cualquier frmula o funcin de los datos que permite obtener estimaciones de los parmetros desconocidos. As, se deduce que una estimacin es el valor numrico que resulta de la aplicacin de esta funcin a un conjunto de datos muestrales especficos.8 Segn los expuesto, antes de proceder a explicar el proceso de estimacin debemos hacer ciertas aclaraciones. El modelo planteado por el investigador sobre la base de consideraciones tericas o apreciaciones intuitivas es un modelo desconocido al cual llamaremos modelo terico. El modelo con el cual trabajaremos en la prctica implicar que se reemplazar los parmetros desconocidos por los estimadores correspondientes. Como estos no son los verdaderos sino aproximaciones que esperamos cumplan con ciertas condiciones deseables que veremos ms adelante, los errores tampoco sern los verdaderos sino aproximaciones. Lo ideal es que exista cierta conexin entre el modelo terico y el emprico. Esto lo podemos ilustrar con las siguientes expresiones: Y=X u + modelo terico
Y=X +e

(1.4)

modelo emprico

En este caso hemos optado por expresar el modelo de manera general donde X es una matriz que contiene todos los datos de las variables explicativas. Denotaremos al nmero de variables explicativas como k y tendremos n datos. Por lo tanto, el orden de la matriz X ser nxk. es un vector columna que contiene a los k parmetros del modelo. De manera similar el orden del vector Y y del vector de errores (sean tericos o empricos) ser de nx1 y .Como se puede apreciar, en el modelo emprico se ha reemplazado al parmetro verdadero y desconocido ( ) por su estimador ( ). De igual manera ocurre con los errores tericos ( ) y los errores empricos (e). Si bien son dos las magnitudes desconocidas en este modelo (los parmetros y los errores) debe notarse que una vez que obtenemos los estimados de los parmetros quedan determinados los errores empricos. Por ello, el nfasis estar centrado en la estimacin de los parmetros.

Esto implica que para otra muestra (la cual puede variar debido al mtodo de muestreo) puedo obtener distintos estimados de los parmetros a pesar de que el estimador (funcin donde se reemplazan los datos) sea el mismo para todas las muestras posibles.

12

Econometra Moderna

El Modelo de Regresin Lineal

La estimacin de los parmetros se deriva de un problema de prediccin condicional. En dicho problema se observa la realizacin de un vector aleatorio X y se desea predecir la realizacin de una variable aleatoria Y. En este punto debemos introducir el concepto de funcin de prdida, la cual recibe este nombre debido a que la presencia de un estimador implica que existe un predictor que trata de explicar o aproximarse lo ms posible al verdadero valor de Y. As, el planteamiento de una funcin de prdida tiene como objetivo lograr que el modelo sujeto a estimacin se parezca lo ms posible a lo observado en la realidad. En consecuencia, el mejor predictor ser aqul que minimice la prdida esperada de una funcin de prdida especfica. Dicho predictor resuelve un problema de minimizacin de la siguiente forma: Min E [L (Y - P) / X] P Observado Estimado Siendo la funcin de prdida L, P denota un predictor de Y y E (L (Y P) / X ) es la prdida esperada, condicional en X, cuando P es usado para predecir Y. Esta funcin debe satisfacer la siguiente condicin: 0<u<v 0=L(0) L(u) L(v) 0 = L(0) L(-u ) L(-v ) (1.6) (1.7) (1.5)

Evidentemente, la idea es que la funcin de prdida sea lo ms pequea posible, donde u y v son los valores para el error de prediccin (Y P). Si la funcin de prdida es fija, el valor del mejor predictor depende slo de la distribucin de probabilidad de Y condicional en X. En otras palabras, la estructura de la funcin es elegida por el investigador y lo que vara es el error de prediccin para cada observacin muestral de X e Y. En consecuencia, el valor del mejor predictor o estimador depender slo de la distribucin de probabilidad mencionada. En este sentido, y recordando que la regresin es el valor esperado de la distribucin condicional de Y dado X, deducimos que el mejor predictor se obtiene mediante una regresin. Algo que no debe perderse de vista es que la proximidad entre el valor predicho y el valor verdadero depender de la eleccin del estimador. Por ello, deber elegirse aquel estimador que haga mnima la diferencia dada una funcin de prdida. En la prctica, los mejores predictores son los que se estudian ms detalladamente en el anlisis de regresin. Ellos describen brevemente la manera cmo vara Y ante cambios en los regresores (X). Sin embargo, existen distintas funciones de prdida interesantes y, a su vez, muchas maneras de interpretar formalmente la posicin de una variable aleatoria. A continuacin se presentan algunas funciones de prdida conocidas y los distintos predictores que se derivan de ellas.

i) Prdida cuadrtica: La funcin de prdida cuadrtica es:


L (u) u2 (1.8)

En este caso, el mejor predictor resulta la media condicional de Y en X. Este resultado se obtiene mediante el mtodo de estimacin de Mnimos Cuadrados Ordinarios, como veremos en el siguiente captulo.

13

Econometra Moderna

El Modelo de Regresin Lineal

ii) Prdida absoluta: Cuya funcin de prdida es la siguiente:


L (u) u (1.9)

Si tomamos esta funcin de prdida, el mejor predictor es la mediana de Y condicional en X.

iii) Prdida discreta: Dada una constante positiva , la funcin de prdida discreta sera:
L( * , ) L ( u ) 0 si < u L ( u ) 1 si u (1.10) (1.11)

En este caso, el mejor predictor es el punto medio del intervalo de longitud 2 que tiene la ms alta probabilidad de contener a Y. En la medida en que se aproxime a cero, el mejor predictor se aproximar a la moda de Y condicional en X. En general, la media, la mediana y la moda de la regresin de Y en X difieren entre s. La media como regresin puede ser lineal en X mientras que la mediana puede no serlo, o ambas pueden ser lineales pero con diferentes pendientes. Por otro lado, puede ser posible que una regresin aumente con X mientras la otra decrezca, o viceversa . En el problema de prediccin descrito, la funcin de prdida escogida determina la regresin sujeta a anlisis. Dicha funcin debe reflejar las prdidas asociadas al error de prediccin, en otras palabras, debe reflejar cun cerca estn las predicciones del modelo con respecto a las observaciones reales. En ello radica la importancia de escoger una adecuada funcin de prdida aunque dicha necesidad disminuye slo si uno cuenta con alguna informacin acerca de la distribucin, lo que implica que distintos predictores se comporten similarmente.

1.2

Mtodos de estimacin de los parmetros

Cuando se efecta una regresin se puede seleccionar el mtodo de estimacin ms adecuado, dependiendo de la informacin previa a la que el investigador tiene acceso. Por ejemplo, si no se cuenta con informacin acerca de la forma de la regresin o no es de inters la estimacin de un forma particular y slo se quiere haceruna aproximacin general de la funcin de densidad, se puede realizar una estimacin no paramtrica, concepto que est fuera del alcance del presente libro9. De otro modo, si se quiere trabajar con un modelo de regresin paramtrica existen distintos mtodos de estimacin que se pueden entre los cuales se puede n mencionar los siguientes: El mtodo de Mnimos Cuadrados Ordinarios, el de Momentos Muestrales o el de Mxima Verosimilitud, los cuales se definirn a continuacin y posteriormente se discutirn en detalle. Esos mtodos son los ms utilizados y responden a diferentes criterios con sus respectivas funciones de prdida pero debe tenerse en cuenta que son arbitrarios. Su utilizacin generalizada obedece a que cumplen con una serie de propiedades deseables que facilitan su aplicacin. i) Mnimos Cuadrados Ordinarios (MCO)
9

El lector interesado puede revisar el trabajo de Pagan y Ullah (1999) Nonparametric Econometrics Cambridge University Press.

14

Econometra Moderna

El Modelo de Regresin Lineal

El mtodo de Mnimos Cuadrados es uno de los ms usados, eficaces y conocidos del anlisis de regresin debido al contenido de las propiedades estadsticas que posee. El principio sobre el cual descansa esta metodologa consiste en hacer mnimos la norma del vector de errores o perturbaciones del modelo10. Formalmente este criterio de puede establecer de la siguiente forma: Min

e = ( y
2 i i =1

x i ) 2

(1.12)

La minimizacin de los errores al cuadrado presenta una ventaja con respecto a la minimizacin de la suma de errores sin elevar al cuadrado dado que sta puede verse afectada por los signos de los errores. As, podemos tener errores positivos muy grandes y errores negativos muy grandes que se compensan por lo que la suma podra ser cero pero ello no implicara que la regresin estimada sera buena dado que los errores tendran una magnitud considerable. ii) Mtodo de Momentos El objetivo de este mtodo consiste en aproximar lo ms posible los momentos muestrales a los poblacionales. Recordemos que un momento es un estadstico que resume algunas caractersticas de una distribucin de probabilidad, tal como un valor esperado o una desviacin estndar. Las ecuaciones a partir de las cuales se determinan los parmetros se obtienen al reemplazar los supuestos poblacionales por sus contrapartes muestrales. Si la funcin de prdida est fijada en trminos de la distancia entre los momentos poblacionales y los muestrales la eleccin de los parmetros ser aquella que minimice esta distancia. Este mtodo ha sido generalizado por Hansen y Singleton (1982) en donde podemos utilizar ms de un momento para la estimacin de cada parmetro de un modelo. iii) Mxima Verosimilitud Este mtodo consiste en maximizar la probabilidad de que una muestra dada pertenezca a determinada distribucin. Para ello se plantea como supuesto que la variable Y tiene una distribucin de probabilidad y se desea lograr que dicho supuesto inicial sea lo ms verosmil posible, si slo se cuenta con la muestra. Es decir, los coeficientes estimados son aquellos que hacen mxima la probabilidad de que la muestra pertenezca a la distribucin supuesta.

1.3

Significado de la lnea de regresin

Cuando se define la regresin como la media condicional de Y dado los valores de las observaciones de X, de hecho podemos representar geomtricamente este concepto a travs de una lnea o curva de regresin. De este modo, una curva de regresin llamada poblacional, es aquella que muestra el lugar geomtrico de las medias condicionales o esperanzas de la variable endgena para los valores fijos de la(s) variable(s) exgena(s). Esto se puede apreciar en la siguiente figura:
Y E(Y/X) = 0 + 1 X i

10

Debe tenerse en cuenta que la minimizacin de la norma de un vector implica la minizacin de la raz cuadrada de la sumatoria de cada uno de los elementos del vector elevados al cuadrado.

15

Econometra Moderna

El Modelo de Regresin Lineal

X1

X2

X3

Figura 1.1 Lnea de regresin poblacional

La figura muestra cmo para cada X existen valores poblacionales de Y, y una media condicional correspondiente. Precisamente, la lnea o curva de regresin pasa por las medias condicionales de la variable Y, y denota alguna funcin de la variable dependiente X. As, se define formalmente la regresin como: E(Y/X ) = f (Xi) (1.13)

y, en el modelo de regresin lineal simple (donde slo se incluye una variable explicativa) se puede tener la siguiente funcin lineal de X: E( Y/X ) =
0

+ 1Xi

(1.14)

Los parmetros o coeficientes de regresin son los de la ecuacin anterior. Asimismo, 0 es el llamado intercepto y 1 es el coeficiente de la pendiente. En el anlisis de regresin lo que se busca es estimar los parmetros desconocidos teniendo como base las observaciones de X e Y. Sin embargo, se debe tomar en cuenta que a cada valor de X no necesariamente le corresponde un valor de Y que se encuentre sobre la lnea de regresin. En otras palabras, el valor de una variable explicada para una observacin en particular se encuentra alrededor de su esperanza condicional. De este modo, se puede expresar la desviacin o perturbacin de un valor de Y alrededor de su media o esperado de la siguiente forma:

i = Yi E (Y / X i )
Despejando la ecuacin, queda:
Yi = E (Y / X i ) + i

(1.15)

(1.16)

y reemplazando la ecuacin (1.14) en (1.16) resulta:


Yi = 0 + 1 X i + i

i=1,2, ... , n

(1.17)

Como se mencion en la seccin anterior, i es llamado perturbacin estocstica o estructural e introduce el elemento aleatorio a la ecuacin de regresin, pudiendo tomar valores positivos o negativos para cada observacin muestral. 16

Econometra Moderna

El Modelo de Regresin Lineal

Cabe mencionar que en la mayora de casos, no es posible disponer de todas las observaciones de la poblacin, dado que en la prctica solamente se cuenta con una muestra de valores de Y que corresponden a los valores fijos de X. Con dicha informacin muestral se deber estimar la funcin de regresin anterior, de modo que cuando se reemplacen los valores estimados para 0 y 1 se hallar la siguiente ecuacin, tambin llamada funcin de regresin muestral:
Yi = 0 + 1 X i

(1.18)

La ecuacin muestra las estimaciones de los coeficientes de regresin. Esta funcin es una aproximacin a la ecuacin de regresin poblacional, por eso se dice, en algunos casos, que Yi sobreestima o subestima la verdadera E(Y/X). Es decir, el valor estimado de Y puede hallarse sobre la lnea de regresin poblacional y como consecuencia presentar un error positivo o el valor estimado de Y puede encontrarse bajo la lnea de regresin poblacional, y por lo tanto presentar un error negativo. En este sentido, lo importante en el anlisis de regresin consiste en disear una regla o mtodo que consiga que dicha aproximacin se acerque lo ms posible a los verdaderos valores de los parmetros, an cuando nunca se llegue a conocerlos. El siguiente captulo se ocupar de abordar dicho problema empezando con el anlisis de un modelo de regresin lineal simple. Sin embargo, es importante advertir que en los procesos econmicos, por lo general, se precisa de ms de una causa para explicar de forma adecuada el comportamiento de una variable aleatoria, o bien se utilizan formas ms complicadas que la lineal. A pesar de ello, es conveniente realizar una primera aproximacin analizando la especificacin ms sencilla, de modo que luego se podr comprender con menor dificultad el modelo de regresin lineal mltiple o general, cuyo estudio detallado ser materia del Captulo 3.

SUPUESTOS DEL MODELO DE REGRESIN LINEAL

El objetivo de un anlisis de regresin no slo consiste en estimar los coeficientes de regresin, sino tambin en hacer inferencia acerca de los verdaderos valores de los parmetros ( 0, 1). En otras palabras, se desea saber cun cerca estn los estimadores de sus contrapartes poblacionales, o cun cerca est el valor estimado de Y de la verdadera E(Y/X). Por ello, resulta necesario plantear ciertos supuestos sobre el proceso generador de las variables endgenas (Y). As y debido a que la funcin de regresin poblacional de Y, depende de las variables X y de i, es necesaria una especificacin de la forma como se generan las variables explicativas y los errores. En este sentido, los supuestos que se plantean a continuacin resultan crticos para interpretar en forma vlida los estimadores de una regresin lineal. Antes de proceder con la descripcin de los supuestos, cabe mencionar que el modelo clsico de regresin lineal se atribuye al matemtico alemn Carl Friedrich Gauss, por quien tambin recibe el nombre de Modelo de Gauss. Este matemtico plante diez supuestos, vlidos tanto para el anlisis de regresin simple como para el modelo de regresin lineal mltiple, o de ms de un regresor. Primer supuesto: El modelo es estocstico Esto se debe a la inclusin de un componente aleatorio en el modelo, expresado por el trmino de error ( i). La inclusin del trmino de error se debe a las siguientes razones:

17

Econometra Moderna

El Modelo de Regresin Lineal

Las respuestas humanas son impredecibles, puesto que las personas no tienen un patrn preestablecido de preferencias, hbitos de consumo, etc. Omisin de variables explicativas que deberan incluirse en el modelo. Pretender que las variables independientes pueden explicar la estructura o predecir exactamente el comportamiento de la variable dependiente es una ilusin, debido a que en la realidad existen otros factores que afectan el comportamiento de la variable explicada que no son incluidos en el modelo. En efecto, puede suceder que las variables explicativas sean muy difciles de medir. Por ejemplo, consideremos un modelo donde se busca explicar la demanda a travs de la utilidad que brinda el consumo de un determinado bien. De hecho, la cuantificacin y medicin de la variable utilidad resulta una tarea bastante difcil debido al carcter subjetivo de la misma. En este sentido, la falta de informacin muestral conducira a una mala medicin o a la omisin de una variable relevante. Por otro lado, si dichas variables pueden medirse pero su impacto sobre Y no es significativo, entonces no amerita su inclusin. Errores de medicin en la variable endgena (Y). Esto ocurre frecuentemente debido a que las estimaciones de Y se realizan sobre la base de muestras finitas, adems de que dicha variable puede no ajustarse a la teora econmica que el investigador desea contrastar. Por ello, el investigador debe decidir con cuidado el papel que desempea cada variable, es decir, debe definir adecuadamente las variables exgenas y la endgena. Agregacin de variables. En muchos casos, la relacin existente entre la variable endgena y las exgenas es un intento por resumir un conjunto de observaciones individuales en un agregado econmico. Por ejemplo, el gasto agregado intenta resumir un conjunto de decisiones individuales de gasto. En este sentido, y debido a que las relaciones individuales son probablemente distintas entre individuos, cualquier intento de relacionar el gasto agregado con el consumo agregado es una aproximacin. As, la diferencia se le atribuye al trmino de error.

Como ya se mencion existe una distincin entre el error terico o poblacional ( i) y el error de estimacin o emprico. El primero responde a la necesidad de introducir un elemento aleatorio en el modelo por razones antes expuestas mientras que el error de estimacin se define ) como la diferencia entre el estimado de la variable dependiente ( X y la verdadera E (Y/X). Segundo supuesto: La esperanza matemtica del trmino de error o perturbacin es cero. Esto se expresa de la siguiente manera: E( i) = 0 (1.19)

Este supuesto indica que el valor de la media condicional del trmino de error para cualquier variable explicativa X dada, es idntico a cero. De este modo, este supuesto garantiza que las variables que no estn incluidas en el modelo (y que por tanto estn incorporadas en i), no trasmiten ningn efecto sistemtico sobre la media condicional de Y dado X. En trminos ms sencillos, los valores negativos de i se compensan con sus realizaciones positivas. Por ello, en promedio no presentan ningn efecto sobre la variable dependiente del modelo. Aquellas variables no incluidas en el modelo pero que afectan de manera sistemtica son recogidas por el intercepto del modelo. Tercer supuesto: La varianza del error es constante (el error es homocedstico). Formalmente:

18

Econometra Moderna Var( i) =


2

El Modelo de Regresin Lineal i = 1,2,3,...,n (1.20)

Esto implica que el trmino de error tiene igual(homo) dispersin(cedasticidad). Aqu debemos mencionar que un supuesto implcito en el modelo de regresin lineal es que cada uno de los errores proviene de una distribucin de probabilidades. El valor que observamos del error para cada observacin es la realizacin de la variable aleatoria ante la ocurrencia de un determinado evento. Entonces una forma de entender le presente supuesto es que implica que la varianza de cada una de las distribuciones de los distintos errores aplicables para cada observacin es la misma. En otras palabras, y dados los valores de X, la varianza del error no cambia para distintas observaciones11. El siguiente grfico ilustra los conceptos que hemos mencionado hasta el momento:

Y = + X
Y = X + E(Y) = X Var(Y) = Var( )

x0 x1
X

Figura 1.2

Como podemos apreciar, en el eje de la variable X suponemos que sus distintos valores estn fijos lo que se refleja en las lneas discontinuas que parten de los valores x1 y x2 . Ante estos valores fijos de la variable explicativa tenemos diversas posibilidades de que ocurran diversos eventos lo que se refleja en todas la posibilidades de valores que puede tomar la variable dependiente (y). Estas distintas posibilidades (y sus probabilidades respectivas) determinan la funcin de distribucin de los errores. Cuando no se verifica este supuesto, se dice que el trmino de perturbacin es heterocedstico, es decir, posee una dispersin diferente para cada observacin. Formalmente: Var( i) =
2 i

i = 1,2,3,..., n

(1.21)

El subndice i indica que la varianza del trmino de error no es constante ya que presenta un valor distinto para cada observacin de X. En consecuencia, no todos los valores de Y, que corresponden a distintos valores de X, sern de igual importancia y confianza como indicadores
11

Evidentemente, cada trmino de error representa la realizacin de un proceso estocstico y lo que se asume a travs de este supuesto es que las distribuciones de donde son extrados estos errores presentan igual dispersin.

19

Econometra Moderna

El Modelo de Regresin Lineal

de la posicin de la lnea de regresin. Se dicen que son confiables cuando poseen menor dispersin, es decir, se mide la confiabilidad por la cercana con la cual se distribuyen los valores de Y alrededor de sus medias, esto es, sobre la lnea de regresin poblacional. Si analizamos con cuidado la expresin (1.12) notaremos que el error que se minimiza es la diferencia entre el valor observado (Yi) y el estimado , de este modo se requiere que los valores observados sean indicadores confiables de la posicin de la lnea de regresin poblacional, esto es, E(Y/X). Cuarto supuesto: Ausencia de autocorrelacin entre los errores. Formalmente: Cov( i, j) = 0 (1.22) i j

Lo anterior implica que no existe autocorrelacin o correlacin serial entre los trminos de error i y j, dadas las observaciones xi y xj. En este sentido, podemos definir el trmino autocorrelacin como la correlacin entre miembros de series de observaciones ordenadas en el tiempo (informacin de series de tiempo) o en el espacio (en informacin de corte tranversal). En otras palabras, si disponemos de datos de series de tiempo, se dice que un error t para un periodo de tiempo t, est correlacionado con los trminos de error t+1, t+2, .. y t-1, etc. Un ejemplo tpico donde se detecta la presencia de autocorrelacin positiva ocurre bajo el modelo de expectativas adaptativas. Supongamos que los agentes econmicos realizan su pronstico de la inflacin futura basados en la inflacin pasada, solamente. Formalmente:

P e +1 = P e + v( P P e )

(1.23)

Esta ecuacin implica que la expectativa de la inflacin de maana es una combinacin lineal de la expectativa para el perodo actual y el error de prediccin registrado en este periodo. En este sentido, y en la medida en que los errores cometidos en el periodo actual se trasmiten al prximo a travs del mecanismo descrito en (1.23), el pronstico de la inflacin evidenciar cierta inercia, es decir, estar autocorrelacionado con el error de prediccin registrado en este periodo. En cambio, si se considera un modelo de expectativas racionales sabemos que los agentes econmicos utilizan eficientemente toda la informacin disponible, ya sea porque conocen y entienden el modelo que esta utilizando el Estado para hacer poltica econmica o simplemente conocen al modelo que explica la economa. Por lo tanto, al plantear sus expectativas de inflacin futura lo hacen sobre la base de expectativas sobre las futuras polticas econmicas. De lo anterior se puede inferir que los errores no son sistemticos o no presentan correlacin alguna. Los supuestos tercero y cuarto pueden resumirse en uno solo si pensamos en el moelo planteado de forma matricial. El vector de errores del modelo es de dimensin Nx1 o Tx1, si se habla de informacin muestral de corte transversal o de series de tiempo, respectivamente. Por consiguiente su matriz de varianza y covarianzas es simtrica y definida positiva, de dimensin NxN o TxT, para cada caso. Esto se ilustra con la siguiente expresin:

20

Econometra Moderna

El Modelo de Regresin Lineal

Var ( 1 ) Cov ( 2, 1 ) E ( ) = Var ( ) = ' ... Cov ( n , 1 )

Cov ( 1 , 2 ) ... Var ( 2 ) ... Cov ( n , 2 ) ...

Cov ( 1 , n ) ... Var ( n )

En trminos de esta matriz el tercer supuesto implica que todos los elementos de la diagonal principal son iguales. Por otro lado, el supuesto de ausencia de autocorrelacin, determina que los elementos fuera de la diagonal principal son cero. De este modo, y de verificarse los dos supuestos antes analizados, la matriz anterior se puede escribir como: Var( )= 2In (1.24)

Esto usualmente se conoce como el supuesto general de que los errores del modelo son esfricos. Quinto supuesto: Las variables explicativas y los errores son ortogonales entre s. Formalmente: Cov(xi, i) = 0 (1.25)

Este supuesto implica que los errores y las variables independientes no presentan correlacin. Como ya hemos mencionado el anlisis de regresin lo que hace es descomponer a la variable dependiente en dos partes: una explicada o determinstica y otra aleatoria o no explicada. Por tanto, este supuesto implica que si no existe relacin entre las variables explicativas (que son el componente esencial de la parte explicada) y aquella parte no explicada, podemos descomponer el espacio donde est definida la variable dependiente en dos subespacios que son ortogonales entre s12. En otras palabras, cuando se especifica el modelo, se supone que las variables exgenas y los errores son dos partes separadas y aditivas de la variable a explicar (Y).

Parte aleatoria Parte determinstica

0 + 1Xi

Yi = 0 + 1Xi +

Los supuestos 2, 3, 4 y 5, son tambin conocidos como las condiciones de Gauss-Markov. Estos garantizan que el estimador de mnimos cuadrados ordinarios es eficiente propiedad que analizaremos en los captulos 3 y 4. Por otro lado, los supuestos 2, 3 y 4 garantizan que los errores del modelo son ruidos blancos. Sexto supuesto: El modelo es lineal en los parmetros. Se dice que un modelo tiene una especificacin lineal cuando la variable endgena Y, o alguna transformacin monotnica de la misma, se puede expresar como una funcin lineal de X o de alguna transformacin de ella. Al respecto, consideremos las siguientes relaciones:
12

Podemos ampliar el concepto utilizando conceptos de teora de conjuntos. Si tomamos que Y representa un conjunto, el supuesto que estamos presentando implica que se puede descomponer dicho conjunto en dos subconjuntos disjuntos (es decir, que no presentan interseccin).

21

Econometra Moderna Y = + X +

El Modelo de Regresin Lineal (1.26) (1.27) (1.28)

Y = 0 + 1 X + 2 X2 + 3 X3 + Y= 0+
2 1

X1+ 2 X2 +

La ecuacin (1.26) muestra una relacin lineal simple, mientras que la (1.27) es un modelo lineal en parmetros, ms no en las variables. Por otro lado, la ecuacin (1.28) no es lineal en parmetros, ni tampoco puede reducirse a una funcin que exprese una relacin lineal. Ahora se considera el siguiente modelo que busca predecir la cantidad demandada(Q) dadas las observaciones muestrales de la variable explicativa precio(P). El anlisis de este modelo implica la estimacin de los parmetros y , sin embargo, y de acuerdo al supuesto de linealidad, el modelo deber ser transformado de la siguiente manera:
Q = e P

(1.29) (1.30)

LnQ = ln + lnP +

La linealiadad en los parmetros es relevante para el anlisis de regresin, por consiguiente, de ahora en adelante cuando se diga que una regresin es lineal se referir a una regresin que es lineal en los parmetros. Sin que esto necesariamente implique que tambin lo sea en las variables explicativas (X). Sptimo supuesto: Los parmetros son constantes entre observaciones. Conocido tambin como el supuesto de estabilidad temporal, ste implica que los coeficientes del modelo de regresin lineal son constantes en el tiempo. Igualmente, se supone que el modelo es idntico para todas las observaciones de la muestra. De hecho, este supuesto resulta esencial no slo si se pretende modelar la estructura que gobierna el comportamiento de la variable dependiente sobre la base de las independientes, sino principalmente si se busca que el modelo realice predicciones confiables. As, si la estructura que modela la variable dependiente se mantiene inalterada a lo largo de todo el intervalo muestral, podemos asumir que esta misma estructura se mantiene para periodos fuera del intervalo de la muestra y utilizar la misma para predecir, este procedimiento es conocido como extrapolacin. Octavo supuesto: Causalidad unidireccional. El anlisis de regresin supone la existencia de una relacin causal desde las variables independientes (X) hacia la variable dependiente (Y). Cabe mencionar que desde un punto de vista meramente estadstico, el modelo de regresin no necesariamente tiene una connotacin de causalidad. Es decir, de la misma manera como se puede estimar una regresin de una variable dependiente Y sobre otra variable independiente X, se puede estimar una regresin de modo inverso. En cambio, al plantear un modelo economtrico se debe tener cuidado al especificar las variables, y definir tanto las explicativas (consideradas fijas), como la variable a explicar (considerada aleatoria). As, el investigador debe decidir el papel que le otorga a las diferentes variables de modo que slo exista una direccin en la relacin de causalidad. A manera de ejemplo, recordemos que la teora cuantitativa del dinero afirma que el volumen de transacciones en una economa es igual a la cantidad de dinero que rota en la misma. Formalmente:

22

Econometra Moderna

El Modelo de Regresin Lineal

P.Q=M.V donde: P= precio Q= producto M= dinero V= velocidad de circulacin constante.

(1.31)

En la ecuacin anterior existe una relacin causal que va de M hacia P, es decir, el nivel de precios es explicado por la cantidad de dinero en la economa. Sin embargo, no se cumple lo contrario, puesto que el nivel de precios es una variable aleatoria (endgena), mientras que M es fija o determinstica (exgena). Sin duda, en trminos estadsticos podramos estimar una relacin de este tipo, esto es, una regresin de la cantidad de dinero sobre el nivel de precios, sin embargo, esta especificacin no tendra ningn sustento terico. En este sentido, el investigador debe decidir a priori cul es la especificacin que va a utilizar sobre la base de la teora que busca verificar y una vez decidida, se supone una nica direccin causal Noveno supuesto: Las variables explicativas son linealmente independientes. Este supuesto implica que ninguna de las variables explicativas involucradas en el modelo puede expresarse en trminos de una combinacin lineal exacta de las dems. Si alguna de las variables explicativas fuera una combinacin lineal de otra significara que la primera no aporta nada adicional al modelo o que los efectos individuales que sta puede tener sobre la variable dependiente se confunden con los de la segunda. Este problema es conocido como multicolinealidad, el cul ser abordado con detalle en el Captulo (9) Dcimo supuesto: Las variables independientes son fijas o determinsticas (no aleatorias) Si revisamos con cuidado el anlisis hasta ahora expuesto, notaremos que este supuesto ha estado implcito desde el inicio del captulo. Este supuesto implica que de poderse repetir el proceso de muestreo numerosas veces, los valores observados de las variables exgenas no deben cambiar. Cuando se trabaja con datos de series temporales, es comn la aparicin de valores retardados de la variable explicada (Y) como variables explicativas, ya que a veces las variables econmicas no toman de inmediato el valor esperado por los agentes, y de ese modo incorporan cierta inercia. De este modo, cuando los retardos (o rezagos) son incluidos en el modelo de regresin como variables explicativas, se dice que son predeterminadas o en trminos ms formales, que son realizaciones del proceso que gobierna el comportamiento de la variable explicada. Este caso especfico se analizar en un captulo posterior.

3. A MODO DE RESUMEN
En este captulo hemos revisado los conceptos bsicos que estn detrs del anlisis de regresin as como aquellos relevantes respecto a las variables incluidas en el modelo. De la misma manera hemos revisado los principales supuestos que se realizan con respecto al modelo lineal general que analizaremos en buena parte del libro. Debe entenderse que estos supuestos son, en algunos casos, muy restrictivos y ser interesante analizar cules son los efectos de la relajacin de los mismos sobre los distintos estimadores que estudiaremos ms adelante. Habiendo establecido el lenguaje comn que utilizaremos a partir de ahora es importante iniciar la exploracin de los distintos caminos con los que contamos para a obtencin de los parmetros desconocidos de nuestro modelo. En primer lugar, analizaremos el estimador de mnimos 23

Econometra Moderna

El Modelo de Regresin Lineal

cuadrados ordinarios que es uno de los ms analizados y el mejor cuando trabajamos con modelos lineales.

24

Você também pode gostar