Escolar Documentos
Profissional Documentos
Cultura Documentos
ECONOMETRIA I
Curso 2013-2014.
Profesoras:
Yolanda Gonzlez Gonzlez
Carmen Lorenzo Lago
Econometra I
Curso 2013-2014
INDICE
Tema 1.- Conceptos fundamentales ................................................................... .1
Tema 2.-Modelo de Regresin lineal normal clsico ........................................ .5
Tema 3.-Contrastes y prediccin en el modelo de Regresin lineal normal clsico.13
Tema 4.- Variables ficticias...19
Tema 5.- Evaluacin del modelo de regresin lineal clsico....27
Tema 6.- Multicolinealidad33
Tema 7.- Heteroscedasticidad ...39
Anexos...54
Econometra I
Curso 2013-2014
Econometra I
Curso 2013-2014
Econometra I
Curso 2013-2014
1
Datos recogidos en Ornithologischte Monatsbericht, 44, nm. 2, Jahrgang, 1936, Berln, y Statistiches Jahrbuch Deutscher
Gemeinden, 27-33, Jahrgang, 1932-1938. Gustav Fisher, Jena.
Econometra I
Curso 2013-2014
C t 0 1
R
t
V. exgena
pura
Ct 1
t 1T
V. endgena
retardada
Variables no observables: son variables para las cuales no podemos obtener observaciones.
Son variables aleatorias con propiedades probabilsticas bien definidas, que se denominan
perturbaciones aleatorias o trminos de error, ya que de alguna manera recoge el error
que cometemos en la especificacin del modelo.
1.4.-Etapas en la elaboracin de un modelo economtrico
1) Especificacin del modelo: se trata de expresar la relacin propuesta por la
Teora Econmica en un lenguaje matemtico, determinando las variables a introducir y la
funcin que las relaciona, as como las distintas hiptesis sobre todas las variables del
modelo.
2) Eleccin y tratamiento de los datos
Estas dos etapas van muy unidas pues especificamos el modelo y elegimos los datos
pero tambin la disposicin de los datos nos permite especificar mejor el modelo.
3) Estimacin: consiste en obtener estimadores de los parmetros a partir de los
datos disponibles.
4) Evaluacin y Contrastacin: En esta fase se realizan diferentes contrastes con
el fin de conocer si tanto las hiptesis estadsticas, como las econmicas son coherentes
con los datos disponibles.
5) Prediccin: en esta fase se obtienen valores futuros de la variable dependiente,
con base en valores conocidos de las variables explicativas.
1.5 Clasificacin de los datos
Para que el modelo economtrico sea operativo necesitamos conocer los valores
numricos de sus parmetros y para ello hemos de disponer de un conjunto de datos sobre
las variables.
Los datos pueden ser de tres tipos: datos temporales, datos de corte transversal y
datos de panel.
Datos temporales o series temporales: son observaciones de una variable, para
una unidad econmica a lo largo del tiempo. Ejemplos: datos de la Contabilidad Nacional,
indicadores de coyuntura mensuales o trimestrales, ventas de una empresa a lo largo del
tiempo, etc.
Datos atemporales o de corte transversal: son observaciones de una variable,
para distintas unidades econmicas en un momento de tiempo dado. Ejemplo: Encuesta de
Presupuestos Familiares (INE) en el perodo 90-91, en la que se ha entrevistado a ms de
20.000 familias.
Datos de panel: son observaciones de una variable para distintas unidades
econmicas a lo largo del tiempo, es decir, es la combinacin de datos temporales y de
corte transversal.
Econometra I
Curso 2013-2014
donde:
Forma matricial: Y X
Y1
Y2
Y= . ,
.
Y
N
1 X 11
1 X 12
.
X= .
.
.
1 X
1N
.
.
.
.
.
. X k1
. X k2
.
. ,
.
.
. X kN
para i =1.N
1
2
.
.
N
La especificacin requiere no solo plantear el modelo sino una serie de hiptesis sobre las
variables de dicho modelo y todo ello caracteriza el modelo de regresin clsico. Para
entender las hiptesis vamos a plantear el problema con un ejemplo con una sola variable
explicativa.
Ejemplo: Gujarati (2006, p. 133): Supongamos que estamos interesados en determinar
cunto se gasta por semana en lotera los individuos con un determinado nivel de renta.
Supongamos que se divide una poblacin de 100 jugadores en 10 clases de renta como se
ve en la siguiente tabla donde X=renta personal disponible semanal; Y=gasto en lotera
semanal. De tal forma que, con una renta disponible de, por ejemplo 225 $ semanales,
habr 10 personas que gastan una cantidad entre 12 y 33 $ semanales en lotera, y as
sucesivamente habr distintos gastos en lotera para distintos tipos de renta. Grficamente,
para todos los jugadores, sera lo siguiente:
100 125 150 175 200 225 250 275 300 325 350 375 400
Econometra I
Curso 2013-2014
En este diagrama de dispersin se ve que cada valor de X tiene asociada una poblacin de
Y. Por otro lado el gasto medio (punto oscuro) aumenta a medida que aumenta el nivel de
renta. A este punto medio se le denomina los valores esperados condicionados. A la lnea
resultante de unir esos valores medios se le denomina lnea de regresin de la poblacin y
muestra el valor medio de la variable dependiente (gasto en lotera) correspondiente a cada
valor de la variable independiente (renta disponible)
Hiptesis Clsicas:
Esto supone:
hiptesis de homoscedasticidad
a)
b)
perturbaciones
X no aleatoria
rg(X) = k+1 < N
y 2
Y X
6
Econometra I
Curso 2013-2014
1
Aplicando las condiciones de mnimo2 se deduce el estimador MCO: MCO X ' X X ' Y
1
E X ' X X ' E
1
Distribucin finita: MCO N , 2 X ' X
Adems de las propiedades para muestras finitas tambin tiene buenas propiedades
asintticas. En concreto:
p lim N
Consistente4 :
'
'
'
X ' Y X ' X Y ' Y 2Y ' X X ' X
Condiciones de mnimo:
e ' e
1 Condicin :
2 Condicin :
2
e' e
e ' e
2 X ' Y 2 X ' X
MCO X ' X
1 X ' Y AY
'
X ' X
X 'Y
X'X
1 X ' Y
siendo A no aleatorio
2
A YY A ' A I A ' sustituyendo A:
X 'X
2
2
1
1
X ' X X ' X X ' X
Si se cumple P=
MCO
XX = lim N
. p.
c
o bien
X'X
N
; P 0 y finita, entonces:
p lim N
Econometra I
Curso 2013-2014
1
X ' X
a
N
N 0, 2 lim N
Asintticamente normal :
e' e
N K 1
Definimos S 2
Propiedades:
- Insesgado: E(S2) = 2
- Consistente:
p lim N S 2 2
S S 2 X ' X
1
E S E S 2 X ' X
Insesgado :
Yi Y
Yi 2 N Y
2
Yi Y 'Y Y e ' Y e Y 'Y e' e dado que: e Y Y Y Y e
Yi Y
Yi Y
e e
2
si Y Y
SCT=SCE+SCR
Coeficientes de determinacin R2 y de determinacin ajustado R 2 ...
R2 1
2
SCR SCE
SCT SCT
R 1
0 R 2 1
SCR / N k 1
N 1
2
1
1 R
SCT / N 1
N k 1
ya que: p lim N
X '
N
X'X
N
1
p lim N
X '
N
Econometra I
Curso 2013-2014
Coefficient
Std. Error
t-Statistic
Prob.
GFAR
ESTANCIAS
MAYOR64
C
0.068178
0.111178
3.910869
-2022.009
0.268874
0.041898
0.540548
222.7138
0.253570
2.653513
7.235013
-9.078960
0.8083
0.0379
0.0004
0.0001
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.991119
0.986679
31.33876
5892.709
-46.08382
2.187709
1014.976
271.5241
10.01676
10.13780
223.2031
0.000002
Econometra I
Curso 2013-2014
5892,709
982,1182 31,33876 2 A su raz cuadrada se le
10 3 1
llama el error estndar de la regresin (S.E. of regression en Eviews).
En nuestro ejemplo: el S 2
Por otro lado, las varianzas estimadas de los estimadores que forman la matriz S
aparecen en la columna Std. Error del cuadro.
Valoracin del ajuste:
Los resultados de Eviews de la tabla nos indican que el 991% de la variabilidad del gasto
sanitario viene explicado por las tres variables explicativas y los residuos solamente
explicaran el 09% restante por lo que en este caso, el ajuste sera muy bueno. Sin
embargo no siempre es fcil de determinar si el porcentaje es grande o pequeo.
Otra forma equivalente de valorar la calidad del ajuste que obtenemos es analizar las
distancias o diferencias entre los valores de la variable dependiente (en nuestro caso el
gasto sanitario) y las aproximaciones que hacemos de ellos mediante la ecuacin estimada.
Las mayores o menores diferencias que se den entre estos valores, es decir, los errores,
permitirn valorar la calidad del ajuste. La magnitud de los errores est relacionada con
el coeficiente de determinacin. A mayor R 2 (mayor relacin entre las variables) menores
errores cometidos. En el siguiente grfico estn representados no solo los errores, sino
tambin el valor real y estimado de la variable endgena.
1600
1400
1200
40
1000
20
800
600
-20
-40
-60
86
87
88
89
Residual
90
91
92
Actual
93
94
95
Fitted
Como se puede ver el ajuste es muy bueno, los errores son pequeos a excepcin del
correspondiente a la observacin 94 que supera el intervalo.
10
Econometra I
Curso 2013-2014
X ' X 1 X ' Y
MV
MCO
2 e' e
N
MV
Asintticamente insesgados
Consistentes
Asintticamente eficientes
Asintticamente normal
f (Y )
2
2
2
e
ln L
,
N
2
ln 2
N ln 2
2
(Y X )`(Y X )
1
2
2
N
ln
2
1
2
Y X ' Y X
YY 2Y ' X
' '
X X
Condiciones de mximo:
ln L
por tanto
ln L
1
2
MV
MV
X ' Y X ' X
MV
MV
X' X
N
2
2 X ' Y 2 X ' X
2
MV
1 X ' Y MCO
2 (Y X
MV
2
'
) (Y X
2 (
2
MV
MV
)
0
2
MV
e' e
N
2 condicin: Se cumple que el hessiano evaluado en el mximo es una matriz definida negativa.
11
Econometra I
Curso 2013-2014
Invarianza
2 2
Y X ' Y X
MV
MV
MV
ei2 N
2
N
N
ln L , ln 2 ln
2
2
N
2
No est acotado y est influido por el nmero de variables explicativas que introduzcamos
en el modelo. Cuanto mayor, mejor.
b) Criterio de Akaike AIC y Criterio de informacin bayesiano de Schwartz SBIC
AIC =
2
2(k 1)
ln L
N
N
SBIC =
2
(k 1) ln N
ln L
N
N
Cuanto menor sean estos estadsticos mejor ser la estimacin del modelo.
Ejemplo1: Las salidas del Eviews nos proporcionan estos valores, en nuestro caso, log
likelihood=-460838, AIC=1001 y SBIC=1014
12
Econometra I
Curso 2013-2014
Supongamos que queremos realizar cualquier restriccin lineal sobre los parmetros del
modelo. Por ejemplo sea el modelo:
Yi o 1 X 1i 2 X 2i 3 X 3i i
1 1 2
H 1 : 1 2 1
Introducimos esta restriccin en el modelo original (ecuacin 1):
Yi o 1 2 X 1i 2 X 2i 3 X 3i i
Llamando a la suma de cuadrados residuales del modelo original e' e y a la del modelo
restringido e' r e r se demuestra que, bajo las hiptesis clsicas, el estadstico basado en la
diferencia entre estas dos sumas de cuadrados residuales se distribuye como una F:
e' r e r e ' e
S2 H
FNH k 1
Donde H es el nmero de restricciones que es igual o menor que K+1. Si el valor muestral
del estadstico es mayor que el valor crtico rechazamos Ho y si es menor no rechazamos
Ho.
3.1.1.- Contrastes de significacin individual y conjunta
Supongamos que estamos interesados en contrastar si cada una de las variables explicativas
13
Econometra I
Curso 2013-2014
del modelo es significativa, es decir si es una variable importante para explicar la variable
endgena. Pues bien, en estos contrastes nos planteamos si el parmetro asociado a cada
variable es igual a cero en la poblacin. Si el parmetro es distinto de cero, la variable a la
que est asociado es significativa para explicar el comportamiento de la variable
dependiente. Por el contrario, si el parmetro es igual a cero, la variable en principio, no
debera aparecer en el modelo por ser no significativa. Para realizar el contraste utilizamos
los estimadores de esos parmetros que obtenemos con la muestra con la que trabajamos.
En este caso la hiptesis a contrastar sera:
Ho : j 0
H1 : j 0
j 0,1,2...k
Este contraste se puede hacer a travs de la frmula general o bien deduciendo directamente
la distribucin del estadstico6 dando como resultado :
j
S
Ho
N k 1
Ho :
0
k
H1 :
SCE
S2 k
Ho
FNk k 1
o bien
R 2 ( N k 1)
1 R 2 k
Ho
FNk k 1
Si rechazamos la hiptesis nula estamos admitiendo que las variables explicativas incluidas
en el modelo tienen sus parmetros distintos de cero o lo que es lo mismo que la parte que
j N j ,
j
como
N 0,1
2
N k 1
N k 1
t N k 1
j j
Tipificamos:
por tanto:
j
S
N 0, 1
2
2
N k 1
N k 1
o
H
t N k 1
14
Econometra I
Curso 2013-2014
explica la regresin es significativa. Por otro lado, dada la relacin entre el estadstico F y
el R 2 , mediante este contraste estoy analizando si el R 2 es suficientemente elevado como
para considerar a las variables explicativas conjuntamente significativas para explicar los
cambios en la variable dependiente.
EJEMPLO1: El programa Eviews proporciona, en las salidas de la estimacin, tanto el
valor muestral del estadstico t que contrasta la significacin individual, como el del
estadstico F que contrasta la significacin de la regresin. En nuestro caso rechazamos la
hiptesis nula para las variables ESTANCIAS (p-valor=0,0379) y MAYOR 64 (pvalor=0,0004 ) por tanto estas dos variables son significativas mientras que para GFAR no
se rechaza la hiptesis nula (p-valor=0,808) por lo que no es significativa. Por otro lado,
el valor muestral del estadstico F rechaza claramente la hiptesis nula (p-valor=0,000)
por lo que la regresin es totalmente significativa.
3.2.- Prediccin
Objetivo: Obtener valores de observaciones fuera de la muestra que se ha utilizado en la
estimacin de la variable endgena. Para ello se requieren tres condiciones:
Sea el modelo:
1
'
Podemos comprobar que: f Yp Y p X p p X p X ' X X ' p
Y, por tanto:
7
15
Econometra I
Curso 2013-2014
ECM Yp E Yp Y p
E f 2f 2 (1 X 'p X ' X X p )
Y su estimador:
S 2f S 2 (1 X 'p X ' X X p )
1
Yp= X 'p +p
Valor individual
Esperanza
ECM
2 1 X 'p ( X ' X )1 X p
X 'p
f j2
j 1
RECM
j 1
fj
n
1 n fj
n j 1 Y j
Y j Y j / n
n
j 1
j 1
2
Y j
0U1
/n
j 1
2
Yj
/n
Todos los estadsticos descritos hasta ahora indican una mejor capacidad predictiva del
modelo cuanto ms cercanos a cero sean, lo que permite comparar un determinado modelo
con otros alternativos.
Descomposicin del error cuadrtico medio de prediccin:
2
1 n
Y Yj
n j 1 j
Y Y
componente sesgo
S S
2 1 rY Y SY SY
1
2
2
'
'
ECM Yp f E Yp Y p Yp Y p (1 X p X ' X
X p)
16
Econometra I
Curso 2013-2014
El cociente entre cada uno de los componentes en la suma total se denomina proporcin del
sesgo, proporcin de la varianza y proporcin de la covarianza.
Cada una de estas proporciones vara entre cero y uno, siendo su suma la unidad como es
de esperar. Los dos primeros miden, respectivamente, las diferencias entre la media y la
varianza de la serie predicha ( Y ) y las de la serie observada (Y) en el periodo de
prediccin. Por tanto, lo deseable es que su valor sea pequeo. La ltima proporcin mide
la parte residual o no sistemtica de los errores de prediccin, en donde debera recaer la
mayor parte del error total cometido.
EJEMPLO1: supongamos que estamos interesados en predecir cul sera el gasto sanitario
en el ao 1996 si el gasto farmacutico fuese de 980 mil euros, el nmero de estancias en
centros hospitalarios de 6000 y la poblacin mayor de 64 aos de la Comunidad de 800
personas.
Primer paso: analizamos la capacidad predictiva del modelo para los tres ltimos aos
estimando en primer lugar el modelo para el periodo 86-92, dando como resultado lo
siguiente:
Dependent Variable: GSAN
Method: Least Squares
Sample: 1986 1992
Included observations: 7
ESTANCIAS
GFAR
MAYOR64
C
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
Coefficient
-0.002401
0.076445
3.866079
-1440.483
0.996556
0.993112
13.55580
551.2790
-25.21473
289.3403
0.000343
Std. Error
t-Statistic
0.071194
-0.033725
0.240081
0.318416
0.679455
5.689971
575.1245
-2.504646
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
Prob.
0.9752
0.7710
0.0108
0.0873
875.0905
163.3292
8.347065
8.316157
7.965042
1.423676
En segundo lugar hacemos la prediccin para el periodo 93-95 para analizar la capacidad
predictiva. El cuadro siguiente muestra las opciones necesarias para la prediccin para el
periodo 1993-1995 y el nombre del predictor (gasanf)
17
Econometra I
Curso 2013-2014
El resultado es el siguiente:
1700
Forecast: GSANF
Actual: GSAN
Forecast sample: 1993 1995
Included observations: 3
1600
1500
1400
1300
1200
1100
1993
1994
68.49014
55.63407
4.101869
0.025372
0.014893
0.371708
0.613399
1995
GSANF
18
Econometra I
Curso 2013-2014
Las variables que hemos introducido como regresores en los temas precedentes son
variables de tipo cuantitativo. Sin embargo, en ocasiones existen factores de tipo cualitativo
que pueden ser relevantes para explicar el comportamiento de la variable endgena.
La inclusin de estos factores en un modelo economtrico, se realiza a partir de la
construccin de lo que se conoce como variables ficticias, variables dicotmicas o variables
dummy que toman dos valores arbitrarios, normalmente 1 y 0, que corresponden a las
modalidades del factor, aunque no necesariamente ya que podrn tomar otros valores o ms
de dos.
Pueden utilizarse para recoger:
Efectos temporales:
Efectos espaciales:
Efectos de tipo puramente cualitativo.
Otro tipo de efectos: efectos estacionales, funciones escalonadas, etc.
EJEMPLO2: Queremos explicar el absentismo laboral que sufre una empresa (ABSEN)
medida como los das que en el ltimo ao han faltado al trabajo cada uno de los
empleados, en funcin de los aos de antigedad en la empresa (ANTIGUE), del salario
mensual en euros (SALARIO) y del gnero de los trabajadores (D=1 si el empleado es
hombre y D=0 si es mujer)
1 hom bre
Di
0 mujer
4.2.- Formas de introducir un factor cualitativo en el modelo de regresin
Las variables ficticias se pueden construir e incorporar de forma que acten en el modelo de
tres modos distintos. La forma de incorporar los factores cualitativos en el modelo va a
depender del efecto que creemos que tiene ese factor sobre el comportamiento de la
variable dependiente. En el caso de un modelo de dos variables tendramos:
1.- Que afecte slo a la ordenada en el origen (Variables ficticias aditivas)
Si tenemos dos ecuaciones con la misma pendiente y diferente ordenada:
Yi=1 +Xi+i
Yi=2 +Xi+i
las dos ecuaciones se pueden expresar en una sola por medio de una variable ficticia:
Yi= 1 + Xi +Di +i
) X i i
1 Yi (
1
donde cuando Di
2
0 Y X
i
1
i
i
1+ = 2 = 2-1
El coeficiente de la variable ficticia nos mide el efecto diferencial entre las dos ordenadas
en el origen, es decir, el efecto diferencial del valor esperado de la variable dependiente por
19
Econometra I
Curso 2013-2014
Zi
1 Z i X i
donde cuando Di
0 Z i 0
1 ) X i i
1 Yi (
20
Econometra I
Curso 2013-2014
1+ = 2 = 2-1
El coeficiente de la variable ficticia nos mide el efecto diferencial entre las pendientes en
los dos grupos, es decir, la diferencia de la influencia de la variable explicativa sobre la
variable endgena por presentar una caracterstica respecto de no presentarla.
La hiptesis a contrastar si los dos modelos tienen la misma pendiente:
H0: =0
H1: 0
Si se rechaza la hiptesis nula indica la influencia de la variable explicativa sobre la
variable endgena es distinto si presenta una de las caractersticas del factor cualitativo
respecto a no presentarla.
En nuestro ejemplo, nos plantearamos si el efecto del salario sobre el absentismo laboral
de los hombres es el mismo que el de las mujeres. Los resultados son los siguientes:
Zi
21
Econometra I
Curso 2013-2014
) ( 1 ) X i i
1 Yi (
1
donde cuando Di
2
2
0 Yi 1 1 X i i
La hiptesis a contrastar si los dos modelos tienen la misma ordenada en el origen como la
misma pendiente:
0
H 0 :
0
0
H1 :
0
Value
2.839041
5.678082
df
(2, 44)
2
Probability
0.0692
0.0585
El p-valor asociado al valor muestral del estadstico F no rechaza la hiptesis nula por lo
que las ficticias no seran significativas conjuntamente ni tampoco individualmente. Esta
afirmacin est en contradiccin con los modelos anteriores, lo cual es indicativo de la
existencia de algn problema en el modelo, como veremos ms adelante.
Generalizacin:
Yi =1 +Di + j X ji +i
j 1
Para el caso de variables ficticias que afectan a la pendiente depender de la variable con la
que se relacione la ficticia. Si es X1:
22
Econometra I
Curso 2013-2014
k
Yi = +1X1i + j X ji +DiX1i +i
j 2
Econometra I
Curso 2013-2014
2) Si las variables ficticias afectan a la pendiente del modelo tambin hay que utilizar esa
regla para no caer en la trampa de las variables ficticias, pero en ese caso
independientemente de que el modelo tenga trmino constante o no, ya que es la columna
de la variable X la que es combinacin lineal de las columnas de las ficticias.
4.3.- Formas de introducir varios factores cualitativos en el modelo de regresin
En el modelo tambin podemos introducir a la vez varios factores cualitativos, cada uno
con diversas modalidades, y podemos analizar adems las interacciones que se producen
entre esos factores cualitativos.
La forma de introducir ms factores cualitativos es similar a la introduccin de uno de ellos
y se aplican tambin las reglas vistas acerca de cuntas variables ficticias introducir para un
factor con m modalidades y de cmo realizar los contrastes de hiptesis.
Ejemplo: Supongamos que queremos estimar un modelo de determinacin de salarios, para
lo cual disponemos de una muestra de N trabajadores e informacin sobre el salario que
reciben, su categora profesional (empleado, tcnico y directivo) y el gnero.
Yi =0+ 1E1i + 2E2i+ 3Gi +i
donde Yi es el salario
1 si el trabajador es mujer
Gi
0 si el trabajador es hombre
1 si el trabajador es tcnico
E1i
0 en otro caso
1 si el trabajador es directivo
E 2i
0 en otro caso
de esta forma el valor esperado de Yi en cada caso es:
Empleado
Tcnico
Directivo
Mujer
0+3
0+3+1
0+3+2
Hombre
0+1
0+2
24
Econometra I
Curso 2013-2014
0
H 0 : 1
2 0
0
H1 : 1
2 0
Efectos interaccin
El modelo que acabamos de plantear recoge que el hecho de ser hombre o mujer no influye
en la diferencia salarial segn la categora profesional. Sin embargo, podramos estar
interesados en estudiar el efecto que tiene sobre el salario recibido el hecho de ser mujer o
hombre con cierta categora profesional. En este caso, el modelo tendra que incluir lo que
se llama efectos interaccin entre variables ficticias y se especificara de la siguiente forma:
Yi =0+ 1E1i + 2E2i+ 3Gi +4E1iGi+5E2iGi +i
Ahora, el valor esperado de Yi en cada caso es:
Empleado
Tcnico
Directivo
Mujer
0+3
0+3+1+4
0+3+2+5
Hombre
0+1
0+2
La diferencia salarial entre hombres y mujeres ya no viene dada nicamente por 3, sino
tambin por 4 o 5, dependiendo de su categora profesional.
25
Econometra I
Curso 2013-2014
26
Econometra I
Curso 2013-2014
Los supuestos o hiptesis que nos hemos planteado en el MRLC no tienen necesariamente
que cumplirse. El incumplimiento de alguna de las hiptesis del modelo clsico supone un
error en la especificacin del modelo economtrico. La especificacin de un modelo de
regresin consta de la formulacin de la ecuacin de regresin y de las afirmaciones o
supuestos acerca de los regresores y del trmino de perturbacin. En sentido amplio,
existir un error de especificacin siempre que sea incorrecta la formulacin de la ecuacin
o uno de los supuestos subyacentes (Kmenta, p.467). Veamos algunos de ellos.
5.1 Errores de especificacin en la seleccin de variables explicativas
Dos son los errores que podemos cometer en la seleccin de las variables explicativas, la
omisin de variables relevantes o la inclusin de variables irrelevantes en el modelo.
Omisin de variables relevantes: Omitimos por error del modelo una serie de variables que,
en realidad, deberan estar especificadas por ser todas ellas relevantes. Por ejemplo:
El modelo correctamente especificado es:
El modelo estimado (con omisin) es:
Salvo la excepcin de que los regresores sean ortogonales, es decir, estn totalmente incorrelacionados.
27
Econometra I
Curso 2013-2014
Como se puede ver el R 2 0,88897 es menor que el del modelo en el que se inclua la
variable MAYOR64 ( R 2 0,9866 ) y el AKaike y el SBIC son mayores por tanto estamos
cometiendo un error por omisin de esa variable por lo que los test de hiptesis no son
vlidos y los estimadores seran sesgados.
Inclusin de variables irrelevantes: Supongamos ahora, que por error, incluimos en .el
modelo una serie de variables que no son significativas. Es decir:
Modelo correctamente especificado:
Modelo estimado (con inclusin):
Yi= o+ 1 X1i+i
Yi= o+ 1 X1i+ 2 X2i+ i
28
Econometra I
Curso 2013-2014
Ramsey propuso una prueba general de errores de especificacin que puede ser aplicada
para la deteccin de no linealidades.
El contraste se basa en especificar un modelo alternativo al modelo inicial (Y=X+ ) de la
forma: Y=X+Z+u y contrastar la restriccin =0. En definitiva:
H 0 linealidad 0
H 1 No linealidad 0
Ramsey sugiere incluir en Z potencias de los valores estimados de la variable dependiente
(los cuales son, por supuesto, combinaciones lineales de potencias y productos cruzados de
las variables explicativas), de modo que: Z=( Y 2 ,Y 3 ,Y 4 ,.. )
No se incluye Y porque existe correlacin perfecta de esta variable con la matriz X y, por lo
tanto, el modelo no se podra estimar.
En nuestro EJEMPLO 1 Eviews proporciona la siguiente salida para el modelo
seleccionado:
Ramsey RESET Test:
F-statistic
Log likelihood ratio
0.800189
1.484525
Prob. F(1,5)
Prob. Chi-Square(1)
0.4120
0.2231
Econometra I
Curso 2013-2014
Hasta ahora hemos supuesto que en el modelo de regresin especificado los coeficientes se
mantienen constantes para todo el periodo muestral. Sin embargo, es posible que existan
submuestras para las que el comportamiento del modelo sea diferente, es decir, exista
cambio estructural.
Deteccin de cambio estructural:
a).- Contraste de estabilidad estructural de Chow
01 02
2
1
H1 1 1
1 2
k k
Estadstico de contraste
(er' er - (e1' e1 e2' e2 )) / k 1
(e1' e1 e2' e2 ) / N 1 N 2 - 2k - 2
FNk11N 2 -2 k -2
Nota 1: Es necesario que las observaciones de ambas submuestras sean suficientes para
estimar los modelos, es decir, N1>k+1 y N2>k+1.
Nota 2: Una forma alternativa de llevar a cabo este contraste de Chow es mediante la
incorporacin de variables ficticias que recojan el cambio en los coeficientes del modelo.
5.4. No normalidad
Basado en Carrascal, U. y otros (2001). Anlisis economtrico con Eviews. Ed. RAMA.
30
Econometra I
Curso 2013-2014
2
N k 1 2 1
2
g1 g 2 3 2
6
4
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
-6.85e-14
4.439314
30.83077
-51.36010
25.58799
-0.609461
2.656394
1
Jarque-Bera
Probability
0
-75
10
-50
-25
25
0.668264
0.715959
50
Kurtosis
N 3
e / N
i 1 i
g1
3/ 2
2
N
ei / N
i1
g2
N 4
ei / N
i 1
N 2
e / N
i1 i
31
Econometra I
Curso 2013-2014
32
Econometra I
Curso 2013-2014
Una cuestin importante que debe analizarse al estudiar los resultados de un modelo de
regresin es el grado de relacin lineal existente entre las observaciones de las variables
explicativas, siendo tres las situaciones posibles con las que nos podemos encontrar.
Ortogonalidad: supone la ausencia de relacin lineal entre algunos o todos los regresores
incluidos en el modelo, es decir, implica incorrelacin entre los regresores. En economa
rara vez se da este supuesto.
Multicolinealidad perfecta: se da cuando existe una relacin lineal exacta entre algunos o
todos los regresores incluidos en el modelo.
Multicolinealidad imperfecta: consiste en la existencia de una relacin lineal fuerte entre
los regresores del modelo.
A continuacin vamos a analizar las consecuencias de la multicolinealidad centrndonos,
sobre todo, en la multicolinealidad imperfecta que es la situacin ms frecuente.
Multicolinealidad Perfecta: Cuando la relacin que liga a dos o ms variables explicativas
es una relacin lineal exacta, es decir, las columnas de la matriz X son linealmente
dependientes. En este caso se deja de cumplir la hiptesis clsica Rg(X) = k+1, de modo
que:
Los estimadores sern ELIO siempre que el modelo cumpla las hiptesis clsicas y
coincidirn con los mximo verosmiles, aunque en la prctica esto puede tener poco valor
debido a las consecuencias que este problema genera.
33
Econometra I
Curso 2013-2014
1) Dificultad para interpretar los coeficientes, y por tanto, sus estimaciones. Los
coeficientes de regresin ( j ) se interpretan como el cambio que se produce en Yi al
variar Xji en una unidad, permaneciendo el resto de variables explicativas constantes.
Cuando existe multicolinealidad imperfecta es imposible suponer que el resto de las
variables permanecen constantes al existir altas correlaciones entre ellas. Por este
motivo, los parmetros pierden este significado y, por lo tanto, sus estimaciones.
2) La multicolinealidad afecta a la precisin de los estimadores ya que sus varianzas toman
valores grandes. Vamos a comprobarlo a partir de la varianza de un estimador que viene
dada por:
Var j
1 R
2
2
X j X 1
N S
2
Xj
y su estimador:
1 R
S2
2
X j X 1
N S
2
Xj
Las varianzas de los estimadores pueden ser grandes como consecuencia de:
Esto implica que no siempre que las varianzas de los estimadores sean grandes ser como
consecuencia de la multicolinealidad, aunque cuando la haya las varianzas pueden tomar
valores ms grandes de lo que seran si no la hubiese.
3) Valores muestrales de los estadsticos t pequeos, lo que implica que es muy dificil
rechazar cualquier contraste de no singnificacin de las variables
4) No afecta al R2 ya que ste mide el efecto conjunto de todos los regresores sobre el
regresando y la multicolinealidad afecta a los valores individuales de los regresores, por
tanto la regresin podr ser significativa a pesar de la existencia de multicolinealidad.
5) Los puntos 3 y 4 nos pueden llevar a rechazar la significacin individual de todos los
regresores y sin embargo no rechazar la significacin conjunta de todos ellos.
6) Sensibilidad de los EMC a los pequeos cambios en las muestras, como la
incorporacin o eliminacin de unas pocas observaciones o a la eliminacin de una
variable aparentemente no significativa.
7) No afecta a las predicciones.
6.3.- Procedimientos para detectar la multicolinealidad
La simple lgica permite, algunas veces, saber si existe o no una relacin causal
entre ellas. Por ejemplo, si dos variables explicativas son la poblacin y el empleo,
el presupuesto nacional y el PNB, etc.
Econometra I
Curso 2013-2014
Estos coeficientes miden la correlacin que existe entre un regresor y todos los dems. Se
puede calcular como coeficiente de determinacin en la regresin auxiliar de cada regresor
frente a los otros.
1
1 R X2 j X1 .....
FIV j 1
FIV 1
R X2 j X 1 .... 1
Cuando
FIV
1 R
2
2
X j X 1 ... X k
N S
2
Xj
tiene la relacin entre Xj y las dems variables sobre la varianza de j . Cuanto mayor sea
este factor, mayor es la varianza del estimador.
El factor de inflacin de la varianza se puede interpretar como cociente de dos varianzas del
estimador:
o Su varianza real 2
ortog
ortog
2
N S X2 j
ortog
1 R
2
2
X j X 1 ... X k
N S X2 j
N S
2
Xj
1 R
1
2
X j X 1 ... X k
FIV
Esto nos permite interpretar este factor de la siguiente forma: Supongamos que
R X2 j X 1 .... 0.5 FIV 2 , es decir, la varianza de j es el doble del valor que tomara
en el caso de ortogonalidad entre los regresores. Si R X2 j X 1 .... 0.999 FIV 1000 , la
varianza es 1000 veces mayor que la que se tendra en caso de ortogonalidad (con el mismo
N , 2 , y S X2 j ).
35
Econometra I
Curso 2013-2014
ESTANCIAS
GFAR
MAYOR64
-0,202981
-0,084298
GFAR
-0,202981
MAYOR64
-0,084298
ESTANCIAS
0,951154
0,951154
1
36
Econometra I
Curso 2013-2014
2
RGFAR
:ESTANCIAS,MAYOR64. 0.9199
A la misma conclusin se llega con los coeficientes de correlacin mltiple. Mientras que
ESTANCIAS es una variable que est incorrelacionada con el resto, el gasto farmacutico
(GFAR) y mayor de 64 aos (MAYOR64) estn muy correlacionadas.
37
Econometra I
Curso 2013-2014
38
Econometra I
Curso 2013-2014
TEMA 7: HETEROSCEDASTICIDAD
7.1.- Planteamiento general
i 1,2, , N
perturbaciones es E ' 2 I , siendo I la matriz identidad. Esto es, las varianzas de las
perturbaciones son iguales (hiptesis de igualdad de varianzas u homoscedasticidad) y las
covarianzas entre las mismas son nulas (hiptesis de incorrelacin):
Var i 2
i 1,2,, N
Cov i , j 0 i , j 1,2,, N
ij
E ' 2 donde I
Este modelo se conoce como Modelo de Regresin Lineal Generalizado (MRLG).
Por tanto, el problema de heteroscedasticidad se produce cuando las varianzas de las
perturbaciones son desiguales, esto es, Var i i2 cte i 1,2, ,... N y, por ello,
12 0
0 22
E '
.... ....
0
0
.... 0
.... 0
.... ....
.... N2
Si expresamos Var i i2 2 wi
w1 0
0 w2
'
2
E , donde
.... ....
0 0
0
.... ....
.... wN
....
....
Econometra I
Curso 2013-2014
que la gente de rentas elevadas ahorra, de media, ms que la gente de rentas bajas, pero
tambin hay ms variabilidad en sus ahorros.
Figura 111
i 1,2, ,...N
Bajo los supuestos del MRLC los estimadores MCO son los mejores estimadores lineales, e
insesgados, pues son los que tienen varianza mnima: son ELIO y eficientes. En el caso de
que exista heteroscedasticidad (o autocorrelacin) en el modelo las principales
consecuencias son las siguientes:
11
Econometra I
Curso 2013-2014
12
MCO X ' X
sustituyendo A:
1 X ' Y AY
2
siendo A no aleatorio Var Cov ( ) A Var Cov (Y ) A' A A'
1 X ' 2 X X ' X 1
41
Econometra I
Curso 2013-2014
Residuos
Figura 213
Variable explicativa X
Por su parte, un diagrama de dispersin entre un regresor y los residuos al cuadrado no slo
puede servir para mostrar indicios de heteroscedasticidad; en este caso, la forma de la nube
de puntos ( X ji , ei2 ) puede sugerir la forma funcional que presenta la heteroscedasticidad.
As, la nube de puntos de la Figura 3 indicara que ei2 depende lineal o cuadrticamente de
X ji . Dado que ei2 se puede considerar una estimacin de Var i , estimacin con un nico
Residuos al cuadrado
Figura 315
V ariable explicativa X
La Figura 4 representa posibles patrones para ei2 y, por tanto, para Var i . As, la Figura
4c) siguiere una forma lineal, mientras que 4d) y 4e) cuadrtica. Por su parte 4a) refleja la
no existencia de heteroscedasticidad y la forma en el caso de 4b) es ms difcil de ajustar.
13
15
Econometra I
Curso 2013-2014
Figura 416
16
Econometra I
Curso 2013-2014
Realizamos la representacin grfica de los residuos al cuadrado frente a cada una de las
variables explicativas:
En ambos diagramas se detecta claramente que para los valores grandes de los regresores
la variabilidad aumenta lo cual es indicativo de la existencia de heteroscedasticidad y su
patrn de comportamiento sugiere una relacin lineal. Por otro lado si realizamos el
diagrama de los residuos al cuadrado frente a la variable estimada (ventasf), el resultado
es:
Econometra I
Curso 2013-2014
H o : Var i E i2 2
H1 : Var i 2
Por tanto, se trata de probar si el valor esperado de i2 se relaciona o no, con una o ms
variables explicativas y dado que este valor no es observable utilizaremos en su lugar ei2 .
De esta manera, si la Ho es falsa, ei2 ser cualquier funcin de una o ms variables
explicativas.
Con esta idea vamos a plantear (de los muchos que existen) varios contrastes que no slo
nos permitirn detectar la posible existencia (o no) de heteroscedasticidad sino que, en el
caso de que la haya, algunos permitirn darnos una idea sobre la forma que adopta la
misma.
Contraste asinttico de White
La idea del test17 se basa en ver si los residuos mnimo cuadrticos ordinarios al cuadrado
son de algn modo funcin de los regresores; en este caso, deduciramos que la varianza de
las perturbaciones son funcin de los regresores y, por tanto, no son constantes
(heteroscedasticidad). El test de White analiza la significacin de una regresin auxiliar
que trata de explicar los residuos al cuadrado de la regresin inicial, ei 2 , a partir de los
regresores, sus cuadrados y sus productos cruzados dos a dos.
17
Econometra I
Curso 2013-2014
Como puede verse, el p-valor asociado al estadstico de White es igual a 0,0025 lo cual
indica que rechazamos la hiptesis nula y detecta claramente heteroscedaticidad.
Contrastes basados en regresiones
Estos contrastes siguen la misma idea del test de White y suponen que las varianzas de las
perturbaciones son funcin de una o varias variables, generalmente, variables explicativas
del modelo economtrico propuesto.
El procedimiento concreto de la prueba Breusch Pagan consiste en plantear regresiones de
los residuos al cuadrado en funcin de las variables explicativas. Es un test LM y al igual
46
Econometra I
Curso 2013-2014
2
k2( aux ) siendo k el nmero de
que en el de White se puede construir el estadstico N Raux
variables de la regresin auxiliar. Tambin se podra analizar la significacin conjunta de la
regresin. Las variables explicativas incluidas pueden aparecer en sus niveles o como
funciones de ellas, por ejemplo, al cuadrado, el inverso, etc.
Detecta que la varianza de las perturbaciones es una funcin del precio y por tanto no es
constante.
7.3.- Estimacin del modelo y prediccin
A) Mnimos cuadrados ponderados
Para ver en qu consiste el mtodo de Mnimos Cuadrados Ponderados (MCP) vamos a ver
intuitivamente por qu no son eficientes los estimadores de MCO. Para ello vamos a partir
de un modelo de dos variables representado en la Figura 5. La Figura 5a muestra una
poblacin hipottica (Y) frente a diversos valores de la variable (X). Como se comprueba,
la varianza de la distribucin de Y correspondiente a una determinada X no es constante, lo
47
Econometra I
Curso 2013-2014
MCP min
i
por tanto, damos ms peso a las observaciones con menor desviacin tpica y menos a las
que tienen una desviacin tpica mayor. Figura 518
Figura 5
1
~
. El resultado es el siguiente: MCG X ' 1 X X ' 1Y
~
En la prctica, una forma alternativa de derivar el estimador MCG consiste en:
e
min i
i i
18
Econometra I
Curso 2013-2014
Transformar el modelo de cara a que las varianzas de las perturbaciones del modelo
transformado sean constantes. Si eso se logra, el modelo transformado no presentar
problemas de heteroscedasticidad y ser un MRLC con lo que la estimacin por MCO
proporcionar los mejores estimadores, pudindose aplicar los procedimientos de inferencia
habituales. De este modo, los estimadores MCP son los estimadores MCO el modelo
transformado.
Por ejemplo, si partimos de un modelo con dos variables explicativas,
Yi 0 1 X 1i 2 X 2 i i ,
i 1,2, , N ,
Yi
wi
wi
donde la perturbacin: vi
wi
X 1i
wi
i
wi
)
....... k
X ki
wi
vi
( wi )
var( i )
2 wi
wi
2 cte
i E ( i )
i
Var ( i )
i2
Econometra I
Curso 2013-2014
o bien w i X 2ji
o bien w i Yi 2
1
X 2ji
X 1i
X 2ji
....... k
X ki
X 2ji
i
X 2ji
O lo que es lo mismo
Yi
X
X
1
o
1 1i ....... k ki vi
X ji
X ji
X ji
X ji
donde la perturbacin, vi
Var (vi ) Var (
i
X ji
i
X ji
( X ji ) 2
var( i )
2 wi
X 2ji
??
constante?
Estimando el modelo transformado por MCO, se obtienen los estimadores MCPF (Mnimos
cuadrados ponderados factibles). Pero las propiedades de dichos estimadores dependen de
que se haya utilizado un buen estimador (en general, consistente) de la matriz de varianzas
covarianzas de las perturbaciones (por tanto, de wi). En caso de que as fuera, en el modelo
transformado no habra heteroscedasticidad.
Por lo tanto, en este caso es necesario comprobar que el modelo transformado ya no tiene
heteroscedasticidad. Para ello se pueden utilizar los grficos y contrastes vistos
anteriormente. De esta manera, si podemos aceptar que en el modelo transformado la
perturbacin es homoscedstica, afirmaremos que hemos estimado correctamente la matriz
de varianzas covarianzas de las perturbaciones y, consecuentemente el estimador MCPF
tiene las propiedades asintticas del estimador MCP. En caso contrario, la estimacin
ponderada no mejora ninguna de las propiedades del EMCO del modelo original. De hecho,
si no se estima adecuadamente = 2 , el EMCGF no tiene ninguna propiedad.
Veamos la estimacin ponderada con el programa Eviews en nuestro EJEMPLO3
suponiendo en base al test de Breusch-Pagan-Godfrey que : Var i 2 precio i
50
Econometra I
Curso 2013-2014
51
Econometra I
Curso 2013-2014
A veces resulta difcil encontrar una hiptesis adecuada para la estructura de la varianza de
las perturbaciones ( i2 ). En estos casos la estimacin ponderada no proporciona mejores
estimadores que la aplicacin de MCO al modelo original. Por ello, en estas situaciones es
conveniente seguir estimando el modelo original por MCO pero calculando correctamente
los estimadores de las varianzas de los estimadores para que la inferencia realizada, a partir
de los resultados del modelo as estimado, sea vlida.
White ha desarrollado un procedimiento para calcular correctamente la desviacin tpica de
los estimadores MCO en presencia de heteroscedasticidad, que permite poder seguir
utilizando los test de la t y de la F, aunque slo son vlidos asintticamente, es decir, en
muestras grandes.
El estimador consistente de
1
1
de White es19: WHITE N X ' X V X ' X
Como vemos los estimadores de los parmetros son los mismos que obtuvimos en la
estimacin de mnimos cuadrados ordinarios pero sus errores estndar son distintos y por
tanto, tambin los estadsticos t (que no eran vlidos en la estimacin de mnimos
cuadrados ordinario) que ahora son vlidos asintticamente.
C) Formas alternativas para corregir la heteroscedasticidad
Existen otras vas para solventar los problemas de heteroscedasticidad que no pasan por
cambiar el mtodo de estimacin sino que conllevan realizar transformaciones en los datos
para que la variabilidad se reduzca. Concretamente, la transformacin de los datos tomando
logaritmos y por tanto estimar el modelo denominado log-lineal que soluciona en muchos
19
donde
1
N
e12
X '
X , siendo ei el error mnimo cuadrtico ordinario.
2
eN
52
Econometra I
Curso 2013-2014
Como vemos el estadstico de White es igual a 8,69 y el p-valor asociado es igual a 0,122
por lo tanto no rechazamos la hiptesis nula por lo que podemos concluir que en este
modelo no existe heteroscedasticidad.
Prediccin
A la hora de realizar una prediccin hay que tener en cuenta que lo que nos interesa es
Y
predecir la variable endgena del modelo original (Yi), no del transformado i
w
i
Eviews proporciona siempre la prediccin de la variable dependiente del modelo original.
53
Econometra I
Curso 2013-2014
54
Econometra I
Curso 2013-2014
Pendiente
1Y / X
Elasticidad20
Lineal en logaritmo
ln Yt 0 1 ln X 1t t
Semilog en Y
ln Yt 0 1 X 1t t
1Y
1 X (*)
Semilog en X
Yt 0 1 ln X 1t t
11 / X
11 / Y (*)
Recprocos
Yt 0 11 / X 1t t
11 / X 2
11 / XY (*)
(*) Indica que el coeficiente de la pendiente vara dependiendo del valor asumido para X, Y
o ambas. Cuando no se especifica ningn valor de X o Y, las elasticidades suelen medirse en los
valores medios de las variables.
Fuente: Gujarati (2006): Principios de Econometra, pg. 275.
20
Y X
X Y
55
Econometra I
Curso 2013-2014
n/ p
Los parmetros estimados de un modelo lineal son valores absolutos y dependen de las
unidades de medida en las que se expresen las variables del modelo.
Una variable no es ms importante que otra por tener un parmetro mayor. Esto ocurre
cuando, siendo ambos parmetros significativos, ambas variables estn medidas en las
mismas unidades.
Una solucin a este problema es calcular unos coeficientes estandarizados o coeficientes
beta a partir de la normalizacin de las variables (restarles su media y dividirles por su
desviacin tpica)
Yi Y
X X1
X Xk
1* 1i
... k* ki
ui
SY
S X1
S Xk
donde la relacin entre los coeficientes beta y los coeficientes estimados originales es:
SXj
*j j
.
SY
21