Escolar Documentos
Profissional Documentos
Cultura Documentos
Matas Cabello
2
Edicin preliminar.1
Fecha: 7 de marzo de 2016
Atencin: Si no imprime en formato duplex (por ambas caras), procure nunca ser
1 Agradezco
a Mathias Legrand por su maravilloso Legrand Orange Book template, el cual he utilizado
para redactar el libro. Tambin agradezco a la comunidad de stackexchange.com por resolver tantas
dudas de programacin de manera desinteresada. Agradezco a los desarrolladores de LATEX y a los
desarrolladores de GRETL por entregarnos herramientas tan valiosas para la docencia e investigacin sin
ningn inters econmico. Como no, tambin agradezco a mis alumnos y ayudantes por comentarios y
correcciones a ediciones anteriores.
Introduccin
La econometra (textualmente medicin econmica) corresponde a un conjunto de mtodos estadsticos empleados para analizar los fenmenos que estudian los
economistas. Cules son estos fenmenos? Podramos pensar que son problemas microeconmicos relacionados con la empresa, los consumidores y los mercados, o con
problemas de la macroeconoma como los ciclos econmicos, el desempleo, la inflacin,
la inequidad y la eliminacin de la pobreza. Si bien esta nocin es correcta, la verdad es
que los economistas claramente ya se aburrieron de estudiar estos temas y han expandido
el abanico para incluir una serie de curiosidades relacionados con medio ambiente,
psicologa, cultura, salud, felicidad, racismo, conflictos diplomticos y relaciones de
pareja, por dar un par de ejemplos. Es decir, hoy la economa como disciplina es, en las
palabras irnicas del economista surcoreano Ha-Joon Chang, la explicacin definitiva
de la vida, el universo y de todo lo que existe.2 Aunque esta ltima descripcin es un
tanto exagerada, el punto es que son pocos los temas que no se estudien dentro de la
economa.
Cmo se explica que una disciplina originalmente acotada se transformara en un
campo de estudio tan extensivo? Parte de la respuesta se encuentra en la enorme versatilidad de las herramientas que utilizan los economistas, dentro de las cuales se encuentran,
sin duda, la tcnicas economtricas que se presentan en este libro.
De qu se trata, exactamente, la econometra? Al menos en un libro introductorio
como este, la econometra es sinnimo del anlisis de regresin mltiple. La idea
bsica sobre la cul se construye dicho anlisis es que en el mundo existen procesos
(denotemos a uno de ellos por y), los cuales son consecuencia de un nmero de causales
(llamemos a dos de ellas x y z). Matemticamente:
y = f (x, z, . . .)
(1)
es una frase que Chang a repetido en varias conferencias. Claramente se encuentra parafraseando
a The Hitchhikers Guide to the Galaxy de Douglas Adam.
4
pero aumento tambin la visibilidad del producto (z) de 3 a 6, aumenta o disminuye
la cantidad vendida (y)? En cunto? Qu tan seguro estoy de mis resultados? Las
tcnicas economtricas sirven para abordar este tipo de interrogantes. Por este motivo el
mercado laboral ve con muy buenos ojos a profesionales con manejo avanzado de estas
tcnicas. Los bancos, por ejemplo, deben decidir a quin ofrecer sus crditos y bajo
qu condiciones. Para ello deben calcular el perfil de riesgo (y) del cliente, en funcin
de diversas variables explicativas (x, z, . . .) como el nivel de ingreso, la edad, el grado
acadmico, el nmero de hijos, etc. Los ejecutivos del banco muchas veces se rigen
por un clculo mgico que les entrega un computador. Bien, quien dise ese clculo
mgico es un econometrista (y si sabe hacer bien su trabajo puede ganar mucho, mucho
dinero).
Para hacer anlisis de regresin es fundamental tener acceso a datos. Mientras
ms datos hayan a disposicin, ms valioso es el conocimiento de las herramientas
estadsticas para trabajar con ellos. Como nos encontramos en la era de la informacin
y los datos guardados por compaas e instituciones crecen de manera exponencial, es
fcil imaginar que el dominio de la econometra ir ganando importancia para poder
hacer negocios exitosos.
Para ilustrar la prevalencia de la econometra en nuestras vidas, piense que cada
vez que a usted le piden su nmero de identificacin en un supermercado, o le ofrecen
pagar con una tarjeta de la tienda para obtener un descuento, sus transacciones quedan
registradas en la empresa. Con qu objetivo? Si se tienen los conocimientos economtricos indicados, la informacin registrada sirve para explorar muchas interrogantes.
Por dar un ejemplo, si y es el consumo de caf de una cliente de supermercado (de la
cual tenemos registrado cul ha sido su patrn de comportamiento en el pasado, al igual
que el de clientes similares) podramos estudiar el valor esperado que debiera tomar su
consumo (y) si, digamos, le gusta el chocolate (x) y se publicita el caf con la imagen un
hombre semi desnudo tomando caf con un chocolate en la cama (z). No hay que ser un
economista para saber que la publicidad aumenta las ventas. La pregunta de oro, que
slo se puede responder con herramientas estadsticas adecuadas y con un sabio uso de
ellas, es en cunto.
Comprender el mundo: As como el estudio de las funciones del tipo (1) sirven
para aumentar las ventas y los ingresos de una empresa, tambin sirven para entender
una serie de fenmenos que nos rodean. Una pregunta abordada recientemente en una
prestigiosa revista econmica es: Por qu algunos pases son ms machistas que otros?
Hoy se sabe que las sociedades primitivas (al contrario de lo que muestran las pelculas)
no eran machistas, sino igualitarias o incluso matriarcales. El estudio economtrico
revel que culturas que experimentaron antes la adopcin del caballo y del arado desarrollaron una diferenciacin de sexo mayor y hoy son sociedades con menor participacin
de la mujer en el mundo laboral, poltico y administrativo.3
Por qu son algunas personas ms felices que otras? Por qu existe el racismo en
la mente de unos y no de otros? Qu hay detrs de los gustos de las personas? Qu
3 Para
quien se interese en el estudio: Alberto Alesina, Paola Giuliano, Nathan Nunn, 2013. On the
Origins of Gender Roles: Women and the Plough, The Quarterly Journal of Economics, vol. 128(2),
pages 469-530.
5
hace que algunos pases sean ricos y otros pobres? Todas estas preguntas y muchas otras
pueden ser abordadas con las tcnicas utilizadas en la econometra.
Pronosticar: Si conocemos la forma funcional f () que da origen a y, entonces
basta con conocer qu valores tomarn las variables explicativas x, z, . . . para saber
qu valor tomar y. Por ejemplo, si y corresponde a los milmetros cbicos de lluvia
cados hoy, mientras x, z, . . . corresponden al conjunto de variables explicativas medidas
ayer (presin atmosfrica, temperatura del ocano, humedad, etc.), entonces conocer la
relacin f () nos permite pronosticar la lluvia de maana en funcin de las variables
explicativas de hoy.
Modelos similares pueden ser aplicados para predecir las fluctuaciones cclicas de la
economa, el numero de clientes que tendr una empresa el prximo ao, el candidato
presidencial que ser elegido en un pas o si un deudor ser capaz de pagar sus deudas.
En el peor de los casos y al estilo de las novelas de George Orwell, grupos de poder
podran hacer uso de cmo los celulares y computadores graban todo lo que hacemos,
con quien nos relacionamos y cmo pensamos. A la luz del alcance de estas herramientas, cabe preguntarse: cunta informacin sobre nuestra vida privada debemos
permitir recopilar a los servicios de inteligencia o conglomerados econmicos, si esta
informacin puede ser utilizada para pronosticar nuestro comportamiento, para aplacar
movimientos polticos que pudieran afectar a los intereses establecidos, o simplemente
ser vendida a empresas que hacen uso comercial de nuestra vida privada? Naturalmente,
las predicciones son imprecisas, pero mejoran su calidad a medida que tenemos ms
datos para realizarlas, y vaya que crecen las bases de datos en estos das.
Ayudar al mundo: Por fortuna las tcnicas empleadas en la econometra no slo
se utilizan para aumentar utilidades, hipnotizar a los clientes o mantener control total
de la poblacin al estilo orweliano. Muchos avances en ciencia y tecnologa tienen su
base en el anlisis de regresin mltiple. Dentro de las aplicaciones ms destacables
cabe mencionar a la medicina. Cul es la efectividad, por ejemplo, de un medicamento
para la prevencin de infartos cardiacos? La probabilidad de tener un infarto podra ser
y, la dosis del medicamento x y otras caractersticas del paciente z. Se podra estudiar la
relacin lineal
y = f (x, z, . . .) = 1 + 2 x + 3 z
(2)
Captulo 1
Mnimos cuadrados ordinarios (MCO)
Cundo ser econmicamente viable la energa solar?
Hoy el mundo se abastece principalmente de fuentes de energa fsil, no renovable
y altamente contaminante. Alternativas renovables de energa con una baja huella de
carbono, como la energa solar fotovoltaica, tienen un uso limitado debido a un alto
precio de produccin y ciertamente existen nicamente debido al aporte cuantioso de
recursos por parte de un nmero limitado de estados (principalmente en Europa). Para
poder competir de forma independiente con fuentes tradicionales, el costo de la energa
fotovoltaica no debiera estar por sobre, digamos, 1 US$/watt-peak. Ser algn da esta
tecnologa competitiva en el mercado de energa?
En el desarrollo de toda tecnologa
observamos lo que se denomina tcni- Figura 1.1: Precio vs. experiencia en enercamente una curva de aprendizaje: a
ga solar
medida que ms uso se hace de ella,
13
ms eficiente se vuelve. Los paneles fo1998
1999
12
tovoltaicos no son la excepcin. La fi2000
2001
2002
11
gura 1.1 muestra la evolucin del pre2003
10
cio medio por watt en EE.UU. desde
2004
2007
2006
2005
2008
9
1998, con el costo de un watt en el
2009
8
eje vertical y la cantidad acumulada de
2010
7
watts producidos desde los inicios de la
2011
6
implementacin de la tecnologa en el
2012
5
pas. Resulta evidente que a mayor can4
tidad de Watts producidos baja el costo
0
2,000
4,000
8,000
6,000
de produccin. Es decir, existe una coProduccin acumulada [MW]
rrelacin negativa entre amabas variables.
Costo [$/Wp]
1.1
Podramos aproximar esta ltima relacin negativa con una funcin del tipo
y
= 1 + 2
Costo (log)
x
Produccin (log)
(1.1)
Otros factores
Costo [ln($/Wp)]
donde el logaritmo de la produccin acumulada es la variable explicativa o independiente (la llamaremos simplemente x), y el logaritmo del costo por watt es la
variable explicada o dependiente (la cual denotaremos con y).
Aquello que se escapa a la relacin
Figura 1.2: Relacin lineal en logaritmos lineal entre x e y se captura en u, denominado error. Como vemos en la figura,
2,6
en torno al ao 2006 el precio de la ener1998
1999
2000
ga vio un aumento transitorio, el cual se
20012002
2,4
debi a un alza en el precio del polisili2003
2004 2007
2006
2005
cio, una materia prima fundamental para
2,2
2008
2009
la elaboracin de paneles solares. En la
2
2010
simplificacin de la realidad que supone
2011
(1.1) este fenmeno se considera una de
1,8
las muchas variables que podran entrar en
2012
el error u. Si el precio del policilicio fuera
1,6
tan importante explicando el precio como
2
4
8
10
6
lo es el aprendizaje a lo largo de la curva,
Produccin acumulada [ln(MW)]
entonces tendra poco sentido tratarlo como error y en lugar de eso debiera figurar
como otra variable explicativa. Pero si el efecto se neutraliza en el tiempo, entonces s
puede tener sentido asumir que se trata de un error e incluso podramos asumir que
este tiene valor esperado de cero sobre todas las unidades i analizadas,
E[ui ] = 0.
(1.2)
Es decir, cada ao, que denotaremos con i, se espera ex ante que todos los factores
que se incluyen en el error sean cero (aunque ex post ui siempre ser negativo o positivo).
Suponer que el error tiene media cero nos sirve para hacer pronsticos, pues considerando (1.2) y suponiendo que est en nuestras manos (o de los estados financistas)
decidir cunto se invertir en energa solar, tenemos
E[yi ] = 1 + 2 xi .
(1.3)
9
alcanzar
y = 2,8 0,11x
y = 2,8 0,13x
10
10
107
109
1011
10
Produccin acumulada [MW, escala log]
1.2
E[ui ] = 0 i
(1.4)
(1.5)
10
Tabla 1.1: Precio de energa solar fotovoltaica: Ajuste lineal para la curva de aprendizaje
(a) Base cruda
Ao
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
(b) Transformacin
y
x
Prod. acum.
Costo
(# Obs.)
[MW]
[$/Wp]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
11.3
14.2
18.1
29.4
52.1
97.5
155.2
234.4
339
508.1
817.1
1251.8
2164.5
3978.2
6742
11.99
11.92
11.21
10.82
10.78
9.79
9.16
8.79
8.85
8.95
8.6
8.21
6.97
6.19
5.31
2.42
2.65
2.9
3.38
3.95
4.58
5.04
5.46
5.83
6.23
6.71
7.13
7.68
8.29
8.82
(c) Ajuste
y = 2,8 0,11x
u = y y
(Log. costo)
(Ajuste lineal)
(Residuo)
2.48
2.48
2.42
2.38
2.38
2.28
2.21
2.17
2.18
2.19
2.15
2.11
1.94
1.82
1.67
2.52
2.49
2.46
2.41
2.35
2.28
2.23
2.19
2.15
2.1
2.05
2
1.94
1.88
1.82
-0.04
-0.01
-0.04
-0.03
0.03
0
-0.02
-0.02
0.03
0.09
0.1
0.11
0
-0.06
-0.15
Nota: Precio en dlares del 2012. Fuente: Barbose, Galen, Nam Darghouth, Samantha Weaver, and Ryan Wiser. 2013. Tracking
the Sun VI: An Historical Summary of the Installed Price of Photovoltaics in the United States from 1998 to 2012.
La pregunta ahora es: dadas las cantidades que s podemos observar (x e y), cmo
elegimos valores de 1 y 2 con el mejor ajuste a los datos observados? Una respuesta
natural es buscar valores para los coeficientes que minimicen la distancia entre la recta
estimada y la ubicacin de los datos en el plano (x,y). Pero existen mltiples formas de
minimizar esta distancia, siendo el mtodo MCO una forma particular.
El mtodo de mnimos cuadrados ordinarios lleva su nombre debido a que la funcin
objetivo del problema de optimizacin a resolver es la suma de los residuos cuadrados
u2i . Matemticamente buscamos:
n
o
n
n
n
i=1
i=1
i=1
11
Note que existe una gran diferencia entre residuo, que es de la estimacin, y error que
es de la poblacin. No podemos minimizar los errores ui , puesto que son inobservables.
Sin embargo, siempre podremos observar el residuo (ui ): la diferencia entre nuestra recta
estimada (yi = 1 + 2 xi ) y el valor observado de yi .
Si probramos con distintos valores aleatorios para los coeficientes 1 y 2 , encontraramos que algunas combinaciones arrojaran una suma de residuos cuadrados mayores
a las de otras combinaciones, tal cual se presenta en la figura 1.4.
Cules son los valores exactos de 1 y 2 que minimizan la suma de residuos
cuadrados? Una forma de obtener la solucin sera evaluar
ni=1 u2i
=0
2
ni=1 u2i
=0
1
u2i
i = 1, ..., n
Como dicha relacin se cumple para toda observacin i (es decir, para cada ao de
nuestro ejemplo), tambin podemos representar (1.7) con vectores:
y = 1 1 + 2 x2 + 3 x3 + ... + k xk + u ,
(n1)
(n1)
(n1)
y1
1
x2,1
y2 1
x2,2
.. = .. 1 + ..
. .
.
yn
1
x2,n
(n1)
(n1)
2 + . . . +
xk,1
xk,2
..
.
xk,n
(n1)
k +
u1
u2
..
.
un
Las variables explicativas pueden ser agrupadas en una sola matriz de dimensin n k,
12
la que denotaremos con X.1 De igual forma, los coeficientes de regresin pueden ser
agrupados en un solo vector de dimensin k 1:
y1
y2
..
.
yn
| {z }
1 x2,1 x3,1
1 x2,2 x3,2
..
..
..
.
.
.
1 x2,n x3,n
{z
X
xk,1
xk,2
.
..
. ..
xk,n
} |
1
2
..
.
k
{z
u1
u2
..
.
un
} | {z }
u
(nk)(k1)
(E)
(n1)
Pese a ser un escalar, la sumatoria de residuos cuadrados tambin tiene una representacin matricial. Esta es:
n
i=1
0
0
= y (X )
y X
= y0 0 X 0 y X
aplicando (A + B)0 = A0 + B0
aplicando (AB)0 = B0 A0
= y0 y y0 X 0 X 0 y + 0 X 0 X
= y0 y 2y0 X + 0 X 0 X
En la ltima equidad hace uso de 0 X 0 y = ( 0 X 0 y)0 = y0 X , lo que se cumple debido a
que un escalar es igual a su transpuesta.
La idea ahora es encontrar un vector que contenga los coeficientes que minimicen
esta expresin. Es decir, buscamos
h
i
0
0
0
0 0
= arg min[u u]
= arg min y y 2y X + X X
X utilizaremos notacin habitual en econometra: xc, f con c = columna y f = fila. Esta forma
discrepa de la notacin habitual del lgebra donde los elementos matriciales se suelen representar en el
formato a f ,c .
13
X 0 X = ..
.. . .
.. ..
.. . .
..
.
. . .
. .
.
.
xk,1 xk,2 xk,n x1,n x2,n xk,n
n 2
i=1 x1,i
ni=1 x1,i x2,i ni=1 x1,i xk,i
2
n x2,i x1,i
ni=1 x2,i xk,i
ni=1 x2,i
i=1
..
..
..
..
.
.
.
.
ni=1 xk,i x1,i ni=1 xk,i x2,i
2
ni=1 xk,i
Siendo X 0 X simtrica (note que ni=1 x1,i x2,i = ni=1 x2,i x1,i , etc.) podemos hacer uso de
0
la regla z zAz = 2Az, vlida siempre y cuando Akk sea simtrica (ver demostracin en
el apndice).
Con la derivada resuelta, slo queda despejar el vector de
u0 u
= 2X 0 y + 2X 0 X = 0
k1
(1.8)
= ... = (X 0 X)1 X 0 y
k
(1.9)
rango[X] = k
(S1)
Para que (S1) se cumpla, se debe tener (i) n k y (ii) ausencia de multicolinealidad
perfecta (ninguna columna de X es linealmente dependiente de otra(s) columna(s)
de la matriz).
14
Grabe la base de datos, por ejemplo, como C:\SOLAR.xlsx. Abra gretl y pinche el segundo
cono de abajo a la izquierda para abrir un guin nuevo. En l escriba el siguiente comando:
open "C:\SOLAR.xlsx"
Para ejecutarlo presione Ctrl+r.
Graficar variables. Pueden utilizarse los comandos gnuplot o scatters:
gnuplot Costo ProdAcum --output=display --suppress-fitted
scatters Costo; ProdAcum --output=display
Crear una variable. El comando series sirve para crear una nueva variable. Por ejemplo,
los logaritmos se crean con:
series l_Costo = ln(Costo)
series l_ProdAcum = ln(ProdAcum)
Regresin MCO. Por su siglas en ingls (ordinary least squares), el comando en gretl es ols.
Por ejemplo:
ols l_Costo const l_ProdAcum
Note que const representa a la constante (un vector con unos).
Ajuste y residuos. Tras efectuar el comando ols es posible acceder al ajuste y a los residuos
mediante:
series Ajuste = $yhat
series Residuos = $uhat
Incluya todos estos comandos a su guin y ejectelo.
1.3
Argentina
Australia
Canad
Dinamarca
Francia
Alemania
India
Japn
Malasia
Noruega
Singapur
Suecia
Suiza
x2
x3
(# Obs.)
(Inequidad en 1950)
(Ingreso en 1950)
(Ingreso actual)
1
2
3
4
5
6
7
8
9
10
11
12
13
2.50
1.80
1.80
1.99
1.80
2.23
2.79
1.71
2.19
1.83
2.17
1.72
2.09
4934.4
7276.4
7438.6
6581.6
4901.4
3988.3
638.2
2006.0
1405.1
5361.5
2290.5
6563.0
9354.4
9527.6
24805.4
24886.0
24233.8
21712.1
20209.6
2887.2
21832.7
9527.3
28030.0
26189.6
24661.9
24605.5
Nota: Las variables son promedios de 10 aos en torno a la fecha indicada. El ndice
de inequidad es el coeficiente inverso de Pareto-Lorenz de la Top Income Database.
El PIB real per cpita es del Maddison Proyect.
(1.10)
(1.11)
16
x
i
1
2 i
Canad
dad en 1950. Si 2 es en realidad un parSuiza
Suecia
Australia
Dinamarca
metro negativo, entonces aquellos pases
Japn
Alemania
Francia
2
que combatieron la inequidad en el pasado tienen hoy un nivel de ingreso per cpita superior. Esto podra servir de ejemArgentina
Malasia
1
plo para adoptar polticas que reduzcan
India
la inequidad en el presente para aumentar
el nivel de ingreso de un pas en el futuro.
0
En cambio, si 2 es positivo, entonces la
1,6 1,8 2 2,2 2,4 2,6 2,8 3
redistribucin generara un deterioro del
Inequidad en 1950 (x)
ingreso per cpita del pas, tal como indica la teora econmica ms convencional. Por ello, ms all de discusiones ticas,
conocer el valor de 2 es de gran importancia para poder elegir la poltica ptima de
crecimiento econmico de un pas.
PIB per cpita en 2010 (y)
5,99e
+
04
= (X X) X y =
-1,94e + 04
Noruega
Singapur
Canad
Australia
Suecia
Dinamarca
Japn
Francia
Alemania
Malasia
Suiza
Argentina
India
0
0
es
0
104
(M1)
cuyo resultado, siendo X = 1 x2 ,
0,2
0,4
0,6
0,8
1
104
1 0
(M2)
(M3)
Esto es lo que se denomina controlar por la variable PIB1950 (en este contexto PIB1950
es un control). Ms adelante veremos cmo incluir controles de primer orden es fundamental para un buen anlisis economtrico.
Como en M3 X = 1 x2 x3 , el estimador para dar un resultado distinto. En
trminos generales, si el resultado para un coeficiente de inters se mantuviera relativamente constante pese a la inclusin de controles, cambios en el nmero de observaciones,
cambios en el periodo analizado, etc., se habla de un resultado robusto (pues no depende de la mtodo particular de estimacin).
Tabla 1.3: Regresiones MCO en base a la tabla 1.2
Variable dependiente: Ingreso en 2010
Modelo
(M1)
const
5.99e+04
Inequidad en 1950 1.94e+04
Ingreso en 1950
n
R2
13
0.636
(M2)
(M3)
1.16e+04
1.79
4.92e+04
1.62e+04
0.848
13
0.314
13
0.731
18
pases, lo que no se pudo explicar con PIB1950 s se puede explicar con Inequidad1950 .
De la misma manera, como se aprecia en la figura 1.5, Alemania est por sobre la recta
del modelo M1 y Malasia est por debajo. Pero esa diferencia se puede explicar con
PIB1950 : Alemania tena mayor ingreso que Malasia.
As, el ajuste de M3,
d 2010 = 4,92e + 04 1,62e + 04Inequidad1950 + 0,848PIB1950 ,
PIB
nos entrega una relacin multidimensional entre la variable dependiente y los regresores,
tal cual se presenta en la figura 1.7. Malasia, por ejemplo, pese a tener un nivel de
ingreso similar al de la India, logr un mayor ingreso en 2010, el que se explica por una
menor inequidad. Argentina, pese a tener un nivel de ingreso comparable al de Francia o
Alemania, no se sigui desarrollando debido a los niveles de inequidad. Singapur, pese a
ser ms equitativo que Suiza, no ha logrado el nivel de ingreso de los Suizos debido a
que su ingreso medio en 1950 era muy bajo.
Ingreso 2010
104
Suiza
Canad
Australia
Noruega
Suecia
Dinamarca
Francia
Singapur
Japn
Alemania
Argentina
j =
Malasia
10,000
0
y
.
xj
India
1,5
2,5
19
1.4
n (ui u)
= 1 i=1
= 1
n
2
/n
var[y]
i=1 (yi y)
R2 = 1
(note que u = 0)
Si el modelo explica poco, ni=1 u2i es alto y el R2 es bajo. En el peor de los casos la
suma de residuos cuadrados son equivalente a la dispersin de la variable dependiente,
que est dada por ni=1 (yi y)
2 , y el R2 es cero. En el mejor de los casos todos los
residuos son cero y el R2 es uno. La figura 1.9 muestra el valor que toma el coeficiente
de una recta ajustada y = 1 + 2 x en distintas situaciones. Mientras en 1.9d un 99 %
20
x
(e)
= 0.99
R2
x
(f)
= 0.43
(d)
R2
(c) R2 = 0.61
R2
= 0.08
(a) R2 = 0.04
En el ejemplo de la tabla 1.3, como M3 explica parte de los residuos (es decir lo no
explicado) de M1 y M3, el R2 ms alto de la tabla es naturalmente el de M3. Como regla
general, tras introducir un regresor adicional a una regresin, el R2 siempre ser igual o
mayor. Sin embargo, note que el R2 del modelo M3 no corresponde a la suma de los R2
de los modelos M1 y M3. Por qu? La respuesta se encuentra en el diagrama de Venn
(figura 1.8): 0.219 de lo que se explica con M1 tambin se explica con M2, llegando el
nuevo R2 a 0,636 + 0,314 0,219 = 0,731.
Podemos decir que en M3 se explica el 73 % de la dispersin del ingreso medio de
los pases tan slo con dos regresores: el ingreso medio del pas en 1950 y su desigualdad
de ingresos en ese mismo ao. En otras palabras, al incluir otras variables explicativas
como, por ejemplo, la abundancia de recursos productivos, slo podramos mejorar en
un mximo de 27 % nuetra explicacin de y.
Pero hay que ser cuidadosos, porque la capacidad de explicar algo que sucedi
no es equivalente a la capacidad de predecir qu va a ocurrir en el futuro. Por motivos
que quedarn claros ms adelante, incluso un modelo con un R2 de 1 puede tener nula
capacidad predictiva (es decir, el modelo sera inservible). Mientras que otro modelo
con un R2 de tan slo 30 % puede tener una exelente capacidad predictiva.
Para ilustrar cmo la bondad de ajuste o variacin explicada puede ser un engao,
considere la posibilidad de que los pases que han logrado un elevado nivel de ingreso
per cpita lo han logrado gracias a un espritu colectivista que mejora la productividad
de las empresas por medio de un buen trabajo en equipo. Suponga adems que quienes
comparten ese espritu tambin votan a favor de polticas redistributivas. Cul va a ser
21
Sacado de xkcd.com
Costo [$/Wp]
(R2 = 0,95)
12
10
8
6
1998
2000
2002
2004
2006
2008
2010
2012
Ao
\ = 877,83 0,433ao
precio
6,000
4,000
En la figura 1.12 se muestra cmo ha crecido la produccin acumulada de watts produci2,000
dos con energa solar fotovoltaica a lo largo de
los aos. Como vemos, la correlacin es posi0
tiva. Qu pasara con el costo de la tecnologa
1998 2000 2002 2004 2006 2008 2010 2012
si se dejara de producir energa solar durante
Ao
los prximos 10 aos? Es de esperar que se
frene la curva de aprendizaje, no se acumule conocimiento, y el precio se mantenga
pese al transcurso del tiempo. Como ao es una variable proxy de la produccin, no
22
Sacado de xkcd.com
En conclusin, el R2 sirve para evaluar la bondad de ajuste (corresponde a un indicador de cun importantes son las variables omitidas para la determinacin de y, pues dicha
importancia repercute en la varianza del error y en la de los residuos, como tambin
podra a ayudar a detectar problemas como, por ejemplo, el del grfico 1.9f, donde se
estima una relacin lineal cuando no corresponde) pero no es un criterio robusto para
elegir el mejor modelo, especialmente cuando el objetivo es hacer una prediccin fuera
del rango de los valores X observados.
En fin, siempre recuerde: una correlacin alta (un alto R2 ) no implica de causalidad.
GRETL: Coeficiente de determinacin
El comando asociado es $rsq. Puede utilizarlo de dos maneras. La primera es tras estimar una regresin
MCO, por ejemplo:
ols y const x1 x2 x3
scalar Rcuadrado = $rsq
La segunda es dando nombre a la regresin:
MiReg <- ols y const x1 x2 x3
scalar Rcuadrado = MiReg.$rsq
1.5
23
Fertilidad
Fertilidad
0
0
Ingreso
10
11
ln(Ingreso)
104
ln(fertilidad)
ln(Fertilidad)
1,5
1
0,5
1,5
1
0,5
0
0
0
Ingreso
6
104
10
11
ln(Ingreso)
Funciones que cumple con esta caracterstica son, por ejemplo, g(z) = ln(z), g(z) = z
3
y g(z) = z 4 . Todas ellas tienen en comn que acercan en mayor proporcin a los puntos
alejados del eje y en menor proporcin a los puntos cercanos al eje, tal cual se representa
en la figura 1.15.
Lo habitual es elegir a g() = ln() en lugar de otra funcin similar. Esto se debe
a que una regresin de la formas log-log, nivel-log y log-nivel tendr una de las
prcticas interpretaciones presentadas en la tabla 1.4.
La figura 1.14 muestra cmo con cambia el ordenamiento de los datos al aplicar
g = ln(), primero en el eje vertical , luego en el eje horizontal y, por ltimo, en ambos
24
Especificacin
Diferencial total
y = 1 + 2 x
y = 2 x
ln y = 1 + 2 ln x
log-log
y
y
= 2 x
x
nivel-log
y = 1 + 2 ln x
y = 2 x
x
log-nivel
ln y = 1 + 2 x
y
y
= 2 x
Interpretacin
Si x aumenta en una unidad,
entonces y aumenta en 2
unidades.
Si x aumenta en 1 %, entonces y aumenta en 2 %
Si x aumenta en 1 %, entonces y aumenta en 2 /100 unidades.
Si x aumenta en una unidad, entonces y aumenta en
1002 %
ejes a la vez.
La lnea de regresin de la figura 1.14d es
Figura 1.15: Transformacin g() con
g0 () > 0 y g00 () < 0
8
Los resultados se interpretan as: un aumento en, por ejemplo, 10 % del ingreso de
un pas genera una disminucin de la tasa de fertilidad en 2,9 %; duplicar el ingreso, por ejemplo, hace caer la tasa de fertilidad a, aproximadamente, 2/3 de su nivel inicial.
y=x
g00 (x) < 0
g00 (x) > 0
4
2
0
GRETL: Transformaciones
Va el comando series es posible utilizar las funciones ln(x), exp(x), x^2, x^0.5, etc. Adems
existen transformaciones rpidas para mltiples series a la vez. Por ejemplo
logs Costo ProdAcum
squares Costo ProdAcum
crea los logaritmos de ambas variables y sus cuadrados (con prefijos l_ y sq_ respectivamente).
Otra alternativa cuando las relaciones no son lineales es estimar una regresin
polinomial de orden m:
25
(Expectativas de vida)2
Expectativas de vida
6,000
4,000
2,000
80
60
10 11
Expectativas de vida
Expectativas de vida
ln(Ingreso)
Ingreso medio
8
104
80
60
Ingreso medio
8
104
donde m = k 1 en este caso. Las figuras 1.16c y 1.16d presentan ajustes polinomiales
de orden 2 y 3 respectivamente. A medida que aumentamos el orden m de la regresin
polinomial siempre mejora la calidad del ajuste intra muestra.
Otro tipo de ajuste comn es el ajuste inverso:
1
y = 1 + 2
x
(1.13)
26
Expectativas de vida
Expectativas de vida
60
1.6
6
4
2
0
Esos outliers!
Vimos que un alto R2 no necesariamente implica un buen modelo. En particular, si la
correlacin es espuria, no hay causalidad directa y la prediccin pierde validez. En muchos casos es difcil establecer si la causalidad va efectivamente de X a y, pero en otros
casos es fcil. Sabemos que la nubosidad es un predictor de la lluvia, como sabemos
que el metraje de una propiedad determina su precio y no viceversa. Restringindonos
a casos en que la causalidad est clara, es el R2 un buen indicador de la bondad del
modelo?
La respuesta se encuentra en la figura 1.18, donde presenta 4 regresiones MCO con
el mismo R2 . Este cuarteto, bautizado en honor a Francis Anscombe, (i) muestra cmo
el R2 puede ser engaoso para juzgar la calidad del ajuste de un modelo y (ii) ilustra
algunas debilidades de la regresin MCO .
Por qu es el R2 en 1.18a igual que en los otros casos si la relacin parece bien
capturada por la recta? La razn se encuentra en que los errores tienen una alta varianza.
Esto suele se el caso cuando se dejan muchas variables dentro del trmino de error.
Aunque el modelo estimado ac sea correcto, el R2 es bajo.
El problema de 1.18b es la no linealidad de la relacin. Por ahora queda claro que
graficar los datos es importante para no cometer este tipo de error en la prctica. Ms
adelante veremos una metodologa para detectar el problema cuando existen muchos
regresores y la deteccin grfica se dificulta.
En las figuras 1.18c y 1.18d se presentan outliers. Ese es el nombre que se le da a
observaciones que distan de la relacin tpica observada entre los datos. Note que se
hace una diferenciacin entre outliers verticales y horizontales, pues el efecto que tienen
sobre una estimacin es desigual.
La peor regresin de la figura 1.18 es sin duda la ltima. Esta regresin padece de un
problema denominado valor influyente. Llamaremos valor influyente a un punto que
cuenta con dos caractersticas:
27
Figura 1.18: El cuarteto de Anscombe
(b) No linealidad
10
10
8
8
6
6
4
R2 = 0,66
4
4
10
12
14
R2 = 0,66
4
10
12
14
x
(d) Outlier horizontal
10
10
12
R2 = 0,66
4
10
12
14
R2 = 0,66
8
10 12 14 16 18 20
(1.14)
28
Z1
0
25
20
Z2
15
10
5
0
50
40
Z3
30
20
10
0
200
Z4
150
100
50
0
0
4
Z1
10
15
Z2
20
25
10
20
30
Z3
40
50
50
100
150
200
Z4
29
Figura 1.21: Apalancamiento (hi )
c = 1 + 2 Z3
(a) Z1
c = 1 + 2 Z4
(b) Z1
0,12
c = 1 + 2 Z4
(c) Z4
0,6
0,6
0,4
0,4
0,2
0,2
0,1
8 102
6 102
4 102
2 102
1 2 3 4 5 6 7 8
0
0
10
Z3
15
10
Z4
15
Z4
c = 1 + 2 Z4
(c) Z4
c = 1 + 2 Z4
(b) Z1
0,6
0,4
0,2
0
0,2
0,4
0,6
0,5
20
0
40
0,5
60
1 2 3 4 5 6 7 8
10
Z3
15
Z4
10
15
Z4
una observacin tenga un alto nivel de apalancamiento no implica que tenga influencia
(impacto sobre la recta estimada), la cual se mide con
o
ui
.
(1 hi )
(1.15)
Suiza
Japn
Apalancamiento
hi ui
(1 hi )
India
Canad
Australia
Suecia
0,4
Argentina
Francia
Noruega Dinamarca
Malasia
Singapur
Alemania
0,2
5,000
2
2,5
Inequidad 1950
Ingreso 1950
30
una prctica aceptable en la econometra, salvo que existan argumentos muy fuertes
que respalden dicha decisin. Muchas veces existen mejoras al modelo que permiten
mantener la totalidad de las observaciones. Una observacin no debe ser eliminada slo
porque no calza con el ideal del investigador!
GRETL: Influencia