Escolar Documentos
Profissional Documentos
Cultura Documentos
Regresión
Lineal
J. Tessada
08/2017
Regresión
Lineal
Estudios Empı́ricos en Finanzas
Univariada
Regresión
Regresión Lineal
Multivariada
Inferencia
Especificación
José Tessada
HSK
Escuela de Administración
Pontificia Universidad Católica de Chile
Agosto 2017
EAA3230
¿Qué es el modelo de regresión lineal?
Regresión
Lineal
J. Tessada Es básicamente un modelo que explica una variable y en
08/2017
función de variables x
Regresión
Lineal y =α + βx + e (1)
Univariada
Motivación
Modelo Pensamos en ¿cómo cambia y cuando cambia x?
Supuestos
Estimador OLS
Regresión ∂y
Multivariada =β
∂x
Inferencia
∂e
=0
∂x
“Todo lo demás constante”
EAA3230
¿Cómo interpretamos el modelo de regresión
Regresión
Lineal
lineal?
J. Tessada
08/2017
EAA3230
Notación
Regresión
Lineal
J. Tessada La variable y se denomina usualmente variable dependiente
08/2017
La variable x se denomina usualmente variable independiente,
Regresión explicativa o regresor
Lineal
Univariada e es llamado error
Motivación
Modelo
Supuestos
Usemos t para indexar las observaciones, con T indicando el
Estimador OLS número total de observaciones
Regresión
Multivariada
yt =α + βxt + et (2)
Inferencia
Especificación
HSK
El error et es inobservable
EAA3230
Modelo poblacional
Regresión
Lineal
J. Tessada Consideremos nuevamente el modelo (1)
08/2017
Tomamos E(·|x) y con CMI tenemos
Regresión
Lineal
Univariada
E(y|x) =α + βx (3)
Motivación
Modelo
Supuestos
Valor esperado condicional es función lineal de x
Estimador OLS
Pero es inobservable =⇒ buscaremos tener una estimación de
Regresión
Multivariada (1) observamos una muestra: {yt , xt }Tt=1
Inferencia
Usamos muestra para estimar parámetros α y β
Especificación
HSK
Necesitamos un estimador:
Muestra → valores estimados de coeficientes
Valores estimados son función de muestra
¿Qué queremos que haga nuestro estimador?
Ajustar una lı́nea de regresión lo mejor que se pueda a los datos
EAA3230
Regresión
Lineal
J. Tessada y
08/2017
Regresión
Lineal Regresión
Univariada poblacional
Motivación
Modelo
Supuestos
Estimador OLS
Regresión
Multivariada
Inferencia
Especificación
HSK
x1 x2 x3 x
EAA3230
Regresión
Lineal
J. Tessada
08/2017
y
Error
Línea
de
Regresión regresión
Lineal
Univariada
Motivación
Modelo yt
Supuestos
Estimador OLS
Regresión
Multivariada
Inferencia
xt x
EAA3230
Regresión
Lineal
J. Tessada
08/2017
y Regresión
poblacional
Regresión
Lineal
Univariada
Motivación
Modelo
Supuestos
Estimador OLS
Regresión
Multivariada
HSK
x
EAA3230
Supuestos
Regresión
Lineal
J. Tessada Modelo de regresión lineal clásico
08/2017
Supuestos
Regresión 1 Modelo es lineal
Lineal
Univariada
2 Muestra aleatoria
Motivación 3 Conditional mean independence
Modelo
Supuestos
Estimador OLS E ( et | x ) = 0
Regresión
Multivariada 4 Debe haber variación en variable explanatoria
Inferencia 5 Homocedasticidad: varianza de los errores es σe2
Especificación 6 (Adicional) Normalidad
HSK
¿Qué supuestos importan? ¿Para qué importan?
Regresiones de corte transversal vs series de tiempo
EAA3230
Estimación
Regresión
Lineal
J. Tessada Estimador más tradicional: mı́nimos cuadrados ordinarios
08/2017
(MCO o OLS)
Regresión Otros estimadores
Lineal
Univariada Método de momentos y método generalizados de momentos
Motivación
Modelo
(GMM)
Supuestos Máxima verosimilitud (maximum likelihood)
Estimador OLS
Regresión
¿Qué hace OLS?
Multivariada
Minimiza una medida de distancia entre la lı́nea de regresión y
Inferencia
las observaciones
Especificación
HSK
EAA3230
Estimadores y Muestra
Regresión
Lineal
J. Tessada Usaremos el sı́mboloˆsobre un parámetro para mostrar que es
08/2017
un estimador
Regresión Entonces α̂ y β̂ =⇒ “regresión muestral”
Lineal
Univariada
Motivación ŷt =α̂ + β̂xt (4)
Modelo
Supuestos
Estimador OLS
donde ŷ es el valor predicho (fitted value)
Regresión
Multivariada Estimadores no tienen que ser iguales a valores reales
Inferencia Idealmente nos gustarı́a que fueran “cercanos”
Especificación Problema: como no conocemos los verdaderos no sabemos qué
HSK tan cerca están
Valores obtenidos son función de la muestra =⇒ son variables
aleatorias también
Nosotros obtenemos los errores ê, que también son estimadores
EAA3230
Estimador OLS: Fórmula
Regresión
Lineal
J. Tessada El estimador de mı́nimos cuadrados ordinarios busca
08/2017
minimizar la distancia entre los valores “estimados” y los
Regresión
valores observados de la variable y
Lineal
Univariada Esto se conoce como la “suma de errores al cuadrado”
Motivación
Modelo
La “distancia” en este caso se define como la suma del cuadrado
Supuestos de las desviaciones
Estimador OLS
Distintas definiciones de esta función objetivo llevan a distintos
Regresión
Multivariada estimadores
Inferencia
Entonces, los estimadores MCO de α y β corresponden a la
Especificación
solución al siguiente problema
HSK
T
mı́n
{α̂, β̂}
∑ (yt − ŷt )2 (P-OLS)
t=1
Regresión
Multivariada Interpretemos (6) usando los equivalentes poblacionales
Inferencia
Especificación Cov(x, y)
β= (7a)
HSK Var(x)
α =E(y) − βE(x) (7b)
EAA3230
Estimador OLS: Algunas propiedades
Regresión
Lineal
algebraicas
J. Tessada
08/2017
Recordemos que ê corresponde a los residuos de la regresión
Regresión
Lineal
Desviaciones respecto de la lı́nea de regresión
Univariada
Motivación
êt =yt − α̂ − β̂xt
Modelo
Supuestos
Estimador OLS Los residuos suman 0
Regresión
Multivariada T
Inferencia
∑ êt =0
Especificación t=1
HSK
T
∑ êt xt =0
t=1
y =α̂ + β̂x
EAA3230
Pequeño desvı́o: ¿Modelos no lineales?
Regresión
Lineal
J. Tessada Muchos modelos no-lineales pueden ser transformados en
08/2017
lineales
Por ejemplo,
Regresión
Lineal
Univariada β
Motivación
yt = Axt eet
Modelo
Supuestos
Estimador OLS
puede ser transformado en lineal usando ln(·)
¿Otros ejemplos?
Regresión
Multivariada Sin embargo, en otros casos esto no es posible
Inferencia Por ejemplo,
Especificación
γ
HSK yt = α + βxt + et
EAA3230
OLS: Propiedades y momentos
Regresión
Lineal
J. Tessada Nos interesa saber el valor esperado y la varianza de los
08/2017
estimadores
Regresión Con los supuestos 1 al 4 del modelo de regresión lineal clásico
Lineal
Univariada tenemos que OLS es un estimador insesgado
Motivación
Modelo
Supuestos Teorema
Estimador OLS
Regresión
Esperanza de estimador OLS Bajo los supuestos 1 al 4 del modelo de
Multivariada
regresión clásico tenemos que
Inferencia
Especificación
E(α̂) =α
HSK
E( β̂) = β
EAA3230
OLS: Propiedades y momentos
Regresión
Lineal
J. Tessada Si agregamos el supuesto 5, tenemos la varianza de OLS
08/2017
Regresión
Teorema
Lineal
Univariada Bajo los supuestos 1 al 5 tenemos que
Motivación
EAA3230
OLS: Propiedades y momentos
Regresión
Lineal
J. Tessada Bajo los supuestos 1 al 5, s2 es un estimador insesgado
08/2017
=⇒ podemos usarlo para calcular la varianza de OLS
Regresión Los estimadores de la varianza de OLS son
Lineal
Univariada
Motivación s2 ∑Tt=1 x2t
Modelo V̂ (α̂) =
Supuestos T ∑Tt=1 (xt − x)2
Estimador OLS
Regresión s2
Multivariada V̂ ( β̂) =
Inferencia ∑Tt=1 (xt − x)2
Especificación
HSK
EAA3230
Definición y notación
Regresión
Lineal
J. Tessada Generalización de (2)
08/2017
Ahora tenemos K variables x
Regresión Por simplicidad asumamos que primera variable es la constante
Lineal
Univariada Podemos escribir el modelo como
Regresión
Multivariada K
Modelo
Supuestos
yt = ∑ βk xk,t + et (8)
OLS k =1
Regresión
Particionada
Propiedades de o
OLS
Inferencia K
Especificación yt = β 1 + ∑ β2 xk,t + et
HSK k =2
EAA3230
Interpretación
Regresión
Lineal ∂y
J. Tessada Sigue siendo cierto que β k = ∂xk
08/2017
Suponiendo que no hay interacciones
Regresión
Y que error no cambia al cambiar xk
Lineal
Univariada Entonces ahora efecto es “manteniendo lo demás constante”
Regresión
Multivariada
Modelo
Supuestos
OLS
Regresión
Particionada
Propiedades de
OLS
Inferencia
Especificación
HSK
EAA3230
Un ejemplo
Regresión
Lineal
J. Tessada Ejemplo 1: y es el exceso de retorno de un activo i, x incluye
08/2017
exceso de retorno de un ı́ndice de mercado y los factores Fama
Regresión
y French
Lineal
Univariada
Regresión
reti,t =α + β m markett + β V Vt + β S St + et
Multivariada
Modelo
Supuestos
Ejemplo 2: inversión de una empresa en activos fijos y flujo de
OLS caja
Regresión
Particionada
Propiedades de
OLS invi,t =α + β c cash flowt + β A Assetst + et
Inferencia
Especificación
HSK
EAA3230
Notación: Generalización
Regresión
Lineal
J. Tessada Escribimos (8) usando matrices
08/2017
yt = Xt0 β + et (9)
Regresión
Lineal
Univariada
donde Xt es un vector con los valores de las k variables x para
Regresión
Multivariada la observación t; β es el vector de K coeficientes β k
Modelo
La ecuación matricial es
Y = Xβ + e
EAA3230
Supuestos
Regresión
Lineal
J. Tessada Los supuestos del modelo lineal multivariado son
08/2017
1 Modelo es lineal
2 Muestra aleatoria
Regresión
Lineal Incluye todas las variables al mismo tiempo (muestra multivariada)
Univariada
Regresión
3 No hay colinealidad perfecta (matriz X es de rango completo)
Multivariada 4 Conditional mean independence
Modelo
Supuestos
En este caso tenemos que es condicional en todas las xk
OLS 5 (Adicional) Spherical disturbances (que implica
Regresión
Particionada homocedasticidad)
Propiedades de
OLS
HSK
EAA3230
OLS
Regresión
Lineal
J. Tessada El estimador MCO está dado por
08/2017
−1
Regresión
β̂ = X0 X X0 y (10)
Lineal
Univariada
Regresión
donde y es un vector con las T observaciones de yt
Multivariada
Modelo
Se necesita T > K para calcular estimador
Supuestos
OLS Ahora propiedades y supuestos serán en función de la matriz X
Regresión
Particionada
Propiedades de
OLS
Inferencia
Especificación
HSK
EAA3230
Algunas definiciones útiles
Regresión
Lineal
J. Tessada Dos matrices que nos servirán (donde I es la matriz identidad)
08/2017 −1
La matriz P o matriz de proyección: X (X0 X) X0
−1
Regresión La matriz M: I − X (X0 X) X0
Lineal
Univariada
Al premultiplicar un vector de observaciones por P obtenemos
Regresión
Multivariada los fitted values
Modelo
Supuestos Al premultiplicar un vector de observaciones por M obtenemos
OLS
Regresión
los residuos de la regresión
Particionada
Propiedades de Para nuestro modelo de regresión tenemos que
OLS
Inferencia −1 0
Especificación
ŷ =Py = X X0 X Xy
| {z }
HSK
β̂
0
−1 0
ê =My = I − X X X X y = y − ŷ
EAA3230
Regresión Particionada
Regresión
Lineal
J. Tessada Teorema Frisch-Waugh-Lovell
08/2017
Separemos las variables X en dos grupos
Regresión
Lineal
Univariada
Y = Xβ + e = X1 β 1 + X2 β 2 + e
Regresión
Multivariada
Modelo
El vector estimado de coeficientes β 2 se puede calcular como
Supuestos
β̂ 2 = X20 M1 X2 X20 M1 y
OLS
Regresión
Particionada
Propiedades de
OLS donde M1 corresponde a la matriz M para las variables en X1
Inferencia
Usando las propiedades de la matriz M la fórmula anterior es
Especificación
HSK
equivalente estimar una regresión
Ỹ =X̃2 β 2 + ν
Regresión
Multivariada donde nos interesa α, X son variables que queremos usar como
Modelo
Supuestos
controles (podemos incluir la constante)
OLS
Para hacer la regresión particionada
Regresión
Particionada
Propiedades de
1 Estimamos una regresión de w en X
OLS 2 Recuperamos los errores w̃ = MX w
Inferencia 3 Estimamos una regresión de y en X
Especificación 4 Recuperamos los errores ỹ = MX y
HSK 5 Estimamos una regresión de ỹ en w̃ → nos da α̂
Si usamos exactamente las mismas T observaciones este
estimador “particionado” es numéricamente idéntico a haber
estimado α y β al mismo tiempo con la fórmula de regresión
multivariada
Los pasos 3 y 4 no son obligatorios, resultado es el mismo si se
estima regresión de y en w̃
EAA3230
De vuelta a interpretación
Regresión
Lineal
J. Tessada La regresión particionada nos muestra otra manera de pensar
08/2017
los coeficientes
Regresión Para identificar el valor de cada β k usamos la variación en xk
Lineal
Univariada que no está relacionada a las demás variables x
Regresión
Multivariada
Si en el ejemplo w fuera combinación lineal de variables en X
Modelo =⇒ residuos son todos 0
Supuestos
OLS
Entonces no podemos estimar α
Regresión
Particionada
Aquı́ vemos claramente que no hay variación para identificar el
Propiedades de efecto de w por separado
OLS
EAA3230
Propiedades Asintóticas
Regresión
Lineal
J. Tessada Supuesto de normalidad no es necesario
08/2017
En muchos casos datos no tienen distribución normal ni hay
Regresión razón para suponer que la tengan
Lineal
Univariada En esos casos usamos propiedades asintóticas: miramos a las
Regresión
Multivariada propiedades cuando tamaños de muestra crecen (T → ∞)
Modelo
Supuestos
OLS
Regresión
Particionada
Propiedades de
OLS
Inferencia
Especificación
HSK
EAA3230
Tests Individuales
Regresión
Lineal
J. Tessada Consideremos modelo de regresión lineal multivariado: T obs,
08/2017
K variables explicativas
Regresión Trabajaremos bajo supuesto de distribución asintótica
Lineal
Univariada Para hipótesis nula de β k = c tenemos que
Regresión
Multivariada !
Inferencia β̂ k − c a
t( β̂ k ) = ∼ N (0, 1)
Especificación
ee( β̂ k )
HSK
EAA3230
Test Restricción Lineal
Regresión
Lineal
J. Tessada Estimación nos da una matriz de varianza de vector de
08/2017
coeficientes β
Regresión Esto implica que podemos testear combinaciones lineales de
Lineal
Univariada
coeficientes
Regresión Varianza de la combinación lineal es función de varianzas de
Multivariada
coeficientes y de covarianzas
Inferencia
Hacemos test
t(δ̂) = δ̂/ee(δ̂)
EAA3230
Test Restricción Lineal
Regresión
Lineal
J. Tessada Noten que también podrı́amos haber transformar regresión
08/2017
Podemos escribir: β s = β m + δ
Regresión
Lineal
Llamemos ds a dummy de sector servicios y dm a dummy de
Univariada sector manufactura
Regresión
Multivariada Entonces estimamos regresión aplicando la siguiente
Inferencia transformación
Especificación
EAA3230
Tests Múltiples Restricciones Lineales
Regresión
Lineal
J. Tessada Alternativamente podemos reestimar modelo imponiendo
08/2017
restricción
Regresión Si imponemos restricción β s = β m =⇒ podemos escribir la
Lineal
Univariada restricción β sm (ds + dm ) donde β sm es el coeficiente de ambas
Regresión variables
Multivariada
Inferencia Calculamos
Especificación
(SSRR − SSRNR ) /p
HSK F= (11)
SSRNR /(T − K)
EAA3230
Test RESET
Regresión
Lineal
J. Tessada Test enfocado en especificación del modelo
08/2017
Alternativa es alguna variable omitida o fórmula funcional
Regresión distinta
Lineal
Univariada Implementación
Regresión
Multivariada
1 Estimar
Inferencia
y = β 1 + β 2 x2 + . . . + β K xK + e (12)
Especificación
Tests de
Especificación 2 Calcular valores predichos ŷ
HSK 3 Estimar
Regresión
Multivariada Var(e) =σ2 In (14)
Inferencia
Especificación
donde In es la matriz identidad de dimensión n y e es el vector
HSK
que contiene los errores e
Definición y Todos los errores tienen la misma varianza (σ2 ) y todas las
Tests
Soluciones covarianzas son 0
¿Qué es heterocedasticidad? Básicamente, una forma de
“non-spherical disturbances”
Var(e) = Σ = σ2 Ω (15)
¿Por qué me importa?
No afecta sesgo ni consistencia
OLS no es el estimador lineal más eficiente
Inferencia usando fórmula tradicional no es correcta
¿Qué hacer?
EAA3230
Regresión
Lineal
J. Tessada
f (y|x)
08/2017 y
Regresión
Lineal
Univariada
Regresión
Multivariada
Inferencia
Especificación
HSK
Definición y
Tests
Soluciones
E(y|x) = ↵ + x
x
EAA3230
Regresión
Lineal
J. Tessada
f (y|x)
08/2017 y
Regresión
Lineal
Univariada
Regresión
Multivariada
Inferencia
Especificación
HSK
Definición y
Tests
Soluciones
E(y|x) = ↵ + x
EAA3230
Heterocedasticidad (HSK)
Regresión
Lineal Definición (cont.)
J. Tessada
08/2017 Caso más general: “non-spherical disturbances”
Heterocedasticidad: caso particular =⇒ varianzas de los errores
Regresión
Lineal Pero también puede implicar covarianzas entre errores, ejemplo
Univariada
correlación serial
Regresión
Multivariada
Especı́ficamente, heterocedasticidad implica que
Inferencia
Especificación
V(ei ) =σi2
HSK
Definición y
Tests
Soluciones
Seguimos asumiendo que todas las covarianzas son 0
E(ei ej ) = 0, i 6= j
Regresión
Multivariada Queremos testear la hipótesis nula que errores son
Inferencia homocedásticos
Especificación
Dados los supuestos del modelo usamos la hipótesis
HSK
Definición y
E(e2 |X) = σ2 versus que es una función de X
Tests
Soluciones Una opción: estimar varianza en dos submuestras –comparar
valores
Si razón de estimadores de σ2 es muy grande =⇒ rechaza
homocedasticidad
Test con distribución F si regresión es normal
¿Dónde separar la muestra?
EAA3230
Heterocedasticidad (HSK)
Regresión
Lineal Tests (cont.)
J. Tessada
08/2017 Una alternativa: test de White
Reducir número de supuestos sobre forma de heterocedasticidad
Regresión
Lineal Usar una regresión auxiliar usando polinomios de elementos de
Univariada
X
Regresión
Multivariada
¿Cómo opera? Supongamos modelo
Inferencia
Especificación
y =α + β 1 x1 + β 2 x2 + e
HSK
Definición y
Tests
Estimar regresión lineal por MCO, rescatar errores ê
Soluciones
Estimar regresión auxiliar
EAA3230
Ω conocida: MCG o GLS
Regresión
Lineal
J. Tessada El estimador de MCG está dado por
08/2017
Regresión
β̂ MCG =(X̃0 X̃)−1 X̃0 ỹ
=(X0 H 0 HX)−1 X0 H 0 Hy
Lineal
Univariada (17)
Regresión
Multivariada =(X0 ΣX)−1 X0 Σy (18)
Inferencia
Especificación
β̂ MCG es insesgado; en muestras grandes es consistente y con
HSK
Definición y
distribución normal asintótica
Tests
Soluciones Es el estimador de mı́nima varianza entre los estimadores
lineales de este modelo
Para inferencia: misma lógica que en modelo con MCO
EAA3230
Ω estimado: MCGP
Regresión
Lineal
J. Tessada Si necesitamos estimar elementos de Σ =⇒ mı́nimos
08/2017
cuadrados generalizados posibles (MCGP)
Regresión Método requiere introducir restricciones: no se puede estimar
Lineal
Univariada la matriz completa
Regresión
Multivariada Supongamos que
Inferencia
Especificación Σ = σ2 Ω ( θ )
HSK
Definición y
Tests
donde θ es un vector de parámetros a estimar
Si tenemos θ̂ que es consistente =⇒ Ω̂ = Ω(θ̂ )
Soluciones
El estimador de MCGP es
EAA3230
MCG y Heterocedasticidad
Regresión
Lineal
J. Tessada Volvamos a heterocedasticidad =⇒ Ω es diagonal
08/2017
Particularmente consideremos
Regresión
Lineal
Univariada
Var(e|X) =σ2 g(X), g(X ) > 0 ∀X
Regresión
Multivariada
y g(X) es conocida
Inferencia
Especificación
MCG es sencillamente un modelo de regresión en datos
HSK
transformados
Definición y
Tests
yt β0 x e
Soluciones
p =p + β 1 p t1 + . . . + p (20)
g(xt ) g(xt ) g(xt ) g ( xt )
Regresión
Var(e|X) =σ2 exp(γ0 + γ1 x1 + . . .) (21)
Lineal
Univariada ¿Cómo procedemos?
Regresión
Multivariada Estimar modelo original por MCO, rescatar residuos
Inferencia Estimar ln(ê2 ) = γ00 + γ1 x1 + . . . + ν
Especificación Estimar nuevamente modelo original con MCP o transformar
HSK modelo y estimar por MCO
Definición y
Tests
Soluciones
Estimador de MCGP es consistente pero sesgado
Converge a una distribución normal
¿Qué pasa si modelo (21) está mal especificado?
¿Deben coincidir los estimadores de MCO y MCGP?
EAA3230
Errores Estándar Robustos
Regresión
Lineal
J. Tessada
La solución más usada es corregir los errores estándar
08/2017 Esto consiste básicamente en usar un estimador de la varianza
que no asuma homocedasticidad
Regresión
Lineal Opción “robust” en programas se refiere a esto
Univariada
Regresión
Estimadores basados en White (1980)
Multivariada 0 −1 0 0 −1
Inferencia
d ( β̂) = X X X D̂X XX
Var
Especificación n n n
HSK
Definición y
Tests
donde D es una matriz diagonal con êi2 en la diagonal
Soluciones Errores êi se rescatan de estimación MCO
Crucial: D̂ debe ser estimador consistente de matriz de varianza
de los errores
Opción tradicional en programas estadı́sticos
Existen otros estimadores (ver ayuda de opción vce en Stata)
Se puede hacer inferencia con matriz robusta =⇒ tests usan
estimador robusto si es necesario
En general, estimadores son más “conservadores”
¿Debemos ocupar errores robustos y no los “simples”?
En general si, si hay observaciones de más de una unidad (ej.
firma)
EAA3230
Errores Estándar Robustos
Regresión
Lineal Autocorrelación
J. Tessada
08/2017
Otra forma de non-spherical disturbances: correlación entre
errores de distintas observaciones
Regresión
Lineal
Univariada
Modelar dependencia serial: modelo dinámico –ajustamos
Regresión
estimación
Multivariada
Modelos con rezagos
Inferencia
Modelos ARMA
Especificación
HSK
Si no afecta consistencia: errores estándar robustos
Definición y
Tests
Newey-West
Soluciones Mismo principio que errores de White –agrega estimación de
correlación
Errores de MCO son usados, ponderadores caen con “distancia”
entre observaciones
Implementados en programas estadı́sticos: selección de rezagos
debe ser especificada (usualmente automática)