AD 2018 Clase15

Regresión lineal múltiple
Miércoles 10 de octubre
Carmen Le Foulon
Análisis de Datos Polı́ticos - ICP 0502

• Modelo poblacional: y = β0 + β1 x1 + β2 x2 + µ
• Buscamos estimar el efecto de x1 extrayendo el efecto de x2 en la

variable dependiente, y .
• Es decir, comparar el efecto de un cambio en x1 entre dos

observaciones que poseen el mismo nivel de x2 – aunque la muestra
no contenga dos observaciones de ese tipo.
• En situaciones no experimentales, mantener los otros factores

constantes.
1
• Modelo poblacional: y = β0 + β1 x1 + β2 x2 + µ
• En situaciones no experimentales, mantener los otros factores

constantes.
• β1 corresponde el cambio en y al cambiar x1 en una unidad,

manteniendo los x2 constante.
• β2 corresponde el cambio en y al cambiar x2 en una unidad,

manteniendo los x1 constante.
2
Ejemplo regresión lineal múltiple
• Bienes públicos y ELF, controlando por democracia

• Suponemos entonces que el modelo poblacional es:
PorcAgi = β0 + β1 ELFi + β2 DEMi + µi
• Variable explicada: Porcentaje hogares con acceso a agua potable:

PorcAgi
• Variable explicativa:
• Índice de fraccionalización etnolinguı́stica:
E
X
ELF = 1 − prope2
e=1
• Indice de democracia de Polity IV.
3
Cuadro 1: Estadı́sticas descriptivas datos
N Media Desv. Est. Min Max

PorcAg 30 54.4 18.4 21 89
ELF 30 0.60 0.24 0.12 0.98
DEM 30 1.3 2.5 −5 6
4
Porcentaje hogares con agua potable y ELF
5
Porcentaje hogares con agua potable y DEM
6
DEM y ELF
7
Controlando por
• Experimento conceptual para realizar comparaciones: nos permite

comparar el efecto de un cambio en ELF entre dos observaciones
que poseen el mismo nivel de DEM – aunque la muestra no
contenga dos observaciones de ese tipo.
• Por ejemplo, comparar el porcentaje de hogares con agua potable

con ELF = 0,25 vs ELF = 0,35 donde ambos paı́ses tienen
DEM = 4.
• Buscamos estimar el efecto de ELF en el porcentaje de hogares con
agua potable extrayendo el efecto de DEM.
8
Controlando por
• Buscamos estimar el efecto de ELF en el porcentaje de hogares con

agua potable extrayendo el efecto de DEM.
• β1 corresponde el cambio en PorcAg al cambiar ELF en una unidad,
manteniendo DEM constante o ceteris paribus.
• Buscamos estimar el efecto de DEM en el porcentaje de hogares con

agua potable extrayendo el efecto de ELF .
• β2 corresponde el cambio en PorcAg al cambiar DEM en una
unidad, manteniendo ELF constante o ceteris paribus.
9
• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi
• MCO utiliza la parte de la variabilidad de ELF que es única a ELF

para estimar β1 .
• MCO utiliza la parte de la variabilidad de DEM que es única a DEM

para estimar β2 .
• La interpretación de los coeficientes MCO es ceteris paribus, es

decir, ”todo lo demás constante”.
10
Una variable explicativa
Diagramas Ballentine Venn: Variabilidad de X e Y
Fuente: Kennedy 1998 11

Dos variables explicativas
Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .
Fuente: Kennedy 1998

Asume correlación positiva entre X y Z.
12
• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi
• MCO utiliza la parte de la variabilidad de ELF que es única a ELF

para estimar β1 .
• MCO utiliza la parte de la variabilidad de DEM que es única a DEM

para estimar β2 .
• La interpretación de los coeficientes MCO es ceteris paribus, es

decir, ”todo lo demás constante”.
13
Estimación MCO
• Método es el mismo, ahora residuos se construyen con el modelo

completo con dos (o más variables):
n
X n
X
SRC = (yi − ŷi )2 = (yi − (β̂0 + β̂1 x1i + β̂2 x2i ))2
i=1 i=1
• Se minimiza y se obtienen ahora 3 condiciones de primer orden -

porque son tres parámetros: β0 , β1 y β2
14
Estimación por MCO
Cuadro 2: Coeficientes estimados
Dependent variable:
PorcAg
ELF −19.17
DEM 5.33
Constant 58.96
Observations 30
15
Propiedades algebraicas
• Propiedades algebraicas de la regresión simple se extiendan a

regresión múltiple.
• Recordar que son propiedades que se derivan de la minimización de

la suma de los residuos al cuadrado (i.e. del método de mı́nimos
cuadrados ordinarios).
16
Propiedades algebraicas: Caso dos variables explicativas
ȳ = βˆ0 + βˆ1 x̄1 + βˆ2 x̄2

Pn
i=1 ri =0
Pn
i=1 x1i ∗ ri = 0 y
Pn
i=1 x2i ∗ ri = 0
17
Propiedades algebraicas: ejemplo
PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

¯
PorcAg = βˆ0 + βˆ1 ELF
¯ + βˆ2 DEM
¯
54,4 = 58,96 − 19,17 ∗ 0,6 + 5,33 ∗ 1,3
Pn
i=1 ri =0
Pn
i=1 ELFi ∗ ri = 0 y
Pn
i=1 DEMi ∗ ri = 0
18
Propiedades algebraicas caso general
ȳ = βˆ0 + βˆ1 x¯1 + βˆ2 x¯2 + · · · + βˆk x¯k

Pn
i=1 ri = 0
Pn
i=1 x1i ∗ ri = 0
Pn
i=1 x2i ∗ ri = 0
···
Pn
i=1 xki ∗ ri = 0
19
Bondad de ajuste: R 2
Definimos:
Pn
Suma Cuadrados Totales: SCT = i=1 (yi − ȳ )2
Pn
Suma Cuadrados Explicados: SCE = i=1 (ŷi − ȳ )2
Pn
Suma Cuadrados Residuales: SCR = i=1 (ŷi − yi )2
SCE SCR
R2 = =1−
SCT SCT
20
R 2 vs R̄ 2
Definimos:
• Al agregar nuevos regresores, la SCR nunca aumenta y en general

disminuye.
• Por lo tanto: podemos siempre mejorar el ajuste del modelo medido
por R 2 agregando más variables.
• Pero al agregar más variables, se pierden grados de libertad:
(n − (k + 1))
• El R 2 ajustado o R̄ 2 hace explı́cito este trade-off penalizando por la

perdida de grados de libertad.
(1 − R 2 ) ∗ (n − 1)
R̄ 2 = 1 −
(n − k − 1)
21
Volviendo a nuestro ejemplo
Cuadro 3: Resultados
Dependent variable:
PorcAg
ELF −19.17
DEM 5.33
Constant 58.96
Observations 30
R2 0.71
Adjusted R2 0.69
22
Propiedades estimadores: Supuestos Gauss-Markov
1. Lineal en los parámetros: yi = β0 + β1 x1i + β2 x2i + ... + βk xki + µi

2. Rango completo:
• Caso bivariado: variabilidad en X
• Caso multivariado: no hay multicolinealidad perfecta entre los
regresores, más observaciones que parámetros a estimar.
3. Media condicional de error es 0:E (µ|X ) = 0
4. Muestra aleatoria en caso de datos observacionales.
5. Homocedasticidad Var (µi | Xi ) = σ 2 , ∀Xi .
Bajo los supuestos 1-4: E (yi | xi ) = β0 + β1 ∗ xi

Agregando supuesto 5: Var (µi | xi ) = σ 2
23
Varianza estimadores
Caso 2 variables explicativas
Supuestos 1 a 5, se estima el modelo poblacional:

yi = β0 + β1 x1i + β2 x2i + µi La varianza del estimador de β2 , que es el
coeficiente de la variable x2 es:
σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )
Donde R22 es el R 2 de la siguiente regresión auxiliar:
x2i = d0 + d1 x1i
24
σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )
Tres componentes:
1. Varianza del error: σ 2

ri2
P
2
Bajo supuestos 1-5: estimador insesgado es: σ̂ =
(n − 2)
(x2i − x̄2 )2
P
2. Variabilidad de x2 :
3. Variabilidad conjunta de las variables explicativas

(multicolinealidad): Rj2
25
Dos variables explicativas
Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .
Fuente: Kennedy 1998

Asume correlación positiva entre X y Z.
26
Supuestos 1 a 5, se estima el modelo poblacional:

yi = β0 + β1 x1i + β2 x2i + β3 x3i + µi
La varianza del estimador de β2 , que es el coeficiente de la variable x2 es:
σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )
Donde R22 es el R 2 de la siguiente regresión auxiliar:
x2i = d0 + d1 x1i + d2 x3i
27
Varianza estimadores: caso general
Se estima el modelo poblacional:

yi = β0 + β1 x1i + β2 x2i + ... + βk xki + µi
Bajo supuestos 1 a 5:
σ2
V (β̂j ) = P
(xji x¯j )2 ∗ (1 − Rj2 )
Donde Rj2 es el R 2 de la regresión auxiliar de xj sobre todas las otras

variables de la regresión.
28
Cuadro 4: Resultados
Dependent variable:
PorcAg
ELF −19.17
(8.54)
DEM 5.33
(0.83)
Constant 58.96
(5.89)
Observations 30
R2 0.71
Adjusted R2 0.69
Residual Std. Error 10.25 (df = 27)
29
Resultado regresión multivariada
ˆ = −19,17, se = 8,54
• βELF
ˆ = 5,33, se = 0,83
• βDEM
• ¿Cómo los interpretamos?
• ¿Dónde entra el ceteris paribus?
• ¿Cómo se calculó el error estándar de los estimadores?
30
Interpretación y ceteris paribus
• β̂ELF = −19,17, se = 8,54

• Cómo cambia el porcentaje de hogares con agua potable si ELF
aumenta 0.24 - una desviación estándar ...
• 4PorcAg = β̂ELF ∗ 4ELF
• 4PorcAg = −19,17 ∗ 0,24 = −4,61
• Es decir, si ELF aumenta 0.24, en promedio el porcentaje de
hogares con agua potable cae 4.61 puntos porcentuales,
manteniendo el nivel de democracia constante.
31
Interpretación y ceteris paribus
ˆ = 5,33, se = 0,83
• βDEM
• Cómo cambia el porcentaje de hogares con agua potable si DEM
aumenta 2.5 - una desviación estándar ...
• 4PorcAg = βDEMˆ ∗ 4DEM
• 4PorcAg = 5,33 ∗ 2,5 = 13,32
• Es decir, subir el nivel de DEM en 2.5, en promedio aumenta el
porcentaje de hogares con agua potable en 13.32, manteniendo el
nivel de ELF constante.
32
Varianza estimadores:V (βˆ1 )
Bajo supuestos del modelo clásico de regresión - Gauss - Markov
σˆ2
V (β̂1 ) = P ¯ )2 ∗ (1 − R 2 )
(ELFi ELF ELF
SCR 2837,422
σˆ2 = = = 105,08
(n − (k + 1)) (30 − 3)
P ¯ )2 = 1,666987
(ELFi − ELF
Se estima: ELFi = d0 + d1 DEMi , el R 2 de esta regresión es: 0,1359,
2
por lo tanto RELF = 0,1359.
105,08
Ası́: V (βˆ1 ) = = 72,94976
1,666987 ∗ (1 − 0,1359)
q
desv (βˆ1 ) = V (βˆ1 ) = 8,54
33
Inferencia: test de un parámetro
Test de significancia estadı́stica
Bajo supuestos del modelo clásico de regresión - Gauss - Markov más

normalidad de los errores:
β̂j ∼ N (βj , Var (β̂j ))
Ası́,
(β̂j − βj )
∼ N (0, 1)
desv (β̂j )
34
Pero, no conocemos la varianza del error, debemos estimarla:
SCR
σˆ2 =
(n − (k + 1))
(β̂j − βj )
∼ t − Student(n−k−1)
se(β̂j )
Nota: n − (k + 1) = n − k − 2
35
• Supuestos
• Modelo poblacional PorcAgi = β0 + β1 ELFi + β2 DEMi + µi
• supuestos Gauss-Markov más normalidad errores
• H0 : βELF = 0
• Ha : βELF 6= 0
(β̂ELF − βELF )
∼ tStudent(30−2−1)
se(β̂ELF )
• Test estadı́stico
(−19,17 − 0)
= −2,2447
8,54
• Valor p: Prob(t > |2,447|)
• t ∼ t − Student(30−3) , por lo que Prob(t > |2,447|) = 0,0332
• Conclusión: Se rechaza H0 .
36
37
Cuadro 5
Dependent variable:
PorcAg
ELF −19.17∗∗
(8.54)
DEM 5.33∗∗∗
(0.83)
Constant 58.96∗∗∗
(5.89)
Observations 30
R2 0.71
Adjusted R2 0.69
Residual Std. Error 10.25 (df = 27)
F Statistic 33.19∗∗∗ (df = 2; 27)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01
38

AD 2018 Clase15

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AD 2018 Clase15

Enviado por

Direitos autorais:

Formatos disponíveis

Regresión lineal múltiple

Análisis de Datos Polı́ticos - ICP 0502

• Buscamos estimar el efecto de x1 extrayendo el efecto de x2 en la

• Es decir, comparar el efecto de un cambio en x1 entre dos

• En situaciones no experimentales, mantener los otros factores

• En situaciones no experimentales, mantener los otros factores

• β1 corresponde el cambio en y al cambiar x1 en una unidad,

• β2 corresponde el cambio en y al cambiar x2 en una unidad,

• Bienes públicos y ELF, controlando por democracia

• Variable explicada: Porcentaje hogares con acceso a agua potable:

• Indice de democracia de Polity IV.

N Media Desv. Est. Min Max

• Experimento conceptual para realizar comparaciones: nos permite

• Por ejemplo, comparar el porcentaje de hogares con agua potable

• Buscamos estimar el efecto de ELF en el porcentaje de hogares con

• Buscamos estimar el efecto de DEM en el porcentaje de hogares con

• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

• MCO utiliza la parte de la variabilidad de ELF que es única a ELF

• MCO utiliza la parte de la variabilidad de DEM que es única a DEM

• La interpretación de los coeficientes MCO es ceteris paribus, es

Diagramas Ballentine Venn: Variabilidad de X e Y

Fuente: Kennedy 1998 11

Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .

Fuente: Kennedy 1998

• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

• MCO utiliza la parte de la variabilidad de ELF que es única a ELF

• MCO utiliza la parte de la variabilidad de DEM que es única a DEM

• La interpretación de los coeficientes MCO es ceteris paribus, es

• Método es el mismo, ahora residuos se construyen con el modelo

• Se minimiza y se obtienen ahora 3 condiciones de primer orden -

Cuadro 2: Coeficientes estimados

• Propiedades algebraicas de la regresión simple se extiendan a

• Recordar que son propiedades que se derivan de la minimización de

ȳ = βˆ0 + βˆ1 x̄1 + βˆ2 x̄2

PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

ȳ = βˆ0 + βˆ1 x¯1 + βˆ2 x¯2 + · · · + βˆk x¯k

• Al agregar nuevos regresores, la SCR nunca aumenta y en general

• El R 2 ajustado o R̄ 2 hace explı́cito este trade-off penalizando por la

1. Lineal en los parámetros: yi = β0 + β1 x1i + β2 x2i + ... + βk xki + µi

Bajo los supuestos 1-4: E (yi | xi ) = β0 + β1 ∗ xi

Supuestos 1 a 5, se estima el modelo poblacional:

Donde R22 es el R 2 de la siguiente regresión auxiliar:

1. Varianza del error: σ 2

3. Variabilidad conjunta de las variables explicativas

Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .

Fuente: Kennedy 1998

Supuestos 1 a 5, se estima el modelo poblacional:

Donde R22 es el R 2 de la siguiente regresión auxiliar:

x2i = d0 + d1 x1i + d2 x3i

Se estima el modelo poblacional:

Donde Rj2 es el R 2 de la regresión auxiliar de xj sobre todas las otras

• β̂ELF = −19,17, se = 8,54

Bajo supuestos del modelo clásico de regresión - Gauss - Markov

Bajo supuestos del modelo clásico de regresión - Gauss - Markov más

β̂j ∼ N (βj , Var (β̂j ))

Pero, no conocemos la varianza del error, debemos estimarla:

Você também pode gostar