Você está na página 1de 41

Regresión lineal múltiple

Miércoles 10 de octubre

Carmen Le Foulon

Análisis de Datos Polı́ticos - ICP 0502


Regresión lineal múltiple
Regresión lineal múltiple

• Modelo poblacional: y = β0 + β1 x1 + β2 x2 + µ

• Buscamos estimar el efecto de x1 extrayendo el efecto de x2 en la


variable dependiente, y .

• Es decir, comparar el efecto de un cambio en x1 entre dos


observaciones que poseen el mismo nivel de x2 – aunque la muestra
no contenga dos observaciones de ese tipo.

• En situaciones no experimentales, mantener los otros factores


constantes.

1
Regresión lineal múltiple

• Modelo poblacional: y = β0 + β1 x1 + β2 x2 + µ

• En situaciones no experimentales, mantener los otros factores


constantes.

• β1 corresponde el cambio en y al cambiar x1 en una unidad,


manteniendo los x2 constante.

• β2 corresponde el cambio en y al cambiar x2 en una unidad,


manteniendo los x1 constante.

2
Ejemplo regresión lineal múltiple

• Bienes públicos y ELF, controlando por democracia


• Suponemos entonces que el modelo poblacional es:
PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

• Variable explicada: Porcentaje hogares con acceso a agua potable:


PorcAgi
• Variable explicativa:
• Índice de fraccionalización etnolinguı́stica:
E
X
ELF = 1 − prope2
e=1

• Indice de democracia de Polity IV.

3
Cuadro 1: Estadı́sticas descriptivas datos

N Media Desv. Est. Min Max


PorcAg 30 54.4 18.4 21 89
ELF 30 0.60 0.24 0.12 0.98
DEM 30 1.3 2.5 −5 6

4
Porcentaje hogares con agua potable y ELF

5
Porcentaje hogares con agua potable y DEM

6
DEM y ELF

7
Controlando por

• Experimento conceptual para realizar comparaciones: nos permite


comparar el efecto de un cambio en ELF entre dos observaciones
que poseen el mismo nivel de DEM – aunque la muestra no
contenga dos observaciones de ese tipo.

• Por ejemplo, comparar el porcentaje de hogares con agua potable


con ELF = 0,25 vs ELF = 0,35 donde ambos paı́ses tienen
DEM = 4.
• Buscamos estimar el efecto de ELF en el porcentaje de hogares con
agua potable extrayendo el efecto de DEM.

8
Controlando por

• Buscamos estimar el efecto de ELF en el porcentaje de hogares con


agua potable extrayendo el efecto de DEM.
• β1 corresponde el cambio en PorcAg al cambiar ELF en una unidad,
manteniendo DEM constante o ceteris paribus.

• Buscamos estimar el efecto de DEM en el porcentaje de hogares con


agua potable extrayendo el efecto de ELF .
• β2 corresponde el cambio en PorcAg al cambiar DEM en una
unidad, manteniendo ELF constante o ceteris paribus.

9
Regresión lineal múltiple

• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

• MCO utiliza la parte de la variabilidad de ELF que es única a ELF


para estimar β1 .

• MCO utiliza la parte de la variabilidad de DEM que es única a DEM


para estimar β2 .

• La interpretación de los coeficientes MCO es ceteris paribus, es


decir, ”todo lo demás constante”.

10
Una variable explicativa

Diagramas Ballentine Venn: Variabilidad de X e Y

Fuente: Kennedy 1998 11


Dos variables explicativas

Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .

Fuente: Kennedy 1998


Asume correlación positiva entre X y Z.
12
Regresión lineal múltiple

• Modelo poblacional: PorcAgi = β0 + β1 ELFi + β2 DEMi + µi

• MCO utiliza la parte de la variabilidad de ELF que es única a ELF


para estimar β1 .

• MCO utiliza la parte de la variabilidad de DEM que es única a DEM


para estimar β2 .

• La interpretación de los coeficientes MCO es ceteris paribus, es


decir, ”todo lo demás constante”.

13
Estimación MCO

• Método es el mismo, ahora residuos se construyen con el modelo


completo con dos (o más variables):
n
X n
X
SRC = (yi − ŷi )2 = (yi − (β̂0 + β̂1 x1i + β̂2 x2i ))2
i=1 i=1

• Se minimiza y se obtienen ahora 3 condiciones de primer orden -


porque son tres parámetros: β0 , β1 y β2

14
Estimación por MCO

Cuadro 2: Coeficientes estimados

Dependent variable:
PorcAg
ELF −19.17

DEM 5.33

Constant 58.96

Observations 30

15
Propiedades algebraicas

• Propiedades algebraicas de la regresión simple se extiendan a


regresión múltiple.

• Recordar que son propiedades que se derivan de la minimización de


la suma de los residuos al cuadrado (i.e. del método de mı́nimos
cuadrados ordinarios).

16
Propiedades algebraicas: Caso dos variables explicativas

ȳ = βˆ0 + βˆ1 x̄1 + βˆ2 x̄2


Pn
i=1 ri =0
Pn
i=1 x1i ∗ ri = 0 y
Pn
i=1 x2i ∗ ri = 0

17
Propiedades algebraicas: ejemplo

PorcAgi = β0 + β1 ELFi + β2 DEMi + µi


¯
PorcAg = βˆ0 + βˆ1 ELF
¯ + βˆ2 DEM
¯
54,4 = 58,96 − 19,17 ∗ 0,6 + 5,33 ∗ 1,3
Pn
i=1 ri =0
Pn
i=1 ELFi ∗ ri = 0 y
Pn
i=1 DEMi ∗ ri = 0

18
Propiedades algebraicas caso general

ȳ = βˆ0 + βˆ1 x¯1 + βˆ2 x¯2 + · · · + βˆk x¯k


Pn
i=1 ri = 0
Pn
i=1 x1i ∗ ri = 0
Pn
i=1 x2i ∗ ri = 0
···
Pn
i=1 xki ∗ ri = 0

19
Bondad de ajuste: R 2

Definimos:
Pn
Suma Cuadrados Totales: SCT = i=1 (yi − ȳ )2
Pn
Suma Cuadrados Explicados: SCE = i=1 (ŷi − ȳ )2
Pn
Suma Cuadrados Residuales: SCR = i=1 (ŷi − yi )2

SCE SCR
R2 = =1−
SCT SCT

20
R 2 vs R̄ 2

Definimos:

• Al agregar nuevos regresores, la SCR nunca aumenta y en general


disminuye.
• Por lo tanto: podemos siempre mejorar el ajuste del modelo medido
por R 2 agregando más variables.
• Pero al agregar más variables, se pierden grados de libertad:
(n − (k + 1))

• El R 2 ajustado o R̄ 2 hace explı́cito este trade-off penalizando por la


perdida de grados de libertad.

(1 − R 2 ) ∗ (n − 1)
R̄ 2 = 1 −
(n − k − 1)

21
Volviendo a nuestro ejemplo

Cuadro 3: Resultados

Dependent variable:
PorcAg
ELF −19.17

DEM 5.33

Constant 58.96

Observations 30
R2 0.71
Adjusted R2 0.69

22
Propiedades estimadores: Supuestos Gauss-Markov

1. Lineal en los parámetros: yi = β0 + β1 x1i + β2 x2i + ... + βk xki + µi


2. Rango completo:
• Caso bivariado: variabilidad en X
• Caso multivariado: no hay multicolinealidad perfecta entre los
regresores, más observaciones que parámetros a estimar.
3. Media condicional de error es 0:E (µ|X ) = 0
4. Muestra aleatoria en caso de datos observacionales.
5. Homocedasticidad Var (µi | Xi ) = σ 2 , ∀Xi .

Bajo los supuestos 1-4: E (yi | xi ) = β0 + β1 ∗ xi


Agregando supuesto 5: Var (µi | xi ) = σ 2

23
Varianza estimadores
Caso 2 variables explicativas

Supuestos 1 a 5, se estima el modelo poblacional:


yi = β0 + β1 x1i + β2 x2i + µi La varianza del estimador de β2 , que es el
coeficiente de la variable x2 es:

σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )

Donde R22 es el R 2 de la siguiente regresión auxiliar:

x2i = d0 + d1 x1i

24
Varianza estimadores
Caso 2 variables explicativas

σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )
Tres componentes:

1. Varianza del error: σ 2


ri2
P
2
Bajo supuestos 1-5: estimador insesgado es: σ̂ =
(n − 2)

(x2i − x̄2 )2
P
2. Variabilidad de x2 :

3. Variabilidad conjunta de las variables explicativas


(multicolinealidad): Rj2

25
Dos variables explicativas

Diagramas Ballentine Venn: Variabilidad de de X , Z e Y .

Fuente: Kennedy 1998


Asume correlación positiva entre X y Z.
26
Varianza estimadores
Caso 3 variables explicativas

Supuestos 1 a 5, se estima el modelo poblacional:


yi = β0 + β1 x1i + β2 x2i + β3 x3i + µi
La varianza del estimador de β2 , que es el coeficiente de la variable x2 es:

σ2
V (βˆ2 ) = P
(x2i − x̄2 )2 ∗ (1 − R22 )

Donde R22 es el R 2 de la siguiente regresión auxiliar:

x2i = d0 + d1 x1i + d2 x3i

27
Varianza estimadores: caso general

Se estima el modelo poblacional:


yi = β0 + β1 x1i + β2 x2i + ... + βk xki + µi
Bajo supuestos 1 a 5:

σ2
V (β̂j ) = P
(xji x¯j )2 ∗ (1 − Rj2 )

Donde Rj2 es el R 2 de la regresión auxiliar de xj sobre todas las otras


variables de la regresión.

28
Volviendo a nuestro ejemplo

Cuadro 4: Resultados

Dependent variable:
PorcAg
ELF −19.17
(8.54)

DEM 5.33
(0.83)

Constant 58.96
(5.89)

Observations 30
R2 0.71
Adjusted R2 0.69
Residual Std. Error 10.25 (df = 27)

29
Resultado regresión multivariada

ˆ = −19,17, se = 8,54
• βELF
ˆ = 5,33, se = 0,83
• βDEM
• ¿Cómo los interpretamos?
• ¿Dónde entra el ceteris paribus?
• ¿Cómo se calculó el error estándar de los estimadores?

30
Interpretación y ceteris paribus

• β̂ELF = −19,17, se = 8,54


• Cómo cambia el porcentaje de hogares con agua potable si ELF
aumenta 0.24 - una desviación estándar ...
• 4PorcAg = β̂ELF ∗ 4ELF
• 4PorcAg = −19,17 ∗ 0,24 = −4,61
• Es decir, si ELF aumenta 0.24, en promedio el porcentaje de
hogares con agua potable cae 4.61 puntos porcentuales,
manteniendo el nivel de democracia constante.

31
Interpretación y ceteris paribus

ˆ = 5,33, se = 0,83
• βDEM
• Cómo cambia el porcentaje de hogares con agua potable si DEM
aumenta 2.5 - una desviación estándar ...
• 4PorcAg = βDEMˆ ∗ 4DEM
• 4PorcAg = 5,33 ∗ 2,5 = 13,32
• Es decir, subir el nivel de DEM en 2.5, en promedio aumenta el
porcentaje de hogares con agua potable en 13.32, manteniendo el
nivel de ELF constante.

32
Varianza estimadores:V (βˆ1 )

Bajo supuestos del modelo clásico de regresión - Gauss - Markov

σˆ2
V (β̂1 ) = P ¯ )2 ∗ (1 − R 2 )
(ELFi ELF ELF

SCR 2837,422
σˆ2 = = = 105,08
(n − (k + 1)) (30 − 3)
P ¯ )2 = 1,666987
(ELFi − ELF
Se estima: ELFi = d0 + d1 DEMi , el R 2 de esta regresión es: 0,1359,
2
por lo tanto RELF = 0,1359.
105,08
Ası́: V (βˆ1 ) = = 72,94976
1,666987 ∗ (1 − 0,1359)
q
desv (βˆ1 ) = V (βˆ1 ) = 8,54

33
Inferencia: test de un parámetro
Test de significancia estadı́stica

Bajo supuestos del modelo clásico de regresión - Gauss - Markov más


normalidad de los errores:

β̂j ∼ N (βj , Var (β̂j ))

Ası́,

(β̂j − βj )
∼ N (0, 1)
desv (β̂j )

34
Test de significancia estadı́stica

Pero, no conocemos la varianza del error, debemos estimarla:

SCR
σˆ2 =
(n − (k + 1))

(β̂j − βj )
∼ t − Student(n−k−1)
se(β̂j )
Nota: n − (k + 1) = n − k − 2

35
Test de significancia estadı́stica

• Supuestos
• Modelo poblacional PorcAgi = β0 + β1 ELFi + β2 DEMi + µi
• supuestos Gauss-Markov más normalidad errores
• H0 : βELF = 0
• Ha : βELF 6= 0

(β̂ELF − βELF )
∼ tStudent(30−2−1)
se(β̂ELF )
• Test estadı́stico
(−19,17 − 0)
= −2,2447
8,54
• Valor p: Prob(t > |2,447|)
• t ∼ t − Student(30−3) , por lo que Prob(t > |2,447|) = 0,0332
• Conclusión: Se rechaza H0 .

36
Test de significancia estadı́stica

37
Volviendo a nuestro ejemplo

Cuadro 5

Dependent variable:
PorcAg
ELF −19.17∗∗
(8.54)

DEM 5.33∗∗∗
(0.83)

Constant 58.96∗∗∗
(5.89)

Observations 30
R2 0.71
Adjusted R2 0.69
Residual Std. Error 10.25 (df = 27)
F Statistic 33.19∗∗∗ (df = 2; 27)
∗ ∗∗ ∗∗∗
Note: p<0.1; p<0.05; p<0.01
38

Você também pode gostar