Escolar Documentos
Profissional Documentos
Cultura Documentos
Contenido
4. Modelos lineales y Estimación por mínimos cuadrados
4.1. Introducción: Modelos Estadísticos Lineales
4.2. Regresión Lineal Simple
4.3. Estimación y predicción
4.4. Regresión Múltiple
4.5. Estimación y predicción
Objetivo
El objetivo aquí es modelar la relación entre una respuesta
variable, Y, y una variable aleatoria cuantitativa y explicativa, 𝑋1 ,
que puede ser cuantitativo o categórico.
𝑌 = 𝑠𝑒ñ𝑎𝑙 + 𝑟𝑢𝑖𝑑𝑜
Introducción (2)
𝑌𝑖 = β0 + β1 𝑥𝑖 + ε𝑖
Modelo teórico (2)
Realizaremos los siguientes supuestos para ε𝑖 :
𝐻1 : 𝐸 ε𝑖 = 0 , 𝑖 = 1, … , 𝑛
𝐻2 : 𝑉 ε𝑖 = 𝜎 2 , 𝑖 = 1, … , 𝑛 Homocedasticidad
𝐻3 : ε𝑖 ≈ 𝑁𝑜𝑟𝑚𝑎𝑙 (0, 𝜎 2 )
𝐻4 : ε𝑖 𝑦 ε𝑗 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠
𝐻1 : 𝐸 𝑌𝑖 |𝑥𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 , 𝑳𝒊𝒏𝒆𝒂𝒍𝒊𝒅𝒂𝒅
𝐻2 : 𝑉 𝑌𝑖 |𝑥𝑖 = 𝜎 2 , 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕𝒆
𝐻3 : 𝑌𝑖 |𝑥𝑖 ≈ 𝑁𝑜𝑟𝑚𝑎𝑙 0, 𝜎 2 𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑑𝑎𝑑
𝐻4 : 𝑦𝑖 |𝑥𝑖 𝑦 𝑦𝑗 |𝑥𝑗 𝐼𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎
Modelo teórico (4)
Linealidad
Homocedasticidad
Modelo teórico (5)
𝑦𝑖 = β0 + β1 𝑥𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
Donde:
- 𝑏0 y 𝑏1 son valores conocidos, pero dependen de
la muestra que tomemos
- 𝑦𝑖 es el valor que predice a 𝑦𝑖
𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊 = 𝒆𝒊 Error/Residuo
Modelo calculado (2)
Modelo calculado (3)
𝑦𝑖 = β0 + β1 𝑥𝑖
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖
Estimación de los parámetros
Método: Mínimos Cuadrados Ordinarios (MCO)
𝑛
Minimizar: |𝜀𝑖 |
𝑖=1
𝑛 𝑛
𝑛
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑆𝑥𝑦 𝑆𝑥𝑦 𝑆𝑥𝑥
𝑏1 = = = 2 𝑟𝑥𝑦 = 𝑏1
𝑛
(𝑥𝑖 − 𝑥)2 𝑆𝑥𝑥 𝑆𝑥 𝑆𝑦𝑦
𝑖=1
𝑏0 = 𝑦 − 𝑏1 𝑥 = 0
Estimación de los parámetros (4)
Método: Mínimos Cuadrados Ordinarios (MCO)
Al redefinir los estimadores se tiene:
𝑛 𝑛
𝑏𝑜 = 𝑑𝑖 𝑦𝑖 𝑏1 = 𝑤𝑖 𝑦𝑖
donde: donde:
𝑖=1 1 𝑖=1 𝑥𝑖 − 𝑥
𝑑𝑖 = − 𝑤𝑖 𝑥 𝑤𝑖 =
𝑛 𝑆𝑥𝑥
La propiedad de insesgadez se cumple en ambos casos:
𝑛 𝑛
𝑛 𝑛
𝑏𝑜 = 𝑑𝑖 𝑦𝑖 𝑏1 = 𝑤𝑖 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛
𝑛 𝑛 2
𝜎 2 𝑛 2 𝜎
𝑖=1 𝑥𝑖 𝑉𝑎𝑟(𝑏1 ) = 𝑉𝑎𝑟 𝑤𝑖 𝑦𝑖 = 𝑤12 𝑉𝑎𝑟(𝑦𝑖 ) =
𝑉𝑎𝑟(𝑏𝑜 ) = 𝑉𝑎𝑟 𝑑𝑖 𝑦𝑖 = 𝑑𝑖 𝑉𝑎𝑟(𝑦𝑖 ) = 𝑆𝑥𝑥
𝑛𝑆𝑥𝑥 𝑖=1 𝑖=1
𝑖=1 𝑖=1
Estimación de los parámetros (6)
Método: Mínimos Cuadrados Ordinarios (MCO)
Otro estimador relevante es 𝜎 2 , dado que indica la varianza del error y también la
de 𝑌𝑖 …
𝑛 𝑛
2
𝑛 2
𝑛 𝜎𝑀𝐶𝑂 = 𝑀𝐶𝐸 = 𝜎𝑀𝑉
2
𝑒𝑖2 𝑛−2
𝜎𝑀𝑉 =
𝑛
𝑖=1
Ejemplo
Método: Mínimos Cuadrados Ordinarios (MCO)
Calificaciones a un servicio bancario
𝒙𝒊 Antigüedad en años 1 2 3 4 5 6
𝒚𝒊 Calificación 4,8 7,3 8,4 11,0 13,1 15,2
6 6
6
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 36
𝑦𝑖 = 𝑛𝑏0 + 𝑏1 𝑥𝑖 𝑏1 = = = 𝟐, 𝟎𝟓𝟕
6 2 17,5
𝑖=1 𝑖=1
(𝑥
𝑖=1 𝑖 − 𝑥)
6 6 6
Altura (cm)
Partición de las Sumas Cuadráticas (2)
Ejemplo: Altura (𝑥𝑖 ) vs Peso (𝑦𝑖 )
Altura (cm)
Partición de las Sumas Cuadráticas (3)
Ejemplo: Altura (𝑥𝑖 ) vs Peso (𝑦𝑖 )
𝑛 𝑛 𝑛
2 𝑛−𝑝 2
Coeficiente de Determinación Ajustado 𝑅𝐴𝑑𝑗 = 𝑅
𝑛−1
Partición de las Sumas Cuadráticas (6)
Coeficiente de Correlación
Se puede probar que en Regresión Lineal Simple, la relación entre el
Coeficiente de Correlación de X con Y y el Coeficiente de Determinación
en este modelo, viene dada por:
𝒓𝒙𝒚 = ± 𝑹𝟐
1 2 3 4 5 6 7 8 9 10
Presión (x) 1,02 2,08 2,89 4,01 5,32 5,83 7,26 7,96 9,11 9,99
Flujo (y) 1,15 0,85 1,56 1,72 4,32 5,07 5,00 5,31 6,17 7,04
Obtener la ecuación de regresión, así como los residuos y la tabla ANOVA. Además
responder:
a) ¿Cuál es la correlación empírica estimada entre la presión y el flujo?
Ejemplo…
1 2 3 4 5 6 7 8 9 10
Presión (x) 1,02 2,08 2,89 4,01 5,32 5,83 7,26 7,96 9,11 9,99
Flujo (y) 1,15 0,85 1,56 1,72 4,32 5,07 5,00 5,31 6,17 7,04
10
𝑖=1 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 60,1531
𝑏1 = 10 2
= = 𝟎, 𝟕𝟐𝟐𝟓
(𝑥
𝑖=1 𝑖 − 𝑥) 83,26
𝑦𝑖 = −𝟎, 𝟏𝟖𝟖𝟔 + 𝟎, 𝟕𝟐𝟐𝟓𝑥𝑖
𝑏0 = 𝑦 − 𝑏1 𝑥 = 3,819 − 0,7225 5,547 = −𝟎, 𝟏𝟖𝟖𝟔
Ejemplo…
Estimamos los residuos del modelo…
𝑋𝑖 𝑌𝑖 𝑦𝑖 𝑒𝑖 = 𝑌𝑖 − 𝑦𝑖 10
1.02 1.15 0.55 0.60 𝑆𝐶𝐸 = (𝑌𝑖 − 𝑦𝑖 )2 = (0,60)2 +(−0,46)2 + ⋯ + 0,01 2 = 3,32
2.08 0.85 1.31 -0.46 𝑖=1
𝑆𝐶𝑅 43,46
𝑅2 = = = 0,9290 𝑟𝑥𝑦 = ± 𝑅2 = 0,9290 = 0,964
𝑆𝐶𝑇 46,78
El flujo se incrementa conforme incrementa la
presión
Ejemplo – Output de R
𝑯𝟎 : 𝒃𝒊 = 𝟎
𝑯𝟏 : 𝒃𝒊 ≠ 𝟎
Para n > 20
Si |t| > 2 y el modelo es correcto, se Rechaza Ho y
no podemos remover 𝒃𝒊 del modelo
Si |t| < 2 y el modelo es correcto, NO se Rechaza Ho
𝑴𝑪𝑬 y podemos remover 𝒃 del modelo
𝒊
Ejemplo
1,6794
= 16,6
0,1011
Intervalos de confianza para 𝑏𝑜 y 𝑏1
A partir de las distribuciones de 𝑏𝑜 y 𝑏1 se puede construir intervalos de
confianza para los parámetros del modelo, donde el estimador de 𝜎 2 (Varianza
del error) será la Media cuadrática del error (MCE)
𝑛
Donde: 𝑆𝑥𝑥 = 𝑖=1(𝑥𝑖 − 𝑥)2
Intervalos de confianza para 𝑏𝑜 y 𝑏1
… Continuando con el ejemplo de Caída de presión de la membrana
b) Construya un intervalo de confianza al 90% para la pendiente
0,7225 − 1,860 0,0706 < 𝛽1 < 0,7225 + 1,860(0,0706) Valor t teórico: 𝑡8,0.05 = 1,860
[0,5912 ; 0,8538]
Intervalos de confianza para 𝑏𝑜 y 𝑏1
… Continuando con el ejemplo de Caída de presión de la membrana
c) ¿Qué tan grande es la variabilidad del flujo que no es explicada por la diferencia de
las presiones?
𝑏0 − 0 −0,1886 − 0
𝑡= = = −0,43 Dado que 𝑏0 no es relevante para el modelo, NO
𝑆𝑏0 0,442
podemos rechazar la Ho de que la recta pase por (0,0)
Predicción
En un modelo de regresión hay dos objetivos fundamentales:
1 𝑋0 −𝑋 2 1 𝑋0 −𝑋 2
𝑏0 + 𝑏1 𝑋0 − 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2 ; 𝑏0 + 𝑏1 𝑋0 + 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 −𝑋 𝑛 𝑖=1 𝑋𝑖 −𝑋
Predicción
Predicción de una nueva observación…
1 𝑋0 −𝑋 2 1 𝑋0 −𝑋 2
𝑏0 + 𝑏1 𝑋0 − 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2 ; 𝑏0 + 𝑏1 𝑋0 + 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 −𝑋 𝑛 𝑖=1 𝑋𝑖 −𝑋
Predicción
… Continuando con el ejemplo de Caída de presión de la membrana
e) A partir del modelo 𝑦𝑖 = −𝟎, 𝟏𝟖𝟖𝟔 + 𝟎, 𝟕𝟐𝟐𝟓𝑥𝑖 , determinar un intervalo de confianza
para el “valor esperado del flujo” y la “ predicción del flujo” dado que la “presión” es 6 (α
= 0,05).
1 𝑋0 − 𝑋 2 1 𝑋0 − 𝑋 2
𝑏0 + 𝑏1 𝑋0 ± 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 + 𝑛 2 𝑏0 + 𝑏1 𝑋0 ± 𝑡α/2, 𝑛−2 𝑀𝐶𝐸 1 + + 𝑛 2
𝑛 𝑖=1 𝑋𝑖 − 𝑋 𝑛 𝑖=1 𝑋𝑖 − 𝑋
1 6 − 5,547 2 2
1 6 − 5,547
−0,1886 + 0,7225(6) ± 2,306 0,415 + −0,1886 + 0,7225(6) ± 2,306 0,415 1 + +
10 83,25 10 83,25
IC valor esperado del flujo de 4,14: [3,67 ; 4,62] IC predicción del flujo de 4,14: [2,58 ; 5,71 ]
Predicción
Script en R
Ejercicio Caída de presión de la membrana
D <- data.frame(
pressure=c(1.02,2.08,2.89,4.01,5.32,5.83,7.26,7.96,9.11,9.99),
flux=c(1.15,0.85,1.56,1.72,4.32,5.07,5.00,5.31,6.17,7.04)
)
fit <- lm(flux ~ pressure, data=D)
summary(fit)
## Tabla ANOVA
aov(fit)
summary(aov(fit))
library("ggplot2")
p <- ggplot(mydata, aes(pressure, flux)) +
geom_point() +
stat_smooth(method = lm)
# Añadiendo los intervalos
p + geom_line(aes(y = lwr ), color = "red", linetype = "dashed")+
geom_line(aes(y = upr), color = "red", linetype = "dashed")
Control de Lectura (Martes 7 de Agosto/2018)