Escolar Documentos
Profissional Documentos
Cultura Documentos
COVARIANZA: S XY 1
n (x
i 1
i X )( y i Y ) 1
n x y
i 1
i i X Y.
( X ,Y ) ( X ,Y )
( X ,Y )
+ S XY 0 + S XY 0 + S XY 0
Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.
Tema 14. El modelo de regresión lineal simple 261
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Defectos:
Tiene unidades: La covarianza se mide en unidades uXuY. Sin embargo, el “grado” de asociación
entre dos variables no debería depender de las unidades en que las midamos (cambios de escala
lineales). Los cambios de localización no afectan a la covarianza.
X aX b
S X Y acS XY ( a 0, c 0 )
Y cY d
Sólo indica el sentido de la asociación a través del signo.
Propiedades:
Adimensionalidad: No tiene unidades.
Invariancia frente a cambios de localización y escala (transformaciones lineales):
X aX b, Y cY d rX Y rXY (a 0, c 0)
Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya
que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).
Acotación entre -1 y 1.
rXY 1
Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.
Interpretación:
-La medida del grado de asociación lineal la da el valor absoluto rXY.
- rXY próximo a 1 significa asociación lineal importante.
- rXY próximo a 0 significa asociación lineal débil.
-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la
covarianza.
rXY=1 Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo
si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:
y Y rXY
SY
SX
x X .
(recta que pasa por X , Y con pendiente rXY S ; tiene el mismo signo que rXY y que SXY).
Y S
X
Modelos de regresión
ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una
variable (Y) con otra u otras variables (X1, X2, …, Xk).
Y X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?
Y: Variable Respuesta o variable dependiente.
Es una variable aleatoria. Es la variable de interés en el problema.
X1, X2, …, Xk: Regresores o variables independientes.
Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los
cambia de diferentes maneras para ver el efecto que producen en Y.
7 0,87 87,59
102 8 1,23 91,77
9 1,55 99,42
99 10 1,40 93,65
11 1,19 93,54
96
12 1,15 92,52
93 13 0,98 90,56
14 1,01 89,54
90 15 1,11 89,85
87
16 1,20 90,39
0,87 1,07 1,27 1,47 1,67 17 1,26 93,25
18 1,32 93,41
NIVEL DE HIDROCARBUROS (%) 19 1,43 94,98
20 0,95 87,33
Y
E Y X x 0 1x
0 término independiente
1 pendiente
error aleatorio 0+1x1
HIPÓTESIS:
1. Linealidad: x1 x2
VARIABLE INDEPENDIENTE X
E ( ) 0 E Y X x
0 1 x, x
2. Homogeneidad de la varianza (Homocedasticidad):
Var ( ) 2 Var Y X x
2
, x
3. Normalidad:
N (0, ) Y X x N ( 0 1 x, ), x
4. Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen
memoria al cambiar de unidad experimental.
Tema 14. El modelo de regresión lineal simple 269
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo
yi 0 1 xi i i 1...n
SOLUCIÓN: Matricialmente:
n n S xy
( yi 0 1 xi ) 2 ( yi 0 1 xi ) 0 1
2
0 i 1 i 1
S xx (X t X)β=X t y
S xy β̂=(X t X)-1X t y
n n
1
( yi 0 1 xi ) 2 ( yi 0 1 xi ) xi 0
2
0 y x
i 1 i 1 S xx
n n n
Notación: S xy ( xi x )( yi y ), S xx ( xi x ) , S yy ( yi y ) .
2 2
i 1 i 1 i 1
ESTIMACIÓN DE 2
SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.
n n
SSE
SSE e ( yi yi ) 2 ; 2 MSE
2
.
i 1
i
i 1 n2
Tema 14. El modelo de regresión lineal simple 271
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
2
ˆ
1 N 1 , ˆ1 1
S tn 2 ; su cuadrado F1,n 2
xx
MSE
1 x 2
S xx
ˆ
0 N 0 , 2
(n 2)ˆ 2 SSE
n S xx
ˆ0 0
tn 2 ; idem
2 n22 1 x 2
2
MSE
n S xx
SSE independiente de ˆ0 y ˆ1
Tema 14. El modelo de regresión lineal simple 273
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
1 x2 1 x2
0 t 2 ,n 2 MSE 0 0 t 2 ,n 2 MSE
n S xx n S xx
CONTRASTES DE HIPÓTESIS
H 0 : 1 1* H 0 : 0 0*
H 1 : 1 1* H 1 : 0 0*
ˆ
1 1* ˆ0 0*
C t 2 ,n 2 C t 2 ,n 2
MSE
1 x2
S MSE n S
xx
xx
TABLA DE COEFICIENTES ESTIMADOS
Parámetro Estimador Error Estadístico t p-valor
Estándar
Intercept 0 ( )
Var 0 t 0 0 ( 0 )
Var
Slope 1 ( 1 )
Var t1 1 ( 1 )
Var
H 0 : 1 0
¿La variable X aporta información relevante para explicar la variabilidad de Y?
H1 : 1 0
PARTICIÓN DE LA VARIABILIDAD
Recta estimada de Regresión de Y sobre X:
n
Solución de min ( y i ( 0 1 x i )) 2
0 , 1
i 1
y 0 1 x n n n
S yy ( yi y ) ( y i y ) ( yi y i ) 2
2 2
(xi,yi) i 1 i 1 i 1
yi
y i y i e i ( xi y i )
y i VARIABILIDAD PARTE PARTE
yi y TOTAL EXPLICADA NO EXPLICADA
DE LA = POR LA + POR LA
y
RESPUESTA Y REGRESIÓN REGRESIÓN
y y
Ajuste de la variable Y sin tener en
cuenta la X:
n
xi
El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:
SSE = 0 : Ajuste perfecto.
SSR = 0 : La X no aporta nada en la explicación de la Y.
0 < SSR, SSE < SST : Situaciones habituales.
SSR 2 12 SSR 1 MSR
Si la hipótesis nula se cumple (1=0), entonces 2
F0 F1,n2
SSE n2
2
SSE n 2 MSE
COEFICIENTE DE DETERMINACIÓN: R2
SSR SSE SSR Proporción de la R 2 0 : Ausenciade relacionlineal.
1 , R2 0 R 1 2
2
Standard
102 Parameter Estimate Error Statistic P-Valu
100 ----------------------------------------------------------------
Recta estimada de regresión: Intercept 74,2833 1,59347 46,6172 0,000
98 PUREZA=74.2833+14.9475*HIDROC. Slope 14,9475 1,31676 11,3517 0,000
96 ----------------------------------------------------------------
94
92
TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
90 Analysis of Variance
88 ----------------------------------------------------------------
86 Source Sum of Squares Df Mean Square F-Ratio
----------------------------------------------------------------
0,8 1 1,2 1,4 1,6
Model 152,127 1 152,127 128,86
NIVEL DE HIDROCARBUROS Residual 21,2498 18 1,1805
----------------------------------------------------------------
Total (Corr.) 173,377 19
Estimador: x Y / x0 0 1 0
1 ( x x ) 2
Distribución: Y / x0
N Y / x0 ,
2 0
n S xx
ˆY / x Y / x ˆY / x Y / x
0 0
N (0,1) indep.de SSE ( 2 ) 0 0
tn 2
1 ( x0 x )
2
1 (x x ) 2
2 MSE 0
n S xx n S xx
y0 N ( Y / x0 , )
( x0 x ) 2
21 y0 yˆ 0
ˆy0 N Y / x0 ,
tn 2
n S
1 ( x0 x ) 2
xx
MSE 1
2
y0 e yˆ 0 independientes de MSE n S xx
Y / x 0
x0
Tema 14. El modelo de regresión lineal simple 280
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Y1
7
5 11 8,33 9,26 7,81 8 8,47
6
6 14 9,96 8,1 8,84 8 7,04
5
7 6 7,24 6,13 6,08 8 5,25
8 4 4,26 3,1 5,39 19 12,5 4
9
12 12
8
7
10 10
6
Y3
X3
Y2
8 8
5
4
6 6
3
2 4 4
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20
X1 X1 X2
EJEMPLO
El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan
dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se
contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo
diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más
rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para
estudiar la forma de predecir el número de envíos en función de su peso.
a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número
de envíos aumenta en más de 100 unidades. Dar el p-valor.
b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas
como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del
99% de poder distribuir todos los envíos?
Día Peso Envíos RESIDS VAL. AJUST Día Peso Envíos RESIDS VAL. AJUST
1 20 5400 499.494226 4900.50577 16 26 5400 ‐275.709426 5675.70943
2 15 4200 ‐54.502730 4254.50273 17 21 5000 ‐29.706383 5029.70638
3 23 5800 511.892400 5288.10760 18 24 5400 ‐17.308209 5417.30821
4 17 5000 487.096052 4512.90395 19 16 4300 ‐83.703339 4383.70334
5 12 3500 ‐366.900904 3866.90090 20 34 6700 ‐9.314296 6709.31430
6 35 6400 ‐438.514905 6838.51490 21 28 6100 165.889356 5934.11064
7 29 6000 ‐63.311252 6063.31125 22 15 3600 ‐654.502730 4254.50273
8 21 5200 170.293617 5029.70638 23 11 3200 ‐537.700295 3737.70030
9 10 4000 391.500313 3608.49969 24 18 5300 657.895444 4642.10456
10 13 3800 ‐196.101513 3996.10151 25 27 5800 ‐4.910035 5804.91003
11 25 5700 153.491183 5546.50882 26 30 5900 ‐292.511861 6192.51186
12 14 4000 ‐125.302122 4125.30212 27 22 5500 341.093009 5158.90699
13 18 4800 157.895444 4642.10456 28 20 5200 299.494226 4900.50577
14 30 6200 7.488139 6192.51186 29 24 5000 ‐417.308209 5417.30821
15 33 6600 19.886313 6580.11369 30 13. 3700 ‐296.101513 3996.10151
Tema 14. El modelo de regresión lineal simple 283
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
3200
Analysis of Variance
10 15 20 25 30 35
-------------------------------------------------------------------------------------------- Peso
Source Sum of Squares Df Mean Square F-Ratio Prob. Level
Model 24863365 1 24863365 218.7 .00000 800
Residual 3183634.9 28 113701.2
-------------------------------------------------------------------------------------------- 500
Total (Corr.) 28047000 29
200
Correlation Coef. = 0.9415
R-squared = 88.65 % Resid.
-400
-700
Problemas fundamentales:
1. VIOLACIÓN DE LAS HIPÓTESIS
1.1. NO LINEALIDAD
1.2. HETEROCEDASTICIDAD (Varianza no constante)
1.3. NO NORMALIDAD
1.4. CORRELACIÓN DE LAS PERTURBACIONES
Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del
análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de
confianza y tests, predicción, …
Herramientas fundamentales:
1. ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)
2. DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)
1- Análisis de residuos
Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:
yi 0 1 xi1 i , i 1,..., n.
1. E ( i ) 0 E ( yi ) 0 1 xi1 ( Linealidad )
2. Var ( i ) 2 Var ( yi ) 2 ( Homogeneidad de la var ianza)
3. i N (0, ) yi N ( 0 1 xi1 , ) ( Normalidad )
4. 1 ,..., n independientes y1 , ..., yn independientes
Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes
Las perturbaciones aleatorias no son observables, son desconocidas:
i yi ( 0 1 xi1 ) i 1,..., n.
No podemos usarlas para chequear la validez de las hipótesis.
Residuos
2 4
0 0
-2
-4
-8
-4
-12
-6
-16
-1,6 -1,3 -1 -0,7 -0,4 -0,1 0,2
0 5 10 15 20 25
Predicciones o Variables regresoras Predicciones o Variables regresoras
Tema 14. El modelo de regresión lineal simple 287
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Residuos estudentizados
ei ei
o 0 o 0
ri ri
Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
SOLUCIONES:
Transformaciones de la Y o de la X o de ambas.
Introducción de términos polinómicos de orden superior o de nuevos regresores.
HETEROCEDASTICIDAD
ei ei
o 0 o 0
ri ri
Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
1
SOLUCIONES: Transformaciones en la Y para estabilizar la varianza: y , ln y ,
y
,...
Tema 14. El modelo de regresión lineal simple 289
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
ei
o 0
ri
FALTA DE NORMALIDAD
Se detecta a través del plot de normalidad de residuos ri. También existen test de ajuste específicos.
Se puede corregir con transformaciones en la respuesta.
Suele ir asociada a los otros problemas: no linealidad y heterocedasticidad.
A veces, una transformación resuelve todos los problemas a la vez.
Otras veces, arreglar un problema supone crear otro peor.
ERRORES CORRELACIONADOS
La violación de la hipótesis de independencia de las perturbaciones aparece principalmente en
problemas donde las observaciones están secuenciadas en el tiempo (series temporales).
El plot de residuos frente al tiempo es una herramienta importante.
El reconocimiento de los patrones más importantes de desviaciones respecto del plot nulo es más
complicado que en los otros casos.
La solución pasa por la construcción de otro tipo de modelos que no se estudian en este curso.
Tema 14. El modelo de regresión lineal simple 290
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
400 120
Bacterias supervivientes
80
300
40
residual
200 0
-40
100
-80
0 -120
0 3 6 9 12 15 0 3 6 9 12 15
Periodos de tiempo de 6 min Periodos de tiempo de 6 min
99
Studentized residual
5,7
1 95
percentage
80
4,7 0
50
-1 20
3,7
-2 5
1
2,7 -3 0,1
0 3 6 9 12 15 0 3 6 9 12 15 -2,1 -1,1 -0,1 0,9 1,9 2,9
TIEMPO TIEMPO SRESIDUALS
Tema 14. El modelo de regresión lineal simple 293
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo industrial X Y
294 30
247 32
En un estudio de 27 establecimientos industriales de distintos 267 37
tamaños, se anotaron el número de supervisores (Y) y el número de 358 44
trabajadores supervisados (X) para estudiar la relación entre estas 423 47
variables. 311 49
450 56
El análisis de residuos del modelo de regresión lineal 534 62
438 68
Y=0+1X+ 697 78
tiene problemas con la homogeneidad de la varianza, apareciendo un 688 80
crecimiento de ésta a medida que crece la X. 630 84
709 88
En situaciones en las que aproximadamente ocurre que 627 97
Var Y X x k 2 x 2 ,
615
999
100
109
una forma de eliminar la heterocedasticidad es considerar el modelo 1022 114
Y 0 1 X 1 1015 117
1 0 700 106
X X X X X
850 128
Y 980 130
k 2 x2
X
Var X x 2 k 2 cos tante. 1025 160
x 1021 97
1200 180
1250 112
1500 210
1650 135
Tema 14. El modelo de regresión lineal simple 294
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
240 60
200 40
SUPERVISORES
160 20
120
residual
80 -20
40 -40
-60
300 600 900 1200 1500 1800 300 600 900 1200 1500 1800
SUPERVISADOS SUPERVISADOS
Tema 14. El modelo de regresión lineal simple 295
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
percentage
80
50
-15 20
-30 5
1
-45 .1
1 2 3 4 5 -2.1 -1.1 -.1 .9 1.9
1/SUPERVISADOS (X .001) SRESIDUALS
Outliers
Son casos que parecen no seguir el modelo determinado mayoritariamente por los datos.
CAUSAS:
El modelo es diferente para ese valor de las X’s:
Cambio en la media Eyi 0 1xi1 ... k xik i
Cambio en la varianza: Var ( y i ) 2 i2
Esto ocurre con frecuencia con observaciones hechas en la frontera del rango de valores de las
variables regresoras. En este caso, suelen ser también puntos de influencia(que trataremos después).
Errores de medición
Errores de transcripción, ...
DETECCIÓN:
1. Plot XY
2. Plots de residuos: Residuo grande posible Outlier.
TRATAMIENTO:
Eliminar el caso si condiciona de manera importante el análisis.
Estudiar las causas de la aparición de dicha observación.
En la década de 1840 y 1850, el físico escocés James Forbes midió el punto de ebullición del agua (en
grados Fahrenheit) y la presión barométrica (en pulgadas de mercurio) en varias localidades.
El objetivo era predecir la presión barométrica y, en definitiva, la altitud a partir del punto de
ebullición del agua.
Temperatura Farenheit Presion Hg
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06
Studentized residual
30
3
28
Presión
1
26
-1
24
22 -3
20 -5
190 194 198 202 206 210 214 20 22 24 26 28 30
Ebullición predicted Presión
Studentized residual
145 10
100*LOG10(Presión)
142 5
139 0
136 -5
133 -10
130 -15
190 194 198 202 206 210 214 130 133 136 139 142 145 148
Ebullición predicted 100*LOG10(Presión)
Studentized residual
145
1,5
100*LOG10(Presión)
142
0,5
139
-0,5
136
-1,5
133
130 -2,5
190 194 198 202 206 210 214 130 133 136 139 142 145 148
Ebullición predicted 100*LOG10(Presión)
2- Puntos de influencia
Son observaciones cuya presencia condiciona excesivamente los resultados del análisis de regresión.
Ajuste con un punto muy influyente Ajuste sin el punto muy influyente
240 240
200 200
160 160
120 120
Y
Y
80 80
40 40
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
X X
A: Puntos Normales
C
B: Outlier
C: Punto de influencia bueno
D: Punto de influencia malo
B
TRATAMIENTO:
Eliminar los casos que condicionan
D de manera importante el análisis.
Estudiar las causas de la aparición de
A dichas observaciones.
10 3 La pendiente de la
INDICE PROG. NOTICIAS
0
4 mas.
-1 El plot de reisduos no
2 -2 es nulo; hay una
0 -3 banda con pendiente
2,5 3,5 4,5 5,5 6,5 7,5 3,3 4,3 5,3 6,3 7,3 negativa y 4 puntos en
INDICE DEL PROGRAMA ANTERIOR predicted INDICE PROG. NOTICIAS la diagonal contraria
haciendo contrapeso.
Tema 14. El modelo de regresión lineal simple 305
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
7,5 2,4
INDICE PROG. NOTICIAS
6,5 1,4
residual
5,5 0,4
4,5 -0,6
3,5 -1,6
2,5 3,5 4,5 5,5 6,5 7,5 4,3 4,6 4,9 5,2 5,5 5,8
INDICE DEL PROGRAMA ANTERIOR predicted INDICE PROG. NOTICIAS
Los 4 casos 27 a 30 ejercen una gran influencia en el ajuste, pero se enmascaran unos a otros al
constituir sendos grupos de dos y no aparecen con diagnósticos de influencia demasiado
espectaculares. Si partimos del modelo con 26 las observaciones típicas e incorporásemos uno
cualquiera de estos 4 casos sí que detectaríamos bien su influencia.