Você está na página 1de 48

ESTADÍSTICA

GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E


INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

TEMA 14.- EL MODELO DE REGRESIÓN


LINEAL SIMPLE
- Asociación entre variables numéricas.
Covarianza y correlación.
- Modelos de regresión.
- Regresión simple
- Estimación de los parámetros del modelo.
- Significación del modelo. Tabla ANOVA.
- Adecuación del modelo.

Tema 14. El modelo de regresión lineal simple 260


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Asociación entre variables numéricas


 En la mayoría de los problemas de interés interviene más de una variable.
 Los estudios univariantes para cada variable son insuficientes.
 El interés principal es el estudio de las relaciones entre las variables presentes en el problema.
Suelen buscarse relaciones lineales entre las variables:
 Es el tipo de relación más simple.
 Muchas relaciones no lineales pueden linealizarse a través de transformaciones.
n n

COVARIANZA: S XY  1
n  (x
i 1
i  X )( y i  Y )  1
n x y
i 1
i i  X Y.

Justificación como medida de asociación:


El producto ( xi  X )( yi  Y ) es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio
de estos productos. Su signo indica la dirección que prevalece.
 +  +  +

( X ,Y ) ( X ,Y )
( X ,Y )

+ S XY  0  + S XY  0  + S XY  0 
Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.
Tema 14. El modelo de regresión lineal simple 261
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Defectos:
 Tiene unidades: La covarianza se mide en unidades uXuY. Sin embargo, el “grado” de asociación
entre dos variables no debería depender de las unidades en que las midamos (cambios de escala
lineales). Los cambios de localización no afectan a la covarianza.
X   aX  b
 S X Y   acS XY ( a  0, c  0 )
Y   cY  d
 Sólo indica el sentido de la asociación a través del signo.

COEFICIENTE DE CORRELACIÓN MUESTRAL:


 x  
n
 X yi  Y
S i
1 n  xi  X  y i  Y 
rXY  r  X , Y   XY  i 1
  
n i 1  S X  S 
 x    y 
S X SY n
2
n
2  Y 
i X i Y
i 1 i 1

es decir, la covarianza entre las variables tipificadas.

Propiedades:
 Adimensionalidad: No tiene unidades.
 Invariancia frente a cambios de localización y escala (transformaciones lineales):
X   aX  b, Y   cY  d  rX Y   rXY (a  0, c  0)
Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya
que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).

Tema 14. El modelo de regresión lineal simple 262


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

 Acotación entre -1 y 1.
rXY  1
Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.

Interpretación:
-La medida del grado de asociación lineal la da el valor absoluto rXY.
- rXY próximo a 1 significa asociación lineal importante.
- rXY próximo a 0 significa asociación lineal débil.
-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la
covarianza.

 rXY=0  Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de


relación entre las variables, que puede ser diferente a la lineal.

 rXY=1  Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo
si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:
y  Y  rXY
SY
SX
x  X  .

(recta que pasa por  X , Y  con pendiente rXY S ; tiene el mismo signo que rXY y que SXY).
Y S
X

Tema 14. El modelo de regresión lineal simple 263


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

 El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos)


para su correcta interpretación.
- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal
- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la
tendencia.

Para todos estos conjuntos de datos el coeficiente de correlación es rXY=0.7.


Tema 14. El modelo de regresión lineal simple 264
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Modelos de regresión
ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una
variable (Y) con otra u otras variables (X1, X2, …, Xk).
Y  X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?
 Y: Variable Respuesta o variable dependiente.
Es una variable aleatoria. Es la variable de interés en el problema.
 X1, X2, …, Xk: Regresores o variables independientes.
Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los
cambia de diferentes maneras para ver el efecto que producen en Y.

INTERÉS DEL ANÁLISIS DE REGRESIÓN:


1. Conocimiento del modelo.
Averiguar el tipo de relación (lineal, polinómica, …). Medir la fuerza de la relación.
Comprender el papel y la importancia de cada variable explicativa.
2. Predicción de observaciones futuras.
Pronosticar, con unos márgenes de confianza, el valor que se obtendrá para Y con ciertos valores
de las X’s.
3. Optimización.
Averiguar los valores de las X’s que proporcionan el “mejor valor” para la Y.

Tema 14. El modelo de regresión lineal simple 265


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Ejemplos de problemas de regresión

EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO


Y: Rendimiento del proceso
X’s: Temperatura, Presión, Humedad relativa, Tiempo de operación, Operario que controla el
proceso, …

EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE


UNA EMPRESA
Y: Retribuciones
X’s: Edad, Titulación, Experiencia, Puesto, Grado de responsabilidad, Jornada laboral, …

EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN


UNA CIUDAD.
Y: Precio de alquiler
X’s: Características físicas (Superficie, Altura, Número de habitaciones, Orientación, … ),
Antigüedad del edificio, Situación geográfica, …

EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS


ESTUDIANTES.
Y: Nota media del expediente académico
X’s: Estudios que realiza, Nota de selectividad, Indice de asistencia a clase, Tiempo medio diario
dedicado al estudio, …
Tema 14. El modelo de regresión lineal simple 266
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Naturaleza de los modelos de regresión


La variabilidad de la variable respuesta Y depende de muchas causas o factores (quizás infinitas):
X1, X2, …, Xk, Xk+1, Xk+2, …
Pocas causas importantes Muchas causas no observables,
observables y controlables desconocidas o incontrolables

Y = f(X1, X2, …, Xk) + g(Xk+1, Xk+2, … )

Y = f(X1, X2, …, Xk) +  perturbación aleatoria


MODELOS DE REGRESIÓN LINEAL:
La relación entre la respuesta y los regresores es lineal.
 Regresión lineal simple: Y = 0+1X + 
 Regresión lineal múltiple: Y = 0+1 X1+ 2X2+ … + kXk + 

PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.


JUSTIFICACIÓN DE LOS MODELOS LINEALES:
 Simplicidad y facilidad de manejo.
 Modelos linealizables mediante transformaciones.
 Cualquier función “regular” se puede aproximar localmente por funciones lineales.

Tema 14. El modelo de regresión lineal simple 267


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

EJEMPLO: Proceso químico de destilación.


Nivel de Pureza de
Se quiere estudiar la relación entre la PUREZA DEL OXIGENO (Y) Caso Hidrocarburos Oxígeno
producido en un proceso químico de destilación y el NIVEL DE X (%) Y (%)
HIDROCARBUROS (X) presentes en el condensador principal de la 1 0,99 90,01
unidad de destilación. 2 1,02 89,05
Se realizan n=20 observaciones y se anotan los valores de las 3 1,15 91,43
variables (X,Y)=(xi,yi), i=1, ..., 20. 4 1,29 93,74
5 1,46 96,73
6 1,36 94,45
PUREZA DEL OXIGENO (%)

7 0,87 87,59
102 8 1,23 91,77
9 1,55 99,42
99 10 1,40 93,65
11 1,19 93,54
96
12 1,15 92,52
93 13 0,98 90,56
14 1,01 89,54
90 15 1,11 89,85
87
16 1,20 90,39
0,87 1,07 1,27 1,47 1,67 17 1,26 93,25
18 1,32 93,41
NIVEL DE HIDROCARBUROS (%) 19 1,43 94,98
20 0,95 87,33

Tema 14. El modelo de regresión lineal simple 268


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

El modelo de regresión lineal simple RESPUESTA Recta verdadera de Regresión

Y  
E Y X  x  0  1x

Y = 0+1X +  0+1x2


0 término independiente
1 pendiente
 error aleatorio 0+1x1

HIPÓTESIS:

1. Linealidad: x1 x2
VARIABLE INDEPENDIENTE X

E ( )  0  E Y  X x
  0  1 x, x
2. Homogeneidad de la varianza (Homocedasticidad):
Var ( )   2  Var Y  X x
  2
, x
3. Normalidad:
  N (0,  )  Y X  x  N (  0  1 x,  ), x
4. Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen
memoria al cambiar de unidad experimental.
Tema 14. El modelo de regresión lineal simple 269
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo
yi   0  1 xi   i i  1...n

Reunimos las n ecuaciones en forma de vectores y matrices:


 y1   1 x1   1 
     0   

           
 y  1 x   1    
 n  n  n
y = X β + ε
y vector de observaciones observables
contiene las n observaciones de la variable dependiente
X matriz de diseño controlables por experimentador
contiene los valores del regresor en cada una de los experimentos
 vector de parámetros desconocido a estimar
contiene las constantes desconocidas (a estimar) que determinan la relación entre X e Y.
 vector de perturbaciones no observables  a estimar
contiene las perturbaciones correspondientes a las n situaciones experimentales
sus componentes son independientes (0,2) (y normales si el modelo es normal)

Tema 14. El modelo de regresión lineal simple 270


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Estimación del modelo. Método de mínimos cuadrados


Buscamos la recta que minimice globalmente los errores cuadráticos de predicción.
n n
min    min  ( yi  (  0  1 xi ))2  min y-Xβ
2 2
i
 0 , 1 0 , 1 β
i 1 i 1

SOLUCIÓN: Matricialmente:
  n n S xy
   ( yi  0  1 xi )  2 ( yi  0  1 xi )  0 1 
2

 0 i 1 i 1
S xx (X t X)β=X t y

  S xy β̂=(X t X)-1X t y
n n

 1 
( yi  0  1 xi )  2 ( yi  0  1 xi ) xi  0
2 
0  y  x
i 1 i 1 S xx
n n n

Notación: S xy   ( xi  x )( yi  y ), S xx   ( xi  x ) , S yy   ( yi  y ) .
2 2

i 1 i 1 i 1

PRODUCTOS DEL AJUSTE:


1. Modelo estimado : yˆ  ˆ0  ˆ1 x
2. Valores ajustados : yˆ  ˆ  ˆ x , i  1,..., n
i 0 1 i

3. Re siduos : ei  yi  yˆ i  yi  ( ˆ0  ˆ1 xi ), i  1,..., n

ESTIMACIÓN DE 2
SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.
n n
SSE
SSE   e   ( yi  yi ) 2 ;  2  MSE 
2
.
i 1
i
i 1 n2
Tema 14. El modelo de regresión lineal simple 271
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Productos del ajuste

1. Modelo estimado : yˆ  ˆ0  ˆ1 x


ˆ0 : Estimación del termino independiente (intercept) Recta estimada de Regresión a
partir de las observaciones

ˆ : Estimación de la pendiente (slope) y  0  1 x


1

2. Valores ajustados : yˆi  ˆ0  ˆ1 xi , i  1,..., n


yˆi : Predicción de la respuesta a traves
yi ( xi yi ) valor ajustado
del modelo estimado. Se usa el valor medio ei ei residuo
estimado bajo la condición experimental x i yi
(xi,yi)
observación
3. Residuos : ei  yi  yˆi  yi  ( ˆ0  ˆ1 xi ), i  1,..., n
ei : Estimación de la perturbación aleatoria ocurrida xi
en el caso i.

4. Estimación de la varianza del modelo : ˆ 2  MSE  SSE / n  2


MSE : Promedio corregido de los errores cuadráticos cometidos.

Tema 14. El modelo de regresión lineal simple 272


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Propiedades de los estimadores


1. ESTIMADORES INSESGADOS
(No se necesita la hipótesis de normalidad)
 
E ˆ1  1 , E ˆ0   0 , E ˆ 2    2  
2. VARIANZAS DE LOS ESTIMADORES
ˆ
Var 1 
2 ˆ  
2 1
, Var  0    
x2 
 
, Cov ˆ0 , ˆ1   2
x
 
S xx n S xx  S xx

3. DISTRIBUCIONES DE LOS ESTIMADORES


(Bajo hipótesis de normalidad para los errores)

 2 
ˆ
1  N  1 ,  ˆ1  1
 S   tn  2 ; su cuadrado F1,n  2
 xx 
MSE
  1 x 2
 S xx
ˆ 
0  N 0 ,   2



(n  2)ˆ 2 SSE
 n S xx  
 ˆ0   0
 tn  2 ; idem
 2   n22 1 x  2

2
 MSE   
 n S xx 
SSE independiente de ˆ0 y ˆ1
Tema 14. El modelo de regresión lineal simple 273
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Inferencias sobre los parámetros


INTERVALOS DE CONFIANZA
MSE MSE
1  t  2 ,n  2
 1  1  t  2 ,n  2
S xx S xx

  1 x2    1 x2 
0  t  2 ,n  2 MSE     0  0  t  2 ,n  2 MSE   
 n S xx   n S xx 
CONTRASTES DE HIPÓTESIS
 H 0 : 1  1*  H 0 :  0   0*
 
 H 1 : 1  1*  H 1 :  0   0*
   
 ˆ   
 1  1*  ˆ0   0* 
C  t  2 ,n  2  C  t 2 ,n 2 
 MSE 
    1 x2  
 S   MSE  n  S  
xx
  xx  
TABLA DE COEFICIENTES ESTIMADOS
Parámetro Estimador Error Estadístico t p-valor
Estándar
Intercept 0  ( )
Var 0 t 0  0  ( 0 )
Var
Slope 1  ( 1 )
Var t1  1  ( 1 )
Var

Tema 14. El modelo de regresión lineal simple 274


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Prueba de significación de la regresión

 H 0 : 1  0
 ¿La variable X aporta información relevante para explicar la variabilidad de Y?
 H1 : 1  0

PARTICIÓN DE LA VARIABILIDAD
Recta estimada de Regresión de Y sobre X:
n

Solución de min  ( y i  ( 0  1 x i )) 2
0 , 1
i 1

y  0  1 x n n n
S yy   ( yi  y )   ( y i  y )   ( yi  y i ) 2
2 2

(xi,yi) i 1 i 1 i 1
yi
y i  y i  e i ( xi y i )
y i VARIABILIDAD PARTE PARTE
yi  y TOTAL EXPLICADA NO EXPLICADA
DE LA = POR LA + POR LA
y
RESPUESTA Y REGRESIÓN REGRESIÓN
y  y
Ajuste de la variable Y sin tener en
cuenta la X:
n

Solución de min  ( yi  0 ) 2 SST = SSR + SSE


0 i 1

xi

Tema 14. El modelo de regresión lineal simple 275


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:
 SSE = 0 : Ajuste perfecto.
 SSR = 0 : La X no aporta nada en la explicación de la Y.
 0 < SSR, SSE < SST : Situaciones habituales.
SSR  2  12  SSR 1 MSR
Si la hipótesis nula se cumple (1=0), entonces 2 
 F0    F1,n2
SSE    n2 
2
SSE n  2 MSE

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)


Fuente de Variación Suma de cuadrados Grados de libertad Cuadrados Medios F0 p-valor
(Source) (Sum of Squares) (Df) (Mean Square)
Regresión SSR 1 MSR MSR
MSE
Residual SSE n-2 MSE
Total SST n-1

COEFICIENTE DE DETERMINACIÓN: R2
SSR SSE SSR Proporción de la R 2  0 : Ausenciade relacionlineal.
1  , R2   0  R 1  2
2

SST SST SST variabilidad explicada R  1 : Ajuste exacto.


sobre el total

Tema 14. El modelo de regresión lineal simple 276


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

EJEMPLO: Proceso químico de destilación


TABLA DE COEFICIENTES ESTIMADOS
Regression Analysis - Linear model: Y = a + b*X
----------------------------------------------------------------
Dependent variable: PUREZA DEL OXIGENO
Independent variable: NIVEL DE HIDROCARB
----------------------------------------------------------------
PUREZA DEL OXIGENO

Standard
102 Parameter Estimate Error Statistic P-Valu
100 ----------------------------------------------------------------
Recta estimada de regresión: Intercept 74,2833 1,59347 46,6172 0,000
98 PUREZA=74.2833+14.9475*HIDROC. Slope 14,9475 1,31676 11,3517 0,000
96 ----------------------------------------------------------------
94
92
TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
90 Analysis of Variance
88 ----------------------------------------------------------------
86 Source Sum of Squares Df Mean Square F-Ratio
----------------------------------------------------------------
0,8 1 1,2 1,4 1,6
Model 152,127 1 152,127 128,86
NIVEL DE HIDROCARBUROS Residual 21,2498 18 1,1805
----------------------------------------------------------------
Total (Corr.) 173,377 19

Correlation Coefficient = 0,936715


R-squared = 87,7436 percent
Standard Error of Est. = 1,08653

Tema 14. El modelo de regresión lineal simple 277


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Intervalo de confianza para la respuesta media de Y para un valor determinado de X


  E  Y      x
Parámetro: Y / x  X  x0  0 1 0
0

Estimador:      x Y / x0 0 1 0

  1 ( x  x ) 2 

Distribución: Y / x0
  N  Y / x0 ,   
2 0

 n S xx  
ˆY / x  Y / x ˆY / x  Y / x
0 0
 N (0,1) indep.de SSE (  2 )  0 0
 tn  2
1 ( x0  x ) 
2
 1 (x  x )  2
2   MSE   0 
n S xx  n S xx 

 1 (x0  x)2   1 (x0  x)2 


Y/ x  t ,n2 MSE    Y/ x0  Y/ x0  t ,n2 MSE  
n Sxx  n Sxx 
0
2 2

Representando gráficamente el Intervalo de Confianza en función de x0 se forma una banda en torno a


la recta de regresión estimada.
Anchura mínima en x 0  x .
La anchura crece desde la media hasta los extremos del rango de valores de X.

Tema 14. El modelo de regresión lineal simple 278


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Predicción de nuevas observaciones


y0 : Nueva observación a realizar en X=x0.
y 0  0  1 x0 : Predicción con el modelo estimado.
y0 independiente de y1, ..., yn utilizadas para el ajuste.

y0  N ( Y / x0 ,  ) 

 ( x0  x ) 2   
21 y0  yˆ 0
ˆy0  N  Y / x0 ,    
   tn  2
  n S 
   1 ( x0  x )  2
 xx
MSE 1  
2 

y0 e yˆ 0 independientes de MSE    n S xx 

 1 (x0  x)2   1 (x0  x)2 


y0  t  ,n2 MSE1     y0  y0  t  ,n2 MSE1   
2
 n Sxx  2
 n Sxx 

Representando gráficamente el Intervalo de Predicción en función de x0 se forma una banda en torno


a la recta de regresión estimada.
La banda de predicción contiene a la banda de confianza para la respuesta media.
Anchura mínima en x 0  x .
La anchura crece desde la media hasta los extremos del rango de valores de X: La predicción fuera
del rango de valores usados en el ajuste es poco fiable, pues no sabemos cómo se comporta y fuera del
rango x observado.
Tema 14. El modelo de regresión lineal simple 279
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Intervalos de confianza para la respuesta media e intervalos de predicción para


nuevas observaciones

Límites inferior y superior


del intervalo de confianza
para la respuesta media
en X=x0.

Y / x 0

Límites inferior y superior


del intervalo de predicción
para una nueva observación
y0 en X=x0.

x0
Tema 14. El modelo de regresión lineal simple 280
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

EJEMPLO: Proceso químico de destilación

Nivel de Pureza de Valores


Caso Hidrocarburos Oxígeno ajustados Residuos
X(%) Y(%)
1 0,99 90,01 89,0813 0,928681
102

PUREZA DEL OXIGENO


2 1,02 89,05 89,5297 -0,479744 Límites de confianza y de
3 1,15 91,43 91,4729 -0,042916 100 predicción al 95%
4 1,29 93,74 93,5656 0,174437
5 1,46 96,73 96,1066 0,623365 98
6 1,36 94,45 94,6119 -0,161887 96
7 0,87 87,59 87,2876 0,302378
8 1,23 91,77 92,6687 -0,898714 94
9 1,55 99,42 97,4519 1,968090 92
10 1,40 93,65 95,2098 -1,559790
11 1,19 93,54 92,0708 1,469180 90
12 1,15 92,52 91,4729 1,047080
13 0,98 90,56 88,9318 1,628160
88
14 1,01 89,54 89,3803 0,159731 86
15 1,11 89,85 90,875 -1,025020 0,8 1 1,2 1,4 1,6 1,8
16 1,20 90,39 92,2203 -1,830290
17 1,26 93,25 93,1171 0,132861 NIVEL DE HIDROCARBURO
18 1,32 93,41 94,014 -0,603987
19 1,43 94,98 95,6582 -0,678210
20 0,95 87,33 88,4834 -1,153420

Tema 14. El modelo de regresión lineal simple 281


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Necesidad de chequear la validez de las hipótesis


Ejemplo: Datos simulados de Anscombe
y=3.00+0.5*x+eps
12
X1 Y1 Y2 Y3 X2 X3
11
1 10 8,04 9,14 7,46 8 6,58
10
2 8 6,95 8,14 6,77 8 5,76
9
3 13 7,58 8,74 12,74 8 7,71
8
4 9 8,81 8,77 7,11 8 8,84

Y1
7
5 11 8,33 9,26 7,81 8 8,47
6
6 14 9,96 8,1 8,84 8 7,04
5
7 6 7,24 6,13 6,08 8 5,25
8 4 4,26 3,1 5,39 19 12,5 4

9 12 10,84 9,13 8,15 8 5,56 3


2 4 6 8 10 12 14 16

10 7 4,82 7,26 6,42 8 7,91 X1

y=3.00+0.5*x+eps y=3.00+0.5*x+eps y=3.00+0.5*x+eps


10 14 14

9
12 12
8

7
10 10

6
Y3

X3
Y2

8 8
5

4
6 6
3

2 4 4
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20

X1 X1 X2

Los 4 conjuntos de arrojan resultados idénticos:   30


. ,   05 . , R2  0667
. , MSE  1375 .
0 1
Tema 14. El modelo de regresión lineal simple 282
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

EJEMPLO
El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan
dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se
contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo
diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más
rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para
estudiar la forma de predecir el número de envíos en función de su peso.
a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número
de envíos aumenta en más de 100 unidades. Dar el p-valor.
b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas
como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del
99% de poder distribuir todos los envíos?
Día Peso  Envíos        RESIDS         VAL. AJUST Día Peso  Envíos        RESIDS           VAL. AJUST
1   20     5400   499.494226      4900.50577    16  26       5400  ‐275.709426      5675.70943  
2   15     4200    ‐54.502730      4254.50273    17  21       5000    ‐29.706383      5029.70638  
3   23     5800   511.892400      5288.10760    18  24       5400    ‐17.308209      5417.30821                      
4   17     5000   487.096052      4512.90395    19  16       4300    ‐83.703339      4383.70334                      
5   12     3500  ‐366.900904      3866.90090    20  34       6700      ‐9.314296      6709.31430  
6   35     6400  ‐438.514905      6838.51490    21  28       6100   165.889356      5934.11064  
7   29     6000    ‐63.311252      6063.31125    22   15      3600  ‐654.502730      4254.50273  
8   21     5200   170.293617      5029.70638    23   11      3200  ‐537.700295      3737.70030  
9   10     4000   391.500313      3608.49969    24   18      5300   657.895444      4642.10456  
10   13     3800  ‐196.101513      3996.10151    25   27      5800      ‐4.910035      5804.91003  
11   25     5700   153.491183      5546.50882    26   30      5900  ‐292.511861      6192.51186  
12   14     4000  ‐125.302122      4125.30212    27   22      5500   341.093009      5158.90699  
13   18     4800   157.895444      4642.10456    28   20      5200   299.494226      4900.50577  
14   30     6200        7.488139      6192.51186    29   24      5000   ‐417.308209     5417.30821  
                15   33     6600     19.886313      6580.11369   30  13.      3700   ‐296.101513     3996.10151
Tema 14. El modelo de regresión lineal simple 283
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

AJUSTE DEL MODELO: ENVIOS = 0 1* PESO + 


7200

Dependent variable: ENVIOS Independent variable: PESO


-------------------------------------------------------------------------------- 6200
Parameter Estimate Stnd.Error t -value Prob. level E n v ío s
--------------------------------------------------------------------------------
5200
Intercept 2316.49 197.402 11.7349 .00000
Slope 129.201 8.7371 14.7876 .00000
4200

3200
Analysis of Variance
10 15 20 25 30 35
-------------------------------------------------------------------------------------------- Peso
Source Sum of Squares Df Mean Square F-Ratio Prob. Level
Model 24863365 1 24863365 218.7 .00000 800
Residual 3183634.9 28 113701.2
-------------------------------------------------------------------------------------------- 500
Total (Corr.) 28047000 29
200
Correlation Coef. = 0.9415
R-squared = 88.65 % Resid.

Stnd. Error of Est. = 337.196 -100

-400

-700

3600 4600 5600 6600 7600


Predicted

Tema 14. El modelo de regresión lineal simple 284


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Estudio de la adecuación del modelo

Problemas fundamentales:
1. VIOLACIÓN DE LAS HIPÓTESIS
1.1. NO LINEALIDAD
1.2. HETEROCEDASTICIDAD (Varianza no constante)
1.3. NO NORMALIDAD
1.4. CORRELACIÓN DE LAS PERTURBACIONES

2. OUTLIERS Y PUNTOS DE INFLUENCIA


2.1. OUTLIERS: Puntos que se desvían de la tendencia mayoritaria.
2.2. PUNTOS DE INFLUENCIA: Puntos que afectan excesivamente a los resultados de la
regresión.

Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del
análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de
confianza y tests, predicción, …

Herramientas fundamentales:
1. ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)
2. DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)

Tema 14. El modelo de regresión lineal simple 285


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

1- Análisis de residuos
Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:
yi   0  1 xi1   i , i  1,..., n.
1. E ( i )  0  E ( yi )   0  1 xi1 ( Linealidad )
2. Var ( i )   2  Var ( yi )   2 ( Homogeneidad de la var ianza)
3.  i  N (0,  )  yi  N (  0  1 xi1 ,  ) ( Normalidad )
4. 1 ,...,  n independientes  y1 , ..., yn independientes

Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes
Las perturbaciones aleatorias no son observables, son desconocidas:
 i  yi  (  0  1 xi1 ) i  1,..., n.
No podemos usarlas para chequear la validez de las hipótesis.

Los residuos e1, …, en sí son observables:


ei  yi  yˆ i  yi  ( ˆ0  ˆ1 xi1 ) i  1,..., n.
Los residuos estiman las perturbaciones.
Su estudio informa sobre el comportamiento de las perturbaciones y, por tanto, sobre el cumplimiento
de las hipótesis.
Los estudios serán básicamente gráficos y descriptivos y con un alto grado de interpretación personal.

Tema 14. El modelo de regresión lineal simple 286


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Propiedades de los residuos


Propiedades distribucionales:
residuos: ei , i  1,..., n errores aleat .: i , i  1,..., n
E (ei )  0 (centrados) E (i )  0 (centrados)
Var ( ei )   2 (1  hii ) (Var . dist .) Var (i )   2 (Var . iguales)
Cov (ei , e j )   2 hij (depend .) Cov (i ,  j )  0 (independ .)
ei  N (0,  1  hii ) (normales) i  N (0, ) ( normales)
H  hij i , j 1,... n  X ( X X )  1 X . Si el número de datos n es grande y no hay puntos que estén
ejerciendo gran influencia se puede probar que los elementos hij son todos muy pequeños. En este
caso, las dependencias entre los residuos y las diferencias en las varianzas son de poca importancia.
Propiedades geométricas:
Los residuos contienen todo lo que haya de no lineal en el modelo. Si el modelo lineal es correcto no
debería observarse nada significativo en los residuos y aparece lo que se conoce como PLOT NULO.
ERROR DE CÁLCULO
PLOT DE RESIDUOS NULO 16
6
12
4 8
residuos ei

Residuos
2 4
0 0
-2
-4
-8
-4
-12
-6
-16
-1,6 -1,3 -1 -0,7 -0,4 -0,1 0,2
0 5 10 15 20 25
Predicciones o Variables regresoras Predicciones o Variables regresoras
Tema 14. El modelo de regresión lineal simple 287
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Residuos estudentizados

Estandarización de los residuos:


ei  E ( ei ) ei  0 ei
  , i  1,..., n
Var ( ei )  2 (1  hii )  2 (1  hii )
Estudentización de los residuos (estimación de 2 desconocida):
ei
ri  , i  1,..., n
MSE (1  hii )
PROPIEDADES:
1. Conservan la propiedad de estar centrados (media 0)
2. Las varianzas son todas iguales a 1.
3. No son normales, pero son algo parecido a una t, que se parece a la normal cuando los g. l. son
elevados.
4. Siguen siendo ligeramente dependientes.
UTILIDAD:
1. Plots nulos frente a predicciones y variables regresoras (igual que los residuos ordinarios). Las
tendencias indicarán violaciones de alguna hipótesis.
2. En la banda (-2,+2) habrá aproximadamente el 95% de los residuos. En la banda (-3,+3) más del
99%. Los puntos que se salgan pueden ser outliers.
3. Plot de normalidad.


Tema 14. El modelo de regresión lineal simple 288
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Violaciones de las hipótesis del modelo


NO LINEALIDAD

ei ei
o 0 o 0
ri ri

Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
SOLUCIONES:
 Transformaciones de la Y o de la X o de ambas.
 Introducción de términos polinómicos de orden superior o de nuevos regresores.

HETEROCEDASTICIDAD

ei ei
o 0 o 0
ri ri

Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
1
SOLUCIONES: Transformaciones en la Y para estabilizar la varianza: y , ln y ,
y
,...
Tema 14. El modelo de regresión lineal simple 289
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

A veces aparecen los dos problemas simultáneamente:

ei
o 0
ri

Predicciones yi , X’s, tiempo, caso.

FALTA DE NORMALIDAD
Se detecta a través del plot de normalidad de residuos ri. También existen test de ajuste específicos.
Se puede corregir con transformaciones en la respuesta.
Suele ir asociada a los otros problemas: no linealidad y heterocedasticidad.
A veces, una transformación resuelve todos los problemas a la vez.
Otras veces, arreglar un problema supone crear otro peor.

ERRORES CORRELACIONADOS
La violación de la hipótesis de independencia de las perturbaciones aparece principalmente en
problemas donde las observaciones están secuenciadas en el tiempo (series temporales).
El plot de residuos frente al tiempo es una herramienta importante.
El reconocimiento de los patrones más importantes de desviaciones respecto del plot nulo es más
complicado que en los otros casos.
La solución pasa por la construcción de otro tipo de modelos que no se estudian en este curso.

Tema 14. El modelo de regresión lineal simple 290
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Ejemplo: Bacterias expuestas a rayos x

En la tabla se muestra el número de bacterias supervivientes N. BAC. TIEMPO


(N.BAC.) en unidades de 100 después de su exposición a 200 kV. 355 1
de radiación constante de rayos X durante periodos de tiempo de 1 a 211 2
15 intervalos de 6 minutos. 197 3
166 4
Se trata de probar una teoría según la cual 142 5
106 6
N.BAC.=N0*e*TIEMPO
104 7
60 8
Los parámetros admiten una interpretación física clara:
56 9
N0= Número inicial de bacterias
38 10
= Tasa de destrucción
36 11
32 12
Tomando logaritmos en la ecuación el modelo es lineal:
21 13
ln(N.BAC.)= lnN0+*TIEMPO+ 19 14
15 15

Tema 14. El modelo de regresión lineal simple 291


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: N.BACTERIAS = 0 + 1*TIEMPO + 


------------------------------------------------------------------------
Dependent variable: N.BACTERIAS. Independent variable: TIEMPO
------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
------------------------------------------------------------------------
Intercept 259,581 22,73 11,4202 0,0000
Slope -19,4643 2,49997 -7,78582 0,0000
------------------------------------------------------------------------
Analysis of Variance
------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
------------------------------------------------------------------------
Model 106080,0 1 106080,0 60,62 0,0000
Residual 22749,4 13 1749,95
------------------------------------------------------------------------
Total (Corr.) 128830,0 14
Correlation Coefficient = -0,907422 R-squared = 82,3415 percent

400 120
Bacterias supervivientes

80
300
40
residual
200 0
-40
100
-80
0 -120
0 3 6 9 12 15 0 3 6 9 12 15
Periodos de tiempo de 6 min Periodos de tiempo de 6 min

Tema 14. El modelo de regresión lineal simple 292


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: Ln (N.BACTERIAS) = 0 + 1*TIEMPO + 


------------------------------------------------------------------------
 Dependent variable: Ln N.BACTERIAS Independent variable: TIEMPO
------------------------------------------------------------------------
 Standard T
 Parameter Estimate Error Statistic P-Value
 ------------------------------------------------------------------------
Intercept 5,97316 0,0597781 99,9222 0,0000
Slope -0,218425 0,00657471 -33,222 0,0000
------------------------------------------------------------------------
Analysis of Variance
------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
------------------------------------------------------------------------
Model 13,3587 1 13,3587 1103,70 0,0000
Residual 0,157346 13 0,0121035
------------------------------------------------------------------------
Total (Corr.) 13,516 14

Correlation Coefficient = -0,994162 R-squared = 98,8359 percent


6,7 3 Normal Probability Plot for SRESIDUAL
99,9
2
Ln N.BACTERIAS

99
Studentized residual

5,7
1 95

percentage
80
4,7 0
50
-1 20
3,7
-2 5
1
2,7 -3 0,1
0 3 6 9 12 15 0 3 6 9 12 15 -2,1 -1,1 -0,1 0,9 1,9 2,9
TIEMPO TIEMPO SRESIDUALS
Tema 14. El modelo de regresión lineal simple 293
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Ejemplo industrial X Y
294 30
247 32
En un estudio de 27 establecimientos industriales de distintos 267 37
tamaños, se anotaron el número de supervisores (Y) y el número de 358 44
trabajadores supervisados (X) para estudiar la relación entre estas 423 47
variables. 311 49
450 56
El análisis de residuos del modelo de regresión lineal 534 62
438 68
Y=0+1X+ 697 78
tiene problemas con la homogeneidad de la varianza, apareciendo un 688 80
crecimiento de ésta a medida que crece la X. 630 84
709 88
En situaciones en las que aproximadamente ocurre que 627 97
 
Var Y X  x  k 2 x 2 ,
615
999
100
109
una forma de eliminar la heterocedasticidad es considerar el modelo 1022 114
Y 0 1 X  1 1015 117
    1  0   700 106
X X X X X
850 128
Y  980 130
  k 2 x2
X
Var  X  x  2  k 2 cos tante. 1025 160
  x 1021 97
 
1200 180
1250 112
1500 210
1650 135
Tema 14. El modelo de regresión lineal simple 294
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: SUPERVISORES =0 + 1*SUPERVISADOS + 


----------------------------------------------------------------------
Standard T
Paramete Estimate Error Statistic P-Value
----------------------------------------------------------------------
Intercept 14.4481 9.56201 1.51099 .1433
Slope .105361 .0113256 9.30288 .0000
---------------------------------------------------------------------
Analysis of Variance
---------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
---------------------------------------------------------------------
Model 40862.6 1 40862.6 86.54 .0000
Residual 11804.1 25 472.163
----------------------------------------------------------------------
Total (Corr.) 52666.7 26

Correlation Coefficient = .880836 R-squared = 77.5872 percent


Standard Error of Est. = 21.7293

240 60

200 40
SUPERVISORES

160 20

120
residual

80 -20

40 -40
-60
300 600 900 1200 1500 1800 300 600 900 1200 1500 1800
SUPERVISADOS SUPERVISADOS
Tema 14. El modelo de regresión lineal simple 295
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: Y/X = 0 (1/X) + 1 + ’


----------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
----------------------------------------------------------------------
Intercept .12099 .00899864 13.4454 .0000
Slope 3.8033 4.56975 .832277 .4131
------------------------------------------------------------------
En este modelo interesa el test sobre el término independiente 1, pendiente del modelo original.
El ajuste obtenido es: Y/X = 3.8033*(1/X) + 0.12099
y deshaciendo la transformación: Y = 3.8033 + 0.12099*X
Calculando los residuos respecto a este último modelo obtenemos:
Coeficiente de determinación: R2=75.87% Error típico estimado: S=22.577
Estos resultados son algo peores que antes, pero hemos resuelto el problema de heterocedasticidad.
45 Normal Probability Plot for SRESIDUALS
99.9
(X .001) 30
99
15 95
residual

percentage
80
50
-15 20
-30 5
1
-45 .1
1 2 3 4 5 -2.1 -1.1 -.1 .9 1.9
1/SUPERVISADOS (X .001) SRESIDUALS

Tema 14. El modelo de regresión lineal simple 296


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Outliers

Son casos que parecen no seguir el modelo determinado mayoritariamente por los datos.

CAUSAS:
 El modelo es diferente para ese valor de las X’s:
 Cambio en la media Eyi  0  1xi1 ... k xik   i
 Cambio en la varianza: Var ( y i )   2   i2
Esto ocurre con frecuencia con observaciones hechas en la frontera del rango de valores de las
variables regresoras. En este caso, suelen ser también puntos de influencia(que trataremos después).
 Errores de medición
 Errores de transcripción, ...

DETECCIÓN:
1. Plot XY
2. Plots de residuos: Residuo grande  posible Outlier.

TRATAMIENTO:
Eliminar el caso si condiciona de manera importante el análisis.
Estudiar las causas de la aparición de dicha observación.

Tema 14. El modelo de regresión lineal simple 297


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Ejemplo: Forbes data

En la década de 1840 y 1850, el físico escocés James Forbes midió el punto de ebullición del agua (en
grados Fahrenheit) y la presión barométrica (en pulgadas de mercurio) en varias localidades.
El objetivo era predecir la presión barométrica y, en definitiva, la altitud a partir del punto de
ebullición del agua.
Temperatura Farenheit  Presion Hg
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06

Tema 14. El modelo de regresión lineal simple 298


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: PRESIÓN =0 + 1*EBULLICIÓN + 


Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -81,0637 2,05182 -39,5082 0,0000
Slope 0,522892 0,010106 51,7408 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 145,125 1 145,125 2677,11 0,0000
Residual 0,813143 15 0,0542095
Total (Corr.) 145,938 16
Correlation Coefficient = 0,99721 R-squared = 99,4428% Standard Error of Est. = 0,232829
32 5

Studentized residual
30
3
28
Presión

1
26
-1
24

22 -3

20 -5
190 194 198 202 206 210 214 20 22 24 26 28 30
Ebullición predicted Presión

Tema 14. El modelo de regresión lineal simple 299


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN + 


Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -42,1642 3,34136 -12,6189 0,0000
Slope 0,895618 0,0164575 54,4201 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 425,757 1 425,757 2961,55 0,0000
Residual 2,15643 15 0,143762
Total (Corr.) 427,914 16
Correlation Coefficient = 0,997477 R-squared = 99,4961% Standard Error of Est. = .379159
148 15
r = 12,4
t=12,4

Studentized residual
145 10
100*LOG10(Presión)

142 5

139 0

136 -5

133 -10

130 -15
190 194 198 202 206 210 214 130 133 136 139 142 145 148
Ebullición predicted 100*LOG10(Presión)

Tema 14. El modelo de regresión lineal simple 300


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN +  (SIN OUTLIER)


Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -41,3347 1,00331 -41,1982 0,0000
Slope 0,89111 0,0049441 180,237 0,0000
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 419,193 1 419,193 32485,39 0,0000
Residual 0,180657 14 0,012904
Total (Corr.) 419,373 15
Correlation Coefficient = 0,999785 R-squared = 99,9569% Standard Error of Est. = .113596
148 2,5

Studentized residual
145
1,5
100*LOG10(Presión)

142
0,5
139
-0,5
136

-1,5
133

130 -2,5
190 194 198 202 206 210 214 130 133 136 139 142 145 148
Ebullición predicted 100*LOG10(Presión)

Tema 14. El modelo de regresión lineal simple 301


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

2- Puntos de influencia
Son observaciones cuya presencia condiciona excesivamente los resultados del análisis de regresión.
Ajuste con un punto muy influyente Ajuste sin el punto muy influyente
240 240
200 200
160 160
120 120

Y
Y

80 80
40 40
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
X X

Causas y diagnósticos de influencia potencial


1. Outliers en la Y.
Un punto que se aleja de la tendencia por “errores” en la Y puede ejercer influencia importante.
DIAGNÓSTICO. Residuos estudentizados (p.288): ri. REGLA: ri  2  Peligro
2. Outliers en la X.
Una observación realizada en un punto alejado en la X es potencialmente influyente: Valga lo que
valga la respuesta, el punto va a atraer hacia si la recta de regresión para tener un residuo pequeño:
Var (ei )   2 (1  hii ) CASO LIMITE: hii  1  Var (ei )  0  ei  E (ei )  0.
1 ( xi  x ) 2 2 ( k  1)
DIAGNÓSTICO. Leverages: ii n h   REGLA: ii h   Peligro
S xx n
siendo k el número de regresores en el modelo. Estos diagnósticos no nos dicen la influencia
efectiva del punto ni qué estadísticos han sido afectados.
Tema 14. El modelo de regresión lineal simple 302
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Diagnóstico de influencia efectiva


Influencia en los valores ajustados: (DFFITS)i
Medida estandarizada del cambio que sufre y i si quitamos el caso i.
yˆ i  yˆ i ,  i
( DFFITS ) i 
MSE i  hii
Y
X PUNTO INTEGRADO EN LA Y OUTLIER EN LA Y
PUNTO PUNTOS “NORMALES” OUTLIER
INTEGRADO NO PROBLEMA A PROBLEMA LEVE B
EN LAS X’s ri pequeño, hii pequeño ri grande, hii pequeño
OUTLIER PUNTO DE INFLUENCIA BUENO PUNTO DE INFLUENCIA MALO
EN LAS X’s NO PROBLEMA PROBLEMA GRAVE
hii grande, DFFITi pequeño C hii grande, DFFITi grande D

A: Puntos Normales
C
B: Outlier
C: Punto de influencia bueno
D: Punto de influencia malo
B
TRATAMIENTO:
Eliminar los casos que condicionan
D de manera importante el análisis.
Estudiar las causas de la aparición de
A dichas observaciones.

Tema 14. El modelo de regresión lineal simple 303


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

Ejemplo: Índices de audiencia en TV


Caso X Y PRED ei ri hii DFFITS
1 2,5 3,8 3,370 0,430 0,325 0,110 0,112
Se está estudiando la dependencia del índice 2
3
2,7
2,9
4,1
5,8
3,503
3,636
0,597
2,164
0,448
1,616
0,098
0,087
0,146
0,514
de audiencia de cierto programa de noticias 4 3,1 4,8 3,769 1,031 0,766 0,078 0,221
5 3,3 5,7 3,902 1,798 1,329 0,069 0,367
(Y) del índice de audiencia del programa 6 3,5 4,4 4,035 0,365 0,269 0,061 0,067
precedente (X). La tabla muestra 30 7 3,7 4,8 4,168 0,632 0,464 0,054 0,109
8 3,9 3,6 4,301 -0,701 -0,513 0,048 -0,114
observaciones realizadas. 9 4,1 5,5 4,435 1,065 0,777 0,043 0,163
10 4,3 4,15 4,568 -0,418 -0,304 0,039 -0,060
Los resultados del análisis de regresión 11 4,5 5,8 4,701 1,099 0,798 0,036 0,153
lineal simple muestran que la regresión es 12
13
4,7
4,9
3,8
4,75
4,834
4,967
-1,034
-0,217
-0,750
-0,157
0,034
0,033
-0,140
-0,029
significativa con casi un 40% de la 14 5,1 3,9 5,100 -1,200 -0,870 0,033 -0,160
variabilidad de la respuesta explicada por la 15
16
5,3
5,5
6,2
4,35
5,233
5,366
0,967
-1,016
0,702
-0,738
0,034
0,036
0,131
-0,141
X. 17 5,7 4,15 5,499 -1,349 -0,982 0,039 -0,198
18 5,9 4,85 5,632 -0,782 -0,570 0,043 -0,119
El análisis de los residuos muestra que los 19 6,1 6,2 5,765 0,435 0,318 0,048 0,070
20 6,3 3,8 5,898 -2,098 -1,539 0,054 -0,377
resultados están fuertemente determinados 21 6,5 7 6,031 0,969 0,713 0,061 0,180
por cuatro observaciones situadas en los 22 6,7 5,4 6,164 -0,764 -0,565 0,069 -0,152
23 6,9 6,1 6,298 -0,198 -0,147 0,078 -0,042
extremos del rango de valores de X 24 7,1 6,5 6,431 0,069 0,052 0,087 0,016
(programas precedentes con mucha o con 25 7,3 6,1 6,564 -0,464 -0,349 0,098 -0,113
26 7,5 4,75 6,697 -1,947 -1,472 0,110 -0,529
poca audiencia). 27 2,5 1 3,370 -2,370 -1,792 0,110 -0,657
Prescindiendo de estos casos, la regresión 28
29
2,7
7,3
1,2
9,5
3,503
6,564
-2,303
2,936
-1,730
2,205
0,098
0,098
-0,593
0,785
deja de ser significativa (=0). 30 7,5 9 6,697 2,303 1,741 0,110 0,637

Tema 14. El modelo de regresión lineal simple 304


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: INDICE NOTIC =0 + 1* INDICE P.A. + 


---------------------------------------------------------------------
Parameter Estimate St.Error T Statistic P-Value
---------------------------------------------------------------------
Intercept 1,70654 0,817155 2,08839 0,0460
Slope 0,665359 0,155208 4,2869 0,0002
---------------------------------------------------------------------
Analysis of Variance
---------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
---------------------------------------------------------------------
Model 36,1157 1 36,1157 18,38 0,0002
Residual 55,026 28 1,96521
---------------------------------------------------------------------
Total (Corr.) 91,1417 29
Corr. Coef. = 0,629491 R-squared = 39,6259% St.Err.Est. = 1,40186

10 3 La pendiente de la
INDICE PROG. NOTICIAS

8 2 recta de regresión está


1
condicionada por 4
6 observaciones extre-
residual

0
4 mas.
-1 El plot de reisduos no
2 -2 es nulo; hay una
0 -3 banda con pendiente
2,5 3,5 4,5 5,5 6,5 7,5 3,3 4,3 5,3 6,3 7,3 negativa y 4 puntos en
INDICE DEL PROGRAMA ANTERIOR predicted INDICE PROG. NOTICIAS la diagonal contraria
haciendo contrapeso.
Tema 14. El modelo de regresión lineal simple 305
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

MODELO: INDICE NOTIC =0 + 1* INDICE P.A. +  (Casos 1 a 26)


---------------------------------------------------------------------
Parameter Estimate St Error T Statistic P-Value
---------------------------------------------------------------------
Intercept 3,71325 0,631352 5,88142 0,0000
Slope 0,259658 0,120945 2,14691 0,0421
---------------------------------------------------------------------
Analysis of Variance
---------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
---------------------------------------------------------------------
Model 3,94421 1 3,94421 4,61 0,0421
Residual 20,5373 24 0,855722
---------------------------------------------------------------------
Total (Corr.) 24,4815 25
Corr. Coef. = 0,401384 R-squared = 16,1109% St.Err.Est. = 0,925053

7,5 2,4
INDICE PROG. NOTICIAS

6,5 1,4

residual
5,5 0,4

4,5 -0,6

3,5 -1,6
2,5 3,5 4,5 5,5 6,5 7,5 4,3 4,6 4,9 5,2 5,5 5,8
INDICE DEL PROGRAMA ANTERIOR predicted INDICE PROG. NOTICIAS

Tema 14. El modelo de regresión lineal simple 306


ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL

COMPARACIÓN DE LOS RESULTADOS DE LOS DOS ANÁLISIS.

Todos los casos Casos 1 a 26


0 1.707 3.713

1 0.665 0.260


R2 0.396 0.161
s 1.402 0.925
n 30 26

Los 4 casos 27 a 30 ejercen una gran influencia en el ajuste, pero se enmascaran unos a otros al
constituir sendos grupos de dos y no aparecen con diagnósticos de influencia demasiado
espectaculares. Si partimos del modelo con 26 las observaciones típicas e incorporásemos uno
cualquiera de estos 4 casos sí que detectaríamos bien su influencia.

Tema 14. El modelo de regresión lineal simple 307

Você também pode gostar