Você está na página 1de 64

REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas tambin deberan ser cuantitativas, sin embargo algunas de ellas podran ser cualitativas. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.

Usos del modelo de regresin


a) Prediccin b) Descripcin c) Control d) Seleccin de variables

El modelo de Regresin Lineal simple

Y = + X +
Considerando la muestra (xi, yi) para i=1,n

Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria. Los errores i son variables aleatorias con media 0 y varianza constante 2. Los errores i y j (ij=1,n) son independientes entre si.
4

Razones para la existencia de


Imprecisin de la teora Datos no disponibles Variables deficientes proxy Principio de Parsimonia Omisin de variables relevantes Mala especificacin de la forma funcional

VARIABLES
VARIABLE INDEPENDIENTE VARIABLE DEPENDIENTE

V. EXPLICATIVA V. CONTROL V. PREDICTORA V. REGRESOR

V. EXPLICADA V. RESPUESTA V. PREDICHA V. REGRESADA

Notacin alternativa: Yi = 0 + 1 Xi + i (Y es funcin lineal de X)


6

: expresa la magnitud del cambio de y por cada unidad de x E(y|x) E(y|x)=+x E(y|x) x {
Constante Parmetro de intercepcin

X E(y|x) = x
Es la pendiente Parmetro de pendiente

Supuestos del Modelo de RLS


1. Modelo de regresin lineal: (Lineal en los parmetros) y = 0 + 1x + u 2. Muestreo aleatorio: {(yi, xi); i=1, , n} muestra aleatoria del modelo poblacional 3. Media condicional de es cero, E(i| xj) = E(i) = 0 4. Variacin muestral en la variable independiente 5. Homocedasticidad o igual varianza de i, var(i|xj) = 2 6. No autocorrelacin de : cov(i, j) = 0, para todo i j
8

Caso Homocedstico
f(yi)
sto

yi

ga

. .

x1=80

x2=100

renta

xi

Las varianzas de yi en dos niveles distintos de renta familiar, x i , son idnticas.

Caso Heterocedstico
f(yi)
sto a

.
x1 x2 x3

.
renta

.
xt

La varianza de yi aumenta con la renta de la familia xi.

10

Estimacin de la lnea de regresin usando Mnimos Cuadrados


Se debe Minimizar

Q(, ) =
n i =1

2 i

(y
i =1

xi ) 2

Derivando se obtiene las ecuaciones normales, con solucin:

nxi yi xi yi
i=1

nxi2 (xi )2
i =1 i=1

i=1 n

i =1

equivalentemente

S S

xy xx

= y x
11

Donde:

Sxx = ( xi x ) 2
i =1

y y4 e4 {

(RRP) E(y) = + x

.
(RRM) y = b0 + b1x

y3 y2

e2 {.

.}e3

y1

} e1 .
x1 x2 x3 x4 x
12

Interpretacin de los coeficientes de regresin estimados


La pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretacin prctica si es irrazonable pensar que el rango de valores de x incluye a cero.
)
)

13

Ejemplo de estudio de la altura en grupos familiares de Pearson Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm. Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm. Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal simple.

14

Propiedades de los estimadores mnimos cuadrticos de regresin


a) es un estimador insegado de . Es decir, E( )= b) c)
) ) es un estimador insegado de . Es decir, E( )=
)

2 La varianza de es

Sxx

1 x2 y la de es ( + ) n Sxx
)
2

Nota: la covarianza:

15

Propiedades de los residuales


Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la lnea de regresin. a) b) c) La suma de los residuales es 0. Es decir, ei = 0
i =1 n

e x
i =1 n i =1

i i

=0

) ei yi = 0

16

Estimacin de la varianza del error


Un estimador insesgado de 2 es:
s2 = ) ( yi y i ) 2
i =1 n

n2

e
i =1

2 i

n2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

17

Descomposicin de la suma de cuadrados total


La desviacion de un valor observado con respecto a la media se puede escribir como:
) ) ( yi y ) = ( yi yi ) + ( yi y )

( yi y ) 2 =
i =1

) ( yi yi ) 2 +
i =1

(y
i =1

y)2

SST = SSE + SSR Se puede deducir que

SSR =

( xi x ) 2
i =1

18

El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R2 = SSR SST

Un modelo de regresin con R2 mayor o igual a 75% se puede considerar bastante optimista. R Nota: El valor de es afectado por la presencia de valores anormales.
2

19

Distribucin de los estimadores mnimos cuadrticos


Para efecto de hacer inferencia en regresin, se requiere asumir que los errors ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante . En consecuencia, tambin las yi ' s se distribuyen normalmente con 2 media + xi y varianza . Se puede establecer que:
~ N( , ) Sxx
2

1 x2 2 ~ N ( , ( + ) ) n S xx

20

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los siguientes resultados: i)

SST

~ '(2n 1)

(Chi-Cuadrado no central con n-1 g.l)

ii)

SSE

2 ( n2)

Equivalentemente

(n 2) s 2

~ (2n 2 )

iii)

SSR

~ '(21)

(Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

E ( SSR ) = E ( 2 S xx ) = 2 + 2 S xx
21

Inferencia en Regresion Lineal Simple


Pruebas de hiptesis e intervalos de confianza acerca de los coeficientes de regresin del modelo de regresin poblacional. Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

22

Inferencia acerca de la pendiente y el intercepto usando la prueba t.


La pendiente de regresin se distribuye como una normal con 2 media y varianza
Sxx

Un intervalo de confianza del 100(1-)% para la pendiente poblacional es de la forma:


( t ( n 2, / 2 ) ) s Sxx , + t ( n 2, / 2 ) ) s Sxx )

El nivel de significacin , vara entre 0 y 1.

23

Intervalo de confianza para el intercepto


Un intervalo de confianza del 100(1-)% para el intercepto de la linea de regresin poblacional es de la forma:

1 x2 ) 1 x2 ( t ( n 2, / 2 ) s + , + t ( n 2, / 2 ) s + ) n Sxx n Sxx )

24

Tres Posibles Poblaciones

=0
A

>0
B

1< 0
C

25

Pruebas de hiptesis para la pendiente (asumiendo que su valor es * )


Caso I Ho: =* Ha: <* Prueba Estadstica Caso II Ho: =* Ha: *
t=

Caso III Ho: =* Ha: >*


~ t( n 2)

*
s Sxx

Regla de Decisin Rechazar Ho, Rechazar Ho

Rechazar Ho

si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
26

Pruebas de hiptesis para el intercepto (asumiendo que su valor es * )


Caso I Ho: = * Ha: < * Prueba Estadstica Caso II Ho: = * Ha: *
t= * 1 x ( + ) 2 n S xx
2

Caso III Ho: = * Ha: > *


~ t( n 2 )

Regla de Decisin Rechazar Ho,

Rechazar Ho

Rechazar Ho

si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2) *Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
27

El anlisis de varianza para regresin lineal simple


El anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin=MSR=SSR/1 Cuadrado Medio del Error= MSE=SSE/(n-2) Cuadrado Medio del Total=MST=SST/(n-1)

28

Tabla de Anlisis de Varianza


________________________________________________________________ Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F ________________________________________________________________ Debido a la Regresion 1 SSR MSR=SSR/1 MSR Error n-2 SSE MSE=SSE/(n-2) MSE ________________________________________________________________ Total n-1 SST ________________________________________________________________

Se rechazara la hiptesis nula Ho:=0 si el P-value de la prueba de F es menor de . En este caso, X se relaciona de manera importante con Y
29

Estimacin de la Recta Media:


Interesa estimar la respuesta media en funcin de un valor especfico del input, 1) Pivote: Sea Interesa estimar

Podemos utilizar que

y es independiente de

30

Luego,

2) Intervalo para la Media: Se obtiene el intervalo de (1 - )100% de confianza para

31

Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la temperatura de produccin, se obtiene las bandas de confianza para la recta media:

recta estimada lmite inferior del intervalo lmite superior del intervalo

32

Problemas: Estimaciones simultneas. i) Bonferroni: Reemplazar por /n, donde n es el nmero de estimaciones que se desea realizar (nmero de valores de X0). ii) Scheff: Reemplazar valor por

Se obtiene intervalos ms amplios.

33

Prediccin de una Nueva Observacin:


Interesa predecir una observacin que se producir para un valor especfico del input . Sabemos que

luego con probabilidad (1 - )100%, la nueva observacin estar en el intervalo:

Problema: No conocemos , ni .
34

Idea: Definir Se puede ver que

luego, con (1 - )100% de probabilidad la nueva observacin

estar en

35

CUIDADO CON EXTRAPOLACIN

36

Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e Intervalos de Prediccin para nuevas observaciones (curvas exteriores)

37

Estandarizacin de los Datos;


I) Definamos la variable:

y la regresin

Interpretacin de

vs

38

II) Definamos las variables:

y la regresin

Entonces:

39

Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la temperatura de ebullicin del agua. Ajustamos los modelos: Modelo 1)

pressure

22

24

26

28

30

195

200 boil.point

205

210

40

Modelo 2)
0.4 pressure.star -0.2 -0.4 0.0 0.2

-0.2

0.0 boil.point.star

0.2

0.4

con
41

El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se define como: Cov( X , Y ) = x y a) 1 1 b) La media condicional de Y dado X es E(Y / X ) = + x , y donde: y = =
x
y x

c) La varianza condicional de las Y dado X, est dado por


2 2 y / x = y (1 2 )

2 Si = 1 entonces y / x = 0 (perfecta relacin lineal).

El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relacin entre las 42 variables.

Coeficiente de correlacin muestral


Considerando una muestra de n pares (xi,yi)

r =

Sxy SxxSyy

Notar que:

) Sxx r= Syy

r2 =

Sxx
Syy

)2

SSR SST

El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin. r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo de relaciones (cuadrtica, logartmica,...)

43

Dcima para el coeficiente de correlacin


Para probar la hiptesis nula H0: = 0, utilizamos la estadstica de prueba

t=

r n2 1 r2

Decisin: Rechazar Ho, si |tcal |>t(/2,n-2) Si Ho: = 0, (X e Y no estn relacionados)

44

CONSIDERACIONES PARA LA VALIDEZ DEL TEST Los residuos ( e ) deben ser : - Normales - Homocedsticos - Independientes Testar la Ho: = 0 equivale a ensayar la Ho: = 0

45

Prctica. Problema resuelto de regresin lineal simple


Los datos de la tabla adjunta muestran el tiempo de impresin de trabajos que se han impreso en impresoras de la marca HP. Se est interesado en estudiar la relacin existente entre la variable de inters tiempo de impresin de un trabajo y la variable explicativa nmero de pginas del trabajo. Hacer el estudio en base a los datos obtenidos en el muestreo y que son los de la tabla adjunta.

46

Solucin
Se calculan los estadsticos bsicos de las variables X e Y,

Que permiten calcular las estimaciones de los parmetros de la recta de regresin

47

48

49

50

El coeficiente de correlacin es

51

52

El grfico de residuos frente a las predicciones se observa en el siguiente grfico

53

54

A partir de la tabla se puede realizar el contraste de regresin

55

Que permite construir la siguiente tabla ANOVA ms completa

56

57

58

59

60

61

62

63

64

Você também pode gostar