Você está na página 1de 31

ANLISIS DE REGRESIN

Edgar Acua Fernandez


Departamento de Matemticas Universidad de Puerto Rico Recinto Universitario de Mayagez

REGRESIN LINEAL SIMPLE


Regresin: conjunto de tcnicas que son usadas para establecer una relacin entre una variable cuantitativa llamada variable dependiente y una o ms variables independientes, llamadas predictoras. Estas deben ser por lo general cuantitativas, sin embargo usar predictoras que son cualitativas es permisible. Modelo de regresin. Ecuacin que representa la relacin entre las variables. Para estimar la ecuacin del modelo se debe tener una muestra de entrenamiento.
Edgar Acua Analisis de Regresion Enero, 2008 2

Ejemplo
NACION %INMUNIZACION 1 "Bolivia" 77 2 "Brazil" 69 3 "Cambodia" 32 4 "Canada" 85 5 "China" 94 6 "Czech_Republic" 99 7 "Egypt" 89 8 "Ethiopia" 13 9 "Finland" 95 10 "France" 95 11 "Greece" 54 12 "India" 89 13 "Italy" 95 14 "Japan" 87 15 "Mexico" 91 16 "Poland" 98 17 "Russian_Federation" 73 18 "Senegal" 47 19 "Turkey" 76 20 "United_Kingdom" 90
Edgar Acua Analisis de Regresion Enero, 2008

TASA_mor 118 65 184 8 43 12 55 208 7 9 9 124 10 6 33 16 32 145 87 9


3

Edgar Acua

Analisis de Regresion Enero, 2008

Ejemplo de una linea de Regresion

Edgar Acua

Analisis de Regresion Enero, 2008

Usos del anlisis de regresin:


a) Prediccin b) Descripcin c) Control d) Seleccin de variables

Edgar Acua

Analisis de Regresion Enero, 2008

El modelo de Regresin Lineal simple

Y = + X +
Considerando la muestra (Xi,Yi) para i=1,n

Yi = + X i+ei
Suposiciones del modelo:
La variable predictora X es no aleatoria Los errores ei son variables aleatorias con media 0 y varianza constante 2. Los errores ei y e j (ij=1,n) son independientes entre si
Edgar Acua Analisis de Regresion Enero, 2008 7

Estimacin de la lnea de regresin usando Mnimos Cuadrados


Se debe Minimizar

Q(, ) =
n

i =1

2 i

(y
i =1

x i ) 2

Derivando se obtiene un par de ecuaciones normales para el modelo, cuya solucion produce
= nxi yi xi yi
i=1 n n n i=1 n i=1

O equivalentemente

S xy S xx

nx (xi )
i=1 2 i i=1

x = y
Analisis de Regresion Enero, 2008 8

Edgar Acua

1.2.2 Interpretacin de los coeficientes de regresin estimados


La pendiente indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretacin prctica si es irrazonable considerar que el rango de valores de x incluye a cero.
)
)

Edgar Acua

Analisis de Regresion Enero, 2008

1.2.3 Propiedades de los estimadores mnimos cuadrticos de regresin


a) es un estimador insegado de . Es decir, E( )= b)
) ) es un estimador insegado de . Es decir, E( )=
)

c) La varianza de es
1 x2 ( + ) n Sxx
2

2
Sxx

y la

de

es

Edgar Acua

Analisis de Regresion Enero, 2008

10

1.2.4 Propiedades de los residuales


Los residuales son las desviaciones de los valores observados de la variables de respuesta con respecto a la lnea de regresin. a) b) c)
ri = 0 La suma de los residuales es 0. Es decir, i =1
n
n

r x
i =1
n i =1 i

=0
=0

r y

)
i

Edgar Acua

Analisis de Regresion Enero, 2008

11

1.2.5 Estimacin de la varianza del error


Un estimador insesgado de 2 es:
s2 = ) 2 ( y y i i)
i =1 n n

n2

r
i =1

n2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

Edgar Acua

Analisis de Regresion Enero, 2008

12

1.2.6 Descomposicin de la suma de cuadrados total


La desviacion de un valor observado con respecto a la media se puede escribir como:
) ) ( yi y ) = ( yi yi ) + ( yi y )

( yi y ) 2 =
i =1

) ( yi yi ) 2 +
i =1

n i =1

(y

y) 2

SST = SSE + SSR Se puede deducir que

SSR =

2 ( x x ) i i =1

Edgar Acua

Analisis de Regresion Enero, 2008

13

2 R 1.2.7 El Coeficiente de Determinacin

Es una medida de la bondad de ajuste del modelo


R
2

SSR = * 100 % SST


2

Un modelo de regresion con R mayor o igual a 75% se puede considerar bastante aceptable. Nota: El valor de R es afectado por la presencia de valores anormales.
2

Edgar Acua

Analisis de Regresion Enero, 2008

14

1.2.8 Distribucin de los estimadores mnimos cuadrticos


Para efecto de hacer inferencia en regresin, se requiere asumir que los errors ei , se distribuyen en forma normal e 2 independientemente con media 0 y varianza constante . En consecuencia, tambin las yi ' s se distribuyen normalmente con 2 media + xi y varianza . Se puede establecer que: 2 2 1 x ~ N( , ) ~ N ( , ( + ) 2 ) Sxx n S xx

Edgar Acua

Analisis de Regresion Enero, 2008

15

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por lo tanto se distribuyen como una Ji-cuadrado. Se pueden establecer los siguientes resultados: i)

SST

2
SSE

~ '(2n 1) (Ji-Cuadrado no central con n-1 g.l)

ii)

2 ( n 2)

Equivalentemente

(n 2) s 2

~ (2n 2)

iii)

SSR

~ '(21) (Ji-Cuadrado no central con 1 g.l)

Podemos mostrar que:

2S ) = 2 + 2S E ( SSR ) = E ( xx xx
Edgar Acua Analisis de Regresion Enero, 2008 16

1.3 Inferencia en Regresion Lineal Simple


Pruebas de hiptesis e intervalos de confianza acerca de los coeficientes de regresin del modelo de regresin poblacional. Intervalos de confianza para un valor predicho y para el valor medio de la variable de respuesta

Edgar Acua

Analisis de Regresion Enero, 2008

17

1.3.1 Inferencia acerca de la pendiente y el intercepto usando la prueba t.


La pendiente de regresin se distribuye como una normal con 2 media y varianza Sxx Un intervalo de confianza del 100(1-)% para la pendiente poblacional es de la forma:
( t ( n 2, / 2) ) s Sxx , + t ( n 2, / 2) ) s Sxx )

Donde representa el nivel de significacin.

Edgar Acua

Analisis de Regresion Enero, 2008

18

Intervalo de confianza para el intercepto


Un intervalo de confianza del 100(1-)% para el intercepto de la linea de regresin poblacional es de la forma:

1 x2 ) 1 x2 ( t ( n 2, / 2 ) s + , + t ( n 2, / 2 ) s + ) n Sxx n Sxx )

Edgar Acua

Analisis de Regresion Enero, 2008

19

Pruebas de hiptesis para la pendiente (asumiendo que su valor es * )


Caso I Ho: =* Ha: <* Caso II Ho: =* Ha: *
*
s Sxx )

Caso III Ho: =* Ha: >*

Prueba Estadstica
t=

~ t( n 2)

Regla de Decisin Rechazar Ho, Rechazar Ho

Rechazar Ho

si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2) *Un P-value cercano a cero sugiere rechazar la hiptesis nula.
Edgar Acua Analisis de Regresion Enero, 2008 20

1.3.2 El anlisis de varianza para regresin lineal simple


El anlisis de varianza para regresin consiste en descomponer la variacin total de la variable de respuesta en varias partes llamadas fuentes de variacin. La divisin de la suma de cuadrados por sus grados de libertad es llamada cuadrado medio. As se tienen tres cuadrados medios. Cuadrado Medio de Regresin=MSR=SSR/1 Cuadrado Medio del Error= MSE=SSE/(n-2) Cuadrado Medio del Total=MST=SST/(n-1)
Edgar Acua Analisis de Regresion Enero, 2008 21

Tabla de Anlisis de Varianza


________________________________________________________________ Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F ________________________________________________________________ Debido a MSR la Regresion 1 SSR MSR=SSR/1 Error n-2 SSE MSE=SSE/(n-2) MSE Total n-1 SST ________________________________________________________________

Se rechazara la hiptesis nula Ho:=0 si el P-value de la prueba de F es menor de 0.05

Edgar Acua

Analisis de Regresion Enero, 2008

22

Intervalo de confianza para el valor medio de la variable de respuesta e Intervalo de Prediccin


Queremos predecir el valor medio de las Y para un valor x0 de la variable predictora x.

E(Y / x = x0 ) = + x0
xo o = + El estimador natural es Y Como las Ys se distribuyen o se distribuye normalmente con normalmente, entonces tambin Y media E(Y/X=xo)y varianza igual a:
2 ( x x ) 1 ) = 2( + 0 Var (Y ) 0 n Sxx

Edgar Acua

Analisis de Regresion Enero, 2008

23

Intervalo de confianza (cont)


Un intervalo de confianza del 100(1- )% para el valor medio de las ys dado que x=x0 es de la forma:
2 x x ( ) 1 0 x t + + 0 ( / 2 , n 2 ) s n Sxx

Trabajando con la diferencia


)=0 E (Y0 Y 0

Y0 Y 0
2

se tiene

2 ( x x ) 1 0 ) = (1 + + Var (Y0 Y ) 0 n Sxx

Luego el intervalo de prediccin para un valor individual de Y dado x=x0 2 es de la forma


Edgar Acua

x t + 0 ( / 2 , n 2 ) s 1 +

1 ( x0 x ) + n Sxx

Analisis de Regresion Enero, 2008

24

1.4 Anlisis de residuales


Los residuales, son estimaciones de los errores del modelo y sirven para establecer si las suposiciones del modelo se cumplen y para explorar el porqu de un mal ajuste del modelo. Podemos ver: Si la distribucin de los errores es normal y sin outliers. Si la varianza de los errores es constante y si se requieren transformaciones de las variables. Si la relacin entre las variables es efectivamente lineal o presenta algn tipo de curvatura Si hay dependencia de los errores, especialmente en el caso de que la variable predictora sea tiempo.

Edgar Acua

Analisis de Regresion Enero, 2008

25

Tipos de residuales
i) Residual Estandarizado, se divide el residual entre la
desviacin estndar del error. Es decir, ) yi yi s

ii) Residual Estudentizado, se divide el residual entre su


desviacin estndar estimada. Es decir,
) yi yi 1 ( xi x ) 2 s (1 ) n Sxx

Edgar Acua

Analisis de Regresion Enero, 2008

26

1.4.1 Cotejando normalidad de los errores y detectando outliers


La normalidad de los errores es un requisito indispensable para que tengan validez las pruebas estadsticas de t y F que se usan en regresin. La manera ms fcil es usando grficas tales como: histogramas, stem-and-leaf o Boxplots. El plot de Normalidad, plotea los residuales versus los scores normales ( valores que se esperaran si existiera normalidad).

Edgar Acua

Analisis de Regresion Enero, 2008

27

1.4.2 Cotejando que la varianza sea constante


Se plotea los residuales estandarizados versus los valores ajustados o versus la variable predictora X. Si los puntos del plot caen en una franja horizontal alrededor de 0 entonces la varianza es constante. Si los puntos siguen algn patrn entonces se dice que la varianza no es constante. Nota: Se debe tener cuidado con la presencia de outliers.
Edgar Acua Analisis de Regresion Enero, 2008 28

1.4.3 Cotejando si los errores estan correlacionados.


Cuando la variable predictora es tiempo, puede ocurrir que los errores esten correlacionados secuecialmente entre si.
Prueba de Durbin-Watson, mide el grado de correlacin de un error con el anterior y el posterior a l. Estadstico n
D=

(e
i=2

i n

ei 1 ) 2
2 i

e
i =1

D vara entre 0 y 4. Si D esta cerca de 0 los errores estn correlacionados positivamente. Si D est cerca de 4 entonces la correlacin es negativa. La distribucin de D es simtrica con respecto a 2. As que un valor de D cercano a 2 indica que no hay correlacin de los errores.
Edgar Acua Analisis de Regresion Enero, 2008 29

1.5 El Coeficiente de Correlacin


Mide el grado de asociacn lineal entre las variables X y Y y se define como:
=
Cov( X , Y )

x y

a) 1 1 b) La media condicional de Y dado X es E(Y / X ) = + x , donde: = y y = y x c) La varianzax condicional de las Y dado X, est dado por
2 2 2 y / x = y (1 )

Si = 1 entonces 2 = 0 (perfecta relacin lineal). y/x


Edgar Acua Analisis de Regresion Enero, 2008 30

Coeficiente de correlacin muestral


Considerando una muestra de n pares (xi,yi)

r =
Notar que:
) Sxx r= Syy

Sxy SxxSyy
r2 =

Sxx
Syy

)2

SSR SST

El cuadrado del coeficiente de correlacin es igual al coeficiente de determinacin.

Edgar Acua

Analisis de Regresion Enero, 2008

31

Você também pode gostar