Você está na página 1de 36

REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para


establecer una relacin entre una variable cuantitativa
llamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambien
deberian ser cuantitativas, sin embargo algunas de
ellas podrian ser cualitativas.
Modelo de regresin. Ecuacin que representa la
relacin entre las variables. Para estimar la ecuacin del
modelo se debe tener una muestra de entrenamiento.

Usos del modelo de regresin


a) Prediccin
b) Descripcin
c) Control
d) Seleccin de variables

El modelo de Regresin Lineal simple

Y = + X +
Considerando la muestra (xi, yi) para i=1,n

Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianza
constante 2.
Los errores ei y e j (ij=1,n) son independientes entre si.

: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)

E(y|x)=+x
E(y|x)
x

{
Constante
Parmetro de
intercepcin

X
E(y|x)
=
x

Es la pendiente
Parmetro de pendiente

Estimacin de la lnea de regresin usando


Mnimos Cuadrados
Se debe Minimizar

Q(, ) =
n

i=1

2
i

2
(
y

x
)
i
i
i =1

Derivando se obtiene las ecuaciones normales,


cuya solucion produce

i=1

i=1
n

i=1

nxi yi xi yi
n

nxi2 (xi )2
i=1

i=1

=
equivalentemente

xy

xx

= y x

(RRP)
E(y) = + x

y4

e4 {

y3
y2

y1

e2 {.

(RRM)
y = b 0 + b 1x

.}e3

e1
}
.
x1

x2

x3

x4

Interpretacin de los coeficientes de regresin


estimados

La pendiente indica el cambio promedio en la variable de


respuesta cuando la variable predictora aumenta en una unidad
adicional.

El intercepto indica el valor promedio de la variable de


respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.

Propiedades de los estimadores mnimos cuadrticos


de regresin

a) es un estimador insegado de . Es decir, E( )=


es un estimador insegado de . Es decir, E( )=

b)

c) La varianza de es

2
Sxx

y la de

es

2
1
x
2( +
)
n Sxx

Propiedades de los residuales


Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respecto
a la lnea de regresin.
n

a)

La suma de los residuales es 0. Es decir, ei = 0


i =1

b)

e x
i =1

c)

i i

=0

e
y
i i =0
i =1

Estimacin de la varianza del error


Un estimador insesgado de 2 es:
n

s2 =

2
(
y

y
i i)
i =1

n2

e
i =1

2
i

n2

s2 es tambien llamado el cuadrado medio del error

(CME)

Descomposicin de la suma de cuadrados total


La desviacion de un valor observado con respecto a
la media se puede escribir como:

( yi y ) = ( yi yi ) + ( yi y )
n

( y i y ) = ( yi yi ) 2 +
n

i =1

i =1

i =1

SCT = SCE + SCR


Se puede deducir que

SCR =

2
(
x

x
)
i
i =1

(y

y)2

El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R

SCR
SCT

2
R
Un modelo de regresin con
mayor o igual a 75% se puede

considerar bastante aceptable.


2
R
Nota: El valor de es afectado por la presencia de valores
anormales.

Distribucin de los estimadores mnimos


cuadrticos
Para efecto de hacer inferencia en regresin, se requiere asumir
que los errores ei , se distribuyen en forma normal e
2
independientemente con media 0 y varianza constante . En
consecuencia, tambin las yi ' s se distribuyen normalmente con
2

x
media
.
i y varianza
Se puede establecer que:

~ N(,

Sxx

1 x2 2
~ N(, ( + ) )
n Sxx

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
i)

ii)

iii)

SCT

SCE

SCR

~ '(2n 1)

2
( n2)

~ '(21)

(Chi-Cuadrado no central con n-1 g.l)

Equivalentemente

(n 2) s 2

~ (2n 2)

(Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

E ( SCR ) = E ( 2 S xx ) = 2 + 2 S xx

Inferencia en Regresion Lineal Simple


Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta

Inferencia acerca de la pendiente y el


intercepto usando la prueba t.
La pendiente de regresin se distribuye como una normal con
2

media y varianza
Sxx

Un intervalo de confianza del 100(1-)% para la pendiente


poblacional es de la forma:

( t( n 2,1 / 2 )

s
, + t( n 2,1 / 2 )
Sxx

El nivel de significacin , vara entre 0 y 1.

s
)
Sxx

Intervalo de confianza para el intercepto


Un intervalo de confianza del 100(1-)% para el intercepto de
la linea de regresin poblacional es de la forma:

1 x2
1 x2
( t( n 2,1 / 2 ) s
+
, + t( n 2,1 / 2 ) s
+
)
n Sxx
n Sxx

Tres Posibles Poblaciones

=0
A

>0
B

1< 0
C

Pruebas de hiptesis para la pendiente


(asuminendo que su valor es * )
Caso I
Ho: =*
Ha: <*

Caso II
Ho: =*
Ha: *

Caso III
Ho: =*
Ha: >*

Prueba Estadstica
t=

*
s
Sxx

Regla de Decisin
Rechazar Ho,
Rechazar Ho

~ t( n 2)

Rechazar Ho

si tcal<-t(1-,n-2)
si |tcal |>t(1-/2,n-2) si tcal>t(1-,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.

El anlisis de varianza para regresin lineal


simple
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=CMR=SCR/1
Cuadrado Medio del Error= CME=SCE/(n-2)

Tabla de Anlisis de Varianza


________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios
F
________________________________________________________________
Debido a
CMR
la Regresion
1
SCR
CMR=SCR/1
Error
n-2
SCE
CME=SCE/(n-2) CME
Total
n-1
SCT
________________________________________________________________

Se rechazara la hiptesis nula Ho:=0 si el P-value de la


prueba de F es menor de 0.05

Intervalo de confianza para el valor medio de la


variable de respuesta e Intervalo de Prediccin
Queremos predecir el valor medio de las Y para un valor x0 de
la variable predictora x.
E (Y / x = x0 ) = + x0

Como y se distribuyen normalmente, entonces tambin se


distribuye normalmente con media y varianza igual a:
2
(
x

x
)
1
Var (Y0 ) = 2 ( + 0
)
n
Sxx

Intervalo de confianza para el valor medio


Un intervalo de confianza del 100(1- )% para el valor medio
de las ys dado que x=x0 es de la forma:

2
(
x

x
)
1
0
+ x0 t(1 / 2,n 2 ) s +
n
Sxx

intervalo de prediccin para un valor individual de Y dado x=x0


es de la forma

2
(
x

x
)
1
0
+ x0 t(1 / 2,n 2 ) s 1 + +
n
Sxx

El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
=

Cov( X , Y )

x y

a) 1 1
b) La media condicional de Y dado X es E(Y / X ) = + x,

donde: = y y = y x
x
c) La varianza condicional de las Y dado X, est dado por
y2 / x = y2 (1 2 )

Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).

Coeficiente de correlacin muestral


Considerando una muestra de n pares (xi,yi)

r =
Notar que:
Sxx
r=
Syy

Sxy
SxxSyy

Sxx

SCR
r =
=
Syy
SCT
2

El cuadrado del coeficiente de correlacin es igual al coeficiente


de determinacin.

Modelos No Lineales y Transformaciones


En el anlisis de regresin generalmente el punto de partida es
considerar que la relacin entre la variable respuesta X y la variable
Y
es lineal. Algunas veces esta relacin lineal es inadecuada. Esta
no linealidad se puede detectar por medio de:
La Prueba de Falta de Ajuste
El Diagrama de Dispersin
Los Grficos de Residuales
Tambin se puede presentar que si la varianza no es constante, los
residuos no son normales, etc. A continuacin se presenta una
situacin en la cual no se presenta la homogeneidad de varianzas. En
otros casos como el de la situacin se conoce que la relacin funcional
entre la variable respuesta
Y
y la variable regresora
X
es
fcil conocer la transformacin, pero cuando no se conoce esta relacin
se pueden utilizar mtodos ms avanzados para determinar el tipo de
transformacin a ejecutar. En otros casos existen muchos modelos o
funciones que no pueden ser llevadas a formas lineales como por
ejemplo

Los siguientes
datos
presentan
el nmero
promedio
Ejemplo
de
un
modelo
No
lineal
de bacterias sobrevivientes dentro de un alimento
a
enlatado y los minutos
de exposicin al calor

1
2
3
4
5
6
7
8
9
10
11
12
Total

175
bacterias
108
95
82
71
50
49
31
28
17
16
11
12

1
tiempo
2
3
4
5
6
7
8
9
10
11
12
12

Resumen del modelo

1
Modelo
a.

a.
Limitado a los primeros 100 casos.

Regresin
Residual
Total

Suma22268,813
de
cuadrados
gl
3348,104
25616,917

1
10
11

,932
a

,869
R cuadrado

R cuadrado
,856
corregida

Error tp.
de la
18,298
estimacin

Variables predictoras: (Constante), tiempo

ANOVA
b

1
Modelo

Media22268,813
cuadrtica F
334,810

66,512

Sig.

,000
a

a.
b.

Coeficientes
a
Variables predictoras: (Constante), tiempo
Variable dependiente: bacterias

1
Modelo

(Constante)
tiempo

Coeficientes no
estandarizados
142,197
11,262
Error tp.
-12,479
1,530

a.
Variable dependiente: bacterias

Coeficientes
estandarizad
os
Beta
t
-,932

12,627
,000
Sig.
-8,155
,000

Anlisis de los residuos


Prueba de la Normalidad

Prueba de Homogenidad de Varianzas

Al tratar de chequear la normalidad


de los errores por medio del grfico
de probabilidad normal de la figura
.Segn este grfico se observa que
este supuesto parece no cumplirse
como lo

Ahora al chequear la homogeneidad de


varianza grficamente por medio de la
figura (errores y tiempo), se observa que
este supuesto no se cumple debido al
patrn curvilneo que presenta el grfico.

Lo anterior nos permite concluir que el modelo lineal


no es adecuado para ajustar los datos. En este caso
se debe transformar la variable respuesta.

Cmo transformarla?
En esta situacin es fcil conocer la
transformacin ya que los datos representan el
crecimiento de las bacterias en el tiempo, para
el cual se conoce que el nmero de bacterias en
el tiempo t , , se modela como
donde n0es el nmero inicial de bacterias y .
Tomando logaritmo natural a ambos lados se
tiene

Cmo se distribuye el error?

Es de observar que el modelo original (1)no tiene errores aditivos ya


que se encuentra multiplicando. As un ajuste de (2), es apropiado
solamente si creemos que el modelo (1) es el adecuado. La
transformacin de nt(Y) en lnnt(Y) ha alterado la estructura del error de
multiplicativo a aditivo. Si nosotros realmente creemos que los errores
son aditivos y que
nosotros no podramos tomar logaritmos y utilizar el mtodo de mnimos
cuadrado. Se tendra que usar mtodos de estimacin no lineal. El
modelo (4) se dice que es intrnsicamente no lineal, mientras que el
modelo (1)es intrnsicamente lineal.
De lo anterior se concluye que para analizar los datos del ejemplo, se
debe transformar la variable como se muestra en la tabla:

Resumen bdel modelo

Diagrama
de
dispersin
del
logaritmo del nmero de bacterias
sobrevientes a travs del tiempo

1
Modelo
a.
b.

,991
a

,982
R cuadrado

Variables predictoras: (Constante), tiempo


Variable dependiente: LnY

Coeficientes
a

Coeficientes
Coeficientes no
estandarizad
estandarizados
os
1
(Constante)
5,339 ,074
72,054 ,000
Modelo
B
Error tp. Beta
t
Sig.
tiempo
-,236 ,010
-,991 -23,459 ,000
a.
Variable dependiente: LnY

R cuadrado
,980
corregida

Error tp.
de la
,12039
estimacin

Cmo interpretar el parmetro estimado ?

Regresin Cuadrtica
Un modelo cuadrtico es de la forma:
Y = a + bX + cX 2 +

donde a, b y c son constantes a estimar. Usando la tcnica de


mnimos cuadrados se pueden obtener frmulas explcitas para
calcular a, b y c.
En SPSS para obtener la ecuacin del modelo cuadrtico,
hay que elegir la opcin Regresion/ curva en la ventana de
dilogo de

Ejemplo
Case Summaries
a

1
2
3
4
5
6
7
8
9
10
Total

1
Tienda
2
3
4
5
6
7
8
9
10
10

Valor
Agregado por
hora-hombre
4,0
($)
3,4
3,5
3,1
2,9
1,9
4,1
3,2
3,8
3,6
10

Tamao de la
tienda ( miles
de pies21,0
cuadrados)
12,0
25,2
10,4
30,9
6,8
19,6
14,5
25,0
19,1
10

a.
Limitado a los primeros 100 casos.

Resumen del modelo y estimaciones de los parmetros

Variable dependiente: Valor Agregado por hora-hombre ($)


Cuadrtico
Ecuacin

,883
R cuadrado F

26,438

Resumen del modelo


2
7
gl1
gl2

Sig.

La variable independiente esTamao de la tienda ( miles de pies cuadrados).

,001

-,120
Constante

Estimaciones de los parmetros


,387
-,009
b1
b2

Modelos No lineales que pueden ser


transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a travs de transformaciones
tanto de la variable independiente como dependiente.
Nombre del modelo

Ecuacin del Modelo

Transformacin

Modelo Linealizado

Exponencial

Y=eX

Z=Ln Y

X=X

Z=Ln +X

Logartmico

Y= +Log X

Y=Y

W=Log X

Y= +W

Doblemente Logartmico

Y=X

Z=Log Y W=Log X

Z= Log +W

Hiperblico

Y= +/X

Y=Y

W=1/X

Y= +W

Inverso

Y=1/( +X)

Z=1/Y

X=X

Z= +X

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la


inversa de la transformacin correspondiente al mismo.

Você também pode gostar