Regresión Lineal Simple

REGRESIN LINEAL SIMPLE
Regresin: conjunto de tcnicas que son usadas para

establecer una relacin entre una variable cuantitativa
llamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambien
deberian ser cuantitativas, sin embargo algunas de
ellas podrian ser cualitativas.
Modelo de regresin. Ecuacin que representa la
relacin entre las variables. Para estimar la ecuacin del
modelo se debe tener una muestra de entrenamiento.
Usos del modelo de regresin

a) Prediccin
b) Descripcin
c) Control
d) Seleccin de variables
El modelo de Regresin Lineal simple
Y = + X +
Considerando la muestra (xi, yi) para i=1,n
Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianza
constante 2.
Los errores ei y e j (ij=1,n) son independientes entre si.
: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)
E(y|x)=+x
E(y|x)
x
{
Constante
Parmetro de
intercepcin
X
E(y|x)
=
x
Es la pendiente
Parmetro de pendiente
Estimacin de la lnea de regresin usando

Mnimos Cuadrados
Se debe Minimizar
Q(, ) =
n
i=1
2
i
2
(
y
x
)
i
i
i =1
Derivando se obtiene las ecuaciones normales,

cuya solucion produce
i=1
i=1
n
i=1
nxi yi xi yi
n
nxi2 (xi )2
i=1
i=1
=
equivalentemente
xy
xx
= y x
(RRP)
E(y) = + x
y4
e4 {
y3
y2
y1
e2 {.
(RRM)
y = b 0 + b 1x
.}e3
e1
}
.
x1
x2
x3
x4
Interpretacin de los coeficientes de regresin

estimados
La pendiente indica el cambio promedio en la variable de

respuesta cuando la variable predictora aumenta en una unidad
adicional.
El intercepto indica el valor promedio de la variable de

respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
Propiedades de los estimadores mnimos cuadrticos

de regresin
a) es un estimador insegado de . Es decir, E( )=

es un estimador insegado de . Es decir, E( )=
b)
c) La varianza de es
2
Sxx
y la de
es
2
1
x
2( +
)
n Sxx
Propiedades de los residuales

Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respecto
a la lnea de regresin.
n
a)
La suma de los residuales es 0. Es decir, ei = 0

i =1
b)
e x
i =1
c)
i i
=0
e
y
i i =0
i =1
Estimacin de la varianza del error

Un estimador insesgado de 2 es:
n
s2 =
2
(
y
y
i i)
i =1
n2
e
i =1
2
i
n2
s2 es tambien llamado el cuadrado medio del error
(CME)
Descomposicin de la suma de cuadrados total

La desviacion de un valor observado con respecto a
la media se puede escribir como:
( yi y ) = ( yi yi ) + ( yi y )
n
( y i y ) = ( yi yi ) 2 +
n
i =1
i =1
i =1
SCT = SCE + SCR

Se puede deducir que
SCR =
2
(
x
x
)
i
i =1
(y
y)2
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R
SCR
SCT
2
R
Un modelo de regresin con
mayor o igual a 75% se puede
considerar bastante aceptable.

2
R
Nota: El valor de es afectado por la presencia de valores
anormales.
Distribucin de los estimadores mnimos

cuadrticos
Para efecto de hacer inferencia en regresin, se requiere asumir
que los errores ei , se distribuyen en forma normal e
2
independientemente con media 0 y varianza constante . En
consecuencia, tambin las yi ' s se distribuyen normalmente con
2
x
media
.
i y varianza
Se puede establecer que:
~ N(,
Sxx
1 x2 2
~ N(, ( + ) )
n Sxx
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
i)
ii)
iii)
SCT
SCE
SCR
~ '(2n 1)
2
( n2)
~ '(21)
(Chi-Cuadrado no central con n-1 g.l)
Equivalentemente
(n 2) s 2
~ (2n 2)
(Chi-Cuadrado no central con 1 g.l)
Podemos mostrar que:
E ( SCR ) = E ( 2 S xx ) = 2 + 2 S xx
Inferencia en Regresion Lineal Simple

Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta
Inferencia acerca de la pendiente y el

intercepto usando la prueba t.
La pendiente de regresin se distribuye como una normal con
2
media y varianza
Sxx
Un intervalo de confianza del 100(1-)% para la pendiente

poblacional es de la forma:
( t( n 2,1 / 2 )
s
, + t( n 2,1 / 2 )
Sxx
El nivel de significacin , vara entre 0 y 1.
s
)
Sxx
Intervalo de confianza para el intercepto

Un intervalo de confianza del 100(1-)% para el intercepto de
la linea de regresin poblacional es de la forma:
1 x2
1 x2
( t( n 2,1 / 2 ) s
+
, + t( n 2,1 / 2 ) s
+
)
n Sxx
n Sxx
Tres Posibles Poblaciones
=0
A
>0
B
1< 0
C
Pruebas de hiptesis para la pendiente

(asuminendo que su valor es * )
Caso I
Ho: =*
Ha: <*
Caso II
Ho: =*
Ha: *
Caso III
Ho: =*
Ha: >*
Prueba Estadstica
t=
*
s
Sxx
Regla de Decisin
Rechazar Ho,
Rechazar Ho
~ t( n 2)
Rechazar Ho
si tcal<-t(1-,n-2)
si |tcal |>t(1-/2,n-2) si tcal>t(1-,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
El anlisis de varianza para regresin lineal

simple
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=CMR=SCR/1
Cuadrado Medio del Error= CME=SCE/(n-2)
Tabla de Anlisis de Varianza

________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios
F
________________________________________________________________
Debido a
CMR
la Regresion
1
SCR
CMR=SCR/1
Error
n-2
SCE
CME=SCE/(n-2) CME
Total
n-1
SCT
________________________________________________________________
Se rechazara la hiptesis nula Ho:=0 si el P-value de la

prueba de F es menor de 0.05
Intervalo de confianza para el valor medio de la

variable de respuesta e Intervalo de Prediccin
Queremos predecir el valor medio de las Y para un valor x0 de
la variable predictora x.
E (Y / x = x0 ) = + x0
Como y se distribuyen normalmente, entonces tambin se

distribuye normalmente con media y varianza igual a:
2
(
x
x
)
1
Var (Y0 ) = 2 ( + 0
)
n
Sxx
Intervalo de confianza para el valor medio

Un intervalo de confianza del 100(1- )% para el valor medio
de las ys dado que x=x0 es de la forma:
2
(
x
x
)
1
0
+ x0 t(1 / 2,n 2 ) s +
n
Sxx
intervalo de prediccin para un valor individual de Y dado x=x0

es de la forma
2
(
x
x
)
1
0
+ x0 t(1 / 2,n 2 ) s 1 + +
n
Sxx
El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
=
Cov( X , Y )
x y
a) 1 1
b) La media condicional de Y dado X es E(Y / X ) = + x,
donde: = y y = y x
x
c) La varianza condicional de las Y dado X, est dado por
y2 / x = y2 (1 2 )
Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).
Coeficiente de correlacin muestral

Considerando una muestra de n pares (xi,yi)
r =
Notar que:
Sxx
r=
Syy
Sxy
SxxSyy
Sxx
SCR
r =
=
Syy
SCT
2
El cuadrado del coeficiente de correlacin es igual al coeficiente

de determinacin.
Modelos No Lineales y Transformaciones

En el anlisis de regresin generalmente el punto de partida es
considerar que la relacin entre la variable respuesta X y la variable
Y
es lineal. Algunas veces esta relacin lineal es inadecuada. Esta
no linealidad se puede detectar por medio de:
La Prueba de Falta de Ajuste
El Diagrama de Dispersin
Los Grficos de Residuales
Tambin se puede presentar que si la varianza no es constante, los
residuos no son normales, etc. A continuacin se presenta una
situacin en la cual no se presenta la homogeneidad de varianzas. En
otros casos como el de la situacin se conoce que la relacin funcional
entre la variable respuesta
Y
y la variable regresora
X
es
fcil conocer la transformacin, pero cuando no se conoce esta relacin
se pueden utilizar mtodos ms avanzados para determinar el tipo de
transformacin a ejecutar. En otros casos existen muchos modelos o
funciones que no pueden ser llevadas a formas lineales como por
ejemplo
Los siguientes
datos
presentan
el nmero
promedio
Ejemplo
de
un
modelo
No
lineal
de bacterias sobrevivientes dentro de un alimento
a
enlatado y los minutos
de exposicin al calor
1
2
3
4
5
6
7
8
9
10
11
12
Total
175
bacterias
108
95
82
71
50
49
31
28
17
16
11
12
1
tiempo
2
3
4
5
6
7
8
9
10
11
12
12
Resumen del modelo
1
Modelo
a.
a.
Limitado a los primeros 100 casos.
Regresin
Residual
Total
Suma22268,813
de
cuadrados
gl
3348,104
25616,917
1
10
11
,932
a
,869
R cuadrado
R cuadrado
,856
corregida
Error tp.
de la
18,298
estimacin
Variables predictoras: (Constante), tiempo
ANOVA
b
1
Modelo
Media22268,813
cuadrtica F
334,810
66,512
Sig.
,000
a
a.
b.
Coeficientes
a
Variable dependiente: bacterias
1
Modelo
(Constante)
tiempo
Coeficientes no
estandarizados
142,197
11,262
Error tp.
-12,479
1,530
a.
Variable dependiente: bacterias
Coeficientes
estandarizad
os
Beta
t
-,932
12,627
,000
Sig.
-8,155
,000
Anlisis de los residuos

Prueba de la Normalidad
Prueba de Homogenidad de Varianzas
Al tratar de chequear la normalidad

de los errores por medio del grfico
de probabilidad normal de la figura
.Segn este grfico se observa que
este supuesto parece no cumplirse
como lo
Ahora al chequear la homogeneidad de

varianza grficamente por medio de la
figura (errores y tiempo), se observa que
este supuesto no se cumple debido al
patrn curvilneo que presenta el grfico.
Lo anterior nos permite concluir que el modelo lineal

no es adecuado para ajustar los datos. En este caso
se debe transformar la variable respuesta.
Cmo transformarla?
En esta situacin es fcil conocer la
transformacin ya que los datos representan el
crecimiento de las bacterias en el tiempo, para
el cual se conoce que el nmero de bacterias en
el tiempo t , , se modela como
donde n0es el nmero inicial de bacterias y .
Tomando logaritmo natural a ambos lados se
tiene
Cmo se distribuye el error?
Es de observar que el modelo original (1)no tiene errores aditivos ya

que se encuentra multiplicando. As un ajuste de (2), es apropiado
solamente si creemos que el modelo (1) es el adecuado. La
transformacin de nt(Y) en lnnt(Y) ha alterado la estructura del error de
multiplicativo a aditivo. Si nosotros realmente creemos que los errores
son aditivos y que
nosotros no podramos tomar logaritmos y utilizar el mtodo de mnimos
cuadrado. Se tendra que usar mtodos de estimacin no lineal. El
modelo (4) se dice que es intrnsicamente no lineal, mientras que el
modelo (1)es intrnsicamente lineal.
De lo anterior se concluye que para analizar los datos del ejemplo, se
debe transformar la variable como se muestra en la tabla:
Resumen bdel modelo
Diagrama
de
dispersin
del
logaritmo del nmero de bacterias
sobrevientes a travs del tiempo
1
Modelo
a.
b.
,991
a
,982
R cuadrado

Variable dependiente: LnY
Coeficientes
a
Coeficientes
Coeficientes no
estandarizad
estandarizados
os
1
(Constante)
5,339 ,074
72,054 ,000
Modelo
B
Error tp. Beta
t
Sig.
tiempo
-,236 ,010
-,991 -23,459 ,000
a.
Variable dependiente: LnY
R cuadrado
,980
corregida
Error tp.
de la
,12039
estimacin
Cmo interpretar el parmetro estimado ?
Regresin Cuadrtica
Un modelo cuadrtico es de la forma:
Y = a + bX + cX 2 +
donde a, b y c son constantes a estimar. Usando la tcnica de

mnimos cuadrados se pueden obtener frmulas explcitas para
calcular a, b y c.
En SPSS para obtener la ecuacin del modelo cuadrtico,
hay que elegir la opcin Regresion/ curva en la ventana de
dilogo de
Ejemplo
Case Summaries
a
1
2
3
4
5
6
7
8
9
10
Total
1
Tienda
2
3
4
5
6
7
8
9
10
10
Valor
Agregado por
hora-hombre
4,0
($)
3,4
3,5
3,1
2,9
1,9
4,1
3,2
3,8
3,6
10
Tamao de la
tienda ( miles
de pies21,0
cuadrados)
12,0
25,2
10,4
30,9
6,8
19,6
14,5
25,0
19,1
10
a.
Limitado a los primeros 100 casos.
Resumen del modelo y estimaciones de los parmetros
Variable dependiente: Valor Agregado por hora-hombre ($)

Cuadrtico
Ecuacin
,883
R cuadrado F
26,438
Resumen del modelo

2
7
gl1
gl2
Sig.
La variable independiente esTamao de la tienda ( miles de pies cuadrados).
,001
-,120
Constante
Estimaciones de los parmetros

,387
-,009
b1
b2
Modelos No lineales que pueden ser

transformados en lineales
La segunda alternativa para aumentar el R2 consiste en usar modelos no
lineales que pueden ser convertidos en lineales, a travs de transformaciones
tanto de la variable independiente como dependiente.
Nombre del modelo
Ecuacin del Modelo
Transformacin
Modelo Linealizado
Exponencial
Y=eX
Z=Ln Y
X=X
Z=Ln +X
Logartmico
Y= +Log X
Y=Y
W=Log X
Y= +W
Doblemente Logartmico
Y=X
Z=Log Y W=Log X
Z= Log +W
Hiperblico
Y= +/X
Y=Y
W=1/X
Y= +W
Inverso
Y=1/( +X)
Z=1/Y
X=X
Z= +X
Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

inversa de la transformacin correspondiente al mismo.

Regresión Lineal Simple

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regresión Lineal Simple

Enviado por

Direitos autorais:

Formatos disponíveis

REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para

Usos del modelo de regresin

El modelo de Regresin Lineal simple

Estimacin de la lnea de regresin usando

Derivando se obtiene las ecuaciones normales,

Interpretacin de los coeficientes de regresin

La pendiente indica el cambio promedio en la variable de

El intercepto indica el valor promedio de la variable de

Propiedades de los estimadores mnimos cuadrticos

a) es un estimador insegado de . Es decir, E( )=

Propiedades de los residuales

La suma de los residuales es 0. Es decir, ei = 0

Estimacin de la varianza del error

s2 es tambien llamado el cuadrado medio del error

Descomposicin de la suma de cuadrados total

SCT = SCE + SCR

considerar bastante aceptable.

Distribucin de los estimadores mnimos

(Chi-Cuadrado no central con n-1 g.l)

(Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

Inferencia en Regresion Lineal Simple

Inferencia acerca de la pendiente y el

Un intervalo de confianza del 100(1-)% para la pendiente

El nivel de significacin , vara entre 0 y 1.

Intervalo de confianza para el intercepto

Tres Posibles Poblaciones

Pruebas de hiptesis para la pendiente

El anlisis de varianza para regresin lineal

Tabla de Anlisis de Varianza

Se rechazara la hiptesis nula Ho:=0 si el P-value de la

Intervalo de confianza para el valor medio de la

Como y se distribuyen normalmente, entonces tambin se

Intervalo de confianza para el valor medio

intervalo de prediccin para un valor individual de Y dado x=x0

Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).

Coeficiente de correlacin muestral

El cuadrado del coeficiente de correlacin es igual al coeficiente

Modelos No Lineales y Transformaciones

Resumen del modelo

Variables predictoras: (Constante), tiempo

Anlisis de los residuos

Prueba de Homogenidad de Varianzas

Al tratar de chequear la normalidad

Ahora al chequear la homogeneidad de

Lo anterior nos permite concluir que el modelo lineal

Cmo se distribuye el error?

Es de observar que el modelo original (1)no tiene errores aditivos ya

Resumen bdel modelo

Variables predictoras: (Constante), tiempo

Cmo interpretar el parmetro estimado ?

donde a, b y c son constantes a estimar. Usando la tcnica de

Resumen del modelo y estimaciones de los parmetros

Variable dependiente: Valor Agregado por hora-hombre ($)

Resumen del modelo

La variable independiente esTamao de la tienda ( miles de pies cuadrados).

Estimaciones de los parmetros

Modelos No lineales que pueden ser

Ecuacin del Modelo

Para predecir el valor de Y usando el modelo linealizado hay que aplicar la

Você também pode gostar