Você está na página 1de 19

REGRESION LINEAL MULTIPLE

Introduccin a los modelo de regresin.


Los Modelos de Regresin estudian la relacin estocstica cuantitativa
entre una variable de inters y un conjunto de variables explicativas. Estos
modelos son muy utilizados y su estudio conforma un rea de investigacin
clsica dentro de la disciplina de la Estadstica desde hace muchos aos.
La formulacin matemtica de estos modelos es la siguiente
!onde es el error de observacin debido a variables no controladas.
"uando se estudia la relacin entre una variable de inters# variale
res!uesta o variale de!endiente $y% y un con"unto de variales
regresoras #e$!licativas% inde!endientes& $&'# &(#).etc.%, puede darse
las siguientes situaciones*
Existe una relacin funcional entre ellas# en el sentido de +ue l conocimiento
de las variables regresoras determinan completamente el valor +ue toma la
variable respuesta esto es*
Ejemplo* la relacin +ue existe entre el tiempo$y% +ue tarda un mvil en
recorrer una distancia y dicha distancia$x% a velocidad constante
,o existe ninguna relacin entre la variable respuesta y las variables
regresoras# en el sentido de +ue el conocimiento de estas no proporciona
ninguna informacin sobre el comportamiento de la otra.
Ejemplo*
La relacin +ue existe entre el dinero $y% +ue gana una persona adulta
mensualmente y su altura $x%.
El caso intermedio# existe una relacin estoc'stica entre la variable
respuesta y las variables regresoras# en el sentido de +ue el conocimiento
de stas permiten predecir con mayor o menor exactitud el valor de la
variable respuesta. -or tanto siguen un modelo de la forma#
.iendo m la funcin de regresin desconocida y una variable aleatoria de
media cero $el error de observacin%.
Las relaciones estocsticas son las +ue ocurren en la mayora de las
situaciones y su estudio se corresponde con los denominados Modelos de
Regresin.
El objetivo bsico en el estudio de un modelo de regresin es el de
estimar la funcin de regresin# m# y el modelo probabilstico +ue sigue el
error aleatorio # sto es# estimar la funcin de distribucin F de la variable
de error. La estimacin de ambas funciones se hace a partir del
conocimiento de una muestra de las variables en estudio#
.
/na vez estimadas estas funciones se tiene conocimiento de*
La relacin funcional de la variable respuesta con las variables regresoras#
dada por la funcin de regresin +ue se de0ne como sigue#

Esto permite tener una idea general del comportamiento de la
variable respuesta en funcin de las regresoras
.e puede estimar y predecir el valor de la variable respuesta de un individuo
del +ue se conocen los valores de las variables regresoras. 1sto es# de un
individuo t se sabe +ue X
'
2 x
',t
,...,X
k
2 x
k,t
# entonces se puede predecir el
valor de Y
t
y calcular un intervalo de prediccin del mismo.
PRE(I))ION EN EL MO(ELO (E REGRESION LNEAL MULTIPLE
3azonando como en el modelo de regresin lineal simple# se deben
distinguir dos problemas diferentes*
Estimar la media de la distribucin condicionada de Y/ 2
t
. Esto es# se
+uiere estimar el parmetro
Predecir el valor de la variable respuesta en un individuo del +ue se
conoce +ue 2
h
. Esto es# se +uiere predecir un valor de la variable
condicionada Y/ 2
h
.
Estimacin de las medias condicionadas.
/na vez +ue se ha ajustado el modelo de regresin lineal por mnimos
cuadrados se obtiene
El estimador de la media de la distribucin condicionada de Y/ 2
t
, esto
es# del parmetro m
t
2 E # se obtiene sustituyendo
t
en el modelo
de regresin. 4bteniendo
Este estimador tiene las siguientes propiedades*
'.5Es un estimador centrado o insesgado# E 2 m
t
2 E
(.5La varianza del estimador
t
es V ar 2
(
h
tt
, donde h
tt
2
t
t 5'
t

es el valor de in*uencia o 6leverage7 asociado al vector
t
. La
interpretacin de este valor es la expuesta en la seccin 8.9
.e de0ne el inverso de h
tt
como el n+mero e,uivalente de
oservaciones para estimar m
t
, valor +ue se denota por n
t
2 '/h
tt
.
La interpretacin de n
t
es la siguiente* la informacin +ue proporciona la
muestra# de tamao n#
i 2 '
n
para estimar m
t
es la misma +ue
proporcionara una muestra de tamao n
t
de observaciones
j 2 '
n
h
de una
poblacin con distribucin igual a la condicionada de Y/ 2
t
.
-ara todas las observaciones muestrales
i
, i 2 ',...,n, se veri0ca +ue
:dems para cual+uier valor de
t
se veri0ca +ue el valor de n
t
ser mayor
cuanto ms prximo est
t
de y cuando
t
2 se obtiene +ue n
t
2 n, valor
mximo +ue puede tomar. ;nversamente# si la distancia entre
t
y crece
entonces el valor de n
t
disminuye# y si esta distancia se hace in0nitamente
grande $se extrapola% el valor de n
t
se aproxima a cero.
<.5La distribucin de
t
es normal. -or tanto#
=.5"omo en la prctica el parmetro
(
es desconocido# el estadstico pivote
t
no se puede utilizar para calcular intervalos de con0anza y es necesario
sustituir
(
desconocido por un estimador#
R
(
. 4bteniendo el siguiente
estadstico pivote
t

$8.<(%
-or la hiptesis de normalidad se sigue +ue la distribucin de
t
es
$8.<<%
'.5!e $8.<<% se obtiene +ue un intervalo de con0anza de m
t
con un nivel de
con0anza es
$8.<=%
:l estimar una media condicionada utilizando el modelo de regresin se
debe de tener en cuenta +ue los resultados son razonables dentro del rango
de valores de las variables regresoras $inter!olar% donde se veri0ca +ue
' > n
t
> n y# en particular# para
t
2 se veri0ca +ue n
t
2 n, y la estimacin
de m
t
tiene la menor varianza. .i
t
es un vector alejado de , entonces n
t
es
pe+ueo y V ar grande# obtenindose estimaciones poco precisas.
?inalmente# si se estima la media condicionada m
t
fuera del rango de
valores de $e$tra!olar%# entonces puede ocurrir +ue n
t
@# lo +ue hace
+ue la precisin de la estimacin de m
t
sea muy pe+uea.
Prediccin de una oservacin.
.e desea !redecir el valor de la respuesta# Y # de un individuo del +ue se
sabe +ue 2
t
# utilizando el ajuste de un modelo de regresin lineal de la
variable Y respecto al vector de variables regresoras .
El predictor +ue minimiza el Error "uadrtico Aedio de -rediccin# E
viene dado por
-or tanto# la prediccin de Y
t
2 Y/ 2
t
es el mismo valor +ue se
obtiene en la estimacin de m
t
pero su varianza es mayor.
El predictor
t
veri0ca las siguientes propiedades*
'. La prediccin es centrada# ya +ue# E 2 E
(. La varianza de la prediccin es#
<. -ara calcular intervalos de prediccin de y
t
se utilizar el siguiente
estadstico pivote
$8.<B%
=. /n intervalo de prediccin de y
t
con nivel de con0anza viene dado por

Los intervalos de prediccin +ue se obtienen son mucho mayores +ue los
intervalos de con0anza de la media condicionada m
t
ya +ue la varianza ha
aumentado.
An'lisis de un caso de un modelo de regresin lineal m+lti!le.
En esta seccin se presenta el desarrollo en detalle de un supuesto prctico
del modelo de regresin lineal mCltiple con dos variables regresoras# en los
clculos se utiliza toda la teora expuesta en este captulo.
E"em!lo -...
6Los datos de la tabla adjunta proporcionan el volumen $en pies cCbicos%#
altura $en pies% y dimetro $en pulgadas# medido a B= pulgadas del suelo%
de una muestra de <' rboles del tipo cerezo negro# en el :llegheny
,ational ?orest# en -ensilvania. "on estos datos se +uiere hacer un
estudio sobre el rendimiento de la madera y# para ello# se ajusta un
modelo de regresin lineal +ue permita predecir el volumen de un rbol
cuando se conoce su altura y dimetro7.
!atos del ejemplo 8.'.
Estimacin de los coe/cientes del modelo de regresin son
El modelo estimado es
-ara calcular la varian0a residual# dado +ue
i 2 '
n
y
i
(
2 <D.<(=
E
FF,
utilizando $8.''% se obtiene
La matri0 de varian0as de los estimadores puede aproximarse por
Intervalos de con/an0a al 123 de los parmetros del modelo.
-ara la varianza
(

-ara la varianza
(
@
-ara
'
$dimetro%
-ara
(
$altura%
)ontrastes individuales de la t para los coe0cientes del modelo de
regresin.
"ontraste C
@
# H
@
*
@
2 @ frente a H
'
*
@
@.
"ontraste C
'
$dimetro%# H
@
*
'
2 @ frente a H
'
*
'
@.
-or tanto la variable 6dimetro7 inGuye y explica el comportamiento
de la variable respuesta 6volumen7.
"ontraste C
(
$altura%# H
@
*
(
2 @ frente a H
'
*
(
@.
-or tanto la variable 6altura7 inGuye y explica el comportamiento de
la respuesta 6volumen7.
Tala ANO4A. )ontraste con"unto de la 5.
.e obtiene la siguiente tabla :,4H:#
Tala ANO4A
?uentes de .uma de Irados de Harianzas
Hariacin "uadrados libertad
-or el
modelo
9.D8=
E
'D (
e
(
2 <.8=(
E
@8
3esidual =('
E
F( (8
R
(
2 'B
E
@D
Ilobal 8.'@D
E
@8 <@
y
(
2 (9@
E
(@
"on estos datos se obtiene el siguiente estadstico del contraste conjunto de
la F,
.e rec6a0a la no inGuencia del modelo en la variable respuesta. En base
a los resultados de los contrastes individuales de la t y el contraste conjunto
de la F se deduce la inGuencia de cada una de las dos variables regresoras y
la inGuencia conjunta del modelo de regresin en la variable de inters#
6volumen7 de los rboles.
)ontraste individual de la 5.
: continuacin se estudia el contraste sobre la inGuencia individual de la
variable dimetro en la respuesta volumen# utilizando el contraste individual
de la F.
/na vez calculado el modelo de regresin completo $con las dos
variables regresoras%
La tabla :,4H: del modelo completo es
Tala ANO4A #modelo com!leto&
?uentes de .uma de Irados de Harianzas
Hariacin "uadrados libertad
-or el
modelo
9.D8=
E
'D (
e
(
2 <.8=(
E
@8
3esidual =('
E
F( (8
R
(
2 'B
E
@D
Ilobal 8.'@D
E
@8 <@
y
(
2 (9@
E
(@
.e calcula la regresin de volumen respecto a la altura
La tabla :,4H: de este modelo es
Tala ANO4A #una regresora&
?uentes de .uma de Irados de Harianzas
Hariacin "uadrados libertad
-or altura (.F@'
E
'F '
e
(
2 (.F@'
E
'F
3esidual B.(@=
E
F@ (F
R
(
2 '9F
E
=8
Ilobal 8.'@D
E
@8 <@
y
(
2 (9@
E
(@
La suma de cuadrados incremental debida a la variable dimetro es
Este valor indica lo +ue aumenta la variabilidad explicada por el modelo al
introducir la variable dimetro.
-ara contrastar la inGuencia o no de la variable altura se utiliza el
estadstico
En este contraste se obtiene el mismo p5valor +ue el obtenido con el
contraste individual de la t.
)oe/cientes de determinacin 7 de correlacin.
El coe0ciente de determinacin
El modelo ajustado explica el F=
E
9FJ de la variabilidad de la respuesta.
El coe0ciente de correlacin mCltiple#
El coe0ciente de determinacin corregido por el nCmero de grados de
libertad#
El coe0ciente de correlacin mCltiple corregido por el nCmero de grados
de libertad#
El coe0ciente de correlacin simple entre las variables volumen y altura#
Es una medida de la relacin lineal existente entre las variables volumen
y altura.
4tra forma de calcular el coe0ciente de correlacin simple es hacerlo a
partir del coe0ciente de determinacin de la siguiente regresin lineal
simple#
La tabla :,4H: de este modelo es
Tala ANO4A
?uentes de .uma de Irados de Harianzas
Hariacin "uadrados libertad
-or altura (.F@'
E
'F '
e
(
2 (.F@'
E
'F
3esidual B.(@=
E
F@ (F
R
(
2 '9F
E
=8
Ilobal 8.'@D
E
@8 <@
y
(
2 (9@
E
(@
!e donde#

El coe0ciente de correlacin parcial entre las variables volumen y altura
controlado por la variable dimetro. /tilizando la relacin $8.<'% se obtiene
/na forma ms complicada de obtener este coe0ciente es la siguiente* se
calculan las siguientes regresiones lineales simples y se guardan los
residuos#
El coe0ciente de correlacin parcial entre las variables volumen y
altura se obtiene como el coe0ciente de correlacin simple entre las
variables e
vol.diam
y e
alt.diam

Este coe0ciente proporciona una medida de la relacin entre las
variables volumen y altura libres de la inGuencia de la variable dimetro. .i
se +uiere comparar con el coe0ciente de correlacin lineal simple de las
variables volumen y altura# se obtiene +ue
El coe0ciente de correlacin parcial entre las variables volumen y
dimetro controlado por la variable altura es $se utiliza la relacin $8.<'%%
Estimacin de la media condicionada.
6Estimar el volumen medio de los rboles de dimetro '@ y altura 8@
7.
La estimacin de la media es
El valor de inGuencia asociado a la observacin
t
2 2 es
La varianza del estimador#
/n intervalo de con0anza al F@J de m$ % es

Prediccin.
6-redecir el volumen del rbol de la plantacin numerado con el '@@
+ue tiene un dimetro '@ y una altura de 8@7.
La prediccin es
La varianza de la prediccin es
/n intervalo de prediccin al F@J es

En la tabla adjunta se obtienen las predicciones# intervalos de con0anza e
intervalos de prediccin para diferentes valores de
t
. Kener en cuenta +ue
2 2

89Es ueno el modelo de regresin a"ustado: 9Se !uede
me"orar este modelo:;.
El modelo de regresin ajustado es
Las caractersticas de las estimaciones se recogen en la siguiente tabla
Modelo . t p 5 valor
)onstant
e
5B9
E
F88 8
E
D<8 5D
E
9'< @
E
@@@
(i'metro =
E
9@8 @
E
(D= '9
E
8'D @
E
@@@
Altura @
E
<<F @
E
'<@ (
E
D@9 @
E
@'=
Las dos variables regresoras son signi0cativas. La tabla :,4H: del modelo
es

Modelo
.
.uma de
cuadrad
os
g.l. varianza F p 5 valor
3egresi
n
9D8=
E
'D< ( <8=(
E
@8' (B=
E
F9( @
E
@@@
3esidual =('
E
F(' (8 'B
E
@DF
Ilobal 8'@D
E
@8= <@ (9@
E
(@<
R
(
2 @
E
F9=
(
2 @
E
F==
R
2 <
E
88(
La bondad del ajuste del modelo de regresin es alta. !os gr0cos de
inters son el gr0co de predicciones $y% frente a la respuesta observada
$y% y el gr0co de residuos $e% frente a las predicciones $y%# estos gr0cos se
representan en las ?iguras 8.<. y 8.=.
En el gr0co de predicciones se observa +ue el ajuste es razonablemente
bueno ya +ue las predicciones estn prximas a los valores observados $los
puntos se acercan a la diagonal%# pero en el gr0co de residuos se observa
+ue el comportamiento de los residuos no es adecuado ya +ue los puntos
parecen seguir una parbola.
Ir0co de predicciones frente a la respuesta.
Ir0co de residuos frente predicciones.
.e ajusta un modelo de regresin introduciendo un trmino cuadrtico# la
variable regresora 6dimetro al uadrado7. Los resultados de este nuevo
ajuste son los siguientes*
Los contrastes individuales son*
Modelo < t p 5 valor
)onstant
e
5F
E
F(@ '@
E
@9F 5@
E
F8= @
E
<<=
(i'metro 5(
E
88B '
E
<'@ 5(
E
(@< @
E
@<D
(i'metro
(
@
E
(DF @
E
@=D B
E
8B( @
E
@@@
Altura @
E
<9D @
E
@88 =
E
(DD @
E
@@@
Las tres variables son signi0cativas con 2 @
E
@B# la tabla :,4H: del nuevo
modelo ajustado es*
Modelo
<
.uma de
cuadrad
os
g.l. varianza F p 5 valor
3egresi
n
9F(@
E
@9( < (D=@
E
@(= <8<
E
(@B @
E
@@@
3esidual '8D
E
@'( (9 D
E
88F
Ilobal 8'@D
E
@8= <@ (9@
E
(@<
R
(
2 @
E
F88
(
2 @
E
F9B
R
2 (
E
D(B
El segundo modelo mejora al primero ya +ue el coe0ciente 3
(
ha aumentado
y la varianza residual ha disminudo. En el gr0co de predicciones $y% frente
a la respuesta $y%. en el gra0co de predicciones se observa +ue los puntos
se ajustan mejor a la diagonal. En el el gr0co de residuos $e% frente a las
predicciones $y% se observa un mejor comportamiento de los residuos y
parece +ue se cumplen las hiptesis estructurales.
Ir0co de predicciones frente a la respuesta.
Ir0co de residuos frente a predicciones
UNI4ERSI(A( AUTONOMA (E )O=UILA
5A)ULTA( (E MER)A(OTE)NIA
ANALISIS MULTI4ARI>LE

REGRESI?N LINEAL M@LTIPLE
PRO5.A RAMIRO MORENO
ALUMNO#A&A 5A>IOLA )OSS LUNA
Saltillo% )oa6. A <. de noviemre de <22B.

Você também pode gostar