Você está na página 1de 16

REGRESION LINEAL MULTIPLE

En la regresin lineal mltiple tratamos de determinar la relacin existente entre la variable dependiente
(Y) y dos o ms variables independientes ( X1, X2, X3, ..., XK ) tambin llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables
independientes en conjunto.
La relacin entre las variables regresoras y la variable dependiente se establece mediante el modelo
general de regresin lineal mltiple:
Y 0 1 X 1 2 X 2 3 X 3 k X k

donde 0, 1, 2, ..., k son los parmetros del modelo ( se tienen k variables independientes y p
parmetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y
(al haber ms de dos variables independientes la relacin queda representada por medio de un
hiperplano).
En general i representa la contribucin de cambio esperado en Y por cada incremento unitario en X1
Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo dos variables
independientes
Al utilizar dos variables independientes, el modelo general de regresin lineal mltiple queda representado
por:
Y 0 1 X 1 2 X 2

donde:

0 representa el punto donde el plano corta al eje Y (ahora la relacin entre las dos variables
independientes y Y est representada por un plano).
1 representa el cambio esperado en Y por cada incremento unitario en X 1, siempre y cuando X2
permanezca constante.
2 representa el cambio esperado en Y por cada incremento unitario en X 2, siempre y cuando X1
permanezca constante.
La figura siguiente muestra la relacin entre las variables independientes y Y.

JorgeSaldarriaga

Y 0 1 X 1 2 X 2

X2

X1

ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parmetros del modelo, partiremos de una muestra aleatoria de
tamao n para valores de X1, X2 y Y:
X1i
X11
X12
X13
.
.
.

X2i
X21
X22
X23
.
.
.

Yi
Y1
Y2
Y3
.
.
.

X1n

X2n

Yn

Al utilizar una muestra aleatoria para estimar los parmetros, incurriremos en un error en la estimacin.
Debemos agregar dicho error al modelo de regresin lineal mltiple:
Y 0 1 X 1 2 X 2

donde es un error aleatorio con media 0 y varianza 2.


Cada una de las observaciones de Y se puede representar mediante el modelo anterior:
Yi 0 1 X 1i 2 X 2 i i

Si utilizamos el enfoque de vectores y matrices, las observaciones de Y quedarn representadas


mediante:

JorgeSaldarriaga

Y X

donde:

Y1
Y
2
.

.
Yn

1 X11
1 X
12

.
.

.
.
.
.
1 X1n

1

2
.

X 21

X 22
.

0
1
2

.
X 2n

.
n

El mtodo a utilizar en la estimacin de los parmetros del modelo es el mtodo de mnimos cuadrados.
Dicho mtodo consiste en minimizar la funcin de mnimos cuadrados.
La funcin de mnimos cuadrados est dada por la letra L y es igual a la suma de todos los errores
elevados al cuadrado:
n

L i2
i 1

Si multiplicamos la transpuesta del vector


elevados al cuadrado:

por el mismo vector

obtendremos la suma de los errores

i2
i1

la funcin de mnimos cuadrados quedar como:

L
ahora bien, si de la ecuacin vectorial del modelo de regresin anterior despejamos el error:
Y X

sustituyndolo en L:

L Y X Y X

Al realizar las operaciones anteriores y simplificando se llega a lo siguiente:


L Y Y 2X Y X X 2

JorgeSaldarriaga

e igualando a cero:
Derivando la funcin anterior con respecto de , evaluando para

0
X Y X X

:
despejando

X X 1 X Y

donde:

0

1
2

X1i

i1
n

X X

i1
n

1i

X 2i
i1

X
n

i1

2
1i

X1i X 2i
i1

X1i X 2i
i1

i1

X 2i

i1
n

i1

X Y

X Y

i1

X 22i

1i

X 2i Yi
i1

De esta manera, el modelo de regresin lineal mltiple ajustado queda definido por:


0
1 X1
2 X2
Y

JorgeSaldarriaga

PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLE


PRUEBA DE SIGNIFICANCIA
La prueba de significancia del modelo nos permite determinar estadsticamente si las variables
independientes (en conjunto) tienen efecto o no sobre la variable dependiente.
Para realizar esta prueba se requiere descomponer la suma total de cuadrados, representada por
Syy, en dos componentes: SSR y SSE

Syy = SSR + SSE


Donde:
Syy es la suma total de cuadrados
SSR es la suma de cuadrados de la regresin
SSE es la suma de cuadrados del error
Las ecuaciones apropiadas para calcular las expresiones anteriores son:

i1

Yi

Syy Yi2

i1

SSR X Y

i 1

SSE Syy SSR

Partimos de las hiptesis:


H 0 : 1 2 0
Ha : i 0

Utilizamos la tabla de anlisis de varianza:


Fuente de
Variacin

Suma de
cuadrados

Grados
de libertad

Regresin

SSR

Error

SSE

np

Total

Syy

n1

Media de
cuadrados
SSR
MSR
k
SSE
MSE
np

Estadstico de
prueba
F0

MSR
MSE

El estadstico de prueba F0 tiene una distribucin F (Fisher) con v1 = k y v2 = n p grados de libertad en el


numerador y el denominador, respectivamente.

JorgeSaldarriaga

En este caso, si el estadstico de prueba es mayor que el valor de tablas F , k, n p, se rechaza la hiptesis nula;
concluiremos que la variable independiente est relacionada con al menos una de las variables independientes.

PRUEBAS SOBRE COEFICIENTES INDIVIDUALES


Enlapruebadesignificanciadeterminamossiexisteonorelacinentrelavariable
dependiente y las variables independientes en conjunto, es decir, no se puede
determinarlarelacinentreYycadaunadelasvariablesindependientes.
Se pueden realizar pruebas individuales para analizar la relacin entre la variable
dependienteycadaunadelasvariablesindependientes.

Partimosdelashiptesissiguientes:

H0 : j 0

para j = 1, 2, ..., k

Ha : j 0

el estadstico de prueba apropiado es:

t0

MSE C jj

donde C jj es el valor de la diagonal principal de la matriz inversa ( (XX)-1 ):

X X 1 X1i
i1
n

X 2i
i1

X
i1
n

X
n

i1

1i
2
1i

X1i X 2i
i1

X
n

i1

X X
i1

1i

2i

C 00 C 01 C 02
C10 C11 C12
C 20 C 21 C 22

2i

i1

X 22i

El estadstico de prueba t0 anterior sigue una distribucin t-student con v = n p grados de libertad.
Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas t /2, n p, se rechaza
la hiptesis nula. Como conclusin diremos que la variable independiente Y s est relacionada con la
variable independiente Xj.

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL MULTIPLE

JorgeSaldarriaga

INTERVALOS DE CONFIANZA PARA LOS PARAMETROS DEL MODELO


Sepuedentambinestimarlosparmetrosdelmodelomedianteintervalosdeconfianza.
Para cualquier parmetro, el intervalo de confianza de (1 ) 100% est dado por la
siguienteexpresin:

para j = 0, 1, 2, ..., k
En cuanto a las conclusiones de los resultados obtenidos en los intervalos de
confianzaseaplicauncriteriosemejantealempleadoenlaregresinlinealsimple.
Como0 indicaunpuntodondeelplanocortaralejeY,laconclusindelintervalo
correspondientenodebepresentarproblemaalgunoalahoradelplanteamiento.

Algodiferenteresultaalahoradeconcluirlosintervalosdeconfianzapara
losdemsparmetros:
Siempreycuando j 0, lasconclusionesparacualquierintervalodeconfianza,de
acuerdoalresultadoobtenido,sernlassiguientes:
Sielintervalodeconfianzaparaj resulta a j b , concluiremosqueporcada
incrementoenXjlavariabledependientedisminuir,enpromedio,porlomenos
b yalomucho a veces;siempreycuandolasdemsvariablesindependientes
permanezcanconstantes.
Si el intervalo de confianza para j resulta a j b , concluiremos que por cada incremento en Xj la
variable dependiente aumentar, en promedio, por lo menos a y a lo mucho b veces; siempre y cuando las
dems variables independientes permanezcan constantes.
Ahora bien, Si el intervalo de confianza para j resulta a j b , no se puede afirmar que Xj tenga
efecto sobre la variable dependiente.

JorgeSaldarriaga

INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA OBSERVACION


FUTURA.
Como vimos anteriormente, el modelo de regresin lineal mltiple nos permite establecer la relacin entre
la variable dependiente (Y) con ms de una variables independientes (X1, X2, ..., Xk).
Tambin podemos utilizar el modelo de regresin para encontrar el valor estimado de Y cuando X 1 = X1, 0 y
X2 = X2,0 (cuando hay dos variables independientes en el modelo). Basta introducir los valores
correspondientes de las variables independientes en el modelo:

0
0
1 X1, 0
2 X 2 ,0
Y
En forma matricial:

0 X !0
Y
donde

X0

X1,0
X 2 ,0

Entonces, el intervalo de confianza de (1 ) 100% para el valor esperado de Y est dado por la
expresin:
0 t
Y

,n p

1
0 t
MSE X !0 X X X 0 Y Y

,n p

MSE X !0 X X X 0
1

El intervalo de confianza de (1 a) 100% para una observacin futura de Y est dado por:

0 t
Y

,n p

1
0 t
MSE 1 X !0 X X X 0 Y0 Y

,n p

MSE 1 X !0 X X X 0
1

JorgeSaldarriaga

COEFICIENTE DE DETERMINACION MULTIPLE


El coeficiente de determinacin mltiple nos permite expresar la cantidad de la variabilidad presente en
las observaciones de Y que se explica mediante el modelo de regresin lineal mltiple, cuando se utilizan
la variables independientes, en conjunto, como variables regresoras.
El coeficiente de determinacin mltiple se representa mediante R 2. Toma valores entre 0 y 1. Entre ms
se acerque a 1 el modelo es adecuado, ya que la mayor cantidad en la variabilidad de los datos se explica
mediante el modelo. A medida que el coeficiente se aproxime a cero el modelo deja de ser adecuado, ya
que cantidad de la variabilidad explicada mediante el modelo es pobre.
El coeficiente de determinacin mltiple se expresa como un porcentaje y se calcula mediante la siguiente
expresin:

R2

SSR
Syy

JorgeSaldarriaga

EJERCICIO
A fin de ejemplificar los temas anteriormente vistos, analizaremos el siguiente problema:

El dueo de un restaurante de hamburguesas en la ciudad de Mxico desea determinar la interrelacin


entre la introduccin de aderezos importados y las utilidades que recibe.
Utilidades
Demanda de catsup nacional
Demanda de catsup importada

70
2
50

40
1
65

100
3
75

80
2
30

30
1
45

100
3
35

Con esta informacin determinaremos lo siguiente:


1.- La ecuacin de regresin lineal mltiple.
2.- La prueba de significancia del modelo. = 0.05
3.- Intervalos de confianza del 95 % para los parmetros del modelo.
4.- Intervalos de confianza del 90 % para la utilidad esperada y la futura cuando la demanda de catsup
nacional sea de 4 y la de catsup importada de 50.
5.- El coeficiente de determinacin mltiple.
De acuerdo al enunciado del ejercicio, Y representa a las utilidades, X1 representa a la demanda de catsup
nacional y X2 representa a la demanda de catsup importada.
El objetivo principal es establecer si las dos variables independientes tienen efecto o no sobre las
utilidades del restaurante, a fin de establecer diferencias entre las dos. Es decir, si es indiferente cual de
las dos variables utilizar en el proceso.
A fin de solucionar cada uno de los incisos del ejercicio, empezaremos calculando las sumatorias de los
valores de X1, X2 y Y.
n=
X1 =
X12 =
X2 =
X22 =

6
12
28
300
16500

X1X2 =
Y =
Y2 =
X1Y =
SX2Y =

600
420
33800
970
20850

JorgeSaldarriaga

1
0

X X 1 X Y entonces:
Puesto que

6
12
300

12
28
600

300
600
16500

420
2.833333

0. 5
970
20850
0.033333

0.5
0.25
0

0.033333

.0006666

420
10

970 32.5
20850
0.1

de aqu, entonces, el modelo de regresin lineal mltiple solicitado en el inciso 1 es:

10 32.5 X1 0.1X 2
Y
a partir del modelo anterior, podemos concluir lo siguiente:

El plano de regresin cortar al eje Y en y = 10.


Por cada incremento en la demanda de catsup nacional, las utilidades se incrementarn 32.5
veces, en promedio; siempre y cuando la demanda de catsup importada permanezca constante.
Por cada incremento en la demanda de catsup importada, las utilidades disminuirn 0.1 veces, en
promedio; siempre y cuando la demanda de catsup nacional permanezca constante.

Para realizar la prueba de significancia en el inciso 2, calcularemos primero los valores de Syy, SSR y
SSE:
Syy Y
2

n
420 2
Syy 33800
6
Syy 4400

SSR X Y

420
2

420

SSR 10 32.5 0.1 970


6
20850
SSR 4240
SSE Syy SSR
SSE 4400 4240
SSE 160

Planteamos las hiptesis:

JorgeSaldarriaga

11

H 0 : 1 2 0
Ha : i 0

el nivel de significancia de la prueba es de 0.05.


Realizando la tabla de anlisis de varianza:
Fuente de
Variacin

Suma de
cuadrados

Grados
de libertad

Regresin

4240

Error

160

Total

4400

Media de cuadrados
4240
2120
2
160
MSE
53.3333
3

MSR

Estadstico de prueba

F0

2120
39.75
53.3333

El valor de tablas de la distribucin F con = 0.05, v1 = 2 y v2 = 3 grados de libertad en el numerador y el


denominador, respectivamente, es 9.55.
Al comparar el estadstico de prueba contra el valor de tablas vemos que F 0 es mayor que F, 2, 3;
rechazamos la hiptesis nula. Por lo tanto, podemos afirmar que las utilidades del restaurante estn
significativamente relacionadas con la demanda de catsup nacional con la demanda de catsup
importada con ambas.
A fin de determinar exactamente con cuales variables se relaciona la variable Y, realizaremos pruebas de
hiptesis sobre coeficientes individuales.
Para determinar si la demanda de catsup nacional tiene efecto o no sobre las utilidades, planteamos los
siguiente.
H 0 : 1 0
H a : 1 0

el estadstico de prueba es:

t0

MSE C11

32.5
53.3333 0.25
t 0 8.9
t0

El valor de tablas de la distribucin t-student con = 0.025 y v = 3 grados de libertad es 3.182.


Comparando el valor absoluto del estadstico de prueba con el valor de las tablas, notamos que t 0 es
mayor que t, 3 por lo que rechazamos la hiptesis nula. Concluiremos entonces que la demanda de
catsup nacional s tiene efecto significativo sobre las utilidades del restaurante.

JorgeSaldarriaga

1
2

La siguiente prueba de hiptesis nos permitir determinar si la demanda de catsup importada tiene o no
efecto sobre las utilidades:
H0 : 2 0
Ha : 2 0

el estadstico de prueba es:

t0

MSE C 22

0.1
53.3333 0.0006666
t 0 0.53
t0

El valor de tablas de la distribucin t-student con = 0.025 y v = 3 grados de libertad es 3.182.


Al comparar el valor absoluto del estadstico de prueba con el valor de las tablas, vemos que t 0 es menor
que t, 3 por lo que no se puede rechazar la hiptesis nula. Lo anterior nos lleva a concluir que no
existen los elementos suficientes para afirmar que la demanda de catsup importada tenga efecto
sobre las utilidades del restaurante.

En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parmetros del modelo (0, 1 y
2)
Como el intervalo de confianza es del 95 %, el valor de es igual a 0.05.
El valor de tablas de la distribucin t-student con 0.025 y 3 grados de libertad es de 3.182
El intervalo de confianza del 95% para 0 queda de la siguiente manera:
0 t

2 ,n p

0 t
MSE C 00 0

2 ,n p

MSE C 00

10 3.182 53.3333 2.833333 0 10 3.182 53.3333 2.833333


29.1154 0 49.1154

Como conclusin, se afirmar con un 95% de certeza que la ordenada en el origen ser por los menos
-29.1154 y a lo mucho 49.1154. Este es el rango de valores por donde cortar el plano al eje Y.
El intervalo de confianza del 95% para 1 lo calculamos de la siguiente manera:

JorgeSaldarriaga

1
3

1 t

2 ,n p

1 t
MSE C11 1

2 ,n p

MSE C11

32.5 3.182 53.3333 0.25 1 32.5 3.182 53.3333 0.25


20.8809 1 44.1190

Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95% de certeza que
por cada incremento en la demanda de catsup nacional, las utilidades se incrementarn por lo
menos 20.8809 y a lo mucho 44.1190 veces, en promedio; siempre y cuando la demanda de catsup
importada permanezca constante.
Por ltimo, para calcular el intervalo de confianza del 95 % para 2:
2 t

2 ,n p

2 t
MSE C 22 2

2 ,n p

MSE C 22

0.1 3.182 53.3333 .000666 2 0.1 3.182 53.3333 0.000666


.6997 2 .4997

En el resultado anterior se tienen un valor negativo y uno positivo a la izquierda y a la derecha,


respectivamente; simplemente no se puede afirmar que la demanda de catsup importada tenga efecto
sobre las utilidades.
En el inciso 4 se requiere calcular intervalos de confianza del 90% para la respuesta media y para una
observacin futura de la utilidad del restaurante cuando la demanda de castup nacional es de 4 y la de
catsup importada sea de 50.
Aqu el intervalo de confianza solicitado es de 90%, por lo que el valor de ser igual a 0.10
El valor de tablas de la distribucin t-student con 0.05 y 3 grados de libertad es: 2.353.
Primero se tiene que calcular la utilidad estimada cuando X1 = 4 y X2 = 50.
En forma matricial:

0 X !0
Y
0 1
Y

10

50 32.5
0.1

0 135
Y

Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup importada sea de 50, las
utilidades esperadas del restaurante sern de 135 unidades.

El intervalo de confianza del 90% para la utilidad esperada est dado por:

JorgeSaldarriaga

1
4

0 t
Y Y
Y 135 2.353 53.33331

,n p

MSE X !0 X X
2.83333
50
0. 5
0.03333

X0

0.5

0.03333

0.000666

0.25
0

1
4

50

116.45 Y 153.55

Se puede afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada sea de 50, la utilidad esperada del restaurante ser por lo menos 116.45 y a lo
mucho 153.55 unidades.
El intervalo de confianza del 90 % para la observacin futura de la utilidad del restaurante bajo las mismas
condiciones de X1 y X2 est dado por:
0 t
Y0 Y

2 ,n p

MSE 1 X !0 X X X 0

2.83333 0.5

Y0 135 2.353 53.3333 1 1 4 50


0.5
0.25

0.03333
0

109.7139 Y0 160.2861

0.03333

0.000666

1
4


50

Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada de 50, la utilidad del restaurante ser por lo menos 109.7139 y a lo mucho
160.2861 unidades.
Por ltimo, en el inciso 5 se pide calcular e interpretar el coeficiente de determinacin mltiple:
SSR
Syy
4240
R2
4400
R 2 .9636
R2

esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica mediante el
modelo de regresin lineal mltiple:

10 32.5 X1 0.1X 2
Y
cuando se utilizan la demanda de catsup nacional y la demanda de catsup importada como
variables regresoras.
A continuacin se muestran los resultados del ejercicio anterior calculados en una hoja de clculo
diseada para resolver los problemas de regresin lineal mltiple (con 2 variables independientes).

JorgeSaldarriaga

1
5

JorgeSaldarriaga

1
6