Escolar Documentos
Profissional Documentos
Cultura Documentos
INTRODUCCIN
Como la Estadstica Inferencial nos permite trabajar con una variable a nivel de
intervalo o razn, as tambin se puede comprender la relacin de dos o ms
variables y nos permitir relacionar mediante ecuaciones, una variable en relacin
de la otra variable llamndose Regresin Lineal y una variable en relacin a otras
variables llamndose Regresin mltiple.
1
M. C. Juan Vicente Calvario Gmez
Estadstica II
y 0 1 x1 2 x 2 Ec.1
y 0 1 x1 2 x2 ... k xk
Ec. 2
ESTIMACION DE PARMETROS
y i 0 1 xi1 2 xi 2 k xik i
2
M. C. Juan Vicente Calvario Gmez
Estadstica II
k
yi 0 j xij i ; con i 1, 2, , n Ec. 3
i 1
n
L ei2
i 1
2
n
k
L y i 0 i xij Ec, 4
i 1 i 1
n n n n
n 0 1 xi1 2 xi 2 k x ik y i
i 1 i 1 i 1 i 1
n n n n n
0 xi1 1 x 2
i1 2 xi1 xi 2 k x x
i1 ik x i1 yi
i 1 i 1 i 1 i 1 i 1
n n n n n
0 xik 1 xik xi1 2 xik xi 2 k x 2 ik x ik yi
i 1 i 1 i 1 i 1 i 1 Ec. 5
Ntese que hay p = k + 1 ecuaciones normales, una para cada uno de los coeficientes de
regresin desconocidos. La solucin para las ecuaciones normales sern los estimadores
de mnimos cuadrados de los coeficientes de regresin.
Es ms simple resolver las ecuaciones normales s ellas se expresan en notacin de
matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afn al
desarrollo de la ecuacin 5. El modelo en trminos de las observaciones, ecuacin 4,
puede escribirse en notacin matricial como:
Y = X + ; donde:
3
M. C. Juan Vicente Calvario Gmez
Estadstica II
n
L ei2 y x y x
i 1
L y y x y yx xx
L y y 2 x y xx Ec. 6
xx x y Ec.7
Las ecuaciones 7 son las ecuaciones normales de mnimos cuadrados.
Ellas son idnticas a las ecuaciones 5. Para resolver las ecuaciones normales,
multiplquense ambos lados de la ecuacin 7 por la inversa de XX. De tal modo, el
estimador de mnimos cuadrados de es:
xx x y
1
Ec.8
Es fcil ver que la forma matricial de las ecuaciones normales es idntica a la de la
4
M. C. Juan Vicente Calvario Gmez
Estadstica II
n n n
n
n xi1 xi 2 xik
0
y j
n
i 1
n n
i 1
n
i 1
n
i 1
xi1 xi 2 xi1 xik 1 yj
x
i 1
i1 x
i 1
2
i1
i 1 i 1
x
i 1
i1
n n n n
n
k
xik
i 1
xik xi1
i 1
i 1
x x
ik i 2 i 1
x 2
ik
xik y j
i 1
ei y y Ec. 10
5
M. C. Juan Vicente Calvario Gmez
Estadstica II
para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para
abastecer una mquina vendedora de refrescos, con el nmero de latas que incluye la
misma, y la distancia del vehculo de servicio a la ubicacin de la mquina. Este modelo
se emple para el diseo de la ruta, el programa y el despacho de vehculos.
y 0 1 x1 2 x 2
Ajustaremos el modelo de regresin lineal mltiple.
La matriz x y el vector Y para este modelo son:
1 2 50 9.95
1 8 110 24.45
1 11 120 31.75
1 10 550 5.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
1 11 400 37.00
x1 12 500 y 41.95
1 2 360 11.66
1 4 205 21.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.92
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15
La matriz x es:
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5
50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400
6
M. C. Juan Vicente Calvario Gmez
Estadstica II
La matriz xx es:
1 2 50
1 1 1
1 8 110
xx 2 8 5
50 110 400
1 5 400
25 206 8294
xx 206 2396 77177
8294 77177 3531848
Y el vector xy es:
9.95
1 1 1 695.81
24 .45
x y 2 8 5 7708.37
50 110 400 258311.31
21.15
Los estimadores de mnimos cuadrados se encuentran en la Ec.:
xx x y
1
Ec.8
0
1
25 206 8,294 695.81
206 2,396 77,177 7,708.37
1
2 8,294 77,177 3531,848 258,311.31
0 0.214653 0.007491 0.000340 695.81
1
7
M. C. Juan Vicente Calvario Gmez
Estadstica II
Y 3.68835 2.77992 x1 0.00373x2 x1 X2 2.77992 *x1 0.00373 *x2 Y
3.68835 2.77992 0.00373 2 50 139 0.1865 9.43469
1 y
3.68835 2.77992 0.00373 8 110 305.79120 0.4103 26.33801
2 y
3.68835 2.77992 0.00373 11 120 333.59040 0.4476 34.71507
3 y
3.68835 2.77992 0.00373 10 550 1,528.95600 2.0515 33.53905
4 y
3.68835 2.77992 0.00373 8 295 820.07640 1.10035 27.02806
5 y
3.68835 2.77992 0.00373 4 200 555.98400 0.746 15.55403
6 y
3.68835 2.77992 0.00373 2 375 1,042.47000 1.39875 10.64694
7 y
3.68835 2.77992 0.00373 2 52 144.55584 0.19396 9.44215
8 y
3.68835 2.77992 0.00373 9 100 277.99200 0.373 29.08063
9 y
3.68835 2.77992 0.00373 8 300 833.97600 1.119 27.04671
10 y
3.68835 2.77992 0.00373 4 412 1,145.32704 1.53676 16.34479
11 y
3.68835 2.77992 0.00373 11 400 1,111.96800 1.492 35.75947
12 y
3.68835 2.77992 0.00373 12 500 1,389.96000 1.865 38.91239
13 y
3.68835 2.77992 0.00373 2 360 1,000.77120 1.3428 10.59099
14 y
3.68835 2.77992 0.00373 4 205 569.88360 0.76465 15.57268
15 y
3.68835 2.77992 0.00373 4 400 1,111.96800 1.492 16.30003
16 y
3.68835 2.77992 0.00373 20 600 1,667.95200 2.238 61.52475
17 y
3.68835 2.77992 0.00373 1 585 1,626.25320 2.18205 8.65032
18 y
3.68835 2.77992 0.00373 10 540 1,501.15680 2.0142 33.50175
19 y
3.68835 2.77992 0.00373 15 250 694.98000 0.9325 46.31965
20 y
3.68835 2.77992 0.00373 15 290 806.17680 1.0817 46.46885
21 y
3.68835 2.77992 0.00373 16 510 1,417.75920 1.9023 50.06937
22 y
3.68835 2.77992 0.00373 17 590 1,640.15280 2.2007 53.14769
23 y
3.68835 2.77992 0.00373 6 100 277.99200 0.373 20.74087
24 y
3.68835 2.77992 0.00373 5 400 1,111.96800 1.492 19.07995
25 y
8
M. C. Juan Vicente Calvario Gmez
Estadstica II
La tabla 3 muestra los valores ajustados de Y y los residuales. Los valores ajustados
y los residuales se calculan con la misma precisin que los datos originales.
Tabla 3: Observaciones, valores ajustados y residuos para el ejemplo 1.
No. De Obs.
yi yi e yi yi yi2
1 9.95 9.43469 -0.51531 99.0025
2 24.45 26.33801 1.88801 597.8025
3 31.75 34.71507 2.96507 1008.0625
4 5 33.53905 28.53905 25
5 25.02 27.02806 2.00806 626.0004
6 16.86 15.55403 -1.30597 284.2596
7 14.38 10.64694 -3.73306 206.7844
8 9.6 9.44215 -0.15785 92.16
9 24.35 29.08063 4.73063 592.9225
10 27.50 27.04671 -0.45329 756.25
11 17.08 16.34479 -0.73521 291.7264
12 37 35.75947 -1.24053 1369
13 41.95 38.91239 -3.03761 1759.8025
14 11.66 10.59099 -1.06901 135.9556
15 21.65 15.57268 -6.07732 468.7225
16 17.89 16.30003 -1.58997 320.0521
17 69 61.52475 -7.47525 4761
18 10.30 8.65032 -1.64968 106.09
19 34.92 33.50175 -1.41825 1220.1049
20 46.59 46.31965 -0.27035 2170,6281
21 44.88 46.46885 1.58885 2014.2144
22 54.12 50.06937 -4.05063 2928.9744
23 56.63 53.14769 -3.48231 3206.9569
24 22.13 20.74087 -1.38913 489.7369
25 21.15 19.07995 -2.07005 447.3225
25,977.83310
i 1
SS E ee
Al sustituir
e y y y x , y considerando que
xx x y , queda:
SS E y y x y Ec. 11
9
M. C. Juan Vicente Calvario Gmez
Estadstica II
Puede mostrarse que el valor esperado de MSE es 2 , por lo que un estimador neutral
de 2 esta dado por:
2
MS E Ec. 13
Ejemplo 2: Estimaremos la varianza del error 2 para el problema de la regresin
mltiple en el ejemplo 1. Considerando que:
25
y y yi2 25,977.83310
i 1 y;
695.81
x y 3.68835 2.77992 0.00373 7,708.37
258,311.31
F1C1
2,566.3908135
21,428.651930
4
963.50118630 x y
0
24,958.543930 Por consiguiente la suma de cuadrados del error es:
2
SS E y y x y
SS E 25,977.8331 24,958.5439302
SS E 1,019.2891698
La estimacin de 2 es:
SS E 1,019.2891698
2 46.3313259
n p 25 3
10
M. C. Juan Vicente Calvario Gmez
Estadstica II
matriz de covarianza
2 xx 1 . Entonces cada una de las estadsticas
jj
; con j 0, 1, , k Ec. 14
2
C jj
C jj
Se distribuye como t con n p grados de libertad, donde es el elemento jjsimo de
la matriz
xx 1
,y
2
es la estimacin de la varianza del error, obtenida de la Ec. 13
j , j 0,1, , k es :
regresin
2 2
t / 2, n p C jj j t / 2, n p C jj Ec. 15
diagonal de
x x 1
correspondiente a
1 es C11 0.001671 . La estimacin de 2
t
t 0.025, 22 2.074
se obtuvo en el ejemplo 2 como 46.3313 ; / 2 , n p
2
.
2 2
t0.025, 22 C11 j t0.025, 22 C11
11
M. C. Juan Vicente Calvario Gmez
Estadstica II
2.20284 1 3.35699
y la varianza de
y0
es:
Por lo tanto, un intervalo de confianza del
100 1 % respecto a la respuesta
media en el punto
x01 , x02 , , x0 k es:
2 2
y 0 t / 2, n p x0 xx x0 E y 0 y 0 t / 2, n p x0 xx x0 Ec. 18
1 1
12
M. C. Juan Vicente Calvario Gmez
Estadstica II
3.68835
y0 x0 1 8 275 2.77992 26.95346
0.00373
2
x0 xx x0
1
y0
La varianza de se estima mediante
0.214652616 0.007490914 0.000340389 1
2
x0 xx x0 46.33131 8 275 0.007490914 0.0016707631 0.000189178 8
1
0.000340389 0.000189178 0.000014958 275
F1C1 F1C2 F1C3
0.214653 -0.007491 -0.00034
-0.059928 0.013366 -0.00015134
-0.0936069 -0.052024 0.000411345
0.06111802 0.0461489 -
5 5 0.00226002
0.061118025
1
0.3691916
0.06112 0.04615 0.00226 8
0.62150715
275
0.313433575
2
x0 xx x0 46.3313 0.313433575 14.52178
1
2 2
y0 t / 2, n p x0 xx x0 E y0 y0 t / 2, n p x0 xx x0 Ec. 18
1 1
19.0499 E y0 34.8569
13
M. C. Juan Vicente Calvario Gmez
Estadstica II
10.7745 y0 43.1323
Que es el intervalo de prediccin del 95%
14
M. C. Juan Vicente Calvario Gmez
Estadstica II
H0 : j 0
El procedimiento de prueba para , es calcular:
SS R
k MS R
F0 Ec. 21
SS E MS E
n k 1 ; y rechazamos H0 si 0 , k, n k 1
.
F F
El procedimiento suele resumirse en una tabla de anlisis de varianza tal como la 4.
15
M. C. Juan Vicente Calvario Gmez
Estadstica II
n
2
n
2
y i
y i
SS E y y i 1 x y i 1
n n
anterior, como:
SS E S yy SS R .
Por tanto, la suma de cuadrados de la regresin es:
2
n
y i
SS R x y i 1 Ec. 22
n ; la suma de cuadrados del error es:
SS E y y x y Ec. 23 ; y la suma de cuadrados total es:
2
n
y i
S yy y y i 1 Ec. 24
n
Ejemplo 6: Probaremos la significacin de la regresin empleando los datos de
tiempo de entrega del ejemplo 1 y datos del ejemplo 2.
2
n
y i
695.81
2
S yy y y i 1 25,977.8331
n 25
S yy 25,977.8331 19,366.06224 6,611.77086
2
n
y i
695.81
2
SS R x y i 1 24,958.54393
n 25
SS R 24,958.54393 19,366.06224 5,592.49169
SS E S yy SS R y y x y 6,611.77086 5,592.48169
Y,
SS E 1,019.28917
H 0 : 1 2 0
El anlisis de varianza se muestra en la tabla 5. Para probar ;
calculamos la estadstica:
SS R 5,592.48169
k MS R 2 2,796.240845
F0 60.35313668
SS E MS E 1,019.28917 46.33132591
n k 1 (25 2 1) .
16
M. C. Juan Vicente Calvario Gmez
Estadstica II
F F
, k, n k 1 3.44
Puesto que 0
El tiempo de entre se relaciona con el volumen de entrega o con la distancia, o con
ambos. Sin embargo, notamos que esto no necesariamente implica que la relacin
encontrada es apropiada para predecir el tiempo de entrega como una funcin del
volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo.
F F
, k, n k 1 F0 F0.05, 2 , 22 3.44 60.3531 3.44
Puesto que 0 , es decir, ; , la
hiptesis se rechaza
SS R SS
R2 1 E Ec. 28
S yy S yy
SS R 5,592.481683
R2 0.84584
S yy 6,611.77086
ANLISIS RESIDUAL
17
M. C. Juan Vicente Calvario Gmez
Estadstica II
La inspeccin de los datos no revela ningn error al colectar las observaciones 15 y 17,
o cualquier otra razn para descartar o modificar estos dos puntos.
18