Escolar Documentos
Profissional Documentos
Cultura Documentos
(1)
(2)
I
Y
X1
x2
1
y1
X11
x12
2
y2
X21
x22
.
.
.
.
.
.
.
.
.
.
.
.
n
yn
xn1
xn2
Tabla 1 Datos para regresin lineal mltiple
xk
x1k
x2k
.
.
.
xnk
(4)
1
1
.
.
x12
...
x 21
x 22
...
...
x 2 k
.
.
.
.
.
.
.
...
...
.
.
xn 2
...
x nk
y n
0
1
x1k
x11
1 x n1
1
2
.
.
.
.
n
i 1
2
i
y X y X ,
0
2 X y 2 X X
.
Simplificando resulta
X X X y .
(4)
1
X X X y ,
(5)
Siempre que (XX)-1 exista, lo cual ocurre si las variables regresoras son
linealmente independientes, esto es, si ninguna columna de la matriz X es una
combinacin lineal de las otras columnas.
Escribiendo en detalle (4), obtenemos
i 1
xi 2
i 1
n
i1
xip
i 1
xi1
i 1
2
i1
i 1
xip xi1
i 1
i 1
x
i 1
i1 i 2
ip i 2
0
n
xi1 xip 1
i 1
n
p
xip2
i 1
xip
i 1
i 1
n
i 1
i1 i
x
y
ip
i
i 1
y x 0 j x j .
(6)
j 1
y X X X X
X y Hy .
(7)
Tiempo de entrega
(minutos)
y
16.68
11.50
12.03
14.88
13.75
18.11
8.00
17.83
79.24
21.50
40.33
21.00
13.50
19.75
24.00
29.00
15.35
19.00
9.50
35.10
17.90
52.32
18.75
19.83
10.75
Nmero de
unidades
x1
7
3
3
4
6
7
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4
Distancia
(pies)
x2
560
220
340
80
150
330
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150
1
E E X ' X X y
X X
X X X ' X
E X'X
E X'X
porque
E()=0 y
X ' X X X I . As
es un estimador
1
insesgado de .
Cov E E E ,
'
la cual es una matriz simtrica de tamao pxp, tal que la j-sima entrada de la
diagonal es la varianza de j 1 , y la entrada ij-sima fuera de la diagonal es la
covarianza entre i 1 y j 1 . Se comprueba que
Cov 2 X ' X .
1
Estimacin de 2
Se define la suma de los cuadrados de los errores como
n
SSE y i y i
i 1
(8)
(9)
SSE
2 MSE
n-k-1
y y
i
i 1
(10)
n k 1
j t
1 , n k 1
2
2C jj j j t
, n k 1
2
2C jj
2C jj
(11)
A la
(12)
Puesto que
E y 0 0 1 x 01 2 x02 ... k x 0 k
V ( y 0 ) 2 x 0 X ' X x 0 ,
1
y 0 t
1 , n k 1
2
2 x 0 ( X' X) 1 x 0 E y 0 y 0 t
1 , n k 1
2
2 x 0 (X' X ) 1 x 0
(13)
(14)
y 0 t
1 , n k 1
2
2 1 x 0 (X' X) 1 x 0 y 0 y 0 t
1 , n k 1
2
2 1 x 0 (X' X) 1 x 0
(15)
Pruebas de hiptesis
Ciertas pruebas de hiptesis estadsticas son tiles para determinar la bondad
del modelo.
Prueba para la significancia de la regresin.
La prueba para la significancia de la regresin es una prueba para determinar
si hay una relacin lineal entre la variable respuesta y cualquiera de las
variables regresoras.
(16)
H 1 : j 0 para al menos un j
(17)
donde
n
2
2
Syy = ( y i y ) , SSR = ( y i y ) y SSE =
i 1
i 1
(y
i 1
y i ) 2 .
2
Si Ho: j = 0, j = 1, 2,, k, se acepta, entonces SSR / 2 ~ k , donde el
nmero de grados de libertad para 2 es igual al numero de variables
regresoras en el modelo.
2
De igual manera se tiene que SSE / 2 ~ n k 1 y que SSE y SSR son
independientes. Por lo tanto, para probar Ho: j = 0, j = 1, 2,, k,, se calcula
F0
SSR / k
MSR
,
SSE /(n k 1) MSE
(18)
(19)
t0
j
2C jj
j
desvest j
(20)
y = X + ,
donde y es vector de n x 1, X es una matriz de n x p, es un vector de p x 1,
es un vector de n x 1 y p = k + 1.
Podemos determinar si algn subconjunto de r variables regresoras, r < k,
contribuyen significativamente al modelo de regresin. Sea el vector de
coeficientes de regresin, el cual se divide como sigue
1
2
H0 : 2 = 0
H1: 2 0.
El modelo puede escribirse como
y = X + = X11 + X22 + ,
donde la matriz X1 es de n x (p-r) y representa las columnas de X asociadas
con 1, y la matriz X2 es de n x r y representa las columnas de X asociadas
con 2. Este modelo se llama el modelo completo.
SSR X y
y
i
i 1
y
MSE
y y X y
n p
y = X11 +
El estimado de 1 por mnimos cuadrados en el modelo reducido es
1
1 X 1t X 1 X 1t y .
SSR 1
1 X 1 y -
y
i
i 1
F0
SSR 2 1 r
MSE
(20)
SSR 3 0 , 1 , 2 ,
1 j k.
(21)
di
(22)
ri
ei
1 xi x
n
S xx
x1 ... xn
n
MSE 1
donde
, i 1,..., n
(23)
y
n
S xx x i x .
2
i 1
grandes. Cuando n es grande, en general habr poca diferencia entre los dos
mtodos de estandarizar los residuales.
Grfica de probabilidad normal.
Aunque desviaciones pequeas de la normalidad no afectan mucho al modelo,
las desviaciones grandes s constituyen un problema serio porque las
estadsticas t y F, y los intervalos de confianza dependen de las suposiciones
de normalidad.
Un mtodo muy simple para verificar la suposicin de normalidad es graficar
los residuos en papel de probabilidad normal. Este papel grfico est diseado
de modo tal que la grfica de la funcin de distribucin acumulada normal es
una recta. Sean e(1)< e(2)<< e(n) los residuales ordenados en forma creciente.
Si graficamos e(i) contra la probabilidad acumulada Pi = (i )/n, i = 1, 2, , n,
en papel de probabilidad normal, la grfica resultante debera caer
aproximadamente en una lnea recta. Generalmente la lnea recta se determina
visualmente, con nfasis en los valores centrales (es decir los percentiles .33
y .67) en lugar de los extremos. Una Desviacin sustancial de una lnea recta
indica que la distribucin no es normal.
La suposicin de normalidad tambin se puede verificar construyendo un
histograma de residuales. Sin embargo, frecuentemente la cantidad de
residuales es muy pequea como para poder identificar fcilmente la forma de
la distribucin normal. Los residuales estandarizados y estudentizados tambin
son tiles para identificar desviaciones de la normalidad. Si los errores tienen
una distribucin normal, entonces aproximadamente el 68% de los residuales
estandarizados deberan estar entre -1 y 1, y aproximadamente el 95% de llos
debera estar entre -2 y 2. Una desviacin sustancial d e estos porcentajes
indica una posible violacin de la suposicin de normalidad. Si n es pequeo,
podemos reemplazar los lmites +1, -1, +2 y -2 por los correspondientes de la
distribucin tn-2. Examinar los residuales estandarizados o estudentizados de
esta forma tambin es til para detectar valores atpicos.
Grfica de residuales contra y i
Una grfica de los residuales ei (o los residuales di o ri) contra los valores
ajustados correspondientes y i es til para detectar vario tipos comunes de
inadecuaciones del modelo. Si los residuales se distribuyen de forma ms o
menos uniforme alrededor del 0, dentro de una banda horizontal, entonces no
hay defectos obvios en el modelo.
Si los residuales se distribuyen en forma de cono que se abre a la derecha,
entonces eso indica que la varianza es una funcin creciente de y. Si se
distribuyen en forma de cono que se abre a la izquierda, entonces eso indica
que la varianza es una funcin decreciente de y. Una forma de doble arco
ocurre frecuentemente cuando y es una proporcin entre 0 y 1. La varianza de
una proporcin binomial cerca de .5 es ms grande que una cerca de los
extremos. Un patrn en forma ms o menos de parbola vertical indica no
linealidad. Esto podra indicar que son necesarias en el modelo otras variables
regresoras. Por ejemplo, podra ser necesario un trmino cuadrtico.
Una grfica de residuales contra y i puede tambin revelar uno o ms
residuales inusualmente grandes. Estos puntos son valores atpicos
potenciales. Residuales grandes que ocurren en los extremos y i tambin
podran indicar que o bien la varianza no es constante o que la verdadera
relacin entre y y x no es lineal.
Grfica de residuales contra xi
Graficar los residuales contra los valores correspondientes xi tambin es til.
Frecuentemente estas grficas tienen formas parecidas a las que se acaban de
describir y los diagnsticos son los mismos.
Ejemplo 8. Respecto a los datos de la Tabla 1 del rendimiento de la gasolina
para 32 automviles,
a) ajustar un modelo de regresin lineal simple que relacione el rendimiento de
la gasolina, y, (millas por galn) con el desplazamiento x1.
b) Construir una grfica de probabilidad normal.
c) Construir la grfica de los residuales contra y i .
d) Construir la grfica de los residuales estandarizados contra y i .
e) Construir la grfica de los residuales estudentizados contra y i .
f) Construir la grfica de los residuales contra xi1.
g) Construir la grfica de los residuales estandarizados contra xi1.
h) Construir la grfica de los residuales estudentizados contra xi1.
i) Construir la grfica de los residuales contra el nmero de gargantas
(barrels), xi6. Indica esta grfica que se puede mejorar el modelo si se
agrega la variable x6?
Transformaciones a una lnea recta.
El punto de partida comn en regresin lineal es suponer una relacin lineal
entre y y x. Sin embargo, a veces esto no es as. No obstante, a veces una
funcin no lineal puede transformarse en otra funcin lineal. En esos casos los
modelos se llaman intrnsicamente lineales. En la Tabla 3 se dan algunas
funciones linealizables.
Funcin linealizable
y 0 x
Transformacin
Forma lineal
y 0e 1 x
y ' log y
y ' log 0 1 x
y 0 1 log x
x ' log x
y ' 0 1 x '
x
0 x 1
y'
1
1
, x'
y
x
y ' 0 1 x'
y: corriente directa
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
x: velocidad del
viento
5.8
7.4
3.6
7.85
8.8
7
5.45
9.1
10.2
4.1
3.95
2.45
y: corriente directa
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123
Tabla 4
Ejemplo 10. Una compaa que suministra energa elctrica est interesada en
desarrollar un modelo que relacione la demanda en horas pico (y) con el
consumo total de energa durante el mes (x). Este es un problema de
planeacin importante porque mientras ms clientes paguen por el uso de la
energa elctrica (en kilowatts-hora), el sistema debe ser lo suficientemente
robusto para cumplir con la demanda mxima que se le imponga. En la Tabla 6
se dan los datos de 53 clientes residenciales para el mes de agosto de 1979.
Es apropiado suponer un modelo de regresin lineal entre la demanda en
horas pico y el consumo total de energa mensual?
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
x (KWH)
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
1434
y(KW)
0.79
0.44
0.56
0.79
2.7
3.64
4.73
9.5
5.34
6.85
5.84
5.21
3.25
4.43
3.16
0.5
0.17
1.88
0.77
1.39
0.56
1.56
5.28
0.64
4
0.31
Cliente
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
x (KWH)
837
1748
1381
1428
1255
1777
370
2316
1130
463
770
724
808
790
783
406
1242
658
1746
468
1114
413
1787
3560
1495
2221
y(KW)
4.2
4.88
3.48
7.58
2.63
4.99
0.59
8.19
4.79
0.51
1.74
4.1
3.94
0.96
3.29
0.44
3.24
2.14
5.71
0.64
1.9
0.51
8.33
14.94
5.11
3.85
Donde
SSR
SSE
1
S yy
S yy ,
(22)
S yy y i y
(23)
i 1
n
SSR y i y
(24)
S yy SSR SSE
(25)
i 1
con
y
i 1
. Se tiene que
SSE
n 1
(n k 1)
1
R2
S yy (n 1)
n k 1
R 1
2
(26)
E y i E yi E yi E y i V y i ,
2
(27)
SS B p E yi E y i .
2
(28)
i 1
E y E y V y
n
i 1
i 1
SS B p 1 n
2 V y i .
2
i 1
(29)
V y
i 1
p 2 ,
(30)
(31)
1
E SSE p
E SSE p n p 2 p 2
n 2p .
2
(32)
Cp
SSE p
n 2p .
2
(33)
E C p Sesgo 0
n p 2
2
n 2p p.
(34)
Cuando usamos el criterio Cp, es til construir una grfica de Cp como una
funcin de p para cada ecuacin de regresin. Para las ecuaciones de
regresin con un sesgo pequeo los valores de Cp caern cerca de la lnea Cp
= p (punto A en la figura 3.1), mientras que las ecuaciones con un sesgo
sustancial caern arriba de esta lnea (punto B en la figura 3.1). Generalmente
se prefieren valores pequeos de Cp.
Cp = p
Cp
Grficas de Residuales.
.
.
2
p
i = 1, 2,, n
(35)
Considere la regresin lineal a travs del origen de eij contra xij. La pendiente
de la recta de mnimos cuadrados para esta regresin ser j , el mismo valor
obtenido como un estimado de j en el modelo completo con k-variables. Por
lo tanto la grfica de residuales parciales tendr una pendiente de j en lugar
de cero, como sucede en la grfica usual de residuales. Esta grfica tambin
permite evaluar fcilmente desviaciones de la linealidad o la presencia de
valores extremos y varianza no constante. Si la relacin entre y y xj no es lineal,
*
Considere el modelo:
y X X j x j j .
I H y
j
I H j X j I H j x j j I H j .
I H y
j
I H j x j j I H j
o
ey X
j ex
X j
* ,
(36)
di
MSE
, i = 1, 2,, n
(37)
X X X X X X I H
-1
= I H .
As, los residuales estn dados por la misma transformacin lineal de las
observaciones y y de los errores .
La matriz de covarianza de los residuales es
V e V I H
H V I H
2 I H
(38)
ri
ei
, i = 1, 2,, n,
MS E 1 hii
(39)
Finalmente:
PRESS
e
i 1
2
i
i 1
y i .
(40)
Puntos con un valor muy grande de e(i ) son puntos muy influyentes.
Se tiene que
e i
ei
,
1 hii
(41)
de donde
PRESS
ei
i 1 1 hii
n
(42)
(43)
e i
V e i
ei 1 hii
1 hii
ei
1 hii
2
(44)
S 2i
(45)
ti
S 2i 1 hii
i = 1, 2,, n.
(46)
2
R pred
1
PRESS
S yy .
(47)
h
i 1
ii
rango( H ) rango( X ) p ,
M i ,
c
i = 1, 2,, n.
(48)
Di M , c Di
X X i
pMSE
i = 1, 2,, n.
(49)
ri 2
hii
k 1 (1 hii ) ,
(50)
j j ( i )
S(2i )C jj
(51)
X '.
r j ,i
ti
1 hii
rj ' rj
(52)
DFBETAS
(53)
DFFITSi
y i y i
S2i hii
i = 1, 2,, n,
(54)
hii
DFFITS i
1 hii
12
ei
12
S i 1 hii
hii
1 hii
12
ti ,
(55)
12
. Merece
2 p
(i )
1
p
( MSE ) 1 hii
(56)
Multicolinealidad.
Un problema que afecta la utilidad de un modelo de regresin es la
multicolinealidad, o dependencia casi lineal entre las variables regresoras. Una
dependencia lineal exacta da como resultado que la matriz XX sea singular.
La presencia de dependencia casi lineal puede afectar seriamente la
estimacin de los coeficientes de regresin. Una forma de medir si hay
dependencia casi lineal entre dos variables regresoras es por medio de los
factores de inflacin de la varianza (VIFs). Para la j-sima variable regresora,
el factor de inflacin de la varianza est dado por
VIF j
1
,
1 R 2j
(57)
las dems xs son las predictoras. Si hay una dependencia casi lineal de xj con
2
respecto a alguna de las otras variables regresoras, entonces el valor de R j
ser cercano a uno, el valor de VIFj ser grande. Los factores de varianza de
inflacin ms grande que 10 implican serios problemas con multicolinealidad.
Ejemplo 14. En el ejemplo1, calcular los VIFs.