Você está na página 1de 29

REGRESIN LINEAL

Modelos de regresin lineal mltiple


Supongamos que la vida til de una herramienta de corte depende de la
velocidad y de la profundidad de corte. Un modelo de regresin que podra
describir esta relacin es
y 0 1 x1 2 x 2

(1)

donde y denota la vida til, x1 denota la velocidad de corte y x2 denota la


profundidad de corte. Este es un modelo de regresin lineal mltiple con dos
variables regresoras. Se usa el trmino lineal porque (1) es una funcin lineal
de los parmetros desconocidos 0, 1 y 2. Las variables regresoras tambin
reciben el nombre de predictoras o independientes. La variable y recibe el
nombre de variable respuesta o variable dependiente.
En general, la respuesta y puede estar relacionada a k variables regresoras. El
modelo
y 0 1 x1 2 x 2 ... k x k

(2)

se llama modelo de regresin lineal mltiple con k variables regresoras. Si k


= 1, entonces se dice que se tiene un modelo de regresin lineal simple. Los
parmetros j, j = 0, 1, 2, , k, son los coeficientes de regresin.
Se supone que es un trmino aleatorio (variable aleatoria), al que
generalmente se le conoce como error del modelo, tal que E{} = 0, Var{} = 2.
Adems se asume que los errores no estn correlacionados. A 2 se le conoce
como la varianza del modelo.

Estimacin de los parmetros del modelo


Para estimar los coeficientes de regresin del modelo (2) se usa el mtodo de
mnimos cuadrados. Supongamos que tenemos disponibles
n>k
observaciones.
Observacin

I
Y
X1
x2
1
y1
X11
x12
2
y2
X21
x22
.
.
.
.
.
.
.
.
.
.
.
.
n
yn
xn1
xn2
Tabla 1 Datos para regresin lineal mltiple

xk
x1k
x2k
.
.
.
xnk

Podemos escribir el modelo muestral correspondiente a (2) como


yi 0 1 xi1 2 xi 2 ... k xik i , i = 1, 2,, n

(4)

Una forma ms conveniente de trabajar con los modelos de regresin lineal


mltiple es escribirlos en notacin matricial. Si
y1
y
2

1
1

.
.

x12

...

x 21

x 22

...

...

x 2 k
.

.
.

.
.

.
.

...
...

.
.

xn 2

...

x nk

y n

0

1

x1k

x11

1 x n1

1

2

.
.

.
.
n

Entonces (4) se puede escribir como


y = X +
Deseamos encontrar el vector de estimadores por mnimos cuadrados , que
minimiza la suma de los cuadrados de los errores
S

i 1

2
i

y X y X ,

donde A indica la matriz transpuesta de A.

S() puede expresarse como


S y y X y y X X X y y 2 X y X X .

Como Xy es un escalar, su transpuesta (Xy) = yX es el mismo


escalar. Los estimadores por mnimos cuadrados deben satisfacer
S

0
2 X y 2 X X
.

Simplificando resulta
X X X y .

El estimado de por mnimos cuadrados es

(4)

1
X X X y ,

(5)

Siempre que (XX)-1 exista, lo cual ocurre si las variables regresoras son
linealmente independientes, esto es, si ninguna columna de la matriz X es una
combinacin lineal de las otras columnas.
Escribiendo en detalle (4), obtenemos

i 1

xi 2

i 1
n

i1

xip

i 1

xi1
i 1

2
i1

i 1

xip xi1
i 1

i 1

x
i 1

i1 i 2

ip i 2

0
n
xi1 xip 1
i 1


n
p
xip2
i 1

xip

i 1

i 1
n

i 1

i1 i

x
y

ip
i
i 1

En la ecuacin (5) es fcil ver que XX es una matriz simtrica de (p x p) y Xy


es un vector columna de (p x 1). Los elementos de la diagonal de XX son las
sumas de los cuadrados de los elementos en las columnas de X, y los
elementos fuera de la diagonal son las sumas de los productos cruz de los
elementos en las columnas de X. Adems los elementos de Xy son las sumas
de los productos cruz de las columnas de X y las observaciones de yi.
El modelo de regresin ajustado correspondiente a los niveles de las variables
regresoras x = [1, x1,, xp] es
p

y x 0 j x j .

(6)

j 1

correspondiente a los valores observados


El vector de los valores ajustados y
yi es

y X X X X

X y Hy .

La matriz H = X(XX)-1X es de tamao (n x n) y generalmente es llamada la


matriz sombrero.
La diferencia entre el valor observado yi y el valor ajustado correspondiente
y i se llama residual y se denota por ei, i = 1, , n. Los n residuales pueden
escribirse en notacin matricial como
.
e y y

(7)

Desarrollando la expresin anterior tenemos


e y X y Hy I H y .

Ejemplo 1. Un embotellador de refrescos est analizando las rutas de servicio


a sus mquinas vendedoras en su sistema de distribucin. Est interesado en
predecir el tiempo que se requiere para dar servicio a las mquinas vendedoras
que se encuentran en los puntos de venta. El servicio consiste en proveer de
refrescos a las mquinas y darles mantenimiento menor. El ingeniero industrial
responsable del estudio ha sugerido que las dos variables ms importantes que
influyen en el tiempo de servicio son el nmero de unidades de refresco con
que se provee a la mquina, y la distancia recorrida por la persona encargada
de este servicio. El ingeniero ha recolectado 25 observaciones de tiempos de
servicio, los cuales aparecen en la tabla 2. Ajustar el modelo de regresin lineal
mltiple
y = 0 + 1x1 + 2x2 +
a los datos. Tambin obtener los valores ajustados y i & los residuales ei, i = 1,
2, , 25.
Nmero de
observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Tiempo de entrega
(minutos)
y
16.68
11.50
12.03
14.88
13.75
18.11
8.00
17.83
79.24
21.50
40.33
21.00
13.50
19.75
24.00
29.00
15.35
19.00
9.50
35.10
17.90
52.32
18.75
19.83
10.75

Nmero de
unidades
x1
7
3
3
4
6
7
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4

Distancia
(pies)
x2
560
220
340
80
150
330
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150

Tabla 2. Datos de tiempo de servicio

Propiedades de los estimadores por mnimos cuadrados

1
E E X ' X X y

X X

X X X ' X

E X'X
E X'X

porque

E()=0 y
X ' X X X I . As
es un estimador
1

insesgado de .

La matriz de covarianza de est dada por

Cov E E E ,
'

la cual es una matriz simtrica de tamao pxp, tal que la j-sima entrada de la
diagonal es la varianza de j 1 , y la entrada ij-sima fuera de la diagonal es la
covarianza entre i 1 y j 1 . Se comprueba que
Cov 2 X ' X .
1

Por lo tanto, si C= X ' X 1 , la varianza de j 1 es 2Cjj y la covarianza entre


i 1 y j 1 es 2Cij.
Por el Teorema de Gauss-Markov, el estimador por mnimos cuadrados, , es
el mejor estimador lineal insesgado de . Si adems los errores i tienen
distribucin normal, entonces tambin es el estimador por mxima
verosimilitud de . El estimador por mxima verosimilitud es el estimador
insesgado de varianza mnima de .

Estimacin de 2
Se define la suma de los cuadrados de los errores como
n

SSE y i y i
i 1

y el cuadrado medio de los errores como

(8)

MSE = SSE/(n k -1).

(9)

La varianza del modelo se estima por


n

SSE
2 MSE

n-k-1

y y
i

i 1

(10)

n k 1

Ejemplo 2. Estimar la varianza del error, 2, para el modelo de regresin


ajustado en el ejemplo 1.

Intervalos de confianza en regresin lineal.


Intervalos de confianza para los coeficientes de regresin.
Para construir intervalos de confianza estimados para los coeficientes de
regresin j, debemos suponer que los errores i tienen distribucin normal con
media cero y varianza 2. El intervalo del 100(1-)% de confianza para j, j = 0,
1, , k, es

j t

1 , n k 1
2

2C jj j j t

, n k 1
2

2C jj

donde Cjj es el j-simo elemento de la diagonal de la matriz (XX)-1.


cantidad
desvest( j )

2C jj

(11)
A la

(12)

Se le llama el error estndar del coeficiente de regresin j .

Ejemplo 3. Encontrar un intervalo del 95% de confianza para el parmetro 1


del modelo del ejemplo 1.
Intervalo de confianza de la respuesta media
Sean x 01 , x 02 ,..., x0 k valores de las variables regresoras, y sean
y 0 0 1 x01 2 x02 ... k x0 k

Puesto que

E y 0 0 1 x 01 2 x02 ... k x 0 k

V ( y 0 ) 2 x 0 X ' X x 0 ,
1

donde x 0 (1, x01 , x02 ,..., x0 k ) , un intervalo del 100(1-)% de confianza de


E y 0 es

y 0 t

1 , n k 1
2

2 x 0 ( X' X) 1 x 0 E y 0 y 0 t

1 , n k 1
2

2 x 0 (X' X ) 1 x 0

(13)

Prediccin de nuevas observaciones


Una aplicacin importante del modelo de regresin es la prediccin de nuevas
x 01 , x 02 ,..., x 0 k de las
observaciones y correspondientes a los valores
variables regresoras. En este caso
y 0 0 1 x01 2 x02 ... k x0 k

(14)

Es la estimacin puntual del nuevo valor de la respuesta y0. Un intervalo del


100(1-)% de confianza de y0 es

y 0 t

1 , n k 1
2

2 1 x 0 (X' X) 1 x 0 y 0 y 0 t

1 , n k 1
2

2 1 x 0 (X' X) 1 x 0

(15)

Ejemplo 4. El fabricante de refrescos del ejemplo 1 quiere construir un


intervalo del 95% de confianza del tiempo medio de servicio para una mquina
vendedora que requiere x1 = 8 unidades de refresco y donde la distancia es
x2=275. Tambin quiere construir el respectivo intervalo del 95% de confianza
para el tiempo de servicio.

Pruebas de hiptesis
Ciertas pruebas de hiptesis estadsticas son tiles para determinar la bondad
del modelo.
Prueba para la significancia de la regresin.
La prueba para la significancia de la regresin es una prueba para determinar
si hay una relacin lineal entre la variable respuesta y cualquiera de las
variables regresoras.

Las hiptesis apropiadas son


H 0 : 1 2 ... k 0

(16)

H 1 : j 0 para al menos un j

El rechazo de H0 implica que al menos una de las variables regresoras


contribuye significativamente al modelo.
La suma total de cuadrados, denotada como Syy, se particiona en una suma de
cuadrados debido a la regresin y en una suma de cuadrados de los residuales

Syy = SSR + SSE,

(17)

donde
n

2
2
Syy = ( y i y ) , SSR = ( y i y ) y SSE =
i 1

i 1

(y
i 1

y i ) 2 .

2
Si Ho: j = 0, j = 1, 2,, k, se acepta, entonces SSR / 2 ~ k , donde el
nmero de grados de libertad para 2 es igual al numero de variables
regresoras en el modelo.

2
De igual manera se tiene que SSE / 2 ~ n k 1 y que SSE y SSR son
independientes. Por lo tanto, para probar Ho: j = 0, j = 1, 2,, k,, se calcula

F0

SSR / k
MSR

,
SSE /(n k 1) MSE

(18)

y rechazamos Ho si F0 > F1-, k, n-k-1..


Ejemplo 5. Probar la significancia de la regresin para el tiempo de servicio del
ejemplo1.
Pruebas para la significancia de los coeficientes de regresin
individuales.
La hiptesis para probar la significancia de cualquier coeficiente de regresin
individual, tal como j, es
H0 : j 0
H1 : j 0

(19)

Si H0 : j = 0 no es rechazada, entonces esto indica que la variable regresora xj


puede ser borrada del modelo. El estadstico de prueba para esta hiptesis es

t0

j
2C jj

j
desvest j

(20)

donde Cjj es el j-simo elemento de la diagonal de la matriz (XX)-1. Se rechaza


la hiptesis nula si H0 : j = 0 si t0 t1 , n k 1 .
2

Ejemplo 6. En el ejemplo 1, evaluar si es significativo agregar la variable


regresora distancia, x2, dado que la variable x1 ya est en el modelo.
Regresin por pasos.
Considere el modelo de regresin con k variables regresoras

y = X + ,
donde y es vector de n x 1, X es una matriz de n x p, es un vector de p x 1,
es un vector de n x 1 y p = k + 1.
Podemos determinar si algn subconjunto de r variables regresoras, r < k,
contribuyen significativamente al modelo de regresin. Sea el vector de
coeficientes de regresin, el cual se divide como sigue

1
2

donde 1 es de (p-r) x 1 y 2 es de r x 1. Queremos probar las hiptesis:

H0 : 2 = 0
H1: 2 0.
El modelo puede escribirse como

y = X + = X11 + X22 + ,
donde la matriz X1 es de n x (p-r) y representa las columnas de X asociadas
con 1, y la matriz X2 es de n x r y representa las columnas de X asociadas
con 2. Este modelo se llama el modelo completo.

Para el modelo completo, sabemos que X X X y . La suma de


cuadrados de la regresin debido a para este modelo es:
1

SSR X y

y
i

i 1

(con p grados de libertad)

y
MSE

y y X y
n p

Para encontrar la contribucin de los trminos en 2 a la regresin, se ajusta el


modelo asumiendo que la hiptesis nula H0: 2 = 0 es verdadera. El modelo
reducido es

y = X11 +
El estimado de 1 por mnimos cuadrados en el modelo reducido es
1
1 X 1t X 1 X 1t y .

La suma de cuadrados de la regresin debido a 1 es:

SSR 1

1 X 1 y -

y
i

i 1

(con p r grados de libertad)

La suma de cuadrados de la regresin debido a 2 dado que 1 ya est en el


modelo es
SSR 2 1 SSR SSR 1 ,

con p (p - r) = r grados de libertad. Esta suma de cuadrados se llama suma


extra de cuadrados debido a 2, porque mide el incremento en la suma de
cuadrados de la regresin que es el resultado de agregar las regresoras xk-r+1,
xk-r+2,, xk a un modelo que ya contiene a x1, x2,, xk-r. Ahora SSR 2 1 es
independiente de MSE, y la hiptesis nula Ho: 2 = 0 puede probarse con el
estadstico

F0

SSR 2 1 r
MSE

(20)

Si Fo F1 ,r ,n p , rechazamos Ho, concluyendo que al menos uno de los


parmetros en 2 no es cero, y consecuentemente por lo menos una de las
regresoras xk-r+1, xk-r+2,, xk en X2 contribuyen significativamente al modelo de
la regresin.
Para ilustrar la utilidad de este procedimiento, considere el modelo
y 0 1 x 1 2 x 2 3 x3

Las sumas de cuadrados son


SSR 1 0 , 2 , 3 ,
SSR 2 0 , 1 , 3

SSR 3 0 , 1 , 2 ,

son sumas de cuadrados con un grado de libertad que miden la contribucin de


cada regresor xj, j = 1, 2, 3 al modelo, dado que las otras regresoras ya estn
en el modelo, es decir, estamos evaluando el valor de agregar xj a un modelo
que no incluye a esta regresora.
En general, podremos encontrar

SSR j 0 , 1 ,..., j 1 , j 1 ,..., k

1 j k.

(21)

Este es el incremento en la suma de cuadrados de la regresin que resulta de


agregar xj a un modelo que ya contiene a x1,, xj-1, xj+1,, xk.
Ejemplo 7. Supongamos que en el ejemplo 1 queremos investigar la
contribucin de la variable x2 al modelo.

Medidas de adecuacin del modelo de regresin lineal simple


Las suposiciones ms importantes que se hicieron sobre el modelo son las
siguientes:

1. La relacin entre y y x es lineal o al menos est bien aproximada por una


lnea recta.
2. El trmino de error tiene media cero y varianza constante 2.
3. Los errores no estn correlacionados.
4. Los errores tienen distribucin normal.
Las suposiciones 3 y 4 implican que los errores son variables aleatorias
independientes. Tambin se requieren para las pruebas de hiptesis y la
estimacin por intervalo.
Anlisis de residuales.
Los residuales estandarizados estn dados por
ei
, i 1,..., n ,
MSE

di

(22)

es decir, en la ecuacin (22) los residuales se dividen por su desviacin


estndar promedio. MSE es una aproximacin de la varianza de los residuales.
Por lo tanto, los residuales estandarizados tienen media cero y desviacin
estndar aproximadamente igual a uno.
Los residuales estudentizados estn definidos como

ri

ei
1 xi x

n
S xx

x1 ... xn
n

MSE 1

donde

, i 1,..., n
(23)

y
n

S xx x i x .
2

i 1

El denominador del lado derecho de la ecuacin (23) es la desviacin estndar


de ei. En conjuntos pequeos de datos, los residuales estudentizados son una
forma ms apropiada de estandarizacin que los residuales estandarizados,
porque las diferencias en las varianzas de los residuales pueden ser muy

grandes. Cuando n es grande, en general habr poca diferencia entre los dos
mtodos de estandarizar los residuales.
Grfica de probabilidad normal.
Aunque desviaciones pequeas de la normalidad no afectan mucho al modelo,
las desviaciones grandes s constituyen un problema serio porque las
estadsticas t y F, y los intervalos de confianza dependen de las suposiciones
de normalidad.
Un mtodo muy simple para verificar la suposicin de normalidad es graficar
los residuos en papel de probabilidad normal. Este papel grfico est diseado
de modo tal que la grfica de la funcin de distribucin acumulada normal es
una recta. Sean e(1)< e(2)<< e(n) los residuales ordenados en forma creciente.
Si graficamos e(i) contra la probabilidad acumulada Pi = (i )/n, i = 1, 2, , n,
en papel de probabilidad normal, la grfica resultante debera caer
aproximadamente en una lnea recta. Generalmente la lnea recta se determina
visualmente, con nfasis en los valores centrales (es decir los percentiles .33
y .67) en lugar de los extremos. Una Desviacin sustancial de una lnea recta
indica que la distribucin no es normal.
La suposicin de normalidad tambin se puede verificar construyendo un
histograma de residuales. Sin embargo, frecuentemente la cantidad de
residuales es muy pequea como para poder identificar fcilmente la forma de
la distribucin normal. Los residuales estandarizados y estudentizados tambin
son tiles para identificar desviaciones de la normalidad. Si los errores tienen
una distribucin normal, entonces aproximadamente el 68% de los residuales
estandarizados deberan estar entre -1 y 1, y aproximadamente el 95% de llos
debera estar entre -2 y 2. Una desviacin sustancial d e estos porcentajes
indica una posible violacin de la suposicin de normalidad. Si n es pequeo,
podemos reemplazar los lmites +1, -1, +2 y -2 por los correspondientes de la
distribucin tn-2. Examinar los residuales estandarizados o estudentizados de
esta forma tambin es til para detectar valores atpicos.
Grfica de residuales contra y i
Una grfica de los residuales ei (o los residuales di o ri) contra los valores
ajustados correspondientes y i es til para detectar vario tipos comunes de
inadecuaciones del modelo. Si los residuales se distribuyen de forma ms o
menos uniforme alrededor del 0, dentro de una banda horizontal, entonces no
hay defectos obvios en el modelo.
Si los residuales se distribuyen en forma de cono que se abre a la derecha,
entonces eso indica que la varianza es una funcin creciente de y. Si se
distribuyen en forma de cono que se abre a la izquierda, entonces eso indica
que la varianza es una funcin decreciente de y. Una forma de doble arco
ocurre frecuentemente cuando y es una proporcin entre 0 y 1. La varianza de
una proporcin binomial cerca de .5 es ms grande que una cerca de los
extremos. Un patrn en forma ms o menos de parbola vertical indica no

linealidad. Esto podra indicar que son necesarias en el modelo otras variables
regresoras. Por ejemplo, podra ser necesario un trmino cuadrtico.
Una grfica de residuales contra y i puede tambin revelar uno o ms
residuales inusualmente grandes. Estos puntos son valores atpicos
potenciales. Residuales grandes que ocurren en los extremos y i tambin
podran indicar que o bien la varianza no es constante o que la verdadera
relacin entre y y x no es lineal.
Grfica de residuales contra xi
Graficar los residuales contra los valores correspondientes xi tambin es til.
Frecuentemente estas grficas tienen formas parecidas a las que se acaban de
describir y los diagnsticos son los mismos.
Ejemplo 8. Respecto a los datos de la Tabla 1 del rendimiento de la gasolina
para 32 automviles,
a) ajustar un modelo de regresin lineal simple que relacione el rendimiento de
la gasolina, y, (millas por galn) con el desplazamiento x1.
b) Construir una grfica de probabilidad normal.
c) Construir la grfica de los residuales contra y i .
d) Construir la grfica de los residuales estandarizados contra y i .
e) Construir la grfica de los residuales estudentizados contra y i .
f) Construir la grfica de los residuales contra xi1.
g) Construir la grfica de los residuales estandarizados contra xi1.
h) Construir la grfica de los residuales estudentizados contra xi1.
i) Construir la grfica de los residuales contra el nmero de gargantas
(barrels), xi6. Indica esta grfica que se puede mejorar el modelo si se
agrega la variable x6?
Transformaciones a una lnea recta.
El punto de partida comn en regresin lineal es suponer una relacin lineal
entre y y x. Sin embargo, a veces esto no es as. No obstante, a veces una
funcin no lineal puede transformarse en otra funcin lineal. En esos casos los
modelos se llaman intrnsicamente lineales. En la Tabla 3 se dan algunas
funciones linealizables.
Funcin linealizable

y 0 x

Transformacin

y ' log y , x ' log x

Forma lineal

y ' log 0 1 x'

y 0e 1 x

y ' log y

y ' log 0 1 x

y 0 1 log x

x ' log x

y ' 0 1 x '

x
0 x 1

y'

1
1
, x'
y
x

y ' 0 1 x'

Tabla 3 Funciones linealizables y las formas lineales correspondientes

Ejemplo 9. Un ingeniero est investigando el uso de un molino de viento para


generar energa elctrica. Ha reunido datos sobre la corriente directa generada
por su molino de viento y la correspondiente velocidad del viento. Los datos
aparecen en la Tabla 4. Analizar si es apropiado ajustarles a los datos un
modelo de regresin lineal.
x: velocidad del
viento
5
6
3.4
2.7
10
9.7
9.55
3.05
8.15
6.2
2.9
6.35
4.6

y: corriente directa
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562

x: velocidad del
viento
5.8
7.4
3.6
7.85
8.8
7
5.45
9.1
10.2
4.1
3.95
2.45

y: corriente directa
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123

Tabla 4

Transformaciones estabilizadoras de la varianza.


La suposicin de varianza constante es un requerimiento bsico en anlisis de
regresin. Una causa comn de la violacin de este supuesto es que la variable
respuesta tiene una distribucin de probabilidad en la que la varianza es
funcin de la media. En estos casos frecuentemente son tiles
transformaciones estabilizadoras de la varianza. En la Tabla 5 se dan algunas
de estas transformaciones que son usadas frecuentemente.
Relacin de 2 con Transformacin
E{Y}
y = y (ninguna transformacin)
2 constante
2
y'
y
(raz cuadrada; datos de una
E{Y}
Poisson)
y ' sen 1 y
2 E{Y}[1 - E{Y}]
(proporciones binomiales
0yi1)
2
2
y = logy
[E{Y}]
2
3
y = y-1/2
[E{Y}]
y = y-1
2 [E{Y}]4
Tabla 5

Ejemplo 10. Una compaa que suministra energa elctrica est interesada en
desarrollar un modelo que relacione la demanda en horas pico (y) con el
consumo total de energa durante el mes (x). Este es un problema de
planeacin importante porque mientras ms clientes paguen por el uso de la
energa elctrica (en kilowatts-hora), el sistema debe ser lo suficientemente
robusto para cumplir con la demanda mxima que se le imponga. En la Tabla 6
se dan los datos de 53 clientes residenciales para el mes de agosto de 1979.
Es apropiado suponer un modelo de regresin lineal entre la demanda en
horas pico y el consumo total de energa mensual?
Cliente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

x (KWH)
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
1434

y(KW)
0.79
0.44
0.56
0.79
2.7
3.64
4.73
9.5
5.34
6.85
5.84
5.21
3.25
4.43
3.16
0.5
0.17
1.88
0.77
1.39
0.56
1.56
5.28
0.64
4
0.31

Cliente
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

x (KWH)
837
1748
1381
1428
1255
1777
370
2316
1130
463
770
724
808
790
783
406
1242
658
1746
468
1114
413
1787
3560
1495
2221

y(KW)
4.2
4.88
3.48
7.58
2.63
4.99
0.59
8.19
4.79
0.51
1.74
4.1
3.94
0.96
3.29
0.44
3.24
2.14
5.71
0.64
1.9
0.51
8.33
14.94
5.11
3.85

Tabla 6 Demanda en horas pico (y) y consumo mensual de energa.

Diagnsticos de la regresin y medidas de adecuacin del


modelo de regresin lineal.
Coeficiente de determinacin mltiple.
El coeficiente de determinacin R2 se define como
R2

Donde

SSR
SSE
1
S yy
S yy ,

(22)

S yy y i y

(23)

i 1
n

SSR y i y

(24)

S yy SSR SSE

(25)

i 1

con

y
i 1

. Se tiene que

Se acostumbra pensar que SSR mide la variabilidad de y explicada por el


modelo. Se tiene
0 R2 1
R2 es una medida de la relacin lineal y con x1, x2, , xk.
Algunos analistas prefieren usar una estadstica R2-ajustada porque la R2
definida en (22) siempre crecer cuando se agrega un trmino nuevo al
modelo, sin importar si la variable regresora correspondiente contribuye a
explicar significativamente a la respuesta. La R2-ajustada penaliza el hecho de
agregar variables innecesarias en el modelo. La R2-ajustada se define como

SSE

n 1
(n k 1)
1
R2
S yy (n 1)
n k 1

R 1
2

(26)

Si hay mucha diferencia entre la R2 y la R2-ajustada, entonces es muy posible


que el modelo haya sido sobreespecificado, es decir, que tiene variables
regresoras que no contribuyen significativamente a explicar la respuesta.
Ejemplo 10.
a) En el ejemplo 1, ajustarles un modelo de regresin lineal que relacione a y
con x1.
b) Encontrar R2 para el modelo ajustado en a).
c) Encontrar R2 para el modelo ajustado en el ejemplo1.
d) Encontrar R 2 para el modelo ajustado en el ejemplo 1.
Estadstico Cp de Mallows.
Este estadstico propone un criterio que se relaciona con el error cuadrado
medio de un valor ajustado, esto es

E y i E yi E yi E y i V y i ,
2

(27)

donde E y i es la respuesta esperada de la verdadera ecuacin de la


regresin y E y i es la respuesta esperada del modelo de subconjunto de ptrminos. As, E yi - E y i es el sesgo del i-simo punto de los datos. Los
dos trminos del lado derecho de la ecuacin (27) son el sesgo cuadrado y la
varianza del error cuadrado medio.
Denotemos a SSB(p) como el cuadrado total del sesgo para una ecuacin con
p-trminos, con
n

SS B p E yi E y i .
2

(28)

i 1

Definamos el error cuadrado medio total estandarizado como

E y E y V y
n

i 1

i 1

SS B p 1 n
2 V y i .
2
i 1

(29)

Puede mostrarse que


n

V y
i 1

p 2 ,

(30)

y que el valor esperado de la suma de residuales cuadrados de una ecuacin


con p-trminos es
E SSE p SS B p n p 2 .

(31)

Sustituyendo los valores de la varianza y del cuadrado total del sesgo en la


ecuacin (49), se tiene

1
E SSE p
E SSE p n p 2 p 2
n 2p .
2

(32)

Supongamos que 2 es un estimador insesgado de 2 . Reemplazando


entonces E SSE p por el valor observado SSE(p) produce una estimacin de
p

Cp

SSE p
n 2p .
2

(33)

Si el modelo con p-trminos tiene sesgo igual a cero, entonces SS B p = 0.


Consecuentemente E SSE p = (n - p) 2 , y

E C p Sesgo 0

n p 2
2

n 2p p.

(34)

Cuando usamos el criterio Cp, es til construir una grfica de Cp como una
funcin de p para cada ecuacin de regresin. Para las ecuaciones de
regresin con un sesgo pequeo los valores de Cp caern cerca de la lnea Cp
= p (punto A en la figura 3.1), mientras que las ecuaciones con un sesgo
sustancial caern arriba de esta lnea (punto B en la figura 3.1). Generalmente
se prefieren valores pequeos de Cp.

Figura 1.- Grfica de Cp

Cp = p

Cp

Grficas de Residuales.

.
.

2
p

Los residuales ei del modelo de regresin mltiple juegan un papel importante


para determinar la adecuacin del modelo, como en el caso de regresin lineal
simple. Las grficas de residuales vistas en el caso de regresin lineal simple,
pueden ser aplicadas directamente a regresin mltiple. Frecuentemente es til
hacer las grficas siguientes:

De los residuales en papel de probabilidad normal


De los residuales contra cada variable regresora xj, j = 1, 2, , k
De los residuales contra y i , i = 1, 2, , n
De los residuales ordenados cronolgicamente.

Grficas de residuales contra las regresoras omitidas del modelo.


Si existen otras regresoras como candidatas que no han sido incluidos en el
modelo, entonces al graficar los residuales contra los valores de esas
regresoras (suponiendo que son conocidos) podra ser revelada cualquier
dependencia de la respuesta y con los factores omitidos. Cualquier estructura
en la grfica de residuales contra un factor omitido indica que la incorporacin
de ese factor puede mejorar al modelo.
Grficas de residuales parciales
Estas grficas se disean para revelar de forma ms precisa la relacin entre
los residuales y las variables regresoras xj. Definimos el i-simo residual parcial
para la regresora xj como
eij* y i 1 xi1 j 1 xi , j 1 j 1 xi , j 1 k xik
ei j xij

i = 1, 2,, n

(35)

La grfica de eij contra xij es llamada grfica de residuales parciales. Esta


grfica es til para detectar valores extremos y varianza no constante. Sin
embargo, dado que exhibe la relacin entre y y el regresor xj despus de que
ha sido quitado el efecto de las otras regresoras xi (i j), la grfica de
residuales parciales muestra mas claramente la influencia de xj sobre la
respuesta y en presencia de otras regresoras.
*

Considere la regresin lineal a travs del origen de eij contra xij. La pendiente
de la recta de mnimos cuadrados para esta regresin ser j , el mismo valor
obtenido como un estimado de j en el modelo completo con k-variables. Por
lo tanto la grfica de residuales parciales tendr una pendiente de j en lugar
de cero, como sucede en la grfica usual de residuales. Esta grfica tambin
permite evaluar fcilmente desviaciones de la linealidad o la presencia de
valores extremos y varianza no constante. Si la relacin entre y y xj no es lineal,
*

la grfica de residuales parciales generalmente indica de modo ms preciso,


que la grfica usual de residuales, cmo transformar los datos para lograr una
relacin lineal.
Grficas de regresin parcial.
Son grficas de residuales, de los que se ha quitado la dependencia lineal de y
con respecto a las regresoras distintas de xj, contra xj, de la que se ha quitado
su dependencia lineal con respecto a las dems regresoras. En forma matricial
estas cantidades se escriben como e y X y e x X , donde X(j) es la matriz
original X con la j-sima regresora (xj) removida.
j

Considere el modelo:
y X X j x j j .

Multiplicando por I H(j) tenemos:

I H y
j

I H j X j I H j x j j I H j .

Tenemos que I H j X(j) = 0, as que

I H y
j

I H j x j j I H j

o
ey X

j ex

X j

* ,

(36)

donde * = I H j . Esto sugiere que una grfica de regresin parcial debe


tener una pendiente igual a j. As, si xj entra en la regresin de un modo lineal,
la grfica de regresin parcial debe mostrar una relacin lineal pasando a
travs del origen.
Grficas de xi contra xj
Estas grficas son tiles para determinar para determinar la relacin entre
variables regresoras en el modelo. Por ejemplo, si dos variables regresoras
estn altamente correlacionadas, entonces puede que no sea necesario incluir
las dos variables en el modelo. Decimos que hay multicolinealidad en los datos
si dos o ms variables regresoras estn altamente correlacionadas. La
multicolinealidad puede perturbar seriamente el ajuste del modelo, y en algunos
casos hacer que modelo de regresin lineal ajustado prcticamente sea intil.

Ejemplo 11. Consideremos el ejemplo 1.


a) Hacer una grfica de probabilidad normal de los residuales.
b) Elaborar las grficas de los residuales contra y , x1 y x2.
c) Hacer las grficas de residuales parciales.

Mtodos para estandarizar residuales.


Residuales estandarizados y residuales estudentizados.
Los residuales estandarizados se definen como:
ei

di

MSE

, i = 1, 2,, n

(37)

Para obtener los residuales estudentizados, empezaremos escribiendo la


matriz de residuales como
e = (I - H)y,
donde H = X(XX)-1X es la matriz sombrero. Esta matriz tiene varias
propiedades tiles: es simtrica (H = H) e idempotente (HH = H).
Similarmente la matriz I H es simtrica e idempotente. Sustituyendo el valor
de y = X + en la ecuacin anterior tenemos:
e I H X X HX I H

X X X X X X I H
-1

= I H .
As, los residuales estn dados por la misma transformacin lineal de las
observaciones y y de los errores .
La matriz de covarianza de los residuales es
V e V I H

H V I H

2 I H

porque V() = 2I y I H es simtrica e idempotente. Generalmente la matriz


I H no es diagonal, por lo que los residuales tienen varianzas diferentes y
estn correlacionados.

La varianza del i-simo residual es:


V ei 2 1 hii ,

(38)

donde hii es el i-simo elemento de la diagonal de H, y adems 0 hii 1.


Como hii tambin es una medida de la ubicacin del i-simo punto en el
espacio-x, la varianza de ei depende de la localizacin del punto xi.
Generalmente los puntos cerca del centro del espacio- x tienen varianzas ms
pequeas que los que estn ms lejos. Es ms probable que las violaciones a
los supuestos del modelo ocurran en puntos lejanos, las cuales pueden ser
difciles de detectar a partir de ei o de di, porque comnmente sus residuales
sern ms pequeos.
Por lo anterior, se recomienda graficar los residuales estudentizados, los
cuales se definen como

ri

ei
, i = 1, 2,, n,
MS E 1 hii

(39)

en lugar de ei (o di). Los residuales estudentizados tienen varianza constante


V(ri) = 1, independientemente de la ubicacin de xi, cuando la forma del
modelo es correcta. En muchas situaciones se estabiliza la varianza de los
residuales, en particular para conjuntos grandes de datos. En estos casos
puede haber poca diferencia entre los residuales estandarizados y
estudentizados. As, frecuentemente los residuales estandarizados y
estudentizados darn informacin equivalente. Sin embargo, ya que cualquier
punto con un residual grande y un hii grande es potencialmente muy influyente
en el ajuste por mnimos cuadrados, generalmente se recomienda examinar los
residuales estudentizados.
Residuales PRESS.
El estadstico PRESS es una suma de residuales escalados, que se calcula
como sigue: para i = 1,, n, se selecciona la i-sima observacin; despus se
ajusta el modelo de regresin a las n-1 observaciones restantes. Se obtiene
( i ) , que es el valor predicho de la respuesta por el modelo anterior, en xi. Se
y
define el i-simo residual PRESS como
e( i ) yi y ( i ) .

Finalmente:

PRESS

e
i 1

2
i

i 1

y i .

(40)

Puntos con un valor muy grande de e(i ) son puntos muy influyentes.
Se tiene que
e i

ei
,
1 hii

(41)

de donde
PRESS

ei
i 1 1 hii
n

(42)

Una diferencia grande entre SSE y PRESS indica la presencia de puntos


influyentes.
Finalmente la varianza del i-simo residual PRESS es
ei
1
2
2
V e i V
1 hii
.

1 hii
1 hii 2
1 hii

(43)

As que el i-simo residual PRESS estandarizado es

e i

V e i

ei 1 hii

1 hii

ei

1 hii
2

(44)

Si usamos MSE para estimar 2, entonces el i-simo residual PRESS


estandarizado es simplemente el i-simo residual estudentizado.
Residual R-student.
Otra forma de escalar e i es usar una estimacin de 2 basada en el conjunto
de datos que se obtiene al quitar la i-sima observacin. Denotemos esta
2
estimacin de 2 por S i . Se comprueba que

S 2i

n p MSE ei2 1 hii


n p 1

(45)

Se usa S i en lugar de MSE para producir un residual estudentizado


externamente, que generalmente se conoce como residual R-student, el cual
est dado por
e i

ti

S 2i 1 hii

i = 1, 2,, n.

(46)

En muchas situaciones hay poca diferencia entre ti y ri. Sin embargo, si la i2


sima observacin es influyente, entonces S i puede diferir significativamente
de MSE y as el residual R-student ser ms sensible a este punto.
A partir del estadstico PRESS se define una R2 de prediccin como

2
R pred
1

PRESS
S yy .

(47)

Esta estadstica nos da una medida de la capacidad de prediccin del modelo


de regresin ajustado.
Ejemplo 12. En el ejemplo 1, calcular los residuales, los residuales
estandarizados, los residuales estudentizados, los residuales PRESS, el valor
del estadstico PRESS, y la R2 de prediccin.
Diagnsticos de influencia.
Puntos influyentes (leverage).
El elemento hij de la matriz sombrero H se puede interpretar como la cantidad
i . As, viendo los elementos de H se
de influencia ejercida por yj sobre y
pueden determinarse puntos que son potencialmente influyentes debido a su
posicin respecto a los dems puntos. Generalmente la atencin se enfoca en
los elementos hii de la diagonal. Como
n

h
i 1

ii

rango( H ) rango( X ) p ,

el valor promedio de los elementos de la diagonal es p/n. Como una regla


general, si
hii > 2p/n,
entonces el i-simo punto es muy influyente.
Influencia en los coeficientes de la regresin.

Para medir la influencia de una observacin, es deseable considerar tanto la


localizacin del punto en el espacio x, como la variable respuesta. Cook
sugiere usar una medida dada por el cuadrado de la distancia entre el estimado
por mnimos cuadrados basado en todos los puntos , y el estimado obtenido
eliminando el i-simo punto, digamos i . En forma general, esta medida se
expresa como
Di M , c

M i ,
c

i = 1, 2,, n.

(48)

Comnmente se eligen M = XX y c = pMSE, as que

Di M , c Di

X X i
pMSE

i = 1, 2,, n.

(49)

Los puntos con valores grandes de Di tienen una influencia considerable en la


estimacin por mnimos cuadrados de . Se consideran puntos influyentes
aquellos para los que Di > 1. Di se conoce como la distancia D de Cook.
Se comprueba que
Di

ri 2
hii
k 1 (1 hii ) ,

(50)

donde ri es el i-simo residual estudentizado.


Una forma de medir cuanto cambia el coeficiente j si se quita la i-sima
observacin es
DFBETAS j ,i

j j ( i )
S(2i )C jj

(51)

donde Cjj es la j-sima componente de la diagonal de la matriz (XX)-1 y j ( i ) es


el j-simo coeficiente de la regresin estimado sin la observacin i-sima.
Definamos la matriz de tamao pxn
R X'X

X '.

Los n elementos del j-simo rengln de R dan la influencia que las n


observaciones de la muestra ejercen en j . Si r j ' es el j-simo rengln de R,
se puede mostrar que
DFBETAS j ,i

r j ,i

ti
1 hii

rj ' rj

(52)

donde ti es el residual R-student.

DFBETASij mide tanto la influencia de la i-sima observacin sobre j , como


el efecto de un residual grande. Se sugiere que si
2
,
n

DFBETAS

(53)

entonces la i-sima observacin merece atencin.


Influencia en los valores ajustados.
Una manera de medir la influencia de la i-esima observacin en los valores
predichos de la respuesta est dada por

DFFITSi

y i y i
S2i hii

i = 1, 2,, n,

(54)

donde y i es el valor ajustado de yi obtenido sin usar la i-sima observacin.


DFFITSi es el nmero de desviaciones estndar que el valor ajustado y i
cambia si se quita la observacin i.
Se tiene que

hii
DFFITS i
1 hii

12

ei
12
S i 1 hii

hii

1 hii

12

ti ,

(55)

donde ti es el residual R-student. As DFFITSi es el valor del residual R-student


multiplicado por la influencia de la i-sima observacin hii 1 hii
atencin cualquier observacin para la cual DFFITS 2 p n .

12

. Merece

Influencia en la precisin de la estimacin.


Para expresar el papel de la i-esima observacin en la precisin de la
estimacin se hace a travs de
COVRATIO

2 p
(i )

1
p
( MSE ) 1 hii

(56)

si COVRATIO > 1, la i-sima observacin mejora la precisin de la estimacin.


Si COVRATIO < 1, entonces la inclusin de la i-sima observacin empeora la
precisin de la estimacin.
Se sugiere que si
COVRATIO > 1 + 3p/n,
o si
COVRATIO < 1 - 3p/n,
entonces el i-simo punto se debera considerar influyente. La cota inferior es
apropiada si n > 3p.
Ejemplo 13. En el ejemplo 1, obtener hii, Di, DFFITSi, DFBETASj,i y
COVRATIOI.

Multicolinealidad.
Un problema que afecta la utilidad de un modelo de regresin es la
multicolinealidad, o dependencia casi lineal entre las variables regresoras. Una
dependencia lineal exacta da como resultado que la matriz XX sea singular.
La presencia de dependencia casi lineal puede afectar seriamente la
estimacin de los coeficientes de regresin. Una forma de medir si hay
dependencia casi lineal entre dos variables regresoras es por medio de los
factores de inflacin de la varianza (VIFs). Para la j-sima variable regresora,
el factor de inflacin de la varianza est dado por

VIF j

1
,
1 R 2j

(57)

donde R j es el coeficiente de determinacin mltiple obtenido al efectuar el


ajuste por regresin lineal en el que xj se toma como variable independiente y

las dems xs son las predictoras. Si hay una dependencia casi lineal de xj con
2
respecto a alguna de las otras variables regresoras, entonces el valor de R j
ser cercano a uno, el valor de VIFj ser grande. Los factores de varianza de
inflacin ms grande que 10 implican serios problemas con multicolinealidad.
Ejemplo 14. En el ejemplo1, calcular los VIFs.

Você também pode gostar