I. Modelos de Regresión Múltiple

ESCUELA DE ESTADISTICA
MODELOS DE REGRESIN
APLICADOS
CAPITULO I: MODELOS DE
REGRESIN MLTIPLE
Presentado por Gilbert Brenes Camacho, basado

en presentacin de Ricardo Alvarado
2015
Contenidos
Ideas bsicas
El modelo y los supuestos.
Estimacin de los coeficientes.
Valores ajustados y residuales.
Inferencias.
Coeficientes de determinacin
Prueba de hiptesis.
Predictores cualitativos
Ideas bsicas
Objetivos
Reconocer situaciones donde se pueden aplicar las

tcnicas de regresin.
Comprender los elementos que deben considerarse en
la construccin de un modelo.
Comprender los diferentes usos de los modelos de
regresin.
Diferenciar los tipos de estudios en los que se aplican
los modelos de regresin.
Ejemplo: Velocidad
Variables que determinan la velocidad de un corredor.

Unidad: corredor.
Variable respuesta: velocidad (100m/tiempo en seg).
Predictores:
Largo promedio de las piernas
Peso
Hombre mujer
Ejemplo: Ruido
Un estudio para determinar las variables asociadas al

ruido en distintos puntos cercanos a la UCR.
Unidad: punto geogrfico.
Variable respuesta: Cantidad de ruido en decibelios.
Predictores :
Cantidad de motos, carros, buses.
Cantidad de bares y locales comerciales.
Cerca de la lnea del tren: S o No.
.
.
Ejemplo: ndice de privacin del sueo
Un estudio para determinar cun mal dorman los

estudiantes universitarios.
Unidad: un estudiante universitario.
Variable respuesta: Puntaje en un test psicomtrico
para medir privacin del sueo.
Predictores :
Cantidad de caf consumida
Hombre/Mujer
Promedio ponderado en la UCR (como aproximacin a la
cantidad de horas estudiadas).
.
...
Ejemplo: .
Un estudio .....................
Unidad:
Variable respuesta:
Predictores :
..........................
..........................
..
..
...........................
Construccin de un modelo de regresin
Seleccin de predictores.
Forma funcional de la relacin en la regresin.
Alcance del modelo.
Seleccin de predictores
La realidad debe ser reducida a proporciones manejables, por

lo tanto, slo un nmero limitado de variables debera ser
incluido en cualquier modelo.
En estudios exploratorios se cuenta con muchas variables por
lo que se convierte en un problema la seleccin de un buen
conjunto de predictores para el anlisis.
Seleccin de predictores
Consideraciones importantes en la seleccin:

En cuanto puede contribuir un determinado predictor en la
reduccin de la variabilidad residual de Y despus de la
inclusin de otros predictores incluidos tentativamente.
Importancia de la variable como un agente causal en el
proceso que se analiza.
El grado en que las observaciones de la variable pueden ser
recolectadas ms precisa, rpida o econmicamente que
otras variables potenciales.
El grado en que la variable puede ser controlada.
Forma funcional de la relacin en la regresin
La teora puede indicar la forma funcional

adecuada.
Muchas veces esta forma no es conocida
a priori y debe decidirse empricamente
una vez que se han recolectado los datos.
Funciones lineales o cuadrticas sirven de
base como una primera aproximacin.
En algunos casos, aunque la teora
establezca una relacin compleja, las
formas simples pueden dar una
aproximacin razonable.
Alcance del modelo
En la formulacin del modelo usualmente debe restringirse la

cobertura del modelo a cierto intervalo o regin de valores de
las variables explicativas.
El alcance es determinado por el diseo de la investigacin o
por el rango de datos a mano.
La forma de la funcin de regresin en un sector que se aleja
mucho del rango estudiado debera ponerse seriamente en
duda porque la investigacin no provee evidencia.
Usos del modelo
Descriptivo: el estudio pretende conocer en qu medida las

variables predictoras pueden explicar el comportamiento de la
respuesta (ejemplo: ndice de sueo).
Control: mediante el desarrollo de una relacin estadstica til
entre costo y predictores la administracin podra establecer
estndares de costo para cada sucursal (ejemplo:
sucursales).
Prediccin: el uso de la relacin estadstica permite estimar el
nmero promedio de la respuesta para nuevas caractersticas.
Tipos de estudios
Observacionales:
No es posible controlar las variables explicativas.
No da informacin adecuada acerca de las relaciones de causa
y efecto.
Debe investigarse si otras variables explicativas pueden
explicar ms directamente estas relaciones.
Experimentales:
Los niveles de los predictores son controlados y las
observaciones pueden ser asignadas aleatoriamente a cada
nivel.
Los resultados pueden dar informacin ms fuerte sobre las
relaciones de causa y efecto ya que la aleatorizacin tiende a
balancear los efectos de cualquier otra variable que pueda
afectar la respuesta.
El modelo y los supuestos
Objetivos
Interpretar grficamente el concepto de un modelo de

regresin.
Comprender la ecuacin de regresin escrita en forma
matricial o en forma expandida.
Comprender el concepto de error en la regresin.
Comprender los supuestos que se establecen en un
modelo de regresin.
Modelo de regresin simple
Cada valor de la respuesta puede descomponerse como la suma

de la media condicional ms una cantidad aleatoria:
yi E Y | xi i Y | xi i
La media condicional se puede modelar. La forma ms simple es
expresar esta media en funcin del predictor de una forma lineal:
Y | x 0 1 xi
i
El modelo matemtico permite estimar el valor esperado de la

respuesta para un valor fijo del predictor:
Y | x 0 1 xi yi
i
Modelo de regresin general
Distribucn
de Y para X1
Ecuacin de
regresin
Medias en crecimiento lineal
Representar grficamente:
Y | x E[Y | X x4 ] y 4
4
1. Las medias decrecen a un ritmo de 3
unidades al aumentar la X en 2 unidades.
2. La varianza crece al aumentar el valor de X.
Necesidad de ms de un predictor
Descripcin inadecuada de la respuesta ya que un nmero de

variables importantes afectan la respuesta en diferentes e
importantes formas.
Un modelo con slo un predictor puede resultar demasiado
impreciso para ser til.
Las predicciones pueden contener un alto grado de error si no
se consideran variables relevantes.
Modelo de regresin mltiple
Notacin
y1 1 x11 x12 ... x1, p 1 0 1

y2 1 x21 x22 ... x2, p 1 1 2
Y X
... ... ... ... ... ... ...

y 1 x ... xn, p 1
p 1 n
n n1 xn 2
p: nmero de coeficientes estimados

incluyendo el intercepto o nmero de
predictores ms uno.
Modelo de regresin mltiple
Cada valor de la respuesta se sigue descomponiendo como la

suma de la media condicional ms una cantidad aleatoria:
yi EY | X i i
Se modela la media condicional como un hiperplano:
E[Y | X i ] 0 1 xi1 2 xi 2 ... p 1 xi , p 1
E Y | X i X iT X iT (1, xi1 ,, xi. p1 )

Se expresan la media condicional y la respuesta para todos los
individuos observados:
EY | X X Y X
nx1 nxp px1 nx1
Estimacin del valor esperado de la respuesta para

correspondiente a todos los individuos observados:
E Y | X Y X
Errores y residuos
Cada valor observado yi puede ser determinado con los valores

de los predictores en X i , excepto por una cantidad aleatoria
desconocida.
El error es la distancia entre un valor de la respuesta y el
promedio condicional (dados los valores de X):
i yi E (Y | X i )
Un residuo es una estimacin del error y se calcula mediante la

diferencia entre el valor observado y el valor estimado:
ri yi Y | X i yi y i
Supuestos sobre las variables
1. Relacin lineal entre los predictores y la respuesta el

valor esperado de la respuesta sigue una funcin lineal de
X (recta, plano, etc).
2. No multicolinealidad no debe haber una relacin lineal
perfecta entre los predictores.
Supuestos sobre la distribucin de los errores
1. Independencia de errores o no autocorrelacin - dados

dos valores cualesquiera de X (i.e. xi y xj), la correlacin
entre i y j es nula => Cov [i , j]=0.
2. Normalidad - la distribucin de los errores para cada valor
Xi sigue una distribucin normal con valor esperado de la
distribucin condicional igual a 0 (E[ | Xi]=0).
3. Homoscedasticidad - la variancia de los errores para cada
valor Xi es constante => Var[ | Xi]=2.
~ N (0, I ) 2
Normalidad y homoscedasticidad
Estimacin de los
coeficientes
Objetivos
Comprender el mtodo de estimacin por mnimos

cuadrados.
Comprender el mtodo de estimacin por mxima
verosimilitud.
Interpretar los coeficientes de un modelo de regresin.
Estimacin por mnimos cuadrados ordinarios

Elegir de tal forma que los valores estimados (yi)
estn tan cerca como sea posible de las observaciones
reales ( yi ).
Una forma es minimizar la suma de cuadrados de los
residuos:
Q yi y i ri 2
2
Suma de cuadrados residual
Q ri 2 yi y i
2

Q yi ( 0 1 xi1 2 xi 2 ... p 1 xi , p 1 )
2
Q (Y X )T (Y X )
Q Y T Y T X T Y Y T X T X T X
Q Y T Y 2 T X T Y T X T X
Minimizacin de la suma de cuadrados residual
Para encontrar los valores en que minimizan la SCR se

debe derivar con respecto a e igualar a 0 la expresin
resultante.
r T r Y T Y 2 T X T Y T X T X
(r T r )
2 X T Y 2 X T X 0

Las soluciones en para esta ecuacin son las
estimaciones de mnimos cuadrados de los coeficientes de
regresin.
X X X T Y
1
T
Estimacin de mxima verosimilitud
Para encontrar los valores en por el mtodo de mxima

de verosimilitud se debe escribir la funcin de densidad
conjunta o funcin de verosimilitud:
i ~ N(0, 2)
1 2
f i i ri
1
exp 2 ri
2
2 1/ 2
2
n
1 1 2 1 1 2
L( , )
2
i 1 2 2 1/ 2
exp 2 ri
2 2
2 n/2
exp 2
2
i
r
Estimacin de mxima verosimilitud
Debido a la monotona de la funcin logartmica, la

maximizacin de la funcin de verosimilitud es equivalente
a la maximizacin de su logaritmo:
1 1
l ( , ) ln
2

r 2
2
i
2 2
n/2 2
Para encontrar los estimadores de los s, se considera el

trmino que contiene la sumatoria de los errores
cuadrticos pues stos estn en funcin de los s.
Entonces el primer trmino se puede obviar por ser una
constante (no depende de los s ) y se debe maximizar:
1

2 2 r i
2
Esto es equivalente a minimizar ri cuyo resultado

2
corresponde al obtenido por mnimos cuadrados ordinarios.

Otros estimadores
Se deberan usar estimadores diferentes a mnimos

cuadrados cuando:
Los errores estn correlacionados o la Mnimos

variancia vara segn el valor de y. cuadrados
generalizados.
La distribucin de los errores tiene una Estimadores

cola larga. robustos (no
lineales en y).
Hay colinealidad en los predictores. Estimadores

sesgados
(ridge).
Ejemplo: Estudios fotogrficos
Una compaa tiene estudios fotogrficos en 21 ciudades de

tamao medio. La compaa est considerando expandirse a
otras ciudades de tamao medio y desea investigar si las
ventas (Y) en una comunidad pueden predecirse a partir del
nmero de personas de edad 16 o menores en la comunidad
(X1) y el ingreso per capita disponible en la comunidad (X2).
Ejemplo (continuacin)
Las matrices de clculo
1 68,5 16.7 174.4

1 45.2 16.8 164.4
X Y
... ... ... ...

1 52.3 16.0 166.5
1 68,5 16.7
1 1 21.0 360.0
45.2 16.8
1 ... 1302.4
X ' X 68.5 45.2 52.3 1302.4 87707.9 22609.2
1
...
... ... ...
16.7 16.8 16.0 360.0 22609.2 6190.3
52.3 16.0
...
1
174.4
29.7289 .0722 1.9926 1 1 ... 1 3820
.0722 .00037 .0056 X 'Y 68.5 45.2 52.3 249643
164 .4
X ' X 1 ...
...
1.9926 .0056 .1363 16.7 16.8 ... 16.0 66073
166 . 5
El vector de coeficientes estimados
29.7289 .0722 1.9926 3820 68.857

X ' X 1 X ' Y .0722 .00037 .0056 249643 1.455
1.9926 .0056 .1363 66073 9.366
La funcin de regresin estimada:
yi 68.857 1.455xi1 9.366 xi 2

Interpretacin
Se espera que las ventas promedio aumenten $1,455,000
cuando la poblacin meta aumenta mil personas de 16 aos o
menos, manteniendo constante el ingreso per cpita
disponible.
Similarmente se espera que las ventas promedio aumenten
$9,366,000 cuando el ingreso per cpita disponible aumente
mil dlares, manteniendo constante la poblacin meta.
Valores ajustados y
residuales
Objetivos
Calcular el vector de valores ajustados usando la

ecuacin de regresin.
Calcular el vector de residuos usando los valores
ajustados.
Comprender el uso y clculo de los coeficientes
estandarizados.
Valores estimados o ajustados
Para encontrar un valor ajustado (estimacin particular de Y)

basta usar el modelo de regresin con valores especficos de
los predictores en X:
y i 0 1 xi1 2 xi 2 ... p 1 xi , p 1
Se quiere estimar las ventas para el estudio en la primera

ciudad que tiene una poblacin de 68500 jvenes de 16 aos o
menos (X1=68.5) y el ingreso per cpita disponible es de
$16,700 (X1=16.7).
Se sustituyen los valores de X1 y X2 en la ecuacin de
regresin:
y1 68.857 1.455x11 9.366x12
y1 68.857 1.455 68.5 9.366 16.7 187.2
Aunque las ventas reales de esta sucursal fueron de $174,400,

el modelo produce un valor de $187,200.
Se podra esperar que si hubiese muchas sucursales con estas
caractersticas de poblacin e ingreso, las ventas promedio
seran de $187,200.
Si se quisiera estimar las ventas que podra percibir un estudio

en una nueva ciudad para la cual se conoce su poblacin de
jvenes de 16 aos o menos (X1=65.4) y el ingreso per cpita
disponible (X2=17.6).
Tambin se sustituyen los valores de X1 y X2 en la ecuacin de
regresin:
y 68.857 1.455 65.4 9.366 17.6 191.1

Matriz de valores estimados
Para encontrar las estimaciones de Y para todas las

observaciones en la matriz X se puede multiplicar esta matriz
de predictores X por el vector de coeficientes estimados:
Y X
Se quiere estimar las ventas para todos los 21 estudios de la

compaa:
1 68,5 16.7 187.2

68.857 154.2
1 45.2 16.8
Y X 1 .455 Y
... ... ... ...
9.366
1 52.3 16.0 157.1
Residuos
Los residuos son estimaciones de los errores y se calculan

mediante las diferencias entre los valores observados y los
estimados:
r Y Y
Se quiere estimar el residuo para el estudio en la primera
basta restar el valor observado menos el estimado:
r1 174.4 187.2 12.8
No se puede calcular el residuo para el estudio en la nueva

ciudad ya que no se conoce el volumen de ventas actual (este
valor an no existe).
Se quiere calcular los residuos para todos los 21 estudios de la

compaa:
174.4 187.2 12.8

164.4 154.2 10.2
r
... ... ...

166 .5 157.1 9.4
Coeficientes con variables estandarizadas
El uso de variables estandarizadas permite comparar los

coeficientes de regresin entre variables con diferentes
escalas.
En lugar de estandarizar las variables y luego calcular los
coeficientes, se puede usar la matriz de correlaciones
directamente para encontrar esos coeficientes mediante:
s rXX
1
rYX
Para calcular los coeficientes no-estandarizados a partir de los

estandarizados existen las siguientes relaciones:
s s p 1
i Y i 0 y i xi
sX
i i 1
Coeficientes estandarizados
1.000 0.781 1 2.567 2.006 0.944

rXX rXX rYX
0.781 1.000 2.006 2.567 0.836
2.567 2.006 0.944 0.748

s rXX
1
rYX
2.006

2.567 0.836 0.251
Se espera que las ventas promedio aumenten 0.75 desviaciones

estndar cuando la poblacin de 16 aos o menos aumenta una
desviacin estndar, manteniendo constante el ingreso per cpita
disponible.
Cuando el ipc aumenta una desviacin estndar las ventas promedio
aumentarn 0.25 desviaciones estndar, manteniendo constante la
poblacin menor de 16.
De esta forma se observa un mayor impacto en las ventas con
aumentos de la poblacin menor de 16.
Derivacin de los coeficientes no estandarizados
0.748
s
0.251
sY s 36.19
sY 36.19 1
1 0.748 1.45
sX 18.62
1
s X 1 18.62 sY s 36.19
2 2 0.251 9.37
s X 2 0.97 sX 0.97
2
Y 181.9
p 1
0 y i xi 181.9 1.45 62.02 9.37 17.14 68.6
X 1 62.02 0
i 1
X 2 17.14
yi 68.6 1.45xi1 9.37 xi 2

Inferencias
Objetivos
Calcular intervalos de confianza para los coeficientes de

regresin.
Calcular intervalos de confianza para la respuesta
media.
Calcular intervalos de confianza para los valores
individuales.
Estimacin de la variancia del error
Suma de cuadrados residual:
SC Re s r ' r Y ' (1 H )' (1 H )Y Y ' (1 H )Y
Estimacin de la variancia del error:
SC Re s r' r
2
n p n p
Suma de cuadrados residual:

12.8
10.2
SC Re s r ' r 12.8 10.2 ... 9.4 2180.93
...

9.4
Estimacin de la variancia del error:
SCE 2180.93

2
121.1626
n p 21 3
Inferencias sobre los coeficientes
Estimacin puntual:
X X X T Y
1
T
Matriz de variancia-covariancia de los coeficientes:

Var ( ) 2 X T X
1
Error estndar de un coeficiente particular:

E.E.( i ) 2 X T X
1
ii
Matriz de variancia-covariancia de los coeficientes:
29.7289 .0722 1.9926

Var ( ) 2 X T X 121.1626 .0722
1
.00037 .0056
1.9926 .0056 .1363
3602.0 8.748 241.43

Var ( ) 8.748 .0448 .679
241.43 .679 16.514
Error estndar de 1 : 0.0448 0.212

Error estndar de 2 : 16.514 4.06
Intervalos de confianza
Intervalo de confianza para un coeficiente:
i t / 2,n p E.E.(i )
Intervalo de confianza para un coeficiente a la vez:
t / 2,n p t0.025,18 2.101
1 t0.025,18 E.E.(1 ) 1.455 2.101 0.212 1.01,1.90

2 t0.025,18 E.E.(2 ) 9.366 2.101 4.06 0.84,17.9
Respuesta media vs. prediccin individual
Cuando se utiliza el modelo de regresin para hacer predicciones

realmente se obtiene el valor esperado (promedio) de la
respuesta para valores establecidos de los predictores.
Tambin se puede encontrar un intervalo de confianza para la
respuesta media, as como un rango donde se espera se van a
encontrar los valores individuales de la respuesta para esos
valores establecidos de los predictores.
Estimacin de la variancia
La variancia para la respuesta media se puede expresar como

una funcin de la matriz de variancia-covariancia de los
coeficientes estimados:
Var(Yh ) X h Var( ) X h
T
X hT (1, xh1 ,, xh, p1 )

Ya que cualquier observacin individual se puede descomponer
como la suma del promedio ms el error, la variancia para los
valores individuales es la suma de la variancia para la respuesta
media ms el cuadrado medio de error:
Var (Yind ) CME Var (Yh )

Variancia para la respuesta media para ciudades con

caractersticas similares donde X1=65.4 y X2=17.6.
X hT (1,64.5,17.6)
3602.0 8.748 241.43 1
Var (Yh ) 1 65.4 17.6 8.748 .0448 .679 65.4
241.43 .679 16.514 17.6
Var (Yh ) 7.656
E.E.(Yh ) 7.656 2.77

El intervalo de confianza para la respuesta media se

encuentra usando el mismo valor de t que se us para
el intervalo individual de los coeficientes:
t / 2,n p t0.025,18 2.101
Yh t / 2,n p E.E.(Yh ) 191.1 2.101 2.77
185.3 Yh 196.9
Variancia para las observaciones individuales:
Var (Yind ) CME Var (Yh ) 121.1626 7.656 128.82
E.E.(Yind ) 128.82 11.35

El intervalo de confianza para las observaciones

individuales se encuentra usando el mismo valor de t
que se us para el intervalo individual de los
coeficientes:
t / 2,n p t0.025,18 2.101
Yind t / 2,n p E.E.(Yind ) 191.1 2.10111.35
167.3 Yh 214.9
Coeficientes de
determinacin
Objetivos
Conocer como se realiza la particin de la suma de

cuadrados total en un modelo de regresin.
Calcular el coeficiente de determinacin mltiple.
Calcular la suma de cuadrados de regresin marginal.
Calcular el coeficiente de determinacin parcial.
Particin de la suma de cuadrados
La desviacin total de una observacin respecto a su media se

puede descomponer en dos componentes:
Desviacin del valor ajustado respecto a la media.
Desviacin de la observacin respecto a la lnea de regresin o
valor ajustado.
yi y ( yi yi ) ( yi y )
Observado Ajustado
respecto al respecto
ajustado a la
media
Particin de la suma de cuadrados
La suma de cuadrados total de la respuesta se puede

descomponer en dos fuentes de variacin:
La variacin de la lnea de regresin alrededor de la media denota
la parte de la variabilidad de Y que est asociada con la lnea de
regresin (variabilidad explicada) y es medida por la SCR (suma de
cuadrados de regresin).
La variacin aleatoria que no logra ser explicada por las variables
incluidas en el modelo y es medida por la SCE (suma de cuadrados
de error).

iy y 2
i i i
( y
y )
2
(
y y )
2
SCT = SCE + SCR

Coeficiente de determinacin
El coeficiente de determinacin mltiple es el porcentaje

de la variancia total de la respuesta explicada
conjuntamente por los predictores incluidos en el modelo
de regresin:
SCE
R 1
2
SCTot
Porcin no
explicada
Efecto de agregar predictores
La SCE nunca puede aumentar cuando se agregan predictores al

modelo.
La SCT es fija pues es la variabilidad en Y y no depende de los
predictores.
Con ms predictores el R2 casi siempre crece y nunca decrece.
Suma de Cuadrados de Regresin Marginal
La Suma de Cuadrados de Regresin Marginal,

SCReg(X2|X1), mide el efecto marginal de introducir X2 en
el modelo de regresin cuando X1 ya est incluida en el
modelo.
Lo que explica X1
cuando entra sola Lo que explica X2 despus
de que entr X1
1/8
1/4
SCE en modelo con slo el SCE en modelo con los dos

primer predictor (X1) predictores
3/4 5/8
SC Re g ( X 2 X1 ) SCE( X1 ) SCE( X1 , X 2 )
3 / 4 5 / 8 1/ 8
Coeficientes de determinacin parcial
El coeficiente de determinacin parcial entre Y y X2, dado que

2
X1 est en el modelo se denota como rY 2,1 y se define como:
SCR( X 2 X 1 )
r 2
Y 2 ,1
SCE ( X 1 )
Similarmente, el coeficiente de determinacin parcial entre Y y
X3, dado que X1 y X2 estn en el modelo se denota como
.rY23,12 y se define como:
SCR( X 3 X 1 , X 2 )
r 2
Y 3,12
SCE ( X 1 , X 2 )
Prueba de hiptesis
Objetivos
Realizar pruebas de hiptesis que permitan contrastar

dos modelos anidados.
Realizar la prueba de significancia de todos los
coeficientes en conjunto.
Realizar la prueba de significancia de un coeficiente
individual.
Realizar otras pruebas correspondientes a hiptesis
particulares sobre uno o varios coeficientes.
Hiptesis para comparar modelos
Sea W un modelo con ms variables y w un modelo menor que

consiste en un subconjunto de predictores que estn en W.
El principio de parsimonia dice que se preferira usar w antes que
W si los datos lo soportan.
H0 :w
HA :W
( SCEw SCEW ) /( q p ) q : dim( W)
F ~ Fq p ,n q
SCEW /( n q) p : dim( w )
Prueba de todos los predictores
W es el modelo completo con todos los predictores.

w es el modelo reducido con solo el promedio.
H0: y
H 0 : 1 2 ... p 1 0
HA : y X
( SCT SCEW ) /( p 1)
F ~ Fp 1,n p
SCEW /( n p)
Ejemplo: Ahorros
Para modelar el ahorro que tiene un pas Belsley, Kuh y Welsh

(1980) reportaron los datos de ahorros de 50 pases, as como
una serie de variables que podran servir como predictores. Los
datos son promedios de 1960 a 1970 (para remover ciclos y
otras fluctuaciones de corto plazo):
sr: ahorros personales dividido por el dpi (RESPUESTA).
dpi: ingreso disponible per capita (U.S.$).
ddpi: tasa de cambio pocentual en el dpi.
pop15: porcentaje de poblacin debajo de 15.
pop75: porcentaje de poblacin sobre 75.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **
pop75 -1.6914977 1.0835989 -1.561 0.125530
dpi -0.0003369 0.0009311 -0.362 0.719173
ddpi 0.4096949 0.1961971 2.088 0.042471 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
n-p=50-5
Residual standard error: 3.803 on 45 degrees of freedom

Multiple R-Squared: 0.3385, Adjusted R-squared: 0.2797
F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904
p-1=5-1
Prueba de un predictor

w es el modelo reducido eliminando un predictor.
H 0 : y 1 X 1 2 X 2 ... i 1 X i 1 i 1 X i 1 ... p X p
H 0 : i 0
HA : y 1 X 1 2 X 2 ... i X i ... p X p
Dos distribuciones equivalentes:

i ( SCEw SCEW ) /(1)
t ~ t n p F ~ F1,n p
E.E.( i ) SCEW /( n p )
t n2 p F1,n p
Coefficients:
Estimate Std. Error t value Pr(>|t|) 0.46
t 3.19
0.14
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **
Analysis of Variance Table

ELIMINANDO pop15
Model 1: sr ~ pop75 + dpi + ddpi
Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 797.72
2 45 650.71 1 147.01 10.167 0.002603 **
(797.72 650.71)
F 10.2
650.71 / 45
(3.19) 2 10.2
0.46
t 3.19
0.14
Efectos combinados

w es el modelo reducido combinando dos predictores.
H 0 : y 1 X 1 2 X 2 ... jk ( X j X k ) ... p X p
H0 : j k
H A : y 1 X 1 2 X 2 ... i X i ... p X p

COMBINANDO pop15 y pop75
Model 1: sr ~ I(pop15 + pop75) + dpi + ddpi

1 46 673.63
2 45 650.71 1 22.91 1.5847 0.2146
(673.63 650.71) / 1
F 1.58
650.71 / 45
Prueba de un coeficiente
igual a una constante

w es el modelo reducido donde el coeficiente de uno de los
predictores es constante (fijo).
H 0 : y 1 X 1 2 X 2 ... X j ... p X p
H0 : j
H A : y 1 X 1 2 X 2 ... j X j ... p X p
j
t ~ tn p
E.E.( j )

FIJANDO ddpi
Model 1: sr ~ pop15 + pop75 + dpi + offset(nddpi)

H 0 : ddpi 0.5
1 46 653.78
2 45 650.71 1 3.06 0.2119 0.6475
0.41 0.5
t 0.46
0.196
(0.46) 2 0.21

H 0 : pop15 pop75 0
Model 1: sr ~ dpi + ddpi

1 47 824.72
2 45 650.71 2 174.01 6.0167 0.004835 **
En el modelo completo no se rechaza la hiptesis de que el

coeficiente de pop75 es cero (p=0.12); sin embargo, cuando se
hace la hiptesis conjunta s se rechaza la hiptesis de que
ambos son cero.
Predictores cualitativos
Ejemplo: Innovacin de seguros
Un economista estudi 10 firmas mutuales y 10 firmas de stock.

Inters en estudiar el efecto del tipo de firma (X2) en el tiempo
transcurrido para que una innovacin de seguros sea adoptada
(Y).
Se toman en cuenta otra variable que influye: tamao de la firma
(monto en activos) (X1).
El tipo de firma tiene dos categoras codificadas como:
1: tipo stock.
0: tipo mutual.
Modelo
yi 0 1 xi1 2 xi 2 i
Si la firma es tipo stock (X2=1), el modelo se reduce a:
yi 0 1 xi1 2 i (0 2 ) 1 xi1 i
Si la firma es tipo mutual (X2=0), el modelo se reduce a:
yi 0 1 xi1 i
Modelo
Este modelo asume paralelismo.

Para un valor fijo de X1, el tiempo promedio transcurrido para
adoptar una innovacin por una firma tipo stock es 2 mayor que
el tiempo promedio en que una firma tipo mutual adopta la
innovacin, sin importar cul es el valor de X1.
yi 33.87 0.102 xi1 8.065xi 2
Stock:
y i( s ) (33.87 8.065) 0.102 xi1 41.935 0.102 xi1
Mutual:
y i( m ) 33.87 0.102 xi1

Comparacin de rectas
Se puede analizar qu tan cerca estn las rectas mediante el

anlisis del coeficiente de la variable tipo de firma:
y ( s ) y ( m) 8.065
i i 2
n=20; p=3; n-p=17; t17=2.11; E.E.(2)=1.459

Intervalo de confianza para 2:
2 t17 E.E.(2 ) 8.065 2.111.459 [5.0,11.1]

Las firmas tipo stock (de un cierto tamao) tardan en promedio
entre 5 y 11 meses ms en adoptar una innovacin que las
firmas tipo mutual que tienen ese mismo tamao.
Se rechaza H0:2=0 y por esta razn tiene sentido la
interpretacin.
La prueba tambin se puede hacer con una F comparando el
modelo que tiene X2 con el modelo sin X2.
Alternativa
En lugar de incluir la variable tipo de firma en el modelo, se

pueden ajustar dos regresiones por separado, una para cada tipo
de firma (usando en una slo los datos de firmas tipo stock y en
la otra usando los datos de las firmas tipo mutual).
En tal caso las lneas no seran perfectamente paralelas.
Ya que se hizo el supuesto de que los modelos para ambos tipos
de firma tienen la misma pendiente (1), este coeficiente se
puede estimar mejor en el modelo combinando todos los datos.
Modelo con interacciones
yi 0 1 xi1 2 xi 2 3 xi1 xi 2 i
Si la firma es tipo stock (X2=1), el modelo se reduce a:
yi( s ) 0 1 xi1 2 3 xi1 i ( 0 2 ) ( 1 3 ) xi1 i

Si la firma es tipo mutual (X2=0), el modelo se reduce a:
yi( m ) 0 1 xi1 i
Reduccin del modelo
Si 3=0, se obtiene un modelo sin interacciones, es decir, las

rectas son paralelas.
Entonces se debe hacer la prueba de la interaccin mediante la
hiptesis H0: 3=0.
Si se rechaza H0 este modelo es equivalente a ajustar dos rectas
por separado.
Hay ventajas en usar un modelo grande:
Se usan todos los datos para estimar los coeficientes de la regresin.
Se puede probar el supuesto de no-interaccin.
Ejemplo
Se puede asumir que 3=0 pues la hiptesis nula no se rechaza,

por lo tanto, se puede usar el modelo simplificado para lneas
paralelas.
lm(formula = Tiempo ~ Tamano + Tipo1 + Tamano:Tipo1)
Coefficients:
(Intercept) 33.84 2.44 13.864 2.47e-10 ***
Tamano -0.10 0.01 -7.779 7.97e-07 ***
Tipo1Stock 8.13 3.65 2.225 0.0408 *
Tamano:Tipo1Stock -0.0004 0.02 -0.023 0.9821
Ejemplo con Tiempo2
Ahora la hiptesis nula se rechaza, por lo tanto, no se puede usar

el modelo simplificado para lneas paralelas.
lm(formula = Tiempo2 ~ Tamano + Tipo1 + Tamano:Tipo1)
Coefficients:
(Intercept) 33.84 2.44 13.86 2.47e-10 ***
Tamano -0.05 0.01 -3.95 0.00115 **
Tipo1Stock 8.13 3.65 2.22 0.04079 *
Tamano:Tipo1Stock -0.05 0.02 -2.75 0.01422 *
Comparacin de rectas
Cuando hay interaccin, la comparacin de la respuesta promedio

para los diferentes tipos de firma va a depender del valor la
variable X1:
y ( s ) y ( m) x 8.13 0.05x
i i 2 3 1 1
Se debe dar la interpretacin para valores seleccionados de X1

(usualmente para los cuartiles).
Para dar intervalos de confianza es necesario calcular la variancia
de 2+3X1.

Var 2 3 X1 Var 2 X12Var 3 2 X1Cov 2 , 3
Para la construccin del intervalo de confianza se usa un t1-/2,n-p.
Predictores con ms de dos categoras
Ejemplo: Trfico
Interesa analizar el trfico para realizar el planeamiento de

autopistas, diseo, control de trfico, asignacin de presupuesto,
etc.
Inters en estudiar el efecto del tipo de carretera (4 categoras)
en el promedio anual de trfico diario (AADT) como variable
respuesta (Y).
Se toman en cuenta otra variable que influye: poblacin del
condado por donde pasa la seccin de carretera analizada (X1)
como el mejor proxy de la densidad de poblacin en el
vecindario.
El tipo de carretera tiene 4 categoras codificadas como:
1: rural interestatal.
2: rural no-interestatal.
3: urbana interestatal.
4: urbana no-interestatal.
Modelo
Se crean 3 variables dicotmicas (dummy):

X2=1 si es tipo rural no-interestatal y 0 en otro caso.
X3=1 si es tipo urbana interestatal y 0 en otro caso.
X4=1 si es tipo urbana no-interestatal y 0 en otro caso.
Si el tramo de carretera es de tipo rural interestatal todas la

variables dicotmicas tomarn valor de cero.
El modelo que asume paralelismo es:
yi 0 1 xi1 2 xi 2 3 xi 3 4 xi 4 i
El modelo con interaccin es:
yi 0 1 xi1 2 xi 2 3 xi 3 4 xi 4 2 xi1 xi 2 3 xi1 xi 3 4 xi1 xi 4 i

Modelo con interaccin
Coefficients:
(Intercept) 9.32 0.64 14.5 < 2e-16 ***
CTYPOP 6.5e-06 9.8e-06 0.662 0.51
as.factor(CLASS)2 -1.85 0.66 -2.82 0.006 **
as.factor(CLASS)3 0.87 0.76 1.13 0.26
as.factor(CLASS)4 -0.45 0.68 -0.66 0.51
CTYPOP:as.factor(CLASS)2 -5.4e-06 9.8e-06 -0.554 0.58
Model 1: log(AADT) ~ CTYPOP + as.factor(CLASS)

Model 2: log(AADT) ~ CTYPOP * as.factor(CLASS)
1 116 92.649
2 113 92.242 3 0.40703 0.1662 0.919
Interaccin no significativa
Modelo sin interaccin
Coefficients:
(Intercept) 9.62 0.32 30.4 < 2e-16 ***
CTYPOP 1.3e-06 3.1e-07 4.1 6.52e-05 ***
as.factor(CLASS)2 -2.17 0.34 -6.4 3.00e-09 ***
as.factor(CLASS)3 0.68 0.41 1.6 0.1025
as.factor(CLASS)4 -0.75 0.36 -2.1 0.0413 *
No difieren las lneas Rural-interestatal (1)

y Urbana-interestatal (3).

I. Modelos de Regresión Múltiple

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

I. Modelos de Regresión Múltiple

Enviado por

Direitos autorais:

Formatos disponíveis

ESCUELA DE ESTADISTICA

Presentado por Gilbert Brenes Camacho, basado

Reconocer situaciones donde se pueden aplicar las

Variables que determinan la velocidad de un corredor.

Un estudio para determinar las variables asociadas al

Un estudio para determinar cun mal dorman los

La realidad debe ser reducida a proporciones manejables, por

Consideraciones importantes en la seleccin:

La teora puede indicar la forma funcional

En la formulacin del modelo usualmente debe restringirse la

Descriptivo: el estudio pretende conocer en qu medida las

Interpretar grficamente el concepto de un modelo de

Cada valor de la respuesta puede descomponerse como la suma

El modelo matemtico permite estimar el valor esperado de la

Descripcin inadecuada de la respuesta ya que un nmero de

y1 1 x11 x12 ... x1, p 1 0 1

p: nmero de coeficientes estimados

Cada valor de la respuesta se sigue descomponiendo como la

E Y | X i X iT X iT (1, xi1 ,, xi. p1 )

Estimacin del valor esperado de la respuesta para

Cada valor observado yi puede ser determinado con los valores

Un residuo es una estimacin del error y se calcula mediante la

1. Relacin lineal entre los predictores y la respuesta el

1. Independencia de errores o no autocorrelacin - dados

Comprender el mtodo de estimacin por mnimos

Para encontrar los valores en que minimizan la SCR se

Para encontrar los valores en por el mtodo de mxima

Debido a la monotona de la funcin logartmica, la

Para encontrar los estimadores de los s, se considera el

Esto es equivalente a minimizar ri cuyo resultado

corresponde al obtenido por mnimos cuadrados ordinarios.

Se deberan usar estimadores diferentes a mnimos

Los errores estn correlacionados o la Mnimos

La distribucin de los errores tiene una Estimadores

Hay colinealidad en los predictores. Estimadores

Una compaa tiene estudios fotogrficos en 21 ciudades de

1 68,5 16.7 174.4

29.7289 .0722 1.9926 3820 68.857

La funcin de regresin estimada:

yi 68.857 1.455xi1 9.366 xi 2

Calcular el vector de valores ajustados usando la

Para encontrar un valor ajustado (estimacin particular de Y)

Se quiere estimar las ventas para el estudio en la primera

y1 68.857 1.455 68.5 9.366 16.7 187.2

Aunque las ventas reales de esta sucursal fueron de $174,400,

Si se quisiera estimar las ventas que podra percibir un estudio

y 68.857 1.455 65.4 9.366 17.6 191.1

Para encontrar las estimaciones de Y para todas las

Se quiere estimar las ventas para todos los 21 estudios de la

1 68,5 16.7 187.2

Los residuos son estimaciones de los errores y se calculan

r1 174.4 187.2 12.8

No se puede calcular el residuo para el estudio en la nueva

Se quiere calcular los residuos para todos los 21 estudios de la

174.4 187.2 12.8

El uso de variables estandarizadas permite comparar los

Para calcular los coeficientes no-estandarizados a partir de los

1.000 0.781 1 2.567 2.006 0.944

2.567 2.006 0.944 0.748

Se espera que las ventas promedio aumenten 0.75 desviaciones

yi 68.6 1.45xi1 9.37 xi 2

Calcular intervalos de confianza para los coeficientes de

Suma de cuadrados residual:

SC Re s r ' r Y ' (1 H )' (1 H )Y Y ' (1 H )Y