Você está na página 1de 99

ESCUELA DE ESTADISTICA

MODELOS DE REGRESIN
APLICADOS

CAPITULO I: MODELOS DE
REGRESIN MLTIPLE

Presentado por Gilbert Brenes Camacho, basado


en presentacin de Ricardo Alvarado
2015
Contenidos

Ideas bsicas
El modelo y los supuestos.
Estimacin de los coeficientes.
Valores ajustados y residuales.
Inferencias.
Coeficientes de determinacin
Prueba de hiptesis.
Predictores cualitativos
Ideas bsicas
Objetivos

Reconocer situaciones donde se pueden aplicar las


tcnicas de regresin.
Comprender los elementos que deben considerarse en
la construccin de un modelo.
Comprender los diferentes usos de los modelos de
regresin.
Diferenciar los tipos de estudios en los que se aplican
los modelos de regresin.
Ejemplo: Velocidad

Variables que determinan la velocidad de un corredor.


Unidad: corredor.
Variable respuesta: velocidad (100m/tiempo en seg).
Predictores:
Largo promedio de las piernas
Peso
Hombre mujer
Ejemplo: Ruido

Un estudio para determinar las variables asociadas al


ruido en distintos puntos cercanos a la UCR.
Unidad: punto geogrfico.
Variable respuesta: Cantidad de ruido en decibelios.
Predictores :
Cantidad de motos, carros, buses.
Cantidad de bares y locales comerciales.
Cerca de la lnea del tren: S o No.
.
.
Ejemplo: ndice de privacin del sueo

Un estudio para determinar cun mal dorman los


estudiantes universitarios.
Unidad: un estudiante universitario.
Variable respuesta: Puntaje en un test psicomtrico
para medir privacin del sueo.
Predictores :
Cantidad de caf consumida
Hombre/Mujer
Promedio ponderado en la UCR (como aproximacin a la
cantidad de horas estudiadas).
.
...
Ejemplo: .

Un estudio .....................
Unidad:
Variable respuesta:
Predictores :
..........................
..........................
..
..
...........................
Construccin de un modelo de regresin

Seleccin de predictores.
Forma funcional de la relacin en la regresin.
Alcance del modelo.
Seleccin de predictores

La realidad debe ser reducida a proporciones manejables, por


lo tanto, slo un nmero limitado de variables debera ser
incluido en cualquier modelo.
En estudios exploratorios se cuenta con muchas variables por
lo que se convierte en un problema la seleccin de un buen
conjunto de predictores para el anlisis.
Seleccin de predictores

Consideraciones importantes en la seleccin:


En cuanto puede contribuir un determinado predictor en la
reduccin de la variabilidad residual de Y despus de la
inclusin de otros predictores incluidos tentativamente.
Importancia de la variable como un agente causal en el
proceso que se analiza.
El grado en que las observaciones de la variable pueden ser
recolectadas ms precisa, rpida o econmicamente que
otras variables potenciales.
El grado en que la variable puede ser controlada.
Forma funcional de la relacin en la regresin

La teora puede indicar la forma funcional


adecuada.
Muchas veces esta forma no es conocida
a priori y debe decidirse empricamente
una vez que se han recolectado los datos.
Funciones lineales o cuadrticas sirven de
base como una primera aproximacin.
En algunos casos, aunque la teora
establezca una relacin compleja, las
formas simples pueden dar una
aproximacin razonable.
Alcance del modelo

En la formulacin del modelo usualmente debe restringirse la


cobertura del modelo a cierto intervalo o regin de valores de
las variables explicativas.
El alcance es determinado por el diseo de la investigacin o
por el rango de datos a mano.
La forma de la funcin de regresin en un sector que se aleja
mucho del rango estudiado debera ponerse seriamente en
duda porque la investigacin no provee evidencia.
Usos del modelo

Descriptivo: el estudio pretende conocer en qu medida las


variables predictoras pueden explicar el comportamiento de la
respuesta (ejemplo: ndice de sueo).
Control: mediante el desarrollo de una relacin estadstica til
entre costo y predictores la administracin podra establecer
estndares de costo para cada sucursal (ejemplo:
sucursales).
Prediccin: el uso de la relacin estadstica permite estimar el
nmero promedio de la respuesta para nuevas caractersticas.
Tipos de estudios

Observacionales:
No es posible controlar las variables explicativas.
No da informacin adecuada acerca de las relaciones de causa
y efecto.
Debe investigarse si otras variables explicativas pueden
explicar ms directamente estas relaciones.
Experimentales:
Los niveles de los predictores son controlados y las
observaciones pueden ser asignadas aleatoriamente a cada
nivel.
Los resultados pueden dar informacin ms fuerte sobre las
relaciones de causa y efecto ya que la aleatorizacin tiende a
balancear los efectos de cualquier otra variable que pueda
afectar la respuesta.
El modelo y los supuestos
Objetivos

Interpretar grficamente el concepto de un modelo de


regresin.
Comprender la ecuacin de regresin escrita en forma
matricial o en forma expandida.
Comprender el concepto de error en la regresin.
Comprender los supuestos que se establecen en un
modelo de regresin.
Modelo de regresin simple

Cada valor de la respuesta puede descomponerse como la suma


de la media condicional ms una cantidad aleatoria:

yi E Y | xi i Y | xi i
La media condicional se puede modelar. La forma ms simple es
expresar esta media en funcin del predictor de una forma lineal:

Y | x 0 1 xi
i

El modelo matemtico permite estimar el valor esperado de la


respuesta para un valor fijo del predictor:

Y | x 0 1 xi yi
i
Modelo de regresin general

Distribucn
de Y para X1

Ecuacin de
regresin
Medias en crecimiento lineal

Representar grficamente:

Y | x E[Y | X x4 ] y 4
4
1. Las medias decrecen a un ritmo de 3
unidades al aumentar la X en 2 unidades.
2. La varianza crece al aumentar el valor de X.
Necesidad de ms de un predictor

Descripcin inadecuada de la respuesta ya que un nmero de


variables importantes afectan la respuesta en diferentes e
importantes formas.
Un modelo con slo un predictor puede resultar demasiado
impreciso para ser til.
Las predicciones pueden contener un alto grado de error si no
se consideran variables relevantes.
Modelo de regresin mltiple
Notacin

y1 1 x11 x12 ... x1, p 1 0 1



y2 1 x21 x22 ... x2, p 1 1 2
Y X
... ... ... ... ... ... ...



y 1 x ... xn, p 1
p 1 n
n n1 xn 2

p: nmero de coeficientes estimados


incluyendo el intercepto o nmero de
predictores ms uno.
Modelo de regresin mltiple

Cada valor de la respuesta se sigue descomponiendo como la


suma de la media condicional ms una cantidad aleatoria:

yi EY | X i i
Se modela la media condicional como un hiperplano:
E[Y | X i ] 0 1 xi1 2 xi 2 ... p 1 xi , p 1

E Y | X i X iT X iT (1, xi1 ,, xi. p1 )


Se expresan la media condicional y la respuesta para todos los
individuos observados:
EY | X X Y X
nx1 nxp px1 nx1

Estimacin del valor esperado de la respuesta para


correspondiente a todos los individuos observados:
E Y | X Y X
Errores y residuos

Cada valor observado yi puede ser determinado con los valores


de los predictores en X i , excepto por una cantidad aleatoria
desconocida.
El error es la distancia entre un valor de la respuesta y el
promedio condicional (dados los valores de X):

i yi E (Y | X i )

Un residuo es una estimacin del error y se calcula mediante la


diferencia entre el valor observado y el valor estimado:

ri yi Y | X i yi y i
Supuestos sobre las variables

1. Relacin lineal entre los predictores y la respuesta el


valor esperado de la respuesta sigue una funcin lineal de
X (recta, plano, etc).
2. No multicolinealidad no debe haber una relacin lineal
perfecta entre los predictores.
Supuestos sobre la distribucin de los errores

1. Independencia de errores o no autocorrelacin - dados


dos valores cualesquiera de X (i.e. xi y xj), la correlacin
entre i y j es nula => Cov [i , j]=0.
2. Normalidad - la distribucin de los errores para cada valor
Xi sigue una distribucin normal con valor esperado de la
distribucin condicional igual a 0 (E[ | Xi]=0).
3. Homoscedasticidad - la variancia de los errores para cada
valor Xi es constante => Var[ | Xi]=2.

~ N (0, I ) 2
Normalidad y homoscedasticidad
Estimacin de los
coeficientes
Objetivos

Comprender el mtodo de estimacin por mnimos


cuadrados.
Comprender el mtodo de estimacin por mxima
verosimilitud.
Interpretar los coeficientes de un modelo de regresin.
Estimacin por mnimos cuadrados ordinarios


Elegir de tal forma que los valores estimados (yi)
estn tan cerca como sea posible de las observaciones
reales ( yi ).
Una forma es minimizar la suma de cuadrados de los
residuos:

Q yi y i ri 2
2
Suma de cuadrados residual

Q ri 2 yi y i
2


Q yi ( 0 1 xi1 2 xi 2 ... p 1 xi , p 1 )
2

Q (Y X )T (Y X )
Q Y T Y T X T Y Y T X T X T X
Q Y T Y 2 T X T Y T X T X
Minimizacin de la suma de cuadrados residual

Para encontrar los valores en que minimizan la SCR se


debe derivar con respecto a e igualar a 0 la expresin
resultante.

r T r Y T Y 2 T X T Y T X T X
(r T r )
2 X T Y 2 X T X 0

Las soluciones en para esta ecuacin son las
estimaciones de mnimos cuadrados de los coeficientes de
regresin.

X X X T Y
1
T
Estimacin de mxima verosimilitud

Para encontrar los valores en por el mtodo de mxima


de verosimilitud se debe escribir la funcin de densidad
conjunta o funcin de verosimilitud:

i ~ N(0, 2)

1 2
f i i ri
1
exp 2 ri
2
2 1/ 2
2
n
1 1 2 1 1 2
L( , )
2

i 1 2 2 1/ 2
exp 2 ri
2 2
2 n/2
exp 2
2
i
r
Estimacin de mxima verosimilitud

Debido a la monotona de la funcin logartmica, la


maximizacin de la funcin de verosimilitud es equivalente
a la maximizacin de su logaritmo:
1 1
l ( , ) ln
2


r 2

2
i
2 2
n/2 2

Para encontrar los estimadores de los s, se considera el


trmino que contiene la sumatoria de los errores
cuadrticos pues stos estn en funcin de los s.
Entonces el primer trmino se puede obviar por ser una
constante (no depende de los s ) y se debe maximizar:
1

2 2 r i
2

Esto es equivalente a minimizar ri cuyo resultado


2

corresponde al obtenido por mnimos cuadrados ordinarios.


Otros estimadores

Se deberan usar estimadores diferentes a mnimos


cuadrados cuando:

Los errores estn correlacionados o la Mnimos


variancia vara segn el valor de y. cuadrados
generalizados.

La distribucin de los errores tiene una Estimadores


cola larga. robustos (no
lineales en y).

Hay colinealidad en los predictores. Estimadores


sesgados
(ridge).
Ejemplo: Estudios fotogrficos

Una compaa tiene estudios fotogrficos en 21 ciudades de


tamao medio. La compaa est considerando expandirse a
otras ciudades de tamao medio y desea investigar si las
ventas (Y) en una comunidad pueden predecirse a partir del
nmero de personas de edad 16 o menores en la comunidad
(X1) y el ingreso per capita disponible en la comunidad (X2).
Ejemplo (continuacin)
Las matrices de clculo

1 68,5 16.7 174.4


1 45.2 16.8 164.4
X Y
... ... ... ...

1 52.3 16.0 166.5

1 68,5 16.7
1 1 21.0 360.0
45.2 16.8
1 ... 1302.4
X ' X 68.5 45.2 52.3 1302.4 87707.9 22609.2
1
...
... ... ...
16.7 16.8 16.0 360.0 22609.2 6190.3
52.3 16.0
...
1

174.4
29.7289 .0722 1.9926 1 1 ... 1 3820
.0722 .00037 .0056 X 'Y 68.5 45.2 52.3 249643
164 .4
X ' X 1 ...
...
1.9926 .0056 .1363 16.7 16.8 ... 16.0 66073
166 . 5
Ejemplo (continuacin)
El vector de coeficientes estimados

29.7289 .0722 1.9926 3820 68.857


X ' X 1 X ' Y .0722 .00037 .0056 249643 1.455
1.9926 .0056 .1363 66073 9.366

La funcin de regresin estimada:

yi 68.857 1.455xi1 9.366 xi 2


Ejemplo (continuacin)
Interpretacin
Se espera que las ventas promedio aumenten $1,455,000
cuando la poblacin meta aumenta mil personas de 16 aos o
menos, manteniendo constante el ingreso per cpita
disponible.
Similarmente se espera que las ventas promedio aumenten
$9,366,000 cuando el ingreso per cpita disponible aumente
mil dlares, manteniendo constante la poblacin meta.
Valores ajustados y
residuales
Objetivos

Calcular el vector de valores ajustados usando la


ecuacin de regresin.
Calcular el vector de residuos usando los valores
ajustados.
Comprender el uso y clculo de los coeficientes
estandarizados.
Valores estimados o ajustados

Para encontrar un valor ajustado (estimacin particular de Y)


basta usar el modelo de regresin con valores especficos de
los predictores en X:

y i 0 1 xi1 2 xi 2 ... p 1 xi , p 1
Ejemplo (continuacin)

Se quiere estimar las ventas para el estudio en la primera


ciudad que tiene una poblacin de 68500 jvenes de 16 aos o
menos (X1=68.5) y el ingreso per cpita disponible es de
$16,700 (X1=16.7).
Se sustituyen los valores de X1 y X2 en la ecuacin de
regresin:
y1 68.857 1.455x11 9.366x12

y1 68.857 1.455 68.5 9.366 16.7 187.2

Aunque las ventas reales de esta sucursal fueron de $174,400,


el modelo produce un valor de $187,200.
Se podra esperar que si hubiese muchas sucursales con estas
caractersticas de poblacin e ingreso, las ventas promedio
seran de $187,200.
Ejemplo (continuacin)

Si se quisiera estimar las ventas que podra percibir un estudio


en una nueva ciudad para la cual se conoce su poblacin de
jvenes de 16 aos o menos (X1=65.4) y el ingreso per cpita
disponible (X2=17.6).
Tambin se sustituyen los valores de X1 y X2 en la ecuacin de
regresin:

y 68.857 1.455 65.4 9.366 17.6 191.1


Matriz de valores estimados

Para encontrar las estimaciones de Y para todas las


observaciones en la matriz X se puede multiplicar esta matriz
de predictores X por el vector de coeficientes estimados:

Y X

Se quiere estimar las ventas para todos los 21 estudios de la


compaa:

1 68,5 16.7 187.2


68.857 154.2
1 45.2 16.8
Y X 1 .455 Y
... ... ... ...
9.366
1 52.3 16.0 157.1
Residuos

Los residuos son estimaciones de los errores y se calculan


mediante las diferencias entre los valores observados y los
estimados:
r Y Y
Se quiere estimar el residuo para el estudio en la primera
basta restar el valor observado menos el estimado:

r1 174.4 187.2 12.8

No se puede calcular el residuo para el estudio en la nueva


ciudad ya que no se conoce el volumen de ventas actual (este
valor an no existe).
Ejemplo (continuacin)

Se quiere calcular los residuos para todos los 21 estudios de la


compaa:

174.4 187.2 12.8


164.4 154.2 10.2
r
... ... ...

166 .5 157.1 9.4
Coeficientes con variables estandarizadas

El uso de variables estandarizadas permite comparar los


coeficientes de regresin entre variables con diferentes
escalas.
En lugar de estandarizar las variables y luego calcular los
coeficientes, se puede usar la matriz de correlaciones
directamente para encontrar esos coeficientes mediante:

s rXX
1
rYX

Para calcular los coeficientes no-estandarizados a partir de los


estandarizados existen las siguientes relaciones:

s s p 1
i Y i 0 y i xi
sX
i i 1
Ejemplo (continuacin)
Coeficientes estandarizados

1.000 0.781 1 2.567 2.006 0.944


rXX rXX rYX
0.781 1.000 2.006 2.567 0.836

2.567 2.006 0.944 0.748


s rXX
1
rYX
2.006

2.567 0.836 0.251

Se espera que las ventas promedio aumenten 0.75 desviaciones


estndar cuando la poblacin de 16 aos o menos aumenta una
desviacin estndar, manteniendo constante el ingreso per cpita
disponible.
Cuando el ipc aumenta una desviacin estndar las ventas promedio
aumentarn 0.25 desviaciones estndar, manteniendo constante la
poblacin menor de 16.
De esta forma se observa un mayor impacto en las ventas con
aumentos de la poblacin menor de 16.
Ejemplo (continuacin)
Derivacin de los coeficientes no estandarizados
0.748
s
0.251
sY s 36.19
sY 36.19 1
1 0.748 1.45
sX 18.62
1
s X 1 18.62 sY s 36.19
2 2 0.251 9.37
s X 2 0.97 sX 0.97
2

Y 181.9
p 1
0 y i xi 181.9 1.45 62.02 9.37 17.14 68.6
X 1 62.02 0
i 1

X 2 17.14

yi 68.6 1.45xi1 9.37 xi 2


Inferencias
Objetivos

Calcular intervalos de confianza para los coeficientes de


regresin.
Calcular intervalos de confianza para la respuesta
media.
Calcular intervalos de confianza para los valores
individuales.
Estimacin de la variancia del error

Suma de cuadrados residual:

SC Re s r ' r Y ' (1 H )' (1 H )Y Y ' (1 H )Y

Estimacin de la variancia del error:

SC Re s r' r
2
n p n p
Ejemplo (continuacin)

Suma de cuadrados residual:


12.8
10.2
SC Re s r ' r 12.8 10.2 ... 9.4 2180.93
...

9.4
Estimacin de la variancia del error:

SCE 2180.93

2
121.1626
n p 21 3
Inferencias sobre los coeficientes

Estimacin puntual:

X X X T Y
1
T

Matriz de variancia-covariancia de los coeficientes:


Var ( ) 2 X T X
1

Error estndar de un coeficiente particular:


E.E.( i ) 2 X T X
1
ii
Ejemplo (continuacin)

Matriz de variancia-covariancia de los coeficientes:

29.7289 .0722 1.9926



Var ( ) 2 X T X 121.1626 .0722
1
.00037 .0056
1.9926 .0056 .1363

3602.0 8.748 241.43


Var ( ) 8.748 .0448 .679
241.43 .679 16.514

Error estndar de 1 : 0.0448 0.212


Error estndar de 2 : 16.514 4.06
Intervalos de confianza

Intervalo de confianza para un coeficiente:

i t / 2,n p E.E.(i )

Intervalo de confianza para un coeficiente a la vez:

t / 2,n p t0.025,18 2.101

1 t0.025,18 E.E.(1 ) 1.455 2.101 0.212 1.01,1.90


2 t0.025,18 E.E.(2 ) 9.366 2.101 4.06 0.84,17.9
Respuesta media vs. prediccin individual

Cuando se utiliza el modelo de regresin para hacer predicciones


realmente se obtiene el valor esperado (promedio) de la
respuesta para valores establecidos de los predictores.
Tambin se puede encontrar un intervalo de confianza para la
respuesta media, as como un rango donde se espera se van a
encontrar los valores individuales de la respuesta para esos
valores establecidos de los predictores.
Estimacin de la variancia

La variancia para la respuesta media se puede expresar como


una funcin de la matriz de variancia-covariancia de los
coeficientes estimados:

Var(Yh ) X h Var( ) X h
T

X hT (1, xh1 ,, xh, p1 )


Ya que cualquier observacin individual se puede descomponer
como la suma del promedio ms el error, la variancia para los
valores individuales es la suma de la variancia para la respuesta
media ms el cuadrado medio de error:

Var (Yind ) CME Var (Yh )


Ejemplo (continuacin)

Variancia para la respuesta media para ciudades con


caractersticas similares donde X1=65.4 y X2=17.6.
X hT (1,64.5,17.6)
3602.0 8.748 241.43 1
Var (Yh ) 1 65.4 17.6 8.748 .0448 .679 65.4
241.43 .679 16.514 17.6

Var (Yh ) 7.656

E.E.(Yh ) 7.656 2.77


Ejemplo (continuacin)

El intervalo de confianza para la respuesta media se


encuentra usando el mismo valor de t que se us para
el intervalo individual de los coeficientes:

t / 2,n p t0.025,18 2.101

Yh t / 2,n p E.E.(Yh ) 191.1 2.101 2.77

185.3 Yh 196.9
Ejemplo (continuacin)

Variancia para las observaciones individuales:

Var (Yind ) CME Var (Yh ) 121.1626 7.656 128.82

E.E.(Yind ) 128.82 11.35


Ejemplo (continuacin)

El intervalo de confianza para las observaciones


individuales se encuentra usando el mismo valor de t
que se us para el intervalo individual de los
coeficientes:

t / 2,n p t0.025,18 2.101

Yind t / 2,n p E.E.(Yind ) 191.1 2.10111.35

167.3 Yh 214.9
Coeficientes de
determinacin
Objetivos

Conocer como se realiza la particin de la suma de


cuadrados total en un modelo de regresin.
Calcular el coeficiente de determinacin mltiple.
Calcular la suma de cuadrados de regresin marginal.
Calcular el coeficiente de determinacin parcial.
Particin de la suma de cuadrados

La desviacin total de una observacin respecto a su media se


puede descomponer en dos componentes:
Desviacin del valor ajustado respecto a la media.
Desviacin de la observacin respecto a la lnea de regresin o
valor ajustado.

yi y ( yi yi ) ( yi y )

Observado Ajustado
respecto al respecto
ajustado a la
media
Particin de la suma de cuadrados

La suma de cuadrados total de la respuesta se puede


descomponer en dos fuentes de variacin:
La variacin de la lnea de regresin alrededor de la media denota
la parte de la variabilidad de Y que est asociada con la lnea de
regresin (variabilidad explicada) y es medida por la SCR (suma de
cuadrados de regresin).
La variacin aleatoria que no logra ser explicada por las variables
incluidas en el modelo y es medida por la SCE (suma de cuadrados
de error).


iy y 2
i i i
( y
y )
2
(
y y )
2

SCT = SCE + SCR


Coeficiente de determinacin

El coeficiente de determinacin mltiple es el porcentaje


de la variancia total de la respuesta explicada
conjuntamente por los predictores incluidos en el modelo
de regresin:

SCE
R 1
2

SCTot

Porcin no
explicada
Efecto de agregar predictores

La SCE nunca puede aumentar cuando se agregan predictores al


modelo.
La SCT es fija pues es la variabilidad en Y y no depende de los
predictores.
Con ms predictores el R2 casi siempre crece y nunca decrece.
Suma de Cuadrados de Regresin Marginal

La Suma de Cuadrados de Regresin Marginal,


SCReg(X2|X1), mide el efecto marginal de introducir X2 en
el modelo de regresin cuando X1 ya est incluida en el
modelo.
Lo que explica X1
cuando entra sola Lo que explica X2 despus
de que entr X1

1/8
1/4

SCE en modelo con slo el SCE en modelo con los dos


primer predictor (X1) predictores

3/4 5/8

SC Re g ( X 2 X1 ) SCE( X1 ) SCE( X1 , X 2 )

3 / 4 5 / 8 1/ 8
Coeficientes de determinacin parcial

El coeficiente de determinacin parcial entre Y y X2, dado que


2
X1 est en el modelo se denota como rY 2,1 y se define como:

SCR( X 2 X 1 )
r 2
Y 2 ,1
SCE ( X 1 )
Similarmente, el coeficiente de determinacin parcial entre Y y
X3, dado que X1 y X2 estn en el modelo se denota como
.rY23,12 y se define como:

SCR( X 3 X 1 , X 2 )
r 2
Y 3,12
SCE ( X 1 , X 2 )
Prueba de hiptesis
Objetivos

Realizar pruebas de hiptesis que permitan contrastar


dos modelos anidados.
Realizar la prueba de significancia de todos los
coeficientes en conjunto.
Realizar la prueba de significancia de un coeficiente
individual.
Realizar otras pruebas correspondientes a hiptesis
particulares sobre uno o varios coeficientes.
Hiptesis para comparar modelos

Sea W un modelo con ms variables y w un modelo menor que


consiste en un subconjunto de predictores que estn en W.
El principio de parsimonia dice que se preferira usar w antes que
W si los datos lo soportan.

H0 :w
HA :W
( SCEw SCEW ) /( q p ) q : dim( W)
F ~ Fq p ,n q
SCEW /( n q) p : dim( w )
Prueba de todos los predictores

W es el modelo completo con todos los predictores.


w es el modelo reducido con solo el promedio.

H0: y
H 0 : 1 2 ... p 1 0
HA : y X

( SCT SCEW ) /( p 1)
F ~ Fp 1,n p
SCEW /( n p)
Ejemplo: Ahorros

Para modelar el ahorro que tiene un pas Belsley, Kuh y Welsh


(1980) reportaron los datos de ahorros de 50 pases, as como
una serie de variables que podran servir como predictores. Los
datos son promedios de 1960 a 1970 (para remover ciclos y
otras fluctuaciones de corto plazo):
sr: ahorros personales dividido por el dpi (RESPUESTA).
dpi: ingreso disponible per capita (U.S.$).
ddpi: tasa de cambio pocentual en el dpi.
pop15: porcentaje de poblacin debajo de 15.
pop75: porcentaje de poblacin sobre 75.
Ejemplo (continuacin)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **
pop75 -1.6914977 1.0835989 -1.561 0.125530
dpi -0.0003369 0.0009311 -0.362 0.719173
ddpi 0.4096949 0.1961971 2.088 0.042471 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
n-p=50-5

Residual standard error: 3.803 on 45 degrees of freedom


Multiple R-Squared: 0.3385, Adjusted R-squared: 0.2797
F-statistic: 5.756 on 4 and 45 DF, p-value: 0.0007904

p-1=5-1
Prueba de un predictor

W es el modelo completo con todos los predictores.


w es el modelo reducido eliminando un predictor.

H 0 : y 1 X 1 2 X 2 ... i 1 X i 1 i 1 X i 1 ... p X p
H 0 : i 0
HA : y 1 X 1 2 X 2 ... i X i ... p X p

Dos distribuciones equivalentes:


i ( SCEw SCEW ) /(1)
t ~ t n p F ~ F1,n p
E.E.( i ) SCEW /( n p )

t n2 p F1,n p
Ejemplo (continuacin)

Coefficients:
Estimate Std. Error t value Pr(>|t|) 0.46
t 3.19
0.14
(Intercept) 28.5660865 7.3545161 3.884 0.000334 ***
pop15 -0.4611931 0.1446422 -3.189 0.002603 **

Analysis of Variance Table


ELIMINANDO pop15
Model 1: sr ~ pop75 + dpi + ddpi
Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 797.72
2 45 650.71 1 147.01 10.167 0.002603 **

(797.72 650.71)
F 10.2
650.71 / 45
(3.19) 2 10.2
0.46
t 3.19
0.14
Efectos combinados

W es el modelo completo con todos los predictores.


w es el modelo reducido combinando dos predictores.

H 0 : y 1 X 1 2 X 2 ... jk ( X j X k ) ... p X p
H0 : j k
H A : y 1 X 1 2 X 2 ... i X i ... p X p
Ejemplo (continuacin)

Analysis of Variance Table


COMBINANDO pop15 y pop75

Model 1: sr ~ I(pop15 + pop75) + dpi + ddpi


Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 673.63
2 45 650.71 1 22.91 1.5847 0.2146

(673.63 650.71) / 1
F 1.58
650.71 / 45
Prueba de un coeficiente
igual a una constante

W es el modelo completo con todos los predictores.


w es el modelo reducido donde el coeficiente de uno de los
predictores es constante (fijo).

H 0 : y 1 X 1 2 X 2 ... X j ... p X p
H0 : j
H A : y 1 X 1 2 X 2 ... j X j ... p X p

j
t ~ tn p
E.E.( j )
Ejemplo (continuacin)

Analysis of Variance Table


FIJANDO ddpi

Model 1: sr ~ pop15 + pop75 + dpi + offset(nddpi)


H 0 : ddpi 0.5
Model 2: sr ~ pop15 + pop75 + dpi + ddpi
Res.Df RSS Df Sum of Sq F Pr(>F)
1 46 653.78
2 45 650.71 1 3.06 0.2119 0.6475

0.41 0.5
t 0.46
0.196

(0.46) 2 0.21
Ejemplo (continuacin)

Analysis of Variance Table


H 0 : pop15 pop75 0
Model 1: sr ~ dpi + ddpi
Model 2: sr ~ pop15 + pop75 + dpi + ddpi

Res.Df RSS Df Sum of Sq F Pr(>F)


1 47 824.72
2 45 650.71 2 174.01 6.0167 0.004835 **

En el modelo completo no se rechaza la hiptesis de que el


coeficiente de pop75 es cero (p=0.12); sin embargo, cuando se
hace la hiptesis conjunta s se rechaza la hiptesis de que
ambos son cero.
Predictores cualitativos
Ejemplo: Innovacin de seguros

Un economista estudi 10 firmas mutuales y 10 firmas de stock.


Inters en estudiar el efecto del tipo de firma (X2) en el tiempo
transcurrido para que una innovacin de seguros sea adoptada
(Y).
Se toman en cuenta otra variable que influye: tamao de la firma
(monto en activos) (X1).
El tipo de firma tiene dos categoras codificadas como:
1: tipo stock.
0: tipo mutual.
Modelo

yi 0 1 xi1 2 xi 2 i
Si la firma es tipo stock (X2=1), el modelo se reduce a:

yi 0 1 xi1 2 i (0 2 ) 1 xi1 i
Si la firma es tipo mutual (X2=0), el modelo se reduce a:

yi 0 1 xi1 i
Modelo

Este modelo asume paralelismo.


Para un valor fijo de X1, el tiempo promedio transcurrido para
adoptar una innovacin por una firma tipo stock es 2 mayor que
el tiempo promedio en que una firma tipo mutual adopta la
innovacin, sin importar cul es el valor de X1.

yi 33.87 0.102 xi1 8.065xi 2

Stock:
y i( s ) (33.87 8.065) 0.102 xi1 41.935 0.102 xi1

Mutual:

y i( m ) 33.87 0.102 xi1


Comparacin de rectas

Se puede analizar qu tan cerca estn las rectas mediante el


anlisis del coeficiente de la variable tipo de firma:
y ( s ) y ( m) 8.065
i i 2

n=20; p=3; n-p=17; t17=2.11; E.E.(2)=1.459


Intervalo de confianza para 2:

2 t17 E.E.(2 ) 8.065 2.111.459 [5.0,11.1]


Las firmas tipo stock (de un cierto tamao) tardan en promedio
entre 5 y 11 meses ms en adoptar una innovacin que las
firmas tipo mutual que tienen ese mismo tamao.
Se rechaza H0:2=0 y por esta razn tiene sentido la
interpretacin.
La prueba tambin se puede hacer con una F comparando el
modelo que tiene X2 con el modelo sin X2.
Alternativa

En lugar de incluir la variable tipo de firma en el modelo, se


pueden ajustar dos regresiones por separado, una para cada tipo
de firma (usando en una slo los datos de firmas tipo stock y en
la otra usando los datos de las firmas tipo mutual).
En tal caso las lneas no seran perfectamente paralelas.
Ya que se hizo el supuesto de que los modelos para ambos tipos
de firma tienen la misma pendiente (1), este coeficiente se
puede estimar mejor en el modelo combinando todos los datos.
Modelo con interacciones

yi 0 1 xi1 2 xi 2 3 xi1 xi 2 i
Si la firma es tipo stock (X2=1), el modelo se reduce a:

yi( s ) 0 1 xi1 2 3 xi1 i ( 0 2 ) ( 1 3 ) xi1 i


Si la firma es tipo mutual (X2=0), el modelo se reduce a:

yi( m ) 0 1 xi1 i
Reduccin del modelo

Si 3=0, se obtiene un modelo sin interacciones, es decir, las


rectas son paralelas.
Entonces se debe hacer la prueba de la interaccin mediante la
hiptesis H0: 3=0.
Si se rechaza H0 este modelo es equivalente a ajustar dos rectas
por separado.
Hay ventajas en usar un modelo grande:
Se usan todos los datos para estimar los coeficientes de la regresin.
Se puede probar el supuesto de no-interaccin.
Ejemplo

Se puede asumir que 3=0 pues la hiptesis nula no se rechaza,


por lo tanto, se puede usar el modelo simplificado para lneas
paralelas.

lm(formula = Tiempo ~ Tamano + Tipo1 + Tamano:Tipo1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.84 2.44 13.864 2.47e-10 ***
Tamano -0.10 0.01 -7.779 7.97e-07 ***
Tipo1Stock 8.13 3.65 2.225 0.0408 *
Tamano:Tipo1Stock -0.0004 0.02 -0.023 0.9821
Ejemplo con Tiempo2

Ahora la hiptesis nula se rechaza, por lo tanto, no se puede usar


el modelo simplificado para lneas paralelas.
lm(formula = Tiempo2 ~ Tamano + Tipo1 + Tamano:Tipo1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.84 2.44 13.86 2.47e-10 ***
Tamano -0.05 0.01 -3.95 0.00115 **
Tipo1Stock 8.13 3.65 2.22 0.04079 *
Tamano:Tipo1Stock -0.05 0.02 -2.75 0.01422 *
Comparacin de rectas

Cuando hay interaccin, la comparacin de la respuesta promedio


para los diferentes tipos de firma va a depender del valor la
variable X1:
y ( s ) y ( m) x 8.13 0.05x
i i 2 3 1 1

Se debe dar la interpretacin para valores seleccionados de X1


(usualmente para los cuartiles).
Para dar intervalos de confianza es necesario calcular la variancia
de 2+3X1.


Var 2 3 X1 Var 2 X12Var 3 2 X1Cov 2 , 3
Para la construccin del intervalo de confianza se usa un t1-/2,n-p.
Predictores con ms de dos categoras
Ejemplo: Trfico

Interesa analizar el trfico para realizar el planeamiento de


autopistas, diseo, control de trfico, asignacin de presupuesto,
etc.
Inters en estudiar el efecto del tipo de carretera (4 categoras)
en el promedio anual de trfico diario (AADT) como variable
respuesta (Y).
Se toman en cuenta otra variable que influye: poblacin del
condado por donde pasa la seccin de carretera analizada (X1)
como el mejor proxy de la densidad de poblacin en el
vecindario.
El tipo de carretera tiene 4 categoras codificadas como:
1: rural interestatal.
2: rural no-interestatal.
3: urbana interestatal.
4: urbana no-interestatal.
Modelo

Se crean 3 variables dicotmicas (dummy):


X2=1 si es tipo rural no-interestatal y 0 en otro caso.
X3=1 si es tipo urbana interestatal y 0 en otro caso.
X4=1 si es tipo urbana no-interestatal y 0 en otro caso.

Si el tramo de carretera es de tipo rural interestatal todas la


variables dicotmicas tomarn valor de cero.
El modelo que asume paralelismo es:

yi 0 1 xi1 2 xi 2 3 xi 3 4 xi 4 i

El modelo con interaccin es:

yi 0 1 xi1 2 xi 2 3 xi 3 4 xi 4 2 xi1 xi 2 3 xi1 xi 3 4 xi1 xi 4 i


Modelo con interaccin

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.32 0.64 14.5 < 2e-16 ***
CTYPOP 6.5e-06 9.8e-06 0.662 0.51
as.factor(CLASS)2 -1.85 0.66 -2.82 0.006 **
as.factor(CLASS)3 0.87 0.76 1.13 0.26
as.factor(CLASS)4 -0.45 0.68 -0.66 0.51
CTYPOP:as.factor(CLASS)2 -5.4e-06 9.8e-06 -0.554 0.58
CTYPOP:as.factor(CLASS)3 -5.0e-06 9.8e-06 -0.510 0.61
CTYPOP:as.factor(CLASS)4 -5.2e-06 9.8e-06 -0.531 0.60

Model 1: log(AADT) ~ CTYPOP + as.factor(CLASS)


Model 2: log(AADT) ~ CTYPOP * as.factor(CLASS)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 116 92.649
2 113 92.242 3 0.40703 0.1662 0.919

Interaccin no significativa
Modelo sin interaccin

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.62 0.32 30.4 < 2e-16 ***
CTYPOP 1.3e-06 3.1e-07 4.1 6.52e-05 ***
as.factor(CLASS)2 -2.17 0.34 -6.4 3.00e-09 ***
as.factor(CLASS)3 0.68 0.41 1.6 0.1025
as.factor(CLASS)4 -0.75 0.36 -2.1 0.0413 *

No difieren las lneas Rural-interestatal (1)


y Urbana-interestatal (3).

Você também pode gostar