Escolar Documentos
Profissional Documentos
Cultura Documentos
REGRESIÓN LINEAL
MULTIVARIADA
Junio, 2010
F. VELA / J. F. ISLAS
Descripción
En este curso se desarrollan técnicas de
regresión lineal que permiten cuantificar
relaciones entre variables, contrastar hipótesis y
predecir valores futuros de ciertas variables en
función del modelo considerado.
F. VELA / J. F. ISLAS
Objetivos
Ofrecer los elementos básicos vinculados a las
técnicas de regresión lineal simple y múltiple
1
18/06/2010
F. VELA / J. F. ISLAS
Temario
Tema Contenido
1 Conceptos básicos
2 Modelo de Regresión Lineal Simple
3 Modelo de Regresión Lineal Múltiple
4 El Modelo de Regresión Lineal Simple y Múltiple con Stata
5 Contrastes de restricciones lineales y predicción
6 Errores en la especificación
7 Multicolinealidad
8 Variables cualitativas
9 Diagnóstico del modelo
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
2
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
3
18/06/2010
F. VELA / J. F. ISLAS
Tema 7. Multicolinealidad
1.- Multicolinealidad perfecta.
2.- Multicolinealidad de grado alto.
3.- Identificación con Stata.
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
4
18/06/2010
F. VELA / J. F. ISLAS
Bibliografía
James y Mark W. Watson (2002). Kutner Michael H. et. al. (2005).
Introduction to Econometrics, Applied Linear Statistical Models,
Addison-Wesley-Pearson, Estados 5ª. ed., McGraw-Hill, Singapur.
Unidos. 330.18 / S8642in https://netfiles.umn.edu/users/nacht
http://wps.aw.com/aw_stock_ie_2/50 001/www/nachtsheim/5th/
/13016/3332253.cw/index.html
F. VELA / J. F. ISLAS
Metodología
Se pone a disposición de los alumnos un conjunto
de notas o lecturas que apoyan los contenidos del
curso.
mregresion.wordpress.com
F. VELA / J. F. ISLAS
Bases de datos
Applied Regression, Generalized Linear Models,
and Related Methods, Second Edition
http://socserv.socsci.mcmaster.ca/jfox/Books/App
lied-Regression-2E/datasets/index.html
Procedimiento:
1. Entrar a la pagina.
2. Guardar el archivo con extensión “.txt”
3. Agregar, si fuese necesario, la etiqueta de la variable
“id” para el identificador.
4. Utilizar el comando insheet de la siguiente manera
insheet using “LOCALIZACIÓN/ARCHIVO.txt",
clear
5
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
6
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
Nominales
Escala de medición Ordinales
Intervalo
Continuas
Dependiente(s)
Función en la investigación
Independiente(s)
Conceptuales o abstractas
Grado de abstracción Intermedias
Empíricas u observables
F. VELA / J. F. ISLAS
7
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
Análisis de regresión
Relación funcional vs relación estadística.
Linealidad vs no linealidad
Selección de variables predictoras.
Forma funcional.
F. VELA / J. F. ISLAS
8
18/06/2010
F. VELA / J. F. ISLAS
Tipo de datos
Observación SALA EDUCA EXPER SEXO EDO
Corte transversal
1 3.10 11 2 1 0
2 3.24 12 22 1 1 Un conjunto de
3 3.00 11 44 0 0 datos de una
. muestra de
.
.
individuos, hogares,
525 11.56 16 5 0 0
empresas, ciudades,
526 3.50 8 7 1 0 estados o países
tomados en un
punto del tiempo en
particular.
O b s e rv a c ió n Año SALA EDUCA EXPER SEXO EDO Serie de tiempo
1 1950 3 .1 0 11 2 1 0
2 1951 3 .2 4 12 22 1 1 Observaciones de
3 1952 3 .0 0 11 44 0 0
. . . . . . . distintas variables
.
.
.
.
.
.
.
.
.
.
.
.
.
.
efectuadas en el
50 1999 1 1 .5 6 16 5 0 0 tiempo.
51 2000 3 .5 0 8 7 1 0
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
9
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
• Actualmente, en el mercado se
encuentra la versión 11.
• Su lenguaje computacional es C.
F. VELA / J. F. ISLAS
10
18/06/2010
F. VELA / J. F. ISLAS
Temas
Modelo de regresión lineal simple.
Estimaciones puntuales de los mínimos
cuadrados.
Estimaciones puntuales y predicciones
puntuales.
Suposiciones del modelo y el error estándar.
Prueba de significancia individual para la
pendiente y la ordenada al origen.
Intervalos de confianza y de predicción.
Coeficientes de determinación y correlación
simples.
Una prueba F para el modelo.
F. VELA / J. F. ISLAS
Requisitos básicos:
i) las variables dependiente (y) e independiente
(x) son métricas;
ii) la relación entre la variable dependiente (y) y
la variable independiente (x) es
aproximadamente en forma de una línea
recta.
F. VELA / J. F. ISLAS
Diagrama
400
de
work
dispersión
300
observamos:
- tendencia positiva
200
- puntos dispersos
alrededor de la línea
100
20 40 60 80 100 1 20
l ot
11
18/06/2010
F. VELA / J. F. ISLAS
Diagrama
de
dispersión
300
200
100
20 40 60 80 100 1 20
l ot
w o rk F it te d v al ue s
F. VELA / J. F. ISLAS
Diagrama
de
mortality
100
dispersión
50
0
0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0
g n pp c
F. VELA / J. F. ISLAS
12
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
SS xy
b1 =
SS xx
donde
∑x∑y
SS xy = ∑ (x i − x )( y i − y ) = ∑xy i i −
i
n
i
y
(∑ x ) 2
SS xx = ∑ (x i − x) =
2
n
i
13
18/06/2010
F. VELA / J. F. ISLAS
yˆ = b0 + b1 x0
se predice ε = 0
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
14
18/06/2010
F. VELA / J. F. ISLAS
F. VELA / J. F. ISLAS
SSE
s=
n−2
n n
n n
SSE = ∑ ( yi − yˆ i ) = ∑ yi2 − b0 ∑ yi + b1 ∑ xi yi
2
i =1 i =1 i =1 i =1
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Hipótesis nula: β1 = 0
nivel de significancia α (0.10, 0.05, 0.01)
los valores p se basan en n-2 grados de libertad
Se rechaza la hipótesis nula si se cumple la
condición de punto de rechazo de alguna de las
hipótesis alternativas, o si p < α
15
18/06/2010
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Si se cumplen los supuestos de la regresión, entonces
la población de todos los valores posibles de b1 es
normalmente distribuida con valor medio β1 y desviación
estándar
σ
σb = 1
SS xx
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
y la población de todos los valores posibles de la
estadística de prueba t
b1
t=
sb1
tiene una distribución t con n – 2 grados de libertad.
F. VELA / J. F. ISLAS
Prueba de la significancia de la
pendiente y la ordenada al origen
Condición de
Hipótesis punto de Valor p
alternativa rechazo
16
18/06/2010
F. VELA / J. F. ISLAS
[b ± t[(
1
n−2 )
s
α / 2 ] b1 ]
F. VELA / J. F. ISLAS
Intervalos de confianza y de
predicción
F. VELA / J. F. ISLAS
Intervalos de confianza y de
predicción
Si se cumplen las suposiciones de la regresión,
un intervalo de confianza de 100(1-α)% para el
valor medio de y cuando la variable
independiente es x0 es
17
18/06/2010
F. VELA / J. F. ISLAS
La estimación puntual es
F. VELA / J. F. ISLAS
Intervalos de confianza y de
predicción
F. VELA / J. F. ISLAS
Intervalos de confianza y de
predicción
18
18/06/2010
F. VELA / J. F. ISLAS
Coeficientes de determinación y
correlación simples
En el caso del modelo de regresión lineal simple,
1. Variación total = Σ(yi-y)2
2. Variación explicada = Σ(yi-y)2
3. Variación inexplicada = Σ(yi-yi)2
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación simple es
r2 = (variación explicada)/(variación total)
6. El r2 es la proporción de la variación total en los n valores
observados de la variable dependiente que explica el modelo de
regresión lineal simple
F. VELA / J. F. ISLAS
Coeficientes de determinación y
correlación simples
Coeficiente de correlación simple (r) entre y y x
si b1 > 0 r = + r
2
si b1 < 0 r = − r 2
donde b1 es la pendiente de la recta de
mínimos cuadrados que relaciona y con x.
Este coeficiente de correlación mide la fuerza
de la relación lineal entre y y x.
F. VELA / J. F. ISLAS
Coeficientes de determinación y
correlación simples
También se puede calcular mediante la
fórmula
SS xy
r=
SS xx SS yy
19
18/06/2010
F. VELA / J. F. ISLAS
Coeficientes de determinación y
correlación simples
La correlación de la población de todas las
combinaciones posibles de valores observados
de x e y se denomina ρ.
Para probar la hipótesis nula H0: ρ = 0,
utilizamos la estadística de prueba
r n−2
t=
1− r2
F. VELA / J. F. ISLAS
F(modelo)>F[α]
Valor p < α
F. VELA / J. F. ISLAS
20
18/06/2010
y = µ y|x1 , x2 ,...,xk = β 0 + β1 x1 + β 2 x2 + L + β k xk + ε
21
18/06/2010
F. VELA / J. F. ISLAS
Ejemplo
El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación.
Recopila información sobre cinco variables, que según su
criterio, podrían ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresión lineal:
F. VELA / J. F. ISLAS
22
18/06/2010
Se predice ε = 0
Esta ecuación se llama la ecuación de regresión o de
predicción de mínimos cuadrados
y1 1 x11 ... xk 1 β0
y 1 x ... xk 2 β
Y = 2 X = 12
βˆ = 1
... ... ... ... ... ...
yn 1 x1n ... xkn β k
23
18/06/2010
F. VELA / J. F. ISLAS
Ejemplo 4.2
Matriz de diagramas de dispersión
0 20 0 4 00 0 5 000 1 00 00
6 00 0
sa les 4 00 0
2 00 0
4 00
2 00 tim e
0
8 00 00
6 00 00
m k tp ote n
4 00 00
2 00 00
1 00 00
5 00 0 a dv e r
0
15
10
m k ts h a re
5
0
2 00 0 4 000 60 00 2 00 00 40 000 6 000 0 8 00 00 0 5 10 15
F. VELA / J. F. ISLAS
Estimadores MCO
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------
SCE
σˆ =
n−k
24
18/06/2010
F. VELA / J. F. ISLAS
R2 Ajustada
k −1 n −1
R 2 = R2 −
n −1 n − k
donde
F (mod elo) =
(Variación _ exp licada) /(k −1)
(Variación _ in exp licada ) / [ n − k ]
25
18/06/2010
bj
t=
ee(σˆ b j )
Condición de
Hipótesis punto de
rechazo Valor p
alternativa
26
18/06/2010
βˆ j ± t (αn −/ 2k )ee( βˆ j )
[ ]
Valor de distancia.
27
18/06/2010
F. VELA / J. F. ISLAS
Tópicos
Modelo de regresión cuadrática.
Términos de interacción.
Uso de variables ficticias para modelar variables
independientes cualitativas.
x x x
µy|x µy|x µy|x
x x x
28
18/06/2010
Interacción
Se introduce un término de interacción cuando
se cree que una variable (xi) influye en la
relación entre otra variable (xj) independiente y
la variable dependiente, y.
y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε
F. VELA / J. F. ISLAS
Toman el valor de 1 o 0.
Ejemplo
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dólares), tanto el número de hogares
alrededor del área de las tiendas, x, (en miles),
así como la ubicación de las tiendas, D, ya sea
que estás se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (nótese que D es
una variable cualitativa).
29
18/06/2010
y = β 0 + β1 x + β 2 DM + β 3 DD + ε
donde se define
30
18/06/2010
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------
H0: β2=β3=0
Ha: por lo menos una de β2 y β3 ≠0
Modelo
completo y = β 0 + β1 x1 + β 2 x2 + β3 x3 + ε c
Modelo
reducido y = β 0 + β1 x1 + ε R
31
18/06/2010
(SCER − SCEC )/ [ k − g]
F=
SCEC / [ n − (k +1)]
donde
k= número de variables independientes del modelo
completo.
g= número de coeficientes del modelo reducido
y = β 0 + β1 x1 + β 2 DM + β 3 DD + ε
esto es
Tema 7: Multicolinealidad
32
18/06/2010
Temas
Multicolinealidad.
Comparación de los modelos de regresión.
con base en R2, σ, R2 ajustada, longitud del
intervalo de predicción y estadística Cp.
Regresión por pasos y eliminación hacia
atrás.
Multicolinealidad
Las variables independientes están relacionadas
entre sí o dependen una de otra.
No se trata de un “problema” de presencia o
ausencia sino de grado.
Cuando existe la multicolinealidad entre dos o más
variables independientes, la principal consecuencia
es que se dificulta o impide obtener estimaciones
precisas de los efectos individuales de cada variable
independiente sobre la dependiente.
Infla los valores de los errores estándar de β j
estimados.
Identificación de la multicolinealidad
Son varias la formas que pueden utilizarse para
identificar un alto grado de multicolinealidad.
La más sencilla es utilizando la matriz de
correlación.
- La multicolinealidad es fuerte si por lo menos uno de los
coeficientes de correlación simple entre las variables
independientes es mayor o igual a 0.9.
33
18/06/2010
y= sales.
x1= time.
x2= mktpoten.
x3= adver.
x4 = mktshare.
x5 = change.
x6= cantidad de cuentas que maneja el representante
(accts).
x7= carga de trabajo promedio (wkload).
x6= calificación sobre desempeño (rating).
ε= termino de error aleatorio.
34
18/06/2010
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 2.009566 1.930654 1.04 0.313 -2.083238 6.10237
mktpoten | .0372049 .0082023 4.54 0.000 .0198168 .054593
adver | .1509889 .0471085 3.21 0.006 .0511233 .2508545
mktshare | 199.0236 67.02793 2.97 0.009 56.9307 341.1164
change | 290.8551 186.782 1.56 0.139 -105.105 686.8153
accts | 5.550961 4.77555 1.16 0.262 -4.572753 15.67467
wkload | 19.79389 33.6767 0.59 0.565 -51.59751 91.1853
rating | 8.189297 128.5056 0.06 0.950 -264.2304 280.609
_cons | -1507.814 778.635 -1.94 0.071 -3158.446 142.8186
------------------------------------------------------------------------------
35
18/06/2010
1
o bien TOL =
VIF
Si TOL cercano a cero existe alta
multicolinealidad.
36
18/06/2010
Transformación de variables.
Matriz de correlación
pwcorr ,sig star (.05)
37
18/06/2010
Regresión
regress pts gp min ast stl blk to pf
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0047026 .0188224 -0.25 0.807 -.0461304 .0367252
min | .5114093 .1219865 4.19 0.002 .2429189 .7798997
ast | -1.328452 .5149655 -2.58 0.026 -2.461884 -.195021
stl | -3.415964 1.785418 -1.91 0.082 -7.345643 .5137151
blk | -3.566664 1.525258 -2.34 0.039 -6.923734 -.2095937
to | 4.267745 1.98899 2.15 0.055 -.1099917 8.645483
pf | .7377111 .9262618 0.80 0.443 -1.300978 2.7764
_cons | -2.401254 .9950284 -2.41 0.034 -4.591296 -.2112107
------------------------------------------------------------------------------
VIF
vif
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0038181 .029044 -0.13 0.898 -.0670995 .0594632
ast | -.8901853 .7781226 -1.14 0.275 -2.585569 .8051982
stl | -.1718016 2.482941 -0.07 0.946 -5.581665 5.238061
blk | -.5166832 2.068707 -0.25 0.807 -5.024009 3.990642
to | 9.904448 2.261829 4.38 0.001 4.976347 14.83255
pf | .8968988 1.42816 0.63 0.542 -2.214794 4.008592
_cons | -3.404519 1.490409 -2.28 0.041 -6.651841 -.1571964
------------------------------------------------------------------------------
38
18/06/2010
vif
Construcción de modelos
¿Qué hay que hacer para encontrar un modelo
adecuado?
Son diversos los criterios que la literatura
señala para elegir entre modelos “rivales”.
Dos (o más) modelos son “rivales” si estos
presentan la misma variable dependiente
aunque las variables independientes no sean
las mismas.
Ejemplo:
sales=β 0 +β1time+β8 rating+ε1
sales=β 0 +β1time+β 2 mktpoten+β 4 wkload+ε 2
39
18/06/2010
Primer criterio
R2 ↑ al ↑ el número de variables
Segundo criterio
SCE
σˆ =
n−k
Tercer criterio
k + 1 n − 1
R 2 = R2 −
n − 1 n − k
40
18/06/2010
Cuarto criterio
Cuarto criterio
SSE
C = −[ n − 2k]
σˆ 2p
41
18/06/2010
Paso 1.
Una vez cargado el archivo t5-1 sales territory
complete.dta, escribir en la ventana de comandos
findit rsquare, entrar dentro de la sección
“Web resources from Stata and other users” a
rsquare from
http://www.ats.ucla.edu/stat/stata/ado/analysis
Paso 2.
Estimar el modelo: sales vs. time mktpoten
adver mktshare change accts wkload
rating.
Paso 3.
Después de la estimación, se escribe en la
ventana de comandos:
rsquare sales time mktpoten adver
mktshare change accts wkload rating
y se obtiene:
42
18/06/2010
43
18/06/2010
44
18/06/2010
Métodos computacionales
Regresión por pasos
Se especifican αentry y αstay
Paso 1:
1. se corre una regresión para cada variable independiente.
2. Se denomina a la variable con el mayor valor de la estadística t,
x[1]
3. Si la estadística t no indica que x[1] sea significante en el nivel
αentry, el procedimiento termina. Si es significante, se conserva
para usarla en el paso 2.
45
18/06/2010
Temas
gráficas de residuos y pruebas nùmericas.
suposición de la normalidad.
suposición de varianza constante.
suposición de la forma funcional correcta.
suposición de independencia.
transformación de la variable dependiente.
46
18/06/2010
e = y − yˆ
Si las suposiciones de la regresión se mantienen, los
residuos deben parecer que han sido seleccionados
en forma aleatoria e independiente de poblaciones
distribuidas normalmente cuya media es 0 y su
varianza es σ2
47
18/06/2010
kdensity r, normal
48
18/06/2010
n (C −3)2
JB = A2 +
6 4
19 2 (0.785− 3)
2
JB = 0.905 +
6 4
49
18/06/2010
50
18/06/2010
51
18/06/2010
t[(.n005
− (k + 2 ))
]
52
18/06/2010
53