Escolar Documentos
Profissional Documentos
Cultura Documentos
Modelos de Regresin
Appleglo
First-Year
Advertising
Expenditures
($ millions)
x
1.8
1.2
0.4
0.5
2.5
2.5
1.5
1.2
1.6
1.0
1.5
0.7
1.0
0.8
Region
Maine
New Hampshire
Vermont
Massachusetts
Connecticut
Rhode Island
New York
New Jersey
Pennsylvania
Delaware
Maryland
West Virginia
Virginia
Ohio
First-Year
Sales
($ millions)
y
104
68
39
43
127
134
87
77
102
65
101
46
52
33
40
0
0
0.5
1.5
2.5
Anlisis de Regresin
OBJETIVO: Desarrollar un modelo que relacione dos variables
X:
Y:
variable dependiente
magnitud que se determina en gran parte por el valor de x,
es la cantidad a ser pronosticada
Ejemplos:
Y (var. depend.)
X (var. indep.)
Notas en Universidad
Ptje. PSU
Cantidad de cigarrillos
Retorno de accin
Gasto en I&D
Ventas 1er ao
Gasto en publicidad
Contenidos
Modelo de la poblacin:
Y = 0 + 1 X +
Yi = 0 + 1 X i + i , i = 1,..., n
Comentarios:
i se asume N(0, 2 ). As, 1, 2, . . . , n son v.a. i.i.d. con
distribucin normal.
E (Yi | X = xi ) = 0 + 1 xi
(prediccin)
SSR = e = ( yi yi ) 2
i =1
2
i
i =1
1 n
x = xi
n i =1
1 n
y = yi
n i =1
Entonces:
n
b1 =
( x x )( y y )
i
i =1
(x x )
i =1
y:
b0 = y b1 x
80
(xi, ^yi)
60
bo=13.82
40
Estimadores:
bo = 13,82
b1 = 48,60
ei
(xi, yi)
20
Slope b1 = 48.60
0
0
0.5
Advertising Expenditures ($M)
Regresin Mltiple
En muchos casos, existe ms de un factor que
puede explicar el comportamiento de una
variable.
En este caso, postularemos lo que se llama un
modelo multivariado (con varias variables).
La Regresin Mltiple permite manejar ms
de una variable independiente.
Suguiente ejemplo: ventas en fucin de varias
cosas.
IND3100 - Prof. Jorge Vera A 2013
x1
region
sales advertising
Selkirk
Susquehanna
Kittery
Acton
Finger Lakes
Berkshire
Central
Providence
Nashua
Dunster
Endicott
Five-Towns
Waldeboro
Jackson
Stowe
101.8
44.4
108.3
85.1
77.1
158.7
180.4
64.2
74.6
143.4
120.6
69.7
67.8
106.7
119.6
1.3
0.7
1.4
0.5
0.5
1.9
1.2
0.4
0.6
1.3
1.6
1.0
0.8
0.6
1.1
x2
x3
promotions competitors
sales
0.2
20.40
0.2
30.50
0.3
24.60
0.4
19.60
0.6
25.50
0.4
21.70
1.0
6.80
0.4
12.60
0.5
31.30
0.6
18.60
0.8
19.90
0.3
25.60
0.2
27.40
0.5
24.30
0.3
13.70
Regresin Mltiple
Variables independientes:
Variable dependiente:
X1, X2, . . . , Xk
Datos:
Modelo:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n
Regresin Mltiple
Modelo:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n
1, 2, . . . , n son v.a. i.i.d., ~ N(0, 2)
Coeficientes regresin: b0, b1,, bk son estimadores de 0, 1,, k .
Estimador de yi :
SSR = e = ( yi yi ) 2
i =1
2
i
i =1
0,787465
17,600291
15,000000
Promedio
Suma de
Valor
de los
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009
Grados de
libertad
Regresin
Residuos
Total
65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138
Estadstico
t
Probabilidad
2,3693
4,5956
2,5251
-2,2582
Inferior
95%
Superior
95%
y1 + y2 + ... + yn
n
n
2
- Variacin total en Y = ( yi y )
y=
- La media muestral de Y:
i=
=1
R2 =
- Variacin residual en Y:
i =1
= ( yi yi ) 2
i =1
variabilidad explicada
variabilidad no explicada
= 1
variabilidad total
variabilidad total
= 1
( y y )
i =1
n
( y y)
i =1
160
120
80
40
0
0
0.5
1.5
2.5
10
15
20
25
30
30
25
20
15
10
5
R2
= 0; los valores de X no
explican la variacin de Y
0
0
10
15
X
20
25
30
Coeficiente de Determinacin R2
R2 alto: significa que la mayora de la variabilidad
observada en los datos yi, se atribuye a sus respectivos
valores xi
Regresin simple: R2 es alto si los puntos estn bien
alineados con la lnea. En regresin mltiple es cuando
estn ms o menos en el mismo hiperplano.
Cundo es bueno un R2 ?: depende de la situacin
(del uso que se le dar a la regresin, y de la
complejidad del problema).
Muchas personas miran slo R2, pero este no contiene
toda la informacin. Es importante que el modelo de
regresin sea vlido.
Mientras ms variables explicativas tenga el modelo,
ms alto es R2 !
Coeficiente de Determinacin R2
Uno no debe incluir en el modelo variables X
que no estn realmente relacionadas con Y,
slo para hacer que el R2 sea alto.
R es la corr(x,y) y es la raz cuadrada de R2
Recordemos que corr(x,y)=cov(x,y)/xy
Residuos
20.00
10.00
0.00
-10.00
0.0
1.0
2.0
Residuals
20.00
10.00
0.00
0.0
1.0
2.0
-10.00
-20.00
Publicidad
-20.00
Evidencia de heterocedasticidad
Se puede solucionar:
Haciendo una transformacin (por ej. usar x2 en vez de x)
Agregando o eliminando variables independientes
IND3100 - Prof. Jorge Vera A 2013
Publicidad
Grfico de tiempo
6
Residuos
Residuos
6
4
2
0
0
10
15
20
-2
4
2
0
0
-4
-2
-6
-4
10
15
Evidencia de autocorrelacin
20
Residuos sanos
Residuos no independientes
120
90
60
30
0
0.0
1.0
Publicidad
2.0
3.0
IND3100 -
Student Graduate
Number
GPA
1
4,0
2
4,0
3
3,1
4
3,1
5
3,0
6
3,5
7
3,1
8
3,5
9
3,1
10
3,2
11
3,8
12
4,1
13
2,9
14
3,7
15
3,8
16
3,9
17
3,6
18
3,1
19
3,3
20
4,0
21
3,1
22
3,7
23
3,7
Prof. Jorge Vera
24 A 2013 3,9
25
3,8
College
GPA
3,9
3,9
3,1
3,2
3,0
3,5
3,0
3,5
3,2
3,2
3,7
3,9
3,0
3,7
3,8
3,9
3,7
3,0
3,2
3,9
3,1
3,7
3,7
4,0
3,8
GMAT
640
644
557
550
547
589
533
600
630
548
600
633
546
602
614
644
634
572
570
656
574
636
635
654
633
Intercept
College GPA
GMAT
0.96
0.08
25
Qu pas?
R Square
Standard Error
Observations
Graduate
College
GMAT
0.958
0.08
25
Graduate College
1
0.98
1
0.86
0.90
GMAT
Volvamos al ejemplo
Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0,912693
Coeficiente de
determinacin R^2
0,833008
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA
0,787465
17,600291
15,000000
Promedio
de los
Suma de
Valor
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009
Grados de
libertad
Regresin
Residuos
Total
65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138
Estadstico
t
Probabilidad
2,3693
4,5956
2,5251
-2,2582
Inferior
95%
Superior
95%
bj j
sbj
(estadstico t)
tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.
Cul sera un IC al 95% para j?
demanda = 0 ( precio) 1
Donde 1 < 0.
Si se dispone de datos de demanda y precio, la
siguiente transformacin lineariza el modelo:
Variables dummy
Un taller de reparacin de autos quiere explicar el costo
de la reparacin de transmisin en funcin de la edad
del auto.
Costo
Auto
Edad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
IND3100 - Prof. Jorge Vera A 2013
reparacion Transmision
3
4
6
5
4
2
4
8
7
4
3
5
3
2
4
3
4
9
2
956
839
1257
1225
1288
728
961
1588
1524
875
999
1295
884
789
785
923
1223
1770
692
Auto
manual
manual
Auto
Auto
Auto
manual
Auto
manual
manual
Auto
Auto
manual
Auto
manual
Auto
Auto
manual
Auto
Variables dummy
El modelo de costo en funcin de edad entrega:
R2 igual a 0,92
Estadstico t para la edad igual a 9,47
Pero podramos postular un modelo en el que se agrega
una variable dummy que vale 1 si hay transmisin
automtica y 0 si no
Veamos la regresin en Excel
Ahora:
R2 igual a 0,96, Estadstico t para la edad igual a 12,42
y el de la Dummy igual a 3,66, todos significativos al
menos al 99%
Conclusin:
Los modelos de regresin son muy potentes y
usados en muchos mbitos.
En mrketing
En Economa (econometra)
En ciencias
Etc