Você está na página 1de 22

IND 3100

Magster en Ingeniera Industrial


Departamento de Ingeniera Industrial y de Sistemas
Pontificia Universidad Catlica de Chile

Modelos Cuant. Para la Toma de Dec.

Modelos de Regresin

IND3100 - Prof. Jorge Vera A 2013

Extraer ms informacin de los datos


Muchas veces tenemos datos respecto a
distintos fenmenos y sospechamos que hay
algn tipo de relacin entre ellos
Ms formalmente: tenemos datos de variables
aleatorias y sospechamos que estn
relacionadas (correlacionadas).
Cmo podemos saber si eso es verdad?

IND3100 - Prof. Jorge Vera A 2013

Appleglo

First-Year
Advertising
Expenditures
($ millions)
x
1.8
1.2
0.4
0.5
2.5
2.5
1.5
1.2
1.6
1.0
1.5
0.7
1.0
0.8

Region
Maine
New Hampshire
Vermont
Massachusetts
Connecticut
Rhode Island
New York
New Jersey
Pennsylvania
Delaware
Maryland
West Virginia
Virginia
Ohio

First-Year
Sales
($ millions)
y
104
68
39
43
127
134
87
77
102
65
101
46
52
33

Ventas el primer ao ($Millions)

Un Ejemplo: ventas v/s gasto en publicidad


160
120
80
(x3,y3)

40
0
0

0.5

1.5

2.5

Gasto en publicidad ($Millions)

i) Cmo relacionar el gasto publicitario con las ventas?


ii) Cules son las ventas esperadas del primer ao, si el gasto
publicitario es de $2.2 millones?
IND3100 - Prof. Jorge Vera A 2013

Anlisis de Regresin
OBJETIVO: Desarrollar un modelo que relacione dos variables
X:

variable independiente (tambin llamada explicativa)


generalmente bajo nuestro control

Y:

variable dependiente
magnitud que se determina en gran parte por el valor de x,
es la cantidad a ser pronosticada

Ejemplos:

Y (var. depend.)

X (var. indep.)

Notas en Universidad

Ptje. PSU

Tasa cncer pulmn

Cantidad de cigarrillos

Retorno de accin

Gasto en I&D

Ventas 1er ao

Gasto en publicidad

IND3100 - Prof. Jorge Vera A 2013

Contenidos

Regresin lineal simple


Regresin mltiple
Anlisis de resultados de una regresin
Coeficiente de determinacin, R2
Validacin del modelo de regresin
Confiabilidad de la estimacin e intervalos de
confianza.

IND3100 - Prof. Jorge Vera A 2013

Regresin Lineal Simple


Datos: (x1, y1), (x2, y2), . . . , (xn, yn), una muestra de tamao n tomada
de una poblacin de todos los valores (X,Y)

Modelo de la poblacin:

Y = 0 + 1 X +

El modelo asume una relacin lineal entre X e Y, con intercepto


0 y pendiente 1
0 y 1 son los parmetros para toda la poblacin.
Como no los conocemos vamos a estimarlos a partir de una
muestra de tamao n.
representa el trmino de error aleatorio. Estructuralmente hay
una relacin lineal entre Y y X pero est afectada por variaciones
aleatorias.

IND3100 - Prof. Jorge Vera A 2013

Regresin Lineal Simple


Modelo para cada elemento de la poblacin (y para la
muestra):

Yi = 0 + 1 X i + i , i = 1,..., n

Comentarios:
i se asume N(0, 2 ). As, 1, 2, . . . , n son v.a. i.i.d. con
distribucin normal.

E (Yi | X = xi ) = 0 + 1 xi

es el valor esperado de Y para un


valor dado de X. Es justamente el valor promedio de la v.a. Y
para un valor dado de X
SD(Yi | X=xi) = . Notar que la SD de Yi es igual a la SD de i y
que es una constante independiente del valor de x.

IND3100 - Prof. Jorge Vera A 2013

Cmo elegimos la mejor lnea?


Coeficientes de Regresin: b0 y b1 sern estimadores de 0 y 1
Estimador para Y dado xi : y i = b0 + b1 xi

(prediccin)

Valor de Y en xi : yi = b0 + b1 xi + ei (uso de error para obtener la igualdad)


Residuo (error): ei = yi y i
La mejor lnea de regresin es la que elige b0 y b1 para minimizar el
error cuadrtico total
n

SSR = e = ( yi yi ) 2
i =1

IND3100 - Prof. Jorge Vera A 2013

2
i

i =1

Cmo elegimos la mejor lnea?


Sean:

1 n
x = xi
n i =1

1 n
y = yi
n i =1

Entonces:
n

b1 =

( x x )( y y )
i

i =1

(x x )
i =1

y:

b0 = y b1 x

IND3100 - Prof. Jorge Vera A 2013

Cmo elegimos la mejor lnea?


En la prctica, no hay que trabajar directamente con las
frmulas de los estimadores de mnimos cuadrados.
Excel y los software estadsticos hacen eso fcilmente.

First Year Sales ($M)

80

(xi, ^yi)
60

bo=13.82

40

Estimadores:
bo = 13,82
b1 = 48,60

ei
(xi, yi)

20

Slope b1 = 48.60
0
0

0.5
Advertising Expenditures ($M)

IND3100 - Prof. Jorge Vera A 2013

Regresin Mltiple
En muchos casos, existe ms de un factor que
puede explicar el comportamiento de una
variable.
En este caso, postularemos lo que se llama un
modelo multivariado (con varias variables).
La Regresin Mltiple permite manejar ms
de una variable independiente.
Suguiente ejemplo: ventas en fucin de varias
cosas.
IND3100 - Prof. Jorge Vera A 2013

Ejemplo: Ventas de Nature-Bar ($MM)


Y

x1

region

sales advertising

Selkirk
Susquehanna
Kittery
Acton
Finger Lakes
Berkshire
Central
Providence
Nashua
Dunster
Endicott
Five-Towns
Waldeboro
Jackson
Stowe

101.8
44.4
108.3
85.1
77.1
158.7
180.4
64.2
74.6
143.4
120.6
69.7
67.8
106.7
119.6

IND3100 - Prof. Jorge Vera A 2013

1.3
0.7
1.4
0.5
0.5
1.9
1.2
0.4
0.6
1.3
1.6
1.0
0.8
0.6
1.1

x2

x3

promotions competitors
sales
0.2
20.40
0.2
30.50
0.3
24.60
0.4
19.60
0.6
25.50
0.4
21.70
1.0
6.80
0.4
12.60
0.5
31.30
0.6
18.60
0.8
19.90
0.3
25.60
0.2
27.40
0.5
24.30
0.3
13.70

Regresin Mltiple
Variables independientes:
Variable dependiente:

X1, X2, . . . , Xk

(y1, x11, x21, . . . , xk1),


.
.
.
(yn, x1n, x2n, . . . , xkn),

Datos:

Modelo:

Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n

IND3100 - Prof. Jorge Vera A 2013

Regresin Mltiple
Modelo:

Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n
1, 2, . . . , n son v.a. i.i.d., ~ N(0, 2)
Coeficientes regresin: b0, b1,, bk son estimadores de 0, 1,, k .
Estimador de yi :

y i = 0 + 1 x1i + 2 x2i + ... + k xki + ei

Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimacin:


n

SSR = e = ( yi yi ) 2
i =1

IND3100 - Prof. Jorge Vera A 2013

2
i

i =1

Regresiones en Excel y otros


Excel permite hacer regresiones lineales
Datos Anlisis de Datos Regresin

IND3100 - Prof. Jorge Vera A 2013

Resultado de la Regresin (Excel)


Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0,912693
Coeficiente de
determinacin R^2
0,833008
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA

0,787465
17,600291
15,000000
Promedio
Suma de
Valor
de los
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009

Grados de
libertad
Regresin
Residuos
Total

Coeficientes Error tpico


Intercepcin
advertising
promotions
competitors sales

65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138

IND3100 - Prof. Jorge Vera A 2013

Estadstico
t
Probabilidad

2,3693
4,5956
2,5251
-2,2582

Inferior
95%

Superior
95%

0,0372 4,6689 126,7403


0,0008 25,5210 72,4366
0,0282 7,6567 111,6519
0,0452 -3,6287
-0,0466

Intrepretando los resultados


1) Coeficientes de regresin: b0, b1, . . . , bk son estimadores de 0, 1,
. . . , k basados en los datos de la muestra.
2) Notemos que E[bj ] =j . (estimador insesgado)
b0 = 65,705 (intrepretacin depende del contexto).
b1 = 48,979 ($1 milln adicional en publicidad se espera que
resulte en $49 millones de aumento en ventas)
b2 = 59,654 ($1 milln adicional en promocin se espera que
resulte en $60 millones de aumento en ventas)
b3 = -1,838 ($1 milln adicional de ventas de competencia se
espera que resulte en $1,9 millones de baja en ventas)
IND3100 - Prof. Jorge Vera A 2013

Intrepretando los resultados


2) Error tpico (estndar): un estimador de , la SD de cada i.
Medida de la cantidad de ruido en el modelo. En la tabla es:
s = 17,60
3) Grados de libertad (gl): n k 1
Se usan en intervalos de confianza
4) Error tpico de los coeficientes: sb0 , sb1 , . . . , sbk
Son desviaciones estndar de los coeficientes b0 , b1, . . . , bk.
tiles para evaluar la calidad de los estimadores de los
coeficientes, y validar el modelo.
5) Hay otros resultados mostrados, pero no los abordaremos en
este curso.
IND3100 - Prof. Jorge Vera A 2013

Intrepretando los resultados


5) Coeficiente de determinacin: R2
Medida de la calidad general de la regresin.
Es el % de la variabilidad total en los datos yi que es explicada
por la lnea de la regresin de la muestra

y1 + y2 + ... + yn
n
n
2
- Variacin total en Y = ( yi y )
y=

- La media muestral de Y:

i=
=1

- Pero, el modelo lineal no explica toda la variacin en Y.


n

R2 =

- Variacin residual en Y:

i =1

= ( yi yi ) 2
i =1

variabilidad explicada
variabilidad no explicada
= 1
variabilidad total
variabilidad total

= 1

( y y )
i =1
n

( y y)

i =1

IND3100 - Prof. Jorge Vera A 2013

First Year Sales ($Millions)

R2 toma valores entre 0 and 1


(es un porcentaje).
35
30
25
20
15
10
5
0

160
120
80
40
0
0

0.5

1.5

2.5

Advertising Expenditures ($Millions)

10

15

20

25

30

R2 = 0,833 en nuestro ejemplo

R2 = 1; los valores de X explican


toda la variacin de los Y

30
25
20
15
10
5

R2

= 0; los valores de X no
explican la variacin de Y

IND3100 - Prof. Jorge Vera A 2013

0
0

10

15
X

20

25

30

Coeficiente de Determinacin R2
R2 alto: significa que la mayora de la variabilidad
observada en los datos yi, se atribuye a sus respectivos
valores xi
Regresin simple: R2 es alto si los puntos estn bien
alineados con la lnea. En regresin mltiple es cuando
estn ms o menos en el mismo hiperplano.
Cundo es bueno un R2 ?: depende de la situacin
(del uso que se le dar a la regresin, y de la
complejidad del problema).
Muchas personas miran slo R2, pero este no contiene
toda la informacin. Es importante que el modelo de
regresin sea vlido.
Mientras ms variables explicativas tenga el modelo,
ms alto es R2 !

IND3100 - Prof. Jorge Vera A 2013

Coeficiente de Determinacin R2
Uno no debe incluir en el modelo variables X
que no estn realmente relacionadas con Y,
slo para hacer que el R2 sea alto.
R es la corr(x,y) y es la raz cuadrada de R2
Recordemos que corr(x,y)=cov(x,y)/xy

El R2 ajustado modifica al R2 para tomar en


cuenta el nmero de variables y el tamao
muestral
n 1
Adjusted R 2 = 1
(1 R 2 )
n (k + 1)
IND3100 - Prof. Jorge Vera A 2013

Validacin del modelo de regresin


Validar el modelo es verificar que se cumplen
efectivamente las hiptesis:
1) Linealidad. Es el supuesto estructural.
Con dos variables, se puede hacer un grfico
Puede haber conocimiento adicional
Verificar consistencia de signos de los bi
2) Normalidad de los residuos.
Graficar los residuos y hacer un histograma
Debera verse un comportamiento normal.

IND3100 - Prof. Jorge Vera A 2013

Validacin del modelo de regresin


3) Heterocedasticidad: variacin en la SD de los errores
Tienen los residuos una SD constante? (i.e., SD(i ) = para todo i?)
Chequear grfico de residuos vs. cada variables independiente
Residuos

Residuos

20.00

10.00
0.00
-10.00

0.0

1.0

2.0

Residuals

20.00

10.00
0.00
0.0

1.0

2.0

-10.00

-20.00

Publicidad

No hay evidencia de heterocedasticidad

-20.00

Evidencia de heterocedasticidad

Se puede solucionar:
Haciendo una transformacin (por ej. usar x2 en vez de x)
Agregando o eliminando variables independientes
IND3100 - Prof. Jorge Vera A 2013

Publicidad

Validacin del modelo de regresin


4) Autocorrelacin: Hay independencia entre los residuos?
- Graficar los residuos para identificar patrones
Grfico de tiempo

Grfico de tiempo
6

Residuos

Residuos

6
4
2
0
0

10

15

20

-2

4
2
0
0

-4

-2

-6

-4

No hay evidencia de autocorrelacin

10

15

Evidencia de autocorrelacin

Autocorrelacin podra presentarse si las observaciones tienen un


orden secuencial natural, como por ejemplo, tiempo.
Se puede solucionar introduciendo una variable independiente (por
ej. tiempo propiamente tal).
IND3100 - Prof. Jorge Vera A 2013

Validacin del modelo de regresin


En resumen:
La validacin es muy importante.
Slo una vez validado el modelo, y si presenta
buenas caractersticas de ajuste, podramos
usarlo para explicar el fenmeno o hacer
predicciones
Y el R2 no es el nico indicador de si el modelo
es bueno o no.

IND3100 - Prof. Jorge Vera A 2013

20

Residuos sanos

IND3100 - Prof. Jorge Vera A 2013

Residuos con varianza no constante

IND3100 - Prof. Jorge Vera A 2013

Residuos no independientes

Posible solucin: Insertar tiempo (secuencia) de las


observaciones como una variable.

IND3100 - Prof. Jorge Vera A 2013

Aspectos importantes a considerar


1) Sobre especificacin
Incluir muchas variables independientes que hagan al R2
artificialmente alto puede ser muy malo.

Regla: deberamos mantener n >= 5(k+2).


2) Extrapolar fuera del rango de los datos muestrales debe hacerse
con cuidado
Ventas del 1er ao

120
90
60
30
0
0.0

1.0
Publicidad

IND3100 - Prof. Jorge Vera A 2013

2.0

3.0

Aspectos importantes a considerar


3) Multicolinearidad
Ocurre cuando dos variables independientes estn altamente
correlacionadas.
Seales de multicolinearidad:
- Coeficientes de regresin (bi) tienen el signo equivocado
- El agregar o borrar una variable independiente provoca grandes
cambios en los coeficientes
- Coeficientes de regresin (bi) no significativamente diferentes de 0.
La multicolinearidad altera la significancia de los estimadores.
Se corrige borrando variables independientes.

IND3100 - Prof. Jorge Vera A 2013

Ejemplo: rendimiento de estudiantes

IND3100 -

Student Graduate
Number
GPA
1
4,0
2
4,0
3
3,1
4
3,1
5
3,0
6
3,5
7
3,1
8
3,5
9
3,1
10
3,2
11
3,8
12
4,1
13
2,9
14
3,7
15
3,8
16
3,9
17
3,6
18
3,1
19
3,3
20
4,0
21
3,1
22
3,7
23
3,7
Prof. Jorge Vera
24 A 2013 3,9
25
3,8

College
GPA
3,9
3,9
3,1
3,2
3,0
3,5
3,0
3,5
3,2
3,2
3,7
3,9
3,0
3,7
3,8
3,9
3,7
3,0
3,2
3,9
3,1
3,7
3,7
4,0
3,8

GMAT
640
644
557
550
547
589
533
600
630
548
600
633
546
602
614
644
634
572
570
656
574
636
635
654
633

Ejemplo: Resultado de Regresin


R Square
Standard Error
Observations

Intercept
College GPA
GMAT

0.96
0.08
25

Qu pas?

Coefficients Standard Error


0.09540
0.28451
1.12870
0.10233
-0.00088
0.00092

R Square
Standard Error
Observations

Graduate
College
GMAT

0.958
0.08
25

Graduate College
1
0.98
1
0.86
0.90

College GPA y GMAT


estn altamente
correlacionadas

Coefficients Standard Error


Intercept
-0.1287
0.1604
College
GPA
1.0413
0.0455
IND3100 - Prof. Jorge Vera A 2013

Calidad de los coeficientes


En regresin lineal, seleccionamos los mejores
coeficientes b0, b1, ... , bk como estimadores de 0, 1,, k .
Sabemos que en promedio cada bj apunta a j .
Sin embargo, queremos saber la confiabilidad de esos
estimadores, tal como lo hicimos con la media muestral.
Se puede mostrar que bajo supuestos de normalidad de
los errores, los estimadores de los coeficientes siguen una
distribucin t-student.

IND3100 - Prof. Jorge Vera A 2013

GMAT

Volvamos al ejemplo
Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0,912693
Coeficiente de
determinacin R^2
0,833008
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA

0,787465
17,600291
15,000000
Promedio
de los
Suma de
Valor
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009

Grados de
libertad
Regresin
Residuos
Total

Coeficientes Error tpico


Intercepcin
advertising
promotions
competitors sales

65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138

Estadstico
t
Probabilidad

2,3693
4,5956
2,5251
-2,2582

Inferior
95%

Superior
95%

0,0372 4,6689 126,7403


0,0008 25,5210 72,4366
0,0282 7,6567 111,6519
0,0452 -3,6287
-0,0466

IND3100 - Prof. Jorge Vera A 2013

IC para los coeficientes


1) Grados de libertad (gl)
Grados de libertad de los residuos = n - (k+1)
Usamos (k + 1) gl para determinar (k+1) estimadores b0, b1, . . . , bk
2) Error estndar de los coeficientes: sb0 , sb1 , . . . , sbk
Estos son las SD de los estimadores b0, b1, . . . , bk .
Hecho: Antes de observar b j y sbj, sabemos que

bj j
sbj

(estadstico t)

tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.
Cul sera un IC al 95% para j?

IND3100 - Prof. Jorge Vera A 2013

IC para los coeficientes


El IC al % para j es:
(bj - c sbj, bj + c sbj ),
donde c es el valor para el cual
P(- c < T < c) = %
y T tiene una distrib. t-student con gl = (n - k - 1)
Si en intervalo NO CONTIENE el 0, entonces podemos
concluir que j es significativamente diferente a cero.

IND3100 - Prof. Jorge Vera A 2013

IC para los coeficientes


En el ejemplo:
b1 = 48.979, sb1= 10.658, gl = 15 - 3 - 1 = 11,
Un IC al 95% para 1 : (c= 2.201)
(b1 - c sb1, b1 + c sb1)
(48.979 - 2.201 10.658, 48.979 + 2.201 10.658) = (25.52, 72.44)

Adems, para el valor del estadstico t : 4,5956, se puede buscar en


la tabla de la distribucin t cul es el percentil al que corresponde:
Ese es el nivel de significancia, en este caso 1-0,0008=0,9992

IND3100 - Prof. Jorge Vera A 2013

Resumen, tenga cuidado con:


Linearidad: Grfico, sentido comn, conocer el
problema
Signo de coeficientes: Coinciden con la intuicin?
T-test: Son los coeficientes significativamente
diferentes de cero?
R2: Es razonablemente alto dado el contexto?
Normalidad: Graficar un histograma de residuos
Heterocedasticidad: graficar residuos contra var.
indep.
Autocorrelacin: graficar serie de tiempo de residuos
Multicolineridad: Calcular correlaciones entre var.
indep.

IND3100 - Prof. Jorge Vera A 2013

Otros tipos de modelos


Hemos visto modelos de estructura lineal.
Y si sospechamos o sabemos que la relacin es no
lineal?
Por ejemplo: en Marketing interesa estudiar la
densidad de venta de una tienda: ventas/poblacin,
en funcin del ingreso medio de la poblacin.
Un modelo conocido es:

Densidad _ venta = 0 + 1 ( Ingreso) + 2 ( Ingreso) 2


Para estimar los coeficientes se usas Ingreso e
Ingreso al cuadrado como variables explicativas y el
modelo es lineal en esas variables.

IND3100 - Prof. Jorge Vera A 2013

Otros tipos de modelos


Otro ejemplo:
Muchas veces la demanda por un producto se puede
modelar como una funcin decreciente del precio:

demanda = 0 ( precio) 1
Donde 1 < 0.
Si se dispone de datos de demanda y precio, la
siguiente transformacin lineariza el modelo:

log(demanda) = 0 + 1 log( precio)


El modelo es ahora lineal en los logaritmos de la
demanda y el precio.

IND3100 - Prof. Jorge Vera A 2013

Variables dummy
Un taller de reparacin de autos quiere explicar el costo
de la reparacin de transmisin en funcin de la edad
del auto.
Costo
Auto

Edad

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
IND3100 - Prof. Jorge Vera A 2013

reparacion Transmision

3
4
6
5
4
2
4
8
7
4
3
5
3
2
4
3
4
9
2

956
839
1257
1225
1288
728
961
1588
1524
875
999
1295
884
789
785
923
1223
1770
692

Auto
manual
manual
Auto
Auto
Auto
manual
Auto
manual
manual
Auto
Auto
manual
Auto
manual
Auto
Auto
manual
Auto

Variables dummy
El modelo de costo en funcin de edad entrega:
R2 igual a 0,92
Estadstico t para la edad igual a 9,47
Pero podramos postular un modelo en el que se agrega
una variable dummy que vale 1 si hay transmisin
automtica y 0 si no
Veamos la regresin en Excel
Ahora:
R2 igual a 0,96, Estadstico t para la edad igual a 12,42
y el de la Dummy igual a 3,66, todos significativos al
menos al 99%

IND3100 - Prof. Jorge Vera A 2013

Conclusin:
Los modelos de regresin son muy potentes y
usados en muchos mbitos.
En mrketing
En Economa (econometra)
En ciencias
Etc

Pero deben construirse sobre datos slidos y


debe tenerse cuidado con los resultados.
La regresin slo refleja relaciones numricas
entre los datos: la existencia de cuasalidad es
una definicin a posteriori
IND3100 - Prof. Jorge Vera A 2013

Você também pode gostar