Clase 5 Regresion 2013 PDF

IND 3100
Magster en Ingeniera Industrial

Departamento de Ingeniera Industrial y de Sistemas
Pontificia Universidad Catlica de Chile
Modelos Cuant. Para la Toma de Dec.
Modelos de Regresin
IND3100 - Prof. Jorge Vera A 2013
Extraer ms informacin de los datos

Muchas veces tenemos datos respecto a
distintos fenmenos y sospechamos que hay
algn tipo de relacin entre ellos
Ms formalmente: tenemos datos de variables
aleatorias y sospechamos que estn
relacionadas (correlacionadas).
Cmo podemos saber si eso es verdad?
Appleglo
First-Year
Advertising
Expenditures
($ millions)
x
1.8
1.2
0.4
0.5
2.5
2.5
1.5
1.2
1.6
1.0
1.5
0.7
1.0
0.8
Region
Maine
New Hampshire
Vermont
Massachusetts
Connecticut
Rhode Island
New York
New Jersey
Pennsylvania
Delaware
Maryland
West Virginia
Virginia
Ohio
First-Year
Sales
($ millions)
y
104
68
39
43
127
134
87
77
102
65
101
46
52
33
Ventas el primer ao ($Millions)
Un Ejemplo: ventas v/s gasto en publicidad

160
120
80
(x3,y3)
40
0
0
0.5
1.5
2.5
Gasto en publicidad ($Millions)
i) Cmo relacionar el gasto publicitario con las ventas?

ii) Cules son las ventas esperadas del primer ao, si el gasto
publicitario es de $2.2 millones?
Anlisis de Regresin
OBJETIVO: Desarrollar un modelo que relacione dos variables
X:
variable independiente (tambin llamada explicativa)

generalmente bajo nuestro control
Y:
variable dependiente
magnitud que se determina en gran parte por el valor de x,
es la cantidad a ser pronosticada
Ejemplos:
Y (var. depend.)
X (var. indep.)
Notas en Universidad
Ptje. PSU
Tasa cncer pulmn
Cantidad de cigarrillos
Retorno de accin
Gasto en I&D
Ventas 1er ao
Gasto en publicidad
Contenidos
Regresin lineal simple

Regresin mltiple
Anlisis de resultados de una regresin
Coeficiente de determinacin, R2
Validacin del modelo de regresin
Confiabilidad de la estimacin e intervalos de
confianza.
Regresin Lineal Simple

Datos: (x1, y1), (x2, y2), . . . , (xn, yn), una muestra de tamao n tomada
de una poblacin de todos los valores (X,Y)
Modelo de la poblacin:
Y = 0 + 1 X +
El modelo asume una relacin lineal entre X e Y, con intercepto

0 y pendiente 1
0 y 1 son los parmetros para toda la poblacin.
Como no los conocemos vamos a estimarlos a partir de una
muestra de tamao n.
representa el trmino de error aleatorio. Estructuralmente hay
una relacin lineal entre Y y X pero est afectada por variaciones
aleatorias.
Regresin Lineal Simple

Modelo para cada elemento de la poblacin (y para la
muestra):
Yi = 0 + 1 X i + i , i = 1,..., n
Comentarios:
i se asume N(0, 2 ). As, 1, 2, . . . , n son v.a. i.i.d. con
distribucin normal.
E (Yi | X = xi ) = 0 + 1 xi
es el valor esperado de Y para un

valor dado de X. Es justamente el valor promedio de la v.a. Y
para un valor dado de X
SD(Yi | X=xi) = . Notar que la SD de Yi es igual a la SD de i y
que es una constante independiente del valor de x.
Cmo elegimos la mejor lnea?

Coeficientes de Regresin: b0 y b1 sern estimadores de 0 y 1
Estimador para Y dado xi : y i = b0 + b1 xi
(prediccin)
Valor de Y en xi : yi = b0 + b1 xi + ei (uso de error para obtener la igualdad)

Residuo (error): ei = yi y i
La mejor lnea de regresin es la que elige b0 y b1 para minimizar el
error cuadrtico total
n
SSR = e = ( yi yi ) 2
i =1
2
i
i =1

Sean:
1 n
x = xi
n i =1
1 n
y = yi
n i =1
Entonces:
n
b1 =
( x x )( y y )
i
i =1
(x x )
i =1
y:
b0 = y b1 x

En la prctica, no hay que trabajar directamente con las
frmulas de los estimadores de mnimos cuadrados.
Excel y los software estadsticos hacen eso fcilmente.
First Year Sales ($M)
80
(xi, ^yi)
60
bo=13.82
40
Estimadores:
bo = 13,82
b1 = 48,60
ei
(xi, yi)
20
Slope b1 = 48.60
0
0
0.5
Advertising Expenditures ($M)
Regresin Mltiple
En muchos casos, existe ms de un factor que
puede explicar el comportamiento de una
variable.
En este caso, postularemos lo que se llama un
modelo multivariado (con varias variables).
La Regresin Mltiple permite manejar ms
de una variable independiente.
Suguiente ejemplo: ventas en fucin de varias
cosas.
Ejemplo: Ventas de Nature-Bar ($MM)

Y
x1
region
sales advertising
Selkirk
Susquehanna
Kittery
Acton
Finger Lakes
Berkshire
Central
Providence
Nashua
Dunster
Endicott
Five-Towns
Waldeboro
Jackson
Stowe
101.8
44.4
108.3
85.1
77.1
158.7
180.4
64.2
74.6
143.4
120.6
69.7
67.8
106.7
119.6
1.3
0.7
1.4
0.5
0.5
1.9
1.2
0.4
0.6
1.3
1.6
1.0
0.8
0.6
1.1
x2
x3
promotions competitors
sales
0.2
20.40
0.2
30.50
0.3
24.60
0.4
19.60
0.6
25.50
0.4
21.70
1.0
6.80
0.4
12.60
0.5
31.30
0.6
18.60
0.8
19.90
0.3
25.60
0.2
27.40
0.5
24.30
0.3
13.70
Regresin Mltiple
Variables independientes:
Variable dependiente:
X1, X2, . . . , Xk
(y1, x11, x21, . . . , xk1),

.
.
.
(yn, x1n, x2n, . . . , xkn),
Datos:
Modelo:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n
Regresin Mltiple
Modelo:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i , i = 1,..., n
1, 2, . . . , n son v.a. i.i.d., ~ N(0, 2)
Coeficientes regresin: b0, b1,, bk son estimadores de 0, 1,, k .
Estimador de yi :
y i = 0 + 1 x1i + 2 x2i + ... + k xki + ei
Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimacin:

n
SSR = e = ( yi yi ) 2
i =1
2
i
i =1
Regresiones en Excel y otros

Excel permite hacer regresiones lineales
Datos Anlisis de Datos Regresin
Resultado de la Regresin (Excel)

Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0,912693
Coeficiente de
determinacin R^2
0,833008
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA
0,787465
17,600291
15,000000
Promedio
Suma de
Valor
de los
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009
Grados de
libertad
Regresin
Residuos
Total
Coeficientes Error tpico

Intercepcin
advertising
promotions
competitors sales
65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138
Estadstico
t
Probabilidad
2,3693
4,5956
2,5251
-2,2582
Inferior
95%
Superior
95%
0,0372 4,6689 126,7403

0,0008 25,5210 72,4366
0,0282 7,6567 111,6519
0,0452 -3,6287
-0,0466
Intrepretando los resultados

1) Coeficientes de regresin: b0, b1, . . . , bk son estimadores de 0, 1,
. . . , k basados en los datos de la muestra.
2) Notemos que E[bj ] =j . (estimador insesgado)
b0 = 65,705 (intrepretacin depende del contexto).
b1 = 48,979 ($1 milln adicional en publicidad se espera que
resulte en $49 millones de aumento en ventas)
b2 = 59,654 ($1 milln adicional en promocin se espera que
resulte en $60 millones de aumento en ventas)
b3 = -1,838 ($1 milln adicional de ventas de competencia se
espera que resulte en $1,9 millones de baja en ventas)

2) Error tpico (estndar): un estimador de , la SD de cada i.
Medida de la cantidad de ruido en el modelo. En la tabla es:
s = 17,60
3) Grados de libertad (gl): n k 1
Se usan en intervalos de confianza
4) Error tpico de los coeficientes: sb0 , sb1 , . . . , sbk
Son desviaciones estndar de los coeficientes b0 , b1, . . . , bk.
tiles para evaluar la calidad de los estimadores de los
coeficientes, y validar el modelo.
5) Hay otros resultados mostrados, pero no los abordaremos en
este curso.

5) Coeficiente de determinacin: R2
Medida de la calidad general de la regresin.
Es el % de la variabilidad total en los datos yi que es explicada
por la lnea de la regresin de la muestra
y1 + y2 + ... + yn
n
n
2
- Variacin total en Y = ( yi y )
y=
- La media muestral de Y:
i=
=1
- Pero, el modelo lineal no explica toda la variacin en Y.

n
R2 =
- Variacin residual en Y:
i =1
= ( yi yi ) 2
i =1
variabilidad explicada
variabilidad no explicada
= 1
variabilidad total
variabilidad total
= 1
( y y )
i =1
n
( y y)
i =1
First Year Sales ($Millions)
R2 toma valores entre 0 and 1

(es un porcentaje).
35
30
25
20
15
10
5
0
160
120
80
40
0
0
0.5
1.5
2.5
Advertising Expenditures ($Millions)
10
15
20
25
30
R2 = 0,833 en nuestro ejemplo
R2 = 1; los valores de X explican

toda la variacin de los Y
30
25
20
15
10
5
R2
= 0; los valores de X no
explican la variacin de Y
0
0
10
15
X
20
25
30
Coeficiente de Determinacin R2
R2 alto: significa que la mayora de la variabilidad
observada en los datos yi, se atribuye a sus respectivos
valores xi
Regresin simple: R2 es alto si los puntos estn bien
alineados con la lnea. En regresin mltiple es cuando
estn ms o menos en el mismo hiperplano.
Cundo es bueno un R2 ?: depende de la situacin
(del uso que se le dar a la regresin, y de la
complejidad del problema).
Muchas personas miran slo R2, pero este no contiene
toda la informacin. Es importante que el modelo de
regresin sea vlido.
Mientras ms variables explicativas tenga el modelo,
ms alto es R2 !
Coeficiente de Determinacin R2
Uno no debe incluir en el modelo variables X
que no estn realmente relacionadas con Y,
slo para hacer que el R2 sea alto.
R es la corr(x,y) y es la raz cuadrada de R2
Recordemos que corr(x,y)=cov(x,y)/xy
El R2 ajustado modifica al R2 para tomar en

cuenta el nmero de variables y el tamao
muestral
n 1
Adjusted R 2 = 1
(1 R 2 )
n (k + 1)

Validar el modelo es verificar que se cumplen
efectivamente las hiptesis:
1) Linealidad. Es el supuesto estructural.
Con dos variables, se puede hacer un grfico
Puede haber conocimiento adicional
Verificar consistencia de signos de los bi
2) Normalidad de los residuos.
Graficar los residuos y hacer un histograma
Debera verse un comportamiento normal.

3) Heterocedasticidad: variacin en la SD de los errores
Tienen los residuos una SD constante? (i.e., SD(i ) = para todo i?)
Chequear grfico de residuos vs. cada variables independiente
Residuos
Residuos
20.00
10.00
0.00
-10.00
0.0
1.0
2.0
Residuals
20.00
10.00
0.00
0.0
1.0
2.0
-10.00
-20.00
Publicidad
No hay evidencia de heterocedasticidad
-20.00
Evidencia de heterocedasticidad
Se puede solucionar:
Haciendo una transformacin (por ej. usar x2 en vez de x)
Agregando o eliminando variables independientes
Publicidad

4) Autocorrelacin: Hay independencia entre los residuos?
- Graficar los residuos para identificar patrones
Grfico de tiempo
Grfico de tiempo
6
Residuos
Residuos
6
4
2
0
0
10
15
20
-2
4
2
0
0
-4
-2
-6
-4
No hay evidencia de autocorrelacin
10
15
Evidencia de autocorrelacin
Autocorrelacin podra presentarse si las observaciones tienen un

orden secuencial natural, como por ejemplo, tiempo.
Se puede solucionar introduciendo una variable independiente (por
ej. tiempo propiamente tal).

En resumen:
La validacin es muy importante.
Slo una vez validado el modelo, y si presenta
buenas caractersticas de ajuste, podramos
usarlo para explicar el fenmeno o hacer
predicciones
Y el R2 no es el nico indicador de si el modelo
es bueno o no.
20
Residuos sanos
Residuos con varianza no constante
Residuos no independientes
Posible solucin: Insertar tiempo (secuencia) de las

observaciones como una variable.
Aspectos importantes a considerar

1) Sobre especificacin
Incluir muchas variables independientes que hagan al R2
artificialmente alto puede ser muy malo.
Regla: deberamos mantener n >= 5(k+2).

2) Extrapolar fuera del rango de los datos muestrales debe hacerse
con cuidado
Ventas del 1er ao
120
90
60
30
0
0.0
1.0
Publicidad
2.0
3.0
Aspectos importantes a considerar

3) Multicolinearidad
Ocurre cuando dos variables independientes estn altamente
correlacionadas.
Seales de multicolinearidad:
- Coeficientes de regresin (bi) tienen el signo equivocado
- El agregar o borrar una variable independiente provoca grandes
cambios en los coeficientes
- Coeficientes de regresin (bi) no significativamente diferentes de 0.
La multicolinearidad altera la significancia de los estimadores.
Se corrige borrando variables independientes.
Ejemplo: rendimiento de estudiantes
IND3100 -
Student Graduate
Number
GPA
1
4,0
2
4,0
3
3,1
4
3,1
5
3,0
6
3,5
7
3,1
8
3,5
9
3,1
10
3,2
11
3,8
12
4,1
13
2,9
14
3,7
15
3,8
16
3,9
17
3,6
18
3,1
19
3,3
20
4,0
21
3,1
22
3,7
23
3,7
Prof. Jorge Vera
24 A 2013 3,9
25
3,8
College
GPA
3,9
3,9
3,1
3,2
3,0
3,5
3,0
3,5
3,2
3,2
3,7
3,9
3,0
3,7
3,8
3,9
3,7
3,0
3,2
3,9
3,1
3,7
3,7
4,0
3,8
GMAT
640
644
557
550
547
589
533
600
630
548
600
633
546
602
614
644
634
572
570
656
574
636
635
654
633
Ejemplo: Resultado de Regresin

R Square
Standard Error
Observations
Intercept
College GPA
GMAT
0.96
0.08
25
Qu pas?
Coefficients Standard Error

0.09540
0.28451
1.12870
0.10233
-0.00088
0.00092
R Square
Standard Error
Observations
Graduate
College
GMAT
0.958
0.08
25
Graduate College
1
0.98
1
0.86
0.90
College GPA y GMAT

estn altamente
correlacionadas
Coefficients Standard Error

Intercept
-0.1287
0.1604
College
GPA
1.0413
0.0455
Calidad de los coeficientes

En regresin lineal, seleccionamos los mejores
coeficientes b0, b1, ... , bk como estimadores de 0, 1,, k .
Sabemos que en promedio cada bj apunta a j .
Sin embargo, queremos saber la confiabilidad de esos
estimadores, tal como lo hicimos con la media muestral.
Se puede mostrar que bajo supuestos de normalidad de
los errores, los estimadores de los coeficientes siguen una
distribucin t-student.
GMAT
Volvamos al ejemplo
Estadsticas de la regresin
Coeficiente de
correlacin mltiple
0,912693
Coeficiente de
determinacin R^2
0,833008
R^2 ajustado
Error tpico
Observaciones
ANLISIS DE VARIANZA
0,787465
17,600291
15,000000
Promedio
de los
Suma de
Valor
cuadrados cuadrados
F
crtico de F
3 16997,537 5665,8455 18,2904763 0,0001388
11 3407,4728 309,77026
14 20405,009
Grados de
libertad
Regresin
Residuos
Total
Coeficientes Error tpico

Intercepcin
advertising
promotions
competitors sales
65,7046 27,7311
48,9788 10,6579
59,6543 23,6247
-1,8376 0,8138
Estadstico
t
Probabilidad
2,3693
4,5956
2,5251
-2,2582
Inferior
95%
Superior
95%
0,0372 4,6689 126,7403

0,0008 25,5210 72,4366
0,0282 7,6567 111,6519
0,0452 -3,6287
-0,0466
IC para los coeficientes

1) Grados de libertad (gl)
Grados de libertad de los residuos = n - (k+1)
Usamos (k + 1) gl para determinar (k+1) estimadores b0, b1, . . . , bk
2) Error estndar de los coeficientes: sb0 , sb1 , . . . , sbk
Estos son las SD de los estimadores b0, b1, . . . , bk .
Hecho: Antes de observar b j y sbj, sabemos que
bj j
sbj
(estadstico t)
tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.
Cul sera un IC al 95% para j?

El IC al % para j es:
(bj - c sbj, bj + c sbj ),
donde c es el valor para el cual
P(- c < T < c) = %
y T tiene una distrib. t-student con gl = (n - k - 1)
Si en intervalo NO CONTIENE el 0, entonces podemos
concluir que j es significativamente diferente a cero.

En el ejemplo:
b1 = 48.979, sb1= 10.658, gl = 15 - 3 - 1 = 11,
Un IC al 95% para 1 : (c= 2.201)
(b1 - c sb1, b1 + c sb1)
(48.979 - 2.201 10.658, 48.979 + 2.201 10.658) = (25.52, 72.44)
Adems, para el valor del estadstico t : 4,5956, se puede buscar en

la tabla de la distribucin t cul es el percentil al que corresponde:
Ese es el nivel de significancia, en este caso 1-0,0008=0,9992
Resumen, tenga cuidado con:

Linearidad: Grfico, sentido comn, conocer el
problema
Signo de coeficientes: Coinciden con la intuicin?
T-test: Son los coeficientes significativamente
diferentes de cero?
R2: Es razonablemente alto dado el contexto?
Normalidad: Graficar un histograma de residuos
Heterocedasticidad: graficar residuos contra var.
indep.
Autocorrelacin: graficar serie de tiempo de residuos
Multicolineridad: Calcular correlaciones entre var.
indep.
Otros tipos de modelos

Hemos visto modelos de estructura lineal.
Y si sospechamos o sabemos que la relacin es no
lineal?
Por ejemplo: en Marketing interesa estudiar la
densidad de venta de una tienda: ventas/poblacin,
en funcin del ingreso medio de la poblacin.
Un modelo conocido es:
Densidad _ venta = 0 + 1 ( Ingreso) + 2 ( Ingreso) 2

Para estimar los coeficientes se usas Ingreso e
Ingreso al cuadrado como variables explicativas y el
modelo es lineal en esas variables.
Otros tipos de modelos

Otro ejemplo:
Muchas veces la demanda por un producto se puede
modelar como una funcin decreciente del precio:
demanda = 0 ( precio) 1
Donde 1 < 0.
Si se dispone de datos de demanda y precio, la
siguiente transformacin lineariza el modelo:
log(demanda) = 0 + 1 log( precio)

El modelo es ahora lineal en los logaritmos de la
demanda y el precio.
Variables dummy
Un taller de reparacin de autos quiere explicar el costo
de la reparacin de transmisin en funcin de la edad
del auto.
Costo
Auto
Edad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
reparacion Transmision
3
4
6
5
4
2
4
8
7
4
3
5
3
2
4
3
4
9
2
956
839
1257
1225
1288
728
961
1588
1524
875
999
1295
884
789
785
923
1223
1770
692
Auto
manual
manual
Auto
Auto
Auto
manual
Auto
manual
manual
Auto
Auto
manual
Auto
manual
Auto
Auto
manual
Auto
Variables dummy
El modelo de costo en funcin de edad entrega:
R2 igual a 0,92
Estadstico t para la edad igual a 9,47
Pero podramos postular un modelo en el que se agrega
una variable dummy que vale 1 si hay transmisin
automtica y 0 si no
Veamos la regresin en Excel
Ahora:
R2 igual a 0,96, Estadstico t para la edad igual a 12,42
y el de la Dummy igual a 3,66, todos significativos al
menos al 99%
Conclusin:
Los modelos de regresin son muy potentes y
usados en muchos mbitos.
En mrketing
En Economa (econometra)
En ciencias
Etc
Pero deben construirse sobre datos slidos y

debe tenerse cuidado con los resultados.
La regresin slo refleja relaciones numricas
entre los datos: la existencia de cuasalidad es
una definicin a posteriori

Clase 5 Regresion 2013 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Clase 5 Regresion 2013 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

IND 3100

Magster en Ingeniera Industrial

Modelos Cuant. Para la Toma de Dec.

IND3100 - Prof. Jorge Vera A 2013

Extraer ms informacin de los datos

IND3100 - Prof. Jorge Vera A 2013

Ventas el primer ao ($Millions)

Un Ejemplo: ventas v/s gasto en publicidad

Gasto en publicidad ($Millions)

i) Cmo relacionar el gasto publicitario con las ventas?

variable independiente (tambin llamada explicativa)

Tasa cncer pulmn

IND3100 - Prof. Jorge Vera A 2013

Regresin lineal simple

IND3100 - Prof. Jorge Vera A 2013

Regresin Lineal Simple

El modelo asume una relacin lineal entre X e Y, con intercepto

IND3100 - Prof. Jorge Vera A 2013

Regresin Lineal Simple

es el valor esperado de Y para un

IND3100 - Prof. Jorge Vera A 2013

Cmo elegimos la mejor lnea?

Valor de Y en xi : yi = b0 + b1 xi + ei (uso de error para obtener la igualdad)

IND3100 - Prof. Jorge Vera A 2013

Cmo elegimos la mejor lnea?

IND3100 - Prof. Jorge Vera A 2013

Cmo elegimos la mejor lnea?

First Year Sales ($M)

IND3100 - Prof. Jorge Vera A 2013

Ejemplo: Ventas de Nature-Bar ($MM)

IND3100 - Prof. Jorge Vera A 2013

(y1, x11, x21, . . . , xk1),

IND3100 - Prof. Jorge Vera A 2013

y i = 0 + 1 x1i + 2 x2i + ... + k xki + ei

Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimacin:

IND3100 - Prof. Jorge Vera A 2013

Regresiones en Excel y otros

IND3100 - Prof. Jorge Vera A 2013

Resultado de la Regresin (Excel)

Coeficientes Error tpico

IND3100 - Prof. Jorge Vera A 2013

0,0372 4,6689 126,7403

Intrepretando los resultados

Intrepretando los resultados

Intrepretando los resultados

- Pero, el modelo lineal no explica toda la variacin en Y.

IND3100 - Prof. Jorge Vera A 2013

First Year Sales ($Millions)

R2 toma valores entre 0 and 1

Advertising Expenditures ($Millions)

R2 = 0,833 en nuestro ejemplo

R2 = 1; los valores de X explican

IND3100 - Prof. Jorge Vera A 2013

IND3100 - Prof. Jorge Vera A 2013

El R2 ajustado modifica al R2 para tomar en

Validacin del modelo de regresin

IND3100 - Prof. Jorge Vera A 2013

Validacin del modelo de regresin

No hay evidencia de heterocedasticidad

Validacin del modelo de regresin

No hay evidencia de autocorrelacin

Autocorrelacin podra presentarse si las observaciones tienen un

Validacin del modelo de regresin