Analisis de Regresion Modo de Compatibilidad PDF

18/06/2010
TALLERES DE VERANO EN MÉTODOS DE INVESTIGACIÓN

EN POBLACIÓN Y TERRITORIO
REGRESIÓN LINEAL
MULTIVARIADA
Fortino Vela Peón Juan F. Islas Aguirre

fvela@correo.xoc.uam.mx jfislas@correo.xoc.uam.mx
Junio, 2010
F. VELA / J. F. ISLAS
Descripción
En este curso se desarrollan técnicas de
regresión lineal que permiten cuantificar
relaciones entre variables, contrastar hipótesis y
predecir valores futuros de ciertas variables en
función del modelo considerado.
El curso tiene un carácter aplicado y se aprende

a utilizar Stata.
Objetivos
Ofrecer los elementos básicos vinculados a las
técnicas de regresión lineal simple y múltiple
Dotar del manejo básico del Stata para poder

llevar a cabo un análisis empírico basado en los
conocimientos teóricos adquiridos.
1
18/06/2010
Temario
Tema Contenido
1 Conceptos básicos
2 Modelo de Regresión Lineal Simple
3 Modelo de Regresión Lineal Múltiple
4 El Modelo de Regresión Lineal Simple y Múltiple con Stata
5 Contrastes de restricciones lineales y predicción
6 Errores en la especificación
7 Multicolinealidad
8 Variables cualitativas
9 Diagnóstico del modelo
Tema 1. Conceptos básicos

1.- Introducción.
2.- ¿Qué es el análisis de regresión (lineal)?
3.- Preeliminares estadísticos.
4.- Análisis de datos: introducción a Stata
Tema 2. Modelo de regresión lineal

simple (MRLS)
1.- Introducción.
2.- Elementos del modelo de regresión simple.
3.- Supuestos del modelo.
4.- Estimación por mínimos cuadrados
ordinarios.
5.- Contrastes de hipótesis e intervalos de
confianza.
6.- Resumen y ejemplos.
2
18/06/2010
Tema 4. MRLS y MRLM con Stata

1. Ejemplo
2. Estimación por mínimos cuadrados ordina-
rios utilizando Stata
3. Análisis de los resultados mostrados
4. Bondad de ajuste y selección de modelos
5. Contrastes de hipótesis e intervalos de
confianza con Stata.
6. Presentación de los resultados.
Tema 5. Contrastes de restricciones

lineales y predicción
1.- Contrastes de restricciones lineales.
2.- Contrastes utilizando Stata.
3.- Estimación bajo restricciones lineales.
4.- Estadísticos equivalentes.
5.- Predicción.
Tema 6. Errores de especificación

1.- Introducción.
2.- Efectos de omisión de variables relevan-
tes.
3.- Efectos de inclusión de variables irrele-
vantes.
3
18/06/2010
Tema 7. Multicolinealidad
1.- Multicolinealidad perfecta.
2.- Multicolinealidad de grado alto.
3.- Identificación con Stata.
Tema 8. Variables cualitativas

1.- Introducción. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o más variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementación en Stata.
Tema 9. Diagnóstico del modelo

1.- Introducción. Un ejemplo.
2.- Modelo con una variable cualitativa.
3.- Modelo con dos o más variables cualita-
tivas.
4.- Contraste de cambio estructural.
5.- Implementación en Stata.
4
18/06/2010
Bibliografía
James y Mark W. Watson (2002). Kutner Michael H. et. al. (2005).
Introduction to Econometrics, Applied Linear Statistical Models,
Addison-Wesley-Pearson, Estados 5ª. ed., McGraw-Hill, Singapur.
Unidos. 330.18 / S8642in https://netfiles.umn.edu/users/nacht
http://wps.aw.com/aw_stock_ie_2/50 001/www/nachtsheim/5th/
/13016/3332253.cw/index.html
Gujarati, Damodar y Dawn Porter Fox, John (2008). Applied

(2010). Econometría, 5ª. ed., Regression Analysis and
McGraw-Hill, México. 330.18/ Generalized Linear Models, 2ª.
G969e/1997 ed., Sage, Estados Unidos.
http://highered.mcgraw- http://socserv.socsci.mcmaster.ca/jfo
hill.com/sites/0073375772/student_v x/Books/Applied-Regression-
iew0/data_sets.html 2E/datasets/index.html
Bowerman, Bruce L.; Richard T.

O’Connell et al. (2007).
Pronósticos, series de tiempo y
regresión: Un enfoque aplicado,
CENGAGE, México.
http://www.cengage.com.mx/Book_d
etail.php?ISBN=9789706866066
Metodología
Se pone a disposición de los alumnos un conjunto
de notas o lecturas que apoyan los contenidos del
curso.
mregresion.wordpress.com
Preferentemente se emplearan datos disponibles

para su utilización en el programa Stata.
Bases de datos
Applied Regression, Generalized Linear Models,
and Related Methods, Second Edition
http://socserv.socsci.mcmaster.ca/jfox/Books/App
lied-Regression-2E/datasets/index.html
Procedimiento:
1. Entrar a la pagina.
2. Guardar el archivo con extensión “.txt”
3. Agregar, si fuese necesario, la etiqueta de la variable
“id” para el identificador.
4. Utilizar el comando insheet de la siguiente manera
insheet using “LOCALIZACIÓN/ARCHIVO.txt",
clear
5
18/06/2010
Tema 1. Conceptos básicos
6
18/06/2010
Clasificación de las variables

Discretas
Nivel de medición
Continuas
Nominales
Escala de medición Ordinales
Intervalo
Continuas
Dependiente(s)
Función en la investigación
Independiente(s)
Conceptuales o abstractas
Grado de abstracción Intermedias
Empíricas u observables
Escalas de medición de las variables

Nominales: nombres o clasificaciones que se utilizan
para datos en categorías distintas y separadas.
Ordinales: son las que clasifican las observaciones en

categorías con un orden significativo.
Intervalo: medidas numéricas en la cual el valor cero es

arbitrario pero la diferencia entre valores es importante.
Razón: medidas numéricas en las cuales el valor cero es

un valor fijo y la diferencia entre valores es importante.
7
18/06/2010
¿Qué es el análisis de regresión?

Es una metodología estadística que es utiliza la
relación entre dos o más variables, de manera tal
que la variable de respuesta o de resultado, puede
ser predecida a partir de otra(s) variable(s).
Es una herramienta utilizada en distintas áreas del

conocimiento.
Sirve también como medio en la contrastación de

hipótesis y/o teorías con la realidad a través de
modelos estadísticos.
Análisis de regresión
Relación funcional vs relación estadística.
Linealidad vs no linealidad
Selección de variables predictoras.
Forma funcional.
Estrategia del análisis de regresión
Fuente: Kutner et. al (2005:14)
8
18/06/2010
Tipo de datos
Observación SALA EDUCA EXPER SEXO EDO
Corte transversal
1 3.10 11 2 1 0
2 3.24 12 22 1 1 Un conjunto de
3 3.00 11 44 0 0 datos de una
. muestra de
.
.
individuos, hogares,
525 11.56 16 5 0 0
empresas, ciudades,
526 3.50 8 7 1 0 estados o países
tomados en un
punto del tiempo en
particular.
O b s e rv a c ió n Año SALA EDUCA EXPER SEXO EDO Serie de tiempo
1 1950 3 .1 0 11 2 1 0
2 1951 3 .2 4 12 22 1 1 Observaciones de
3 1952 3 .0 0 11 44 0 0
. . . . . . . distintas variables
.
.
.
.
.
.
.
.
.
.
.
.
.
.
efectuadas en el
50 1999 1 1 .5 6 16 5 0 0 tiempo.
51 2000 3 .5 0 8 7 1 0
Observación Año PRECASA ANTI CUARTOS AREA Panel

1 1993 85,500 42 3 1
2 1993 67,300 36 3 0 Es la combinación
3 1993 134,000 10 4 1
. . . . . . de datos de corte
. . . . . .
. . . . . . transversal con
250
251
1993
1995
243,600
65,000
4
44
4
3
0
1
datos en series de
252 1995 182,400 38 3 0 tiempo donde tienen
. . . . . .
. . . . . . como característica
. . . . . .
520 1995 57,200 16 4 0 principal que las
unidades de
observación son
siempre los mismos.
Stata es una herramienta computacional diseñada para realizar

análisis estadístico la cual fue creada en 1985 por StataCorp.
El denominativo de Stata es una abreviación de las palabras

“Statistics" y "data ".
Actualmente es utilizado tanto en instituciones académicas como

en empresas donde sus usuarios se ubican en las áreas de la
economía, sociología, ciencia política, ciencias de la salud y
epidemiología.
9
18/06/2010
Sus capacidades incluyen :
- Manejo y organización de datos

- Graficación.
- Análisis estadístico .
- Simulación.
- Programación de tareas.
• Actualmente, en el mercado se
encuentra la versión 11.
• Su lenguaje computacional es C.
• Existen versiones para

plataformas en Windows, Mac,
UNIX y LINUX.
Tema 2. El modelo de regresión lineal

simple (MRSL)
10
18/06/2010
Temas
Modelo de regresión lineal simple.
Estimaciones puntuales de los mínimos
cuadrados.
Estimaciones puntuales y predicciones
puntuales.
Suposiciones del modelo y el error estándar.
Prueba de significancia individual para la
pendiente y la ordenada al origen.
Intervalos de confianza y de predicción.
Coeficientes de determinación y correlación
simples.
Una prueba F para el modelo.
Modelo de regresión lineal simple
Requisitos básicos:
i) las variables dependiente (y) e independiente
(x) son métricas;
ii) la relación entre la variable dependiente (y) y
la variable independiente (x) es
aproximadamente en forma de una línea
recta.

600
500
Diagrama
400
de
work
dispersión
300
observamos:
- tendencia positiva
200
- puntos dispersos
alrededor de la línea
100
20 40 60 80 100 1 20
l ot
Fuente: Kutner et. al. (2005:19).
11
18/06/2010

600
500
400
Diagrama
de
dispersión
300
200
100
20 40 60 80 100 1 20
l ot
w o rk F it te d v al ue s
Fuente: Kutner et. al. (2005:19).

200
150
Diagrama
de
mortality
100
dispersión
50
0
0 1 00 0 0 20 0 00 3 0 00 0 4 00 0 0
g n pp c
Fuente: Fox (2008: 62).

y = µy|x + ε = β0 + β1x + ε
donde
µy|x = β0 + β1x es el valor medio de la variable dependiente y
cuando el valor de la variable independiente es x.

β0 = ordenada al origen (valor medio de y cuando x = 0)
β1 = pendiente (∆ valor medio de y cuando ↑ x una unidad)
ε es un término de error: describe los efectos de todos los

factores no incluidos en el modelo
12
18/06/2010

Si β0 = 62.37 y β1 = 3.57, entonces cuando
lot = 60, el valor medio estimado de horas
trabajadas
µy|x = β0 + β1x = 62.36586 + 3.570202(65)
= 294.4 horas trabajadas.

β0 y β1 se llaman parámetros de regresión.
Ya que no conocemos los valores reales de
β0 y β1 , debemos estimarlos con los datos de
la muestra.
La interpretación de β0 en ocasiones no es
aplicable.
Importante: observamos que estas variables
se mueven juntas, mas no podemos deducir
claramente una relación causa-efecto.
Estimaciones puntuales de los mínimos

cuadrados
Estimación puntual de los mínimos cuadrados de la pendiente β1
SS xy
b1 =
SS xx
donde
∑x∑y
SS xy = ∑ (x i − x )( y i − y ) = ∑xy i i −
i
n
i
y
(∑ x ) 2
SS xx = ∑ (x i − x) =
2
n
i
13
18/06/2010

puntuales
Estimación puntual del valor medio de la variable
dependiente cuando el valor de la variable
independiente es x0
yˆ = b0 + b1 x0
se predice ε = 0

puntuales
Se puede demostrar que estas estimaciones puntuales
dan un valor de la suma de los errores cuadráticos
(SSE) que es menor que la que se obtiene con
cualesquiera otros valores de b0 y b1. Se les llaman
estimaciones puntuales de los mínimos cuadrados.
La recta se llama recta de regresión de mínimos
cuadrados
La ecuación se llama ecuación de predicción de
mínimos cuadrados.
Suposiciones del modelo y el error

estándar
Suposiciones
1. A cualquier valor dado de x, la media de la población de los
valores potenciales del término error es igual a cero.
2. Suposición de varianza constante. A cualquier valor dado
de x, ε tiene una varianza que no depende del valor de x.
3. Suposición de normalidad. A cualquier valor dado de x, ε
tiene una distribución normal.
4. Suposición de independencia. Cualquier valor del término
error ε es estadísticamente independiente de cualquier otro
valor de ε.
14
18/06/2010

estándar
En otras palabras
— dado un valor de x, la población de valores potenciales

del término de error tiene una distribución normal, con
valor medio 0 y varianza σ2 que no depende de x.
— La población de valores potenciales de y|x tiene

distribución normal con valor medio de β0 + β1x y
varianza σ2 que no depende de x.
— Es más probable que la suposición de independencia se

viole cuando se utilizan series de tiempo en un estudio
de regresión.

estándar
Error cuadrático medio = estimación puntual
de σ2
SSE
s2 = vary|x
n−2
error estándar = estimación puntual de σ
SSE
s=
n−2
n n
 n n

SSE = ∑ ( yi − yˆ i ) = ∑ yi2 − b0 ∑ yi + b1 ∑ xi yi 
2
i =1 i =1  i =1 i =1 
Prueba de la significancia de la
pendiente y la ordenada al origen
Hipótesis nula: β1 = 0
nivel de significancia α (0.10, 0.05, 0.01)
los valores p se basan en n-2 grados de libertad
Se rechaza la hipótesis nula si se cumple la
condición de punto de rechazo de alguna de las
hipótesis alternativas, o si p < α
15
18/06/2010
Si se cumplen los supuestos de la regresión, entonces
la población de todos los valores posibles de b1 es
normalmente distribuida con valor medio β1 y desviación
estándar
σ
σb = 1
SS xx
cuya estimación puntual es

s
sb1 =
SS xx
y la población de todos los valores posibles de la
estadística de prueba t
b1
t=
sb1
tiene una distribución t con n – 2 grados de libertad.
Condición de
Hipótesis punto de Valor p
alternativa rechazo
Ha : β1 ≠ 0 | t |> t[(αn −/ 22]) 2 × (área bajo la curva t a

la derecha de |t|)
Ha : β1 > 0 t > t[(αn]−2 ) área bajo la curva t a la
derecha de t
Ha : β1 < 0 t < −t[(αn ]−2 ) área bajo la curva t a la
izquierda de t
16
18/06/2010
Intervalos de confianza y de predicción
Si se cumplen las suposiciones de la regresión,

un intervalo de confianza de 100(1-α)% para la
pendiente verdadera β1 es
[b ± t[(
1
n−2 )
s
α / 2 ] b1 ]
Intervalos de confianza y de
predicción

un valor de distancia (v.d.) para un valor
particular x0 de x (para la regresión lineal simple)
es
1 (x − x )
2
v.d . = + 0
n SS xx
predicción
un intervalo de confianza de 100(1-α)% para el
valor medio de y cuando la variable
independiente es x0 es
yˆ ± t[(αn−/ 22])s v.d .
17
18/06/2010
Intervalos de confianza y de predicción

La población de todos los errores posibles de
predicción está normalmente distribuida con media
cero y desviación estándar
σ√1 + valor de distancia
La estimación puntual es
s√1 + valor de distancia
Se llama error estándar del error de predicción
predicción

un intervalo de predicción 100(1-α)% para un
valor individual de y cuando la variable
independiente es x0 es
yˆ ± t[(αn −/ 22])s 1 + v.d .
predicción
Nótese que el intervalo de predicción es mayor

que el intervalo de confianza: mayor
incertidumbre acerca del término de error.
Entre más alejado del valor medio es xi, mayores

son los intervalos de confianza y de predicción.
18
18/06/2010
Coeficientes de determinación y
correlación simples
En el caso del modelo de regresión lineal simple,
1. Variación total = Σ(yi-y)2
2. Variación explicada = Σ(yi-y)2
3. Variación inexplicada = Σ(yi-yi)2
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación simple es
r2 = (variación explicada)/(variación total)
6. El r2 es la proporción de la variación total en los n valores
observados de la variable dependiente que explica el modelo de
regresión lineal simple
Coeficiente de correlación simple (r) entre y y x
si b1 > 0 r = + r
2
si b1 < 0 r = − r 2
donde b1 es la pendiente de la recta de
mínimos cuadrados que relaciona y con x.
Este coeficiente de correlación mide la fuerza
de la relación lineal entre y y x.
También se puede calcular mediante la
fórmula
SS xy
r=
SS xx SS yy
19
18/06/2010
La correlación de la población de todas las
combinaciones posibles de valores observados
de x e y se denomina ρ.
Para probar la hipótesis nula H0: ρ = 0,
utilizamos la estadística de prueba
r n−2
t=
1− r2
Prueba F para el modelo

Estadística F global
Variación inexplicada
F(modelo) =
(Variación explicada)/(n-2)
Podemos rechazar H0:β1=0 y aceptar Ha: β1≠0 en el nivel de significan-

cia α si se cumple alguna de:
F(modelo)>F[α]
Valor p < α
En el punto F[α] se basa en 1 grado de libertad para el numerador y n-2

grados de libertad para el denominador.
Tema 3. Modelo de regresión

lineal múltiple (MRLS)
20
18/06/2010
Modelo de Regresión Lineal Múltiple
Se emplean más de una variable independiente.

Relaciona y con x1, x2, ..., xk
Modelo:
y = µy|x1 ,x2 ,...,xk + ε = β0 + β1x1 + β2 x2 +L+ βk xk + ε
Valor medio de y cuando los valores de las variables

independientes son x1, x2, ..., xk :
y = µ y|x1 , x2 ,...,xk = β 0 + β1 x1 + β 2 x2 + L + β k xk + ε
Parámetros: β0, β1, β2, ..., βk

Término de error: ε
Suposiciones del modelo de regresión lineal:
1. Para cualquier combinación dada de valores de x1, x2, ..., xk ,

la media de la población de los valores potenciales de ε = 0.
2. Varianza constante del error.
3. Normalidad de errores.
4. Independencia de los errores.
5. Ninguna relación entre las variables independientes.
21
18/06/2010
Ejemplo
El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación.
Recopila información sobre cinco variables, que según su
criterio, podrían ejercer alguna influencia sobre las ventas.
Tomando una muestra aleatoria de 25 vendedores, se
plantea el siguiente modelo de regresión lineal:
yi = β 0 + β1 x´1i + β 2 x´2i + β3 x3i + β 4 x´4i + β5 x´5i + ε i
y= ventas anuales en miles de dólares (sales).
x1= número de meses de empleado en la compañía (time).
x2= ventas del producto de la compañía y productos de la

competencia en el territorio (mktpoten).
x3= gasto en publicidad (adver).
x4 = promedio ponderado de la participación en el mercado

de la compañía en el territorio en los últimos cuatro años
(mktshare).
x5=cambio en la participación en el mercado de la compañía

en el territorio en los últimos cuatro años (change).
ε= termino de error aleatorio.
Interpretación geométrica del modelo de regresión
Región experimental: combinaciones de los valores

observados de x1, x2, ..., xk
Plano de medias
22
18/06/2010
Interpretación de los parámetros de

regresión β0, β1,..., βk
Los parámetros relacionan la media de la variable dependiente
con las variables independientes en un sentido global.
β0 : ordenada al origen (valor de y cuando x1=x2=…xk=0).
βi : cambio en la variable dependiente asociado con el incremento

de una unidad de la variable xi manteniendo las k-1 variables
restantes sin cambio alguno (∀ i=1,2,...,k-1).
Estimación de mínimos cuadrados:

estimación puntual y predicción
Estimación puntual del valor medio y de un valor
individual de la variable dependiente y cuando los
valores de las variables independientes son x01, x02,
..., x0k .
yˆ = b0 + b1 x01 + b2 x02 + L + bk x0 k
Se predice ε = 0
Esta ecuación se llama la ecuación de regresión o de
predicción de mínimos cuadrados
Estimadores MCO utilizando algebra

matricial
βˆ = ( X ' X )−1 X ' Y

donde donde
 y1   1 x11 ... xk 1   β0 
y  1 x ... xk 2  β 
Y =  2 X = 12
βˆ =  1 
 ...  ... ... ... ...   ... 
     
 yn   1 x1n ... xkn   β k 
23
18/06/2010
Ejemplo 4.2
Matriz de diagramas de dispersión
0 20 0 4 00 0 5 000 1 00 00
6 00 0
sa les 4 00 0
2 00 0
4 00
2 00 tim e
0
8 00 00
6 00 00
m k tp ote n
4 00 00
2 00 00
1 00 00
5 00 0 a dv e r
0
15
10
m k ts h a re
5
0
2 00 0 4 000 60 00 2 00 00 40 000 6 000 0 8 00 00 0 5 10 15
Estimadores MCO
Source | SS df MS Number of obs = 25

-------------+------------------------------ F( 5, 19) = 40.91
Model | 37862661 5 7572532.21 Prob > F = 0.0000
Residual | 3516890.29 19 185099.489 R-squared = 0.9150
-------------+------------------------------ Adj R-squared = 0.8926
Total | 41379551.3 24 1724147.97 Root MSE = 430.23
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 3.612101 1.1817 3.06 0.006 1.138775 6.085428
mktpoten | .0420881 .0067312 6.25 0.000 .0279995 .0561767
adver | .1288568 .0370361 3.48 0.003 .0513393 .2063742
mktshare | 256.9556 39.13607 6.57 0.000 175.0428 338.8683
change | 324.5335 157.2831 2.06 0.053 -4.663819 653.7308
_cons | -1113.788 419.8869 -2.65 0.016 -1992.621 -234.9546
------------------------------------------------------------------------------
Error Cuadrático Medio y Error Estándar
Una estimación puntual de σ2 es el error cuadrático

medio:
SCE
σˆ 2 =
n−k
Una estimación puntual de σ es el error estándar:
SCE
σˆ =
n−k
24
18/06/2010
Utilidad del Modelo: R2, R2 Ajustada y la

Prueba F Global
En el caso del modelo de2 regresión lineal múltiple,
1. Variación total = ∑(Yi − Y )
Variación explicada = ∑ (Yˆi − Y ) 2
2
2.
3. (
Variación inexplicada = ∑ Yi −Yˆi)
4. Variación total = Variación explicada + Variación inexplicada
5. El coeficiente de determinación múltiple es
R2 = (variación explicada)/(variación total)
6. El R2 es la proporción de la variación total de los valores
observados de la variable dependiente que es explicada por
las variables independientes incluidas en el modelo de
regresión.
7. Coeficiente de correlación múltiple: R = √R2
R2 Ajustada
 k −1   n −1 
R 2 =  R2 −  
 n −1   n − k 
donde
R2 es el coeficiente de determinación múltiple

n es la cantidad de observaciones y
k es la cantidad de coeficientes estimados en el modelo
Prueba F de significancia global

H0: β0 = β1 = β2 =... = βk = 0
Ha: por lo menos uno de los β0, β1, β2, ..., βk ≠ 0
Estadística F global:
F (mod elo) =
(Variación _ exp licada) /(k −1)
(Variación _ in exp licada ) / [ n − k ]
25
18/06/2010
Se puede rechazar H0 y aceptar Ha en el nivel de

significancia α si se mantiene alguna de las condiciones
siguientes:
Estadística F (modelo) > F[α]
donde el punto F[α] se basa en k-1 grados de libertad
para el numerador y n-k para el denominador.
valor p (de F) < α
Prueba de significancia individual

Defina la estadística de una prueba
bj
t=
ee(σˆ b j )
y asuma que las suposiciones de regresión se

mantienen.
Condición de
Hipótesis punto de
rechazo Valor p
alternativa
Ha : βj ≠ 0 | t |> t[(αn /−2( k] +1)) 2 × (área bajo la curva t a

la derecha de |t|)
Ha : βj > 0 t > t[(αn ]− (k +1)) área bajo la curva t a la

derecha de t
Ha : βj < 0 t < −t[(αn ]− (k +1)) área bajo la curva t a la

izquierda de t
26
18/06/2010
Intervalo de Confianza para β j

parámetro de regresión βj es
 βˆ j ± t (αn −/ 2k )ee( βˆ j ) 
 [ ] 
Intervalos de Confianza para valores

esperados y de predicción
Para calcular el valor de distancia en un modelo
de regresión múltiple, se requiere de álgebra de
matrices.
Valor de distancia.
Valor de distancia = x0' ( X ' X ) −1 x0
donde x0= [1 x01 x02 ... x0 k ]

valor medio de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es
yˆ ± t[(αn −/ 2k])σˆ v.d .
27
18/06/2010

un intervalo de predicción 100(1-α)% para un
valor individual de y cuando los valores de las
variables independientes son x01, x02, ..., x0k es
yˆ ± t[(α / 2]) s 1 + v.d .

n−k
Tópicos
Modelo de regresión cuadrática.
Términos de interacción.
Uso de variables ficticias para modelar variables
independientes cualitativas.
Modelo de regresión cuadrática

El modelo de regresión cuadrática que relaciona y con
x es: y = β 0 + β1x + β 2 x 2 + ε
µy|x µy|x µy|x
x x x
µy|x µy|x µy|x
x x x
28
18/06/2010
Interacción
Se introduce un término de interacción cuando
se cree que una variable (xi) influye en la
relación entre otra variable (xj) independiente y
la variable dependiente, y.
y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε
Uso de variables ficticias para modelar

variables independientes cualitativas
Cuando se quiere incluir una variable cualitativa,
se pueden utilizar variables ficticias (variables
indicadoras, dummies).
Toman el valor de 1 o 0.
Esta variable influye en el intercepto.
Ejemplo
La cadena de tiendas Sonny -que comercializa
equipos de audio y video- desea conocer el
impacto que tiene sobre sus ventas, y, (en
miles de dólares), tanto el número de hogares
alrededor del área de las tiendas, x, (en miles),
así como la ubicación de las tiendas, D, ya sea
que estás se encuentren: i) en el centro de la
ciudad; ii) dentro de un centro comercial o, iii)
fuera de un centro comercial (nótese que D es
una variable cualitativa).
29
18/06/2010
Para comparar el efecto de las tres

ubicaciones sobre las ventas, se plantea el
siguiente modelo:
y = β 0 + β1 x + β 2 DM + β 3 DD + ε
donde se define
1 si la tienda está en un centro comercial.

DM=
0 en cualquier otra parte.
1 si la tienda se ubica en el centro de la ciudad.

DD=
0 en cualquier otra parte.
Se deduce entonces que:

1. Para las tiendas en la calle, el volumen medio
de las ventas esta dado por:
y = β 0 + β1 x + β 2 DM + β 3 DD = β 0 + β1 x + β 2 (0) + β 3 (0)
= β 0 + β1 x
2. En el caso de las tiendas ubicadas en el centro
comercial, el volumen medio de las ventas esta
dado por:
y = β 0 + β1 x + β 2 DM + β 3 DD = β 0 + β1 x + β 2 (1) + β 3 (0)
= ( β0 + β2 ) + β1x
3. Las tiendas ubicadas en el centro de la ciudad,
el volumen medio de las ventas esta dado por:
y = β 0 + β1 x + β 2 DM + β3 DD = β 0 + β1 x + β 2 (0) + β3 (1)
= ( β 0 + β 3 ) + β1 x
Interpretación geométrica del modelo:
30
18/06/2010
yˆ = 14.978 + 0.86859 x + 28.374 DM + 6.864 DD

-------------+------------------------------ F( 3, 11) = 275.07
Model | 33268.6975 3 11089.5658 Prob > F = 0.0000
-------------+------------------------------ Adj R-squared = 0.9833
Total | 33712.1625 14 2408.01161 Root MSE = 6.3494
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .8685884 .0404899 21.45 0.000 .7794707 .9577062
dm | 28.37376 4.461307 6.36 0.000 18.55449 38.19303
dd | 6.863778 4.770477 1.44 0.178 -3.635971 17.36353
_cons | 14.97769 6.188446 2.42 0.034 1.357012 28.59837
------------------------------------------------------------------------------
Prueba F parcial: Prueba de la

significancia de una parte de un modelo
de regresión
Permite probar la significancia de un subconjunto
seleccionado de las variables independientes.
Sea, por ejemplo, el modelo y = β0 + β1x1 + β2 x2 + β3 x3 + ε

Podría ser de interés saber si las variables x2 y x3 son
relevantes en el modelo.
H0: β2=β3=0
Ha: por lo menos una de β2 y β3 ≠0
Se puede pensar en términos de dos modelos rivales:
Modelo
completo y = β 0 + β1 x1 + β 2 x2 + β3 x3 + ε c
Modelo
reducido y = β 0 + β1 x1 + ε R
Se busca establecer si:

H0: β2=β3=0 vs. Ha: por lo menos una de β2 y β3 ≠0
31
18/06/2010
El estadístico de prueba esta dado por
(SCER − SCEC )/ [ k − g]
F=
SCEC / [ n − (k +1)]
donde
k= número de variables independientes del modelo
completo.
g= número de coeficientes del modelo reducido
Rechazar Ho ssi F > F(α), o bien,

Valor p(F) < α
Para comparar el efecto de las tres

ubicaciones sobre las ventas, se plantea el
siguiente modelo:
y = β 0 + β1 x1 + β 2 DM + β 3 DD + ε
esto es
yˆ = 14.978 + 0.86859x + 28.374DM + 6.864DD
Tema 7: Multicolinealidad
32
18/06/2010
Temas
Multicolinealidad.
Comparación de los modelos de regresión.
con base en R2, σ, R2 ajustada, longitud del
intervalo de predicción y estadística Cp.
Regresión por pasos y eliminación hacia
atrás.
Multicolinealidad
Las variables independientes están relacionadas
entre sí o dependen una de otra.
No se trata de un “problema” de presencia o
ausencia sino de grado.
Cuando existe la multicolinealidad entre dos o más
variables independientes, la principal consecuencia
es que se dificulta o impide obtener estimaciones
precisas de los efectos individuales de cada variable
independiente sobre la dependiente.
Infla los valores de los errores estándar de β j
estimados.
Identificación de la multicolinealidad
Son varias la formas que pueden utilizarse para
identificar un alto grado de multicolinealidad.
La más sencilla es utilizando la matriz de
correlación.
- La multicolinealidad es fuerte si por lo menos uno de los
coeficientes de correlación simple entre las variables
independientes es mayor o igual a 0.9.
Otra forma es a través de los factores de

inflación de la varianza ó VIF.
Existe también la “regla práctica”, el índice de
tolerancia (TOL), entre otros.
33
18/06/2010
De nuevo el ejemplo 4.2 (pp. 146 y 222).

El gerente de una compañía desea evaluar el desempeño
de su fuerza de ventas en el territorio de actuación. Para
ello, se agregan al análisis efectuado en el capitulo anterior,
la información sobre tres variables adicionales (a las cinco
ya existentes), que según el criterio del gerente, podrían
ejercer alguna influencia sobre las ventas. La muestra
continua siendo de 25 vendedores, y ahora se plantea el
siguiente modelo de regresión lineal:
yi = β 0 + β1 x´1i + β 2 x´2i + β3 x3i + β 4 x´4i + β5 x´5i
+ β 6 x6i + β 7 x´7i + β8 x´8i + ε i
y= sales.
x1= time.
x2= mktpoten.
x3= adver.
x4 = mktshare.
x5 = change.
x6= cantidad de cuentas que maneja el representante
(accts).
x7= carga de trabajo promedio (wkload).
x6= calificación sobre desempeño (rating).
ε= termino de error aleatorio.
(Ver tabla 5.1)
Matriz de correlación y valores p asociados

(en Stata)
pwcorr ,sig star (.05) (instrucción en Stata)
| sales time mktpoten adver mktshare change accts wkload rating
-------------+-----------------------------------------------------------------------------------
sales | 1.0000
|
time | 0.6229* 1.0000
| 0.0009
|
mktpoten | 0.5978* 0.4540* 1.0000
| 0.0016 0.0226 Observe que raccts,time
|
adver | 0.5962* 0.2492 0.1741 1.0000
presenta un valor
| 0.0017 0.2297 0.4052 moderado
|
mktshare | 0.4835* 0.1062 -0.2107 0.2645 1.0000
| 0.0143 0.6133 0.3121 0.2014
|
change | 0.4892* 0.2515 0.2683 0.3765 0.0855 1.0000
| 0.0131 0.2253 0.1947 0.0636 0.6846
|
accts | 0.7540* 0.7578* 0.4786* 0.2000 0.4030* 0.3274 1.0000
| 0.0000 0.0000 0.0155 0.3377 0.0458 0.1101
|
wkload | -0.1172 -0.1793 -0.2588 -0.2722 0.3493 -0.2877 -0.1988 1.0000
| 0.5768 0.3911 0.2115 0.1880 0.0870 0.1632 0.3406
|
rating | 0.4019* 0.1011 0.3587 0.4115* -0.0236 0.5493* 0.2286 -0.2769 1.0000
| 0.0464 0.6305 0.0783 0.0410 0.9110 0.0045 0.2717 0.1802
34
18/06/2010
Factores de Inflación de la Varianza

Los factores de inflación de la varianza, FIV, (o
VIF) se definen como:
1
VIFj =
1 − R 2j
Rj2 es el coeficiente de determinación múltiple

para el modelo que relaciona xj con el resto de
las variables independientes (regresión auxiliar).
Si Rj2=0 entonces VIFj = 1
La multicolinealidad es grave si:
1. el VIF más grande > 10

2. el VIF medio es sustancialmente > 1
Ejemplo 4.2. VIF y multicolinealidad

regress sales time mktpoten adver mktshare change accts wkload rating

-------------+------------------------------ F( 8, 16) = 23.65
Model | 38153566.4 8 4769195.8 Prob > F = 0.0000
-------------+------------------------------ Adj R-squared = 0.8831
Total | 41379551.3 24 1724147.97 Root MSE = 449.03
------------------------------------------------------------------------------
sales | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | 2.009566 1.930654 1.04 0.313 -2.083238 6.10237
mktpoten | .0372049 .0082023 4.54 0.000 .0198168 .054593
adver | .1509889 .0471085 3.21 0.006 .0511233 .2508545
mktshare | 199.0236 67.02793 2.97 0.009 56.9307 341.1164
change | 290.8551 186.782 1.56 0.139 -105.105 686.8153
accts | 5.550961 4.77555 1.16 0.262 -4.572753 15.67467
wkload | 19.79389 33.6767 0.59 0.565 -51.59751 91.1853
rating | 8.189297 128.5056 0.06 0.950 -264.2304 280.609
_cons | -1507.814 778.635 -1.94 0.071 -3158.446 142.8186
------------------------------------------------------------------------------
35
18/06/2010
Ejemplo 4.2. (continua)

vif (instrucción en Stata)
Variable | VIF 1/VIF - Note que el valor mas alto de

-------------+---------------------- es el correspondiente a
accts | 5.64 0.177326 VIFaccts=5.64, lo que indica que
time | 3.34 0.299167 no existe un alto grado de
mktshare | 3.24 0.309047 multicolinealidad en el modelo.
mktpoten | 1.98 0.505657
adver | 1.91 0.523502
wkload | 1.82 0.549950
rating | 1.81 0.552927
change | 1.60 0.624325 - Por otra parte, el promedio de
-------------+---------------------- los VIF es 2.67.
Mean VIF | 2.67
Regla práctica para detectar

multicolinealidad
Cuando no se tiene acceso a la matriz de
correlación o a los VIF, se puede considerar la
siguiente regla práctica para identificar un alto
grado de multicolinealidad:
“Observar una R2 ajustada alta y pocos (o

ningún) coeficiente de regresión estimados
significativos”
Índice de tolerancia (TOL)

Se define como TOL j = 1 − R 2j
(para j = 1, 2, ... K variables)
1
o bien TOL =
VIF
Si TOL cercano a cero existe alta
multicolinealidad.
36
18/06/2010
Soluciones posibles para la alta

multicolinealidad
Algunos autores (Blanchard, 1998) consideran
que si el objetivo final es el pronóstico no se
debe hacer nada.
La solución más común, aunque no siempre la

mejor, eliminar una de las variables que se
considere provoca el problema.
Transformación de variables.
Ejemplo: Datos de la NBA

Se busca establecer la influencia que diferentes
acciones de los jugadores de la NBA ejercen sobre el
número de puntos que anotan en promedio por
partido (pts). Para ello se selecciona al azar a un
equipo de la NBA (Chicago Bulls) y se plantea el
siguiente modelo de regresión (temporada 2007-08):
PTS= β0 + β1GPi + β2MINi + β3ASTi + β4STLi + β5BLKi + β6TOi + β7PFi + ε i

donde
PTS= puntos anotados STL = robos de balón

GP = partidos jugados BLK = bloqueos
MIN= minutos jugados TO= balones perdidos
AST= asistencias PF= faltas personales
Matriz de correlación
pwcorr ,sig star (.05)
| gp min pts ast stl blk to pf

-------------+-----------------------------------------------------------------------
gp | 1.0000
|
min | 0.6025* 1.0000
| 0.0063
|
pts | 0.5221* 0.8482* 1.0000
| 0.0218 0.0000
|
ast | 0.5359* 0.7216* 0.5477* 1.0000
| 0.0180 0.0005 0.0152
|
stl | 0.4585* 0.7932* 0.4545 0.6992* 1.0000
| 0.0483 0.0001 0.0506 0.0009
|
blk | 0.2629 0.4600* 0.1933 -0.0367 0.4141 1.0000
| 0.2768 0.0475 0.4278 0.8813 0.0780
|
to | 0.5880* 0.8688* 0.9090* 0.7370* 0.5931* 0.1641 1.0000
| 0.0081 0.0000 0.0000 0.0003 0.0074 0.5020
|
pf | 0.6924* 0.7854* 0.7652* 0.5199* 0.5034* 0.4854* 0.7839* 1.0000
| 0.0010 0.0001 0.0001 0.0225 0.0280 0.0351 0.0001
37
18/06/2010
Regresión
regress pts gp min ast stl blk to pf

-------------+------------------------------ F( 7, 11) = 28.58
Model | 500.61849 7 71.5169272 Prob > F = 0.0000
-------------+------------------------------ Adj R-squared = 0.9147
Total | 528.147371 18 29.3415206 Root MSE = 1.582
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0047026 .0188224 -0.25 0.807 -.0461304 .0367252
min | .5114093 .1219865 4.19 0.002 .2429189 .7798997
ast | -1.328452 .5149655 -2.58 0.026 -2.461884 -.195021
stl | -3.415964 1.785418 -1.91 0.082 -7.345643 .5137151
blk | -3.566664 1.525258 -2.34 0.039 -6.923734 -.2095937
to | 4.267745 1.98899 2.15 0.055 -.1099917 8.645483
pf | .7377111 .9262618 0.80 0.443 -1.300978 2.7764
_cons | -2.401254 .9950284 -2.41 0.034 -4.591296 -.2112107
------------------------------------------------------------------------------
VIF
vif
Variable | VIF 1/VIF

-------------+----------------------
min | 12.29 0.081342
to | 8.54 0.117126
pf | 5.24 0.190847
ast | 4.45 0.224654
stl | 4.20 0.238195
blk | 3.46 0.289220
gp | 2.12 0.472134
-------------+----------------------
Mean VIF | 5.76
Eliminando la variable min se tiene

regress pts gp ast stl blk to pf

-------------+------------------------------ F( 6, 12) = 12.77
Model | 456.632952 6 76.1054921 Prob > F = 0.0001
-------------+------------------------------ Adj R-squared = 0.7969
Total | 528.147371 18 29.3415206 Root MSE = 2.4412
------------------------------------------------------------------------------
pts | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
gp | -.0038181 .029044 -0.13 0.898 -.0670995 .0594632
ast | -.8901853 .7781226 -1.14 0.275 -2.585569 .8051982
stl | -.1718016 2.482941 -0.07 0.946 -5.581665 5.238061
blk | -.5166832 2.068707 -0.25 0.807 -5.024009 3.990642
to | 9.904448 2.261829 4.38 0.001 4.976347 14.83255
pf | .8968988 1.42816 0.63 0.542 -2.214794 4.008592
_cons | -3.404519 1.490409 -2.28 0.041 -6.651841 -.1571964
------------------------------------------------------------------------------
38
18/06/2010
vif
Variable | VIF 1/VIF

-------------+----------------------
pf | 5.23 0.191168
to | 4.64 0.215682
ast | 4.27 0.234310
stl | 3.41 0.293290
blk | 2.67 0.374398
gp | 2.12 0.472194
-------------+----------------------
Mean VIF | 3.72
Construcción de modelos
¿Qué hay que hacer para encontrar un modelo
adecuado?
Son diversos los criterios que la literatura
señala para elegir entre modelos “rivales”.
Dos (o más) modelos son “rivales” si estos
presentan la misma variable dependiente
aunque las variables independientes no sean
las mismas.
Ejemplo:
sales=β 0 +β1time+β8 rating+ε1
sales=β 0 +β1time+β 2 mktpoten+β 4 wkload+ε 2
Criterios para la construcción de

modelos
Existen diversos criterios que se emplean para elegir
entre modelos rivales con propósitos de pronóstico.
Comparación de los modelos de regresión con base en

R2, σ, R2 ajustada, longitud del intervalo de predicción y
estadística Cp entre otros.
Todos estos criterios pretenden minimizar la SCE (o

incrementar R2), y salvo el primero de ellos, los demás
imponen una penalización al incluir más variables
independientes.
39
18/06/2010
Primer criterio
R2 = (variación explicada)/(variación total)
R2 ↑ al ↑ el número de variables
Segundo criterio
SCE
σˆ =
n−k
al ↑ el número de variables, se pierden grados de libertad

si al introducir otra variable independiente al modelo, el σ ↑,
no debemos sumar la variable independiente al modelo.
Tercer criterio
 k + 1  n − 1 
R 2 =  R2 −  
 n − 1  n − k 
al ↑ el número de variables, se pierden grados de libertad

si al introducir otra variable independiente al modelo, el R2
ajustada ↓, no debemos sumar la variable independiente al
modelo.
40
18/06/2010
Cuarto criterio
Estadística C (o Cp) de Mallow
Considérese un modelo con k coeficientes de regresión

(incluyendo la constante, i. e. β0).
Sea σˆ el verdadero estimador s2.

2
Suponga que solo se ha elegido p variables

independientes (incluyendo β0), donde p≤k, y se obtiene
SCE utilizando a las p variables independientes.
Cuarto criterio
Estadística C (o Cp) de Mallow
SSE
C = −[ n − 2k]
σˆ 2p
Queremos que C sea pequeña.

Queremos que C sea casi igual a k + 1.
Si C > k , el modelo tiene un sesgo notable.
Si C < k , el modelo no tiene sesgo y es deseable.
Ejemplo 5.1 (p. 228).

A continuación se presentan los resultados en
STATA para el calculo de R-squared, el
estadístico C de Mallows, SEE( σ̂ ) y MSE( σˆ 2 )
para todos los posibles modelos de regresión del
ejemplo 4.2 ampliado propuesto en este capítulo.
Para ello se deben seguir los pasos siguientes:
41
18/06/2010
Paso 1.
Una vez cargado el archivo t5-1 sales territory
complete.dta, escribir en la ventana de comandos
findit rsquare, entrar dentro de la sección
“Web resources from Stata and other users” a
rsquare from
http://www.ats.ucla.edu/stat/stata/ado/analysis
y descargar los archivos rsquare.ado y

rsquare.hlp
Paso 2.
Estimar el modelo: sales vs. time mktpoten
adver mktshare change accts wkload
rating.
Paso 3.
Después de la estimación, se escribe en la
ventana de comandos:
rsquare sales time mktpoten adver
mktshare change accts wkload rating
y se obtiene:
Regression models for dependent variable : sales
R-squared Mallows' C SEE MSE models with 1 variable

0.3880 104.60 2.532e+07 1.101e+06 time
0.3574 110.89 2.659e+07 1.156e+06 mktpoten
0.3554 111.29 2.667e+07 1.160e+06 adver
0.2338 136.25 3.171e+07 1.379e+06 mktshare
0.2393 135.12 3.148e+07 1.369e+06 change
0.5685 67.56 1.786e+07 7.763e+05 accts
0.0137 181.41 4.081e+07 1.774e+06 wkload
0.1615 151.09 3.470e+07 1.509e+06 rating
R-squared Mallow's C SEE MSE models with 2 variables
0.5130 80.94 2.015e+07 9.159e+05 time mktpoten
0.5953 64.05 1.674e+07 7.611e+05 time adver
0.5642 70.44 1.803e+07 8.197e+05 time mktshare
0.5061 82.37 2.044e+07 9.290e+05 time change
0.5747 68.28 1.760e+07 7.999e+05 time accts
0.3881 106.59 2.532e+07 1.151e+06 time wkload
0.5041 82.78 2.052e+07 9.328e+05 time rating
0.6071 61.63 1.626e+07 7.390e+05 mktpoten adver
0.7461 33.12 1.051e+07 4.776e+05 mktpoten mktshare
0.4739 88.98 2.177e+07 9.896e+05 mktpoten change
0.6413 54.61 1.484e+07 6.747e+05 mktpoten accts
0.3589 112.58 2.653e+07 1.206e+06 mktpoten wkload
0.3977 104.61 2.492e+07 1.133e+06 mktpoten rating
0.4696 89.86 2.195e+07 9.976e+05 adver mktshare
0.4371 96.53 2.329e+07 1.059e+06 adver change
0.7751 27.16 9.306e+06 4.230e+05 adver accts
0.3576 112.84 2.658e+07 1.208e+06 adver wkload
0.3849 107.23 2.545e+07 1.157e+06 adver rating
0.4358 96.78 2.334e+07 1.061e+06 mktshare change
0.6070 61.65 1.626e+07 7.391e+05 mktshare accts
0.3270 119.11 2.785e+07 1.266e+06 mktshare wkload
42
18/06/2010

0.6991 44.74 1.245e+07 5.928e+05 time mktpoten adver
0.8121 21.56 7.774e+06 3.702e+05 time mktpoten mktshare
0.5942 66.27 1.679e+07 7.995e+05 time mktpoten change
0.6426 56.34 1.479e+07 7.042e+05 time mktpoten accts
0.5176 82.01 1.996e+07 9.506e+05 time mktpoten wkload
0.5663 72.02 1.795e+07 8.547e+05 time mktpoten rating
0.6959 45.42 1.259e+07 5.993e+05 time adver mktshare
0.6365 57.61 1.504e+07 7.163e+05 time adver change
0.7752 29.14 9.302e+06 4.430e+05 time adver accts
0.6066 63.73 1.628e+07 7.751e+05 time adver wkload
0.6251 59.94 1.551e+07 7.387e+05 time adver rating
0.6657 51.62 1.383e+07 6.588e+05 time mktshare change
0.6305 58.83 1.529e+07 7.281e+05 time mktshare accts
0.5954 66.03 1.674e+07 7.972e+05 time mktshare wkload
0.6905 46.52 1.281e+07 6.098e+05 time mktshare rating
0.6403 56.83 1.488e+07 7.088e+05 time change accts
0.5132 82.90 2.014e+07 9.591e+05 time change wkload
0.5396 77.48 1.905e+07 9.071e+05 time change rating
0.5761 70.00 1.754e+07 8.353e+05 time accts wkload
0.6354 57.83 1.509e+07 7.184e+05 time accts rating
0.5117 83.21 2.020e+07 9.621e+05 time wkload rating
0.8490 13.99 6.249e+06 2.976e+05 mktpoten adver mktshare
0.6390 57.08 1.494e+07 7.112e+05 mktpoten adver change
0.8277 18.36 7.129e+06 3.395e+05 mktpoten adver accts
0.6336 58.19 1.516e+07 7.219e+05 mktpoten adver wkload
0.6073 63.60 1.625e+07 7.739e+05 mktpoten adver rating
0.8086 22.27 7.918e+06 3.771e+05 mktpoten mktshare change

0.7885 26.40 8.750e+06 4.167e+05 mktpoten mktshare accts
0.7730 29.59 9.395e+06 4.474e+05 mktpoten mktshare wkload
0.7735 29.49 9.374e+06 4.464e+05 mktpoten mktshare rating
0.6907 46.48 1.280e+07 6.095e+05 mktpoten change accts
0.4888 87.91 2.115e+07 1.007e+06 mktpoten change wkload
0.4750 90.75 2.172e+07 1.035e+06 mktpoten change rating
0.6488 55.09 1.453e+07 6.921e+05 mktpoten accts wkload
0.6683 51.08 1.373e+07 6.537e+05 mktpoten accts rating
0.4044 105.25 2.465e+07 1.174e+06 mktpoten wkload rating
0.5543 74.47 1.844e+07 8.782e+05 adver mktshare change
0.7862 26.88 8.847e+06 4.213e+05 adver mktshare accts
0.4839 88.92 2.136e+07 1.017e+06 adver mktshare wkload
0.5203 81.44 1.985e+07 9.452e+05 adver mktshare rating
0.7872 26.67 8.804e+06 4.192e+05 adver change accts
0.4489 96.11 2.281e+07 1.086e+06 adver change wkload
0.4390 98.14 2.322e+07 1.106e+06 adver change rating
0.7969 24.67 8.402e+06 4.001e+05 adver accts wkload
0.7795 28.25 9.123e+06 4.344e+05 adver accts rating
0.3914 107.90 2.518e+07 1.199e+06 adver wkload rating
0.6785 48.98 1.330e+07 6.335e+05 mktshare change accts
0.4621 93.39 2.226e+07 1.060e+06 mktshare change wkload
0.4749 90.77 2.173e+07 1.035e+06 mktshare change rating
0.6118 62.67 1.606e+07 7.649e+05 mktshare accts wkload
0.6764 49.40 1.339e+07 6.376e+05 mktshare accts rating
0.4427 97.38 2.306e+07 1.098e+06 mktshare wkload rating
0.6438 56.09 1.474e+07 7.018e+05 change accts wkload
0.6488 55.07 1.453e+07 6.919e+05 change accts rating
0.2671 133.42 3.033e+07 1.444e+06 change wkload rating
0.6328 58.36 1.520e+07 7.236e+05 accts wkload rating

0.8960 6.35 4.305e+06 2.152e+05 time mktpoten adver mktshare
0.7222 42.02 1.150e+07 5.748e+05 time mktpoten adver change
0.8283 20.23 7.104e+06 3.552e+05 time mktpoten adver accts
0.7284 40.74 1.124e+07 5.619e+05 time mktpoten adver wkload
0.7030 45.95 1.229e+07 6.144e+05 time mktpoten adver rating
0.8609 13.56 5.758e+06 2.879e+05 time mktpoten mktshare change
0.8134 23.30 7.722e+06 3.861e+05 time mktpoten mktshare accts
0.8279 20.33 7.123e+06 3.561e+05 time mktpoten mktshare wkload
0.8480 16.19 6.289e+06 3.144e+05 time mktpoten mktshare rating
0.6923 48.15 1.273e+07 6.367e+05 time mktpoten change accts
0.6126 64.51 1.603e+07 8.015e+05 time mktpoten change wkload
0.6034 66.38 1.641e+07 8.205e+05 time mktpoten change rating
0.6502 56.79 1.448e+07 7.238e+05 time mktpoten accts wkload
0.6725 52.21 1.355e+07 6.775e+05 time mktpoten accts rating
0.5803 71.13 1.737e+07 8.683e+05 time mktpoten wkload rating
0.7401 38.33 1.075e+07 5.377e+05 time adver mktshare change
0.7890 28.29 8.729e+06 4.365e+05 time adver mktshare accts
0.6979 46.99 1.250e+07 6.249e+05 time adver mktshare wkload
0.7455 37.23 1.053e+07 5.265e+05 time adver mktshare rating
0.7875 28.62 8.795e+06 4.397e+05 time adver change accts
0.6583 55.13 1.414e+07 7.070e+05 time adver change wkload
0.6440 58.06 1.473e+07 7.366e+05 time adver change rating
0.7971 26.65 8.397e+06 4.199e+05 time adver accts wkload
0.7800 30.14 9.102e+06 4.551e+05 time adver accts rating
0.6451 57.83 1.468e+07 7.342e+05 time adver wkload rating
0.7031 45.93 1.229e+07 6.143e+05 time mktshare change accts
0.6729 52.14 1.354e+07 6.768e+05 time mktshare change wkload
0.7124 44.02 1.190e+07 5.949e+05 time mktshare change rating
0.6388 59.12 1.494e+07 7.472e+05 time mktshare accts wkload
0.7166 43.17 1.173e+07 5.864e+05 time mktshare accts rating
0.6974 47.09 1.252e+07 6.260e+05 time mktshare wkload rating
0.6506 56.71 1.446e+07 7.230e+05 time change accts wkload
0.6578 55.22 1.416e+07 7.079e+05 time change accts rating
0.5527 76.79 1.851e+07 9.254e+05 time change wkload rating
0.6457 57.71 1.466e+07 7.330e+05 time accts wkload rating
0.8732 11.02 5.246e+06 2.623e+05 mktpoten adver mktshare change
0.9004 5.43 4.119e+06 2.060e+05 mktpoten adver mktshare accts
0.8513 15.53 6.155e+06 3.077e+05 mktpoten adver mktshare wkload
0.8512 15.55 6.159e+06 3.080e+05 mktpoten adver mktshare rating
0.8350 18.86 6.828e+06 3.414e+05 mktpoten adver change accts
0.6772 51.25 1.336e+07 6.678e+05 mktpoten adver change wkload
43
18/06/2010

0.6442 58.03 1.472e+07 7.362e+05 mktpoten adver change rating
0.8641 12.90 5.625e+06 2.812e+05 mktpoten adver accts wkload
0.8277 20.36 7.128e+06 3.564e+05 mktpoten adver accts rating
0.6347 59.97 1.511e+07 7.557e+05 mktpoten adver wkload rating
0.8352 18.82 6.819e+06 3.409e+05 mktpoten mktshare change accts
0.8174 22.49 7.558e+06 3.779e+05 mktpoten mktshare change wkload
0.8108 23.83 7.830e+06 3.915e+05 mktpoten mktshare change rating
0.7981 26.45 8.356e+06 4.178e+05 mktpoten mktshare accts wkload
0.8130 23.37 7.736e+06 3.868e+05 mktpoten mktshare accts rating
0.7901 28.08 8.687e+06 4.343e+05 mktpoten mktshare wkload rating
0.7099 44.53 1.200e+07 6.002e+05 mktpoten change accts wkload
0.6944 47.73 1.265e+07 6.324e+05 mktpoten change accts rating
0.4910 89.47 2.106e+07 1.053e+06 mktpoten change wkload rating
0.6830 50.06 1.312e+07 6.558e+05 mktpoten accts wkload rating
0.8019 25.66 8.198e+06 4.099e+05 adver mktshare change accts
0.5574 75.83 1.831e+07 9.157e+05 adver mktshare change wkload
0.5644 74.41 1.803e+07 9.013e+05 adver mktshare change rating
0.7977 26.51 8.370e+06 4.185e+05 adver mktshare accts wkload
0.7949 27.09 8.486e+06 4.243e+05 adver mktshare accts rating
0.5284 81.79 1.951e+07 9.757e+05 adver mktshare wkload rating
0.8160 22.77 7.615e+06 3.807e+05 adver change accts wkload
0.7876 28.59 8.788e+06 4.394e+05 adver change accts rating
0.4519 97.49 2.268e+07 1.134e+06 adver change wkload rating
0.8055 24.91 8.048e+06 4.024e+05 adver accts wkload rating
0.6785 50.97 1.330e+07 6.651e+05 mktshare change accts wkload
0.7001 46.55 1.241e+07 6.205e+05 mktshare change accts rating
0.4940 88.84 2.094e+07 1.047e+06 mktshare change wkload rating
0.6767 51.36 1.338e+07 6.690e+05 mktshare accts wkload rating
0.6624 54.29 1.397e+07 6.985e+05 change accts wkload rating

0.9150 4.44 3.517e+06 1.851e+05 time mktpoten adver mktshare change
0.9064 6.22 3.875e+06 2.039e+05 time mktpoten adver mktshare accts
0.8965 8.24 4.284e+06 2.254e+05 time mktpoten adver mktshare wkload
0.9025 7.01 4.035e+06 2.124e+05 time mktpoten adver mktshare rating
0.8353 20.79 6.813e+06 3.586e+05 time mktpoten adver change accts
0.7617 35.91 9.861e+06 5.190e+05 time mktpoten adver change wkload
0.7222 44.01 1.149e+07 6.050e+05 time mktpoten adver change rating
0.8648 14.74 5.593e+06 2.944e+05 time mktpoten adver accts wkload
0.8283 22.23 7.104e+06 3.739e+05 time mktpoten adver accts rating
0.7358 41.23 1.093e+07 5.755e+05 time mktpoten adver wkload rating
0.8609 15.55 5.757e+06 3.030e+05 time mktpoten mktshare change accts
0.8651 14.69 5.583e+06 2.939e+05 time mktpoten mktshare change wkload
0.8686 13.98 5.439e+06 2.863e+05 time mktpoten mktshare change rating
0.8280 22.31 7.119e+06 3.747e+05 time mktpoten mktshare accts wkload
0.8481 18.18 6.287e+06 3.309e+05 time mktpoten mktshare accts rating
0.8545 16.87 6.022e+06 3.169e+05 time mktpoten mktshare wkload rating
0.7117 46.16 1.193e+07 6.278e+05 time mktpoten change accts wkload
0.6971 49.16 1.253e+07 6.597e+05 time mktpoten change accts rating
0.6251 63.95 1.551e+07 8.165e+05 time mktpoten change wkload rating
0.6881 51.01 1.291e+07 6.792e+05 time mktpoten accts wkload rating
0.8064 26.73 8.010e+06 4.216e+05 time adver mktshare change accts
0.7401 40.33 1.075e+07 5.660e+05 time adver mktshare change wkload
0.7596 36.34 9.949e+06 5.236e+05 time adver mktshare change rating
0.7984 28.37 8.342e+06 4.391e+05 time adver mktshare accts wkload
0.8023 27.57 8.180e+06 4.305e+05 time adver mktshare accts rating
0.7458 39.18 1.052e+07 5.537e+05 time adver mktshare wkload rating
0.8163 24.70 7.601e+06 4.001e+05 time adver change accts wkload
0.7880 30.51 8.773e+06 4.617e+05 time adver change accts rating
0.6692 54.90 1.369e+07 7.205e+05 time adver change wkload rating
0.8064 26.74 8.012e+06 4.217e+05 time adver accts wkload rating
0.7038 47.79 1.226e+07 6.451e+05 time mktshare change accts wkload
0.7354 41.31 1.095e+07 5.764e+05 time mktshare change accts rating
0.7156 45.36 1.177e+07 6.193e+05 time mktshare change wkload rating
0.7179 44.90 1.167e+07 6.144e+05 time mktshare accts wkload rating
0.6729 54.13 1.353e+07 7.123e+05 time change accts wkload rating
0.9124 4.98 3.624e+06 1.907e+05 mktpoten adver mktshare change accts
0.8735 12.97 5.235e+06 2.756e+05 mktpoten adver mktshare change wkload
0.8737 12.91 5.224e+06 2.750e+05 mktpoten adver mktshare change rating
0.9028 6.94 4.021e+06 2.116e+05 mktpoten adver mktshare accts wkload
0.9013 7.25 4.082e+06 2.149e+05 mktpoten adver mktshare accts rating

0.8530 17.17 6.082e+06 3.201e+05 mktpoten adver mktshare wkload rating
0.8777 12.09 5.060e+06 2.663e+05 mktpoten adver change accts wkload
0.8364 20.57 6.768e+06 3.562e+05 mktpoten adver change accts rating
0.6808 52.52 1.321e+07 6.952e+05 mktpoten adver change wkload rating
0.8648 14.75 5.595e+06 2.945e+05 mktpoten adver accts wkload rating
0.8371 20.43 6.739e+06 3.547e+05 mktpoten mktshare change accts wkload
0.8383 20.19 6.691e+06 3.522e+05 mktpoten mktshare change accts rating
0.8187 24.20 7.501e+06 3.948e+05 mktpoten mktshare change wkload rating
0.8170 24.56 7.573e+06 3.986e+05 mktpoten mktshare accts wkload rating
0.7156 45.36 1.177e+07 6.193e+05 mktpoten change accts wkload rating
0.8171 24.53 7.567e+06 3.983e+05 adver mktshare change accts wkload
0.8038 27.26 8.118e+06 4.273e+05 adver mktshare change accts rating
0.5671 75.85 1.791e+07 9.429e+05 adver mktshare change wkload rating
0.8074 26.52 7.968e+06 4.194e+05 adver mktshare accts wkload rating
0.8174 24.48 7.558e+06 3.978e+05 adver change accts wkload rating
0.7002 48.52 1.240e+07 6.529e+05 mktshare change accts wkload rating

0.9220 48.52 1.240e+07 6.529e+05 time mktpoten adver mktshare change accts wkload rating
44
18/06/2010
Métodos computacionales
Regresión por pasos
Se especifican αentry y αstay
Paso 1:
1. se corre una regresión para cada variable independiente.
2. Se denomina a la variable con el mayor valor de la estadística t,
x[1]
3. Si la estadística t no indica que x[1] sea significante en el nivel
αentry, el procedimiento termina. Si es significante, se conserva
para usarla en el paso 2.
Construcción de modelos y los

efectos de la multicolinealidad
Paso 2:
— se corre una regresión agregando cada variable
independiente al modelo
— y = β0 + β1x[1] + β2xj + ε
— Se denomina a la variable (nueva) con el mayor valor de
la estadística t, x[2]
— Si la estadística t no indica que x[2] sea significante en el
nivel αentry , el procedimiento termina. Si es significante,
se comprueba que la estadística t >αstay para x[1].

Pasos posteriores:
1. Se continúan agregando variables independientes, una por una, al
modelo. En cada paso se suma una variable independiente al
modelo si tiene la estadística t más grande de las variables
independientes que no están en el modelo y si su estadística t indica
que es significante en el nivel
2. Después de añadir una variable independiente, el procedimiento
comprueba que todas las variables independientes ya incluidas
tienen t significante en el nivel αstay
45
18/06/2010

Eliminación hacia atrás
1. Se corre una regresión con todas las p variables
independientes.
2. Si la estadística t más pequeña es significante en el
nivel αstay , se conserva el modelo con todas las
variables.
3. Si la estadística t más pequeña no es significante en el
nivel αstay , se elimina esa variable del modelo y se
corre la regresión de nuevo.
4. Se repite estos pasos hasta conseguir que la
estadística t más pequeña sea significante en el nivel
αstay .
Tema 9. Diagnóstico del modelo
Temas
gráficas de residuos y pruebas nùmericas.
suposición de la normalidad.
suposición de varianza constante.
suposición de la forma funcional correcta.
suposición de independencia.
transformación de la variable dependiente.
46
18/06/2010
Análisis residual en la regresión

simple
Recuerde que
e = y − yˆ
Si las suposiciones de la regresión se mantienen, los
residuos deben parecer que han sido seleccionados
en forma aleatoria e independiente de poblaciones
distribuidas normalmente cuya media es 0 y su
varianza es σ2

simple
Gráficas de residuos
Se elaboran gráficas de residuos contra
1. valores de x
2. valores de y
3. el orden en el tiempo en el cual los datos han
sido observados (para series de tiempo)

simple
Suposición de varianza constante
se examinan las gráficas de los residuos
• varianza de error creciente
• varianza de error decreciente
47
18/06/2010

simple
Suposición de la forma funcional correcta
Si usamos un modelo de regresión lineal simple
cuando la relación verdadera es curva, la gráfica
de residuos tendrá una apariencia curva.

simple
Suposición de la normalidad
Se acomodan los errores en orden ascendente
Se grafican contra el valor z correspondiente.
z = punto en el eje horizontal bajo la curva
normal estándar de modo que el área bajo la
curva a la izquierda de z(i) es (3i-1)/(3n+1)
Esta gráfica debe asemejarse a una recta.
kdensity r, normal
48
18/06/2010
Skewness/Kurtosis tests for Normality

------- joint ------
Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
-------------+-------------------------------------------------------
r| 0.905 0.785 0.09 0.9567
n (C −3)2 
JB =  A2 + 
6 4 
19  2 (0.785− 3) 
2
JB =  0.905 + 
6 4 

simple
Suposición de independencia
más probable violar esta suposición en series
de tiempo:
autocorrelación positiva
patrón cíclico en los errores
autocorrelación negativa
Los términos de error deben ocurrir en un patrón
aleatorio en el tiempo.
49
18/06/2010

simple
Transformación de la variable dependiente
posible remedio en casos de transgresión de las
suposiciones de
• varianza constante
• forma funcional correcta
• normalidad

simple
Transformación de la variable dependiente
transformación de la raíz cuadrada
y* = y = y .5
transformación de la raíz cuárta
y* = 4 y = y .25
transformación logarítmica
y* = ln y

múltiple
Se grafican los residuos contra
1. valores de cada variable independiente
2. valores del valor predicho de la variable
dependiente
3. orden en el tiempo en el cual se observaron los
datos
50
18/06/2010
Diagnóstico para detectar

observaciones atípicas e influyentes
Temas
valor de la ventaja
residuos y residuos estudentizados
residuos eliminados y residuos eliminados
estudentizados
medida de la distancia de Cook
Qué hacer con respecto a las observaciones
atípicas y las influyentes

atípica: una observación muy separada del resto
de los datos
influyente: cambia de forma significativa algún
aspecto importante (b o s) del análisis de
regresión si se elimina la observación

Valor de la ventaja
mide la distancia entre los valores x de la observación y
el centro de la región experimental
Si el valor de la ventaja es grande, la observación es
atípica con respecto a sus valores x.
Se considera grande si es mayor que lo doble del
promedio de todos los valores de la ventaja. (2(k+1)/n)
51
18/06/2010

residuos y residuos estudentizados

Cualquier residuo notablemente diferente de los
otros es sospechoso.
residuo estudentizado: e/s
Si el resiguo estudentizado es mayor que 2, hay
alguna evidencia de que la observación es
atípica.

residuos eliminados y residuos eliminados
estudentizados
se calcula la distancia entre yi y y(i)
residuo eliminado estudentizado = (residuo eliminado) / s
Hay fuerte evidencia de que la observación es atípica
con respecto a su valor y si el residuo eliminado
estudentizado es mayor que
t[(.n005
− (k + 2 ))
]
Medida de la Distancia de Cook

D de Cook
Si la D de Cook de la observación i es grande,
entonces las estimaciones puntuales de mínimos
cuadrados cambian mucho con la inclusión de i
Si D < F[.80], i no es influyente
Si D > F[.50], i sí es influyente
52
18/06/2010
Qué hacer con respecto a las observa-

ciones atípicas y las influyentes
Comenzar con las observaciones atípicas en la variable y
1. Comprobar que el valor esté capturado correctamente;
corregirlo si es necesario.
2. Si no se puede corregir o si es correcto, desechar la
observación y correr la regresión de nuevo.
Luego ver los valores x
3. Tratar de detectar razones (causas) para el valor y atípico
(ver si algún valor x también es atípico).
4. Considerar otras variables independientes no incluidas en
el modelo.
53

Analisis de Regresion Modo de Compatibilidad PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analisis de Regresion Modo de Compatibilidad PDF

Enviado por

Direitos autorais:

Formatos disponíveis

18/06/2010

TALLERES DE VERANO EN MÉTODOS DE INVESTIGACIÓN

Fortino Vela Peón Juan F. Islas Aguirre

El curso tiene un carácter aplicado y se aprende

Dotar del manejo básico del Stata para poder

Tema 1. Conceptos básicos

Tema 2. Modelo de regresión lineal

Tema 4. MRLS y MRLM con Stata

Tema 5. Contrastes de restricciones

Tema 6. Errores de especificación

Tema 8. Variables cualitativas

Tema 9. Diagnóstico del modelo

Gujarati, Damodar y Dawn Porter Fox, John (2008). Applied

Bowerman, Bruce L.; Richard T.

Preferentemente se emplearan datos disponibles

Tema 1. Conceptos básicos

Clasificación de las variables

Escalas de medición de las variables

Ordinales: son las que clasifican las observaciones en

Intervalo: medidas numéricas en la cual el valor cero es

Razón: medidas numéricas en las cuales el valor cero es

¿Qué es el análisis de regresión?

Es una herramienta utilizada en distintas áreas del

Sirve también como medio en la contrastación de

Estrategia del análisis de regresión

Fuente: Kutner et. al (2005:14)

Observación Año PRECASA ANTI CUARTOS AREA Panel

Stata es una herramienta computacional diseñada para realizar

El denominativo de Stata es una abreviación de las palabras

Actualmente es utilizado tanto en instituciones académicas como

Sus capacidades incluyen :

- Manejo y organización de datos

• Existen versiones para

Tema 2. El modelo de regresión lineal

Modelo de regresión lineal simple

Modelo de regresión lineal simple

Fuente: Kutner et. al. (2005:19).

Modelo de regresión lineal simple

Fuente: Kutner et. al. (2005:19).

Modelo de regresión lineal simple

Fuente: Fox (2008: 62).

Modelo de regresión lineal simple

µy|x = β0 + β1x es el valor medio de la variable dependiente y

cuando el valor de la variable independiente es x.

ε es un término de error: describe los efectos de todos los

Modelo de regresión lineal simple

= 294.4 horas trabajadas.

Modelo de regresión lineal simple

Estimaciones puntuales de los mínimos

Estimaciones puntuales y predicciones

Estimaciones puntuales y predicciones

Suposiciones del modelo y el error

Suposiciones del modelo y el error

— dado un valor de x, la población de valores potenciales

— La población de valores potenciales de y|x tiene

— Es más probable que la suposición de independencia se

Suposiciones del modelo y el error

cuya estimación puntual es

Ha : β1 ≠ 0 | t |> t[(αn −/ 22]) 2 × (área bajo la curva t a

Intervalos de confianza y de predicción

Si se cumplen las suposiciones de la regresión,

Si se cumplen las suposiciones de la regresión,

yˆ ± t[(αn−/ 22])s v.d .