Escolar Documentos
Profissional Documentos
Cultura Documentos
x11
x21
x12
x22
...
...
x1p
x2p
y1
y2
xn1
xn2
...
xnp
yn
para i= 1, 2, ...,n
La respuesta media y E (Y ) es una funcin lineal de las variables explicatorias:
y 0 1 x1 2 x 2 p x p
Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviacin estndar
2
: i ~ N (0, )
Los parmetros del modelo son: 0 , 1 , , p y , los coeficiente de regresin y la estimacin de la
variabilidad, es decir son en total (p + 2) parmetros.
Si suponemos que la respuesta media est relacionada con los parmetros a travs de la ecuacin:
y 0 1 x1 2 x 2 p x p , esto quiere decir que podemos estimar la media de la variable
respuesta a travs de la estimacin de los parmetros de regresin. Si esta ecuacin se ajusta a la
realidad entonces tenemos una forma de describir cmo la media de la variable respuesta y vara con
las variables explicatorias x1 , x 2 , , x p .
Estimacin de los parmetros de regresin mltiple.
1
En regresin lineal simple usamos el mtodo de mnimos cuadrados para obtener estimadores del
intercepto y de la pendiente. En regresin lineal mltiple el principio es el mismo, pero necesitamos
estimar ms parmetros.
Llamaremos b0 , b1 , , b p a los estimadores de los parmetros 0 , 1 , , p
La respuesta estimada por el modelo para la i-sima observacin es:
y i b0 b1 xi1 b2 xi 2 b p xip
ei y i b0 b1 xi1 b2 xi 2 b p xip
El mtodo mnimos cuadrados elige los valores de los estimadores b0 , b1 , , b p ptimos, es decir,
que hacen la suma de cuadrados de los residuos menor posible. En otras palabras, los parmetros
estimados b0 , b1 , , b p minimizan la diferencia entre la respuesta observada y la respuesta estimada,
2
lo que equivale a minimizar: y i y i .
La frmula de los estimadores de mnimos cuadrados para regresin mltiple se complica porque
necesitamos notacin matricial, sin embargo estamos a salvo si entendemos el concepto y dejaremos a
SPSS hacer los clculos.
El parmetro 2 mide la variabilidad de la respuesta alrededor de la ecuacin de regresin en la
poblacin. Como en regresin lineal simple estimamos 2 como el promedio de los residuos al
cuadrado:
s y2 x 2
2
i
n p 1
y i
n p 1
La cantidad (n-p-1) son los grados de libertad asociados con la estimacin de la variabilidad: s y x
s y2 / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las variables
explicatorias xj.
y yi 2
Lo distinguimos de s y2 i
que es la variabilidad de y sin tomar en cuenta las variables
n 1
explicativas xj.
H0 : j 0
H1 : j 0
se usa el test t:
bj
EE(b j )
~ t (n p 1)
donde
( n p 1) EE (b j )
error estndar de b j
Intervalos de confianza para la respuesta media e intervalos de prediccin individual:
Si queremos obtener intervalos de confianza para la respuesta media o intervalos de confianza para
futuras observaciones en los modelos de regresin mltiple, las ideas bsicas son las mismas que ya
vimos en regresin simple y dejaremos el clculo a SPSS.
de
gl
Grados de
libertad
Modelo
Residuo
n p 1
SC
Suma de Cuadrados
SCMod
( y y )
n
n 1
SC Re s ( y i y i ) 2
i 1
Total
CM
Cuadrados
Medios
SCT y i y
SCMod
p
SC Re s
n p 1
i 1
La tabla ANOVA es similar a la de regresin simple. Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de slo una. Las sumas de
cuadrados representan las fuentes de variacin. Recordemos que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresin ms la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
El estimador de la varianza 2 de nuestro modelo est dado por la media cuadrtica residual
MCRes=SCRes/(n-p-1)
Estadstico F
La razn entre el cuadrado medio del modelo y el residuo F MCMod MC Re s , permite estimar si
la relacin entre las variables explicatorias y la respuesta es significativa. La hiptesis que docima el
test F es:
H 0 : 1 2 p 0
H 1 : al menos un j no es cero
La hiptesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hiptesis alternativa dice que al menos una de las variables explicatorias est linealmente
relacionada con la respuesta. Como en regresin simple, valores grandes de F nos dan evidencia en
contra de hiptesis nula. Cuando H0 es verdadera, el estadstico F tiene distribucin F de Fisher con (p,
n-p-1) grados de libertad. Los grados de libertad estn asociados a los grados de libertad del modelo y
del residuo en la tabla ANOVA.
Recordemos que en regresin lineal simple el test F de la tabla ANOVA es equivalente al test t bilateral
para la hiptesis de que la pendiente es cero. Ahora, el test F de regresin mltiple docima la hiptesis de
que todos los coeficientes de regresin (con excepcin del intercepto) son cero, hiptesis que no es de
mucho inters. En el problema de regresin mltiple interesan ms las hiptesis individuales para cada
parmetro asociado a cada variable explicatoria.
SCReg
y se
SCTotal
poda interpretar como la proporcin de la variabilidad de y que poda ser explicada por x. Un
coeficiente similar se calcula en regresin mltiple:
2
SCMod ( y y )
R2
SCTotal yi y 2
Donde R2 es la proporcin de la variabilidad de la variable respuesta y que es explicada por las
variables explicatorias x1 ,x 2 , ,x p en la regresin lineal mltiple.
A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raz cuadrada de R 2 es el
coeficiente de correlacin mltiple, es la correlacin entre las observaciones y i y los valores
predichos y i .
Coeficiente de determinacin (R2) ajustado
Cuando evaluamos un modelo de regresin lineal mltiple nos interesa decidir si una variable dada
mejora la capacidad para predecir la respuesta comparando el R2 de un modelo que contiene la variable,
con el R2 del modelo sin la variable. El modelo con mejor R 2 debera ser el mejor modelo. Pero
debemos ser cuidadosos cuando comparamos los coeficientes de determinacin de dos modelos
diferentes. La inclusin de una variable adicional en el modelo nunca provoca la reduccin de R 2. Para
manejar este problema, podemos utilizar el R2 ajustado, que ajusta por el nmero de variables que hay
en el modelo. El R2 ajustado es:
Ra2 1
n 1
1 R2
n ( p 1)
Un ejemplo
En educacin existe polmica acerca de las notas de los colegios que se creen estn infladas. Si no
estuvieran infladas esperaramos que las pruebas de ingreso a la Universidad estn altamente
correlacionadas con las notas de enseanza media. Revisemos, con datos de la Prueba de Aptitud
Acadmica (PAA) del ao 2001 en la regin del Maule, si podemos explicar las notas de enseanza
media con la PAA.
Resumen del modelo
Modelo
1
R
.578a
R cuadrado
.334
R cuadrado
corregida
.334
Error tp. de la
estimacin
81.25283
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
16400316
32660205
49060521
gl
3
4947
4950
Media
cuadrtica
5466772.0
6602.023
F
828.045
Sig.
.000a
Coeficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa
B
312.088
.153
Error tp.
5.656
.019
.275
.096
Coeficientes
estandarizad
os
Beta
.176
t
55.179
7.993
Sig.
.000
.000
.015
.349
18.133
.000
.245
.304
.019
.098
5.049
.000
.059
.133
2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos deben
ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar . Para
verificar normalidad grafique el histograma de los residuos, este debera aparecer como normal
sin valores extremos. Adems debemos revisar los residuos individuales para detectar valores
extremos y/o influyentes. Por ltimo debemos detectar si la distribucin de los residuos es al azar
y no hay formas que muestren un problema en el ajuste, o que la varianza no sea constante.
6
Histograma de residuos
1.00
500
.75
400
300
Frecuencia
200
100
Media = 0.00
N = 4951.00
.50
.25
0.00
0.00
.25
.50
.75
1.00
NEM Notas
Ens Media
760
781
373
Residuo tip.
3.005
3.066
-3.035
Valor
pronosticado
515.8015
531.8782
619.6385
Residuo bruto
244.1985
249.1218
-246.6385
Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o
2
1
0
-1
-2
-3
-4
400
500
600
700
800
Usando la salida de SPSS para la regresin mltiple sin la Prueba de Historia y Geografa, analice
como cambia el R2
Resumen del modelob
Modelo
1
R
.575a
R cuadrado
.331
R cuadrado
corregida
.331
Error tp. de la
estimacin
81.439
Colinealidad
7
Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de colinealidad. La
colinealidad ocurre cuando dos o ms variables explicativas se relacionan entre s, hasta el punto de
que comunican esencialmente la misma informacin sobre la variacin observada en y. Un sntoma de
la existencia de colinealidad es la inestabilidad de los coeficientes calculados y sus errores estndares.
En particular los errores estndares a menudo se tornan muy grandes; esto implica que hay un alto
grado de variabilidad de muestreo en los coeficientes calculados.
Deteccin de multicolinealidad en el modelo de regresin
Los siguientes son indicadores de multicolinealidad:
1. Correlaciones significativas entre pares de variables independientes en el modelo.
2. Pruebas t no significativas para los parmetros individuales cuando la prueba F global del modelo
es significativa.
3. Signos opuestos (a lo esperado) en los parmetros estimados.
Ejemplo:
La Comisin Federal de Comercio (Federal Trade Commission) de Estados Unidos clasifica
anualmente las variedades de cigarrillos segn su contenido de alquitrn, nicotina y monxido de
carbono. Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrn y nicotina de un cigarrillo van
acompaados por un incremento en el monxido de carbono emitido en el humo de cigarrillo. La base
de datos CO_multiple.sav (en sitio del curso) contiene los datos sobre contenido de alquitrn (en
miligramos), nicotina (en miligramos) y monxido de carbono (en miligramos) y peso (en gramos) de
una muestra de 25 marcas (con filtro) ensayadas en un ao reciente. Suponga que se desea modelar el
contenido de monxido de carbono, y, en funcin del contenido de alquitrn, x1, el contenido de
nicotina, x2, y el peso, x3, utilizando el modelo:
E ( y ) 0 1 x1 2 x 2 3 x3
R
.958a
R cuadrado
corregida
.907
R cuadrado
.919
Error tp. de la
estimacin
1.4457
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
495.258
43.893
539.150
gl
3
21
24
Media
cuadrtica
165.086
2.090
F
78.984
Sig.
.000a
Coeficientesa
Modelo
1
(Constante)
Alquitrn
Nicotina
Peso
Coeficientes no
estandarizados
B
Error tp.
3.202
3.462
.963
.242
-2.632
3.901
-.130
3.885
Coeficientes
estandarizad
os
Beta
t
.925
3.974
-.675
-.034
1.151
-.197
-.002
Sig.
.365
.001
.507
.974
a. Variable dependiente: CO
Correlacionesa
CO
CO
CO
Alquitrn
Alquitrn
Nicotina
Nicotina
Peso
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
1
.
.957**
.000
.926**
.000
.464*
.019
Alquitrn
Nicotina
.957**
.926**
.000
.000
1
.977**
.
.000
.977**
1
.000
.
.491*
.500*
.013
.011
Peso
.464*
.019
.491*
.013
.500*
.011
1
.
Seleccin de modelos
Como regla general, normalmente es preferible incluir en un modelo de regresin slo las variables
explicativas que ayudan a predecir o explicar la variabilidad observada en la respuesta y, a este modelo
lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas potenciales,
cmo decidir cules se deben retener en el modelo y cules dejar afuera? Por lo general, la decisin se
toma en base a una combinacin de consideraciones estadsticas y no estadsticas. Es fundamental
identificar o conocer cules variables podran ser importantes. Sin embargo, para estudiar cabalmente el
efecto de cada una de estas variables explicativas, sera necesario llevar a cabo anlisis por separado de
cada posible combinacin de variables. Los modelos resultantes podran evaluarse enseguida de
acuerdo con algn criterio estadstico. Este es el mtodo ms completo, pero tambin el que ocupa ms
tiempo. Si tenemos una gran cantidad de variables explicativas el procedimiento podra no ser factible.
Existen otros mtodos paso a paso (stepwise en ingls) que son tiles, pero que hay que usarlos con
cautela porque los resultados pudieran ser dependientes de los datos (la muestra) ms que basados en el
conocimiento del problema que estamos estudiando. Entonces la recomendacin es buscar un equilibrio
entre la tecnologa, el conocimiento que tenemos de las variables y los resultados de la muestra.
Variables indicadoras
Las variables explicativas que hemos considerado hasta este momento se midieron sobre una escala
cuantitativa. Sin embargo, el anlisis de regresin puede generalizarse para incluir asimismo, variables
explicativas cualitativas. Por ejemplo, podramos preguntarnos si las notas en la enseanza media
pueden ser explicadas adems por la dependencia del establecimiento. Para simplificar supongamos
que nos interesa solamente distinguir entre colegios particulares y municipales o subvencionados, esta
9
variable tendra dos categoras. Puesto que las variables explicativas en un anlisis de regresin deben
tomar valores numricos, designamos a los colegios estatales (municipales y subvencionados) con 1 y a
los colegios particulares con 0. Estos nmeros no representan mediciones reales; sencillamente
identifican las categoras de la variable aleatoria nominal. Debido a que estos valores no tienen
significado cuantitativo, una variable explicativa de esta clase se denomina variable indicadora o
variable muda (en ingls dummy variable).
Resumen del modelo
Modelo
1
R
.592a
R cuadrado
corregida
.349
R cuadrado
.350
Error tp. de la
estimacin
80.29730
ANOVAb
Modelo
1
Regresin
Residual
Total
Suma de
cuadrados
17170414
31890108
49060521
gl
4
4946
4950
Media
cuadrtica
4292603.5
6447.656
F
665.762
Sig.
.000a
Coeficientesa
Modelo
1
(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa
Estatales
Coeficientes no
estandarizados
B
Error tp.
257.610
7.489
.160
.019
Coeficientes
estandarizad
os
Beta
.185
t
34.397
8.502
Sig.
.000
.000
.285
.015
.363
19.030
.000
.117
.019
.120
6.219
.000
40.086
3.668
.132
10.929
.000
10
Media
561.6451
471.9234
Desviacin
tp.
99.55509
114.74092
N
4951
4951
477.4286
126.43221
4951
483.8259
101.92995
4951
4951
4951
4951
4951
Prueba Historia y Ge
Nota: En este caso podemos hacer grficos de caja conjuntos porque todas las variables estn medidas
en la misma escala.
2. Verificar los supuestos:
-
linealidad (y vs x)
no colinealidad (correlacin entre las x)
11
Grficos de dispersin
Prueba Historia y Ge
Correlacionesa
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Prueba
Prueba
NEM Notas
Prueba
Aptitud
Historia y
Ens Media
Aptitud Verbal
Matemtica
Geografa
1
.526**
.556**
.485**
.
.000
.000
.000
.526**
1
.783**
.789**
.000
.
.000
.000
.556**
.783**
1
.711**
.000
.000
.
.000
.485**
.789**
.711**
1
.000
.000
.000
.
12
3. Bsqueda del mejor modelo (R2 y test de hiptesis de los coeficientes de regresin).
Modelos
PAV
PAM
PHG
PAV
PAM
PAV
PAM
PHG
Estatal
R2
Coeficiente
Intervalo de confianza
33,4%
0,153
0,275
0,096
(0,115-0,190)
(0,245-0,304)
(0,059-0,133)
0,204
0,293
(0,172-0,236)
(0,265-0,322)
0,160
0,285
0,117
40,086
(0,123-0,197)
(0,256-0,315)
(0,080-0,154)
(32,9-47,3)
33,1%
35,0%
Histograma de residuos
1.00
500
.75
400
200
100
Media = 0.00
N = 4951.00
300
Frecuencia
.50
.25
0.00
0.00
.25
.50
.75
1.00
13
Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o
2
1
0
-1
-2
-3
-4
400
500
600
700
800
14