Você está na página 1de 14

14.

Anlisis de regresin lineal mltiple


En captulos anteriores tratamos el anlisis de regresin simple que trata de relacionar una variable
explicativa cuantitativa con una variable respuesta cuantitativa. Todos los elementos de ese captulo nos
van a servir ahora para continuar con el caso ms general y de mayor utilidad prctica, que es la
regresin lineal mltiple. Por regresin lineal mltiple entenderemos el anlisis de regresin lineal pero
ahora con ms de una variable explicativa.
Datos para regresin mltiple
Los datos para regresin lineal simple consisten en pares de observaciones (xi, yi) de dos variables
cuantitativas. Ahora tendremos mltiples variables explicativas, por lo que la notacin ser ms
elaborada. Llamaremos xij el valor de la j-sima variable del i-simo sujeto o unidad (i=1,2,...,n ;
j=1,2,...,p). Los datos se pueden organizar de la siguiente forma en una base:
1
2
:
n

x11
x21

x12
x22

...
...

x1p
x2p

y1
y2

xn1

xn2

...

xnp

yn

Donde n es el nmero de casos o tamao muestral y p es el nmero de variables explicatorias. Esta es


una forma de organizar la base de datos, no importa el orden de las variables.
Modelo de regresin lineal mltiple:
El modelo estadstico de regresin lineal mltiple es:
y i 0 1 xi1 2 xi 2 p xip i

para i= 1, 2, ...,n
La respuesta media y E (Y ) es una funcin lineal de las variables explicatorias:
y 0 1 x1 2 x 2 p x p

Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviacin estndar
2
: i ~ N (0, )
Los parmetros del modelo son: 0 , 1 , , p y , los coeficiente de regresin y la estimacin de la
variabilidad, es decir son en total (p + 2) parmetros.
Si suponemos que la respuesta media est relacionada con los parmetros a travs de la ecuacin:
y 0 1 x1 2 x 2 p x p , esto quiere decir que podemos estimar la media de la variable
respuesta a travs de la estimacin de los parmetros de regresin. Si esta ecuacin se ajusta a la
realidad entonces tenemos una forma de describir cmo la media de la variable respuesta y vara con
las variables explicatorias x1 , x 2 , , x p .
Estimacin de los parmetros de regresin mltiple.
1

En regresin lineal simple usamos el mtodo de mnimos cuadrados para obtener estimadores del
intercepto y de la pendiente. En regresin lineal mltiple el principio es el mismo, pero necesitamos
estimar ms parmetros.
Llamaremos b0 , b1 , , b p a los estimadores de los parmetros 0 , 1 , , p
La respuesta estimada por el modelo para la i-sima observacin es:
y i b0 b1 xi1 b2 xi 2 b p xip

El i-simo residuo es la diferencia entre la respuesta observada y la predicha:


residuo = y observado y estimado
El i-simo residuo = ei yi y i

ei y i b0 b1 xi1 b2 xi 2 b p xip

El mtodo mnimos cuadrados elige los valores de los estimadores b0 , b1 , , b p ptimos, es decir,
que hacen la suma de cuadrados de los residuos menor posible. En otras palabras, los parmetros
estimados b0 , b1 , , b p minimizan la diferencia entre la respuesta observada y la respuesta estimada,
2
lo que equivale a minimizar: y i y i .
La frmula de los estimadores de mnimos cuadrados para regresin mltiple se complica porque
necesitamos notacin matricial, sin embargo estamos a salvo si entendemos el concepto y dejaremos a
SPSS hacer los clculos.
El parmetro 2 mide la variabilidad de la respuesta alrededor de la ecuacin de regresin en la
poblacin. Como en regresin lineal simple estimamos 2 como el promedio de los residuos al
cuadrado:
s y2 x 2

2
i

n p 1

y i
n p 1

La cantidad (n-p-1) son los grados de libertad asociados con la estimacin de la variabilidad: s y x
s y2 / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las variables
explicatorias xj.
y yi 2
Lo distinguimos de s y2 i
que es la variabilidad de y sin tomar en cuenta las variables
n 1
explicativas xj.

Pruebas de significancia e Intervalos de confianza para los coeficientes de regresin


Podemos obtener intervalos de confianza y test de hiptesis para cada uno de los coeficientes de
regresin j como lo hicimos en regresin simple. Los errores estndar de los estadsticos muestrales
b0 , b1 , , b p tienen frmulas ms complicadas, as es que nuevamente dejaremos que SPSS haga su
trabajo.
Test de hiptesis para j :
Para docimar la hiptesis

H0 : j 0
H1 : j 0

se usa el test t:

bj
EE(b j )

~ t (n p 1)

Donde EE (b j ) es el error estndar de b j


Notas:
- Vamos a dejar a SPSS el clculo del error estndar de b j
- Tendremos entonces un test de hiptesis asociado a cada variable explicatoria en el modelo.
- Podemos realizar hiptesis de una cola, donde H1: j 0 o H1: j 0 , pero lo usual es hacer el
test bilateral.
Intervalo de confianza para j :
Un intervalo de confianza ( 1 )*100% para j est dado por:
bj t

donde

( n p 1) EE (b j )

es el percentil apropiado de la distribucin t con (n-p-1) grados de libertad, EE (b j ) es el

error estndar de b j
Intervalos de confianza para la respuesta media e intervalos de prediccin individual:
Si queremos obtener intervalos de confianza para la respuesta media o intervalos de confianza para
futuras observaciones en los modelos de regresin mltiple, las ideas bsicas son las mismas que ya
vimos en regresin simple y dejaremos el clculo a SPSS.

Tabla de ANOVA para regresin mltiple


La tabla de anlisis de varianza para la regresin mltiple es la siguiente:
Fuente
variacin

de

gl
Grados de
libertad

Modelo

Residuo

n p 1

SC
Suma de Cuadrados

SCMod

( y y )
n

n 1

SC Re s ( y i y i ) 2
i 1

Total

CM
Cuadrados
Medios

SCT y i y

SCMod
p
SC Re s
n p 1

i 1

La tabla ANOVA es similar a la de regresin simple. Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de slo una. Las sumas de
cuadrados representan las fuentes de variacin. Recordemos que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresin ms la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
El estimador de la varianza 2 de nuestro modelo est dado por la media cuadrtica residual
MCRes=SCRes/(n-p-1)
Estadstico F
La razn entre el cuadrado medio del modelo y el residuo F MCMod MC Re s , permite estimar si
la relacin entre las variables explicatorias y la respuesta es significativa. La hiptesis que docima el
test F es:
H 0 : 1 2 p 0
H 1 : al menos un j no es cero

La hiptesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hiptesis alternativa dice que al menos una de las variables explicatorias est linealmente
relacionada con la respuesta. Como en regresin simple, valores grandes de F nos dan evidencia en
contra de hiptesis nula. Cuando H0 es verdadera, el estadstico F tiene distribucin F de Fisher con (p,
n-p-1) grados de libertad. Los grados de libertad estn asociados a los grados de libertad del modelo y
del residuo en la tabla ANOVA.
Recordemos que en regresin lineal simple el test F de la tabla ANOVA es equivalente al test t bilateral
para la hiptesis de que la pendiente es cero. Ahora, el test F de regresin mltiple docima la hiptesis de
que todos los coeficientes de regresin (con excepcin del intercepto) son cero, hiptesis que no es de
mucho inters. En el problema de regresin mltiple interesan ms las hiptesis individuales para cada
parmetro asociado a cada variable explicatoria.

Coeficiente de determinacin (R2)


2
En regresin lineal simple vimos que el cuadrado del coeficiente de correlacin era r

SCReg
y se
SCTotal

poda interpretar como la proporcin de la variabilidad de y que poda ser explicada por x. Un
coeficiente similar se calcula en regresin mltiple:
2
SCMod ( y y )
R2

SCTotal yi y 2
Donde R2 es la proporcin de la variabilidad de la variable respuesta y que es explicada por las
variables explicatorias x1 ,x 2 , ,x p en la regresin lineal mltiple.
A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raz cuadrada de R 2 es el
coeficiente de correlacin mltiple, es la correlacin entre las observaciones y i y los valores
predichos y i .
Coeficiente de determinacin (R2) ajustado
Cuando evaluamos un modelo de regresin lineal mltiple nos interesa decidir si una variable dada
mejora la capacidad para predecir la respuesta comparando el R2 de un modelo que contiene la variable,
con el R2 del modelo sin la variable. El modelo con mejor R 2 debera ser el mejor modelo. Pero
debemos ser cuidadosos cuando comparamos los coeficientes de determinacin de dos modelos
diferentes. La inclusin de una variable adicional en el modelo nunca provoca la reduccin de R 2. Para
manejar este problema, podemos utilizar el R2 ajustado, que ajusta por el nmero de variables que hay
en el modelo. El R2 ajustado es:
Ra2 1

n 1
1 R2
n ( p 1)

Un ejemplo
En educacin existe polmica acerca de las notas de los colegios que se creen estn infladas. Si no
estuvieran infladas esperaramos que las pruebas de ingreso a la Universidad estn altamente
correlacionadas con las notas de enseanza media. Revisemos, con datos de la Prueba de Aptitud
Acadmica (PAA) del ao 2001 en la regin del Maule, si podemos explicar las notas de enseanza
media con la PAA.
Resumen del modelo
Modelo
1

R
.578a

R cuadrado
.334

R cuadrado
corregida
.334

Error tp. de la
estimacin
81.25283

a. Variables predictoras: (Constante), Prueba Historia y


Geografa, Prueba Aptitud Matemtica, Prueba Aptitud Verbal

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
16400316
32660205
49060521

gl
3
4947
4950

Media
cuadrtica
5466772.0
6602.023

F
828.045

Sig.
.000a

a. Variables predictoras: (Constante), Prueba Historia y Geografa, Prueba Aptitud


Matemtica, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media

Coeficientesa
Coeficientes no
estandarizados
Modelo
1

(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa

B
312.088
.153

Error tp.
5.656
.019

.275
.096

Coeficientes
estandarizad
os
Beta

Intervalo de confianza para


B al 95%
Lmite
Lmite inferior
superior
301.000
323.176
.115
.190

.176

t
55.179
7.993

Sig.
.000
.000

.015

.349

18.133

.000

.245

.304

.019

.098

5.049

.000

.059

.133

a. Variable dependiente: NEM Notas Ens Media

Verificando supuestos en la regresin lineal mltiple


1. Examine los grficos de dispersin entre la variable respuesta y versus las variables explicatorias x
para investigar si la relacin entre estas variables es lineal y por lo tanto si el modelo es razonable.
A travs de este anlisis podremos entender mejor la relacin entre los datos.

2. Examine los residuos para verificar los supuestos acerca del trmino del error. Los residuos deben
ser una muestra aleatoria de una poblacin normal con media 0 y desviacin estndar . Para
verificar normalidad grafique el histograma de los residuos, este debera aparecer como normal
sin valores extremos. Adems debemos revisar los residuos individuales para detectar valores
extremos y/o influyentes. Por ltimo debemos detectar si la distribucin de los residuos es al azar
y no hay formas que muestren un problema en el ajuste, o que la varianza no sea constante.
6

Grfico P-P normal de regresin Residuo tipificado

Histograma de residuos

Variable dependiente: NEM Notas Ens Media

Notas de Enseanza Media versus PAA

1.00

500

.75

400

Prob acum esperada

300

Frecuencia

200

Desv. tp. = 1.00

100

Media = 0.00
N = 4951.00

.50

.25

0.00
0.00

Regresin Residuo tipificado

.25

.50

.75

1.00

Prob acum observada

Diagnsticos por casoa


Nmero de caso
91
627
683

NEM Notas
Ens Media
760
781
373

Residuo tip.
3.005
3.066
-3.035

Valor
pronosticado
515.8015
531.8782
619.6385

Residuo bruto
244.1985
249.1218
-246.6385

a. Variable dependiente: NEM Notas Ens Media

Grfico de residuos versus predichos


4
3

Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o

2
1
0
-1
-2
-3
-4
400

500

600

700

800

Regresin Valor pronosticado

Usando la salida de SPSS para la regresin mltiple sin la Prueba de Historia y Geografa, analice
como cambia el R2
Resumen del modelob
Modelo
1

R
.575a

R cuadrado
.331

R cuadrado
corregida
.331

Error tp. de la
estimacin
81.439

a. Variables predictoras: (Constante), Prueba Aptitud


Matemtica, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media

Colinealidad
7

Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de colinealidad. La
colinealidad ocurre cuando dos o ms variables explicativas se relacionan entre s, hasta el punto de
que comunican esencialmente la misma informacin sobre la variacin observada en y. Un sntoma de
la existencia de colinealidad es la inestabilidad de los coeficientes calculados y sus errores estndares.
En particular los errores estndares a menudo se tornan muy grandes; esto implica que hay un alto
grado de variabilidad de muestreo en los coeficientes calculados.
Deteccin de multicolinealidad en el modelo de regresin
Los siguientes son indicadores de multicolinealidad:
1. Correlaciones significativas entre pares de variables independientes en el modelo.
2. Pruebas t no significativas para los parmetros individuales cuando la prueba F global del modelo
es significativa.
3. Signos opuestos (a lo esperado) en los parmetros estimados.
Ejemplo:
La Comisin Federal de Comercio (Federal Trade Commission) de Estados Unidos clasifica
anualmente las variedades de cigarrillos segn su contenido de alquitrn, nicotina y monxido de
carbono. Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrn y nicotina de un cigarrillo van
acompaados por un incremento en el monxido de carbono emitido en el humo de cigarrillo. La base
de datos CO_multiple.sav (en sitio del curso) contiene los datos sobre contenido de alquitrn (en
miligramos), nicotina (en miligramos) y monxido de carbono (en miligramos) y peso (en gramos) de
una muestra de 25 marcas (con filtro) ensayadas en un ao reciente. Suponga que se desea modelar el
contenido de monxido de carbono, y, en funcin del contenido de alquitrn, x1, el contenido de
nicotina, x2, y el peso, x3, utilizando el modelo:
E ( y ) 0 1 x1 2 x 2 3 x3

El modelo se ajust a los 25 puntos de datos y se adjunta las salidas de SPSS:


Resumen del modelob
Modelo
1

R
.958a

R cuadrado
corregida
.907

R cuadrado
.919

Error tp. de la
estimacin
1.4457

a. Variables predictoras: (Constante), Peso, Alquitrn, Nicotina


b. Variable dependiente: CO

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
495.258
43.893
539.150

gl
3
21
24

Media
cuadrtica
165.086
2.090

F
78.984

Sig.
.000a

a. Variables predictoras: (Constante), Peso, Alquitrn, Nicotina


b. Variable dependiente: CO

Coeficientesa

Modelo
1

(Constante)
Alquitrn
Nicotina
Peso

Coeficientes no
estandarizados
B
Error tp.
3.202
3.462
.963
.242
-2.632
3.901
-.130
3.885

Coeficientes
estandarizad
os
Beta

t
.925
3.974
-.675
-.034

1.151
-.197
-.002

Sig.
.365
.001
.507
.974

a. Variable dependiente: CO

Correlacionesa

CO

CO
CO
Alquitrn

Alquitrn
Nicotina
Nicotina

Peso

Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)

1
.
.957**
.000
.926**
.000
.464*
.019

Alquitrn
Nicotina
.957**
.926**
.000
.000
1
.977**
.
.000
.977**
1
.000
.
.491*
.500*
.013
.011

Peso
.464*
.019
.491*
.013
.500*
.011
1
.

**. La correlacin es significativa al nivel 0,01 (bilateral).


Peso

*. La correlacin es significante al nivel 0,05 (bilateral).


a. N por lista = 25

Seleccin de modelos
Como regla general, normalmente es preferible incluir en un modelo de regresin slo las variables
explicativas que ayudan a predecir o explicar la variabilidad observada en la respuesta y, a este modelo
lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas potenciales,
cmo decidir cules se deben retener en el modelo y cules dejar afuera? Por lo general, la decisin se
toma en base a una combinacin de consideraciones estadsticas y no estadsticas. Es fundamental
identificar o conocer cules variables podran ser importantes. Sin embargo, para estudiar cabalmente el
efecto de cada una de estas variables explicativas, sera necesario llevar a cabo anlisis por separado de
cada posible combinacin de variables. Los modelos resultantes podran evaluarse enseguida de
acuerdo con algn criterio estadstico. Este es el mtodo ms completo, pero tambin el que ocupa ms
tiempo. Si tenemos una gran cantidad de variables explicativas el procedimiento podra no ser factible.
Existen otros mtodos paso a paso (stepwise en ingls) que son tiles, pero que hay que usarlos con
cautela porque los resultados pudieran ser dependientes de los datos (la muestra) ms que basados en el
conocimiento del problema que estamos estudiando. Entonces la recomendacin es buscar un equilibrio
entre la tecnologa, el conocimiento que tenemos de las variables y los resultados de la muestra.
Variables indicadoras
Las variables explicativas que hemos considerado hasta este momento se midieron sobre una escala
cuantitativa. Sin embargo, el anlisis de regresin puede generalizarse para incluir asimismo, variables
explicativas cualitativas. Por ejemplo, podramos preguntarnos si las notas en la enseanza media
pueden ser explicadas adems por la dependencia del establecimiento. Para simplificar supongamos
que nos interesa solamente distinguir entre colegios particulares y municipales o subvencionados, esta
9

variable tendra dos categoras. Puesto que las variables explicativas en un anlisis de regresin deben
tomar valores numricos, designamos a los colegios estatales (municipales y subvencionados) con 1 y a
los colegios particulares con 0. Estos nmeros no representan mediciones reales; sencillamente
identifican las categoras de la variable aleatoria nominal. Debido a que estos valores no tienen
significado cuantitativo, una variable explicativa de esta clase se denomina variable indicadora o
variable muda (en ingls dummy variable).
Resumen del modelo
Modelo
1

R
.592a

R cuadrado
corregida
.349

R cuadrado
.350

Error tp. de la
estimacin
80.29730

a. Variables predictoras: (Constante), Estatales, Prueba Aptitud


Matemtica, Prueba Historia y Geografa, Prueba Aptitud
Verbal

ANOVAb
Modelo
1

Regresin
Residual
Total

Suma de
cuadrados
17170414
31890108
49060521

gl
4
4946
4950

Media
cuadrtica
4292603.5
6447.656

F
665.762

Sig.
.000a

a. Variables predictoras: (Constante), Estatales, Prueba Aptitud Matemtica, Prueba


Historia y Geografa, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media

Coeficientesa

Modelo
1

(Constante)
Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa
Estatales

Coeficientes no
estandarizados
B
Error tp.
257.610
7.489
.160
.019

Coeficientes
estandarizad
os
Beta
.185

t
34.397
8.502

Sig.
.000
.000

.285

.015

.363

19.030

.000

.117

.019

.120

6.219

.000

40.086

3.668

.132

10.929

.000

a. Variable dependiente: NEM Notas Ens Media

Pasos en el anlisis de regresin mltiple:


1. Describir los datos: Descripcin numrica de las variables que se van a utilizar en el anlisis
Ejemplo de modelo que ajusta las notas de enseanza media versus las pruebas de aptitud en la regin
del Maule el ao 2001

10

Tabla del SPSS con descripcin de variables cuantitativas:


Estadsticos descriptivos

NEM Notas Ens Media


Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa

Media
561.6451
471.9234

Desviacin
tp.
99.55509
114.74092

N
4951
4951

477.4286

126.43221

4951

483.8259

101.92995

4951

Tabla con descripcin de variable cualitativa:


Dependencia Frecuencia
%
Estatales
4346
87,8
Particular
605
12,2
Total
4951
100,0
Descripcin grfica:
900
800
700
600
500
400
300
200
100
N=

4951

4951

NEM Notas Ens Media

4951

4951

Prueba Aptitud Matem

Prueba Aptitud Verba

Prueba Historia y Ge

Nota: En este caso podemos hacer grficos de caja conjuntos porque todas las variables estn medidas
en la misma escala.
2. Verificar los supuestos:
-

linealidad (y vs x)
no colinealidad (correlacin entre las x)

11

Grficos de dispersin

NEM Notas Ens Media

Prueba Aptitud Verba

Prueba Aptitud Matem

Prueba Historia y Ge

Correlacionesa

NEM Notas Ens Media


Prueba Aptitud Verbal
Prueba Aptitud
Matemtica
Prueba Historia y
Geografa

Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)
Correlacin de Pearson
Sig. (bilateral)

Prueba
Prueba
NEM Notas
Prueba
Aptitud
Historia y
Ens Media
Aptitud Verbal
Matemtica
Geografa
1
.526**
.556**
.485**
.
.000
.000
.000
.526**
1
.783**
.789**
.000
.
.000
.000
.556**
.783**
1
.711**
.000
.000
.
.000
.485**
.789**
.711**
1
.000
.000
.000
.

**. La correlacin es significativa al nivel 0,01 (bilateral).


a. N por lista = 4951

12

3. Bsqueda del mejor modelo (R2 y test de hiptesis de los coeficientes de regresin).
Modelos
PAV
PAM
PHG
PAV
PAM
PAV
PAM
PHG
Estatal

R2

Coeficiente

Intervalo de confianza

33,4%

0,153
0,275
0,096

(0,115-0,190)
(0,245-0,304)
(0,059-0,133)

0,204
0,293

(0,172-0,236)
(0,265-0,322)

0,160
0,285
0,117
40,086

(0,123-0,197)
(0,256-0,315)
(0,080-0,154)
(32,9-47,3)

33,1%

35,0%

4. Anlisis de supuestos de residuos: Normalidad y Homocedasticidad


Normalidad: Grficos de Normalidad y/o Test de Kolmogorov-Smirnov y Shapiro-Wilks
Grfico P-P normal de regresin Residuo tipificado

Histograma de residuos

Variable dependiente: NEM Notas Ens Media

Notas de Enseanza Media versus PAA

1.00

500

.75

400

200

Desv. tp. = 1.00

100

Media = 0.00
N = 4951.00

Prob acum esperada

300

Frecuencia

.50

.25

0.00
0.00

Regresin Residuo tipificado

.25

.50

.75

1.00

Prob acum observada

13

Homocedasticidad: Grfico de residuos vs y estimada


Grfico de residuos versus predichos
4
3

Re
gr
esi
n
Re
sid
uo
est
ud
en
tiz
ad
o

2
1
0
-1
-2
-3
-4
400

500

600

700

800

Regresin Valor pronosticado

Nota: Si no se obtiene normalidad u homogeneidad de varianza, se pueden trasformar los datos.

14