Escolar Documentos
Profissional Documentos
Cultura Documentos
ndice
1. Correlacin 6
1.1. Grficos de dispersin (o scatter plots) . . . . . . . . . . . . . 6
1.1.1. Desventajas de los scatter plots . . . . . . . . . . . . . 9
1.2. Coeficiente de correlacin de Pearson . . . . . . . . . . . . . . 10
1.2.1. Definicin del coeficiente de correlacin . . . . . . . . . 10
1.2.2. Propiedades del coeficiente de correlacin muestral (y
tambin de ) . . . . . . . . . . . . . . . . . . . . . . . 16
1.2.3. Inferencia de . . . . . . . . . . . . . . . . . . . . . . 18
1.3. Coeficiente de correlacin de Spearman . . . . . . . . . . . . . 23
1
2 Mara Eugenia Szretter
3. Diagnstico en Regresin 71
3.1. Medidas de diagnstico . . . . . . . . . . . . . . . . . . . . . . 71
3.1.1. Leverage de una observacin . . . . . . . . . . . . . . . 71
3.1.2. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.1.3. Residuos estandarizados . . . . . . . . . . . . . . . . . 73
3.1.4. Los residuos cuando el modelo es correcto . . . . . . . 73
3.1.5. Los residuos cuando el modelo es incorrecto . . . . . . 74
3.1.6. Los residuos en el ejemplo . . . . . . . . . . . . . . . . 74
3.1.7. Cmo detectar (y resolver) la curvatura? . . . . . . . 76
3.1.8. Qu hacer si la varianza no es constante? . . . . . . . 77
3.1.9. Cmo validamos la independencia? . . . . . . . . . . . 78
3.1.10. Cmo validamos la normalidad? . . . . . . . . . . . . 79
3.2. Outliers y observaciones influyentes . . . . . . . . . . . . . . . 80
3.2.1. Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.2.2. Un test para encontrar outliers . . . . . . . . . . . . . 80
3.2.3. Observaciones influyentes . . . . . . . . . . . . . . . . . 83
3.2.4. Cmo medir la influencia de una observacin? . . . . . 88
Referencias 247
NDICE 5
Prefacio
Las notas de regresin lineal que componen estas pginas fueron escritas
como material terico y prctico para el curso Regresin Lineal de la Carrera
de Especializacin en Estadstica para Ciencias de la Salud, que se dicta en la
Facultad de Ciencias Exactas y Naturales, de la Universidad de Buenos Aires
que tuve la alegra de dar durante algo ms de dos meses, en 2011 y 2013.
Presuponen un conocimiento estadstico obtenido en un curso bsico y hacen
nfasis en un enfoque aplicado de la regresin lineal, para un pblico que
viene, en general, de las ciencias mdicas o biolgicas. La informacin sigue un
programa estndar en el tema: correlacin, regresin lineal simple y regresin
lineal mltiple y representa una primera introduccin al tema. La idea es
hacer un nfasis en los modelos y la interpretaciones, sin perder (del todo)
el entusiasmo en el camino. En esa direccin, estas notas buscan presentar
al modelo lineal como el primer modelo estadstico a estudiar en detalle, e
intenta mostrar cules de las herramientas presentadas se generalizan a otros
modelos estadsticos. En el Apndice A, al final, figuran una serie de ejercicios
que (espero) complementen el aprendizaje.
Los grficos y las salidas que acompaan las notas fueron realizados us-
ando el paquete R [10], principalmente, y tambin el SPSS. En el Apndice
B hay varias salidas obtenidas con este paquete para los datos. El resto de las
figuras fueron extraidas de varios buenos textos disponibles sobre el tema (y
debidamente citados). Quiz la mejor hoja de estas notas sea la bibliografa.
Finalmente agradezco a varios colegas las conversaciones y opiniones sobre
los temas que aparecen a continuacin, que ayudaron a dar (esta) forma a
estas notas, en especial a Liliana Orellana y a Andrs Farall.
Este material puede descargarse de la web de la siguiente direccin
http://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
En la misma direccin, hay una carpeta con todos los archivos de datos
mencionados en el texto, o necesarios para los ejercicios. La direccin de la
carpeta es http://mate.dm.uba.ar/~meszre/datos_regresion
6 Mara Eugenia Szretter
1. Correlacin
La regresin lineal, de la que tratan estas notas, se ocupa de investigar
la relacin entre dos o ms variables continuas. En esta seccin, comenzare-
mos tratando de describir el vnculo observado y luego nos sofisticaremos
resumiendo en un valor numrico nuestra conclusin.
Con qu datos contamos para llevar a cabo un anlisis? Disponemos de
n observaciones de dos variables aleatorias medidas en los mismos individuos,
como describimos en la Tabla 1.
X = E (X)
1X
n
bX = X n =
Xi
n i=1
1 X
n
covarianza muestral = Xi X Yi Y
n 1 i=1
1.2 Coeficiente de correlacin de Pearson 13
Pn
Observemos que el numerador Xi X Yi Y puede ser positivo o
rh
i=1
Pn 2 i hPn 2 i
negativo, pero el denominador i=1 X i X i=1 Yi Y siem-
pre es positivo. Luego el signo de r est determinado por el del numerador.
Veamos de qu depende.
+ si Xi es ms grande que X
signo de Xi X =
si Xi es ms chico que X
y tambin
+ si Yi es ms grande que Y
signo de Yi Y =
si Yi es ms chico que Y
Luego, el
+ si + +
signo de Xi X Yi Y =
si + +
positivo, si para el individuo isimo tanto Xi como Yi son mayores que su res-
pectivo promedio (es decir, la observacin cae en el cuadrante noreste, lo que
hemos denotado por ++) o bien ambos valores son simultneamente menores
que su promedio, es decir, la observacin cae en el cuadrante suroeste, que
hemos denotado por . En cambio, el sumando isimo de r ser negativo
en el caso en el que la observacin isima tenga un valor Xi por encima de
su promedio pero la Yi sea menor que su promedio, o bien la Xi sea menor a
su promedio y la Yi sea mayor a su promedio.
X = 77,4
Y = 59
y le superponemos al scatter plot dos lneas rectas, una vertical que corta al
eje x en 77,4 y otra horizontal que corta al eje y en Y = 59. Las Figuras 4 y 5
muestran el grfico de esta situacin. Observamos que en los dos cuadrantes
coloreados hay muy pocas observaciones (exactamente 3 de un total de 20).
El coeficiente de correlacin muestral en este caso da 0,791, un valor
negativo, lo cual hubiramos podido anticipar ya que la mayora de los trmi-
nos involucrados en el clculo de r (17 de los 20 sumandos) sern menores
o iguales a cero.
6. El signo de r indica que hay asociacin positiva entre las variables (si
r > 0); o asociacin negativa entre ellas (si r < 0).
7. r = 0,90 indica que los puntos estn ubicados muy cerca de una recta
creciente.
1.2 Coeficiente de correlacin de Pearson 17
8. r = 0,80 indica que los puntos estn cerca, pero no tanto, de una recta
creciente. En la Figura 6 se pueden ver distintos grados de correlacin,
que estn comentados ms abajo.
Figura 6 (b) se puede observar una correlacin positiva ms dbil entre nive-
les sricos de colesterol y la ingesta de colesterol, aqu = 0,3. Una fuerte
correlacin negativa ( = 0,8) se da entre la frecuencia del pulso en reposo
y la edad, medidas en nios menores a diez aos. Ah vemos que a medida
que un chico crece, la frecuencia de su pulso desciende. Una correlacin neg-
ativa ms dbil = 02. existe entre FEV y nmero de cigarrillos fumados
por da (en nios!), como se ve en la Figura 6 (d).
Cabe hacer un comentario respecto de la interpretacin del coeficiente de
correlacin. Altos grados de asociacin lineal entre X e Y no son seales de
causalidad, es decir, una relacin de causa y efecto entre ambas variables. Una
alta correlacin observada entre dos variables es compatible con la situacin
de que existan modelos que explican a Y por X, o bien a X por Y , o bien
que exista una tercer variable que las determine a ambas simultneamente.
1.2.3. Inferencia de
La pregunta que nos hacemos en esta seccin es la clsica pregunta de
inferencia estadstica, qu podemos decir de a partir de r?
Queremos sacar conclusiones acerca del parmetro poblacional a par-
tir de la muestra de observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . En el ejemplo, la
pregunta que podramos hacer es qu podemos decir del vnculo entre in-
munizacin contra la DPT y la tasa de mortalidad infantil para menores a
cinco aos? Slo contamos con observaciones de 20 pases en 1992. El test
que ms nos interesar es el que tiene las siguientes hiptesis
H0 : = 0
H1 : 6= 0,
Test para = 0 Los supuestos para llevar a cabo el test son que los
pares de observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s,
idnticamente distribuidos, y cada una de las muestras X1 . . . , Xn e Y1 . . . , Yn
1.2 Coeficiente de correlacin de Pearson 19
H0 : = 0
H1 : 6= 0 .
Por supuesto, esto no ocurre muy frecuentemente, pero puede surgir una
pregunta de este tipo en algunas aplicaciones. La cuestin es que cuando
= 0 el estadstico T descripto en la seccin anterior no tiene distribucin
t de Student, sino que tiene una distribucin sesgada.
Para testear las hiptesis recin propuestas, est el test basado en la
transformacin z de Fisher. Como en el anterior se requiere que las obser-
vaciones (X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s, idnticamente
distribuidos, y cada una de las muestras X1 . . . , Xn e Y1 . . . , Yn tengan dis-
tribucin normal. El test se realiza de la siguiente forma. Primero se calcula
la transformacin z de Fisher sobre el coeficiente de correlacin, que es
1 1+r
z = ln .
2 1r
1.2 Coeficiente de correlacin de Pearson 21
1 1+r
zobs = ln
2 1r
1
2 zo b s z1 n3
e 2 1
I =
1
2 zo b s z1 n3
e 2
+1
1
2 zo b s +z1 n3
e 2 1
D =
1
2 zo b s +z1 n3
e 2 +1
1.3 Coeficiente de correlacin de Spearman 23
Tabla 4: Datos para los 20 pases, con las variables, X : porcentaje de nios
vacunados a la edad de un ao en cada pas, rangos de la X : ranking que
ocupa la observacin en la muestra ordenada de las Xs, Y : tasa de mor-
talidad infantil de nios menores de 5 aos en cada pas, rangos de la Y :
posicin que ocupa la observacin en la muestra ordenada de las Y s.
Figura 10: Grfico de dispersin entre los rangos de Y (es decir, los rangos
de la tasa de mortalidad menor a 5 aos) y los rangos de X (es decir, del
porcentaje de nios menores a un ao vacunados contra la DPT). Se ve una
asociacin negativa, aunque no muy estrecha.
H0 : = 0
H1 : 6= 0,
lineal mltiple cuando se ajusta para modelos con muchas covariables muy
correlacionadas entre s.
2.1. Introduccin
Antes de presentar el modelo lineal, comencemos con un ejemplo.
Observemos que si bien ahora sabemos que ambas variables estn lineal-
mente asociadas, todava no podemos usar esta informacin para mejorar
nuestra prediccin del permetro ceflico de un beb recin nacido, de bajo
peso. Para hacerlo, proponemos el modelo lineal.
Y = 0 + 1 X + , (1)
donde es el trmino del error. Esto es que para cada valor de X, la corre-
spondiente observacin Y consiste en el valor 0 + 1 X ms una cantidad ,
que puede ser positiva o negativa, y que da cuenta de que la relacin entre
X e Y no es exactamente lineal, sino que est expuesta a variaciones indi-
viduales que hacen que el par observado (X, Y ) no caiga exactamente sobre
la recta, sino cerca de ella, como puede anticiparse viendo el scatter plot de
los datos que usualmente se modelan con este modelo (ver, por ejemplo, la
Figura 13). En el modelo (1) los nmeros 0 y 1 son constantes desconoci-
das que se denominan parmetros del modelo, o coeficientes de la ecuacin.
El modelo se denomina lineal puesto que la Y depende linealmente de
estas constantes, es lineal en los parmetros: los 0 s no aparecen como expo-
nentes ni multiplicados o divididos por otros parmetros. Los parmetros se
denominan
0 = ordenada al origen
1 = pendiente.
Yi = 0 + 1 Xi + i , (2)
y = 2x + 3
x y
0 3
1 5
2 7
3 9
Grafiquemos. Nos basta ubicar dos puntos sobre la misma, por ejemplo el
(0, 3) y el (1, 5) .
E (Y | X) = 0 + 1 X (6)
E (Y | X = xi ) = 0 + 1 xi (7)
estimado con mnimos cuadrados pesados, que permiten incluir ciertos tipos
de heteroscedasticidades.
X
n
g (a, b) = (Yi (a + bXi ))2 ,
i=1
2.5 Estimacin de los parmetros 0 y 1 39
g (a, b) X
n
= 2 (Yi (a + bXi )) (1)
a i=1
g (a, b) X
n
= 2 (Yi (a + bXi )) (Xi )
b i=1
b0 y
Las igualamos a cero para encontrar b1 , sus puntos crticos. Obtenemos
n
X
b b
Yi 0 + 1 Xi = 0 (8)
i=1
n
X
Yi b0 +
b1 Xi Xi = 0. (9)
i=1
donde es una funcin muy parecida al cuadrado para valores muy cercanos
al cero, pero que crece ms lentamente que la cuadrtica para valores muy
grandes. Estos ltimos se denominan M-estimadores de regresin, y, en
general, estn programados en los paquetes estadsticos usuales.
b0 +
Ybi = b1 Xi
b0 +
Definicin 2.1 El valor Ybi = b1 Xi calculado para el valor Xi observado
se denomina (valor) predicho o ajustado i-simo.
ei = Yi Ybi
b0
= Yi b1 Xi
y el residuo sera
y el residuo sera
Tabla 8: Primeros 3 datos de los bebs de bajo peso, con el valor predicho y
el residuo respectivo
Caso (i) Yi = headcirc Xi = gestage Ybi ei
1 27 29 26,537 0,463
3 30 33 29,658 0,342
6 23 25 23,417 0,417
Figura 19: Grfico de dispersin del permetro ceflico versus la edad gesta-
cional, con la recta ajustada por mnimos cuadrados.
2.7. Estimacin de 2
Escribamos nuevamente el modelo poblacional y el modelo ajustado
Yi = 0 + 1 Xi + i , Modelo poblacional (12)
b0 +
Ybi = b1 Xi , Modelo ajustado
2.7 Estimacin de 2 45
1 X
n
(i )2 .
n 1 i=1
La segunda igualdad de (15) se debe a que por (14) el promedio de los resi-
duos e, es igual a cero, y la tercera puede verificarse haciendo la distributiva
46 Mara Eugenia Szretter
Luego, los residuos satisfacen dos ecuaciones lineales (las dadas por (14)
y (15)) y por lo tanto, tienen ms estructura que los errores. Adems, los
errores tienen todos la misma varianza, pero los residuos no. Ms adelante
las calcularemos.
El estimador de 2 que usaremos ser
1 X 1 X 2 1 X 2
n n n
b2 =
(ei e)2 = ei = Yi Ybi . (16)
n 2 i=1 n 2 i=1 n 2 i=1
Figura 20: ANOVA para el ajuste de regresin lineal, para los 100 bebs de
bajo peso.
b1 tn2;1 see
2 1
donde
Xi X Xi X
ci = Pn 2 = , (19)
Xj X S XX
j=1
X
n
2
SXX = Xj X .
j=1
tiene distribucin tn2 . Finalmente, un test de nivel para las hiptesis (17)
rechazar H0 cuando el valor de T observado en la muestra sea mayor que
el percentil 1 2 de la distribucin tn2 , es decir, tn2 ,1 2 , o menor que
tn2 , 2 = tn2 ,1 2 , segn la Figura 21.
Es decir, el test rechaza H0 con nivel si
donde Tobs es el valor del estadstico T definido en (20) calculado en base a las
observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . O bien, se puede calcular el p valor
del test de la siguiente forma
p valor = 2P (T |Tobs |) ,
ya que se trata de un test a dos colas. Reportar el p-valor cuando uno realiza
un test sobre un conjunto de datos siempre permite al lector elegir su punto
de corte respecto de aceptar o rechazar una hiptesis.
Un comentario final. Hay una importante distincin entre significatividad
estadstica, la observacin de un pvalor suficientemente pequeo y la significa-
tividad cientfica (mdica, biolgica, econmica, dependiendo del contexto)
en el hecho de considerar significativa un efecto de una cierta magnitud. La
significatividad cientfica requerir examinar, en la mayora de las aplica-
ciones, ms que slo un p-valor.
50 Mara Eugenia Szretter
X
n
2
SXX = Xi X = 2,5342 (n 1) = 2,5342 (99) = 635,69
i=1
Finalmente,
s s
SSRes/ (n 2) 247,883/98
see1 = Pn 2 =
X i X 635,69
i=1
r
2,529418
= = 0,06307941
635,69
b1 tn2;1 see
2 1
0,7801 1,984467 0,06307941
[0,654921, 0,905279]
H0 : 1 = 0
H1 : 1 6= 0,
52 Mara Eugenia Szretter
b
r 0 0 tn2
b0
V ar
i=1
Esto quiere decir que el (1 ) 100 por ciento de los intervalos construidos
de esta forma contendrn al verdadero valor 0 con el que fueron generados
los datos.
Ejemplo 2.5 Para el ejemplo de los 100 bebs vemos en la Figura 18 que el
estadstico T observado en este caso vale 2,14 y el p-valor para testear
H0 : 0 = 0
H1 : 0 6= 0,
E (Yh | X = xh ) = 0 + 1 xh .
b0 +
Ybh = b1 xh
= Y b1 X + b1 xh
= Y + b1 xh X
Xn
1 Xn
= Yi + ci Yi xh X
i=1
n i=1
Xn
1
= + ci xh X Yi
i=1
n
2.11 Intervalo de Prediccin de una nueva observacin Y medida cuando X = xh 55
(Xi X )
con ci = SXX . De la normalidad de los errores se deduce la normalidad de
Ybh . Luego, un intervalo de confianza de nivel 1 para E (Yh ) resulta ser
v
u 2
u1 xh X
b b
Yh tn2;1 2 t + .
n Pn Xi X 2
i=1
Hagamos las cuentas en detalle para xh = 29. Sabemos que Ybh = 26,537.
58 Mara Eugenia Szretter
La teora nos dice que el IC de nivel 0,95 para E(Yh | X = xh ) se obtiene por
v
u 2
u1 x X
b t + Pn
h
Ybh tn2;1 2 2
n Xi X
i=1
X = 28,89
SXX = 635,69
n = 100
SSRes
b2 =
= 2,529
n2
de dnde surge
p
b=s=
2,529 = 1,5903
y
tn2;1 2 = t98;0,975 = 1,984467.
2
(xh X )
infinito) y eligiramos los Xi de manera tal que Sn 2 tendiera a cero,
i=1 (Xi X )
entonces la longitud de los IC tendera a cero, pero la longitud de los IP no.
Una observacin sobre el grfico anterior es que las conclusiones tienen nivel
de confianza 1 para cada valor (o nivel de prediccin para cada IP)
calculado, pero no hay nivel de confianza simultneo. (O sea, la probabilidad
de que un IC contenga al verdadero parmetro es 1 , sin embargo la
probabilidad de que simultneamente el IC calculado para xh = 29 y el IC
calculado para xh+1 = 30 ambos contengan a los dos verdaderos parmetros,
no puede asegurarse que sea 1 ).
1 X
n
2
Yi Y .
n 1 i=1
Figura 25: Las dos esperanzas o medias condicionales ajustadas bajo ambos
modelos, para un conjunto de veinte datos
Por lo tanto,
Xn 2 X
n 2
b b
SSRes = g 0 , 1 = b
Yi Yi = b b
Yi 0 + 1 Xi
i=1 i=1
X
n
g (a, b) = (Yi (a + bXi ))2 para todo a y b. (23)
i=1
P 2
En particular, tomando a = Y y b = 0 tenemos g Y , 0 = ni=1 Yi Y y
de (23) tenemos
X
n
2
SSRes Yi Y = SSTo. (24)
i=1
Figura 26: Los tres trminos que aparecen en la igualdad (25) para una
observacin.
de la derecha es decir,
2 2 2
b b
Yi Y 6= Yi Yi + Yi Y para cada i.
Sin embargo vale la siguiente igualdad, cuando sumamos sobre todas las
observaciones
X n 2 X
n 2
n
2 X
Yi Y = b
Yi Yi + b
Yi Y . (26)
i=1 i=1 i=1
Figura 27: El primer grfico contiene las distancias (con signo) que inter-
vienen en la SSTo, es decir, las diferencias entre los valores observados de Y
y la media muestral Y , el segundo tiene las diferencias entre las observaciones
y los valores predichos por la recta ajustada, que conforman la SSRes y el
tercer grfico muestra la deferencia entre los valores predichos por el modelo
lineal y el promedio Y , que forman la SSReg o SSM. Fuente: [2], pg. 149.
donde
Pn b 2
SSReg
SSReg = i=1 Yi Y MSReg = 1
P 2
SSRes = ni=1 Yi Ybi MSRes = SSRes
n2
P 2
SSTo = ni=1 Yi Y F = MSReg
MSRes
= SSReg(n2)
SSRes
Figura 28: La tabla de ANOVA para los 100 bebs con bajo peso, que ya fue
exhibida en la pgina 47.
que sin conocer el valor de X, entonces las variables estn asociadas. Para
ello usaremos la descomposicin de la suma de cuadrados vista en la seccin
anterior. Por lo descripto all, la mejora en el ajuste a los datos conseguida
por la inclusin del modelo B resulta ser SSTo SSRes. Cunto de la va-
riabilidad total de las Y queda explicada por la regresin? Podemos plantear
la siguiente regla de tres simple:
2.13.1. Propiedades de R2
0 R2 1
Ejemplo 2.7 Para los datos de la regresin de permetro ceflico versus edad
gestacional vemos que
R2 = 0,6095
Este valor implica una relacin lineal moderadamente fuerte entre la edad
gestacional y el permetro ceflico. En particular, el 60,95 % de la variabilidad
observada en los valores de permetro ceflico queda explicada por la relacin
lineal entre el permetro ceflico y la edad gestacional. El restante
El R2 no se usa para testear hiptesis del modelo sino como una medida
de la capacidad predictiva de la relacin lineal ajustada.
vemos que
F = T2
y el p-valor del test t se calculaba
= P (F Fobs )
F = 152,947.
Su raz cuadrada es 152,947 = 12,367, que es el valor del estadstico T para
testear si la pendiente es o no nula, como vemos en la Figura 29.
3. Diagnstico en Regresin
Las tcnicas del diagnstico en regresin se abocan a validar que los
supuestos realizados por el modelo sean apropiados para los datos con los
que se cuenta. Son realizadas a posteriori del ajuste (aunque filosficamente
se deberan realizar antes) y estn basadas en general en los residuos (o ver-
siones apropiadamente escaladas) de ellos. Constan principalmente de tcni-
cas grficas, aunque tambin en la exhibicin de algunas medidas de bondad
de ajuste. Si el modelo propuesto, una vez ajustado a los datos, no propor-
ciona residuos que parezcan razonables, entonces comenzamos a dudar de que
algun aspecto del modelo (o todos) sea apropiado para nuestros datos. Un
tema relacionado es asegurarse que la estimacin realizada no sea tremenda-
mente dependiente de un slo dato (o un pequeo subconjunto de datos) en
el sentido en que si no se contara con dicho dato las conclusiones del estudio
seran completamente diferentes. La identificacin de estos puntos influyentes
forma parte relevante del diagnstico (y de esta seccin).
donde
1 Xi X Xk X
hik = +
n SXX
y como caso particular tenemos que
2
1 Xi X
hii = + . (28)
n SXX
X
n
2
SXX = Xk X .
k=1
72 Mara Eugenia Szretter
Vale que
X
n X
n
hik = 1, hik = 1 (29)
k=1 i=1
Xn
hii = 2
i=1
1 1
hii 1. (30)
n s
donde s es la cantidad de observaciones con predictor igual a Xi en la muestra.
La cantidad hii se denomina leverage del dato i-simo. Es una medida que
resume cun lejos cae el valor de Xi de la media muestral de las X. Mide,
de alguna manera, cunto es el aporte de la observacin isima a la varianza
muestral de las X (que es Sn1
XX
). La traduccin de leverage al castellano es
usualmente palanca, o influencia. Observemos que es un concepto que no
depende del valor Yi observado.
3.1.2. Residuos
Dijimos en la Seccin 2.7 que los residuos son cantidades observables,
que representan de alguna manera el correlato emprico de los errores. Para
verificar los supuestos del modelo lineal, suelen usarse mtodos grficos que
involucran a los residuos. El modelo lineal
Y = 0 + 1X +
supone que los errores tienen media poblacional cero y varianza constante
(que denominamos 2 ), y que son indendientes para distintas observaciones.
Sin embargo, ya hemos visto que no ocurre lo mismo con los residuos. Vimos
que los residuos no son independientes. Adems, puede probarse que
E (ei ) = 0
V ar (ei ) = 2 (1 hii ) (31)
2
(Xi X )
donde hii = n1 + SXX , el leverage de la observacin isima. En consecuencia
la varianza del residuo de un dato depende del valor de la covariable, y los
residuos de distintos casos tienen diferentes varianzas. De la ecuacin (31)
vemos que cunto mayor sea hii , menor ser la varianza del ei : mientras ms
cercano a uno sea hii ms cercana a cero ser la varianza del residuo de la
observacin isima. Esto quiere decir que para observaciones con gran hii ,
Ybi tender a estar cerca del valor observado Yi , sin importar cunto sea el
valor Yi observado. En el caso extremo e hipottico en que hii = 1, la recta
ajustada sera forzada a pasar por el valor observado (Xi , Yi ).
3.1 Medidas de diagnstico 73
E (resti ) = 0
V ar (resti ) = 1.
Figura 30: Grficos de residuos: (a) nube de datos sin estructura, (b) varianza
que crece con X (forma de megfono abierto a la derecha), (c) varianza que
decrece con X (forma de megfono abierto a la izquierda), (d) varianza que
depende de la covariable, (e)-(f) no linealidad, (g)-(h) combinacin de no
linealidad y funcin de varianza no constante. Fuente:[15] , pg. 172.
un valor mucho menor que el observado, por lo tanto el residuo resulta grande
Figura 31: Grfico de residuos versus valores ajustados para el ajuste lineal
de permetro ceflico en funcin de la edad gestacional, en el caso de los 100
bebs de bajo peso.
E (Y | X) = 0 + 1 X + 2 X 2 .
o wls) en vez del mtodo usual de mnimos cuadrados (ordinary least squares,
ols) para obtener estimadores. En este caso, se buscan los valores de los
parmetros que minimizan la funcin
X
n
gwls (a, b) = wi (Yi (a + bXi ))2 .
i=1
Existen expresiones explcitas para los parmetros estimados con este mto-
do, y los softwares ms difundidos realizan el ajuste. En las aplicaciones, por
supuesto, se agrega la complejidad extra de elegir los pesos wi que en gene-
ral no vienen con los datos. Muchas veces se usan pesos empricos, que se
deducen de algunos supuestos tericos que se tengan sobre las variables, por
ejemplo. Si hubiera replicaciones, es decir varias mediciones de la variable
respuesta realizadas para el mismo valor de la covariable, podra estimarse la
varianza dentro de cada grupo y conseguirse de este modo pesos aproxima-
dos. Tambin es posible usar modelos de mnimos cuadrados generalizados,
en los que se estiman simultneamente los parmetros del modelo y los pe-
sos, que exceden por mucho estas notas (consultar por ejemplo Pinheiro, J.
y Bates, D. (2000) [9], Seccin 5.1.2).
La tercera posibilidad es no hacer nada. Los estimadores de los parmet-
ros, ajustados considerando una funcin de varianza incorrecta o mal es-
pecificada, son de todos modos insesgados, aunque ineficientes. Los tests e
intervalos de confianza calculados con la funcin de varianza errada sern
inexactos, pero se puede recurrir a mtodos de bootstrapping para obtener
resultados ms precisos.
La ltima opcin es usar modelos de regresin que contemplan la posi-
bilidad de una funcin de varianza no constante que dependa de la media.
Estos modelos se denominan modelos lineales generalizados, de los cuales por
ejemplo, los modelos de regresin logstica forman parte. Puede consultarse
el texto clsico McCullagh y Nelder, (1989) [7] y tambin el libro de Weisberg
(2005) [15], Seccin 8.3 y Seccin 12.
4. Escribamos
Yi Ybi(i)
ti = r ,
Vd
ar Yi Ybi(i)
Ejemplo 3.1 En el caso de los 100 bebs, para detectar outliers a nivel 0,05
debemos computar el residuo estudentizado para cada caso, y compararlo con
el percentil
0,05
1 =1 = 0,99975
2n 2 100
de una t97 , que resulta ser 3,602. El nico residuo estudentizado cuyo valor
absoluto sobrepasa este punto de corte es el correspondiente a la observacin
31, que es 4,857. En la Figura 33 pueden verse los boxplots de los residuos,
los residuos estandarizados y los residuos estudentizados para el ajuste de
permetro ceflico en funcin de la edad gestacional.
Este test ubica un outlier, pero no nos dice qu hacer con l. Cuando
detectamos un outlier, sobre todo si es severo, es importante investigarlo.
Puede tratarse de un dato mal registrado, o que fue mal transcripto a la base
de datos. En tal caso podremos eliminar el outlier (o corregirlo) y analizar
los casos restantes. Pero si el dato es correcto, quizs sea diferente de las
otras observaciones y encontrar las causas de este fenmeno puede llegar a
ser la parte ms interesante del anlisis. Todo esto depende del contexto del
3.2 Outliers y observaciones influyentes 83
Figura 33: Los boxplots de los residuos, los residuos estandarizados y los
residuos estudentizados para el ajuste de permetro ceflico en funcin de la
edad gestacional en el ejemplo.
Grfico (1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4063 2.0364 3.146 0.00625
pendiente 2.3987 0.3038 7.895 6.58e-07
86 Mara Eugenia Szretter
Grfico (2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.8387 3.6856 2.127 0.049338
pendiente 2.3281 0.5469 4.257 0.000602
Grfico (3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.2614 1.7778 3.522 0.00283
pendiente 2.4242 0.2412 10.049 2.57e-08
Grfico (4)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.8872 3.8042 4.702 0.00024
pendiente 0.4471 0.4933 0.906 0.37823
Figura 35: Nuevamente los scatter plots de los 4 conjunto de datos, esta vez
con las rectas ajustadas.
Una vez realizado el ajuste vemos que se verifica lo anticipado. Las pen-
dientes de las rectas estimadas en los 3 primeros grficos no difieren de-
masiado entre s, en el grfico (2) la ordenada al origen es mayor ya que la
observacin A est ubicada muy por encima de los datos. La recta estimada
en (3) pasa casi exactamente por el dato B y la significatividad del test para
la pendiente aumenta en este caso, comparada con la del grfico (1). Adems
tambin se incrementa el R cuadrado, que pasa de 0,79 en (1) a 0,86 en (3).
En el grfico (4) vemos que la recta ajustada difiere completamente de la
recta estimada para el conjunto (1), de hecho la pendiente que era significa-
tiva para los datos del grfico (1) deja de serlo en este caso. Vemos que la
observacin C arrastr la recta hacia ella.
Una observacin ms que habra que hacer con respecto a la influencia es
que en este caso hemos presentado un ejemplo muy sencillo donde para cada
conjunto de datos hay un slo dato sospechoso. En las situaciones prcticas,
cuando hay ms de un dato anmalo en un conjunto de datos, esta presencia
simultnea puede enmascararse: la tcnica de sacar las observaciones de a
88 Mara Eugenia Szretter
una muchas veces no logra detectar los problemas. En regresin simple nos
salva un poco el hecho de que podemos graficar muy bien los datos. No ser
esta la situacin en regresin mltiple, por lo que se vuelve importante tener
medidas cuantitativas que permitan medir el grado de influencia (al menos
potencial) que tiene cada dato en un conjunto de datos.
Observacin 3.1 Si uno ajustara una recta usando un procedimiento de
ajuste robusto, por ejemplo un M-estimador de regresin con la funcin de
penalizacin conocida con el nombre de rho de Huber, presentada en la Ob-
servacin 2.1 (rutina rlm en el paquete R) para los datos (4) obtendramos
la salida que figura a continuacin. En ella vemos que los valores de la pendi-
ente y ordenada al origen estimados resultan ser muy parecidos a los que se
obtienen al ajustar por el mtodo de mnimos cuadrados a los datos (1). La
dificultad con los mtodos robustos de ajuste yace en que no es fcil hallar los
p-valores para medir la significatividad de los tests. Pero vemos que en cuanto
a la estimacin el mtodo robusto prcticamente ignora a la observacin C
que estaba distorsionando el ajuste. Y que esto lo hace automticamente, sin
que tengamos que informarle que se trata de una observacin potencialmente
problemtica.
Coefficients:
Value Std. Error t value
(Intercept) 6.7147 1.9674 3.4130
pendiente 2.3271 0.2935 7.9282
Figura 36: Boxplot e histograma para los leverage de los datos (4) graficados
en la Figura 34.
Figura 37: Histogramas de los leverage para los cuatro conjuntos de datos
graficados en la Figura 34.
Figura 38: Histogramas de las distancias de Cook para los datos de la Figura
34
Existen otras medidas de influencia. Los DFfits y los DFbetas son me-
didas bastante estudiadas. Una referencia para leer sobre ellos es el libro de
Neter [6]. Los grficos de variables agregadas (en el caso de regresin mlti-
ple) pueden servir tambin para identificar observaciones influyentes, pueden
verse en [15] secciones 3.1 y 9.2.4 o [6] seccin 10.
92 Mara Eugenia Szretter
4.1. El modelo
La regresin mltiple es un modelo para la esperanza de una variable
continua Y cuando se conocen variables explicativas o predictoras que de-
notaremos X1 , X2 , . . . , Xp1 . Antes de formularlo en general, describiremos
a modo ilustrativo la situacin en la que se tienen dos variables predictoras
(i.e. p = 3). En este caso, proponemos el siguiente modelo para la esperanza
condicional de Y dado X1 y X2
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 (34)
donde 0 , 1 , 2 son constantes desconocidas que se denominan parmetros
del modelo, o coeficientes de la ecuacin. Muchas veces, por simplicidad,
escribiremos E (Y ) en vez de E (Y | X1 , X2 ) . El modelo se denomina lineal
puesto que la esperanza de Y condicional a las Xs depende linealmente de
las covariables X1 y X2 . Los coeficientes del modelo se estiman a partir de
una muestra aleatoria de n observaciones (Xi1 , Xi2 , Yi ) con 1 i n, donde
Yi es la variable respuesta medida en el isimo individuo (o isima repeticin
o isima unidad experimental, segn el caso), Xi1 y Xi2 son los valores de
las variables predictoras en el isimo individuo (o isima repeticin o isima
unidad experimental, segn el caso). Una manera alternativa de escribir el
94 Mara Eugenia Szretter
modelo (34) en trminos de las variables (en vez de sus valores esperados) es
la siguiente
Yi = 0 + 1 Xi1 + 2 Xi2 + i , (35)
donde i es el trmino del error para el individuo isimo, que no es observable.
A la ecuacin (34) se la suele llamar funcin de respuesta. En analoga con la
regresin lineal simple donde la funcin E (Y | X) = 0 + 1 X1 es una recta,
la funcin de regresin (34) es un plano. En la siguiente figura se representa
una porcin de la funcin de respuesta
Observemos que del hecho de que los i son independientes y tienen dis-
2
tribucin
P N (0, ) y de (37) se deduce que, condicional a X1 , . . . , Xp1 , Yi
p1 2
N j=0 j Xij , independientes entre s. Tomando esperanza (condicional)
en (37) obtenemos
E (Y | X1 , ..., Xp1 ) = 0 + 1 X1 + 2 X2 + + p1 Xp1 ,
que es una manera alternativa de escribir el modelo (37). Las variables pre-
dictoras pueden ser acomodadas para contemplar una serie de situaciones
cuyo tratamiento iremos desarrollando a lo largo del curso. Esencialmente
pueden ser
- variables continuas, y todas distintas. En la Seccin 4.7 veremos un
ejemplo de dos continuas.
- variables categricas o cualitativas, en la Seccin 4.12 veremos varios
ejemplos donde aparecern categricas de dos categoras, que se suelen
denominar binarias o dicotmicas o dummies, o de ms de dos cate-
goras.
- variables continuas, algunas representando potencias de otras. A esta
situacin se le suele llamar regresin polinomial.
- variables continuas, pero aparecen en el modelo transformaciones de
las originales.
- variables modelando efectos de interaccin entre dos o ms variables,
continuas o categricas (ver Secciones 4.15 y 4.17).
- combinaciones de algunos o de todos los casos anteriores.
Observemos que los vectores Y y son los mismos que para la regresin
lineal simple. El vector contiene los parmetros de regresin adicionales.
Cada fila de la matriz X corresponde a las observaciones correspondientes a
cada individuo (la fila isima contiene las observaciones del individuo isimo)
y las columnas identifican a las variables.
El modelo (37) se escribe matricialmente en la siguiente forma
Y=X +
n1 npp1 n1
donde
Y es un vector de respuestas
es un vector de parmetros
X es una matriz de constantes
es un vector de variables aleatorias normales independientes con espe-
4.5 Estimacin de los Parmetros (Ajuste del modelo) 99
que son los valores que estn en la superficie de respuesta ajustada (o sea, en
el plano ajustado en el caso p = 3). Los residuos se escriben matricialmente
como
b
b = Y X
e = YY
t 1 t
=YX X X XY
t 1 t
= IX X X X Y
Llamando 1 t
H = X Xt X X Rnn (41)
a la hat matrix (la matriz que sombrerea) tenemos que
b = HY
Y
y
e = (I H) Y.
La matriz de varianzas de los residuos es
V ar (e) = 2 (I H) . (42)
4.6 Valores Ajustados y Residuos 101
V ar (ei ) = 2 (1 Hii )
Yb = 3,9143 + 0,7801X1
Yi = 0 + 1 Xi1 + 2 Xi2 + i .
Para darnos una idea de las herramientas con las que trabaja la computadora
que ajustar el modelo, listamos los primeros siete datos en la Tabla 10.
El modelo ajustado figura en la Tabla 11. En el Apndice B figuran estas y
otras salidas de la Seccin de Regresin Lineal Mltiple en SPSS. Intercaladas
en el texto estn las salidas del paquete R. La superficie ajustada resulta ser
Figura 40: Permetro ceflico versus peso al nacer para la muestra de 100
bebs de bajo peso.
34
32
Perimetro cefalico (en centimetros)
30
28
26
24
22
t 1 t t 1
SSTo = Y Y Y JY = Y I J Y,
n n
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 105
Tabla 11: Ajuste del modelo lineal para los datos de bebs de bajo peso,
headcirc con dos explicativas continuas: gestage y birthwt
> ajuste2<-lm(headcirc~gestage+birthwt)
>
> summary(ajuste2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11
---
y vale
b t t 1 t t 1
SSReg = X Y Y JY = Y H J Y.
n n
106 Mara Eugenia Szretter
sin tener en cuenta para nada los valores de las covariables (X1 , . . . , Xp1 ). Es
un resultado de un curso inicial de estadstica que el valor de que minimiza
dicha suma es el promedio de las Y s es decir, = Y . Esencialmente, estamos
tomando como medida de cuan bien ajusta un modelo, a la suma de los
cuadrados; en general
X
modelo = (observados modelo)2 (43)
ser pequea comparada con lo que era la SSTo. Esto es un poco abstracto
as que mejor lo miramos en un ejemplo.
Imaginemos que nos interesa predecir el permetro ceflico de un nio
al nacer (Y ) a partir de la edad gestacional del beb (X1 ) y de su peso al
nacer (X2 ) . Cunto ser el permetro ceflico de un beb con 33 semanas
de edad gestacional y que pesa 1490 gramos al nacer? Si no tuviramos un
modelo preciso de la relacin entre las tres variables en nios nacidos con
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 107
bajo peso, cul podra ser nuestro mejor pronstico? Bueno, posiblemente
la mejor respuesta sea dar el nmero promedio de permetros ceflicos en
nuestra base de datos, que resulta ser 26,45 cm. Observemos que la respuesta
sera la misma si ahora la pregunta fuera: cunto ser el permetro ceflico
de un nio con 25 semanas de gestacin y que pes 680 g. al nacer? Nueva-
mente, en ausencia de un vnculo preciso, nuestro mejor pronstico sera dar
el promedio observado de permetros ceflicos, o sea 26,45 cm. Claramente
hay un problema: no importa cual es la edad gestacional o el peso al nacer
del nio, siempre predecimos el mismo valor de permetro ceflico. Debera
ser claro que la media es poco til como modelo de la relacin entre dos
variables, pero es el modelo ms bsico del que se dispone.
Repasemos entonces los pasos a seguir. Para ajustar el modelo ms bsi-
co, predecimos el outcome Y por Y , luego calculamos las diferencias entre
los valores observados y los valores que da el modelo (Y siempre para el mo-
delo bsico) y la ecuacin (43) se convierte en la SSTo (es decir, SSTo es la
cantidad total de diferencias presentes cuando aplicamos el modelo bsico a
los datos). La SSTo representa cuan bueno es el promedio como modelo de
los datos observados. En un segundo paso ajustamos el modelo ms sofisti-
cado a los datos (el modelo de regresin lineal mltiple con dos predictores).
Este modelo permite pronosticar un valor distinto para cada combinacin de
covariables. A este valor lo hemos llamado valor predicho y resulta ser
b0 +
Ybi = b1 Xi1 +
b2 Xi2 .
b1 33 +
b0 + b2 1490 = 8,3080 + 0,4487 33 + 0,0047 1490 = 30,118
b1 25 +
b0 + b2 680 = 8,3080 + 0,4487 25 + 0,0047 680 = 22,722.
Hemos visto que el modelo de regresin lineal mltiple encuentra los valores
de b1 y
b0 , b2 por el mtodo de mnimos cuadrados, es decir minimizando
las diferencias entre el modelo ajustado a los datos y los propios datos. Sin
embargo, aun en este modelo optimizado hay todava imprecisiones que se
representan por las diferencias
entre cada valor observado (Yi ) y cada valor
predicho por la regresin Ybi . Como antes, calculamos esas diferencias,
elevamos al cuadrado cada una de ellas y las sumamos (si las sumramos sin
elevarlas al cuadrado la suma terminara dando cero). El resultado se conoce
como la suma de los cuadrados de los residuos (SSRes). Este valor representa
el grado de imprecisin cuando el modelo se ajusta a los datos. Podemos usar
108 Mara Eugenia Szretter
estos dos valores para calcular cuanto mejor es usar la superficie de respuesta
estimada en vez de la media como modelo (es decir, cunto mejor es el mejor
modelo posible comparado con el peor?) La mejora en prediccin resultante
al usar el mejor modelo en vez de la media se calcula al hacer la resta entre
SSTo y SSRes. Esta diferencia nos muestra la reduccin en la imprecisin
que se obtiene por usar un modelo de regresin lineal. Como en el caso de
regresin lineal simple, puede verse que esta resta da SSReg, es decir
Figura 41: Distancias que intervienen en las sumas de cuadrados para una
observacin. Fuente: [11], pg. 473.
Desde esta ptica, otra interpretacin del R2 es pensar que un buen mo-
delo debera producir valores predichos altamente correlacionados con los
valores observados. Esta es otra manera de visualizar por qu un R2 alto es,
en general, una buena seal de ajuste.
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 111
Figura 42: Funcin raz cuadrada comparada con la funcin elevar al cuadra-
do y la identidad en el intervalo (0, 1) . Estn graficadas las imgenes del
2
x = 0,4, con
tres puntos cuyas alturas son (en orden ascendente) 0,4 =
0,16; 0,4 y 0,4 = 0,632.
4.8.3. Test F
Como en el modelo de regresin lineal simple, una segunda forma de usar
las sumas de cuadrados para evaluar la bondad de ajuste del modelo de
regresin lineal mltiple a los datos es a travs de un test F. Este test se basa
en el cociente de la mejora debida al modelo (SSReg) y la diferencia entre el
modelo y los datos observados (SSRes). De hecho, en vez de utilizar las sumas
de cuadrados por s mismas, tomamos lo que se denominan los cuadrados
medios (MS mean squares o sumas medias de cuadrados o cuadrados medios).
Para trabajar con ellos, es necesario primero dividir a las sumas de cuadrados
por sus respectivos grados de libertad. Para la SSReg, los grados de libertad
son simplemente el nmero de covariables en el modelo, es decir, p 1.
112 Mara Eugenia Szretter
Del
mismo modo que suceda con la regresin lineal simple, las diferencias
b
Yi Y quedan determinadas al fijar los p 1 coeficientes que acompaan
b
a las p 1 covariables, luego las diferencias Yi Y tienen p 1 grados de
libertad.
Para la SSRes son el nmero de observaciones menos el nmero de parmet-
ros que se estiman (es decir, el nmero de coeficientes beta incluyendo el 0 ),
en este caso n p. Esto proviene, al igual que en el caso de regresin lin-
eal simple, del hecho de que los residuos satisfacen p ecuaciones normales.
Luego, si conocemos n p de ellos, podemos hallar los restantes p a partir
de despejarlos de las p ecuaciones lineales.
Los resultados son, respectivamente, el cuadrado medio de regresin (que
notaremos MSReg o MSM, es decir regression mean square o model mean
square) y el cuadrado medio de residuos (MSRes o MSE, es decir, residual
mean square o mean square error). Por supuesto, hay teora que garantiza
estos resultados pero no nos concentraremos en ella. S es relevante retener
que el estadstico F es una medida de cunto mejora el modelo la prediccin
de la variable respuesta comparada con el nivel de imprecisin de los datos
originales. Si el modelo es bueno, esperamos que la mejora en la prediccin
debida al modelo sea grande (de manera que MSReg sea grande) y que la
diferencia entre el modelo y los datos observados sea pequea (o sea, MSRes
pequea). Para hacerla corta, un buen modelo debe tener un estadstico F
grande (al menos mayor a 1 porque el numerador, de decir, la mitad supe-
rior de (44) ser mayor que el denominador -la mitad inferior de (44)). El
estadstico F es
SSReg
MSReg p1 SSReg (n p)
F = = SSRes
= . (44)
MSRes np
SSRes (p 1)
H0 : 1 = 2 = = p1 = 0
H1 : no todos los k (k = 1, 2, . . . , p 1) son iguales a 0
Observemos que H0 dice que no hay vnculo entre la variable respuesta y las
regresoras. En cambio, H1 dice que al menos una de las variables regresoras
sirve para predecir a Y . La distribucin de F cuando H0 es cierta es la
distribucin F (de Snedecor o de Fisher) con p 1 grados de libertad en el
numerador y n p grados de libertad en el denominador. El test rechaza H0
cuando F > Fp1,np,1 , el 1 percentil de la distribucin vlida cuando
H0 es verdadera. Para valores grandes de F (es decir, p-valores pequeos) el
4.8 Resultados de Anlisis de la Varianza (y estimacin de 2 ) 113
Tabla 13: Tabla de ANOVA para el modelo de Regresin Lineal General (37)
MSReg
F = .
MSRes
La columna p-valor tiene tambin un nico casillero con el p-valor del test,
4.8.4. Estimacin de 2
El modelo de regresin lineal dado en (37) y (38) impone que los erro-
res 1 , . . . , n sean variables aleatorias independientes con esperanza cero y
V ar (i ) = 2 . Si tuviramos los errores, sabemos que un estimador insesgado
de 2 es
1 X
n
(i )2 .
n 1 i=1
114 Mara Eugenia Szretter
1 X 1 X
n n
2
2
b =
(ei e) = (ei )2
n p i=1 n p i=1
1 X 2 SSRes
n
= b
Y i Yi =
n p i=1 np
= MSRes. (45)
La matriz de covarianza de dichos estimadores V ar b est dada por una
bj y
matriz p p que en la coordenada jk tiene la covarianza entre bk y que
resulta ser
b = 2 X t X 1 .
V ar
b
r k k tnp para k = 0, 1, . . . , p 1.
Vd bk
ar
H0 : k = 0
H1 : k 6= 0
usamos el estadstico
bk
T =r
Vd
ar bk
correcta.
Ilustremos esto en el caso del ejemplo de los 100 bebs de bajo peso. Si
nos interesara construir intervalos de confianza de nivel simultneo 0,95 para
1 y 2 , una familia de intervalos de confianza simultneos para estos datos
consistira en dos intervalos de confianza de modo tal que si tomramos
muestras de 100 bebs de bajo peso, les midiramos la edad gestacional,
el permetro ceflico y el peso al nacer, y luego construyramos para cada
muestra los dos intervalos de confianza para 1 y 2 , para el 95 % de las
muestras ambos intervalos construidos con este mtodo cubriran tanto al
verdadero 1 como al verdadero 2 . Para el 5 % restante de las muestras,
resultara que uno o ambos intervalos de confianza sera incorrecto.
En general es sumamente deseable contar con un procedimiento que provea
una familia de intervalos de confianza de nivel simultneo cuando se estiman
varios parmetros con una misma muestra de datos, ya que le permite al
analista entrelazar dos resultados juntos en un conjunto integrado de con-
clusiones con la seguridad de que todo el conjunto de inferencias es correcto.
Para obtenerlos hay bsicamente dos herramientas estadsticas disponibles.
Una de ellas es el estudio matemtico en detalle del fenmeno en cuestin,
en este caso, estudiar matemticamente las propiedades de los estimadores
b0 , . . . ,
bp1 de manera de poder obtener la distribucin exacta de alguna me-
b
dida numrica que los resuma, como el max0kp1 k o las descripciones
matemticas del elipsoide p dimensional ms pequeo que los contenga, con
probabilidad 0,95, para contar un par de ejemplos que son utilizados en dis-
tintas reas de la estadstica para construir regiones de confianza de nivel
simultneo. Veremos otro en la Seccin 4.10.2. La otra herramienta consiste
en construir intervalos de confianza con nivel simultneo a partir de ajustar
el nivel de confianza de cada intervalo individual a un valor ms alto, de mo-
do de poder asegurar el nivel simultneo de la construccin. Esto es lo que
se conoce como el mtodo de Bonferroni para la construccin de intervalos
de nivel simultneo. Una descripcin detallada de este mtodo puede con-
sultarse en [6], pg. 155 a 157. Este procedimiento es de aplicacin bastante
general en la estadstica. En vez de usar el percentil de la t propuesto en
la Seccin 4.9.1 para cada intervalo de confianza para k se usa el percentil
correspondiente a un nivel mayor. Cuando se quieren construir intervalos de
confianza de nivel simultneo 1 para g coeficientes de la regresin, el
percentil que se utiliza en el correspondiente a un nivel 1 2g en cada in-
tervalo en particular. Resultan ser intervalos ms anchos que los presentados
en la Seccin 4.9.1. Una observacin importante es que el procedimiento de
Bonferroni es conservativo, es decir, el nivel conjunto de los intervalos as
construidos es mayor o igual a 1 .
118 Mara Eugenia Szretter
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11
Luego,
b0 = 8,3080
b1 = 0,4487
b2 = 0,0047
b 0
0,4487
T =r 1 = = 6,67
d b 0,0672
V ar 1
4.9 Inferencias sobre los parmetros de la regresin 119
cuando k = 1 y
b 0
0,0047
T =r 2 = = 7,46
d b 0,00063
V ar 2
cuando k = 2. En ambos casos, los p-valores resultan ser menores que 0,001.
Observemos que en la salida de cualquier paquete estadstico figuran tanto las
estimaciones de los betas, como sus desvos estndares estimados, los valores
de t observados y los p-valores respectivos. En ambos casos rechazamos las
hiptesis nulas a nivel 0,05 y concluimos que 1 es distinta de cero cuando en
el modelo aparece X2 como explicativa (en el primer test) y que 2 es distinta
de cero cuando en el modelo aparece X1 como explicativa (en el segundo test).
Como adems ambos estimadores son positivos, concluimos que el permetro
ceflico aumenta cuando aumenta tanto la edad gestacional como cuando
aumenta el peso al nacer. Debemos tener presente, sin embargo, que varios
tests de hiptesis basados en los mismos datos no son independientes; si cada
test se realiza a nivel de significacin , la probabilidad global de cometer
un error de tipo I o rechazar la hiptesis nula cuando es verdadera es,
de hecho, mayor que . Para eso se pueden realizar los tests simultneos
presentados, como los de Bonferroni.
Los intervalos de confianza para ambos parmetros de la regresin resul-
tan ser
r
b d
1 t97,0,975 V ar b1
y
r
b2 t97,0,975
Vd b2
ar
0,05
1 =1 = 0,99167
2g 23
120 Mara Eugenia Szretter
Tabla 14: Intervalos de confianza de nivel 0,95 para 0 , 1 y 2 para los datos
de nios de bajo peso al nacer
> confint(ajuste2)
2.5 % 97.5 %
(Intercept) 5.174250734 11.441780042
gestage 0.315268189 0.582197507
birthwt 0.003459568 0.005964999
de una t97, es decir, t97,0,9917 = 2,43636 en vez de t97,0,975 = 1,9847, que nos
dar intervalos ms anchos, como puede observarse comparando los intervalos
de confianza de las Tablas 14 y 15, la primera contiene a los intervalos de
confianza de nivel 0,95 cada uno, y la segunda contiene los intervalos de
confianza de nivel simultneo 0,95.
> confint(ajuste2,level=(1-(0.05/3)))
0.833 % 99.167 %
(Intercept) 4.461384677 12.154646098
gestage 0.284907765 0.612557932
birthwt 0.003174601 0.006249966
> 0.05/(2*3)
[1] 0.008333333
Figura 43: Tabla de ANOVA para los datos de nios de bajo peso al nacer
b2 =
por la Seccin 4.8.4. Si comparamos el valor observado del estimador
1,62 para este modelo con el estimador de la varianza no explicada por el
122 Mara Eugenia Szretter
modelo de regresin lineal simple que slo tiene a la edad gestacional como
explicativa, que era 2,529 (ver Tabla 2.7) observamos que con la inclusin del
peso hemos reducido la variabilidad no explicada por el modelo, mejorando
la calidad del ajuste obtenido (y de las predicciones que pueden hacerse con
l).
Como
la esperanza del predicho es igual a lo que queremos estimar, es decir,
E Ybh = E (Yh ), el estimador resulta ser insesgado. La varianza estimada
resulta ser
t 1
d b t t d b
V ar Yh = MSRes Xh X X Xh = Xh V ar Xh . (49)
4.10 Estimacin de la Respuesta Media 123
donde
W 2 = pFp,np;1 . (51)
Puede probarse que eligiendo este percentil, la regin resultante cubrir a la
superficie de regresin para todas las combinaciones de las variables
X (dentro de los lmites observados), con nivel 1 . Es por eso que esta
regin de confianza tiene nivel simultneo o global 1 , como discutimos
en la Seccin 4.9.3.
b
donde Yh , W y V ar Ybh estn definidos respectivamente en (48), (51)
d
y (49). Como la regin de confianza para la superficie de regresin
124 Mara Eugenia Szretter
donde
B = tnp,1 2g .
E (Yh ) 3
28,44 3 1,25
Como el 99,7 por ciento del rea en una distribucin de probabilidad normal
cae dentro de los tres desvos estndares de la media, hay una probabilidad
de 0,997 de que este intervalo de prediccin d una prediccin correcta para
el permetro ceflico del beb en cuestin, con 30 semanas de gestacin y
que pes 1360g. al nacer. Los lmites de prediccin en este caso son bastante
amplios, por lo que la prediccin no es muy precisa, sin embargo, el intervalo
de prediccin indica que el beb tendr un permetro ceflico mayor a 24 cm.,
por ejemplo.
La idea bsica de un intervalo de prediccin es, pues, elegir un rango en
la distribucin de Y en donde la mayora de las observaciones caer, y luego,
declarar que la observacin siguiente caer en este rango. La utilidad del
126 Mara Eugenia Szretter
Figura 44: Distribucin de Yh cuando Xth = (1, 30, 1360) . Fuente: [6], pg. 57.
E (Yh ) z1 2 (52)
ch
Yh(nueva) Y
tnp (53)
s (pred)
128 Mara Eugenia Szretter
Por supuesto, como este estimador es siempre mayor que Vd ar Ybh , que
aparecen en el intervalo de confianza (50), el intervalo de prediccin de la
Yh(nueva) correspondiente a Xh de nivel 1 siempre ser ms largo que el
intervalo de confianza de nivel 1 para E (Yh ) , la respuesta media esperada
cuando las covariables son Xh .
Tabla 16: Intervalos de confianza y prediccin de nivel 0,95 para los datos de
nios de bajo peso al nacer, para edad gestacional de 30 semanas y peso al
nacer de 1360g.
> vcov(sal2)
(Intercept) gestage birthwt
(Intercept) 2.4930607944 -9.986181e-02 3.714576e-04
gestage -0.0998618122 4.522022e-03 -2.801056e-05
birthwt 0.0003714576 -2.801056e-05 3.983870e-07
130 Mara Eugenia Szretter
Recordemos que Vd
ar Ybh est definida en (49), luego
Vd
ar Ybh
= Xth Vd b Xh
ar
2
2,4930607944 9,986181 103 3,714576 104 1
= 1 30 1360 0,0998618122 4,522022 10 2,801056 105 30
0,0003714576 2,801056 105 3,983870 107 1360
= 0,032731
Como
tnp,1/2 = t97,0,975 = 1,984723
Ybh = 8,3080 + 0,4487 30 + 0,0047122 1360 = 28,178
resulta que el intervalo de confianza de nivel 1 = 0,95 para E (Yh ) , la
respuesta media esperada cuando las covariables son Xh , es
r
Ybh tnp,1/2 Vd
ar Ybh
p
28,178 1,984723 0,032731
28,178 0,359 07
es decir
[27,819; 28,537]
Por otro lado, el intervalo de prediccin de la Yh(nueva) correspondiente a
Xh de nivel 1 = 0,95 es
Ybh tnp,1/2 s (pred)
r
Yh tnp,1/2 MSRes + V ar Ybh
b d
Como
MSRes = 1,62,
el intervalo de prediccin de la Yh(nueva) resulta ser
p
28,178 1,984723 1,62 + 0,032731
28,178 2,551 5
es decir,
[25,62; 30,730] .
4.12 Predictores Categricos 131
Ejercicio 4.1 Hacer el ejercicio 1 del Taller 3, sobre regresin lineal mlti-
ple, que figura en el Apndice A.
Ejercicio 4.2 Hacer el ejercicio 2 del Taller 3, sobre regresin lineal mlti-
ple, que figura en el Apndice A.
vida que es modificable, podra ayudar a las personas a reducir sus niveles de
glucosa y, por ende, evitar la diabetes. Responder a esta pregunta de man-
era concluyente requerira un ensayo clnico aleatorizado, lo cual es a la vez
difcil y costoso. Por ello, preguntas como estas son con frecuencia, inicial-
mente respondidas utilizando datos observacionales. Pero esto es complicado
por el hecho de que las personas que hacen ejercicio fsico difieren en muchos
aspectos de las que no lo hacen, y algunas de las otras diferencias podran
explicar cualquier asociacin (no ajustada) entre el ejercicio fsico y el nivel
de glucosa.
Usaremos un modelo lineal simple para predecir el nivel base de glucosa
usando una medida de ejercicio, para 2.032 participantes sin diabetes en el
ensayo clnico HERS de terapia hormonal (Hulley et al., 1998 [4]). Excluimos
a las mujeres con diabetes porque la pregunta que queremos responder es si
el hecho de hacer actividad fsica puede ayudar a prevenir la progresin a
4.12 Predictores Categricos 133
la diabetes entre las mujeres en riesgo, y porque las causas que determinan
la glucosa pueden ser diferentes en dicho grupo. Este conjunto de datos es
tratado en el libro de Vittingho [14].
Yi = 0 + 1 Xi1 + i
E (Y | X1 ) = 0 + 1 X1 . (55)
E (Y ) = 0 + 1 0 = 0 no ejercita
E (Y ) = 0 + 1 1 = 0 + 1 ejercita
Tabla 17: Ajuste de la regresin para la variable glucosa con ejercicio como
explicativa.
ajuste3<-lm(glucose~exercise)
> summary(ajuste3)
Call:
lm(formula = glucose ~ exercise)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 97.3610 0.2815 345.848 < 2e-16
exercise -1.6928 0.4376 -3.868 0.000113
> anova(ajuste3)
Analysis of Variance Table
Response: glucose
Df Sum Sq Mean Sq F value Pr(>F)
exercise 1 1413 1412.50 14.965 0.000113 ***
Residuals 2030 191605 94.39
y
1 si la isima mujer no ejercita
Xi2 =
0 si no
Ac decimos que ejercita si hace actividad fsica ms de tres veces por semana.
Entonces el modelo sera
Esta manera intuitiva de incorporar una variable indicadora para cada clase
de la predictora cualitativa, desafortunadamente, conduce a problemas tanto
estadsticos (de identificacin de parmetros) como computacionales. Para
verlo, supongamos que tuviramos n = 4 observaciones, las primeras dos
compuestas por mujeres que ejercitan (X1 = 1, X2 = 0 ) y las dos segundas
que no lo hacen (X1 = 0, X2 = 1 ) . Entonces la matriz X sera
X1 X2
1 1 0
1 1 0
X=
1
0 1
1 0 1
136 Mara Eugenia Szretter
En particular, tomando
0 = a
1 = b
2 = c
o bien
0 = a b
1 = 2b
2 = c
es la nica pero, como hemos visto, permite una interpretacin sencilla de los
parmetros. Otra posibilidad en este caso consiste en eliminar 0 y proponer
el modelo
1 si ejercita
E (Y | X2 , X3 ) = 1 X1 + 2 X2 =
2 si no ejercita
Sin embargo, no la exploraremos ya que nuestra propuesta anterior es satis-
factoria.
Comparemos este modelo lineal con una sola regresora dicotmica con el
test t para comparar las medias de dos poblaciones, a travs de dos muestras
independientes. El test t permite decidir entre las hiptesis
H0 : 0 = 1
H1 : 0 6= 1
donde 0 = E (Y | X1 = 0) es decir, la esperanza de la glucosa para las
mujeres que no ejercitan y 1 = E (Y | X1 = 1) la esperanza de la glucosa
para las mujeres que s lo hacen. Recordemos que este test presupone que las
observaciones de cada poblacin tienen distribucin normal con las medias
0 y 1 respectivamente, y la misma varianza (aunque desconocida). Para
este conjunto de datos la salida de correr el test t figura en la Tabla 18.
Recordemos que el estadstico del test es
X n Y n2
n1 + n2 1 tn1 +n2 2
Sp Bajo H 0
Tabla 18: Test t para dos muestras normales independientes, datos her1.
b0 +
b1 = 97,36104 1,692789 = 95,668.
> summary(exercise)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0000 0.0000 0.4139 1.0000 1.0000
4.12 Predictores Categricos 139
E (Y | X1 ) = 0 + 1 X1 .
E (Y ) = 0 + 1 ,
E (Y ) = 0 + 2 1 .
a grandes rasgos se divide en tres categoras: delgadez (si BMI < 18,5),
peso normal (cuando 18,5 BMI < 25) y sobrepeso (si BMI 25), con
subclasificaciones que contemplan los casos de infrapeso u obesidad.
Luego el modelo de regresin lineal mltiple que proponemos es
Yi = 0 + 1 Xi1 + 2 Xi2 + i .
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 . (57)
Interpretemos los parmetros. Para las mujeres que no hacen ejercicio (X1 =
0) la funcin de respuesta es
E (Y ) = 0 + 1 0 + 2 X2 = 0 + 2 X2 no ejercita (58)
E (Y ) = 0 + 1 1 + 2 X2 = ( 0 + 1 ) + 2 X2 ejercita (59)
Esta funcin tambin es una lnea recta, con la misma pendiente 2 pero con
ordenada al origen ( 0 + 1 ) . En la Figura 47 se grafican ambas funciones.
4.12 Predictores Categricos 141
Figura 47: Significado de los coeficientes del modelo de regresin (57) con
una variable indicadora X1 de ejercicio y una variable continua X2 = BMI
(ejemplo de las mujeres del ensayo clnico HERS).
Tabla 20: Ajuste de la regresin para la variable glucosa con ejercicio y BMI
como explicativas
Response: glucose
Df Sum Sq Mean Sq F value Pr(>F)
exercise 1 1427 1426.6 16.083 6.283e-05
BMI 1 11727 11727.2 132.206 < 2.2e-16
Residuals 2027 179802 88.7
---
libertad (n = 2030, hay dos observaciones menos porque falta el BMI de el-
las). Como t (0,975, 2027) = 1,961135 ' 1,959964 = z0,975 , los lmites para el
intervalo de confianza resultan ser
o sea
Luego, con el 95 por ciento de confianza concluimos que las mujeres que
ejercitan tienen un nivel de glucosa entre 0,07 y 1,76 mg/dL, ms bajo que
las que no lo hacen, en promedio, para un cada nivel de BMI fijo. Un test
4.12 Predictores Categricos 143
formal de
H0 : 1 = 0
H1 : 1 6= 0
con nivel de significatividad de 0,05 nos conducira a rechazar H0 y aceptar
H1 , es decir, que el ejercicio tiene efecto cuando en el modelo incluimos el
BMI, pues el intervalo de confianza del 95 % para 1 no contiene al cero. Eso
lo vemos tambin en la tabla de salida del paquete estadstico, en el p-valor
de dicho coeficiente, que es 0,0329 < 0,05.
Observacin 4.13 Por qu no ajustar dos regresiones lineales separadas
(una para las mujeres que ejercitan y otra para las que no) en vez de hacer
un ajuste con el total de datos? O sea, ajustar
(0) (0)
E (Y | X2 ) = 0 + 2 X2 no ejercitan (60)
para las que no ejercitan y
(1) (1)
E (Y | X2 ) = 0 + 2 X2 ejercitan (61)
para las que ejercitan. Hay dos razones para esto.
- El modelo (57) asume pendientes iguales en (60) y (61) y la misma
varianza del error de para cada tipo de mujer. En consecuencia, la
pendiente comn 2 se puede estimar mejor usando la informacin en
la muestra conjunta. Ojo, este modelo no debera usarse si no se cree
que este supuesto sea correcto para los datos a analizar.
- Usando el modelo (57) otras inferencias, como por ejemplo las real-
izadas sobre 0 y 1 resultarn ms precisas pues se disponen de ms
observaciones para estimarlos y estimar a 2 (lo que se traduce en
ms grados de libertad en el MSRes). De todos modos, en este ejemplo
donde hay ms de dos mil observaciones, tenemos grados de libertad
suficientes para proponer dos modelos si creyramos que el modelo (57)
no describe bien a los datos.
Observacin 4.14 Los modelos de regresin mltiple en los que todas las va-
riables explicativas son cualitativas se suelen denominar modelos de anli-
sis de la varianza (ANOVA). Los modelos que contienen algunas varia-
bles explicativas cuantitativas y otras variables explicativas cualitativas, para
los que la variable explicativa de inters principal es cualitativa (por ejemplo,
tipo de tratamiento que recibe el paciente) y las variables cuantitativas se in-
troducen primariamente para reducir la varianza de los trminos del error, se
suelen denominar modelos de anlisis de la covarianza (ANCOVA).
144 Mara Eugenia Szretter
Tabla 22: Codificacin de las variables indicadoras para una variable categri-
ca multinivel
Variables indicadoras
physact Iphysact_2 Iphysact_3 Iphysact_4 Iphysact_5
1 0 0 0 0
2 1 0 0 0
3 0 1 0 0
4 0 0 1 0
5 0 0 0 1
- Los parmetros del modelo (y por lo tanto las dummies que los acom-
paanan) pueden ser definidos para que signifiquen la media pobla-
cional de cada grupo o, por ejemplo, para que sean las diferencias en-
tre las medias poblacionales de dos grupos distintos, como en (63).
Por ejemplo, la diferencia en los niveles medios de la variable Y entre
los grupos mucho ms activa (physact = 5) y algo menos activa
(physact = 2) est dada por 5 2 (chequearlo). Todos los paquetes
estadsticos permiten calcular de manera directa estimadores y tests de
hiptesis acerca de estos contrastes lineales. Esto implica que la elec-
cin del grupo de referencia es, en algun sentido, arbitraria. Mientras
que alguna eleccin en particular puede ser la mejor para facilitar la
presentacin, posiblemente porque los contrastes con el grupo de refer-
encia seleccionado sean los de mayor inters, cuando se toman grupos
de referencia alternativos esencialmente se est definiendo el mismo
modelo.
4.13 Predictores Cualitativos con ms de dos clases 147
Tabla 23: Ajuste de regresin lineal mltiple para explicar a la variable glu-
cosa con la variable actividad fsica mirada como categrica (datos de la base
HERS).
Call:
lm(formula = glucose ~ Iphysact_, data = her1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 112.7980 0.8350 135.09 <2e-16
Iphysact_2 -13.3139 0.9576 -13.90 <2e-16
Iphysact_3 -13.6174 0.9039 -15.06 <2e-16
Iphysact_4 -17.8211 0.9006 -19.79 <2e-16
Iphysact_5 -22.8094 0.9247 -24.67 <2e-16
---
Figura 48: Boxplot de los datos de glucosa para las mujeres sin diabetes de
la cohorte HERS, segn sus niveles de physact.
1 2 3 4 5
Yi = 0 + 1 Zi + i (64)
physact Z
Mucho menos activa (Much less active) 1
Algo menos activa (Somewhat less active) 2
Casi tan activa (About as active) 3
Un poco ms activa (Somewhat more active) 4
Mucho ms activa (Much more active) 5
E (Y | physact = 2) E (Y | physact = 1)
= E (Y | physact = 3) E (Y | physact = 2)
=
= E (Y | physact = 5) E (Y | physact = 4)
= 1
4.13.4. El test F
A pesar de que todos los contrastes entre los niveles de una variable ex-
plicativa categrica estn disponibles para ser estimados y comparados luego
de ajustar un modelo de regresin, los test t para estas comparaciones mlti-
ples en general no proporcionan una evaluacin conjunta de la importancia
de la variable categrica para predecir a la variable respuesta, o ms pre-
4.13 Predictores Cualitativos con ms de dos clases 151
H0 : 2 = 3 = 4 = 5 = 0 (65)
H1 : al menos uno de los i con i entre 2 y 5 es tal que i 6= 0
Figura 49: Modelo propuesto para explicar la glucosa con una covariable
explicativa continua (BMI) y otra categrica (Iphysact_) con cinco niveles.
100
95
physact = 1
90
physact = 2
physact = 3
physact = 4
physact = 5
85
20 30 40 50
BMI
E (Y | X) = 0 + 2 Iphysact_2 + 3 Iphysact_3
+ 4 Iphysact_4 + 5 Iphysact_5 + BMI BMI
4.14 Una predictora cualitativa y una numrica 155
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 103.05276 1.33058 77.449 <2e-16
Iphysact_2 -12.87837 0.93968 -13.705 <2e-16
Iphysact_3 -13.35215 0.88633 -15.065 <2e-16
Iphysact_4 -17.22072 0.88511 -19.456 <2e-16
Iphysact_5 -21.73285 0.91383 -23.782 <2e-16
BMI 0.33229 0.03577 9.288 <2e-16
---
bbsico y
Para este modelo se calculan las estimaciones de los parmetros 0
bsico
b
BMI , y con ellos los predichos
bbsico +
Ybibsico = bbsico BMIi
0 BMI
156 Mara Eugenia Szretter
Yi = comp
0 + comp
2 Iphysact_2i + comp
3 Iphysact_3i
+ 4 Iphysact_4i + 5 Iphysact_5i + comp
comp comp
BMI BMIi + i .
y la suma de cuadrados que mide el desajuste que tienen los datos a este
modelo complejo
n
X 2
modelo complejo = Yi Ybicomp .
i=1
Por supuesto, como el modelo complejo tiene al modelo bsico como caso
particular, resulta que el ajuste del modelo complejo a los datos ser siem-
pre tan satisfactorio como el del modelo bsico o mayor an, de modo que
modelo complejo modelo bsico . Es de inters observar que la estimacin del
coeficiente que acompaa al BMI depende de qu covariables hay en el mo-
delo, excepto cuando todas las covariables presentes en el modelo sean no
correlacionadas con BMI, lo cual ocurrir las menos de las veces: en general
las variables explicativas estn vinculadas entre s de manera ms o menos
estrecha, eso significa que en general estarn (linealmente) correlacionadas.
Nuevamente se puede construir una tabla de ANOVA para resumir la
informacin descripta hasta ahora. Dicha tabla ser de la forma
La resta modelo bsico modelo complejo mide la mejora en el ajuste debida
al modelo ms complejo respecto del ms sencillo. Los grados de libertad
de esta resta ser la resta de los grados de libertad de los dos ajustes, en el
ejemplo (n 6) (n 2) = 4 (recordemos que hay 2032 mujeres sin diabetes
en la base HERS, pero las mediciones de BMI de dos de ellas faltan, de modo
que aqu n = 2030). El test F se basa en la comparacin de la mejora en el
ajuste debido al modelo ms complejo respecto del simple relativa al ajuste
4.14 Una predictora cualitativa y una numrica 157
H0 : q = q+1 = = p1 = 0
H1 : al menos uno de los k con k entre q y p 1 es tal que k 6= 0
Model:
glucose ~ Iphysact_ + BMI
Df Sum of Sq RSS AIC F value Pr(F)
<none> 134184 8520.1
Iphysact_ 4 46023 180206 9110.7 173.550 < 2.2e-16
BMI 1 5720 139903 8602.8 86.274 < 2.2e-16
---
b5
El estimador puntual de esta cantidad es, por supuesto, b2 , y la varianza
estimada de este estimador es
Vd
ar b5
b2 = Vd ar b5 + Vd ar b2 + 2Cov
d b2 .
b5 ,
$Iphysact_
diff lwr upr p adj
2-1 -13.3139034 -15.876247 -10.751560 0.0000000
3-1 -13.6174242 -16.036045 -11.198804 0.0000000
4-1 -17.8211203 -20.231224 -15.411017 0.0000000
5-1 -22.8071541 -25.282072 -20.332236 0.0000000
3-2 -0.3035209 -1.862943 1.255901 0.9841303
4-2 -4.5072169 -6.053397 -2.961037 0.0000000
5-2 -9.4932507 -11.138635 -7.847867 0.0000000
4-3 -4.2036961 -5.497834 -2.909558 0.0000000
5-3 -9.1897299 -10.600904 -7.778556 0.0000000
5-4 -4.9860338 -6.382560 -3.589507 0.0000000
160 Mara Eugenia Szretter
Figura 51: Grfico de dispersin del pulso post-ejercicio versus el pulso pre-
ejercicio, para 40 adultos. Archivo: pulso.txt
E (Y | X1 , X2 = 0) = 0 + 1 X1 .
La salida del ajuste del modelo est en la Tabla 28. De acuerdo a ella, la
recta ajustada es
Figura 52: Grfico de dispersin del pulso post-ejercicio versus el pulso pre-
ejercicio, identificando el sexo de cada observacin.
Yb = 93,0970 + 0,5157 X1 .
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 165
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.0970 12.5157 7.438 7.44e-09
Pulso1 0.5157 0.1715 3.007 0.004725
mujer 12.7494 3.2468 3.927 0.000361
Las dos rectas estn graficadas en la Figura 53, junto con las observaciones
identificadas por sexo. Observemos que ambas rectas son paralelas: en ambos
grupos una unidad (un latido por minuto) de aumento en el pulso en reposo
est asociado con un incremento en 0,5157 latidos por minuto de la frecuen-
cia cardaca post ejercicio, en promedio. Esto es consecuencia del modelo
propuesto.
Ahora queremos proponer un modelo con interaccin para estos datos. Es
decir proponemos el modelo
E (Y | X) = 0 + 1 X1 + 2 1 + 1:2 X1 1
= ( 0 + 2 ) + ( 1 + 1:2 ) X1 mujeres
166 Mara Eugenia Szretter
Figura 53: Rectas ajustadas para los dos gneros (modelo sin interaccin).
Tabla 29: Ajuste del modelo lineal con interaccin.entre X1 = pulso pre
ejercicio (Pulso1), X2 = indicador de mujer (mujer), Y = pulso post ejercicio
(Pulso2).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 95.42838 16.80929 5.677 1.88e-06
Pulso1 0.48334 0.23157 2.087 0.044
mujer 7.05575 27.14749 0.260 0.796
Pulso1:mujer 0.07402 0.35033 0.211 0.834
Estas dos rectas se encuentran graficadas en la Figura 55. Estas dos rectas
no tienen la misma pendiente, ni la misma ordenada al origen. En el rango de
inters, sin embargo, la recta que describe el pulso medio post-ejercicio para
las mujeres est completamente sobre la de los hombres. Esto implica que
a lo largo de todos los valores relevantes del pulso en reposo, predeciremos
valores de pulso post-ejercicio mayores para las mujeres que para los hombres.
Si comparamos los ajustes obtenidos para los modelos que explican a Y con
las variables Pulso1 y mujer sin interaccin (71) y con interaccin (72),
que aparecen en las Tablas 28 y 29, respectivamente, vemos que son muy
diferentes.
En la Tabla 30 resumimos lo observado. Cuando el trmino de la interac-
cin se incluye en el modelo, el coeficiente de mujer se reduce en magnitud,
casi a la mitad. Adems, su error estndar aumenta multiplicndose por un
factor de 8. En el modelo sin trmino de interaccin, el coeficiente de mujer
es significativamente distinto de cero, a nivel 0,05; esto no ocurre cuando in-
cluimos el trmino de interaccin en el modelo, en ese caso la variable mujer
4.15 Modelos con interaccin entre variables cuantitativas y cualitativas 169
Figura 55: Rectas ajustadas por mnimos cuadrados para distintos niveles de
sexo, con el trmino de interaccin incluido.
Tabla 30: Tabla comparativa de los ajustes con y sin interaccin para las
covariables Pulso1 y mujer.
Y = 0 + 1 X1 + 2 X2 + . (73)
Para cada nivel posible de peso al nacer, por cada unidad de aumento en
la edad gestacional se espera un aumento de 0,448 unidades (cm.) en el
permetro ceflico al nacer. Grficamente, esto se ve representado en la Figura
56. Lo mismo sucedera si controlramos por X1 en vez de X2 : tendramos
rectas paralelas, de pendiente 0,0047.
Este modelo asume que no existe interaccin entre las variables. El modelo
(73) fuerza a que los efectos de las covariables en la variable dependiente sean
aditivos, es decir, el efecto de la edad gestacional es el mismo para todos los
valores del peso al nacer, y viceversa, porque el modelo no le permitir ser
de ninguna otra forma. A menudo este modelo es demasiado simple para ser
adecuado, aunque en muchos conjuntos de datos proporciona una descripcin
satisfactoria del vnculo entre las variables.
Cuando esto no suceda, es decir, cuando pensemos que tal vez la forma
en que el permetro ceflico vare con la edad gestacional dependa del peso
172 Mara Eugenia Szretter
al nacer del beb, ser necesario descartar (o validar) esta conjetura. Una
manera de investigar esta posibilidad es incluir un trmino de interaccin
en el modelo. Para ello, creamos la variable artificial que resulta de hacer el
producto de las otras dos: X3 = X1 X2 = gestage birthwt, y proponemos
el modelo
Y = 0 + 1 X1 + 2 X2 + 3 X3 +
Y = 0 + 1 X1 + 2 X2 + 1:2 X1 X2 + (74)
En general
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 + 1:2 X1 X2
= 0 + 2 X2 + ( 1 + 1:2 X2 )X1 (75)
| {z } | {z }
ordenada al origen pendiente
> summary(drogaA)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.207 4.449 7.744 8.107 11.100 13.590
> summary(drogaB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.18 38.44 63.02 59.58 82.61 93.76
Call:
lm(formula = YY ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.92176 42.27242 -1.276 0.21027
drogaA 16.59288 4.92500 3.369 0.00181
drogaB 6.22153 0.63436 9.808 1.04e-11
drogaA:drogaB 2.77152 0.07774 35.651 < 2e-16
---
Tabla 34: Modelo ajustado para los datos del archivo ejemploint3.txt, con
las variables explicativas X1 = drogaA y X2 = drogaB y la interaccin entre
ellas, para explicar a Y .
> summary(ajuste7)
Call:
lm(formula = Y7 ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2488.19403 31.27861 79.55 < 2e-16
drogaA 151.87124 3.64415 41.67 < 2e-16
drogaB 4.92268 0.46938 10.49 1.71e-12
drogaA:drogaB -3.00872 0.05752 -52.30 < 2e-16
---
Residual standard error: 32.59 on 36 degrees of freedom
Multiple R-squared: 0.9965, Adjusted R-squared: 0.9962
F-statistic: 3427 on 3 and 36 DF, p-value: < 2.2e-16
El modelo (aditivo) es
Tabla 35: Modelo de regresin lineal mltiple aditivo para el pulso post-
ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma E (Y | X2 , X3 )
1 0 0 0
2 0 1 0 + F
3 1 0 0 + M
4 1 1 0 + F + M
Tabla 36: Modelo de regresin lineal mltiple con interaccin, para el pulso
post-ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma X2 X3 E (Y | X2 , X3 )
1 0 0 0 0
2 0 1 0 0 + F
3 1 0 0 0 + M
4 1 1 1 0 + F + M + M:F
1 = 0 (79)
2 = 0 + F
3 = 0 + M
4 = 0 + F + M + F :M .
Vemos pues que ambos modelos (77) y (78) son equivalentes, ya que cono-
ciendo los parmetros de uno de ellos (los k por ejemplo) podemos despejar
los valores del otro (los h por ejemplo) por medio de las ecuaciones (79). O
al revs, obtener los k a partir de los h . La varianza del error se estimar
en forma conjunta en ambos modelos. La diferencia est en el significado
de los parmetros. En el modelo (78), k representa el valor esperado de la
variable respuesta en el grupo ksimo, mientras que en el modelo (77) los
h representan (algunas de) las diferencias entre los valores de las respuestas
medias entre los distintos grupos.
En las Tablas 37 y 38 se muestran los valores ajustados de los modelos
aditivos (76) y con interaccin (77).
Analicemos primero el modelo con interaccin. En la salida vemos que
el coeficiente de la interaccin no resulta significativo (el pvalor es 0,245
que no es menor a 0,05), por lo tanto concluimos que el efecto de fumar en
el pulso medio post-ejercicio de mujeres y varones es el mismo. Luego, para
los datos del pulso el modelo apropiado es el aditivo (76). En dicho ajuste
4.17 Interaccin entre dos variables cualitativas 183
Tabla 37: Ajuste del modelo lineal mltiple aditivo Yi = 0 + M Xi2 + F Xi3 +
i , donde X2 = indicador de mujer (mujer), X3 = indicador de fumar (fuma),
e Y = pulso post ejercicio (Pulso2).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 126.926 2.452 51.754 < 2e-16
mujer 18.064 3.027 5.967 6.96e-07
fuma 7.362 3.074 2.395 0.0218
---
vemos que todos los coeficientes son significativos, y que el hecho de fumar
aumenta el pulso post-ejercicio en 7,36 pulsaciones por minuto, cuando uno
controla por sexo. Es interesante graficar las cuatro medias muestrales y los
cuatro valores esperados bajo el modelo. Esos valores figuran en la Tabla 39.
Tabla 38: Ajuste del modelo lineal mltiple con interaccin Yi = 0 + M Xi2 +
F Xi3 + M:F Xi2 Xi3 + i , donde X2 = indicador de mujer (mujer), X3 =
indicador de fumar (fuma), Y = pulso post ejercicio (Pulso2).
Figura 59: Grfico de las medias muestrales de los cuatro grupos, de los datos
de pulso-post ejercicio.
4.17 Interaccin entre dos variables cualitativas 185
Tabla 39: Medias muestrales calculadas por grupos, comparadas con el ajuste
de los modelos sin y con interaccin, para el pulso post-ejercicio con covari-
ables X2 = mujer y X3 = fuma.
Grupo X2 X3 Media muestral E (Y | X2 , X3 ) sin interaccin
1 0 0 128,3333 b0 = 126,926
2 0 1 132,6 b0 +
bF = 126,926 + 7,362 = 134,29
3 1 0 143,5833 b0 +
bM = 126,926 + 18,064 = 144,99
4 1 1 155,1667 b0 +
bF + bM = 126,926 + 7,362
+18,064 = 152,35
Figura 60: Grficos de las medias de una variable respuesta Y para dos ejem-
plos ficticios, en las figuras A y B.
E (Y | X1 , X2 , X3 ) = 0 + 1 X1 + 2 X2 + 3 X3
+ 1:2 X1 X2 + 1:3 X1 X3 + 2:3 X2 X3
Figura 61: Matriz de scatter plots para los datos de bebs con bajo peso, con
las covariables edad gestacional y peso
> cor(infants[,c(1,3,4)])
headcirc gestage birthwt
headcirc 1.0000000 0.7806919 0.7988372 gestage 0.7806919 1.0000000
0.6599376 birthwt 0.7988372 0.6599376 1.0000000
5.2.1. Leverage
Vimos en la Observacin 4.5, en la Seccin 4.6 que los residuos no son
homoscedsticos. Y adems vimos que la varianza dependa del leverage de
una observacin, que tambin definimos en esa seccin a partir de la matriz
de proyeccin o hat matrix H. El leverage de la isima observacin ser el
elemento hii de la matriz de proyeccin, y en general ser calculado por el
software. En el caso de regresin mltiple, sin embargo, es mucho ms impor-
tante asegurarse que no haya observaciones potencialmente influyentes, o si
uno sospecha de algunas, estudiar cmo cambia el ajuste cuando esa obser-
vacin es eliminada de la base de datos. Para la deteccin de observaciones
potencialmente influyentes en regresin lineal simple, muchas veces basta mi-
rar con cuidado el scatter plot de los datos. El problema que aparece aqu es
que no podemos, en general, dibujar el scatter plot de los datos, por lo que
tendremos que calcular el leverage de cada observacin. El criterio para en-
contrar observaciones potencialmente influyentes ser la extensin del visto
anteriormente. El leverage alto indica que una observacin no sigue el patrn
de las dems covariables X. Nuevamente se tiene
X
n
0 hii 1 hii = p
i=1
Una evidencia adicional para declarar que una cierta observacin tiene
un leverage notoriamente alto, consiste en graficar un histograma de los hii y
ver si existe una brecha notoria que separa al mayor leverage o a un pequeo
conjunto de mayores leverages del resto de las observaciones.
SSResp
Rp2 = 1 ,
SST otal
resulta que comparar modelos usando el criterio de elegir aqul cuyo
Rp2 sea lo ms grande posible equivale a elegir aquel que tenga la menor
suma de cuadrados de residuos SSResp (ya que la suma de cuadra-
P 2
dos total SST otal = ni=1 Yi Y no depende de las covariables del
modelo ajustado y por eso permanece constante). Pero como ya ob-
servamos, el R2 aumenta al aumentar p 1, el nmero de covariables,
sean estas apropiadas para ajustar los datos o no. Es por eso que el
criterio no es identificar el modelo con mayor R2 (ese ser siempre el
modelo con todas las covariables disponibles) sino encontrar el punto a
partir del cual no tiene sentido agregar ms variables ya que estas no
inciden en un aumento importante del R2 . Muchas veces esto sucede
cuando se han incorporado unas pocas variables al modelo de regre-
sin. Por supuesto, encontrar el punto donde este aumento se empieza
a estancar es un asunto de criterio individual. Suele ser bastante in-
formativo graficar el mejor Rp2 en funcin de p y evaluar grficamente
cundo el crecimiento en el R2 es tan poco que no justifica la inclusin
de la covariable adicional.
2
Ra,p o MSEp : Como el Rp2 no toma en cuenta el nmero de parmetros
en el modelo de regresin, un criterio de decisin mucho ms objetivo
y automatizable es calcular y comparar modelos por medio del Ra2 . Lo
subindicaremos como Ra,p2
para indicar la cantidad de coeficientes 0 s
presentes en el modelo. Recordemos que
2 n 1 SSResp MSResp
Ra,p = 1 = 1 SST otal .
n p SST otal n1
200 Mara Eugenia Szretter
Si se usa un punto de corte muy exigente (digamos < 0,01) sern inclu-
das menos variables y existe la posibilidad de perder covariables importantes.
Si se usa un punto de corte menos exigente ( < 0,20) es menos probable
204 Mara Eugenia Szretter
Una vez que hemos seleccionado un modelo final usando cualquier pro-
cedimiento de seleccin, la inferencia realizada sobre ese modelo es slo
aproximada. En particular, los pvalores sern menores y los inter-
valos de confianza ms angostos que lo que deberan ser, puesto que
el modelo seleccionado es aqul que ms fuertemente refleja los datos.
(Hemos hecho uso y abuso de nuestros datos para obtener un modelo, es
de esperar que otra muestra aleatoria de observaciones del mismo tipo
a la que se le ajuste este modelo tenga menor capacidad predictiva).
Apndice A: Ejercicios
Ejercicio 1, de Correlacin (peso y presin)
140
135
130
125
Peso
xi yi
Persona (peso) (presin) xi x yi y ( x i x )2 ( y i y )2 (xi x )( yi y )
1 165 130 -3.182 -9.364 87.678 29.793
2 167 133 -1.182 -6.364 1.397 40.496 7.521
3 180 150
4 155 128 -13.182 -11.364 173.760 129.132 149.793
5 175 146 6.818 6.636 46.488 44.041 45.248
6 190 150 21.818 113.132 232.066
7 149 125 -14.364 367.942 206.314
8 158 133 -10.182 -6.364 103.669 40.496 64.793
9 169 135 0.818 0.669 19.041
10 170 150 10.636 3.306 19.339
11 172 153 3.818 13.636 14.578 185.950 52.066
Suma 1850 1533
Media 168.182 139.364
xi yi Rango Rango
Persona (peso) (presin) ( xi ) ( y i ) xi x yi y ( x i x )2 ( yi y )2 (xi x )( yi y )
1 165 130 -3 9 6
2 167 133 -1.5 2.25 1.5
3 180 150 3 9 12
4 155 128 -4 16 16
5 175 146
6 190 150 5 3 25 9
7 149 125 -5 25
8 158 133 -3 9
9 169 135 0 0 0
10 170 150 1 3 1 9 3
11 172 153 2 5 4 25 10
Suma 1850 1533 66 66
Media 168.182 139.364 6 6
Para analizar estos datos, el primer paso es construir un scatter plot de ellos.
En SPSS, por men: Grficos Cuadro de dilogos antiguos Dispersin
Dispersin simple Definir
a) Parece haber alguna evidencia de una relacin lineal entre los niveles de colesterol
y de triglicridos antes de la dieta?
210 Mara Eugenia Szretter
(x i x )( y i y )
Una vez completada la tabla, calcular r = i =1
n n
(x x) (y y)
2 2
i i
i =1 i =1
d) Calcular rs, el coeficiente de correlacin de Spearman para los datos. Para ello,
completar los valores correspondientes a los rangos de cada muestra y luego las dems
columnas de la siguiente tabla. Hemos puesto algunos valores para facilitar las cuentas.
Apndice A: Ejercicios 211
Observar que ac los que juegan el papel de xi y yi son los rangos de las respectivas
observaciones.
n
(x i x )( y i y )
Una vez completada la tabla, calcular rs = i =1
n n
(x x) (y y)
2 2
i i
i =1 i =1
e) Comparar r y rs.
f) Testear, a nivel 0.05, la hiptesis nula de que el coeficiente de correlacin poblacional
es igual a cero, pero esta vez usando el rs. Cul es su conclusin?
Hacerlo a mano. Recordar que t8, 0.975 = 2.306004. Son slo diez datos, la aproximacin
normal no ser lo mejor, pero la tomamos como vlida para no hacer tantas cuentas.
Con los datos del Ejercicio 1: Peso y la Presin Sangunea Sistlica (PSS) de
11 hombres seleccionados al azar en el grupo de edades de 25 a 30 aos
2. Ajustar una recta de cuadrados mnimos para las mismas variables del tem
anterior. Escribir la ecuacin de la recta estimada y graficarla en el diagrama de
dispersin.
Apndice A: Ejercicios 213
3. Qu PSS se espera que tenga un hombre, entre 25 y 30 aos, que pesa 160
libras?Y uno que pesa 180 libras?
4. Predecira un valor de PSS para un hombre, entre 25 y 30 aos, que pesa 240
libras? Justificar.
Ejercicio 1
Por men
Por sintaxis
SORT CASES BY VARON.
SPLIT FILE SEPARATE BY VARON.
CORRELATIONS
/VARIABLES=EDAD HORAS.
SPLIT FILE OFF.
y un diagrama de dispersin para cada gnero por separado (use Segmentar archivo
por men , o SPLIT FILE por sintaxis).
216 Mara Eugenia Szretter
Ejercicio 2
Abra y examine las variables del archivo ingresos1.sav. Corresponde a una base de
datos de 40 individuos, para los que se registraron las variables: Id (identificador, un
nmero entre 1 y 40 que identifica al nmero de observacin), educacin, edad y
salario. La variable educacin est codificada de 1 a 10, donde 1 corresponde al
menor nivel de educacin alcanzado y 10 al mayor. La variable salario corresponde al
salario bruto mensual (es decir, antes de impuestos), en dlares. La variable edad est
medida en aos.
d) Haremos un cambio de unidades en las que est expresada la variable salario, para
que las sumas de cuadrados queden expresadas en valores ms pequeos. Para ello
defina una nueva variable: sal (salario en cientos) que es igual a la variable salario
dividida por 100. Para ello:
Transformar calcular variable
Variable de destino: sal
Expresin numrica: salario/100
Ajuste una recta de cuadrados mnimos para la variable respuesta sal y la variable
explicativa educacin sin tener en cuenta la variable edad.
e) Para cada edad, ajuste una recta de cuadrados mnimos con sal como variable
respuesta y educacin como variable explicativa. Qu significa el coeficiente de la
variable explicativa en cada una de las regresiones ajustadas?
6. Apndice A: Ejercicios 219
Ejercicio domiciliario
14. Para cul de los valores posibles para X la pregunta anterior el inter-
valo a calcular resultar ms corto? Para cul (o cules) ms largo?
El objetivo de este ejercicio es ver cmo influyen las observaciones, aclarar lo que
quiere decir punto influyente y punto que sigue el modelo lineal. Pondremos
artificialmente observaciones atpicas y veremos cmo influyen sobre el ajuste
obtenido, y cmo las medidas de diagnstico (en este caso, el leverage y los residuos
estudentizados) reaccionan a esta contaminacin. Es ms un trabajo de simulacin
que de anlisis. Recordemos las definiciones: (segn el apunte de Diana Kelmansky):
Un dato atpico (outlier) en una regresin es aquel que no sigue la estructura de los dems datos,
en general produce un residuo grande.
Una observacin potencialmente influyente (con alta palanca) es aquella cuya variable
explicativa se encuentra lejos del promedio, al ser excluida del anlisis podra provocar un
cambio importante en la recta ajustada.
Si un dato yace fuera el patrn lineal, es decir que es un outlier, y tiene adems alta palanca, la
posicin de la recta de regresin estar influida por dicha observacin. La influencia de estos
puntos en la regresin por cuadrados mnimos generalmente garantiza que sus residuos no sean
demasiado grandes, pues acercan la recta ajustada hacia ellos. Un punto de alta palanca que no
sigue el patrn lineal puede quedar enmascarado y no aparecer con un residuo grande.
No sirve buscar simplemente residuos grandes ya que puntos de alta palanca fuera del patrn
lineal general podran producir residuos pequeos.
Los puntos influyentes y los valores atpicos son fciles de detectar mientras haya una sola
variable explicativa. Un diagrama de dispersin clsico, de y versus x, alertar adems sobre las
observaciones que son extremas en x y que pueden por lo tanto ser influyentes. Una observacin
influyente debera ser investigada para asegurarse que es correcta. Incluso cuando no se halle error
se debera determinar si esa observacin pertenece a la poblacin en estudio.
Las medidas de influencia se calculan caso por caso, como los residuos, los residuos
estandarizados y los residuos estudentizados. El leverage de la observacin isima queda definido
por
1 ( xi - x ) 2
h ii = +
n n
( x k - x ) 2
k =1
Otras medidas son la distancia de Cook, los DFFITS, los DFBETAS. Como su anlisis es similar,
nos dedicaremos a mirar en detalle al leverage.
Un caso influyente es aquel que produce cambios importantes en el ajuste de la regresin cuando
ese punto se omite. Uno de los objetivos principales del diagnstico es la deteccin y el estudio de
estos casos potencialmente influyentes. Los siguientes estadsticos miden el efecto que produce
eliminar la observacin i-sima:
1. Distancia de Cook (COO). Puede interpretarse como un efecto global sobre todos los
coeficientes estimados y tambin como el efecto sobre el valor predicho y i .
2. DFFITS. Mide el efecto sobre el valor predicho y i
3. DFBETA. Mide el efecto sobre cada coeficiente estimado.
222 Mara Eugenia Szretter
Las tres medidas estn relacionadas. Las dos primeras son muy similares y debe elegirse una de
ellas si el inters est en la prediccin. En cambio el inters est en la estimacin de un parmetro
de la regresin el DFBETA para ese parmetro ser de mayor utilidad.
Resumen de la forma en que puede afectar un nico dato el ajuste de una recta por el mtodo de
Cuadrados Mnimos
Dato con Cae dentro del patron lineal Cae fuera del patron lineal
alta palanca determinado por los dems determinado por los dems
Aumenta el R2 y reduce el p-valor del Modifica los coeficientes estimados,
S coeficiente estimado de la variable puede tener residuo chico por
explicativa enmascaramiento
No Bien Tiene residuo grande, aumenta el s2,
aumenta la longitud de los intervalos de
confianza
Ejercicio 1
a) Abra los datos que se encuentran en el archivo low birth weight infants.sav.
Corresponden a los datos que analizamos en clase, tratados en el libro de Pagano y
Gauvreau:
Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition, Duxbury
Thomson Learning. 2000.
Haremos una regresin lineal con pesokg como explicativa y headcirc como
variable dependiente.
Apndice A: Ejercicios 223
c) Escriba el modelo propuesto, con lpiz (bueno, puede ser lapicera) y papel. Indique
qu significan 0 y 1.
d) Realice el ajuste por cuadrados mnimos. Guarde los residuos estandarizados, los
residuos estudentizados y los valores de influencia para utilizarlos ms adelante. Observe
cmo se ha modificado el archivo contiene que los datos. Describa cada una de las nuevas
variables que aparecen.
Guardar:
Valores pronosticados (o sea, predichos): No tipificados
Residuos:
- No tipificados (son los residuos que conocemos)
- Tipificados (son los estandarizados, se los divide por un estimador de
sigma)
- Mtodo de Student (son los residuos estudentizados)
Distancias:
- Valores de influencia (leverage centrado)
- Distancias de Cook
g) Prediga el permetro ceflico medio para la poblacin de bebs que pesaron 820g. al
nacer. Lo mismo para los bebs de 1200g.
i) Calcule los intervalos de confianza y los intervalos de prediccin de nivel 95% para
los casos del tem g).
224 Mara Eugenia Szretter
Guardar:
Intervalos de pronstico: tildar en media y en individuos. Verificar el nivel de
confianza. Volver a mirar el conjunto de datos para interpretar los valores calculados
por el paquete.
j) Hacer un grfico de residuos (los que quiera, no difieren mucho entre s en este caso)
versus la covariable X. Y tambin un grfico de residuos versus predichos. Son muy
diferentes? Tenemos evidencia de que no se cumplan los supuestos del modelo lineal?
Podemos identificar en este grfico alguna observacin con residuo alto? Hay alguna
observacin influyente en este conjunto de datos?
k) Se ven valores potencialmente influyentes o outliers? Chequee esto por medio de los
estadsticos calculados para ello. Es decir, hay observaciones con leverage fuera de los
rangos admisibles? Para eso, hacer un
Analizar Estadsticos descriptivos Descriptivos: Variable: centered leverage
l) Identificaremos algunas observaciones con alto leverage, que superan uno de los dos
criterios de corte (aunque estn muy lejos del otro). Si uno observa en el diagrama de
dispersin de las observaciones, estos puntos siguen el patrn lineal y no resultarn
influyentes.
Identificamos una observacin con alto residuo (el caso 31), sin embargo no tiene ni
alto leverage ni distancia de Cook anmala (no supera el percentil 0.5 de una F(2,98)
aunque s est por encima del percentil 0.2 de dicha distribucin), luego no estara mal
estudiarla. Una posibilidad es quitarla de la base de datos y volver a ajustar el modelo
sin ella. Hacerlo. Qu puede concluir?
Para hacerlo, genere una variable caso que identifique los casos. Esto le permitir
identificar los casos cuando el archivo de datos no tenga el orden original y seleccionar
los casos por nmero. Se puede generar una variable conteniendo el nmero de caso
utilizando la funcin $CASENUM de la siguiente manera:
m) Ahora contaminemos los datos. Agreguemos dos datos a la base: los casos 101 y 102
que figuran a continuacin.
n) Repetir el punto d) e) y h) para los 102 datos. Comparar el ajuste obtenido. Hacer un
histograma de los leverages en este caso. Calcule tambin las distancias de Cook.
Se ven valores potencialmente influyentes o outliers? Chequee esto por medio de los
estadsticos recin calculados. Es decir, hay observaciones con leverage o distancias de
Cook fuera de los rangos admisibles?
1 al 101
1 al 100
y 102
Al hacer el ajuste sin la observacin 101 debera verse que el ajuste resultante es muy
parecido al original, suben un poco los niveles de significatividad y algo el R cuadrado.
El 102 es un punto influyente que sigue el modelo lineal. No tiene residuo grande.
Al hacer el ajuste sin la observacin 102 cambia mucho el ajuste original, cambian los
parmetros estimados, baja mucho el R cuadrado. El caso 101 es un punto influyente
que no sigue el modelo lineal. Su residuo es grande.
Ejercicio 2
Ejercicio 1
Para los datos de nios de bajo peso, se encontr una relacin lineal significativa entre
la presin sistlica y la edad gestacional. Los datos estn el archivo lowbwt. Las
mediciones de presin sistlica estn guardadas bajo el nombre sbp, y las
correspondientes edades gestacionales en gestage. Tambin en ese archivo figuran los
datos de apgar5, el score Apgar a los 5 minutos para cada nio recin nacido. (El score
Apgar es un indicador del estado general de salud del nio a los 5 minutos de haber
nacido; aunque en realidad es una medida ordinal se lo suele tomar como si fuera
continua).
c) Cul es la presin media estimada para la poblacin de nios de bajo peso cuya
edad gestacional es 31 semanas y cuyo score Apgar es 7?
Ejercicio2
1. Un modelo lineal simple con salario como variable respuesta y educacin como
variable explicativa: vimos que haba una asociacin negativa entre ellas, lo cual era
ilgico.
228 Mara Eugenia Szretter
2. 4 modelos lineales simples basados en 10 datos cada uno, con salario como
variable respuesta y educacin como variable explicativa, pero separados por
tramos de edad (edad = 20, 30, 40 y 50, respectivamente).
Para este modelo, cules son los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza?
Interprete los parmetros del modelo. Recuerde, en su respuesta a esta pregunta debera
aparecer una frase que comience ms o menos as: Para cada aumento de 1 ao en la
edad ....
D los parmetros estimados. Mejor an, escriba el modelo ajustado, con lpiz y papel.
d) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene a educacion y a edad como
explicativas?
Ejercicio 3
a) Considere el modelo que slo contiene edad gestacional como covariable (modelo
lineal E (Y gestage ) = 0 + 1 gestage ), agregue la variable sex al modelo (vale 1 si
el beb es varn y 0 si es nena). Ajuste el modelo. Comente la significatividad de
los parmetros. Dados dos nios con igual edad gestacional, uno varn y otro nena,
cual tendr presin sistlica ms alta? Por qu?
media de los varones con una edad gestacional fija significativamente distinta de la
presin sistlica media de las nenas con la misma edad gestacional?
Ejercicio 4
Observe que para este modelo, los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza son los mismos que
antes.
Interprete los parmetros del modelo. Debera quedar clara la diferencia con el modelo
B. Si no es as, pregunte hasta aclararlo!!
Para hacerlo, es necesario crear una nueva variable que sea el producto de las variables
educacin y edad.
Para eso, ir al men: Transformar Calcular variable
Variable de destino: educ.edad
Expresin numrica: educacion*edad
c) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene educacion, edad y la
interaccin entre educacin y edad como explicativas? Con cul de los dos
modelos (B o C) se quedara?
Como la edad toma 4 valores, nos bastar con poner 3 dummies. Queda claro esto? Las
dummies sern:
edad_20 = Indicadora del grupo cuya edad es igual a 20
edad_30 = Indicadora del grupo edad edad es igual a 30
230 Mara Eugenia Szretter
Repetir para crear las otras dos dicotmicas: edad_30 y edad_40. Tal vez haya una
mejor manera de hacer esto...
El modelo D es entonces:
f) Evale la bondad del ajuste con el test F. Testee si es significativa la inclusin de las
variables dummies de edad (o sea la variable edad como cualitativa) cuando en el
modelo aparece la educacin. (Recuerde que esto se responde con otro test F). Diga
si los coeficientes son significativos. Evale la adecuacin del modelo con el R2.
Qu porcentaje de variabilidad del salario queda explicada por el modelo que tiene
a educacion y a edad como explicativas? Con cul de los modelos se quedara?
El modelo E es entonces:
Antes de responder a las mismas preguntas de los otros modelos, diga cul es la
diferencia (si la hay) entre este modelo y los 4 modelos lineales simples basados en 10
datos cada uno, con salario como variable respuesta y educacin como variable
explicativa, pero separados por tramos de edad (edad = 20, 30, 40 y 50,
respectivamente) que fueron ajustados en el Taller 1.
Apendice B Salidas del SPSS para regresion multiple 231
Estadsticos descriptivos
Desviacin
Media tpica N
Permetro ceflico al nacer 26,45 2,532 100
Edad gestacional 28,89 2,534 100
Peso 1098,85 269,993 100
Correlaciones
Permetro Edad
ceflico al nacer gestacional Peso
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 477,327 2 238,663 147,058 ,000a
Total 634,750 99
Coeficientesa
Coeficientes no estandarizados
Modelo B Error tp.
1 (Constante) 8,308 1,579
Coeficientesa
Desviacin
Mnimo Mximo Media tpica N
[Conjunto_de_datos2] D:\reglin\her1.sav
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 exercise . Introducir
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 25456,730 1 25456,730 18,869 ,000a
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Frecuencias
Estadsticos
diabetes
N Vlidos 2763
Perdidos 0
diabetes
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Estadsticos
Diabetes
N Vlidos 2032
Perdidos 0
diabetes
Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 exercise . Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: glucose
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 1412,504 1 1412,504 14,965 ,000a
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Informe
Glucose
Prueba T
Estadsticos de grupo
Error tp. de la
Exercise N Media Desviacin tp. media
F Sig.
glucose Se han asumido varianzas 1,762 ,184
iguales
No se han asumido
varianzas iguales
Apendice B Salidas del SPSS para regresion multiple 237
Diferencia de
t gl Sig. (bilateral) medias
Regresin
[Conjunto_de_datos2] D:\reglin\her1.sav
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 BMI, exercise . Introducir
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Regresin
DATASET CLOSE Conjunto_de_datos1.
RECODE physact0 (1=0) (2=1) (3 thru 5=0) INTO Iphysact_2.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=1) (4 thru 5=0) INTO Iphysact_3.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (5=0) (4=1) INTO Iphysact_4.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (4=0) (5=1) INTO Iphysact_5.
EXECUTE.
Apendice B Salidas del SPSS para regresion multiple 239
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Iphysact_5, . Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 BMI, . Introducir
Iphysact_4,
Iphysact_2,
Iphysact_5,
Iphysact_3
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Dependientes: glucose
Bloque 1 de 1
Independientes: BMI
Mtodo: Introducir
Siguiente
Bloque 2 de 2
Independientes:
BMI
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5
Mtodo: Introducir
Siguiente
Regresin
[Conjunto_de_datos3] D:\datos\her1.sav
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
a
1 BMI . Introducir
2 Iphysact_4, . Introducir
Iphysact_2,
Iphysact_5,
Iphysact_3
Estadsticos de cambio
ANOVAc
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Variables excluidasb
Estadsticos de
Correlacin colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
a
1 Iphysact_2 ,116 5,454 ,000 ,120 ,999
Dependientes: glucose
Bloque 1 de 1
Independientes:
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5
244 Mara Eugenia Szretter
Mtodo: Introducir
Siguiente
Bloque 2 de 2
Independientes:
BMI
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5
Mtodo: Introducir
Siguiente
Se obtiene
Regresin
[Conjunto_de_datos3] D:\datos\her1.sav
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Iphysact_5, . Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4
2 BMIa . Introducir
Estadsticos de cambio
ANOVAc
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error tp. Beta t Sig.
Variables excluidasb
Estadsticos de
Correlacin colinealidad
Modelo Beta dentro t Sig. parcial Tolerancia
a
1 BMI ,175 9,288 ,000 ,202 ,966
Referencias
[1] Draper N., Smith H. Applied Regression Analysis. Third Edition, Wiley
Series in Probability and Statistics, 1998.
[2] Field, A. Discovering Statistics Using SPSS. 2nd. ed. SAGE Publications
LTD, London UK. 2007.
[4] Hulley, S., Grady, D., Bush, T., Furberg, C., Herrington, D., Riggs, B .
and Vittingho, E. (1998). Randomized trial of estrogen plus progestin
for secondary prevention of heart disease in postmenopausal women.
The Heart and Estrogen/progestin Replacement Study. Journal of the
American Medical Association, 280(7), 605613.
[5] Leviton, A., Fenton, T., Kuban, K. C. K., Pagano, M., Labor and
Delivery Characteristics and the Risk of Germinal Matrix Hemorrhage
in Low Birth Weight Infants, Journal of Child Neurology, Volumen 6,
October 1991, 35-40.
[6] Kutner, M. H., Nachtsheim, C. J. , Neter, J., Li, W. Applied linear statis-
tical models. 5th ed. McGraw-Hill/Irwin series Operations and decision
sciences. 2005.
[9] Pinheiro, J., Bates, D. Mixed-Eects Models in S and S-plus. New York:
Springer. 2000.
[15] Weisberg, Sanford. Applied linear regression. 3rd ed. Wiley series in
probability and statistics, 2005.