Escolar Documentos
Profissional Documentos
Cultura Documentos
Y = 0 + 1 X 1
Cuando hay ms de una variable explicativa (modelo de regresin lineal mltiple), se utiliza un
subndice para cada una de ellas, por ejemplo, para el caso de dos variables explicativas:
Y = 0 + 1 X 1 + 2 X 2
Como en la ecuacin de regresin lineal simple hay una nica variable predictora,
simplificaremos la expresin de la ecuacin de la recta a:
Y = 0 + 1 X
Ejemplo de aplicacin de un modelo de regresin lineal simple a fin de modelar la distribucin
conjunta de las variables Estrategias de afrontamiento y Estrs. En este ejemplo concreto, el
modelo de regresin se concreta en el ajuste a los datos de la siguiente ecuacin de regresin
100
100
80
80
60
60
40
20
0
0
20
40
60
80
100
40
20
0
0
Estrategias de afrontamiento
20
40
60
80
100
Estrategias de afrontamiento
Los dos parmetros de la ecuacin de regresin lineal simple, 0 y 1, son conocidos como el
origen (tambin, constante) y la pendiente del modelo, respectivamente. En conjunto reciben el
nombre de coeficientes de la ecuacin de regresin.
Una vez que sean conocidos los valores de 0 y 1 del modelo de regresin lineal simple, ste
puede ser utilizado como modelo predictivo, esto es, para realizar predicciones de los valores que
tomar la variable de respuesta para determinados valores de la variable explicativa. Basta para ello
con sustituir en la ecuacin de regresin el valor concreto de X que se quiera (Xi). Al hacerlo, se
obtendr el valor predicho para Y segn la ecuacin de regresin para aquellos casos que en la
variable X tomen el valor Xi. Este valor es conocido de forma genrica como puntuacin predicha,
siendo representado simblicamente como Yi ' o Yi :
Yi = 0 + 1 X i
Ejercicio 1: A partir de la distribucin conjunta de las variables cuantitativas X e Y y el
correspondiente diagrama de dispersin, dibujad la recta de regresin que mejor se ajuste a la nube
de puntos. Cul ser la ecuacin de la recta de regresin dibujada?, cules sern, por tanto, los
valores de 0 y 1? Obtener los valores predichos en Y para distintos valores de X.
X
2
4
5
6
8
Y
5
9
11
13
17
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
Ei = Yi Yi
Yi = Yi + Ei
Ejemplo de los conceptos presentados para las dos siguientes variables X e Y (n = 5):
Y
6
9
10
14
15
14
12
10
X
2
4
5
6
8
Y = 2,8 + 1,6 X
Sq r lineal = 0,934
Utilizando la ecuacin de regresin ajustada a los datos, qu error cometemos al predecir Y a partir
de X para cada uno de los 5 casos?
Por ejemplo, para el cuarto sujeto en la tabla (X4 = 6), el valor predicho es 12,4 ( Y4 = 2,8+1,66) y el
error de prediccin o residual es 1,6 (E4 = 1412,4). Del mismo modo, para el resto de casos:
X
2
4
5
6
8
6
9
10
14
15
Y
6,0
9,2
10,8
12,4
15,6
E
0
-0,2
-0,8
1,6
-0,6
Adelantar que la columna de los errores de prediccin constituye un elemento de informacin clave
a la hora de tratar el concepto de bondad de ajuste del modelo de regresin, algo que se abordar en
una seccin posterior.
Grficamente, el residual correspondiente a cualquier punto del diagrama de dispersin viene
representado por su distancia vertical a la recta de regresin, tal como se muestra abajo para el caso
4 de la muestra.
14
1412,4 = 1,6
12
10
Sq r lineal = 0,934
0
0
Otro ejemplo (Losilla y cls., 2005) para el caso de las variables X e Y cuyo diagrama de dispersin
se muestra a continuacin, siendo la correspondiente ecuacin de regresin: Y = 0,6 + 0,45X
A la derecha se muestra la puntuacin predicha segn el modelo de regresin para la puntuacin Xi
= 1,65 y el correspondiente error de prediccin para este caso:
En cuanto que representa el incremento en Y por cada incremento de X en una unidad, el valor de la
pendiente estar expresado en las mismas unidades que la variable de respuesta Y.
Valores que puede tomar 1 : Puede tomar valores tanto positivos como negativos, siendo
mayores en valor absoluto cuanto mayor sea la pendiente de la recta de regresin. Sera igual a 0 si
la recta de regresin fuese horizontal. A continuacin se muestran 4 ejemplos que muestran el
vnculo directo entre el valor de y el tipo de relacin existente entre las variables:
Y
1 > 0
X
Figura A. Relacin lineal positiva (directa).
Y
1 < 0
X
Figura B. Relacin lineal negativa (inversa).
1=0
X
Figura C. Ausencia de relacin.
1 = 0
X
Figura D. Relacin no lineal: curvilnea.
En la figura A la relacin entre X e Y es positiva (1>0), lo cual indica que cada incremento de una
unidad en X producir un incremento en Y igual al valor de la pendiente. En la figura B la relacin
es inversa (1<0), por tanto, cada incremento de una unidad en X producir un decremento en Y
igual al valor de la pendiente. En la figura C y la figura D, 1=0 y, por tanto, la recta de regresin es
paralela al eje de abscisas, poniendo de manifiesto que no existe relacin lineal entre X e Y.
Anlisis y Proceso de Datos en Psicologa: T.13
Ejemplo: A continuacin se presentan los datos de un estudio cuyo objetivo fue investigar el efecto
de las estrategias de afrontamiento (X) de los sujetos sobre su nivel de estrs (Y). En los siguientes
apartados veremos cmo obtener el valor de los dos coeficientes del modelo de regresin lineal (lo
que se conoce como el ajuste o identificacin del modelo), cmo utilizarlo para realizar
predicciones en Estrs a partir del valor de Afrontamiento de los sujetos, y cmo valorar la
calidad de dichas predicciones (lo que se conoce como el anlisis de la bondad de ajuste o
capacidad predictiva del modelo).
En la tabla inferior se muestran las puntuaciones recogidas a partir de una muestra de 27 sujetos en
una escala observacional de estrs y en un test de afrontamiento. El rango de puntuaciones en
ambas va de 0 a 100, de modo que a mayores puntuaciones, mayor estrs y mayor capacidad de
afrontamiento, respectivamente.
Caso
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
Estrs
61 26 32 22 38 80 17 10 47 15 50 25 50 30 78 10 35 31 4
7 17 37 45 50 67 70
Afronta 38 80 40 84 62 18 65 78 22 60 50 58 20 45 19 84 63 43 87 84 83 85 35 15 29 28 35
100
80
60
40
20
0
0
20
40
60
80
100
Estrategias de afrontamiento
Criterio SE
Ei
Criterio SAE
| Ei |
Criterio SCE
Ei2
Recta A:
Y = 3 + 1.4 X
0+6+(6) = 0
0+6+6 = 12
0+62+ (6)2 = 72
Recta B:
Y = 7.3 + 0.2 X
6+0+0 = 6
6+0+0 = 6
(6)2+0+0 = 36
Recta C: Y = 3 + 0.5 X
3+(3)+0 = 0
3+3+0 = 6
32+(3)2+0 = 18
0+6+0 = 6
0+6+0 = 6
0+62+0 = 36
Recta D:
Y = 1 + 0.8 X
SE: Sumatorio de los errores; SAE: Sumatorio de valores absolutos de los errores; SCE: Sumatorio de cuadrados de los errores
La tabla anterior (Losilla y cls, 2005) ilustra grficamente la diferencia entre el uso de tres
criterios distintos a la hora de evaluar la magnitud del error de prediccin: la suma de los errores
(SE); la suma de los valores absolutos de los errores (SAE); y la suma de los cuadrados de los
errores (SCE). Como puede observarse, el criterio SE enmascara la posible existencia de errores de
gran magnitud que, al sumarse y ser de distinto signo, se compensan entre s dando lugar a un valor
de SE que puede llegar a ser bajo o incluso nulo. Tanto el criterio SAE como el SCE salvan este
inconveniente, sin embargo, el criterio SCE se ve favorecido por la existencia de errores que, en
general, sean tan bajos como sea posible, pues los errores individuales altos, al elevarse a cuadrado,
se convierten en nmeros muy grandes. En resumen, la ventaja del criterio SCE estriba en que su
valor ser ms bajo cuando globalmente los errores para todas las observaciones sean pequeos,
algo que resulta deseable para una recta que represente a todos los datos y que pueda utilizarse a la
hora de realizar predicciones.
Dadas la ventaja del criterio SCE frente a otros a la hora de evaluar la magnitud de los errores de
prediccin, ste ha sido el considerado por uno de los mtodos ms utilizados en la prctica a la
hora de estimar los coeficientes de la ecuacin de regresin, el denominado mtodo de mnimos
cuadrados ordinarios, segn el cual la mejor recta de regresin de entre todas las posibles ser
aqulla para la que la SCE sea mnima:
min( SCE ) = min ( Ei2 ) = min
( (Y Y ) )
2
Y
X
0 = Y 1 X
Y en el caso que los mismos deban ser estimados a partir de datos muestrales, los mejores
estimadores de los anteriores parmetros son los siguientes estadsticos:
1 b1 = rXY
sY
sX
o rXY
s 'Y
s 'X
0 b0 = Y b1 X
Ejercicio 2:
a) Obtener el valor de los coeficientes b0 y b1 para el ejemplo sobre afrontamiento y estrs, teniendo
en cuenta los siguientes resultados: rxy= 0,847; sX = 24,8; sY = 22,37; X = 52,22 e Y = 35,56
b) Plantear la ecuacin de la recta de regresin.
c) Qu prediccin de estrs haramos para un sujeto con una puntuacin de 78 en la escala de
afrontamiento (Xi = 78)? Cul sera el error de prediccin (Ei) para este sujeto?
d) Interpretar los coeficientes de la recta de regresin
e) Dibujar (de forma aproximada) la recta de regresin sobre el diagrama de dispersin de las
variables presentado anteriormente.
f) A continuacin se muestran los outputs obtenidos con el programa SPSS del anlisis de regresin
para este ejemplo. Identificar en los mismos los resultados obtenidos anteriormente.
Resumen del modelo
Modelo
1
R
R cuadrado
.847a
.717
R cuadrado
corregida
.705
Error tp. de la
estimacin
12.14
Modelo
1
(Constante)
Estrategias de
afrontamiento
Coeficient
es
estandari
Coeficientes no
zados
estandarizados
B
Error tp.
Beta
75.425
5.532
-.763
.096
-.847
t
13.634
Sig.
.000
-7.951
.000
Un mal uso que puede darse en la utilizacin del modelo de regresin lineal como modelo
predictivo consiste en realizar predicciones para valores de X que se hallen fuera del rango de
valores a partir del que se estimaron los parmetros de la ecuacin de regresin, dado que la
relacin entre X e Y puede ser distinta a la estimada ms all de dichos lmites. Grficamente, un
ejemplo en el que se dara esta situacin:
10
dispersin (Losilla y cls, 2005) es ajustada por el mismo modelo de regresin lineal, esto es, la recta
de regresin es la misma para ambas distribuciones conjuntas. Sin embargo, tal como se puede
intuir a nivel visual, en la figura de la izquierda los errores de prediccin sern menores en su
10
10
10
12
14
16
18
20
22
24
26
28
0
10
X1
12
14
16
18
20
22
24
26
X2
i =1
i =1
11
La suma de cuadrados de los errores puede oscilar entre 0 y cualquier valor positivo. Si este
sumatorio da 0, el modelo de regresin se ajusta perfectamente a los datos; cuanto mayor sea su
valor, ello significar que ms errneas son las predicciones de la ecuacin de regresin y, por lo
tanto, peor su bondad como modelo predictivo. Consecuencia de esta ausencia de un techo
numrico, este ndice puede resultar difcil de interpretar en la prctica.
Un ndice derivado del anterior es el que se obtiene como media aritmtica del cuadrado de los
errores de prediccin, esto es, el resultado de dividir la SCE por n, el cual se denomina como media
cuadrtica de los errores (MCE) o, tambin, varianza de los errores ( SY2 X ). De nuevo, este ndice
adolece del mismo problema de interpretacin que SCE.
n
(Yi Yi ) 2
MCE (o SY2 X ) = i =1
Otro ndice que supera el problema interpretativo de los dos anteriores ha sido propuesto tras
tomar como punto de referencia una relacin bsica que se da cuando se ajusta un modelo de
regresin lineal a 2 (o ms) variables. Es la que se conoce como igualdad de la descomposicin de
la varianza de Y, la cual se deriva de la premisa bsica que establece que la puntuacin observada en
la variable de respuesta es igual a la predicha segn el modelo de regresin ms el error de
prediccin cometido: Yi = Yi + Ei . A partir de la anterior igualdad se puede derivar algebraicamente
la siguiente: SCY = SCY ' + SCY X , o lo que es lo mismo:
n
i =1
i =1
i =1
12
La anterior razn, conocido como coeficiente de determinacin (R2), puede tambin expresarse en
forma de razn de cuasi-varianzas o de sumas de cuadrados:
'
s 2 s 2 SC
R = Y2' = Y2'' = Y '
sY sY
SCY
2
Destacar que, en el caso del modelo de regresin lineal simple, el coeficiente de determinacin
puede ser tambin calculado elevando al cuadrado el coeficiente de correlacin de Pearson entre la
2
variable predictora y la variable de respuesta R 2 = rXY
, lo cual puede facilitar enormemente el
Ejemplo (Botella y cls. 2001, p. 218, ejercicio 12): Calcular la recta de regresin de Y sobre X a
Y
2
11
9
3
10
13
Y
2
11
9
3
10
Y = 2, 08 + 0,82 X
5,36
8,64
11,1
3,72
6,18
(Yi Yi ) 2
11,29
5,57
4,41
0,52
14,59
(Yi Y ) 2
2,69
2,69
16,81
10,76
0,67
sY2 X = 7,28
sY2' = 6,71
(= 0,692)
rendimiento en el curso, cuantificado como el promedio de las calificaciones de las asignaturas del
curso (Y); y el promedio de horas de estudio semanal durante el curso, obtenido a partir de autoinforme de los propios estudiantes (X). Los datos obtenidos son los que se muestran a continuacin:
X
5
12
7
9
15
10
12
8
18
14
Y
3
6
4
5
9
6
6
5
9
7
14
Obtener a partir de los mismos: (1) medias y desviaciones tpicas de las dos variables [a mano o,
mejor, con la calculadora]; (2) el coeficiente de correlacin de Pearson entre ambas variables
[dem]; (3) la ecuacin del modelo de regresin lineal de Y sobre X [dem]; (4) los valores predichos
por la ecuacin de regresin para cada sujeto ( Yi ); (5) los errores de prediccin o residuales para
cada sujeto (Ei); (6) la varianza de los errores ( sY2 X ); (7) la varianza de Y ( sY2 ); (8) la varianza de las
puntuaciones predichas ( sY2 ) [a mano o, mejor, con la calculadora]; (9) comprobar que es cierta la
2
2
2
igualdad de la descomposicin de la varianza ( SY = SY + SY X ); (10) el coeficiente de determinacin
[de dos formas: (10.1) a partir de las varianzas; (10.2) a partir del coeficiente de correlacin entre X
e Y]; (11) interpretar las estimaciones puntuales de los parmetros de la ecuacin de regresin
obtenidos (b0 y b1); (12) estimar segn el modelo de regresin obtenido cul ser la puntuacin
media obtenida a final de curso para un estudiante que dedique 16 horas de estudio a la semana de
promedio.
Ejercicio 5: A continuacin se muestran los outputs del anlisis de regresin obtenidos con el
programa SPSS para los datos del ejercicio anterior. Identificar en los mismos los resultados
obtenidos en el ejercicio anterior (apartados 2, 3 y 6 a 10).
Resumen del modelo
Modelo
1
R
.964(a)
R cuadrado
.930
R cuadrado
corregida
.921
Error tp. de la
estimacin
.546
ANOVA
Modelo
1
Regresin
Suma de cuadrados
31.613
gl
1
Media cuadrtica
31.613
Residual
2.387
.298
Total
34.000
F
105.935
Sig.
.000(a)
Coeficientes no
estandarizados
Coeficientes
estandarizados
(Constante)
Error tp.
.533
Beta
B
.810
Horas_estudio
.472
.046
.964
Sig.
1.519
.167
Lmite
inferior
-.419
Lmite
superior
2.039
10.292
.000
.366
.578
Ejercicio 6: En el ejemplo de Afrontamiento y Estrs sabemos que rXY = 0,847 y que SY = 22,37
15
De los dos parmetros del modelo de regresin lineal simple, nos vamos a centrar nicamente en
el parmetro asociado a la variable predictora (1) -la pendiente de la ecuacin de regresin- pues,
en la prctica, el contraste de hiptesis ms habitual es acerca de si 1 es significativamente distinto
de 0. Este contraste se utiliza para valorar si se puede considerar como significativamente distinta
de 0 la contribucin de la variable X (1 0) como predictora de la variable Y.
Estimacin por IC de 1 Teniendo en cuenta que el error estndar de la distribucin muestral del
estadstico b1 se obtiene segn:
EE (b1 ) =
SCY X
(n 2) SC X
la estimacin por IC del parmetro 1 , con un nivel de confianza (1-), vendr dada por:
SCY X
SCY X
; b1 + t( n 2)(1 )
IC (1 )( 1 ) = b1 + t( n 2)( )
2
2
(n 2) SC X
(n 2) SC X
Contraste de hiptesis: Siguiendo el procedimiento basado en ICs ya visto para otros casos, se
puede plantear cualquier contraste de hiptesis acerca del valor de 1 planteando el IC entorno al
valor de b1 obtenido a nivel muestral. Se decidir en funcin del IC obtenido y de la afirmacin
planteada en la Ho.
Ejercicio 7: Obtener la estimacin por IC del parmetro 1 correspondiente a la ecuacin de
regresin del ejercicio anterior ( = 0,05). Intentarlo tambin para el parmetro 0 a partir del error
estndar/tpico de este estadstico que se ofrece en la tercera tabla de resultados del SPSS. Se
puede decir que el tiempo de estudio (X) es un predictor estadsticamente significativo del
rendimiento acadmico (Y) => He : 1 0?
t(8)(0,05/2) = -2,31; t(8)(1-0,05/2) = 2,31
Ejercicio 8: En un estudio en enseanza primaria en que se pretenda poner de manifiesto la posible
influencia de las expectativas que de los estudiantes tienen los profesores sobre el rendimiento
acadmico de los mismos, se obtuvo a partir de una muestra de 200 estudiantes la siguiente
ecuacin de regresin: Y = 5,7 + 0,20X A partir de este resultado, se puede considerar
estadsticamente significativa la contribucin de la variable expectativas del profesor a la hora de
predecir el rendimiento acadmico de los estudiantes?
16
El IC de la puntuacin predicha en Y por el modelo de regresin para los sujetos que tienen una
determinada puntuacin Xi en la variable predictora, se obtiene a partir de la siguiente expresin:
2
SCY X 1 ( X i X ) '
'
IC (1 )(Y ) = YX i + t( n 2)( )
; YX + t
1+ +
EE (Y ')
SC X i ( n 2)(1 2 )
(n 2) n
'
Xi
100
80
Bandas de
prediccin
60
40
20
0
0
20
40
Xi
17
60
80
100
5. Comparacin de modelos
La comparacin de modelos representa una tcnica de anlisis que permite comparar la bondad de
dos modelos de regresin, esto es, cul de los dos es mejor en la prediccin de una variable de
respuesta (Y).
Un requisito de esta tcnica es que uno de los modelos a comparar debe estar anidado en el otro,
esto es, si un modelo contiene una serie de variables predictoras, el otro contendra esas mismas
variables y alguna adicional. Al primero se le suele denominar como modelo anidado o restringido,
(MR), mientras que al segundo como modelo ampliado (MA).
La cuestin a la que nos va permitir contestar la tcnica de comparacin de modelos es si el MA
vale la pena frente al ms parsimonioso MR, es decir, en qu medida la inclusin de una nueva
variable(s) predictora X en el MR supone una mejora significativa de las predicciones de Y respecto
a las que se realizaran sin contar con esa variable X adicional.
En el caso del modelo de regresin lineal simple, la nica comparacin de modelos posible es la
del modelo con una variable predictora frente al modelo sin ninguna variable predictora (tambin
conocido como modelo nulo, MN):
Y ' = 0 + 1 X
vs. Y ' = 0
( SCY X MR SCY X MA )
F=
SCY X MA
( pMA pMR )
(n pMA )
18
En el caso en que el MR sea un MN, como ser en el caso de la regresin lineal simple, la
expresin del estadstico F para la comparacin de modelos se simplifica. As, la hiptesis de que
no hay diferencias entre un MN y un MA (H0: 1 = 0 ), se puede contrastar ms fcilmente a travs
de la siguiente expresin del estadstico F:
SCY 'MA
F=
SCY X MA
(2 1)
(n 2)
SCY 'MA (n 2)
SCY X MA
Referencias:
Botella, J., Len, O. G., San Martn, R. y Barriopedro, M. I. (2001). Anlisis de datos en psicologa
I: teora y ejercicios. Madrid: Pirmide.
Pardo, A. y San Martn, R. (2001). Anlisis de datos en psicologa II. Madrid: Pirmide.
Losilla, J. M., Navarro, B., Palmer, A., Rodrigo, M. F. y Ato, M. (2005). Del contraste de hiptesis
al modelado estadstico. Documenta Universitaria. [www.edicionsapeticio.com]
19