Escolar Documentos
Profissional Documentos
Cultura Documentos
UNED
ndice
8.1 Introduccin ...................................................................................................................................... 3
8.2 Objetivos ........................................................................................................................................... 4
8.3 Anlisis de Regresin Simple ............................................................................................................. 4
8.3.1 Coeficientes de la regresin lineal simple .................................................................................. 8
8.3.2 Bondad de Ajuste de la Recta de Regresin............................................................................. 12
8.3.3 Inferencias sobre la regresin .................................................................................................. 16
8.3.3.1 Contraste sobre la correlacin/regresin ......................................................................... 16
8.3.3.2 Intervalo de confianza (IC) para rXY ................................................................................... 20
8.3.3.3 Contraste para los coeficientes de la regresin, B y B0 ..................................................... 21
8.3.3.4 Intervalo de Confianza para los coeficientes de regresin, B y B0 .................................... 23
8.3.3.5 Intervalo de Confianza los valores estimados Y ............................................................... 25
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el tamao
muestral .....................................................................................................Error! Marcador no definido.
8.4 Anlisis de Regresin Mltiple ........................................................................................................ 30
8.4.1 Regresin con dos Variables Independientes .......................................................................... 30
8.4.2 Ajuste del modelo. Medidas de asociacin .............................................................................. 34
8.4.3 Correlacin Semiparcial y Parcial ............................................................................................. 37
8.4.4 Inferencias sobre la Regresin Mltiple................................................................................... 42
8.5 Ejercicio prctico ............................................................................................................................. 44
8.5.1 Resultados ................................................................................................................................ 49
8.5.2 Mtodo Stepwise (Pasos Sucesivos) ........................................................................................ 51
8.6 Resumen.......................................................................................................................................... 55
8.7 Ejercicio de Autoevaluacin ............................................................................................................ 56
8.7.1 Preguntas ................................................................................................................................. 57
8.7.2 Solucin ejercicios de autoevaluacin ..................................................................................... 58
8.1 Introduccin
Como se explica en el libro de Fundamentos de Investigacin, los diseos ex post facto se
caracterizan porque el investigador no puede manipular intencionalmente la variable independiente, ni
asignar aleatoriamente a los participantes a los diferentes niveles de la misma en estos diseos, el
investigador selecciona a los sujetos en funcin de que posean o no determinadas caractersticas. Uno
de los procedimientos de anlisis ms empleados para este tipo de diseos es el que se conoce como
Anlisis de Regresin/Correlacin. Este procedimiento analtico puede ser usado siempre que una
variable cuantitativa, en este caso la Variable Dependiente (VD), sea estudiada como una funcin de una
variable, o de una combinacin de varias Variables Independientes1 (VI). Cuando se estudia la VD en
funcin de una sola VI este anlisis se conoce como Anlisis de Regresin Simple (ARS). Cuando hay ms
de una VI se conoce como Anlisis de Regresin Mltiple (ARM).
La forma de la relacin entre la VD y la VI puede ser muy diversa. En el caso del ARS se pueden dar
relaciones lineales, exponenciales, potenciales, polinmicas, etc. En este texto nicamente vamos a
tratar las relaciones de carcter lineal, es decir, aquellas en las que la VD se puede expresar como una
funcin de la VI elevada a la primera potencia. Lo mismo sucede con las relaciones que se pueden dar en
el ARM, pero slo estudiaremos el caso en el que la VD se puede expresar como una combinacin lineal
de varias VI`s.
Aunque el ARM es una tcnica de anlisis para los diseos ex post facto, tambin se puede aplicar a
situaciones en las que se manipulan condiciones experimentales. Por tanto, las variables independientes
pueden tener una ocurrencia natural (sexo, Cociente Intelectual, tiempo que se tarda en aprender una
lista de palabras, introversin, ansiedad, etc.), o pueden ser variables manipuladas en un laboratorio. En
resumen, casi cualquier informacin que tenga inters para el estudio de la VD puede ser objeto de
incorporacin en este tipo de anlisis2.
El Anlisis de Regresin tiene una amplitud de aplicacin de gran alcance. Se emplea para contrastar
hiptesis generadas en el mbito de las ciencias de la conducta, de la salud, de la educacin, etc. Estas
hiptesis pueden llegar por la va de una teora formal, por investigaciones previas o simplemente por
algn tipo de intuicin cientfica acerca de algn fenmeno. Una lista breve de hiptesis sobre
determinadas situaciones puede dar idea del alcance de esta tcnica de anlisis:
El estrs en la vida cotidiana puede estar relacionado con la cantidad de das que las personas
causan baja laboral por enfermedad.
Cuando, para una poltica educativa racional, se quiere compara el rendimiento educativo en
funcin de si los estudiantes estudian en colegios pblicos o privados, es necesario el control
estadstico de determinadas caractersticas, tales como el CI, logros acadmicos previos,
1
Al igual que en los captulos de Diseos de ms de dos grupos, en este captulo designaremos la variable
dependiente por Y, mientras que las variables independientes las designaremos como Xi, siendo i = 1,.,n, segn el
nmero de variables independientes que se incorporen en el ARM.
2
Cohen, J, Cohen, P. , West, S. G.y Aiken, L. S. Applied Multiple Regression/Correlation. Analysis for the
Behavorial Sciences. 3 Ed. Lawrence Erlbaum Assoc. N, Jersey, 2003.
formacin acadmica de los padres, nivel de ingresos familiares, etc., porque pueden explicar el
rendimiento ms que el tipo de escuela.
La ejecucin de una tarea est relacionado con el nivel de activacin de las personas, y la
relacin tiene una forma de U invertida (esta relacin se conoce en el mbito de la psicologa
experimental como la Ley de Yerkes y Dodson)
Cada una de estas hiptesis plantea una relacin entre una o ms variables explicativas (VIs) y la
variable dependiente (VD) objeto de estudio y, por consiguiente, todas ellas pueden ser contrastadas
mediante Anlisis de Regresin.
En este captulo vamos a estudiar nicamente el Anlisis de Regresin Lineal Simple y Mltiple y
vamos a apoyar la explicacin mediante ejemplos numricos para facilitar la comprensin de la tcnica
de anlisis, utilizando el mnimo soporte matemtico que es posible.
8.2 Objetivos
Tabla 8.1
Datos de 16 escolares en una prueba de vocabulario (X) y nmero de errores ortogrficos
detectados en un texto (Y)
Sujeto
1
2
3
4
5
6
7
8
X
3
1
7
9
10
8
4
6
Y
9
7
12
18
18
13
8
17
Sujeto
9
10
11
12
13
14
15
16
X
10
2
5
7
9
6
7
8
Y
22
6
10
18
16
13
15
16
(8.1)
(8.2)
(8.3)
El resultado del coeficiente con puntuaciones directas y diferenciales para nuestros datos es:
113,75 323,75
0,8924
0,8924
En la Tabla 8.2 se muestran los clculos necesarios para obtener los diferentes elementos de las
frmulas.
Tabla 8.2
Desarrollo para el clculo del coeficiente de correlacin de Pearson
Sujetos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Suma
Media
Desv. Tp.
X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8
102
6,375
2,7538
Puntuaciones directas
Y
XY
X2
9
27
9
7
7
1
12
84
49
18
162
81
18
180
100
13
104
64
8
32
16
17
102
36
22
220
100
6
12
4
10
50
25
18
126
49
16
144
81
13
78
36
15
105
49
16
128
64
218
1561 764
13,625
4,6458
Y2
81
49
144
324
324
169
64
289
484
36
100
324
256
169
225
256
3294
x
-3,375
-5,375
0,625
2,625
3,625
1,625
-2,375
-0,375
3,625
-4,375
-1,375
0,625
2,625
-0,375
0,625
1,625
Puntuaciones diferenciales
y
xy
x2
-4,625 15,609375 11,390625
-6,625 35,609375 28,890625
-1,625
-1,015625
0,390625
4,375 11,484375
6,890625
4,375 15,859375 13,140625
-0,625
-1,015625
2,640625
-5,625 13,359375
5,640625
3,375
-1,265625
0,140625
8,375 30,359375 13,140625
-7,625 33,359375 19,140625
-3,625
4,984375
1,890625
4,375
2,734375
0,390625
2,375
6,234375
6,890625
-0,625
0,234375
0,140625
1,375
0,859375
0,390625
2,375
3,859375
2,640625
171,25
113,75
y2
21,390625
43,890625
2,640625
19,140625
19,140625
0,390625
31,640625
11,390625
70,140625
58,140625
13,140625
19,140625
5,640625
0,390625
1,890625
5,640625
323,75
A la vista de los datos representados en el diagrama de la Figura 8.1, es fcil intuir que la relacin
entre ambas variables puede ser modelada de tal forma que la VD se represente como una funcin de
la VI. En este caso, la funcin que, a priori y visto el diagrama, mejor puede modelar la relacin es la
lineal, es decir, una funcin que exprese la VD en trminos de los valores de la VI, sometidos a algn tipo
de transformacin lineal. Dicho de otra forma, una funcin lineal que permita hacer una estimacin de
la VD a partir de la VI, es una funcin del tipo:
(8.4 a)
(8.4 b)
(8.4 c)
Al ser una estimacin, Y (puntuacin en Y predicha por el modelo lineal) se acercar ms o menos al
verdadero valor de la VD. Este ajuste ser mayor cuanto mayor sea la relacin entre las variables, es
decir, depender del valor del coeficiente de correlacin de Pearson, como tendremos ocasin de
demostrar ms adelante. An sabiendo que la mejor relacin puede ser representada por una funcin
lineal, queda an por determinar cul de las muchas funciones lineales (una para cada combinacin de
valores, parmetros o coeficientes de la regresin, B y B0 en la Ecuacin 8.4 lo cual significa que, en
esencia, son infinitas), es la que mejor ajusta los datos del diagrama.
De acuerdo a la frmula (8.4), los valores en la recta los hemos denominado Y, y a los valores de la
VD los hemos denominado Y. Pensemos en estas distancias (Y Y), como la distancia que hay entre
cada valor (Y) y su media (representada por Y, ya que la prediccin realizada por la recta de regresin
representa la media que sera de esperar si el anlisis se repitiese con infinitas muestras). Ahora,
tomemos estas distancias, elevmoslas al cuadrado y sumemos todos esos cuadrados. El valor
resultante de esta suma ser el Error Cuadrtico de la Recta de Ajuste (existen otras terminologas como
Recta de Estimacin, Recta de Prediccin o Recta de Regresin, siendo cualquiera de estas
denominaciones es vlida), y slo hay una recta que hace mnimo este error. Por esta razn a este
mtodo de ajuste de una recta de regresin se le conoce como ajuste por mnimos cuadrados ya que el
objetivo es encontrar los valores B y B0 que hacen ms pequeo (mnimo) el error (Y-Y) al cuadrado.
Adems, hay otra caracterstica importante de la recta de ajuste, que se puede enunciar del siguiente
modo: la recta de regresin es una estimacin insesgada de la VD en el sentido de que la media de los
valores pronosticados es igual a la media de los valores observados. Es decir,
7 57
(8.5)
Por procedimientos matemticos que no vamos a desarrollar, el valor del parmetro B de la funcin
lineal en (8.4) que minimiza los errores cuadrticos, se obtiene de acuerdo a la expresin:
$
8
8
(8.6)
(8.7)
Construida la recta de ajuste podemos expresar la variable dependiente, Y, como una funcin de la
variable independiente, X, mediante la siguiente expresin:
$& % $ % :
(8.8)
Donde representa el error de prediccin y est compuesto por las distancias entre cada valor de Y e Y
para una valor dado de X que observaramos si repitisemos el procedimiento a varias muestras
diferentes.
Cul es el significado de los coeficientes de regresin? En el anlisis de regresin simple el
coeficiente protagonista es el factor B, conocido como pendiente de la recta, y cuantifica el
incremento que se produce en la estimacin de la variable dependiente (Y) cuando la independiente (X)
aumenta en una unidad.
En la Figura 8.3 se ve de manera grfica el significado de B en nuestros datos. La estimacin de Y para
un valor X = 4, proporciona el valor 10,049, y para una X = 5, el valor es 11,555. La diferencia entre estos
valores al aumentar X en una unidad (de 4 a 5) es lo que aumenta Y y ese es el valor de la pendiente. En
el caso del ejemplo que ilustra esta explicacin la pendiente nos dice que los escolares, con cada punto
ms que obtienen en la prueba de vocabulario detectan, en promedio, 1,5 errores ms en la prueba de
lectura.
10
La constante de la recta de regresin, B0, seala el punto en el que sta corta al eje de ordenadas, es
decir, el valor estimado de Y cuando X es igual a 0. No es un coeficiente interpretable en el sentido en el
que lo es la pendiente. De hecho, casi nunca es objeto de interpretacin salvo cuando el valor 0 se
encuentra dentro del rango de valores de la VI. Si no es el caso, la recta de regresin slo se puede
interpretar dentro del rango de valores de la VI, pues es con esos valores con los que se construye la
recta de estimacin. Fuera de ese rango, no se sabe qu sucede con la funcin que relaciona X con Y y
por tanto podra ser que por debajo del menor valor de la VI y/o por encima del mayor valor de la VI la
funcin de estimacin de la VD cambiara su forma.
Para que sean vlidas las inferencias que sobre la VD se hagan con la recta de regresin, se deben de
cumplir cuatro supuestos bsicos, tres de los cuales son, en esencia, los mismos que ya se han
mencionado en las tcnicas de anlisis para las pruebas T y los ANOVAS:
1. Independencia de las observaciones. Este supuesto slo se contrasta si el proceso de
seleccin de la muestra no ha sido aleatorio.
2. Homocedasticidad. Su cumplimiento supone que las varianzas de las distribuciones de los
errores, condicionadas a los diferentes valores de la VI, deben ser iguales.
3. Normalidad de las distribuciones condicionadas.
4. Independencia entre los valores estimados, Y, y los errores de estimacin, . Expresado en
trminos de coeficiente de correlacin de Pearson, ry = 0. Esto es as debido a que los
errores se distribuyen de manera aleatoria, mientras que las estimaciones o pronsticos son
una funcin de la VI.
En la Figura 8.4 se representan los supuestos 2 (las varianzas de las cuatro curvas normales dibujadas
son idnticas) y 3 (para cada valor de Xi existe una gama de valores posibles que se distribuyen
normalmente con media Y). El supuesto 4 se puede ver numricamente en los datos de la Tabla 8.3.
11
12
Imagine el lector que slo dispone de los estadsticos media y varianza de la prueba de deteccin de
errores del grupo de sujetos del ejemplo de la Tabla 8.1, y desea hacer una estimacin para un sujeto
concreto, y an no sabe que se ha determinado que dicha prueba est relacionada con la prueba de
vocabulario. A falta de otro tipo de informacin sobre la variable que se quiere estimar, lo correcto es
otorgar como mejor estimacin la media del grupo, por ser la que minimiza el error de prediccin. Para
cada sujeto concreto el error que se cometer ser
7 9, y para el conjunto de datos, el error,
expresado en trminos de cuadrados, es el mnimo posible. Es decir, si no tenemos idea de la relacin
entre la variable predictora (X) y la predicha (Y), y nos piden realizar una estimacin de Y, lo mejor que
podemos hacer es utilizar la media de Y como estimador. Cualquier otro valor que elijamos har que el
error de prediccin sea superior al que obtendramos si utilizamos la media.
Sigamos suponiendo que en un momento posterior disponemos de informacin sobre la relacin que
hay entre la deteccin de errores (Y) y una prueba de vocabulario (X) que han realizado los estudiantes,
y sabe cul es la recta de ajuste entre ambas variables. Si ahora desea hacer una estimacin de la
puntuacin de un sujeto en la prueba de errores, lo razonable es que aproveche la informacin nueva
de que dispone, y vea qu puntuacin ha obtenido el sujeto en vocabulario y, mediante la ecuacin de
la recta construida, haga una estimacin de la puntuacin en Y, que estar situada en la recta y que
hemos denominado Y. Esta estimacin se aproxima ms al valor original (Y) de lo que lo haca la media
pero an persiste un cierto error, el que va de Y a Y. Es decir, del error original,
9 , hemos
reducido una parte,
5 9, pero an queda otra parte,
5, sin explicar. Por tanto, la variable
original Y, expresada en puntuaciones diferenciales,
9 , es la suma de otras dos variables,
5
5 9 , que, adems, son independientes entre s; su correlacin, pues, es cero. Por tanto
podemos afirmar que a nivel de cada puntuacin individual se cumple:
13
(8.9)
y sumando para todos los puntos y elevando al cuadrado se obtiene lo que se conoce como Suma de
Cuadrados, dividiendo por el nmero de casos menos 1 se obtienen la varianza total de Y ( SY2 ), la
varianza de las Y predichas ( SY2' ) y la varianza de los errores ( S2 ). Como la relacin de la Ecuacin 8.9 se
sigue manteniendo, estas varianzas mantienen la relacin que puede verse en la Ecuacin 8.10:
9
5 9
5
%
; 8 8#
% 8<
1
1
1
(8.10)
En resumen, cuando hay una relacin lineal entre dos variables, la varianza de la VD se puede
descomponer en dos varianzas: la de los pronsticos, debido a la relacin que la VD guarda con la VI, y la
de los errores o residuos. Esta relacin se cumple tanto para la Regresin Lineal Simple como para la
Mltiple. Esta descomposicin de las varianza de la VD en dos varianzas es el Teorema de Pitgoras
del Anlisis de Regresin Lineal.
Tabla 8.3
Desarrollo numrico de la descomposicin de la varianza de la VD
X
3
1
7
9
10
8
4
6
10
2
5
7
9
6
7
8
Y
9
7
12
18
18
13
8
17
22
6
10
18
16
13
15
16
>
=
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
13,6250
Y'
8,5440
5,5330
14,5659
17,5769
19,0824
16,0714
10,0495
13,0604
19,0824
7,0385
11,5549
14,5659
17,5769
13,0604
14,5659
16,0714
9
# 9
-4,6250 -5,0810
-6,6250 -8,0920
-1,6250
0,9409
4,3750
3,9519
4,3750
5,4574
-0,6250
2,4464
-5,6250 -3,5755
3,3750 -0,5646
8,3750
5,4574
-7,6250 -6,5865
-3,6250 -2,0701
4,3750
0,9409
2,3750
3,9519
-0,6250 -0,5646
1,3750
0,9409
2,3750
2,4464
#
0,4560
1,4670
-2,5659
0,4231
-1,0824
-3,0714
-2,0495
3,9396
2,9176
-1,0385
-1,5549
3,4341
-1,5769
-0,0604
0,4341
-0,0714
Suma
Varianzas
9
21,3906
43,8906
2,6406
19,1406
19,1406
0,3906
31,6406
11,3906
70,1406
58,1406
13,1406
19,1406
5,6406
0,3906
1,8906
5,6406
5 9
25,8170
65,4810
0,8854
15,6177
29,7834
5,9850
12,7846
0,3187
29,7834
43,3825
4,2851
0,8854
15,6177
0,3187
0,8854
5,9850
5
0,2080
2,1522
6,5840
0,1790
1,1716
9,4337
4,2002
15,5201
8,5123
1,0784
2,4179
11,7928
2,4867
0,0037
0,1884
0,0051
323,7500
257,8159
65,9341
SY2 = 21,5833
SY2' = 17,1877
S 2 = 4,3956
rY
rXY
R2
0
0,8924
0,7963
14
A partir de la Ecuacin 8.10, se puede establecer una serie de relaciones. La primera es lo que
representa la proporcin de la varianza de los pronsticos respecto de la VD: la proporcin de la
varianza de la VD explicada por la varianza de la VI, ya que los pronsticos son un combinacin lineal
de la propia VI, combinacin que est representada por la recta de regresin (Y = BX + B0). La cuanta de
esta proporcin es el cuadrado del coeficiente de correlacin de Pearson entre la VD y la VI (esto solo
sirve para el caso de la Regresin Lineal Simple).
?@BA
?@B
A C9B
C9B
?DEFG
?D@
H
(8.11)
(8.12)
En resumen, H
(a partir de ahora lo designaremos como R2), denominado Coeficiente de
Determinacin, es la proporcin de la variabilidad de la VD que es imputada (o explicada por) la
,
variabilidad de la VI, mientras que su complemento,
1 H
denominado Coeficiente de Alienacin,
es la parte residual de la variabilidad de la VD, atribuible a otros factores no relacionados linealmente
con la VD.
Adems de esta interpretacin de R2, hay otra que tiene que ver con la reduccin del error original
de la VD. En este sentido, R2 es la proporcin en que se reduce el error de la VD cuando empleamos la
recta de regresin para estimarla. Observe el lector (Tabla 8.3) que el error cuadrtico inicial es
21,5833, y despus de ajustar la recta y proceder a las estimaciones de Y, an queda un error cuadrtico
de 4,3956. En trminos absolutos el error se ha reducido en 21,5833 4,3956 = 17,1877, lo que en
trminos de proporcin respecto del error original la reduccin es: 17,1877/21,5833 = 0,7963, que es el
valor de R2 que aparece en la Tabla.
A partir de 8.12, se puede obtener la desviacin estndar de los errores (o residuos). Su expresin es:
S2
2
= 1 RXY
S2Y
2
S2 = SY2 (1 RXY
)
S = SY
1 R
(8.13)
2
XY
En la Figura 8.6 se representa la varianza compartida de los datos del ejemplo, sin pretensin de
exactitud en cuanto al rea solapada de ambos crculos.
(8.14)
16
R& : T 0
RU: T V 0
donde representa la correlacin entre la VD y la VI en la poblacin. Para dilucidar la significacin se
puede utilizar dos procedimientos que conducen al mismo resultado. Por un lado, se puede establecer
una razn F (es decir, un cociente entre medias cuadrticas) entre el coeficiente de determinacin y el
coeficiente de alienacin, divididos por sus respectivos grados de libertad. Su frmula es:
H [
X. 4. (X(*1
W
1 H
\X. 4. (*1,.2*
(8.15)
H /1
1 H
\
^
2
(8.16)
y aplicada a los datos que estn sirviendo como ejemplo, nos da un resultado de F
W
0,7963
54,743
1 0,7963
\
16
2
valor que resulta significativo, pues la probabilidad de encontrar un valor F igual o mayor, con 1 y 14
grados de libertad es p = 3,358x10-6 (este valor no puede localizarse en las Tablas debido a la magnitud
tan elevada de la F obtenida; vase para comprobarlo las figuras 8.7a y 8.7b).
1.0
6. 10-7
5. 10-7
0.8
4. 10-7
0.6
3. 10-7
0.4
2. 10-7
1. 10-7
0.2
52
0
10
20
30
40
50
54
56
58
60
60
10.
Comparando este procedimiento con la tabla del ANOVA, tenemos, a partir de las expresiones (8.11) y
(8.12), que la razn F se puede reescribir del siguiente modo:
W
8IJK_J.
[
1
8IJKL7M.
[
^ 2
`IJK_J.
`IJKL7M.
(8.17)
Lo relevante de estas expresiones son los grados de libertad asociados a la suma de cuadrados de la
regresin (1 g.l.), y por lo tanto a R2, y los grados de libertad de la suma de cuadrados de los errores o
residuos (N-2 g.l.), (y por tanto a 1 R2). El trmino N refleja el nmero de observaciones
independientes (el total de sujetos) y el valor 2 representa el nmero de restricciones que han sido
necesarias para construir la ecuacin de estimacin, a saber, la pendiente (B) y el intercepto (B0). El
nico grado de libertad asociado a la suma de cuadrados de la regresin representa la desviacin de la
pendiente B con respecto a cero. Realizando el clculo para los datos del ejemplo (vase Tabla 8.4),
cuyas sumas de cuadrados se pueden ver en las sumas de las dos ltimas columnas de la Tabla 8.3, y
puesto en formato de tabla de ANOVA:
Tabla 8.4
Tabla ANOVA para el contraste de la Regresin
ANOVA de la Regresin
FV
SC
GL
MC
Regresin
257,816
257,8159
Residuos
Total
65,9341 14
323,75 15
4,7096
F
54,743
Prob.
3,36E-06
2
1
(8.17)
que se distribuye segn la t de Student con n-2 grados de libertad. Para los datos que sirven de soporte,
el valor del estadstico es:
18
/
0,892416 2
1 0,8924
7,3988
Cuya probabilidad es, lgicamente, la misma que del valor del estadstico F, calculado anteriormente, y
ello es debido a la igualdad entre la t y la F en determinadas condiciones de los grados de libertad de F.
Esta relacin es la siguiente:
/b WU,b
(8.18)
19
OPCIONAL
8.3.3.2 Intervalo de confianza (IC) para rXY
La distribucin muestral de rXY no es simtrica salvo en el caso que la XY (correlacin en la poblacin)
sea igual a 0, lo cual supone que los lmites del intervalo de confianza no son equidistantes del valor de
rXY. Sin entrar en consideraciones sobre el por qu de este comportamiento del intervalo de confianza,
para resolver este problema, Fisher desarroll el estadstico z como una transformacin de r:
#
1
4
1 % 4
1
2
(8.20)
P#
3
(8.21)
1
4
1 % 0,8924 4
1 0,8924 1,434
2
PA
16 3
0,2773
i
# 1,98j
cIde%
# 1,434 g
0,2773
1,96 h L #
i7
0,89
20
Figura 8.8a: Obtencin del valor de rinferior a partir Figura 8.8b: Obtencin del valor de rsuperior a partir
del Li de z en la Tabla XIII del Formulario.
del Ls de z en la Tabla XIII del Formulario
(obsrvese que hemos tenido que aproximar ya
que el valor de 1.98 no se encuentra en la tabla).
Figura 8.9: Coeficiente de correlacin e intervalo de confianza para los datos del ejemplo. Puede verse
claramente que el IC no es simtrico con respecto a rXY muestral.
k 0 ; k& 0
k V 0 ; k& V 0
21
$ 0
Pl
(8.22)
8 1
Q
8
2
(8.23)
1,5055 0
0,8924
4,646 1
n
2,754
16 2
1,5055
7,399
0,2035
Siendo p = 3,36x10-6 (de nuevo, el valor de t = 7,399 es tan elevado que no aparece en las tablas y, por
tanto, tampoco pueden utilizarse estas para evaluar el valor de p; esto significa que este valor de
probabilidad ha sido obtenido mediante un software cientfico) la probabilidad de encontrar un valor
igual o mayor, lo cual lleva al rechazo de la H0. Observe el lector que la probabilidad de este estadstico
es la misma que la de la F en la Tabla 8.4 del ANOVA de la Regresin.
Para el intercepto, el estadstico de contraste es:
/
$& 0
Plo
(8.24)
siendo Pmo el error tpico de la distribucin muestral del intercepto, cuya expresin es:
1
9
Plo P< Q %
18
(8.25)
siendo P< el Error Tpico, ya comentado en el epgrafe de bondad de ajuste, y cuyo valor es la raz
cuadrada de la Media Cuadrtica (MC) de los Residuos de la tabla del ANOVA (Tabla 8.4) para el
contraste de la regresin, que representa la varianza residual en la poblacin para el caso de la regresin
bivariada. Como en el caso de la pendiente, el estadstico t tiene la misma distribucin con los mismos
grados de libertad.
Aplicando el contraste a los datos del ejemplo, y teniendo en cuenta que, en el caso de la regresin
bivariada la varianza residual en la poblacin tiene n-2 grados de libertad, y dado que estamos haciendo
la inferencia para la poblacin, el valor de la varianza residual es:
22
/
4,0275 0
1
6,375
4,7096n16 %
16 17,583
4,0275
2,864
1,4061
Cuya probabilidad es 0,006, por lo que se rechaza la hiptesis nula de que el intercepto es igual a 0
(tanto si utilizamos un = 0,05 como un = 0,01 ). Como puede verse en la Figura 8.10, las Tablas
solo nos permiten determinar que 2,864 se encuentra entre los valores 2,624 y 2,977. Por consiguiente,
la p debe encontrarse entre 1-0,990 = 0.01 y 1-0.995 = 0.005. La probabilidad calculada se realiz
mediante software cientfico.
Figura 8.10
(8.26)
siendo t(n-2;1-/2), el valor de t de la distribucin t de Student con n-2 grados de libertad y un nivel de
significacin . Aplicando la frmula a los resultados del ejemplo se obtiene, para un nivel de confianza
del 95%, los siguientes lmites:
cIl 1,5055 g
2,145 t
4,646 1 0,8924
1,942j
Q
uv
1,069
16 2
2,754
Al no contener el ICB el valor 0 entre sus lmites, se llega, obviamente, a la misma conclusin que a
travs del estadstico t.
23
(8.27)
24
OPCIONAL
3.3.5 Intervalo de Confianza de los valores estimados Y
Por ltimo, para cerrar los apartados de contrastes de hiptesis e intervalos de confianza, resta
nicamente calcular el IC para los valores estimados Y para cada valor de la VI. Para ello slo se necesita
conocer el Error Tpico de la distribucin muestral de los pronsticos, error que es una funcin, entre
otros estadsticos, de cada valor de la VI y de su media. Su expresin es:
7 9
1
P# P< Q %
18
(8.28)
Aplicado a los datos del ejemplo con un nivel de confianza del 95%, los lmites de las estimaciones, Y
para cada valor de la VI (es decir, para cada Xi), se pueden ver en la tabla 8.5.
25
Tabla 8.5
Lmites del IC para los valores estimados de los datos del ejemplo de la Tabla 8.1
(Ecuacin de regresin: Y = 1,5055X+ 4,0275)
X
1
2
3
4
5
6
7
8
9
10
Y'
5,5330
7,0385
8,5440
10,0495
11,5549
13,0604
14,5659
16,0714
17,5769
19,0824
ETY
1,2209
1,0425
0,8752
0,7266
0,6104
0,5479
0,5572
0,6354
0,7613
0,9156
Li (Yi)
2,9145
4,8025
6,6669
8,4911
10,2457
11,8854
13,3708
14,7087
15,9440
17,1186
Ls (Yi)
8,1515
9,2744
10,4210
11,6078
12,8642
14,2355
15,7611
17,4341
19,2098
21,0463
1 ( X i X )2
1
(1 6.375) 2
+
=
4
.
7096
+
= 1.2209
n (n 1) S X2
16 (16 1) 7.583
Li (Y1' ) = Y1' t
( n 2 , 1 )
2
Ls (Y1' ) = Y1' + t
( n 2 , 1 )
2
26
Figura 8.11 Representacin grfica del IC para los valores estimados por la lnea de regresin.
27
OPCIONAL
8.3.4 Precisin de las estimaciones de los parmetros , , y 0 y su relacin con el
tamao muestral
Hasta el momento todos los contrastes prcticos se han basado en un nmero determinado de
observaciones (en nuestro ejemplo n=16), y el grado de precisin de los contrastes viene dado (repase el
lector las frmulas de los intervalos de confianza) por el tamao muestral. En todos los casos, la
amplitud del intervalo es funcin inversa del tamao muestral. Para ver por qu sucede esto, pensemos
en los mismos estadsticos obtenidos en el ejemplo y qu le sucede al Error Tpico de la distribucin
muestral de los parmetros, es decir, el denominador de las pruebas t de los contrastes, que es el factor
que multiplica el valor de t en la construccin del Intervalo de Confianza. En la Tabla 8.6 se muestra para
los mismos estadsticos del ejemplo, qu sucede con el Error Tpico de la distribucin muestral y con la
Precisin del Intervalo para distintos valores de n.
Tabla 8.6 Relacin entre el tamao muestral y la precisin del IC
28
0,8924
Sx
2,7538
Sy
>
w
4,6458
1,5055
B0
Error
Tpico
4,0275
X
NC
Errores Tpicos
n
B0
Precisin
Y'(x)
B0
Y'(x)
10
0,2692
1,8098
0,6933
0,5998
4,0325
1,5448
12
0,2408
1,6392
0,6328
0,5246
3,5715
1,3787
14
0,2198
1,5093
0,5858
0,4714
3,2371
1,2563
16
0,2035
1,4061
0,5479
0,4314
2,9807
1,1615
2,1702
18
0,1903
1,3215
0,5165
0,3999
2,7763
1,0851
20
0,1794
1,2506
0,4900
0,3743
2,6086
1,0221
25
0,1588
1,1136
0,4382
0,3270
2,2934
0,9025
30
0,1439
1,0136
0,4000
0,2938
2,0700
0,8169
35
0,1325
0,9364
0,3703
0,2691
1,9011
0,7518
40
0,1235
0,8746
0,3464
0,2496
1,7676
0,7001
45
0,1161
0,8236
0,3266
0,2338
1,6588
0,6577
50
0,1099
0,7806
0,3098
0,2207
1,5678
0,6222
55
0,1046
0,7437
0,2954
0,2096
1,4903
0,5919
60
0,1000
0,7115
0,2828
0,2000
1,4233
0,5657
65
0,0959
0,6832
0,2717
0,1916
1,3645
0,5426
70
0,0923
0,6581
0,2618
0,1841
1,3125
0,5222
75
0,0891
0,6355
0,2529
0,1775
1,2660
0,5039
80
0,0862
0,6151
0,2449
0,1716
1,2241
0,4874
85
0,0836
0,5966
0,2376
0,1662
1,1861
0,4724
90
0,0812
0,5796
0,2309
0,1612
1,1514
0,4587
95
0,0789
0,5640
0,2247
0,1567
1,1197
0,4461
100
0,0769
0,5496
0,2190
0,1526
1,0904
0,4346
6,3750
0,95
B =
SY
SX
B =
0
'
X =6
2
1 rXY
4.646 1 0,8924 2
=
= 0,179
(n 2) 2,754
(20 2)
1
X2
1
6,3752
+
=
4
,
7096
+
= 1,250
n (n 1) S X2
20 (20 1) 7,583
1 ( X i X )2
1
(6 6,375) 2
= 4,7096
+
= 0,490
2
n (n 1) S X
20 (20 1) 7,583
x. el clculo del nuevo n* es n/x2. Por ejemplo, para un n = 20 tenemos un Pl = 0,1799. Si queremos
reducir ese error 4 veces (es decir, o 0,25), el tamao muestral deber ser 20/0,252 = 320 sujetos.
Si lo que se desea es una reduccin concreta del Error Tpico para un n dado, es decir pasar de Pl a la
P
expresin Plx es: x y l[P x z . Por ejemplo, si se desea pasar de un Pl de 0,78 para un n = 50 a un
l
nuevo valor de Pl igual a 0,3, la muestra necesaria es n* = 50(0,78/0,3)2 = 338 sujetos.
30
Tabla 8.7
Datos para el desarrollo del anlisis con dos VI
Sujeto
Horas Estudio
(X1)
Test
Punt.
Razonamiento Matemticas
(X2)
(Y)
19
54
18
52
14
34
24
63
19
46
16
44
12
17
50
14
52
23
57
10
11
21
53
11
10
17
56
12
13
19
67
13
24
57
14
19
54
15
11
17
51
El modelo de estimacin lineal de la VD con dos VIs, constar de dos coeficientes de regresin, uno
para cada VI, y una constante que ser el valor estimado para la VD cuando son nulas las dos VI. No
obstante, como ya hemos explicado anteriormente, la constante, si no est el valor cero dentro del
rango de valores de las variables predictoras no se toma en consideracin en el anlisis. Es decir, si X1= 0
y X2 = 0 no forman parte de los rangos admitidos empricamente por ambas variables, no tiene sentido
considerar el valor que adoptara la constante en esos casos. El modelo de estimacin es:
# $U U % $ % $&
(8.29)
(8.30)
Siendo B1 el coeficiente de regresin parcial para X1, B2 el coeficiente de regresin parcial para X2, y
B0 el intercepto con el eje de la Y cuando X1 y X2 valen 0, y los residuos una vez que se ha determinado
la funcin de estimacin de la VD. Al igual que en regresin simple, estos coeficientes son los que hacen
mnimo el error cuadrtico de prediccin, es decir, minimizan las diferencias cuadrticas entre Y e Y.
31
En primer lugar, antes de calcular los coeficientes de regresin parciales de la ecuacin, llamados as
para remarcar que es el peso o efecto de una VI cuando el resto de las VI que estn en la ecuacin
permanecen constantes, en la Tabla 8.8 se muestran los estadsticos descriptivos de cada una de las
variables, los coeficientes de correlacin entre las variables dos a dos (tambin llamados bivariados) y
las rectas de regresin simple entre cada predictor y la VD. Hemos simplificado la notacin de los
coeficientes de correlacin (ry1 representa la correlacin entre la variable Y y el predictor X1, y el resto
siguen la misma pauta) y tambin de la regresin ( Y1' representa las estimaciones Y realizadas a partir de
X1 )
Tabla 8.8
Estadsticos descriptivos de los datos de la Tabla 8.7
Horas Estudio
(X1)
Test
Razonamiento
(X2)
Punt.
Matemticas
(Y)
9,33
1,91
18,73
3,17
52,67
7,76
ry1
0,441
ry2
0,628
r12
-0,043
rY21 = 0,194
rY22 = 0,394
r122 = 0,002
Media
Desv. Tpic.
Rectas de Regresin
Y'1 = 1,786 X1 + 36
Y'2 = 1,537 X2 + 23,867
Para facilitar el clculo de los coeficientes de regresin parcial de la ecuacin (8.29), comenzaremos, por
sencillez, obteniendo la ecuacin de regresin en puntuaciones tpicas o estandarizadas, cuya expresin
es:
5 kU U % k
(8.31)
siendo 1 y 2 los coeficientes de regresin parcial estandarizados, y se obtienen mediante las siguientes
frmulas:
32
kU
U U
1 U
U U
k
1 U
(8.32)
Una vez determinados los coeficientes de regresin parcial estandarizados, se obtienen fcilmente los
coeficientes sin estandarizar mediante la relacin:
$U kU
8
8U
8
$ k
8
(8.33)
siendo S1 y S2, las desviaciones tpicas de las variables X1 y X2, respectivamente. Sustituyendo por los
valores de la Tabla 8.8 los coeficientes no estandarizados son:
$U 0,469
$ 0,649
7,76
1,899
1,91
7,76
1,587
3,17
(8.34)
33
Obtenidos los coeficientes, las funciones de estimacin de la VD con coeficientes de regresin parcial
no estandarizados y estandarizados (es decir, expresada la funcin en puntuaciones directas y tpicas),
son las siguientes:
# 1,899U % 1,587 % 5,217
# 0,469U % 0,649
Al ser dos las variables independientes, las estimaciones quedan situadas en un plano, que se conoce
como plano de regresin, del mismo modo que la lnea de estimacin en regresin simple se conoce
como lnea de regresin. Algunas de las puntuaciones de la VD estarn por encima del plano y otras por
debajo, y esas distancias de cada punto de la VD al plano forman los residuos del modelo de estimacin
(vase Figura 8.12).
Figura 8.12: tres vistas del conjunto de puntos y el plano de regresin. La zona azul representa el plano
visto desde arriba, la zona naranja representa el plano visto desde abajo . La tercera grfica intenta
visualizar todos los puntos, tanto los que estn situados por encima como los que estn situados por
debajo del plano. En este caso, el plano se ve en escorzo. Los datos estn representados por puntos
rojos.
El modelo ajustado, Y, ya arroja una primera interpretacin: cuando permanece constante X2, por
cada hora de estudio, la puntuacin en matemticas aumenta en promedio, 1,899 puntos, y cuando
permanece constante X1, por cada punto ms en razonamiento abstracto, aumenta 1,587 la puntuacin
e matemticas
Comencemos por responder a la primera pregunta, y para ello disponemos del denominado
coeficiente de correlacin mltiple, R, y su cuadrado, el coeficiente de determinacin, R2. Al igual que r
es el coeficiente de correlacin entre dos variables, R es el coeficiente que correlaciona la VD con una
combinacin ptima de dos o ms variables independientes. Su frmula de clculo es:
U
%
2U U
H.U Q
1 U
(8.35)
Y de forma alternativa, una expresin si cabe ms simple es la basada en los coeficientes de regresin
parcial estandarizados de la recta de regresin:
H.U
kU U % k
(8.36)
Aplicada la frmula (8.32) a los datos del ejemplo, el valor de RY.12 es:
H.U
0,469
0,441 % 0,649
0,628 0,7836
El coeficiente de determinacin es el cuadrado del coeficiente de correlacin mltiple, y su
interpretacin y clculo es idntica a la de la regresin simple: razn entre la varianza de los pronsticos
y la varianza de la VD.
H.U
8.U
H.U
8
(8.37)
En la Tabla 8.9 se muestran los valores de Y, los pronsticos y los residuos para los datos del ejemplo,
cuya funcin de estimacin de Y, ya calculada, es:
# 1,899U % 1,587 % 5,217
Tabla 8.9
Puntuacin en Matemticas actual, estimada y residual para cada sujeto
Punt.
Matemticas
(Y)
Estimaciones
(Y12)
Residuos
(Y Y12)
54
50,562
3,438
52
50,874
1,126
34
38,829
-4,829
63
60,396
2,604
46
52,461
-6,461
44
47,7
-3,7
35
50
54,984
-4,984
52
44,526
7,474
57
53,112
3,888
53
59,433
-6,433
56
51,186
4,814
67
60,057
6,943
57
60,396
-3,396
54
52,461
1,539
51
53,085
-2,085
Varianza
60,238
36,991
23,247
Ejemplo de clculo para el primer sujeto:
Y1 = 54 X 1 = 8 X 2 = 19
Y12' = 1.899 X 1 + 1.587 X 2 + 5.217 = 50.562
Y1 Y12' = 54 50.562 = 3.438
A partir de los datos de la Tabla 8.9 se obtiene el coeficiente de determinacin R2.
H.U
8U
36,991
60,238 0,614
8
1
) 1
(8.38)
36
H|.U
1
1 0,614
15 1
0,5498
15 2 1
Otro valor que informa del ajuste es el Error Tpico (ya explicado para el caso bivariado) y que est
relacionado con R2 en el sentido de que cuando ste aumenta el Error Tpico disminuye. De acuerdo a la
ecuacin 8.14, y siendo las sumas de cuadrados las que se muestran en la Tabla 8.10, su valor para este
ejemplo es:
5
325,451
P< Q
Q
5,2078
) 1
15 2 1
Tabla 8.10
Sumas de cuadrados total, residual y debidas a la regresin del ejemplo numrico
> ~
}
= =
SCTotal
}
= =5~
SCResiduos
> ~
}
=5 =
843,333
325,451
517,968
SCRegresin
explicada que es la varianza de los residuos. La varianza explicada lo es en funcin de una cierta
combinacin de las variables independientes; por consiguiente, si en un modelo, por ejemplo, con dos
predictoras X1 y X2, se ajusta una regresin de la 1 sobre la 2, se extraen los residuos y, por ltimo, los
correlaciono con la VD, habr calculado el coeficiente de correlacin semiparcial entre X1 y la VD
habiendo eliminado el influjo de X2 sobre la VD. Por otra parte, si se ajusta una regresin simple entre X2
y X1 (obsrvese el cambio de subndices en relacin a la frase anterior), se extraen los residuos y stos se
correlacionan con la VD, habr calculado la correlacin entre el predictor X2 y la VD, habiendo eliminado
el influjo de X1 sobre la VD.
Para llevar a cabo este clculo de los coeficientes de correlacin semiparcial no es necesario
proceder como hemos explicado en el prrafo anterior; hay frmulas muy sencillas para ello, a partir de
las correlaciones de orden cero.
*U
*
U U
1 U
U U
(8.39)
1 U
y elevando al cuadrado estos valores se tiene la contribucin que cada VI tiene sobre la VD habiendo
eliminado el influjo de las otras VIs. En la Figura 8.13 se observa grficamente, mediante un Diagrama
de Venn, ests contribuciones expresadas en forma de rea compartida
Figura 8.13 Diagrama de Venn para un modelo de regresin con dos variables independientes
Tomando como referencia el diagrama de la Figura 8.13, las equivalencias entre las zonas designadas
con letras y los cuadrados de los coeficientes de correlacin semiparcial, son las siguientes:
38
+ *U H.U
(8.40)
* H.U
U
siendo:
~=.~ % %
~= %
~=~ %
Para el ejemplo numrico que sirve de base a la explicacin, los clculos de los coeficientes de
correlacin semiparcial son los siguientes:
*U
*
1 0,0431
1 0,0431
0,4681
0,6481
Estos valores elevados al cuadrado dan la proporcin de varianza compartida por cada
predictora habiendo eliminado el influjo de la otra predictora sobre la misma.
+ *U 0,4681 0,2191
* 0,6481 0,4200
El valor 0,46812 (0,2191) es a en el diagrama de la Figura 8.13, y 0,64812 (0,4200) es b. Estos dos
valores representan la contribucin exclusiva que cada variable hace a la explicacin de la dependiente.
La porcin c, es la proporcin de varianza de la VD estimada conjuntamente (es decir, de forma
redundante) por las dos variables. Sin embargo esta proporcin es de muy difcil interpretacin.
El otro coeficiente que se calcula en los modelos de regresin, y que adems sirve para determinar
cul es la primera variable que se incorpora al modelo cuando se realiza variable a variable3, es el
denominado coeficiente de correlacin parcial, pr. La diferencia con el semiparcial es que en el parcial
Hay varios mtodos para la introduccin de variables en el anlisis de regresin. Uno de estos mtodos es el
denominado Stepwise (Pasos Sucesivos) y en l se introduce en primer lugar la variable con mayor correlacin con
el criterio, y a partir de ah, sucesivamente la variable que mayor correlacin parcial tenga con el criterio. El
proceso de introduccin de variable se detiene cuando la siguiente variable independiente que va a entrar no
aporta un plus significativo a la explicacin de la VD.
39
se elimina el influjo de los predictores tanto de la VI objeto de correlacin como de la VD. Es decir, es
una correlacin entre residuos.
En el modelo de dos variables, si se ajusta una recta entre Y y X2, y nos quedamos con los residuos, y
si se ajusta una recta entre X1 y X2, y nos quedamos tambin con los residuos, podemos correlacionar
ambos residuos. De esta forma obtendremos la correlacin parcial entre Y y X1. A partir de aqu se ve
claro que esta es la correlacin pura entre dos variables, puesto que de ambas se ha extrado el influjo
de terceras variables. Al igual que en la correlacin semiparcial, no es necesario el clculo de los
residuos, pues se pueden obtener a partir de los correlaciones de orden cero entre pares de variables.
)U
)
U U
1
U
U U
(8.41)
1 U
1 U
+
H.U
+%,
1
H.U
U
)
%,
1 U
(8.42)
Aplicando las frmulas a los datos del ejemplo, los coeficientes son:
)U
)
0,628
1
0,441
1
0,043
0,043
Si se hubiera realizado una regresin paso a paso, es decir, introduciendo las variables por su relacin
con la VD, la primera que habra entrado en el modelo hubiera sido la variable X2 (en el ejemplo,
Razonamiento abstracto) que es la que presenta mayor correlacin con la VD.
En resumen, por los resultados del coeficiente de correlacin parcial y semiparcial al cuadrado, en el
modelo obtenido est clara la contribucin de ambas variables a la explicacin de la puntuacin en
matemticas. El cuadrado de los coeficientes pr seala la proporcin de varianza de una VI asociada con
la parte de la VD que no est asociada con la otra VI. En nuestro caso es mayor la de razonamiento
abstracto que la de tiempo de estudio (52,11% y 36,22%, respectivamente). Adems, el modelo es
bueno (luego veremos su significacin estadstica, por medio de los contrastes) porque ambas variables
independientes tienen una buena relacin con la dependiente, y sin embargo, entre ellas no hay apenas
40
relacin (es, pues, un modelo casi ideal4). Cmo se manifiesta numricamente la ausencia de relacin
entre las variables independientes?, pues sencillamente en que el coeficiente de determinacin, R2
(0,6141), tiene un valor aproximado (siempre menor) que la suma de los cuadrados de los coeficientes
de correlacin semiparcial (0,2191+0,4200 = 0,6391 < 0.6141). La diferencia entre ambos valores es la
parte redundante del diagrama de Venn (zona c) que el modelo de regresin elimina cuando se ajusta
con el conjunto completo de variables independientes.
Los datos del ejemplo son ficticios y han sido simulados para lograr este efecto de correlacin media-alta de
las variables predictoras con la VD y ausencia de correlacin entre las predictoras. En anlisis de regresin, cuando
las VIs correlacionan se dice que hay colinealidad, y cuanto mayor es sta peor es el modelo de regresin.
41
(8.43)
siendo el IC de R2 al 95%: 0,6141 (2,16)(0,1143) = (0,367 ; 0,861) siendo 2,16 es el valor crtico de la
distribucin t con 15-2 = 13 grados de libertad. A partir de estos lmites se rechazara la hiptesis nula de
que R2 en la poblacin es igual a 0 ya que los lmites no incluyen este valor.
Al mismo resultado llegaremos a travs del estadstico F de la tabla ANOVA, valor que, adems de
obtenerse como el cociente de las medias cuadrticas de la regresin y del residuo, se puede calcular
tambin con la siguiente frmula basada en R2:
W
) 1
HU
)
1 HU
(8.44)
0,6141
15 2 1
9,548
1 0,6141
2
Tabla 8.11
Estadsticos de la regresin de los datos de la Tabla 8.7, y contraste de R2
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2
0,7836
0,6141
42
R2 ajustado
Error tpico residual (P< )
Observaciones
ANOVA de la Regresin
FV
SC
Regresin
517,968
Residuos
325,451
Total
843,333
GL
2
12
14
0,5498
5,2078*
15
MC
258,984
27,121
F
9,549
Prob.
0,003
8
1
1 H.U
Q
Q
87 1 H7 ) 1
(8.45)
donde H.U
es el coeficiente de determinacin, H7, es el coeficiente de determinacin de la regresin
de la variable predictora i respecto del resto de variables predictoras; es decir, la proporcin de varianza
de la predictora i explicada por una combinacin ptima del resto de predictoras (en el caso del
ejemplo, al ser slo dos las predictoras, el valor de H7 es el mismo para calcular el error tpico de ambos
coeficientes de regresin parcial). Por ltimo, SY es la desviacin tpica de la variable dependiente y Si es
la desviacin tpica del predictor i.
Para los datos del ejemplo los errores tpicos para contrastar los coeficientes de regresin parcial
son:
B =
1
B =
1
SY
1
S X 1 1 r122
SY
SX 2
1
1 r122
1 RY212
7,76
1
1 0,6141
=
= 0,7275
2
n p 1 1,91 1 (0,043) 15 2 1
1 RY212
7,76
1
1 0,6141
=
= 0,4391
2
n p 1 3,17 1 (0,043) 15 2 1
A partir de estos valores es sencillo calcular el IC para cada coeficiente de regresin, y comprobar si
dentro del intervalo se encuentra el valor 0. Si no es el caso, se rechazar la hiptesis nula de que los
coeficientes en la poblacin son igual a cero. En la Tabla 8.12 se presenta el resultado de estos
contrastes.
Error
tpico
Prob.
Li (95%)
Ls (95%)
43
Horas Estudio
Test
Razonamiento
1,8991
0,7275
2,6102
0,0228
0,3139
3,4842
1,5868
0,4391
3,6138
0,0036
0,6300
2,5435
* Los lmites, se obtienen restando y sumando al valor del coeficiente, el producto entre el error tpico y el valor de t para un
nivel de confianza del 95% y n-p-1 grados de libertad (en el caso del ejemplo, este valor es 2,179). No se ha incluido el contraste
de la constante
Por ltimo, quedara el contraste de las correlaciones parcial y semiparcial. Como se han visto en la
frmulas estos dos coeficientes difieren en su clculo solo en el denominador por lo que o los dos son
igual a cero o los dos son diferentes de cero. Por ello, el estadstico de contraste se calcula slo para uno
de los coeficientes, en este caso el semiparcial. La frmula es:
) 1
/7 *7 Q
1 H
(8.46)
15 2 1
/ 0,6481Q
3,6138
1 0,6141
Que son los valores del estadstico t para los coeficientes de regresin parcial que se muestran en la
Tabla 8.12.
44
X1
Velocidad de entrega
Mtrica
X2
Nivel de precios
Mtrica
X3
Flexibilidad de precios
Mtrica
X4
Mtrica
X5
Servicio conjunto
Mtrica
X6
Mtrica
X7
Calidad de producto
Mtrica
X8
Nivel de fidelidad
Mtrica
X9
Nivel de satisfaccin
Mtrica
Percepciones de HATCO
Cada una de estas variables, excepto el Nivel de fidelidad (X8), se midi con una escala de
puntuacin grfica donde se dibuj una lnea entre dos puntos separados por diez centmetros que se
denominaron Pobre y Excelente:
Pobre
Excelente
Los encuestados sealan su percepcin haciendo una marca en la lnea. La marca se mide y se
registra la distancia desde el punto que se consider cero, en este caso, Pobre. La medicin se realiz
en centmetros. El resultado fue una escala que iba desde cero a diez, redondeado a un nico decimal.
Los siete atributos de HATCO puntuados por los encuestados y que sirven de VIs son los siguientes:
X1
Velocidad de entrega: tiempo que transcurre hasta que se entrega el producto, una vez que
se hubo confirmado el pedido.
X2
X3
X4
X5
Servicio: nivel conjunto de servicio necesario para mantener una relacin satisfactoria entre el
vendedor y el comprador.
X6
X7
Calidad del producto: nivel de calidad percibido en un producto particular (por ejemplo, el
acabado o el rendimiento).
X9
Nivel de satisfaccin: satisfaccin del comprador con las compras anteriores realizadas a
HATCO, medidas en el mismo grfico de la escala de clasificacin de las entradas X1 a X7
La VD es:
X8 Nivel de fidelidad: cunto se compra a HATCO del total del producto de la empresa, medido
en una escala porcentual, que va desde 0 al 100 por cien.
45
46
x1
4,10
1,80
3,40
2,70
6,00
1,90
4,60
1,30
5,50
4,00
2,40
3,90
2,80
3,70
3,20
4,90
4,70
3,30
3,00
2,40
2,40
5,20
3,50
3,00
2,80
5,20
3,40
2,40
x2
0,60
3,00
5,20
1,00
0,90
3,30
2,40
4,20
1,60
3,50
1,60
2,20
1,40
1,50
4,10
1,80
1,30
0,90
4,00
1,50
1,50
1,30
2,80
3,20
3,80
2,00
3,70
1,00
x3
6,90
6,30
5,70
7,10
9,60
7,90
9,50
6,20
9,40
6,50
8,80
9,10
8,10
8,60
5,70
7,70
9,90
8,60
9,10
6,70
6,60
9,70
9,90
6,00
8,90
9,30
6,40
7,70
x4
4,70
6,60
6,00
5,90
7,80
4,80
6,60
5,10
4,70
6,00
4,80
4,60
3,80
5,70
5,10
4,30
6,70
4,00
7,10
4,80
4,80
6,10
3,50
5,30
6,90
5,90
5,70
3,40
x5
2,40
2,50
4,30
1,80
3,40
2,60
3,50
2,80
3,50
3,70
2,00
3,00
2,10
2,70
3,60
3,40
3,00
2,10
3,50
1,90
1,90
3,20
3,10
3,10
3,30
3,70
3,50
1,70
x6
2,30
4,00
2,70
2,30
4,60
1,90
4,50
2,20
3,00
3,20
2,80
2,50
1,40
3,70
2,90
1,50
2,60
1,80
3,40
2,50
2,50
3,90
1,70
3,00
3,20
2,40
3,40
1,10
x7
5,20
8,40
8,20
7,80
4,50
9,70
7,60
6,90
7,60
8,70
5,80
8,30
6,60
6,70
6,20
5,90
6,80
6,30
8,40
7,20
7,20
6,70
5,40
8,00
8,20
4,60
8,40
6,20
x8
32,00
43,00
48,00
32,00
58,00
45,00
46,00
44,00
63,00
54,00
32,00
47,00
39,00
38,00
38,00
40,00
55,00
41,00
55,00
36,00
36,00
54,00
49,00
43,00
53,00
60,00
47,00
35,00
x9
4,20
4,30
5,20
3,90
6,80
4,40
5,80
4,30
5,40
5,40
4,30
5,00
4,40
5,00
4,40
5,60
6,00
4,50
5,20
3,70
3,70
5,80
5,40
3,30
5,00
6,10
3,80
4,10
id
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
x1
3,10
3,40
5,40
3,70
4,50
2,80
3,80
2,90
4,90
4,30
2,30
3,10
5,10
4,10
1,10
3,70
4,20
1,60
5,30
2,30
5,60
5,20
1,00
4,50
2,30
2,60
2,50
2,10
x2
1,90
3,90
2,10
0,70
4,10
2,40
0,80
2,60
4,40
1,80
4,50
1,90
1,90
1,10
2,00
1,40
2,50
4,50
1,70
3,70
2,20
1,30
1,90
1,60
3,70
3,00
3,10
3,50
x3
10,00
5,60
8,00
8,20
6,30
6,70
8,70
7,70
7,40
7,60
8,00
9,90
9,20
9,30
7,20
9,00
9,20
6,40
8,50
8,30
8,20
9,10
7,10
8,70
7,60
8,50
7,00
7,40
47
x4
4,50
5,60
3,00
6,00
5,90
4,90
2,90
7,00
6,90
5,40
4,70
4,50
5,80
5,50
4,70
4,50
6,20
5,30
3,70
5,20
3,10
4,50
4,50
4,60
5,00
6,00
4,20
4,80
x5
2,60
3,60
3,80
2,10
4,30
2,50
1,60
2,80
4,60
3,10
3,30
2,60
3,60
2,50
1,60
2,60
3,30
3,00
3,50
3,00
4,00
3,30
1,50
3,10
3,00
2,80
2,80
2,80
x6
3,20
2,30
1,40
2,50
3,40
2,60
2,10
3,60
4,00
2,50
2,20
3,10
2,30
2,70
3,20
2,30
3,90
2,50
1,90
2,30
1,60
2,70
3,10
2,10
2,50
2,80
2,20
2,30
x7
3,80
9,10
5,20
5,20
8,80
9,20
5,60
7,70
9,60
4,40
8,70
3,80
4,50
7,40
10,00
6,80
7,30
7,10
4,80
9,10
5,30
7,30
9,90
6,80
7,40
6,80
9,00
7,20
x8
55,00
43,00
53,00
41,00
50,00
32,00
39,00
47,00
62,00
46,00
50,00
54,00
60,00
47,00
40,00
45,00
59,00
46,00
58,00
49,00
55,00
60,00
39,00
56,00
37,00
53,00
43,00
36,00
x9
4,90
4,70
3,80
5,00
5,50
3,70
3,70
4,20
6,20
5,60
5,00
4,80
6,10
5,30
3,40
4,90
6,00
4,50
4,30
4,80
3,90
5,10
3,30
5,10
4,40
5,60
3,70
4,30
29
30
31
32
33
34
35
1,80
4,00
0,00
1,90
4,90
5,00
2,00
3,30
0,90
2,10
3,40
2,30
1,30
2,60
7,50
9,10
6,90
7,60
9,30
8,60
6,50
4,50
5,40
5,40
4,60
4,50
4,70
3,70
2,50
2,40
1,10
2,60
3,60
3,10
2,40
2,40
2,60
2,60
2,50
1,30
2,50
1,70
7,60
7,30
8,90
7,70
6,20
3,70
8,50
39,00
46,00
29,00
40,00
53,00
48,00
38,00
3,60
5,10
3,90
3,70
5,90
4,80
3,20
64
65
66
67
68
69
70
2,90
4,30
3,10
1,90
4,00
6,10
2,00
1,20
2,50
4,20
2,70
0,50
0,50
2,80
7,30
9,30
5,10
5,00
6,70
9,20
5,20
48
6,10
6,30
7,80
4,90
4,50
4,80
5,00
2,00
3,40
3,60
2,20
2,20
3,30
2,40
2,50
4,00
4,00
2,50
2,10
2,80
2,70
8,00
7,40
5,90
8,20
5,00
7,10
8,40
34,00
60,00
43,00
36,00
31,00
60,00
38,00
4,00
6,10
5,20
3,60
4,00
5,20
3,70
8.5.1 Resultados
En primer lugar veremos los estadsticos descriptivos de las variables, as como la matriz de
correlaciones, con su significacin estadstica (como criterio, piense el lector que una probabilidad
mayor de 0,05 supone la aceptacin de que, en la poblacin las dos variables en cuestin no estn
relacionadas).
Estadsticos descriptivos
Media
45,9000
Desviacin
tpica
8,97686
Velocidad de entrega
3,4114
1,33466
70
Nivel de precios
2,3686
1,17825
70
Flexibilidad de precios
7,8571
1,33694
70
Imagen de fabricante
5,1686
1,07158
70
Servicio conjunto
2,8771
,72375
70
2,6643
,75662
70
Calidad de producto
7,0743
1,57973
70
Nivel de satisfaccin
4,6971
,85651
70
Nivel de fidelidad
Correlacin de Nivel de
Pearson
fidelidad
Sig.
(unilateral)
Nivel de Velocidad
fidelidad de entrega
1,000
,656
N
70
Servicio
conjunto
,709
Imagen de
fuerza de
ventas
,277
Calidad de
Nivel de
producto satisfaccin
-,182
,696
Velocidad de
entrega
,656
1,000
-,363
,512
,065
,625
,087
-,493
,637
Nivel de precios
,100
-,363
1,000
-,461
,278
,490
,186
,468
-,004
Flexibilidad de
precios
,564
,512
-,461
1,000
-,038
,101
,054
-,415
,567
Imagen de
fabricante
,236
,065
,278
-,038
1,000
,302
,776
,196
,512
Servicio
conjunto
,709
,625
,490
,101
,302
1,000
,236
-,079
,599
Imagen de
fuerza de
ventas
,277
,087
,186
,054
,776
,236
1,000
,185
,365
Calidad de
producto
-,182
-,493
,468
-,415
,196
-,079
,185
1,000
-,282
Nivel de
satisfaccin
,696
,637
-,004
,567
,512
,599
,365
-,282
1,000
,000
,204
,000
,025
,000
,010
,065
,000
,000
,001
,000
,297
,000
,237
,000
,000
Nivel de
fidelidad
Velocidad de
entrega
49
Nivel de precios
,204
,001
,000
,010
,000
,061
,000
,487
Flexibilidad de
precios
,000
,000
,000
,378
,202
,327
,000
,000
Imagen de
fabricante
,025
,297
,010
,378
,006
,000
,052
,000
Servicio
conjunto
,000
,000
,000
,202
,006
,024
,258
,000
Imagen de
fuerza de
ventas
,010
,237
,061
,327
,000
,024
,062
,001
Calidad de
producto
,065
,000
,000
,000
,052
,258
,062
,009
Nivel de
satisfaccin
,000
,000
,487
,000
,000
,000
,001
,009
A continuacin, se presenta el modelo ajustado cuando se introducen todas las variables predictoras
simultneamente (Mtodo Introducir). Primero se muestra el ajuste del modelo y luego los coeficientes.
Ajuste del modelo
2
R
a
,874
Error tpico de la
estimacin
4,63769
R
,764
R corregida
,733
Regresin
Residual
Total
Suma de
cuadrados
4248,304
g.l.
8
1311,996
5560,300
Media
cuadrtica
531,038
61
69
F
24,690
Sig.
,000
21,508
En la tabla del ANOVA de la Regresin, la probabilidad asociada al valor del estadstico F se denomina
Sig., que quiere decir Significacin Estadstica, es decir, la probabilidad de encontrar un valor de F igual o
mayor que el obtenido a partir de los datos muestrales.
Por ltimo, se presenta la tabla con los coeficientes de regresin parcial estandarizados y no
estandarizados y su significacin estadstica. En la misma tabla se muestran los valores de las
correlaciones de orden cero (coeficiente de correlacin de Pearson, ya visto en la matriz de
correlaciones) y los coeficientes de correlacin parcial y semiparcial.
Coeficientes no
estandarizados
(Constante)
Velocidad de
entrega
B
-8,374
Error tp.
6,165
-1,537
2,875
Coeficientes
tipificados
Beta
-,229
Correlaciones
t
-1,358
-,535
Sig.
Orden cero
,179
,595
,656
Parcial
-,068
Semiparcial
-,033
50
Nivel de
precios
Flexibilidad
de precios
Imagen de
fabricante
-1,870
2,955
-,245
-,633
,529
,100
-,081
-,039
3,143
,686
,468
4,580
,000
,564
,506
,285
-,744
1,098
-,089
-,677
,501
,236
-,086
-,042
Servicio
conjunto
10,983
5,678
,886
1,934
,058
,709
,240
,120
Imagen de
fuerza de
ventas
1,584
1,237
,134
1,280
,205
,277
,162
,080
Calidad de
producto
,545
,454
,096
1,203
,234
-,182
,152
,075
Nivel de
satisfaccin
,728
1,453
,069
,501
,618
,696
,064
,031
Dejando al margen la constante o intercepto, cuyo valor no es significativo (Sig. 0,179 > 0,05), hay
slo dos coeficientes que puede decirse que son significativos: la flexibilidad de los precios y el servicio
conjunto (aunque ste est en el lmite de significacin). El resto no son estadsticamente relevantes.
Qu significa esto? De acuerdo al valor de R2, la combinacin de todas las variables independientes
incorporadas al modelo explican el 76,4% del nivel de fidelidad del cliente, pero, a la vista de la
significacin de los coeficientes, casi toda esta variabilidad sera explicada por no ms de dos variables,
aquellas cuyos coeficientes de regresin parcial resultan significativos, que son las que presentan un
coeficiente de correlacin parcial ms alto con la VD (0,506 y 0,240).
Con este mtodo de incorporacin de todas las variables conjuntamente, en realidad no se puede
determinar cul es la contribucin de cada variable al modelo en trminos de varianza explicada, y si
esa contribucin resulta o no significativa. Por razn de parsimonia cientfica, es preferible el mtodo de
introduccin sucesiva de variables (denominado, como ya se ha dicho, Stepwise) y que da un ajuste
ptimo del modelo con el menor nmero de variables. En los siguientes cuadros de resultados veremos
cul es el modelo final cuando se calcula la regresin con este mtodo. Observe el lector, que hay un
estadstico nuevo en el cuadro de bondad de ajuste, que se denomina Cambio en R cuadrado, que
especifica el aumento en este estadstico cada vez que se introduce una variable. La introduccin de
variables se detiene cuando la siguiente que debera de entrar no aporta un incremento significativo en
el R cuadrado.
51
Variables introducidas/eliminadas
Variables
introducidas
Servicio conjunto
Modelo
1
Variables
eliminadas
Flexibilidad de
precios
Mtodo
. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.
. Por pasos
criterio:
Prob. de F para entrar <= ,050,
Prob. de F para salir >= ,100.
La variable Servicio Conjunto es la que mayor correlacin tiene con la VD (0,709), es decir, la variable
que explica ms proporcin de varianza de sta. El programa ajusta un primer modelo en el que slo
incluye esta variable. Una vez introducida esta variable (Servicio conjunto) comprueba cul de las dems
variables correlaciona ms con la parte no explicada del primer modelo ajustado, o sea, con los residuos,
y esta resulta ser la Flexibilidad de precios5. Entonces el programa, antes de incorporar esta variable al
modelo, calcula si el cambio que se va a producir en R2 es o no significativo; si lo es, rehace el modelo
con las dos variables conjuntamente y si no el proceso se detiene y tendramos un modelo con el
nmero de variables que producen cambios significativos en R2. En este caso, el cambio s es
significativo y as se puede ver en la siguiente tabla.
Modelo
1
R
,709a
R
cuadrado
,502
,864b
,747
R
cuadrado
Error tp. de
corregida la estimacin
,495
6,37899
,740
Estadsticos de cambio
Cambio en R
cuadrado
,502
Cambio en F
68,645
,245
64,908
4,58006
gl2
68
Sig. Cambio
en F
,000
67
,000
gl1
Suma de
cuadrados
2793,280
Residual
Total
Regresin
2767,020
5560,300
4154,843
gl
1
68
69
2
Media
cuadrtica
2793,280
F
68,645
Sig.
,000
40,691
2077,422
99,033
,000
En concreto lo que el programa hace es que, una vez que ha incorporado la primera, realiza un ajuste de
regresin entre cada VI y el resto, y entre estas y la VD, y luego correlaciona los residuos. Los residuos de la VI que
correlacione ms con los residuos de la VD es la siguiente en entrar en el modelo.
52
Residual
Total
1405,457
5560,300
Coeficientes no
estandarizados
Modelo
1
B
20,607
8,791
Error tp.
3,147
1,061
(Constante)
Servicio
conjunto
-3,835
8,165
Flexibilidad
de precios
3,340
(Constante)
Servicio
conjunto
67
69
20,977
Coeficientes
tipificados
Beta
Correlaciones
,709
t
6,549
8,285
Sig.
,000
,000
3,783
,766
,658
-1,014
10,663
,415
,497
8,057
Orden
cero
Parcial
Semiparcial
,709
,709
,709
,314
,000
,709
,793
,655
,000
,564
,701
,495
H7O
^ ) 1
0,245
70 2 1
64,908
1 H
1
1 0,747
53
61
Sig.
Cambio
en F
,000
,251
61
,618
-,001
,221
62
,640
4,55177
-,001
,186
63
,668
4,52720
-,001
,300
64
,586
,746
4,52808
-,004
1,026
65
,315
,740
4,58006
-,009
2,547
66
,115
Modelo
1
R
a
,874
,874b
,763
,736
4,60960
-,001
,873
,762
,740
4,58100
,873
,762
,743
,872e
,760
,746
,870
,757
,864
,747
Cambio
en F
24,690
gl1
gl2
a. Variables predictoras: (Constante), Nivel de satisfaccin, Nivel de precios, Imagen de fuerza de ventas, Calidad
de producto, Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
b. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Imagen de fabricante, Servicio conjunto
c. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Velocidad de entrega, Servicio conjunto
d. Variables predictoras: (Constante), Nivel de precios, Imagen de fuerza de ventas, Calidad de producto,
Flexibilidad de precios, Servicio conjunto
e. Variables predictoras: (Constante), Imagen de fuerza de ventas, Calidad de producto, Flexibilidad de precios,
Servicio conjunto
f. Variables predictoras: (Constante), Imagen de fuerza de ventas, Flexibilidad de precios, Servicio conjunto
g. Variables predictoras: (Constante), Flexibilidad de precios, Servicio conjunto
Otro detalle de inters son los valores del Error Tpico de Estimacin, que es mayor cuando estn
todas las variables independientes en el modelo que cuando slo estn las dos realmente explicativas. El
error es pensar que cuantas ms variables tengamos mejor se explica la VD, pero se ve claramente que
no es el caso. Para estos datos, el error aumenta proporcionalmente el 1,26% (4,63769 - 4,58006)/
4,58006 = 0,0126) de tener las dos predictoras en el modelo a tener las ocho.
En resumen, aparte de las variables mencionadas, el resto de variables no aportan cambios
significativos a la explicacin de la VD y por tanto no son tenidos en cuenta en el modelo. Por tanto, la
fidelidad de los clientes de la empresa estudiada es funcin, sobre todo, del Servicio Conjunto que
ofrece la empresa, lo que explica un 50,2% de la fidelidad mientras que la percepcin de la flexibilidad
de precios aade un 24,5% ms a la explicacin, lo cual hace que entre ambas se explique el 74,7% de la
fidelidad. A partir de estos resultados, los analistas y directivos de la empresa tienen bastantes
elementos para disear una estrategia de fidelizacin actuando sobre las variables que segn los
clientes no aaden valor a sta.
54
8.6 Resumen
El anlisis de los diseos ex post facto trata de determinar cmo un conjunto de variables, que
llamamos independientes, predictoras o explicativas, pueden explicar el comportamiento de la variable
objeto de estudio, que llamamos dependiente o criterio. Ello se ha realizado en tres pasos:
Ajuste del modelo de regresin para estimar la VD. Slo se han tratado ajustes de modelo
lineales, es decir, modelos en que la VD es una funcin lineal de la o las VIs. Cuando slo hay
una VI, el modelo se conoce como de Regresin Lineal Simple y cuando hay varias VIs, como
de Regresin Lineal Mltiple.
Clculo de la bondad del modelo ajustado. El estadstico que cuantifica el ajuste se
denominado coeficiente de determinacin y su valor oscila entre 0 y 1, e informa de la
proporcin en que la o las VIs explican la VD. En el caso de la regresin simple, este valor es
el cuadrado del coeficiente de correlacin de Pearson, y en el caso de la regresin mltiple
este valor es el cuadrado del coeficiente de correlacin mltiple. La parte no explicada por el
modelo de regresin es aquella que no est relacionada linealmente con la VD.
Contraste de significacin de los estadsticos del modelo: Coeficiente de determinacin,
coeficientes de regresin parcial y, en el caso de la regresin mltiple, coeficientes de
correlacin semiparcial y parcial. Para el coeficiente de determinacin, R2, el contraste se
basa en la comparacin de las medias cuadrticas de la regresin y las medias cuadrticas del
error, expresado este contraste mediante la tabla del ANOVA. Adems, se ha visto cmo
realizar los contrastes de los coeficientes de regresin parcial y de correlacin semiparcial y
parcial.
R, que expresa la correlacin entre la VD (Y) y la mejor funcin lineal de las VIs (Xis)
R2, que se interpreta como la proporcin de varianza de VD asociada a la combinacin lineal
de las VIs. Tambin se interpreta como la reduccin proporcional del error inicial de la VD
cuando se ajusta un modelo de estimacin con las VIs.
sri, coeficiente de correlacin semiparcial, expresa la correlacin entre Y y Xi, cuando de sta
se ha extrado la que mantiene con el resto de Xis.
sri2, proporcin de varianza de Y asociada nicamente la varianza de Xi, y expresa el
incremento en R2 cuando la variable Xi entra en el modelo
pri, expresa la correlacin pura entre Y y Xi. Es decir, expresa la correlacin entre la parte
de Y no asociada linealmente con el resto de predictoras y la porcin de Xi no asociada
linealmente con el resto de predictoras.
pri2, expresa la proporcin de varianza de Y no asociada al resto de X que s est asociada con
X i.
Por ltimo, se ha planteado un ejercicio con un conjunto de datos para ver cmo se interpreta una
salida de resultados del anlisis realizado con un programa informtico.
55
X1
X2
31
108
41
86
20
80
41
79
40
96
28
79
41
98
37
86
41
89
39
11
92
56
111
43
11
102
42
10
89
36
90
36
13
112
32
83
49
104
45
11
98
20
10
88
33
11
106
39
13
110
19
10
92
27
12
92
17
11
81
29
13
103
Para facilitar los clculo, en las siguientes dos tablas presentamos los estadsticos descriptivos de
cada variable, y la matriz de correlaciones
56
Suma
Media
Desv. Tpica
Varianza
Estadsticos descriptivos
X2
X1
882
239
35,2800
9,5600
9,7105
2,0833
94,2933
4,3400
Y
2354
94,1600
10,5423
111,1400
Matriz de correlaciones de
orden cero
X2
Y
X1
X1
X2
Y
-0,231
0,436
0,504
8.7.1 Preguntas
1. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X1?
a. Y = 77,465 + 0,473X1 (*)
b. Y = 35,465 + 0,573X1
c. Y = 77,465 + 0,743X1
2. Cul es la ecuacin de regresin para la predecir el comportamiento de la variable Y a partir
de la variable X2?
a. Y = 44,236 + 1,873X2
b. Y = 69,768 + 2,551X2 (*)
c. Y = 77,465 + 0,743X1
3. El coeficiente de correlacin mltiple del modelo Y = B0 + B1X1 + B2X2 para los datos
propuestos es:
a. 0,874
b. 0,759 (*)
c. 0,576
4. El coeficiente R2 ajustado para los datos es:
a. 0,594
b. 0,512
c. 0,538 (*)
5. Siguiendo el mtodo de Pasos Sucesivos (Stepwise) para lograr el mejor ajuste, qu cambio
se produce en R2 cuando se incorpora la segunda variable?
a. 0,322 (*)
b. 0,254
57
c. 0,222
6. La ecuacin de regresin mltiple estandarizada para los datos es:
a. 5 0,423U % 1,436
b. 5 1,014U % 0,872
c. 5 0,583U % 0,639 (*)
7. La varianza de los errores una vez ajustado el modelo de regresin mltiple es:
a. 47,109 (*)
b. 64,031
c. 111,140
8. El error tpico de estimacin del modelo ajustado es:
a. 7,891
b. 7,169 (*)
c. 8,235
9. La correlacin entre la variable dependiente Y y la predictora X1, una vez que se ha eliminado
el influjo de X2 sobre ambas variables, es:
a. 0,659 (*)
b. 0,567
c. 0,621
10. Cul es la proporcin de la varianza de Y asociada a X2, y no asociada a X1
a. 0,234
b. 0,342
c. 0,477 (*)
Pregunta 1 A
Pregunta 2 B
$U U
8
10,5423
0,436
0,473
9,7105
8
$U
8
10,5423
0,504
2,5514
8B
2,0833
Pregunta 3. B
58
H.U Q
U
%
2U U
0,436 % 0,504 2
0,436
0,504
0,231
Q
0,759
1
0,231
1 U
Pregunta 4. C
H|.U
1 p1 H.U
s
Pregunta 5. A
H.U
25 1
1
1
1 0,759
0,538
25 2 1
) 1
0,759 0,504 0,322
k
U U
1 U
U U
1 U
Pregunta 7. A
8
8JJOJ
1 H.U
1 0,759
111,14 47,109
Pregunta 8. B
`
1130,6
P< Q
Q
7,169
) 1
25 2 1
El numerador del cociente dentro de la raz es la suma de cuadrados de los errores, y se obtienen
mediante
1
47,109
25 1 1130,6
}
` 8JJOJ
Pregunta 9. A
Se trata del coeficiente de correlacin parcial entre las variable Y y X1.
)U
U U
1 U
Pregunta 10. C
)
i
U U
1 U
U
1
0,504
1
0,231
0,657
1
0,436
1
0,231
0,477
Recurdese que la funcin logartmica es la inversa de la exponencial. Esto es, si la funcin exponencial (
y = a n ) es el valor de y en funcin de n (para un valor de la base, a, fijo), la funcin logaritmo de un nmero x con
59
60