Você está na página 1de 41

1

Regresin lineal simple











1.- Introduccin ..................................................................................................................... 2
2.- Diagrama de dispersin.................................................................................................... 3
3.- Especificacin del modelo de regresin lineal simple .................................................... 4
3.1.- Supuestos del modelo ............................................................................................. 7
4.- Estimacin de parmetros ............................................................................................. 10
4.1.- Estimacin mediante mnimos cuadrados ............................................................. 11
5.- Interpretacin del modelo de regresin ......................................................................... 15
6.- Componentes de variacin. ............................................................................................ 17
7.- Bondad de ajuste ........................................................................................................... 21
8.- Validacin del modelo .................................................................................................. 25
9.- Significacin de los parmetros de la regresin ...................................................... 31
10.- Prediccin .................................................................................................................... 35
10.1.- Limitaciones de la prediccin ........................................................................... 38




















2

Regresin lineal simple




1.- Introduccin


El coeficiente de correlacin (r
xy
), estudiado en los puntos anteriores, permita conocer la
magnitud de la relacin (supuestamente lineal) existente entre dos variables. En el
presente apartado nos introduciremos en el concepto de regresin lineal, donde estudiaremos
la estructura de relacin existente entre tales variables. Ambos conceptos -regresin y
correlacin- estn ntimamente ligados, mientras el primero especifica la forma de la
relacin, el segundo, sobre la base de esta forma, estudia la intensidad de la relacin
establecida.

De una manera ms concreta, mediante el modelo de regresin especificaremos la
ecuacin de regresin que nos permitir un doble objetivo: a) describir de una manera
clara y concisa la relacin existente entre ambas variable y b), predecir los valores de
una variable en funcin de la otra.

En un sentido muy amplio, y hablando en trminos puramente estadsticos, podemos afirmar
que el anlisis de regresin es un mtodo que permite analizar la variabilidad de una
determinada variable en funcin de la informacin que le proporcionan una o ms variables
(Pedhazur, 1982). Se concreta, como hemos indicado, en el estudio de relacin entre
variables, de forma tal que una determinada variable -variable respuesta, explicada,
dependiente o criterio- pueda expresarse en funcin de otra u otras variables - predictoras,
explicativas, independientes o regresores-, lo que permitir predecir los valores de la variable
respuesta en funcin de las variables explicativas, as como determinar la importancia de
stas. Por otro lado, se especifica que la estructura de la relacin es lineal. Este aspecto es
importante por cuanto se descartan aqu otros tipos de relaciones. Por esta razn, con cierta
frecuencia nos referiremos a la regresin lineal como modelo de regresin lineal, en el sentido
de que se aplica una cierta concepcin -modelo- que tenemos de la realidad merced a la cual
se supone que las relaciones entre variables sigue una cierta estructura -la estructura lineal.-.

Hemos de decir, aunque slo sea por curiosidad histrica, que el trmino "regresin" se debe a
Sir Francis Galton (1822-1911) estudiando la relacin de la estatura entre padres e hijos.
Observ que los padres altos tenan hijos altos, aunque no tan altos como sus
progenitores. Igualmente, los padres bajos tendan a tener descendencia de baja estatura
aunque ms altos que sus respectivos padres. En ambos casos, pues, exista una cierta
tendencia a la estatura media, o dicho en trminos de propio Galton, exista una
"regresin a la mediocridad". Aunque hoy da el trmino de "regresin lineal" est muy
lejos de sus primeras intenciones ha quedado as acuado, aunque con otros
propsitos.

Es evidente el inters el modelo de regresin lineal aplicado a Ciencias Humanas y de la
Salud, donde no podemos encontrar relaciones exactas como ocurre en otras reas de la
ciencia, pero s ciertas tendencias susceptibles de ser cuantificadas. Supngase, por citar tan
3
slo algunos posibles casos de estudio, el efecto de una cierta terapia sobre las respuestas de
los pacientes sometidos a ella, los gastos de publicidad de una empresa y el consumo
ciudadano, el efecto del tabaco sobre el cncer, el clima laboral y la productividad en una
empresa o la calidad de enseanza y el rendimiento acadmico. En todos ellos hay algn
aspecto de la conducta que nos interesa prever (y en ltima instancia, controlar). Merced a la
ligazn que presenta la conducta con alguna variable relevante (y que se entiende manipulable
por el investigador) podemos ejercer algn tipo de control sobre aquella interviniendo sobre la
variable que incide sobre la misma. De esta forma, lograremos nuestros propsitos en cuanto
a salud, por ejemplo, eliminado el consumo de tabaco, o bien una determinada terapia
cognitivo-conductual se mostrar efectiva en la remisin de la depresin.

Como se ha indicado, en el presente captulo, nos limitaremos al estudio de la regresin donde
se estudia la relacin que sobre la variable de respuesta ejerce una nica variable explicativa.
Este tipo de regresin -la ms sencilla de las posibles- se denomina por esta razn regresin
lineal simple.




2.- Diagrama de dispersin


Previo a todo anlisis, resulta conveniente una primera inspeccin visual de los datos al objeto
de comprobar la conveniencia o no de utilizar el modelo de regresin simple. Se recurre a este
respecto, a la representacin conjunta de los datos mediante el diagrama de dispersin o nube
de puntos. Una simple ojeada nos permitir determinar (se entiende grosso modo): a) si existe
relacin o no entre las variables y b) si sta es o no lineal. Adems pueden extraerse otras
informaciones de inters, como son: c) el grado de estrechez de la nube de puntos, indicadora
de la intensidad de la relacin, d) si existen valores anmalos que distorsionan la posible
relacin, o e), si la dispersin de los datos a lo largo de la nube de puntos es uniforme, lo que
tendr su importancia, tal como veremos en los prximos apartados.

La informacin obtenida es importante para encarar la actuacin ms conveniente. Una nube
redondeada y sin contornos definidos (fig. 2a) es indicadora de ausencia de relacin. La
variable explicativa es irrelevante y no merece la pena seguir con el modelo en cuestin. En la
figuras 2b y 2c se sugiere una relacin lineal, ms fuerte en la figura 2b, debido a su mayor
estrechez, aunque en ambos casos un anlisis estadstico posterior se hace necesario para
confirmar con seguridad la relacin insinuada en los grficos. En la figura 2d la relacin es
claramente curvilnea (como ocurre si relacionamos ansiedad con rendimiento) y no procede a
aplicar el modelo lineal de regresin. Aqu podemos optar por transformar los datos a efecto
de lograr linealidad, o lo que puede ser ms conveniente, respetar los datos y elaborar el
modelo pertinente. En la figura 2e, la dispersin no es constante a lo largo del recorrido de los
datos -heterocedasticidad-, lo que imposibilita, como se tendr ocasin de comprobar, la
aplicacin del modelo lineal de regresin. Por otro lado, en la figura 2f un par de datos
anmalos -outliers- ejercen una distorsin importante sobre el modelo, lo que obligar a
replantearse la conveniencia de eliminarlos o bien incluirlos en el modelo, con la consiguiente
transformacin del mismo.



4


Figura 2. Posibles diagramas de dispersin





3.- Especificacin del modelo de regresin lineal simple


Como se ha observado anteriormente, cuando existen razones para suponer la existencia de
una relacin lineal entre dos variables, podremos establecer la siguiente estructura de relacin:



En trminos grficos, esta relacin quedara expresada mediante el siguiente diagrama causal:








donde podemos distinguir las variables X, Y y . La variable X, origen de la flecha en la
figura 1.1 es la variable observada cuya incidencia sobre Y deseamos estudiar. En trminos
+ + = X Y
X Y

5
de la ecuacin (1.1) es la variable que sirve de base para la prediccin. Se le denomina
variable predeterminada, explicativa, predictora, independiente, exgena o simplemente,
regresor. En nuestra opinin, variable explicativa o predictora, son los trminos cuyos
significados ilustran mejor el propsito de estas variables. Se dice que es fija si sus valores
son establecidos por el investigador; por ejemplo, cuando analizamos el efecto que el
nmero de miligramos de una determinada droga tiene sobre el tiempo de reaccin a ciertos
estmulos visuales y fijamos previamente los valores de X . Por el contrario, se dice que es
aleatoria cuando sus valores no estn determinados por el investigador sino que se elige
una muestra aleatoria de sujetos y se miden ambas variables. Por ejemplo, si queremos
investigar la relacin entre inteligencia y rendimiento en matemticas en nios de 14 aos, y
para ello, seleccionamos una muestra de la poblacin de nios de 14 aos, midiendo,
posteriormente, su nivel de inteligencia y su rendimiento en matemticas. Los valores
de inteligencia obtenidos son el resultado de la medicin en la muestra (modelo de efectos
aleatorios para X), pero la muestra estudiada no viene condicionada por valores
predefinidos de inteligencia.

La variable Y, punto final de la flecha, es la variable que el modelo pretende dar cuenta Se la
suele denominar como variable de respuesta, explicada, dependiente, criterio o endgena.
El objeto de la regresin va a ser, precisamente, estimar la relacin que Y presenta con X y
predecir sus valores en sujetos no medidos en la muestra. Igualmente, en nuestra opinin,
consideramos ms conveniente el trmino de variable de respuesta o explicada.

La variable representa el componente de error en la prediccin de la variable Y debido la
relacin estocstica entre Y y X. Se le denomina entre otros nombres como error,
perturbacin, o residual. Debe su valor fundamentalmente a dos tipos de factores: a)
medicin incorrecta de la variable Y, y b) influencia de otras variables omitidas por el
modelo. Si salimos del esquema determinista que impera en Ciencias Humanas y
concedemos un cierto valor al azar y a la espontaneidad habremos de aadir a los puntos
anteriores un tercer punto: c) variabilidad inherente a la conducta humana.

Es importante destacar que aqu nos ocupamos de relaciones entre variables
exclusivamente lineal; esto es, de variables cuya estructura de relacin es del tipo:



6
No obstante pueden establecerse otras muchas formas de relacin posible que no son
abordables directamente desde el planteamiento lineal. Por ejemplo, es bien conocida que la
relacin entre ansiedad y rendimiento sigue una U invertida:



Un pequeo incremento en los valores de ansiedad sirve para activar al sujeto, y en
consecuencia, aumenta su rendimiento, mientras que a partir de un cierto punto, la ansiedad
desarbola a dicho individuo impidindole concentrarse adecuadamente.

Otro tipo de relacin no lineal puede observarse en la evolucin de un determinado rumor a
lo largo del tiempo, que sigue una relacin sigmoidal:






En los momentos iniciales hay poca gente con conocimiento del tema, lo que hace que la
extensin del rumor sea pequea. Conforme aumenta el nmero de sujetos conocedores de
tal rumor hay ms posibilidad de interaccin con las personas desconocedoras del tema,
con lo que hay una gran progresin, hasta llegar a un cierto punto en el que casi toda la
poblacin est saturada y son ya pocos los individuos que restan por enterarse de la
7
cuestin, de forma tal que el incremento es cada vez ms reducido, hasta alcanzar el valor de
cero, cuando el rumor ha llegado a extenderse por toda la poblacin. Este tipo de fenmenos
es muy conocido en biologa, especialmente en dinmica de poblaciones, caracterstico de la
evolucin de una cierta poblacin con recursos limitados.


Otro ejemplo. La relacin entre esfuerzo y aprendizaje no es lineal sino tal como se expone en
la siguiente figura:


En el comienzo, pequeos esfuerzos supone un aprendizaje relativamente rpido, pero a
partir de un determinado punto grandes esfuerzos no se ven proporcionalmente
compensados (recurdese a este respecto, el aprendizaje de idiomas).

No daremos ms ejemplos para no aburrir al lector. Tan slo dejar constancia de que la
relacin lineal es una de las relaciones posibles y de que existen otros modelos alternativos.
El modelo lineal es bien conocido y existe una extensa literatura al respecto, por lo que
es frecuentemente utilizado, aunque no siempre con las debidas precauciones. Ya
veremos ms adelante, en el tema correspondiente al anlisis de residuos cmo tratar
toda la casustica de modelos supuestamente no lineales.



3.1.- Supuestos del modelo


El modelo de regresin lineal simple para la poblacin establece como hiptesis estructural
bsica lo siguiente:

la puntuacin de un sujeto en la variable criterio Y depende linealmente de la puntuacin del
sujeto en la variable predictora X ms una perturbacin o error . Otra forma de expresar
el modelo es:

+ + = X Y
+ =Y Y
8
donde la puntuacin Y predicha por el modelo de regresin es:

De la expresin (1.15) se deduce que el error en la prediccin ser:




Los parmetros de la ecuacin (1.14) -ecuacin de regresin verdadera- ( y ) son
generalmente desconocidos y han de ser estimados a partir de los valores observados en una
muestra de sujetos. Para que las inferencias a la poblacin -estimacin- as como los
contrastes de hiptesis acerca de los parmetros sean adecuados es necesario que las
variables implicadas cumplan las siguientes caractersticas estadsticas:


(a) Linealidad. El primer supuesto establece que el valor esperado (media) en la variable
Y para cada uno de los valores X se encuentra sobre la recta de regresin "verdadera" de Y
sobre X, o dicho de otra manera, la recta de regresin de Y sobre X vendr determinada
por los valores medios de Y para cada valor de X. En consecuencia, la esperanza
matemtica de los errores ser cero. As:



En trminos de los errores:

Ya que:

( ) ( ) ( ) ( ) ( ) 0 = = = = = Y Y Y E Y E Y Y E Y Y E E

(b) Homocedasticidad. El segundo supuesto establece que las varianzas de Y para cada valor
de X son todas iguales
2
, esto es, la dispersin de la variable Y a todo lo largo de la
recta de regresin es constante. El inters de esta propiedad reside en la ventaja de
utilizar un nico valor para todo el recorrido de X a la hora de estimar valores de Y a partir
de X, lo que otorga simplicidad al modelo. As pues:

Obsrvese que la distribucin de los errores es la misma que la de la variable dependiente
en torno a la recta de regresin (para valores fijos de X). En consecuencia, su varianza
coincidir con la de los errores ya que en la expresin + + = X Y la variabilidad
en Y para un cierto valor de X lo aporta :



c) Ausencia de autocorrelacin. El tercer supuesto establece que las variables aleatorias
Y son independientes entre s; es decir, la covarianza (o bien, correlacin) entre dos
valores de Y cualesquiera es cero. Cuando los valores de Y hacen referencia a sujetos
X Y + =
Y Y =
X X Y E + = ) | (
0 ) ( = E
2
= ) | (
i
X Y Var
( ) ( ) ( )
2 2 2 2

= = = = E X Y E Y Y E X Y Var
i i i i i
) | (
9
distintos -estudios transversales- esta propiedad suele cumplirse. Otro caso sucede en
estudios longitudinales donde se efectan diferentes mediciones de los mismos sujetos a
lo largo del tiempo, y que por razones de inercia suelen presentar autocorrelacin. As:

O bien:

d) Normalidad de las distribuciones. Este supuesto establece que la forma de la distribucin
de Y para cada valor de X sigue una ley normal. Se cumple, entonces, la condicin de
normalidad. Esta propiedad, junto a la condicin de homocedasticidad facilita la
inferencia estadstica del valor de Y poblacional a partir del valor de X. As:


Y en trmino de los errores:

Hay que decir en relacin a este supuesto que le modelo de regresin es bastante robusto
frente a violaciones del mismo. Por otro lado, para tamaos de muestras grandes, el
teorema central del lmite garantiza su cumplimiento.

Adems de estos requisitos necesarios a efectos de inferencia estadstica y contrastes
de hiptesis han de respetarse otros supuestos relacionados con el modelo de regresin en
cuanto modelo descriptivo. Estos son:


(a) El modelo ha de estar correctamente especificado, lo que implica el doble cometido de
no haber excluido variables independientes relevantes y el no haber incluido variables
independientes irrelevantes. Este requisito cumple su verdadera dimensin en la
regresin mltiple donde las variables independientes han de ser seleccionadas
cuidadosamente. Cuando se trata de una nica variable independiente, la precaucin ha de
cifrarse en esa variable y aqu la evidencia es palpable si el modelo no ha sido
correctamente especificado.


(b) La variable independiente ha de haber sido medida sin error. Se quiere decir con ello
que las puntuaciones empricas obtenidas en X son precisamente sus puntuaciones
verdaderas. Este requisito es un tanto ideal ya que el error de medida est implcito en
toda medicin. A este respecto hay que decir que en modelos ms completos
(Modelos Estructurales) se contempla la fiabilidad en la medida. Obsrvese por otro
lado, que la exactitud en la medicin no es requisito para la variable Y, ya que esta
circunstancia queda contemplada en el error .



0 = ) (
j i
Y Y Cov
0 = ) (
j i
Cov
) , (

2
x y x y i
N Y
) , 0 (
2
N
i

10
4.- Estimacin de parmetros


Los datos observados en una determinada muestra presentan una configuracin del
tipo:



denominado diagrama de dispersin o bien nube de puntos. Dicha configuracin carece
de operatividad matemtica. No obstante, segn el modelo convenido, la estructura de
relacin entre X e Y se supone lineal. As pues, hemos de determinar la recta:


que mejor represente la nube de puntos correspondiente a la muestra observada, y cuyos
valores (a y b) sean buenos estimadores de la verdadera ecuacin de regresin ( y ):



referente a la poblacin de origen.

Podramos utilizar varios mtodos en la determinacin de la recta que mejor ajuste a la
mencionada nube de puntos. Todos ellos tendrn, obviamente, como objetivo fundamental
reducir al mnimo el error global cometido, lo que se traduce, de alguna forma, en minimizar
el conjunto de errores e obtenido para el total de las observaciones. A este respecto,
podramos establecer el siguiente criterio:




Este procedimiento presenta el inconveniente de que puede lograrse una suma de cero
existiendo grandes errores positivos y negativos que quedaran neutralizados entre s. Esta
situacin podramos solventarla con dos procedimientos: a) operando con los valores
X X Y E + = ) | (
X Y + =
mnimo e
N
i
i

=1
11
absolutos de los errores:


mnimo e
N
i

=
| |
1



O bien, b) elevando al cuadrado tales valores:

mnimo e
N
i
i

=1
2


De estos dos procedimientos, el ltimo, denominado criterio de mnimos cuadrados es el
preferible. Varias razones lo avalan:



a) El hecho de elevar al cuadrado las puntuaciones no solamente resuelve el problema del
signo, sino que adems magnifica los errores grandes, lo cual obliga an ms a reducir tales
errores.

b) Algebraicamente entraa menos dificultades operar con sumas de cuadrados que con
sumas de valores absolutos.

c) Y por ltimo, y este es el punto ms importante, las estimaciones de los parmetros de la
ecuacin de regresin (a y b) obtenidas mediante el criterio de los mnimos cuadrados son
estimaciones sin sesgo, y por el teorema de Gauss-Markov presentan la mnima varianza
(ver al respecto el Apndice A). Adems, las estimaciones obtenidas mediante mnimos
cuadrados son coincidentes con las logradas por el procedimiento de mxima
verosimilitud.



4.1.- Estimacin mediante mnimos cuadrados


a) Puntuaciones directas.

En lo que sigue demostraremos, dado un conjunto de datos ofrecidos en puntuaciones
directas, que la ecuacin de la recta bX a Y + =
cuyo ajuste sigue el criterio de los mnimos
cuadrados es aquella que tiene por pendiente:




y de ordenada en el origen:
X b Y a =


x
y
xy
S
S
r b =
12

Efectivamente, tengamos la expresin:

mnimo e
N
i
i

=1
2



Sustituyendo los errores por su valor:


( ) ( )

= = = =
+ + + = + = =
N
i
N
i
N
i
N
i
bX a Y bX a Y bX a Y Y Y e
1
2 2
1 1
2 2
1
2
2 ) ( ) ( )) ( (


Esta funcin tendr un mnimo para los valores que anulen la primera derivada respecto a a y
b. As pues, calculemos primeramente la derivada parcial respecto a a. Haciendo operaciones
tenemos:

0
1
2
= + =

=
Y X b a
a
e
N
i



De donde:

X b Y a =


Para calcular b procedamos de igual manera. Igualemos a cera la derivada parcial respecto a
b, y haciendo operaciones:


0
1 2 1
2
1
2
=


= =
=
X Y
N
XY
X
N
X
b
b
e
N
i
N
i
N
i


Despejando b:


x
y
xy
x
y x xy
x
xy
N
i
N
i
S
S
r
S
S S r
S
S
X
N
X
Y X
N
XY
b = = =

=
=
2 2
2 1
2
1




13
b) puntuaciones centradas


Tengamos la ecuacin de regresin en directas:

bX a Y + =


Sustituyamos a por su valor:

) ( ) (

X X b Y X b X b Y bX X b Y bX a Y + = + = + = + =

Donde se nos indica que el valor pronosticado en Y es precisamente su media (el valor
previsto en ausencia total de informacin) ms el efecto de la variable X.

Ahora, si pasamos Y al primer miembro de la ecuacin:

Se observa en el primer miembro las puntuaciones centradas de Y y en el segundo las
puntuaciones centradas de X. Sustituyendo, entonces, por la notacin adecuada el modelo
en puntuaciones centradas queda:
bx y =


Como puede observarse, dicha ecuacin presenta la misma pendiente que la ecuacin
obtenida en puntuaciones directas. Se diferencia de sta en que carece de ordenada en el
origen. La recta, pues, en centradas pasa por el origen de coordenadas. Esto es:



Obsrvese que las puntuaciones centradas son la consecuencia de restar a los valores Y su
media ) ( Y Y y a los valores X, igualmente su media ) ( X X . Por otro lado, sucede,
precisamente, que tanto la media de Y como la media de X satisfacen la ecuacin de la
recta, como se desprende de (1.20):

bX a Y + =


) ( X X b Y Y =
14
Por tanto, la transformacin en puntuaciones centradas equivale a un desplazamiento del
origen del sistema de coordenadas al punto ) , ( Y X . En consecuencia, la recta de regresin
observada tendr la misma pendiente pero carecer de ordenada en el origen, tal como se
observa en la siguiente figura:






c) Puntuaciones estandarizadas


Tomemos como referencia la siguiente ecuacin conocida:

) ( X X b Y Y =


Y sustituyamos b por su expresin mnimo cuadrtica:


) ( ) ( X X
S
S
r X X b Y Y
x
y
xy

= =

Se observa que el primer miembro de la igualdad hace referencia a las puntuaciones tpicas
de Y, y el segundo miembro, a las puntuaciones tpicas de X. Sustituyendo por la notacin
adecuada:

x xy y
Z r Z =


Se comprueba que la ecuacin en puntuaciones estandarizadas tiene por pendiente el
coeficiente de correlacin simple.


15
Ejemplo 1.5.- Sobre los datos del ejemplo 1.1, calcular la ecuacin de regresin en
puntuaciones directas, centradas y estandarizadas:

SOL:

a) Directas:

702 16 5 117 1975 0 5 6
1975 0
874 10
579 2
8327 0
. . * . .
.
.
.
.
= = =
= = =
X b Y a
S
S
r b
x
y
xy


Por tanto:

X bX a Y 1975 0 702 16 . . + = + =


b) Centradas:

x bx y 1975 0.

= =
c) Estandarizadas:

x x xy y
Z Z r Z 8327 0. = =




5.- Interpretacin del modelo de regresin


Como se ha indicado, en el modelo de regresin lineal se establece la relacin existente
entre las variables X e Y. Esta relacin, para todo sujeto, tiene un componente estructural
(lineal) de carcter determinista indicado por bX a+ y un componente aleatorio e, especfico
para cada individuo. As:

e bX a Y + + =

donde la parte determinista que permite obtener la puntuacin pronosticada por el
modelo es:
bX a Y + =


Distinguimos pues, los siguientes elementos: a) error de estimacin -e-, b) puntuacin
pronosticada -Y-, c) pendiente de la recta -b- y d) ordenada en el origen -a-.


a) Error de estimacin

La parte aleatoria hace referencia justamente a aquello que el modelo no explica. Muestra la
deficiencia del modelo, aunque es obvio que ningn modelo en ciencias humanas, dada su
16
complejidad, carecer de error. El estudio del error o puntuaciones residuales tiene especial
inters, como se ver mas adelante en la verificacin de los supuestos del modelo. Por el
momento, sealemos su existencia. En el ejemplo 1.1, el sujeto nmero 4, que presenta un
coeficiente intelectual -C.I.- de 124 puntos, ha obtenido una calificacin de 7 puntos. El
pronstico de la ecuacin de regresin ser:


788 7 124 1975 0 702 16 . * . . = + = + = bX a Y


Y el error obtenido:

788 0 788 7 7 . . = = = Y Y e

La interpretacin es obvia; para un sujeto de 124 de C.I. el modelo predice 7.788 puntos.
Ha obtenido 7 puntos, luego la parte que no explica el modelo corresponde a -0.788
puntos.


b) Puntuacin estimada

Mayor inters tiene por el momento que nos concentremos en la parte estructural del
modelo. A este respecto hay que decir que el valor
i
Y obtenido al aplicar la ecuacin de
regresin sobre un determinado valor X
i
hace referencia al valor promedio previsto para
todos aquellos sujetos que han obtenido en la variable X el valor de X
i
. Por ejemplo, en el
caso que nos concierne para el sujeto que ha logrado 124 puntos de C.I. la puntuacin
prevista ha sido de 7.788. Se interpreta como la calificacin media de todos los sujetos de
124 puntos en inteligencia. Es obvio que no todos los sujetos de igual inteligencia
sacarn exactamente la misma puntuacin. Dependiendo de otros factores (motivacin,
personalidad... etc) unos obtendrn ms y otros menos. Al final es el valor ms probable
(promedio) el especificado por la ecuacin de regresin.



c) Pendiente de la recta

La pendiente de la recta tiene una interpretacin sencilla en matemticas; muestra el
cambio en Y por cada unidad de cambio en X. Como la ecuacin de regresin opera (mediante
el procedimiento de mnimos cuadrados) sobre la base del diagrama de dispersin, la
interpretacin, en este caso, tal como quedo de manifiesto en el apartado anterior, es la
siguiente: la pendiente b indica el cambio medio en Y asociado a cada unidad de cambio en X.
Por ejemplo, en el caso que estamos tratando, la pendiente vale 0.1975. Se interpreta en el
sentido de que por cada punto de incremento en el C.I. los sujetos, por trmino medio,
mejorarn en 0.1975 puntos su rendimiento acadmico.

Una pendiente de cero indica claramente que la variable X no sirve para nada, pero una
pendiente grande no indica lo contrario, ya que para esto hace falta conocer las escalas de las
variables, y lo que es ms importante, la dispersin de la nube de puntos. Un diagrama de
dispersin mas bien redondeado, aunque con una recta implcita de gran pendiente no
significa gran cosa en trminos de relacin.
17
c) Ordenada en el origen

Como se sabe, la ordenada en el origen hace referencia al valor en Y cuando X=0. En la
ecuacin de regresin, ya que la recta est elaborada sobre los puntos medios del diagrama de
dispersin, hace referencia a la puntuacin media de Y cuando el valor de X es cero. No
siempre es interpretable este valor en Psicologa. Por ejemplo, en nuestro caso la ordenada
en el origen es -16.702. Es evidente que un sujeto no obtendr esta calificacin cuando
X=0. Los valores negativos en rendimiento carecen de interpretacin. Por otro lado, ha de
tenerse en cuenta que no es posible encontrar una inteligencia de valor cero; el rango de
variacin en las variables no ha de estar fuera de los observados en la muestra, ya que ste ha
sido el punto de referencia para determinar la ecuacin de regresin. Por tanto, aunque la
recta pueda prolongarse hasta el infinito no es lcito operar con valores fuera de los
mrgenes estudiados.

No obstante, frecuentemente, puede interpretarse el valor de la ordenada en el origen.
Supongamos que relacionamos la variable Ingresos (Y) con Aos de estudio (X) y obtenemos
la siguiente ecuacin de regresin:

X Y 120 600 + =

En este caso, los sujetos que carecen de todo tipo de estudio ganan por trmino medio 600
euros, de tal manera que por cada ao de estudio ven incrementado su salario en 120 euros.
As, un sujeto que haya estudiado 10 aos tendr un sueldo de 600+120*10=1800 euros.



6.- Componentes de variacin.


Interesa en este apartado analizar la capacidad predictiva del modelo de regresin lineal.
Supuesto que los datos observados se ajustan a una ecuacin lineal hemos determinado en
el punto anterior aquella recta que mejor cumple dicha condicin en el sentido de generar la
mnima cantidad de errores cuadrticos posibles. Veremos ahora, en una primera
instancia, cuanto, en trminos de variacin, explica el modelo lineal del conjunto de los
datos observados (bondad de ajuste) para tratar ms adelante de la lgica de la decisin que
permite aceptar o rechazar la hiptesis del modelo lineal para un determinado conjunto de
datos (validez del modelo).

Expondremos, primeramente, los distintos componentes de variacin que pueden reconocerse
al aplicar el modelo regresin sobre un determinado fenmeno observado. Digamos que todo
modelo es un intento de explicar la realidad. Y los modelos estadsticos se aplican,
precisamente, cuando la realidad estudiada es imperfectamente conocida. Se observa, as,
que una parte del comportamiento del fenmeno queda explicado por el modelo, mientras que
otra parte se sustrae al mismo.

Para aclarar estas ideas, supongamos en primer lugar que disponemos de dos variables X e Y
pero desconocemos la naturaleza de la relacin entre ambas variables. En este supuesto, si nos
piden el valor en Y para un sujeto que haya obtenido un cierto valor en X, daremos como
valor ms probable la media de Y. Es razonable tal respuesta, ya que en ausencia de
informacin para una variable que sigue una ley normal el valor de mxima probabilidad es
18
precisamente su valor medio. As pues, como se observa en el siguiente grfico el valor de Y
estimado para cualquier valor de X serY:




De esta forma, en ausencia total de informacin, la ecuacin de regresin ser:

Y Y =

Para un sujeto en particular que dado un valor X
i
haya obtenido Y
i
, cometeremos un error
de prediccin:

Y Y e
i
=

tal como se ilustra en la siguiente figura:




Supongamos ahora que tenemos conocimiento de la relacin lineal que liga las variable X e Y.
Y esta relacin es segn la ecuacin conocida

19

bX a Y + =



El error cometido ser entonces:


i i
Y Y


segn se ilustra en la siguiente figura:







Se observa que en este caso el error es ms pequeo que el existente en ausencia de
informacin. Si tomamos el valor:

Y Y
i


como indicativo del error cometido cuando carecemos de la informacin proporcionada por
el modelo y lo definimos como desviacin total respecto a la media para un determinado
sujeto, entonces el valor:

Y Y
i


har referencia a la parte que de la desviacin total explica el modelo de regresin. Se
denomina desviacin explicada por el modelo de regresin. Queda, entonces, un resto:

i i
Y Y
20

que no logra explicar el modelo -desviacin no explicada-. De esta forma, segn lo
expuesto, podemos establecer la siguiente igualdad:


( ) ( ) ( ) Y Y Y Y Y Y
i i i
+ =

Para el sujeto i la desviacin total del valor Y
i
con respecto a la media ( ) Y Y
i
puede
descomponerse en la desviacin explicada por el modelo de regresin ( ) Y Y
i
ms la
desviacin no explicada ( ) Y Y
i
.

Si elevamos al cuadrado ambos miembros de la igualdad (1.30):


( ) ( ) ( ) ( )( ) Y Y Y Y Y Y Y Y Y Y
i i i i i
+ + = 2
2 2 2


Si se cumple esta igualdad para cada uno de los sujetos, se cumplir igualmente para la
suma de todos ellos. As pues:


( ) ( ) ( ) ( )( ) Y Y Y Y Y Y Y Y Y Y
i
N
i
i
N
i
i
N
i
i
N
i
i
+ =

= = = = 1 1
2
1
2
1
2
2

Donde:

( )( ) 0 2
1
=

=
Y Y Y Y
i
N
i
i


ya que los errores aleatorios no correlacionan con ninguna otra puntuacin (Obsrvese
que el sumatorio anterior es el numerador de la covarianza entre los errores y las
puntuaciones predichas por el modelo de regresin). En consecuencia:

( ) ( ) ( )

= = =
+ =
N
i
i
N
i
i
N
i
i
Y Y Y Y Y Y
1
2
1
2
1
2


Esto es:

Suma de cuadrados total = Suma de cuadrados explicada + Suma de cuadrados no explicada


Si tomamos las sumas de cuadrados anteriores (como numeradores de varianzas que son)
como un ndice de la variabilidad de los datos tenemos que:


Variacin Total = Variacin Explicada + Variacin No Explicada.


Merece destacarse la importancia de esta igualdad. Del cociente entre la variacin explicada y
21
la total obtendremos la proporcin de variacin explicada por el modelo, lo que permitir
hacernos una idea del ajuste del modelo al fenmeno observado -bondad de ajuste-. Por otro
lado, a partir de estos datos calcularemos la varianza explicada y no explicada,
permitindonos su cociente tomar la decisin de si el modelo lineal es un buen indicador del
comportamiento de los datos observados -validez del modelo-. A estas consideraciones
dedicamos los dos prximos apartados.



7.- Bondad de ajuste


Tomaremos como ndice de la bondad de ajuste del modelo la proporcin de variacin
explicada por el mismo; esto es, el cociente entre la suma de cuadrados explicada por el
modelo y la suma de cuadrados total. De esta forma, podemos hacernos una idea de cunto
explica el modelo de la realidad estudiada. Su expresin es:

=
=

=
N
i
i
N
i
i
Y Y
Y Y
R
1
2
1
2
2
) (
) (


Obsrvese que este cociente lo hemos denominado como R
2
. Coincide, precisamente, como
demostraremos a continuacin con el valor de r
xy
al cuadrado, tambin denominado
coeficiente de determinacin. En este sentido, en relacin al numerador de la expresin
(1.32) se sabe que la ecuacin de regresin en puntuaciones centradas es:


) ( X X b Y Y
i i
=

Elevando al cuadrado y sacando sumatorios:


= =
=
N
i
i
N
i
i
X X b Y Y
1
2 2
1
2
) ( ) (

Por otro lado, se sabe que

=

N
i
i
X X
1
2
) ( representa el numerador de la varianza de X. As
pues:

=
=
N
i
x i
NS X X
1
2 2
) (


Igualmente, en relacin a

=

N
i
i
Y Y
1
2
) ( :

=
=
N
i
y i
NS Y Y
1
2 2
) (
22

Por tanto, podremos expresar (1.32) de la siguiente manera:


2
2 2
2
2 2
1
2
1
2
2
y
x
y
x
N
i
i
N
i
i
S
S b
NS
NS b
Y Y
Y Y
R = =

=
=
) (
) (



Sustituyendo b por su expresin mnimo cuadrtica:

2
2
2
2
2
2 2
2
xy
y
x
x
y
xy
y
x
r
S
S
S
S
r
S
S b
R =

= =


De donde se comprueba que la proporcin de varianza explicada corresponde con el
valor de
2
xy
r . De esta forma, la interpretacin de
2
R es extremadamente sencilla y
clarificadora. En el ejemplo 1.1 se obtuvo r
xy
= 0.8327. Por tanto, el cuadrado de este valor,
R
2
= 0.8327
2
= 0.6933 nos indica que el 69.33% de la variacin observada en el rendimiento
es debida a la inteligencia. Queda, en consecuencia, un 30.67% de variacin debido a otros
factores (motivacin, horas de estudio, ..etc).

Resulta patente, pues, la utilidad de R
2
para hacernos una ideal cabal del efecto de una
variable sobre otra. En trminos prcticos, para calcular la bondad de ajuste del modelo
bastar con elevar al cuadrado el coeficiente de correlacin (r
xy
) que se supone ya ha sido
obtenido en su momento (ver frmula (1.9) o equivalente). Tambin podemos aplicar la
frmula (1.33), si disponemos de las varianzas de X y de Y. Podemos, igualmente, aplicar
directamente la expresin (1.32) o bien, si operamos en base a las puntuaciones directas
utilizaremos la siguiente:

=
=
=
=
=
=
=
=

=
N
i
N
i
i
i
N
i
N
i
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
Y
Y
N
X
X b
Y Y
X X b
Y Y
Y Y
R
1
2
1 2
1
2
1 2 2
1
2
1
2 2
1
2
1
2
2
) (
) (
) (
) (



Por otro lado, podemos replantear la frmula (1.31) en funcin de R
2
. De esta forma logramos
una mejor comprensin de dicha igualdad, al mismo tiempo que al expresarse en trminos
de proporcin quedamos liberados de los problemas de las escalas. Para ello dividamos los
dos miembros de la igualdad (1.31) por la suma de cuadrados total:
23


( )
( )
( )
( )
( )
( )

=
=
=
=
=
=

N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
N
i
i
Y Y
Y Y
Y Y
Y Y
Y Y
Y Y
1
2
1
2
1
2
1
2
1
2
1
2




Esto es:


Prop. variabilidad total = prop. variabilidad explicada + prop. variabilidad no explicada


Es fcil deducir que:

Prop. var. no explicada = 1 - R
2



Luego la expresin (1.35) deviene:
) (
2 2
1 1 R R + =

Grficamente el reparto de variabilidad podemos representarlo en el siguiente diagrama de
Venn. La interseccin de los crculos indica la proporcin de variabilidad explicada por la
regresin:









24
Ejemplo 1.6.- Determinar los componentes de variacin y la proporcin de variacin
explicada por el modelo de regresin lineal de los datos del ejemplo 1.1.

SOL:


Comenzaremos con la expresin original (1.32), que no es precisamente la frmula
ms simple de realizar, pero tiene la ventaja de ser la que mejor refleja la lgica de la bondad
de ajuste. Permite distinguir para cada puntuacin de Y los distintos componentes de
variacin (desviacin explicada, no explicada y total):

=
=

=
N
i
i
N
i
i
Y Y
Y Y
R
1
2
1
2
2
) (
) (



Calculemos, en primer lugar, la suma de cuadrados total:

( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) 5 66 5 6 6 5 6 7 5 6 10 5 6 3 5 6 9
5 6 9 5 6 7 5 6 2 5 6 8 5 6 4
2 2 2 2 2
2 2 2 2 2
1
2
. . . . . .
. . . . . ) (
= + + + + +
+ + + + + =

=
N
i
i
Y Y


Antes de proceder a calcular la suma de cuadrados explicada, hemos de determinar los
valores predichos por la ecuacin de regresin para los distintos valores de X. As pues:

032 4 105 1975 0 702 16
599 6 118 1975 0 702 16
771 8 129 1975 0 702 16
414 5 112 1975 0 702 16
178 8 127 1975 0 702 16
351 10 137 1975 0 702 16
784 7 124 1975 0 702 16
637 3 103 1975 0 702 16
204 6 116 1975 0 702 16
032 4 105 1975 0 702 16
10
9
8
7
6
5
4
3
2
1
. * . .
. * . .
. * . .
. * . .
. * . .
. * . .
. * . .
. * . .
. * . .
. * . .
= + =
= + =
= + =
= + =
= + =
= + =
= + =
= + =
= + =
= + =
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y


Una vez obtenidas las puntuaciones estimadas por el modelo procedemos a calcular la suma
de cuadrados explicada:

( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) 108 46 5 6 032 4 5 6 599 6 5 6 771 8 5 6 414 5 5 6 178 8
5 6 351 10 5 6 784 7 5 6 637 3 5 6 204 6 5 6 032 4
2 2 2 2 2
2 2 2 2 2
1
2
. . . . . . . . . . .
. . . . . . . . . . ) (
= + + + + +
+ + + + + =

=
N
i
i
Y Y

De aqu se deduce que la suma de cuadrados no explicada ser:

( ) ( ) ( ) 392 20 108 46 5 66
1
2
1
2
1
2
. . . = = + =

= = =
N
i
i
N
i
i
N
i
i
Y Y Y Y Y Y
25

Y la proporcin de variabilidad explicada:

6933 0
5 66
108 46
1
2
1
2
2
.
.
.
) (
) (
= =

=
=
N
i
i
N
i
i
Y Y
Y Y
R

Otra frmula ms til para el calculo de
2
R es:


6933 0
5 66
108 46
10
65
489
10
1175
139245 1975 0
2
2
2
1
2
1 2
1
2
1 2 2
1
2
1
2
2
.
.
.
.
) (
) (
= =

=
=
=
=
=
=
N
i
N
i
i
i
N
i
N
i
i
i
N
i
i
N
i
i
N
Y
Y
N
X
X b
Y Y
Y Y
R

O ms sencilla an:

6933 0
5 66
108 46
579 2 10
874 10 10 1975 0
2
2 2
2
2 2
1
2
1
2
2
.
.
.
. *
. * * .
) (
) (
= = = =

=
=
y
x
N
i
i
N
i
i
NS
NS b
Y Y
Y Y
R




8.-- Validacin del modelo.


Como se ha indicado, hay dos de variacin en todo fenmeno de base estadstica: la fuente
de variacin especificada por el modelo y que constituye su estructura, y una fuente de
variacin aleatoria, no controlada, que imprime una cierta deformacin sobre el
modelo concebido. Desde esta perspectiva, la validacin del modelo consiste bsicamente
en comprobar si persiste la estructura del modelo a pesar de la deformacin a por la
fluctuacin aleatoria de los datos.

A nivel estadstico, se trata de comparar la varianza explicada, que define el modelo, con la
varianza no explicada, que lo desdibuja. Si la varianza explicada es mayor que la no
explicada ser indicativo de que se reconoce algo a pesar del ruido, si ocurre lo contrario, el
ruido, la deformacin que impone la varianza aleatoria impedir toda posibilidad de
reconocimiento y el modelo no ser validado.

La prueba estadstica que permite comparar varianzas y tomar decisiones en cuanto a su
26
magnitud relativa es, como se sabe, el anlisis de la varianza. A dicha prueba nos
remitimos cuando hablamos de validacin del modelo.

A este respecto, la varianza explicada tendr por valor:
k
Y Y
n
i
i
=

1
2
) (


Siendo el numerador la suma de cuadrados explicada por la regresin y el denominador los
grados de libertad asociados al componente de variacin explicado, donde k indica el
nmero de variables independientes a considerar.

Por otro lado, la varianza no explicada ser:

1
1
2

=
k N
Y Y
n
i
i i
) (


donde el numerador hace referencia a la suma de cuadrado no explicada por el modelo, y el
denominador sus grados de libertad asociados (N hace referencia al nmero de individuos
y k al nmero de variables independientes).

El anlisis de la varianza queda, entonces, de la siguiente manera:



1
1
2
1
2

=
=
k N
Y Y
k
Y Y
F
n
i
i i
n
i
i
) (
) (




Si el valor obtenido de F es superior al de las tablas para k y N-k-1 grados de libertad y al
nivel de significacin de , rechazaremos la hiptesis de igualdad de varianzas (con un
riesgo mximo ). Concluiremos, en consecuencia, que muy probablemente las variables X e
Y estn relacionadas. As:


0 1
H la rechaza Se F F
k N k
>
) , , (


En caso contrario, si el valor obtenido de F es igual o inferior al de las tablas, concluiremos
(con un riesgo desconocido) que ambas varianzas son iguales, y por tanto, no
estaremos en condiciones de rechazar la
0
H . Concluiremos, por tanto, que muy
probablemente las variables X e Y no estarn relacionadas. Esto es:

27
0 1
H la acepta Se F F
k N k

) , , (


Aunque la frmula (1.40) es suficiente para determinar la validez del modelo, habitualmente
se recurre a la siguiente tabla donde quedan desglosados los distintos elementos que
configuran dicha frmula. De esta forma se ve de una manera ms clara los componentes
de variacin del modelo as como sus grados de libertad asociados.



FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS DE
LIBERTAD
VARIANZA F
Explicada

=

n
i
i
Y Y
1
2
) (
k
k
Y Y
n
i
i
=

1
2
) (
. exp
. exp
no
Var
Var
F =
No explicada

=

n
i
i i
Y Y
1
2
) (
1 k N
1
1
2

=
k N
Y Y
n
i
i i
) (


Total

=

n
i
i i
Y Y
1
2
) (
1 N
1
1
2

=
N
Y Y
n
i
i
) (





Podemos aplicar la frmula (1.40) directamente o bien utilizar alguna frmula alternativa
ms sencilla. De esta forma, en relacin a la suma de cuadrados debida a la regresin
podemos utilizar la expresin conocida:


= =
=
n
i
n
i
i i
X X b Y Y
1 1
2 2 2
) ( ) (


Si disponemos de las puntuaciones directas de la variable X, resulta ms simple:

= =



=
=
= =
N
i
N
i
i
i
n
i
n
i
i i
N
X
X b X X b Y Y
1
2
1 2 2
1 1
2 2 2
) ( ) (


Ms fcil an, si conocemos la varianza de X, que se supone ha sido calculada
previamente:



= =
= =
n
i
n
i
x i i
NS b X X b Y Y
1 1
2 2 2 2 2
) ( ) (
28

Ya que:

( )
( )
2
1
2 2 1
2
x
N
i
i x
N
i
i
NS X X S
N
X X
= =

=
=



Y en relacin a la suma de cuadrados no explicada (o residual), sta puede expresarse
como la diferencia entre la suma de cuadrados total y explicada:



Y de una manera ms sencilla en base a lo expuesto anteriormente:

2 2 2
1 1
2 2
1
2
x y
N
i
N
i
i i
N
i
i i
NS b NS Y Y Y Y Y Y = =

= = =
) ( ) ( ) (


Segn utilicemos una u otra expresin tendremos diferentes alternativas a la frmula (1.40).
Por ejemplo, si operamos en puntuaciones directas:

1
1
1
2
1 2 2
1
2
1 2
1
2
1 2 2
1
2
1
2

=
=
=
=
=
=
=
=
k N
N
X
X b
N
Y
Y
k
N
X
X b
k N
Y Y
k
Y Y
F
N
i
N
i
i
i
N
i
N
i
i
i
N
i
N
i
i
i
n
i
i i
n
i
i
) (
) (



O bien en trminos de varianzas, si stas se conocen:


1
1
2 2 2
2 2
1
2
1
2

=
=
k N
NS b NS
k
NS b
k N
Y Y
k
Y Y
F
x y
x
N
i
i i
N
i
i
) (
) (


= = =
=
N
i
N
i
i i
N
i
i i
Y Y Y Y Y Y
1 1
2 2
1
2
) ( ) ( ) (
29

Podemos simplificar an ms el clculo de F, y expresarlo en trminos de R
2
segn la
siguiente frmula:


1
1
2
2

=
k N
R
k
R
F


Para ello, tan slo tenemos que dividir el numerador y el denominado de (1.42) por la suma
de cuadrados de Y. As pues:


1
1
1 1
2
2
1
2
1
2
1
2
1
2
1
2
1
2

=



=

= =
= =
=
=
k N
R
k
R
k N
Y Y Y Y
k
Y Y Y Y
k N
Y Y
k
Y Y
F
N
i
N
i
N
i
N
i
N
i
N
i
) ( / ) (
) ( / ) (
) (
) (








Ejemplo 1.7.- Calcular la validez del modelo de regresin lineal del ejemplo 1.1.



SOL:

Si lo hacemos en trminos de las puntuaciones directas:


088 18
8
392 20
1
108 46
1 1 10
10
1175
139245 1975 0
10
65
489
1
10
1175
139245 1975 0
1
2
2
2
2
2
1
2
1 2 2
1
2
1 2
1
2
1 2 2
.
.
.
.
.
= =


=
=
=
=
=
=
k N
N
X
X b
N
Y
Y
k
N
X
X b
F
N
i
N
i
i
i
N
i
N
i
i
i
N
i
N
i
i
i

30

Buscando en las tablas:

318 5
05 0 8 1
.
) . , , (
= F




Comparando:

18.088 > 5.318


Luego se rechaza la H
0
(con un riesgo mximo de 0.05). Puede considerarse vlido el
modelo.

Si operamos en trminos de varianzas:


088 18
8
874 10 10 1975 0 579 2 10
1
874 10 10 1975 0
1
2 2 2
2 2
2 2 2
2 2
.
. * * . . *
. * * .
=

=
k N
NS b NS
k
NS b
F
x y
x



Ms fcilmente podemos aplicar la expresin (1.43) para el clculo de la validez. As:


088 18
8
8237 0 1
1
8237 0
1
1
2
2
2
2
.
.
.
=

=
k N
R
k
R
F


Si se desea, a efectos ilustrativos de los distintos elementos que componen el anlisis de la
varianza, podremos elaborar la siguiente tabla:



FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS DE
LIBERTAD
VARIANZA F
Explicada 108 46. 1 108 46. 088 18. = F
No explicada 392 20. 8 549 2.
Total 5 66. 9 389 7.




31


9.- Significacin de los parmetros de la regresin.


La significacin de los parmetros del modelo de regresin reviste especial inters en el
contexto de la regresin mltiple, donde pudiera ocurrir que la prueba F del anlisis de la
varianza mostrara que en trminos globales el modelo fuera vlido, mientras que el efecto
de algunas variables del modelo fuera nulo, o lo que es lo mismo que algunos
coeficientes de regresin no ejercieran ningn efecto significativo sobre la variable
dependiente.

En el caso de la regresin simple -ya que existe una sola variable independiente- la prueba
de significacin de los coeficientes de regresin puede considerarse como una prueba
equivalente a la prueba del anlisis de la varianza (tambin de la significacin del coeficiente
de correlacin r
xy
).

De los dos coeficientes de regresin del modelo (a y b) nos interesan tan slo la pendiente
de la recta, que es precisamente el coeficiente que nos muestra el efecto de la variable X
sobre Y. En concreto comprobaremos si su valor es estadsticamente igual a cero o no. Si
dicha pendiente no difiere significativamente de cero concluiremos que el modelo no aporta
informacin relevante. En caso contrario, daremos el modelo como vlido. Esto es,
tengamos la ecuacin de regresin en puntuaciones centradas:


) ( X X b Y Y =


Despejando Y:
) ( X X b Y Y + =


Se observa que cuando la pendiente vale cero:

Y Y =


la puntuacin pronosticada es precisamente la media de Y, (que, como se sabe, es el
pronstico cuando el modelo carece de informacin alguna) tal como se refleja en el
siguiente grfico:




32







La recta de regresin es pues, paralela al eje de las abscisas. Cualquier cambio en X
implica siempre el mismo valor en Y. Ambas variables no estn, por tanto,
correlacionadas.

Por otro lado, como es fcil comprobar, cuando la pendiente de la recta es diferente de cero
incrementos en el valor de X suponen incrementos efectivos en la variable Y:










En esta situacin las variables estn relacionadas, el modelo aporta informacin relevante
en trminos predictivos y es, por ello, vlido.

As pues, como se ha indicado, la validez del modelo puede comprobarse tambin (adems
de la prueba F) contrastando la pendiente asociada al modelo de regresin. Si se
demuestra que la pendiente es significativamente diferente de cero, el modelo tendr
capacidad predictiva, y por tanto, ser vlido. Por el contrario, si la pendiente no fuera
33
estadsticamente diferente de cero su capacidad predictiva no ir ms all de Y (prediccin
en ausencia de informacin) y el modelo no ser vlido.

En trminos estadsticos se trata de comprobar si la pendiente b observada en una cierta
muestra puede o no proceder de una poblacin cuya pendiente

vale cero. Esto es, se


contrasta la hiptesis nula:

0
0
= : H

frente a la hiptesis alternativa:

0
1
: H


En este supuesto, se demuestra (ver Apndice A) que la distribucin muestral de
coeficientes b procedentes de una poblacin cuyo valor es cero, se distribuye segn una ley
de Student de media cero y desviacin tipo:


2
2
1
2
2
x
res
n
i
res
b
NS
S
X X
S
S
i
=

=
) (



De esta forma, si se desea saber si un determinado coeficiente b observado en una
muestra procede de una poblacin de 0 = , calcularemos el nmero de desviaciones tipo
que se encuentra de la media de dicha distribucin, segn la frmula conocida:


=
n
i
res
b
X X
S
b
S
b
t
i
1
2
2
0
) (




Posteriormente comparamos este valor t con el de las tablas
) , ( 2 N
t

para el nivel de
significacin y N-2 grados de libertad:



Si
) , ( 2

N
t t

Se acepta la hiptesis nula. El modelo no es vlido

Si
) , ( 2
>
N
t t

Se rechaza la hiptesis nula. El modelo es vlido



34
Ejemplo 1.8.- Determinar la significacin del coeficiente de regresin de ejemplo 1.3.


SOL:

Apliquemos (1.45):


253 4
5 1182
549 2
1975 0 0
1
2
2
.
.
.
.
) (
= =

=
n
i
res
X X
S
b
t


Buscamos la t de las tablas para 05 0. = y 8 2 = N grados de libertad:


306 2
8 05 0
.
) , . (
= t




Comparndolo con el valor obtenido:

4.253 > 2.306

La pendiente es significativamente distinta de cero. Existe, pues, relacin entre ambas
variables.




10.- Prediccin.


Una vez validado el modelo de regresin que liga las variables X e Y puede ser
conveniente utilizarlo para establecer predicciones de la variable Y. Por ejemplo, si
conocemos para una cierta muestra de vendedores la relacin existente entre una
determinada prueba psicolgica y el xito profesional de los mismos, puede interesarnos, si
disponemos de un candidato a vendedor, aplicar dicha prueba a efectos de su capacidad en
ventas.

Si para la elaboracin del modelo dispusiramos de los datos de toda la poblacin sucedera
que la ecuacin de regresin obtenida sera precisamente la ecuacin regresin verdadera

X Y + =

En este supuesto, el valor ms probable en Y para un sujeto que haya obtenido un cierto
valor en X sera el reflejado en la ecuacin de regresin (1.46):
35

Si deseamos afinar algo ms y ofrecer una estimacin por intervalo, sabemos por los
requisitos del modelo de regresin que para un cierto valor X
o
la distribucin ligada de los
valores Y sigue una ley normal de media el valor predicho en la ecuacin de regresin y de
varianza la varianza residual. De esta forma, para los sujetos que han obtenido X
o
habr una
proporcin 1 de ellos que tendrn en Y puntuaciones comprendidas en el siguiente
intervalo:

e N
S t Y
) , (

2 0


En trminos de probabilidad, diremos que un sujeto que ha obtenido una cierta puntuacin
X
o
tendr una probabilidad 1 de estar comprendido en los citados lmites.

En la prctica, no obstante, sucede que desconocemos la recta de regresin verdadera;
tan slo disponemos de la recta de regresin obtenida en una muestra. En consecuencia,
entre la ecuacin de regresin estimada y la verdadera habr una cierta diferencia tal como se
muestra en la siguiente figura:






No podemos especificar el valor exacto del error ya que desconocemos los parmetros
poblacionales. Lo que s podemos cuantificar es la distribucin en el muestreo de los
distintos valores
o
Y en torno al valor real Y
o
. Esto es, hemos de determinar la Var(Y
o
). A
este respecto, se sabe que:



e bX a Y + + =
0 0


Luego:
2 2
0 0 0 res
S b Var X a Var e bX a Var Y Var + + = + + = ) ( ) ( ) ( ) (

36

Pero sabemos (ver Apndice A) que:

( )
2
1
2
2
1
res N
i
S
X X
X
N
a Var

+ =

=
) (

En consecuencia:


( ) ( )
2
1
2
2
2
0
2
1
2
2
0
1
res N
i
res
res N
i
S
X X
S
X S
X X
X
N
Y Var +

+ =

= =
) (

Haciendo operaciones:

( )
( )

+ + =

=
N
i
res
X X
X X
N
S Y Var
1
2
2
0 2
0
1
1 ) (


Por tanto, el intervalo de confianza ser:




( )
( )

+ +

N
i
res N
X X
X X
N
S t Y
1
2
2
0 2
2 0
1
1
) , (






siendo
0
X es el valor especificado de X sobre el que se desea la prediccin. Obsrvese cmo
cuanto ms alejado se encuentre este valor de la media mayor dispersin habr para el
intervalo de confianza de la
0
Y .

En el siguiente grfico se muestra dos lneas ligeramente curvas que indican las distintas
amplitudes de los intervalos de confianza a lo largo del recorrido de la ecuacin de regresin.
Tales amplitudes son menores cuanto ms cerca se encuentre de la media X :




37














Ejemplo 1.9.- Tomando como referencia los datos del ejemplo 1.3, determinar el la
calificacin verdadera para una persona que presenta 115 puntos de C.I.



SOL:

Aplicando la ecuacin de regresin tenemos que la puntuacin pronosticada para este
sujeto ser:



011 6 115 1975 0 702 16
0
. * . . = + = + = bX a Y

Y el intervalo de confianza ( 05 0. = ) donde espera encontrarse el parmetro
correspondiente:


( )
( )
( )
882 9 140 2 871 3 011 6
5 1182
5 117 115
10
1
1 549 2 306 2 011 6
1
1
2
1
2
2
0 2
2 0
. . . .
.
.
. . .
) , (
=
=


+ + =

+ +

=
N
i
res N
X X
X X
N
S t Y


38
Existe una probabilidad de 0.95 de que un sujeto que presente un C.I. de 115 obtenga entre
9.882 y 2.140 en rendimiento. Obsrvese la magnitud del intervalo que hace posible
prcticamente cualquier calificacin (de suspenso a sobresaliente) debido a la muestra tan
pequea (10 sujetos) que por motivos didcticos ha sido utilizada.



10.1.- Limitaciones de la prediccin


Es preciso hacer algunas consideraciones en relacin al alcance de la prediccin
Aunque la ecuacin de la recta puede prolongarse indefinidamente en sus dos
extremos, hay que tener la precaucin de no extrapolar los valores ms all de los datos de
observacin. La ecuacin de regresin ha sido obtenida a partir de unos determinados
valores muestrales, y a estos valores hay que atenerse. Pudiera ocurrir que dentro del rango
de observacin existiese una relacin lineal, pero al mismo tiempo, fuera de ese rango la
linealidad dejara de existir. Por ejemplo, supongamos que estudiamos el efecto de la
ansiedad sobre el rendimiento dentro de un rango de 0 a 10 en niveles de ansiedad.
Podramos obtener un grfico de las siguientes caractersticas:
















Si a continuacin estudisemos esta misma relacin pero para un rango en ansiedad de 10 a
20 puntos, imaginemos que la relacin fuera de este tipo:




39


Supongamos que un determinado investigador que desconoce el segundo estudio trabaja
con un sujeto cuyo nivel de ansiedad es de 15 puntos. En base a lo que conoce del tema se
sentir inclinado a extrapolar los valores segn el siguiente grfico:





El error ha sido considerable. Ha supuesto que el rendimiento aumentaba cuando en realidad
ha disminuido. De aqu se deduce que hemos de operar con suma precaucin a la hora de
realizar predicciones estadstica y limitarnos siempre al rango de valores sobre los que se ha
elaborado el modelo, ya que no tenemos informacin de lo que ocurre fuera de los lmites
observados, y pudiera ocurrir que la linealidad quedara desvirtuada fuera de tales
mrgenes.







40
Bibliografa.

ACHEN, C. H. (1982). Interpreting and using regression. London: Sage.
AIKEN, L., AND WEST, S. (1991). Multiple regression: Testing and interpreting Interactions.
London: Sage
AMON, J. (1990). Estadstica para psiclogos (1). Estadstica Descriptiva. Madrid: Pirmide.
AMON, J. (1990). Estadstica para psiclogos (2). Probabilidad. Estadstica Inferencial. Madrid:
Pirmide.
BOTELLA Y SANMARTIN, R. (1992). Anlisis de datos en Psicologa I. Madrid: Pirmide.
BOTELLA, J. y BARRIOPEDRO, M. I. (1991). Problemas y ejercicios de Psicoestadstica. Madrid:
Pirmide.
BRETT, J. M.; JAMES, L. R. (1982) Causal Analysis: assumptioms, models and data. Bervely Hills:
SAGE.
COHEN, J. and COHEN, P. (1975). Applied Multiple Regresion/Correlation analysis for the
Behavioral Sciences. Hillsdales, N. J.: LEA
COOK, R. D. and WEISBERG S. (1982). Residual and influence in regression. New York: Chapman
& Hall.
CHATTERJEE, S. (1977). Regression analysis by example. New York: Wiley.
DOMENECH, J. M. (1985). Mtodos estadsticos: modelo lineal de regresin. Barcelona: Herder.
DRAPER, N. R. (1986). Applied regression analysis. New York: John Wiley
JACCARD, J., LEE TEITEL, TURRISI, R., WAN, C. (1990). Interaction effects in multiple
regression. Sage University Paper series on Quantitative Applications in the Social Sciences. Newbury
Park, CA:Sage
JAMES, L. R. (1982). Causal analysis: assumptions, models and data. Bervely Hills: Sage.
JAEZ, L. (1980). Fundamentos de psicologa matemtica. Madrid: universidad Complutense.
LEWIS-BECK, M. S. (1980). Applied regression. London: Sage.
PEDHAZUR, E. J. (1982). Multiple regression in behavioral research. Explanation and prediction
(2nd ed.). New York: Halt, Rinehart and Winston.
PEA, D. (1987).:Estadstica, modelos y mtodos. 2. Modelos lineales y series temporales Alianza
Universidad.
SHOEDER et al. (1982). Understanding regression analysis: an introductory guide. Bervely Hills:
Sage.
WONNACOTT, T. H. and WONNACOTT, R. J. (1981). Regression: a second course in statistics.
New York: Wiley.



41

Internet






Universidad de Cdiz: http://www2.uca.es/serv/ai/formacion/spss/Pantalla/18reglin.pdf
Universidad de California: http://www.ats.ucla.edu/stat/spss/topics/regression.htm
Linear Regression (and Best Fit): http://www.mste.uiuc.edu/patel/amar430/intro.html
Regression analysis: http://en.wikipedia.org/wiki/Regression_analysis
Regression analysis: http://elsa.berkeley.edu/sst/regression.html
Regression to the Mean: http://www.socialresearchmethods.net/kb/regrmean.php
El modelo de regresin lineal simple: http://www.udc.es/dep/mate/estadistica2/cap6.html
Pgina de Karl Wnsch sobre correlacin: http://core.ecu.edu/psyc/wuenschk/docs30/corr6430.doc

Você também pode gostar