Você está na página 1de 10

Regresin lineal simple

1.- Introduccin
2.- Diagrama de dispersin
3.- Especificacin del modelo de regresin lineal simple
3.1.- Supuestos del modelo
4.- Estimacin de parmetros
4.1.- Estimacin mediante mnimos cuadrados
Regresin lineal simple
1.- Introduccin
El coeficiente de correlacin r!"#$ nos permite conocer la magnitud de la relacin
supuestamente lineal# e!istente entre dos %aria&les. En el presente documento nos
introduciremos en el concepto de regresin lineal$ donde estudiaremos la estructura de
la relacin e!istente entre tales %aria&les. 'm&os conceptos -regresin " correlacin-
estn ntimamente ligados$ mientras el primero especifica la forma de la relacin$ el
segundo$ so&re la &ase de esta forma$ estudia la intensidad de la relacin esta&lecida.
De una manera ms concreta$ mediante el modelo de regresin especificaremos la
ecuacin de regresin (ue nos permitir un do&le o&)eti%o*
a#descri&ir de una manera clara " concisa la relacin e!istente entre am&as
%aria&le$ "
&#predecir los %alores de una %aria&le en funcin de la otra.
En un sentido mu" amplio$ " +a&lando en t,rminos puramente estadsticos$ podemos
afirmar (ue el anlisis de regresin es un m,todo (ue permite anali-ar la %aria&ilidad de
una determinada %aria&le en funcin de la informacin (ue le proporcionan una o ms
%aria&les. Se concreta (ue una determinada %aria&le -%aria&le respuesta$ e!plicada$
dependiente o criterio- pueda e!presarse en funcin de otra u otras %aria&les -
predictoras$ e!plicati%as$ independientes o regresores-$ lo (ue permitir predecir los
%alores de la %aria&le respuesta en funcin de las %aria&les e!plicati%as$ as como
determinar la importancia de ,stas. .or otro lado$ se especifica (ue la estructura de la
relacin es lineal. Este aspecto es importante por cuanto se descartan a(u otros tipos de
relaciones. /emos de decir$ aun(ue slo sea por curiosidad +istrica$ (ue el t,rmino
0regresin0 se de&e a Sir 1rancis 2alton 1322-1411# estudiando la relacin de la
estatura entre padres e +i)os.
5&ser% (ue los padres altos tenan +i)os altos$ aun(ue no tan altos como sus
progenitores. Igualmente$ los padres &a)os tendan a tener descendencia de &a)a estatura
aun(ue ms altos (ue sus respecti%os padres. En am&os casos$ pues$ e!ista una cierta
tendencia a la estatura media$ o dic+o en t,rminos de propio 2alton$ e!ista una
0regresin a la mediocridad0.
Es e%idente el inter,s el modelo de regresin lineal aplicado. Supngase$ por citar tan 3
slo algunos posi&les casos de estudio$ el efecto de una cierta terapia so&re las
respuestas de los pacientes sometidos a ella$ los gastos de pu&licidad de una empresa "
el consumo ciudadano$ el efecto del ta&aco so&re el cncer$ el clima la&oral " la
producti%idad en una empresa o la calidad de ense6an-a " el rendimiento acad,mico.
7omo se +a indicado$ en el presente captulo$ nos limitaremos al estudio de la regresin
donde se estudia la relacin (ue so&re la %aria&le de respuesta e)erce una 8nica %aria&le
e!plicati%a.
Este tipo de regresin -la ms sencilla de las posi&les- se denomina por esta ra-n
regresin lineal simple.
2.- Diagrama de dispersin
.re%io a todo anlisis$ resulta con%eniente una primera inspeccin %isual de los datos al
o&)eto de compro&ar la con%eniencia o no de utili-ar el modelo de regresin simple. Se
recurre a este respecto$ a la representacin con)unta de los datos mediante el diagrama
de dispersin o nu&e de puntos. 9na simple o)eada nos permitir determinar*
a# si e!iste relacin o no entre las %aria&les "
&# si ,sta es o no lineal.
'dems pueden e!traerse otras informaciones de inter,s$ como son*
a# el grado de estrec+e- de la nu&e de puntos$ indicadora de la intensidad de la
relacin$
&# si e!isten %alores anmalos (ue distorsionan la posi&le relacin$ o
c# si la dispersin de los datos a lo largo de la nu&e de puntos es uniforme$ lo (ue
tendr su importancia$ tal como %eremos en los pr!imos apartados.
:a informacin o&tenida es importante para encarar la actuacin ms con%eniente. 9na
nu&e redondeada " sin contornos definidos %ea en la figura la imagen de la es(uina
superior i-(uierda# es indicadora de ausencia de relacin. :a %aria&le e!plicati%a es
irrele%ante " no merece la pena seguir con el modelo en cuestin.
En las imagenes superiores siguientes se sugiere una relacin lineal$ ms fuerte en una$
de&ido a su ma"or estrec+e-$ aun(ue en am&os casos un anlisis estadstico posterior se
+ace necesario para confirmar con seguridad la relacin insinuada en los grficos.
En la imagen inferior i-(uierda la relacin es claramente cur%ilnea " no procede a
aplicar el modelo lineal de regresin. '(u podemos optar por transformar los datos a
efecto de lograr linealidad$ o lo (ue puede ser ms con%eniente$ respetar los datos "
ela&orar el modelo pertinente.
En la siguiente imagen la dispersin no es constante a lo largo del recorrido de los datos
-+eterocedasticidad-$ lo (ue imposi&ilita$ como se tendr ocasin de compro&ar$ la
aplicacin del modelo lineal de regresin.
.or otro lado$ en la ultima imagen un par de datos anmalos -outliers- e)ercen una
distorsin importante so&re el modelo$ lo (ue o&ligar a replantearse la con%eniencia de
eliminarlos o &ien incluirlos en el modelo$ con la consiguiente transformacin del
mismo.
3.- Especificacin del modelo de regresin lineal simple
7omo se +a o&ser%ado anteriormente$ cuando e!isten ra-ones para suponer la e!istencia
de una relacin lineal entre dos %aria&les$ podremos esta&lecer la siguiente estructura de
relacin*
En t,rminos grficos$ esta relacin (uedara e!presada mediante el siguiente diagrama
causal*
donde podemos distinguir las %aria&les ;$ < " =.
:a %aria&le ;$ origen de la flec+a en la figura es la %aria&le o&ser%ada cu"a incidencia
so&re < deseamos estudiar. En t,rminos de la ecuacin de regresin es la %aria&le (ue
sir%e de &ase para la prediccin. Se le denomina %aria&le predeterminada$ e!plicati%a$
predictora$ independiente$ e!gena o simplemente$ regresor. En nuestra opinin$
%aria&le e!plicati%a o predictora$ son los t,rminos cu"os significados ilustran me)or el
propsito de estas %aria&les. Se dice (ue es fi)a si sus %alores son esta&lecidos por el
in%estigador> por el contrario$ se dice (ue es aleatoria cuando sus %alores no estn
determinados por el in%estigador sino (ue se elige una muestra aleatoria de su)etos " se
miden am&as %aria&les.
:a %aria&le <$ punto final de la flec+a$ es la %aria&le (ue el modelo pretende dar cuenta
Se la suele denominar como %aria&le de respuesta$ e!plicada$ dependiente$ criterio o
endgena.
El o&)eto de la regresin %a a ser$ precisamente$ estimar la relacin (ue < presenta con
; " predecir sus %alores en su)etos no medidos en la muestra. Igualmente$ en nuestra
opinin$ consideramos ms con%eniente el t,rmino de %aria&le de respuesta o e!plicada.
:a %aria&le =representa el componente de error en la prediccin de la %aria&le < de&ido
la relacin estocstica entre < " ;. Se le denomina entre otros nom&res como error$
pertur&acin$ o residual. De&e su %alor fundamentalmente a dos tipos de factores*
a# medicin incorrecta de la %aria&le <$ "
&# influencia de otras %aria&les omitidas por el modelo.
Si salimos del es(uema determinista (ue impera en 7iencias
/umanas " concedemos un cierto %alor al a-ar " a la
espontaneidad +a&remos de a6adir a los puntos anteriores un
tercer punto* c# %aria&ilidad in+erente a la conducta +umana.
X Y

Es importante destacar (ue a(u nos ocupamos de relaciones entre %aria&les


e!clusi%amente lineales> esto es$ de %aria&les cu"a estructura de relacin es del tipo*
3.1.- Supuestos del modelo
El modelo de regresin lineal simple para la po&lacin esta&lece como +iptesis
estructural &sica lo siguiente*
la puntuacin de un su)eto en la %aria&le criterio < depende linealmente de la
puntuacin del su)eto en la %aria&le predictora ; ms una pertur&acin o error =. 5tra
forma de e!presar el modelo es*
donde la puntuacin < predic+a por el modelo de regresin es*
De la e!presin anterior se deduce (ue el error en la prediccin ser*
:os parmetros " de la ecuacin son generalmente desconocidos " +an de ser
estimados a partir de los %alores o&ser%ados en una muestra de su)etos. .ara (ue las
inferencias a la po&lacin -estimacin- as como los contrastes de +iptesis acerca de los
parmetros sean adecuados es necesario (ue las %aria&les implicadas cumplan las
siguientes caractersticas estadsticas*
(a).- Linealidad. El primer supuesto esta&lece (ue el %alor esperado media# en la
%aria&le < para cada uno de los %alores ; se encuentra so&re la recta de regresin
0%erdadera0 de < so&re ;$ o dic+o de otra manera$ la recta de regresin de < so&re ;
%endr determinada por los %alores medios de < para cada %alor de ;. En consecuencia$
la esperan-a matemtica de los errores ser cero. 's*
En t,rminos de los errores*
<a (ue*
(b) Homocedasticidad. El segundo supuesto esta&lece (ue las %arian-as de < para cada
%alor de ; son todas iguales =2 $ esto es$ la dispersin de la %aria&le < a todo lo largo de
la recta de regresin es constante. El inter,s de esta propiedad reside en la %enta)a de
utili-ar un 8nico %alor para todo el recorrido de ; a la +ora de estimar %alores de < a
partir de ;$ lo (ue otorga simplicidad al modelo. 's pues*
5&s,r%ese (ue la distri&ucin de los errores es la misma (ue la de la %aria&le
dependiente en torno a la recta de regresin para %alores fi)os de ;#. En consecuencia$
su %arian-a coincidir con la de los errores "a (ue en la e!presin
=la %aria&ilidad en < para un cierto %alor de ; lo aporta =*
c) usencia de auto correlacin. El tercer supuesto esta&lece (ue las %aria&les
aleatorias < son independientes entre s> es decir$ la co%arian-a o &ien$ correlacin#
entre dos %alores de < cuales(uiera es cero. 7uando los %alores de < +acen referencia a
su)etos distintos -estudios trans%ersales- esta propiedad suele cumplirse. 5tro caso
sucede en estudios longitudinales donde se efect8an diferentes mediciones de los
mismos su)etos a lo largo del tiempo$ " (ue por ra-ones de inercia suelen presentar auto
correlacin. 's*
5 &ien*
(d) !ormalidad de las distribuciones. Este supuesto esta&lece (ue la forma de la
distri&ucin de < para cada %alor de ; sigue una le" normal. Se cumple$ entonces$ la
condicin de normalidad. Esta propiedad$ )unto a la condicin de +omocedasticidad
facilita la inferencia estadstica del %alor de < po&lacional a partir del %alor de ;. 's*
< en t,rmino de los errores*
/a" (ue decir en relacin a este supuesto (ue el modelo de regresin es &astante
ro&usto frente a %iolaciones del mismo. .or otro lado$ para tama6os de muestras
grandes$ el teorema central del lmite garanti-a su cumplimiento.
'dems de estos re(uisitos necesarios a efectos de inferencia estadstica " contrastes de
+iptesis +an de respetarse otros supuestos relacionados con el modelo de regresin en
cuanto modelo descripti%o. Estos son*
a# El modelo +a de estar correctamente especificado$ lo (ue implica el do&le
cometido de no +a&er e!cluido %aria&les independientes rele%antes " el no
+a&er incluido %aria&les independientes irrele%antes. Este re(uisito cumple su
%erdadera dimensin en la regresin m8ltiple donde las %aria&les
independientes +an de ser seleccionadas cuidadosamente. 7uando se trata de
una 8nica %aria&le independiente$ la precaucin +a de cifrarse en esa %aria&le "
a(u la e%idencia es palpa&le si el modelo no +a sido correctamente
especificado.
&# :a %aria&le independiente +a de +a&er sido medida sin error. Se (uiere decir
con ello (ue las puntuaciones empricas o&tenidas en ; son precisamente sus
puntuaciones %erdaderas. Este re(uisito es un tanto ideal "a (ue el error de
medida est implcito en toda medicin. ' este respecto +a" (ue decir (ue en
modelos ms completos ?odelos Estructurales# se contempla la fia&ilidad en
la medida. 5&s,r%ese por otro lado$ (ue la e!actitud en la medicin no es
re(uisito para la %aria&le <$ "a (ue esta circunstancia (ueda contemplada en el
error .
".- Estimacin de par#metros
:os datos o&ser%ados en una determinada muestra presentan una configuracin del tipo*
denominado diagrama de dispersin o &ien nu&e de puntos. Dic+a configuracin carece
de operati%idad matemtica. @o o&stante$ seg8n el modelo con%enido$ la estructura de
relacin entre ; e < se supone lineal. 's pues$ +emos de determinar la recta*
(ue me)or represente la nu&e de puntos correspondiente a la muestra o&ser%ada$ " cu"os
%alores a " &# sean &uenos estimadores de la %erdadera ecuacin de regresin =" =#*
referente a la po&lacin de origen.
.odramos utili-ar %arios m,todos en la determinacin de la recta (ue me)or a)uste a la
mencionada nu&e de puntos. Aodos ellos tendrn$ o&%iamente$ como o&)eti%o
fundamental reducir al mnimo el error glo&al cometido$ lo (ue se traduce$ de alguna
forma$ en minimi-ar el con)unto de errores e o&tenido para el total de las o&ser%aciones.
' este respecto$ podramos esta&lecer el siguiente criterio*
Este procedimiento presenta el incon%eniente de (ue puede lograrse una suma de cero
e!istiendo grandes errores positi%os " negati%os (ue (uedaran neutrali-ados entre s.
Esta situacin podramos sol%entarla con dos procedimientos*
a# operando con los %alores
&# ele%ando al cuadrado tales %alores*
De estos dos procedimientos$ el 8ltimo$ denominado criterio de mnimos cuadrados es el
preferi&le. Barias ra-ones lo a%alan*
a# El +ec+o de ele%ar al cuadrado las puntuaciones no solamente resuel%e el
pro&lema del signo$ sino (ue adems magnifica los errores grandes$ lo cual
o&liga a8n ms a reducir tales errores.
&# 'lge&raicamente entra6a menos dificultades operar con sumas de
cuadrados (ue con sumas de %alores a&solutos.
c# < por 8ltimo$ " este es el punto ms importante$ las estimaciones de los
parmetros de la ecuacin de regresin a " &# o&tenidas mediante el criterio
de los mnimos cuadrados son estimaciones sin sesgo$ " por el teorema de
2auss-?arCo% presentan la mnima %arian-a. 'dems$ las estimaciones
o&tenidas mediante mnimos cuadrados son coincidentes con las logradas
por el procedimiento de m!ima %erosimilitud.
".1.- Estimacin mediante m$nimos cuadrados
a# .untuaciones directas.
En lo (ue sigue demostraremos$ dado un con)unto de datos ofrecidos en puntuaciones
directas$ (ue la ecuacin de la recta cu"o a)uste sigue el criterio de los
mnimos cuadrados es a(uella (ue tiene por pendiente*
" de ordenada en el origen*
Efecti%amente$ tengamos la e!presin*
Sustitu"endo los errores por su %alor*
Esta funcin tendr un mnimo para los %alores (ue anulen la primera deri%ada respecto
a " . 's pues$ calculemos primeramente la deri%ada parcial respecto a . /aciendo
operaciones tenemos*
De donde*
.ara calcular procedamos de igual manera. Igualemos a cero la deri%ada parcial
respecto a $ " +aciendo operaciones*
Despe)ando *
&# .untuaciones centradas
Aengamos la ecuacin de regresin en directas*
Sustitu"amos por su %alor*
Donde se nos indica (ue el %alor pronosticado en < es precisamente su media el %alor
pre%isto en ausencia total de informacin# ms el efecto de la %aria&le ;.
'+ora$ si pasamos al primer miem&ro de la ecuacin*
Se o&ser%a en el primer miem&ro las puntuaciones centradas de < " en el segundo las
puntuaciones centradas de ;. Sustitu"endo$ entonces$ por la notacin adecuada el
modelo en puntuaciones centradas (ueda*
7omo puede o&ser%arse$ dic+a ecuacin presenta la misma pendiente (ue la ecuacin
o&tenida en puntuaciones directas. Se diferencia de ,sta en (ue carece de ordenada en el
origen. :a recta$ pues$ en centradas pasa por el origen de coordenadas. Esto es*
5&s,r%ese (ue las puntuaciones centradas son la consecuencia de restar a los %alores <
su media " a los %alores ;$ igualmente su media. .or otro lado$ sucede$ precisamente$
(ue tanto la media de < como la media de ; satisfacen la ecuacin de la recta*
.or tanto$ la transformacin en puntuaciones centradas e(ui%ale a un despla-amiento del
origen del sistema de coordenadas al punto . En consecuencia$ la recta de
regresin o&ser%ada tendr la misma pendiente pero carecer de ordenada en el origen$
tal como se o&ser%a en la siguiente figura*
c# .untuaciones estandari-adas
Aomemos como referencia la siguiente ecuacin*
< sustitu"amos por su e!presin mnimo cuadrtica*
Se o&ser%a (ue el primer miem&ro de la igualdad +ace referencia a las puntuaciones
tpicas de <$ " el segundo miem&ro$ a las puntuaciones tpicas de ;. Sustitu"endo por la
notacin adecuada*
Se comprue&a (ue la ecuacin en puntuaciones estandari-adas tiene por pendiente el
coeficiente de correlacin simple.

Você também pode gostar