Você está na página 1de 15

Regresion Lineal

El analisis de regresion lineal es una tecnica estadistica utilizada para estudiar la


relacion entre variables. Se adapta a una amplia variedad de situaciones. En la
investigacion social, el analisis de regresion se utiliza para predecir un amplio
rango de fenomenos, desde medidas economicas hasta diferentes aspectos del
comportamiento humano. En el contexto de la investigacion de mercado puede
utilizarse para determinar en cual de diferentes medios de comunicacin puede
resultar mas eficaz invertir; o para predecir el numero de ventas de un
determinado producto. En fisica se utiliza para caracterizar la relacion entre
variables o para calibrar medidas, etc.
Tanto en el caso de dos variables (regresion simple) como en el de mas de dos
variables (regresion multiple), el analisis de regresion lineal puede utilizarse para
explorar y cuantificar la relacion entre una variable llamada dependiente o criterio
Y y una o mas variables llamadas independientes o predictoras (X1, X2,.,X3),
asi como para desarrollar una ecuacion lineal con fines predictivos. Ademas, el
analisis de regresion lleva asociados una serie de procedimientos de diagnostico
(analisis de residuos, puntos de influencia) que informan sobre la estabilidad e
idoniedad del analisis y que proporcionan pistas sobre como perfeccionarlo.
Metodolgicamente conviene distinguir entre los tres tipos de regresin siguientes:
1) Regresin lineal simple (usualmente llamada regresin lineal a secas):
cuando solo hay dos variables X e Y que se relacionan segn una lnea
recta;
2) Regresin curvilnea: cuando hay dos variables X e Y que se relacionan
segn una lnea curva;
3) Regresin mltiple: Cuando hay mas de una variable independiente (X1,
X2.,,, Xp) y solo una dependiente (y), rirviendo el conjunto de las primeras
para predecir la segunda.
Regresion lineal simple:
Representamos en un grfico los pares de valores de una distribucin
bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y"
en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una
tendencia lineal:

El coeficiente de
lineal nos permite
efectivamente,
variables. Una vez
la regresin nos
la recta que mejor se
nube de puntos.

correlacin
determinar
si,
existe relacin entre las dos
que se concluye que s existe relacin,
permite definir
ajusta a esta

Una recta viene definida por la siguiente frmula:


y = a + bx
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a
partir de la otra variable "x" (variable independiente). Para definir la recta hay que
determinar los valores de los parmetros "a" y "b":
El parmetro "a" es el valor que toma la variable dependiente "y", cuando la
variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
El parmetro "b" determina la pendiente de la recta, su grado de inclinacin.
La regresin lineal nos permite calcular el valor de estos dos parmetros,
definiendo la recta que mejor se ajusta a esta nube de puntos.
El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

El parmetro "a" viene determinado por:


a = ym - (b * xm)
Es la media de la variable "y", menos la media de la variable "x" multiplicada por el
parmetro "b" que hemos calculado.
Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de
altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la
variable independiente "x" y que el peso es la variable dependiente "y" (podamos
hacerlo tambin al contrario):
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso
x
x
x
x
x
x
x
x
x
Alumno
Alumno
Alumno
1,25
32
1,25
33
1,25
33
1
11
21
Alumno
Alumno
Alumno
1,28
33
1,28
35
1,28
34
2
12
22
Alumno
Alumno
Alumno
1,27
34
1,27
34
1,27
34
3
13
23
Alumno
Alumno
Alumno
1,21
30
1,21
30
1,21
31
4
14
24
Alumno
Alumno
Alumno
1,22
32
1,22
33
1,22
32
5
15
25
Alumno
Alumno
Alumno
1,29
35
1,29
34
1,29
34
6
16
26
Alumno
Alumno
Alumno
1,30
34
1,30
35
1,30
34
7
17
27
Alumno
Alumno
Alumno
1,24
32
1,24
32
1,24
31
8
18
28
Alumno
Alumno
Alumno
1,27
32
1,27
33
1,27
35
9
19
29
Alumno 1,29
35 Alumno 1,29
33 Alumno 1,29
34

10

20

30

El parmetro "b" viene determinado por:

(1/30) * 1,034
b
= -------------------------------------- = 40,26
--5
(1/30) * 0,00856
Y el parmetro "a" por:
a = 33,1 - (40,265 * 1,262) = -17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 * x)
Esta recta define un valor de la variable dependiente (peso), para cada valor de la
variable independiente (estatura):

Estatura
x
1,20
1,21
1,22
1,23
1,24
1,25
1,26
1,27
1,28
1,29
1,30

Peso
x
30,6
31,0
31,4
31,8
32,2
32,6
33,0
33,4
33,8
34,2
34,6

Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas
antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes
estadsticos:

Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X.


Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada
cuandoX=15.

Solucin:
Lo que se busca es la recta, , que mejor aproxima los valores de Y (segn el
criterio de los mnimos cuadrados) en la nube de puntos que resulta de
representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta
recta son:

As, el modelo lineal consiste en:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta prediccin puede


considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de
la regresin lineal que estn a continuacin.

Regresin Curvilnea:
Se considerar primero el caso en que la graficacin en una escala adecuada
puede ser lineal. Por ejemplo, si un conjunto de parejas de datos que conste de n
puntos (xi,yi) "se enderezan" cuando son graficados sobre ejes escalados
adecuadamente. E este caso, al ser representados sobre papel semilogartmico,
indican que la curva de regresin de y sobre x es exponencial, es decir para
cualquier x considerada, la media de la distribucin est dada por la siguiente
ecuacin predictora
y = . x
tomando logaritmos en ambos miembros:
log y( ) log() + x log ( )
y se puede estimar ahora log() y log(), y de ah obtener y , aplicando los
mtodos anteriores a los n pares de valores [xi,log(yi)].
Supongamos que al hacer la representacin grfica correspondiente la distribucin
bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin entre
las dos variables, pero desde luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las
dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.

En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente


a la situacin real dada.
La expresin general de un polinomio de 2 grado es:
Y=a+bX+cX2
donde a, b y c son los parmetros.
El problema consiste, por tanto, en determinar dichos parmetros para una
distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en
el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste
de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de
las desviaciones con respecto a la curva de regresin sea mnima:

donde, siguiendo la notacin habitual, yi son los valores observados de la variable


dependiente, e yi! los valores estimados segn el modelo; por tanto, podemos
escribir D de la forma:

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior,


deberemos igualar las derivadas parciales de D con respecto a dichos parmetros
a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema
se conocen como ecuaciones normales de Gauss (igual que en el caso de la
regresin lineal simple).

La

representacin grfica de estos residuales con respecto al valor estimado de Y,


pueden producir los siguientes patrones:

Los modelos de regresion no lineal son muy variados, algunos de estos modelos
se dan a continuacion:

Regresin mltiple:

En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa;


esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del
modelo y, consecuentemente, realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino
independiente) surgirn algunas diferencias con el modelo de regresin lineal
simple.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto
conjunto de variables explicativas: x1, x2, , xk, cules son las que ms influyen
en la variable dependiente Y.

En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los
valores de la variable dependiente Y han sido generados por una combinacin
lineal de los valores de una o ms variables explicativas y un trmino aleatorio:

Los coeficientes son elegidos de forma que la suma de cuadrados entre los
valores observados y los pronosticados sea mnima, es decir, que se va a
minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos
variables explicativas, en vez de recta de regresin tenemos un plano:

Con tres variables explicativas tendramos un espacio de tres dimensiones, y as


sucesivamente.
Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo
ejemplo.

Consideramos una muestra de personas como la que sigue a continuacin:

En base a estos datos, vamos a construir un modelo para predecir el peso de una
persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de
variables y la variable peso (Y). 1 5 x ,...,x

En primer lugar tenemos que la variable dependiente es el peso; y las variables


que vamos a utilizar para predecir el peso reciben el nombre de variables
independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a
considerar como explicativas. Algunos criterios que deben de cumplir sern los
siguientes:

Tener sentido numrico.


No deber de haber variables repetidas o redundantes
Las variables introducidas en el modelo debern de tener una cierta
justificacin terica.
La relacin entre variables explicativas en el modelo y casos debe de ser
como mnimo de 1 a 10.
La relacin de las variables explicativas con la variable dependiente debe
de ser lineal, es decir, proporcional.
El Modelo de regresin lineal mltiple

El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal

simple, con la nica diferencia de que aparecen ms variables explicativas:

Siguiendo con nuestro ejemplo, si consideramos el peso como variable


dependiente y como posibles variables explicativas:

estatura
pie
l_brazo
a_espald
d_craneo

El modelo que deseamos construir es:

Al igual que en regresin lineal simple, los coeficientes b van a indicar el


incremento en el peso por el incremento unitario de la correspondiente variable
explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes
unidades de medida

Bibliografa:

www aulafacil.com/CursoEstadistica/Lecc-13-est.htm
pendientedemigracion.ucm.es/info/socivmyt/.../D.../18reglin_SPSS.pdfbooks.googl
e.com.mx/books?isbn=8484510182
http://eprints.uanl.mx/1488/1/1020070582.PDF

Você também pode gostar