Você está na página 1de 14

Definicin de Correlacin

En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin


entre dos variables aleatorias:
Estudiar cmo influye la estatura del padre sobre la estatura del hijo.
Estudiar cmo influyen los gastos de promocin y publicidad en el volumen de
facturacin de una empresa.
Estimar el precio de una vivienda en funcin de su superficie.
Un modelo de regresin es un modelo que permite describir cmo influye una
variable X sobre otra variable Y

X: Variable independiente o explicativa o exgena


Y: Variable dependiente o respuesta o endgena
El objetivo es obtener estimaciones razonables de Y para distintos valores de X
a partir de una muestra de n pares de valores (x1, y1), . . . , (xn, yn).
Universidad del Cauca

En particular, nos interesa cuantificar la intensidad de la relacin lineal entre


dos variables. El parmetro que nos da tal cuantificacin es el coeficiente de
correlacin lineal de Pearson r, cuyo valor oscila entre -1 y +1

Universidad del Cauca

Como se observa en los diagramas anteriores, el valor de r se aproxima a +1


cuando la correlacin tiende a ser lineal directa (mayores valores de X significan
mayores valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal
inversa.
Es importante notar que:
La existencia de correlacin entre variables NO IMPLICA causalidad.
Atencin!: el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero
puede que la haya de otro tipo.
El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos
variables:

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE


Qu buscamos?
La ecuacin de la recta que mejor se ajuste a la nube de puntos (recta de
mnimos cuadrados).
Uno de los principales usos de dicha recta ser el de predecir o estimar los valores
de Y que obtendramos para distintos valores de X. Estos conceptos quedarn
representados en lo que llamamos diagrama de dispersin:

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE


La diferencia entre cada valor
estimacin

Yi

de la variable respuesta y su

se llama residuo:

El modelo pretende dar el valor mnimo posible para cada


Universidad del Cauca

ei
5

CASO 1: REGRESION LINEAL SIMPLE


El procedimiento es el siguiente:
Dados este conjunto de valores, en donde solo hay una variable independiente
X

0,5

2,5

2,0

4,0

3,5

6,0

5,5

Para estimar los coeficientes (DE LA RECTA) por medio de mnimos cuadrados,
se utilizan las siguientes frmulas:

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE

Por lo tanto, el ajuste con mnimos cuadrados es (la ecuacin de la recta):

y = 0.07142857143 + 0.8392857143x

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE


Cuantificacin del error en la regresin lineal
Lo primero que debemos hacer es calcular la Desviacin Estndar Total
Sy =

St
n-1

Donde St es la suma total de los cuadrados de las restas entre cada uno de los
2
puntos y la media, esto es: St = (yi y)

Sy =

22.714285714
7-1

= 1.94569121

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE


Y el error estndar de la aproximacin es :
Sy/x =

Sr
n-2

Donde

Sr =

(yi bo (b1*Xi))

B0
B1
y = 0.0714285714 + 0.8392857143x
Sy/x =

2.991071429
7-2

= 0.773443137

Como Sy/x < Sy la aproximacin se considera aceptable

Universidad del Cauca

CASO 1: REGRESION LINEAL SIMPLE


Finalmente: St suma total de los cuadrados de las restas entre cada uno de los puntos y la media
Sr suma de los cuadrados de las restas alrededor de la lnea de regresin
La diferencia entre esas 2 cantidades, o St Sr, cuantifica la mejora en la
reduccin del error debido al modelo de la lnea recta. Esta diferencia se puede
normalizar al error total y obtener:
St - Sr
2
r =
St
En donde r es el coeficiente de correlacin y r

= es el coeficiente de determinacin

Para un ajuste perfecto, Sr = 0 y r = 1, indicando que la lnea recta explica el


2
100% de la variabilidad. Si r = 0, entonces el ajuste no representa mejoras.
Para el ejemplo que venimos tratando:
2

r =

22.714285714 - 2.991071429
22.714285714

= 0.86831761

r = 0.931835613

El resultado indica que el 86.83% de la incertidumbre original se ha explicado


mediante el modelo lineal.
Universidad del Cauca

10

A tener en cuenta.

El modelo de regresin lineal simple se basa en las


siguientes hiptesis:
Linealidad: La relacin entre X e Y es (o tiende a ser) lineal.
Homogeneidad: El valor promedio del error es cero.
Homocedasticidad: La varianza de los errores es constante.
Independencia: Las observaciones son independientes.
Normalidad: Los errores siguen una distribucin normal.
Universidad del Cauca

11

Universidad del Cauca

12

Universidad del Cauca

13

Universidad del Cauca

14

Você também pode gostar