Escolar Documentos
Profissional Documentos
Cultura Documentos
n xy- x y
r =
n x - ( x) n y - ( y) ( (
CORRELACION LINEAL
1.1 Diagrama de dispersin
El primer paso en el anlis de regresin, es construir el diagrama de Dispersin.
El diagrama de dispersin es una grfica de los datos muestrales que muestra la ubicacin de los valores
puntos (Xi, Yi) de la variable bidimensional (X, Y) en un sistema de coordenadas rectangulares. En la
grafica se puede observar si existe o no una relacin acentuada entre las variables X e Y, y se puede ver
que forma tiene; si es lineal o no lineal. Si la tendencia es lineal se puede ajustar a una lnea recta el
diagrama de dispersin. Veamos los siguientes ejemplos
a) Relacin Lineal positiva b) Relacin Lineal Negativa
c) Relacin no Lineal d) Ninguna Relacin
1.2 Correlacin Lineal ( r )
la correlacin permite estudiar la interrelacin entre dos caractersticas con el fin de medir el grado de
asociacin que existe entre dos variables una dependiente (Y) y la otra independiente(X) .
Coeficiente de Correlacin Lineal de Pearson
La correlacin se mide mediante el coeficiente
de correlacin y se define por:
Donde :
S
xy
: Es la covarianza de X e Y
S
x
: Es la desviacin estndar de X
S
y
: Es la desviacin estndar de Y
Otra forma de calcular el coeficiente de correlacin es mediante la siguiente formula
r=0,9
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
recta o parbola?
140 150 160 170 180 190 200
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
xy
x y x y
S
cov(x,y)
r= =
S S S S
= + Y a bX
2 2
n xy- x y
b =
n x - ( x)
xy
2
x
S
b =
S
a = y - bx
2
y = an+b x
xy = a x + b x
CARACTERISTICAS
1.- El intervalo de variacin es -1 r 1
2.- Si r es positivo se dice que hay asociacin directa entre las variables. Si r es negativo se dice que hay
asociacin inversa entre las variables.
3.- Si r = +1 o r = -1; entonces existe una relacin lineal perfecta entre las variables x e y
4.- Si r = 0 no existe relacin lineal entre x e y.
REGRESION LINEAL SIMPLE
1.1 Modelo de Regresin lineal Poblacional
El modelo de regresin poblacional puede ser expresado por la ecuacin
Y = o +
1
X +
Donde:
Los
i
: representan los parmetros de la poblacin
Y : Es la variable Dependiente
X : Es la variable Independiente
: Es el error aleatorio
1.2 Regresin lineal muestral
La estimacin de la ecuacin de regresin poblacional es la ecuacin de regresin muestral, as la
regresin muestral de la variable de Y en X esta dada por:
Donde:
a y b : Son las estimaciones de los parmetros ( i ) de la poblacin, llamados coeficientes
de regresin
Y : Es la estimacin de
/ y x
1.3 Estimacin de la Recta por el mtodo de mnimos cuadrados
El mtodo de mnimo cuadrados consiste en hallar los valores a y b de la ecuacin de regresin, de
manera que la suma de los cuadrados de los errores alrededor de la lnea de regresin sea mnima. Los
valores a y b de la ecuacin de regresin se determinan resolviendo el siguiente sistema de ecuacin.
De donde obtenemos:
donde S
xy
: Covarianza de X,Y
( )
2
2 1
2
n
i i
i
e
y y
S
n
=
=
2
2 1 1 1
2
n n n
i i i i
i i i
e
y a y b x y
S
n
= = =
=
( )
2
1
2
n
i i
i
e
y y
S
n
=
=
( )
( )
n
2
i
2 i=1
n
2
i
i=1
y
1 -
y
y
R
y
INTERPRETACION DE LOS COEFICIENTES DE REGRESION:
1) a: es el valor de prediccin de y, cuando la variable independiente toma valor cero.
2) b: es el cambio promedio de y cuando x cambia en una unidad de medicin.
- si b>0, la tendencia lineal es creciente.
- Si b<0, la tendencia lineal es decreciente.
- Si b = 0 no hay regresin.
1.4 Estimacin de la varianza de la regresin poblacional
Una vez hallada la lnea de regresin muestral, nos interesa saber su utilidad. La utilidad principal es
predecir valores de Y para valores determinados de X. Si se hace una prediccin nos interesa saber Qu
tan buena o confiable es esa prediccin ? La respuesta a esta pregunta depende de la variabilidad de los
valores de Y con respecto a la recta de regresin. Una medida que indica el grado de variabilidad o
dispersin en torno a la lnea de regresin es la varianza de la regresin poblacional, que se denota por
2
.
Una estimacin insesgada de
2
, es la varianza de la regresin muestral y se define por :
En donde, el numerador es la suma de los cuadrados de los errores alrededor de la lnea de regresin y n
es el tamao de la muestra.
Otra forma de calcular la varianza de la regresin muestral es la siguiente expresin:
1.5 Error estandar estimado
La desviacin estandar de la variacin de las observaciones alrededor de la lnea de regresin es estimada
por la raz cuadrada de la varianza de la regresin :
Interpretacin
Mientras ms pequeo sea el valor de la desviacin estndar, ms cercanos a la lnea de regresin estarn
los valores de la variable Y
1.6 Coeficiente de Determinacin ( R
2
)
El coeficiente de determinacin es el porcentaje de la variacin total en la variable dependiente que es
explicado por la variacin en la variable independiente.
El coeficiente de determinacin mide la bondad de un ajuste de un modelo de regresin y se define por.
Interpretacin
1.- 0 R
2
1
2.- Si R
2
es cercano a 1, el ajuste es bueno
3.- Si R
2
= 1, el ajuste es perfecto
4.- Si R
2
es cercano a 0, el ajuste es malo
5.- Si R
2
= 0, No hay regresin lineal
Ejercicios
1.- Consideremos las siguientes observaciones sobre las variables aleatorias X e Y.
X 2.0 2.5 3.0 3.5 4.0
Y 5.0 5.5 6.2 6.4 7.0
a) Dibujar el diagrama de dispersin
b) Sobre la del diagrama de dispersin Se puede esperar que r, el coeficiente de correlacin estimado,
est prximo a 1, -1, o 0?
c) Hallar e Interpretar r.
2.- Consideremos las siguientes observaciones sobre las variables aleatorias X e Y.
X 5.0 4.5 3.0 2.5 2.0
Y 5.0 5.5 6.2 6.4 7.0
d) Dibujar el diagrama de dispersin
e) Sobre la del diagrama de dispersin Se puede esperar que r, el coeficiente de correlacin estimado,
est prximo a 1, -1, o 0?
f) Hallar e Interpretar r.
3.- En un estudio para determinar la relacin entre los ingresos (X) y ahorros (Y) mensuales se obtuvieron los
siguientes datos, en decenas de dlares.
X 350 400 450 500 950 850 700 900 600
Y 100 110 130 160 350 350 250 320 130
a) Encuentre la ecuacin de regresin para pronosticar los ahorros mensuales resultantes de los
ingresos, y estime el ahorro mensual para un ingreso de $1200
b) Hacer un anlisis de la bondad del ajuste de la ecuacin de regresin lineal utilizando el coeficiente
de determinacin
4.- En un estudio para determinar la relacin entre edad (X) y presin sangunea (Y) una muestra aleatoria de
9 mujeres ha dado los siguientes resultados:
X 54 40 70 35 62 45 55 50 38
Y 148 123 155 115 150 126 152 144 114
X = 1717
Y = 1408
XY = 112854
2
X = 138341
2
Y = 98818
2
42000 y =
8000 xy =