Você está na página 1de 55

REGRESION Y CORRELACION

(INTRODUCCION)

Jos Luis Vicente Villardn Departamento de Estadstica Universidad de Salamanca

ESTUDIO DE LA DEPENDENCIA ENTRE VARIABLES


En muchos estudios experimentales se dispone de la medida de varias variables y se desea estudiar las relaciones existentes entre las mismas. En el caso ms simple se consideran solamente dos variables, una variable dependiente respuesta (Y) y una variable independiente o regresora (X). Las preguntas que suele hacerse un investigador experimental al tratar con datos numricos son las siguientes: -Cmo estn relacionadas las dos variables? -La relacin es fuerte o dbil? -Podemos predecir la variable dependiente a partir de la independiente? Con que precisin?.

En el estudio de las relaciones entre dos variables se distinguen dos tipos de tcnicas:

CORRELACION:
Existe dependencia entre las variables? Cul es el grado de dependencia?

REGRESION:
Cul es el tipo de dependencia entre las dos variables? Pueden estimarse los valores de la dependiente en funcin de los de la independiente?

DATOS
Cada uno de los individuos viene identificado por un par de valores, (xi , yi ) (i=1, ... , n).

X x1 x2 . . . xi . . . xn

Y y1 y2 . . . yi . . . yn

REPRESENTACIONES GRAFICAS DE TABLAS BIDIMENSIONALES


DIAGRAMA DE DISPERSION
60,00 50,00 40,00 30,00 20,00 10,00 0,00 0,00 10,00 20,00 30,00 40,00 50,00

(x , y ) i i

DIAGRAMA DE FRECUENCIAS / HISTOGRAMAS TRIDIMENSIONALES

Ejemplo tridimensionales

20 10 0

Eje Y

1-2 2-3 3-4 4-5 5-6 6-7 7-8 Eje X

12-15 15-18 18-21 21-24

EJEMPLO
Relacin entre el porcentaje de alumnos aprobados en COU y porcentaje de alumnos aprobados en la Selectividad para 11 centros del Distrito Universitario de Salamanca.
100
F. ROJAS MARISTAS SALESIANOS CALASANZ VAGUADA FRAY LUIS LUCIA MEDR.

90

MONTESORI

80
TORRES

70

60

SELECTIVIDAD

TRINITARIAS MACHADO

50

40

APROBADOS

50

60

70

80

% APROBADOS COU

ESTUDIO GRAFICO DE LA RELACION

RELACIONES LINEALES

Dependencia perfecta

Dependencia estocstica

Independencia

RELACIONES NO LINEALES

Dependencia perfecta

Dependencia estocstica

LA COVARIANZA COMO MEDIDA DE ASOCIACIN LINEAL

Sxy =

i =1

" (x i ! x )( y i ! y ) n

EL COEFICIENTE DE CORRELACIN LINEAL

S r = xy SxSy
INTERPRETACION -Est acotado entre -1 y 1. -Un valor positivo se interpreta como indicador de una relacin directa : A medida que aumentan los valores de una variable aumentan los valores de la otra. -Un valor negativo se interpreta como indicador de una relacin inversa : A medida que aumentan los valores de una variable disminuyen los valores de la otra. -El valor absoluto se interpreta como el grado de relacin lineal existente entre las variables, que ser mayor cuanto ms cercano sea a 1.

FALTA DE POTENCIA DEL COEFICIENTE DE CORRELACION LINEAL PARA DESCRIBIR RELACIONES NO LINEALES.

Corr. Coeff. X1: X Count: 13 Covariance: 0

Y1: Y R-squared: 0

Correlation: 0

Si las variables son independientes el coeficiente de correlacin es cero Si el coeficiente de correlacin es cero las variables no tienen porqu ser independientes (simplemente la relacin entre las mismas puede ser no lineal).

REGRESION:
-Intentar describir la relacin entre una variable respuesta y un conjunto de variables explicativas o predictoras. Respuesta Predictor Y <----------> X

OBJETIVOS:
-Predecir los valores de la respuesta. -Determinar el efecto de cada predictor. -Confirmar, sugerir o refutar relaciones tericas.

EJEMPLO:
-Efecto del fertilizante aplicado sobre el rendimiento de la cosecha, tomando una muestra del rendimiento de n parcelas a las cuales se les han aplicado diferentes cantidades de fertilizante. (x1, y1) , (x2, y2), ..................... , (xn, yn)
Y = RENDIMIENTO

100

200

300

400

500

X = DOSIS DE FERTILIZANTE

-Intentaremos plasmar la relacin entre X e Y mediante una ecuacin o modelo matemtico lo ms simple posible. Y = f(X) Y= a + b X Podemos encontrar diversas formas:

Dependencia perfecta

Dependencia estocstica

Independencia

En la prctica Y = a + b X + e (e = error o residual.) Causas del error: -No incluir variables importantes. (Efectos distintos al de X) -Errores aleatorios o de medida. -Mala especificacin del modelo (forma funcional incorrecta).

EJEMPLO: RELACION ENTRE LA TEMPERATURA DEL AGUA Y LA PROFUNDIDAD EN EL EMBALSE DE RIAO. Se trata de investigar la evolucin de la temperatura y del contenido en oxigeno del agua del embalse de Riao (Len) en funcin de la profundidad. El estudio forma parte de un proyecto ms amplio en el que se pretende estudiar la evolucin del ecosistema acutico creado artificialmente, en los primeros aos de llenado del embalse. El propsito final era el de la relacin de las caractersticas ambientales con la composicin biolgica. Para la investigacin de la relacin se tomaron varias profundidades, decididas por el investigador, y en cada una de ellas se tomaron la temperatura y el oxgeno disuelto en el agua. Como rplicas se tomaron cuatro semanas distintas consecutivas.

PROFUNDIDAD 0 2 5 10 15 20 45 0 2 5 10 15 20 45 0 2 5 10 15 20 45 0 2 5 10 15 20 45

TEMPERATURA 7,4 7,6 7,4 7 6,7 6,5 5,6 9,5 8,9 8,6 7,8 7,4 7,1 5,7 11,9 10,9 10,5 8,9 8,3 7,7 6 15,8 15,2 13,5 9,8 8,5 7,7 6,1

OXIGENO 16,3 16,3 16,3 15,9 16 15,8 14,2 11,5 11,6 11,7 11,5 11,4 11,3 9,9 9,9 10 10,2 10 10 10 8,7 10,3 10,5 11,4 11,4 10,9 10,9 9

En el diagrama se observa que existe una relacin entre las variables, de forma que, a medida que aumenta la profundidad, disminuye la temperatura. Se observa que, para cada una de las profundidades hay una clara dispersin procedente del comportamiento diferencial de cada una de las semanas. Este hecho se traducira en un aumento del error si no se incluyen las semanas como factor para explicar el comportamiento de la temperatura. Por otra parte, la relacin parece no lineal, por lo que el ajuste de una recta incrementara el trmino de error.

Si consideramos el diagrama de dispersin para la segunda semana


10 9,5 9 8,5
T

8 7,5 7 6,5 6 5,5 -5 0 5 10 15 20 25 Profundidad 30 35 40 45 50

Cada valor de Y, yi, podemos descomponerlo en dos partes yi = yi* + ei y i* = a + b x i ei = yi - yi*

CRITERIO DE AJUSTE
i =1 n i =1 n i =1

! ei = ! ( y i " y i *) ! ei = ! y i " y i *
2 2 e = ( y " y *) ! i ! i i i =1 i =1 n i =1 n

CRITERIO DE LOS MINIMOS CUADRADOS n n n 2 2 D = ! ei = ! ( y i " yi *) = ! ( y i " a " bxi )2 Minimizar: i=1 i =1 i =1 Derivando con respecto a a y b n !D = "2 # ( yi " a " bxi ) = 0 !a i=1 n !D = "2 # ( yi " a " bxi )xi = 0 !b i=1 Resolviendo el sistema resultante n n ! yi = na + b ! xi i=1 i=1 n n n ! xi yi = a ! xi + b ! xi2 i=1 i=1 i =1 se obtiene

a = y ! bx b=
i =1

" ( xi ! x )( yi ! y )
i =1

" (xi ! x )

Sxy
2 Sx

ESTUDIO DE LA REPRESENTATIVIDAD DE LA RECTA DE REGRESION


MODELO REDUCIDO Y MODELO COMPLETO Y

y=y

y = a + bx

y
X X

100

200

300 400

500

100

200

300 400

500

SCT = " (y i ! y)
i =1
Suma de cuadrados total

SCR = " (y i ! y * ) i
i =1
Suma de cuadrados residual

Suma de cuadrados explicada

SCE = SCT ! SCR

SCT = SCE + SCR


TOTAL = EXPLICADA + RESIDUAL

BONDAD DEL AJUSTE


Coeficiente de Determinacin:
2 R = SCE = 1 ! SCR SCT SCT

R2 x 100 = % de variabilidad explicada R = r2 Varianza residual Se2 = ! ei2 / (n-2)


2

INTERPRETACION -Est acotado entre 0 y 1. -Se interpreta como el porcentaje de la variabilidad de la variable dependiente explicado por la variabilidad de la independiente. -Mide, por tanto, el poder explicatico del modelo. -Acompaa siempre a modelos de tipo lineal. No tiene potencia para medir relaciones de otro tipo.

INFERENCIA EN REGRESION La obtencin de los coeficientes de la recta de regresin muestral puede considerarse tambin como un proceso de estimacin puntual de los coeficientes poblacionales. Para poder realizar inferencias ms amplias tales como intervalos de confianza o contrastes de hiptesis es necesario calcular las distribuciones asociadas a los coeficientes de la misma manera que calculamos las distribuciones muestrales de la medias, por ejemplo. Para que dichas distribuciones puedan ser calculadas de una forma simple se han de verificar ciertas hiptesis previas a la aplicacin del modelo poblacional Y = ! + "X + #: -La variable independiente ha de ser controlada por el investigador y medida sin error. (es constante). -Linealidad: El modelo poblacional ha de ser una recta. -Homoscedasticidad: Para cada valor fijo de X la distribucin de los errores tiene la misma varianza $2. -Independencia: los errores han de ser independientes para cada observacin. -Normalidad: La distribucin de los errores es normal con media cero y desviacin tpica $.

En estas condiciones, a y b pueden considerarse como estimadores eficientes de los parmetros poblacionales ! y ". Adems a y b tienen distribuciones normales:

Mediante las cantidades

a ! N (", # a ) b ! N ($ , # b )

es posible calcular intervalos de confianza: 1"! a ] I! = [ a tn " 2,! S

a!" # tn ! 2 a S b!$ tb = # tn ! 2 Sb ta =

1"! b ] I# = [b tn " 2,! S


que nos permiten conocer la precisin con la que se realizan las estimaciones de los coeficientes de regresin.

EJEMPLO DE SALIDA DE ORDENADOR


Simple Regression X1: independiente Count: 12 R: ,979 R-squared: ,959 Y1: dependiente Adj. R-squared: ,955 RMS Residual: 9,758

Source REGRESSION RESIDUAL TOTAL

DF: 1 10 11

Analysis of Variance Table Sum Squares: Mean Square: 22426,667 952,25 23378,917 22426,667 95,225

F-test: 235,512 p = ,0001

Beta Coefficient Table Variable: INTERCEPT SLOPE Coefficient: 153,917 2,417 ,157 ,979 15,346 ,0001 Std. Err.: Std. Coeff.: t-Value: Probability:

Confidence Intervals Table Variable: MEAN (X,Y) SLOPE 95% Lower: 263,639 2,066 95% Upper: 276,194 2,768 90% Lower: 264,81 2,131 90% Upper: 275,023 2,702

380 360 340 320

y = 2,417x + 153,917, r2 = ,959

dependiente

300 280 260 240 220 200 180 10 20 30 40 50 60 70 80 90

independiente

INTERPRETACION DE LOS RESULTADOS


RELACIONES Y CAUSALIDAD
La interpretacin objetiva de las dependencias estadsticas ha de realizarse fuera de le metodologa estadstica ya que cuando se encuentra una dependencia entre dos variables esta no indica nada sobre la dependencia causal de las mismas. La correlacin puede estar condicionada por: -Relaciones causales directas entre las variables. -Aptitud y rendimiento -Dosis de un medicamento y efecto. -Relacin de ambas con una tercera causa comn. -Medidas biomtricas. -Correlacin entre series temporales. -No homogeneidad de los datos. -Distintos grupos en los que las variables son independientes -Correlaciones formales debidas a la definicin de las variables. -Correlacin formal entre porcentajes (X e Y suman 100).
Correlacin formal si no No homogeneidad si no Dependencia comn si no Correlacin causal

PREDICCION Y EXTRAPOLACION Dado un nuevo valor de la variable xh una prediccin del valor yh asociado es

y h = a + b xh

Extrapolacin

Variabilidad de la prediccin

PODER EXPLICATIVO FRENTE A PODER PREDICTIVO El poder explicativo de un modelo se mide mediante R2, si R2 es alto esto implica que el ajuste global es bueno para el conjunto de puntos, lo cual no quiere decir que sea bueno para todos y cada uno de ellos. Concretamente, un modelo con un 99% de variaciones controladas puede ser un modelo con poder predictivo inadecuado. Un poder explicativo alto implica una buena capacidad para predecir si adems se verifican ciertas condiciones iniciales sobre los datos observados. La verificacin de las condiciones iniciales puede realizarse de forma grfica mediante los grficos de residuos. Una medida de la bondad del ajuste para cada una de las observaciones podra ser su residual ei = y i ! y" i

DATOS DE ASCOMBE Los datos siguientes corresponden a situaciones ficticias que tratan de poner de manifiesto como el coeficiente de determinacin no es suficiente para valorar la bondad de un modelo de regresin. Los cuatro conjuntos de datos tienen el mismo coeficiente de determinacin y los mismos valores para la pendiente y le constante, cuando se les ajusta un modelo lineal, sin embargo es claro como la recta no se ajusta de la misma manera a los distintos conjuntos de datos.
X 10 8 13 9 11 14 6 4 12 7 5 Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,8 Y2 Y3 X4 Y4 9,14 7,46 8 6,58 8,14 6,77 8 5,76 8,74 12,74 8 7,71 8,77 7,11 8 8,84 9,26 7,81 8 8,47 8,10 8,84 8 7,04 6,13 6,08 8 5,25 3,10 5,39 19 12,50 9,13 8,15 8 5,56 7,26 6,42 8 7,91 4,4 5,3 8 6,9

12 10 8 6 4 2 2

Y 1 = 3 + ,5 * X; R 2 = ,667

12 10 8 6 4 2 Y2 = 3 + ,5 * X ; R2 = ,667

10

12

14

16

10

12

14

16

12 10 8 6 4 2 2

Y3 = 3 + ,5 * X ; R2 = ,667

12 10 8 6 4 2

10

12

14

16

10

12

14

16

18

20

ei

(a)

ei

(b)

ei

(c)

y i , y i* xi ei

y i , y i* xi ei

y i , y i* xi ei

(d)

(e)

(f)

y i , y i* xi

yi , y * x

y i , y i* xi

REGRESION NO LINEAL PARABOLA DE REGRESION A menudo es una funcin de segundo grado la que se ajusta bien a los datos y = a + bx + cx 2 + e La funcin puede ajustarse tambin por el mtodo de los mnimos cuadrados, minimizando la suma de los cuadrados de los errores

D=

! e2 i i=1

2 = ! (y i " y * i) i=1

= ! ( y i " a " bx " cx 2 ) 2


i=1

Derivando con respecto a a, b y c e igualando las derivadas a cero, se obtiene un sistema de tres ecuaciones contres incgnitas
i =1 n

! y i = na + b ! x i + c ! x 2 i
i =1 i=1 n n

n 2 ! x iyi = a ! xi + b ! x i + c ! x3 i i =1 i =1 i =1 i=1 n n n n 2 2 3 ! x i yi = a ! xi + b ! x i + c ! x4 i i =1 i =1 i =1 i =1

a partir del cual pueden obtenerse los valores para a, b y c.

BONDAD DEL AJUSTE VARIANZA RESIDUAL ! e i2 i =1 n


n 2 ) ! (y i " y * i i =1 n 2 )] ! [y i " (a + bx i + cx 2 i n

S2 e =

= i =1

COEFICIENTE DE DETERMINACION
S2 R = 1! e S2 y
2

ECUACIONES LINEALIZABLES MEDIANTE TRANSFORMACIONES POTENCIAL b

Y = AX log Y = log AX b
log Y = log A + b log X Y ! = a + bX !
EXPONENCIAL

Y = AB X log Y = log AB X log Y = log A + X log B Y ! = a + bX

LOGARITMICA

Y = a + b log X Y = a + bX !

EJEMPLO
DATOS DE FORBES Entre los aos 1840 y 1850 el fsico escocs James D. Forbes, quera ser capaz de estimar la altitud sobre el nivel del mar a partir de medidas del punto de ebullicin del agua. El saba que la altitud poda determinarse a partir de la presin atmosfrica, medida con un barmetro, y que presiones ms pequeas se correspondan con altitudes mayores. En los experimentos que aqu discutimos, estudi la relacin entre la presin y el punto de ebullicin del agua. Su inters en este problema estaba motivado por la dificultad para transportar los frgiles barmetros del ao 1840. Midiendo el punto de ebullicin del agua los viajeros tendran una forma rpida de estimar la altitud. Forbes recogi datos en los Alpes y en Escocia. Una vez elegida una posicin, colocaba sus instrumentos y meda la presin y el punto de ebullicin. Las medidas e la presin fueron tomadas en pulgadas de mercurio, y ajustadas para la diferencia entre la temperatura cuando tom las medidas y una temperatura estndar. El punto de ebullicin fue medido en grados Fahrenheit. Los datos para 17 lugares se reproducen tal y como aparecen en un artculo de 1857. Tras revisar los datos podemos plantearnos ciertas cuestiones de inters: -Cmo estn relacionadas la presin y el punto de ebullicin del agua? -La relacin es fuerte o dbil? -Podemos predecir la presin a partir de la temperatura? Con que precisin? La teora de Forges sugiere que, sobre el rango de valores observados, el grfico del punto de ebullicin frente al logaritmo de la presin, produce una lnea recta. Siguiendo a Forbes,

tomamos logaritmos en base 10, aunque la base de los logaritmos es irrelevante para el anlisis estadstico.
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 P. ebull. 194,5 194,3 197,9 198,4 199,4 199,9 200,9 201,1 201,4 201,3 203,6 204,6 209,5 208,6 210,7 211,9 212,2 Presin 20,79 20,79 22,40 22,67 23,15 23,35 23,89 23,99 24,02 24,01 25,14 26,57 28,49 27,76 29,04 29,88 30,06 Log(Presin) 1,318 1,318 1,350 1,355 1,365 1,368 1,378 1,380 1,381 1,380 1,400 1,424 1,455 1,443 1,463 1,475 1,478

31 30 29 28 27
PRESION

Scattergram

26 25 24 23 22 21 20 192 194 196 198 200 202 204 P. EBULL. 206 208 210 212 214

ANALISIS DE CORRELACION

Correlation Matrix P. EBULL. P. EBULL. PRESION 1,000 ,997 PRESION ,997 1,000

17 observations were used in this computation.

Correlation Analysis Correlation P. EBULL., PRESION ,997 P-Value <,0001 95% Lower ,992 95% Upper ,999

17 observations were used in this computation.

ANALISIS DE REGRESION

Regression Summary PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 17 0 ,997 ,994 ,994 ,233 Regression Residual Total ANOVA Table PRESION vs. P. EBULL. DF 1 15 16 Sum of Squares 145,125 ,813 145,938 Mean Square 145,125 ,054 F-Value 2677,105 P-Value <,0001

Regression Coefficients PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -81,064 ,523 Std. Error 2,052 ,010 Std. Coeff. -81,064 ,997 t-Value -39,508 51,741 P-Value <,0001 <,0001

Confidence Intervals PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -81,064 ,523 95% Lower -85,437 ,501 95% Upper -76,690 ,544

31 30 29 28 27
PRESION

Regression Plot

26 25 24 23 22 21 20 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -81,06 + ,52 * X; R^2 = ,99

ANALISIS DE RESIDUOS REGRESION LINEAL

,7 ,6 ,5

Residuals vs. Fitted

Residual PRESION

,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 27 Fitted PRESION 28 29 30 31

,7 ,6 ,5

Residuals vs. Dependent

Residual PRESION

,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 PRESION 27 28 29 30 31

REGRESION CON LOGARITMOS


Regression Summary ln(x) of PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 17 0 ,997 ,995 ,995 8,730E-3 Regression Residual Total ANOVA Table ln(x) of PRESION vs. P. EBULL. DF 1 15 16 Sum of Squares ,226 1,143E-3 ,227 Mean Square ,226 7,622E-5 F-Value 2961,547 P-Value <,0001

Regression Coefficients ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,971 ,021 Std. Error ,077 3,789E-4 Std. Coeff. -,971 ,997 t-Value -12,619 54,420 P-Value <,0001 <,0001

Confidence Intervals ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,971 ,021 95% Lower -1,135 ,020 95% Upper -,807 ,021

3,45 3,4 3,35


ln(x) of PRESION

Regression Plot

3,3 3,25 3,2 3,15 3,1 3,05 3 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -,97 + 2,06E-2 * X; R^2 = ,99

ANALISIS DE RESIDUALES
,035 ,03 Residuals vs. Fitted

Residual ln(x) of PRESION

,025 ,02 ,015 1E-2 5E-3 0 -5E-3 -1E-2 3 3,05 3,1 3,15 3,2 3,25 3,3 Fitted ln(x) of PRESION 3,35 3,4 3,45

,035 ,03

Residuals vs. Dependent

Residual ln(x) of PRESION

,025 ,02 ,015 1E-2 5E-3 0 -5E-3 -1E-2 3 3,05 3,1 3,15 3,2 3,25 ln(x) of PRESION 3,3 3,35 3,4 3,45

ANALISIS SIN LA OBSERVACIN EXTRAA


Regression Summary ln(x) of PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 16 0 1,000 1,000 1,000 2,616E-3 Regression Residual Total ANOVA Table ln(x) of PRESION vs. P. EBULL. DF 1 14 15 Sum of Squares ,222 9,578E-5 ,222 Mean Square ,222 6,842E-6 F-Value 32485,387 P-Value <,0001

Regression Coefficients ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,952 ,021 Std. Error ,023 1,138E-4 Std. Coeff. -,952 1,000 t-Value -41,198 180,237 P-Value <,0001 <,0001

Confidence Intervals ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,952 ,021 95% Lower -1,001 ,020 95% Upper -,902 ,021

3,45 3,4 3,35


ln(x) of PRESION

Regression Plot

3,3 3,25 3,2 3,15 3,1 3,05 3 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -,95 + 2,05E-2 * X; R^2 = 1

,004 ,003
Residual ln(x) of PRESION

Residuals vs. Fitted

2E-3 1E-3 0 -,001 -,002 -,003 -,004 -,005 3 3,05 3,1 3,15 3,2 3,25 3,3 Fitted ln(x) of PRESION 3,35 3,4 3,45

,004 ,003

Residuals vs. Dependent

Residual ln(x) of PRESION

2E-3 1E-3 0 -,001 -,002 -,003 -,004 -,005 3 3,05 3,1 3,15 3,2 3,25 ln(x) of PRESION 3,3 3,35 3,4 3,45

Você também pode gostar