REGRESION

REGRESION Y CORRELACION
(INTRODUCCION)
Jos Luis Vicente Villardn Departamento de Estadstica Universidad de Salamanca
ESTUDIO DE LA DEPENDENCIA ENTRE VARIABLES

En muchos estudios experimentales se dispone de la medida de varias variables y se desea estudiar las relaciones existentes entre las mismas. En el caso ms simple se consideran solamente dos variables, una variable dependiente respuesta (Y) y una variable independiente o regresora (X). Las preguntas que suele hacerse un investigador experimental al tratar con datos numricos son las siguientes: -Cmo estn relacionadas las dos variables? -La relacin es fuerte o dbil? -Podemos predecir la variable dependiente a partir de la independiente? Con que precisin?.
En el estudio de las relaciones entre dos variables se distinguen dos tipos de tcnicas:
CORRELACION:
Existe dependencia entre las variables? Cul es el grado de dependencia?
REGRESION:
Cul es el tipo de dependencia entre las dos variables? Pueden estimarse los valores de la dependiente en funcin de los de la independiente?
DATOS
Cada uno de los individuos viene identificado por un par de valores, (xi , yi ) (i=1, ... , n).
X x1 x2 . . . xi . . . xn
Y y1 y2 . . . yi . . . yn
REPRESENTACIONES GRAFICAS DE TABLAS BIDIMENSIONALES

DIAGRAMA DE DISPERSION
60,00 50,00 40,00 30,00 20,00 10,00 0,00 0,00 10,00 20,00 30,00 40,00 50,00
(x , y ) i i
DIAGRAMA DE FRECUENCIAS / HISTOGRAMAS TRIDIMENSIONALES
Ejemplo tridimensionales
20 10 0
Eje Y
1-2 2-3 3-4 4-5 5-6 6-7 7-8 Eje X
12-15 15-18 18-21 21-24
EJEMPLO
Relacin entre el porcentaje de alumnos aprobados en COU y porcentaje de alumnos aprobados en la Selectividad para 11 centros del Distrito Universitario de Salamanca.
100
F. ROJAS MARISTAS SALESIANOS CALASANZ VAGUADA FRAY LUIS LUCIA MEDR.
90
MONTESORI
80
TORRES
70
60
SELECTIVIDAD
TRINITARIAS MACHADO
50
40
APROBADOS
50
60
70
80
% APROBADOS COU
ESTUDIO GRAFICO DE LA RELACION
RELACIONES LINEALES
Dependencia perfecta
Dependencia estocstica
Independencia
RELACIONES NO LINEALES
LA COVARIANZA COMO MEDIDA DE ASOCIACIN LINEAL
Sxy =
i =1
" (x i ! x )( y i ! y ) n
EL COEFICIENTE DE CORRELACIN LINEAL
S r = xy SxSy
INTERPRETACION -Est acotado entre -1 y 1. -Un valor positivo se interpreta como indicador de una relacin directa : A medida que aumentan los valores de una variable aumentan los valores de la otra. -Un valor negativo se interpreta como indicador de una relacin inversa : A medida que aumentan los valores de una variable disminuyen los valores de la otra. -El valor absoluto se interpreta como el grado de relacin lineal existente entre las variables, que ser mayor cuanto ms cercano sea a 1.
FALTA DE POTENCIA DEL COEFICIENTE DE CORRELACION LINEAL PARA DESCRIBIR RELACIONES NO LINEALES.
Corr. Coeff. X1: X Count: 13 Covariance: 0
Y1: Y R-squared: 0
Correlation: 0
Si las variables son independientes el coeficiente de correlacin es cero Si el coeficiente de correlacin es cero las variables no tienen porqu ser independientes (simplemente la relacin entre las mismas puede ser no lineal).
REGRESION:
-Intentar describir la relacin entre una variable respuesta y un conjunto de variables explicativas o predictoras. Respuesta Predictor Y <----------> X
OBJETIVOS:
-Predecir los valores de la respuesta. -Determinar el efecto de cada predictor. -Confirmar, sugerir o refutar relaciones tericas.
EJEMPLO:
-Efecto del fertilizante aplicado sobre el rendimiento de la cosecha, tomando una muestra del rendimiento de n parcelas a las cuales se les han aplicado diferentes cantidades de fertilizante. (x1, y1) , (x2, y2), ..................... , (xn, yn)
Y = RENDIMIENTO
100
200
300
400
500
X = DOSIS DE FERTILIZANTE
-Intentaremos plasmar la relacin entre X e Y mediante una ecuacin o modelo matemtico lo ms simple posible. Y = f(X) Y= a + b X Podemos encontrar diversas formas:
Independencia
En la prctica Y = a + b X + e (e = error o residual.) Causas del error: -No incluir variables importantes. (Efectos distintos al de X) -Errores aleatorios o de medida. -Mala especificacin del modelo (forma funcional incorrecta).
EJEMPLO: RELACION ENTRE LA TEMPERATURA DEL AGUA Y LA PROFUNDIDAD EN EL EMBALSE DE RIAO. Se trata de investigar la evolucin de la temperatura y del contenido en oxigeno del agua del embalse de Riao (Len) en funcin de la profundidad. El estudio forma parte de un proyecto ms amplio en el que se pretende estudiar la evolucin del ecosistema acutico creado artificialmente, en los primeros aos de llenado del embalse. El propsito final era el de la relacin de las caractersticas ambientales con la composicin biolgica. Para la investigacin de la relacin se tomaron varias profundidades, decididas por el investigador, y en cada una de ellas se tomaron la temperatura y el oxgeno disuelto en el agua. Como rplicas se tomaron cuatro semanas distintas consecutivas.
PROFUNDIDAD 0 2 5 10 15 20 45 0 2 5 10 15 20 45 0 2 5 10 15 20 45 0 2 5 10 15 20 45
TEMPERATURA 7,4 7,6 7,4 7 6,7 6,5 5,6 9,5 8,9 8,6 7,8 7,4 7,1 5,7 11,9 10,9 10,5 8,9 8,3 7,7 6 15,8 15,2 13,5 9,8 8,5 7,7 6,1
OXIGENO 16,3 16,3 16,3 15,9 16 15,8 14,2 11,5 11,6 11,7 11,5 11,4 11,3 9,9 9,9 10 10,2 10 10 10 8,7 10,3 10,5 11,4 11,4 10,9 10,9 9
En el diagrama se observa que existe una relacin entre las variables, de forma que, a medida que aumenta la profundidad, disminuye la temperatura. Se observa que, para cada una de las profundidades hay una clara dispersin procedente del comportamiento diferencial de cada una de las semanas. Este hecho se traducira en un aumento del error si no se incluyen las semanas como factor para explicar el comportamiento de la temperatura. Por otra parte, la relacin parece no lineal, por lo que el ajuste de una recta incrementara el trmino de error.
Si consideramos el diagrama de dispersin para la segunda semana

10 9,5 9 8,5
T
8 7,5 7 6,5 6 5,5 -5 0 5 10 15 20 25 Profundidad 30 35 40 45 50
Cada valor de Y, yi, podemos descomponerlo en dos partes yi = yi* + ei y i* = a + b x i ei = yi - yi*
CRITERIO DE AJUSTE
i =1 n i =1 n i =1
! ei = ! ( y i " y i *) ! ei = ! y i " y i *
2 2 e = ( y " y *) ! i ! i i i =1 i =1 n i =1 n
CRITERIO DE LOS MINIMOS CUADRADOS n n n 2 2 D = ! ei = ! ( y i " yi *) = ! ( y i " a " bxi )2 Minimizar: i=1 i =1 i =1 Derivando con respecto a a y b n !D = "2 # ( yi " a " bxi ) = 0 !a i=1 n !D = "2 # ( yi " a " bxi )xi = 0 !b i=1 Resolviendo el sistema resultante n n ! yi = na + b ! xi i=1 i=1 n n n ! xi yi = a ! xi + b ! xi2 i=1 i=1 i =1 se obtiene
a = y ! bx b=
i =1
" ( xi ! x )( yi ! y )
i =1
" (xi ! x )
Sxy
2 Sx
ESTUDIO DE LA REPRESENTATIVIDAD DE LA RECTA DE REGRESION

MODELO REDUCIDO Y MODELO COMPLETO Y
y=y
y = a + bx
y
X X
100
200
300 400
500
100
200
300 400
500
SCT = " (y i ! y)
i =1
Suma de cuadrados total
SCR = " (y i ! y * ) i
i =1
Suma de cuadrados residual
Suma de cuadrados explicada
SCE = SCT ! SCR
SCT = SCE + SCR

TOTAL = EXPLICADA + RESIDUAL
BONDAD DEL AJUSTE

Coeficiente de Determinacin:
2 R = SCE = 1 ! SCR SCT SCT
R2 x 100 = % de variabilidad explicada R = r2 Varianza residual Se2 = ! ei2 / (n-2)

2
INTERPRETACION -Est acotado entre 0 y 1. -Se interpreta como el porcentaje de la variabilidad de la variable dependiente explicado por la variabilidad de la independiente. -Mide, por tanto, el poder explicatico del modelo. -Acompaa siempre a modelos de tipo lineal. No tiene potencia para medir relaciones de otro tipo.
INFERENCIA EN REGRESION La obtencin de los coeficientes de la recta de regresin muestral puede considerarse tambin como un proceso de estimacin puntual de los coeficientes poblacionales. Para poder realizar inferencias ms amplias tales como intervalos de confianza o contrastes de hiptesis es necesario calcular las distribuciones asociadas a los coeficientes de la misma manera que calculamos las distribuciones muestrales de la medias, por ejemplo. Para que dichas distribuciones puedan ser calculadas de una forma simple se han de verificar ciertas hiptesis previas a la aplicacin del modelo poblacional Y = ! + "X + #: -La variable independiente ha de ser controlada por el investigador y medida sin error. (es constante). -Linealidad: El modelo poblacional ha de ser una recta. -Homoscedasticidad: Para cada valor fijo de X la distribucin de los errores tiene la misma varianza $2. -Independencia: los errores han de ser independientes para cada observacin. -Normalidad: La distribucin de los errores es normal con media cero y desviacin tpica $.
En estas condiciones, a y b pueden considerarse como estimadores eficientes de los parmetros poblacionales ! y ". Adems a y b tienen distribuciones normales:
Mediante las cantidades
a ! N (", # a ) b ! N ($ , # b )
es posible calcular intervalos de confianza: 1"! a ] I! = [ a tn " 2,! S
a!" # tn ! 2 a S b!$ tb = # tn ! 2 Sb ta =
1"! b ] I# = [b tn " 2,! S

que nos permiten conocer la precisin con la que se realizan las estimaciones de los coeficientes de regresin.
EJEMPLO DE SALIDA DE ORDENADOR

Simple Regression X1: independiente Count: 12 R: ,979 R-squared: ,959 Y1: dependiente Adj. R-squared: ,955 RMS Residual: 9,758
Source REGRESSION RESIDUAL TOTAL
DF: 1 10 11
Analysis of Variance Table Sum Squares: Mean Square: 22426,667 952,25 23378,917 22426,667 95,225
F-test: 235,512 p = ,0001
Beta Coefficient Table Variable: INTERCEPT SLOPE Coefficient: 153,917 2,417 ,157 ,979 15,346 ,0001 Std. Err.: Std. Coeff.: t-Value: Probability:
Confidence Intervals Table Variable: MEAN (X,Y) SLOPE 95% Lower: 263,639 2,066 95% Upper: 276,194 2,768 90% Lower: 264,81 2,131 90% Upper: 275,023 2,702
380 360 340 320
y = 2,417x + 153,917, r2 = ,959
dependiente
300 280 260 240 220 200 180 10 20 30 40 50 60 70 80 90
independiente
INTERPRETACION DE LOS RESULTADOS

RELACIONES Y CAUSALIDAD
La interpretacin objetiva de las dependencias estadsticas ha de realizarse fuera de le metodologa estadstica ya que cuando se encuentra una dependencia entre dos variables esta no indica nada sobre la dependencia causal de las mismas. La correlacin puede estar condicionada por: -Relaciones causales directas entre las variables. -Aptitud y rendimiento -Dosis de un medicamento y efecto. -Relacin de ambas con una tercera causa comn. -Medidas biomtricas. -Correlacin entre series temporales. -No homogeneidad de los datos. -Distintos grupos en los que las variables son independientes -Correlaciones formales debidas a la definicin de las variables. -Correlacin formal entre porcentajes (X e Y suman 100).
Correlacin formal si no No homogeneidad si no Dependencia comn si no Correlacin causal
PREDICCION Y EXTRAPOLACION Dado un nuevo valor de la variable xh una prediccin del valor yh asociado es
y h = a + b xh
Extrapolacin
Variabilidad de la prediccin
PODER EXPLICATIVO FRENTE A PODER PREDICTIVO El poder explicativo de un modelo se mide mediante R2, si R2 es alto esto implica que el ajuste global es bueno para el conjunto de puntos, lo cual no quiere decir que sea bueno para todos y cada uno de ellos. Concretamente, un modelo con un 99% de variaciones controladas puede ser un modelo con poder predictivo inadecuado. Un poder explicativo alto implica una buena capacidad para predecir si adems se verifican ciertas condiciones iniciales sobre los datos observados. La verificacin de las condiciones iniciales puede realizarse de forma grfica mediante los grficos de residuos. Una medida de la bondad del ajuste para cada una de las observaciones podra ser su residual ei = y i ! y" i
DATOS DE ASCOMBE Los datos siguientes corresponden a situaciones ficticias que tratan de poner de manifiesto como el coeficiente de determinacin no es suficiente para valorar la bondad de un modelo de regresin. Los cuatro conjuntos de datos tienen el mismo coeficiente de determinacin y los mismos valores para la pendiente y le constante, cuando se les ajusta un modelo lineal, sin embargo es claro como la recta no se ajusta de la misma manera a los distintos conjuntos de datos.
X 10 8 13 9 11 14 6 4 12 7 5 Y1 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,8 Y2 Y3 X4 Y4 9,14 7,46 8 6,58 8,14 6,77 8 5,76 8,74 12,74 8 7,71 8,77 7,11 8 8,84 9,26 7,81 8 8,47 8,10 8,84 8 7,04 6,13 6,08 8 5,25 3,10 5,39 19 12,50 9,13 8,15 8 5,56 7,26 6,42 8 7,91 4,4 5,3 8 6,9
12 10 8 6 4 2 2
Y 1 = 3 + ,5 * X; R 2 = ,667
12 10 8 6 4 2 Y2 = 3 + ,5 * X ; R2 = ,667
10
12
14
16
10
12
14
16
12 10 8 6 4 2 2
Y3 = 3 + ,5 * X ; R2 = ,667
12 10 8 6 4 2
10
12
14
16
10
12
14
16
18
20
ei
(a)
ei
(b)
ei
(c)
y i , y i* xi ei
y i , y i* xi ei
y i , y i* xi ei
(d)
(e)
(f)
y i , y i* xi
yi , y * x
y i , y i* xi
REGRESION NO LINEAL PARABOLA DE REGRESION A menudo es una funcin de segundo grado la que se ajusta bien a los datos y = a + bx + cx 2 + e La funcin puede ajustarse tambin por el mtodo de los mnimos cuadrados, minimizando la suma de los cuadrados de los errores
D=
! e2 i i=1
2 = ! (y i " y * i) i=1
= ! ( y i " a " bx " cx 2 ) 2

i=1
Derivando con respecto a a, b y c e igualando las derivadas a cero, se obtiene un sistema de tres ecuaciones contres incgnitas
i =1 n
! y i = na + b ! x i + c ! x 2 i
i =1 i=1 n n
n 2 ! x iyi = a ! xi + b ! x i + c ! x3 i i =1 i =1 i =1 i=1 n n n n 2 2 3 ! x i yi = a ! xi + b ! x i + c ! x4 i i =1 i =1 i =1 i =1
a partir del cual pueden obtenerse los valores para a, b y c.
BONDAD DEL AJUSTE VARIANZA RESIDUAL ! e i2 i =1 n

n 2 ) ! (y i " y * i i =1 n 2 )] ! [y i " (a + bx i + cx 2 i n
S2 e =
= i =1
COEFICIENTE DE DETERMINACION
S2 R = 1! e S2 y
2
ECUACIONES LINEALIZABLES MEDIANTE TRANSFORMACIONES POTENCIAL b
Y = AX log Y = log AX b
log Y = log A + b log X Y ! = a + bX !
EXPONENCIAL
Y = AB X log Y = log AB X log Y = log A + X log B Y ! = a + bX
LOGARITMICA
Y = a + b log X Y = a + bX !
EJEMPLO
DATOS DE FORBES Entre los aos 1840 y 1850 el fsico escocs James D. Forbes, quera ser capaz de estimar la altitud sobre el nivel del mar a partir de medidas del punto de ebullicin del agua. El saba que la altitud poda determinarse a partir de la presin atmosfrica, medida con un barmetro, y que presiones ms pequeas se correspondan con altitudes mayores. En los experimentos que aqu discutimos, estudi la relacin entre la presin y el punto de ebullicin del agua. Su inters en este problema estaba motivado por la dificultad para transportar los frgiles barmetros del ao 1840. Midiendo el punto de ebullicin del agua los viajeros tendran una forma rpida de estimar la altitud. Forbes recogi datos en los Alpes y en Escocia. Una vez elegida una posicin, colocaba sus instrumentos y meda la presin y el punto de ebullicin. Las medidas e la presin fueron tomadas en pulgadas de mercurio, y ajustadas para la diferencia entre la temperatura cuando tom las medidas y una temperatura estndar. El punto de ebullicin fue medido en grados Fahrenheit. Los datos para 17 lugares se reproducen tal y como aparecen en un artculo de 1857. Tras revisar los datos podemos plantearnos ciertas cuestiones de inters: -Cmo estn relacionadas la presin y el punto de ebullicin del agua? -La relacin es fuerte o dbil? -Podemos predecir la presin a partir de la temperatura? Con que precisin? La teora de Forges sugiere que, sobre el rango de valores observados, el grfico del punto de ebullicin frente al logaritmo de la presin, produce una lnea recta. Siguiendo a Forbes,
tomamos logaritmos en base 10, aunque la base de los logaritmos es irrelevante para el anlisis estadstico.
n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 P. ebull. 194,5 194,3 197,9 198,4 199,4 199,9 200,9 201,1 201,4 201,3 203,6 204,6 209,5 208,6 210,7 211,9 212,2 Presin 20,79 20,79 22,40 22,67 23,15 23,35 23,89 23,99 24,02 24,01 25,14 26,57 28,49 27,76 29,04 29,88 30,06 Log(Presin) 1,318 1,318 1,350 1,355 1,365 1,368 1,378 1,380 1,381 1,380 1,400 1,424 1,455 1,443 1,463 1,475 1,478
31 30 29 28 27
PRESION
Scattergram
26 25 24 23 22 21 20 192 194 196 198 200 202 204 P. EBULL. 206 208 210 212 214
ANALISIS DE CORRELACION
Correlation Matrix P. EBULL. P. EBULL. PRESION 1,000 ,997 PRESION ,997 1,000
17 observations were used in this computation.
Correlation Analysis Correlation P. EBULL., PRESION ,997 P-Value <,0001 95% Lower ,992 95% Upper ,999
17 observations were used in this computation.
ANALISIS DE REGRESION
Regression Summary PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 17 0 ,997 ,994 ,994 ,233 Regression Residual Total ANOVA Table PRESION vs. P. EBULL. DF 1 15 16 Sum of Squares 145,125 ,813 145,938 Mean Square 145,125 ,054 F-Value 2677,105 P-Value <,0001
Regression Coefficients PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -81,064 ,523 Std. Error 2,052 ,010 Std. Coeff. -81,064 ,997 t-Value -39,508 51,741 P-Value <,0001 <,0001
Confidence Intervals PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -81,064 ,523 95% Lower -85,437 ,501 95% Upper -76,690 ,544
31 30 29 28 27
PRESION
Regression Plot
26 25 24 23 22 21 20 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -81,06 + ,52 * X; R^2 = ,99
ANALISIS DE RESIDUOS REGRESION LINEAL
,7 ,6 ,5
Residuals vs. Fitted
Residual PRESION
,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 27 Fitted PRESION 28 29 30 31
,7 ,6 ,5
Residuals vs. Dependent
Residual PRESION
,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 PRESION 27 28 29 30 31
REGRESION CON LOGARITMOS

Regression Summary ln(x) of PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 17 0 ,997 ,995 ,995 8,730E-3 Regression Residual Total ANOVA Table ln(x) of PRESION vs. P. EBULL. DF 1 15 16 Sum of Squares ,226 1,143E-3 ,227 Mean Square ,226 7,622E-5 F-Value 2961,547 P-Value <,0001
Regression Coefficients ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,971 ,021 Std. Error ,077 3,789E-4 Std. Coeff. -,971 ,997 t-Value -12,619 54,420 P-Value <,0001 <,0001
Confidence Intervals ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,971 ,021 95% Lower -1,135 ,020 95% Upper -,807 ,021
3,45 3,4 3,35

ln(x) of PRESION
Regression Plot
3,3 3,25 3,2 3,15 3,1 3,05 3 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -,97 + 2,06E-2 * X; R^2 = ,99
ANALISIS DE RESIDUALES
,035 ,03 Residuals vs. Fitted
Residual ln(x) of PRESION
,025 ,02 ,015 1E-2 5E-3 0 -5E-3 -1E-2 3 3,05 3,1 3,15 3,2 3,25 3,3 Fitted ln(x) of PRESION 3,35 3,4 3,45
,035 ,03
,025 ,02 ,015 1E-2 5E-3 0 -5E-3 -1E-2 3 3,05 3,1 3,15 3,2 3,25 ln(x) of PRESION 3,3 3,35 3,4 3,45
ANALISIS SIN LA OBSERVACIN EXTRAA

Regression Summary ln(x) of PRESION vs. P. EBULL. Count Num. Missing R R Squared Adjusted R Squared RMS Residual 16 0 1,000 1,000 1,000 2,616E-3 Regression Residual Total ANOVA Table ln(x) of PRESION vs. P. EBULL. DF 1 14 15 Sum of Squares ,222 9,578E-5 ,222 Mean Square ,222 6,842E-6 F-Value 32485,387 P-Value <,0001
Regression Coefficients ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,952 ,021 Std. Error ,023 1,138E-4 Std. Coeff. -,952 1,000 t-Value -41,198 180,237 P-Value <,0001 <,0001
Confidence Intervals ln(x) of PRESION vs. P. EBULL. Coefficient Intercept P. EBULL. -,952 ,021 95% Lower -1,001 ,020 95% Upper -,902 ,021
3,45 3,4 3,35

ln(x) of PRESION
Regression Plot
3,3 3,25 3,2 3,15 3,1 3,05 3 192 194 196 198 200 202 204 206 208 210 212 214 P. EBULL. Y = -,95 + 2,05E-2 * X; R^2 = 1
,004 ,003
Residuals vs. Fitted
2E-3 1E-3 0 -,001 -,002 -,003 -,004 -,005 3 3,05 3,1 3,15 3,2 3,25 3,3 Fitted ln(x) of PRESION 3,35 3,4 3,45
,004 ,003
2E-3 1E-3 0 -,001 -,002 -,003 -,004 -,005 3 3,05 3,1 3,15 3,2 3,25 ln(x) of PRESION 3,3 3,35 3,4 3,45

REGRESION

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

REGRESION

Enviado por

Direitos autorais:

Formatos disponíveis

REGRESION Y CORRELACION

Jos Luis Vicente Villardn Departamento de Estadstica Universidad de Salamanca

ESTUDIO DE LA DEPENDENCIA ENTRE VARIABLES

REPRESENTACIONES GRAFICAS DE TABLAS BIDIMENSIONALES

DIAGRAMA DE FRECUENCIAS / HISTOGRAMAS TRIDIMENSIONALES

1-2 2-3 3-4 4-5 5-6 6-7 7-8 Eje X

12-15 15-18 18-21 21-24

ESTUDIO GRAFICO DE LA RELACION

LA COVARIANZA COMO MEDIDA DE ASOCIACIN LINEAL

EL COEFICIENTE DE CORRELACIN LINEAL

Corr. Coeff. X1: X Count: 13 Covariance: 0

Si consideramos el diagrama de dispersin para la segunda semana

8 7,5 7 6,5 6 5,5 -5 0 5 10 15 20 25 Profundidad 30 35 40 45 50

Cada valor de Y, yi, podemos descomponerlo en dos partes yi = yi* + ei y i* = a + b x i ei = yi - yi*

ESTUDIO DE LA REPRESENTATIVIDAD DE LA RECTA DE REGRESION

Suma de cuadrados explicada

SCE = SCT ! SCR

SCT = SCE + SCR

BONDAD DEL AJUSTE

R2 x 100 = % de variabilidad explicada R = r2 Varianza residual Se2 = ! ei2 / (n-2)

Mediante las cantidades

es posible calcular intervalos de confianza: 1"! a ] I! = [ a tn " 2,! S

1"! b ] I# = [b tn " 2,! S

EJEMPLO DE SALIDA DE ORDENADOR

Source REGRESSION RESIDUAL TOTAL

F-test: 235,512 p = ,0001

380 360 340 320

y = 2,417x + 153,917, r2 = ,959

300 280 260 240 220 200 180 10 20 30 40 50 60 70 80 90

INTERPRETACION DE LOS RESULTADOS

= ! ( y i " a " bx " cx 2 ) 2

a partir del cual pueden obtenerse los valores para a, b y c.

BONDAD DEL AJUSTE VARIANZA RESIDUAL ! e i2 i =1 n

ECUACIONES LINEALIZABLES MEDIANTE TRANSFORMACIONES POTENCIAL b

Y = AB X log Y = log AB X log Y = log A + X log B Y ! = a + bX

17 observations were used in this computation.

17 observations were used in this computation.

ANALISIS DE RESIDUOS REGRESION LINEAL

Residuals vs. Fitted

,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 27 Fitted PRESION 28 29 30 31

Residuals vs. Dependent

,4 ,3 ,2 1E-1 0 -,1 -,2 -,3 20 21 22 23 24 25 26 PRESION 27 28 29 30 31

REGRESION CON LOGARITMOS

3,45 3,4 3,35

Residual ln(x) of PRESION

Residuals vs. Dependent

Residual ln(x) of PRESION

ANALISIS SIN LA OBSERVACIN EXTRAA

3,45 3,4 3,35

Residuals vs. Fitted

Residuals vs. Dependent

Residual ln(x) of PRESION

Você também pode gostar