Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADSTICA (Q)
201
PRESION
25276
25256
25216
25187
25217
TEMP
22.1
22.4
22.5
24.8
24.8
PRESION
25187
25177
25177
25112
25093
TEMP
25
33.5
34
34.2
42.5
PRESION
25080
24750
24701
24716
24374
TEMP
42.7
42.9
49.7
50.1
50.3
PRESION
24394
24384
24077
24106
24057
Figura 1
Vemos que la presin de transicin de Bismuto I-II, decrece a medida que aumenta la
temperatura, observamos una tendencia lineal decreciente aunque los puntos del
diagrama de dispersin no estn perfectamente alineados.
27.2 Puntos sobre una recta
Diremos que la relacin entre dos variables X e Y es perfectamente lineal, si todos los
pares de valores observados (xi,yi) de dichas variables satisfacen la ecuacin de una
recta:
yi = + xi
(1)
202
Figura 2
Figura 3 b
E [Y i / X i = xi ]= + xi ,
(2)
203
Otras cosas, adems de X, causan que los valores observados de Yi varen alrededor de
la media de todos los valores de Y cuando X toma el valor x, E[Y/X=x]. Esas otras cosas
son lo que determinan el error (de medicin en nuestro ejemplo) i .
i = Y i - ( + xi ) = Y i - E [Y i / X i = xi ].
(3)
Y i = E [Y i / X i = x i ] + i
= + xi + i .
Por lo tanto, otra forma de expresar el modelo lineal dado en (2) es: los valores de la
variable respuesta se encuentran relacionados linealmente con la variable explicativa
ms un error. Tenemos as el siguiente
Modelo de regresin lineal simple
Y i = + xi + i .
(4)
COEFFICIENT
----------26079.9
-39.8935
STD ERROR
--------11.9034
0.35843
STUDENT'S T
----------2190.97
-111.30
P
-----0.0000
0.0000
- 39.8935 TEMP
204
(5)
27. 4 Residuos
El residuo de un punto a una recta en un diagrama de dispersin es la distancia vertical del
punto a dicha recta. La figura 5 muestra el diagrama de dispersin de los datos junto con la recta
ajustada y el diagrama de dispersin de los residuos vs. la temperatura para los primeros 8 datos
.
Figura 5. Primeros 8 datos
Algunos residuos son positivos, la presin observada est por encima de la recta, y otros
son negativos, la presin observada est por debajo de la recta. La suma de todos los
residuos es cero.
La figura 6 muestra el diagrama de dispersin de los residuos vs. la temperatura del
conjunto de datos completo.
205
Figura 6
y i = a + b xi ,
donde y i (yi "sombrero") indica el valor ajustado (o predicho) de la variable Y para el
caso i (es el valor de la ordenada para xi sobre la recta ajustada) (ver figura 5).
Los residuos ei, la contraparte muestral de los errores (i), son las diferencias entre el
valor observado y el valor predicho:
ei = y i - y i
= y i - (a + b xi ).
206
Los residuos miden el error de prediccin. Como hemos visto, si el valor observado es
mayor que el valor predicho (yi > y i ) el residuo es positivo; en caso contrario es negativo.
Con una prediccin perfecta (yi = y i ) resulta un residuo nulo. La suma de los cuadrados
de los residuos (RSS) refleja la precisin y exactitud global de nuestras predicciones:
n
i =1
i =1
i =1
(6)
Cuanto ms cerca estn los valores observados de los predichos tanto menor ser RSS.
El mtodo de Cuadrados Mnimos (CM) consiste en elegir a y b de manera que la
suma de cuadrados de los residuos (RSS) sea lo ms pequea posible.
Cmo hallamos a y b ?
n
( y i a bxi ) 2
n
i =1
= 2 ( y i a bxi ) = 0
a
i =1
n
( y i a bxi ) 2
n
i =1
= 2 xi ( y i a bxi ) = 0
b
i =1
(7)
b=
( xi x )( y i y )
i =1
2
( xi x )
(8)
i =1
a = y bx
Observaciones
De la primera ecuacin de (7) tenemos que la suma de los residuos es 0.
La segunda ecuacin de (8), nos dice que la recta de cuadrados mnimos pasa por
( x , y ) , ya que y = a + bx .
Podemos pensar al mtodo de cuadrados mnimos como fijando un punto, dado por el
promedio de los valores de la variable explicativa (xs) y el promedio de los valores de la
variable respuesta (ys) y luego girando la recta que pasa por ese punto elegimos la que
deja en promedio, en forma pareja, tantos valores observados por arriba como por abajo.
Ninguna otra recta tendr, para el mismo conjunto de datos, una RSS tan baja como la
obtenida por CM. En este sentido, el mtodo de mnimos cuadrados brinda la solucin
que mejor ajusta a ese conjunto de datos.
Advertencia: en general no pueden realizarse predicciones fuera del rango de valores
observados de la variable independiente.
Qu significa la ecuacin de la recta ( PRESION estimada ( y ) = 26079.9 39.8935 TEMP) ajustada?:
207
Por ejemplo, si se cumple este supuesto, la presin de transicin (Y) es una variable
aleatoria Normal con media x que depende de x (temperatura).
Supuesto b: Linealidad
La media de la variable Y vara linealmente con X.
Si pasar de 21 a 22 0C no fuera lo mismo que pasar 41 a 42 0C respecto del cambio de
la presin de transicin, este supuesto no se cumplira.
U
Supuesto c: Homoscedasticidad
La variabilidad de Y, que es medida por su varianza (2), o por su desvo estndar ( ),
debe ser la misma para cada valor x de la variable X.
U
208
La figura 7 representa dos variables para las cuales se satisfacen los supuestos de
linealidad ( (x) = + x, la media de la variable Y crece linealmente con x ), normalidad
y homoscedasticidad de los errores .
Supuesto d: Independencia de los errores
U
Hemos visto que cuando dos variables son independientes su correlacin es cero, en
general la recproca no es cierta pero bajo el supuesto de normalidad el supuesto de
independencia de los errores se reduce a que no estn correlacionados (corr ( i , j ) = 0
i j ).
Por ejemplo, si las presiones de transicin fueron obtenidas en un orden secuencial con
la temperatura, podra ocurrir que los errores fueran mayores en temperaturas ms bajas
que en temperaturas ms altas invalidando el supuesto de independencia de los errores.
27.6.2 Validacin de los Supuestos
La validacin de los supuestos se realiza en base a los datos y a los residuos de los
mismos respecto de la recta ajustada. El diagrama de dispersin de los datos permite
obtener una impresin sobre el supuesto de linealidad y homoscedasticidad. El anlisis
posterior de residuos permitir confirmar la impresin inicial y validar los supuestos de
Normalidad e independencia.
Veamos algunas estructuras que suelen verse en los diagramas de dispersin de los
residuos.
Figura 8
209
Si graficramos los residuos contra los valores de X los puntos deberan estar
distribuidos en forma de nube alrededor del valor 0 del residuo, para todos los valores de
X, como se muestra en la figura 8. En la figura 9 los datos no satisfacen el supuesto c,
ya que los residuos tienen variabilidad creciente a medida que X crece. En la figura 10
se aprecia una estructura curva en los residuos invalidando la linealidad.
Figura 10. No se satisface el supuesto de linealidad.
210
Figura 11
Var(ei ) = 2 (1 h ii )
y el valor ajustado ( y i ) estar cerca del valor observado por efecto palanca.
yi y i
ei
=
1 - hii 1 - hii
(9)
2
RSS
( y i y )
=
n2
n2
(10)
211
aumenta a medida
que xi se aleja del
promedio x .
1
( xi - x )2
=
+
hii
n n ( - x )2
xk
k=1
Suma fija
(11)
Figura 13
212
( e - e
i
d =
i-1
i=2
n
( e )
(12)
i=1
2.3061
2.1065
0.17682
213
asociacin es negativa cuando valores por encima del promedio de una componente
suelen estar acompaados por valores por debajo del promedio de la otra.
Si se ajusta una recta por cuadrados mnimos en el diagrama de dispersin de un
conjunto de pares de datos, el signo de la pendiente, b, de la recta ajustada indica si la
asociacin es positiva o negativa.
Sin embargo, la pendiente no mide directamente la fuerza (o grado) de la asociacin.
Esto se debe a que el valor absoluto de la pendiente est intrnsecamente vinculado a las
unidades en las que se han expresado las mediciones. Podemos obtener valores tan
grandes o tan chicos como queramos con slo elegir las unidades adecuadamente.
Las medidas de asociacin que consideramos a continuacin
no varan con cambios en las unidades de medicin.
27.7.2 Correlacin de Pearson
n
( x - x )( y
i
- y)
i=1
r=
( x - x ) ( y
2
i=1
i =1
(13)
- y )2
( xi x )( y i y )
b = i =1
2
( xi x )
i =1
s
r= x b
sy
b= r
sY
.
sX
(14)
Si los desvos estndar sx y sy son iguales o cuando los valores de ambas variables (X e
Y) han sido estandarizados, de manera que sus medias muestrales son cero y su
desvos estndar 1, entonces la recta de regresin tiene pendiente b = r y pasa por el
origen. Es por esta razn que el coeficiente de correlacin de Pearson es tambin
llamado coeficiente de regresin estandarizado.
27.7.3. Propiedades del Coeficiente de correlacin
214
La figura 14 muestra cmo los valores de r se acercan a cero, i.e. se alejan del 1 -1, a
medida que decrece el grado de asociacin lineal entre las variables.
Figura 14. Comportamiento del coeficiente de correlacin a medida que decrece el grado
de asociacin lineal.
215
La figura 15. (a) muestra una falta total de asociacin entre las dos variables y un
coeficiente de correlacin cercano a cero, en cambio la (b), que tambin tiene un r
cercano a cero, muestra una clara relacin funcional entre las variables y la (c) muestra
dos grupos uno con asociacin positiva y otro con asociacin nula, sin embargo el
coeficiente de correlacin, -0.75, indica una asociacin negativa.
(15)
TSS = ( y i - y )2 .
(16)
i =1
RSS = ( y i - y$ i )2 .
i=1
(17)
216
Es una medida del error de prediccin que se comete cuando la variable respuesta se
predice por y = a + bx, la teniendo en cuenta la variable explicativa.
Cuando hay una fuerte relacin lineal entre X e Y, el modelo ajustado provee predictores y
mucho mejores que y , en el sentido que la suma de cuadrados de los errores de prediccin es
mucho menor.
Como el numerador de R2 , TSS - RSS es igual a ( Yi Y )2 , R 2 puede expresarse como
(Y
=
(Y
i
i
Y )
(18)
La otra recta es la de mnimos cuadrados. Los desvos verticales de los puntos a esta recta son,
en muchsimo menores. Sobre esta recta, cuando x cambia y cambia, de manera que esta
relacin lineal explica una parte de la variacin de Y. Como R2 = 0.9985 decimos que la recta de
regresin explica el 99% de la variacin total observada en la presin de transicin.
Figura 16
217
STD ERROR
--------11.9034
0.35843 s(b)
STUDENT'S T
----------2190.97
-111.30
P
-----0.0000
0.0000
R-SQUARED
0.9985
298.854
ADJUSTED R-SQUARED
0.9985
STANDARD DEVIATION
17.2874
SOURCE
---------REGRESSION
DF
--1
SS
---------3702187
RESIDUAL
18
5379.36
TOTAL
19
3707567
CASES INCLUDED 20
MS
F
-------------3702187
12387.96
298.854
P
-----0.0000
MISSING CASES 0
5379.36
R-SQUARED: Coeficiente de determinacin R = 1 - 3707567
2
= 0.9985.
218
F=
298.854
( xi x)( y i y )
b = i =1
2
( xi x )
i =1
( xi x ) y i
= i =1
n
2
( xi x)
i =1
2
n
2
( xi x )
219
s (b) =
2
( xi x )
i =1
(19)
es un estimador de , calculado como suma de los cuadrados de los
residuos dividida por n-2.
donde
Rara vez ser necesario utilizar (19) para el clculo ya que s(b) es un valor que
muestra el Statistix automticamente al realizar un ajuste por cuadrados mnimos. En
este caso, s(b) = 0.35843 ( Vea la tabla 2, STD ERROR ). Sin embargo es interesante
detenerse en su expresin ; vemos que:
intervienen todas las observaciones,
a medida que aumenta el nmero de observaciones (n ), s(b) se hace cada vez
ms pequeo,
para un mismo nmero de observaciones, cuanto ms dispersos estn los
valores xi tanto ms pequeo ser s(b).
Los extremos de un intervalo de confianza de nivel (1-) 100% para la pendiente son:
b t n-2, /2 * s(b) ,
(20a)
0.025
a t n-2, /2 * s(a)
donde
s (a ) =
1
+
n
x2
n
(x
i =1
x)2
s(a) = 11.9034
220
y ,
difieren
Debe tenerse en cuenta la incerteza de la recta ajustada. Para ello se construye una
banda alrededor de la recta de regresin ajustada, tal que para cada valor fijo de x
(xnueva), el intervalo determinado por la banda y una recta vertical a la abscisa en xnueva,
sea un intervalo de confianza del (1-) 100%:
a + b x nueva t n - 2, /2
1 ( x nueva x ) 2
+
n
n
2
( xi x )
i =1
nueva
)
Si llamamos s(a + b x
1 ( x nueva x) 2
+
n
n
2
( xi x )
i =1
(21)
221
ese valor fijo de x (xnueva) ; 5 no. Podemos confiar en que el que tenemos es uno de
esos 95.
La expresin general de los lmites de prediccin del (1-) 100 % para una observacin
futura (ynueva) para el valor xnueva de la variable explicativa es:
a + b x nueva t n -2,/2 1 +
1 ( x nueva x) 2
+
n
n
2
( xi x )
i =1
(22)
222
y(%)
90.01
89.05
91.43
93.74
96.73
x(%)
1.36
0.87
1.23
1.55
1.4
y(%)
94.45
87.59
91.77
99.42
93.65
x(%)
1.19
1.15
0.98
1.01
1.11
y(%)
93.54
92.52
90.56
89.54
89.85
x(%)
1.2
1.26
1.32
1.43
0.95
y(%)
90.39
93.25
93.41
94.98
87.33
COEFFICIENT
----------74.2833
14.9475
R-SQUARED
0.8774
ADJUSTED R-SQUARED 0.8706
Figura 20
STD ERROR
--------1.59347
1.31676
STUDENT'S T
----------46.62
11.35
P
-----0.0000
0.0000
1.18055
1.08653
223
Los grficos de la figura 20 nos permiten concluir que los datos no presentan
alejamientos de los supuestos de Normalidad y homoscedasticidad.
Figura 21. Recta ajustada junto con las
bandas de confianza y de prediccin del 95%
224
a + b x nueva t n -2,/2
1 1 ( x nueva x) 2
+ +
n
m n
2
( xi x )
i =1
(23)
1 ( x nueva
x)2
+ k
n
n
2
( xi x)
i =1
a + b x nueva
t n -2, / K2 s (a + bx nueva
)
k
k
1 k K
(24)
Esta ltima expresin es similar a la de (21) salvo en que tn-2, /2 se ha cambiado por tn2, / K2 para obtener un nivel global de por lo menos 1-, los grados de libertad no
cambian porque provienen de = RSS/(n-2).
225
1 ( x nueva x) 2
+
n
n
2
( xi x )
i =1
nueva
(25)
f
El valor crtico ( 2,n -2, ) para hallar el intervalo de confianza de nivel aproximado (1-)
100% , corresponde a una distribucin F con 2 y n-2 grados de libertad.
Cul de las dos familias de intervalos deberamos elegir? Debemos comparar
t n -2, / K2
2f 2,n -2,
y
. El intervalo de confianza ms preciso ser el que provenga del
menor de estos valores. En general cuando la cantidad de intervalos simultneos que
interesan es pequea el procedimiento de Bonferroni ser el mejor. En el caso que
interesen muchos intervalos el procedimiento de Hotelling-Scheff podr dar intervalos
de menor longitud pues el valor crtico no depende de la cantidad de intervalos que
interese construir simultneamente.
a + b x nueva
t n -2,/2K
k
1 ( x nueva
x)2
k
1+ +
n
n
2
( xi x)
i =1
a + b x nueva
t n -2,/2K s (pred Y)
k
1 k K
(26)
1 ( x nueva
x)2
+ k
n
n
2
( xi x)
i =1
a + b x nueva
Comentarios
1 k K
(27)
226
227
Supongamos que se tiene una nueva observacin ynueva (mtodo barato) y se quiere
estimar el nivel xnueva (mtodo caro), es natural obtener un estimador de xnueva
despejando de (28)
x
nueva
y nueva a
=
b
b0
(29)
(30)
nueva
) =
donde s (pred x
1 ( x nueva x) 2
1+ +
n
b
n
2
( xi x )
i =1
(30 a)
1 ( y nueva y ) 2
+
n
n
b 2 ( xi x ) 2
1+
i =1
(30 b)
Volviendo al ejemplo
U
MEAN
SD
VARIANCE
12
2
( xi x) / 11
X
Y
12
12
5.9000
5.8696
3.6668
3.7409
13.445 = i =1
13.994
Tabla 6 Resultados del ajuste por cuadrados mnimos a los datos de galactosa
PREDICTOR
VARIABLES
--------CONSTANT
X
COEFFICIENT
STD ERROR
-------------------0.13866 (a)
0.13344
1.01835 (b)
0.01944
R-SQUARED
ADJUSTED R-SQUARED
SOURCE
---------REGRESSION
RESIDUAL
TOTAL
DF
--1
10
11
0.9964
0.9960
STUDENT'S T
-----------1.04
52.40
SS
---------153.376
0.55869
153.935
MS
F
-------------153.376 2745.29
0.05587
P
-----0.3232
0.0000
0.05587
0.23637
P
-----0.0000
228
La varianza muestral de los valores xis iniciales que determinan la recta ajustada es
12
12
13.445 = i =1
i =1
2
( xi x )
2
( xi x) / 11
s (pred x
nueva
1+
) =
= 0.2416
tn-2, /2 = t10, 0.025 = 2.23
1 ( x nueva x ) 2 0.23637
1 (5.85 5.90) 2
=
+
1+
+
n
n
1.01835
12
147.895
2
( xi x)
i =1
229
nueva
desconocido x
y estimarlo utilizando
x
nueva
ym
nueva
ym
nueva
im=1 yi
b0
(31)
La expresin general de los lmites de confianza aproximados del (1-) 100 % para
nueva
) es
b
nueva
) =
donde ahora s (pred x
1 1 ( x nueva x) 2
+ +
n
m n
2
( xi x)
i =1
(32)
(32 a)
230
nueva
y) 2
1 1 (ym
+ +
n
m n
b 2 ( xi x) 2
i =1
(32 b)
Volvamos al ejemplo
U
y
mtodo rpido, sobre la misma muestra obtenindose una media de 5.82 ( 10
obtenemos la misma estimacin para la verdadera concentracin de galactosa,
nueva
nueva
y10
5.82 (0.13866)
= 5.85
1.01835
s (pred x
nueva
) =
1 1 ( x nueva x) 2 0.23637 1
1 (5.85 5.90) 2
=
+
+
=
+ +
n
m n
1.01835 10 12
147.895
2
( xi x)
i =1
=0.099
Por lo tanto los lmites de confianza con nivel aproximado 95% para la concentracin
verdadera de galactosa son ahora
5.85 2.23*0.099 = 5.85 0.22
Por lo tanto el intervalo de confianza para la concentracin verdadera es
(5.63; 6.07);
la longitud se ha reducido a menos de la mitad.
Comentarios
mediciones rpidas ( y i
1 i m).
Los intervalos de confianza aproximados (dados por (30) y (32)) requieren que la
cantidad
(t n2, / 2 ) 2 2
n
b 2 ( xi x ) 2
i =1
231
= 0.0020
x knueva
1 k K de nivel global
y knueva
1 k K, se
t n -2,/2K
o por
t n -2,/2
valor crtico
por
respectivamente)
x knueva
K
1 k K de nivel global
nuevas
medias
muestrales
t n -2,/2K
o por
(Bonferroni y Scheff