Escolar Documentos
Profissional Documentos
Cultura Documentos
118
En la siguiente tabla se resume la utilidad de alguno de los tests que hemos estudiado (no
todos).
Tests para comparar dos o mas muestras
Tipo de variable
Una muestra
Numrica con
distribucin
aproximadamente normal
Numrica no
normal
u ordinal
a) Test de signos
b) Test de
Wilcoxon (test de
rangos con
signos)(*)
(*)
Dos muestras
Dos muestras
de a pares
indepen-dientes
Test t para muestras a) Test t para dos
muestras
de a pares (coincide
indepen-dientes
con el test
suponiendo
de 1 muestra
varianzas
aplicado a
iguales
diferencias)
b) Test de Welch
Test de Wilcoxona) Test de signos
b) Test de Wilcoxon Mann-Whitney
aplicado a las
(test de suma de
rangos)
diferencias (*)
k (k>2) muestras
indepen-dientes
Anlisis de la
varianza de un
factor
Test de Kruskal
Wallis
119
Remember that all models are wrong, the practical question is how wrong do they have to be
to not be useful". George E.P. Box
RELACIN ENTRE DOS VARIABLES NUMRICAS.
REGRESIN LINEAL SIMPLE. CORRELACIN.
Los mtodos de regresin se usan para estudiar la relacin entre dos variables numricas.
Puede interesar por ejemplo estudiar la relacin entre estatura y permetro ceflico de nios
varones recin nacidos, o la relacin entre la estatura del hijo y la estatura del padre (ste es un
famoso ejemplo histrico de Galton 1880 que di origen a la denominacin "modelo de
regresin").
En qumica analtica se usa el modelo de regresin para calibrar un mtodo de medicin.
Ejemplo 1: Para calibrar un fluormetro se han examinado 7 soluciones estndar de fluorescena
(de las que se conoce la concentracin medida con mucha precisin) en el fluormetro. Los
siguientes datos son las "verdaderas" ("casi verdaderas") concentraciones y la intensidad de
fluorescencia observada en el fluormetro:
Concentracin, pg/ml:
0
Intensidad de fluorescencia: 2.1
2
5.0
4
9.0
6
12.6
8
17.3
10
21.0
12
24.7
120
Para ayudar a visualizar la relacin, hemos agregado a los puntos del grfico de dispersin una
recta que se llama "recta de regresin" o "recta de cuadrados mnimos". Para ello, basta
marcar (en el Statistix) donde dice "Display Regression Line".
Recta de cuadrados mnimos.
La recta representada en el grfico anterior es la recta de cuadrados mnimos. La recta de
cuadrados mnimos es la que est "ms cerca" de los puntos, en el sentido siguiente: hace
mnima la suma de los cuadrados de las distancias de cada punto a la recta, midiendo las
distancias verticalmente. O sea minimiza:
( yi - (a + b xi) )2
(31)
Statistix calcula la ecuacin de esa recta. Para ello hay que marcar "Statistics", "Linear
Models", "Linear Regression". Ponemos "Fluorescencia" como variable dependiente y
"Concentracion" como independiente y obtenemos:
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF FLUORESCE
PREDICTOR
VARIABLES
--------CONSTANT
CONCENTRA
COEFFICIENT
----------1.51786
1.93036
R-SQUARED
ADJUSTED R-SQUARED
SOURCE
---------REGRESSION
RESIDUAL
TOTAL
DF
--1
5
6
CASES INCLUDED 7
STD ERROR
--------0.29494
0.04090
0.9978
0.9973
STUDENT'S T
----------5.15
47.20
P
-----0.0036
0.0000
SS
---------417.343
0.93679
418.280
MS
F
-------------417.343 2227.53
0.18736
0.18736
0.43285
P
-----0.0000
MISSING CASES 0
Observando los "coeficientes" de la salida vemos que la recta de cuadrados mnimos tiene
ordenada al origen 1.51786 y pendiente 1.93036. Si los puntos (como en este ejemplo) estn
cerca de la recta, podemos decir que
y 1.51786 + 1.93036 X
o
Fluorescencia 1.51786 + 1.93036 Concentracin
Por ejemplo si la verdadera concentracin de fluorescena de una muestra es 8, la ordenada de la
recta es 1.51786 + 1.93036 *8 = 16.96. Obviamente esto no quiere decir que para la muestras
que tengan concentracin=8 la intensidad de la fluorescencia es 16.96 (ver grfico, los puntos
estn muy cerca de la recta, pero no estn sobre la recta).
121
(para i=1,...,n)
(32)
122
Comentario: en el modelo con xi's aleatorias, no hay que hacer ninguna suposicin sobre la
distribucin de las xi's . Puede ser normal o no.
Como de costumbre, no se espera que las suposiciones del modelo se cumplan exactamente en
un problema real, pero al menos que sean aproximadamente vlidas. Si estn lejos de
cumplirse, las conclusiones pueden ser errneas. Por ejemplo la presencia de algunos valores
de Y atpicos (alejados de la recta, lo que implica que no se cumple la suposicin 4)) pueden
invalidar las conclusiones. En efecto, la recta de cuadrados mnimos, al igual que la media, es
sensible a unos pocos valores atpicos.
10
y1
15
20
25
Les presento a continuacin grficos de dispersin para cinco ejemplos artificiales, generados
con un programa (generando nmeros pseudoaleatorios). Algunos fueron generados de modo
que cumplan todas las suposiciones del modelo de regresin lineal, otros no. Detecta usted en
cules de estos ejemplos no se cumple alguna de las suposiciones y cul es la suposicin que no
se cumple?
x
Ejemplo artificial 1
10
20
10
y2
30
10
10
10
20
y3
30
40
x
Ejemplo artificial 2
x
Ejemplo artificial 3
123
20
40
y4
60
80
10
y5
x
Ejemplo artificial 4
x
Ejemplo artificial 5
10
124
125
( xi x )(Yi Y )
i =1
( xi x )
( xi Yi ) n x Y
i =1
n
(33)
( xi2 )
i =1
i =1
nx
= Y x
(34)
Se puede demostrar que estos estimadores son ptimos si se cumplen las suposiciones 1) a 4).
Residuos: Se llaman residuos las diferencias entre los valores observados y las respectivas
ordenadas de la recta:
ei = Yi ( + xi )
Estimador de 2. es Var(ei).
s2 =
es un estimador insesgado de
Varianza de y
ei2
i =1
n2
(Yi ( + xi )) 2
i =1
(35)
n2
E ( ) =
Var() =
(36)
2
n
(xi x)
(37)
2
i =1
y que
cov (Y , ) = 0
(Demostrar (36) y (37)).
Usando (36) a (38), se puede demostrar que
(38)
E ( ) =
126
1
x2
Var ( ) = 2 + n
n
2
(
x
x
)
i =1
ES ( ) =
Var ( )
s2
( xi x ) 2
i =1
t n 2; / 2 ES ( )
(39)
es un IC para con nivel 1-. Si la suposicin 4) (de normalidad) no se cumple, este intervalo,
bajo condiciones muy generales, tiene nivel asinttico 1-.
Una medida de cun buena es X para predecir Y: el coeficiente de correlacin lineal "r"
de Pearson.
Este coeficiente puede interpretarse como una medida de cun cerca estn los puntos de una
recta. La definicin de r2 es la siguiente:
n
r2
2
(Yi Y )
= i =1
2
(Yi ( + xi ))
i =1
(Yi Y )
(40)
2
i =1
Puede observarse que r2 compara la dispersin de los valores de y con respecto a la recta de
cuadrados mnimos con la dispersin de los valores de y con respecto a su media. r2 es la
proporcin de la "variacin total" entre los valores de y que se puede explicar predicindolos
por un recta en funcin de los valores de x.
Siempre es
0 r2 1
significa que los puntos estn exactamente sobre una recta (*)
los puntos estn cerca de una recta
r2 cerca de 0
127
(*) En las aplicaciones prcticas es "casi imposible" que r2 valga exactamente igual a 1.
El coeficiente de correlacin r es la raiz de r2 y se le pone signo negativo si la pendiente de la
recta de cuadrados mnimos es negativa (recta decreciente).
Otra expresin equivalente para calcular r es:
n
( xi x )(Yi Y )
i =1
n
i =1
i =1
(41)
2
2
( xi x ) (Yi Y )
Siempre es
-1 r 1
y r cerca de 1 o -1 indicar que los puntos estn cerca de una recta creciente o decreciente
respectivamente.
En el ejemplo de la fluorescencia, se ve en la salida del Statistix que R-SQUARED 0.9978 y,
como la pendiente es positiva, es r = raiz(0.9978) = 0.9989. Ambos muy cerca de 1, son una
medida de lo que vemos en el grfico: los puntos estn muy cerca de una recta
En el caso en que las xis son aleatorias, el coeficiente r es un estimador consistente del
coeficiente de correlacin (X,Y).
Estimacin del valor esperado de Y para un valor fijado de x y su intervalo de confianza.
+ x 0
Usando (37) y (38) e puede demostrar que la varianza de este estimador es:
2
1
(x x)
Var ( + x 0 ) = 2 + n 0
n
2
(x i x)
i =1
(42)
+ x t
0
n 2; / 2
2
1
(x x)
s2 + n 0
n
2
(x i x)
i =1
; + x 0 + t n 2; / 2
128
2
1
(x x)
s2 + n 0
n
2
(
x
x
)
i =1
(43)
= + x
Y
n +1
n +1
El error de prediccin es:
n + 1 = ( + x ) + e ( + x )
Yn +1 Y
n +1
0
n +1
Se puede demostrar que este error de prediccin tiene esperanza cero y varianza
(x i x) 2
i =1
(44)
Y
t
n 2; / 2
n +1
2
1
(x x)
+ t
; Y
s 2 1 + + n n +1
n +1
n 2; / 2
n
2
(
x
x
)
i =1
129
1
( x n +1 x ) 2
2
s 1 + + n
n
2
(
x
x
)
i =1
(45)
es un "intervalo de prediccin" con nivel 1- para una nueva observacin Y0. Sabe usted
definir que significa esta afirmacin?
Aplicacin a un ejemplo: Volvamos al ejemplo de la fluorescencia. De la salida del programa
mostrada anteriormente obtenemos:
= 1.93036 ;
= 1.51786 ;
ES ( ) =
Var ( )
s 2 = 0.18736
= 0.04090
[1.83; 2.04]
= + x
Y
= 1.51786 + 1.93036*8 = 16.96
n +1
n +1
Para obtener el intervalo de prediccin para Yn+1 hay que usar la expresin (45). Pero Statistix
calcula automticamente dicho intervalo. Para ello, inmediatamente despus de obtener la
salida de la regresin, marcamos "Results", "Prediction", ponemos en la ventana "Predictor
Values" el nmero 8 y obtenemos:
PREDICTED/FITTED VALUES OF FLUORESCE
LOWER PREDICTED BOUND
PREDICTED VALUE
UPPER PREDICTED BOUND
15.753
16.961
18.169
16.491
16.961
17.431
0.4699
UNUSUALNESS (LEVERAGE)
PERCENT COVERAGE
CORRESPONDING T
0.1786
95.0
2.57
SE (FITTED VALUE)
130
0.1829
Comentario: aunque no se nota mucho en este grfico ni el IC para el valor esperado de Y ni el intervalo
de prediccin tienen longitud constante, para que valores de x0 o xn+1 es menor la longitud?
Los estimadores de los parmetros del modelo se basaron en una muestra de n observaciones
(xi, Yi) (i=1,...,n).
131
Supongamos ahora que hacemos una nueva observacin, pero slo conocemos su valor de Y, no
conocemos su valor x. Queremos en esta seccin calcular un estimador de x y un intervalo que
contiene a x con una probabilidad 1-.
Hemos dicho que hay dos modelos de regresin lineal simple: uno con x's fijas y otro con x's
aleatorias. Pero en ambos modelos Y es aleatoria. En el caso en el que la variable x tambin es
aleatoria, si queremos predecir X conocido Y una solucin es cambiar el modelo: intercambiar
en (32) el papel de las variables Y y X y luego aplicar "prediccin" (o sea (44) y (45)).
Pero si la variable x es fija (fijada por el experimentador), como suele ocurrir en los
experimentos de calibracin, no se la puede considerar como variable "Y" en (32) ya que no se
cumpliran las suposiciones del modelo de regresin.
Consideremos entonces el caso x fija. Supondremos que el nuevo individuo observado cumple
el mismo modelo que los n anteriores, luego
Y=+x+e
donde e es una v.a. con esperanza cero y es independiente de e1, e2, ...., en.
Despejando x
x =
Y e
(46)
V ar ( x )
s
2
1
(Y Y ) 2
1 +
+
n
n
2 ( x i x ) 2
i =1
(47)
Llamando
ES(x) =
ar(x)
V
(48)
el intervalo
x t n 2; / 2 ES( x )
(49)
132
x =
V ar ( x )
s2
2
Ym
(46*)
1
( Ym Y ) 2
1
+
+
n
n
m
2
(x i x ) 2
i =1
(47*)
x =
Y 13 .5 1 .518
=
= 6.21
1 .930
Luego
N
7
7
MEAN
6.0000
13.100
SD
4.3205
8.3495
VARIANCE
18.667
69.713
= 13.10
( xi x ) 2
( xi x ) 2
= 18.667*6 = 112.0
133
0 .18736
1 .93036 2
(13 .5 13 .10 ) 2
1
+
1 +
7
1 .93036 2 * 112 .0
= 0.05748
Luego
ES( x ) =
0.05748 = 0.240
Cuando el plutonio est presente en pequeas cantidades mezclado con otros materiales es
difcil detectarlo. Una forma de detectarlo es medir las partculas alfa que emite. En una
investigacin para estudiar la relacin entre la cantidad de plutonio y la emisin de partculas
alfa, se midieron varias veces cuatro materiales standards para los que se sabe que la actividad
de plutonio (0, 5, 10 y 20 picocuries por gramo (pCi/g). Los resultados de estas mediciones
estn en el archivo plutonio.xls.
Observemos el diagrama de puntos ("Statistics","Summary Statistics", "Scatter Plot"):
134
Ya al ver este diagrama se observa que los datos no siguen el modelo de regresin lineal: hay un
claro dato atpico y no parece cumplirse la suposicin de varianza constante.
Otra forma que a veces ayuda a detectar fallas en el modelo, es estimar los parmetros del
modelo y luego hacer grficos para el diagnstico del modelo. Para ello vamos a "Statistics",
"Linear Models", "Linear Regression" y obtenemos:
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF PARTALFA
PREDICTOR
VARIABLES
--------CONSTANT
PLUTONIO
COEFFICIENT
----------0.01453
0.00501
R-SQUARED
ADJUSTED R-SQUARED
SOURCE
---------REGRESSION
RESIDUAL
TOTAL
DF
--1
22
23
CASES INCLUDED 24
STD ERROR
--------0.00653
6.778E-04
0.7133
0.7003
SS
---------0.03078
0.01237
0.04315
STUDENT'S T
----------2.23
7.40
F
----54.74
P
-----0.0366
0.0000
5.623E-04
0.02371
P
-----0.0000
MISSING CASES 0
Con esta salida a la vista, se marca "Results", "Plots", "Normal Probability Plot", el programa
hace el siguiente grfico para estudiar la normalidad de los residuos:
135
COEFFICIENT
----------0.00703
0.00554
R-SQUARED
ADJUSTED R-SQUARED
SOURCE
---------REGRESSION
RESIDUAL
TOTAL
DF
--1
21
22
CASES INCLUDED 23
STD ERROR
--------0.00360
3.659E-04
0.9160
0.9120
SS
---------0.03619
0.00332
0.03951
STUDENT'S T
----------1.95
15.13
F
----229.00
P
-----0.0641
0.0000
1.580E-04
0.01257
P
-----0.0000
MISSING CASES 0
Marcamos ahora Results, Plots y representamos los 2 graficos que nos ofrece el programa:
grafico de probabilidad normal y grafico de residuos y valores ajustados. Estos son:
136
A pesar de haber excluido el dato atpico, se aprecia en el normal probability plot que los
residuos no se distribuyen normalmente. El segundo grafico muestra muy claramente lo que ya
vimos en el grafico de puntos originales: hay mayor dispersin a derecha del grfico, parece
que la variabilidad de la medicin aumenta a medida que aumenta el valor esperado (no se
cumple la suposicin 2) del modelo lineal).
137
Esto indica que no es correcto ni conveniente usar para estos datos el mtodo de cuadrados
mnimos. No hay una solucin automtica para datos que no cumplen las suposiciones del
modelo de regresin lineal. En este caso en que la dispersin aumenta con el valor esperado, se
han propuesto dos tipos de soluciones. Una es la de aplicar cuadrados mnimos ponderados.
Otra es la de aplicar transformaciones a los datos.
Cuadrados mnimos ponderados.
(50)
b) DS (ei) = cte. Xi
(51)
Yi* =
Yi
vi
x i* =
xi
vi
ei* =
ei
vi
obtenemos
Yi* =
1
vi
+ xi* + ei*
(para i=1,...,n)
(52)
donde ahora ei* cumple las suposiciones 1) a 3) del modelo lineal clsico. Luego para
estimar los parmetros y se aplica cuadrados mnimos en (52), que equivale (demostrar) a
minimizar
(53)
(1/vi) ( yi - (a + b xi) )2
por lo que el mtodo de estimacin se llama cuadrados mnimos pesados (o ponderados).
Observar que el peso de cada observacin es inversamente proporcional a su varianza, lo que es
intuitivamente razonable. Statistix permite calcular los estimadores de cuadrados mnimos
pesados.
138
Cuando para cada valor de x se hacen varias observaciones de y, se puede estimar las
varianzas de los errores por las varianzas muestrales en lugar de hacer suposiciones como en
(51). Luego se emplean estas varianzas estimadas en el mtodo de cuadrados mnimos
ponderados. Veremos a continuacin un ejemplo en el que aplicaremos este mtodo. Este
mtodo no es recomendable si hay pocas observaciones para cada x.
Ejemplo 3: En el libro de Miller1 se presenta el siguiente problema. En un experimento de
calibracin se analizaron soluciones standard con concentracin conocida. Cada solucin fue
medida 10 veces. Se muestran las medias y las DS de las absorbancias observadas:
Concentracin
Absorbancia
Promedio
DS
10
0.009
0.001
0.158
0.004
0.301
0.010
0.472
0.013
0.577
0.017
0.739
0.022
139
COEFFICIENT
----------0.00908
0.07376
R-SQUARED
ADJUSTED R-SQUARED
0.9992
0.9990
STD ERROR
--------0.00105
0.00106
STUDENT'S T
----------8.67
69.33
P
-----0.0010
0.0000
1.12503
1.06067
Si, por error hubisemos calculado la recta de cuadrados mnimos sin ponderaciones,
hubisemos obtenido:
UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF MEDIAABSO
PREDICTOR
VARIABLES
--------CONSTANT
CONCENTRA
COEFFICIENT
----------0.01329
0.07254
R-SQUARED
ADJUSTED R-SQUARED
0.9977
0.9971
STD ERROR
--------0.01056
0.00174
STUDENT'S T
----------1.26
41.60
P
-----0.2767
0.0000
2.128E-04
0.01459
Transformaciones: Otra forma de solucionar la falla en la suposicin 2) que suele ser al mismo
tiempo til para lograr que los residuos tengan una distribucin ms prxima a la normal es aplicar
transformaciones a los datos. Se suele probar con la transformacin logartmica. Esta es la
transformacin ms usada en qumica experimental. Copio el siguiente prrafo del Curso de
Introduccin al conocimiento cientfico experimental de la Dra. Celia Croto, cap 17
En
la
ciencia
(http://www.quimicaviva.qb.fcen.uba.ar/contratapa/aprendiendo/capitulo17.htm)
experimental se aplican los logaritmos en distintas situaciones, una de ellas es cuando se analizan los
resultados de un experimento en el que se trabaja con diluciones seriadas. Las ms comunes son las
diluciones en base 10, pero en serologa, por ejemplo, se usan las diluciones en base 2. Cuando una
sustancia se diluye en forma seriada de modo de obtener diluciones de la misma de 1/10; 1/100; 1/1000;
1/10.000 y 1/100.000, son las potencias de 10n. Si fueran diluciones en base dos, tendramos 1/2; 1/4,
1/8, 1/16, 1/32, 1/64 y as utilizando las potencias de 2n.
Tambin se suele usar la transformacin raz cuadrada o elegir una transformacin en una familia de
transformaciones que incluye al logaritmo, la raz cuadrada y a otras (mtodo de Box y Cox). Existen
mtodos para elegir una transformacin, dentro de una familia. No trataremos estos mtodos en este
curso. Se pueden ver por ejemplo en el captulo 3 del libro de Neter y otros 2.
Referencias:
1. Miller y Miller. Estadstica para Qumica Analtica. Addison Wesley.
2. Neter, Kutner, Nachtsheim y Wasserman. Applied Liner Statistical Models. Mc Graw Hill.