Escolar Documentos
Profissional Documentos
Cultura Documentos
27
usan muestras aleatorias. Es decir, si la poblacin contiene N elementos y va a seleccionarse una muestra
de n de ellos, y si cada una de las N!/(N - n)!n! muestras posibles tiene una probabilidad igual de ser escogida, entonces al procedimiento empleado se le llama muestreo aleatorio. En la prctica, en ocasiones es
difcil obtener muestras aleatorias, para lo cual pueden ser tiles las tablas de nmeros aleatorios, como
la tabla XI del apndice.
En la inferencia estadstica se utilizan profusamente cantidades calculadas a partir de las observaciones de la muestra. Un estadstico se define como cualquier funcin de las observaciones de una muestra
que no contiene parmetros desconocidos. Por ejemplo, suponga queY'Y2' ...,Yn representa una muestra.
Entonces la media muestral
(2-7)
y la varianza muestral
S2
(Yi"':' y)2
= -""i=::.:1'-n-1
(2-8)
son estadsticos. Estas cantidades son medidas de la tendencia central y la dispersin de la muestra, respectivamente. En ocasiones se usa S = -JS2, llamada la desviacin estndar muestral, como medida de
dispersin. Los ingenieros suelen preferir el uso de la desviacin estndar para medir la dispersin debido a que se expresa en las mismas unidades que la variable de inters y.
La media muestralji" es un estimador puntual de la media poblacional,u, y la varianza muestral S2 es un estimador puntual de la varianza poblacional rJ2. En general, un estimador de un parmetro desconocido es
un estadstico que corresponde con dicho parmetro. Observe que un estimador puntual es una variable
aleatoria. Al valor numrico particular de un estimador, calculado a partir de los datos muestrales, se le
llama una estimacin. Por ejemplo, suponga que quiere estimarse la media y la varianza de la resistencia a
la ruptura de un tipo particular de fibra textil. Se prueba una muestra aleatoria de n = 25 ejemplares de
prueba de la fibra y se registra la resistencia de cada uno de ellos. La media y la varianza muestrales se calculan de acuerdo con las ecuaciones 2-7 y 2-8, respectivamente, obtenindose ji" = 18.6 YS2 = 1.20. Por lo
tanto, la estimacin de ,u es ji" = 18.6 Y la estimacin de rJ2 es S2 = 1.20.
Un buen estimador puntual debe tener varias propiedades. Dos de las ms importantes son las siguientes:
1. El estimador puntual deber ser insesgado. Es decir, el parmetro que se est estimando deber
ser el promedio o valor esperado a la larga del estimador puntual. Aun cuando la ausencia de sesgo es deseable, esta propiedad por s sola no siempre hace que un estimador sea adecuado.
'
2. Un estimador insesgado deber tener la varianza mnima. Esta propiedad establece que el estimador puntual de varianza mnima tiene una varianza que es menor que la varianza de cualquier
otro estimador del parmetro en cuestin.
28
=~E(~ Yi)
1
=- 2: E(Yi)
n
1
=- 2: ,t
n
n
i=l
i=l
=,t
porque el valor esperado de cada observacin Yi es ,t. Por lo tanto,y es un estimador insesgado de ,t.
Considere ahora la varianza muestral S2. Se tiene
E(S2)= E
Y)2]
(Yi -
.:.::i=:=...l
n-1
= n~ 1 E[~
(Yi - y)2 ]
=_1_ E (SS)
n-1
donde SS = L~=l (Yi - y)2 es la suma de cuadrados corregida de las observaciones Yi' Entonces
E(SS) =
E[~
= E[~
(Yi - y)2]
Yi
(2-9)
_ny2 ]
=(n-1)a 2
(2-10)
Por lo tanto,
E(S2)=_1_ E (SS)
n-1
=a 2
y se observa que S2 es un estimador insesgado de
er.
29
Grados de libertad
A la cantidad n -1 de la ecuacin 2-10 se le llama el nmero de grados de libertad de la suma de cuadrados SS. Se trata de un resultado muy general; es decir, si y es una variable aleatoria con varianza if y
SS = L(Yi - y)2 tiene v grados de libertad, entonces
(2-11)
El nmero de grados de libertad de una suma de cuadrados es igual al nmero de elementos independientes en dicha suma de cuadrados. Por ejemplo, SS = L7=1 (Yi - y)2 en la ecuacin 2-9 consiste en la suma de
los cuadrados de los n elementos YI - y, Y2 - y, ..., Yn - y. No todos estos elementos son independientes
porque L7=1 (Yi - y) = O; de hecho, slo n -1 de ellos son independientes, lo cual implica que SS tiene n-1
grados de libertad.
La distribucin normal y otras distribuciones de muestreo
En muchas ocasiones la distribucin de probabilidad de un estadstico particular puede determinarse si se
conoce la distribucin de probabilidad de la poblacin de la que se tom la muestra. A la distribucin de
probabilidad de un estadstico se le llama la distribucin de muestreo. A continuacin se revisan brevemente varias distribuciones de muestreo tiles.
Una de las distribuciones de muestreo ms importantes es la distribucin normal. Siy es una variable
aleatoria normal, la distribucin de probabilidad de y es
a.J2ii
-oo<y<oo
(2-12)
donde -00 < fJ. < 00 es la media de la distribucin y if > Oes la varianza. En la figura 2-5 se ilustra la distribucin normal.
Debido a que las corridas muestrales que difieren como resultado del error experimental a menudo
se encuentran descritas adecuadamente en la distribucin normal, sta desempea un papel fundamental
en el anlisis de los datos de experimentos diseados. Tambin es posible definir muchas distribuciones
de muestreo importantes en trminos de variables aleatorias normales. Con frecuencia se usa la notacin
y - N(t, if) para denotar que y sigue una distribucin normal con media fJ. y varianza if.
Un caso especial importante de la distribucin normal es la distribucin normal estndar; es decir,
fJ. = O y if = 1. Se observa que si y - N(t, if), la variable aleatoria
Y- fJ.
z=-a
fJ.
Figura 2-5
La distribucin normal.
(2-13)
30
sigue la distribucin normal estndar, denotada z - N(O, 1). A la operacin ilustrada en la ecuacin 2-13
suele llamrsele la estandarizacin de la variable aleatoria normaly. En la tabla I del apndice se presenta la distribucin normal estndar acumulada.
En muchas tcnicas estadsticas se supone que la variable aleatoria sigue una distribucin normal. El
teorema del lmite central es con frecuencia una justificacin de la normalidad aproximada.
TEOREMA 2..1
El teorema clellmite central
SiYI'Y2' ..,Yn es una sucesin de n variables aleatorias independientes que tienen una distribucin idntica
con E(Yi) = t y V(Yi) = rT (ambas finitas) y x = YI + Y2 + '" + Ym entonces
zn
x-nt
=,------:
--
vna-
tiene una distribucin N(O, 1) aproximada en el sentido de que, si Fn(z) es la funcin de la distribucin de Zn y cI>(z) es la funcin de la distribucin de la variable aleatoria N(O, 1), entonces lmn -+ ",[Fn(z)1
cI>(z)] = 1.
Este resultado establece en esencia que la suma de n variables aleatorias independientes que tienen una
distribucin idntica sigue una distribucin aproximadamente normal. En muchos casos esta aproximacin es adecuada para valores muy pequeos de n, digamos n < 10, mientras que en otros casos se necesita un valor grande de n, digamos n > 100. Frecuentemente se considera que el error de un experimento
surge de una manera aditiva de varias fuentes independientes; por consiguiente, la distribucin normal se
convierte en un modelo recomendable para el error experimental combinado.
Una importante distribucin de muestreo que puede definirse en trminos de variables aleatorias
normales es la distribucin X2 o ji-cuadrada. Si ZI' Z2' ... , Zk son variables aleatorias que tienen una distribucin normal e independiente con media yvarianza 1, cuya abreviatura es NID(O, 1), entonces la variable aleatoria
x>O
(2-14)
a2
= 2k
respectivamente. En la tabla III del apndice se presentan los puntos porcentuales de la distribucin
ji-cuadrada.
31
Como un ejemplo de una variable aleatoria que sigue la distribucin ji-cuadrada, suponga que YI'
Y2, ..., Yn es una muestra aleatoria de una distribucin N(t, 02). Entonces
n
SS
a2
L
i=l
(Yi - y)2
2
a2
(2-15)
Xn-I
Si las observaciones de la muestra son NID(t, 02), entonces la distribucin de S2 es [o2/(n -1)]X~_I' Porlo
tanto, la distribucin de muestreo de la varianza muestral es una constante multiplicada por la distribucin ji-cuadrada si la poblacin tiene una distribucin normal.
Si z y X~ son variables aleatorias independientes normal estndar y ji-cuadrada, respectivamente, la
variable aleatoria
z
= ---===
t
k
(2-17)
~XUk
-oo<t<oo
(2-18)
y la media y la varianza de t son.u = OY02 = k/(k - 2) para k> 2, respectivamente. En la figura 2-7 se ilustran varias distribuciones t. Observe que si k = 00, la distribucin t se convierte en la distribucin normal
32
k=
(normal)
o
Figura 2-7 Varias distribuciones t.
estndar. En la tabla II del apndice se presentan los puntos porcentuales de la distribucin t. Siy,yz, ...,
Yn es una muestra aleatoria de una distribucin N{fl, a2), entonces la cantidad
y- f1
t = SI.Jn
(2-19)
X;,lu
X~ Iv
(2-20)
=-II,V
r(T)(;f
Z
x(u/Z)-l
()- r(~)r(~)[(;;~+1rh)"
- - - - u = 4, u = 10
- - - u=4,u=30
------- u = 10, u = 10
- - u=10,v=30
0.8
-o
tU
-o
:B
.o
ec.
tU
0.6
~ 0.4
-o
tU
-o
.~ 0.2
ID
o
Figura 2-8 Varias distribuciones F.
o<x<oo
(2-21)
33
En la figura 2-8 se ilustran varias distribuciones F. Esta distribucin es muy importante en el anlisis estadstico de experimentos diseados. En la tabla IV del apndice se presentan los puntos porcentuales de la
distribucin F.
Como un ejemplo de un estadstico que sigue una distribucinF, suponga que se tienen dos poblaciones normales independientes con varianza comn cJ2. SiYn,Ylz,
Yln es una muestra aleatoria de nI observaciones de la primera poblacin y SiYZl,Y2z, .. o, YZ nz es una muestra aleatoria de nz observaciones de la
segunda, entonces
000'
(2-22)
donde SIZ y S; son las dos varianzas muestrales. Este resultado se sigue directamente de las ecuaciones
2-15 y 2-20.
2,4
Estamos preparados ahora para volver al problema del mortero de cemento portland de la seccin 2-1.
Recuerde que se estaban investigando dos formulaciones diferentes para determinar si difieren en la
fuerza de la tensin de adhesin. En esta seccin se examina cmo pueden analizarse los datos de este experimento comparativo simple utilizando procedimientos de prueba de hiptesis e intervalos de confianza para comparar las medias de dos tratamientos.
A lo largo de esta seccin se supone que se usa un diseo experimental completamente aleatorizado.
En este diseo, los datos se consideran como si fueran una muestra aleatoria de una distribucin normal.
2,4.1
Prueba de hiptesis
Se retoma ahora el experimento del cemento portland introducido en la seccin 2-1. Recuerde que el inters se encuentra en comparar la fuerza de dos formulaciones diferentes: una del mortero sin modificar y
una del mortero modificado. En general, estas dos formulaciones pueden considerarse como dos niveles
del factor "formulaciones". Sea queYn'Y12' .oo, Yln represente las nI observaciones del primer nivel del
factor y que YZl, Yzz, ... , Y2nz represente las n z observaciones del segundo nivel del factor. Se supone que
las muestras se sacan al azar de dos poblaciones normales independientes. En la figura 2-9 se ilustra la
situacin.
34
=1
Yij=fl+cij { )'=1', 2,
.. ,
ni
(2-23)
donde Yij es la observacinj-sima del nivel i del factor, fl es la media de la respuesta para el nivel i-simo
del factor, y cij es una variable aleatoria normal asociada con la observacin ij-sima. Se supone que las C ij
son NlD(O, a), i = 1, 2. Se acostumbra hacer referencia a cq como el componente del error aleatorio del
modelo. Puesto que las medias fl1 y fl2 son constantes, se observa directamente a partir del modelo que las
Yijson NID(,u, a), i = 1,2, como se acaba de suponer arriba. Para ms informacin acerca de los modelos
de los datos, referirse al material suplementario del texto.
Hiptesis estadsticas
.
Una hiptesis estadstica es un enunciado o afirmacin ya sea acerca de los parmetros de una distribucin de probabilidad o de los parmetros de un modelo. La hiptesis refleja alguna conjetura acerca de la
situacin del problema. Por ejemplo, en el experimento del cemento portland, puede pensarse que las
fuerzas de la tensin de adhesin promedio de las dos formulaciones del mortero son iguales. Esto puede
enunciarse formalmente como
H a :fl1
= fl2
H 1 : fl1
:;z!: fl2
donde fl1 es la fuerza de la tensin de adhesin promedio del mortero modificado y fl2 es la fuerza de tensin de enlace promedio del mortero sin modificar. Al enunciado H a:fl1 = fl2 se le llama la hiptesis nula y
aH1:fl1 :;z!: fl2 se le llama la hiptesis alternativa. A la hiptesis alternativa que se especifica aqu se le llama
hiptesis alternativa de dos colas porque sera verdadera si fl1 < fl2 o si fl1 > fl2'
Para probar una hiptesis se proyecta un procedimiento para tomar una muestra aleatoria, calcular
un estadstico de prueba apropiado para despus rechazar o no estar en posicin de rechazar la hiptesis
nula Ha. Parte de este procedimiento consiste en especificar el conjunto de valores del estadstico de
prueba que llevan al rechazo de Ha. A este conjunto de valores se le llama la regin c~tica o regin de re~
chazo de la prueba.
Pueden cometerse dos tipos de errores cuando se prueban hiptesis. Si la hiptesis nula se rechaza
cuando es verdadera, ha ocurrido un error tipo I. Si la hiptesis nula no se rechaza cuando es falsa, se ha
cometido un error tipo II. Las probabilidades de estos dos errores se expresan con smbolos especiales:
35
Considere que puede suponerse que las varianzas de las fuerzas de la tensin de adhesin fueron idnticas para ambas formulaciones del mortero. Entonces el estadstico de prueba que deber usarse para
comparar las medias de dos tratamientos en el diseo completamente aleatorizado es
- -v
t = Y1 - Z
(2-24)
o
JFfl
-+-
S
p
lZl
lZz
dondeYl YYz son las medias muestrales, lZlY lZz son los tamaos de las muestras, S~ es una estimacin de la
varianza comn ai =
= aZ calculada a partir de
a;
SZ
= (lZ l- 1)SI
nI
+(lZz -1)Si
+n z - 2
(2-25)
s si
y
y
son las dos varianzas muestra1es individuales. Para determinar si deber rechazarse H o:ll = #z,
se comparara to con la distribucin t con lZl + lZz - 2 grados de libertad. Si It oI > t alZ,lI1 +1I2- Z ' donde
t alZ,lI1 +112 -z es el punto porcentual a/2 superior de la distribucin t con nI + n z - 2 grados de libertad, entonces se rechazada H o Y se concluira que las fuerzas promedio de las dos formulaciones del mortero de
cemento portland difieren. A este procedimiento de prueba se le llama generalmente la prueba t de dos
muestras.
Este procedimiento puede justificarse de la siguiente manera. Si el muestreo se est haciendo de distribuciones normales independientes, entonces la distribucin de Yl - Yz es N[ul - #z, er(l/n 1 + l/n z)]. Por
lo tanto, si se conociera er, y si H O:#1 = lz fuera verdadera, la distribucin de
(2-26)
seraN(O, 1). Sin embargo, al sustituir a con Sp en la ecuacin 2-26, la distribucin de Zo cambia de la normal estndar a la distribucin t con nI + lZz - 2 grados de libertad. Ahora bien, si H o es verdadera, t o de la
ecuacin 2-24 se distribuye como t +1I2- Z y, por consiguiente, se esperara que 100(I-a) por ciento de los
valores de to estn entre -t alZ,II +112 -Z Yt alZ,II +112 -Z' Una muestra que produjera un valor de to que estuviera
fuera de estos lmites sera inusual si la hiptesis nula fuera verdadera y es evidencia de que H o deber rechazarse. Por lo tanto, la distribucin t con nI + n z - 2 grados de libertad es la distribucin de referencia
apropiada para el estadstico de prueba too Es decir, describe el comportamiento de t ocuando la hiptesis
nula es verdadera. Observe que a es la probabilidad del error tipo 1 de la prueba.
En algunos problemas quiz quiera rechazarse H o nicamente si una de las medias es mayor que la
otra. Por lo tanto, se especificara una hiptesis alternativa de una cola H 1 :#1 > #z YH o slo se rechazara
si t o > t a,lI +112 -z Si se desea rechazar H o slo si #1 es menor que #2' entonces la hiptesis alternativa es
H 1:#1 < lz, Y H o se rechazara si t o < -t a ,II+1I2- Z '
Para ilustrar el procedimiento, considere los datos del cemento portland de la tabla 2-1. Para estos
datos, se encuentra que
ll
Mortero modificado
5'1 = 16.76 kgf / cmz
S12 = Q.100
si = 0.061
SI = 0.316
11 = 10
12 z
Sz = 0.247
=10
36
Puesto que las desviaciones estndar muestrales son razonablemente similares, no es improcedente concluir que las desviaciones estndar (o las varianzas) poblacionales son iguales. Por lo tanto, puede usarse
la ecuacin 2-24 para probar las hiptesis
H o :fl1
= fl2
H 1 : fl1
:;z!: fl2
Adems, 11 1 + 11 2 - 2 = 10 + 10 - 2 = 18, Ysi se elige a = 0.05, entonces H o:fl1 = fl2 se rechazara si el valor
numrico del estadstico de prueba to > tO.025 , 18 = 2.101, o si to < -tO.025 , 18 = -2.101. Estos lmites de la regin crtica se ilustran en la distribucin de referencia (t con 18 grados de libertad) de la figur:a 2-10.
Al utilizar la ecuacin 2-25 se encuentra que
S2
p
Sp = 0.284
y el estadstico de prueba es
R1
= Y1 - Y2
t
o
Sp
-+111
11 2
16.76-17.92
- O. 284J fa- + fa=-9.13
Puesto que t o = -9.13 < -tO.025 , 18 = -2.101, se rechazaraHoy se concluira que las fuerzas de la tensin de
adhesin promedio de las dos formulaciones del mortero de cemento portland son diferentes.
"'C
:2
0.3
:B
1l
~
~ 0.2
"'C
"'C
ro
"'C
'i
ij 0.1
o
-6
-4
to