Você está na página 1de 10

2-3 MUESTREO Y DISTRIBUCIONES DE MUESTREO

27

usan muestras aleatorias. Es decir, si la poblacin contiene N elementos y va a seleccionarse una muestra
de n de ellos, y si cada una de las N!/(N - n)!n! muestras posibles tiene una probabilidad igual de ser escogida, entonces al procedimiento empleado se le llama muestreo aleatorio. En la prctica, en ocasiones es
difcil obtener muestras aleatorias, para lo cual pueden ser tiles las tablas de nmeros aleatorios, como
la tabla XI del apndice.
En la inferencia estadstica se utilizan profusamente cantidades calculadas a partir de las observaciones de la muestra. Un estadstico se define como cualquier funcin de las observaciones de una muestra
que no contiene parmetros desconocidos. Por ejemplo, suponga queY'Y2' ...,Yn representa una muestra.
Entonces la media muestral

(2-7)

y la varianza muestral

S2

(Yi"':' y)2

= -""i=::.:1'-n-1

(2-8)

son estadsticos. Estas cantidades son medidas de la tendencia central y la dispersin de la muestra, respectivamente. En ocasiones se usa S = -JS2, llamada la desviacin estndar muestral, como medida de
dispersin. Los ingenieros suelen preferir el uso de la desviacin estndar para medir la dispersin debido a que se expresa en las mismas unidades que la variable de inters y.

Propiedades de la media y la varianza muestrales

La media muestralji" es un estimador puntual de la media poblacional,u, y la varianza muestral S2 es un estimador puntual de la varianza poblacional rJ2. En general, un estimador de un parmetro desconocido es
un estadstico que corresponde con dicho parmetro. Observe que un estimador puntual es una variable
aleatoria. Al valor numrico particular de un estimador, calculado a partir de los datos muestrales, se le
llama una estimacin. Por ejemplo, suponga que quiere estimarse la media y la varianza de la resistencia a
la ruptura de un tipo particular de fibra textil. Se prueba una muestra aleatoria de n = 25 ejemplares de
prueba de la fibra y se registra la resistencia de cada uno de ellos. La media y la varianza muestrales se calculan de acuerdo con las ecuaciones 2-7 y 2-8, respectivamente, obtenindose ji" = 18.6 YS2 = 1.20. Por lo
tanto, la estimacin de ,u es ji" = 18.6 Y la estimacin de rJ2 es S2 = 1.20.
Un buen estimador puntual debe tener varias propiedades. Dos de las ms importantes son las siguientes:
1. El estimador puntual deber ser insesgado. Es decir, el parmetro que se est estimando deber
ser el promedio o valor esperado a la larga del estimador puntual. Aun cuando la ausencia de sesgo es deseable, esta propiedad por s sola no siempre hace que un estimador sea adecuado.
'
2. Un estimador insesgado deber tener la varianza mnima. Esta propiedad establece que el estimador puntual de varianza mnima tiene una varianza que es menor que la varianza de cualquier
otro estimador del parmetro en cuestin.

28

CAPTULO 2 EXPERIMENTOS COMPARATIVOS SIMPLES

Es sencillo demostrar que y y S2 son estimadores insesgados de ,t y


primero y. Al utilizar las propiedades del valor esperado, se tiene

er, respectivamente. Considere

=~E(~ Yi)
1
=- 2: E(Yi)
n
1
=- 2: ,t
n
n

i=l

i=l

=,t
porque el valor esperado de cada observacin Yi es ,t. Por lo tanto,y es un estimador insesgado de ,t.
Considere ahora la varianza muestral S2. Se tiene

E(S2)= E

Y)2]

(Yi -

.:.::i=:=...l

n-1

= n~ 1 E[~

(Yi - y)2 ]

=_1_ E (SS)

n-1

donde SS = L~=l (Yi - y)2 es la suma de cuadrados corregida de las observaciones Yi' Entonces
E(SS) =

E[~

= E[~

(Yi - y)2]

Yi

(2-9)

_ny2 ]

2: (,t2 +a 2)-n(,t2 +a 2 In)


i=l

=(n-1)a 2

(2-10)

Por lo tanto,
E(S2)=_1_ E (SS)

n-1

=a 2
y se observa que S2 es un estimador insesgado de

er.

2-3 MUESTREO Y DISTRIBUCIONES DE MUESTREO

29

Grados de libertad
A la cantidad n -1 de la ecuacin 2-10 se le llama el nmero de grados de libertad de la suma de cuadrados SS. Se trata de un resultado muy general; es decir, si y es una variable aleatoria con varianza if y
SS = L(Yi - y)2 tiene v grados de libertad, entonces
(2-11)

El nmero de grados de libertad de una suma de cuadrados es igual al nmero de elementos independientes en dicha suma de cuadrados. Por ejemplo, SS = L7=1 (Yi - y)2 en la ecuacin 2-9 consiste en la suma de
los cuadrados de los n elementos YI - y, Y2 - y, ..., Yn - y. No todos estos elementos son independientes
porque L7=1 (Yi - y) = O; de hecho, slo n -1 de ellos son independientes, lo cual implica que SS tiene n-1
grados de libertad.
La distribucin normal y otras distribuciones de muestreo
En muchas ocasiones la distribucin de probabilidad de un estadstico particular puede determinarse si se
conoce la distribucin de probabilidad de la poblacin de la que se tom la muestra. A la distribucin de
probabilidad de un estadstico se le llama la distribucin de muestreo. A continuacin se revisan brevemente varias distribuciones de muestreo tiles.
Una de las distribuciones de muestreo ms importantes es la distribucin normal. Siy es una variable
aleatoria normal, la distribucin de probabilidad de y es

f(y) = _1_ e-(1I2)[(Y-I')lu]'

a.J2ii

-oo<y<oo

(2-12)

donde -00 < fJ. < 00 es la media de la distribucin y if > Oes la varianza. En la figura 2-5 se ilustra la distribucin normal.
Debido a que las corridas muestrales que difieren como resultado del error experimental a menudo
se encuentran descritas adecuadamente en la distribucin normal, sta desempea un papel fundamental
en el anlisis de los datos de experimentos diseados. Tambin es posible definir muchas distribuciones
de muestreo importantes en trminos de variables aleatorias normales. Con frecuencia se usa la notacin
y - N(t, if) para denotar que y sigue una distribucin normal con media fJ. y varianza if.
Un caso especial importante de la distribucin normal es la distribucin normal estndar; es decir,
fJ. = O y if = 1. Se observa que si y - N(t, if), la variable aleatoria

Y- fJ.
z=-a

fJ.

Figura 2-5

La distribucin normal.

(2-13)

30

CAPTULO 2 EXPERIMENTOS COMPARATIVOS SIMPLES

sigue la distribucin normal estndar, denotada z - N(O, 1). A la operacin ilustrada en la ecuacin 2-13
suele llamrsele la estandarizacin de la variable aleatoria normaly. En la tabla I del apndice se presenta la distribucin normal estndar acumulada.
En muchas tcnicas estadsticas se supone que la variable aleatoria sigue una distribucin normal. El
teorema del lmite central es con frecuencia una justificacin de la normalidad aproximada.

TEOREMA 2..1
El teorema clellmite central

SiYI'Y2' ..,Yn es una sucesin de n variables aleatorias independientes que tienen una distribucin idntica
con E(Yi) = t y V(Yi) = rT (ambas finitas) y x = YI + Y2 + '" + Ym entonces

zn

x-nt

=,------:
--

vna-

tiene una distribucin N(O, 1) aproximada en el sentido de que, si Fn(z) es la funcin de la distribucin de Zn y cI>(z) es la funcin de la distribucin de la variable aleatoria N(O, 1), entonces lmn -+ ",[Fn(z)1
cI>(z)] = 1.

Este resultado establece en esencia que la suma de n variables aleatorias independientes que tienen una
distribucin idntica sigue una distribucin aproximadamente normal. En muchos casos esta aproximacin es adecuada para valores muy pequeos de n, digamos n < 10, mientras que en otros casos se necesita un valor grande de n, digamos n > 100. Frecuentemente se considera que el error de un experimento
surge de una manera aditiva de varias fuentes independientes; por consiguiente, la distribucin normal se
convierte en un modelo recomendable para el error experimental combinado.
Una importante distribucin de muestreo que puede definirse en trminos de variables aleatorias
normales es la distribucin X2 o ji-cuadrada. Si ZI' Z2' ... , Zk son variables aleatorias que tienen una distribucin normal e independiente con media yvarianza 1, cuya abreviatura es NID(O, 1), entonces la variable aleatoria

sigue la distribucin ji-cuadrada con k grados de libertad. La funcin de densidad de la distribucin


ji-cuadrada es

x>O

(2-14)

En la figura 2-6 se ilustran varias distribuciones ji-cuadrada. La distribucin es asimtrica, o sesgada,


con media y varianza
l= k

a2

= 2k

respectivamente. En la tabla III del apndice se presentan los puntos porcentuales de la distribucin
ji-cuadrada.

2-3 MUESTREO Y DISTRIBUCIONES DE MUESTREO

31

Figura 26 Varias distribuciones ji-cuadrada.

Como un ejemplo de una variable aleatoria que sigue la distribucin ji-cuadrada, suponga que YI'
Y2, ..., Yn es una muestra aleatoria de una distribucin N(t, 02). Entonces
n

SS
a2

L
i=l

(Yi - y)2
2

a2

(2-15)

Xn-I

Es decir, SS/o2 sigue una distribucin ji-cuadrada con n - 1 grados de libertad.


Muchas de las tcnicas utilizadas en este libro requieren el clculo y la manipulacin de sumas de
cuadrados. El resultado dado en la ecuacin 2-15 es de suma importancia y aparece en mltiples ocasiones; cuando una suma de cuadrados de variables aleatorias normales se divide por 02 sigue la distribucin
ji-cuadrada.
Al examinar la ecuacin 2-8, se observa que la varianza muestral puede escribirse como
(2-16)

Si las observaciones de la muestra son NID(t, 02), entonces la distribucin de S2 es [o2/(n -1)]X~_I' Porlo
tanto, la distribucin de muestreo de la varianza muestral es una constante multiplicada por la distribucin ji-cuadrada si la poblacin tiene una distribucin normal.
Si z y X~ son variables aleatorias independientes normal estndar y ji-cuadrada, respectivamente, la
variable aleatoria
z

= ---===

t
k

(2-17)

~XUk

sigue la distribucin t con k grados de libertad, denotada tic La funcin de densidad de t es


r[(k+1)/2]
1
f(t)= .Jkiir(k/2) [(t 2 /k)+1r k +I )/2

-oo<t<oo

(2-18)

y la media y la varianza de t son.u = OY02 = k/(k - 2) para k> 2, respectivamente. En la figura 2-7 se ilustran varias distribuciones t. Observe que si k = 00, la distribucin t se convierte en la distribucin normal

32

CAPTULO 2 EXPERIMENTOS COMPARATNOS SIMPLES

k=

(normal)

o
Figura 2-7 Varias distribuciones t.

estndar. En la tabla II del apndice se presentan los puntos porcentuales de la distribucin t. Siy,yz, ...,
Yn es una muestra aleatoria de una distribucin N{fl, a2), entonces la cantidad

y- f1
t = SI.Jn

(2-19)

se distribuye como t con n - 1 grados de libertad.


La ltima distribucin de muestreo que consideraremos es la distribucin F. Si X;, YX~ son dos variables aleatorias ji-cuadrada independientes con u y v grados de libertad, respectivamente, entonces el cociente
F

X;,lu
X~ Iv

(2-20)

=-II,V

sigue la distribucin F con u grados de libertad en el numerador y v grados de libertad en el denominador.


Six es una variable aleatoriaF con u grados de libertad en el numeradoryv grados de libertad en el denominador, entonces la distribucin de probabilidad de x es
h

r(T)(;f

Z
x(u/Z)-l

()- r(~)r(~)[(;;~+1rh)"
- - - - u = 4, u = 10
- - - u=4,u=30
------- u = 10, u = 10
- - u=10,v=30

0.8

-o
tU
-o

:B
.o
ec.
tU

0.6

~ 0.4

-o
tU
-o

.~ 0.2
ID

o
Figura 2-8 Varias distribuciones F.

o<x<oo

(2-21)

2-4 INFERENCIAS ACERCA DE LAS DIFERENCIAS EN LAS MEDIAS, DISEOS ALEATORlZADOS

33

En la figura 2-8 se ilustran varias distribuciones F. Esta distribucin es muy importante en el anlisis estadstico de experimentos diseados. En la tabla IV del apndice se presentan los puntos porcentuales de la
distribucin F.
Como un ejemplo de un estadstico que sigue una distribucinF, suponga que se tienen dos poblaciones normales independientes con varianza comn cJ2. SiYn,Ylz,
Yln es una muestra aleatoria de nI observaciones de la primera poblacin y SiYZl,Y2z, .. o, YZ nz es una muestra aleatoria de nz observaciones de la
segunda, entonces
000'

(2-22)

donde SIZ y S; son las dos varianzas muestrales. Este resultado se sigue directamente de las ecuaciones
2-15 y 2-20.

2,4

INFERENCIAS ACERCA DE LAS DIFERENCIAS EN LAS MEDIAS,


DISEOS ALEATORIZADOS

Estamos preparados ahora para volver al problema del mortero de cemento portland de la seccin 2-1.
Recuerde que se estaban investigando dos formulaciones diferentes para determinar si difieren en la
fuerza de la tensin de adhesin. En esta seccin se examina cmo pueden analizarse los datos de este experimento comparativo simple utilizando procedimientos de prueba de hiptesis e intervalos de confianza para comparar las medias de dos tratamientos.
A lo largo de esta seccin se supone que se usa un diseo experimental completamente aleatorizado.
En este diseo, los datos se consideran como si fueran una muestra aleatoria de una distribucin normal.

2,4.1

Prueba de hiptesis

Se retoma ahora el experimento del cemento portland introducido en la seccin 2-1. Recuerde que el inters se encuentra en comparar la fuerza de dos formulaciones diferentes: una del mortero sin modificar y
una del mortero modificado. En general, estas dos formulaciones pueden considerarse como dos niveles
del factor "formulaciones". Sea queYn'Y12' .oo, Yln represente las nI observaciones del primer nivel del
factor y que YZl, Yzz, ... , Y2nz represente las n z observaciones del segundo nivel del factor. Se supone que
las muestras se sacan al azar de dos poblaciones normales independientes. En la figura 2-9 se ilustra la
situacin.

Nivel 1 del factor

Nivel 2 del factor

Figura 2-9 La situacin del muestreo para la prueba t de dos muestras.

34

CAPTULO 2 EXPERIMENTOS COMPARATIVOS SIMPLES

Un modelo de los datos


Con frecuencia los resultados de un experimento se describen con un modelo. Un modelo estadstico simple que describe los datos de un experimento como el que acaba de describirse es
i

=1

Yij=fl+cij { )'=1', 2,

.. ,

ni

(2-23)

donde Yij es la observacinj-sima del nivel i del factor, fl es la media de la respuesta para el nivel i-simo
del factor, y cij es una variable aleatoria normal asociada con la observacin ij-sima. Se supone que las C ij
son NlD(O, a), i = 1, 2. Se acostumbra hacer referencia a cq como el componente del error aleatorio del
modelo. Puesto que las medias fl1 y fl2 son constantes, se observa directamente a partir del modelo que las
Yijson NID(,u, a), i = 1,2, como se acaba de suponer arriba. Para ms informacin acerca de los modelos
de los datos, referirse al material suplementario del texto.
Hiptesis estadsticas
.
Una hiptesis estadstica es un enunciado o afirmacin ya sea acerca de los parmetros de una distribucin de probabilidad o de los parmetros de un modelo. La hiptesis refleja alguna conjetura acerca de la
situacin del problema. Por ejemplo, en el experimento del cemento portland, puede pensarse que las
fuerzas de la tensin de adhesin promedio de las dos formulaciones del mortero son iguales. Esto puede
enunciarse formalmente como
H a :fl1

= fl2

H 1 : fl1

:;z!: fl2

donde fl1 es la fuerza de la tensin de adhesin promedio del mortero modificado y fl2 es la fuerza de tensin de enlace promedio del mortero sin modificar. Al enunciado H a:fl1 = fl2 se le llama la hiptesis nula y
aH1:fl1 :;z!: fl2 se le llama la hiptesis alternativa. A la hiptesis alternativa que se especifica aqu se le llama
hiptesis alternativa de dos colas porque sera verdadera si fl1 < fl2 o si fl1 > fl2'
Para probar una hiptesis se proyecta un procedimiento para tomar una muestra aleatoria, calcular
un estadstico de prueba apropiado para despus rechazar o no estar en posicin de rechazar la hiptesis
nula Ha. Parte de este procedimiento consiste en especificar el conjunto de valores del estadstico de
prueba que llevan al rechazo de Ha. A este conjunto de valores se le llama la regin c~tica o regin de re~
chazo de la prueba.
Pueden cometerse dos tipos de errores cuando se prueban hiptesis. Si la hiptesis nula se rechaza
cuando es verdadera, ha ocurrido un error tipo I. Si la hiptesis nula no se rechaza cuando es falsa, se ha
cometido un error tipo II. Las probabilidades de estos dos errores se expresan con smbolos especiales:

= P( error tipo l) = P(rechazar Ha IHa es verdadera)


f3 = P( error tipo II) = P( dejar de rechazar Ha IHa es falsa)

En ocasi5>nes es ms conveniente trabajar con la potencia de la prueba, donde


Potencia = 1- f3 = P(rechazar Ha IHa es falsa)
El procedimiento general en la prueba de hiptesis es especificar un valor de la probabilidad a del error
tipo l, llamada con frecuencia el nivel de significacin de la prueba, y despus disear el procedimiento
de prueba de tal modo que la probabilidadf3 del error tipo II tenga un valor convenientemente pequeo.

2-4 INFERENCIAS ACERCA DE LAS DIFERENCIAS EN LAS MEDIAS, DISEOS ALEATORIZADOS

35

La prueba t de dos muestras

Considere que puede suponerse que las varianzas de las fuerzas de la tensin de adhesin fueron idnticas para ambas formulaciones del mortero. Entonces el estadstico de prueba que deber usarse para
comparar las medias de dos tratamientos en el diseo completamente aleatorizado es
- -v
t = Y1 - Z
(2-24)
o

JFfl
-+-

S
p

lZl

lZz

dondeYl YYz son las medias muestrales, lZlY lZz son los tamaos de las muestras, S~ es una estimacin de la
varianza comn ai =
= aZ calculada a partir de

a;

SZ

= (lZ l- 1)SI

nI

+(lZz -1)Si
+n z - 2

(2-25)

s si

y
y
son las dos varianzas muestra1es individuales. Para determinar si deber rechazarse H o:ll = #z,
se comparara to con la distribucin t con lZl + lZz - 2 grados de libertad. Si It oI > t alZ,lI1 +1I2- Z ' donde
t alZ,lI1 +112 -z es el punto porcentual a/2 superior de la distribucin t con nI + n z - 2 grados de libertad, entonces se rechazada H o Y se concluira que las fuerzas promedio de las dos formulaciones del mortero de
cemento portland difieren. A este procedimiento de prueba se le llama generalmente la prueba t de dos
muestras.
Este procedimiento puede justificarse de la siguiente manera. Si el muestreo se est haciendo de distribuciones normales independientes, entonces la distribucin de Yl - Yz es N[ul - #z, er(l/n 1 + l/n z)]. Por
lo tanto, si se conociera er, y si H O:#1 = lz fuera verdadera, la distribucin de
(2-26)

seraN(O, 1). Sin embargo, al sustituir a con Sp en la ecuacin 2-26, la distribucin de Zo cambia de la normal estndar a la distribucin t con nI + lZz - 2 grados de libertad. Ahora bien, si H o es verdadera, t o de la
ecuacin 2-24 se distribuye como t +1I2- Z y, por consiguiente, se esperara que 100(I-a) por ciento de los
valores de to estn entre -t alZ,II +112 -Z Yt alZ,II +112 -Z' Una muestra que produjera un valor de to que estuviera
fuera de estos lmites sera inusual si la hiptesis nula fuera verdadera y es evidencia de que H o deber rechazarse. Por lo tanto, la distribucin t con nI + n z - 2 grados de libertad es la distribucin de referencia
apropiada para el estadstico de prueba too Es decir, describe el comportamiento de t ocuando la hiptesis
nula es verdadera. Observe que a es la probabilidad del error tipo 1 de la prueba.
En algunos problemas quiz quiera rechazarse H o nicamente si una de las medias es mayor que la
otra. Por lo tanto, se especificara una hiptesis alternativa de una cola H 1 :#1 > #z YH o slo se rechazara
si t o > t a,lI +112 -z Si se desea rechazar H o slo si #1 es menor que #2' entonces la hiptesis alternativa es
H 1:#1 < lz, Y H o se rechazara si t o < -t a ,II+1I2- Z '
Para ilustrar el procedimiento, considere los datos del cemento portland de la tabla 2-1. Para estos
datos, se encuentra que
ll

Mortero modificado
5'1 = 16.76 kgf / cmz

Mortero sin modificar


5'z = 17.92 kgf / cmZ

S12 = Q.100

si = 0.061

SI = 0.316
11 = 10

12 z

Sz = 0.247
=10

36

CAPTULO 2 EXPERIMENTOS COMPARATNOS SIMPLES

Puesto que las desviaciones estndar muestrales son razonablemente similares, no es improcedente concluir que las desviaciones estndar (o las varianzas) poblacionales son iguales. Por lo tanto, puede usarse
la ecuacin 2-24 para probar las hiptesis
H o :fl1

= fl2

H 1 : fl1

:;z!: fl2

Adems, 11 1 + 11 2 - 2 = 10 + 10 - 2 = 18, Ysi se elige a = 0.05, entonces H o:fl1 = fl2 se rechazara si el valor
numrico del estadstico de prueba to > tO.025 , 18 = 2.101, o si to < -tO.025 , 18 = -2.101. Estos lmites de la regin crtica se ilustran en la distribucin de referencia (t con 18 grados de libertad) de la figur:a 2-10.
Al utilizar la ecuacin 2-25 se encuentra que
S2
p

= (111 -l)S{ +(11 2 -l)S;


111 +11 2 -2
= 9(0.100)+9(0.061)
10+10- 2
= 0.081

Sp = 0.284

y el estadstico de prueba es

R1

= Y1 - Y2

t
o

Sp

-+111

11 2

16.76-17.92
- O. 284J fa- + fa=-9.13

Puesto que t o = -9.13 < -tO.025 , 18 = -2.101, se rechazaraHoy se concluira que las fuerzas de la tensin de
adhesin promedio de las dos formulaciones del mortero de cemento portland son diferentes.

"'C

:2

0.3

:B
1l
~

~ 0.2
"'C
"'C

ro

"'C

'i

ij 0.1
o

-6

-4

to

Figura 2-10 La distribucin t con 18 grados de libertad con la regin crtica


tO025 18 = 2.1Dl.

Você também pode gostar