Escolar Documentos
Profissional Documentos
Cultura Documentos
Muestreo
El muestreo es una herramienta para inferir algo respecto de una población mediante la selección
de una muestra de esa población. En muchos casos, el muestreo es la única manera de
determinar algo respecto de la población. Algunas razones por las que el muestreo es necesario
son:
1. El costo de estudiar a todos los integrantes de una población con frecuencia es prohibitivo.
2. Con frecuencia, ponerse en contacto con toda la población supondría mucho tiempo.
3. La imposibilidad física de verificar todos los artículos de la población.
DEFINICIONES
Parámetro y estadístico
Estos términos se utilizan para distinguir entre los casos en que contamos con los datos de una
población completa y los casos en los que solo contamos con los datos de la muestra.
1
POBLACIÓN VERSUS MUESTRA
DEFINICIONES
Estadístico es una medición numérica que describe algunas características de una muestra.
2
A las características numéricas de una población, como la media y la desviación estándar, se les
llama parámetros. El principal propósito de la inferencia estadística es hacer estimaciones y
pruebas de hipótesis acerca de los parámetros poblacionales usando la información que
proporciona una muestra. Para empezar, se presentan dos situaciones en las que a partir de
muestras se obtienen estimaciones de parámetros poblacionales. Para empezar, se presentan dos
situaciones en las que a partir de muestras se obtienen estimaciones de parámetros poblacionales.
1. Un fabricante de neumáticos elabora un nuevo modelo que tendrá mayor duración que los
actuales neumáticos de la empresa. Para estimar la duración media, en kilómetros, el
fabricante selecciona una muestra de 120 neumáticos nuevos para probarlos. De los
resultados de esta prueba se obtiene una duración media de 36,500 kilómetros. Por tanto, una
estimación de la duración media, en kilómetros, de la población de nuevos neumáticos es
36,500 kilómetros.
Una media muestral suministra una estimación de la media poblacional. Con dicha
estimación puede esperarse un cierto error de estimación.
Estos dos ejemplos ilustran algunas de las razones por las que se usan muestras. Observe que en
el ejemplo de los neumáticos, obtener datos sobre su tiempo de duración implica usarlos hasta
que se acaben. Es claro que no es posible probar toda la población de neumáticos; una muestra es
la única manera factible de obtener los datos de duración deseados. En el ejemplo del candidato,
preguntar a cada uno de los votantes registrados es, en teoría, posible, pero el tiempo y el costo
para hacerlo son prohibitivos; de manera que se prefiere una muestra de los votantes registrados.
Es importante darse cuenta de que los resultados muestrales sólo proporcionan una estimación de
los valores de las características de la población. No se espera que la media muestral de 36,500
kilómetros sea exactamente igual al kilometraje medio de todos los neumáticos de la población,
tampoco que 0.40, o 40% de la población de los votantes registrados esté a favor del candidato.
La razón es simple, la muestra sólo contiene una parte de la población. Con métodos de
muestreo adecuados, los resultados muestrales proporcionarán estimaciones “buenas” de los
parámetros poblacionales. Pero ¿cuán buenos puede esperarse que sean los resultados
muestrales? Por fortuna, existen procedimientos estadísticos para responder esta pregunta.
3
1.1. MÉTODOS DE MUESTREO PROBABILÍSTICO
En general, existen dos tipos de muestras: Las probabilísticas y las no probabilísticas. ¿Qué es
una muestra probabilística?
DEFINICIÓN
Muestra probabilística. Muestra seleccionada de tal forma que cada miembro, artículo o
persona dentro de la población tiene la misma probabilidad (distinta de cero) de ser incluida
en la muestra.
Si se hace el muestreo probabilístico, cada uno de los artículos de la población tiene la misma
oportunidad de ser elegido. Si se utilizan métodos no probabilísticos, no todos los artículos o
personas en la población tienen la misma posibilidad de ser incluidos. En tal caso, quizás los
resultados estén sesgados, lo que significa que es posible que los resultados de la muestra no sean
representativos de la población.
Muestreo aleatorio
Una muestra aleatoria es elegida de una población mediante un proceso con el cual se asegura
que 1) cada posible muestra de un tamaño dado tenga la misma probabilidad de ser elegida y
2) todos los miembros de la población tengan la misma probabilidad de ser seleccionados en la
muestra.
DEFINICIÓN
4
Para ilustrar esto, consideremos una situación en la que tenemos una población con los datos 2, 3,
4, 5 y 6, y queremos extraer de manera aleatoria una muestra de tamaño 2 a partir de dicha
población. Observe que, por lo general, una población tendría más datos. Lo hemos restringido a
cinco elementos para facilitar la comprensión de lo que queremos poner de manifiesto. A
continuación se presentan todas las muestras de tamaño 2 que se pueden obtener de la población
aplicando este método de muestreo con reemplazo:
2, 2 3, 2 4, 2 5, 2 6, 2
2, 3 3, 3 4, 3 5, 3 6, 3
2, 4 3, 4 4, 4 5, 4 6, 4
2, 5 3, 5 4, 5 5, 5 6, 5
2, 6 3, 6 4, 6 5, 6 6, 6
Son 25 muestras de tamaño 2 las que podemos obtener al realizar el muestreo de un elemento a la
vez con reemplazo. Para realizar un muestreo aleatorio, el proceso debe ser tal que: 1) las 25
muestras posibles y 2) todos los datos de la población (2, 3, 4, 5 y 6) tengan la misma
probabilidad de ser seleccionados en la muestra.
DEFINICIÓN
Una muestra aleatoria simple de n sujetos se selecciona de manera que cada posible
muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.
Con los 2,500 empleados de la empresa como la población para este estudio, es posible hallar el
sueldo anual y la situación respecto al programa de capacitación de cada persona al consultar los
archivos del personal.
5
La media poblacional y la desviación estándar poblacional de los salarios anuales, es:
Los datos sobre la situación del programa de capacitación muestran que 1,500 de los 2,500
empleados han terminado el programa de capacitación. Si p denota la proporción de la
población que ha terminado el programa de capacitación, se tiene que p = 1500/2500 = 0.60.
La media poblacional de los sueldos anuales ( μ = 51,800 UM), la desviación estándar
poblacional de los sueldos anuales ( σ = 4,000 UM) y la proporción poblacional de quienes
han terminado el programa: capacitación ( p = 0.60) son parámetros de la población de
administradores de EAI.
Ahora suponga que la información necesaria sobre todos los administradores de EAI no está
disponible en la base de datos de la empresa. La pregunta que se considera ahora es: ¿cómo
puede obtener el director de personal de la empresa, estimaciones de los parámetros
poblacionales usando una muestra de los empleados, en lugar de usar a los 2,500 empleados de la
población. Asuma que se va a emplear una muestra de 30 empleados. Es obvio que el tiempo y el
costo de la elaboración de un perfil será mucho menor usando 30 empleados que la población
entera. Si el director de personal tuviera la certeza de que una muestra de 30 empleados
proporciona la información adecuada acerca de la población de los 2,500 empleados, preferiría
trabajar con una muestra que hacerlo con toda la población. Para explorar la posibilidad de usar
una muestra para el estudio de EAI, primero se considerará cómo determinar una muestra de 30
administradores.
Para seleccionar una muestra de una población hay diversos métodos; uno de los más comunes es
el muestreo aleatorio simple. La definición de muestreo aleatorio simple y del proceso de
seleccionar una muestra aleatoria simple dependen de si la población es finita o infinita. Como
problema de muestreo de EAI tiene una población finita de 2,500 empleados, primero considera
el muestreo de una población finita.
Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una
muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma
probabilidad de ser seleccionada.
Un procedimiento para seleccionar una muestra aleatoria simple de una población finita es elegir
los elementos para la muestra de uno en uno, de manera que, en cada paso, cada uno de los
elementos que quedan en la población tenga la misma probabilidad de ser seleccionado. Al
seleccionar n elementos de esta manera, será satisfecha la definición de muestra aleatoria
simple seleccionada de una población finita.
6
Para seleccionar una muestra aleatoria simple de la población finita de empleados de EAI,
primero se le asigna a cada empleado un número. Por ejemplo, se les asignan los números del 1 al
2,500 en el orden en que aparecen sus nombres en el archivo de personal de EAI.
Los números aleatorios generados por computadora también sirven para realizar el proceso de
selección de una muestra aleatoria. Excel proporciona una función para generar números
aleatorios en sus hojas de cálculo. Completamos una tabla de 30 números aleatorios entre 1 y
2,500 que representan a los empleados de EAI.
7
MUESTREO ALEATORIO SIMPLE (POBLACIÓN INFINITA)
En algunas situaciones la población o bien es infinita o tan grande que, para fines prácticos, se
considera infinita. Por ejemplo, suponga que un restaurante de comida rápida desea obtener el
perfil de su clientela seleccionando una muestra aleatoria de los mismos y pidiéndole a cada
cliente que llene un breve cuestionario. En tales situaciones, el proceso continuo de clientes que
visitan el restaurante puede verse como que los clientes provienen de una población infinita. La
definición de muestra aleatoria simple tomada de una población infinita es la siguiente:
Una muestra aleatoria simple de una población infinita es una muestra seleccionada de
manera que se satisfagan las condiciones siguientes.
1. Cada uno de los elementos seleccionados proviene de la población.
2. Cada elemento se selecciona independientemente.
En poblaciones infinitas un procedimiento para la selección de una muestra debe ser concebido
especialmente para cada situación, de manera que permita seleccionar los elementos de manera
independiente y evitar así un sesgo en la selección que dé mayores probabilidades de selección a
ciertos tipos de elementos. En el ejemplo de la selección de una muestra aleatoria simple entre los
clientes de un restaurante de comida rápida, el primer requerimiento es satisfecho por cualquier
cliente que entra en el restaurante. El segundo requerimiento es satisfecho seleccionando a los
clientes de manera independiente. El objetivo del segundo requerimiento es evitar sesgos de
selección. Habría un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se
seleccionaran fueran amigos. Es de esperar que estos clientes tengan perfiles semejantes. Dichos
sesgos se evitan haciendo que la selección de un cliente no influya en la selección cualquier otro
cliente. En otras palabras, los clientes deben ser seleccionados de manera independiente.
Las poblaciones infinitas suelen asociarse con un proceso que opera continuamente a lo largo del
tiempo. Por ejemplo, partes fabricadas en una línea de producción, transacciones en un banco,
llamadas que llegan a un centro de asesoría técnica y clientes que entran en las tiendas son
considerados como provenientes de una población infinita. En tales casos un procedimiento de
muestreo creativo garantiza que no haya sesgos de selección y que los elementos de la muestra
sean seleccionados en forma independiente.
8
1.1.2. Muestreo sistemático
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mucho
tiempo para tomar una muestra aleatoria simple (hallando primero los números aleatorios y
después contando y recorriendo toda una lista de la población hasta encontrar los elementos
correspondientes). Una alternativa al muestreo aleatorio simple es el muestreo sistemático. Por
ejemplo, si se quiere una muestra de tamaño 50 de una población que tiene 5,000 elementos, se
muestrea uno de cada 5,000/50 = 100 elementos de la población. En este caso, un muestreo
sistemático consiste en seleccionar en forma aleatoria uno de los primeros elementos de la lista de
la población. Los otros elementos se identifican contando a partir del primer elemento 100
elementos para tomar el elemento que tenga la posición 100 en la lista de la población, a partir de
este elemento se cuentan otros 100 y así se continúa. Por lo general, de esta manera es más fácil
de identificar la muestra de 50 que si se usara el muestreo aleatorio simple. Como el primer
elemento que se selecciona es elegido en forma aleatoria, se supone que una muestra sistemática
tiene las propiedades de una muestra aleatoria simple. Esta suposición es aplicable, en especial,
cuando lista de los elementos de la población es un orden aleatorio de los elementos.
DEFINICIÓN
Considérese una población de tamaño N=nk de la que se va a extraer una muestra constituida
por n elementos como sigue: el primero se elige aleatoriamente, supóngase que éste es el
b−ésimo , como segundo elemento se toma el ( b+ k )−ésimo ; el tercero el
( b+2 k ) −ésimo y se continúa hasta tener, en forma de registro, a las n observaciones (por
ejemplo, si k =7 y b=2 , entonces el primer elemento muestreado es el segundo y los
siguientes serán los numerados con 9, 16, 23, 30 y así sucesivamente).
Este procedimiento se conoce como “muestreo sistemático de cada k −ésimo ” y conduce a las
k “muestras sistemáticas” posibles que se consignan en la Tabla 7-1.
9
TABLA 7-1 Muestras sistemáticas
Muestra 1 ⋯ i ⋯ k
x1 ⋯ xi ⋯ xk
De esta manera lo establecido en el Teorema 1-1 para muestreo sistemático también es válido
para cualquier tipo de muestreo de conglomerados en el que éstos sean de tamaño n y la
muestra esté constituida por todos los elementos de cada uno de esos conglomerados
seleccionados aleatoriamente.
TEOREMA 1-1:
Si mediante un muestreo sistemático como el antes descrito se extrae una muestra de tamaño
n entonces la media muestral x́ s es una variable aleatoria cuya media y variancia están
dadas respectivamente por:
n k n
1 1
μx́ =
s
∑ ∑
N i=1 j=1
x ij = ∑ x́ i=μ (1)
k j=1
N −1 2 k ( n−1 ) 2
σ 2x́ = σ− S3 (2)
s
N N
en donde
n k
1
σ = ∑ ∑ ( x ij −μ )2 (3)
2
N i=1 j =1
k n
1
S 23= ∑ ∑ ( x −x )2=variancia entre muestras sistemáticas (4 )
k (n−1) i=1 j=1 ij i
1.1.3. Muestreo aleatorio estratificado
10
En el muestreo aleatorio estratificado los elementos de la población primero se dividen en grupos,
a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato.
La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria,
etc., está a discreción de la persona que diseña la muestra. Sin embargo, se obtienen mejores
resultados cuando los elementos que forman un estrato son lo más parecido posible. La Figura
7.1 es un diagrama de una población dividida en H estratos.
Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato. Existen
fórmulas para combinar los resultados de las muestras de los varios estratos en una estimación
DEFINICIÓN
11
“estratificación” es que ella capitaliza el mayor grado de homogeneidad de las subpoblaciones de
manera tal que se requieren muestras de menor tamaño para analizar en cada una de ellas, a la
característica bajo estudio y, además, se pueden combinar fácilmente para lograr proyectar dicho
estudio a toda la población.
Población
Estrato 1 2 ... h
Tamaño del estrato N1 N2 ... Nh
Media μ1 μ2 ... μh
2 2 2
Variancia σ1 σ2 ... σh
12
El muestro aleatorio estratificado consiste en extraer de los estratos 1,2, … , h , muestras
aleatorias simples independientes cuyos tamaños respectivos, previamente determinados, son
n1 , n2 , … , nh . De esta manera si se presenta con x ij a la j−ésima observación de la
muestra extraída del estrato i, entonces la media y la variancia muestrales correspondientes a
dicho estrato estarán dadas por:
ni ni
1 2 1 2
x́ i= ∑
ni j=1
x ij ; s i = ∑ ( x ij −x́ i ) (2)
ni j=1
Y al considerar a todos los estratos surge la Tabla 1-2 asociada a las características muestrales.
Estrato 1 2 ... h
Tamaño de la n1 n2 nh
...
muestra
Media x́ 1 x́ 2 ... x́ h
Variancia s 21 s 22 s 2h
Muestra
Tamaño de la muestra
h
n=∑ ni=n 1+ n2+ …+nh
i=1
nh
w h=
n
13
TEOREMA 1-1:
En el caso de muestreo aleatorio estratificado como el descrito en las Tablas (1-1) y (1-2),
entonces:
h
1
x́ Est = ∑ N i x́ i ( 3 )
N i=1
es el valor de una variable aleatoria cuya distribución tiene media μx́ Est
y variancia σ 2x́ Est
( )
h
1 2 σ i N i−n i
σ 2x́ = ∑ i n N −1 ( 5 )
N
N 2 i=1
Est
i i
Tomando en cuenta (3) y (6) y el teorema relativo a la media de una suma de variables aleatorias
independientes, puede escribirse:
h h
1
μx́ =
Est
∑ N ; μ = 1 ∑ N μ =μ
N i=1 i x́ N i=1 i i i
Por otra parte, la variancia de x́ Est es la suma de las variancias de sus componentes que
aparecen en el segundo miembro de (3), ya que las muestras extraídas de los estratos son
independientes; pero:
2 2 2
Ni Ni N i σ i N i−ni
Var ( )
N
x́ i = 2 Var ( x́ i )= 2
N N ni N i −1
2
Y consecuentemente σ x́ Est
está dada por (5).
Finalmente, con base en el teorema de Lindeberg–Levy, puede decirse que si la muestra total es
grande entonces x́ Est es una variable aleatoria cuya distribución se aproxima a una normal
cuya media y variancia están dadas por (4) y (5), respectivamente.
Un primer criterio surge al observar que x́ Est en general no coincide con la media muestral
ponderada:
h
n n n
x́= 1 x́ 1+ 2 x́ 2 +…+ h x́ h , con n=∑ ni (7)
n n n i=1
a menos que los tamaños de muestra para cada estrato cumplan con:
n1 N 1 n2 N 2 n N
= , = ,…, h= h
n N n N n N
En cuyo caso se habla de una “asignación proporcional”, ya que el tamaño n de la muestra total
se ha asignado a los estratos en forma proporcional a su tamaño. Obsérvese que este
procedimiento puede justificarse intuitivamente ya que si un estrato abarca a una gran parte de la
población total, sería razonable que contribuyera mayormente en la conformación de la muestra
total con objeto de que ésta sea representativa de la población.
N i σi
ni=n
( ) h
∑ Njσ j
j=1
(8)
En cuyo caso se habla de una “asignación óptima”. Obsérvese que el tamaño de muestra en cada
estrato es proporcional al producto de su tamaño por su desviación estándar. Cuando todas las
desviaciones estándar σ i son iguales entonces la asignación óptima conduce a los mismos
resultados que la asignación proporcional.
Vamos a suponer ahora que los costos de muestreo varían de estrato a estrato y que se desea
considerar dicha variación al determinar la asignación óptima de los tamaños de la muestra. Sea
c i el costo por unidad muestreada en el estado i; c es el presupuesto total disponible y c o
los costos fijos que no dependen del tamaño de la muestra. La “asignación de Neyman” consiste
en minimizar la variancia de x́ Est para un presupuesto total disponible igual a c; esto conduce
a:
N i σ i / √ ci
ni=n h
(9)
∑ N jσ j/√c j
j=1
15
En donde el tamaño n de la muestra total está dado por:
h
∑ N j σ j/√c j
j=1
n= ( c−c o ) h
(10)
∑ N j σ j√c j
j=1
Ejemplo 1. Cada celda de la tabla siguiente representa a un árbol frutal de un huerto y el número
que contiene a su producción correspondiente en kilogramos. Los tres últimos renglones
corresponden a los árboles más jóvenes. Considere dos estratos, el primero formado por los
primeros cinco renglones y el segundo por los renglones restantes.
2 3 2 4
20 24 28 24
8 2 4 0
2 1 2 2
16 24 12 32 Estrato 1
0 6 1 4
1 2 4 1
Población 32 32 24 24
6 8 0 6
2 1 1 2
24 32 36 32
4 6 6 8
2 1 3 3
36 28 44 36
4 2 6 2
2 1 1
16 20 8 16 12
0 2 2 Estrato 2
2 1 1 1
12 20 12 16
0 2 6 6
1 2 1 1
16 12 12 20
6 0 2 6
Solución:
16
Números aleatorios generados:
De la Tabla 1-3 y de los números aleatorios generados con Excel se obtiene la siguiente tabla, en
donde además se consignan las x́ i .
i=2
1 1 1,236
x́ Est = ∑ N i x́ i= [ ( 40 ) ( 21.3 ) +(24 )(16) ]= =19.3
N i=1 64 64
Media de la población:
17
1 1,417
x i=¿ ( 28+32+20+ …+16+12+20 )= =22.14
64 64
N
1
μ= ∑ ¿
N i=1
Varianza de la población:
1 4,667.7344
( x i−x́ ) =¿ 64 [ ( 28−22.14 ) + …+ ( 20−22.14 ) ]=
2 2 2
=72.93
64
N
2 1
σ = ∑¿
N i=1
y al considerar los 40 registros del primer estrato y los 24 del segundo resulta:
ESTRATO 1:
Media:
40
1 1 1,053
x i1 = ∑
40 i=1
x i 1=¿ ( 28+ 32+20+ …+32+44 +36 ) =
40 40
=26.3
N1
1
μ1= ∑ ¿
N 1 i=1
Varianza:
N
1 1 2512.8
1
ESTRATO 2:
Media:
24
1 1 364
x i2 = ∑ x i 2=¿ ( 20+12+16 +…+16+12+20 )= =15.2
24 i=1 24 24
N2
1
μ 2= ∑¿
N 2 i=1
Varianza:
N
1 1 287.3
2
Y lo anterior conduce a:
( )
h
2
σ =
x́
n N −1 (=¿ ) σ 2x́ =
Est
1
N 2 i=1
N 2 σ i N i−n i
∑ i n N −1
i i
18
[( )]
2 2
2 1
x́ Est
N
2 σ 1 N 1−n 1
σ = 2 N1
n1 N 1−1
2 σ 2 N 2−n2
+N 2
n2 N 2−1 ) (
=¿
72.93 64−8
¿
1
64 2
402
[ (
62.82 40−6
6 40−1
+24 2
11.97 24−2
2 24−1) ( )]
¿ ( 8 )(
63
=8.10 ) 1
¿ [ 14,604.3+3,297.5 ] =4.37
μx́ =x́=22.14 64 2
1
N i μ i=¿
64
[ ( 40 ) (26.3 )+(24)(15.2)]=22.14
i=2
1
μ x́ = ∑ ¿
Est
N i=1
Estratos 1 2 … h Población
Tamaño N1 N2 … Nh h
Población N=∑ N i
i=1
Proporción p1 p2 … ph
h
N i pi
n1 n2 nh p=∑
Tamaño … i=1 N
h
Muestra No. de éxitos x1 x2 … xh
n=∑ ni
i=1
x1 x2 xh
Proporción ^p1= ^p2= … ^ph=
n1 n2 nh
TEOREMA 1-2:
19
2
Es el valor de una variable aleatoria cuya distribución tiene media μ ^p Est
y variancia σ ^p Est
Además si la muestra total es grande, entonces ^pEst es una variable aleatoria cuya
distribución se aproxima a una normal cuyas media y variancia están dadas por las ecuaciones
(12) y (13), respectivamente.
Por lo que se refiere a la asignación de los tamaños de la muestra, cuando ella es proporcional
debe cumplirse que ni=n( N i / N ) . Para el caso en que se minimiza la variancia de ^pEst ,
esto es, si la asignación es óptima resulta:
N √ p (1− p i)
ni=n h i i ( 14)
∑ N j √ p j (1− p j )
j=1
Ejemplo 1. En una pequeña ciudad se han identificado cuatro lugares (estratos) razonablemente
homogéneos en cuanto a su consumo de gasolina. Al levantar un censo entre los poseedores de
autos se obtuvieron los datos que se muestran en la siguiente tabla, que se refieren al consumo
semanario de gasolina por automóvil en litros. Si se realizan 80 muestreos estratificados para los
cuales n1=50, n2=45, n3=n 4=30. ¿Cuántos muestreos tendrán su media x́ Est comprendida
entre 53 y 54 litros?
Estrato 1 2 3 4
Tamaño 3,750 3,275 1,350 2,475
Media 47.2 54.4 69.8 51.8
Variancia 10.5 10.9 18 12
Se sabe que x́ Est es una variable aleatoria cuya media y variancia están dada por las
ecuaciones (4) y (5):
2
( )
h
1 2 σ i N i −ni
N i μ i=μ=¿ ; σ = 2 ∑ N i
2
x́ Est =¿
N i=1 ni N i−1
h
1
μx́ = ∑ ¿
N i=1Est
20
2
Estrato Ni μi Ni μi ni σi
2
Cálculo de la σ x́ Est
:
Estrato 1:
σ 21 N 1−n1
N 21 ( n 1 N 1 −1 )
=(3,750)2
10.5 3,750−50
50 3,750−1 (
=2,914,527 )
Estrato 2:
2
σ 22 N 2−n2
N 2
2 (
n 2 N 2 −1
=(3,275) )
10.9 3,275−45
45 3,275−1
=2,563,070 ( )
Estrato 3:
2 2
N 23 ( σ 3 N 3−n 3
n 3 N 3−1 )
=(1,350)
18 1,350−30
30 1,350−1 (
=1,069,992 )
Estrato 4:
2
σ 24 N 4 −n4
N 2
4 (
n4 N 4 −1
=(2,475) )
12 2,475−30
30 2,475−1
=2,421,528 ( )
y consecuentemente
h
1 577,595
μx́ = ∑ N i μi = =53.2=μ
N i=1
Est
10,850
( )
h
1 σ N −n 8,969,117
σ = 2 ∑ N 2i i i i =
2
x́ Est =0.08
N i=1 n i N i−1 10,8502
σ x́ =√ 0.08=0.28
Est
21
Pero, de acuerdo al Teorema 1-2, para muestras grandes la variable aleatoria x́ Est está
normalmente distribuida y consecuentemente:
0.2 0.8
P ( 53< x́ Est <54 )=P ( 0.28 <z<
0.28 )
=0.2368
En donde se consultó la tabla de distribución normal. Luego si se realizan 80 muestreos idénticos
al descrito es de esperarse que en aproximadamente 80(0.2386) = 19 de ellos la media x́ Est
esté comprendida entre 53 y 54 litros.
a) Asignación proporcional:
N1
n1=n ( ) (
N
=200
3,750
10,850
=69)
N2
n2=n ( ) (
N
=200
3,275
10,850
=60)
n3=n ( NN )=200 ( 10,850
3 1,350
)=25
n4 =n ( NN )=200( 10,850
4 2,475
)=46
b) Asignación óptima:
22
N 1 σ1
N 1=3,750 σ 1= √ 10.5=3.2403
1
N 1 σ 1=¿ 12,15
n1=n ( Σ Ni σi )
=200
12,151
( )
37,265
=65
N 2 σ2
N 2=3,275 σ 2 =√ 10.9=3.3015
2
N 2 σ 2=¿ 10,81
n2=n ( Σ Ni σi )
=200 (
10,812
37,265 )
=58
N3 σ3
N 3=1,350 σ 3 =√ 18=4.24264 N 3 σ 3=¿ 5,728 n3=n ( Σ Ni σi )
=200 (
5,728
37,265 )
=31
N4 σ 4
N 4 =2,475 σ 4=√ 12=3.4641
4
N 4 σ 4=¿ 8,57
n4 =n ( Σ N iσ i )
=200 (
8,576
37,265 )
=46
Total = 37,265
Una de las principales aplicaciones del muestro por conglomerados es el muestreo de áreas, en el
que los conglomerados son las manzanas de una ciudad u otras áreas bien definidas. El muestreo
por conglomerados requiere, por lo general, tamaños de muestra mayores que los requeridos en el
muestreo aleatorio simple o en el muestreo aleatorio estratificado. Sin embargo, es posible
reducir costos debido a que cuando se envía a un entrevistador a uno de los conglomerados de la
muestra (por ejemplo, a una manzana de una ciudad), es posible obtener muchas observaciones
en poco tiempo. Por tanto, se obtiene una muestra de tamaño grande a un costo significantemente
menor.
23
DEFINICIÓN
En el inciso 1.1.3 se ha considerado que la población se divide en estratos. Aunque esta es una
estructura aparentemente simple, ella cubre un amplio rango de casos prácticos. Es importante
observar que la complejidad del sistema de clasificación que permite dividir a la población en
estratos no corresponde a la dificultad del muestreo; una vez identificados los estratos puede
aplicarse la teoría del muestreo estratificado simple, aunque se hayan usado varios factores (por
ejemplo: localización geográfica, densidad de población, ingreso per cápita, etc.) para llegar a la
estratificación.
En estos casos conviene realizar el muestreo en dos etapas. Primero se elige, de ser posible al
azar, un cierto número de conglomerados; luego se extraen muestras aleatorias de cada una de
ellas. Desde luego podrían usarse tres o más etapas si se tienen conglomerados (por ejemplo, una
ciudad agrupada en colonias, éstas en manzanas, las manzanas en unidades habitacionales, ,
individuales o colectivas y así sucesivamente). A este tipo de muestreo se le llama “muestreo
multietápico” o simplemente “etápico”. Un caso particular se tiene cuando se estudian a todos
los elementos que pertenecen a cada conglomerado elegido. En este caso, de hecho, sólo se tiene
una etapa de muestreo y recibe el nombre de “muestreo de conglomerados” o
“concentraciones”.
24
Por ejemplo, supóngase que se va a seleccionar una muestra de la población constituida por todos
los estudiantes de segundo año de secundaria en un Estado de la República. Se puede pensar que
cada escuela secundaria del Estado es un conglomerado de las unidades por muestrear, que son
los estudiantes del grado mencionado. Puede elegirse primero una muestra aleatoria constituida
por algunas escuelas del Estado y después encuestar a todos los estudiantes de segundo año en
esas escuelas (muestreo de conglomerados) o solo a los que integren a su vez una muestra
aleatoria de ellos en cada escuela seleccionada (muestreo en dos etapas).
El colectar una muestra aleatoria simple de tamaño comparable puede ser prohibitivo ya que
primeramente debería tenerse un marco de referencia, tal como una lista completa de los
estudiantes de segundo año de secundaria en el Estado y, en segundo lugar, es muy probable que
los que resultaran seleccionados para constituir la muestra estuviesen muy dispersos en la entidad
lo que incrementaría grandemente los costos. El muestreo de conglomerados (o el de dos etapas)
elimina la necesidad de construir un marco de referencia para la población muestreada y, como
cada conglomerado agrupa a varios de sus elementos, se disminuyen sensiblemente los costos
asociados al estudio.
en donde
K
1
μ ja = ∑ x (2)
K i=1 ji
Es la media de x en el agrupamiento j .
representar el valor que toma x para el i 1−ésimo elemento de la muestra extraída del
j 1−ésimo conglomerado. Luego la media de los nk=m valores muestrales de x está
dada por:
25
N k
1
x́ a= ∑ ∑ x j i (3)
m j =1 i =1
1 1
1 1
TEOREMA 1-3:
Si se realiza un muestreo de variables en dos etapas con conglomerados de igual tamaño tal como
el antes descrito, entonces x́ a dada en la ecuación (3) es una variable aleatoria con media y
variancia dadas, respectivamente por:
x́ a=μ x ( 4)
σ 2x́ =
a
1
m [( K −k 2 k (N−n) 2
K
S1 +) (
N
S2 (5) ) ]
en donde μx está dada en la ecuación (1) y:
N K
1
S=2
1 ∑ ∑
N (K−1) j=1 i =1
( xi −μ ja )2=variacia promedioen los agrupamientos(6)
2
( μ ja−μ x ) =¿ variancia entre agrupamientos(7)
N
1
N−1 ∑
2
S= 2 ¿
j=1
Para m=k fijo esto es para un total dado de observaciones elementales x j i , el mínimo de
1 1
σ 2x́ dado en la ecuación (5) se alcanza para n=m y k =1 , esto es, debería tomarse el
a
mayor número posible de agrupamientos y extraer de cada uno de ellos tan solo a uno de sus
elementos.
26
k=
√
S 1 c1
S2 c2
( 9)
√ 1−
S21
k S22
k=
√
S1 c 1
S2 c 2
(10)
Y tanto en la ecuación (9) como en la (10) k no depende del costo total y, en particular, en la
ecuación (10) sólo queda en función de las relaciones c 1 /c 2 y S 1 /S 2 .
Ejemplo 1. Considérese una población de 14 tiendas ubicadas en cinco manzanas de una ciudad.
Los datos relativos a la localización y a la nómina de empleados en cientos de pesos para cada
tienda se muestran en la siguiente tabla.
27
4 75
1 33
2 0
5 4
3 60
4 45
Total: 14 ─ 718
Los casos de nómina nula significan que la tienda correspondiente es atendida por sus propios
dueños.
Calcule la media y la varianza muestrales si (a) se selecciona aleatoriamente a tres tiendas, (b) se
elijen tres manzanas al azar y se selecciona aleatoriamente a la mitad de las tiendas ubicadas en
las manzanas elegidas, (c) se seleccionan al azar dos manzanas y se incluyen a todas las tiendas
ubicadas en ellas.
Solución:
TABLA 2 Población
x 11=75 x 41 =75
28
x 22=112 j=5,i=1,2,3,4
j=2,i=1,2
Para simular la muestra se utilizaron los números aleatorios generados por Excel:
De estas manzanas seleccionadas tenemos que elegir la mitad de las tiendas. Se generan los
números aleatorios y se encuentra:
29
Conglomerado Elemento
(manzana) (número de tienda)
1 1 75
(b) 3 1 60 (75+60+0+45)/4 = 45
5 2, 4 0, 45
Conglomerado
(c) 4, 1 75, 30, 0, 75, 75, 33 (75+30+0+75+75+33)/6=48
(manzana)
718
μ= =51.3
14
está más “cercana de la población” a las medias muestrales obtenidas para los casos (b) y (c) .
Ejemplo 2. Una componente electrónica se fabrica en lotes de 100 cada uno. Para controlar la
calidad de la producción, de cada lote se extraen aleatoriamente 10 unidades en cada una de las
cuales se mide cierta característica X. Este sistema de muestreo fue diseñado de manera óptima
con base en la ecuación (9). Se desea saber si este sistema puede modificarse ventajosamente
admitiendo que el costo total de muestreo (a) permanecerá inalterado, (b) se reducirá en un 50%.
Solución:
a) Dado que en la ecuación (9) k no depende del costo total c , se sigue que k =10
seguirá siendo óptimo independientemente del número K de lotes que se produzcan o, en
otras palabras, “independiente del porcentaje de lotes que se inspeccionen”. Luego si c
permanece constante, el sistema actual, esto es, el inspeccionar 10 componentes en cada lote,
seguirá siendo óptimo.
1
2
( K c 1+10 K c 2 )=k c1 +10 k c 2
30
n 1
=
N 2
Los métodos estadísticos se rigen por los datos recabados. Por lo regular, obtenemos datos de dos
fuentes distintas: los estudios observacionales y los experimentos.
DEFINICIONES
31
Estudios observacionales
Existen varios tipos observacionales donde los investigadores observan y miden características de
los sujetos. Las siguientes definiciones, que se resumen en la Figura 1-1, identifican la
terminología estándar que se utiliza en las revistas científicas para diferentes tipos de estudios
observacionales.
DEFINICIONES
32
Figura 1-1. Tipos de estudios observacionales
Errores de muestreo
Sin importar qué tan bien se planee y ejecute el proceso de recolección de muestras, es probable
que ocurra algún error en los resultados.
DEFINICIONES
Un error que no es de muestreo sucede cuando los datos muestrales se obtienen, registran
o analizan de forma incorrecta (como cuando se selecciona una muestra sesgada, cuando se
emplea un instrumento de medición defectuoso o cuando se registran los datos de forma
incorrecta).
Dichas muestras tienen la ventaja de que es relativamente fácil seleccionar la muestra y recoger
los datos; sin embargo, es imposible evaluar la “bondad” de la muestra en términos de su
representatividad de la población. Una muestra de conveniencia puede o no dar buenos
resultados. Algunas veces los investigadores aplican los métodos estadísticos propios de muestras
probabilísticas a las muestras de conveniencia, con el argumento de que la muestra de
conveniencia se trata como si fuera una muestra probabilística. Sin embargo, estos argumentos
no tienen fundamento y se debe tener cuidado al interpretar los resultados de muestreos de
conveniencia que han sido usados para hacer inferencias acerca de la población.
DEFINICIÓN
34
En el muestreo por conveniencia, simplemente se utilizan resultados que sean muy fáciles
de obtener.
Glosario
Error muestral. El error que se presenta debido a que se emplea una muestra y no toda la
población para estimar un parámetro poblacional.
Error no muestral. Todos los tipos de errores que no son un error muestral, como errores de
medición, errores del entrevistador y errores de procesamiento.
Insesgado. Propiedad de un estimador que consiste en que el valor esperado del estimador
puntual es igual al parámetro poblacional que estima.
Muestreo aleatorio simple. Poblaciones finitas: muestra seleccionada de manera que cada una
de las muestras de tamaño n tenga la misma probabilidad de ser seleccionada. Poblaciones
35
infinitas: muestra seleccionada de manera que todos los elementos provengan de la misma
población y los elementos se seleccionen de manera independiente.
Muestreo aleatorio simple estratificado. Método probabilístico para tomar una muestra en el
que, primero, se divide la población en estratos y después de cada estrato se toma una muestra
aleatoria simple.
Muestreo con remplazo. Una vez que un elemento se ha incluido en la muestra, se regresa a la
población. Un elemento ya seleccionado para la muestra puede ser seleccionado nuevamente y
puede aparecer más de una vez en la muestra.
Muestreo sin remplazo. Una vez que un elemento ha sido incluido en la muestra, se retira de la
población y ya no se selecciona una vez más.
Muestreo sistemático. Método para tomar una muestra en el que el primer elemento se toma
aleatoriamente y después se toma cada k −ésimo elemento.
36