Você está na página 1de 36

Tema 1

Muestreo

Selección de muestras de la población

El muestreo es una herramienta para inferir algo respecto de una población mediante la selección
de una muestra de esa población. En muchos casos, el muestreo es la única manera de
determinar algo respecto de la población. Algunas razones por las que el muestreo es necesario
son:

1. El costo de estudiar a todos los integrantes de una población con frecuencia es prohibitivo.
2. Con frecuencia, ponerse en contacto con toda la población supondría mucho tiempo.
3. La imposibilidad física de verificar todos los artículos de la población.

DEFINICIONES

Datos son el conjunto de información recolectada (como mediciones, géneros, respuestas


de encuestas, etcétera).

Población es el conjunto completo de todos los elementos (puntuaciones, personas,


mediciones, etcétera) que se someten a estudio. El conjunto es completo porque incluye a
todos los sujetos que se estudiarán.

Muestra es un subconjunto de miembros seleccionados de una población.


 Los datos muestrales deben reunirse de una forma adecuada, como a través de un
proceso de selección aleatoria.
 Si los datos muestrales no se reúnen de forma adecuada, resultarán tan inútiles que
ningún grado de tortura estadística podrá salvarlos.

Parámetro y estadístico

Estos términos se utilizan para distinguir entre los casos en que contamos con los datos de una
población completa y los casos en los que solo contamos con los datos de la muestra.

1
POBLACIÓN VERSUS MUESTRA

DEFINICIONES

Parámetro es una medición numérica que describe algunas características de una


población.

Estadístico es una medición numérica que describe algunas características de una muestra.

2
A las características numéricas de una población, como la media y la desviación estándar, se les
llama parámetros. El principal propósito de la inferencia estadística es hacer estimaciones y
pruebas de hipótesis acerca de los parámetros poblacionales usando la información que
proporciona una muestra. Para empezar, se presentan dos situaciones en las que a partir de
muestras se obtienen estimaciones de parámetros poblacionales. Para empezar, se presentan dos
situaciones en las que a partir de muestras se obtienen estimaciones de parámetros poblacionales.

1. Un fabricante de neumáticos elabora un nuevo modelo que tendrá mayor duración que los
actuales neumáticos de la empresa. Para estimar la duración media, en kilómetros, el
fabricante selecciona una muestra de 120 neumáticos nuevos para probarlos. De los
resultados de esta prueba se obtiene una duración media de 36,500 kilómetros. Por tanto, una
estimación de la duración media, en kilómetros, de la población de nuevos neumáticos es
36,500 kilómetros.

Una media muestral suministra una estimación de la media poblacional. Con dicha
estimación puede esperarse un cierto error de estimación.

2. Los miembros de un partido político deseaban apoyar a un determinado candidato para


senador, y los dirigentes del partido deseaban tener una estimación de la proporción de
votantes registrados que podían estar a favor del candidato. El tiempo y el costo de preguntar
a cada uno de los individuos de la población de votantes registrados eran prohibitivos. Por
tanto, se seleccionó una muestra de 400 votantes registrados; 160 de los 400 votantes
indicaron estar a favor del candidato. Una estimación de la proporción de la población de
votantes registrados a favor del candidato es 160/400 = 0.40.

Estos dos ejemplos ilustran algunas de las razones por las que se usan muestras. Observe que en
el ejemplo de los neumáticos, obtener datos sobre su tiempo de duración implica usarlos hasta
que se acaben. Es claro que no es posible probar toda la población de neumáticos; una muestra es
la única manera factible de obtener los datos de duración deseados. En el ejemplo del candidato,
preguntar a cada uno de los votantes registrados es, en teoría, posible, pero el tiempo y el costo
para hacerlo son prohibitivos; de manera que se prefiere una muestra de los votantes registrados.

Es importante darse cuenta de que los resultados muestrales sólo proporcionan una estimación de
los valores de las características de la población. No se espera que la media muestral de 36,500
kilómetros sea exactamente igual al kilometraje medio de todos los neumáticos de la población,
tampoco que 0.40, o 40% de la población de los votantes registrados esté a favor del candidato.
La razón es simple, la muestra sólo contiene una parte de la población. Con métodos de
muestreo adecuados, los resultados muestrales proporcionarán estimaciones “buenas” de los
parámetros poblacionales. Pero ¿cuán buenos puede esperarse que sean los resultados
muestrales? Por fortuna, existen procedimientos estadísticos para responder esta pregunta.

3
1.1. MÉTODOS DE MUESTREO PROBABILÍSTICO
En general, existen dos tipos de muestras: Las probabilísticas y las no probabilísticas. ¿Qué es
una muestra probabilística?

DEFINICIÓN

Muestra probabilística. Muestra seleccionada de tal forma que cada miembro, artículo o
persona dentro de la población tiene la misma probabilidad (distinta de cero) de ser incluida
en la muestra.

Si se hace el muestreo probabilístico, cada uno de los artículos de la población tiene la misma
oportunidad de ser elegido. Si se utilizan métodos no probabilísticos, no todos los artículos o
personas en la población tienen la misma posibilidad de ser incluidos. En tal caso, quizás los
resultados estén sesgados, lo que significa que es posible que los resultados de la muestra no sean
representativos de la población.

Muestreo aleatorio
Una muestra aleatoria es elegida de una población mediante un proceso con el cual se asegura
que 1) cada posible muestra de un tamaño dado tenga la misma probabilidad de ser elegida y
2) todos los miembros de la población tengan la misma probabilidad de ser seleccionados en la
muestra.

DEFINICIÓN

Muestreo aleatorio: Cada miembro de la población tiene la misma probabilidad de resultar


seleccionado. A menudo se usan computadoras para generar números telefónicos aleatorios.

4
Para ilustrar esto, consideremos una situación en la que tenemos una población con los datos 2, 3,
4, 5 y 6, y queremos extraer de manera aleatoria una muestra de tamaño 2 a partir de dicha
población. Observe que, por lo general, una población tendría más datos. Lo hemos restringido a
cinco elementos para facilitar la comprensión de lo que queremos poner de manifiesto. A
continuación se presentan todas las muestras de tamaño 2 que se pueden obtener de la población
aplicando este método de muestreo con reemplazo:

2, 2 3, 2 4, 2 5, 2 6, 2
2, 3 3, 3 4, 3 5, 3 6, 3
2, 4 3, 4 4, 4 5, 4 6, 4
2, 5 3, 5 4, 5 5, 5 6, 5
2, 6 3, 6 4, 6 5, 6 6, 6

Son 25 muestras de tamaño 2 las que podemos obtener al realizar el muestreo de un elemento a la
vez con reemplazo. Para realizar un muestreo aleatorio, el proceso debe ser tal que: 1) las 25
muestras posibles y 2) todos los datos de la población (2, 3, 4, 5 y 6) tengan la misma
probabilidad de ser seleccionados en la muestra.

1.1.1. Muestreo aleatorio simple

DEFINICIÓN

Una muestra aleatoria simple de n sujetos se selecciona de manera que cada posible
muestra del mismo tamaño n tenga la misma posibilidad de ser elegida.

El problema de muestreo de Electronics Associates, Inc. (EAI)

Al director de personal de Electronics Associates, Inc. (EAI), se le ha encargado la tarea de


elaborar un perfil de los 2,500 empleados de la empresa. Las características a determinar son el
sueldo medio anual de los empleados y la proporción de empleados que ha terminado el
programa de capacitación de la empresa.

Con los 2,500 empleados de la empresa como la población para este estudio, es posible hallar el
sueldo anual y la situación respecto al programa de capacitación de cada persona al consultar los
archivos del personal.

5
La media poblacional y la desviación estándar poblacional de los salarios anuales, es:

Media poblacional: μ = 51,800 UM


Desviación estándar poblacional: σ = 4,000 UM

Los datos sobre la situación del programa de capacitación muestran que 1,500 de los 2,500
empleados han terminado el programa de capacitación. Si p denota la proporción de la
población que ha terminado el programa de capacitación, se tiene que p = 1500/2500 = 0.60.
La media poblacional de los sueldos anuales ( μ = 51,800 UM), la desviación estándar
poblacional de los sueldos anuales ( σ = 4,000 UM) y la proporción poblacional de quienes
han terminado el programa: capacitación ( p = 0.60) son parámetros de la población de
administradores de EAI.

Ahora suponga que la información necesaria sobre todos los administradores de EAI no está
disponible en la base de datos de la empresa. La pregunta que se considera ahora es: ¿cómo
puede obtener el director de personal de la empresa, estimaciones de los parámetros
poblacionales usando una muestra de los empleados, en lugar de usar a los 2,500 empleados de la
población. Asuma que se va a emplear una muestra de 30 empleados. Es obvio que el tiempo y el
costo de la elaboración de un perfil será mucho menor usando 30 empleados que la población
entera. Si el director de personal tuviera la certeza de que una muestra de 30 empleados
proporciona la información adecuada acerca de la población de los 2,500 empleados, preferiría
trabajar con una muestra que hacerlo con toda la población. Para explorar la posibilidad de usar
una muestra para el estudio de EAI, primero se considerará cómo determinar una muestra de 30
administradores.
Para seleccionar una muestra de una población hay diversos métodos; uno de los más comunes es
el muestreo aleatorio simple. La definición de muestreo aleatorio simple y del proceso de
seleccionar una muestra aleatoria simple dependen de si la población es finita o infinita. Como
problema de muestreo de EAI tiene una población finita de 2,500 empleados, primero considera
el muestreo de una población finita.

Muestreo de una población finita


Una muestra aleatoria simple de tamaño n de una población finita de tamaño N se define
como sigue:

MUESTREO ALEATORIO SIMPLE (POBLACIÓN FINITA)

Una muestra aleatoria simple de tamaño n de una población finita de tamaño N es una
muestra seleccionada de manera que cada posible muestra de tamaño n tenga la misma
probabilidad de ser seleccionada.

Un procedimiento para seleccionar una muestra aleatoria simple de una población finita es elegir
los elementos para la muestra de uno en uno, de manera que, en cada paso, cada uno de los
elementos que quedan en la población tenga la misma probabilidad de ser seleccionado. Al
seleccionar n elementos de esta manera, será satisfecha la definición de muestra aleatoria
simple seleccionada de una población finita.

6
Para seleccionar una muestra aleatoria simple de la población finita de empleados de EAI,
primero se le asigna a cada empleado un número. Por ejemplo, se les asignan los números del 1 al
2,500 en el orden en que aparecen sus nombres en el archivo de personal de EAI.

Los números aleatorios generados por computadora también sirven para realizar el proceso de
selección de una muestra aleatoria. Excel proporciona una función para generar números
aleatorios en sus hojas de cálculo. Completamos una tabla de 30 números aleatorios entre 1 y
2,500 que representan a los empleados de EAI.

De la muestra se determina la proporción de empleados que han sido capacitados.

7
MUESTREO ALEATORIO SIMPLE (POBLACIÓN INFINITA)

En algunas situaciones la población o bien es infinita o tan grande que, para fines prácticos, se
considera infinita. Por ejemplo, suponga que un restaurante de comida rápida desea obtener el
perfil de su clientela seleccionando una muestra aleatoria de los mismos y pidiéndole a cada
cliente que llene un breve cuestionario. En tales situaciones, el proceso continuo de clientes que
visitan el restaurante puede verse como que los clientes provienen de una población infinita. La
definición de muestra aleatoria simple tomada de una población infinita es la siguiente:

Una muestra aleatoria simple de una población infinita es una muestra seleccionada de
manera que se satisfagan las condiciones siguientes.
1. Cada uno de los elementos seleccionados proviene de la población.
2. Cada elemento se selecciona independientemente.

En poblaciones infinitas un procedimiento para la selección de una muestra debe ser concebido
especialmente para cada situación, de manera que permita seleccionar los elementos de manera
independiente y evitar así un sesgo en la selección que dé mayores probabilidades de selección a
ciertos tipos de elementos. En el ejemplo de la selección de una muestra aleatoria simple entre los
clientes de un restaurante de comida rápida, el primer requerimiento es satisfecho por cualquier
cliente que entra en el restaurante. El segundo requerimiento es satisfecho seleccionando a los
clientes de manera independiente. El objetivo del segundo requerimiento es evitar sesgos de
selección. Habría un sesgo de selección, por ejemplo, si cinco clientes consecutivos que se
seleccionaran fueran amigos. Es de esperar que estos clientes tengan perfiles semejantes. Dichos
sesgos se evitan haciendo que la selección de un cliente no influya en la selección cualquier otro
cliente. En otras palabras, los clientes deben ser seleccionados de manera independiente.

McDonald’s, el restaurante líder en comida rápida, realizó un muestreo aleatorio simple


precisamente en una situación así. El procedimiento de muestreo se basó en el hecho de que
algunos clientes presentaban cupones de descuento. Cada vez que un cliente presentaba un cupón
de descuento, al siguiente cliente que se atendía se le pedía que llenara un cuestionario sobre el
perfil del cliente. Como los clientes que llegaban al restaurante presentaban cupones de descuento
aleatoria e independientemente, este plan de muestreo garantizaba que los clientes fueran
seleccionados de manera independiente. Por tanto, los dos requerimientos para un muestreo
aleatorio simple de una población infinita fueron satisfechos.

Las poblaciones infinitas suelen asociarse con un proceso que opera continuamente a lo largo del
tiempo. Por ejemplo, partes fabricadas en una línea de producción, transacciones en un banco,
llamadas que llegan a un centro de asesoría técnica y clientes que entran en las tiendas son
considerados como provenientes de una población infinita. En tales casos un procedimiento de
muestreo creativo garantiza que no haya sesgos de selección y que los elementos de la muestra
sean seleccionados en forma independiente.

8
1.1.2. Muestreo sistemático
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mucho
tiempo para tomar una muestra aleatoria simple (hallando primero los números aleatorios y
después contando y recorriendo toda una lista de la población hasta encontrar los elementos
correspondientes). Una alternativa al muestreo aleatorio simple es el muestreo sistemático. Por
ejemplo, si se quiere una muestra de tamaño 50 de una población que tiene 5,000 elementos, se
muestrea uno de cada 5,000/50 = 100 elementos de la población. En este caso, un muestreo
sistemático consiste en seleccionar en forma aleatoria uno de los primeros elementos de la lista de
la población. Los otros elementos se identifican contando a partir del primer elemento 100
elementos para tomar el elemento que tenga la posición 100 en la lista de la población, a partir de
este elemento se cuentan otros 100 y así se continúa. Por lo general, de esta manera es más fácil
de identificar la muestra de 50 que si se usara el muestreo aleatorio simple. Como el primer
elemento que se selecciona es elegido en forma aleatoria, se supone que una muestra sistemática
tiene las propiedades de una muestra aleatoria simple. Esta suposición es aplicable, en especial,
cuando lista de los elementos de la población es un orden aleatorio de los elementos.

DEFINICIÓN

En el muestreo sistemático, elegimos algún punto de partida y luego seleccionamos cada


késimo (por ejemplo, cada tercero) elemento de la población.

Considérese una población de tamaño N=nk de la que se va a extraer una muestra constituida
por n elementos como sigue: el primero se elige aleatoriamente, supóngase que éste es el
b−ésimo , como segundo elemento se toma el ( b+ k )−ésimo ; el tercero el
( b+2 k ) −ésimo y se continúa hasta tener, en forma de registro, a las n observaciones (por
ejemplo, si k =7 y b=2 , entonces el primer elemento muestreado es el segundo y los
siguientes serán los numerados con 9, 16, 23, 30 y así sucesivamente).

Este procedimiento se conoce como “muestreo sistemático de cada k −ésimo ” y conduce a las
k “muestras sistemáticas” posibles que se consignan en la Tabla 7-1.

9
TABLA 7-1 Muestras sistemáticas
Muestra 1 ⋯ i ⋯ k
x1 ⋯ xi ⋯ xk

Elemento x k+1 ⋯ x k+i ⋯ x2 k


muestral ⋯ ⋯ ⋯ ⋯ ⋯
x(n−1)k+1 ⋯ x(n−1)k+i ⋯ x nk
Media muestral x́ 1 ⋯ x́ i ⋯ x́ k

Se observa que la población se ha dividido en k conglomerados de igual tamaño y que el


muestreo sistemático consiste en elegir aleatoriamente a una de ellas.

De esta manera lo establecido en el Teorema 1-1 para muestreo sistemático también es válido
para cualquier tipo de muestreo de conglomerados en el que éstos sean de tamaño n y la
muestra esté constituida por todos los elementos de cada uno de esos conglomerados
seleccionados aleatoriamente.

Sea x ij el j−ésimo elemento de la i−ésima muestra sistemática de cada k −ésimo


elemento extraído de una población de tamaño N=nk ; entonces
j=1,2, … , n ; i=1,2, … , k . Si se designan con x́ i . A la media de la i−ésima y con
2
μ y σ a la media y a la variancia de la población, respectivamente.

TEOREMA 1-1:

Si mediante un muestreo sistemático como el antes descrito se extrae una muestra de tamaño
n entonces la media muestral x́ s es una variable aleatoria cuya media y variancia están
dadas respectivamente por:
n k n
1 1
μx́ =
s
∑ ∑
N i=1 j=1
x ij = ∑ x́ i=μ (1)
k j=1

N −1 2 k ( n−1 ) 2
σ 2x́ = σ− S3 (2)
s
N N

en donde
n k
1
σ = ∑ ∑ ( x ij −μ )2 (3)
2
N i=1 j =1

k n
1
S 23= ∑ ∑ ( x −x )2=variancia entre muestras sistemáticas (4 )
k (n−1) i=1 j=1 ij i
1.1.3. Muestreo aleatorio estratificado

10
En el muestreo aleatorio estratificado los elementos de la población primero se dividen en grupos,
a los que se les llama estratos, de manera que cada elemento pertenezca a uno y sólo un estrato.
La base para la formación de los estratos, que puede ser departamento, edad, tipo de industria,
etc., está a discreción de la persona que diseña la muestra. Sin embargo, se obtienen mejores
resultados cuando los elementos que forman un estrato son lo más parecido posible. La Figura
7.1 es un diagrama de una población dividida en H estratos.

FIGURA 7.1 DIAGRAMA DE UN MUESTREO ALEATORIO ESTRATIFICADO

Una vez formados los estratos, se toma una muestra aleatoria simple de cada estrato. Existen
fórmulas para combinar los resultados de las muestras de los varios estratos en una estimación

DEFINICIÓN

En el muestreo estratificado, subdividimos a la población en al menos dos subgrupos (o


estratos) diferentes, de manera que los sujetos que pertenecen al mismo subgrupo compartan
las mismas características (cómo el género o la categoría de edad), y luego obtenemos una
muestra de cada subgrupo (o estrato).

En ocasiones el interés del investigador es comparar resultados entre segmentos, grupos o


nichos de la población, porque así lo señala el planteamiento del problema. Por ejemplo,
efectuar comparaciones por género (entre hombres y mujeres), y si la selección de la
muestra es aleatoria, tendremos unidades de ambos géneros, no hay problema, la muestra
reflejará a la población.
En este tipo de muestreo se divide la población en segmentos homogéneos llamados “estratos”, y
después se extrae de cada uno de ellos una muestra aleatoria simple. Los elementos de todas las
muestras tomados conjuntamente constituyen a la muestra de la población. La esencia de la

11
“estratificación” es que ella capitaliza el mayor grado de homogeneidad de las subpoblaciones de
manera tal que se requieren muestras de menor tamaño para analizar en cada una de ellas, a la
característica bajo estudio y, además, se pueden combinar fácilmente para lograr proyectar dicho
estudio a toda la población.

Muestreo estratificado de variables


Para distinguir la estructura del muestreo estratificado cabe distinguir los estratos y elementos en
la población y en la muestra.

Población

Los estratos se distribuyen del siguiente modo en la población:

Primer estrato de tamaño N 1


Segundo estrato de tamaño N 2
.
.
.
Estrato genérico h de tamaño
Nh

Los elementos se distribuyen en los estratos de la población. El elemento genérico x hi


corresponde a la puntuación del elemento i en el estrato h.

En este tipo de muestreo se divide en h estratos de tamaño N 1+ N 2 , … ,+ N h conocidos, en


forma tal que cada uno de ellos sea “razonablemente” homogéneo con respecto a la característica
por estudiar. La media y la variancia asociados al estrato i se representan, respectivamente con
μi y σ 2i de acuerdo con lo que se muestra en la Tabla1-1.

Estrato 1 2 ... h
Tamaño del estrato N1 N2 ... Nh
Media μ1 μ2 ... μh
2 2 2
Variancia σ1 σ2 ... σh

Tabla 1-1. Muestreo estratificado

De manera que para la población se tiene:


h
1 1
N i=¿ N 1 + N 2 +…+ N h ; μ= ∑
N i=1
N i μi= ( N 1 μ 1+ N 2 μ2 +… N h μ h)(1)
N
h
N=∑ ¿
i =1

12
El muestro aleatorio estratificado consiste en extraer de los estratos 1,2, … , h , muestras
aleatorias simples independientes cuyos tamaños respectivos, previamente determinados, son
n1 , n2 , … , nh . De esta manera si se presenta con x ij a la j−ésima observación de la
muestra extraída del estrato i, entonces la media y la variancia muestrales correspondientes a
dicho estrato estarán dadas por:
ni ni
1 2 1 2
x́ i= ∑
ni j=1
x ij ; s i = ∑ ( x ij −x́ i ) (2)
ni j=1

Y al considerar a todos los estratos surge la Tabla 1-2 asociada a las características muestrales.

Estrato 1 2 ... h
Tamaño de la n1 n2 nh
...
muestra
Media x́ 1 x́ 2 ... x́ h

Variancia s 21 s 22 s 2h

Tabla 1-2. Características muestrales.

Muestra

La muestra es una réplica en un tamaño reducido de la población. Presenta la misma estructura


que la población diferenciándose en el tamaño de los estratos.

El elemento genérico x hi corresponde a la puntuación del elemento i en el estrato h.

Tamaño de la muestra
h
n=∑ ni=n 1+ n2+ …+nh
i=1

Tamaño del estrato h


nh
nh=∑ x hi
i=1

Peso del estrato h-ésimo

nh
w h=
n

13
TEOREMA 1-1:

En el caso de muestreo aleatorio estratificado como el descrito en las Tablas (1-1) y (1-2),
entonces:
h
1
x́ Est = ∑ N i x́ i ( 3 )
N i=1

es el valor de una variable aleatoria cuya distribución tiene media μx́ Est
y variancia σ 2x́ Est

dadas respectivamente por:


h
1
μx́ = ∑ N i μi =μ ( 4 )
N i=1 Est

( )
h
1 2 σ i N i−n i
σ 2x́ = ∑ i n N −1 ( 5 )
N
N 2 i=1
Est
i i

En efecto, la media x́ i de la muestra extraída del estrato i para i = 1, 2, …, h; es una variable


aleatoria cuya media y variancia están dadas, respectivamente por:
2
2 σ i N i−ni
μx́ =μi ; σ x́ = (6 )
i i
ni N i −1

Tomando en cuenta (3) y (6) y el teorema relativo a la media de una suma de variables aleatorias
independientes, puede escribirse:
h h
1
μx́ =
Est
∑ N ; μ = 1 ∑ N μ =μ
N i=1 i x́ N i=1 i i i

Por otra parte, la variancia de x́ Est es la suma de las variancias de sus componentes que
aparecen en el segundo miembro de (3), ya que las muestras extraídas de los estratos son
independientes; pero:
2 2 2
Ni Ni N i σ i N i−ni
Var ( )
N
x́ i = 2 Var ( x́ i )= 2
N N ni N i −1
2
Y consecuentemente σ x́ Est
está dada por (5).

Finalmente, con base en el teorema de Lindeberg–Levy, puede decirse que si la muestra total es
grande entonces x́ Est es una variable aleatoria cuya distribución se aproxima a una normal
cuya media y variancia están dadas por (4) y (5), respectivamente.

Asignaciones proporcional, óptima y de Neyman


14
Generalmente el tamaño n de la muestra total está limitado por el presupuesto disponible para
colectarla, sin embargo la asignación de ella a los diversos estratos debe realizarla el investigador.

Un primer criterio surge al observar que x́ Est en general no coincide con la media muestral
ponderada:
h
n n n
x́= 1 x́ 1+ 2 x́ 2 +…+ h x́ h , con n=∑ ni (7)
n n n i=1

a menos que los tamaños de muestra para cada estrato cumplan con:

n1 N 1 n2 N 2 n N
= , = ,…, h= h
n N n N n N

En cuyo caso se habla de una “asignación proporcional”, ya que el tamaño n de la muestra total
se ha asignado a los estratos en forma proporcional a su tamaño. Obsérvese que este
procedimiento puede justificarse intuitivamente ya que si un estrato abarca a una gran parte de la
población total, sería razonable que contribuyera mayormente en la conformación de la muestra
total con objeto de que ésta sea representativa de la población.

Otro criterio de asignación se basa en la minimización de la variancia de x́ Est . Esto es factible


cuando las variancias σ 2i de los estratos son conocidas o se tiene información colateral que
permita tener juicios sobre sus órdenes de magnitud. Al aplicar este criterio se obtiene:

N i σi
ni=n
( ) h

∑ Njσ j
j=1
(8)

En cuyo caso se habla de una “asignación óptima”. Obsérvese que el tamaño de muestra en cada
estrato es proporcional al producto de su tamaño por su desviación estándar. Cuando todas las
desviaciones estándar σ i son iguales entonces la asignación óptima conduce a los mismos
resultados que la asignación proporcional.

Vamos a suponer ahora que los costos de muestreo varían de estrato a estrato y que se desea
considerar dicha variación al determinar la asignación óptima de los tamaños de la muestra. Sea
c i el costo por unidad muestreada en el estado i; c es el presupuesto total disponible y c o
los costos fijos que no dependen del tamaño de la muestra. La “asignación de Neyman” consiste
en minimizar la variancia de x́ Est para un presupuesto total disponible igual a c; esto conduce
a:

N i σ i / √ ci
ni=n h
(9)
∑ N jσ j/√c j
j=1

15
En donde el tamaño n de la muestra total está dado por:
h

∑ N j σ j/√c j
j=1
n= ( c−c o ) h
(10)
∑ N j σ j√c j
j=1

Ejemplo 1. Cada celda de la tabla siguiente representa a un árbol frutal de un huerto y el número
que contiene a su producción correspondiente en kilogramos. Los tres últimos renglones
corresponden a los árboles más jóvenes. Considere dos estratos, el primero formado por los
primeros cinco renglones y el segundo por los renglones restantes.

2 3 2 4
20 24 28 24
8 2 4 0
2 1 2 2
16 24 12 32 Estrato 1
0 6 1 4
1 2 4 1
Población 32 32 24 24
6 8 0 6
2 1 1 2
24 32 36 32
4 6 6 8
2 1 3 3
36 28 44 36
4 2 6 2

2 1 1
16 20 8 16 12
0 2 2 Estrato 2
2 1 1 1
12 20 12 16
0 2 6 6
1 2 1 1
16 12 12 20
6 0 2 6

Tabla 1-3. Estratos de una población.

i) Simule un muestreo aleatorio estratificado en donde se extraiga una muestra aleatoria de


tamaño 6 del estrato 1 y otra de tamaño 2 del estrato 2.
ii) Cálcule x́ Est .
iii) Compare la variancia de x́ basada en la muestra aleatoria simple de tamaño 8 con la
variancia de x́ Est .

Solución:

Se tiene, N 1=40, N 2=24,n1 =6 y n 2=2 . Para simular el muestreo se generan parejas de


números aleatorios con Excel.

Formulación en Excel para la generación de números aleatorios:

16
Números aleatorios generados:

De la Tabla 1-3 y de los números aleatorios generados con Excel se obtiene la siguiente tabla, en
donde además se consignan las x́ i .

Estrato Parejas de números aleatorios Muestra x́ i


1 (2,7), (4,6), (1,8), (3,7), (2,6), (3,6) 12, 28, 24, 24, 24, 16 21.3
2 (7,5), (7,3) 20, 12 16

Y al aplicar las fórmulas (1) y (3), resulta:

N i=¿ N 1 + N 2=( 5 × 8 ) + ( 3 ×8 )=40+24=64


i=2
N =∑ ¿
i=1

i=2
1 1 1,236
x́ Est = ∑ N i x́ i= [ ( 40 ) ( 21.3 ) +(24 )(16) ]= =19.3
N i=1 64 64

Los cálculos asociados a los N = 64 registros de toda la población conducen a:

Media de la población:

17
1 1,417
x i=¿ ( 28+32+20+ …+16+12+20 )= =22.14
64 64
N
1
μ= ∑ ¿
N i=1

Varianza de la población:

1 4,667.7344
( x i−x́ ) =¿ 64 [ ( 28−22.14 ) + …+ ( 20−22.14 ) ]=
2 2 2
=72.93
64
N
2 1
σ = ∑¿
N i=1

y al considerar los 40 registros del primer estrato y los 24 del segundo resulta:
ESTRATO 1:

Media:
40
1 1 1,053
x i1 = ∑
40 i=1
x i 1=¿ ( 28+ 32+20+ …+32+44 +36 ) =
40 40
=26.3
N1
1
μ1= ∑ ¿
N 1 i=1
Varianza:
N
1 1 2512.8
1

σ 1 = ∑ ( xi 1−μ1 ) = [ ( 28−26.3 ) +…+ ( 36−26.3 ) ]=


2 2 2 2
=62.82
N 1 i=1 40 40

ESTRATO 2:

Media:
24
1 1 364
x i2 = ∑ x i 2=¿ ( 20+12+16 +…+16+12+20 )= =15.2
24 i=1 24 24
N2
1
μ 2= ∑¿
N 2 i=1

Varianza:
N
1 1 287.3
2

σ 2 = ∑ ( xi 2−μ 2) = [ ( 20−15.2 ) + …+ ( 20−15.2 ) ]=


2 2 2 2
=11.97
N 2 i=1 24 24

Y lo anterior conduce a:

Muestreo aleatorio estratificado


Muestreo aleatorio simple
(Teorema 1, ecuación 5)
σ 2 N −n 2

( )
h
2
σ =

n N −1 (=¿ ) σ 2x́ =
Est
1
N 2 i=1
N 2 σ i N i−n i
∑ i n N −1
i i

18
[( )]
2 2
2 1
x́ Est
N
2 σ 1 N 1−n 1
σ = 2 N1
n1 N 1−1
2 σ 2 N 2−n2
+N 2
n2 N 2−1 ) (
=¿

72.93 64−8
¿
1
64 2
402
[ (
62.82 40−6
6 40−1
+24 2
11.97 24−2
2 24−1) ( )]
¿ ( 8 )(
63
=8.10 ) 1
¿ [ 14,604.3+3,297.5 ] =4.37
μx́ =x́=22.14 64 2

1
N i μ i=¿
64
[ ( 40 ) (26.3 )+(24)(15.2)]=22.14
i=2
1
μ x́ = ∑ ¿
Est
N i=1

Observe que x́ Est tiene menor variancia que x́ .


Muestreo estratificado de atributos
El muestreo estratificado también puede aplicarse cuando se estudian atributos. En este caso la
notación y la estructura correspondientes se puede resumir en la siguiente tabla.

Estratos 1 2 … h Población

Tamaño N1 N2 … Nh h

Población N=∑ N i
i=1
Proporción p1 p2 … ph
h
N i pi
n1 n2 nh p=∑
Tamaño … i=1 N

h
Muestra No. de éxitos x1 x2 … xh
n=∑ ni
i=1
x1 x2 xh
Proporción ^p1= ^p2= … ^ph=
n1 n2 nh

También es posible establecer el teorema siguiente

TEOREMA 1-2:

Si se tiene un muestreo estratificado de atributos como el descrito en la tabla anterior, entonces:


h
^pEst = 1 ∑ N i ^pi (11)
N i=1

19
2
Es el valor de una variable aleatoria cuya distribución tiene media μ ^p Est
y variancia σ ^p Est

dadas respectivamente por:


h
1
μ ^p = ∑ N i Pi= p(12)
Est
N i=1
1
h
N 2 (N i −ni ) pi (1−Pi)
σ 2^p = 2 ∑ (13)
N i=1 ( N i −1)
Est
ni

Además si la muestra total es grande, entonces ^pEst es una variable aleatoria cuya
distribución se aproxima a una normal cuyas media y variancia están dadas por las ecuaciones
(12) y (13), respectivamente.

Por lo que se refiere a la asignación de los tamaños de la muestra, cuando ella es proporcional
debe cumplirse que ni=n( N i / N ) . Para el caso en que se minimiza la variancia de ^pEst ,
esto es, si la asignación es óptima resulta:
N √ p (1− p i)
ni=n h i i ( 14)
∑ N j √ p j (1− p j )
j=1

Ejemplo 1. En una pequeña ciudad se han identificado cuatro lugares (estratos) razonablemente
homogéneos en cuanto a su consumo de gasolina. Al levantar un censo entre los poseedores de
autos se obtuvieron los datos que se muestran en la siguiente tabla, que se refieren al consumo
semanario de gasolina por automóvil en litros. Si se realizan 80 muestreos estratificados para los
cuales n1=50, n2=45, n3=n 4=30. ¿Cuántos muestreos tendrán su media x́ Est comprendida
entre 53 y 54 litros?

Estrato 1 2 3 4
Tamaño 3,750 3,275 1,350 2,475
Media 47.2 54.4 69.8 51.8
Variancia 10.5 10.9 18 12

Se sabe que x́ Est es una variable aleatoria cuya media y variancia están dada por las
ecuaciones (4) y (5):
2

( )
h
1 2 σ i N i −ni
N i μ i=μ=¿ ; σ = 2 ∑ N i
2
x́ Est =¿
N i=1 ni N i−1
h
1
μx́ = ∑ ¿
N i=1Est

Para el cálculo de estás se utilizará la siguiente tabla:

20
2
Estrato Ni μi Ni μi ni σi

1 3,750 47.2 177,000 50 10.5 2,914,527


2 3,275 54.4 178,160 45 10.9 2,563,070
3 1,350 69.8 94,230 30 18 1,069,992
4 2,475 51.8 128,205 30 12 2,421,528
Σ 10,850  577,595   8,969,117

2
Cálculo de la σ x́ Est
:

Estrato 1:

σ 21 N 1−n1
N 21 ( n 1 N 1 −1 )
=(3,750)2
10.5 3,750−50
50 3,750−1 (
=2,914,527 )
Estrato 2:
2
σ 22 N 2−n2
N 2
2 (
n 2 N 2 −1
=(3,275) )
10.9 3,275−45
45 3,275−1
=2,563,070 ( )
Estrato 3:

2 2

N 23 ( σ 3 N 3−n 3
n 3 N 3−1 )
=(1,350)
18 1,350−30
30 1,350−1 (
=1,069,992 )
Estrato 4:
2
σ 24 N 4 −n4
N 2
4 (
n4 N 4 −1
=(2,475) )
12 2,475−30
30 2,475−1
=2,421,528 ( )
y consecuentemente
h
1 577,595
μx́ = ∑ N i μi = =53.2=μ
N i=1
Est
10,850

( )
h
1 σ N −n 8,969,117
σ = 2 ∑ N 2i i i i =
2
x́ Est =0.08
N i=1 n i N i−1 10,8502
σ x́ =√ 0.08=0.28
Est

21
Pero, de acuerdo al Teorema 1-2, para muestras grandes la variable aleatoria x́ Est está
normalmente distribuida y consecuentemente:

x́ Est −μ x́ x́ Est −53.2


z= Est
=
σ x́ Est
0.28

Para x́ Est =53 :


x́ Est −53.2 53−53.2 −0.2
z 1= = =
0.28 0.28 0.28

Para x́ Est =54 :


x́ Est −53.2 54−53.2 0.8
z 2= = =
0.28 0.28 0.28

Tiene distribución normal estándar y por lo tanto:

0.2 0.8
P ( 53< x́ Est <54 )=P ( 0.28 <z<
0.28 )
=0.2368
En donde se consultó la tabla de distribución normal. Luego si se realizan 80 muestreos idénticos
al descrito es de esperarse que en aproximadamente 80(0.2386) = 19 de ellos la media x́ Est
esté comprendida entre 53 y 54 litros.

Ejemplo 2. En la ciudad mencionada en el Ejemplo 1 anterior se va a realizar un muestreo


estratificado con un tamaño total n de la muestra igual a 200. Calcule los tamaños de muestra
para cada estrato usando (a) asignación proporcional y (b) asignación óptima.

a) Asignación proporcional:

N1
n1=n ( ) (
N
=200
3,750
10,850
=69)
N2
n2=n ( ) (
N
=200
3,275
10,850
=60)
n3=n ( NN )=200 ( 10,850
3 1,350
)=25
n4 =n ( NN )=200( 10,850
4 2,475
)=46
b) Asignación óptima:

22
N 1 σ1
N 1=3,750 σ 1= √ 10.5=3.2403
1
N 1 σ 1=¿ 12,15
n1=n ( Σ Ni σi )
=200
12,151
( )
37,265
=65

N 2 σ2
N 2=3,275 σ 2 =√ 10.9=3.3015
2
N 2 σ 2=¿ 10,81
n2=n ( Σ Ni σi )
=200 (
10,812
37,265 )
=58

N3 σ3
N 3=1,350 σ 3 =√ 18=4.24264 N 3 σ 3=¿ 5,728 n3=n ( Σ Ni σi )
=200 (
5,728
37,265 )
=31

N4 σ 4
N 4 =2,475 σ 4=√ 12=3.4641
4
N 4 σ 4=¿ 8,57
n4 =n ( Σ N iσ i )
=200 (
8,576
37,265 )
=46

Total = 37,265

1.1.4. Muestreo multietápico y de conglomerados


En el muestreo por conglomerados los elementos de la muestra primero se dividen en grupos
separados, llamados conglomerados. Cada elemento de la población pertenece a uno y sólo un
conglomerado (Figura 7.2). Se toma una muestra aleatoria simple de los conglomerados. La
muestra está formada por todos los elementos dentro de cada uno de los conglomerados que
forman la muestra. El muestreo por conglomerados tiende a proporcionar mejores resultados
cuando los elementos dentro de los conglomerados no son semejantes. Lo ideal es que cada
conglomerado sea una representación, a pequeña escala, de la población. Si todos los
conglomerados son semejantes en este aspecto, tomando en la muestra un número pequeño de
conglomerados se obtendrá una buena estimación de los parámetros poblacionales.

Una de las principales aplicaciones del muestro por conglomerados es el muestreo de áreas, en el
que los conglomerados son las manzanas de una ciudad u otras áreas bien definidas. El muestreo
por conglomerados requiere, por lo general, tamaños de muestra mayores que los requeridos en el
muestreo aleatorio simple o en el muestreo aleatorio estratificado. Sin embargo, es posible
reducir costos debido a que cuando se envía a un entrevistador a uno de los conglomerados de la
muestra (por ejemplo, a una manzana de una ciudad), es posible obtener muchas observaciones
en poco tiempo. Por tanto, se obtiene una muestra de tamaño grande a un costo significantemente
menor.

FIGURA 7.2 DIAGRAMA DEL MUESTREO POR CONGLOMERADOS

23
DEFINICIÓN

En el muestreo por conglomerados primero dividimos el área de la población en secciones


(o conglomerados), luego elegimos al azar algunos de estos conglomerados, y después
elegimos a todos los miembros de los conglomerados seleccionados.

En el inciso 1.1.3 se ha considerado que la población se divide en estratos. Aunque esta es una
estructura aparentemente simple, ella cubre un amplio rango de casos prácticos. Es importante
observar que la complejidad del sistema de clasificación que permite dividir a la población en
estratos no corresponde a la dificultad del muestreo; una vez identificados los estratos puede
aplicarse la teoría del muestreo estratificado simple, aunque se hayan usado varios factores (por
ejemplo: localización geográfica, densidad de población, ingreso per cápita, etc.) para llegar a la
estratificación.

Un nuevo factor se introduce al considerar como se seleccionan los elementos de la muestra. En


el inciso anterior se dijo que de cada estrato se extrae una muestra aleatoria simple admitiendo
implícitamente que sus elementos se eligen individualmente y al azar de entre todos los
disponibles en el estrato. Sin embargo, frecuentemente los elementos por muestrear se encuentran
agrupados en forma natural, en lo que se llaman “conglomerados” o “concentraciones”; por
ejemplo; los seres humanos están agrupados en familias y éstas, si se toman como elementos
individuales para fines de muestreo, también se agrupan en “barrios” o “colonias”.

En estos casos conviene realizar el muestreo en dos etapas. Primero se elige, de ser posible al
azar, un cierto número de conglomerados; luego se extraen muestras aleatorias de cada una de
ellas. Desde luego podrían usarse tres o más etapas si se tienen conglomerados (por ejemplo, una
ciudad agrupada en colonias, éstas en manzanas, las manzanas en unidades habitacionales, ,
individuales o colectivas y así sucesivamente). A este tipo de muestreo se le llama “muestreo
multietápico” o simplemente “etápico”. Un caso particular se tiene cuando se estudian a todos
los elementos que pertenecen a cada conglomerado elegido. En este caso, de hecho, sólo se tiene
una etapa de muestreo y recibe el nombre de “muestreo de conglomerados” o
“concentraciones”.

24
Por ejemplo, supóngase que se va a seleccionar una muestra de la población constituida por todos
los estudiantes de segundo año de secundaria en un Estado de la República. Se puede pensar que
cada escuela secundaria del Estado es un conglomerado de las unidades por muestrear, que son
los estudiantes del grado mencionado. Puede elegirse primero una muestra aleatoria constituida
por algunas escuelas del Estado y después encuestar a todos los estudiantes de segundo año en
esas escuelas (muestreo de conglomerados) o solo a los que integren a su vez una muestra
aleatoria de ellos en cada escuela seleccionada (muestreo en dos etapas).

El colectar una muestra aleatoria simple de tamaño comparable puede ser prohibitivo ya que
primeramente debería tenerse un marco de referencia, tal como una lista completa de los
estudiantes de segundo año de secundaria en el Estado y, en segundo lugar, es muy probable que
los que resultaran seleccionados para constituir la muestra estuviesen muy dispersos en la entidad
lo que incrementaría grandemente los costos. El muestreo de conglomerados (o el de dos etapas)
elimina la necesidad de construir un marco de referencia para la población muestreada y, como
cada conglomerado agrupa a varios de sus elementos, se disminuyen sensiblemente los costos
asociados al estudio.

Si embargo, el muestreo multietápico es menos representativo que el aleatorio simple. Por


ejemplo, una muestra formada por 500 estudiantes elegidos aleatoriamente proporciona “mejor”
información respecto a la población analizada que la que se obtendría al estudiar grupos de 100
alumnos de cinco escuelas seleccionadas al azar.

Muestreo de variables en dos etapas con conglomerados de igual tamaño

Sea x ji el valor observado de la variable aleatoria x para el i−ésimo elemento del


j−ésimo conglomerado. El subíndice j va de 1 a N , en donde N es el número de
conglomerados, el subíndice i va de 1 a K, en donde K es el tamaño de cada agrupamiento.
El total de elementos en la población será NK=M y su media estará dada por:
N K N
1
μx = ∑ ∑ x = 1 ∑ μ (1)
M j=1 i=1 ji N j=1 ja

en donde
K
1
μ ja = ∑ x (2)
K i=1 ji

Es la media de x en el agrupamiento j .

Supóngase que se eligen aleatoriamente n de los N conglomerados y que en cada uno de


ellos se seleccionan al azar k de sus K elementos. Se usará el símbolo x j i para
1 1

representar el valor que toma x para el i 1−ésimo elemento de la muestra extraída del
j 1−ésimo conglomerado. Luego la media de los nk=m valores muestrales de x está
dada por:

25
N k
1
x́ a= ∑ ∑ x j i (3)
m j =1 i =1
1 1
1 1

TEOREMA 1-3:

Si se realiza un muestreo de variables en dos etapas con conglomerados de igual tamaño tal como
el antes descrito, entonces x́ a dada en la ecuación (3) es una variable aleatoria con media y
variancia dadas, respectivamente por:

x́ a=μ x ( 4)

σ 2x́ =
a
1
m [( K −k 2 k (N−n) 2
K
S1 +) (
N
S2 (5) ) ]
en donde μx está dada en la ecuación (1) y:

N K
1
S=2
1 ∑ ∑
N (K−1) j=1 i =1
( xi −μ ja )2=variacia promedioen los agrupamientos(6)

2
( μ ja−μ x ) =¿ variancia entre agrupamientos(7)
N
1
N−1 ∑
2
S= 2 ¿
j=1

Para m=k fijo esto es para un total dado de observaciones elementales x j i , el mínimo de
1 1

σ 2x́ dado en la ecuación (5) se alcanza para n=m y k =1 , esto es, debería tomarse el
a

mayor número posible de agrupamientos y extraer de cada uno de ellos tan solo a uno de sus
elementos.

Si el costo total asociado al muestreo es de la forma:

c=n c 1 +nk c 2=n ( c1 +k c 2 ) ( 8)

en donde c 1 es el costo unitario asociado al muestreo de los conglomerados (primera etapa) y


c 2 el costo unitario asociado al muestreo en cada conglomerado (segunda etapa); entonces
2
minimizar la varianza σ x́ para un costo total c dado en la ecuación (8), conduce a:
a

26
k=

S 1 c1
S2 c2
( 9)

√ 1−
S21
k S22

y el valor de n puede obtenerse de la ecuación (8) ya conocidos c y k . Obsérvese que


si las poblaciones son infinitas (“suficientemente grandes”) entonces la ecuación (9) conduce a:

k=

S1 c 1
S2 c 2
(10)

Y tanto en la ecuación (9) como en la (10) k no depende del costo total y, en particular, en la
ecuación (10) sólo queda en función de las relaciones c 1 /c 2 y S 1 /S 2 .

Ejemplo 1. Considérese una población de 14 tiendas ubicadas en cinco manzanas de una ciudad.
Los datos relativos a la localización y a la nómina de empleados en cientos de pesos para cada
tienda se muestran en la siguiente tabla.

TABLA 1 Datos del problema


Número
Manzana Número de Nómina
de tiendas
j tienda i x ji
Nj
1 75
1 2
2 33
1 75
2 2
2 112
1 60
3 2
2 45
4 4 1 75
2 30
3 0

27
4 75
1 33
2 0
5 4
3 60
4 45
Total: 14 ─ 718

Los casos de nómina nula significan que la tienda correspondiente es atendida por sus propios
dueños.

Calcule la media y la varianza muestrales si (a) se selecciona aleatoriamente a tres tiendas, (b) se
elijen tres manzanas al azar y se selecciona aleatoriamente a la mitad de las tiendas ubicadas en
las manzanas elegidas, (c) se seleccionan al azar dos manzanas y se incluyen a todas las tiendas
ubicadas en ellas.

Solución:

a) Se trata de un muestreo aleatorio simple. Para simular la extracción de una muestra de


tamaño 3 se generan números aleatorios menores o iguales a 14; cada uno identifica la tienda
ubicada en el renglón correspondiente de la Tabla 1. Para ello, se hace uso de Excel.

Los números aleatorios que se obtienen son:

b) Se trata de un muestreo en dos etapas con conglomerados de tamaños distintos y que se


representa en la Tabla 2.

TABLA 2 Población

x 11=75 x 41 =75

x 12=3 x 31=60 x 42 =30 x 51=33

j=1,i=1,2 x 32=60 x 43=0 x 52=0

j=3,i=1,2 x 44 =75 x 53=60

x 21=75 j=4, i=1,2,3,4 x 54=45

28
x 22=112 j=5,i=1,2,3,4

j=2,i=1,2

Se utiliza la generación de números aleatorios de manera tal que se originan primeramente


las selección de los conglomerados y enseguida, la de los elementos que les pertenecen.

Para simular la muestra se utilizaron los números aleatorios generados por Excel:

Los números aleatorios obtenidos son:

De estas manzanas seleccionadas tenemos que elegir la mitad de las tiendas. Se generan los
números aleatorios y se encuentra:

c) Se trata de un muestreo de conglomerados en donde los tamaños de estos son distintos. La


muestra simulada se logra mediante la selección aleatoria de los conglomerados. Con Excel
se utiliza “=ALEATORIO.ENTRE(1;5)” y se encuentran las manzanas 4 y 1.

Esto se resumen en la Tabla 3.

TABLA 3 Cuadro resumen


Cas Números aleatorios
Muestra simulada Media muestral
o (número de tienda)
(a) 4, 8, 7 112, 30, 75 (112+30+75)/3= 72.3

29
Conglomerado Elemento
(manzana) (número de tienda)
1 1 75
(b) 3 1 60 (75+60+0+45)/4 = 45
5 2, 4 0, 45
Conglomerado
(c) 4, 1 75, 30, 0, 75, 75, 33 (75+30+0+75+75+33)/6=48
(manzana)

Observe que la media de la población:

718
μ= =51.3
14

está más “cercana de la población” a las medias muestrales obtenidas para los casos (b) y (c) .

Ejemplo 2. Una componente electrónica se fabrica en lotes de 100 cada uno. Para controlar la
calidad de la producción, de cada lote se extraen aleatoriamente 10 unidades en cada una de las
cuales se mide cierta característica X. Este sistema de muestreo fue diseñado de manera óptima
con base en la ecuación (9). Se desea saber si este sistema puede modificarse ventajosamente
admitiendo que el costo total de muestreo (a) permanecerá inalterado, (b) se reducirá en un 50%.

Solución:

a) Dado que en la ecuación (9) k no depende del costo total c , se sigue que k =10
seguirá siendo óptimo independientemente del número K de lotes que se produzcan o, en
otras palabras, “independiente del porcentaje de lotes que se inspeccionen”. Luego si c
permanece constante, el sistema actual, esto es, el inspeccionar 10 componentes en cada lote,
seguirá siendo óptimo.

b) Si c se reduce en un 50% entonces el número k de lotes por muestrear y el total K


de lotes producidos guardarán la relación:

1
2
( K c 1+10 K c 2 )=k c1 +10 k c 2

Por lo que convendrá muestrear:

30
n 1
=
N 2

de lotes producidos y de cada uno de ellos seleccionar aleatoriamente 10 componentes para


ser inspeccionados.

1.1.5. Recolección de datos muestrales


Los métodos que se utilizan para recabar datos son importantes, pues su buen uso redunda en la
calidad del análisis estadístico. El concepto de una muestra aleatoria simple es especialmente
importante, ya que es la forma más comúnmente usada de muestreo.

Fundamentos de la recolección de datos

Los métodos estadísticos se rigen por los datos recabados. Por lo regular, obtenemos datos de dos
fuentes distintas: los estudios observacionales y los experimentos.

DEFINICIONES

En un estudio observacional, vemos y medimos características específicas, pero no


intentamos modificar a los sujetos que estamos estudiando.
En un experimento aplicamos algunos tratamientos y luego procedemos a observar sus
efectos sobre los sujetos. (En los experimentos, los sujetos se denominan unidades
experimentales).

31
Estudios observacionales

Existen varios tipos observacionales donde los investigadores observan y miden características de
los sujetos. Las siguientes definiciones, que se resumen en la Figura 1-1, identifican la
terminología estándar que se utiliza en las revistas científicas para diferentes tipos de estudios
observacionales.

DEFINICIONES

En un estudio transversal, los datos se observan, miden y reúnen en un solo momento.


En un estudio restrospectivo (o de control de caso), los datos se toman del pasado
(mediante el examen de registros, entrevistas y otros recursos).
En un estudio restrospectivo (o longitudinal o de cohorte), los datos se reunirán en el
futuro y se toman de grupos (llamados cohortes) que comparten factores comunes.

32
Figura 1-1. Tipos de estudios observacionales

Errores de muestreo

Sin importar qué tan bien se planee y ejecute el proceso de recolección de muestras, es probable
que ocurra algún error en los resultados.

DEFINICIONES

Un error de muestreo es la diferencia entre el resultado de una muestra y el verdadero


resultado de la población; este error es consecuencia de las fluctuaciones por el azar.

Un error que no es de muestreo sucede cuando los datos muestrales se obtienen, registran
o analizan de forma incorrecta (como cuando se selecciona una muestra sesgada, cuando se
emplea un instrumento de medición defectuoso o cuando se registran los datos de forma
incorrecta).

1.2. MÉTODOS DE MUESTREO NO PROBABILÍSTICO


33
Las muestras no probabilísticas, también llamadas muestras dirigidas, suponen un procedimiento
de selección informal.

A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y


se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que
la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma
probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados
criterios procurando, en la medida de lo posible, que la muestra sea representativa.

1.2.1 Muestreo de conveniencia


Los métodos de muestreo hasta ahora vistos se conocen como técnicas probabilísticas de
muestreo. Los elementos seleccionados de una población tienen una probabilidad conocida de ser
incluidos en la muestra. La ventaja del muestreo probabilístico es que, por lo general, se
identifica la distribución muestral del estadístico muestral correspondiente. La distribución
muestral permite hacer afirmaciones probabilísticas acerca del error al usar los resultados
muestrales para hacer inferencias acerca de la población.

El muestreo de conveniencia es una técnica de muestreo no probabilística. Como el nombre lo


indica, la muestra se determina por conveniencia. Los elementos se incluyen en la muestra sin
que haya una probabilidad previamente especificada o conocida de que sean incluidos en la
muestra. Por ejemplo, un profesor que realiza una investigación en una universidad puede usar
estudiantes voluntarios para que constituyan una muestra; ¿la razón para elegirlos? simple, los
tiene al alcance y participarán como sujetos a un costo bajo o sin costo. De manera similar, un
inspector puede muestrear un cargamento de naranjas seleccionando al azar naranjas de varias de
las cajas. Marcar cada naranja y usar un método probabilístico de muestreo puede no resultar
práctico. Muestras como los paneles de voluntarios en investigaciones sobre los consumidores
son también muestras de conveniencia.

Dichas muestras tienen la ventaja de que es relativamente fácil seleccionar la muestra y recoger
los datos; sin embargo, es imposible evaluar la “bondad” de la muestra en términos de su
representatividad de la población. Una muestra de conveniencia puede o no dar buenos
resultados. Algunas veces los investigadores aplican los métodos estadísticos propios de muestras
probabilísticas a las muestras de conveniencia, con el argumento de que la muestra de
conveniencia se trata como si fuera una muestra probabilística. Sin embargo, estos argumentos
no tienen fundamento y se debe tener cuidado al interpretar los resultados de muestreos de
conveniencia que han sido usados para hacer inferencias acerca de la población.

DEFINICIÓN

34
En el muestreo por conveniencia, simplemente se utilizan resultados que sean muy fáciles
de obtener.

1.2.2 Muestreo subjetivo


Otra técnica de muestreo no probabilística es el muestreo subjetivo. En este método la persona
que más sabe sobre un asunto selecciona elementos de la población que considera los más
representativos de la población. Este método suele ser una manera relativamente fácil de
seleccionar una muestra. Por ejemplo, un reportero puede seleccionar dos o tres senadores
considerando que estos senadores reflejan la opinión general de todos los senadores. Sin
embargo, la calidad de los resultados muestrales depende de la persona que selecciona la muestra.
Aquí también hay que tener mucho cuidado al hacer inferencias acerca de las poblaciones a partir
de muestreos subjetivos.

Glosario

Error muestral. El error que se presenta debido a que se emplea una muestra y no toda la
población para estimar un parámetro poblacional.

Error no muestral. Todos los tipos de errores que no son un error muestral, como errores de
medición, errores del entrevistador y errores de procesamiento.

Estadístico muestral. Característica muestral, por ejemplo, la media muestral x́ , la


desviación estándar muestral s , la proporción muestral ṕ , etc. El valor estadístico
muestral se usa para estimar el valor del correspondiente parámetro poblacional.

Insesgado. Propiedad de un estimador que consiste en que el valor esperado del estimador
puntual es igual al parámetro poblacional que estima.

Muestra. Un subconjunto de la población.

Muestreo aleatorio simple. Poblaciones finitas: muestra seleccionada de manera que cada una
de las muestras de tamaño n tenga la misma probabilidad de ser seleccionada. Poblaciones
35
infinitas: muestra seleccionada de manera que todos los elementos provengan de la misma
población y los elementos se seleccionen de manera independiente.

Muestreo aleatorio simple estratificado. Método probabilístico para tomar una muestra en el
que, primero, se divide la población en estratos y después de cada estrato se toma una muestra
aleatoria simple.

Muestreo con remplazo. Una vez que un elemento se ha incluido en la muestra, se regresa a la
población. Un elemento ya seleccionado para la muestra puede ser seleccionado nuevamente y
puede aparecer más de una vez en la muestra.

Muestreo probabilístico. Todo método de muestreo en el que se puede calcular la probabilidad.

Muestreo no probabilístico. Todo método de muestreo en el que no se puede calcular la


probabilidad de seleccionar una determinada muestra.

Muestreo por conglomerados. Método probabilístico de muestreo en el que primero se divide la


población en conglomerados y después se selecciona uno o más de los conglomerados para la
muestra. En le muestreo por conglomerados en una sola etapa, se toman en la muestra todos los
elementos de cada uno de los conglomerados elegidos; en el muestreo por conglomerados en dos
etapas se toma una muestra de los elementos de cada uno de los conglomerados elegidos.

Muestreo sin remplazo. Una vez que un elemento ha sido incluido en la muestra, se retira de la
población y ya no se selecciona una vez más.

Muestreo sistemático. Método para tomar una muestra en el que el primer elemento se toma
aleatoriamente y después se toma cada k −ésimo elemento.

Muestreo subjetivo. Un método no probabilístico de muestreo en el que los elementos se


seleccionan con base en el criterio de la persona que diseña el estudio.

Parámetro. Característica numérica de una población, por ejemplo, la media poblacional μ ,


la desviación estándar poblacional σ , la proporción poblacional p , etcétera.

Población muestreada. Población de la que se toma la muestra.

36

Você também pode gostar