Escolar Documentos
Profissional Documentos
Cultura Documentos
Si en una investigacin se pudiera abarcar a todos los miembros de una poblacin, la toma
de muestras sera innecesaria, as como los clculos estadsticos de probabilidades para
estimar el grado de representatividad de dicha muestra no tendran sentido, puesto que los
atributos cuantitativos encontrados (si se ha medido bien) al grupo observado sera la
poblacin misma.
El objetivo ms importante de las encuestas por muestreo tiene que ver con la estimacin
de ciertos valores de la distribucin de una variable en la poblacin.
Existen tres situaciones principales en donde es conveniente seleccionar una muestra antes
que llevar a cabo un censo. Ellas son:
1. La poblacin es grande y su estudio completo excede los recursos asignados.
2. Existe suficiente homogeneidad en las unidades poblacionales con respecto a lo
que se requiere medir lo cual permite que una muestra adecuada contenga la
informacin de inters necesaria al estudio.
3. El proceso de seleccin de la muestra es destructivo lo cual obliga al anlisis de
solo una parte de la poblacin.
Poblacin objetivo. Se entiende como conjunto total de objetos (o individuos) bajo estudio
o sobre cuales se desea extender los resultados obtenidos en la muestra. No siempre es
posible tener el acceso a todos los individuos de la poblacin objetivo.
1
Unidad de observacin. Son las unidades que proporcionan la informacin (o que son
medidas).
Unidad de anlisis. Unidades que estn relacionadas con las unidades de observacin y
sobre las cuales se necesita sacar conclusiones sobre algn aspecto particular.
Variables son las caractersticas de inters a estudiar, ellas puede ser cuantitativas
(discretas o continuas) o cualitativas.
Estadstico es una funcin de los valores muestrales (valores obtenidos al registrar las
mediciones de las unidades seleccionadas en la muestra), siendo por tanto una variable
aleatoria, ya que su valor cambia de muestra a muestra con los resultados del proceso de
seleccin. Cuando los estadsticos son usados para estimar los parmetros poblacionales
reciben los nombres de estimadores, y al valor que toma un estimador en una muestra
especfica se le denomina estimacin.
Poblacin Muestra
N Tamao de la n Tamao de la
poblacin de muestra
muestreo
X,Y,Z, Variable a yi Valor de la
medir variable Y para
la i-sima
unidad
elemental
N
Proporcin de n
Proporcin de
y i
A unidades en la y i
a unidades en la
P i 1
poblacin que p i 1
muestra que
N N n n
poseen poseen
atributos atributos
considerados considerados
N n
Y yi Total y yi Total muestral
i 1 i 1
poblacional
N
1 Y 1 n y
Y
N
yi
i 1 N Media y
n i 1
yi
n Media muestral
poblacional
2
S2
1 N
N 1 i 1
yi Y 2
Varianza s2
1 n
yi y
n 1 i 1
2
Varianza
poblacional muestral
S S2 Desviacin s s2 Desviacin
estndar estndar
poblacional muestral
CV
S Coeficiente de cv
s Coeficiente de
Y variacin y variacin
poblacional muestral
N
Covarianza n
Covarianza
( xi X )( yi Y ) poblacional (x i X )( y i Y ) muestral
S xy i 1
s xy i 1
N 1 n 1
S xy Coeficiente de s xy Coeficiente de
x, y x, y
Sx Sy correlacin sx s y correlacin
poblacional muestral
N Total de n Total de
A yi elementos en la a yi elementos en la
i 1 i 1
poblacin que muestra que
poseen el poseen el
atributo atributo
considerado considerado
2.4. Diseos Muestrales Bsicos
Los mtodos de muestreo probabilstico considerados bsicos para las poblaciones finitas
pueden combinarse, originando de esta manera los mtodos polietpicos, que son ms
complejos de estudiar que los primeros. Entre los diseos muestrales bsicos se encuentran:
En este mtodo todas las muestras posibles, de un mismo tamao n, tienen la misma
probabilidad de ser seleccionadas, lo cual conlleva a que todos los elementos de la poblacin
tambin tengan la misma probabilidad de ser seleccionados. Cada elemento slo puede ser
seleccionado una vez como mximo. La importancia del diseo radica en que sirve de base para
la definicin de muchos otros. Sus principales ventajas son: * Ms econmico que otros
procedimientos aleatorios; * Asegura la equiprobabilidad de la eleccin, * Es de fcil
aplicacin cuando se cuenta con un marco muestral identificado. Desventajas:* No provee
suficientes casos de grupos minoritarios.
3
Este procedimiento consiste en subdividir previamente la poblacin en subpoblaciones o
estratos. Una vez hecho esto se toma una muestra aleatoria simple de cada estrato. La
asignacin del tamao de muestra a seleccionar de cada uno de ellos se hace teniendo en cuenta
distintos factores como son, por ejemplo, el tamao de la subdivisin, la homogeneidad de los
elementos dentro de ella, el costo de seleccionar cada unidad por estrato y/o la importancia que
pueden tener las estimaciones para los diferentes estratos.
En este caso se seleccionan las unidades a intervalos iguales pero tomando un punto de partida
(seleccin del primer elemento) aleatorio. Es de gran utilidad para poblaciones que estn
originalmente ordenadas ya que ello facilita la recoleccin de la informacin disminuyendo los
costos. Por otra parte, el procedimiento de seleccin permite una distribucin espacial de la
muestra conveniente en muchas investigaciones.
En la tabla 2 se resumen las frmulas utilizadas para determinar los errores de estimacin en el
muestreo aleatorio simple
Tabla 2. Frmulas
4
t 2s2 La primera aproximacin del tamao de
n0 , siendo d t v( y ) muestra (en estimacin de media)(t es el
d2
coeficiente de confianza y d el semi ancho del
intervalo de confianza)
n0 Tamao de muestra definitivo (en estimacin
n de media)
n
1 0
N
PQ N n Varianza verdadera del estimador de la
V ( p)
n N 1 proporcin
pq N n Estimador de la varianza del estimador de la
v( p)
n 1 N proporcin
) N 2V ( p )
V (A Varianza verdadera del estimador del nmero
de elementos que poseen la caracterstica que
se investiga
) N 2 v( p )
v( A Estimador de la varianza del estimador del
nmero de elementos que poseen la
caracterstica que se investiga
t 2 PQ Tamao de la muestra (primera aproximacin)
n0
d2
siendo d t V ( p)
n0 Tamao de muestra definitivo
n
n 1
1 0
N
La Situacin
Supongamos que se quiere estudiar la gestin realizada por grupo de mdicos durante un
tiempo. Las consultas ofrecidas fueron registradas en unos formatos o planillas que constan de
42 renglones, en cada uno en los cuales se anotan los datos de los pacientes que llegan a
consultarse (nombre, edad, sexo y diagnstico presuntivo).
Segn lo establecido, cada mdico al comenzar su turno deba iniciar escribiendo en una
planilla nueva y continuar con otra slo cuando hubiese atendido 42 pacientes (es decir
completado los 42 renglones de una planilla); una vez concluido el turno, las planillas (o la
planilla) utilizadas se archivan. Al final de periodo estudiado se han acumulado 6760 planillas.
Naturalmente, muchos formatos tienen registrados menos de 42 individuos, ya sea porque el
turno concluy antes de que se completaran los renglones disponibles o bien porque uno o ms
renglones fueron desechados como consecuencia de errores advertidos en el proceso de
inscripcin.
Tamao de la Muestra.
5
Supongamos que se plantea que la precisin no tiene que ser mayor que le brinda un error
relativo del 5%. Esto quiere decir que si el verdadero valor del total de consultas fuese, por
ejemplo, 236600, el error con que se dara la estimacin ascendera a unas 11830 consultas. La
confiabilidad exigida considermosla, como es usual, igual al 95%. Para poder aplicar la
frmula
n0 Z 12 C 2
n
n donde n0 2
, Er-error relativo
1 0 E 2
N r
E( x)
El error relativo se relaciona con el error de estimacin as: E r ( x )
x
S
Nos hace falta tener una idea del valor del coeficiente de variacin C . Como no hay
X
ninguna referencia previa en este terreno de que podamos valernos, procuramos hacer
algunas consideraciones tericas. Si la distribucin de X (el nmero de consultas por
planilla) fuese uniforme, podramos calcular el valor de C; en efecto, de la teora de
distribuciones tenemos que si x se distribuye uniforme entre A y B se tiene
A B ( B A) 2
E ( x) y V ( x)
2 12
La Muestra
Supongamos que al seleccionar dicha muestra, se obtuvieron los resultados que se resumen
en la tabla 3.
Tabla 3. Distribucin del nmero de renglones ocupados por planilla para 400 planillas
tomadas al azar
6
6 16 27 10
7 7 28 9
8 11 29 9
9 12 30 2
10 7 31 4
11 5 32 10
12 10 33 6
13 9 34 8
14 4 35 11
15 3 36 9
16 8 37 8
17 5 38 13
18 6 39 11
19 10 40 16
20 7 41 14
21 1 42 28
La Estimacin
X i f i 8496 X 2
ii f i 262126
8496
De modo que X 21.24 y
400
X N X (6760)(21.24) 143582 .
O sea, esta muestra permite decir que el nmero estimado de consultas registradas es
143582.
n
1 1
s2 ( X i2 nx 2 ) (262126 ( 400)(21.44) 2 ) 2204.7
n 1 399
7
Ahora puede darse un intervalo con confiabilidad del 95% para el parmetro X utilizando:
" 2
X Z 1 N S p (x
2
(134.389 , 152.775).
Nota.
s 204.7
Puede observarse ahora que la estimacin de C es 0.674 o sea un nmero
x 21.24
mayor que el obtenido a travs de nuestra especulacin original (que fue 0.526). El efecto
de esta subestimacin es que el error cometido resulta mayor que el previsto. En efecto, se
haba planificado n tal que Er no fuese mayor que 0.05 y aqu tenemos
e( x ' ) 9193
0.064.
x' 143582
Del ejemplo se desprende que debe procurarse una estimacin con el nivel de precisin
previsto y para ello tomar un tamao muestral adecuado pero si, por alguna razn (en este
caso, que la prediccin de la variabilidad relativa fue ligeramente incorrecta) esto no se
lograse, queda una ventaja de vital importancia: puede calcularse la magnitud efectiva del
error en que se incurri. Asimismo, para la estimacin de cualquier otro parmetro que con
esa muestra quiera investigarse puede calcularse el error aunque en la definicin del tamao
de la muestra no haya influido ese propsito.
Otra Estimacin.
Supongamos, por ejemplo, que hay inters en conocer el porcentaje de planillas para las
que se utilizan menos de la mitad de los renglones (objetivo que quiz se desprenda del
hecho de analizar la conveniencia de modificar el sistema en caso de que se est
desperdiciando material).
El problema es entonces estimar la proporcin p de planillas con tal caracterstica. De la
tabla 3 se obtiene que el total de planillas con x i<21 es igual a 212, por lo tanto
212 pq n
p 0.53 es el estimador adecuado de p. Utilizando v ( p ) (1 ) tenemos
400 n 1 N
que v(p)=0.000587
de donde ee(p)=0.048 0.05; quiere decir que p se halla entre
0.53-0.05=0.48 y 0.53+0.05=0.58
Con confiabilidad del 95%; o dicho de otro modo, podemos estar virtualmente seguros de
que las planillas usadas en menos de la mitad constituyen entre el 48% y el 58% del total.
8
2.8. Caso de muestreo aleatorio estratificado con asignacin igual.
Consideraciones previas
La estratificacin logra:
c. allegar informacin detallada por grupo o estrato especfico, ya que se logra una muestra
independiente de los dems estratos. De cada uno se obtienen promedio y varianzas
separados y mediante la ponderacin, se calcula el estimador del promedio y la varianza
para la poblacin.
Ventajas administrativas.
c. Muestras de asignacin o afijacin ptima, cuyo tamao estar determinado por los
costos y el grado de variabilidad en tal forma que el error de estimacin sea mnimo
para un costo total dado.
Ejemplo
Ilustraremos este tipo de muestreo para el clculo del tamao de muestra de afijacin igual
con el siguiente ejemplo:
9
Consideramos una poblacin objetivo conformada por 355 familias. La variable de inters
ser los ingresos de esa familia; se reconocen los siguientes estratos de acuerdo con los
niveles de ingreso:
Estrato I: N1 = 162
N 1 162
W1 0.4563 0.46 o 46%
N 355
N 132
W2 2 0.3718 0.37 o 37%
N 355
N3 61
W3 0.1718 0.17 o 17%
N 355
1 Wh2 S h2 1
n0
V
Wh
o n0
V
W h S h2
2
d2 d
siendo : V 2
z z
n0
y n
n
1 0
N
Donde
10
una encuesta preliminar. Supongamos, arbitrariamente, que el tamao de la muestra
preliminar es del 4% del tamao poblacional.
14.2
n pre lim inar 4.73 5
h
3
n1 5; n 2 5 y n3 5; n pre lim inar 15
Con los anteriores tamaos para la encuesta preliminar, seleccionamos 5 unidades en cada
uno de los estratos poblacionales, utilizando la tabla de nmeros aleatorios o la calculadora.
ESTRATO I
ESTRATO II
A continuacin se calcula la varianza y la media de ingreso por familia en cada uno de los
estratos.
11
x1 12.1 x 2 20.14 x3 31.6
s1 3.86 s 2 0.65 s 3 4.76
s12 14.89 s 22 0.42 s 32 22.67
n1 5 n2 5 n3 5
1
n0
V
Wh S h2
1
n0 0.46(14.89) 0.37(0.42) 0.17(22.67)
0.22
10.86
n0 49.36; siendo n igual :
0.22
n0 49.36
n 44 familias
n0 49.36
1 1
N 355
n 44
15; n1 15 n2 15 n3 15
n 3
En los casos prcticos el utilizar modelos simples de lo real facilita los procedimientos
tcnicos para la resolucin de los problemas, sin embargo, la simplificacin de los modelos
pueden apartarse sustancialmente de las condiciones del problema a tratar.
El trabajar con modelos que se adaptan de mejor forma a las situaciones, como ya se dijo,
implica complejidad en los mtodos de tratamiento y ello sugiere un mayor esfuerzo de
comprensin por parte del investigador.
12
El clculo del tamao de muestras para estimar parmetros de proporcin con distribucin
multinomial es una situacin cotidiana en el diseo de las encuestas. Cuando se realiza este
tipo de encuestas el objetivo se debe centrar en calcular el intervalo de confianza para cada
una de las categoras de la variable. Sin embargo, en el trabajo cotidiano este hecho
frecuentemente se pasa por alto, ya que en la prctica, el procedimiento utilizado consiste
en considerar a cada categora versus el resto, como si se tratara de una variable binomial y
se utiliza este hecho para determinar un conjunto de intervalos de confianza para cada una
de las proporciones observadas en las celdas de manera independiente.
13