Você está na página 1de 30

A.

Morillas: Muestreo en poblaciones finitas

MUESTREO EN POBLACIONES FINITAS Antonio Morillas1

1 Conceptos estadsticos bsicos 2 Etapas en el muestreo 3 Tipos de error 4 Mtodos de muestreo 5 Tamao de la muestra e inferencia 6 Muestreo en poblaciones finitas 6.1 Muestreo aleatorio simple 6.2 Muestreo aleatorio estratificado

Estos apuntes de clase incorporan diversas sugerencias realizadas por los profesores M. Aguilar, A. Caparrs y B. Daz. En sus primeras pginas, especialmente, se recogen lugares comunes acerca del muestreo tratados en diversos manuales.

A. Morillas: Muestreo en poblaciones finitas

Muestreo en poblaciones finitas

1. Conceptos estadsticos bsicos


A lo largo del curso se ha estudiado como hacer inferencia acerca de la poblacin partiendo de la informacin suministrada por la muestra. Pero casi nada se ha dicho an sobre dos aspectos importantes del proceso de inferencia: como seleccionar los elementos u observaciones de una muestra. como proceder en esa seleccin y cul es su tamao adecuado, si la poblacin no es tan grande como se ha venido admitiendo hasta ahora (infinita). Se ha visto a lo largo de la asignatura como la ciencia estadstica es una herramienta fundamental en la investigacin econmica y empresarial, dado que permite conocer las caractersticas de poblaciones concretas, contrastar hiptesis sobre ellas o realizar predicciones sobre su evolucin. Dentro de este proceso un componente de gran ayuda para el investigador, que an no se ha estudiado, es la realizacin de encuestas. Este va a ser el objeto bsico de la presente leccin. No obstante, antes de meternos en ello, es conveniente recordar algunos conceptos bsicos:

a) Poblacin. Colectivo objeto del estudio formado por un conjunto de elementos con caractersticas similares y sobre el que se pretenden inferir regularidades. b) Muestra. Subconjunto de la poblacin o colectivo que se investiga. Debe ser representativa del conjunto de la poblacin. c) Individuos. Cada uno de los elementos que forman la poblacin. Los individuos pueden ser: Personas fsicas: por ejemplo, un cliente de una empresa. Personas jurdicas o sociedades: por ejemplo, una empresa hotelera. Unidades familiares: por ejemplo, una familia de turistas.

d) Variables cuantitativas. Caracteres que se observan en los individuos y que son susceptibles de tener valores numricos: por ejemplo, edad y gasto mensual del encuestado.

A. Morillas: Muestreo en poblaciones finitas

e) Atributos. Son variables cualitativas, que no son susceptibles de tomar valores y se expresan mediante modalidades: por ejemplo, sexo del encuestado, medio de transporte al destino, nivel de estudios.

2. Etapas en el muestreo.
Antes de preguntarnos de qu manera se toma una muestra de una poblacin, quizs debamos de cuestionarnos sobre la necesidad de trabajar con muestras. La alternativa sera tratar de obtener la informacin para todos y cada uno de los elementos de la poblacin, es decir, trabajar con censos ms bien que con encuestas. Pero recordemos que hay, al menos, tres buenas razones para que una muestra sea generalmente preferida a un censo: El coste, ya que un censo ser mucho ms caro y, a veces, incluso, prohibitivo. El tiempo disponible, cuando en muchos casos la informacin se necesita de forma ms o menos urgente. La precisin que presumiblemente se ganara con un censo no compensa la prdida en tiempo y dinero, pudindose alcanzar un nivel razonable de precisin con un adecuado mtodo de muestreo.

Los pasos a seguir dentro de un proceso de muestreo son: 1.-Definir la informacin que se necesita. Esto supone en la prctica la bsqueda de un equilibrio entre las preguntas acerca de la cuestin principal o motivo de la encuesta y lo que puede ser complementario, introducido con afn de aprovechar el esfuerzo econmico y de dedicacin que supone una encuesta. 2.-Determinar la poblacin a muestrear y comprobar si existe un listado. Hay que definir la poblacin de referencia de forma adecuada, pues, aunque el mtodo seguido sea correcto, las conclusiones no sern vlidas si la poblacin no ha sido elegida de forma adecuada. Por ejemplo, encuestas de opinin entre los turistas procedentes de Holanda, no se pueden extrapolar para definir la opinin del conjunto de los potenciales turistas de toda la Unin Europea. Como se ha dicho anteriormente, el paso previo a la realizacin de cualquier proceso de muestro se centra en la concrecin de los objetivos del estudio, definiendo as, implcitamente, las caractersticas y la naturaleza de la poblacin a analizar. Esta parte de la investigacin requiere una definicin de las variables a utilizar en el mbito poblacional, sus caractersticas y su periodo de referencia. As, por ejemplo, si se quieren estudiar las caractersticas de la demanda turstica de las familias procedentes en un determinado pas de la UE, es evidente que la poblacin objeto de estudio es exclusivamente la formada por las familias residentes en el mismo.

A. Morillas: Muestreo en poblaciones finitas

De acuerdo con los objetivos establecidos en la investigacin, debe obtenerse toda la informacin correspondiente a esas familias, as como los movimientos tursticos realizados por ellas. Por tanto, las variables a las que se referir el estudio sern una serie de caractersticas sociodemogrficas, econmicas y culturales relativas a esas familias. Del mismo modo, se debe definir la cobertura o mbito de objeto del estudio, tanto temporal (periodo en que es interesante el estudio), como geogrfica (delimitacin geogrfica del trabajo). Cuando la poblacin est bien definida es relativamente fcil obtener una muestra representativa. El problema surge cuando la poblacin no est bien delimitada o no es conocida. Por ejemplo, esto ocurrira si el objetivo del estudio fuera la poblacin futura de visitantes a un parque temtico que se acaba de construir. En este caso es evidente que se desconoce la posible poblacin, as como las caractersticas que la definen. Por ello, el trabajo de obtencin de la muestra resulta ms complejo, y sera imposible de realizar si no fuera con la inclusin de determinados supuestos en el anlisis. La definicin de las unidades de estudio es un paso necesario en esta etapa del proceso. Las unidades de estudio pueden ser los individuos (los turistas que llegan a un balneario) o bien grupos de individuos con algunas caractersticas comunes (las familias u hogares de un determinado pas, los jvenes, los matrimonios sin hijos...). El resultado del estudio, como se ha dicho, depende en gran medida de la adecuacin de la muestra a los objetivos y al marco de la investigacin. Es por ello que en esta fase se deben recoger explcitamente todos los posibles casos poblacionales que se pretenden analizar. Por ejemplo, si lo que se quiere estudiar son las caractersticas de la demanda potencial de un determinado destino turstico es evidente que no se puede obtener una muestra slo de los turistas que viajan a ese destino. Esto supondra dejar de lado una parte importante de informacin que proporcionaran otros turistas que estaran dispuestos a viajar a ese destino, si las condiciones variaran. Por el contrario, si el objeto del estudio es analizar las circunstancias que permiten la fidelizacin de los turistas a un destino concreto, la muestra debera ser tomada exclusivamente entre aquellos que hayan visitado ms de una vez dicho destino. 3.-Definicin del mtodo a seguir para tomar la muestra y su tamao. No hay un mtodo ptimo de llevar a cabo la seleccin de los elementos de la muestra. Depender, generalmente, del problema que nos ocupa y de los recursos disponibles. El ms conocido es el muestreo aleatorio simple, en el que cada uno de los n elementos de la muestra tiene la misma probabilidad de ser elegido. Sin embargo, hay circunstancias en que pueden ser mas indicados otros tipos de muestreo. Por ejemplo, si deseamos recabar informacin acerca de la opinin de los visitantes de un destino turstico, no sera lgico hacer un muestreo aleatorio simple, sino que lo ms razonable sera hacer un muestreo por estratos, teniendo en cuenta caractersticas diferenciadoras como podran ser la edad, el pas de origen o el nivel de renta.

A. Morillas: Muestreo en poblaciones finitas

Otro aspecto importante, que veremos ms adelante, ser el tamao de la muestra, que depender del grado de fiabilidad requerido y del coste. 4.-Diseo adecuado de la forma de obtener la informacin (cuestionario). Los cuestionarios son la serie de preguntas que constituyen el tema de la encuesta. La elaboracin de un cuestionario adecuado resulta fundamental para la obtencin de la informacin necesaria para llevar a cabo el estudio. Las caractersticas de un buen cuestionario han de ser: Objetividad: el entrevistador nunca debe influir en la opinin del entrevistado. Claridad: es importante utilizar un lenguaje fcilmente asimilable por el entrevistado. Precisin: hay que definir bien las cuestiones y evitar ambigedades para obtener la informacin que se busca. Correccin: ha que evitar preguntas que por su contenido o su lenguaje puedan molestar al entrevistado. Duracin limitada: hay que reducir el tamao del cuestionario lo mximo posible, evitando preguntas repetidas o excesivamente largas, para impedir el cansancio y la monotona en las respuestas del entrevistado. Las tipologas de preguntas que nos podemos encontrar son: Pregunta abierta: el entrevistado tiene libertad para contestar. Pregunta cerrada: el entrevistado debe contestar seleccionando una o varias opciones de las que se le proponen. La pregunta cerrada facilita la tabulacin posterior de las respuestas. Pregunta mixta: por ejemplo, una pregunta cerrada donde una de las opciones es una pregunta abierta de respuesta libre. Las diferentes formas de realizar la entrevista son: Entrevista personal: el entrevistador y el entrevistado mantienen un trato directo. Entrevista telefnica. Entrevista postal: envo del cuestionario por correo. Entrevista virtual (uso de Internet).

Desde el punto de vista de la inferencia estadstica, hay que tratar de asegurar dos aspectos claves: Que el nmero de no respuestas no sea alto, para evitar que los cuestionarios de los que responden dejen de ser representativos del conjunto de la poblacin. El nmero de preguntas y la forma en que se realiza la encuesta (entrevista personal, correo, telfono, etc.) tiene mucho que ver con la tasa de no respuesta. Conviene analizar la falta de respuesta con objeto de ver la

A. Morillas: Muestreo en poblaciones finitas

representatividad que podemos seguir adjudicando a la muestra (caractersticas o patrn de comportamiento de los elementos no observados por falta de respuesta). Que las respuestas sean honestas y precisas. La tcnica (arte) en el diseo del cuestionario y en la realizacin de la entrevista, o forma de hacer la pregunta, es esencial en este punto. 5.-Uso de la muestra para hacer inferencia. Se comienza con la preparacin y anlisis de los datos: codificacin, depuracin y anlisis descriptivo inicial. Posteriormente, se entra en la inferencia, de la que ya se han estudiado diversas formas de realizarla. A lo largo de esta leccin, no obstante, trataremos algunos mtodos de inferencia para tipos particulares de muestreo. 6.-Obtencin de conclusiones acerca de la poblacin. Se trata de resumir y presentar la informacin obtenida: estimacin por intervalos, tablas resumen, presentaciones grficas, etc. Una vez destacadas las conclusiones del estudio, puede argumentarse como actuar y, posiblemente, sugerir la obtencin posterior de nueva informacin de inters aparecida a lo largo del estudio. En este sentido, muchas veces, la aparicin de cuestiones importantes no previstas en el proceso, puede servir de estmulo para posteriores estudios de la poblacin.

3. Tipos de error
Nunca sabremos, ciertamente, cul es el verdadero valor de cualquier parmetro poblacional. Una fuente posible de error procede del hecho de que no observamos toda la poblacin, y le llamamos error de muestreo, de azar o de estimacin. Este tipo de error es inevitable, ya que siempre habr diferencia entre los valores medios de la muestra y los valores medios de la poblacin. La magnitud de este error depende del tamao de la muestra (a mayor tamao de muestra menor error) y de la dispersin o desviacin estndar del estimador (a mayor dispersin mayor error).La Estadstica estudia de qu forma se puede tratar ese tipo de error o, al menos, cmo se puede incorporar en el proceso de inferencia (intervalos de confianza, nivel de significacin, etc.). Sin embargo, hay otras posibles fuentes de error que no pueden ser tratadas de la misma forma. Los llamaremos errores ajenos al muestreo y algunos de ellos son: Definicin incorrecta de la poblacin de referencia. Respuestas imprecisas o falsas. Normalmente proceden de falta de claridad en el cuestionario y de la formulacin de preguntas delicadas para el entrevistado. Falta de respuesta. Este hecho puede producir estimaciones sesgadas, ya que los que respondieron pueden no representar fielmente a la poblacin. Por eso, en este caso, conviene analizar las caractersticas de los que no lo hicieron (posible sesgo) y compararlas con los que s lo hicieron, para ver si son homogneos o no ambos grupos.

A. Morillas: Muestreo en poblaciones finitas

Sesgo en la seleccin de los elementos de la muestra. Por ejemplo, cambio de un vecino por otro ausente, desatendiendo el proceso de muestreo estipulado.

Errores de manipulacin, tabulacin y clculo.

No existe un procedimiento general para evitar y analizar tales errores. Pero el investigador debe tenerlos muy presentes para tratar de minimizarlos. Es preciso recabar toda la informacin disponible. Puede hacerse una encuesta previa para detectar posibles fallos.

4. Mtodos de muestreo
Los mtodos de muestreo pueden ser de dos tipos: aleatorios y no aleatorios, dependiendo del mtodo de obtencin de la muestra. En los primeros, la seleccin de los elementos de la muestra es aleatoria e independiente de la opinin de cualquier persona (investigador o entrevistador). En los segundos, esta condicin no siempre se cumple. En ambos casos, pueden seleccionarse elementos de la poblacin (por ejemplo, empleados) o grupos de elementos (por ejemplo, familias). De esta forma, podemos establecer la siguiente clasificacin de los mtodos de muestreo:

Figura 1. Principales mtodos de muestreo

Muestreos aleatorios

Unidad muestral elemental

Unidad muestral grupo

Muestreo aleatorio simple

Muestreo aleatorio sistemtico

Muestreo aleatorio estratificado

Muestreo por reas y conglomerados

Muestreo por etapas

Muestreos no aleatorios Muestreo por cuotas Muestreo de juicio u opinin Muestreo intencional Muestreo por bola de nieve

A. Morillas: Muestreo en poblaciones finitas

Una clasificacin general de estos mtodos puede verse en la Figura 1. A continuacin, vamos a realizar un breve recorrido de los mismos, pero centrndonos fundamentalmente en los definidos como aleatorios. 1) Muestreo aleatorio. Muestreo aleatorio simple. Se caracteriza porque cada elemento de la poblacin tiene la misma probabilidad de ser elegido. Si se dispone de una lista de los elementos de la poblacin, la seleccin de una muestra aleatoria simple es muy sencilla. Supongamos que numeramos los elementos de la poblacin de 1 a N, una muestra aleatoria simple puede obtenerse colocando N bolas numeradas en una caja, mezclndolas, y extrayendo n de ella, o bien, tambin puede utilizarse una tabla de nmeros aleatorios, ordenador o simple calculadora de mano (tecla RANDOM RND). Muestreo aleatorio sistemtico. Si existe una lista de los elementos de la poblacin en la que aparecen ordenados y el orden existente no es un factor distorsionante de la aleatoriedad para el tema bajo estudio (de ser as habra sesgo en la seleccin) se utiliza con mayor frecuencia el muestreo sistemtico. Se trata de seleccionar un primer elemento al azar (arranque aleatorio) entre 1 y p, siendo p=N/n, y, si este elemento es el k-simo, los dems se obtienen sumndole p al inmediato anterior: k, k+p, k+2p, ....... El mtodo garantiza que aparezcan elementos de todas las clases, por lo que genera muestras ms representativas que el aleatorio simple. Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. El riesgo de este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (p) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre diferentes listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con p=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos. Otro ejemplo: si seleccionamos una muestra de ocupacin hotelera basada en una serie de datos mensuales para distintos aos y p=12, siempre se obtendra la observacin correspondiente al mismo mes, por lo que la muestra estara afectada por el sesgo propio del factor estacional encontrado en el arranque aleatorio (al alza en meses de alta ocupacin, a la baja en el resto) Muestreo estratificado. Hace referencia a poblaciones con caractersticas diferentes, en las que existen estratos (grupos) homogneos con respecto al carcter que se investiga y que, por tanto, deben ser analizados de forma diferente, ya que pueden obtenerse estimaciones ms precisas (menos errores) tomando una muestra
8

A. Morillas: Muestreo en poblaciones finitas

aleatoria en cada estrato y, adems, se garantiza que todos los estratos (subpoblaciones, en definitiva) estn representados. Cada estrato tiene elementos que son homogneos entre s y heterogneos respecto a los dems estratos. Por ejemplo, si se quieren estudiar caractersticas de los hoteles de una determinada provincia, se tienen como estratos los hoteles de 5 estrellas, de 4 estrellas, de 3 estrellas, etc. y se utilizar un muestreo estratificado que nos asegure una adecuada representacin de todos los estratos. Muestreo por conglomerados y por reas. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que llamamos conglomerado (familias, empresas, municipios, etc.). El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto nmero de conglomerados (el necesario para alcanzar el tamao muestral establecido) e investigar despus todos los elementos pertenecientes a los conglomerados elegidos. En el caso particular de que los conglomerados sean reas geogrficas bastante frecuentehablaremos de muestreo por reas. Muestreo polietpico o por etapas. El muestreo polietpico es una generalizacin del muestreo por conglomerados en el que se intenta reducir el coste al mnimo. En la primera etapa se selecciona un nmero determinado de conglomerados (unidades primarias de muestreo), por ejemplo, provincias. En la segunda se seleccionan conglomerados ms pequeos pertenecientes a los anteriores (unidades secundarias de muestreo), por ejemplo, municipios. Y as sucesivamente (procedimiento de embudo) hasta llegar a los elementos de la poblacin que van a ser observados (unidades ltimas). Slo necesitamos, por tanto, contar con un listado de los elementos de esta ltima etapa. Como ejemplo prctico, la Encuesta de Poblacin Activa (EPA), una investigacin por muestreo de periodicidad trimestral realizada por el INE desde 1964 dirigida a analizar la actividad laboral, utiliza un muestreo en dos etapas con estratificacin en la primera etapa. El INE selecciona como unidades muestrales primarias alrededor de 3.000 secciones censales de entre las ms de 30.000 en que esta dividida Espaa2. En cada una de estas secciones censales se entrevistan un promedio de 20 viviendas familiares (unidades muestrales secundarias), obtenindose una muestra de aproximadamente 64.000 viviendas para las que se recoge informacin para todos sus miembros, lo que produce una muestra final en torno a las 200.000 personas. Como resumen, en trminos generales, las ventajas e inconvenientes de los distintos tipos de muestreo aleatorio se presentan en la Tabla 1:

Una seccin censal es una unidad territorial que se establece con criterios operativos para el trabajo de campo en las operaciones estadsticas, mediante la subdivisin de los distritos de los municipios atendiendo fundamentalmente al volumen de poblacin. En esta etapa el diseo de la EPA estratifica las secciones censales utilizando un doble criterio: geogrfico y socioeconmico.

A. Morillas: Muestreo en poblaciones finitas

Tabla 1: Ventajas e inconvenientes de los diferentes tipos de muestreo aleatorio


CARACTERISTICAS VENTAJAS INCONVENIENTES

Se selecciona una muestra de tamao n de Aleatorio simple una poblacin de N unidades, cada elemento tiene una probabilidad de inclusin igual y conocida de n/N.

Sencillo y de fcil comprensin.

Requiere que se posea de antemano un listado completo de toda la poblacin. Caro.

Sistemtico

Se necesita un listado de los N elementos de Fcil de aplicar. Cuando la poblacin est ordenada la poblacin. Tras determinar el tamao siguiendo una tendencia muestral n, se define un valor p= N/n. Se conocida, asegura una cobertura elige un nmero aleatorio, k, entre 1 y p (k= arranque aleatorio) y se seleccionan los de unidades de todos los tipos. elementos de la lista que ocupan los lugares k, k+p, k+2p, ....

Si la constante de muestreo est asociada con el fenmeno de inters, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de seleccin

Estratificado

En ciertas ocasiones resultar conveniente estratificar la muestra segn ciertas variables de inters. Para ello debemos conocer la composicin estratificada de la poblacin.

Tiende a asegurar que la muestra represente adecuadamente a la poblacin en funcin de las variables seleccionadas. Estimaciones ms precisas. Su objetivo es conseguir una muestra lo ms semejante posible a la poblacin en lo referente a las variables estratificadoras.

Se ha de conocer la distribucin en la poblacin de las variables utilizadas para la estratificacin.

Se seleccionan aleatoriamente cierto Conglomerados- nmero de conglomerados y se investigan todos los elementos de cada uno de ellos. El Etapas muestreo por etapas es una generalizacin, que va de ms grandes a ms pequeos. Se realizan varias fases de muestreo sucesivas.

Es muy eficiente cuando la poblacin es muy grande y dispersa. No es preciso tener un listado de toda la poblacin, slo de las unidades ltimas de muestreo. Menor coste.

El error estndar es mayor que en el muestreo aleatorio simple o estratificado. El clculo del error estndar es complejo.

2) Muestreo no aleatorio A veces, para estudios exploratorios, el muestreo aleatorio resulta excesivamente costoso y se acude a mtodos no aleatorios, aun siendo conscientes de que no son adecuados para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad de se elegidos. Slo comentaremos aqu el muestreo por cuotas y el de opinin. Muestreo por cuotas. Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o "adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul.

10

A. Morillas: Muestreo en poblaciones finitas

En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas determinadas condiciones (variables de control), por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en Mlaga. Siempre que se ajuste a las cuotas fijadas, el entrevistador tiene libertad para elegir a los entrevistados. Este mtodo se utiliza mucho en las encuestas de opinin. Muestreo de juicio o de opinin. Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Para la obtencin de una muestra mediante este mtodo se puede acudir a criterios especficos de los investigadores o bien requerir las opiniones de expertos en la materia. Por ejemplo, cuando el inters del estudio se centra en comparar las caractersticas diferenciadoras de los clientes que han presentado cierta insatisfaccin en el servicio respecto a aquellos otros que no, se determina a juicio del investigador un nmero predeterminado de encuestas a los clientes satisfechos y otro nmero de encuestas a clientes insatisfechos.

5. Tamao de la muestra e inferencia.


La muestra debe reproducir las caractersticas del universo o poblacin. Hay dos cuestiones bsicas: la primera, sobre la cantidad de elementos que debe incluir la muestra y, la segunda, hasta qu punto puede generalizarse a la poblacin el resultado obtenido en ella. Ambas cuestiones conducen al problema de la exactitud o precisin de la estimacin del parmetro desconocido. El objetivo es no incurrir en errores a la hora de obtener los resultados. Pero como los errores son inevitables, lo importante entonces es minimizarlos. Una vez especificadas las caractersticas que ha de tener la muestra, hay que determinar su tamao (n), de forma que sea suficientemente representativa de la poblacin y que asegure, para un nivel de confianza (1-) dado, un error muestral () mximo permitido. La poblacin puede ser infinita (a veces, suele considerarse infinita cuando tiene ms de 100.000 elementos) o de tamao finito N, que es lo ms general. Vamos a ver, como introduccin general al caso ms real de poblaciones finitas, la forma en que se puede tratar este tema cuando la poblacin se supone infinita. Caso de la media: El error muestral se define como la diferencia entre el verdadero valor del parmetro y el arrojado por su estimador para la muestra en cuestin:

= x
Recordemos que un intervalo de confianza del 100(1-) % para la media, en caso de normalidad, vendra dado por:

11

A. Morillas: Muestreo en poblaciones finitas

x z1 / 2 x x + z1 / 2 x

x z1 / 2 x x =

Se desprende de la anterior expresin que siempre son el nivel de confianza y el error estndar o desviacin tpica del estimador del parmetro desconocido los que determinan la amplitud del error que cometemos al estimar dicho parmetro con una muestra de tamao n. El error mximo para una muestra de tamao n, cuando se estima la media en una poblacin normal con una confianza del 100(1-) %, sera, por tanto:

= x = z1 / 2

En esta expresin, es la desviacin tpica poblacional, x la media de la muestra y la media poblacional. Obsrvese una cuestin que va a ser muy importante desde un punto de vista conceptual: dado un nivel de confianza (z, en definitiva), otorgar un determinado valor al error mximo que se puede cometer, equivale exactamente a fijar la varianza del estimador. Despejando, resulta que el tamao de la muestra viene dado por la siguiente expresin:

n=

z12 / 2 2

Recordemos que z1-/2 es un valor (percentil) de la distribucin normal tipificada que acumula a su izquierda una probabilidad de (1-/2), o lo que es igual, /2 a su derecha. Este valor es de 1,96 para un nivel de confianza del 95 %. Es bastante frecuente redondear los valores del percentil de Z a z =2 y a z =3, siendo entonces del 95,5% y 99,5%, respectivamente, los correspondientes niveles de confianza. Para el primer caso, por ejemplo, el tamao de la muestra vendra dado por la expresin:

n=

4 2

En la mayora de los casos se desconoce el valor de , por lo que es necesario establecer un proceso de muestreo previo con informacin ms reducida (muestra piloto) y a partir de ah estimar la varianza , o bien utilizar los resultados obtenidos en otro estudio.

12

A. Morillas: Muestreo en poblaciones finitas

Ejemplo: Para llevar a cabo el anlisis de un destino turstico con alta afluencia de turistas (200.000, en concreto) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error mximo en el gasto medio de 30 euros. Suponiendo una desviacin estndar de la poblacin de 200 euros y un nivel de confianza del 95%, obtenga el tamao adecuado de la muestra.

Solucin: Al ser una poblacin mayor de 100.000 elementos, vamos a tratar el tema, por ahora, como si se tratase de una poblacin infinita, tal y como se ha dicho anteriormente. As, la frmula para obtener el tamao de la muestra es:

n=

z12 / 2 2

1,962 2002 = 170, 74 171 302

Caso de la proporcin: Cuando se estima una proporcin, caso frecuente de respuestas dicotmicas, la varianza del estimador de la proporcin es, como se recordar:
2 p =

pq n

El error mximo vendra dado, de acuerdo con lo que acabamos de ver, por:

= z1 / 2 = p p

pq n

El tamao de la muestra se obtendr, como anteriormente, despejando n de esta expresin:

n=

z12 / 2 pq

Generalmente, los valores poblacionales de la proporcin buscada (p) y de su complementario (q=1-p) se desconocen. Pero en este caso, en vez de obtenerlos mediante una muestra piloto, pueden sustituirse por p=q=0,5, lo que conduce al mximo valor exigible de n, ya que cualquier otra combinacin de valores de p y q, al multiplicarlos, dara una valor inferior a 0,25. Obsrvese adems que si se considera una confianza del 95,5%, el valor de nmax queda slo en funcin del error:

nmax =

4 pq

4 0, 25

13

A. Morillas: Muestreo en poblaciones finitas

Ejemplo Para completar el anlisis del anterior destino turstico, se desea realizar utilizar la encuesta para determinar la proporcin de visitantes de origen europeo. Se ha decidido aceptar un error mximo del 5%, y un nivel de confianza del 95,5%. Obtener el tamao de la muestra.

Solucin: Con esta informacin, puesto que no sabemos nada acerca del valor poblacional de p, el tamao de la muestra sera:

nmax =

4 pq

4 0, 25 = 400 (0, 05) 2

La respuesta a por qu en estudios de mercado y encuestas de opinin se utiliza a menudo un tamao muestral de 400, 1110 2500 est en esta frmula: se asume un desconocimiento total de la proporcin en la poblacin, por lo que se considera p=0.5, se usa un nivel de confianza del 95.5% y la imprecisin mxima admisible (error) se suele fijar en el 5, 3 2%, respectivamente.

Caso del total: Por ltimo, el tercer parmetro en el que podemos estar interesados es por el total o suma de todos los valores de la variable, que en una poblacin, como se recordar, viene dado por N . Evidentemente, si estamos hablando de conocer N, la poblacin ha de ser finita, cosa que no hemos supuesto en los dos casos anteriores. Pero vamos a continuar desarrollando este caso slo con el objeto de cerrar el tratamiento de la bsqueda del tamao muestral, cuando se pretende hacer inferencia sobre los tres parmetros ms comunes. Ya veremos, sin embargo, como para poblaciones finitas todas estas expresiones del tamao de la muestra cambian. Pero, como hemos dicho anteriormente, sigamos el argumento como simple ejercicio, para ms adelante puntualizarlo debidamente. Por ejemplo, se puede estar interesado en el gasto total anual de los turistas que visitan una cierta zona. Es fcilmente comprensible que, en este caso, el mejor estimador de ese total vendra dado por Nx . Y, puesto que N es constante, la varianza del total ser:
2 2 Nx = Var ( Nx ) = N 2 x Nx = N x

El error para el total, por tanto, ser el de la media multiplicado por N:

T = N Nx = z1 / 2 N

= N

14

A. Morillas: Muestreo en poblaciones finitas

Simplificando N en los dos ltimos miembros de esta igualdad, se comprueba fcilmente que el tamao de la muestra debera de ser exactamente igual que para el caso de la media.

Ejemplo: Para completar el anlisis del destino en estudio se desea conocer tambin el gasto total que los turistas realizarn en la zona. Se ha decidido aceptar un error mximo en el gasto total de 6 millones de euros. Suponiendo un nivel de confianza del 95%, obtener el tamao adecuado de la muestra.

Solucin:

T = z1 / 2 N
n=

n=

z 21 / 2 N 2 2
2 T

1,962 2000002 2002 = 170,74 171 60000002

Obsrvese que, como era de esperar, se obtiene exactamente el mismo nmero de observaciones que para el caso de la media, ya que el error del total se ha elegido a propsito multiplicando por N el de la media. De esta forma se ha mantenido el especificado anteriormente para la media:

T = N =

T
N

6000000 = 30 200000

Una vez fijado el tamao de la muestra, y obtenida sta mediante el procedimiento adecuado, la mejor estimacin por puntos del gasto medio ser la media de la muestra. La de la proporcin, la observada en la muestra y la del total, la media de la muestra multiplicada por N. Los correspondientes intervalos de confianza, que nos dan una idea de la horquilla en que se mueve el verdadero valor del parmetro, se construirn para cada uno de los casos, segn lo visto anteriormente, como sigue:

Media : ( x z1 / 2 x x + z1 / 2 x ) z1 / 2 p + z1 / 2 p Proporcin : ( p p p ) Total : ( Nx z1 / 2 N x N Nx + z1 / 2 N x )


Es decir, una vez seleccionados los elementos de la muestra, se obtendrn, respectivamente, las correspondientes estimaciones por puntos de la media, proporcin y total. Con estos datos como centro del intervalo, para un nivel de confianza dado y conocida la varianza del estimador, quedaran determinados los correspondientes intervalos para los parmetros desconocidos.

15

A. Morillas: Muestreo en poblaciones finitas

6. Muestreo en poblaciones finitas.


Si el tamao de la poblacin o universo es conocido, la eleccin del tamao de la muestra, aunque siguiendo los argumentos expuestos en el epgrafe anterior, tiene ciertas especificidades, que veremos a continuacin. Las diferencias se basan fundamentalmente en el hecho (relativamente probable para el caso de una poblacin finita, pero imposible para una de tamao infinito) de que nos podemos encontrar con situaciones en las que el nmero de elementos de la muestra puede llegar a ser una proporcin apreciable de los de la poblacin. En tal situacin, puede entenderse fcilmente que la precisin de la estimacin sera superior, al estar mejor representada el conjunto de la poblacin. En concreto, para el caso de poblaciones finitas, puede demostrarse que la varianza del estimador (de la media, proporcin o total) propia de poblaciones infinitas, tal como la hemos visto anteriormente, ha
N -n de corregirse por un factor. Este factor de correccin sera , por lo que para el caso de la N -1

media su frmula de clculo quedara como sigue:

x2 =

2 N -n
n N -1

Si nos fijamos en el numerador del factor de correccin, comprenderemos que no se puede valorar de forma absoluta al tamao de una muestra, sino que hay que confrontarlo con el de la poblacin de la que se extrae3. Si observamos dos poblaciones, siendo la muestra de la primera ms pequea que la de la segunda, puede llegar a dar ms precisin (menor varianza) si el tamao de la poblacin de la que procede es proporcionalmente menor. Esto, dicho as, parece algo complicado cuando resulta obvio: en igualdad de condiciones, una muestra de tamao 100 nos informa mucho mejor sobre las caractersticas de una poblacin de tamao 200, dnde representa la mitad de sus elementos, que otra de tamao 200 en una poblacin de 20.000, que representa slo el 1% de sus elementos. Por tanto, independientemente del nmero de elementos que contenga, cuanto mayor sea el tamao de la muestra (n) en relacin al de la poblacin (N), mayor garanta tendremos en las estimaciones, como se observa en la frmula anterior. En el caso extremo de que N=n la varianza del estimador se hace nula. Estaramos, evidentemente, en presencia de una observacin exhaustiva de la poblacin, propia de la estadstica descriptiva, y no en un caso de inferencia estadstica. Por el contrario, cuando el tamao de la muestra sea mnimo, de una sola observacin (n=1), la varianza (precisin) del estimador coincidira con el caso de una poblacin de tamao infinito.

Obsrvese que si en dicha frmula se considera que (N-1) N, la expresin del factor de correccin quedara bien expresada como la razn de estos dos tamaos, el de la muestra y el de la poblacin, pues (N-n)/N = 1- n/N. Cuanto mayor es la proporcin de la muestra respecto a la poblacin, ms se reduce la varianza del estimador.

16

A. Morillas: Muestreo en poblaciones finitas

Teniendo en cuenta esta particularidad, se presenta a continuacin la forma en que se debe de obtener el tamao de la muestra para el caso de poblaciones finitas y para los cada uno de los dos tipos de muestreos aleatorios ms utilizados, el aleatorio simple y el estratificado.

6.1. Muestreo aleatorio simple.


Caso de la media: Como se dijo anteriormente, dado un determinado nivel de significacin, fijar el tamao del error equivale a predeterminar la propia varianza del estimador. Es decir, varianza del estimador y error mximo permitido son dos caras de una misma moneda, siendo el tamao de la muestra el resultado del supuesto que hagamos acerca de cualquiera de ambos. Por tanto, dicho tamao se puede obtener a partir de la definicin del error o de la frmula de la varianza del estimador. Obsrvese que, fijado el valor de z por el nivel de confianza, el error es igual a la desviacin estndar del estimador multiplicado por una constante (para el caso del 95% el valor sera 1,96 ):

= z1 / 2 x = 1, 96 x
Si elevamos al cuadrado e introducimos el valor de la varianza del estimador, tendremos:

2 = z2 2 = z2
1 / 2 x

2 N n
N 1 n

1 / 2

A partir de esta expresin, si se suponen conocidos la varianza () y el tamao de la poblacin (N), y fijados el tamao del error () y el nivel de confianza que determina el valor de z1-/2, podemos obtener el correspondiente tamao de la muestra (n). Esta es la forma en que generalmente se obtiene el tamao adecuado de la muestra. Haremos este ejercicio una sola vez, ya que en adelante omitiremos clculos similares para el resto de los casos. Operando en la igualdad anterior:

n( N 1) 2 = z12 / 2 2 ( N n ) = z12 / 2 2 N z12 / 2 2n n( N 1) 2 + z12 / 2 2 n = z12 / 2 2 N ( N 1) 2 + z 2 2 n = z 2 2 N 1 / 2 1 / 2 Nz12 / 2 2


2 2 = z12 / 2 x

n=

( N 1) 2 + z12 / 2 2

17

A. Morillas: Muestreo en poblaciones finitas

Si en la frmula obtenida para n sustituimos el error por la expresin del mismo que ya conocemos, entonces obtendremos esta otra expresin para el tamao de la muestra cuando se desea estimar una media en poblaciones finitas:
2 2 = z2 x n=
1 / 2

N 2 2 2 = x 2 z12 / 2 + 2 ( N 1) x

Esta expresin es exactamente la que se hubiera obtenido si se toma directamente la frmula de la varianza del estimador de la media en poblaciones finitas para despejar de ella el valor de n, cuestin que dejamos como ejercicio para el alumno. En resumen, conocidos el tamao y la varianza de la poblacin, por estudios anteriores o por una encuesta piloto desarrollada para el caso, se observa claramente en la expresin anterior que fijar el error o la varianza del estimador son procesos equivalentes, pudindose utilizar cualquiera de las dos expresiones de n que se acaban de mostrar.

Ejemplo (mismo caso de poblaciones infinitas): Para llevar a cabo el anlisis de un destino turstico con alta afluencia de turistas (200.000) se desea realizar una encuesta para determinar el gasto medio por turista. Se ha decidido aceptar un error mximo en el gasto medio de 30 euros. Suponiendo una desviacin estndar de la poblacin de 200 euros y un nivel de confianza del 95%, obtener el tamao adecuado de la muestra. Solucin frmula 1:

n=

( N 1) 2 + z12 / 2 2

Nz12 / 2 2

200.000 (1, 96) 2 ( 200) 2 = 170, 59 171 ( 200.000 1) ( 30) 2 + (1, 96) 2 ( 200) 2

Solucin frmula 2:

n=

N 2 = 2 ( N 1) x +2

200.000 ( 200) 2 30 2 ( 200.000 1) + ( 200) , 1 96


2

= 170, 59 171

Como puede observarse, el tamao muestral resultante es el mismo que cuando supusimos que la poblacin era infinita. Ello es debido al gran tamao de la misma. Intervalo para la media: Una vez obtenida la muestra, se puede calcular un intervalo de confianza para el parmetro (media) poblacional. Normalmente, la varianza poblacional es desconocida, por lo que el intervalo que se defini anteriormente debe dejar paso a este otro, en el que se sustituye la varianza desconocida por su
2 x estimador insesgado en poblaciones finitas, que llamaremos :

18

A. Morillas: Muestreo en poblaciones finitas

x x + z1 / 2 x x z1 / 2
2 x =

2 ( N - n) s n N

De esta forma, con los datos de la muestra se puede obtener un intervalo de confianza para el verdadero valor del parmetro desconocido, con el error y el nivel de confianza predeterminados a la hora de obtener el tamao adecuado de la muestra. Ejercicio: Supongamos que la media y la desviacin estndar obtenidas en la muestra de los 171 turistas del ejercicio anterior son, respectivamente, de 450 y 320 euros. Determinar el intervalo de confianza del 95% para el verdadero valor del gasto medio por turista. Solucin: Comenzaremos por obtener el estimador de la varianza:
2 x =

2 ( N - n ) ( ns 2 / n 1) ( N - n ) (171 3202 /170) (200.000 171) s = = = 601,84 n N n N 171 200.000

x = 24,53 y el correspondiente intervalo de confianza vendra dado por: Por tanto, tendremos que x x + z1 / 2 x x z1 / 2
450 1,96 24,53 450 + 1,96 24,53

401,92 498,08

(450 48,08)
En esta ltima expresin se da el intervalo, tomando como pivote del mismo la estimacin por puntos del parmetro (media de la muestra) y fijando el error mximo cometido a izquierda y derecha del mismo (producto del valor de z, o sea 1,96, por la desviacin estndar del estimador, que es 24,53).

Caso de la proporcin: Como ya hemos comentado, para obtener el tamao adecuado de la muestra en el caso de estar realizando inferencia sobre la proporcin se procede de forma similar al caso anterior. La varianza del estimador es ahora:

2 p =

pq N n n N 1
19

A. Morillas: Muestreo en poblaciones finitas

Despejando n, se llega a obtener la siguiente expresin de clculo para el tamao de la muestra, cuando se hace inferencia acerca de una proporcin:

n=

Npq 2 ( N 1) p + pq

2 Volviendo a tomar la ya conocida relacin entre error y varianza del estimador, p =

2
z12 / 2

, una

segunda frmula de clculo es la siguiente:

n=

Nz12 / 2 pq ( N 1) 2 + z12 / 2 pq

Generalmente, no se conoce el valor de p, por lo que habr que estimarlo mediante una encuesta piloto o tomando informacin procedente de investigaciones anteriores. La alternativa ms inmediata es optar por tomar el tamao muestral mximo, considerando pq=0,25.

Ejemplo (mismo caso de poblaciones infinitas): Para completar el anlisis del anterior destino turstico, se desea realizar utilizar la encuesta para determinar la proporcin de turistas de origen europeo. Se ha decidido aceptar un error mximo del 5%, y un nivel de confianza del 95%. Obtener el tamao de la muestra.

Solucin frmula 1: Como no se tiene informacin sobre la proporcin en la poblacin, optaremos por obtener el n mximo:

n=

0, 25N = 2 ( N 1) p + 0, 25

0, 25 200.000 0,05 (200.000 1) + 0, 25 1,96


2

= 383, 43 384

Solucin frmula 2:

n=

Nz12 / 2 pq 200.000 1,962 0, 25 = = 383, 43 384 ( N 1) 2 + z12 / 2 pq (200.000 1) 0,052 + 1,962 0, 25

Puede comprobarse de nuevo como el hecho de tener como referencia a una poblacin de gran tamao, no cambia prcticamente el tamao de la muestra.

20

A. Morillas: Muestreo en poblaciones finitas

Ejemplo: En un hotel saben que el nivel de satisfaccin de sus clientes ronda el 90% y quieren realizar un estudio para ver si la nueva gestin de limpiezas ha sido de su agrado. Cul sera el tamao necesario para la muestra, si el total de clientes del hotel es de 10.000? Suponga un nivel de confianza para los resultados del estudio del 95% y un error mximo permitido del 5%. Solucin:

n=

Nz12 / 2 pq 10.000 1,962 0,90 0,10 = = 136, 42 137 ( N 1) 2 + z12 / 2 pq (10.000 1) 0,052 + 1,962 0,90 0,10

Luego, el tamao necesario de la muestra sera de 137 clientes.

Intervalo para la proporcin: El intervalo de confianza para la proporcin se puede obtener de forma similar, sin ms que aplicar la correspondiente expresin para el mismo:

z1 / 2 p + z1 / 2 p p p p
Ahora, la varianza desconocida de la proporcin muestral se estima mediante el siguiente estimador insesgado:
2 p =

( N n) pq ( n 1) N

Ejemplo: En la muestra de 142 clientes, se ha obtenido que 105 estn satisfechos con la limpieza. Obtenga un intervalo de confianza para el verdadero valor de la proporcin de clientes satisfechos.

Solucin: La proporcin en la muestra es el estimador por puntos y ser el pivote utilizado para establecer el

= intervalo: p

105 = 0,7394 142

La varianza del estimador ser:


2 p =

( N n ) 0,7394 (1 0,7394) (10.000 142) pq = = 0,001347 ( n 1) N (142 1) 10.000

La desviacin estndar, por tanto, es 0,0367 y el intervalo queda como sigue:

21

A. Morillas: Muestreo en poblaciones finitas

z1 / 2 p + z1 / 2 p p p p 0,7394 1,96 0,0367 p 0,7394 + 1,96 0,0367 0,6675 p 0,8113

p (0,7394 0,0719)
Es decir, el porcentaje de clientes satisfecho est entre el 66,75% y el 81,13%, con una confianza del 95%. El error al estimar la proporcin puede llegar a ser de 0,0719 ( 7,19%). Aproximadamente, siete puntos arriba o abajo del 74%.

Caso del total: El tamao de la muestra a la hora de hacer inferencia sobre el total o suma de todos los valores de una poblacin, como ya se coment, es exactamente el mismo que para la media, ya que la varianza para poblaciones finitas sera la siguiente, que en nada cambia los clculos para obtener n:
2 = N2 Var ( Nx ) = N 2 x

2 N -n
n N -1

Slo ha de tenerse en cuenta esta expresin y que el error del total sera N veces el error de la media, como ya vimos en su momento. El intervalo de confianza es el de la media multiplicado por N, evidentemente. Las frmulas de clculo, por tanto, seran:

n=

( N 1) 2 + z12 / 2 2

Nz12 / 2 2

2 =

2 T

n=

N 2 Var ( Nx ) 2 x = 2 2 ( N 1) x + N2

Ejercicio (mismo de poblaciones infinitas): En el estudio sobre el gasto total en la zona por los turistas se acept un error mximo en el gasto total de 6 millones de euros. Suponiendo que la desviacin estndar poblacional es de 200 euros y un nivel de confianza del 95%, obtenga el tamao muestral adecuado. Si de la muestra obtenida se obtuviese un gasto medio de 450 euros con una desviacin estndar de 320 euros, diga cul es el intervalo para el gasto total.

22

A. Morillas: Muestreo en poblaciones finitas

Solucin: Evidentemente, el resultado para n va a ser el mismo que para el caso de la media. Lo nico que hemos de hacer es pasar del error del total al error de la media:

n=

( N 1) 2 + z12 / 2 2

Nz12 / 2 2

Nz12 / 2 2
( N 1)
2 T

= 170, 59 171
2

+ z1 / 2
2

El intervalo de confianza no vale la pena volver a calcularlo, pues ya sabemos que es el mismo de la media, pero multiplicado por N: ( 80.576.000 N 99.924.000 ) Es decir, el gasto total estara entre algo ms de 80 millones y algo menos de 100 millones de euros, con una confianza del 95%.

6.2. Muestreo aleatorio estratificado.


Como paso previo al clculo del tamao de la muestra para cada uno de los tres parmetros con los que venimos trabajando y a la obtencin de los intervalos de confianza, vamos a proponer el uso de la siguiente nomenclatura: Poblacin dividida en k estratos: Tamaos muestrales de los estratos: Medias poblacionales en los estratos: Medias muestrales en los estratos: Proporciones muestrales en los estratos: N1 + N2 + . + Nk = N n1 + n2 + + nk = n 1 2 k

x1 x2 .. xk
1 p 2 .. p k p

En cada estrato, se har un muestreo aleatorio simple en el que se definen los siguientes estimadores insesgados: o o Para la media de cada estrato i : xi

i Para la proporcin de cada estrato pi : p


2 x Para las varianzas de las xi : =

i2 ( N i - ni ) s ni Ni

2 i : p Para las varianzas de las p = i

iq i ( N i - ni ) p ( ni -1) N i

23

A. Morillas: Muestreo en poblaciones finitas

Para determinar el tamao de una muestra por estratos se siguen dos etapas. En primer lugar, se calcula el tamao total de la muestra que se debe obtener, y posteriormente se estudia el nmero de elementos que hay que asignar a cada uno de los estratos. A este reparto o asignacin de los elementos de la muestra a los distintos estratos se le denomina afijacin, pudindose realizar segn los siguientes mtodos o criterios: Criterio uniforme: se trata de una forma muy simple de reparto, asignando el mismo nmero de elementos a cada estrato. Criterio proporcional: reparto de elementos entre los estratos de la muestra en la misma proporcin en que se presentan en la poblacin:

N i ni N = ni = i n N N n
Criterio ptimo: reparto en funcin de la varianza de cada estrato, con la idea que a menor varianza ser precisa menor cantidad de informacin y viceversa. Si las varianzas de los estratos fuesen iguales, coincidira con el proporcional: Media y total: ni =

N i i
i =1

N i i

n i encuesta piloto

Proporcin:

ni =

N i pi qi
i =1

N i pi qi

n p encuesta o n mxima

En realidad, el primer mtodo carece de inters, siendo los ms utilizados el segundo (el ms frecuente) y el tercero, en caso de estar especialmente interesados en la precisin de los estimadores.

Caso de la media y del total: A partir de la idea inicial desarrollada para el muestreo aleatorio simple, pero haciendo algunas simplificaciones para poder llegar a una solucin, se obtiene la siguiente frmula de clculo:

Asignacin proporcional:

n=

i =1 2 N x +

N i i

1 K 2 N i i N i =1

; con =
2 x

2
2 z1 /2

Asignacin ptima:

2 1 K N i i 2 2 ; con x = 2 n = N i =1 K 1 z1- / 2 2 + N i i2 N x N i =1

24

A. Morillas: Muestreo en poblaciones finitas

Caso de la proporcin:

Asignacin proporcional:

n=

i =1 2 N p +

N i pi qi 1 K N i pi qi N i =1

2 ; con p =

2
z12 / 2

Asignacin ptima:

2 1 K N i pi qi 2 2 ; con p n = N i =1 K = 2 1 z1 / 2 2 N p N i pi qi + N i =1

Ejemplo: El parque hotelero de una determina zona turstica consta de 4.200 hoteles. Se sabe que 1.150 de estos hoteles son de 4 y 5 estrellas, 2.120 son de 3 estrellas y 930 de menos de 3 estrellas. Se pide: 1. Obtenga el tamao de la muestra para estimar la facturacin media semanal de los hoteles, con un error mximo de 500 euros y con una confianza del 95,5%. Supondremos que por estudios anteriores se sabe que la desviacin estndar en cada uno de los estratos es de 4.000, 6.000 y 8.000 euros, respectivamente. 2. Determine el total de encuestas que habra que realizar para estimar el grado de ocupacin, con un error mximo del 5% y con una confianza del 95%. 3. Suponga ahora que, por estudios anteriores, se estima que el grado de ocupacin fue, respectivamente, del 70%, 90% y 60%. cul sera el correspondiente tamao muestral? 4. Diga, finalmente, cul debe ser el tamao definitivo de la muestra y obtenga el nmero de formularios que habra que asignar a cada uno de los tres grupos mencionados, utilizando tanto el criterio proporcional como el ptimo.

Solucin 1: El tamao muestral adecuado para hacer inferencia sobre la media y sobre el total, utilizando un criterio proporcional de reparto entre estratos, sera el siguiente:
N i i
K 2

n=

i =1 2 + N x

1 K 2 N i i N i =1

(1150 40002 + 2120 60002 + 930 80002 ) = 497, 47 498 5002 1 2 2 2 + 4200 (1150 4000 + 2120 6000 + 930 8000 ) 1,962 4200

Si consideramos ahora un reparto ptimo de las observaciones de la muestra entre los diferentes estratos, el tamao adecuado para garantizar el error y el nivel de confianza que se ha propuesto, sera el siguiente:

25

A. Morillas: Muestreo en poblaciones finitas

2 1 K 1 2 N i i (1150 4000 + 2120 6000 + 930 8000 ) 4200 n = N i =1 K = = 470,79 471 2 1 500 1 2 2 2 2 2 N x + N i i 4200 (1150 4000 2120 6000 930 8000 ) + + + N i =1 1,962 4200

Luego hay una diferencia de 27 cuestionarios entre utilizar una u otra forma de asignar los elementos de la muestra entre los tres estratos contemplados. Solucin 2: Comenzaremos determinando el tamao de la muestra para estimar el grado de ocupacin (proporcin). Como no se sabe nada acerca de las proporciones muestrales en los diferentes estratos, buscaremos el n mximo:

n=

i =1 2 N p +

N i pi qi 1 N i pi qi N i =1
K

= N

0, 25 N i

i =1

z12 / 2

0, 25 K Ni N i =1

nmax = N

0, 25 N

2
z12 / 2

+ 0, 25

Como se puede observar, al no distinguir entre las diferentes proporciones poblacionales de los estratos, lo que implica varianzas iguales en todos ellos, la expresin del tamao de la muestra coincide prcticamente con el caso de muestreo aleatorio simple y, por supuesto, el resultado es idntico para ambos tipos de asignacin (proporcional u ptima). Obtenindolo por el proporcional, se tiene:

nmax = N
Solucin 3:

0, 25 N

2 z /2

+ 0, 25

0, 25 4.200 = 351,97 352 0, 052 4.200 + 0, 25 1, 962

Si suponemos que por anteriores investigaciones se sabe que la ocupacin fue, respectivamente, del 70%, 90% y 60%, los clculos arrojaran este otro resultado para el criterio de asignacin proporcional:
Ni pi qi
K

n=

i =1

1 K 2 N p Ni pi qi + N i=1

1150 0,70 0,30 + 2120 0,90 0,10 + 930 0,60 0,40 = 226,87 227 0,052 1 + + + 4.200 1150 0,70 0,30 2120 0,90 0,10 930 0,60 0,40 ( ) 1,962 4.200

Evidentemente, los resultados nos indican que, al tener mayor informacin sobre las varianzas de los estratos, la precisin del estimador aumenta y la cantidad de elementos necesarios para hacer inferencia sobre la poblacin resulta ms pequea. Si consideramos ahora el criterio de asignacin ptima, el resultado sera el siguiente:

26

A. Morillas: Muestreo en poblaciones finitas

2 2 1 K 1 1150 0,7 0,3 + 2120 0,9 0,1 + 930 0,6 0, 4 N i pi qi i =1 N 4200 = = 215,89 216 n= 1 K 0,052 1 2 + N p N p q 4200 1150 0,7 0,3 2120 0,9 0,1 930 0,6 0, 4 + + + ( ) i i i N i =1 1,962 4200

Luego se necesitaran 11 cuestionarios menos con este tipo de distribucin del tamao de la muestra entre los distintos estratos. Veamos ahora exactamente cuantos debemos asignar a cada uno. Solucin 4: La primera pregunta que hay que hacer es con qu tamao de muestra hemos de trabajar finalmente, si deseamos llevar a cabo en paralelo las dos investigaciones, sobre la facturacin media y sobre el grado de ocupacin. Evidentemente, la respuesta no puede ser otra: hay que seleccionar el tamao muestral adecuado para conservar en el ms desfavorable de los casos el grado de fiabilidad y el error que se han propuesto. Es decir, tomaremos el tamao exigible para hacer inferencia sobre la media, que es el que arroja un mayor nmero de observaciones: 498 para el reparto proporcional y 471 para el ptimo. Con ese tamao aseguramos la precisin de la inferencia sobre la facturacin media y sobre la ocupacin, mejorando en este ltimo caso el error si se mantiene fijo el nivel de confianza. Veamos: Asignacin proporcional:

n1 = ni = Ni n N n2 =

N1 1150 n= 498 = 136, 4 137 N 4200 N2 2120 n= 498 = 251, 4 252 N 4200

Tamao final 500 (redondear por exceso)

N 930 n3 = 3 n = 498 = 110,3 111 N 4200

Asignacin ptima: o Caso de la media y del total:


n1 = 1150 4000 471 = 87,5 88 24760000 2160 6000 471 = 246,5 247 24760000

ni =

N i i
i =1

Tamao final 477 (redondear por exceso)

N i i

n2 =

930 8000 n3 = 471 = 141,5 142 24760000

27

A. Morillas: Muestreo en poblaciones finitas

Como puede observarse, el reparto difiere significativamente, ampliando especialmente el nmero de cuestionarios del grupo 3, que es el de mayor variabilidad y, por tanto, ms difcil de predecir el valor del parmetro a estimar, y reduciendo el del grupo 1, con menor dispersin. El incremento de informacin en el mismo, a costa de una disminucin de los que tienen menor variabilidad, muy especialmente del primero, hace que la estimacin sea ms precisa.

Intervalos para la media, el total y la proporcin: El procedimiento para obtener los intervalos de confianza sigue siendo bsicamente el mismo, como es lgico. Una vez hechas las correspondientes estimaciones por puntos, el problema ser calcular las correspondientes estimaciones de las varianzas de cada uno de los estadsticos. Para la media y la proporcin, se llega fcilmente a las siguientes expresiones: Media (estimador y su varianza):

Poblacin: =

1 N

N i i Estimador: x =
i =1

1 N

N x
i =1

i i

Var ( x ) = Var (

1 K 1 K 2 2 x x = 2 N i2 N i xi ) = i N i =1 N i =1 i2 N i ni s ni N i

2 x = siendo i

Proporcin (estimador y su varianza):

Poblacin: p =

1 N

N p
i =1 i

= Estimador: p

1 N

N p
i =1 i

) = Var ( Var ( p

1 K 1 K 2 2 2 i ) = p p Ni p Ni = i N i =1 N 2 i =1 iq i ( N i - ni ) p (ni -1) N i

2 p siendo =

Una vez obtenidos los valores de las varianzas para la media muestral o para la proporcin, los intervalos se establecen exactamente igual que en muestreo aleatorio simple. Se toma la estimacin por puntos (media o proporcin en la muestra obtenida) como pivote del intervalo y se le suma y resta el error; es decir, el producto de z (por ejemplo, 1,96 para una confianza del 95%) por la desviacin

xi o p estndar del estadstico correspondiente ( i , respectivamente). El intervalo para el total es el


de la media multiplicado por N, como siempre. Los clculos son algo ms farragosos, puesto que hay que estimar previamente las varianzas para un muestreo simple en cada uno de los estratos, pero, en

28

A. Morillas: Muestreo en poblaciones finitas

esencia, se trata del mismo procedimiento. Las frmulas de dichos intervalos sern, al fin y al cabo, las mismas que para el muestreo aleatorio simple, pero tomando en consideracin la diferente forma en la que hay que obtener la varianza del estimador, tal como se ha expuesto en el prrafo anterior.

Ejercicio: Tomando el reparto proporcional, establecer un intervalo de confianza para la facturacin media, suponiendo que en la muestra finalmente seleccionada las medias y correspondientes desviaciones tpicas, as como las proporciones en la muestra para los estratos fueron las siguientes:

N1 = 1.150; N 2 = 2.120; N 3 = 930; N = 4.200 x = 16.628; x = 21.593; x = 32.711 1 2 3 s = 4.187; s = 6.195; s = 8.243 1 2 3 1 = 0,80; p 2 = 0,85; p 3 = 0, 70 p

Solucin:

Para comenzar, se obtiene la estimacin puntual de la media:

x=

1 N

N x
i =1

i i

1 (1.150 16.628 + 2.120 21.593 + 930 32.711) = 22.695,38 4200

Como segundo paso, se calculan las estimaciones de las desviaciones tpicas para cada uno de los estratos:
x =
1

(1 3 7 4 1 8 7 2 ) / 1 3 6 (1 1 5 0 - 1 3 7 ) = 3 3 6, 9 7 137 1150

2 ( N i - ni ) s = i ni Ni
2 xi

x =
2

(252 6195 2 ) / 251 (2120 - 252 ) = 367, 05 252 2120


(1 1 1 8 2 4 3 2 ) / 1 1 0 ( 9 3 0 - 1 1 1) = 737, 55 111 930

x =
3

Y la varianza del estimador de la media ser, por tanto:

29

A. Morillas: Muestreo en poblaciones finitas

2 x =

1 K 2 2 1 = N (11502 336,972 +21202 367,052 +9302 737,552) =69.510,64 2 i xi N i=1 42002

x = 263,65. Con este dato, el As, pues, la desviacin estndar del estimador de la media es
intervalo de confianza del 95% sera:

x x + z1 / 2 x x z1 / 2

22695,38 1,96 263,65 22695,38 + 1,96 263,65


22178,63 23212,13

(22695,38 516,75)

La facturacin media est entre los 22.178,63 y 23.212,13 euros con una confianza del 95%. Por ltimo, digamos que el intervalo para la proporcin sigue el mismo esquema del que acabamos de ver para la media (para el del total, bastara con multiplicar el de sta por N). La nica complicacin que puede presentar es la laboriosidad que hemos visto implica su clculo.

30

Você também pode gostar