Tesis

Juan Francisco Muoz Rosas
Aportaciones a los mtodos de estimacin de

parmetros lineales y no lineales con
informacin auxiliar
Instituto de Estadstica de Andaluca

Pabelln de Nueva Zelanda
Leonardo Da Vinci, 21
Isla de la Cartuja
41092 Sevilla
Telfono: 955 03 38 00
Fax: 955 03 38 16-17
www.juntadeandalucia.es/institutodeestadistica

Aportaciones a los mtodos de estimacin de
parmetros lineales y no lineales con
informacin auxiliar
Datos catalogrficos
Muoz Rosas, Juan Francisco
Aportaciones a los mtodos de estimacin de parmetros lineales y
no lineales con informacin auxiliar / autor, Juan Francisco Muoz
Rosas. -- Sevilla : Instituto de Estadstica de Andaluca, 2010
112 p. ; 30 cm. + 1 disco compacto (CD-Rom). -- (Tesis)
D.L. SE. 7631-2010
ISBN 978-84-96659-83-4
Tesis premiada por el Instituto de Estadstica de Andaluca
1. Estadstica matemtica. 2. Estimacin estadstica. 3.
Probabilidades. 4. Muestreo. I. Instituto de Estadstica de Andaluca.
II. Ttulo. III. Serie
519.2(043.2)
Directora
Mara del Mar Rueda Garca
Departamento de Estadstica e Investigacin Operativa
Facultad de Ciencias
UNIVERSIDAD DE GRANADA
Autor
Licenciado en Ciencias y Tcnicas Estadsticas
Departamento de Mtodos Cuantitativos para la Economa y la Empresa
UNIVERSIDAD DE GRANADA
Ao de Edicin: 2010 Instituto de Estadstica de Andaluca
Instituto de Estadstica de Andaluca

Depsito Legal: SE-7631-2010
I.S.B.N.: 978-84-96659-83-4
Tirada: 300 ejemplares
Reproduccin autorizada con indicacin de la fuente bibliogrfica, excepto para fines comerciales
ndice
1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Problemas planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos cientficos y aportes a la teora del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Notacin y conceptos bsicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9
9
11
2. El mtodo de verosimilitud emprica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Estimacin de la media poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Estimadores basados en el diseo muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3. Estimadores modelo-calibrados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Tratamiento de datos faltantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Estimador propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Estimacin de la funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2. Algunos estimadores de la funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3. Estimador propuesto modelo-asistido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
15
15
22
24
26
26
27
28
29
30
31
31
32
35
37
39
3. Aportaciones a la estimacin de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Estimadores bajo muestreo bifsico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Estimadores propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5. Aplicacin al muestreo estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Estimadores bajo muestreo en dos ocasiones sucesivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Generalizacin a mltiples variables auxiliares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5. Muestreo con probabilidades desiguales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
43
44
44
45
46
48
49
51
52
57
57
57
58
60
61
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

3.4. Estimadores bajo el mtodo de verosimilitud emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Aplicacin a la estimacin de lneas de pobreza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3. Estimadores propuestos modelo-asistidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.4. Propiedades. Estimacin de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
64
65
65
66
67
68
69
4. Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Conclusiones y valoracin de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
73
Bibliografa
......................................................................................
75
A. Descripcin de poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A.1. Poblaciones naturales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.1. Fam1500. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.2. Counties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.3. Hospitals. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.4. Murthy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.5. Turismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.6. ECPF1997 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2. Poblaciones simuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2.1. Pop06, Pop07, Pop08 y Pop09 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2.2. Pob098 y Pob080 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
81
81
81
81
83
83
83
83
83
83
B. Representaciones grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
Apndice B.1. en CD_CAR
Introducin
1.1.
Problemas planteados
En resumen, los objetivos que se persiguen en este
trabajo son: (i) analizar el metodo

de verosimilitud empri de la funcion
de
ca en campos no tratados (estimacion
desde una perspectiva basada en el diseno
distribucion
modelo-asistida,en
muestral y usando una aproximacion
de cuantiles, etc),
presencia de datos faltantes, estimacion
(ii) estudiar el comportamiento de los cuantiles en disenos

complejos (muestreo en dos ocasiones con probamas
bilidades desiguales o con multiples
variables auxiliares,
muestreo bifasico,
etc).
En el campo del muestreo en poblaciones finitas

son numerosas las aportaciones que pueden hacerse a
con informacion
auxiliar de
los metodos
de estimacion
parametros
lineales y no lineales. Por ejemplo, en los ulti
han surgido nuevas metodologas para obtener
mos anos
precisos usando informacion
auxiliar.
estimadores mas
Estas nuevas metodologas son los estimadores de cali (Deville y Sarndal,
bracion
1992) y el metodo
de verosimilitud emprica (Chen y Sitter, 1999). De estas metodologas,
el metodo
de verosimilitud emprica tiene un buen compor
tamiento asintotico
y emprico, pero a causa de su reciente
existen bastantes situaciones donde no ha siaparicion,
do analizado. En este trabajo se plantean diversos esce de la funnarios (presencia de datos faltantes, estimacion
de distribucion
bajo un enfoque basado en el diseno
cion
muestral, etc) donde este metodo

no haba sido exami importantes y se
nado, se estudian sus propiedades mas
comprueba su eficiencia desde el punto de vista teorico

y
emprico.
Por otro lado, los metodos

clasicos
estudiados en
muestreo de poblaciones finitas se han centrado en la es de parametros
timacion
lineales como la media o el total.
En las ultimas
decadas
se ha estado tratando el problema
de la funcion
de distribucion
por diversos
de la estimacion
de los
autores, pero este no es el caso de la estimacion
cuantiles, los cuales no han sido definidos ni analizados
en algunas situaciones, como por ejemplo en los disenos

complejos, etc. De este modo, en este
muestrales mas
de
trabajo se pretende plantear y estudiar la estimacion
los cuantiles en aquellas situaciones que aunque son mas

complejas no son las menos utilizadas, puesto que son los
muestrales empleados por la mayora de los orgadisenos
nismos y agencias estadsticas, investigaciones sociales
los cuantiles son muy utilizay economicas,

etc. Ademas,
que recogen
dos en estos organismos por la informacion
y para obtener medidas de gran importancia para el in de una nacion,
como por ejemplo la estimacion
de
teres
de bajos ingresos, etc.
las lneas de pobreza, proporcion
Existen determinados problemas para algunos de los
estimadores de cuantiles que han sido propuestos en la
literatura del muestreo. En primer lugar, varios de los es de distribucion
no cumplen las
timadores de la funcion
de distribucion,
propiedades de una verdadera funcion

mientras que existen otros estimadores que dependen es En algunas
trictamente de un modelo de superpoblacion.
ocasiones, puede ocurrir que no exista ningun
modelo que
en estudio,
se ajuste suficientemente bien a la poblacion
muestral
por lo que una perspectiva basada en el diseno
apropiada.
resultara mas
1.2.
Objetivos
cientficos
y
aportes a la teora del
muestreo
se indica como
A continuacion
se distribuye el presente texto y se comenta de forma breve los principales
objetivos cientficos y las aportaciones a la teora del
muestreo en poblaciones finitas.
se describe el marco de trabaEn la siguiente seccion
jo general seguido a lo largo del texto y se dan algunos
conceptos basicos
de la teora del muestreo en poblacion
y confinitas. El objetivo es familiarizarse con la notacion
ceptos que van a ser usados en todo el texto.
En la teora de muestreo en poblaciones finitas el objetivo principal de cualquier metodologa es la de mejo
rar las estimaciones de los parametros
en estudio en el
sentido de construir nuevos estimadores que, para el mis muestral, tengan menor error de estimacion,
mo tamano
en las estimaciones de los
lo que implica mayor precision
parametros,
o equivalentemente, tengan el mismo error
muesque los ya conocidos pero con un menor tamano
en el coste real de
tral, lo que produce una disminucion
de la encuesta. Existen dos procedimienla realizacion
tos para intentar mejorar las precisiones de las estima
ciones. Por un lado, se pueden emplear nuevas tecnicas
y por otro, usar metodos
de estimacion
de muestreo mas
informacion
(muestreo en ocacomplejos que utilicen mas
auxiliar sea
siones sucesivas, etc), o que la informacion
fiable (muestreo bifasico),
mas
etc. La primera de estas
tecnicas
se lleva a cabo en el Captulo 2, en donde se
pone a prueba el metodo

de verosimilitud emprica como
mientras que la segunda tecnica
metodo
de estimacion,
se aplica en el Captulo 3 para el problema de la esti de cuantiles.
macion
Como se ha comentado, el metodo

de verosimilitud
emprica se desarrolla en el Captulo 2 bajo distintos escenarios. Esta reciente metodologa obtiene estimadores
tan eficientes (ver Chen y Sitter, 1999, Wu, 2002, Rue-
3

da, Munoz,
Berger, Arcos y Martnez 2006, etc.) como los
utilizados clasicamente
en muestreo de poblaciones fini
tas, lo que lo convierte en una alternativa valida
a usar en
las encuestas por muestreo, puesto que si el escenario es
el apropiado puede ayudar a obtener estimaciones mas

eficientes, reducir costes en las encuestas, etc. En la Sec 2.2 se recopilan los principales aspectos y resultados
cion
bajo esta
del metodo
de verosimilitud emprica. Ademas,
metodologa se plantean varias situaciones de un interes

relevante en la teora del muestreo, de los que destacan
de la
el problema de los datos faltantes y la estimacion
de distribucion
y cuantiles.
funcion
Cuando se realiza un estudio mediante encuestas o
cualquier otro procedimiento, es usual encontrarse en presencia de datos faltantes, que vienen dados por parte
del entrevistado o por cualquier otra circunstancia (perdi errores en la etapa de manida casual de informacion,
de datos, etc). Ante tal problema, una tecnica
pulacion
frecuentemente utilizada es eliminar del estudio a aquellos individuos que presentan datos faltantes en alguna de
sus variables. El inconveniente principal de esta tecnica

es
el incremento del sesgo en las estimaciones. Otra tecnica

que presenta el
habitualmente utilizada es la imputacion,
inconveniente de obtener en algunas ocasiones inferen
cias no validas
como consecuencia de considerar los va
lores imputados como si estos
fueran valores verdaderos.
2.3 se propone un camino alternativo
En la Seccion
para el tratamiento de los datos faltantes que no necesita
eliminar del estudio a ningun
individuo, aprovechando to que se tiene en la muestra. Este proceda la informacion
dimiento se desarrolla bajo el metodo

de verosimilitud
emprica. Se estudian las propiedades teoricas

y mediante
se contrasta la precision
de
un estudio de simulacion,
los estimadores propuestos con otros estimadores cono disenados
cidos y tambien
para el tratamiento de datos
Rueda, Munoz,
faltantes. Vease
tambien
Berger, Arcos y
Martnez (2006).
de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion
levante acerca del comportamiento global de la poblacion.
Sin duda, los estimadores estudiados clasicamente

en la
teora del muestreo, como totales, medias, proporciones
como la funcion
y varianzas, no ofrecen tanta informacion

El problema de la estimacion
de cuantiles
de distribucion.
y de otros parametros
de tipo no funcional queda resuelto
de distribucion,
puesto
con el conocimiento de la funcion
directa de
que estos
pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener medila funcion
das importantes como las lneas de pobreza, proporcion

de bajos ingresos, etc. y son muy utiles
en investigaciones
de tipo social o economico.

Debido a la importancia de es
tos parametros
en algunas investigaciones o estudios, se
debe disponer de buenos metodos

y tecnicas
para obtener las mejores estimaciones posibles.
modelo-calibrada, Chen y Wu
Bajo la aproximacion
de distribu(2002) propusieron estimadores de la funcion
usando el metodo
cion
de verosimilitud emprica. Por otro
basados en informacion
lado, estos estimadores estan

de un unico
auxiliar a traves
punto del conjunto de valores
de distribucion,
presenpara los que se define la funcion
tando el problema de obtener estimaciones menos pre
cisas cuando el argumento en el que se evalua
la funcion
se encuentra bastante alejado del punto
de distribucion
considerado para la variable auxiliar. Por tanto, estos estimadores presentan dos inconvenientes principalmente: (i)
es necesario el conocimiento y el uso de un modelo de
para los datos muestrales del estudio y (ii)
superpoblacion
auxiliar.
se hace un uso poco eficiente de la informacion
Asumiendo el metodo
de verosimilitud emprica, en
2.4 se propone un estimador modelo-asistido
la Seccion
de distribucion
basado en un uso efectivo
para la funcion
auxiliar. Este estimador sera mas
efide la informacion
entre las variables
ciente cuanto mayor sea la correlacion
no resulta neceauxiliares y la variable principal. Ademas,
sario el conocimiento de un modelo de superpoblacion,

puesto que el estimador propuesto no es dependiente del
auxiliar se jusmodelo. El uso efectivo de la informacion
tifica porque el estimador propuesto esta basado en tres
puntos perfectamente repartidos en el recorrido de valo de distribucion,
de mores en donde se define la funcion
do que, independientemente del valor donde se evalue
la
de distribucion,
este valor estara cercano a alguno
funcion
precisas
de los tres puntos, obteniendo estimaciones mas
de distribucion.
Esto permitira tambien
para la funcion
de los cuantiles y de
mejorar la calidad de la estimacion
aquellos otros parametros

relacionados con estos
y que
suelen obtenerse en las grandes instituciones estadsticas. Una propiedad deseable de un estimador de la fun de distribucion,
es que este
cion
sea por s mismo una ver de distribucion.
Este es otro punto impordadera funcion
tante a la hora de obtener estimadores eficientes para los
cuantiles poblacionales. Notamos que el estimador pro posee esta propiedad.
puesto tambien
En el Captulo 3 se analiza el problema de la esti de cuantiles bajo distintos esquemas de muestreo
macion
frecuentemente usados en la practica,

varios metodos
de
y por ultimo,
estimacion
usando el metodo
de verosimilitud
emprica.
3.2 resuelve el problema de la estimacion
La Seccion
de cuantiles en muestreo bifasico

cuando las muestras
en cada una de las fases son seleccionadas median muestral, con probabilidades iguales
te cualquier diseno
o desiguales. Se proponen varios estimadores de tipo
y exponencial que proporcionan estimadirecto, razon
ciones optimas
para un determinado cuantil. Se analizan
propiedades importantes de estos estimadores tales co de varianzas, etc. Como
mo la insesgadez, estimacion
el muestreo bifasico
caso particular, se investiga tambien

diseno
muestral que ofrece
aplicado a la estratificacion,
importantes ganancias en eficiencia debido a los beneficios que produce el muestreo estratificado. Todas es
tas propiedades se ven desde un punto de vista teori
co, aunque el analisis
de los estimadores se completa
con estudios empricos llevados a cabo para los cuartiles
y bajos distintos disenos

muestrales con probabilidades
desiguales. En terminos
de sesgo y de eficiencia relativa, estos estudios reflejan que los estimadores propues
tos mejoran a otros estimadores disenados
en muestreo
bifasico.
La mayora de las investigaciones llevadas a cabo por
los organismos nacionales de estadstica son periodicas,
10
es decir, se repiten a intervalos regulares de tiempo. Bajo este escenario, es aplicable la metodologa propuesta
3.3 para estimar cuantiles en muestreo en
en la Seccion
dos ocasiones, lo que puede permitir obtener una mayor
en la etapa de estimacion
como se ha comproprecision
bado desde el punto de vista teorico

y practico.
Esta in se ha llevado a cabo, por un lado, para el caso
vestigacion
de multiples
variables auxiliares, y por otro, bajo el uso de
muestral arbitrario, siendo varios los objetivos

un diseno
cientficos y aportes a la teora del muestreo, puesto que
en muestreo de
los metodos
tradicionales de estimacion
ocasiones sucesivas se han centrado en el problema de
de parametros
la estimacion
lineales. Para el caso de la
de cuantiles, la situacion
es bastante diferenestimacion
recientemente este campo ha sido tratado por
te, y solo
En cualquier caso, los eslos estudios de investigacion.
basados unicamente
tudios existentes estan
en muestreo
la variable de interes
en la
aleatorio simple y utilizan solo
o bien solo
estan
disenados
fase de estimacion,
para una
unica
variable auxiliar.
3.4 se plantea el problema de la

En la Seccion
de cuantiles mediante estimadores modeloestimacion
asistidos basados en el metodo

de verosimilitud empri de estos estimadores a la estimacion
de
ca. La aplicacion
se discute dentro
algunas medidas de pobreza tambien
Debido a la complejidad natural de los
de esta seccion.
cuantiles y principalmente de las medidas de pobreza que
se manejan, se propone usar la tecnica

bootstrap para el
de las varianzas de los estiproblema de la estimacion
madores. En los numerosos estudios empricos llevados
a cabo, puede observarse que tanto los estimadores propuestos como las estimaciones de las varianzas presen
tan un buen cumplimiento en terminos
de sesgo y eficiencia relativa.
global de los resultados obtenidos
Una valoracion
as como las principales conclusiones de todos los estudios de este texto se resumen en el Captulo 4.
El texto se completa con una serie de apendices

de
consulta sobre varios aspectos relacionados con los estu
dios llevados a cabo. As, el Apendice
A recoge las principales propiedades y caractersticas de las poblaciones
finitas que han sido usadas en los estudios de simulacion.

de un breve resumen estadstico de los datos de
Ademas
estas poblaciones, se muestran los diagramas de disper de tales poblaciones.
sion
Por ultimo,
notar que todos los estudios de simulacion
se han llevado a cabo mediante el lenguaje de progra R. Todos los procedimientos y funciones para obmacion
tener en R tanto los estimadores propuestos en este texto
muestral
como el resto de estimadores para cada diseno
disponibles en el Apendice
estan
??.
Son numerosas las razones por las que se ha usado este software. En primer lugar, es un lenguaje intuitivo con una gran cantidad de argumentos estadsticos
de los estimadores proque facilitan la implementacion
puestos. Otros programas como M athematica, M atlab,
C + +, etc., carecen de tales procedimientos estadsticos.
Por otro lado, es un paquete que destaca por su rapidez
y que permite obtener el mayor numero
de simulaciones
graen menor tiempo. R es un lenguaje de programacion

tuito y disponible a cualquier usuario, al contrario de otros
especficos de estadstica como SAS, que debido a sus
altas licencias esta unicamente

disponible, en la mayora
de los casos, a las grandes empresas. El dispositivo grafico que dispone R y su compatibilidad con S P LU S son
otros argumentos que hacen que la mayora de los investigadores en el campo del muestreo en poblaciones finitas prefieran el uso de este software. Sirva de ejemplo
los artculos publicados en este sentido (por ejemplo Wu,
2005) as como las conferencias internacionales sobre el
se estan
abriendo paso, como la
programa R que tambien
segunda conferencia internacional de usuarios de R que
se celebro del 15 al 17 de junio de 2006 en Viena, Austria.
De hecho, el gran auge que esta teniendo este software
introduciendo da a da nuevos procehace que se esten
dimientos y paquetes estadsticos.
1.3.
Notacion
basicos
conceptos
se describe el marco de trabajo usual

En esta seccion
en el ambito
del muestreo de poblaciones finitas. Ademas,
se introducen algunos conceptos basicos

y la notacion
comun
que se sigue a lo largo del texto.
a un conjunto de unidades del
Se denomina poblacion
Esta poblacion
que se desea obtener cierta informacion.

se denota como U , es finita y contiene N elementos distintos e identificados, es decir, U = {1, . . . , i, . . . , N }.
U es posible medir o contar en cada
En la poblacion
unidad una o varias caractersticas o variables, o clasificar
sus unidades de acuerdo a ellas. A partir de estos resultados se puede llegar al conocimiento de valores como la
funcion
de distribucion,
etc.,
media, el total, la proporcion,
a los que se denomina parametros

poblacionales. La me
dia, el total, etc., son parametros
lineales, mientras que la
de distribucion,
cuantiles, etc., son parametros
funcion
no
lineales.
Existen dos estrategias posibles para la recopilacion
de datos: (i) examinar todas las unidades de la poblacion,

es decir, realizar un censo, y (ii) examinar, segun
unos planes establecidos con anterioridad, unas pocas

que son representativas, es deunidades de la poblacion
cir, obtener una muestra, y suponer que de los resultados obtenidos se infieren a las caractersticas de toda la
poblacion.
En la practica,
determinados parametros
poblacionales son desconocidos y no pueden calcularse me se recurre a una muesdiante un censo. Por esta razon,
tra para estimar estos parametros

poblacionales. As, una
muestra es un subconjunto de unidades, s, de U selec de muestreo especficionados de acuerdo con un diseno
co, d, que asigna una probabilidad conocida, p(s), tal que
p(s) > 0 para todo s P
S, donde S es el conjunto de las
posibles muestras s y sS p(s) = 1. El valor de la media,
o funcion
de distribucion
obtenido a partir
total, proporcion
de la muestra se denomina estimador del correspondiente
parametro
poblacional.
interesa estudiar ciertas caDentro de esta poblacion
o principal
ractersticas de una variable de estudio, interes
denominada y. Las variables auxiliares son aquellas, que
sin ser objeto de estudio, son usadas para varios fines, co de unidades en la muesmo por ejemplo, para la seleccion
5
11
P
donde di = di / js dj . El cuantil de orden puede es de este ultimo
timarse directamente mediante la inversion
estimador, esto es,
tra, mejorar las estimaciones, etc. Asociado al elemento i

de la muestra se conoce exactamente y sin error el va esta cantidad se denolor de la caracterstica de interes,
tara como yi . Para P variables auxiliares, el vector de variables auxiliares viene dado por x = (x1 , . . . , xp , . . . , xP ),
donde xp = (x1p , . . . , xip , . . . , xN p )t . Se asume que estas
son conocidas para aquellos
variables auxiliares tambien
individuos seleccionados en la muestra. En algunas ocasiones, se supone que los totales o medias poblacionales
de las variables auxiliares son conocidos, es decir, las
, XP ) o X = (X 1 , . . .P
, X P ) son
cantidades X = (X1 , . . .P
N
1
conocidas, donde Xp = N
i=1 xip y X p = N
i=1 xip .
de primer orden asociaLa probabilidad de inclusion
das al plan de muestreo d para un individuo i, i , indica
la probabilidad que tiene este individuo de pertenecer a
la muestra s. Asimismo, ij indica la probabilidad de que
ambas unidades i y j pertenezcan a la muestra s. A esta
de segundo
cantidad se le llama probabilidad de inclusion
usadas son los pesos
orden. Otras cantidades que seran
di = i1 , ij = ij i j , etc.
basicos
del diseno
De este modo, los principales parametros

pobla
cionales desconocidos en la practica
y que habra que es
timar son la media poblacional de la variable de interes,
Y =
1
b HKy () = FbHKy
() = nf{t | FbHKy (t) }.
Q
N
1 X
yi ,
N i=1
el total poblacional,
Y =
N
X
yi ,
i=1
de distribucion,
la funcion
Fy (t) =
N
1 X
(t yi ),
N i=1
y el cuantil para un orden (0 < < 1),

Qy () = Fy1 () = nf{t | Fy (t) },
indicadora que toma el valor
donde () es la funcion
(a) = 1 si a 0 y (a) = 0 en otro caso y Fy1 () de inversa de Fy ().
nota la funcion
auxiliar, la media poblaSin ningun
tipo de informacion
Y , suele estimarse mecional de la variable de interes,
diante el estimador de tipo Hortviz-Thompson
y HT =
1 X
di yi .
N is
(1.1)
de la funcion
de distribucion,
Para el caso de la estimacion

este estimador viene dado por
1 X
di (t yi ),
FbHT y (t) =
N is
(1.2)
aunque suele usarse el estimador de tipo Hajek

que es
de distribucion.
una verdadera funcion

Este estimador
viene dado por
X
di (t yi ),
(1.3)
FbHKy (t) =
is
12
(1.4)
2. El mtodo de verosimilitud emprica
El metodo
de verosimilitud emprica para la estimacion
de parametros
fue propuesto en Chen y Qin (1993),
aunque fueron Chen y Sitter (1999) quienes establecieron
las bases teoricas

principales de este metodo,
y partir de
las cuales se han basado todos los estudios posteriores.
En este captulo se investiga esta tecnica

reciente en diferentes campos del muestreo en poblaciones finitas.
2.2 se recogen los principales aspecEn la Seccion
tos de esta metodologa para el caso de la estimacion

de la media poblacional, pueden verse las propiedades
importantes y los diferentes tipos de esasintoticas

mas
timadores basados en cada una de las perspectivas de
estimacion.
En cualquier estudio es usual encontrarse con el pro 2.3 se propone
blema de datos faltantes. En la Seccion
usar un estimador basado en el metodo

de verosimilitud
al problema de la existencia de
emprica como solucion
Rueda, Munoz,
datos faltantes (vease

tambien
Berger, Arcos y Martnez 2006).
de la funcion
de distribucion
mediante
La estimacion
el metodo
de verosimilitud emprica se estudia en la Sec 2.4. Se propone usar la aproximacion
modelo-asistida
cion
para obtener tal estimador, y se hace un uso eficiente de la
auxiliar al estar basado el estimador en varias
informacion
variables auxiliares y en varios puntos de estimacion.
2.1.
Introduccion
En la teora del muestreo en poblaciones finitas, el ob

jetivo principal de un metodo
determinado para la obten de estimadores o de cualquier diseno
muestral es el
cion
de mejorar las estimaciones de los parametros

en estudio en el sentido de construir nuevos estimadores que,
muestral, tengan menor error de
para el mismo tamano
lo que implica mayor precision
en las estiestimacion,
maciones de los parametros,

o equivalentemente, tengan
el mismo error que los ya conocidos pero con un menor
muestral, lo que produce una disminucion
en el
tamano
de la encuesta.
coste real de la realizacion
Por estas razones fundamentalmente, la metodologa
del muestreo en poblaciones finitas precisa de nuevas
aportaciones que abaraten los costes de los estudios o
investigaciones estadsticas, se mejoren las estimaciones
desde el punto de vista de la eficiencia o sesgadez y se
dispongan, en general, de mejores propiedades.
que se utilize
Es conocido que segun
la informacion
de parametros,
se tienen dos
de las estimacaminos para intentar mejorar la precision
muestrales mas
comciones: por un lado, utilizar disenos
plejos (muestreos estratificados, por conglomerados, poli-
etapicos,
adaptativos, etc.) basados unicamente
en los
y por otro lado, emdatos de la caracterstica de interes,

plear las metodologas propias de la teora del muestreo
en poblaciones finitas basadas en el uso de informacion

auxiliar, dada a traves
de un vecauxiliar. Esta informacion
tor de variables auxiliares, debe estar altamente correla para poder obtecionada con la caracterstica de interes
en la etapa de estimacion.
Estas dos
ner mayor precision
alternativas se pueden combinar para perseguir el objetivo
de obtener mejores estimaciones, es decir, usar disenos

complejos en metodos
de
muestrales mas
de estimacion
auxiliar es una opcion
parametros
que utilicen informacion
muy atractiva en la materia que nos ocupa (vease

Hedayat
y Sinha, 1991).
El metodo
de verosimilitud emprica, que se desarrolla
a largo de este captulo, permite combinar las dos ideas
anteriores y es bastante eficiente como se ha compro
bado tanto desde el punto de vista teorico
como empri
co (vease
Chen y Qin, 1993, Chen y Sitter, 1999, Zhong,
2000, Chen y Wu, 2002, Sitter y Wu, 2002, Wu, 2003, Wu,
2004a, 2004c, Rueda y Munoz,

2005, 2006a, 2006d, etc.).
auLos primeros metodos

que incorporan informacion
son los llamados meto
xiliar en la fase de estimacion
entre los que destacan los
dos indirectos de estimacion,
diferencia y regresion.
Esconocidos metodos
de razon,
tos estimadores no siempre garantizan que se produzca
del error de muestreo respecto a los estiuna disminucion
auxiliar. Esta ganancia
madores que no usan informacion
depende en mayor medida de la relacion
enen precision
tre las variables auxiliares y la variable objeto de estudio,
del buen uso de las hipotesis

que se supongan para em
plear un procedimiento u otro, y de que dichas hipotesis
se ajusten en mayor o menor medida al problema real.
Los estimadores anteriores se basan unicamente
en
los datos muestrales, es decir, utilizan un enfoque basa muestral. Recientemente, en muestreo se
do en el diseno
esta utilizando la perspectiva basada en modelos (ver p.e.
Perez,
2002 y Sanchez-Crespo,
2002) y la nueva aproxi modelo-calibrada (Wu y Sitter, 2001). Estas apromacion
y
ximaciones se basan en modelos de superpoblacion
son dependientes de dichos modelos. El objetivo de es
precisas, retos metodos
es obtener estimaciones mas
concluyentes en la comparacion
de estratesultados mas
gias, producir estrategias optimas,

obtener propiedades
atractivas, etc., pero cuando el esquema

asintoticas
mas
de trabajo esta perfectamente identificado con un mode Bajo esta perspectiva cobra espelo de superpoblacion.
cial importancia el uso de variables auxiliares cuyos valores tienen que ser conocidos para todos los individuos
Por tanto, para poder usar este enfoque
de la poblacion.
se debe conocer el adecuado modelo de superpoblacion
13
en estudio. En reasociado a los datos de la poblacion

eficientes que el
sumen, estas aproximaciones son mas
muestral cuando el moenfoque basado en el diseno
se ajusta bien, y pueden llegar
delo de superpoblacion
a obtener propiedades no deseables, como inferencias
no validas,
cuando se usa un modelo de superpoblacion
erroneo.
En consecuencia, para llegar a cabo estas apro informacion:
ximaciones, sera conveniente obtener mas

apropiado y todos los valoel modelo de superpoblacion
res de las variables auxiliares para todos los individuos
Cuando no se dan estas circunstancias,
de la poblacion.
apropiado un metodo
puede resultar mas

de estimacion
muestral.
basado en el diseno
Una alternativa intermedia entre los metodos

anterio
basada en disenos,
res y la clasica
estimacion
es la apro
modelo-asistida. Esta
ximacion
consiste en usar un mode para obtener una estimacion
de un
lo de superpoblacion
determinado parametro
poblacional, y entonces, usar este
Sin perdida de eficienultimo
en la etapa de estimacion.
cia, la ventaja de este estimador es que sus estimaciones

perno son dependientes del modelo de superpoblacion,
mitiendo obtener inferencias validas

independientemente
de si el modelo resulta ser apropiado o no para los datos
de estudio. El conocido estimador de rede la poblacion
generalizado (Cassel et al., 1976, Sarndal,
gresion
1980),
(Deville y Sarndal,
los estimadores de calibracion

1992,
Theberge,
1999, Wu y Luan, 2003) y el propio estimador
de verosimilitud emprica (Chen y Qin, 1993, Chen y Sitter,
1999) pueden ser categorizados como aproximaciones
modelo-asistidas.
Son dos los metodos

para obtener estimadores que
han aparecido recientemente: los estimadores de ca y los de verosimilitud emprica. Los primeros
libracion
fueron propuestos por Deville y Sarndal

(1992), y desde
entonces se han comprobado sus propiedades teoricas,

se han obtenido numerosas modificaciones, y se ha exten
dido el metodo
a diversos esquemas de muestreo, siendo
todos los resultados obtenidos bastante satisfactorios.
El metodo
de verosimilitud emprica para la esti de parametros
novedoso que el metodo
macion
es mas
Fue propuesto en Chen y Qin (1993) para
de calibracion.
de
muestreo aleatorio simple, aunque el auge y el interes
esta metodologa se produce en 1999 cuando Chen y Sit
muestral. Al
ter plantean el metodo
para cualquier diseno
este metodo
igual que el metodo

de calibracion,
permite
auxiliar de una o varias variables
incorporar informacion
adicionales, y se puede plantear tanto desde una perspec
tiva modelo-asistida, como desde la reciente aproximacion
modelo-calibrada (Wu y Sitter, 2001).
Los estimadores de verosimilitud emprica para la me muestral y bajo la
dia poblacional basados en el diseno
modelo-calibrada, seran
vistos en la Secaproximacion
2.2. Las principales propiedades asintoticas
cion
de es tambien
consultarse en esta sectos estimadores podran
Notese
cion.
que el metodo
de verosimilitud emprica usa
modelo-asistida para determinar un dela aproximacion
terminado parametro
o variable, y posteriormente se basa
muestral para determinar los estimadores.
en el diseno
Por simplicidad y sin perdida

de generalidad, en este ca modelo-asistida o
so nos referiremos como aproximacion
basada en el diseno
muestral.
aproximacion
de
Todos los metodos
generales de estimacion
parametros
asumen que no existen datos faltantes en la
muestra. Cuando existen observaciones perdidas en la
mas
simple es eliminar aquellos indimuestra, la solucion
viduos con observaciones incompletas y restringir el estudio a los individuos que presentan observaciones completas para todas las variables. De este modo, con este con
junto de observaciones se puede aplicar cualquier tecnica
de parametros.
de estimacion
Una consecuencia de este
de individuos en la muestra resmetodo

es la reduccion
pecto a la muestra planificada, lo que produce mayores
sesgos en las estimaciones y mayor varianza muestral.
Usando el metodo
de verosimilitud emprica, en la Seccion
2.3 se proponen estimadores para el problema de datos
faltantes con buenas propiedades asintoticas

y empricas.
Estos estimadores aprovechan todas las observaciones
estas
muestrales, esten
completas o incompletas para las
variables del estudio.
Otro tema de actualidad en muestreo es el proble de la funcion
de distribucion.
Los
ma de la estimacion
estudios se han centrado clasicamente

en la estimacion
de parametros
poblacionales de tipo puntual, como to
tales, medias, proporciones y varianzas. La estimacion
de distribucion
es un campo muy imporde la funcion
que permite determinar
tante al tratarse de una funcion
importantes de la poblacion
en
las caractersticas mas
relevante acerca del
estudio, proporcionando informacion
Obtener buenos
comportamiento global de la poblacion.
no es tan simple como en el
estimadores para tal funcion
caso de los estimadores puntuales. Para este problema,
un buen estimador, Fb (t), ha de cumplir las propiedades
de distribucion:
basicas
de una verdadera funcion
b
b
lm F (t) = 1.
1. lm F (t) = 0 ;
t
t+
2. Fb (t) es no decreciente, es decir, t1 < t2 se verifica Fb (t1 ) Fb (t2 ).

3. Dado t > t , lm , Fb (t) = Fb (t ).
tt
Varios de los estimadores propuestos en la literatura

del muestreo en poblaciones finitas no satisfacen todas
estas propiedades y no son, por tanto, funciones de dis Por ejemplo, la funcion
de distribucion
estimada
tribucion.
no cumple los requisimediante el metodo

de calibracion
de distributos necesarios para ser una verdadera funcion
cion.
2.4 se propone un estimador modeloEn la Seccion
de distribucion
basado en el
asistido para la funcion
muestral que cumple estas propiedades y goza de
diseno
una excelente ganancia en eficiencia como consecuencia
auxiliar. Estas
de un uso efectivo de la informacion
son dos
ventajas importantes de este estimador propuesto basado
en el metodo
de verosimilitud emprica. En esta seccion,
pueden consultarse los principales estimadores
tambien
de verosimilitud pseudo emprica modelo-calibrados para
de distribucion.
la funcion
deEn resumen, este captulo ofrece una descripcion
tallada del metodo

de verosimilitud emprica en la esti de la media o total de la poblacion.
El objetivo de
macion
este analisis
es mostrar de forma sencilla como
se cons
truye este estimador en distintos disenos
muestrales y
para los distintos enfoques existentes en muestreo, cuales

importantes y la relacion
que
son sus propiedades mas
conocidos. Usando este
tiene con otros estimadores mas
14

esquema teorico,
se aportan nuevas soluciones al proble de la funcion
ma de los datos faltantes y a la estimacion
de distribucion.
litud emprica, L(p) =

X
is
pi sujeta a las restricciones
pi = 1
(2.2)
(pi > 0),
is
2.2.
2.2.1.
Estimacion
de
poblacional
la
Estimadores basados
muestral
diseno
media
X1
1X
yi .
yi =
n is
n
is
pi xi = X.
(2.3)
is
en
el
La metodologa de verosimilitud emprica fue usada

por Owen (1988, 1990, 1991), Molina y Skinner (1992),
de regiones
etc, como un metodo
para la construccion
de confianza con observaciones independientes. Owen
afirmo que el estadstico de verosimilitud emprica tiene
asintotica
una distribucion
2 , y por tanto se puede usar
de intervalos de confianza y contraste
para la estimacion
de hipotesis.
Qin y Lawless (1994, 1995) usan el metodo
puntual cuande verosimilitud emprica para la estimacion
se incorpora a traves
de la maximizacion
do la informacion
de verosimilitud emprica. A raz de aqu,
de la funcion
este metodo
se popularizo y una gran gama de desarrollos sobre verosimilitud emprica han sido descritos en el
reciente libro de Owen (2001) para distintos ambitos.
Historicamente
el uso de verosimilitud emprica fue
propuesto por Hartley y Rao (1968), pero la primera apli formal en muestreo para poblaciones finitas del
cacion
metodo
de verosimilitud emprica se debe a Chen y Qin
(1993), que lo estudiaron bajo muestreo aleatorio simple.
se detalla de forma breve la idea prinA continuacion
cipal del metodo

de verosimilitud emprica para el pro de la media muestral de y, Y =
blema
de la estimacion
P
y
,
y
para
muestreo aleatorio simple. En este
N 1 N
i
i=1
caso, el estimador usual es el estimador de tipo HortvizThompson, dado por
y HT =
(2.1)
(2.1) se observa que el estimador usa n

En la expresion
puntos yi de la muestra con el mismo peso (1/n) para
estimar el parametro.
Puede ocurrir que ciertas observa determinantes que otras para el calciones yi sean mas
culo del parametro.

Bajo estas circunstancias es conve determinantes un
niente darle a las observaciones mas
mayor peso que aquellas que son menos influyentes para
estimar el valor del parametro.

Esta es la idea de los estimadores de verosimilitud emprica, es decir, pretenden
cambiar los pesos 1/n por otros pesos pbi , i = {1, . . . , n},
del parametro.
con el objetivo de mejorar la estimacion

Las
variables auxiliares juegan un papel importante en este
metodo,
puesto que son usadas para obtener los nuevos
pesos.
Sea pi la masa de probabilidad de yi , con i s. El es
timador maximo
verosmil emprico de Y se define como
X
yP E =
pbi yi ,
is
de verosimidonde pbi , i = {1, . . . , n}, maximiza la funcion
auxiliar se incorpora en la segunda restricLa informacion

Esta expresion
se justifica al asumir que los pesos
cion.
perfecta para X, deberan de dar
que dan una estimacion
en la estimacion
de Y . Resulta razouna buena precision
mas
eficientes a
nable asumir que las estimaciones seran
lineal mas
fuerte.
medida que y y x presenten una relacion
con restricciones
Este problema de maximizacion
puede resolverse mediante el metodo

de los multipli
por ejemplo, Aitchicadores de Lagrange. Vease
tambien,
son y Silvey (1958), Hall (1990) y Hall y La Scala (1990).
Los estimadores de verosimilitud emprica se pueden
disenar
desde distintas perspectivas, siendo el investi
gador quien debe decidir el modo de aplicar el metodo
de
verosimilitud emprica. Algunos de los distintos enfoques
de los cuales se puede disenar
esta metodologa
a traves
son los siguientes:
de L(p).
(E1). Sustitucion
L(p) para
En Chen y Qin (1993) se usa la funcion
obtener los estimadores de verosimilitud emprica,
mientras que Chen y Sitter (1999) usaron el loga a nivel poblacional, esto es,
ritmo de esta funcion
propusieron usar
l(p) = log
N
Y
pi =
i=1
N
X
log(pi ).
i=1
Notamos que el hecho de utilizar logaritmos no produce ningun

cambio en las estimaciones al tratarse
logaritmo de una funcion
estrictamente
la funcion
creciente que conserva los puntos extremos de la
original. La ventaja es una mayor facilifuncion
dad para obtener estimaciones. El problema que se
de una funplantea es como

estimar l(p) a traves
b
eficiente l(p). Tomando log(pi ) como una vacion
riable de la que se pretende estimar su total, este
solucion.
Como se deplanteamiento presenta facil
talla en Chen y Sitter (1999) y para un determinado
muestral general, l(p) se puede estimar a
diseno
de la denominada log-funcion
de verosimilitraves
tud pseudo emprica, dada por:
X
b
di log(pi ),
l(p) =
is
que hacen que b

l(p) sea
donde di son pesos basicos
para l(p), es decir
insesgada bajo el diseno
#
"
N
h
i
X
X
di log(pi ) =
log(pi ) = l(p).
E b
l(p) = E
is
i=1
de verosimilitud emprica
Este cambio en la funcion
hace que esta tecnica

sea aplicable bajo un diseno
muestral general, a diferencia del metodo

original
propuesto por Chen y Qin (1993) que esta disenado
15
exclusivamente para muestreo aleatorio simple. Ba

jo este metodo
de muestreo, ambas perspectivas
del metodo
de verosimilitud emprica producen las
mismas estimaciones.
P
de la restriccion
(E2). Sustitucion
is pi xi = X.
P
conAl imponer que
is pi xi = X, se estan
siderando valores para pi que proporcionan estimaciones perfectas para X, y podemos plantearnos
como
de efectivo es el uso que se esta haciendo
adicional a traves
de la condicion
de la informacion
auxiliar
anterior. Por este motivo, si la informacion
a prex = (x1 , . . . , xP ) es conocida, una cuestion
a usar
guntarse sera: Cual es la mejor expresion
(2.3) para hallar el estimador de
en la restriccion
verosimilitud emprica? . Para resolver esta pregunta se ha definido la cantidad ui = u(yi , xi ), con
conocida
i = {1, . . . , N }, siendo u() una funcion
de yi y de xi y que verifica
N
1 X
ui = 0.
N i=1
que
De este modo, ui es una variable de calibracion
(2.3) por
reemplaza la expresion
N
1 X
pi ui =
ui = 0,
N i=1
is
La perspectiva dada en Chen y Sitter (1999) es mas

apropiada como se ha comprobado en las investigaciones
posteriores. Ademas,
puede ser aplicada a cualquier
muestral, no estando limitada exclusivamente al
diseno
muestreo aleatorio simple. De este modo, los primeros pa
sos antes de aplicar el metodo
son:
fi1. Enfocar el problema bajo un modelo de poblacion
muestral y aplicanja, es decir, basado en el diseno
modelo-asistida, o bien, asumir
do la aproximacion
para poder aplicar el
un modelo de superpoblacion
enfoque modelo-calibrado.
u() utilizada en la restriccion
2. Determinar la funcion
mues(2.4). Para el enfoque basado en el diseno
tral se suele usar ui = xi X, mientras que bajo el
u() es unica
enfoque modelo-calibrado, la funcion
y facilmente
deducible a partir del modelo de super
poblacion.
Estimadores bajo muestreo aleatorio simple

(2.4)
que surge ahora es

donde ui = xi X. La cuestion
como
escoger u() para obtener estimadores mas
eficientes. En resumen, este metodo

dispone de numerosas alternativas o soluciones dependiendo de
u() escogida. Una eleccion
apropiada de
la funcion
supondra mas
exactitud en las estimaesta funcion
modelo-calibrada
ciones. El uso de la aproximacion
optima
es una solucion
a este problema cuando no
lineal entre y y x.
pueda asumirse una relacion
(E3). Utilizacion
de la aproximacion
modelocalibrada.
modelo-asistida,
En (E2) se usa una aproximacion
lineal (aunque
esto es, se asume una relacion
pueden establecerse relaciones de otro tipo) para
determinar unos valores ui apropiados, y posteriormente, se realizan estimaciones basadas en el
Si la relacion
entre la variable de interes
y
diseno.
y el vector de variables auxiliares x = (x1 , . . . , xP )
de un modelo de supuede ser descrita a traves
con una buena bondad de ajuste,
perpoblacion
puede resultar util
el uso de estimadores modelocalibrados (Wu y Sitter, 2001) frente a los esti Esta aproximacion
madores basados en el diseno.

consiste en asumir un determinado modelo de su obtener los valores estimados para la
perpoblacion,
variable y mediante este modelo, y a continuacion
usarlos en la etapa de estimacion.

En este sentido, se han propuesto varios mo
delos que dan lugar a los estimadores optimos
modelo-calibrados. Estos
usan el criterio de mni
ma esperanza bajo el modelo de superpoblacion
para obtener
de la varianza basada en el diseno
optima
la solucion
(vease
por ejemplo los trabajos
16
de Godambe, 1955, Godambe y Thompson, 1973

y Cassel et al., 1976). Los estimadores modelo
calibrados se desarrollan con detalle en la Seccion
2.2.3.
Una vez tenidas en cuenta estas consideraciones pre

vias, empezaremos analizando el metodo
de verosimilitud
emprica segun
Chen y Qin (1993), el cual esta disenado
para muestreo aleatorio simple.
formal del
Este estimador fue la primera aplicacion
metodo
de verosimilitud emprica en poblaciones finitas
de parametros
para la estimacion
lineales y usando infor auxiliar. Este planteamiento no se puede extender
macion
muestrales mas
complejos.
a disenos
Segun
Chen y Qin (1993), el uso de verosimilitud
emprica en el contexto de poblaciones finitas se puede
plantear de dos formas diferentes:
disponibles para
1. Si todos los valores de yi estan
en estudio, la Q
de verosimilitud
la poblacion
funcion
se define como L (p) = N
i=1 pi , donde pi es la
yi . En la practica
esdensidad de la observacion
no se va a presentar y lo mas
usual
ta situacion
es que yi sea conocida para los individuos de la
de verosimilitud
muestra s. En tal caso la funcion
emprica para cualquier
muestra
s, con s S, se
Q
define como L(p) = is pi , donde se requiere que
P
n
i=1 pi 1. Este planteamiento fue propuesto por
Jagers (1986) y es el que se sigue en varios estu de parametros
dios de estimacion
en muestreo de
poblaciones finitas mediante verosimilitud emprica
(Chen y Qin, 1993, Zhong y Rao, 1996, etc).
2. Segun
el esquema de muestreo propuesto por Hartley y Rao (1968), los cuales consideraban que la va solo
puede tomar un numero
riable de interes
finito
de valores, es decir, yi , con i = {1, . . . , I}. Bajo es la poblacion

media se define como:
ta situacion,
Y =
I
X
Ni
yi ,
N
i=1

donde Ni es el numero
de unidades en la poblacion
con caracterstica yi . Bajo muestreo aleatorio sim n, la verosimilitud basada en el

ple de tamano
esta dada por una distribucion
hipergeodiseno
metrica
multidimensional:
Ni
I
Y
ni
,
L(N1 , . . . , NI ) =
N
i=1
n
donde ni es el numero
de unidades en la muestra
con la caracterstica yi . Cuando N , Ni /N

pi , y n/N 0, la verosimilitud se puede aproximar
de verosimilitud de una distribucion
por una funcion

multinomial, a saber:
QI
n!
i=1 ni !
I
Y
i
pn
i .
i=1
Utilizando el primer planteamiento propuesto por

auJagers (1986), al maximizar L(p) sin usar informacion
xiliar, resulta pbi = 1/n para cada i s, y el estimador de
verosimilitud emprica esta dado por
y EL =
X
is
pbi yi =
1X
yi = y HT ,
n is
coincidiendo con el estimador directo usual para la media

poblacional.
auxiliar,
Cuando se dispone de alguna informacion
de la funesta
puede usarse en la etapa de maximizacion
de verosimilitud para obtener nuevos pesos pi que
cion
eficientes para la media.
produzcan estimaciones mas
auxiliar disponible para la
Se asume que la informacion
verifica
poblacion
conocida de yi y de
donde ui = u(yi , xi ) es una funcion
xi de vectores valuados. De este modo, el nuevo problema
consiste en maximizar L(p) sujeto a las restricciones:
X
pi = 1 (pi 0),
(2.5)
is
pi ui = 0.
(2.6)
is
Usando el metodo
de los multiplicadores de Lagrange, los
dados por:
valores esperados para pi , con i s, estan
pbi =
1
,
n (1 + t ui )
de la ecuacion
donde es la solucion
X
ui
= 0.
1 + t ui
is
is
X
is
pi xi
is
X
is
pi X =
X
pi xi X = 0
is
pi xi = X,
(2.10)
is
que indica que las cantidades pi dan estimaciones perfectas para X, y por tanto, deberan dar una buena aproxi para la media de variable de interes
si la relacion
macion
entre y y x es lineal.
Cuando ui = xi X, las soluciones a las ecuaciones
son obtenidas por Hartley y Rao
(2.7) y (2.8) tambien
de una aproximacion
similar. Estos autores
(1968) a traves
es asintotica
demostraron que el estimador de regresion
mente equivalente al estimador dado en (2.9). Un resultado similar puede hacerse para el estimador de la mediana propuesto por Kuk y Mak (1989) cuando ui = (x
Mx ) 0,5, siendo Mx la mediana de x, y () la funcion

indicadora que toma el valor (a) = 1 si a 0 y el valor 0
en otro caso.
(2.8) no tenga solucion.
Puede ocurrir que la ecuacion

surge cuando el conjunto convexo {ui , i
Esta situacion
s} no contiene al 0. Se han planteado dos soluciones para
este problema:
1. Usar la verosimilitud eucldea propuesta por Owen
(1991):
1X
(1 npi )2 ,
2 is
y no requerir que 0 pi 1.
(2.6) por
2. Reemplazar la restriccion
X
e,
pi ui = u
N
1 X
ui = 0,
N i=1
entre y y el vector x es liAsumiendo que la relacion

de calibracion
usual viene dada por ui =
neal, la funcion
(2.6) resulta ser
xi X, en cuyo caso la restriccion
X
X
pi ui =
pi (xi X) =
(2.7)
(2.8)
El estimador de verosimilitud emprica para la media

poblacional bajo muestreo aleatorio simple y usando la
metodologa de Chen y Qin (1993) esta dado por
X
y EL =
pbi yi .
(2.9)
is
is
e esta dentro del conjunto convexo y tiende

tal que u
a 0.
en la
En cualquier caso, cuando n es grande, la situacion
(2.8) no tiene solucion
es poco probable.
cual la ecuacion
Existen situaciones extremas en las cuales el metodo

de verosimilitud emprica es incapaz de usar la informa auxiliar, como por ejemplo, cuando x es dicotomica
cion
y
todas las observaciones son xi = 1. Estos casos tambien
son poco probables en la practica.
muestral general
Estimadores bajo un diseno
El estimador del apartado anterior esta disenado

solo
para muestreo aleatorio simple, y su metodologa no se
complepuede extender a otros disenos

muestrales mas
de
jos. Chen y Sitter (1999) proponen una aproximacion
verosimilitud pseudo emprica que es aplicable a cualquier
muestral y coincide bajo muestreo aleatorio simple
diseno
con el estimador propuesto en Chen y Qin (1993).
El metodo
de verosimilitud emprica para un diseno
muestral general asume que la muestra s es seleccionada
muestral, p(), es decir, la muestra
usando algun
diseno
1
17
s S es extrada con probabilidad p(s). El objetivo es

en estudio, es
maximizar la verosimilitudQde la poblacion
decir, maximizar L (p) = N
i=1 pi . Por conveniencia, y te logaritmo,
niendo en cuenta la monotona de la funcion
se
considera
el
objetivo
de
maximizar
l(p)
=
log L (p) =
PN
solo de disponen de los valoi=1 log pi . En la practica,
por
res yi para las unidades de la muestra, pudiendose,
tanto, utilizar unicamente
las cantidades pi para i s. Es
eficiente para
to provoca que se necesite una estimacion
viene dada por la llamada funcion
l(p). Esta estimacion

de verosimilitud pseudo emprica
X
b
di log pi ,
(2.11)
l(p) =
is
insesgada
que tiene la propiedad de ser una estimacion
para l(p), esto es
bajo el diseno
"
#
N
X
X
b
E[l(p)] = E
di log pi =
log pi = l(p),
is
i=1
muestral.
donde E[] denota la esperanza bajo el diseno
auxiliar se incorpora a traves
de la funLa informacion
de calibracion
ui = u(yi , xi ), donde u() es una funcion
de yi y de xi que debe satisfacer:
cion
N
1 X
ui = 0.
N i=1
Las cantidades pbi necesarias para obtener el estimador

de verosimilitud pseudo emprica (P EM LE) se obtienen
dada en (2.11) sujeta a las resmaximizando la funcion
tricciones (2.5) y (2.6).
Usando el metodo
de los multiplicadores de Lagrange
para resolver este problema, se obtiene, para i s, las
cantidades
di
,
(2.12)
pbi =
1 + t ui
donde el vector de multiplicadores de Lagrange, , es la
de la expresion:
solucion
X
is
di ui
= 0,
1 + t ui
(2.13)
siendo di = di / js dj . El P EM LE para la media

poblacional se define entonces como
X
yP E =
pbi yi .
(2.14)
is
lineal entre
Se recuerda que asumiendo una relacion
de calibracion
ui =
y y x se suele considerar la funcion
(2.6) puede expresarse
xi X. En este caso, la restriccion
como:
X
pi xi = X.
coincide con el estimador directo usual de tipo HorvitzThompson, aunque se demuestra que disfruta de buenas
propiedades respecto a este ultimo

(vease
Rao, 1966, Ba
su, 1971 y Sarndal

et al., 1992). Respecto al problema de
de la funcion
de distribucion,
el estimador
la estimacion
de tipo Hajek
disfruta de mejores propiedades, puesto
que el estimador de tipo Horvitz-Thompson no cumple las
de distribupropiedades para ser una verdadera funcion
(en concreto lmt+ FbHT y (t) 6= 1), propiedades
cion
que si posee el estimador de tipo Hajek.

de distribucion
tambien
Esta propiedad para la funcion

de calibracion,
y no tan
se cumple para cualquier funcion
dadas en
solo para ui = 0. Esto es, las cantidades pbi P
(2.12) son estrictamente positivas y satisfacen is pbi =
1 (como puede comprobarse en (2.5)), condiciones nece de distribucion,
sarias para estimar una verdadera funcion

hecho que no sucede, por ejemplo, con los estimadores
generalizados (GREG) definidos en Cassel
de regresion
et al. (1976) y Sarndal

(1980) o los estimadores de cali propuestos en Deville y Sarndal
bracion
(1992).
se dan expresiones del P EM LE para
A continuacion,
muestrales mas
simples y conocidos. De
algunos disenos
estos ejemplos se desprende que la aplicabilidad de esta metodologa no es tan complicada y que estos esti relacionados con otros estimadores tradimadores estan
cionales.
Ejemplo 2.1 Muestreo Aleatorio Simple.
i = n/N , di = 1/i = N/n y
P Bajo este diseno
js dj = N , obteniendose
di = P
is
is
que coincide con el estimador directo para la media
poblacional de tipo Hajek.

En general, este estimador no
js dj
yP E =
X
is
pbi yi =
1
.
n
(2.15)
1X
yi ,
n is
(2.16)
que coincide con el estimador usual bajo muestreo aleatorio simple (y HT ) y con el estimador y EL propuesto en
Chen y Qin (1993).
auxiliar, el P EM LE viene daUsando la informacion
do por
X
yP E =
pbi yi ,
(2.17)
is
donde
pbi =
1
,
n(1 + t ui )
de la ecuacion
y es la solucion
X
ui
1 + t ui
= 0.
(2.18)
(2.19)
Puede observarse que este estimador coincide, de nuevo,

con el estimador y EL .
Ejemplo 2.2 Muestreo con probabilidades iguales y
con reemplazamiento.
En los metodos
de muestreo con reemplazamien
to se demuestra (vease
Han-sen y Hurwitz, 1943) que
di = 1/(ni ), donde i es la probabilidad de que la
18
auxiliar, ui = 0, pbi =
Si no se dispone de informacion
di y el P EM LE para la media poblacional esta dado por
is
auxiliar, en
En el caso de no disponer de informacion
de verosimilitud
cuyo caso se toma ui = 0, el metodo
emprica produce pbi = di , y el P EM LE viene dado por
X
yP E =
di yi ,
di

al tratarse de
unidad i-esima
sea seleccionada. Ademas,
un muestreo con probabilidades iguales se tiene que i =
1/N y por tanto di = N/n, que coincide con los pesos
basicos
en un muestreo aleatorio simple. En consecuencia, las expresiones (2.15), (2.16), (2.17), (2.18) y (2.19)
La unica
coinciden en este diseno.
diferencia esta en la
muestra, es decir, el metodo

para seleccionarla es distinto
aqu es posible tener unidades repetidas.
y ademas
Ejemplo 2.3 Muestreo con probabilidades desiguales
y sin reemplazamiento.
Se tiene que di = 1/i ,
1/i
di
, donde di = P
,
pbi =
1 + t ui
js 1/j
js dj
= P
1/i
.
js 1/j
Algoritmo 2.1
Paso 1: Calcular (k ) donde
Ejemplo 2.4 Muestreo con probabilidades desiguales

y con reemplazamiento.
Es sabido que en este caso di = 1/(ni ), donde i es
la probabilidad de que la unidad i-esima

sea seleccionada
y por tanto
en cada extraccion
di
is
con respecto a sobre el conjunto convexo A, puesto que

de g() = 0 exise
l()/ = g(). Si la unica
solucion
te, esta
puede encontrarse aplicando la siguiente modifi del algoritmo de Newton-Raphson:
cacion
Paso 0: Sea 0 = 0, k = 0, 0 = 1 y = 108 .
de la ecuacion
(2.13). Sabido esto, el
y es solucion
P EM LE se construye segun
(2.14).
Bajo este muestreo existen muchos procedimientos para extraer una muestra (consultese,
por ejemplo,
Chaudhuri y Vos, 1988). Todos ellos poseen expresiones

que permiten calcular las cantidades i , necesarias para
obtener el P EM LE. En este texto se usan los metodos

de
Lahiri, Midzuno y Poisson (vease

Lahiri, 1951, Midzuno,
1952, Hajek,
1964, Ogus y Clark, 1971, Singh, 2003, etc).
En el Apendice
?? pueden consultarse funciones en el
R que permiten extraer mueslenguaje de programacion
tras basadas en estos procedimientos de muestreo con
probabilidades desiguales.
di = P
A = { : 1 + t ui > 0, i s}. El problema de maximizar la

b
funcion
l(p), definida en (2.11), sujeta a las restricciones
(2.5) y (2.6) es similar al problema de maximizar la funcion
concava
X
e
di log(1 + t ui ),
l() =
(2.20)
Y as, el P EM LE se construye mediante la expresion

de cada
(2.14). En el caso particular de usar el tamano
de
unidad como una variable auxiliar para la asignacion
probabilidades, se tiene que i =PMi /M , donde Mi es
de la unidad i, y M = N
el tamano
i=1 Mi . Sustituyendo
(2.20), se obtiene una expresion
este valor en la expresion

simple para el P EM LE.
mas
sin resolver hasta el momento es el
Una cuestion
procedimiento a seguir para despejar en la expresion

se ha de verificar que las canti(2.13), donde ademas,
de este problema
dades pbi sean positivas. La resolucion
no es tan simple al tratarse de ecuaciones no lineales,
debiendose
emplear metodos
especficos para la resolu de ecuaciones no lineales, como el de biseccion
o el
cion
se describe una mode Newton-Raphson. A continuacion
del metodo
dificacion
de Newton-Raphson, propuesto en
Chen et al. (2002), para el calculo del P EM LE en ca y esta
so de que este problema tenga una unica

solucion
exista.
Sea
X di ui
.
g() =
1 + t ui
is
Para una muestra dada, s, el conjunto de valores factibles
de tal que pbi > 0 esta dado por el conjunto convexo
() =
g () =
X
is
1

g ()
di ui uti
(1 + t ui )2
)1
;
X
is
di ui
.
1 + t ui
Si k(k )k < , se detiene el algoritmo y la solucion

es k . En otro caso ir al Paso 2
Paso 2: Calcular k = k (k ). Si 1 + (k k )t ui 0
para algun
l(k k ) < e
l(k ), entonces tomar
ioe
k = k /2 y repetir el Paso 2.
Paso 3: Considerar k+1 = k k , k = k + 1 y k+1 =
(k + 1)1/2 . Ir al Paso 1.
k k denota la norma eucldea.
La expresion
de este resultado puede consultarse
La demostracion
en Chen et al. (2002). As mismo, puede comprobarse que
del metodo
este algoritmo es similar a la modificacion

de
Newton descrito en Polyak (1987). Los cambios del paso
el valor de sigue den2 aseguran que en cada iteracion
e
concava
tro del rango de A y que la funcion

l() se mueve
alrededor del punto maximo.

El algoritmo es simple, eficiente y la convergencia esta garantizada, lo cual indica
que, salvo en casos extranos,

el P EM LE puede siempre
obtenerse.
Estimadores bajo muestreo estratificado

La metodologa de verosimilitud emprica para obtener estimadores en muestreo de poblaciones finitas
complejos, como
se extiende a disenos
muestrales mas
por ejemplo muestreo estratificado. Siguiendo la notacion
clasica
del muestreo estratificado, se define la log-funcion
de verosimilitud en muestreo estratificado como
l(p) =
Nh
L X
X
log(phi ),
(2.21)
h=1 i=1
que puede verse como un total poblacional, cuya esti insesgada a partir de la muestra s y bajo un diseno
macion
muestral especfico esta dada por
b
l(p) =
L X
X
dhi log(phi ).
(2.22)
h=1 ish
1
19
En este caso, dhi son los pesos disenados

basicos
que
de verosimilitud
hacen que b
l(p), denominada log-funcion
para l(p).
pseudo emprica, sea insesgada bajo el diseno
Por ejemplo, asumiendo muestreo aleatorio simple en cada estrato, se tiene dhi = Nh /nh .
En muestreo estratificado, el P EM LE se obtiene
(2.22) sujeta a las restricciones
maximizando la funcion
X
phi = 1 (phi > 0), h = {1, . . . , L},
(2.23)
ish
Wh
phi xhi = X.
(2.24)
ish
(2.24) se ha considerado por comodidad

En la restriccion
lineal entre y y x, aunque es posible modificar
una relacion
en caso de existir o considerar oportuno
esta restriccion
entre y y x.
asumir otro tipo de relacion
Una vez obtenidas todas las soluciones pbhi de
este problema, el P EM LE bajo muestreo estratificado
esta dado por
y P Est =
L
X
Wh
h=1
X
ish
pbhi yhi .
(2.25)
P h
Dependiendo de si las cantidades Xh = Nh1 N
i=1 xhi
son conocidas o no, el calculo

de este estimador se puede
orientar en dos caminos distintos.
En primer lugar, si las cantidades Xh son conocidas
lineal, la
para h = {1, . . . , L}, y asumiendo una relacion
(2.24) puede sustituirse por la restriccion
restriccion
X
phi xhi = Xh , h = {1, . . . , L},
(2.26)
ish
y el problema que se plantea en este caso es maximizar

(2.22) sujeta a las restricciones (2.23) y (2.26). Segun
este planteamiento, el calculo del P EM LE bajo muestreo

estratificado es bastante simple, esto es, se calcula el
P EM LE para cada estrato, y P Eh , y el estimador final
viene dado por
y P Est =
L
X
Wh y P Eh .
h=1
Por otro lado, cuando Xh son desconocidas para

(2.26) no puede establecerse,
cualquier h, la restriccion
y el problema de maximizar (2.22) sujeto a las restriccio tan simple. Incluso
nes (2.23) y (2.24) no es una cuestion
resulta imposible aplicar el Algoritmo 2.1 bajo muestreo
(2.22) y la restriccion
estratificado debido a que la funcion

formuladas para el conjunto de los estratos,
(2.24) estan
esto es, contienen dobles sumatorias, mientras que la re (2.23) esta formulada a nivel del estrato, es destriccion
cir, contiene una sola sumatoria. Existen dos estrategias
optima:
a seguir para buscar una solucion

(2.24), considerar otra
(G1). En lugar de la restriccion
arbitraria para cada estrato y buscar la
restriccion
intermedia bajo esta situacion.
La solucion
solucion
del metodo
final se obtiene a traves

de verosimilitud
emprica.
(G2). Reemplazar las restricciones de modo que las

todas formuladas a nivel del conjunto
nuevas esten
de los estratos, y por tanto el Algoritmo 2.1 pueda
ser aplicado.
La estrategia (G1) fue seguida por Chen y Sitter
(1999). El planteamiento que se propuso es el siguiente.
El P EM LE bajo muestreo estratificado se calcula con
siderando los pesos pbhi obtenidos al maximizar la funcion
(2.22) sujeta a las restricciones
P P
h
ish phi = 1,
(2.27)
P P
h
ish phi xhi = X.
Estas restricciones surgen al incorporar la informacion

de cada estrato, es deauxiliar contenida en el tamano
auxiliar usada para construir el
cir, toda la informacion
P EM LE se puede incluir en los vectores ui = Ui U ,
t
donde i = {1, . . . , N }, Ui = (xi , 1i , . . . , Li ) , U =
(X, W1 , . . . , WL )t y hi vale 1 si i h y 0 en otro caso.
de los tamanos
de los esEn este sentido, la informacion
tratos se usa de forma efectiva, lo cual no ocurre ni con
generalizado (GREG) ni con
el estimador de regresion
(ORE) propuesto en
el estimador optimo
de regresion
Rao (1994), y esto hace que se obtengan mejores estimaciones. A su vez, bajo muestreo estratificado, el ORE
eficiente que el GREG porque usa la correlacion
es mas
entre y y x. Asumiendo muestreo estratificado aleatorio, el
P EM LE es equivalente al ORE (y ambos mejores que el
GREG) puesto que los pesos muestrales son constantes
del estrato
dentro de cada estrato e incluyen el tamano
No obstante,
que es equivalente a incluir la correlacion.
muestral, por ejemplo muestreo
asumiendo otro diseno
estratificado con probabilidades proporcionales al tamano

eficiente que el ORE
en cada estrato, el P EM LE es mas
debido a que usa los tamanos

de los estratos que con importante que no es suministrada ni
tienen informacion
En repor los pesos muestrales ni por la correlacion.
sumen, bajo muestreo estratificado, el P EM LE gana en
eficiencia respecto a otros estimadores (vease,

por ejemplo, Chen y Sitter, 1999, Zhong y Rao, 1996, Zhong y Rao,
2000).
Segun
lo descrito, se ha de resolver el problema de
maximizar (2.22) sujeta a las restricciones (2.27). Como
las restricciones
P
h = {1, . . . , L},
ish phi = Wh ,
(2.28)
P
e
h = {1, . . . , L},
ish phi xhi = Wh xh ,
son equivalentes a las dadas en (2.27), el problema se
resuelve buscando las cantidades
P
e
xh ,
(2.29)
xh = X y maximizando (2.22) sujeta a las

tal que h Wh e
nuevas restricciones (2.28). Aplicando el metodo

de los
que se obtiene
multiplicadores de Lagrange, la solucion
es
Wh dhi
,
(2.30)
pbhi =
dh + th (xhi e
xh )
donde h para h = {1, . . . , L}, se obtiene de la ecuacion

X
ish
20
h = {1, . . . , L},
dhi (xhi e
xh )
= 0,
dh + th (xhi e
xh )
(2.31)
y dh =
para la
ish dhi . Sabido esto, el valor maximo
(2.22) es
funcion
XX
dhi log(b
phi ) =
ha sido descrito en Zhong

Este algoritmo, que tambien
eficiente cuando la variable auxiy Rao (2000), es mas
liar x es unidimensional, puesto que en este caso puede
incrementando o disminuyendo el
encontrarse la solucion
h ish
valor de t, el cual es unidimensional. Cuando se tiene mas

XX
es un problema
de una variable auxiliar, buscar la solucion
t
dhi log dh + h (xhi e
xh ) +
(2.32) mas
=
complejo al tener que aumentar o disminuir un vech ish
el calculo de pbhi requiere resolver repetitor t. Ademas,
XX
+
dhi [log(dhi ) + log(Wh )] .
(2.33) damente sistemas no-lineales de grandes dimensiones
(2.34), y esto en la practica
segun
es difcil
h ish
la expresion
de calcular. Por estas razones, se han buscado aproximaComo (2.33) es constante, se puede
maximizar
(2.32)
resP
ciones alternativas, que sean eficientes y faciles

de llevar
e
pecto a e
xh y bajo la condicion
h Wh xh = X. Notamos
a
la
pr
actica
tanto
si
se
dispone
de
una
variable
auxiliar
e
que depende de xh . Usando de
que h es una funcion
como si son varias.
nuevo el metodo
de Lagrange, se tiene
En Wu (2004b) se detalla el siguiente planteamiento
xL , t) =
l(e
x1 , . . . , e
que resuelve los inconvenientes anteriores y se basa en
L
! la estrategia (G2).
XX
t X
t
El objetivo que se persigue es poder aplicar el Algoritxh X .
dhi log dh + h (xhi e

xh ) t
Wh e
mo 2.1 de Chen et al. (2002). Para ello, tanto la log-funcion

h ish
h=1
de verosimilitud pseudo emprica como las restricciones
Tomando derivadas respecto a e
xh e igualando al vector de deben estar formuladas para el conjunto de los estratos,
ceros se obtiene
esto es, todas deben tener dobles sumatorias. Para este
t
(2.23) por
proposito,
se tiene que reemplazar la expresion
h
t
(xhi e
xh ) h
X dhi e
otra
similar
formulada
a
nivel
poblacional.
Sean
las resxh
tt Wh = th tt Wh = 0, tricciones
t
dh + h (xhi e
xh )
L
ish
X
X
Wh
phi = 1,
(2.35)
t
t
(2.31) puede exprey por tanto h = Wh t . La expresion
ish
h=1
X
sarse como
phi = 1, h = {1, . . . , L 1}.
(2.36)
X
dhi (xhi e
xh )
ish
= 0.
(2.34)
dh + Wh tt (xhi e
xh )
is
Manteniendo al margen (2.35), se combinan (2.36) y
h
Debido a estos desarrollos, puede emplearse el siguiente

algoritmo para la busqueda
de los pesos pbhi necesarios
para obtener el P EM LE en muestreo estratificado.
(2.24) anadiendo
en el vector de variables auxiliares L 1
variables indicadoras para cada estrato. Esto es, si xhi =
(xhi1 , . . . , xhiP ), se define
z1i
z2i
Algoritmo 2.2
Paso 1. Fijar un vector t y obtener las cantidades e
xh , h =
(2.34).
{1, . . . , L}, soluciones de la expresion
P
xh = X, se calculan las cantidades pbhi
Paso 2. Si h Wh e
segun
(2.30), donde h = Wh t. En caso contrario,
elegir otro t y volver al paso anterior.
Una vez calculadas las cantidades pbhi , con i sh
y h = {1, . . . , L}, mediante el algoritmo anterior, el
P EM LE esta dado por
yP E =
L
X
h=1 ish
pbhi yhi .
Se deben de tener en cuenta las siguientes observaciones

cuando se aplica el Algoritmo 2.2:
Las cantidades e
xh se pueden ver como funciones
(2.34).
que dependen de t, segun
la expresion
P
xh es monotona
Se tiene que h Wh e
respecto t. Esto es importante para determinar las soluciones e
xh ,
puesto que aumentando o disminuyendo el valor t,
es posible llegar facilmente

a ellas.
esta asegurada
La unicidad de la solucion
como
P
e
x
W
resconsecuencia de la monotona de
h
h
h
pecto t.
z(L1)i
zLi
=
=
..
.
=
=
(1, 0, . . . , 0, x1i1 , . . . , x1iP )t ,

(0, 1, . . . , 0, x2i1 , . . . , x2iP )t ,
(0, 0, . . . , 1, x(L1)i1 , . . . , x(L1)iP )t ,
(0, 0, . . . , 0, xLi1 , . . . , xLiP )t ,
=
(W1 , . . . , WL1 , X 1 , . . . , X P )t , siendo
y Z
t
(X 1 , . . . , X P ) = X. As, las restricciones (2.36) y
(2.24) se pueden combinar mediante la restriccion

L
X
Wh
h=1
phi zhi = Z.
(2.37)
ish
El problema de maximizar b
l(p) sujeta a (2.23) y (2.24)
es equivalente a maximizar b
l(p) sujeta a (2.35) y (2.37).
Usando el metodo
de los multiplicadores de Lagrange a
este
ultimo
planteamiento, se obtiene
pbhi =
dhi
= 0,
1 + t uhi
donde
dhi =
Wh
PL
dhi
P
h=1
ish
dhi
uhi = zhi Z,
21
de
y es solucion
L X
X
h=1 ish
dhi uhi
= 0.
1 + t uhi
(2.38)
es posible aplicar el Algoritmo 2.1, esEn esta situacion

si
tando garantizada la convergencia a la unica
solucion,
existe.
tal solucion
Ejemplo 2.5 Estimadores bajo muestreo bifasico.

Los estimadores comentados hasta el momento en
estan
basados en un diseno
muestral general
esta seccion
y utilizan el vector media poblacional de las variables auxiliares para obtener las estimaciones. Cuando este vector es desconocido, ni los estimadores de verosimilitud
emprica ni cualquier otro estimador basado en informa auxiliar puede ser utilizado, puesto que la mayora de
cion
estos
se construyen con ayuda de X para mejorar la pre en la estimacion
de parametros
cision
de la variable de
Vease,
interes.
por ejemplo, Cochran (1977) y Sarndal
et
al. (1992) para consultar los numerosos estimadores en la
literatura del muestreo de poblaciones finitas que hacen
auxiliar.
uso de la informacion
anterior, donde tan solo se conocen los
En la situacion
datos muestrales de las variables auxiliares, es necesario
medianestimar X o intentar dar una buena aproximacion
te alguna tecnica
o recurso. El muestreo bifasico
(tambien
denominado muestreo doble o en dos fases) permite estimar estas cantidades desconocidas y por tanto, es posible
auxiliar.
utilizar todos los metodos
basados en informacion
De este modo, en este ejemplo se resuelve el proble de parametros
ma de la estimacion
lineales en muestreo
bifasico
con disenos
muestrales arbitrarios en cada una
de las dos fases y aplicando el metodo

de verosimilitud
emprica.
En muestreo bifasico,
el metodo
de verosimilitud
emprica puede ser aplicado como sigue. El P EM LE
viene dado por
X
y P Eb =
pbi yi
(2.39)
is
de verosimidonde los pesos pbi maximizan la log-funcion

litud pseudo emprica
X
b
di log(pi )
(2.40)
l(p) =
is
sujeta a las restricciones

X
pi = 1
(pi 0)
(2.41)
is
pi u0i = 0
(2.42)
que viene a indicar que si los pesos que van a se estimados se ponderan sobre los datos muestrales del vector
de variables auxiliares de la segunda fase, se obtendra la
cantidad x0 , es decir, la media muestral del vector de las
variables auxiliares obtenida a partir de la muestra de la
primera fase. De ah la importancia de realizar un gran es para X con los
fuerzo para obtener una buena estimacion
datos de la muestra de la primera fase.
del problema planteado se resuelve por
La solucion
el metodo
de los multiplicadores de Lagrange, obteniendo
para todo i s las cantidades
como solucion
pbi =
donde
di = P
is
lineal entre y y x, es usual considerar

Asumiendo relacion
(2.42) se puede expresar
u0i = xi x0 , y la restriccion
como
X
1 X
pi xi = 0
xi = x0 ,
n
0
is
is
22
di
js
dj
= P
d0i di/s0
,
0
0
js dj dj/s
y es el vector de multiplicadores de Lagrange que se
obtiene de la ecuacion
X di u0i
= 0.
1 + t u0i
is
2.2.2.
Propiedades teoricas
En esta seccion
se describen las propiedades
importantes de los estimadores de veasintoticas

mas
muestral. En
rosimilitud emprica basados en el diseno
primer lugar, se describen las propiedades teoricas

mas
importantes del estimador de verosimilitud emprica propuesto en Chen y Qin (1993) bajo muestreo aleatorio sim se demuestra la relacion
que tiene
ple. A continuacion,
el P EM LE con los conocidos estimadores de regresion.

se completa con las propiedades teoricas
Esta seccion
de
los estimadores de verosimilitud emprica en muestreo es con otros estimadores.
tratificado y su relacion
Propiedades en muestreo aleatorio simple
A continuacion
se estudian las propiedades
asintoticas
del estimador de verosimilitud emprica
descrito en Chen y Qin (1993). Asumamos muestreo
de la muestra, n, y
aleatorio simple, donde el tamano
de la poblacion,
N , tienden a infinito cuando
el tamano
un cierto ndice, , tiende a infinito, es decir, existe una
de poblaciones finitas indexadas por , donde
sucesion
poblacional
= {(x1 , y1 ), . . . , (xN , yN )} y el tamano
N tiende a infinito. Por comodidad, se suprime el ndice
una variable
siempre que sea posible y se considera solo
auxiliar. Sea
is
donde para todo i s, di = d0i di/s0 , y u0i es una funcion

que depende de y y de los valores de x obtenidos en la
esta funcion
ha
muestra de la primera fase, s0 . Ademas,
de verificar
X
1
u0i = 0.
n0
0
di
,
1 + t u0i
x2 =
N
1 X
(xi X)2 ,
N 1 i=1
xy =
y2 =
N
1 X
(yi Y )2 ,
N 1 i=1
N
1 X
(xi X)(yi Y ),
N 1 i=1
y x, y, s2x , s2y y sxy sus correspondientes versiones mues de calibracion

satisface
trales.
PN Se considera que la funcion
i=1 ui = 0 y se tiene que
u2 =
N
1 X 2
ui ,
N 1 i=1
yu =
N
1 X
(yi Y )ui .
N 1 i=1
se estima a
La media poblacional de variable
de interes
P
del estimador y EL = is pbi yi . Los siguientes teotraves
remas pueden ser definidos.
Teorema 2.1 Suponiendo que cuando , el tamano

muestral n, y N n tienden a
poblacional N , el tamano
infinito, y
)
)
( N
( N
1 X
1 X
3
3
|ui | ,
|yi | ,
N i=1
N i=1
tienen una cota superior independiente de , entonces se
verifica
n1/2 (y EL Y )
N (0, 1),
yu
n
y2 2 .
donde 2 = 1
N
u
de este resultado puede consultarse
La demostracion
en Chen y Qin (1993). Una consecuencia importante que
puede observarse de este teorema es que a mayor cor entre u e y, mayor sera la ganancia en precision.
relacion
Se demuestra que la eficiencia asintotica

del metodo
es
equivalente a la del metodo

de regresion.
En la practica,
la cantidad 2 es desconocida, con lo
que se tiene que buscar un buen estimador. Una alternati de y2 , yu y u2 por separado, aunque
va es la estimacion
muestrales moderados trabaja mejor el estipara tamanos
mador jackknife para la varianza. En el siguiente teorema,
debido a Chen y Qin (1993), se demuestra que el estimador jackknife es un buen estimador para 2 .
Teorema 2.2 Bajo las mismas condiciones del Teorema
j2.1, si y EL (j) es el estimador cuando la observacion
esima
es eliminada y
X
n
(n 1)
(y EL (j) y EL )2 ,
bJ2 = 1
N
is
entonces,
bJ2 2 = op (1).
y as y P E = y GREG + op (n1/2 ), donde
X
(xi xw )(xw X)
e
e
P
,
y GREG =
di yi , di = di 1
2
is di (xi xw )
is
yw =
di yi ,
is
Teorema 2.3 Bajo las condiciones (C2.1) y (C2.2), el
P EM LE de Y cuando X es conocida, es asintotica generalizado

mente equivalente al estimador de regresion
(GREG). Es decir,
= P
xw X
+ op (n1/2 ),
2
d
(x
x
)
i
w
i
is
di xi
is
di = P
di
js
dj
Propiedades en muestreo estratificado

La primera propiedad del P EM LE en muestreo estratificado se basa en el Teorema 2.3.
Corolario 2.1 Bajo las condiciones (C2.1) y (C2.2) se
tiene
PL P
h=1
is dhi (xhi xw )yhi
yP E = yw PL P h
(xw X)+op (n1
2
d
(x
x
)
w
hi
h=1
ish hi
donde
n=
En lo que sigue, se asume una sola variable auxiliar

de calibracion
ui = xi X. Consideremos
y la funcion
las siguientes condiciones
tambien
El siguiente teorema, debido a Chen y Sitter (1999), puede

establecerse.
Las condiciones (C2.1) y (C2.2) deben satisfacerse

para que este teorema pueda establecerse. Sin embargo,
estas condiciones no son muy restrictivas y los disenos

muestrales mas conocidos las satisfacen. En Chen y Sitter
(1999) se demuestra como

estas condiciones se cumplen
en tres disenos
comunes, como son, el muestreo con
con reemplazaprobabilidades proporcionales al tamano
miento, el metodo
de Rao-Hartley-Cochran y el muestreo
por conglomerados.
de la varianza
Un punto importante es la estimacion
el Teorema 2.3, resulta evidel estimador y P E . Segun
dente que cualquier estimador de la varianza consistente
para y GREG sera consistente para el P EM LE. Aunque
esto es asintoticamente
valido,
no es atractivo usar un
estimador de la varianza del GREG para estimar la va
rianza del P EM LE. Una alternativa optima
es aplicar
estimadores de la varianza remuestreados, tales como
jackknife, bootstrap y replicaciones de muestras repetidas
balanceadas (ver Shao y Wu (1989, 1992), Chen y Qin
(1993) y Shao (1994)) sobre y P E , recalculando pbi en cada muestra.
muestral general
Propiedades para un diseno
(C2.1). u = maxis |ui | = op (n1/2 ),

P
is di ui
P
= Op (n1/2 ).
(C2.2).
2
d
u
i
i
is
xw =
L
X
nh
yw =
L X
X
dhi yhi ,
h=1 ish
h=1
xw =
L X
X
dhi xhi
dhi = PL
h=1
h=1 ish
dhi
P
jsh
dhj
Considerando muestreo aleatorio estratificado, es de anterior se reduce

cir, cuando dhi = Nh /nh , la expresion
a
PL P
h=1
is Wh (xhi xst )yhi /nh
y P E = y st PL P h
(xst X)+
2
h=1
ish Wh (xhi xst ) /nh
+op (n1/2 ) = y GREG + op (n1/2 ),
donde
y st =
L
X
h=1
Wh y h
y xst =
L
X
Wh xh .
h=1
23
posible, puesto que

Esta no es la mejor aproximacion
optimo
se sabe que el estimador de regresion

(ORE),
definido en Rao (1994), funciona mejor que el GREG en
muestreo estratificado. Por este motivo, en Chen y Sitter
En el siguien(1999) se busca una mejor aproximacion.
te corolario se relaciona el P EM LE con el ORE bajo
muestreo aleatorio estratificado. Para ello, se asume que
de poblaciones finitas indexadas por
existe una sucesion
, tal que cuando se verifican las condiciones
P
2
(C2.3). 0 c1 L
h=1 Wh h c2 ,
1
(C2.4). max{n1
),
h Wh } = O(n
PNh
1 P L
3
(C2.5). N
|x
|
=
O(1),
hi
h=1
i=1
PNh
1 P L
3
(C2.6). N
h=1
i=1 |yhi | = O(1).
Corolario 2.2 Bajo muestreo aleatorio estratificado y las

condiciones (C2.3), (C2.4), (C2.5) y (C2.6), el P EM LE
equivade Y , cuando X es conocida, es asintoticamente

lente a y st , esto es, y P E = y st + op (n1/2 ), donde
P
PL
eh )yhi /nh
h=1 Wh
is (xhi x
y st = y st PL
(xst X),
P h
eh )2 /nh
h=1 Wh
ish (xhi x
definidas en (2.29). Cuando L
y las cantidades x
eh estan
permanece finito, x
eh xh = Op (n1/2 ) y el estimador y P E
es asintoticamente
equivalente al estimador lineal optimo
dado en Rao (1994).
Asumiendo otros disenos

muestrales en cada estrato, las comparaciones con respecto otros estimadores son
demasiado dificultosas y se ha de recurrir a la simulacion

para realizar las comparaciones.
de la varianza se obEn este caso, la estimacion
a traves
de estimadores de la varianza retiene tambien
muestreados. En Chen y Sitter (1999), se demuestra que
bajo muestreo aleatorio estratificado el estimador de la varianza jackknife para el P EM LE es consistente.
2.2.3.
Estimadores modelo-calibrados
Una de las restricciones considerada en los estimadores de verosimilitud emprica viene dada por
X
pi ui = 0,
(2.43)
is
conocida de y
donde ui = u(yi , xi ) y u() es una funcion
y de x que verifica
N
1 X
ui = 0.
N i=1
(2.44)
lineal entre la caracterstica de inAsumiendo una relacion

y el vector auxiliar de variables, se utiliza frecuenteteres
ui = xi X, y se plantea la cuestion
mente la expresion
de como
de efectivo es el uso que se esta haciendo de
auxiliar. Si tal relacion
no es lineal, los estila informacion
madores de verosimilitud emprica obtenidos a partir de la
ui = xi X pueden resultar ineficaces y surge,
expresion
de calipor tanto, el problema de encontrar una funcion
apropiada para los datos del estudio, es decir, que
bracion
para poder usar la informacion
se adapte a cada situacion
auxiliar de la mejor manera posible. Una alternativa eficiente para resolver este problema es el uso de los esti basados en
madores modelo-calibrados, los cuales estan
modelos de superpoblacion.
Recientemente, en la literatura del muestreo se estan

basadas
utilizando a menudo estimaciones que no estan
muestral, sino que dependen de un determien el diseno
que relaciona la variable
nado modelo de superpoblacion
a traves
de las variables auxiliares. Tales prode interes
cedimientos son los estimadores basados en modelos y
de
los estimadores modelo-calibrados. Con la aparicion
la teora de muestreo tuvo
los modelos de superpoblacion
un gran empuje pues se le doto de un instrumento muy
concluyentes
valioso que permitio obtener resultados mas
de estrategias y eventualmente proen la comparacion
ducir estrategias optimas

en varias situaciones. Ejemplos
sobre modelos de superpoblacion
pueden
e informacion
consultarse, por ejemplo, en Godambe (1955), Godambe
y Thompson (1973), Cassel et al. (1976), Perez

(2002) y
Sanchez-Crespo
(2002).
propuestos
Los estimadores modelo-calibrados estan
en Wu y Sitter (2001), y se obtienen adaptando un mode y a continuacion,
usando los valolo de superpoblacion,
res estimados mediante este modelo en la etapa de es As, se obtiene una funcion
eficiente de calitimacion.
y ademas
es posible encontrar la mejor funcion
bracion,
u() en el sentido de mnima esperanza bajo un modelo
de la varianza asintotica
de superpoblacion
basada en el
diseno.
Los valores ui pueden expresarse como
ui = wi
N
1 X
wi ,
N i=1
conocida. Es facil
demostrar que
donde wi es una funcion
tambien
se verifica (2.44), y por tanbajo esta situacion
to, se cumplen las condiciones necesarias para aplicar
la metodologa de verosimilitud emprica. Operando en la
(2.43) se llega a la restriccion
alternativa
restriccion
X
is
pi wi =
N
1 X
wi ,
N i=1
que es la que suele usarse en los estimadores modelocalibrados de verosimilitud emprica. Por tanto, el proble
ma de buscar unos valores optimos
ui para obtener esti eficientes, es similar al de encontrar la canmadores mas
tidades wi , para i s.
La idea de definir estimadores optimos

bajo un modelo y asumiendo el criterio de mnima esperanza bajo un
modelo de superpoblacion
basa ha sido discutida por diversos autores,
da en el diseno
vease,
por ejemplo, Godambe (1955), Godambe y Thompson (1973) y Cassel et al. (1976).
Un primer estimador modelo-calibrado surge cuan
do se asume el siguiente esquema asintotico.
Existe
de poblaciones finitas indexadas por . El
una sucesion
poblacional y el tamano
muestral para la poblacion
tamano
-esima
se denotan como N y n . Cuando ,
N y n . El ndice se suprimira para sim Por ejemplo, vease
plificar notacion.
Isaki y Fuller (1982)
24
(2.45)

para un mayor detalle de este esquema asintotico.
Por ulti
mo, sea y1 , y2 , . . . , yN una muestra aleatoria de un modelo
tal que
de superpoblacion
E (yi ) = i ,
V (yi ) = i2 ,
Este modelo es bastante general, e incluye dos casos

muy importantes:
lineal o no lineal
1. El modelo de regresion
i = {1, 2, . . . , N }, (2.46)
y y1 , y2 , . . . , yN son independientes entre ellos. E y V

denotan la esperanza y la varianza bajo el modelo de su
perpoblacion.
Sea yeCw el estimador de verosimilitud pseudo emprica modelo-calibrado de Y cuando se usa Cw =
(2.45) y L un conjunto
{w1 , w2 , . . . , wN } en la restriccion
de sucesiones Cw = {w1 , w2 , . . . , wN } que verifican
yi = (xi , ) + i i
donde i son variables aleatorias independientes e
identicamente
distribuidas, con E (i ) = 0, V (i ) =
conocida y estrictamen 2 y i = (xi ) una funcion
te positiva que depende de xi .
2. El modelo lineal generalizado
g(i ) = xti
N
1 X
(wi )6 = O(1)
N i=1
y
N
1 X
(wi )2 c 6= 0 cuando N .
N i=1
Cw L no son muy
Estas condiciones sobre la sucesion
restrictivas y se usan para facilitar las demostraciones.
Asumiremos que {1 , . . . , N } L .
muestral es regular si el diseno
Se dice que un diseno

de muestra indexado tiene proque resulta de un tamano
i y ij independientes de la cababilidades de inclusion
satisface las siguientes
racterstica yi dada xi , y ademas
condiciones:
ndi
= O(1).
(C2.7). maxis
N
N
1 X
1 X
di wi
wi = Op (n1/2 ) para
N is
N i=1
de funciones (w1 , . . . , wN )
cualquier sucesion
L .
(C2.8).
En Wu (2003) se demuestra que entre todas las clases

de estimadores yeCw con Cw = {w1 , w2 , . . . , wN } L ,
el valor C = {1 , . . . , N } como variable de calibracion

yCw )] bajo el modelo (2.46) y
en (2.45) minimiza E [AVp (e
muestral regular. AVp denota la vapara cualquier diseno
As, el estimador de verianza asintotica

bajo el diseno.
rosimilitud pseudo emprica modelo-calibrado (M CP E)
que presenta la propiedad arriba comentada, se constru= i , o lo que es lo mismo, tomando
ye tomando wi P
ui = i N 1 N
i=1 i . Sustituyendo estas cantidades
ui en las expresiones (2.12) y (2.13) se obtiene un primer
estimador de verosimilitud emprica basado en la aproxi modelo-calibrada.
macion
Otra alternativa para construir estimadores modelocalibrados es asumir que y1 , y2 , . . . , yN es una muestra
semiparametri
aleatoria de un modelo de superpoblacion
co tal que
V (yi |xi ) = i2 2 ,
V (yi |xi ) = (i ) i = {1, . . . , N },
de enlace
donde i = E (yi |xi ), g() es una funcion
varianza.
y () es la funcion
Los verdaderos parametros

del modelo son desconocidos, aunque pueden estimarse mediante cualquier
metodo
basado en el diseno.
Asumiendo una apro basada en el modelo, la dupla (yi , xi ) con i
ximacion
s puede verse como una muestra independiente identi Los

camente distribuida del modelo de superpoblacion.
parametros
se pueden estimar usando procedimientos
los
estandares.
Bajo el enfoque basado en el diseno,
datos muestrales pueden no seguir la misma estructura
finita completa bajo un esquedel modelo que la poblacion
ma muestral complejo, y puede carecer de sentido des En este caso, se reemde el punto de vista del diseno.
de basada en los datos de
plaza por N , una estimacion
b
completa. N se reemplaza entonces por ,
la poblacion
basada en el diseno
de los datos muesuna estimacion
trales (vease
Godambe y Thompson, 1986).
Asumiendo el modelo (2.47), el estimador de verosimilitud pseudo emprico modelo-calibrado se construye
b Los valores ui vienen dados por
tomando wi = (xi , ).
1 P N
b Consideranui =
bi N
bi , donde
bi = (xi , ).
i=1
do estas cantidades en las expresiones (2.12) y (2.13) se
obtiene el M CP E.
Al igual que ocurre bajo el primer M CP E que
se ha definido, en Wu (2003) se demuestra que
entre todas las clases de estimadores yeCw , donde
Cw = {w1 , w2 , . . . , wN } L , el valor C =
en
{(x1 , ), . . . , (xN , )} como variable de calibracion
yCw )] bajo el modelo (2.47) y para
(2.45) minimiza E [AVp (e
muestral regular.
cualquier diseno
se resumen las observaciones mas
imA continuacion
portantes sobre los estimadores de verosimilitud emprica
modelo-calibrada.
basados en una aproximacion
1. En Wu y Sitter (2001) se demuestra que reemplazar
por b en i = (xi , ), no cambia asintoticamente

el estimador resultante.
2.
i = {1, . . . , N },
(2.47)
pobladonde = (0 , 1 , . . . , P )t y 2 son parametros

3.
conocida
cionales desconocidos, (x, ) es una funcion
conocida de xi o bien de
de x y de , i es una funcion
i = (xi , ) y E y V denotan la esperanza y la varian Ademas,
za con respecto al modelo de superpoblacion.

se asume que los pares (y1 , x1 ); (y2 , x2 ); . . . ; (yN , xN ) son
mutuamente independientes.
E (yi |xi ) = i = (xi , ) ,
i = {1, . . . , N },
Con probabilidad tendiendo a uno, el M CP E existe y se puede calcular usando el algoritmo 2.1 de
Chen et al. (2002).
auxiliar depende
El uso efectivo de la informacion
entre
los parametros
estimados y de la relacion
la variable respuesta y las covarianzas. Por tanto,
sobre las variables auxiliares sin
usar la calibracion
un estudio exhaustivo previo no es usualmente una
buena aproximacion.
25
lineal entre y y
4. Es sabido que para una relacion
el vector de variables auxiliares, se toma ui =
del P EM LE. En esta
xi X para la construccion
el P EM LE y el M CP E son asintotica
situacion,
mente equivalentes si se considera
bi = xti b como
para el calculo
variable de calibracion
de la aproxi modelo-calibrada. La demostracion
de este
macion
resultado puede consultarse en Wu y Sitter (2001).
entre y y x es lineal, tan solo
el
5. Si la relacion
conocimiento de X es suficiente para obtener estimadores eficientes para la media o el total pobla no es lineal o el parametro
cional. Si dicha relacion

no es una funcion
lineal, una informacion
de interes
datos
auxiliar completamente disponible y/o mas
sobre el modelo son esenciales para una esti optima.
macion
6. Al igual que se ha comentado anteriormente, las
cantidades pbi son positivas. Esta propiedad no se
ni en
cumple ni en los estimadores de calibracion
calculo del GREG y juega un papel muy importante
de otros parametros
en
en la estimacion
de interes
de distribucion,
el muestreo, como son la funcion
cuantiles, varianza y otras funciones cuadraticas.
2.2.4.
Sea el esquema asintotico

siguiente: se asume que
de disenos
muestrales y una sucesion
existe una sucesion

muesde poblaciones finitas indexadas por . El tamano
poblacional N se aproximan a infinito
tral n y el tamano
cuando .
Las condiciones siguientes son necesarias para poder
aplicar el Teorema 2.4.
(C2.9). b = N + Op (n1/2 ) y N .
(xi , t)
es continua en t y
t
(xi , t)
h(xi , )
t
P
para t en un entorno de , y N 1 N
i=1 h(xi , ) =
Op (1).
(C2.10). Para cada xi ,
(C2.11). Los pesos basicos

muestrales, di = i1 , hacen que los estimadores de Horvitz-Thompson para
asintoticamente
ciertas medias muestrales esten

normalmente distribuidos.
(C2.12). u = maxis |ui | = op (n1/2 ), donde ui =
N
1 X
(xi , N )
(xi , N ).
N i=1
P
di u i
1/2
).
(C2.13). P is
2 = Op (n
is di ui
(C2.14). h = maxis |hi | = op (n), siendo hi
h(xi , N ).
donde y M C es el estimador modelo-calibrado para la me

y cuya exdia obtenido mediante el metodo
de calibracion
viene dada por
presion
)
(
N
1 X
1 X
bN ,
y M C = y HT +
bi
di
bi B
N i=1
N is
con
bN =
B
is
P
di q i
bi
= Pis
.
d
q
is i i
Las cantidades qi son constantes positivas.
equivalente
Puesto que y M CP E es asintoticamente
al y M C , las mismas expresiones de la varianza y del
estimador de la varianza de y M C pueden usarse para
y M CP E . Estas varianzas asintoticas

basadas en el diseno
vienen dadas por
AV (y M CP E ) =
N
1 X
Ui
Uj
(
,
i
j
ij
N 2 i<j
i
j
de segundo
donde ij son las probabilidades de inclusion
orden, Ui = yi i BN , i = (xi , N ),
BN =
PN
qi (i N )(yi Y )
PN
2
i=1 qi (i N )
i=1
y N =
N
1 X
i .
N i=1
Un estimador para esta varianza viene dado por
2
n
1 X i j ij ui
uj
,
Vb (y M CP E ) = 2
N i<j
ij
i
j
bN .
bi B
donde ui = yi
del teoEstas varianzas asintoticas

y la demostracion
rema se pueden consultar en Wu y Sitter (2001).
Aunque estas aproximaciones son asintoticamente
atractivo usar estimadores de varianvalidas,

resulta mas
zas remuestreados sobre el M CP E.
2.3.
Tratamiento de datos faltantes
se propone un estimador para la meEn esta seccion

dia poblacional cuando algunas observaciones de la varia perdidas
ble de estudio o de las variables auxiliares estan
en la muestra. El nuevo estimador es valido

para cualquier
muestral (con probabilidades iguales o desiguales)
diseno
y esta basado en el metodo

de verosimilitud emprica. El
estimador propuesto se compara con otros estimadores
conocidos en un estudio emprico.
El siguiente teorema puede establecerse.
Teorema 2.4 Bajo el esquema asintotico

descrito y las
condiciones anteriores (C2.9)(C2.14), se tiene que
y M CP E = y M C + op (n1/2 ),
26
P
di qi yi
y = Pis
is di qi
di qi (b
i )(yi y)
,
d
i )2
is i qi (b
2.3.1.
Introduccion
auxiliar
En la practica,
es comun
el uso de informacion
Esta tecnica
poblacional en la etapa de estimacion.

tiene
muchas ventajas. Por ejemplo, una adecuada informacion

considerable en el
auxiliar puede producir una reduccion
sesgo y el error muestral.
variables auxiliares correlaCuando una o mas
disponibles, el
cionadas con la variable de estudio estan
(Deville y Sarndal,
metodo
de calibracion
1992) y el metodo de verosimilitud pseudo emprica (Chen y Qin, 1993,
Chen y Sitter, 1999, Wu y Sitter, 2001, Wu, 2002) pueden
usarse para estimar el total poblacional, la media pobla y cuantiles. Ambos meto
cional, funciones de distribucion
auxiliar de una o mas
variables audos usan informacion
xiliares.
Generalmente, estas tecnicas

proporcionan esti eficientes que los estimadores
madores que son mas
tradicionales, tales como el estimador de Horvitz y Thomp
son (1952) y el estimador tipo Hajek
para la media (Rao,
1966, Basu, 1971, Sarndal

et al., 1992). Sin embargo, el
metodo
de verosimilitud emprica asume respuesta completa sin valores perdidos, esto es, se asume que ninguna
en las
unidad muestral falla para proporcionar informacion
variables de estudio y auxiliares.
es una propiedad comun

La perdida
de informacion
en las investigaciones por muestreo. Esta perdida

de in puede ocurrir por varias razones: los individuos
formacion
muestreados pueden negarse a participar en el estudio,
los entrevistadores no pueden contactar con los individuos
etc.
del estudio, perdida
accidental de informacion,
se asume que si hay falta de respuesEn esta seccion,
ta, esta
es uniforme. Tratar con datos faltantes en una in por muestreo no es un asunto relativamente
vestigacion
sencillo. Existen una gran variedad de metodos

en el caso
de existir valores perdidos en los datos muestrales.
mas
Ante la presencia de datos faltantes, la solucion

simple es eliminar las unidades con falta de respuesta y
aplicar el metodo
de verosimilitud emprica a las unidades
restantes. Sin embargo, este metodo,

el cual Rubin (1987)
llamo analisis
de casos completos, puede producir sesgo
grandes
en las estimaciones y varianzas muestrales mas
(ver Rubin, 1987 o Little y Rubin, 1987).
es otra tecnica
La imputacion
que puede usarse en los
individuos con falta de respuesta (Little y Rubin, 1987, Rao
y Toutenburg, 1995, Sarndal,

1992, Chen et al., 2000). La
consiste en sustituir los valores perdidos por
imputacion
un valor adecuado. Tratar los valores imputados como si
estos fueran valores verdaderos y posteriormente usar el
metodo
de verosimilitud emprica puede dirigir a inferen
cias no validas.
Por ejemplo, la varianza puede resultar
de valoseriamente subestimada cuando la proporcion
(Rao y Shao, 1992, Sarndal,
res perdidos no es pequena

en algunas encuestas realizadas
1990, 1992). Ademas,
por organismos oficiales de estadstica (como por ejemplo
en la Oficina de Estadstica de Suecia) esta prohibida la
como solucion
al problema de datos faltantes.
imputacion
es intentar mejorar la precision
de las esOtra opcion
timaciones incluyendo los valores observados de la variable auxiliar donde la variable de estudio esta perdida. As,
aunque se tenga un valor perdido para y, el valor de x es
observado y utilizado en el proceso de estimacion.
diferencia o producLos estimadores de tipo razon,

asumen respuesta completa. Algunos autores
to tambien
en presencia de
han definido estimadores de tipo razon
datos faltantes. Estos estimadores solamente han sido
definidos para una clase limitada de disenos

muestrales.
Por ejemplo, Tracy y Osahan (1994), Toutenburg y Srivastava (1998, 1999, 2000) desarrollaron estimadores de tipo
para muestreo aleatorio simple sin reemplazamienrazon
to.
se propone modificar el estimador de
En esta seccion
verosimilitud pseudo emprica (P EM LE), el cual puede
muestral con probabiliobtenerse bajo cualquier diseno
dades iguales o desiguales. El estimador propuesto usa
muestral recogida para la variable de
toda la informacion
estudio y una variable auxiliar x, esto es, el estimador pro de los valores de x para las unidades
puesto es funcion
de los valores de y para
con datos y perdidos, y funcion
las unidades con valores x perdidos.
en la cual existen observaSe considera la situacion
ciones perdidas en una de las caractersticas para algunos
individuos, pero no en la otra, es decir, la perdida

de infor se produce para ambas caractersticas separadamacion
mente, pero no simultaneamente.

De este modo, sea p
(p 0) el numero
de unidades que responden a x pero
no a y, es decir, asumimos que tenemos p datos perdidos

se tiene informacion
auxiliar
para la variable y. Tambien
incompleta, esto es, q (q 0) unidades muestrales responden a y pero no a x. Notamos que p y q son numeros
enteros. As, se tiene un conjunto de n p q unidades

(p + q 6 n) que responden a ambas variables y y x. Con
este esquema, se pueden formar los tres siguientes conjuntos disjuntos de unidades muestrales
sA
perdidos},
{i s | xi , yi no estan
sB
{i s | xi no esta perdido, yi esta perdido},
sC
{i s | yi no esta perdido, xi esta perdido}.
Asumiendo muestreo aleatorio simple sin reemplazamiento, Toutenburg y Srivastava (2000) propusieron cuatro estimadores para la media poblacional de y:
npq xA + pxB
,
(2.48)
yT 1 = yA
(n q)xA
(n q)xA
,
(2.49)
yT 2 = yA
npq xA + pxB
yT 3
yT 4
(npq xA + pxB )(npq y A + qy C )

,
(n q)(n p)xA
nq A
npq y A + qy C
x ,
A
B
np
npq x + px
(2.50)
(2.51)
donde npq = n p q, y i y xi son las medias muestrales

basadas en si , con i = A, B, C.
Los estimadores y T 1 y y T 2 dependen de las muestras
sA y sB , y no dependen de la muestra sC . Sin embargo,
y T 3 y y T 4 dependen de las muestras sA , sB y sC . Toutenburg y Srivastava (2000) demostraron que ninguno de estos estimadores es uniformemente superior a otro. Una
apropiada del estimador requiere el conocimieneleccion
to de parametros
poblacionales.
Rueda y Gonzalez
(2004) propusieron varios esti muesmadores que pueden usarse bajo cualquier diseno
tral en presencia de datos faltantes. Estos estimadores
2
27
basados en metodos
diferencia y reestan
de tipo razon,
Por ejemplo, el estimador siguiente es asintotica
gresion.
mente insesgado, bajo muestreo aleatorio simple es
asintoticamente
normal y es mejor, en el sentido de error
cuadratico
medio, que el resto de estimadores propuestos.
y Reg =
+
breg y A
HT
b reg )y C
HT +
+ (1
A
donde pbA
i maximiza l(p ) =
pA
i = 1
donde y iHT y xiHT son los estimadores de HorvitzThompson (1952) basados en si (i = A, B, C),
d is (x, y) y Vd
arisA (x) denotan los estimadores de
Cov
A
la covarianza y varianza basados en sA . Los valores opti

mos
breg y breg pueden consultarse en Rueda y Gonzalez
(2004).
Estimador propuesto
se definen algunos estimadores de tipo

A continuacion
importantes de este tipo de

Hajek.
Las propiedades mas
descritas en Rao (1966), Basu (1971)
estimadores estan
y Sarndal
et al. (1992).
X A
X C
A
C
=
di yi ; yw
=
di yi ;
(2.53)
yw
isA
isC
AC
yw
=
dA
i xi
x
B
w =
isA
dB
i xi
(2.54)
isB
x
AB
=
w
dAB
xi ;
i
isA sB
con
= P
dA
i
dA
i
A
js1 dj
dB
= P
i
= P
dC
i
dAB
= P
i
dB
i
jsB
dC
i
jsC
dC
j
dB
j
dAC
= P
i
dAB
j
dAC
i
jsA sC
(2.55)
dAB
i
jsA sB
dAC
j
(2.56)
A
B
B
dA
i = 1/i , di = 1/i ,
(2.57)
C
AB
dC
= 1/iAB , dAC
= 1/iAC .
i = 1/i , di
i
Las cantidades iA , iB , iC , iAB y iAC son, respecti de primer orden

vamente, las probabilidades de inclusion
de las muestras sA , sB , sC , sA sB y sA sC .
auxiliar), se
Cuando ui = 0 (sin usar informacion
obtiene pbi = di y el estimador de verosimilitud pseudo emprico (P EM
P LE) coincide con el estimador de tipo
Hajek
dado por is di yi . Este estimador no usa la variable auxiliar x.
Sea el P EM LE de Y dado por
X A
yA
pbi yi ,
PE =
isA
28
(0 pA
i 1),
(2.58)
pA
i ui = 0.
(2.59)
Considerando el metodo
de multiplicadores de Lagrange,
dado por
pbA
i esta
pbA
i =
dA
i
, para i sA ,
1 + A ui
(2.60)
donde el vector de multiplicadores de Lagrange, A , se
obtiene de la ecuacion
X
dA
i ui
= 0.
1 + A ui
(2.61)
de las muesEl estimador y A

P E no usa la informacion
se define un P EM LE que
tras sB y sC . A continuacion
de sA y sB . Como la variable de
considera la informacion
contiene npq valores, el nuevo vector de pesos
interes
n p q. As, el nuevo
debe definirse con dimension
pbAB
i
estimador esta dado por
X AB
y AB
pbi yi ,
PE =
isA
dAC
yi ;
i
isA sC
x
A
w =
A
dA
i log pi sujeta a
isA
isA
2.3.2.
isA
isA
(2.52)
d is (x, y) h
Cov
B
A
b
,
X breg xA
HT + (1 reg )xHT
Vd
aris (x)
(i sA ) se obtiene como pbA

donde pbAB
i
i (el cual tiene
npq), aunque en este caso se usa el vector
dimension
de multiplicadores de Lagrange AB , el cual esta basado
(2.60). AB se
en las muestras sA y sB , en la expresion
de sustituir dA
por dAB
.
obtiene de (2.61) despues
i
i
Pueden usarse otros metodos

como el de imputacion
para obtener el P EM LE basado en las muestras sA y
relacionados con el metodo
no estan
de
sB , aunque estos
verosimilitud emprica.
A
Aunque y AB
P E parece mejor estimador que y P E al usar
de las muestras sA y sB , esteP
estimador no
informacion
=
resulta apropiado porque las condiciones isA pbAB
i
P
AB
1 y
p
b
u
=
0
no
se
cumplen.
El
estimador
no
i
i
isA
queda bien construido y las ventajosas propiedades del
metodo
de verosimilitud emprica no se sostienen. En el
2.3.4 puede confirmase
estudio emprico de la Seccion
esta observacion.
Desafortunadamente, el estimador propuesto y A
P E no
de la variable de estudio y proporcionada
usa informacion
por la muestra sC . Para resolver este problema, se propone una clase de estimadores que usan toda la infor de la variable y incluida en las muestras sA y sC
macion
Rueda, Munoz,
(vease
tambien
Berger, Arcos y Martnez,
2006). Esta clase viene dada por
C
y P E = y A
yw
,
P E + (1 )
(2.62)
donde es una constante debidamente escogida que ve 2.3.3, se proponen valorifica 0 < < 1. En la Seccion
C
esta definido en
res apropiados para . El estimador yw
(2.53).
Se observa que si = 1, el estimador resultante es
incluido en la clase
yA
P E , y por tanto, este estimador esta
y P E .
Cualquier estimador de esta clase usa toda la infor

disponible de las muestras sA y sC sin usar tecnimacion
Los valores de x de la muestra sB
cas de imputacion.
No obstante, los valores
no se usan para la estimacion.
perdidos para i sB . Incluir esde la variable y estan
en la clase considerando y AB
ta informacion
P E en lugar de
A
2.3.4,
y P E empeorara las estimaciones. En la Seccion
muestra que los estimadores
un estudio de simulacion
de la clase propuesta son tan eficientes como otros es de cada muestra (sA ,
timadores que usan la informacion
sB y sC ).
2.3.3.
se demuestra que el estimador y P E

En esta seccion
propuesto en (2.62) es asintoticamente

insesgado. La va se deriva.
rianza asintotica
de y P E tambien
Sean las siguientes condiciones.
axisA |ui | = op (n1/2 ).
(C2.15). uA = m
P
A
is di ui
(C2.16). P A A 2 = Op (n1/2 ).
isA di ui
Corolario 2.3 Bajo las condiciones (C2.15) y (C2.16), se

tiene que
A
C
y P E =
yGREG
+ (1 )
yw
+ op (n1/2 )
(2.63)
donde
A
A
= yA
yGREG
w + (X xw )b,
X
b=
A 2
dA
i (xi xw )
()
= 0,
=B
(2.65)
isA
Demostracion
Chen y Sitter (1999) demostraron que y A
P E es
A
. Sabido esto, este

asintoticamente
equivalente a yGREG
resultado se sigue facilmente.
Teorema 2.5 Bajo las condiciones (C2.15) y (C2.16), se

tiene que
A
l y A2
yGREG
GREG ,
donde
A
A
y A2
GREG = y w + (X xw )B,
A2
C
yGREG
+ (1 )
yw
,
yP E l
(2.68)
el cual implica que yP E es asintoticamente

insesgado.
Teorema 2.6 Bajo las condiciones (C2.15) y (C2.16), la
varianza asintotica
de yP E esta dada por
h
i
A
A
yw
AV (
yP E ) = 2 V (
) + B 2 V (
xA
yw
,x
A
w ) 2BCov(
w) +
(2.69)
h
i
C
A
C
C
yw
)+2(1) Cov(
yw
, yw
)BCov(
xA
,
w
) .
+(1)2 V (
w y
(2.64)
A A
dA
i xi yi y w xw
isA
donde () = lmn+ E [Tn ()] y la esperanza es con

siderada cuando el verdadero parametro
es .
A
x
+ (X
A
Sea Tn () = yw
w ). Notamos que Tn (b) =
A
ha sido establecido en (2.64). Consideremos
yGREG
() = lmn E [Tn ()]. Notamos que cuando = B,
donde
el cual esta definido en (2.67), se obtiene (B) = Y
Y = lmn Y . Puesto () verifica
A
A2
l yGREG
. Esto completa la deesto implica que yGREG
mostracion.
Usando el Corolario 2.3 y el Teorema 2.5 se obtiene
Estas condiciones fueron usadas por Chen y Sitter
(1999), los cuales demuestran que varios disenos

mues comunes las satisfacen. Dadas estas conditrales mas
ciones, el siguiente resultado puede obtenerse.
con
del estadstico fuesen desconocidos. Este

la formulacion
b es una funcion
de datos que
autor demostro que si Tn ()
b
es una funcion
de los
usa el estimador , el cual tambien
datos que estima consistentemente el parametro

, enb y Tn () tienen la misma distribucion
lmite y
tonces Tn ()
se verifica
()
= 0,
(2.66)
Demostracion
(2.68) implica que la varianza
La aproximacion
asintotica
de yP E esta dada por
A2
C
=
(2.70)
V
yGREG
+ (1 )
yw
A2
C
A2
C
2 V (
yGREG
)+(1)2 V (
yw
)+2(1)Cov(
yGREG
, yw
).
A2
Usando (2.66), la varianza de yGREG
es
A2
A
x
V (
yGREG
) = V yw
+ (X
A
w )B
A
= V yw
x
A
wB
(2.71)
A
A
) + B 2 V (
xA
yw
,x
A
V (
yw
w ) 2BCov(
w ).
A2
C
El valor Cov(
yGREG
, yw
) esta dado por
A2
C
A
C
C
Cov(
yGREG
, yw
) = Cov(
yw
, yw
)BCov(
xA
w
). (2.72)
w, y
con
B=
Cov(x, y)
.
V ar(x)
(2.67)
Demostracion
Para establecer este resultado, se asume que la
finita envuelve una sucesion
de poblaciones
poblacion
donde n y N aumentan de modo que n/N f cuando n
y donde f es una constante.
Randles (1982) demostro que el comportamiento
asintotico
de algunas familias comunes de estadsticos
poda establecerse aunque algunos parametros

vitales en
As de (2.70), (2.71) y (2.72), la varianza asintotica

de
yP E esta dada por (2.69). El Teorema 2.6 se sigue facilmente.
El estimador optimo
de la clase propuesta esta dado
por el estimador definido en (2.62) con un valor que mi
nimize la varianza asintotica
dada por (2.69).
La varianza asintotica
(2.69) puede expresarse como
AV (
yP E ) = 2 M + (1 )2 N + 2(1 )L ,
29
donde
y 0.9, y las poblaciones se llaman Pop06, Pop07, Pop08

dey Pop09, respectivamente. Pueden consultarse mas
A
A
yw
) + B 2 V (
xA
yw
,x
A
(2.73) talles de estas poblaciones en el Apendice
M = V (
w ) 2BCov(
w ),
A.
C
yw
),
(2.74)
N = V (
de los estimadores propuestos se ha anaLa precision
A
C
A
C
lizado
por
medio
de un estudio emprico, donde para cada
= Cov(
yw , yw ) BCov(
xw , yw ).
(2.75)
L
se han representado tres numeros
poblacion
diferentes de
es solu- valores perdidos para la variable x, p. Varios valores perdiEl valor opt que minimiza la varianza asintotica
de la ecuacion
cion
dos de y, q, se han representado en el eje de abscisas. De
este modo, el comportamiento de los estimadores puede

AV (
yP E )
=
observase para relaciones fuertes y debiles

entre varia
=opt
bles y diferentes situaciones de datos perdidos.
e
El comportamiento de los estimadores y A
2opt = M 2(1 opt )N + 2(1 2opt )L = 0,
P E y y P Eopt
se compara con los siguientes estimadores: (i) el estila cual implica
mador estandar
de tipo Hajek
para la media poblacional
AC
N L
; (ii) y T 1 ,
basado en las muestras sA y sC , es decir, yw
.
(2.76)
opt =
y T 2 , y T 3 y y T 4 , los estimadores propuestos en ToutenM + N 2L
burg y Srivastava (2000); (iii) y AB
P E , el P EM LE basado
Sustituyendo opt en (2.69), se obtiene la varianza
que los
en las muestras sA y sB . Aunque se ha senalado
asintotica
mnima, dada por
pesos no quedan bien definidos, se usa en el estudio de
2
para observar su comportamiento; (iv) y Reg , el
M +(1opt )2 N +2opt (1opt )L . simulacion
AV (
yP Eopt ) = opt
estimador
propuesto en Rueda y Gonzalez
(2004) basado
(2.77)
Desafortunadamente, el valor optimo

opt depende en las muestras sA , sB y sC .
Para cada una de las seis poblaciones, se han gene
de parametros
poblacionales desconocidos, los cuales
rado
B = 1000 muestras independientes bajo muestreo
pueden estimarse a partir de los datos muestrales.
muestral n. A continuacion,
aleatorio
simple con tamano
Bajo
P muestreo aleatorio simple y muestreo estratifi- se eliminan de la muestra p elementos de la variable aud
=
N
,
esto
es,
el
estimador
de
Horvitzcado,
is i
Thompson y el estimador de tipo Hajek

son identicos,
y xiliar y q elementos de la variable de estudio de forma
por tanto, los estimadores de las varianzas y covarianzas aleatoria. Bajo este escenario, las submuestras sA , sB y
El cumplimiento de todos
de las expresiones (2.73), (2.74) y (2.75) pueden obtener- sC pueden definirse facilmente.
de Sesgo Relativo
analtica para (2.73), (2.74) los estimadores se mide en terminos

se facilmente.
Una expresion
y (2.75) bajo muestreo aleatorio simple puede encontrarse (SR) y de Eficiencia Relativa (ER), donde
B
en Rueda y Gonzalez
(2004).
ECM (y j )
1 X |y j (b) Y |
,
; ERj =
SRj =
Con estas estimaciones, puede obtenerse una aproB
ECM
(y AC
Y
w )
b=1
del esti
ximacion
opt de opt . Por lo tanto, la expresion
mador propuesto viene dada por
el Error Cuadratico
b indica la b-esima
simulacion,
Medio
emprico esta dado por
A
C
opt yP E + (1
opt )
yw .
(2.78)
yP Eopt =
B
X
ECM (y j ) = B 1
(y j (b) Y )2 ,
Tambien
es posible establecer la insesgadez
b=1
asintotica
de y
P Eopt .
2.3.4.
Propiedades empricas
se comparan los estimadores proEn esta seccion

puestos con otros estimadores alternativos usando un estudio emprico basado en poblaciones reales y simuladas,
usadas previamente en estudios de estimadores de re y razon,
estimacion
de la varianza e intervalos de
gresion
confianza.
Las poblaciones naturales usadas en este estudio son
la Fam1500 y Hospitals (vease

Apendice
A). Se recuer estan
dados por
da que los coeficientes de correlacion
Fam1500
y,x1 = 0,848 y y,x2 = 0,546 en la poblacion
Hospitals.
y y,x = 0,911 en la poblacion
Paralelamente a Wu y Sitter (2001), se han generado cuatro poblaciones de N = 2000 unidades median
te muestras independientes e identicamente
distribuidas
mediante el modelo
y = 0 + 1 x + ,
(2.79)
donde x Gamma(1, 1), N (0, 2 ) y 0 = 1 = 1. Los

estan
dados por 0.6, 0.7, 0.8
coeficientes de correlacion
AB
y j = 1, . . . , 8 se refiere a los estimadores y A
P E , yP E ,
e
y P Eopt , y Reg , y T 1 , y T 2 , y T 3 y y T 4 .
Las simulaciones se han llevado a cabo en R y los
codigos
se encuentran en el Apendice
??.
En primer lugar, se observa que el estimador y T 3
respecto
posee una considerable ganancia en precision
a los estimadores y T 1 , y T 2 y y T 4 . Con el fin de obtener
claridad en las figuras, las lneas correspondientes a
mas
los estimadores y T 1 , y T 2 y y T 4 no se han incluido.
Las Figuras B.1, B.2 y B.3 representan los valores
de la Eficiencia Relativa (eje de ordenadas) para los esAB e
timadores y A
P E , y P E , y P Eopt , y Reg y y T 3 bajo muestreo
aleatorio simple y diferentes valores de p y q. Las lneas
AC
, el
horizontales en el punto 1 representan la ER para yw
estimador estandar.
De estas figuras, se puede llegar a las siguientes conclusiones generales:
entre y y x y, ademas,
el
1. Si aumenta la relacion
numero
de datos faltantes es escaso, todos los es
timadores (excepto y T 3 ) obtienen mejores estima
ciones con respecto al estimador estandar.
Cuando ambos p y q incrementan, las estimaciones son
30
peores con respecto a y AC

w , y de ah, que todas las
lneas sean crecientes.
del
2. Los mejores resultados se consiguen a traves
y P Eopt , esto es, el ECM es siempre
estimador e
menor que el resto de estimadores y siempre mejora considerablemente los resultados proporcionaAC
.
dos por el estimador directo yw
3. El peor comportamiento lo muestra el estimador
de Toutenburg y Srivastava (2000). Esto puede deberse al hecho de que este estimador no usa X co auxiliar.
mo informacion
Comparando entre los estimadores basados en el
metodo
de verosimilitud emprica, se observa
e
son equivalentes
1. Los estimadores y A
P E y y P E
En resumen, estas simulaciones muestran como un

uso apropiado de las muestras sA y sC por el estimador
propuesto puede reducir el error de los estimadores direc de verosimilitud pseudo emprica, etc. Por
to, regresion,
y P Eopt es una alternativa
tanto, el estimador propuesto e
de parametros
optima
para la estimacion
lineales en presencia de datos faltantes y con un buen uso de la informa auxiliar.
cion
de la funcion
de
Estimacion
distribucion
2.4.
Introduccion
2.4.1.
opt
entre y y x y el
cuando existe una fuerte relacion
La ganannumero
de datos perdidos es pequeno.
y P Eopt con respecto a y A

cia en eficiencia de e
P E es
mayor en el caso contrario.
A
2. y AB
P E nunca es mejor que los estimadores y P E o
e
para
y P Eopt en terminos
de eficiencia. La razon
bien definidos.
esto es que sus pesos no estan
de sA , sB y sC es
Un estimador que usa la informacion
y Reg . En las poblaciones Hospitals y Fam1500 (cuando se
e
usa x1 ), y A
P E , y P Eopt y y Reg son equivalentes. En el resto
y P E .
de los casos, y Reg nunca mejora en eficiencia a e
opt
de sA , sB y sC , e
y P Eopt
Aunque y Reg usa informacion
es considerablemente mas eficiente cuando la correlacion

entre y y x es baja y aumentan los valores de p y q.
Finalmente, comparamos el estimador propuesto con
el estimador estandar:
eficiente que e
es
unicamente
mas
y P E
1. y AC
w
opt
entre variables es debil
cuando la relacion
y el
numero
total de datos perdidos, p + q, es alto. En
este caso, el resto de estimadores obtienen significativamente peores estimaciones. Esto ocurre, por
ejemplo, en Pop06, p = 80, q = 60, esto es, el 70 %
de la muestra son valores perdidos. En la practica,

es improbable o inaceptable. No obsesta situacion
tante, este caso se muestra para poder revelar el
comportamiento de los estimadores en situaciones
extremas.
2. Como se esperaba, cuando el numero

de valores de
x perdidos, p, incrementa, la ganancia en precision

AC
es
del estimador propuesto con respecto a yw
menor. Equivalentemente, cuando p permanece fijo,
decrece cuando el numero
la ganancia en precision
de valores perdidos q aumenta. Este resultado es
se proporciona
logico
porque si p/q es pequeno,
con
informacion
por la muestra sC en relacion
mas
AC
usa la informacion
de
tambien
la muestra sB , y yw
sC .
Las Figuras B.4, B.5 y B.6 muestran los valores del
Sesgo Relativo (SR) para todos los estimadores. Puede
todos en un ranobservarse que los valores SR estan
e
go razonable, teniendo los estimadores y A
P E y y P Eopt el
mejor comportamiento en terminos

de SR. Estas figuras
presentan similares resultados que la ER, y por tanto, se
puede llegar a las mismas conclusiones.
de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion
levante acerca del comportamiento global de la poblacion.
Sin duda, los estimadores estudiados clasicamente

en la
teora del muestreo, como totales, medias, proporciones y
como la funcion
varianzas, no ofrecen tanta informacion

aunque obtener estimadores eficientes
de distribucion,
no es tan simple como en el caso de los
para tal funcion
estimadores puntuales.
de cuantiles y de otros parametros
La estimacion
queda resuelto con el
de tipo no funcional tambien
de distribucion.
Los cuantiles,
conocimiento de la funcion
direcpor ejemplo, pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener
ta de la funcion
de las lneas
medidas importantes como la determinacion
de bajos ingresos, etc. y son
de pobreza, proporcion
muy utiles
en investigaciones de tipo social o economi
co. Debido a la importancia de estos parametros

en algunas investigaciones o estudios, se debe disponer de
buenos metodos
y tecnicas
para obtener las mejores estimaciones posibles.
de distribucion
para una
Recordemos que la funcion
y, y una poblacion
finita, U , es la provariable de interes,
de unidades en U para las cuales el valor de y
porcion
de
es menor o igual que t. El problema de la estimacion
de distribucion
en la presencia de informacion
la funcion
debido
auxiliar ha recibido recientemente mucha atencion
cona las importantes propiedades que posee, el interes
siderable que tiene cuando, por ejemplo, y es una medida
de gastos o ingresos, etc.
de distribucion
poblacional,
La funcion
Fy (t) =
N
1 X
(t yi ),
N i=1
(2.80)
satisface las siguientes condiciones:

(C2.17).
lm Fy (t) = 0
lm Fy (t) = 1.
t+
no-decreciente: t1 < t2 ,
(C2.18). Fy (t) es monotona
Fy (t1 ) Fy (t2 ).
(C2.19). Fy (t) es continua por la derecha: Dado t > t ,
lm Fy (t) = Fy (t ).
tt
31
Varios de los estimadores propuestos en la literatura

del muestreo en poblaciones finitas no satisfacen todas
estas propiedades y no son, por tanto, funciones de dis Por ejemplo, la funcion
de distribucion
estimada
tribucion.
no cumple los requisimediante el metodo

de calibracion
de distributos necesarios para ser una verdadera funcion
cion.
Asumamos que la variable de estudio, y, esta altamente asociada con un vector auxiliar de variables, xi =
(xi1 , . . . , xip , . . . , xiP )t , donde los valores x1 ,. . . ,xN son
Como se ha comentado
conocidos para toda la poblacion.
en varias ocasiones, en las investigaciones por muestreo
poblacional auxiliar
es comun
el uso de esta informacion
para incrementar la precision
de los estimadores de una media o un total. Bajo este es auxiliar ha sido extensacenario, el uso de la informacion
mente estudiado, pero bastante menos ha sido el esfuerzo
de la funcion
de distribucion
y
por aplicarlo a la estimacion
de las
cuantiles poblacionales. Notamos que la aplicacion
de medias y totales
tecnicas
usuales para la estimacion
de la funcion
de distribuen el escenario de la estimacion
producen resultados no deseables y, en general, con
cion
una perdida
significativa en eficiencia.
Por otro lado, el numero
de variables auxiliares a usar
es otro punto de vista intereen la etapa de estimacion

de la funcion
distribucion.
Algunos
sante en la estimacion
construidos para
de los estimadores en la literatura estan
una unica
variable auxiliar, y el uso de otras variables auxi
liares resulta imposible o con un alto coste computacional.
con la vaSi estas variables presentan una fuerte relacion
riable de estudio, estas

deberan incluirse en el estudio y
parece razonable asumir que podran obtenerse mejores
propiedades. Estos estimadores tienen la desventaja de la
perdida
de eficiencia provocada por el hecho de no poder
auxiliar multivariante. Estas consiusar esta informacion
eficiente de la inforderaciones sugieren que un uso mas
auxiliar en la etapa de estimacion
es posible en el
macion
de la funcion
de distribucion.
problema de la estimacion
Sabemos que el metodo

de verosimilitud pseudo
emprica es una tecnica

reciente que puede usarse para
de medias o totales poblacionales (Chen
la estimacion
y Qin, 1993, Chen y Sitter, 1999), funciones de distribu (Chen y Wu, 2002, Wu, 2003) y otros parametros.
cion
Asumiendo este metodo,

Chen y Wu (2002) propusieron
estimadores modelo-calibrados para estimar la funcion

Estos estimadores estan
construidos por
de distribucion.
medio de restricciones que requieren el uso de un valor fi
jado t0 . Estos estimadores sufren una considerable perdida de eficiencia cuando t0 se encuentra alejado de t, el
de distribucion.
El espunto donde se evalua
la funcion
2.4.3 emplea el metodo
timador propuesto en la Seccion
de verosimilitud emprica y permite el uso de informacion

auxiliar multivariante. Este estimador esta basado en una
modelo-asistida. Ademas,
se usa un conjunaproximacion
to apropiado de puntos en las restricciones para evitar el
problema de la perdida
de eficiencia.
2.4.2.
Algunos estimadores de la fun de distribucion
cion
En este apartado se describen los principales trabajos

de la funcion
y enfoques relacionados con la estimacion

poblacional. Destacamos las propiedades
de distribucion
importantes de estos estimadores, prestando espemas
a los estimadores modelo-calibrados de verocial interes
similitud emprica. Estos ultimos
presentan bastantes si
2.4.3,
militudes con el estimador propuesto en la Seccion
por lo que senalaremos

las principales diferencias entre
unos y otros. Todos los estimadores que se exponen a
estan
basados en distintas aproximaciones.
continuacion
para describir los tipos de
Aprovecharemos la ocasion
inferencias que existen recientemente en muestreo de
poblaciones finitas.
(2.80) se observa que la funcion
de
En la expresion
puede verse como una media poblacional de
distribucion
la variable zi = (t yi ), y por tanto, sin utilizar ningun

auxiliar, la estimacion
de la funcion
de
tipo de informacion
es un caso especial de la estimacion
de la
distribucion
media poblacional. Haciendo uso de esta perspectiva, los
conocidos son el de Horvitz y Thompson
estimadores mas
(1952), dado por
1 X
di (t yi ),
FbHT y (t) =
N is
y el estimador de tipo Hajek

dado por
P
X
is di (t yi )
P
=
di (t yi ),
FbHKy (t) =
js dj
is
que el estimador de Horvitz y

donde di = 1/i . Notese
Thompson puede usarse unicamente

cuando el tamano
poblacional es conocido, mientras que el de tipo Hajek

puede emplearse en ambas P
situaciones. Bajo cualquier
muestral en el cual
diseno
is di = N , puede demostrarse que FbHT y (t) = FbHKy (t).
auxiliar, Rao et al.
En presencia de informacion
(1990) propusieron dos nuevos estimadores basados en
muestral: el estimador de tipo razon
dado por
el diseno
P
X
1
is di (t yi )
b i ), (2.81)
(t Rx
Fbr (t) =
P
b i)
N is di (t Rx
iU
y el estimador diferencia dado por
(
X
X
1
b i )
di (t yi ) +
(t Rx
Fbd (t) =
N is
iU
X
is
donde
(2.82)
b i)
di (t Rx
P
is di yi
b
P
.
R=
is di xi
Se observa que ambos estimadores utilizan como inforb

auxiliar la variable (t Rx).
macion
auxiliar, los
Al no utilizar ningun
tipo de informacion
estimadores FbHT y (t) y FbHKy (t) son menos eficientes que
Fbr (t) y Fbd (t), pero sin embargo, estos

ultimos
tienen el in
conveniente de dar valores, por lo general, fuera del rango
32

[0, 1] y no siempre son funciones monotonas
respecto a t,
de
con lo que no cumplen las propiedades de la funcion
Por este motivo, son numerosos los casos en
distribucion.
directa de Fbr (t) y Fbd (t) no produce
los que la inversion
buenas estimaciones para los cuantiles.
En Rao et al. (1990) y en Francisco y Fuller (1991)
monotona
se propone transformar Fbd (t) en una funcion

antes de obtener estimaciones para los cuantiles. Estos
procesos tienen basicamente

dos inconvenientes: (i) no
son transformaciones triviales y (ii) se desconoce la perdi

da de eficiencia al realizar la transformacion.
de distribucion
bastante
Otro estimador para la funcion
reciente es el obtenido mediante el metodo

de calibracion
descrito en Deville y Sarndal

(1992). Al igual que los ante auxiliar tienen la propiedad
riores que utilizan informacion
de distribuno deseable de no ser una autentica

funcion
Esto se debe a que los pesos que se utilizan para
cion.
ponderar las unidades muestrales de la variable de in (t yi ), pueden ser negativos, y por tanto, el estiteres,
mador resultante puede llegar a ser decreciente. Ademas

se demuestra que su lmite cuando t + es distinto de
1.
Por tanto, es deseable requerir que un estimador para
de distribucion
sea por si mismo una verla funcion
de distribucion.
Notese,
dadera funcion
que una verdadera
de distribucion
debe satisfacer las condiciones
funcion
(C2.17), (C2.18) y (C2.19).
generalizado
El conocido estimador de regresion
(GREG) (Cassel et al., 1976, 1977, Sarndal,

1980, Deng
y Wu, 1987, Sarndal

et al., 1989) es un estimador modelo recienasistido que esta basado en un modelo lineal. Mas
temente, son dos los principales metodos

en la literatura
categorizados como aproximaciones modeloque estan
asistidas. Estos procedimientos son el de calibracion
(Deville y Sarndal,
1992) y el de verosimilitud emprica
(Chen y Qin, 1993, Chen y Sitter, 1999). Notamos que
estos procedimientos no son dependientes de un modelo, aunque usan uno de ellos para construir el estimador.
En otras palabras, los estimadores modelo-asistidos son
aproximadamente (asintoticamente)
insesgados bajo el
independientemente de si el modelo es correcto o
diseno,
no, y son particularmente eficientes si el modelo en el que
modelo-asistida
se basa es correcto. As, la aproximacion
proporciona inferencias validas

bajo el modelo asumido y
al mismo tiempo, esta protegido contra una mala especi del modelo en el sentido de proporcionar inferenficacion
independientemente de
cias validas
basadas en el diseno,
de la variable de interes
con la variable auxiliar.
la relacion
Un ejemplo de estimadores modelo-asistidos para la fun de distribucion
son los estimadores Fbr (t) y Fbd (t).
cion
Otro procedimiento para estimar parametros

lineales
o no lineales en poblaciones finitas es la aproximacion

basada en modelos, la cual asume un modelo de su y donde los estimadores son dependientes
perpoblacion
del modelo. Chambers y Dunstan (1986) y Dorfman y
Hall (1993) propusieron estimadores basados en mode de distribucion.
El estimador de Chamlos para la funcion
bers y Dunstan presenta el inconveniente de ser inconsis Ademas,
se necesita llevar a cabo
tente bajo el diseno.
un cuidadoso contraste sobre el modelo antes de que es
tos estimadores sean usados. Todos estos metodos
pre y un posentan un grado de dificultad en la computacion
bre cumplimiento cuando el modelo especificado es incorrecto. Bajo muestreo aleatorio simple, Wang y Dorfman (1996) combinaron los estimadores de Chambers y
Dunstan (1986) con estimadores de tipo diferencia basa en un estimador hbrido, que bajo ciertas
dos en el diseno
eficiente que ambos estimadores. No
condiciones, es mas
obstante, este estimador hereda las desventajas de am a
bos estimadores y tiene una complicada generalizacion
muestrales mas
complejos. Silva y Skinner (1995)
disenos
llevaron a cabo un estudio exhaustivo de las propiedades
del estimador, y destacaron algunos problemas impor
tantes, como por ejemplo, la perdida
en eficiencia cuando
de cuantiles.
este estimador se usa en la estimacion
Finalmente, la recientemente desarrollada aproxi modelo-calibrada (Wu y Sitter, 2001) puede tammacion
usarse en las investigaciones por muestreo. Estos
bien
estimadores se obtienen, en primer lugar, adaptando un
y a continuacion,
usando los
modelo de superpoblacion,
valores estimados mediante este modelo en la etapa de
dada se
estimacion.
Por tanto, si para una poblacion
asociado o un modeconoce el modelo de superpoblacion
entonces
lo que se ajuste bastante bien a dicha poblacion,
puede resultar interesante utilizar la perspectiva modelo de la funcion
de distribucion
calibrada para la estimacion
poblacional mediante el metodo

de verosimilitud emprica.
modeloChen y Wu (2002) plantean una aproximacion
de
calibrada para obtener tres estimadores de la funcion
usando el metodo
distribucion
distintos. Estos modey tres modelos de superpoblacion
los son bastantes generales, e incluyen los casos mas

importantes usados en muestreo. Bajo los modelos que
se describen, estos estimadores tienen mnima esperan
za bajo el modelo de la varianza asintotica
basada en el
entre una clase de estimadores, es decir, son opti
diseno
estos estimadores son
mos dentro de esa clase. Ademas,
si se satisface
asintoticamente
insesgados bajo el diseno
el modelo y aproximadamente insesgados bajo el modelo. Por ultimo,
los estimadores resultantes son verdaderas
y permiten obtener cuantiles efifunciones de distribucion

directa.
cientemente mediante inversion
semi-parametrico,
Sea un modelo de superpoblacion

entre y y x puede
, en el cual se supone que la relacion
describirse de la forma siguiente
E (yi |xi ) = (xi , ), V (yi |xi ) = i2 , con i = {1, . . . , N },
donde es un vector de parametros

de la superpoblacion.
Para este vector, se puede obtener un estimador basado
b utilizando metodos
,
en el diseno,
generales para la es de ecuaciones (vease
timacion
por ejemplo Godambe y
Thompson, 1986 y Wu y Sitter, 2001).
Dado el modelo , el estimador modelo-calibrado de
de disverosimilitud emprica (M CP E) para la funcion
viene dado por
tribucion
X
X
pbi (t yi ) =
pbi zi ,
(2.83)
FbM CP E (t) =
is
is
(2.11) sujeta a
donde los pesos pbi maximizan la funcion
wi de la restriclas restricciones (2.5) y (2.45). La funcion
(2.45) viene dada por
cion
wi = E (zi |xi ) = E ((t0 yi )|xi ) = P (yi t0 |xi ).
33
se considera fijo para

El valor t0 en la segunda restriccion
conseguir que el estimador FbM CP E (t) sea una verdadera
de distribucion.
Se pueden proponer otras exprefuncion
siones para wi , pero se ha considerado wi = E (zi |xi )
porque de entre todos los posibles valores wi = w(xi ), el
valor wi = E (zi |xi ) minimiza la esperanza bajo el modelo
muestral.
basada en el diseno
En lo que sigue, se describen tres estimadores de
verosimilitud pseudo emprica modelo-calibrados distintos
de distribucion
basados en diferentes mopara la funcion
(vease
delos de superpoblacion
Chen y Wu, 2002). Wu
(2003) proporciona resultados de optimalidad para estos
estimadores.
Estimadores bajo un modelo de regresion

comunmente
Un modelo de superpoblacion
usado en
que viene
poblaciones finitas es el modelo de regresion,
dado por
yi = (xi , ) + i i ,
i = {1, . . . , N },
(2.84)
conocida de xi , y i , con
donde i es una funcion
i = {1, . . . , N }, son variables aleatorias independientes
e identicamente
distribuidas con media 0 y varianza 2 .
lineal se tiene que
Para un modelo de regresion
(xi , ) = xti , aunque se puede considerar cualquier otro
modelo no lineal. Sea N y N los estimadores de y ,
respectivamente, basados en los datos poblacionales. Se
lineal con variansabe que bajo un modelo de regresion
P , N = (xt x)1 xt y,
zas homogeneas
y de dimension
donde x es la matriz de orden N P , y = (y1 , . . . , yN )t , y
2
=
N
(y xN )t (y xN )
.
(N P )
Bajo el modelo (2.84), las cantidades wi en (2.45)

vienen dadas por
wi =
=
=
E (zi |xi ) = P (yi t0 |xi ) =

P ((xi , N ) + i i t0 ) =
G
t0 (xi , N )
i
(2.85)
de distribucion
de los terminos
donde G() es la funcion

i , esto es,
N
1 X
(t i ).
G(t) =
N i=1
Como el vector N es desconocido, es necesario bus eficiente para poder obtener las canticar una estimacion
es necesario una
tambien
dades wi . Para este proposito,
de G(). Una posible estimacion
viene dada
estimacion
Gn (), donde
por los residuos estimados, bi , y la funcion
b
yi (xi , )
,
i
P
X
bi )
is di (t
P
di (t bi ) =
,
Gn (t) =
d
j
js
is
bi =
basada en el diseno
para N . En cony b es la estimacion
se llega a que las cantidades wi de la restriccion

clusion,
(2.45) vienen dadas por
!
b
t0 (xi , )
.
(2.86)
wi = Gn
i
En algunas situaciones, resulta razonable asumir que
normallos terminos
de error i en el modelo (2.84) estan
mente distribuidos. En este caso, se llega a que
t0 (xi , N )
,
(2.87)
wi =
i N
de distribucion
de la ley de prodonde () es la funcion
babilidad normal estandar.

Se observa que se considera
de wi . Esto se hace para que
N y no en la definicion
bien definidas sobre la poblacion
las cantidades wi esten

y puedan tomar todos los argumentos posibles basados
En la practica,
en el diseno.
se sustituye N y N por b y
b respectivamente, donde estas

ultimas
cantidades son
muestral de los
las estimaciones basadas en el diseno
parametros
desconocidos del modelo. De este modo, se
llega a la expresion
!
b
t0 (xi , )
.
(2.88)
wi =
i
b
En resumen, el estimador M CP E segun
el modelo
P
(1)
(2.84) esta dado por FbM CP E (t) = is pbi (t yi ), donde
(2.11) sujeta a las reslos pesos pbi maximizan la funcion
tricciones (2.5) y (2.45). Las cantidades wi de la segun vienen dadas por (2.86), o por los valores
da restriccion
(2.88) en caso de existir normalidad en los errores del mo
delo de superpoblacion.
Estimadores bajo un modelo lineal generalizado

Resulta atractivo adaptar un modelo lineal generalizado a las cantidades wi = E (zi |xi ) = P (yi t0 |xi ). Para
logstico
ello se considera el modelo de regresion
wi
= xti ,
(2.89)
log
1 wi
varianza V (w) = w(1 w). Bajo este mocon funcion
delo, el parametro
poblacional N puede definirse como
de las ecuaciones de
optimas
una solucion
on
P estimaci
esto es, N
x
(z
w
basadas en la poblacion,
i
i ) = 0,
i
i=1
donde zi = (t0 t). As,
wi =
exp(xti N )
.
1 + exp(xti N )
(2.90)
b para el parametro
,
Un estimador basado en el diseno,

poblacional N puede obtenerse resolviendo la corres muestral del sistema anterior, esto es,
pondiente
version
P
is di xi (zi wi ) = 0. De este modo, un segundo

M CP E, estaP
vez bajo el modelo (2.89), viene dado por
(2)
FbM CP E (t) = is pbi (t yi ), donde los pesos pbi se obtienen considerando
b
exp(xti )
wi =
.
(2.91)
b
1 + exp(xti )
logstico da una razonable esEl modelo de regresion
en la mayora de las estimaciones.
timacion
34
no
Estimadores bajo valores pseudo estimados de de la variable y para obtener el valor t0 . Esta eleccion
puede realizarse en la practica

debido que los cuantiles
un modelo semi-parametrico
La variable zi = (t yi ) toma solamente valores 0
o 1, pero los valores estimados wi construidos bajo los
siempre entre 0 y 1. Tammodelos (2.84) y (2.89) estan
es posible utilizar los llamados valores pseudo estibien
son variables
mados wi = (t0 ybi ), los cuales tambien
dicotomicas
y donde ybi son valores estimados para yi .
Bajo un modelo semi-parametrico,

E (yi |xi ) = i y
V (yi |xi ) = (i ), donde i = (xi , ) y () es una fun dados por
varianza. Los valores estimados ybi estan
cion
b Sea h() una conocida funcion
de enlace tal que
(xi , ).
h(i ) = xi . b es el estimador maximo

verosmil que se
obtiene del sistema de ecuaciones
X di xi (yi i )
= 0,
(i )h0 (i )
is
a
donde h0 (u) = h(u)/u. N es la solucion
N
X
xi (yi i )
= 0.
0
(
i )h (i )
i=1
b (3)
P Por tanto, el estimador viene dado por FM CP E (t) =
bi (t yi ), donde los pesos pbi se obtienen usando
is p
los valores pseudo estimados
wi = (t0 ybi ).
(2.92)
En la practica
se usan estas cantidades debido a que los
valores
(2.93)
wi = (t0 (xi , N )),
son desconocidos.
Bajo un modelo lineal simple con una unica
variable
auxiliar, (x, ) = 0 + 1 xi , y
N
N
1 X
t0 0
1 X
,
wi =
(t0 (0 + 1 xi )) = Fx
N i=1
N i=1
1
de distribucion
de la variable x.
donde Fx (t) es la funcion
(2.45) se resume a
La restriccion
!
X
t0 b0
b
b
,
pi (t0 (0 + 1 xi )) = Fx
b1
is
de
con lo que solamente se debe conocer la distribucion
(3)
frecuencias de x para obtener FbM CP E (t).
Notamos que puede usarse cualquier modelo de su Si el modelo de superpoblacion
asociado a
perpoblacion.
en estudio es otro distinto a cualquiera de esla poblacion
tos tres, el planteamiento para el calculo

del estimador de
verosimilitud pseudo emprica modelo-calibrado es similar
a lo comentado. Bastara con obtener las cantidades wi
asociado.
optimas
bajo el modelo de superpoblacion
del valor t0 es un aspecto importante,
La eleccion
precisos para estipuesto que los estimadores son mas
mar Fy (t) cuando t esta en las cercanas del punto t0 .
En consecuencia, ningun
wi con un valor fijo t0 puede
ser uniformemente optimo

para Fy (t) en todos los valores
de t. El problema de encontrar un valor optimo

t0 no se
discute en Chen y Wu (2002). De hecho, sus correspondientes estudios empricos usan cuantiles poblacionales
poblacionales de la variable de estudio son desconocidos.

En resumen, estos estimadores presentan dos inconvenientes principalmente: (i) es necesario el conocimiento
para los datos muesde un modelo de superpoblacion
trales del estudio y (ii) se hace un uso poco eficiente de la
auxiliar, puesto que sera posible definir los
informacion
de un punto t0 , utilizando de
estimadores usando mas
informacion
auxiliar, lo que conlleva eseste modo mas
precisas. Estos problemas puede
perar estimaciones mas
solventarse en gran medida mediante la metodologa pro 2.4.3, donde se usa un vector t0 para
puesta en la Seccion
eficientes para cualquier t.
obtener estimaciones mas
de disEl estimador que se propone para la funcion
usa una aproximacion
modelo-asistida y el meto
tribucion
do de verosimilitud emprica. Con el objetivo de que este
eficiente para cualquier t, este
estimador sea mas

usa
un vector t0 basado en los cuartiles poblacionales de una
pseudo-variable que es conocida en la practica.

Ademas,
de distribucion
y
este estimador es una verdadera funcion
goza de una excelente ganancia en eficiencia como con auxiliar.
secuencia de un uso efectivo de la informacion
importantes del estiEstas

son dos de las ventajas mas
mador propuesto.
2.4.3.
Estimador propuesto modeloasistido
se propone usar la aproximacion
En esta seccion
modelo-asistida basada en el metodo

de verosimilitud
de disemprica para construir un estimador de la funcion
poblacional. La informacion
auxiliar multivariante
tribucion
y se hace
puede incorporarse en la etapa de estimacion
auxiliar. Este estimador
un uso efectivo de la informacion
muestral es una autentica
basado en el diseno
funcion
que disfruta de varias propiedades imporde distribucion
tantes.
Para construir el nuevo estimador para Fy (t), se modifican los pesos del estimador FbHKy (t), es decir di , por
unos nuevos pesos pbi . Este conjunto de pesos se de modelo-asistida
termina por medio de una aproximacion
y usando las tecnicas

de verosimilitud emprica (Seccion
2.2).
modelo-asistida porque
Se considera la estimacion
proporciona un esquema de trabajo
esta aproximacion
conveniente en el cual se pueden desarrollar estimadores
de un modelo de superpoblacion
muy precisos. A traves

se construyen estimadores basados en la muestra que
de las estimaciones cuando el momejoran la precision
mantiene propiedades
delo es correcto, pero que tambien
importantes, tales como consistencia y una varianza estimable, cuando el modelo es incorrecto.
dado por
Se considera el usual modelo de regresion
yi = t xi + vi i ,
i = 1, . . . , N,
(2.94)
conocida de xi y los valores i

donde vi es una funcion
son variables aleatorias independientes e identicamente

distribuidas con media 0 y varianza 2 .
En la practica,
los valores del vector son desconoci puede deducirse que
dos. Mediante la teora de regresion,
2
35

el estimador de mnimos cuadrados de (Sarndal
et al.,
1992)
!1
X xi yi
X xi xti
B=
(2.95)
2
2
iU
iU
es el mejor estimador insesgado lineal de bajo el mo
delo (2.94). B es un parametro
poblacional desconocido,
pero puede estimarse usando los datos muestrales y apli de las probabilidades de
cando el principio de estimacion
esto es
inclusion,
!1
X di xi yi
X di xi xti
b
.
(2.96)
=
2
2
is
is
El estimador propuesto modelo-asistido basado en el
metodo
de verosimilitud emprica se obtiene definiendo la
pseudo-variable g, donde gi = bt xi , para i s. Esta varia para yi bajo
ble puede considerarse como una prediccion
el anterior modelo lineal.
Sean tg25 = Qg (0,25), tg50 = Qg (0,5) y tg75 =
Qg (0,75) los cuartiles poblacionales de la variable g,
donde Qg () = nf{t | Fg (t) } = Fg1 (). Bajo nues disponibles,
tro marco de trabajo, estas cantidades estan
auxiliar poblapuesto que asumimos que la informacion
cional es conocida. El estimador de verosimilitud pseudo
de distribucion
emprica modelo-asistido para

P la funcion
bi (t yi ), donde los
se define como FbM A (t) =
is p
l(p) sujeta a
nuevos pesos pbi se obtienen maximizando b
las siguientes condiciones
X
pi = 1, (pi > 0),
(2.97)
is
N
1 X
(tg25 gi ) = Fg (tg25 ) = 0,25,
N i=1
is
(2.98)
N
X
1 X
pi (tg50 gi ) =
(tg50 gi ) = Fg (tg50 ) = 0,5,
N i=1
is
(2.99)
N
X
1 X
pi (tg75 gi ) =
(tg75 gi ) = Fg (tg75 ) = 0,75.
N i=1
is
(2.100)
Notese
que la idea de usar (t gi ), para algun
t, co para construir restricciones
mo una variable de calibracion
tales como (2.98), (2.99) y (2.100) fue discutida, en primer
lugar, por Wu y Sitter (2001) y posteriormente elaborada
en Chen y Wu (2002).
Existen dos aspectos importantes relacionados con
Estos
este o cualquier otro procedimiento de estimacion.
son la eficiencia y la consistencia. La eficiencia se re
fiere al cumplimiento del estimador en terminos
de sesgo
2.4.5, se realiza
y error cuadratico
medio. En la Seccion
de la eficiencia de FbM A (t) con respecuna comparacion
to otros estimadores conocidos. Las restricciones (2.98),
(2.99) y (2.100) son requerimientos de consistencia al
tamente usados y son impuestos en la practica
porque
resulta razonable pensar que los pesos que dan estimaciones perfectas para las variables auxiliares, deberan
dar una buena estimacion
para la variable de estambien
tudio.
36
pi (tg25 gi ) =
de tg25 , tg50 y tg75 en (2.98), (2.99) y

La eleccion
(2.100) se realiza por varias razones. En primer lugar, esto esta altamente relacionado con la existencia de la solu del metodo
cion
de verosimilitud emprica. Si se usaran
de tres valores t0 , esto es, un mayor numero
de resmas
tricciones, se podra llegar a problemas de existencia de

(vease
2.4.4 para un mayor detalle).

solucion
la Seccion
tambien
especificados por motivos de
Estos puntos estan
eficiencia. Si se usa un unico

punto t0 , FbM A (t) sera mas
eficiente para t en las proximidades de t0 . Para varios va

perestan
lores de t0 , es razonable asumir que si estos
fectamente distribuidos dentro del posible rango de valo eficiente. Los valores
res de t, entonces, FbM A (t) sera mas
y por tantg25 , tg50 y tg75 exhiben una buena distribucion
preciso cuando t se encuentre en los
to, FbM A (t) sera mas
alrededores de los cuartiles poblacionales de la variable
g. Esto afecta a un alto rango de valores de la variable de
estudio.
especialmente, mas
eficiente cuando t
FbM A (t) sera,
es igual a uno de los valores tg25 , tg50 o tg75 . Esto im optima
plica que no hay una eleccion

de valores para todo t. Por otro lado, para t igual a tg25 , tg50 y tg75 y si el
de
modelo (2.94) se ajusta perfectamente a la poblacion
estudio, esto es, yi = t xi = gi , i = 1, . . . , N , entonces
(t gi ) = (t yi ) y FbM A (t) se reduce al valor exacto
de Fy (t). Es de esperar, que en el caso de una informa auxiliar fuertemente relacionada con la variable de
cion
entre yi y gi sera mayor, y conseestudio, la correlacion
cuentemente, FbM A (t) cumplira mejor en el sentido de ob precisas para Fy (t).
tener estimaciones mas
Denotando por tg = (tg25 , tg50 , tg75 )t ,
(tg gi ) = ((tg25 gi ), (tg50 gi ), (tg75 gi ))t
y K = (0,25, 0,50, 0,75)t , las restricciones (2.98), (2.99) y
(2.100) pueden expresarse por
X
pi (tg gi ) = K
(2.101)
is
como
o tambien
pi ui = 0,
(2.102)
is
donde ui = (tg gi ) K.
Mediante el conocido metodo

de multiplicadores de
del proLagrange, puede demostrarse que la solucion
sujeto a las condiciones (2.97) y
blema de maximizacion
(2.102) esta dado por
pbi =
di
,
1 + t ui
(2.103)
es
donde el multiplicador de Lagrange , cuya dimension
tres, se obtiene de la ecuacion

h() =
X
is
di ui
= 0.
1 + t ui
(2.104)
Puede demostrarse que, con probabilidad tendiendo a

muestral va a infinito, existe una
uno cuando el tamano
a h() = 0. Si tal solucion
existe, esta
unica
solucion
puede encontrarse, por ejemplo, con el Algoritmo 2.1, el
cual tiene garantizada la convergencia a la solucion.
2.4.4.
de disUn estimador modelo-asistido para la funcion

se ha definido en la Seccion
2.4.3. A contitribucion
estudiamos varias propiedades de este estinuacion
mador, las cuales pueden ser importantes en la practica. En concreto, se estudia la existencia del estimador, se
de disdemuestra que FbM A (t) es una verdadera funcion
se obtiene otra propiedad relacionada con la efitribucion,
ciencia del estimador propuesto y se establecen algunos
resultados asintoticos.
Existencia del estimador

Existen dos aspectos computacionales por los cuales
el estimador FbM A (t) no pueda existir: (i) en la obtencion

a h() = 0 en
del vector b y (ii) para encontrar la solucion
(2.104).
En el punto (i), b siempre existe cuandoP
se aplica infor auxiliar univariante. En otro caso, ( is di xi xti )1
macion
no puede calcularse si no es de rango completo. Esta
es poco probable cuando n P .
situacion
se ha comentado
Respecto a la segunda cuestion,
que puede emplearse el Algoritmo 2.1.
de la media poblacional,
Para el caso de la estimacion
la variable ui que usualmente se toma es ui = xi X
justificada por
(Chen y Sitter, 1999), la cual esta tambien
y usando el Algoun modelo lineal. Bajo esta situacion
ritmo 2.1, h() = 0 falla para proporcionar la solucion

si: (i) el vector de medias X no es un punto interior del
conjunto
convexo formado por {xi , i s}, o (ii) la matriz
P
d
u
uti no es de rango completo.
i
i
is
En (i), el estimador de verosimilitud pseudo emprica
no existe. Para el caso de estimar la media poblacional,
esto ocurre con una probabilidad tendiendo a cero cuan muestral tiende a infinito. En el escenario
do el tamano
de la funcion
de distribucion,
la situacion
de la estimacion
es bastante diferente. En particular, para el procedimiento propuesto, el vector K es siempre un punto interior del
conjunto formado por {(tg gi ), i s}, puesto que los
componentes de este vector son 0 o 1, mientras que los
componentes de K toman valores dentro de [0, 1]. Notamos que los componentes del vector (tg gi ) no pueden
ser todos 0 o 1 para i s, salvo en situaciones extremas.
Sea t0 = (t0(1) , . . . , t0(h) , . . . , t0(H) )t otro vector dife y que puede
rente de tg con similar o diferente dimension
usarse en restricciones como la dada por (2.101). Respecto al punto (ii), decir que resulta necesario una cuidadosa
del vector t0 para evitar o eliminar el problema
eleccion
de multicolinealidad. En lo que sigue, se justifica la elec tg = (tg25 , tg50 , tg75 )t . En primer lugar, si se toman
cion
valores de t0(h) con dos ellos muy cercanos, entonces,
probable que surga el problema de la mulresulta mas
ticolinealidad. Si se usan valores extremos de t0 (o muy
elevados o demasiados pequenos),

la variable indicadora (t0 gi ) podra tener todos sus elementos iguales a
cero o a uno para i s, y por tanto, el metodo

de verosi Teniendo estas conmilitud emprica no tendra solucion.
tg = (tg25 , tg50 , tg75 )t
sideraciones en cuenta, la eleccion
resulta apropiada, puesto que cada punto esta alejado del
estos puntos no se encuentran cercanos
resto y ademas,
a los valores extremos de la variable g, evitando que la
variable indicadora (tg gi ) pueda contener valores que

sean todos iguales a cero o a uno para i s. Bajo este
planteamiento, el problema de la multicolinealidad es improbable. Notamos que este problema decrece conforme
muestral. Por ejemplo, no se ha obaumenta el tamano
servado problemas de multicolinealidad para el estimador
de la Seccion
2.4.5,
FbM A (t) en los estudios de simulacion
mientras que cuando se usa un vector t0 con dimension

mayor de 5, nos encontramos problemas de multicolinea muestrales mayores de 50.
lidad para tamanos
2.4.3, la eleccion
Como se comento en la Seccion

especificada por motg = (tg25 , tg50 , tg75 )t esta tambien
el estimador FbM A (t) es facil
tivos de eficiencia. Ademas,
mente computable debido a que el vector tg es de dimension igual a 3 y por tanto, el sistema (2.104) presenta un
de ecuaciones.
numero
pequeno
de distribucion
funcion
FbM A (t) es una autentica
es comprobar si el estimador
La siguiente cuestion
de distribucion.
Para
propuesto es una verdadera funcion
determinar esto, debemos verificar si se satisfacen, para
FbM A (t), las condiciones (C2.17), (C2.18) y (C2.19) de la
2.4.1.
Seccion
Resultado 2.1 El estimador FbM A (t) es una verdadera
de distribucion.
funcion
Demostracion
demostrar que la condicion
(C2.17) siemResulta facil
pre se satisface si los pesos pbi , para i = 1, . . . , n, son
independientes de t:
X
pbi (t yi ) =
lm FbM A (t) = lm
t
X
is
t+
X
is
pbi lm (t yi ) =
lm FbM A (t) = lm
=
is
t+
X
is
is
pbi (t yi ) =
pbi lm (t yi ) =
t+
pbi 0 = 0.
X
is
pbi = 1.
continua por la
Por otro lado, FbM A (t) es una funcion
derecha y monotona
no decreciente para unos pesos pbi
que sean independientes de t:
Sea t1 < t2 , entonces (t1 yi ) (t2 yi ) para
P
P
i s y FbM A (t1 ) = is pbi (t1 yi ) is pbi (t2
yi ) = FbM A (t2 ), puesto que pbi son los mismos valores positivos para t1 y t2 .
X
Sea t > t , lm FbM A (t) = lm
pbi (t yi ) =
tt
X
is
pbi lm (t yi ) =
tt
tt
X
is
is
pbi (t yi ) = FbM A (t ).
Por tanto, las condiciones (C2.17), (C2.18) y (C2.19)

se satisfacen para FbM A (t) si el mismo conjunto de valores pbi son usados para cada argumento t. Como FbM A (t)
asume un vector fijo tg , entonces, FbM A (t) es una ver de distribucion.
dadera funcion
37
FbM A (t) es igual a Fy (t) cuando xi = yi

En las investigaciones por muestreo que incorporan
muestreo sucesivo, la variable auxiliar es la misma que
la variable principal, pero medida en un periodo ante auxiliar incluye valores
rior. En este caso, la informacion
poblacionales de la variable x, los cuales pueden estar
resulta raproximos
a los valores de y. En tal situacion,
zonable esperar que un estimador de Fy (t) debera de
aproximarse a Fy (t) a medida que x se aproxima a y. Es
ta propiedad no se satisface para el estimador estandar,
auxiliar.
puesto que este
no hace uso de la informacion
Si yi = xi , puede verse que b = 1, gi = yi y
planteada para el estimador FbM A (t)
segunda restriccion
P
esta dada por is pi (tg yi ) = Fy (tg ). As, FbM A (t) =
P
bi (t yi ) es exactamente igual a Fy (t) si t coincide
is p
con uno de los valores de vector tg . Si esto no sucede,
la igualdad, en general, no se cumple, aunque se espe si el argumento
ran que las desviaciones sean pequenas
t esta proximo
a un componente de tg .
Comportamiento asintotico
El siguiente paso es establecer el comportamiento
asintotico
del estimador FbM A (t). Lamentablemente, este
b que son dependienestimador usa los vectores tg y ,
del comtes de la muestra, lo que dificulta la obtencion
portamiento asintotico
de este estimador. No obstante, es posible obtener algunos resultados para el estimador FbM A1 (t) que es muy similar al estimador propuesto
auaunque menos eficiente al utilizar menos informacion
xiliar. Este estimador se obtiene equivalentemente al estimador propuesto, con la diferencia de que los pesos pbi
basados en las restricciones (2.97) y
estan
X
is
pi (t0 gi ) =
1
N
N
X
(t0 gi ) = Fg (t0 ),
(2.105)
i=1
para un valor cualquiera t0 especificado.

Nota 2.1 En caso de haber establecido propiedades
asintoticas
como la equivalencia con otros estimadores
de la varianza del estimador FbM A (t),
o la determinacion
estas expresiones seran solamente validas

para mues y por tanto, seran poco utiles
tras de gran tamano
en la
de algun
practica.
Habitualmente, la replicacion
tipo, co mediante muestras
mo Bootstrap, Jackknife o replicacion
balanceadas (Shao y Tu, 1995), es una alternativa que
de la varianza, partise usa en la etapa de estimacion
de varianzas de funciones
cularmente para la estimacion
que son especialmente dificultosas. Tales
de distribucion
procedimientos son faciles

de computar (Dalgleish, 1995)
han demostrado un buen cumplimiento para
y ademas,
el metodo
de verosimilitud emprica (Chen y Sitter, 1999)
de la funcion
de distribucion
(Lomy para la estimacion
barda et al., 2003, Lombarda et al., 2004).
Teorema 2.7 Cuando el vector b se reemplaza por el
parametro
B dado en (2.95), el correspondiente estimador de verosimilitud pseudo emprica modelo-asistido,
B
FbM
A1 (t), cuando se usa el punto t0 = t, es asintotica-
38
genemente equivalente a un estimador de tipo regresion

ralizado:
B
1/2
b
b
b
),
FbM
A1 (t) = FHKy (t) + (Fb (t) Fb (t))D + op (n
b=
donde D
=
is
b z,w
2
bw
di [(t yi ) FbHKy (t)][(t bi ) Fbb (t)]

,
P
2
b
is di [(t bi ) Fb (t)]
de distribucion
de la vabi = Bt xi , Fb (t) es la funcion
riable b y Fbb (t) denota el estimador de tipo Hajek

para la
de distribucion
de b en el punto t. z y w denotan
funcion
las variables (t y) y (t b), respectivamente. Por tan
insesgado bajo el diseno

to, FbM A1 (t) es asintoticamente
y tiene la misma varianza asintotica

que el estimador de
generalizado.
tipo regresion
Demostracion
Para demostrar este teorema, asumimos que la
finita esta envuelta en una sucesion
de poblapoblacion
ciones donde n y N aumentan de tal forma que (n/N )
se considera la variable de
f cuando n . Ademas,
(tbi ) en (2.105) para construir FbM A1 (t). Sea
calibracion
ui = (t bi ) Fb (t). Puesto que |ui | 1, las condiciones
(C2.1) y (C2.2) del Teorema 2.3 se satisfacen y por tanto
P
di ui
= P is 2 + op (n1/2 ),
is di ui
y pbi = di (1 ui ) + op (n1/2 ). As:
X
B
pbi (t yi ) + op (n1/2 ) =
FbM
A1 (t) =
is

Fbb (t) Fb (t) ui
(t yi ) + op (n1/2 ) =
P
di 1
2
d
u
i
i
is
is
Fbb (t) Fb (t) X

di (tyi ) P
di ui (tyi )+op (n1/2 ) =
2
d
u
i
i
is
is
is
P
di ui (t yi )
+op (n1/2 ) =
FbHKy (t)+(Fb (t)Fbb (t)) isP
2
is di ui
b + op (n1/2 ).
FbHKy (t) + (Fb (t) Fbb (t))D
El resultado anterior es valido

cuando se usa el
parametro
poblacional B. El siguiente resultado garantiza
se cumple cuando usamos el
que el Teorema 2.7 tambien
b el usado por el estimador FbM A1 (t).
parametro
muestral ,
B
Teorema 2.8 Los estimadores FbM A1 (t) y FbM
A1 (t) tienen
lmite.
la misma distribucion
Demostracion
Denotemos los estimadores modelo-asistidos de veb y
rosimilitud pseudo emprica por FbM A1 (t) = Tn ()
B
b
b
Tn () depende del esFM A1 (t) = Tn (B). La expresion
b es cual es funcion
de los datos muestrales y estimator ,
tima consistentemente el vector de parametros

. Reem
por
plazando el estimador b en Tn () por y denotandolo
lmite de la meTn (), es posible encontrar la distribucion
cuando el valor actual del parametro
dia de esta expresion
es : () = lmn E [Tn ()] = Fey (t), donde Fey (t) es

el valor lmite de Fy (t) cuando N . Por tanto
!
()
()
()
()
=
,
,...,
=
1 = 2 =
P =
B
dada por
As, la varianza asintotica

de FbM
A1 (t) esta
B
b
b
AV (FbM
A1 (t)) = V (FHKy (t) Fb (t)D) =
!
XX
X
di Ei =
il (di Ei )(dl El ).
=V
is
= (0, 0, . . . , 0).
Randles (1982) demostro que bajo esta condicion,

b (= FbM A1 (t)) y Tn (B) (=
lmite de Tn ()
la distribucion
B
FbM
A1 (t)) son identicas.
iU lU
Considerando el Teorema 2.8, el resultado anterior

B
sostiene para FbM A1 (t) en lugar de FbM
tambien
A1 (t).
b
Por tanto, asumiendo el estimador FM A1 (t), la varianza
(2.106) puede estimarse por
X X ij
(b
pi ei )(b
pj ej ),
Vb (FbM A1 (t)) =
ij
is js
Teorema 2.9 El comportamiento asintotico

del estimador
b es el mismo del
FbyD1 (t) = FbHKy (t) + (Fb (t) Fbb (t))D
estimador FbyD2 (t) = FbHKy (t) + (Fb (t) Fbb (t))D, con
P
b con G
b = b z,v
donde ei = (t yi ) (t gi )G,
2 =
bv
z,w
iU di [(t yi ) Fy (t)][(t bi ) Fb (t)]
P
.
D= 2 =
2
P
w
iU di [(t bi ) Fb (t)]
b
b
is di [(t yi ) FHKy (t)][(t gi ) Fg (t)]
=
,
P
B
2
b
normal y
Consecuentemente, FbM
A1 (t) es asintoticamente
is di [(t gi ) Fg (t)]
Su corresponasintoticamente
insesgado bajo el diseno.
y donde v denota a la variable (t g).
diente varianza asintotica

esta dada por
XX
Nota 2.2 Algunos autores, tal como Rao et al.
B
il (di Ei )(dl El ),
(2.106)
AV (FbM
A1 (t)) =
b t xi , para
(1990), usan la pseudo-variable gi = R
iU lU
i = 1, . . . , N , para construir estimadores modelo
asistidosP para la funci

on
de distribucion,
donde
donde il = il i l y Ei = (t yi ) (t bi )D.
1 P
b = (
( is di yi ). El problema de esta
R
is di xi )
pseudo-variable es que unicamente

puede usarse para
Demostracion
b o b pueden
R
una variable auxiliar. Bajo tal situacion,
FbyD1 (t) puede expresarse como sigue:
usarse.
b=
FbyD1 (t) = FbHKy (t) + (Fb (t) Fbb (t))D
Nota 2.3 El estimador FbM A (t) es computacionalmente
b
b
b
simple
y no depende de parametros
desconocidos, puesto
= FHKy (t) + (Fb (t) Fb (t))(D D + D) =
de
puede
calcularse
f
acilmente
a traves
que
el
vector
t
g
b D) =
= FbHKy (t) + (Fb (t) Fbb (t))D + (Fb (t) Fbb (t))(D
x, el cual asumimos es conocido. Cuando esta informab D).
no esta disponible, el muestreo bifasico
= FbyD2 (t) + (Fb (t) Fbb (t))(D

cion
es una tecnica apropiada para poder aplicar el estimador propuesto.
b
b
insesgados bajo el diseno

Fb (t) y D son asintoticamente
Este muestreo consiste en tomar una primera muestra
para Fb (t) y D, respectivamente, y por tanto el producto
grande, donde se recogen los datos de la variable
b D) sera de menor orden que Fbb (t). mas
(Fb (t) Fbb (t))(D
auxiliar completa
auxiliar. Esto servira como informacion
b D)
Consecuentemente, el termino
(Fb (t) Fbb (t))(D
pequena.
en una segunda muestra mas

tiene menor orden que FbHKy (t) + (Fb (t) Fbb (t))D. En
tonces, FbyD1 (t) es asintoticamente
insesgado y puesto
2.4.5. Propiedades empricas
b
que los estimadores FHKy (t) y Fbb (t) son asintoticamente
normales, el estimador FbyD1 (t) es asintoticamente

normal.
Las principales propiedades del estimador FbM A (t)
La varianza asintotica
de FbyD1 (t) coincide con la va- han sido establecidas en la Seccion
2.4.4. El siguiente pa de este estimador por medio
rianza del estadstico FbyD2 (t), la cual esta dada por
so es analizar la precision
se llede un estudio emprico. Por tanto, en esta seccion
para investigar el cumvan a cabo estudios de simulacion

V FbHKy (t) + (Fb (t) Fbb (t))D =
plimiento muestral de varios estimadores de la funcion
de
distribuci
on
existentes
en
la
literatura
del
muestreo
en
b
b
= V FHKy (t) + Fb (t)D Fb (t)D =
poblaciones finitas.
Para realizar estos estudios se han usado dos pobla= V FbHKy (t) Fbb (t)D ,
lineal entre
ciones simuladas generadas bajo una relacion
puesto que Fb (t)D es un termino

constante. Ahora
natural, en la cual no se sostiene
y y x, y una poblacion
de este tipo.
una relacion
X
X
di (t yi )
di (t bi )D =
FbHKy (t) Fbb (t)D =
N = 1000, se
Las poblaciones simuladas, de tamano
is
is
han generado mediante el modelo
X
X
(2.107)
yi = 0 + 1 x1i + 2 x2i + i ,
di [(t yi ) (t bi )D] =
di Ei ,
=
is
is
donde las variables x1i y x2i se han generado de distribuciones Gamma y las cantidades i son variables aleatorias
con Ei = (t yi ) (t bi )D.
3
39

independientes e identicamente
distribuidas con distribu Normal de parametros
cion
0 y 2 . El valor de 2 se es entre yi
coge de modo que el coeficiente de correlacion
y 0 + 1 x1i + 2 x2i es 0.98 para la primera poblacion

(Pob080).
(Pob098) y 0.80 para la segunda poblacion
natural se emplea la poblacion
Murthy,
Como poblacion
la cual presenta un comportamiento exponencial en sus
disponibles las propiedades

datos. En el Apendice
A estan
importantes de estas poblaciones as como sus resmas
pectivos diagramas de dispersion.

del estimador propuesto FbM A (t) es comLa precision
parada con los siguientes estimadores: el estimador convencional FbHT y (t), el estimador de Chambers y Dunstan
(1986) FbCD (t), los estimadores propuestos en Rao et
al. (1990), esto es Fbr (t), Fbd (t) y FbRKM (t), y por ulti
mo, el primer estimador M CP E propuesto en Chen y Wu
(1)
(2002), el cual denotamos como FbM C (t).
usado por
Notamos que el modelo (2.107) fue tambien
(1)
Chen y Wu (2002), teniendo el estimador FbM C (t) el mejor
cumplimiento en la mayora de los casos. En este estu se usa el estimador FbM A (t) cuando se condio, tambien
sidera un valor t0 en las restricciones. Este estimador se
denota como FbM A1 (t). Esto nos permitira comprobar la
de usar un vector en las restriccioganancia de precision
nes en lugar de usar un unico
valor. As, el mismo pun
(1)
to t0 = Qg (0,5) es usado por los estimadores FbM C (t) y
b
FM A1 (t) para cada t, puesto que esto es necesario para
de distribucion.
obtener una autentica

funcion
Por
Se llevan a cabo dos estudios de simulacion.
un lado, se evaluan
los estimadores en los puntos
t = Qy (0,25), t = Qy (0,50) y t = Qy (0,75).

Con el fin de revelar el comportamiento medio de
los distintos estimadores en diferentes valores de t,
para los arguse realiza otro estudio de simulacion
ultimo
mentos t = Qy (0,1), Qy (0,2), . . . , Qy (0,9). Este
nos permitira observar el comportamiento del estimador

FbM A (t) cuando se usan valores de t alejados de tg =
(tg25 , tg50 , tg75 )t .
Primera simulacion
consiste en tomar una muesEsta primera simulacion
tra aleatoria simple de las anteriores poblaciones y esti de distribucion
en los puntos t = Qy (0,25),
mar la funcion
t = Qy (0,50) y t = Qy (0,75) mediante los distintos estimadores. Este proceso se repite B = 1000 veces para
muestrales. A continuacion,
el cumplidiferentes tamanos
miento de todos los estimadores se compara en terminos

de Sesgo Relativo (SR) y de Eficiencia Relativa (ER), con
B
ECM [Fb (t)]
1 X Fb (t)b Fy (t)
; ER(t) =
,
B
Fy (t)
ECM [FbHT y (t)]
b=1
(2.108)
donde b expresa la b-esima

simulacion,
Fb (t) es un
de distribucion,
estimador cualquieraPde la funcion

b (t)b Fy (t)]2 es el Error
[
F
ECM [Fb (t)] = B 1 B
b=1
Cuadratico
Medio emprico para Fb (t), y ECM [FbHT y (t)]
se define de modo similar para el estimador estandar.

Notamos que valores de ER menores de 1 indican que el es
de error
timador Fb (t) es mejor que FbHT y (t) en terminos
cuadratico
medio.
SR(t) =
40
Las funciones que permiten llevar a cabo este estudio
de R
pueden consultarse en el Apendice
??. La funcion
de la ecuacion
h() = 0
usada para encontrar la solucion
verse en Wu (2005).
puede tambien
Las Figuras B.7 y B.8 muestran la ER para las tres
poblaciones cuando se evaluan
en los cuartiles pobla
En los casos donde
cionales de la variable de interes.
un estimador cumpla peor que el estimador estandar,

su
correspondiente lnea estara omitida. Los valores absolu todas dentro
tos de las cantidades SR para FbM A (t) estan
de un rango razonable y son todos menores del 1 %. Esto
sostiene para el resto de estimadores en la mayora de los
casos. De este modo, estos valores no se muestran.
De las Figuras B.7 y B.8 se pueden obtener las siguientes conclusiones:
preciso que el
1. FbM A (t) es considerablemente mas
resto de estimadores en t = Qy (0,25) y t =
baja ER en estos caQy (0,75), y exhibe la mas
sos. Cuando se estima la mediana de la variable
la situacion
es diferente, es decir, otros
de interes,
estimadores presentan un similar comportamiento
a FbM A (t). Por ejemplo, uno de estos estimadores
(1)
es FbM C (t) en las poblaciones Pop098 y Pop080.
Este estimador muestra una mayor ER en los puntos t = Qy (0,25) y t = Qy (0,75) debido a que t0
esta alejado de t. El conocimiento del modelo cor(1)
recto maximiza la eficiencia de FbM C (t), pero sola
mente cuando t esta proximo
a t0 .
2. En los casos donde hay una fuerte informacion

auxiliar (Pop098), la ganancia de usar FbCD (t),
(1)
FbM C (t), FbM A (t) y FbM A1 (t) puede ser substancial
comparada con el estimador estandar.

linealidad en la poblacion
Murthy afecta es3. La debil
(1)
b
b
pecialmente a FM C (t) y FCD (t), los cuales son mas

eficientes cuando los datos se rigen por un modelo
lineal (Pop098 y Pop080).
4. FbCD (t) es menos eficiente que el estimador
estandar
de tipo Horvitz-Thompson cuando la fun de distribucion
se estima en los puntos t =
cion
Qy (0,25) y t = Qy (0,75). Este estimador es bas
tante preciso cuando t esta proximo
a Qy (0,5),
aunque llega a ser considerablemente menos eficiente cuando t esta alejado de Qy (0,5).
5. FbM A1 (t) es siempre menos preciso que FbM A (t).
Esto revela la ganancia de usar el vector tg en lugar de un valor t0 . En cualquier caso, FbM A1 (t) tiene
eficiente
un buen comportamiento y es siempre mas
que el estimador estandar.
eficiente para
6. En terminos
de ER, el estimador mas
Fy (t) se obtiene por FbM A (Qy (0,75)) en la poblacion

Murthy. En este caso, los estimadores modelocalibrados y basados en modelos no tienen un buen
comportamiento. Esto puede deberse a que no existe una buena linealidad y a que t esta alejado de t0 .
7. Los estimadores Fbr (t) y Fbd (t) son siempre considerablemente menos eficientes que FbM A (t).

Segunda simulacion
anterior se ha realizado en los puntos
La simulacion
t = Qy (0,25), t = Qy (0,50) y t = Qy (0,75). Puede observarse que el orden de estos cuantiles coincide con el
orden de los cuantiles del vector tg . Es esperable que
Por este motivo,
FbM A (t) cumpla bien en esta situacion.
para medir la preusaremos otro estudio de simulacion
de los distintos estimadores en los puntos t =
cision
Qy (0,1), Qy (0,2), . . . , Qy (0,9).
En este caso, el cumplimiento de los estimadores es
medido mediante el Sesgo Relativo Medio (SRM ) y la
Eficiencia Relativa Media (ERM ), dados respectivamente
por
v
u
9
9
u1 X
1X
|SR(tq )| ; ERM = t
ER(tq ),
SRM =
9 q=1
9 q=1
En todos los estudios (ER, SR, SRM , ERM y

DAM ), el estimador propuesto, FbM A (t), proporciona una
buena mejora sobre FbM A1 (t), el cual usa un unico
punto
t0 . Esto confirma la ganancia en eficiencia al usar el vector

tg , especialmente cuando t esta alejado de t0 .
definidos en (2.108) y tq es el
donde SR(t) y ER(t) estan
q-esimo
decil para la variable de estudio.
una medida global del cumpliConsideramos tambien
de los 9 cuantiles para
miento de los estimadores a traves
cada muestra obtenida de las B = 1000 simulaciones.
Absoluta Maxima
Esta medida es la Desviacion

(DAM )
que esta dada por: DAM(b) = m
axq |Fb (tq )b F (tq )|, para
b = 1, . . . , B. Notamos que las medidas SRM , ERM y
usadas en Silva y Skinner (1995).
DAM han sido tambien
La Figura B.9 muestra los valores SRM , en tanto por
ciento, para las tres poblaciones. Puede observarse que
todos los estimadores exhiben valores SRM menores del
1 % para las poblaciones Pob098 y Murthy. Asumiendo
mas
debil
una relacion
(Pob080), el estimador de tipo
presenta el peor comportamiento (su SRM ronda
razon
el 1.4 %). En la mayora de los casos, puede observarse
que los valores SRM son decrecientes segun

el tamano
muestral y que el estimador FbM A (t) presenta el menor
sesgo.
Los valores ERM para las tres poblaciones estan

mostrados en la Figura B.10. Estos resultados revelan que
hay una razonable ganancia de eficiencia al usar FbM A (t)
(1)
con respecto a otros estimadores. FbM C (t) muestra el segundo mejor comportamiento en las poblaciones Pob098
basadas en un modelo lineal.
y Pob080, las cuales estan
lineal entre y y x, la perdida
A pesar de esta relacion

de
(1)
eficiencia de FbM C (t) comparada con FbM A (t) se debe al
(1)
hecho de que el estimador FbM C (t) usa un unico
valor fijo
es menos preciso cuando t esta alejat0 = 0,5, y este
de ERM , FbCD (t) muestra el peor

do de t0 . En terminos
comportamiento de todos los estimadores considerados.
preciso cuando t esta cercano a Qy (0,5),
FbCD (t) es mas
aunque este estimador sufre una considerable perdida

de
eficiencia en cuantiles extremos (de bajo o alto orden).
La Figura B.11 muestra los diagramas de cajas
con bigotes de las distribuciones de los valores DAM
obtenidos para las tres poblaciones. Se han tomado
100 para las poblaciones Pob098
muestras de tamano
50 para la poblacion
y Pob080 y muestras de tamano
Murthy. Estos diagramas confirman el analisis

anterior:
absoluta mientras
desviacion
FbCD (t) presenta la maxima
que FbM A (t) muestra el mejor comportamiento en todos
los casos.
41
3. Aportaciones a la estimacin de cuantiles
3.1.
Introduccion
de la totales y medias
El problema de la estimacion
poblacionales en presencia de variables auxiliares ha sido extensamente discutido en la literatura del muestreo de
de
poblaciones finitas. Para el problema de la estimacion
es bastante difela mediana y otros cuantiles, la situacion
en la actualidad este problema esta sienrente y tan solo
de este
do discutido, debido en parte, al creciente interes
tipo de medidas. Notamos que los distintos estimadores y
metodos
propuestos para la media y el total de una varia obvia al problema de la estible no tienen una extension
de cuantiles.
macion
Un ejemplo del uso de cuantiles y otras medidas relacionadas en muestreo de poblaciones finitas es el siguiente. Frecuentemente, los organismos nacionales de
estadstica y otras agencias se encuentran con variables, tales como ingresos, gastos, etc., que presentan distribuciones con una alta asimetra. Bajo estas circuns apropiada que la metancias, la mediana resulta mas
dia poblacional. De este modo, asumiendo datos de Encuestas Continuas de Presupuestos Familiares, los gobiernos de diferentes pases obtienen numerosas medi de bajos ingredas de pobreza, tal como la proporcion
sos, que dependen directamente de determinados cuantiles. Un ejemplo de este tipo de medidas viene dado por
Eurostat (2000), en donde se define que un salario es ba
jo si este
esta por debajo del 60 % del salario mediano
mensual, es decir, el cuantil de orden = 0,5 se emplea
en Eurostat. A nivel nacional, el Instituto Nacional de Es
tadstica y sus correspondientes organismos autonomos,
definen una medida similar para determinar el ndice de
pobreza, aunque en este caso la variable principal es el
gasto producido en los hogares espanoles.

Otros estudios
usan cuantiles para estudiar

de tipo economico
tambien
entre gastos en alimentacion
de los hogares y
la relacion
los correspondientes ingresos, analisis

de salarios y gas
tos, impacto de varias caractersticas demograficas,
cali
dad en la escuela, analisis
de demanda, etc. Una extensa
bibliografa sobre estas y otras aplicaciones en estudios
de tipo economico
puede consultarse en Koenker y Hallock (2001).
de parame
Al igual que para el caso de la estimacion
tros lineales como medias o totales, las estimaciones
mas
eficientes si se incorpora informacion
auxiliar,
seran
en la
altamente correlacionada con la variable de interes,
En la estimacion
de cuantiles, exisetapa de estimacion.
ten dos grandes metodos

que incorporan la informacion
auxiliar de forma eficiente:
de cuantiles indirectos: consiste en
M1. Estimacion
diferencia o reconstruir estimadores de tipo razon,
tal como se construyen para la media o el

gresion,
pueden
total. Ejemplos de este tipo de estimacion
verse en Kuk y Mak (1989), Arcos, Rueda y Munoz

(2006), Rueda, et al. (1998, 2003, 2004), etc. Notamos que para formular la mayora de estos estimadores, se requiere conocer los cuantiles poblacionales de las variables auxiliares, o bien otro tipo
de parametro
poblacional.
a traves
de la funcion
de distribucion:
M2. Estimacion
La tecnica
habitual en muestreo de poblaciones fini de distribucion
para obtas es invertir la funcion
de un determinado cuantil. Se
tener la estimacion
requiere, por tanto, usar eficientemente la informa auxiliar en la etapa de estimacion
de la funcion
de distribucion.
El inconveniente de esta tecni
cion
de distribuca es que el estimador de la funcion
debe ser una verdadera funcion
de distribucion
para estimar cuantiles con mayor precision.
cion
Aunque este hecho resulta imprescindible, existen
varios estimadores en la literatura que no cumplen
tal propiedad. Chambers y Dunstan (1986) fueron
de los primeros investigadores en utilizar informa auxiliar para construir estimadores de la funcion
de distribucion,
y posteriormente invertir esta
cion
para obtener cuantiles. Otras importantes
funcion
referencias son Rao et al. (1990), Wang y Dorfman
(1996), Dorfman y Hall (1993), Kuo (1988), Silva y
Skinner (1995).
Notamos que durante el desarrollo de este captulo
exclusivamente con estimadores derivados del
se trataran
usado por su calidad de estimetodo

M 2, el cual es mas
y eficiencia.
macion
Los primeros trabajos relacionados con el problema
de parametros
como la mede la estimacion

de posicion,
diana y los cuantiles se deben a Woodruff (1952) donde se
construyen intervalos de confianza bajo muestreo aleatorio simple. Posteriormente, Hill (1968) utiliza un enfoque
de sus estimadores, mienbayesiano para la construccion
tras que Sendransk y Meyer (1978) se basan en un
de esenfoque puramente probabilstico de distribucion
tadsticos ordenados para muestreo aleatorio simple y
eficientes y con
estratificado. Pero los estimadores mas
mejores propiedades se desarrollan posteriormente bajo aproximaciones modelo-asistidas, basadas en el mo se han propuesto esdelo y modelo-calibradas. Tambien
timadores de cuantiles mediante intervalos de confianza
regresion
y diferencia
basados en estimadores de razon,
auxiliar multivariante (Rueda, Arcos
y usando informacion
1997, 1998, Rueda y Arcos, 2001, Rueda y Arcos,
y Artes,
2002a, Rueda y Arcos, 2002b).
En la literatura, los estimadores de cuantiles mas
43
conocidos son los siguientes. En primer lugar, citamos el

estimador de Chambers y Dunstan (1986) para la fun de distribucion,
el cual esta basado en un modelo
cion
La inversion
directa de esta funcion
de superpoblacion.
de cuantiles. Siguiendo
puede usarse para la obtencion
esta tecnica,
Rao et al. (1990) propusieron estimadores
y diferencia usando una aproximacion
basade tipo razon
Kuk y Mak (1989) propusieron dos esda en el diseno.
timadores para los cuales solamente es necesario conocer a nivel poblacional el valor de la mediana de una va recientemente, Rueda et al. (1998)
riable auxiliar. Mas
y Rueda y Arcos (2001) propusieron intervalos de confianza para los cuantiles basados en estimadores de tipo
y diferencia de la funcion
de distribucion.
En Rueda
razon
de cuantiles
et al. (2003, 2004) se plantea la estimacion
mediante estimadores de tipo diferencia usando cuantiles
poblacionales del mismo orden de la variable auxiliar. La
de cuantiles usando tecnicas
estimacion
recientes de es tambien
ha sido investigada. Por ejemplo, Chen
timacion
de cuantiles usando
y Wu (2002) proponen la estimacion
modelo-calibrada.
la aproximacion
Existe otro gran numero
de estimadores de cuantiles
propuestos para distintos disenos

muestrales. Los esti importantes se iran
citando a lo largo del
madores mas
presente captulo, en el cual se trata el problema de la es de cuantiles desde distintos enfoques. Por un latimacion
muesdo, se desarrollan nuevos estimadores en disenos
complejos, y por otro, se proponen estimadores
trales mas
asumiendo el reciente metodo

Para formular la mayora de los estimadores de cuan del metodo
tiles, ya sean a traves

M 1 o del metodo
M 2, es
necesario conocer los valores poblacionales de las varia
bles auxiliares, aunque esto es poco usual en la practica.
a este problema se trata en la Seccion
3.2 meLa solucion
diante el uso del muestreo bifasico,

en el cual la informa auxiliar poblacional puede estimarse usando la muescion
se propotra de la primera fase. Por tanto, en esta seccion
nen estimadores de cuantiles en muestreo bifasico

y asumiendo que las unidades muestrales se extraen mediante
metodos
de muestreo con probabilidades desiguales en
cada una de las dos fases. La eficiencia de estos estimadores puede mejorarse si se usa un muestreo estrati
ficado en la primera fase. Asumiendo este ultimo
diseno
muestral, denominado muestreo bifasico

aplicado a la es se comprueba que los estimadores propuestratificacion,
precisos con respecto a otros
tos pueden llegar a ser mas
existentes en la literatura.
3.3 se plantean nuevos esPor otro lado, en la Seccion
timadores de cuantiles bajo muestreo en ocasiones sucesivas. En primer lugar se definen estimadores de cuantiles
basados en multiples
variables auxiliares. La introduccion
proporciona un marco de estimacion
de tal informacion
precisos.
apropiado que permite obtener estimadores mas
se proponen estimadores de
A continuacion,
tambien
cuantiles basados en muestras seleccionadas mediante
muestreos probabilsticos con probabilidades desiguales
(por ejemplo, con unidades proporcionales al tamano).
Notamos que este

es el caso de los organismos nacionales y agencias de estadstica que realizan encuestas
continuas a lo largo del tiempo. El comportamiento de todos los estimadores propuestos se analiza desde el punto
de vista teorico
(mediante aproximaciones asintoticas),
y
desde una perspectiva emprica (analizando los resultados obtenidos a partir de una serie de poblaciones).
3.4 se propoPara cerrar este captulo, en la Seccion
nen estimadores para cuantiles asumiendo el metodo

de
verosimilitud emprica, expuesto con detalle en el captulo anterior. Los estimadores propuestos usan de manera
auxiliar, lo que se traduce en una
eficiente la informacion
Esta precision
de los estimadores
mejora de la precision.
propuestos se ha evaluado para el calculo

de algunas medidas de pobreza oficiales, las cuales dependen de forma
directa de cuantiles. Este estudio se ha llevado a cabo
asumiendo distintos estimadores de cuantiles. Los resultados obtenidos reflejan que los estimadores propuestos
precisas para las mediproporcionan estimaciones mas
das de pobreza involucradas en tal estudio.
3.2.
Estimadores bajo muestreo
bifasico
se resuelve el problema de la esEn esta seccion

de cuantiles bajo muestreo en dos fases o
timacion
muestreo bifasico
con disenos
muestrales arbitrarios en
cada una de las dos fases. Se proponen varios esti y exponencial que propormadores de tipo directo, razon
cionan estimaciones optimas

para un determinado cuantil. Se analizan propiedades importantes de estos esti de vamadores, tales como la insesgadez, estimacion
rianzas, etc. Como caso particular, se investiga tambien
diseno
el muestreo bifasico
aplicado a la estratificacion,
muestral que ofrece importantes ganancias en eficiencia
debido a los beneficios que produce el muestreo estratificado. Todas estas propiedades se ven desde un pun
to de vista teorico,
aunque el analisis
de los estimadores
se completa con un estudio emprico llevado a cabo para
muestrales con prolos cuartiles y bajos distintos disenos
babilidades desiguales. Este estudio refleja que los estimadores propuestos mejoran a otros estimadores conoci
dos en terminos
de sesgo y eficiencia relativa.
Notamos que la mayor ventaja al usar muestreo
sin un sustanbifasico
es una alta ganancia en precision
muescial incremento en costes. De hecho, este diseno
tral se usa frecuentemente en numerosas encuestas por
razones de coste y eficiencia.
3.2.1.
Introduccion
de un determinado
Para el problema de la estimacion
parametro
en muestreo de poblaciones finitas, la informa auxiliar juega un papel muy importante en la precision
cion
de los estimadores. La mayora de los estimadores basa auxiliar se basan en el conocimiento a
dos en informacion
nivel poblacional de las variables auxiliares. En la practica,

esta cantidad no tiene porque ser conocida. De hecho, son
muy poco frecuentes las encuestas que disponen de es por lo que resulta imposible obtener estos
ta informacion,
auxiliar. Una alternaestimadores basados en informacion
tiva es estimar los parametros

poblacionales que usan los
estimadores, aunque esto conlleva a importantes errores
de la varianza (vease
en la etapa de la estimacion
Ber y Rancourt, 2006). Bajo esta situacion,
el uso
ger, Munoz
44
apropiada para
de un muestreo bifasico
es la tecnica
mas
resolver este problema.
Por tanto, el muestreo bifasico

es una herramienta
util
para aquellas investigaciones en las cuales no existe conocimiento previo de las variables auxiliares a nivel
poblacional. Otro punto a favor del muestreo bifasico

es la
de un esquema importante de informacion
que
creacion
probabilstica de sub-muestras. Para
permite la seleccion
sobre el muestreo bifasico
una mayor profundizacion

en
de medias o totales puede consultarse, por
la estimacion
ejemplo, Prasad y Thach (2001), Sarndal

et al. (1992),
y Garca (2002).
Fernandez
y Mayor (1994) y Artes
de cuantiles en
En lo que respecta a la estimacion
muestreo bifasico,
los primeros autores en realizar investigaciones en este sentido fueron Singh et al. (2001),
Singh (2003) y Allen et al. (2002) para el problema de
de la mediana poblacional. Estos trabala estimacion
jos fueron desarrollados exclusivamente para muestreo
aleatorio simple. Con el fin de completar estos estudios,
se proponen numerosos estimadores
en esta seccion
para un determinado cuantil cuando se lleva a cabo un
muestreo bifasico
con disenos
cada una de las dos fases.
se describe brevemente en que conA continuacion
siste un muestreo bifasico.

Suponemos que tenemos una
U compuesta por N unidades de la que se
poblacion
extrae en una primera fase una muestra, s0 , de tamano,

n0 , bastante grande y de bajo costo, segun
cierto criterio
muestral, d1 , tal que pd1 (s0 ) sera la probabilidad de que
s0 sea seleccionada y donde las correspondientes proba de primer y segundo orden se debilidades de inclusion
0
0
notan, respectivamente, como i y ij para i y j U .
En esta muestra, una o varias variables auxiliares pueden
ser recogidas facilmente,

es decir, dicha muestra permite
auxiliar necesaria para todo el proobtener la informacion
n es
ceso. Dada s0 , una segunda muestra s de tamano
d2 ,
seleccionada en la segunda fase mediante un diseno
tal que p(s/s0 ) es la probabilidad condicional de escoger
bajo este diseno
se des. Las probabilidades de inclusion
0
0
0 0
notan como i/s0 y ij/s0 . Notamos que ij = ij i j
0
y sij = ij/s0 i/s0 j/s0 .
3.2.2.
Estimadores propuestos
auxiliar, el canSin usar ningun

tipo de informacion
b y () = nf{t |
didato natural para estimar el cuantil es Q
1
b
b
FHT y (t) } = FHT y (), donde
1 X (t yi )
FbHT y (t) =
N is
i
es el estimador de tipo Horvitz y Thompson (1952) de
estan
dadas por
Fy (t),Py las probabilidades de inclusion
i = s0 3i pd1 (s0 )i/s0 .
Como puede observarse, para determinar i se deben
conocer las probabilidades i/s0 para cada s0 , las cuales
no se conocen generalmente porque i/s0 pueden depen de la primera fase, por ejemplo si la muesder del diseno
tra de la segunda fase es disenada

mediante un muestreo
proporcional a una variable auxiliar.
Notamos que el estimador de tipo Horvitz-Thompson
para la media poblacional tampoco puede obtenerse en
Sarndal
la practica
bajo este muestreo. Por esta razon,
et
al. (1992) propusieron el uso de estimadores . Usan0
do esta idea, se definen las cantidades i = i i/s0 y
0
ij
= ij ij/s0 , que permiten definir el -estimador de la
de distribucion
como
funcion
1 X (t yi )
,
(3.1)
FbHT
y (t) =
N is
i
y as, el estimador directo propuesto para un cuantil esta
dado por
1
b y () = FbHT
(3.2)
Q
y ().
b y () no coincide generalmente con el

Notamos que Q
b
estimador Qy () excepto en casos excepcionales, aunque
la principal ventaja del estimador directo propuesto so
bre el estandar
comentado es su aplicabilidad para cua muestrales usados en calesquiera que sean los disenos
da fase.
El estimador (3.2) se ha definido sin usar ninguna in auxiliar. Si esta informacion
esta disponible, el
formacion
uso de estimadores indirectos nos puede ayudar a obtener
precisas para los cuantiles en muestreo
estimaciones mas
bifasico.
De este modo, el siguiente paso es definir una
auxiliar. En
clase de estimadores que usen informacion
primer lugar mostraremos los principales antecedentes
relacionados con el tema que nos ocupa.
Asumiendo muestreo aleatorio simple y que la mediana de la variable x es conocida, Kuk y Mak (1989) pro para la mepusieron el siguiente estimador de tipo razon
diana
b y (0,5) Qx (0,5) .
b ry (0,5) = Q
Q
b x (0,5)
Q
Kuk y Mak (1989) propusieron otros estimadores

Ademas,
de cuantiles bajo muestreo aleatorio simple llamados esti y de estratificacion,
pero la extension
madores de posicion
de cualquiera de ellos a otros disenos

muestrales mas
complejos no ha sido posible.
Rueda et al. (2003, 2004) propusieron, para cualquier
muestral d y para cualquier , metodos
diseno
de diferencia y exponenciales para estimar un cuantil . Singh et
regresion,
al. (2001) sugirieron estimadores de tipo razon,

y estratificacion
de la mediana cuando la muestra
posicion
es seleccionada en dos fases y usando muestreo aleato
rio simple en cada una de ellas. Bajo muestreo bifasico
y
muestreo aleatorio simple en cada fase, Allen et al. (2002)
propusieron dos clases de estimadores para la mediana
propoblacional. Estos estimadores usan la informacion
porcionada por dos variables auxiliares, x y z, donde se
asume que la mediana de z es conocida.
se presenta una clase de estimadores
A continuacion
para cuantiles poblacionales cuando las muestras en ambas fases son seleccionadas mediante un esquema de
muestreo arbitrario:
b
bH
Q
y () = H(Qy (), t ),
0
(3.3)
b x ()/Q
b x (), y Q
b x () es el estimador de
donde t = Q
Qx () basado en la muestra de la primera fase, esto es,
b 0x () = nf{t | Fb 0 1 (t) }, donde
Q
HT x
1 X (t xi )
0
FbHT
.
x (t) =
N
i0
0
is
45
H satisface las siguientes condiciones:

La funcion
(C3.1). Asume valores en un subconjunto convexo cerrado C R2 , el cual contiene el punto (Qy (), 1).
continua en C, tal que
(C3.2). H es una funcion
H(Qy (), 1) = Qy ().
(C3.3). Las primeras y segundas derivadas parciales de
H existen y son continuas en C, con
H(q, t )
= 1.
H10 (Qy (), 1) =

q
(q,t )=(Qy (),1)
Un caso particular dentro de la clase general de esti dado por:
madores H es el estimador tipo razon,
b0
b y () Qx () ,
b yr () = Q
Q
b x ()
Q
H(q, t ) = q/t .
y el cual se corresponde con la eleccion
Otro estimador para el cuantil , llamado el estimador
exponencial, esta dado por:
!
0
b
b y () Qx ()
b ye () = Q
,
Q
b x ()
Q
se ensiendo una constante fija. Este estimador tambien
cuentra dentro de la clase H, puesto que se corresponde
H(q, t ) = q/(t ) . Notamos que estos
con la eleccion
estimadores se han definido en Rueda, Arcos, Munoz

y
Singh (2006).
b y (), esto es,
b ye () = Q
Nota 3.1 Si = 0, entonces Q
b
Qye () coincide con el estimador . Por otro lado, si
b ye () = Q
b yr (). Por ultimo,
= 1, entonces Q
puede
b ye () = Q
b yp (),
comprobarse que si = 1, entonces Q
el cual puede definirse como un estimador producto.
donde fy () denota la derivada del valor lmite de Fy ()

cuando N .
es sabido que el estimador FbHT

Ademas,
y (t) es insesgado de F (t). En consecuencia, se tiene que
E( FbHT
y (Qy ())) = 0
(3.4), puede verse facilmente
y basandose
en la ecuacion
b y ()) = Qy () + O(n1/2 ), esto es, el estimador
que E(Q
b y () es asintoticamente
Q
insesgado de Qy ().
b y ()
Teorema 3.2 La varianza asintotica

del estimador Q
b
esta dada por AV (Qy ()) =
"
X 0
0 0 (Qy () yi ) (Qy ()
1
1
(ij i j )
= 2 2
0
0
N fy (Qy ()) i,jU
i
j
+Ed1
debida a cada una de las fases de

refleja la variacion
muestreo.
total del estimador
Por otro lado, el error de estimacion
dado por (3.1), cuando se evalua
en el punto Qy (),
puede expresarse como suma de dos componentes
FbHT
y (Qy ()) Fy (Qy ()) =
0
= FbHT
y (Qy ()) Fy (Qy ()) +
b0
+ FbHT
y (Qy ()) FHT y (Qy ()) = Qs0 + Rs ,
donde Qs0 es el error debido a la primera fase del

muestreo y Rs es el error debido a la segunda fase. Usan se tiene que
do esta descomposicion,
0
= Vd1 (Qs0 ) =
Vd1 E FbHT
y (Qy ())|s
b y () es asintoticamente
inTeorema 3.1 El estimador Q

sesgado para Qy ()
Demostracion
b y () puede expresarse
En primer lugar, el estimador Q
lineal de la funcion
de
asintoticamente
como una funcion
estimada y evaluada en el punto Qy () medistribucion
de Bahadur (vease,
diante la representacion
por ejemplo,
Bahadur, 1966, Chambers y Dunstan, 1986, Kuk y Mak,
1989, Chen y Chen, 2000, Chen y Wu, 2002, etc):
b y ()Qy () =
Q
46
(Qy () yi ) (Qy () y
i
j
0
+ Ed1 V FbHT
= Vd1 E FbHT
y (Qy ())|s
y (Qy ())|s
En este apartado se estudian las principales

b y () y de los estimadores
propiedades del estimador Q
basados en la clase H. Debido a que estos estimadores
necesarias aproximano son funciones continuas, seran
ciones lineales.
(ij/s0 i/s0 j/s0 )
i,js0
Demostracion
(3.4) se deduce que
De la expresion
b y ()) =
V FbHT
AV (Q
y (Qy ()) ,
2
fy (Qy ())
donde V FbHT
y (Qy ()) =
Nota 3.2 Bajo muestreo aleatorio simple en cada fase y

b ye ()
b yr () y Q
= 0,5, los estimadores propuestos Q
se corresponden, respectivamente, con los estimadores
cy(b) propuestos por Singh et al. (2001).
cy(a) y M
M
3.2.3.
0 0 (Qy () yi ) (Qy () yj )
1 X 0
(ij i j )
0
0
N 2 i,jU
i
j
y
Ed1 V
Ed1
0
= Ed1 V (Rs |s0 ) = 2
FbHT
y (Qy ())|s
N
(ij/s0 i/s0 j/s0 )
i,js0
1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())
(3.4)
(Qy () yi ) (Qy () yj
i
j
b y ())
Corolario 3.1 Un estimador insesgado de AV (Q
esta dado por
e0 =
1
b y ()) = 1
Vb (Q
N 2 fy2 (Qy ())
0
0 0
b y () yi ) (Q
b y () yj )
X ij
i j (Q
+
0
0
ij
i
j
i,js
b y () yi ) (Q
b y () yj )
X ij/s0 i/s0 j/s0 (Q
ij/s0
i
j
i,js
b y ()
Q
1,
Qy ()
e1 =
b x ()
Q
1
Qx ()
e2 =
b 0x ()
Q
1.
Qx ()
Introduciendo varianzas en (3.6) y bajo una aproximacion
de primer orden, se llega a la expresion:
donde:
bH
V (Q
y ())
= Qy ()2 V (e0 ) + H01 (Qy (), 1)2 V (e1 e2 )+

+2H01 (Qy (), 1)Cov(e0 , e1 e2 ).
Por otro lado, bajo muestreo bifasico:
En la practica,
la cantidad fy (Qy ()) es desconocida.
Un valor aproximado de fy (Qy ()) puede obtenerse apli
cando metodos
estandares
tal como el kernel (Silverman,
1986). Notamos que algunos de estos metodos

para la es de densidades han sido usados, por ejemplo, en
timacion
Kuk y Mak (1989) y Arcos et al. (2005).
El estimador de la varianza anterior no depende de
de la primera fase,
esperanzas relacionadas con el diseno
haciendo posible su calculo

en la practica.
Teorema 3.3 Cualquier estimador dentro de la clase H es
asintoticamente
insesgado para Qy ().
bH
bH
bH
V (Q
y ()) = Ed1 V (Qy ()/s ) + Vd1 E(Qy ()/s )
debida a cada una de las dos fases
refleja la variacion
de muestreo. Usando las propiedades conocidas del estimador de Horvitz-Thompson y su varianza, se obtiene
0
bH
Vd1 E(Q
y ()/s ) =
1
1
N 2 fy2 (Qy ())
(Qy () yi ) (Qy () yj )
ij
0
0
i
j
i,jU
0
y
0
Demostracion
Para obtener este resultado nos basaremos en las siguientes aproximaciones lineales:
b y ()Qy () =
Q
= Ed1
X s0 (Qy () yi ) (Qy () y
1
1
ij
N 2 fy2 (Qy ())
i
j
0
i,js
1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())
H 2 (Qy (), 1)
+ 01 2
Qx ()
1/2
(FbHT
),
x (Qx ()))+O(n
fx (Qx ())
0
0
1
b x ()Qx () =
(FbHT x (Qx ()))+O(n01/2 ),
Q
fx (Qx ())
b x ()Qx () =
Q
= H((Qy (), 1))+

b y () Qy () H10 (Qy (), 1)+
+ Q
sij
i,js0
1
1
N 2 fx2 (Qx ())
(Qx () xi ) (Qx () xj )
+
i
j
H01 (Qy (), 1) 1

1
Qx ()
N 2 fy (Qy ())fx (Qx ())
X s0 (Qy () yi ) (Qx () xj )
ij
,
i
j
0
+2
i,js
(3.5)
+(t 1)H01 (Qy (), 1) + O(n1 ),
donde H10 y H01 denotan las derivadas parciales de

primer orden de H con respecto a q y t, respectivamen
b
te. Como FbHT
y (t) y FHT x (t) son estimadores insesgados
de Fy (t) y Fx (t), respectivamente, puede observarse que
cualquier estimador en H sera asintoticamente

insesgado
para Qy ().
Para obtener las expresiones asintoticas

de las varian de la serie de Taylor
zas, consideraremos la expansion
dada en (3.5), que da lugar a la expresion:
donde ij = ij i j y sij = ij/s0 i/s0 j/s0 . Esta

no puede obtenerse en la practica,
expresion
as que para
ello
X 0 (Qy () yi ) (Qy () yj )
ij
0
0
i
j
i,jU
se estima por
b y () yi ) (Q
b y () yj )
X 0ij (Q
,
0
0
ij
i
j
i,js
y
Ed1
bH
Q
y () Qy () =
X
i,js0
sij
(Qy () yi ) (Qy () yj )
i
j
por
b
b y () Qy () + Qx () H01 (Qy (), 1) + O(n1 ).
= Q
b 0x ()
Q
b y () yi ) (Q
b y () yj )
X sij0 (Q
.
0
i
j
i,js ij/s
Desarrollando se obtiene
bH
Q
y () Qy () ' Qy ()e0 +
de la serie de Taylor de primer ory usando la expansion

den para H sobre el punto (Qy (), 1):
bH
Q
y ()
bH
Ed1 V (Q
y ()/s ) =
(3.6)
+(e1 e2 )H01 (Qy (), 1) e2 (e1 e2 )H01 (Qy (), 1),
Las funciones fx (Qx ()) y fy (Qy ()) pueden calcularse

siguiendo Silverman (1986).
Las varianzas asintoticas

de los estimadores de tipo
razon,
producto y exponencial se derivan a partir de
4
47
H(q, t) = q/t, H(q, t) = q t y H(q, t) = q/t , respectivamente.

Una vez que la clase y sus propiedades principales
han sido definidas, el siguiente paso es obtener el estib ye (). La idea de optimalidad
mador optimo
en la clase Q
se define en el sentido de minimizar la varianza asintotica

de estos estimadores.
El valor optimo
de esta dado por
0
opt =
b x ()) Cov(Q
b y (), Q
b x ())
b y (), Q
Qx () Cov(Q
.
b x ()) + Q
b 0x () 2Cov(Q
b x (), Q
b 0x ())
Qy () V (Q
Usando las propiedades de muestreo bifasico,

se obtiene:
Qx () fx (Qx ())
opt =
Qy () fy (Qy ())
X s0 (Qy () yi ) (Qx () xj )
ij
Ed1
i
j
i,js0
X s0 (Qx () xi ) (Qx () xj )
Ed1
ij
i
j
0
i,js
y el estimador optimo
esta dado por
!
0
b x () opt
Q
opt
b
b
()
=
Q
()
.
Q
y
y
b x ()
Q
bH
b opt ()) = V (Q
b y ()) K1 =
V (Q
y ()) V (Qy
2
b
b
b0
b
b y ()) (Cov(Qy (), Qx ()) Cov(Qy (), Qx ())) ,
= V (Q
0
0
b
b
b
b
V (Qx ()) + Qx () 2Cov(Qx (), Qx ())
bH
bajo de la varianza de Q
esto es, el valor mas
y ()
esta dado por el estimador exponencial con = opt .
anterior demuestra que el estimador proLa ecuacion
opt
b
eficiente que el esti() es siempre mas
puesto Q
y
b y (). Puede observarse que K1 es
simple Q
mador mas
la cantidad que se reduce de varianza cuando se usa el
estimador exponencial con el valor optimo

de en lugar
b y ().
de usar el estimador Q
En la practica,
el valor de es desconocido. Sin em usarse para obtener
bargo, los datos muestrales podran
un estimador para este parametro.

Un posible estimador
para el valor optimo

de esta dado por
b x () fx (Qx ())
Q
b y () fy (Qy ())
Q
(3.7)
b y () yi ) (Qx () xj )
X sij0 (Q
0
i
j
i,js ij/s
X sij0 (Qx () xi ) (Qx () xj )
0
i
j
i,js ij/s
48
b y ()
Q
b 0x ()
Q
b x ()
Q
!b
Se han propuesto varios estimadores para cuantiles
en muestreo bifasico
cuando las muestras en ambas fases se seleccionan con probabilidades desiguales. A con se lleva a cabo un estudio de simulacion
con
tinuacion
el objetivo de observar el comportamiento de estos esti eficiente entre ellos. En este
madores y destacar el mas
estudio se han considerado las poblaciones Fam1500 y
Counties (vease
Apendice
A).
Se han generado 1000 muestras independientes bajo
diferentes metodos
de muestreo en cada fase. El tamano
muestral en la primera fase, n0 , se ha fijado en 150, mien de la muestra de la segunda fase, n,
tras que el tamano
varia entre 10 y 100. Los casos considerados son los siguientes:
i =
n0
,
N
i/s0 =
x
n0 n
n1
P i
+ 0
n0 1 js0 xj
n 1
i = i i/s0 .
2. (M as.P oisson): En la primera fase se usa

n0 , y las
muestreo aleatorio simple de tamano
muestras de la segunda fase son seleccionadas
mediante el metodo
de Poisson (vease
Singh, 2003,
pg. 499), de modo que las probabilidades de in estan
dadas por:
clusion
0
i =
n0
,
N
i/s0 = n P
xi
js0
xj
i = i i/s0 .
El cumplimiento de los estimadores propuestos en
muestreo bifasico
para un determinado cuantil se evalua
para los tres cuartiles, = 0,25, 0,50, 0,75, en terminos de Sesgo Relativo ( %) (SR) y Eficiencia Relativa
(ER) mediante aproximaciones Monte Carlo derivadas
de B = 1000 muestras independientes. Estas medidas
vienen dadas por:
De este modo, se puede definir un estimador optimo

para el cuantil como:
b
b
Q
y ()
3.2.4.
1. (M as.M idzuno): Las muestras en la primera fase

han sido seleccionadas mediante muestreo aleato n0 , mientras que las muesrio simple de tamano
tras de la segunda fase se han tomado mediante el
metodo
de Midzuno (vease
Singh, 2003, pg. 390).
en este caso vienen
Las probabilidades de inclusion
dadas por:
Puede verse que:
b=
Siguiendo el procedimiento discutido en Allen et al.

b
b
(2002), puede demostrarse que E(Q
y ()) = Qy () +
1
b
b
V (Q
o(n ) y al primer grado de aproximacion,
y ()) =
opt
opt
b
b y ()), esto es, los estimadores Q
b y () y Q
b y ()
V (Q
son asintoticamente
equivalentes.
SRi = 100
B bi
b iy ()]
ECM [Q
1 XQ
y ()b Qy ()
; ERi =
,
b y ()]
B
Qy ()
ECM [Q
b=1
b iy () denota el
y Q
donde b indica la b-esima
simulacion
i-esimo
estimador propuesto, con
b0
b y () Qx () ,
b 1y () = Q
Q
b x ()
Q
b 2y ()
Q
b y ()
Q
b y ()
Q
(3.7),
b 3y ()
Q
b 0x ()
Q
b x ()
Q
b 0x ()
Q
b x ()
Q
!b
, donde
b esta dado en
!opt
b iy ()] = B 1 PB [Q
b iy ()b Qy ()]2 es el Error
ECM [Q
b=1
b y ()] se define
Cuadratico
Medio emprico y ECM [Q
b y (), el estimador directo definido
analogamente
para Q
en (3.2). Se recuerda que este estimador no usa informa auxiliar.
cion
Las Figuras B.12,. . .,B.15 representan la eficiencia reb 2y () y Q
b 3y () en
b 1y (), Q
lativa para los estimadores Q
las diferentes poblaciones y bajo los disenos

muestrales
M as.M idzuno y M as.P oisson. Estas figuras muestran
el comportamiento de los estimadores cuando aumenta
muestral en la segunda fase, mientras que el
el tamano
muestral de la primera fase permanece constante.
tamano
lineal entre y y la variaCuando existe alta correlacion
eficientes que
ble auxiliar, todos los estimadores son mas
b y (), mostrado con lneas horizontales. La
el estimador Q
ganancia en eficiencia relativa decrece cuando aumenta
muestral de la segunda fase. Este resultado reel tamano
muestral en la segunda
sulta logico
porque si el tamano
entonces la muestra tendra menos infase es pequeno,
b y () presen de la variable y, y el estimador Q
formacion
tara mayor grado de error, mientras que los estimadores
y exponencial son mas
eficientes porque
de tipo razon
b y () ob informacion.
Cuando n incrementa, Q
usan mas
cercanas a las estimatiene mejores estimaciones y mas
y exponencial.
ciones de los estimadores de tipo razon
b 3y () es el estimador mas
eficiente en la mayora de
Q
los casos. Este resultado era deseable puesto que este
estimador es asintoticamente
optimo
en la clase (3.3). Sin
b 2y () presenta valores bastantes
embargo, el estimador Q
similares y no depende de valores desconocidos. Se obb 1y () es el estimador menos eficiente de enserva que Q
lineal
tre los estimadores propuestos. Cuando la relacion
b 1y () es incluso menos
debil,
entre las variable es mas

Q
b 2y () y
eficiente que el estimador directo, mientras que Q
3
b
Qy () continuan
teniendo un buen comportamiento. En
resumen, el uso del estimador exponencial mejora las es lineal entre las vatimaciones, especialmente si la relacion
riables es debil.
Por otro lado, el metodo

de Poisson produce resulta eficientes en el sentido de ER que el metodo
dos mas
de
b y (). Esto se debe
Midzuno y con respecto al estimador Q
a que el estimador directo presenta estimaciones muy dis
persas bajo el metodo
de Poisson causadas por la hetero
geneidad de las probabilidades de inclusion.
Los estimadores propuestos son casi equivalentes en
Counties porque los coeficientes de correla poblacion
lineal estan
mas
cercanos a 1. De hecho, la ER
lacion
es mejor
de los estimadores propuestos en esta poblacion
Fam1500.
que la ER en la poblacion
El estudio del sesgo es otro aspecto importante,
particularmente para estimadores de tipo razon,

que
puede probar la existencia de sub-estimaciones o sobreestimaciones en los estimadores. Los valores SR en la
Fam1500 estan
todos dentro de un rango rapoblacion
b y () el mayor valor en
zonable, teniendo el estimador Q
torno al 3 %, como puede verse en la Figura B.16. Los va Counties cuando x1 se usa
lores de SR para la poblacion
como variable auxiliar y x2 para asignar probabilidades
b y () ob mostrados en la Figura B.17. El estimador Q
estan
especialmente cuantiene claramente sobre-estimacion,
muestral en la segunda fase es pequeno
y
do el tamano
muestral M as.P oisson. El valor absoluto
bajo el diseno
de los valores SR para los estimadores propuestos son
M as.M idzuno y menores
menores de 7 % para el diseno
M as.P oisson, excepto en muesde 13 % para el diseno
b 2y (), el cual no supera
para el estimador Q
tras pequenas
el 25 %. En resumen, el estudio de los valores SR revela
que los estimadores propuestos presentan un menor sesgo que el estimador directo.
3.2.5.
al muestreo estratifiAplicacion
cado
Es sabido que el muestreo estratificado es una potente
tecnica
que proporciona resultados eficientes cuando la
esta adecuadamente estratificada y las variapoblacion
bles auxiliares y principal presentan una alta correlacion.
Sin embargo, el muestreo bifasico

es la herramienta mas
auxiliar poblacional no
apropiada cuando la informacion
esta disponible, que es lo que ocurre en la mayora de los
casos. Estas dos tecnicas

pueden combinarse en el lla
Asumado muestreo bifasico
aplicado a la estratificacion.
muestral, en esta seccion
se define un
miendo este diseno
de distribucion
y se estudian sus
estimador para la funcion
principales propiedades. Este estimador se usara para
construir nuevos estimadores de cuantiles, y aplicando la
entre ambos parametros,
relacion
sera posible tambien
asintotica
determinar la expresion
de la varianza del es de la varianza es un astimador propuesto. La estimacion
pecto muy importante con un alto numero
de aplicaciones,
de intervalos de confianza, obtal como la construccion

del tamano
muestral optimo,
tencion
etc. Por esta razon,
tanto el estimador propuesto como su varianza se anali Los resultados de
zan mediante un estudio de simulacion.
este estudio reflejan algunas utiles
ganancias en eficien
cia del estimador propuesto y de su varianza sobre otros
estimadores.
La unica
diferencia de este metodo
de muestreo con
3.2.2, es el uso
respecto al expuesto en la Seccion
adicional del muestreo estratificado. Bajo determinadas
condiciones, esta tecnica

es particularmente eficiente,
siendo frecuentemente utilizada en la practica

por diferentes razones: (i) administrativas, cuando el marco de traba
jo esta dividido en varios distritos geograficos,
(ii) impor muestrales no
tante ganancia en eficiencia sobre disenos
estratificados, etc.
En resumen, el muestreo bifasico

aplicado a la es combina las principales ventajas del muestreo
tratificacion
bifasico
y muestreo estratificado. Esta tecnica
consiste en
en estutomar una primera gran muestra de la poblacion
muestral determinado. En esta muesdio segun
un diseno
tra, se observa una variable auxiliar, la cual se usa para
estratificar dicha muestra en H estratos. De cada estrato, se selecciona una muestra y se observa la variable de
interes.
se describe el muestreo bifasico
A continuacion
apli-
4
49
y el estimador natural para escado a la estratificacion

de distribucion.
Ademas,
se propone un
timar la funcion
de distribucion
basado en estiestimador para la funcion
madores .
seguida para el muestreo bifasico
La notacion
aplica es la siguiente. Una primera muesdo a la estratificacion
n0 es disenada
muessegun
tra s0 de tamano
el diseno
tral d1 , de modo que pd1 (s0 ) es la probabilidad de que s0
sea seleccionada y donde las correspondientes probabili de primer y segundo orden se denotan
dades de inclusion
0
0
como i y ij , para i, j U . Para los elementos en s0 ,
de una variable auxiliar, x. Esse recoge la informacion
ta variable se usa para dividir s0 en H pre-especificados
0
0
estratos denotados como sh , (h = 1, . . . , H), con nh ele0
mentos en el estrato h. De este modo, de sh se puede
S
nh mediante un
seleccionar una muestra sh de tamano
ph (/s0 ). La muestra final sera s = H
diseno
h=1 sh . La pro para las unidades de la segunda
babilidades de inclusion
fase se denotan como i/s0 y ij/s0 , para i, j s0 . Nota0
0
0 0
0
mos que ij = ij i j y sij = ij/s0 i/s0 j/s0 .
El primer paso para estimar un determinado cuantil
de distribues obtener un buen estimador para la funcion
con propiedades deseables. El candidato natural (escion
timador de tipo Horvitz y Thompson) para estimar la fun de distribucion
bajo la tecnica
cion
de muestreo en estudio
es:
H
1 X X (t yi )
,
Fbst (t) =
N
i
is
h=1
estan
dadas por
dondeP
las probabilidades de inclusion
0
0 . Este estimador no puede obtep
(s
)
i =
0
d1
i/s
s 3i
nerse siempre en la practica

debido a que las probabilidades i/s0 , para cada s0 , deben de conocerse para poder
determinar i . Esto no es siempre posible porque i/s0
puede depender del resultado de la primera fase (por
ejemplo si la muestra de la segunda fase se selecciona
mediante un muestreo proporcional a una variable auxiliar).
En la practica,
el uso del estimador de tipo HorvitzThompson no resulta posible ni para el problema de la es de la media poblacional. Por esta razon,
Sarndal
timacion
et al. (1992) propusieron el uso de -estimadores. Usan0
do este idea, se introducen las cantidades i = i i/s0 y
0
ij
= ij ij/s0 para definir el -estimador de la funcion
como
de distribucion
H
1 X X (t yi )
(t) =
.
Fbst
N
i
is
h=1
de la etiqueta i. Esdonde los pesos wi dependen solo

to es particularmente deseable para investigaciones con
multiples
caractersticas. Puede comprobarse facilmente
(t) posee esta propiedad.

que el Fbst
Unicidad en la definicion
El estimador propuesto es un estimador basado en el
muestral, el cual no depende de la eleccion
de un
diseno
se ha asumido que los estratos estan
modelo. Ademas
para Fbst
(t)
pre-especificados. De este modo, la expresion
es unica.
Sesgo
Una medida importante de la calidad de un estimador
es la insesgadez. Sarndal
et al. (1992) establecieron
que, para el caso de estimar el total poblacional, el estimador es insesgado. Este resultado puede extenderse
de la funcion
de
facilmente
al problema de la estimacion
esto es, asumiendo que zi = (t yi ) es la
distribucion,
el estimador (3.8) puede verse como
variable de interes,
de la media poblacional de la
un problema de estimacion
variable zi .
Disponibilidad de la varianza
del Teorema 3.2, puede
Siguiendo la demostracion
(t) esta dacomprobarse facilmente

que la varianza de Fbst
da por
"
X 0 (t yi ) (t yj )
1
b
V (Fst (t)) = 2
ij
+
0
0
N i,jU
i
j
H
X
X
0
(t
y
)
(t
y
)
i
j
+Ed1
sij
.
i
j
0
h
De este modo, un estimador insesgado de esta varianza

viene dado por:
X 0ij (t yi ) (t yj )
1
+
Vb (Fbst (t)) = 2
0
0
N
ij
i
j
i,js
H
X
X
h=1 i,jsh
(3.8)
de distribuLa calidad de un estimador de la funcion

puede medirse a traves
de diversas propiedades decion
seables (vease
Chambers et al. , 1992). A continuacion
importantes para el estise analizan algunas de las mas
mador dado por (3.8).
Simplicidad
de distribuEl calculo
de un estimador de la funcion
Fby (t), sera particularmente simple si
cion,
1 X
wi (t yi ),
Fby (t) =
N is
0
sij (t yi ) (t yj )
,
ij/s0
i
j
(3.10)
puesto que cada componente de (3.10) es insesgado de

(3.9).
su correspondiente componente en la ecuacion
de distribucion
(t) es una verdadera funcion

Fbst
En primer lugar, notamos que varios de los estimadores propuestos en la literatura no son verdaderas
Por ejemplo, ninguno de los
funciones de distribucion.
y diferencia propuesconocidos estimadores de tipo razon
de distribucion
en
tos por Rao et al. (1990) es una funcion
general (vease
Kuk, 1993, Mukhopadhyay, 2000).
Las condiciones (C2.18) y (C2.19) siempre se sa
(t) y el valor lmite de Fbst

(t) es tamtisfacen para Fbst
igual a 0. En general, lmt+ Fbst

bien
(t) no es igual a
50
(3.9)
h=1 i,js

1, aunque esto se verifica para algunos disenos
mues
trales tal como muestreo aleatorio simple. En la Seccion
(t) para algunos disenos

3.2.7 se analiza lmt+ Fbst
Los remuestrales mediante un estudio de simulacion.
Fam1500 sostienen
sultados obtenidos para la poblacion
que este valor esta bastante proximo

a 1. En resumen,
(t) mantiene todas las condiciones para

el estimador Fbst
de distribucion,
excepto en
ser una verdadera funcion
(t) = 1, la cual se verifica para algunos

lmt+ Fbst
muestrales y esta bastante proximo
disenos
a 1 en otros.
La mayora de los estimadores de cuantiles se obtiene
de la funcion
de distribucion.
Asumediante la inversion
miendo muestreo bifasico,

Singh et al. (2001) propusieron
el siguiente estimador:
0
n Fe (t)
(n0 nx )FeY B (t)
+
,
FbSJT (t) = x Y0A
n
n0
b st () y la
Asumiendo la insesgadez del estimador Q
(3.13), es posible determinar facilmente
expresion
la varianza de dicho estimador al primer grado de aproxi Esta varianza queda establecida en el siguiente
macion.
corolario.
b st ()
Teorema 3.5 La varianza asintotica

del estimador Q
viene dada por
1
b st ()) = 1
AV (Q
N 2 fy2 (Qy ())
"
+Ed1
ij
i,jU
H
X
b st () yi ) (Q
b st () yj )
(Q
+
0
0
i
j
0
sij
h=1 i,js0
b st () yi ) (Q
b st () yj )
(Q
.
i
j
donde nx es el numero
de unidades en la primera muestra
b 0x (0,5) y FeY A (t) y FeY B (t) denotando la proporcon x Q

de unidades en la muestra de la segunda fase para
cion
b 0x (0,5), respectivamente,
b 0x (0,5) y x > Q
las cuales x Q
b 0x (0,5)
que tiene valores de y menores o iguales que t. Q
es el estimador de tipo Horvitz-Thompson para Qx (0,5)
basado en la primera muestra. De este modo, se definio el
siguiente estimador para la mediana
1
b SJT (0,5) = FbSJT
(0,5) = nf{t|FbSJT (t) 0,5} (3.11)
Q
Siguiendo esta tecnica,

el cuantil de orden puede
(t) como
estimarse a partir de Fbst
1
b st () = Fbst
() = nf{t|Fbst
(t) }.
Q
3.2.6.
(3.12)
Demostracion
(3.13) se deduce que
De la expresion
bst
b st ()) =
V
F
(Q
())
,
AV (Q
y
fy2 (Qy ())
donde V Fbst
(Qy ()) esta dada en (3.9).
Un estimador insesgado para esta varianza viene dado por:

1
b st ()) = 1
Vb (Q
N 2 fy2 (Qy ())
X 0ij (Q
b st () yi ) (Q
b st () yj )
+
0
0
ij
i
j
i,js
H
X
X sij0 (Q
b st () yi ) (Q
b st () yj )
.
+
ij/s
i
j
i,js
h=1
se estudian las propiedades del estiA continuacion

b st (). Para ello, se necesita una aproximacion
limador Q
b st () no es una funcion
continua.
neal debido a que Q
b st () es asintoticamente
Teorema 3.4 El estimador Q

Demostracion
b st () puede expresarse asintotica
El estimador Q
de distribumente como una funcion
estimada evaluada en el cuantil Qy () mediante la
cion
de Bahadur (vease
representacion
Chambers y Dunstan,
1986):
1
( Fbst
(Qy ()))+O(n1/2 ),
fy (Qy ())
(3.13)
cuando N . Como Fbst

(t) es un estimador insesga
do de F (t), se tiene que E( Fbst
(Qy ())) = 0 y con (3.13), puede comprobarse facil
siderando la expresion
mente que
b st ()Qy () =
Q
b st ()) = Qy () + O(n1/2 ).
E(Q
(3.14)
Este estimador para la varianza del estimador propuesto presenta una forma explcita, lo que permite que
pueda obtenerse siempre en la practica,

es decir, la expre (3.14) no depende del valor esperado sobre el diseno
sion
de la primera fase, haciendo posible los calculos

directos.
Una vez que la varianza del estimador ha sido determinada, intervalos de confianza y otras importantes apli tambien
obtecaciones derivadas de la varianza podran
nerse.
En el siguiente ejemplo se determina las expresiones
b st () y de su correspondiente
del estimador propuesto Q
de unidades
varianza estimada para el caso de seleccion
mediante muestreo aleatorio simple.
Ejemplo 3.1 Asumiendo muestreo aleatorio simple en
cada fase, el -estimador viene dado por
b st () = nf{t |
Q
0
H
X
nh X (t yi )
},
n0 is
nh
h=1
y el estimador de su varianza puede obtenerse de (3.14)

de sustituir las probabilidades i/s0 , i , ij/s0 y
despues
por
ij
i/s0 =
nh
0
nh
i =
n0 nh
,
N n0h
para i sh ,
51
ij/s0
ij
3.2.7.
0
n (n 1)
h0 h0
si i, j sh
n
(n
1)
=
0
0
nh n h
0h 0l si i sh y j sl
nh nl
0
nh (nh 1) n0 (n0 1)
si i, j sh
0 0
nh (nh 1) N (N 1)
=
0
0
nh nl n0 (n0 1)
si i sh y j sl
0 0
N
(N
1)
nh nl
Asumiendo muestreo bifasico

aplicado a la estratifi se ha propuesto un estimador para un determinacacion,
do cuantil poblacional, mientras que su correspondiente
varianza asintotica
ha sido establecida. La insesgadez del
ha sido discutida. El siestimador de cuantiles tambien
guiente paso sera analizar, mediante un estudio de simu estas
lacion,
y otras medidas importantes de calidad para
los dos estimadores propuestos. Los resultados se compararan sobre otros estimadores conocidos en la literatura
del muestreo en poblaciones finitas.
Fam1500 (vease
En este estudio se usa la poblacion
Apendice
A), donde recordamos que las correlaciones entre la variable principal y las auxiliares vienen dadas por
y,x1 = 0,848 y y,x2 = 0,546.
(t) para
En primer lugar, analizaremos lmt Fst
poder comprobar como

de cercano se encuentra de la
(t) sera una verdadera fununidad. Recordamos que Fst

de distribucion
si este valor es igual a 1. Se ha
cion
considerado muestreo aleatorio simple (S), el metodo

de
Midzuno (M ) y el metodo
de Poisson (P ). Las diferentes
combinaciones de disenos
muestrales se van a denotar
como dij , para i, j = {S, M, P }, donde i y j van a ex muestrales usados en la primera y sepresar los disenos
gunda fase, respectivamente. Este estudio se ha llevado
a cabo usando aproximaciones Monte Carlo derivadas de
1000 muestras independientes, para = 0,5, n0 = 150 y
300 y varios valores de n.
muestral, las Tablas 3.1 y 3.2 muesPara cada diseno
(t) basada en
tran la esperanza emprica de lmt Fbst
Fam1500. Puede ob1000 muestras de la poblacion
cercanos a 1,
servarse que todos los resultados estan
obteniendose
mejores resultados cuando la muestra de
la segunda fase es mayor. Como esperabamos,

asumiendo muestreo aleatorio simple en cada una de las fases,
(t) = 1. Esto tambien

siempre se obtiene que lmt Fbst
ocurre en la mayora de los casos cuando se considera
el metodo
de Poisson en alguna de las dos fases. En
general, la variable x1 (para correlaciones altas) obtiene
mejores resultados que la variable x2 .
El siguiente paso es comparar el comportamiento del
estimador propuesto para cuantiles y de su varianza con
respecto a otros estimadores. En este estudio, se ha incluido el estimador (3.11) y su correspondiente estimador
de la varianza propuesto en Singh et al. (2001). La ganancia en eficiencia sobre muestreo no estratificado puede
contrastarse si comparamos el estimador propuesto con
el estimador basado en la segunda fase, sin considerar
estratos en la primera fase. Este estimador sera denotado
b y () y lo usaremos como el estimador base en las
como Q
comparaciones.
52

muestrales y considerando la variable
Tabla 3.1: Esperanza emprica de lmt Fbst
(t) para varios disenos
x1 .
n0
n
dSS
dSM
dSP
dM S dM M
dM P
dP S dP M
dP P
150 30 1.000 1.010 1.000 1.001 1.011 1.000 1.000 1.000 1.000
50 1.000 1.005 1.000 1.001 1.006 1.000 1.000 1.000 0.999
70 1.000 1.003 1.000 1.001 1.004 1.000 1.000 1.000 1.000
90 1.000 1.002 1.000 1.001 1.002 1.000 0.999 1.000 1.000
300 60 1.000 1.005 1.000 1.000 1.005 1.000 0.999 1.000 1.000
100 1.000 1.003 1.000 1.000 1.003 1.000 1.000 1.000 1.000
140 1.000 1.001 1.000 1.000 1.002 1.000 1.000 1.000 1.000
180 1.000 1.001 1.000 1.000 1.001 1.000 1.000 1.000 1.000
muestrales y considerando la variable

Tabla 3.2: Esperanza emprica de lmt Fbst
(t) para varios disenos
x2 .
n0
n
dSS
dSM
dSP
dM S dM M
dM P
dP S dP M
dP P
150 30 1.000 1.011 1.002 1.001 1.011 0.998 1.001 1.002 1.002
50 1.000 1.005 1.002 1.001 1.006 1.001 1.000 1.001 0.999
70 1.000 1.003 0.999 1.001 1.004 0.999 1.000 1.000 0.999
90 1.000 1.002 1.000 1.001 1.002 0.999 1.000 1.001 0.999
300 60 1.000 1.005 1.000 1.000 1.005 0.999 1.000 1.000 0.999
100 1.000 1.003 1.000 1.000 1.003 1.000 1.000 1.000 0.999
140 1.000 1.001 1.000 1.000 1.002 1.000 0.999 1.000 0.999
180 1.000 1.001 1.000 1.000 1.001 1.000 1.000 1.000 1.000
para los estimadores de cuantiles y sus varianzas asumiendo

Tabla 3.3: Medidas de eficiencia y precision
muestral dSM y la variable x1 . = 0,5 y n0 = 150.
el diseno
ER
SR ( %)
RECM R ( %)
n
30
50
70
90
30
50
70
90
30
50
70
90
b
0.59
0.69
0.59
0.68
-0.1
-0.1
-0.1
0.0
2.7
2.2
1.7
1.5
Q
st
b y
Q
1.00 1.00 1.00 1.00
0.2 -0.1
0.0
0.0 3.5 2.6 2.2 1.9
b SJT
0.64 0.66 0.67 0.74 -0.2 -0.1 -0.1
0.0 2.8 2.1 1.8 1.6
Q
b st )
Vb (Q
0.32 0.42 0.42 0.26 -5.2
9.2 13.2
7.4 15.8 12.7 14.9 8.6
b
b )
V (Q
1.00 1.00 1.00 1.00 -16.6 -13.5 -13.5 -11.3 16.6 13.5 13.5 11.3
y
b SJT ) 1.11 2.18 2.37 2.29 27.4 30.1 31.1 23.2 27.4 30.1 31.1 23.2
Vb (Q

el diseno
ER
SR ( %)
RECM R ( %)
n
60 100 140 180
60
100
140
180
60 100 140 180
b st
Q
0.55 0.61 0.73 0.76 -0.1
0.0 -0.1 -0.1 1.8 1.4 1.3 1.1
b
Q
1.00
1.00
1.00
1.00
0.1
0.1
0.0 -0.1 2.5 1.8 1.5 1.3
y
b
0.58 0.62 0.73 0.80
0.0
0.0
0.0 -0.1 1.9 1.4 1.3 1.1
QSJT
b )
0.10
0.09
0.33
0.13
-4.8
-4.1
-9.9
-4.2 11.7 8.0 10.7 5.0
Vb (Q
st
b y )
Vb (Q
1.00 1.00 1.00 1.00 -20.2 -16.2 -13.4 -10.4 20.2 16.2 13.4 10.4
b SJT ) 1.18 2.10 1.68 2.38 37.7 37.6 23.7 20.2 37.7 37.6 23.7 20.2
Vb (Q
53

el diseno
ER
SR ( %)
RECM R ( %)
n
30
50
70
90
30
50
70
90
30
50 70
90
b
0.59
0.60
0.72
0.77
-0.1
0.0
0.1
-0.1
2.7
2.1
1.8
1.7
Q
st
b y
Q
1.00 1.00 1.00 1.00
0.2
0.1 0.0 -0.1 3.5 2.7 2.1 1.9
b
0.78 0.84 0.90 0.94 -0.1
0.0 0.0 -0.1 3.1 2.5 2.0 1.9
QSJT
b st )
Vb (Q
0.27 0.12 0.28 0.24 -8.1 -1.8 -2.1 -8.6 17.5 10.4 6.7 9.5
b )
Vb (Q
1.00 1.00 1.00 1.00 -19.8 -18.3 -9.0 -14.9 19.8 18.3 9.0 14.9
y
b
b SJT ) 0.01 0.01 0.18 0.13
0.9 -1.7 4.2 -5.7 0.9 1.8 4.2 5.7
V (Q

el diseno
ER
SR ( %)
RECM R ( %)
n
60 100 140 180
60
100
140
180
60 100 140 180
b
0.57 0.57 0.66 0.73 -0.1
0.0 -0.1
0.0 1.8 1.4 1.2 1.1
Q
st
b
Qy
1.00 1.00 1.00 1.00
0.0 -0.1 -0.1 -0.1 2.4 1.8 1.5 1.3
b SJT
0.80 0.84 0.89 0.90 -0.1 -0.1 -0.1
0.0 2.1 1.7 1.4 1.2
Q
b st )
0.29 0.09 0.06 0.08
0.7
3.1 -3.2 -4.8 12.0 8.4 5.8 5.7
Vb (Q
b y )
Vb (Q
1.00 1.00 1.00 1.00 -12.8 -17.0 -15.5 -14.5 12.8 17.0 15.5 14.5
b
b SJT ) 0.42 0.03 0.01 0.13 10.3
3.3
2.0
5.9 10.3 3.3 2.1 5.9
V (Q
47
54
de todos los estimadores de cuantiles y

La precision
sus respectivas varianzas se miden para = 0,5 mediante el Sesgo Relativo (SR), la Eficiencia Relativa (ER)
y la Raz cuadrada del Error Cuadratico

Medio Relativo
b y (), estan
medidas estan
(RECM R). Para un cuantil, Q

dadas por
b y ()]
SR[Q
b y ()] Qy ()
E[Q
,
Qy ()
b y ()]
ER[Q
b y ()]
ECM [Q
,
b
ECM [Qy ()]
b y ()]
RECM R[Q
b y ()]
ECM [Q
1/2
Qy ()
b y ()),
y para el estimador de la varianza de un cuantil, Vb (Q
las medidas son
b y ())]
SR[Vb (Q
b y ())] V [Qy ()]

E[Vb (Q
,
V [Qy ()]
b y ())]
ER[Vb (Q
b y ())]
ECM [Vb (Q
,
b y ())]
ECM [Vb (Q
b y ())]
RECM R[Vb (Q
1/2
b y ())]
ECM [Vb (Q
V [Qy ()]
deseada en la practica)
y para el caso de varianzas. Conclusiones similares pueden obtenerse a partir del sesgo y
del error cuadratico

medio. Como resulta razonable, estas
ultimas
medidas mejoran para cada estimador a medida
de la muestra de cualquiera de
que se aumenta el tamano
las dos fases.
Por ultimo,
se analiza la cobertura y la longitud me
dia de los intervalos de confianza de cada estimador. Estas medidas vienen dadas por las Tablas 3.7 y 3.8 para
la variable x1 y las Tablas 3.9 y 3.10 para la variable x2 .
En todos los casos se observa que el estimador propuesto tiene la menor longitud media emprica para el intervalo de confianza. Para altas correlaciones, la cobertura del estimador propuesto es mejor que la del resto de
proxi
estimadores, puesto que se obtienen valores mas
mos al 95 %. Para bajas correlaciones, la cobertura del
estimador propuesto se ve ligeramente superada por la
b SJT , aunque este
ultimo
estimador tiene el
cobertura de Q
inconveniente de presentar intervalos de confianza mucho
amplios. Todas estas propiedades teoricas
mas
y empri
cas bajo muestreo bifasico

aplicado a la estratificacion
consultarse en Rueda, Arcos, Munoz
pueden tambien
y
(2006c).
Singh (2006) y Rueda y Munoz
donde E[], ECM [] y V [] denotan las Esperanzas, Erro

res Cuadraticos
Medios y Varianzas empricas basadas
b y ()]
en 1000 muestras. Notamos que valores de ER[Q
b
b
b
y ER[V (Qy ())] menores de 1 indican que Qy () y
b y ()) son mas
b y () y Vb (Q
b y ()), res precisos que Q
Vb (Q
se ha calculado la Cobertura de
pectivamente. Tambien
los intervalos de confianza al 95 % (asumiendo distribu normal) y la longitud media de los intervalos basados
cion
en 1000 muestras.
Asumiendo muestreo aleatorio simple para obtener
la muestra de la primera fase y el metodo

de Midzuno
para obtener la segunda muestra, en las Tablas 3.3 y 3.4
pueden observarse los resultados de las distintas medi para los estimadores y asumiendo la vadas de precision
tanto
riable x1 . En este caso (para una alta correlacion),
el estimador propuesto como su correspondiente varian
za son mas precisos, en terminos
de ER, que sus competidores. Los valores absolutos de las medidas SR, para
todos los cuantiles, son siempre menores de 0,2 %. Resb y ) presenta
pecto a las varianzas, se observa que Vb (Q
b SJT ) claramente arras mientras que Vb (Q
subestimacion,
Los estimadores propuestra una seria sobreestimacion.
presentan la mejor precision
en terminos
tos tambien
de
RECM R.
se analiza la precision
de los estiA continuacion
entre la variable
madores usando una menor correlacion
principal y auxiliar. Para ello, observamos las Tablas 3.5
y 3.6. El estimador propuesto para estimar cuantiles es
preciso que el resto en terminos
mas
de ER. Respecb SJT ) parece tener
de varianzas, Vb (Q
to a la estimacion
ocurre para
el mejor comportamiento, aunque esto solo
entre las variables (situacion
no
una escasa correlacion
4
55
Tabla 3.7: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x1 . = 0,5 y n0 = 150.
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
94.1
93.4
96.6
95.3
828
656 566 512
Q
st
b
Q
92.2
92.5
92.8
93.9
1010
772 646 564
y
b
QSJT 96.9 97.3 97.4 96.8 998 771 650 571
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.4 93.9 93.7 93.2 568 447 385 347
Q
st
b
Q
92.1 93.1 93.0 93.1 701 534 444 385
y
b
QSJT 96.8 98.1 96.9 97.0 703 541 454 398
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
93.7 94.0 94.7 93.8 830 655 567 512
Q
st
b
Q
90.7 93.5 94.1 92.8 1010 772 646 565
y
b
QSJT 93.8 94.7 95.4 94.5 1001 775 654 576
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.8 95.7 94.8 92.4 568 447 385 347
Q
st
b
Q
92.7 92.8 92.6 92.4 701 534 444 385
y
b
QSJT 96.3 95.1 94.8 94.7 707 541 461 406
49
56
3.3.
Estimadores bajo muestreo

en dos ocasiones sucesivas
El muestreo en ocasiones sucesivas es una tecnica muy conocida que puede emplearse en las investi
gaciones longitudinales para estimar determinados parametros poblacionales y medidas de diferencia o cambio de
se discute
una variable objeto de estudio. En esta seccion
de cuantiles en la ocasion
mas
reciente bajo
la estimacion
un muestreo en dos ocasiones sucesivas. Este estudio se
efectivo de la inrealiza, por un lado, haciendo un uso mas
auxiliar, es decir, considerando varias variables
formacion
Por otro lado, tamauxiliares en la etapa de estimacion.
se obtienen estimadores basados en muestreos con
bien
de unidades desiguales. Se
probabilidades de seleccion
importantes y se deducen
estudian las propiedades mas
las expresiones de las varianzas. Como es habitual, se
de los estimadores propuestos en estumide la precision
basados en varias poblaciones.
dios de simulacion
3.3.1.
Introduccion
En numerosas investigaciones por muestreo, una mis puede ser muestreada repetidamente y la
ma poblacion
de
misma variable de estudio es medida en cada ocasion,
modo que se sigue el desarrollo de esta

sobre el tiempo. Por ejemplo, las encuestas de presupuestos familia
res son llevadas a cabo periodicamente
para estimar el
se llevan
numero
de empleados, las encuestas de opinion
a cabo a intervalos regulares de tiempo para medir las

preferencias de los votantes, etc. En estos casos, el uso
de la teora de un esquema de muestreo sucesivo puede
ser una alternativa atractiva para mejorar las estimaciones
de nivel en un punto en el tiempo, el cambio entre dos pun
tos, etc. (vease
por ejemplo Cochran, 1977).
El muestreo en ocasiones sucesivas ha sido extensamente usado en las ciencias sociales y aplicadas para es
timar medidas de nivel, cambios de un parametro
lineal tal
como la media o el total (vease,

por ejemplo, Sarndal
et
de la varianza de este cambio (Beral., 1992), estimacion
ger, 2004), etc. Otros ejemplos del uso de encuestas longitudinales pueden consultarse en Ruspini (1999) para el
analisis
en el cambio social, Solga (2001) para el estudio
de movilidad laboral, etc.
Asumiendo muestreo en dos ocasiones sucesivas, la
teora desarrollada por Jessen (1942) y Patterson (1950)
proporciona el estimador optimo

de la media poblacional
combinando dos estimadores disen la segunda ocasion,
tintos de esta media. Por un lado, se usa un estimador de
basado en la muestra solapada de la muestipo regresion
tra, considerando que la variable auxiliar es el valor de
Por ultimo, se
la variable principal en la primera ocasion.
considera un estimador simple de la media basado en una
no solapada de la segunda
muestra aleatoria de la porcion
El muestreo en ocasiones sucesivas tambien
ha
ocasion.
sido discutido en Narain (1953), Adhvaryu (1978), Eckler
(1955), Gordon (1983), Arnab y Okafor (1992), Sen (1972,
1973), Singh y Srivastava (1973), Sen et al. (1975), Singh
et al. (1992) y Singh (2003), el cual proporciona una ex
tensa bibliografa sobre este topico.
En todos los estudios
anteriores, el parametro
considerado para su estimacion
es la media poblacional.
Recientemente, Martnez et al. (2005) propusieron
una metodologa de estimacion

de cuantiles bajo
muestreo en ocasiones sucesivas usando el valor de la va anterior como variable auriable principal en una ocasion
xiliar. Este estudio fue desarrollado bajo muestreo aleato mas
reciente
rio simple y asumiendo que sobre la ocasion
se toma una submuestra a partir de las unidades previamente seleccionadas, y que ciertas de estas unidades
son reemplazadas por otras nuevas unidades seleccionadas independientemente de la muestra solapada.
Asumiendo un muestreo en dos ocasiones sucesivas,
se propone un estimador para un cuantil de orden que
auxiliar multivariante. El diseno
emplea una informacion

muestral usado en cada fase es el muestreo aleatorio sim se propone un estimador de
ple. Por otro lado, tambien
cuantiles cuando las correspondientes muestras son se
leccionadas mediante disenos
cada una de las dos fases que consta este esquema de
muestreo. En este caso, se usara un estimador de tipo
en la porcion
de muestra solapada para proporrazon
cionar el estimador optimo

de un cuantil. Para ello, se
pondera las estimaciones inversamente a sus varianzas.
Las propiedades del estimador propuesto se estudian ba
jo aproximaciones basadas en muestras de gran tamano.
El comportamiento de estos nuevos estimadores tambien

bajo los datos de una poblacion
real.
se estudiaran
habitual a seguir en muestreo en ocaLa notacion
siones sucesivas es la siguiente. Consideramos que es
tamos haciendo un seguimiento continuo de la poblacion
N , sobre dos, o mas,
periodos de tiempo
U , de tamano
mas
reciente. Se
con valores yi en el periodo u ocasion
n0 esta disenada
en la
asume que una muestra de tamano
anterior. En la ocasion
reciente, una submuestra
ocasion
m es disenada
(llamada muestra solapada) de tamano

de
las n0 unidades seleccionadas previamente, y u = n m
unidades son reemplazadas por nuevas unidades selec restante. = m/n sera la fraccionadas de la poblacion
de solapamiento.
cion
En muestreo con dos ocasiones sucesivas, el esti de cuantiles se consmador habitual para la estimacion
de
truye como sigue. En primer lugar se estima la funcion
a partir de la muestra s obtenida en la ocasion
distribucion
P
mas
reciente. Este estimador viene dado por Fbyn (t) =
n1 is (t yi ), el cual coincide con el estimador de
tipo Horvitz-Thompson bajo muestreo aleatorio simple. A
se estima el cuantil de orden a partir de
continuacion
de distribucion,
es decir:
esta funcion
n
o
1
b
b
(3.15)
Qyn () = Fyn () = nf t : Fbyn (t) .
3.3.2.
a multiples
Generalizacion
variables auxiliares
de cuantiles bajo un muestreo con dos

La estimacion
de muestras medianocasiones sucesivas con extraccion
te muestreo aleatorio simple ha sido discutida en Martnez
et al. (2005). Este estudio esta basado en una unica
va
riable auxiliar, es decir, el uso de un numero
mayor de
variables auxiliares no es posible. El objetivo que se per es por tanto el estudio de la

sigue en la presente seccion
5
57
de cuantiles bajo este esquema de muestreo

estimacion
y para un vector multivariante de variables auxiliares. En
las Secciones 3.3.3 y 3.3.4 se analizan las propiedades
teoricas
y empricas de este nuevo estimador. Como se ha
disenados
comentado, todos estos estudios estan

para el
clasico
muestreo aleatorio simple. En la practica
el uso de
complejas, como por ejemplo la

tecnicas
de muestreo mas
de unidades con probabilidades proporcionales
extraccion
puede producir estimaciones mas
eficientes. A
al tamano,
3.3.5 se plantea el problema de la espartir de la Seccion
de cuantiles bajo muestreo con dos ocasiones
timacion
muestral arbitrario.
sucesivas y para un diseno
Asumiendo muestreo aleatorio simple, en este apartado se define una clase de estimadores que pueden obtenerse a partir de un vector multivariante de variables auxiliares. En concreto, esta clase esta formada por un es construido a partir de todas las vatimador de tipo razon
riables auxiliares disponibles en las muestras que estan

en
solapadas y por un estimador de la variable de interes
mas
reciente. El esla muestra no solapada de la ocasion
timador optimo
en el sentido de minimizar la varianza de
obtenido.
esta clase sera tambien
y en 3.3.3 y 3.3.4 asumiremos
En la presente seccion
se dispone de P variables auque en la primera ocasion
proporxiliares, denotadas por x1 , . . . , xP . La informacion
cionada por estas variables nos permitira obtener un es multivariante a partir de las muestimador de tipo razon
sera posible obtetras solapadas. Por otro lado, tambien
ner otro estimador para un determinado cuantil de la variable principal a partir de la muestra no solapada. La clase
esta formada
de estimadores propuesta en esta seccion
por estos dos nuevos estimadores, los cuales se definen
a continuacion.
De modo similar a como se ha definido (3.15) y usan pueden
do los datos de la muestra de la primera ocasion,
b xi (), para i = 1, . . . , P .
definirse los estimadores Q
b xim () y Q
b ym () denotaran
los cuantiles
Analogamente,
Q
muestrales de orden de la muestra solapada para las vab yu () denota
riables auxiliares y principal, mientras que Q
el cuantil muestral basado en la muestra no solapada de
mas
reciente.
la ocasion
Siguiendo a Olkin (1958), se propone el siguiente es multivariante de Qy () basado en la
timador de tipo razon
parte solapada:
b yrim (), Q
b yrjm ()) para
B = (bij ) y bij = Cov(Q
i, j = 1, . . . , P . Para obtener el valor extremo usaremos
la desigualdad de Cauchy-Schwarz, y puesto que B es
semidefinida positiva, se obtiene que el valor optimo

w
esta dado por
B 1 e
wopt = 0 1 ,
eB e
donde e = (1, . . . , 1)0 . Por tanto, la mnima varianza
obtenida a partir de wopt sera
1
.
e0 B 1 e
Asumiendo muestreo en dos ocasiones sucesivas, se
propone el siguiente estimador compuesto que combina
multiple
el anterior estimador de tipo razon
basado en la
muestra solapada con el estimador de la muestra no solapada:

R
bM
Vmin (Q
ym ()) =
R
bM
b
b y () = W Q
Q
ymopt () + (1 W )Qyu (),
(3.17)
R
bM
Q
ym ()
R
bM
Q
ymopt ()
esta dado por el estimador

donde
cuando se considera el valor optimo

de w, esto es wopt ,
mientras que W es una constante que satisface 0 < W <
b y () pre1 y que es escogida de modo que el estimador Q
sente la mnima varianza dentro la clase anterior. Un sim
ple calculo
demuestra que
Wopt =
b yu ())
V (Q
.
R
b
bM
V (Qyu ()) + V (Q
ymopt ())
(3.18)
En resumen, el estimador propuesto que presenta
las propiedades optimas

en terminos
de mnima varianza
esta dado por
R
b
bM
b yopt () = Wopt Q
Q
ymopt () + (1 Wopt )Qyu (), (3.19)
y su varianza viene dada por

2
R
2
bM
b
b yopt ()) = Wopt
V (Q
V (Q
ymopt ())+(1Wopt ) V (Qyu ()),
(3.20)
escribirse como
la cual puede tambien
b yopt ()) =
V (Q
3.3.3.
R
b yu ())V (Q
bM
V (Q
ymopt ())
.
R
b yu ()) + V (Q
bM
V (Q
ymopt ())
(3.21)
El siguiente paso en el estudio del estimador propuesb yopt () es la determinacion

de sus propiedades mas
to
Q
X
X
b ym ()
Q
R
b yrim (). importantes, ademas
b xi () =
bM
de la propiedad de mnima varianza
wi
wi Q
Q
Q
ym () =
b xim ()
Q
ya comentada. En concreto se establece la normalidad de
1iP
1iP
(3.16)
dicho estimador y su correspondiente varianza exacta.
P
Los pesos wi (verificando 1iP wi = 1) se obtienen de
Los resultados obtenidos se derivan asumiendo las siR
bM
guientes condiciones:
del estimador Q
modo que maximizan la precision
ym ().
Se usa el criterio de mnima varianza para obtener es- (C3.4). Asumimos que s0 es una muestra aleatoria simple
tas cantidades. Sabido esto, la varianza de este estimador
de U , lo cual implica que la muestra complemenviene dada por
una muestra aleatoria simple de
taria s0c es tambien
U . Finalmente, asumiremos que sm es una muestra
X
R
b yrim ())+
bM
wi2 V (Q
V (Q
ym ()) =
aleatoria simple de s0 y su es otra muestra aleato1iP
ria simple de s0c . Bajo estas condiciones, las proban0
X
vienen dadas por: i0 =
,
bilidades de inclusion
b yrim (), Q
b yrjm ()).
+2
wi wj Cov(Q
N
0 0
i<j
m(m 1)
n n 1
m
0
ij
, i/s0 = 0 , ij/s0 = 0 0
,
=
N N 1
n
n (n 1)
Esta ultima
ecuacion
puede escribirse como
R
u(u 1)
u
bM
= w0 Bw, donde w = (w1 , . . . , wP )0 ,
V (Q
ym ())
i/s0c =
.
, ij/s0c =
N n0
(N n0 )(N n0 1)
58
finita esta envuelta

(C3.5). Suponemos que la poblacion
de poblaciones {U }, donde n y
en una sucesion
N aumentan de modo que (n /N ) f cuando
n .
(C3.6). Se asume que cuando N la distribu bivariante formada por (x, y) puede aprocion
continua con densiximarse por una distribucion
dades marginales fx () y fy () para x e y respectivamente, siendo fx (Qx ()) y fy (Qy ()) positivas.
Teorema 3.6 El estimador de razon

multivariante
R
bM
Q
ym () dado por (3.16) y la clase propuesta de esb y () dada por (3.17) son asintoticamente
timadores Q
normales.
Demostracion
b yu (),
En primer lugar, los cuantiles muestrales Q
b
b
b
Qym (), Qxi () y Qxim () son asintoticamente

normales
como se demostro en Gross (1980).
Sean las siguientes funciones de este estimador
1
1
b yrim (), Q
b yrjm ()) = (1 )
Cov(Q
+
2
N
fy (Qy ())
m
P11 (y, xi )
fy (Qy ())
1
1
Ri
1 +
0
m fxi (Qxi ()) (1 )
n
fy (Qy ())
P11 (y, xj )
1
1
Rj
1
0
m
fxj (Qxj ()) (1 )
n
2
fy (Qy ())
1
1
Ri Rj
0
m
fxi (Qxi ())fxj (Qxj ())
n
P11 (xi , xj )
1 ,
(1 )
(3.24)
de valores en la
donde P11 (y, xi ) denota la proporcion
para los cuales y Qy () y xi Qxi (), y
poblacion
Ri = Qy ()/Qxi ().
Demostracion
b yrim () puede expresarse como
El estimador Q
b yrim () = Qy ()(1 + e0 )(1 + e2i )(1 e1i + e21i + . . .),

Q
(3.25)
b
b
()
()
Q
Q
ym
xim
b ym (), Q
b x1 (), ..., Q
b xP (), Q
b x1m (), ..., Q
b xP m ()) =
H1 (Q
1, e1i =
1 y e2i =
donde e0 =
Qy ()
Qxi ()
X
b xi ()
b ym ()
Q
Q
b xi ().
1, i = 1, . . . , P .
wi
Q
b
Q
xi ()
Qxim ()
1iP
de serie de Taylor se obConsiderando la expansion
continua con derivadas parciales de tiene la expresion
H1 es una funcion
primer y segundo orden continuas en un entorno de

b yrjm () Qy ())
b yrim () Qy ())(Q
(Q
= Qy ()2
y usando los re(Qy , Qx1 , . . . , QxP ). Bajo esta situacion
2
M
R
(e0 + e2i e1i + e1i e1i e2i e1i e0 + e0 e2i + . . .)
b ym () es asintoticamente
sultados de Cramer (1946), Q

(e0 + e2j e1j + e21j e1j e2j e1j e0 + e0 e2j + . . .).
normal.
La normalidad asintotica
de la clase propuesta de es asintotica
La expresion
de la covarianza de los esti
timadores se deriva facilmente
como consecuencia de la madores Q
b yrim () se obtiene tomando espeb yrim () y Q
lineal de la clase.
expresion
ranzas (se han considerado solamente terminos
de orden
b yopt () tam
del estimador Q
uno). Las esperanzas de las variables ei pueden derivarse
se deriva al pertenecer este estimador a la clase de Singh (2003):
bien
(3.17).
N m
nos
(1 )(Qy ()fy (Qy ()))2 ,
E[e20 ] =
La linealidad de la clase de estimadores tambien
Nm
permitira computar sus varianzas. Para ello, sera neceN m
mul(1 )(Qxi ()fxi (Qxi ()))2 ,
E[e21i ] =
sario conocer las varianzas del estimador de razon
Nm
tivariante basado en la muestra solapada y el estiE[e22i ] = E[e1i e2i ] =
mador que solamente envuelve a la muestra no solapada,
N n0
b yu (), como puede verse en (3.20) y (3.21).
Q
(1 )(Qxi ()fxi (Qxi ()))2 ,
0
N
n
asintotica
Gross (1980) demostro que una expresion

N m
b yu () esta dada por
para la varianza del estimador Q
(P11 (y, xi ) (1 ))
E[e0 e1i ] =
Nm
(Qxi ()Qy ()fxi (Qxi ())fy (Qy ()))1 ,
b yu ()) = N u (1 )(u)1 {fy (Qy ())}2 .
V (Q
N n0
N
E[e0 e2i ] =
(P11 (y, xi ) (1 ))
(3.22)
N n0
(Qxi ()Qy ()fxi (Qxi ())fy (Qy ()))1 ,
b yrim ()), con i =
Teorema 3.7 La varianza de V (Q
N n0
b yrim () y Q
b yrjm (), con
E[e1j e2i ] = E[e2j e2i ] =
(P11 (xj , xi ) (1 ))
1, . . . , P , y la covarianza entre Q
N n0
i, j = 1, . . . , P vienen dadas por
(Qxj ()fxj (Qxj ())Qxi ()fxi (Qxi ()))1 ,

N m
1
1
1
1
b yrim ()) = (1 )
(P11 (xj , xi ) (1 ))
E[e1j e1i ] =
+
0
V (Q
Nm
fy (Qy ())2
m
N
m
n
(Qxj ()fxj (Qxj ())Qxi ()fxi (Qxi ()))1 .
(3.23)
fy (Qy ())
fy (Qy ())
P11 (y, xi )
Sustituyendo estos valores y operando adecuadaRi
+2 1
,
Ri
fxi (Qxi ())
fxi (Qxi ())
(1 )
dada en (3.24).
mente, se obtiene la expresion
Por tanto, usando las expresiones (3.22) (3.23) y

(3.24), la matriz B, la varianza del estimador propuesto
dado en (3.20) o (3.21) y el valor Wopt definido en (3.18)
quedan determinadas.
5
59
3.3.4.
3.3.2 se ha definido un estimador opti

En la Seccion
mo dentro de la clase (3.17). La normalidad y la varian
za asintotica
de este estimador se ha establecido en la
3.3.3. El siguiente paso en este estudio es comSeccion
probar la exactitud de este estimador. En este apartado,
la eficiencia del estimador propuesto y su varianza seran

analizadas. En primer lugar, se analiza la ganancia en efib yopt ()
ciencia de la varianza asintotica

del estimador Q
b
con la varianza de Qyn (), el estimador estandar

basado
mas
reciente y el cual esta dado en (3.15).
en la ocasion
el comportamiento de estos estimadores
A continuacion,
contrastados en una situacion
real mediante un esseran
tudio emprico.
En ambos estudios se usaran dos poblaciones natura Counties y la poblacion
Turismos (vease
les: la poblacion
turismos resulta interesante en

Apendice
A). La poblacion
este caso porque dispone de cuatro variables auxiliares.
Se pueden comparar los varios estimadores usando un
numero
distinto de variables auxiliares, de modo que pue
de la ganancia en precision al
da observarse la evolucion
aumentar el numero
de variables auxiliares usadas en la
etapa de estimacion.
Comparaciones teoricas
El primer estudio consiste en comparar la varianza del
estimador optimo
propuesto dado en (3.21) con la varianb yn (). Este esza del estimador frecuentemente usado, Q
tudio nos permitira conocer el comportamiento de las va
rianzas teoricas
de los estimadores. Gross (1980) com asintotica
probo que una expresion

para la varianza del
b yn () esta dada por
estimador Q
b yn ()) = N n (1 )(n)1 {fy (Qy ())}2 .
V (Q
N
muestral en la ocasion
reciente es menor
tamano
muestral de la primera ocasion.
que el tamano
bajos se ob4. En ambas poblaciones, los ratios mas
muestrales son n0 = 75
tienen cuando los tamanos
y n = 25, en cuyo caso los RT , para valores
grandes de , son aproximadamente iguales a 0.4,
esto es, la varianza asintotica

del estimador propuesto presenta una mejora del 60 % con respecto
a la varianza asintotica
del estimador estandar.
Estudio emprico
El siguiente paso consiste en llevar a cabo un estudio
con el fin de revelar la ganancia en eficiende simulacion
b yn () en una situacion
b yopt () con respecto a Q
cia de Q
real. De nuevo, las poblaciones Counties y Turismos seran

muestra el comportamiento
usadas. Este estudio tambien
b yopt () cuando este estimador usa un numero
difede Q
rente de variables auxiliares.

Se generan B = 1000 muestras independientes bajo muestreo con dos ocasiones sucesivas. Todas las
muestras (solapadas y no solapadas) se obtienen bajo
muestreo aleatorio simple. El cumplimiento de estos estimadores se evalua
para el cuantil de orden = 0,5
en terminos
de Sesgo Relativo (SR) y Eficiencia Relativa (ER), con
SR =
B
b yopt ()]
b yopt ()b Qy ()
ECM [Q
1 XQ
; ER =
,
b yn ()]
B
Qy ()
ECM [Q
b=1
el Error Cuadratico
donde b indica la b-esima

simulacion,
Medio emprico esta dado por
B
X
b yopt ()] = 1
b yopt ()b Qy ()]2 ,
ECM [Q
[Q
B
b=1
En las Figuras B.18 y B.19, las varianzas teoricas

de
b yopt () y Q
b yn () son comparadas por
los estimadores Q
medio de sus cocientes, esto es, las figuras muestran los
b yn ()). En este
b yopt ())/V (Q
Ratios Teoricos
RT = V (Q
estudio, se representan diferentes valores de m en el eje
de abscisas y el estimador propuesto se ha obtenido para
Counties y
cada valor de P (P = 1, 2 en la poblacion
Turismos). Las lneas horiP = 1, 2, 3, 4 en la poblacion
b yn (). Nozontales muestran los RT para el estimador Q
tamos que valores de RT por debajo de 1 indican que
b yn ()), y por tanto el estib yopt ()) es menor que V (Q
V (Q
eficiente.
mador propuesto es mas
De estas comparaciones teoricas,

se pueden destacar
la siguientes conclusiones:
1. Para ambas poblaciones, el estimador propuesto
parece tener uniformemente menor varianza que el
b yn (), y a su vez menor va
estimador estandar,
Q
rianza que el estimador propuesto cuando este

utiliza una unica
variable auxiliar.
2. Las mejores propiedades se obtienen cuando se

usan todas las variables auxiliares.
3. Cuando los tamanos

muestrales en ambas oca de solapamiento
siones son iguales, la fraccion
de sooptima
esta entre 0.2 y 0.4. Una fraccion
alta resulta apropiada cuando el
lapamiento mas
b yn ()] se define de modo similar para

y donde ECM [Q
b
Qyn (). Por tanto, el comportamiento emprico del esti
mador propuesto se compara con el estimador estandar
mediante diferentes valores de P .
de
Las generaciones aleatorias, calculos
y obtencion
estimadores se han obtenido mediante el programa R.
estan
disponibles en el
Los detalles de la programacion
Apendice
??.
Las Figuras B.20 y B.21 representan la ER obtenida
En la Figuras B.22 y B.23
en el estudio de simulacion.
de los valores optimos
se muestra la evolucion
Wopt con
de solapamiento. Los valores SR
respecto a la fraccion
todos dentro de un rango razonable y por tanto se
estan
han omitido.
De las Figuras B.20, B.21, B.22 y B.23 se pueden hacer las siguientes observaciones:
1. Los resultados confirman un buen comportamiento
por parte del estimador optimo

propuesto en com con el estimador estandar,
paracion
y a su vez con
respecto al estimador optimo

simple, es decir, el es
timador propuesto optimo
basado en una unica
va
riable auxiliar.
nos muestra que se obtienen
2. Este estudio tambien
precisas cuando se usa un mayor
estimaciones mas
numero
de variables auxiliares.
60

3. Cuando los tamanos
muestrales en ambas oca de solapamiento opti
siones son iguales, la fraccion
ma esta entre 0,2 y 0,4. En otro caso, no puede ob de solapamiento optima.
servarse una fraccion

4. Los valores Wopt son crecientes con respecto a
de solapamiento. Este resultado era
la fraccion
predecible puesto que a medida que aumenta el
muestral de la parte solapada con respecto
tamano
de la muestra no solapada, el estimador
al tamano
multivariante debera tener un mayor pede razon
so dentro del estimador propuesto. En todos los
altos de Wopt se obtienen
casos, los valores mas
cuando se usan todas las variables auxiliares en
Este resultado demuestra
la etapa de estimacion.
precisas cuando
que se obtienen estimaciones mas
se usan todas las variables auxiliares: de la expre (3.18) puede observarse que Wopt es mayor si
sion
b ymopt ()) tiene valores mas
pequenos,
y bajo
V (Q
el estimador optimo
esta situacion,
propuesto ob precisas.
tiene estimaciones mas
muestral en la segunda ocasion
5. Cuando el tamano
en la primera ocasion,
se
es menor que el tamano
y esta
obtiene una mayor ganancia en precision,
ganancia aumenta a medida que crece la diferencia
muestrales. Este resultado es raentre los tamanos
en relacion
con n0 ,
zonable porque si n es pequeno
entonces, la primera muestra proporcionara mayor
y el estimador de razon
multiple
informacion,
basa
un
do en la muestra solapada presentara tambien
menor grado de error.
La muestra no solapada su es por tanto seleccionada de

d3 , tal que pu (su /s0c ) es
U s0 = s0c segun
el diseno
la probabilidad condicional de escoger su . Las probabili bajo este diseno
se denotaran
como
dades de inclusion
i/s0c y ij/s0c .
en esta seccion
y en las dos siguientes
Ademas,
asumiremos que se dispone de una unica
variable auxi
los valores de la variable principal que
liar, x, que seran
Tamtoman los individuos en el primer periodo u ocasion.
puede considerase que x es una variable auxiliar albien
tamente correlacionada con la variable principal, aunque
en la practica
esto no es lo habitual.
se define un estimador compuesto
A continuacion
Sarndal
et al., 1992,
basado en estimadores (vease
p.347) y que combina un estimador construido en la muestra solapada con otro estimador basado en la muestra no
solapada.
As, usando la muestra no solapada, su , es posible ob de distribucion
tener el siguiente estimador para la funcion

1 X (t yi )
,
Fbyu (t) =
N is i0c i/s0c
u
el cual es un estimador . El correspondiente estimador

para el cuantil de orden viene por tanto dado por
b yu () = nf{t : Fbyu (t) }.
Q
(3.26)
A partir de la muestra solapada pueden construirse los

de distribucion
siguientes estimadores de la funcion
y Arcos (2006) pueden consultarse

En Rueda, Munoz
detalles sobre la estimacion
de cuantiles en muestreo
mas
con dos ocasiones sucesivas y para un vector multivariante de variables auxiliares.
1 X (t yi )
,
Fbym (t) =
N is i0 i/s0
(3.27)
1 X (t xi )
,
Fbxm (t) =
N is i0 i/s0
(3.28)
3.3.5.
Muestreo con probabilidades desiguales
Asumiendo muestreo en dos ocasiones sucesivas y

muestrales arbitrarios para la seleccion
de las disdisenos
tintas muestras que requieren ser seleccionadas bajo este
esquema, Sarndal
et al. (1992) demostraron que el estimador de tipo Horvitz-Thompson de una media no puede
siempre usarse en la practica

debido a que el estimador
i ,
requiere el calculo
de las probabilidades de inclusion
y esto no es posible para las unidades de la muestra su o
para las unidades de la muestra sm .
Los distintos esquemas de muestreo que pueden
plantearse bajo un muestreo en dos ocasiones sucesi
vas y sus correspondientes probabilidades de inclusion
La muestra de la
son los que se detallan a continuacion.
n0 esta disenada
segun
primera fase s0 con tamano
un
muestral d1 , tal que pd1 (s0 ) es la probabilidad de
diseno
que s0 sea escogida. Las correspondientes probabilidades
de primer y segundo orden vienen dadas por
de inclusion
0
0
i , ij , para i, j U . Dada s0 , en la segunda ocasion,

m, es disenada
una muestra solapada sm con tamano

d2 , tal que pm (sm /s0 ) es la probabilisegun
un diseno
dad condicional de escoger sm . Las probabilidades de in bajo este diseno
se denotan como i/s0 y ij/s0 .
clusion
los cuales son estimadores basados en la segunda

respectivamente. Usando tambien
la
y primera ocasion
muestra de la primera fase, es posible construir un estimador de tipo Horvitz-Thompson para la variable auxiliar
como sigue
1 X (t xi )
.
(3.29)
Fbx (t) =
N
i0
0
is
Usando los estimadores dados en (3.27), (3.28) y
(3.29) y basandonos
en la muestra solapada y en la muestra de la primera fase, se propone el siguiente estimador
de tipo razon
donde
b
b ym () Qx () ,
b rym () = Q
Q
b
Qxm ()
(3.30)
b ym () = nf{t : Fbym (t) },

Q
(3.31)
b xm () = nf{t : Fbxm (t) },

Q
b x () = nf{t : Fbx (t) }.
Q
(3.32)
(3.33)
Siguiendo a Jessen (1942), se propone el estimador

bR
lineal
compuesto Q
y () para Qy () como combinacion
del estimador (3.26) y el estimador (3.30). Este estimador
viene dado por
br
b
bR
Q
y () = w Qym () + (1 w)Qyu (),
(3.34)
5
61
donde w es un peso constante y no negativo. El siguiente paso sera determinar w de modo que se minimice la
bR
varianza del estimador compuesto Q
y ().
Teorema 3.8 La varianza mnima del estimador
viene dada por
bR
Vmin (Q
y ()) =
bR
Q
y ()
V1 V2 C 2
.
V1 + V2 2C
de Bahadur (vease
representacion
por ejemplo Chambers
y Dunstan, 1986):
1
r
(Fbym
(Qy ()))+op (n1/2 ),
fy (Qy ())
(3.36)
r
cuando N y Fbym
(t) denota un estimador de tipo
para Fy (t), es decir
razon
b rym ()Qy () =
Q
Fbym (t) b
r
Fbym
(t) =
Fx (t).
Fbxm (t)
Demostracion
bR
La varianza de Q
y () viene dada por
2
2
br
b
bR
V (Q
y ()) = w V (Qym ()) + (1 w) V (Qyu ())
b rym (t) es asintoticamente
insesgado deEl estimador Q

r
b
bido a que Fym (t) es un estimador insesgado de Fy (t)
(vease
Rao et al., 1990). De este modo,
b rym ()) =
b yu (), Q
+2w(1 w)Cov(Q
= w2 V1 + (1 w)2 V2 + 2w(1 w)C =

V2 C
V1 V 2 C 2
}2 +
(V1 + V2 2C){w
V1 + V2 2C
V1 + V2 2C
V1 V2 C 2
bR
= Vmin (Q
y ()),
V1 + V2 2C
puesto que V1 + V2 2C > 0, y donde
b rym ()),
(Q
V1
=V
V2
b yu ()),
= V (Q
b rym ()).
b yu (), Q
= Cov(Q
V2 C
.
V1 + V2 2C
(3.35)
Partiendo de este resultado, el estimador propuesto

b yu () y el
eficiente que el estimador habitual Q
sera mas
b rym ().
Q
estimador de tipo razon
3.3.6.
En esta seccion
se estudian las propiedades
asintoticas
del estimador propuesto en (3.34). Los resultados que se establecen se derivan asumiendo las condiciones (C3.4), (C3.5) y (C3.6).
Teorema 3.9 El estimador compuesto
asintoticamente
bR
Q
y ()
es
Demostracion
Para demostrar este resultado usaremos la insesgadez de los dos estimadores en los que se basa el estimador propuesto. En primer lugar, es sabido que el cuanb yu () es asintoticamente
insesgado para
til muestral Q
por ejemplo Sarndal

et al., 1992), por lo que
Qy () (vease
pasamos a estudiar si dicha propiedad la satisface el esb rym (). Para ello, usaremos una
Q
timador de tipo razon
b rym () no es una fun lineal debido a que Q
aproximacion
continua.
cion
b rym () puede expresarse asintotica
El estimador Q
de distribumente como una funcion
estimada evaluada en el cuantil Qy () mediante la
cion
62
y usando (3.36) puede verse que

b rym ()) = Qy () + O(n1/2 ).
E(Q
b yu () son asintoticamente
b rym () y Q
inPuesto que Q
R
b
sesgados para Qy (), el estimador propuesto Qy () tam lo sera.
bien
Teorema 3.10 El estimador
asintoticamente
normal.
Por tanto el valor de w que hace mnima la varianza

bR
de Q
y () viene dado por
w=
r
(Qy ())) = 0,
E( Fbym
compuesto
bR
Q
y ()
es
Demostracion
de la clase propuesta se deri
(3.34).
va facilmente
a partir de la expresion
En primer lugar, bajo las condiciones (C3.4), (C3.5) y
b yu () es asintoticamente
nor(C3.6), el cuantil muestral Q

mal. Este resultado puede consultarse en Gross (1980).
r
(t) es
Por otro lado, es sabido que el estimador Fbym
la aproxiasintoticamente
normal. Asumiendo ademas
lineal (3.36), puede derivarse facilmente
macion
la norb rym ().
malidad del estimador Q
Por ultimo, usando los dos resultados anteriores, la li (3.34) nos permite establecer la
nealidad de la expresion
normalidad del estimador compuesto propuesto.
El siguiente paso en el estudio asintotico

del estimador
de una expresion
para la
propuesto es la determinacion
varianza de dicho estimador. La expression (3.34) del estimador propuesto nos va a permitir computar su varianza
asintotica
a partir de la varianza del estimador basado en
la muestra solapada, la varianza del estimador basado en
la muestra no solapada y la covarianza entre ambos. As
2
2
bR
V (Q
y ()) = w V1 + (1 w) V2 + 2w(1 w)C. (3.37)
Estas varianzas y covarianzas toman una forma simple cuando la unidades muestrales se seleccionan mediante muestreo aleatorio simple.
asintotica
Gross (1980) demostro que una expresion

b yu () esta dada por
para la varianza del estimador Q
b yu ()) =
V (Q
N u
(1 )(u)1 {fy (Qy ())}2 .
N
(3.38)
proTeorema 3.11 La varianza del estimador de razon

puesto esta dada por

1
1
1
1
b rym ()) = (1 )
V (Q
fy (Qy ())2
m
N
m
n0
(3.39)
fy (Qy ())
P11 (x, y)
fy (Qy ())
R
+2 1
,
R
fx (Qx ())
fx (Qx ())
(1 )
Debido a la independencia entre su y sm , el segundo
termino
es cero. En lo que respecta al primer termino
b ys0 () + o(m1 )
b rym ()/s0 )) = Q
E(Q
y
b ys0c (),
b yu ()/s0 )) = Q
E(Q
donde
b ys0 () = inf {t : Fbys0 (t) },

Q
de valores en la
donde P11 (x, y) denota la proporcion
para los cuales x Qx () e y Qy (), y
poblacion
R = Qy ()/Qx ().
Demostracion
Usando propiedades del muestreo bifasico,

la expreb rym ()) puede obtenerse de
asintotica
sion
para V (Q
b rym () Qy ()
Q
=
!
b
b ym () Qy () + Qxm () 1 (Qy ()) = (3.40)
Q
b x ()
Q
b ys0c () = inf {t : Fbys0c (t) },

Q
1 X (t yi )
Fbys0 (t) =
N
i0
0
is
1 X (t yi )
.
Fbys0c (t) =
N
i0c
0c
is
de Bahadur da (vease
Por otro lado, la representacion

Kuk y Mak, 1989)
b ys0c () Qy () =
Q
Qy ()e0 + (e1 e2 )(Qy ()) e2 (e1 e2 )(Qy ()),

b ym ()
b xm ()
Q
Q
e0 =
1, e1 =
1y
con la notacion:
Qy ()
Qx ()
b x ()
Q
e2 =
1.
Qx ()
asintotica
La expresion
de la varianza del estimador
b rym () se obtiene elevando al cuadrado los dos miemQ
bros de (3.40) y posteriormente tomando esperanzas (No
tamos que solamente se han considerado terminos
de orden uno):

(1 )
1
1
1
1
r
b
+
0
V (Qym ()) =
fy (Qy ())2
m
N
m
n
fy (Qy ()
(Qy ())
x ()fx (Qx ())

P11 (x, y)
fy (Qy ())
(Qy ()) + 2
1
Qx ()fx (Q
(1 )
x ())

(1 )
fy (Qy ())
1
1
1
1
=
+
0 R
2
f
(Q
())
m
N
m
n
f
y
y
x (Qx ())
fy (Qy ())
P11 (x, y)
R
+2 1
.
fx (Qx ())
(1 )
Los valores de E[e20 ], E[e21 ], E[e22 ], E[e0 e1 ] y E[e0 e2 ] pueden
verse en Allen et al. (2002) y Singh (2003).
Teorema 3.12 La covarianza entre los estimadores

b rym () esta dada por
b yu () y Q
Q
b rym ()) =
b yu (), Q
Cov(Q
n
n0 (1 )
1
1
.
=
fy (Qy ())2 N n
N
n0
b rym ()/s0 ))+

b yu ()/s0 ), E(Q
= Cov(E(Q
b rym ()/s0 )).
b yu (), Q
+E(Cov(Q
1
( Fbys0c (Qy ())) + op (n1/2 ),
fy (Qy ())
b ys0 () Qy () =
Q
1
( Fbys0 (Qy ())) + op (n1/2 ),
fy (Qy ())
y de este modo se obtiene
=
b ys0c (), Q
b ys0 ()) '
Cov(Q
'
1
Cov(Fbys0 (Qy ()), Fbys0c (Qy ())) =
fy (Qy ())2
n
1
V (Fbys0 (Qy ())) =
fy (Qy ())2 N n
n
n0 (1 )
1
1
,
=
fy (Qy ())2 N n
N
n0
obteniendo as el resultado (3.41).
Sustituyendo los valores (3.38), (3.39) y (3.41) en

para la varianza
(3.37), se obtiene la siguiente expresion
del estimador propuesto
h
i2
n
1
1
1
n
C
C
(
)
0
1
0
1
N
N n n
N
bR
,
V (Q
y ()) = C1
n
1
1
n
N + C0 + 2C1 N n ( n0 N1 )
1
(3.42)
de solapamiento,
donde = m/n es la fraccion
1
1
1
1
+ C2
0 ,
C0 =
n
N
n
n
(3.41)
Demostracion
Para obtener la covarianza entre los estimadores
b rym () al primer orden de aproximacion,
b yu () y Q
nos
Q
de varianza:
basaremos en la propia definicion
b rym ()) =
b yu (), Q
Cov(Q
C1 =
(1 )
fy (Qy ())2
y
fy (Qy ())
C2 = R
fx (Qx ())
fy (Qy ())
P11 (x, y)
R
+ 2(1
) .
fx (Qx ())
(1 )
El estimador resultante para fy (Qy ()) junto con

de valores en la muestra para los
p11 (x, y) (la proporcion
b x () y y Q
b y ()) pueden usarse para
cuales x Q
proporcionar un estimador consistente de las varianzas
asintoticas
y los valores optimos
w y 1 w.
63
Para completar el estudio asintotico

en esta seccion,
del estimador proanalizaremos la ganancia en precision
b yn (), el cual esta basado
puesto sobre el estimador Q
exclusivamente en las n unidades muestrales para la se La varianza de este estimador esta dada
gunda ocasion.
por
b yn ()) = N n (1 )(n)1 {fy (Qy ())}2 .
V (Q
N
(3.43)
bR
G1 , de Q
De este modo, la ganancia en precision,
y ()
b yn () esta dada por
sobre Q
G1 =
b yn ()) V (Q
bR
V (Q
y ())
.
R
b
V (Qy ())
(3.44)
dependera de los tamanos
Esta ganancia en precision

objeto
muestrales, del orden del cuantil y de la poblacion
de estudio.
El valor optimo
de u que maximiza (3.44) coincide con
el valor que minimiza la varianza asintotica

(3.42).
Por tanto, el problema es obtener el mnimo en de
bR
() = V (Q
la funcion
y ()) y verificando la condicion
es monotona
natural 0 < < 1. Esta funcion

en el intervalo (0, 1). El crecimiento o decrecimiento depende del
en estudio. Por tanto,
orden del cuantil y de la poblacion
proximos
los valores optimos

para estaran
a cero (cuando se renueva completamente la muestra al pasar de una
a otra), o bien, estaran
proximos
ocasion
a uno (cuando la
a otra). Todos
misma muestra se conserva de una ocasion
consultarse
estos resultados asintoticos
pueden tambien
(2006b).
en Rueda y Munoz
3.3.7.
El siguiente paso en el analisis

de estimador propuesto en muestreo con dos ocasiones sucesivas y usan
do disenos
probabilsticos desiguales consiste en llevar
asumiendo distintos
a cabo un estudio de simulacion
tamanos
muestrales en todas las muestras y bajo distin
tos esquemas de muestreo. Para este analisis
se usara la
Counties (vease
poblacion
Apendice
A para una descrip completa de esta poblacion).
cion
Como se ha podido comprobar, para la puesta en
practica
de un muestreo con dos ocasiones sucesivas es
necesario seleccionar tres muestras diferentes, las cuales
muestrales.
pueden obtenerse a partir de distintos disenos
En concreto, estas tres muestras son la muestra de la
primera fase, la muestra solapada y la muestra no solapa de esta seccion
se usaran
da. En el estudio de simulacion
las distintas combinaciones de esquemas de muestreo
descritas en la Tabla 3.11. El metodo

de Midzuno se em
de unidades con probaplea como metodo
de extraccion
del
bilidades desiguales, aunque es posible la aplicacion
muestral.
estimador propuesto bajo cualquier otro diseno
Para cada esquema de muestreo se han generado
muestrales n0 = 75,
B = 1000 simulaciones con tamanos
0
n = 25, m = 5, . . . , 15 y n = 75, n = 50, m = 5, . . . , 30. El
cumplimiento del estimador propuesto se evalua
para los
tres cuartiles, = 0,25, 0,50, 0,75, en terminos

de Sesgo
Relativo (SR) y Eficiencia Relativa (ER), donde
SR =
B
bR
bR
ECM [Q
1 X |Q
y ()b Qy ()|
y ()]
; ER =
,
b yn ()]
B
Qy ()
ECM
[
Q
b=1
Tabla 3.11: Combinaciones de disenos

muestrales
usados en muestreo con dos ocasiones sucesivas y
probabilidades desiguales.
Acronimo
SM S
M SS
MMM
Muestra
s0
sm
su
s0
sm
su
s0
sm
su
Tipo de muestreo
M. aleatorio simple
Metodo
de Midzuno
M. aleatorio simple
Metodo
de Midzuno
M. aleatorio simple
M. aleatorio simple
Metodo
de Midzuno
Metodo
de Midzuno
Metodo
de Midzuno
siendo b la b-esima
simulacion,
bR
br
b
Q
y () = w Qym () + (1 w)Qyu (),
P
2
bR
bR
= B 1 B
ECM [Q
y ()]
b=1 [Qy ()b Qy ()] , y
b
b
ECM [Qyn ()] se define analogamente

para Qyn (), el
estimador estandar
para el cuantil poblacional basado en
mas
reciente.
la ocasion
Notamos que el valor optimo

para la constante w
(3.35) depende de varianzas y covarianzas desconocib yu ())
b rym ()), V (Q
das, en concreto depende de V (Q
r
b
b
tecnicas
y Cov(Qyu (), Qym ()). Se usaran

Jackknife
de estas ex(Efron y Tibshirani, 1993) para la estimacion
presiones.
Por otro lado, la constante w depende de covarianzas porque la muestra solapada y la no solapada son dependientes, aunque algunos autores ignoran este hecho y
consideran tales muestras como independientes, es decir,
emplearan la constante
w =
b yu ())
V (Q
,
b rym ()) + V (Q
b yu ())
V (Q
b rym ()) estara omitida. Con el fin de

b yu (), Q
donde Cov(Q
analizar este hecho en la practica,

el estimador propuesto
basado en la constante w (asumiendo que existe independencia entre las muestras, por lo que se ignoran las
covarianzas) ha sido incluido en el estudio de simulacion.

En primer lugar analizaremos la eficiencia de los estimadores, la cual puede observarse en las Figuras B.24,
B.25 y B.26, en donde se representa la Eficiencia Relativa
de los distintos estimadores y combinaciones de disenos
en el cumplimiento
y tamanos
muestrales. La variacion
de los estimadores desde distintas perspectivas puede
por tanto observarse. Notamos que las curvas continuas
corresponden al estimador propuesto (usando covarianzas), mientras que las curvas discontinuas corresponden
al estimador compuesto que no emplea covarianzas. Las
lneas horizontales representan al estimador estandar.

En los tres casos, los resultados obtenidos muestran
un buen cumplimiento del estimador propuesto, el cual es
eficiente que el estimador estandar,
siempre mas
excepto para el caso de fracciones de solapamiento elevadas.
de solapamiento aumenta, decrece la
Cuando la fraccion
64
(S)
(M)
(S)
(M)
(S)
(S)
(M)
(M)
(M)
Eficiencia Relativa para el estimador propuesto en com con el estimador estandar.
paracion
En lo que respecta al comportamiento del uso o no
de covarianzas en el estimador propuesto, puede comprobarse que se obtiene una ligera mejora en eficiencia
cuando se tiene en cuenta las covarianzas en la construc del estimador, teniendo por tanto sentido la hipotesis
cion
de dependencia entre el estimador de la muestra no solapada y el estimador propuesto para la parte solapada.
observarse que la ganancia en precision
Puede ademas
sobre el estimador que omite las covarianzas es mayor
muestral de la ocasion
a medida que aumenta el tamano

reciente. En resumen, estos resultados recomiendan
mas
el uso de covarianzas en el estimador propuesto para la
de cuantiles bajo un muestreo con dos ocaestimacion
siones sucesivas y probabilidades desiguales.
El analisis
del Sesgo Relativo de los distintos estimadores puede seguirse en las Figuras B.27, B.28 y B.29.
A partir de estas figuras puede observase un similar
comportamiento de los estimadores al obtenido en el estudio de la Eficiencia Relativa. Los valores del Sesgo Rel siempre por
ativo para los estimadores propuestos estan
debajo de 0.2, y en algunas ocasiones son inferiores a 0.1,
mientras que el Sesgo Relativo para el estimador estandar

es bastante mayor llegando incluso a 0.6.
Por ultimo,
analizaremos los valores observados de
los estimadores mediante diagramas de cajas con big muesotes. Por brevedad, se ha considerado el diseno
tral SM S y los tamanos

muestrales n0 = 75 , n = 50
y m = 5, 10, 15, 20. La Figura B.30 nos da tal informa para los tres cuartiles. Tambien
en este estudio se
cion
comprueba que el estimador propuesto presenta el mejor
comportamiento, al obtenerse estimadores menos disper con el estimador estandar
sos en comparacion
y el estimador que omite las covarianzas.
Notamos que se han realizado otras simulaciones con
distintos tamanos
muestrales a los usados en los estudios anteriores. En todos los casos los resultados confirman el buen comportamiento del estimador propuesto
se ha observado que
frente a sus competidores. Tambien
del estimador propuesto es mejor
la ganancia en precision
muestral en la primera ocasion
a medida que el tamano

de la segunda ocasion.
aumenta con respecto al tamano

muestral en la primera
Por otro lado, cuando el tamano
es menor que el tamano
en la segunda, se obocasion
y esta ganantiene una menor ganancia en precision,
cia disminuye a medida que aumenta la diferencia en
tre tamanos
muestrales. Este resultado es logico
porque
con n, la primera muessi n0 es mayor en comparacion
y el estimador de
tra proporcionara mayor informacion,
basado en la muestra solapada presentara un
tipo razon
menor grado de error, por lo que es de esperar que el es en precision.
Con el fin
timador propuesto mejore tambien
informacion
sobre la estimacion
de cuande obtener mas
tiles en muestreo con dos ocasiones sucesivas y disenos

consultarse Rueda
muestrales arbitrarios, puede tambien
(2006b).
y Munoz
3.4.
Estimadores bajo el metodo

En este apartado se utiliza el metodo

de verosimilitud
de cuantiles. Para ello, usareemprica para la estimacion
mos el estimator de verosimilitud emprica para la funcion

definido en la Seccion
2.4.3. Tomando la
de distribucion
inversa de este estimador, podremos obtener estimadores
se utide cuantiles facilmente.

Estos estimadores tambien
para el analisis
lizaran
de algunas medidas de pobreza.
Bajo datos de la Encuesta Continua de Presupuestos
Familiares para el primer trimestre del ano

1997,
mostraremos como tanto el estimador propuesto para los
cuantiles como el metodo

bootstrap para la estimacion
de la varianza, exhiben un buen comportamiento en com con otros estimadores alternativos.
paracion
3.4.1.
Antecedentes
Asumiendo el metodo
de verosimilitud emprica, los
unicos
estimadores conocidos para cuantiles en la lite
modelo-calibrada, es
ratura se basan en la aproximacion
decir, se usan los estimadores modelo-calibrados para la
de distribucion
descritos en la Seccion
2.4.2. Sea
funcion
FbM CP E (t) uno de estos estimadores cuando se usa el
b HKy (). Notamos que FbM CP E (t) sera mas
punto t0 = Q
eficiente que FbHKy (t) para t en las cercanas de Qy ().
El cuantil Qy () puede estimarse mediante inversion

b M CP E () = Fb 1
directa de FbM CP E (t), esto es, Q
M CP E ()
para (0, 1). Puesto que FbM CP E (t) es una verdadera
de distribucion,
esta inversion
es computacionalfuncion
mente simple.
Notamos que tanto este estimador como su corres
usadas en la Secpondiente varianza asintotica
seran
3.4.5 para su comparacion
emprica con el esticion
mador propuesto bajo el metodo

de verosimilitud empri a continuacion
se resumen las princa. Por esta razon,
cipales propiedades asintoticas

de este estimador. Para
de poblaciones finiello, asumimos que hay una sucesion
tas {U , = 1, 2, . . .}. F (t) y Q () denotan respectiva U . Ademas,
sean
mente Fy (t) y Qy (), para la poblacion
muestrales siguientes:
los disenos
(i) Muestreo aleatorio simple con o sin reemplazamiento.
(ii) Muestreo estratificado aleatorio simple con o sin
reemplazamiento.
(iii) Muestreo con probabilidades desiguales de una etapa con reemplazamiento.
(iv) Muestreo de varias etapas con reemplazamiento en
la primera etapa.
con reemplazamienNotamos que en el caso de disenos
to se usa el estimador de tipo Hansen-Hurwitz (Hansen y
Hurwitz, 1943), esto es i = nqi , donde qi es la probabili
dad de seleccionar la i-esima
unidad.
de Bahadur para el cuantil
Una representacion
b M CP E () puede establecerse para estos disenos
muesQ
las condiciones (C2.20), (C2.21) y
trales. Sean tambien
2.4.2 junto a las siguientes:
(C2.22) dadas en la Seccion
5
65
de distribucion
F (t) diferen(C3.7). Existe una funcion
de densidad f (t), tal
ciable de orden 2 con funcion
que F (t) F (t) = o(1), y para cualquier a =
O(n1/2 )
sup |[F (t + ) F (t)] [F (t + ) F (t)]| =
||a
),
= o(n1/2
muestral n cuando .
donde el tamano
(C3.8). Para un valor fijo (0, 1), Q () Q0 (),
donde Q0 () es el cuantil de F (t) y f (Q0 ()) > 0.
El siguiente teorema puede establecerse.
Teorema 3.13 Bajo los disenos

muestrales (i)(iv) y las
condiciones (C2.20), (C2.21), (C2.22), (C3.7) y (C3.8), se
b M CP E () Qy () =
tiene que Q
1
FbM CP E (Qy ()) + op (n1/2 ),
=
f (Qy ())
densidad de la funcion
de disdonde f () es la funcion
lmite de Fy (t) cuando N .
tribucion
b M CP E ()
En consecuencia, la varianza asintotica

de Q
puede aproximarse por
b M CP E ()) '
V (Q
1
V (FbM CP E (Qy ())) =
f (Qy ())2
N
1 XX
1
Ui
Uj
(
+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j
donde Ui = (Q
y () yi ) Fy (Qy ()) (wi w )BN
1 P N
yw = N
i=1 wi . wi viene dada por (2.85), (2.87),
(2.90) o (2.93) cuando t0 = Qy ().
Esta varianza puede estimarse mediante
b M CP E ()) '
Vb (Q
1
b M CP E ())) =
V (FbM CP E (Q
f (Qy ())2
N
1 XX
1
ui
uj
(
+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j
b
donde
Pui = (QM CP E () yi ) (wi w)BN y w =
w
.
wi viene dada por (2.86), (2.88), (2.91) o
N 1 N
i
i=1
b HKy (). f (Qy ()) puede estimarse
(2.92) cuando t0 = Q
mediante procedimientos estandares

(Silverman, 1986).
b M CP E () sobre
La ganancia en eficiencia al usar Q
b
QHKy () es comparable a la ganancia de FbM CP E (t) so
wi = E (zi |xi ), la
bre FbHKy (t). Con la optima
eleccion
ganancia maxima
de la eficiencia asintotica
esta garanti
mueszada. As, este metodo
puede aplicarse en disenos
trales complejos y para un vector multivariante de variables auxiliares.
3.4.2.
a la estimacion
de
Aplicacion
lneas de pobreza
El analisis
de las lneas de pobreza es un tema re en la sociedad. La proporcion
oficiente y de gran interes
cial de pobreza y el numero
de personas en pobreza son
importantes medidas para el bienestar economico

de un
pas.
El analisis
de la estructura de los ingresos y la desigualdad de ingresos son los principales objetivos en los
estudios de pobreza. Esto se debe a que la desigualdad
de los ingresos puede afectar a la eficiencia del mercado
laboral, y a que esto conlleva a una serie de problemas
relacionados con la igualdad social, tal como la incidencia
social.
de la pobreza o la estratificacion
de una medida de pobreza requiere la
La aplicacion
de una lnea de pobreza, la cual separe
especificacion
en pobres y no pobres. En la literatura,
a la poblacion
existen distintas formas de especificar una lnea de po para la Cooperacion
breza. Por ejemplo, La Organizacion
Economica
y el Desarrollo (OECD, acronimo
de Organization for Economic Cooperation and Development) en el
1997, definio la lnea de bajos ingresos como dos terano
cios del salario mediano, de modo que un empleado se
consideraba que tena ingresos bajos si reciba un salario
inferior al anterior umbral senalado.

Sin embargo, Euro Europea
stat (2000) define que un empleado en la Union
percibe un salario bajo si su salario mensual es inferior al
60 % del salario mediano de su correspondiente pas.
Los empleados con bajos ingresos, en particular, ha
con alto interes
poltico
sido un centro de investigacion
(Lucifora y Salverda, 1998). Por un lado, a un nivel
macroeconomico,
los empleados con bajos ingresos es
claramente relevante para la igualdad social, como lo demuestran las razones con alta pobreza en los pases
donde los empleados con bajos ingresos es relativamente
alto (OECD, 1997). Por otro lado, desde una perspectiva
entre salarios bajos y

microeconomica,
existe una relacion
estado de pobreza de los hogares (OECD,1997, Eurostat,
2000).
En la literatura, existen tres tipos de metodos

para de
terminar las lneas de pobreza: los metodos
absolutos, re
lativos y los subjetivos. Los metodos
absolutos obtienen
la lnea de pobreza como una cantidad mnima de fuentes
en un punto del tiempo y ponen al da la lnea solamente
para cambios de precio sobre el tiempo. La lnea de pobreza usada por el estadstico oficial de pobreza de Estados Unidos es un ejemplo de lnea de pobreza absoluta.
El metodo
relativo especifica la lnea de pobreza como un
de ingresos o gastos y, por lo tanpunto en la distribucion
to, la lnea puede estar sin fecha automaticamente

sobre
el tiempo para cambios en niveles de vida. En la practica, los investigadores a menudo especifican la lnea de
pobreza relativa como un porcentaje del ingreso o gasto
medio (Wolfson y Evans, 1989, Johnson y Webb, 1992),
como un porcentaje del ingreso o gasto mediano (Smeeding, 1991, Eurostat, 2000) o simplemente como un cuantil
(OECD, 1982). El metodo

subjetivo deriva de la lnea de
publica.
pobreza basada en la opinion
Comparada con las
dos primeras aproximaciones, el metodo

subjetivo es relativamente menos popular y raramente se usa.
Mientras que las lneas de pobreza absolutas han sido usadas en la mayora de los estadsticos de pobreza de
los gobiernos, las lneas de pobreza relativas han ganado
recientemente en popularidad y uso tanto en las compara
ciones internacionales de pobreza como en analisis
na del tiempo. Preston (1995)
cionales de pobreza a traves
establecio las distribuciones muestrales de los estadsti-
66
cos de pobreza relativos.

La desigualdad entre salarios es requerida a menudo
de la riqueza. Tradien estudios de pobreza o distribucion
cionalmente, La oficina censal de Estados Unidos ha empleado un determinado numero
de percentiles lmite y ra
zones para estudiar cambios en la desigualdad de salarios
de inde los hogares. Entre ellos encontramos la razon
gresos para un determinado hogar entre el percentil 95 y
el percentil 20, el percentil 95 con respecto a la media basna, etc. Derivadas de estos percentiles son tambien
tantes usados en la literatura de ingresos. Algunos investigadores han propuesto otras medidas alternativas como
entre los percentiles 90 y 10 o la razon
entre los
la razon
empercentiles de orden 50 y 10. Eurostat (2000) tambien
plea el salario mediano con respecto al primer decil. Es de las desigualtos valores dan una idea de la extension
entre los perdades entre salarios. Por ejemplo, la razon
centiles de orden 50 y 10 nos permite ver si la incidencia de empleos con bajos ingresos esta fuertemente rela de salarios en la cola izquierda
cionada con la dispersion
En Binder y Kova
de la distribucion.
cevic (1995), Dickens
y Manning (2004) pueden consultarse otras medidas desigualdad de ingresos.
dada a este tipo de estadsticos en los
La atencion
y en los crculos de poltica es
medios de comunicacion
considerable, hasta el punto de que importantes decisiones polticas pueden verse influenciadas por estas medidas.
La caracterstica comun
de estas medidas es su com
plejidad. Estas
son funciones no lineales de las observa
ciones y un alto numero
de estas
dependen de cuantiles.
Como se ha comentado, la literatura relacionada a la es de medianas y otros cuantiles, los cuales usan
timacion
una variable auxiliar, es considerablemente menos exten
so que en el caso de medias y totales, y las tecnicas
ha
no tienen una
bituales, tal como el metodo
de regresion,
obvia a la estimacion
de cuantiles. Por tanto, la
extension
mayora de los estudios relacionados con cuantiles han
sido desarrollados asumiendo muestreo aleatorio simple
o muestreo estratificado (Gross, 1980, Sedransk y Meyer,
1978, Sedransk y Smith, 1988, Kuk y Mak, 1989, Singh et
al., 2001), o bien considerando aproximaciones basadas
en el modelo (Chambers y Dunstan, 1986, Dorfman y Hall,
1993, Mak y Kuk, 1993), las cuales asumen un modelo de
los estimadores son dependientes de disuperpoblacion,
cho modelos y puede llegarse a obtener un pobre cumplimiento de los estimadores bajo una inapropiada especi del modelo. En la practica,
ficacion
estas situaciones no
son usuales, especialmente para el caso de datos relacionados con ingresos o gastos, los cuales se analizan
asumiendo disenos
muestrales complejos con probabili exhiben una
dades desiguales y cuyos datos, ademas,
alta asimetra, lo que hace muy difcil asociar un mode a los datos en estudio. El uso de
lo de superpoblacion
estimadores de cuantiles eficientes basados en informa auxiliar y aproximaciones independientes del modelo,
cion
puede ayudarnos a obtener una mejora en la estimacion

de medidas de pobreza. Notamos que la mayora de los
estudios relacionados con medidas de pobreza han sido
llevados a cabo usando estimadores clasicos

de la literatura del muestreo en poblaciones finitas.
es desarrollar un estiEl proposito

de esta seccion
mador de cuantiles que pueda aplicarse a diferentes me

didas de pobreza. Para ello, usaremos la aproximacion
modelo-asistida y el metodo
para construir nuevos estimadores para un determina de cuando cuantil. En lo que respecta a la estimacion
tiles usando el metodo

de verosimilitud emprica (vease
3.4.1), Chen y Wu (2002) propusieron estila Seccion
madores modelo-calibrados (Wu y Sitter, 2001). Estos
estimadores requieren el uso de un modelo de super apropiado, y son por tanto dependientes de dipoblacion
estos estimadores se construyen
cho modelo. Ademas,
por medio de restricciones que requieren el uso de un
unico
valor fijado. Una importante perdida
de eficiencia
puede llegar a obtenerse cuando dicho valor fijado se encuentra alejado del cuantil que va a ser estimado.
El estimador propuesto usa de modo efectivo la in auxiliar en la etapa de estimacion
porque este
formacion
esta basado en tres valores fijados construidos a partir de
auxiliar. Estos valores se encuentran bien
la informacion
de datos, resolvienrepartidos dentro de la distribucion
do de este modo la perdida

de eficiencia provocada por
de un valor fijado situado a gran distancia de
la eleccion
cuantil que se va a estimar. Este estimador propuesto
de distribuesta basado en el estimador para la funcion
descrito en la Seccion
2.4.3.
cion
Debido a la naturaleza especfica de los cuantiles y
a la complejidad de algunas medidas de pobreza, las varianzas de estos estadsticos complejos no pueden expre
sarse por simples formulas. Mostraremos como la tecnica
de la
bootstrap es una posible alternativa en la estimacion
varianza del estimador propuesto.
3.4.3.
Estimadores
modelo-asistidos
propuestos
En este epgrafe se describe el estimador propuesto usando la metodologa de verosimilitud emprica. Como se ha comentado, usaremos una perspectiva modeloasistida debido a que esta proporciona un enfoque en el
cual se pueden desarrollar estimadores eficientemente.
Para ello, necesitaremos un modelo de superpoblacion

entre la variable de interes
y
que describa la relacion
las variables auxiliares. Este modelo sera posteriormente
usado para construir estimadores basados en el diseno.

Como resulta habitual, consideraremos el modelo re lineal dado por
gresion
yi = t xi + vi i ,
i = 1, . . . , N
(3.45)
conocida de xi y las cantidades i

donde vi es una funcion
son variables aleatorias independientes e identicamente

distribuidas con media 0 y varianza 2 . Notamos que en
la practica
los valores del vector son desconocidos,
aunque es sabido que este parametro

puede estimarse
eficientemente por mnimos cuadrados (vease

por ejem
plo Sarndal
et al., 1992) como
!1
X xi yi
X xi xti
.
(3.46)
B=
2
2
iU
iU
Este estimador es optimo

en el sentido de ser el mejor estimador lineal e insesgado para bajo el modelo (3.45). A
6
67
su vez, B es una caracterstica poblacional finita, aunque

puede estimarse usando los datos muestrales. Esta esti viene dada por
macion
!1
X di xi yi
X di xi xti
b
.
(3.47)
=
2
2
is
is
Como ya sabemos, el metodo

de verosimilitud empri
ca presenta buenas propiedades asintoticas
y empricas
de medias o totales
para el problema de la estimacion
(Chen y Qin, 1993, Chen y Sitter, 1999), funciones de dis (Chen y Wu, 2002), estimacion
en presencia de
tribucion
datos faltantes (Rueda, Munoz,

Berger, Arcos y Martnez,
2006, Leung y Qin, 2006), etc. Chen y Wu (2002) propusieron estimadores de verosimilitud emprica modelocalibrados que requieren el uso de un unico
valor prefi
de estos estimadores a la estimacion
jado. La aplicacion
de cuantiles resulta posible, aunque este proceso arras
tra una importante perdida
de eficiencia cuando dicho valor prefijado esta alejado de cuantil que va a ser estima
do. Con el proposito

de reducir esta perdida
en eficiencia,
se proponen estimadores modelo-asistidos para cuantiles
usando el metodo
de verosimilitud emprica y tres valores
a reducir tal perdida
prefijados que ayudaran

de eficiencia.
Asumiendo el metodo
de verosimilitud emprica (Chen
y Sitter, 1999), el estimador propuesto para el cuantil
esta dado por
b M A () = nf{t : FbM A (t) },
Q
donde
FbM A (t) =
X
is
pbi (t yi ),
(3.48)
(3.49)
y las cantidades pbi son las soluciones al problema de ma de la funcion

de verosimilitud pseudo emprica
ximizaciP
on
b
l(p) = is di log(pi ) sujeta a
X
pi = 1,
(pi > 0),
(3.50)
is
N
1 X
(tg25 gk ) = Fg (tg25 ) = 0,25,
N
is
k=1
(3.51)
N
X
X
1
pi (tg50 gi ) =
(tg50 gk ) = Fg (tg50 ) = 0,5,
N
is
k=1
(3.52)
N
X
1 X
pi (tg75 gi ) =
(tg75 gk ) = Fg (tg75 ) = 0,75,
N
is
k=1
(3.53)
donde tg25 = Qg (0,25), tg50 = Qg (0,50), tg75 = Qg (0,75),
y Qg () es el cuantil para la variable gi = bt xi .
Notamos que la idea de usar (t gi ) para cualquier
para formar restricciot como una variable de calibracion
nes como las dadas en (3.51), (3.52) y (3.53) fue en primer
lugar discutida en Wu y Sitter (2001) y posteriormente ela de
borada en Chen y Wu (2002). Por otro lado, la eleccion
los valores tg25 , tg50 y tg75 en (3.51), (3.52) y (3.53) ha
2.4.
sido discutida en la Seccion
Una vez que se ha definido el estimador de cuantiles,
las medidas de pobreza que dependan de tales parame ser estimadas. Por ejemplo, la lnea de bajos
tros podran
pi (tg25 gi ) =
de un cuaningresos puede definirse como la fraccion

til (Eurostat, 2000, Blackburn, 1990, 1994, Smeeding,
1991, etc.):
(3.54)
L, = Qy (),
y las medidas para cuantificar la desigualdad de ingresos
dadas por la razon
entre los cuantiles de ordenes
estan
1
y 2 (Eurostat, 2000, U.S. Census Bureau, etc):
r1 ,2 = Qy (1 )/Qy (2 ).
Estas medidas pueden estimarse facilmente

por
b , = Q
b M A (),
L
(3.56)
para la medida dada en (3.54), y por

b M A (1 )/Q
b M A (2 ),
rb1 ,2 = Q
(3.57)
para la medida dada en (3.55).
3.4.4.
de la
Propiedades. Estimacion
varianza
El estudio de las propiedades asintoticas

del estimador propuesto pasa por analizar tales propiedades para
el estimador FbM A (t), las cuales se han establecido en la
2.4.4. Queda por tanto describir una expresion
Seccion
para la varianza del estimador propuesto para cuantiles.
de tal expresion
es posible, aunque tenLa determinacion
dra unicamente
validez asintotica,
es decir, para tamanos
no siempre premuestrales bastantes elevados, situacion
sente en la practica.
Por otro lado, por la estructura no
lineal del cuantil, se requiere el uso de una aproximacion
lineal que emplea parametros

poblacionales, por ejemplo
tendran que ser estimados, lo
densidades, que tambien
que conlleva a otra perdida

de eficiencia en la etapa de
de la varianza.
estimacion
Si aplicamos el estimador propuesto a la estimacion

de dicha exde medidas de pobreza, la determinacion
asintotica
difcil,
presion
para la varianza resulta aun
mas
puesto que la caracterstica comun
de las medidas de
pobreza, como por ejemplo (3.54) y (3.55), es su complejidad. Este hecho puede comprobarse en Shao y Rao
(1993), Kova
cevik y Binder (1997), Kova
cevik y Yung
(1997), Zheng, 2001, y Berger y Skinner (2003). Ademas,

los datos de ingresos y gastos provienen usualmente de
encuestas complejas (muestreos con probabilidades desiguales de tipo estratificado, con multiple
etapas, por
dificulta la determiconglomerados, etc), lo que tambien

de expresiones asintoticas
nacion
bajo estas situaciones.
La unica
alternativa en estos casos es el uso de metodos
de varianzas.
especiales para la estimacion
Por estas razones, proponemos el uso de tecnicas

al de la varianza del estimador
ternativas para la estimacion
propuesto. En concreto, se propone la tecnica

bootstrap
de cuantiles,
que frecuentemente se usa en la estimacion
de las medidas de poy en particular, para la estimacion
breza. Este hecho queda justificado por los estudios ya
llevados a cabo y los cuales resumiremos brevemente a
Puesto que el estudio emprico que llevacontinuacion.
mos a cabo esta basado en algunas medidas de pobreza,
a la estimacion
de la variancentraremos nuestra atencion
za de medidas de pobreza.
68
(3.55)
En primer lugar, notamos que en los estudios de pobreza, la variabilidad muestral de las diferentes medidas
particular cuando estas
estimadas presentan un interes

del tiempo o entre
son comparadas entre pases, a traves
subgrupos dentro de un pas.
Los metodos
tradicionales para aproximar la varianza
de un estimador (vease
Wolter, 1985), envuelven una de
de Taylor o meto
las siguientes estrategias: linealizacion
tal como bootstrap, jackknife, etc. En
dos de replicacion
los casos donde los estimadores presentan una forma
compleja (como en el caso de cuantiles), los metodos

de
son preferidos por ser mas
faciles
replicacion
de imple
mentar, aunque para el caso de cuantiles, el clasico

metodo jackknife da estimadores inconsistentes para la varian pueden
za (Kovar et al., 1988, Shao y Wu, 1989). Tambien
de la varianza otros metodos
usarse para la estimacion

y tecnicas
alternativos tal como linealizacion

residuales
al aplicar el metodo
(Deville, 1999). Una complicacion

de
en la estimacion
de cuantiles es que este
linealizacion
re de funciones de densidad de probaquiere la estimacion
bilidad para la variable de interes.
ganando en populariLos metodos

bootstraps estan
dad en las investigaciones empricas. Por ejemplo, en el
Instituto Estadstico de Canada se llevo a cabo un estu para comparar la eficiencia de varios
dio de simulacion
metodos
de remuestreo con respecto al metodo
de es de ecuaciones (vease
timacion
Kovacevic, Yung y Pandher, 1995) en el caso de medidas de desigualdad de ingresos. Para algunos cuantiles, el estimador bootstrap exh
hiba el menor sesgo relativo, mientras que el metodo

de
de ecuaciones junto con el metodo
estimacion
bootstrap
eran los optimos

en el sentido de estabilidad. Estos resul
tados confirman la ventaja al usar el metodo
bootstrap so de las tecni
bre el resto de aproximaciones. La precision
de la varianza de cuantiles
cas bootstrap en la estimacion
diferencia
obtenidos mediante estimadores de tipo razon,
ha sido discutida en Rueda, Martnez-Miranda
y regresion
medidas de pobreza,
y Arcos (2006). Asumiendo tambien
demostraron la consistenShao y Chen (1998) tambien
de la variancia del metodo

za. En Bickel y Freedman (1984), Dalgleish (1995), etc,
pueden consultarse otros estudios del bootstrap y sus
propiedades en muestreo de poblaciones finitas.
3.4.5.
se evalua
del estiEn esta seccion
la precision
mador propuesto junto con otros estimadores conocidos.
se estudia la eficiencia de estos procedimientos
Ademas,
de cuantiles a diversas mecuando se aplica la estimacion
didas de pobreza. El comportamiento del metodo

boot de varianzas sera tambien
anastrap para la estimacion
lizado. Para ello, se calculan las estimaciones bootstrap
para los distintos estimadores y comparamos estos resul de las correspondientes
tados con los obtenidos a traves
expresiones para la varianza de cada estimador, en aquellos casos que se disponga de tales expresiones. Por simplicidad, se asume muestreo aleatorio simple.
y eficiencia basadas en cuantiles de ordenes
Tabla 3.12: Medidas globales medias de precision

=
n = 500.
0,1, 0,3, 0,5, 0,7, 0,9, y muestras de tamano
Est. ERM SRM

MA
0.86 0.25
MA1
0.89 0.23
MCPE 0.92 0.25
HK
1.00 0.26
r
1.04 0.23
d
1.05 0.25
dm
0.87 0.21
CD
3.58 12.44
Varianzas bootstrap
Varianzas asintoticas
ERM SRM CIM
LIM ERM SRM CIM
LIM
0.82 14.05 92.9 550.96
0.83 12.65 93.2 561.62
0.86 8.72 92.9 563.18 0.78 7.16 93.9 553.87

1.00 9.97 92.8 622.32 1.00 9.52 94.0 616.53
1.08 9.87 93.3 654.58 1.01 3.96 93.2 646.85
1.06 7.32 92.9 651.83 1.02 3.67 93.3 650.31
0.81 12.17 92.7 556.01 0.70 5.27 93.9 548.07
0.48 10.24 17.1 436.84
y eficiencia para la lnea de bajos ingresos cuando = 0,6, = 0,5 y se

Tabla 3.13: Medidas de precision
n = 500.
toman muestras de tamano
Est.
MA
MA1
MCPE
HK
r
d
dm
CD
ER
0.70
0.79
0.78
1.00
1.09
1.11
0.74
1.11
SR
-0.10
-0.08
-0.11
-0.24
-0.00
0.01
-0.07
2.23
Varianzas bootstrap
ER
SR
CI
LI
0.57 16.59 93.8 391.54
0.63 13.03 94.2 410.32
0.65 14.87 94.0 412.62
1.00 17.09 93.4 470.88
0.98 7.77 94.6 473.71
0.97 6.40 93.8 474.52
0.49 7.39 93.6 388.18
0.09 0.65 77.2 313.01
Varianzas asintoticas
ER
SR
CI
LI
0.53 15.81 94.8 423.94

1.00 18.41 94.2 482.73
0.81 6.97 93.8 481.26
0.87 7.45 93.8 486.03
0.37 8.17 94.8 398.41
69
ECPF1997 (vease
En este estudio se usa la poblacion
Apendice
A) que esta formada por los datos de ingresos y
gastos de 3000 familias extradas de la Encuesta Continua
1997. Estos datos se
de Presupuestos Familiares del ano
artifihan duplicado tres veces para crear una poblacion
cial de N = 9000 individuos, a partir de los cuales nos
basaremos para llevar a cabo el presente estudio de si Como variable principal se han tomado los inmulacion.
gresos, mientras que como variable auxiliar se consideran
los gastos familiares.
El cumplimiento del estimador de cuantiles propues de la varianza obtenito y su correspondiente estimacion
da mediante bootstrap se comparara con los estimadores
de cuantiles obtenidos a partir de las siguientes fun el clasico
ciones de distribucion:
estimador de tipo HorvitzThompson , FbHT y (t), el cual lo usaremos como esti para todos los estimadores, los esmador de comparacion
y diferencia (Fbr (t), Fbd (t), Fbdm (t))
timadores de tipo razon
propuestos en Rao et al. (1990), el estimador de Chambers y Dunstan (1986), FbCD (t), y FbM CP E (t), el estimador
calcularemos el
propuesto en Chen y Wu (2002). Ademas,
estimador modelo-asistido asumiendo un unico
valor pre
fijado. Esto nos permitira conocer la ganancia en precision

al usar mas de un valor prefijado.
Dado un cuantil de orden , el comportamiento de to
dos los estimadores de cuantiles y sus varianzas estan
medidos por medio del Sesgo Relativo, (SR) y Eficiencia
b y (),
Relativa (ER). As, para un determinado cuantil, Q
calcularemos
b y ()]
ER[Q
b y ()]
SR[Q
=
=
b y ()]/ECM [Q
b HT y ()],
ECM [Q
b
100 E[Qy ()] Qy () /Qy (),
(3.58)
b y ()), se obteny para un estimador de la varianza, Vb (Q
de sustituir
dra las medidas dadas por (3.58) despues
b y ()) y V [Qy ()] respectivamente.
b y () y Qy () por Vb (Q
Q
E[], ECM [] y V [] son las Esperanzas Empricas, Error
Cuadratico
Medio y Varianzas basadas en 500 muesb y ())]
b y ()] y ER[Vb (Q
tras. Notamos que valores de ER[Q
b
b
b
premenores de 1 indican que Qy () y V (Qy ()) son mas
b HT y () y Vb (Q
b HT y ()), respectivamente. Asucisos que Q
se ha obtenido la Cobertura
miendo normalidad, tambien
de los Intervalos de Confianza (CI) al 95 % y la Longitud
Media de cada Intervalo (LI). Todos los estudios se han
n = 500.
basado en muestras de tamano
de cada estimador depende
Notamos que la precision
directamente del cuantil que va a ser estimado. Por ejemplo, el estimador de Chambers y Dunstan es muy eficiente
de la mediana, aunque generalmente
en la estimacion
sufre de importantes sesgos en las estimaciones a medi alejados de la mediana
da que se estiman cuantiles mas
(vease
Rao et al., 1990, Chambers et al., 1993, y Dorfman,
1993). Por este motivo, el primer estudio desarrollado in media global de cada estimador
tenta medir la precision
a partir de los resultados obtenidos en las estimaciones
de los cuantiles de ordenes

= 0,1, 0,3, 0,5, 0,7, 0,9. Las
son el Sesgo
medidas usadas para realizar tal medicion
Relativo Medio (SRM ), dado por
1X
b y (i )]|,
|SR[Q
5 i=1
5
SRM =
la raz cuadrada del valor medio de las medidas ER, es

decir,
v
u
5
u1 X
b y (i )],
ER[Q
ERM = t
5 i=1
y por ultimo,
los valores medios para las medidas CI y LI.
como CIM y LIM respecDichas medidas se denotaran

tivamente. En la Tabla 3.12 puede observarse las distintas
medidas globales para todos los estimadores. A partir de
la eficiencia relativa media, podemos comprobar que el
estimador propuesto presenta el mejor comportamiento,
seguido del estimador de diferencia optimo

(dm). El estimador de Chambers y Dunstan es el menos eficiente,
y diferencia
mientras que los estimadores de tipo razon
funcionan peor que el estimador estandar.
tambien
En el
estudio de las varianzas observamos que las expresiones
asintoticas
funcionan ligeramente mejor que la tecnica
bootstrap, por lo que a tenor de los resultados sera acep de la
table recurrir a tal procedimiento para la estimacion
varianza. Por ultimo,
al estimar todas las varianzas de los
estimadores mediante bootstrap, se observa que el estimador propuesto presenta el mejor comportamiento, al
estimar los intervalos de confianza con menor longitud y
una cobertura similar al resto de estimadores.
es el analisis
El siguiente paso en esta seccion

de la
eficiencia del estimador propuesto cuando se aplica a la
de medidas de pobreza. En primer lugar analiestimacion
de las
zamos los resultados obtenidos para la estimacion
deslneas de bajos ingresos (Tabla 3.13) y a continuacion
importantes en la esticribiremos las conclusiones mas
de razones entre cuantiles para el analisis
macion
de la
desigualdad entre ingresos (Tablas 3.14 y 3.15).
En primer lugar, notamos que al tratarse de medidas
relativas, los resultados obtenidos para las lneas de bajos
los mismos si se usaran
ingresos en la Tabla 3.13 seran
otros valores de , o bien si se considera la propia mediana. Por tanto, las conclusiones que puedan extraerse
de esta tabla se podran hacer para estos casos comentados.
En la Tabla 3.13 observamos que el estimador pro eficiente en terminos
puesto es el mas
de eficiencia relativa. Todos los sesgos relativos se encuentran dentro
de un rango razonable, excepto el de Chambers y Dunstan con un valor superior al resto, en torno al 2.23 %.
Un aspecto importante a tener en cuenta en la estimacion

de la varianza es que las estimaciones bootstrap son, en
precisas que las obtenidas meterminos

generales, mas
diante las expresiones asintoticas,

puesto que se obtienen
reducidos, e intervapara cada estimador sesgos mas
los de confianza menos amplios con identicas

coberturas.
Este resultado nos confirma que la tecnica

bootstrap es
de la varianun procedimiento optimo

en la estimacion
de la vaza de la mediana, y en particular, la estimacion
rianza de las lneas de bajos ingresos. Observando las
estimaciones bootstrap podemos comprobar que el esti
mador diferencia optimo
y el estimador propuesto obtiene
las mejores estimaciones para la varianza.
Las Tablas 3.14 y 3.15 nos dan las distintas medidas
y eficiencia para medidas de pobreza dadas
de precision
por razones de cuantiles. De nuevo, el estimador propues eficiente en terminos
to se muestra mas
de eficiencia relativa. Conclusiones similares pueden derivarse de los re-
70
y eficiencia para la
de cuantiles cuando 1 = 0,5, 2 = 0,25, y se
razon
n = 500.
Est.
ER
SR
MA
0.93 0.05
MA1
1.04 0.14
MCPE 1.00 -0.01
HK
1.00 0.05
r
1.62 0.34
d
1.65 0.29
dm
0.90 0.06
CD
21.07 14.10
Varianzas bootstrap
ER
SR
CI
LI
0.92 18.18 93.6 0.18
1.07 17.75 95.2 0.19
1.01 14.68 93.8 0.19
1.00 15.91 95.2 0.19
2.53 14.78 94.4 0.24
2.16 11.45 94.2 0.23
0.80 15.69 93.8 0.18
0.05 23.43 0.0 0.08
de la vasultados obtenidos en la etapa de la estimacion

rianza mediante bootstrap. El estimador de Chambers y
Dunstan ofrece el peor comportamiento con importantes
de las razones. Esto
sobreestimaciones en la estimacion
estimando cuantiles alejados de
se debe a que se estan
la mediana.
y eficiencia para la
de cuantiles cuando 1 = 0,95, 2 = 0,2, y se
razon
n = 500.
Est.
ER
SR
MA
0.93 0.56
MA1 14.66 1.70
MCPE 1.02 0.61
HK
1.00 0.27
r
1.40 0.95
d
1.38 0.72
dm
1.03 0.61
CD
46.52 43.58
Varianzas bootstrap
ER
SR
CI
LI
1.01 -0.70 91.4 0.92
-82.28 91.4 1.06
1.07 -3.21 91.6 0.96
1.00 -3.04 91.4 0.95
2.15
0.30 92.6 1.14
2.01 -3.69 91.4 1.11
1.12 -6.12 90.8 0.95
2.4 1.33
71
4. Discusin
conjunta de
En este captulo se hace una discusion
los resultados obtenidos en todos los captulos anteriores,
resumiendo las principales conclusiones.
No es dependiente de un modelo de superpoblacion

como le ocurre por ejemplo a los estimadores
basados en modelos o a los estimadores modelocalibrados.
Conclusiones y valoracion
de resultados
Se establecen las condiciones para la existencia del

estimador.
4.1.
El presente trabajo se divide en dos grandes blo bajo el metodo
ques: estimacion
de cuantiles (Captulo 3). En
(Captulo 2) y la estimacion
estos dos captulos se han planteado nuevos estimadores
en situaciones reales del muestreo en poblaciones finitas.
As, asumiendo el metodo

se han propuesto estimadores en presencia de datos
muy usual en la practica
faltantes, situacion
y que no
se tiene en cuenta en la mayora de las investigaciones
por muestreo. Las aportaciones hechas en este sentido
de este problema,
dan una alternativa para la solucion
puesto que se ha comprobado que puede existir una importante ganancia en eficiencia en las estimaciones de los
parametros
desconocidos.
En concreto, se ha usado el metodo

de verosimilitud
emprica para estimar una media poblacional cuando en la
faltante tanto
encuesta nos encontramos con informacion
en la variable de estudio como en la variable auxiliar. Se
ha asumido que la muestra puede ser seleccionada me muestral arbitrario, con probabilidades
diante un diseno
iguales o desiguales.
El estimador propuesto se basa en una clase de
estimadores formada por un estimador de verosimilitud
emprica y por un estimador de tipo Hajek.

Se han deriva
do las propiedades asintoticas
de estos estimadores y el
estimador optimo
dentro de la clase propuesta en el sen
tido de minimizar la varianza asintotica.
El estimador propuesto se ha comparado con otros es donde se ha comtimadores en un estudio de simulacion,
probado que el estimador optimo

presenta el mejor comportamiento con respecto a sus competidores. La mayor
ganancia en eficiencia se presenta cuando el numero
de
livalores perdidos es relativamente elevado y la relacion
neal entre la variable principal y la auxiliar es debil.
Asumiendo el metodo
de verosimilitud emprica tam se han propuesto estimadores modelo-asistidos para
bien
de distribucion.
El estimador propuesto posee
la funcion
un importante numero
de propiedades deseables. Por
ejemplo:
Puede aplicarse facilmente

a disenos
muestrales
con probabilidades desiguales.
Bajo ciertas condiciones, el estimador es una ver de distribucion.

Notamos que esta
dadera funcion
propiedad no se satisface para un gran numero
de
estimadores en la literatura.
otras propiedades imporSe satisfacen tambien
tantes como la insesgadez asintotica,

normalidad
asintotica,
disponibilidad de un estimador de la varianza, etc.
del estimador propuesto se ha comparaLa precision
do mediante varias medidas con otros estimadores conocidos. Estos estudios han mostrado un comportamiento
optimo
por parte del estimador propuesto modelo-asistido.
se ha visto que el estimador de Chambers y DunTambien
stan puede llegar a ser muy eficiente cuando el modelo
en el que se basa es apropiado, aunque como se discutio en Rao et al. (1990), Chambers et al. (1993) y Dorfman
(1993), este estimador cumple pobremente cuando se
del modelo. Un comentario
tiene una mala especificacion
similar puede hacerse sobre el estimador de verosimilitud
sufre
emprica modelo-calibrado. Este estimador tambien
una importante perdida

de eficiencia cuando se considera
un valor fijado alejado del punto donde va a ser estimada
de distribucion.
la funcion
Otra propiedad importante que caracteriza al estimador propuesto es el uso eficiente que se hace de la
auxiliar: por un lado porque pueden usarse
informacion
y
multiples
variables auxiliares en la etapa de estimacion,
por otro porque se usan un conjunto de valores prefijados

y ayudan a mejorar
que poseen una buena distribucion
de la funcion
de distribucion,
especialmente
la estimacion
en las proximidades de algunos de estos puntos. Recor que el hecho de considerar tg y x como
damos tambien
valores fijados hacen que los pesos pbi sean independientes de t y puedan establecerse mejores propiedades para
el estimador propuesto.
el metodo
En conclusion,
practica
modelo-asistido es una aproximacion

y simple
auxiliar en la estique incorpora facilmente

informacion
de la funcion
de distribucion.
Este estimador premacion
senta un buen cumplimiento y puede ser una alternativa
de distribucion.
valida
a otros estimadores de la funcion
de cuantiles se ha llevado
El estudio de la estimacion
a cabo en el Captulo 3. Los aportes a la teora de la es de cuantiles se han centrado en tres aspectos:
timacion
6
73
en muestreo bifasico,
en muestreo
estimacion
estimacion
usando el cocon dos ocasiones sucesivas y estimacion
mentado metodo
La mayora de los procedimientos de muestreo que
auxiliar se basan en estimadores que reusan informacion
quieren el uso de variables conocidas a nivel poblacional,
siendo este hecho poco frecuente en la practica.

Una solu a este problema se presenta con la aplicacion
de un
cion
muestreo bifasico.
Por tanto, el problema de la estimacion
auxiliar queda rede cuantiles basados en informacion
suelto con los estimadores propuestos en este sentido.
precisas
Con el fin de obtener unas estimaciones mas
en poblaciones heterogeneas,
con una posible distribu en grupos homogeneos,
se han propuesto
cion
tambien
estimadores para cuantiles en muestreo bifasico

y usando un muestreo estratificado en la muestra de la primera
fase.
Asumiendo muestreo bifasico

bajo cualquier metodo
de unidades en cada una de las dos fade extraccion
y exses, se han propuesto estimadores de tipo razon
ponencial. Se ha demostrado la insesgadez de estos estimadores y se han proporcionado expresiones para sus
varianzas. Estos resultados nos han servido para poder
obtener un estimador optimo

en el estimador de tipo exponencial. Bajo distintos esquemas de muestreo y varios
se ha comprobado que los estiestudios de simulacion,
madores propuestos pueden obtener estimaciones mas

precisas que el resto de estimadores existentes en la literatura.
Los estimadores propuestos en muestreo bifasico,

cuando se usa un muestreo estratificado en la primera
basados en un estimador eficiente para
fase, estan
de distribucion.
la funcion
Se han establecido varias
de dispropiedades para este estimador de la funcion
por lo que el estimador propuesto para cuantribucion,
tiles posee mejores propiedades. Los resultados teoricos

y empricos que se han llevado a cabo han demostrado
que el estimador propuesto puede proporcionar resulta
dos optimos
en este esquema de muestreo.
El muestreo en ocasiones sucesivas es una tecnica

muy conocida que puede usarse en encuestas continuas
para estimar parametros

poblacionales y medidas de dife Las encuestas
rencia o cambio de una variable de interes.
de tipo economico
o social llevadas a cabo por la agencias nacionales y otros organismos estadsticos usan este
muestral, y la estimacion
de cuantiles es un prodiseno
blema comun
en la mayora de estos estudios. Dentro
del muestreo en dos ocasiones sucesivas se han planteado estimadores desde dos perspectivas bastantes usadas
dentro del muestreo en poblaciones finitas: asumiendo
multiples
variables auxiliares y bajo disenos
muestrales
probabilsticos con probabilidades desiguales.

Asumiendo multiples
variables auxiliares y muestreo
aleatorio simple en cada una de las dos ocasiones, se ha

propuesto una clase de estimadores para cuantiles basa multivariante y consdos en un estimador de tipo razon
obtenida en la parte solatruido a partir de la informacion
pada. Bajo la clase propuesta se ha obtenido la expre del estimador optimo
sion
en el sentido de mnima va
rianza asintotica.
El estimador propuesto posee un buen
numero
de propiedades deseables, tal como normalidad
asintotica,
disponibilidad de la varianza del estimador,
etc. En los estudios emprisimplicidad de computacion,
cos y teoricos
que se han llevado a cabo, el estimador se
preciso que otros estimadores conocidos.
muestra mas
muestrales con proPor otro lado, asumiendo disenos
se ha propuesto
babilidades desiguales en cada ocasion
un estimador compuesto por un estimador de tipo razon

solapada por ambas muestras) y otro de
(en la porcion
tipo Hajek
(en la parte no solapada de la muestra mas
de computar y
reciente). El estimador propuesto es facil
se ha mostrado bastante preciso en los estudios de si Asumiendo muestreo aleatorio simple en cada
mulacion.
una de las dos ocasiones, se ha obtenido la normalidad
asintotica
del estimador, la cual nos sirve, por ejemplo,
para construir intervalos de confianza para los cuantiles.
Por ultimo,
se han propuesto estimadores para cuan
tiles desde una perspectiva modelo-asistida y consideran
de
do el metodo
de verosimilitud emprica. La aplicacion
de algunas medidas de
estos estimadores a la estimacion
ha sido analizada. Se ha propuesto usar
pobreza tambien
de la varianza de
la tecnica
de todos estos
los estimadores propuestos. La precision
procedimientos nuevos ha sido confirmada en estudios de
y para el problema de la estimacion
de cuansimulacion
tiles y medidas de pobreza usadas por numerosos organismos de estadstica internacionales y de varios pases.
74
5. Bibliografa
[1] Adhvaryu, D. (1978) Successive sampling using

multi-auxiliary information. Sankhya 40, 167-173.
[2] Aitchison, J. y Silvey, S.D. (1958) Maximumlikelihood estimation of parameter subject to restraints. Annals of Mathematical Statistics 29, 813888.
[3] Allen, J., Singh, H.P., Singh, S. y Smarandache,
F. (2002) A general class of estimators of population median using two auxiliary variables in double
sampling. INTERSTAT.
[4] Arcos, A., Rueda, M. y Martnez-Miranda, M.D.
(2005) Using multiparametric auxiliary information
at the estimation stage. Statistical Papers 46, 339
358.
[5]
Arcos, A., Rueda, M. y Munoz,

J.F.(2006) An
improved class of estimators of a finite population
quantile in sample surveys. Applied Mathematics
Letters. En prensa.
[6] Arnab, R. y Okafor, F.C. (1992) A note on double

sampling over two occasions. Pakistan Journal of
Statistics 8, 9-18.
Rodrguez, E.M. y Garca Luengo A.V.
[7] Artes
(2002) Disenos
muestrales en el tiempo. Monografas, Universidad de Almera.
[8] Bahadur, R.R (1966) A note on quantiles in large
samples. Annals of Mathematical Statistics 37, 577580.
[9] Basu, D. (1971) Foundations of statistical inference.
A Symposium, eds. V.P. Godambe and D. A. Sprott,
Toronto: Holt Rinehart and Winston.
[10] Berger, Y.G. (2004) Variance estimation for measures of change in probability sampling. The Canadian Journal of Statistics 32, 451-467.
[11]
Berger, Y.G., Munoz,

J.F. y Rancourt, E. (2006)
Variance estimation of regression estimators when
control total are estimated: an application to the
composite estimator. Survey Methodology. Aceptado bajo revision.
[12] Berger, Y.G. y Skinner, C.J. (2003) Variance estimation for a low income proportion. Journal of the
Royal Statistical Society, Series C 52, 457-468.
[13] Bickel, P.J. y Freedman, D.A. (1984) Asymptotic
normality and the bootstrap in stratified sampling.
The Annals of Statistics 12, 470-482.
1 Bibliografa
correspondiente al doctorando.
1 Bibliografa correspondiente al doctorando.
[14] Binder, D.A. y Kova

cevic (1995) Estimating some
measures of income inequality from survey data:
an application of the estimating equation approach.
Survey Methodology 21, 137-145.
[15] Blackburn, M. (1990) Trends in poverty in the United States, 1967-84. Review of Income and Wealth
36, 53-66.
[16] Blackburn, M. (1994) International comparisons of
poverty. American Economic Review 84, 371-374.
[17] Brewer, K.R.W. (1999) Cosmetic calibration with
unequal probability sampling. Survey Methodology
25, 205-212.
[18] Brewer, K.R.W., Early, L.J. y Joyce, S.F. (1972)
Selecting several samples from a single population.
Australian Journal of Statistics 14, 231-239.
[19] Casell, C.M., Sarndal,

C.E. y Wretman, J.H.
(1976) Some results on generalized difference estimation and generalized regression estimation for
finite populations. Biometrika 63, 615-620.
[20] Casell, C.M., Sarndal,

C.E. y Wretman, J.H.
(1977) Foundations of Inference in Survey Sampling. New York: Wiley.
[21] Chambers, R.L., Dorfman, A.H. y Hall, P. (1992)
Properties of estimator of the finite population distribution function. Biometrika 79, 577-582.
[22] Chambers, R.L., Dorfman, A.H. y Wehrly, T.E.
(1993) Bias robust estimation in finite population using nonparametric calibration. Journal of the American Statistical Association 88, 268-277.
[23] Chambers, R.L. y Dunstan, R. (1986) Estimating
distribution functions from survey data. Biometrika
73, 597-604.
[24] Chaudhuri, A. y Vos, J.W.E. (1988) Unified theory and strategies of survey sampling. North-Holland,
Amsterdam.
[25] Chen, H. y Chen, J. (2000) Bahadur representations of the empirical likelihood quantile processes.
Journal of Nonparametric Statistics 12, 645-660.
[26] Chen, J. y Qin, J. (1993) Empirical likelihood estimation for finite populations and the effective usage
of auxiliary information. Biometrika 80, 107-116.
[27] Chen, J., Rao, J.N.K. y Sitter, R.R. (2000) Efficient
random imputation for missing data in complex surveys. Statistica Sinica 10, 1153-1169.
[28] Chen, J. y Sitter, R.R. (1999) A pseudo empirical
likelihood approach to the effective use of auxiliary
information in complex surveys. Statistica Sinica 9,
385-406.
75
[29] Chen, J., Sitter, R.R. y Wu, C. (2002) Using empirical likelihood methods to obtain range restricted weights in regression estimators for surveys.
Biometrika 89, 230-237.
[30] Chen, J. y Wu, C. (2002) Estimation of distribution
function and quantiles using the model-calibrated
pseudo empirical likelihood method. Statistica Sinica 12, 1223-1239.
[47] Godambe, V.P. y Thompson, M.E. (1973) Estimation in sampling theory with exchangeable prior distributions. The Annals of Statistics 1, 1212-1221.
[31] Cochran, W.G. (1977) Sampling Techniques. 3rd

ed. New York: Wiley
[48] Godambe, V.P. y Thompson, M.E. (1986) Parameters of superpopulation and survey population: Their
relationships and estimation. International Statistical Review 54, 127-138.
[32] Cramer, H. (1946) Mathematical methods of statistics. Princenton University Press. Princeton.
[49] Gordon, L. (1983) Successive sampling in finite

populations. The Annals of Statistics 11, 702-706.
[33] Dalgleish, L. I. (1995) Software review: Bootstrapping and jackknifing with BOJA. Statistics and Computing 5, 165-174.
[50] Gross, S.T. (1980) Median estimation in sample

survey. Proc. Surv. Res. Meth. Sect. Amer. Statist.
Ass. 181-184.
[34] Deng, L.Y. y Wu, C.F.J. (1987) Estimation of variance of the regression estimator. Journal of the
American Statistical Association 82, 568-576.
[51] Hajek,
J. (1964) Asymptotic theory of rejective sampling with varying probabilities from a finite population. Annals of Mathematical Statistics 35, 14911523.
[35] Deville, J.C. (1999) Variance estimation for complex statistics and estimators: linearization and
residual techniques. Survey Methodology 25, 193203.
[36] Deville, J.C. y Sarndal,

C.E. (1992) Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376-382.
[37] Dickens, R. y Manning, A. (2004) Has the national
minimum wage reduced UK wage inequality?. Journal of the Royal Statistical Society, Series A 167,
613-626.
[38] Dorfman, A.H. (1993). A comparison of designbased and model-based estimators of the finite population distribution function. The Australian Journal
of Statistics 35, 29-41.
[39] Dorfman, A.H. y Hall, P. (1993) Estimators of the
finite population distribution function using nonparametric regression. The Annals of Statistics 21 (3),
1452-1475.
[40] Eckler, A.R. (1955) Rotation Sampling. The Annals
of Mathematical Statistics 26 664-685.
[41] Efron, B. y Tibshirani, R.J. (1993) An introduction
to the Bootstrap. Chapman & Hall, London.
[42] Eurostat. (2000) Low-wage employees in EU countries. Statistics in Focus: Population and Social Conditions. Theme 3 11/2000. Office for Official Publications of the EC, Luxemburgo.
[43] Fernandez
Garca, F.R. y Mayor Gallego, J.A.
(1994) Muestreo en Poblaciones Finitas: Curso
Basico.
P.P.U., Barcelona.
[44] Fernandez
Sanchez,
M.P., Hernandez
Bastida, A.
y Sanchez
Gonzalez,
C. (2004) Analisis
de los
ingresos y gastos trimestrales de los hogares es
panoles
usando verosimilitud emprica. Estudios de
Economa Aplicada 22, 139-150.
[45] Francisco, C.A. y Fuller, W.A. (1991) Quantiles estimation with a complex survey design. The Annals
76
[46] Godambe, V.P. (1955) A unified theory of sampling

from finite populations. Journal of the Royal Statistical Society, Series B 17, 269-278.
[52] Hall, P. (1990) Pseudo-likelihood theory for empirical likelihood. The Annals of Statistics 18, 121-140.
[53] Hall, P. y La Scala, B. (1990) Methodology and algorithms of empirical likelihood. International Statistical Review 58, 109-127.
[54] Hansen, M.H. y Hurwitz, W.N. (1943) On the theory
of sampling from finite populations. Annals of Mathematical Statistics 14, 333-362.
[55] Hanurav, T.V. (1966) Some aspects of unified sampling theory. Sankhya, Series A 28, 175-204.
[56] Hartley, H.O. y Rao, J.N.K. (1968) A new estimation theory for sample surveys. Biometrika 55, 547557.
[57] Hedayat, A.S. y Sinha, B.K. (1991) Design and Inference in Finite Population Sampling. John Wiley
and Sons.
[58] Hill, B.M. (1968) Posterior distribution of percentiles: Bayes theorem for sampling from a population. Journal of the American Statistical Association
63, 677-691.
[59] Horvitz, D.G. y Thompson, D.J. (1952) A generalization of sampling without replacement from a finite
universe. Journal of the American Statistical Association 47, 663-685.
[60] Huang, E.T. y Fuller,W.A. (1978) Nonnegative regression estimation for sample survey data. In Proc.
Social Statistics Sec., Am. Statist. Assoc., 300-305
Washington, D.C: American Statistical Association.
[61] Instituo Nacional de Estadstica. (1992) Encuesta
Continua de Presupuestos Familiares. Metodologa.
Instituto Nacional de Estadstica. Madrid.
[62] Isaki, C.T. y Fuller, W.A. (1982) Survey design under the regression superpopulation model. Journal
of the American Statistical Association 77, 89-96.
[63] Jagers, P. (1986) Post-stratification against bias in
sampling. International Statistical Review 54, 159167.
[64] Jessen, R.J. (1942) Statistical investigation of a

sample survey for obtaining farm facts. Iowa Agricultural Experiment Statistical Research Bulletin, 304.
[65] Jonhson, P. y Webb, S. (1992) Official statistics on
poverty in the United Kingdom. Poverty measurement for economies in transition in eastern european countries. Polish Statistical Association and
Polish Central Statistica Office, Warsaw. Journal of
Economics Perspectives 15, 143-156.
[79] Lombarda, M. J., Gonzalez-Manteiga

W., y
Prada-Sanchez,
J.M. (2004) Bootstrapping the
Dorfman-Hall-Chambers-Dunstan estimator of a finite population distribution function. Journal of Nonparametric Statistics 16, 63-90.
[80] Lucifora, C. y Salverda, W. (1998) Policies for low
wage employment and social exclusion. Ed. FrancoAngeli.
[66] Koenker, R. y Hallock, K.F. (2001) Quantile regression. Journal of Economics Perspectives 15, 143156.
[81] Mak, T.K. y Kuk, A.Y.C. (1993) A new method for

estimating finitepopulation quantiles using auxiliary information. The Canadian Journal of Statistics
25, 29-38.
[67] Kova
cevik, M.S. y Binder, D. A. (1997) Variance
estimation for measures of income inequality and
polarization - The estimating equations approach.
Journal of Official Statistics 13, 41-58.
[82] Martnez-Miranda, M.D., Rueda, M., Arcos, A.,
Roman,
Y. y Gonzalez,
S. (2005) Quantile estimation under successive sampling. Computational
Statistics 20, 385-399.
[68] Kova
cevik, M.S. y Yung, W. (1997) Variance estimation for measures of income inequality and polarization - an empirical study. Survey Methodology
23, 41-52.
[83] Midzuno, H. (1952) On the sampling system with

probability proportional to sum of sizes. Annals of
Institute of Statistical Mathematics 3, 99-107.
[69] Kova
cevik, M.S., Yung, W. y Pandher (1995) Estimating the sampling variances of measures of
income inequality and polarization - an empirical
study. Statistic Canada, Methodology Branch Working Paper, HSMD-95-007E.
[70] Kovar, J.G., Rao, J.N.K. y Wu, C.F.J. (1988) Bootstrap and other methods to measure errors in survey estimates. The Canadian Journal of Statistics
16, 25-45.
[71] Kuk, A.Y.C. (1993) A kernel method for estimating
finite population distribution functions using auxiliary
information. Biometrika 80, 385-392.
[72] Kuk, A.Y.C. y Mak, T.K. (1989) Median estimation
in the presence of auxiliary information. Journal of
the Royal Statistical Society, Series B 51, 261-269.
[73] Kuk, A.Y.C. y Mak, T.K. (1994) A functional approach to estimating finite population distribution
functions. Theory Meth. 23 (3), 883-896.
[74] Kuo, L. (1988) Classical and Prediction Approaches to Estimating Distribution Functions from Survey Data. Proceeding of the Section on Survey Researh Methods. American Statistical Association,
280-285.
[75] Lahiri, D.B. (1951) A method of sample selection
providing unbiased ratio estimates. Bulletin of the
International Statistical Institute 33, 133-140.
[76] Leung, D.H.Y. y Qin, J. (2006) Analysing survey
data with incomplete responses by using a method
based on empirical likelihood. Journal of the Royal
Statistical Society, Series C 55, 379-396.
[77] Little, R.J.A. y Rubin, D.B. (1987) Statistical analysis with missing data. John Wiley, New York.
[78] Lombarda, M. J., Gonzalez-Manteiga,

W. y
Prada-Sanchez,
J.M. (2003) Bootstrapping the
Chambers-Dunstan estimate of a finite population
distribution function. Journal of Statistical Planning
and Inference 116, 367-388.
[84] Molina, C.E.A. y Skinner, C.J. (1992) Pseudolikelihood and Quasi-likelihood estimation for complex sampling schemes. Computational Statistics
and Data Analysis 13, 395-405.
[85] Mukhopadhyay, P. (2000) Topics in Survey Sampling Springer.
[86] Murthy, M.N. (1967) Sampling theory and method.
Calcutta: Statistical Publishing Society.
[87] Narain, R.D. (1953) On the recurrence formula in
sampling on successive occasions. Journal of the
Indian Society of Agricultural Statistics 5, 96-99.
[88] OECD (1982) The OECD list of social indicators,
Paris.
[89] OECD (1997) Labour market policies: new challenges policies for low-paid workers and unskilled
job seekers. OECD Working Papers. vol 5, no 86 .
[90] Ogus, J.K. y Clark, D.F. (1971) The annual survey
of manufacturers: A report on methodology. Technical Report No. 2, U.S. Bureau of Census, Washington D.C.
[91] Olkin, I. (1958) Multivariate ratio estimation for finite
population. Biometrika 45, 154-165.
[92] Owen, A.B. (1988) Empirical likelihood ratio confidence intervals for a single functional. Biometrika
75, 237-249.
[93] Owen, A.B. (1990) Empirical likelihood confidence
regions. The Annals of Statistics 18, 90-120.
[94] Owen, A.B. (1991) Empirical likelihood for linear
models. The Annals of Statistics 19, 1725-1747.
[95] Owen, A.B. (2001) Empirical likelihood. Chapman y
Hall/CRC.
[96] Patterson, H.D. (1950) Sampling on successive occasions with partial replacement of units. Journal of
the Royal Statistical Society, Series B 12, 241-255.
[97] Perez,
R.A. (2002) Que es un modelo de super
poblacion?.
Metodologa de Encuestas 4 (1), 79-86.
77
[98] Polyak, B.T. (1987) Introduction to Optimization.

New York: Optimization Software, Inc. Publications
Division.
[115] Rueda, M., Arcos, A. y Martnez-Miranda, M.D.

(2003) Difference estimators of quantiles in finite
populations. Test 12, 481-496.
[99] Prasad, N.G.N. y Thach, T. (2001) Variance estimation under two-phase sampling. Working paper,
Department of Mathematical Sciences, University of
Alberta.
[116] Rueda, M., Arcos, A., Martnez-Miranda, M.D. y

Y. (2004) Some improved estimators of fiRoman,
nite population quantile using auxiliary information
in sample surveys. Computational Statistics and Data Analysis 45, 825-848.
[100] Preston, I. (1995) Sampling distributions of relative

poverty statistics. Journal of the Royal Statistical Society, Series C 44, 91-99.
[101] Qin, J. y Lawless, J.F. (1994) Empirical likelihood
and general estimating equations. The Annals of
Statistics 22, 300-325.
[102] Qin, J. y Lawless, J.F. (1995) Estimating equations,
empirical likelihood and constraints on parameters.
The Canadian Journal of Statistics 23, 145.
[103] Randles, R.H. (1982) On the asymptotic normality
of statistics with estimated parameters. The Annals
[104] Rao, J.N.K. (1966) Alternative estimators in PPS
sampling for multiple characteristics. Sankhya Series A 28, 47-60.
[105] Rao, J.N.K. (1994) Estimating totals and distribution
functions using auxiliary information at the estimation stage. Journal of Official Statistics 10, 153-165.
[106] Rao, J.N.K., Kovar, J.G. y Mantel, H.J. (1990) On
estimating distribution functions and quantiles from
survey data using auxiliary information. Biometrika
77, 365-375.
[107] Rao, C.R. y Toutenburg, H. (1995) Linear Models: Least Squares and Alternatives. Springer, New
York.
[108] Royall, R.M. y Cumberland, W.G. (1981) An empirical study of the ratio estimator and estimator of
its variance. Journal of the American Statistical Association 76, 66-88.
[117]
[111] Rueda, M. y Arcos, A. (2002a) The use of quantiles

of auxiliary variables to estimate medians. Biometrical Journal 44 (5), 619-632.
por in[112] Rueda, M. y Arcos, A. (2002b). Estimacion
y
tervalos de la mediana con estimadores de razon
diferencia. Estudios de Economa Aplicada 20, 241260.
E. (1997) Improve[113] Rueda, M., Arcos, A. y Artes,
ment on Estimating Quantiles in Finite Population
Using Indirect Methods of Estimation. Lecture Notes
in Computer Science 1280, 491-500.
E. (1998) Quantile
[114] Rueda, M., Arcos, A. y Artes,
Interval Estimation in Finite Population using a Multivariate Ratio Estimator. Metrika 47, 203-213.
Rueda, M., Arcos, A., Munoz,

J.F. y Singh,
S.(2006) Quantile estimation in two-phase sampling. Computational Statistics and Data Analysis.
En prensa.
[118] Rueda, M. y Gonzalez,

S. (2004) Missing data
and auxiliary information in surveys. Computational Statistic 19, 551-567.
[119] Rueda, M., Martnez-Miranda, M.D., Arcos, A.
(2006) Bootstrap confidence intervals for finite population quantiles in the presence of auxilairy information. Model Assisted Statistic and Aplications En
prensa.
1
[120]
del
Rueda, M. y Munoz,
J.F. (2005) Una revision
metodo
de verosimilitud emprica en las encuestas
Operacional 26, 225por muestreo. Investigacion
237.
[121]
Rueda, M. y Munoz,
J.F.(2006a) A modelassisted estimator for the distribution function using
the pseudo empirical likelihood method. Statistics
and Computing. En revision
[122]
Rueda, M. y Munoz,
J.F. (2006b) Estimating
quantiles under sampling in two occasions with
unequal probabilities. Computational Statistics and
Data Analysis. Aceptado bajo revision.
[123]
[124]
Rueda, M. y Munoz,
J.F. (2006d) Model-assisted
estimation of quantiles using empirical likelihood.
Applications to different poverty measures. Journal
of the Royal Statistical Society, Series C. En re
vision.
[125]
Rueda, M., Munoz,

J.F., y Arcos, A. (2006) Estimating quantiles under sampling on two occasions
with P auxiliary variables. Quality and Quantity. En
prensa.
[126]
Rueda, M., Munoz,

J.F., Berger, Y.G., Arcos, A.
y Martnez, S. (2006) Pseudo empirical likelihood
method in the presence of missing data. Metrika. En
prensa.
[109] Rubin, D.B. (1987) Multiple imputation for nonresponse in sample surveys. Wiley, New York.
[110] Rueda, M. y Arcos, A. (2001) On estimating the
median from survey data using multiple auxiliary information. Metrika 4, 161-173.
Rueda, M. y Munoz,
J.F. (2006c) Estimating
quantiles under twophase sampling for stratifica
tion. Statistics and Probability Letters. En revision.
[127] Ruspini, E. (1999) Longitudinal research and the

analysis of social change. Quality and Quantity 33,
219-227.
a los
[128] Sanchez-Crespo,
G. (2002) Introduccion
modelos de superpoblacion
en las tecnicas
de muestreo con probabilidades desiguales.
Metodologa de Encuestas 4 (1), 87-104.
1 Bibliografa
1 Bibliografa
78

[129] Sarndal,
C.E. (1980) On -inverse weighting versus best linear weighting in probability sampling.
[130] Sarndal,
C.E. (1990) Methods for estimating the
precision of survey estimates when imputation has
been used. Proceedings of Symposium 1990: Measurement and improvement of data quality, Ottawa,
337-347.
[131] Sarndal,
C.E. (1992) Methods for estimating the
precision of survey estimates when imputation has
been used. Survey Methodology 18, 241-252.
[132] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1989) The weighted technique for estimating the
variance of the general regression estimator of the
finite population total. Biometrika 76, 527-537.
[133] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1992) Model Assisted Survey Sampling. SpringerVerlag, New York
[134] Sedransk, J. y Meyer, J. (1978) Confidence Intervals for the quantiles of a finite populations: simple random and stratified simple random sampling.
Journal of the Royal Statistical Society, Series B 40,
No2, 239-252.
[135] Sedransk, J. y Smith, P.J. (1988) Inference for finite population quantiles. In: Krishnaiah, P.R. and
Rao, C. R. (eds.) Handbook of Statistics 6, Cap11,
267-289. North-Holland.
[136] Sen, A.R. (1972) Successive sampling with p (p
1) auxiliary variables. The Annals of Mathematical
Statistics 43 (6), 2031-2034.
[137] Sen, A.R. (1973) Some theory of sampling on successive occasions. The Australian Journal of Statistics 15 (2), 105-110.
[138] Sen, A. R., Sellers, S. y Smith, G.E.J. (1975) The
use of a ratio estimate in successive sampling. Biometrics 31, 673-683.
[139] Shao, J. (1994) L-statistics in complex survey problems. The Annals of Statistics 22, 946-967.
[146] Silverman, B.W. (1986) Density estimation for

statistics and data analysis. Chapman and Hall.
[147] Singh, S. (2003) Advanced sampling theory with
applications: How Michael Selected Amy., Kluwer
Academic Publishers, The Netherlands.
[148] Singh, S., Joarder, A.H. y Tracy, D.S. (2001) Median estimation using double sampling. Australian and
New Zealand Journal of Statistics 43, 33-46.
[149] Singh, H.P., Singh, H.P. y Singh, V.P. (1992) A
generalized efficient class of estimators of population mean in two phase and successive sampling.
Inter. J. Mgmt. Syst. 8 (2), 173-183.
[150] Singh, S. y Srivastrava, A.K. (1973) Use of auxiliary information in two stage successive sampling.
Journal of Indian Society of Agricultural Statistic 25,
101-104.
[151] Sitter, R.R y Wu, C. (2002) Efficient estimation of
quadratic finite population functions in the presence
of auxiliary information. Journal of the American
Statistical Association 97, 535-543.
[152] Smeeding, T.M. (1991) Cross-national comparisons of inequality and poverty position. In: Osberg,
L. (Ed.), Economic Inequality and Poverty: International Perspectives, M.E. Sharpe, Inc., Armonk.
[153] Solga, H. (2001) Longitudinal surveys and the study
of occupational mobility: Panel and retrospective design in comparison. Quality and Quantity 35, 291309.
[154] Swamy, P.A.V.B., Tavlas, G.S. y Chang, I.L. (2005)
How stable are monetary police rules: estimating
the time-varying coefficient in monetary policy reaction function for the U.S. Computational Statistics
and Data Analysis 49, 575-590.
[155] Theberge,
A. (1999) Extensions of calibration estimators in survey sampling. Journal of the American
Statistical Association 94, 635-644.
[140] Shao, J. y Chen, Y. (1998) Bootstrapping sample

quantiles based on complex survery data under hot
deck imputation. Statistica Sinica 8, 1071-1085.
[156] Toutenburg, H. y Srivastava, V.K. (1998) Estimation of ratio of population means in survey sampling
when some observations are missing. Metrika 48,
177-187.
[141] Shao, J. y Rao, J.N.K. (1993) Standard errors for

low income proportions estimated from stratified
multi-stage samples. Sankhya Series B 55, 393414.
[157] Toutenburg, H. y Srivastava, V.K. (1999) Amputation versus imputation of missing values through
ratio method in sample surveys. Unpublished document.
[142] Shao, J. y Tu, D. (1995) The Jackknife and Bootstrap. Springer-Verlag, New York.
[158] Toutenburg, H. y Srivastava, V.K. (2000) Efficient

estimation of population mean using incomplete survey data on study and auxiliary characteristic. Unpublished document.
[143] Shao, J. y Wu, C.F.J. (1989) A general theory for

jackknife variance estimation. The Annals of Statistics 17, 1176-1197.
[144] Shao, J. y Wu, C.F.J. (1992) Asymptotic properties of the balanced repeated replication method for
sample quantiles. The Annals of Statistics 20, 15711593.
[145] Silva, P.L.D. y Skinner, C.J. (1995) Estimating distribution functions with auxiliary information using
poststratification. Journal of Official Statistics 11 (3),
277-294.
[159] Tracy, D.S. y Osahan, S.S. (1994) Random nonresponse on study variable versus on study as well as
auxiliary variables. Statistica 54, 163-168.
[160] Valliant, R., Dorfman, A.H. y Royall, R.M. (2000)
Finite population sampling and inference: A prediction approach. Wiley Series in Probability and
Statistics, Survey Methodology Section. New York.
John Wiley and Sons, Inc.
7
79
[161] Wang, S. y Dorfman, A.H. (1996) A new estimator for the finite population distribution function.
[170] Wu, C. (2005) Algorithms and R Codes for the

Pseudo Empirical Likelihood Method in Survey
Sampling. Survey Methodology, 31, 239-243.
[162] Wolfson, M. y Evans, J.M. (1989) Statistics Canadas low income cut-offs: metodological concerns
and possibilities - a discussion paper. Research Paper Series, Statistical Canada, Ottawa. distribution
function. Biometrika 83, 639-652.
[171] Wu, C. y Luan, Y . (2003) Optimal calibration estimators under two-phase sampling. Journal of Official Statistics 19, 119-131.
[163] Wolter, K.M. (1985) Introduction to Variance Estimation. Springer-Verlag.
[172] Wu, C. y Sitter, R.R. (2001) A model-calibration approach to using complete auxiliary information from
survey data. Journal of the American Statistical Association 96, 185-193.
[164] Woodruff, R.S. (1952) Confidence intervals for medians and other position measures. Journal of the
American Statistical Association 47, 635-646.
[173] Zheng, B. (2001) Statistical inference for poverty measures with relative poverty lines. Journal of
Econometrics 101, 337-356.
[165] Wu, C. (2002) Empirical likelihood method for finite

populations. Recent Advances in Statistical Methods, Y.P. Chaubey, Ed., Imperial College Press, London, 339-351.
[174] Zhong, C.X.B., Chen, J. y Rao, J.N.K. (2000) Empirical likelihood inference in the presence of measurement error. The Canadian Journal of Statistics
28, 841.
[166] Wu, C. (2003) Optimal calibration estimators in survey sampling. Biometrika 90, 937-951.
[175] Zhong, C.X.B. y Rao, J.N.K. (1996) Empirical likelihood inference for finite populations with auxiliary
information using stratified random sampling. Proceeding of the Section on Survey Research Methods, Am. Statist. Assoc., 793-803. Washington, DC:
American Statistical Association.
[167] Wu, C. (2004a) Weighted empirical likelihood inference. Statistics and Probability Letters 66/1, 67-79.
[168] Wu, C. (2004b) Some algorithmic aspects of the
empirical likelihood method in survey sampling. Statistica Sinica 14, 1057-1067.
[169] Wu, C. (2004c) Combining information from multiple
surveys through empirical likelihood method. The
Canadian Journal of Statistics 32, 15-26.
80
[176] Zhong, C.X.B. y Rao, J.N.K. (2000) Empirical likelihood inference under stratified random sampling using auxiliary information. Biometrika 87, 929-938.
A. Descripcin de poblaciones finitas
En este apendice
se detallan las distintas poblaciones
que han sido usadas en este trabajo con objeto de estudiar el comportamiento de los estimadores propuestos y
con respecto a otros estimadores existentes
su precision
en las literatura. Notamos que las poblaciones basadas en
datos reales han sido utilizadas por otros autores en dife siendo estas poblaciones
rentes estudios de simulacion,
apropiadas para el estudio del comportamiento de estimadores en muestreo de poblaciones finitas. Las poblaciones que han sido simuladas siguen los modelos propuestos por otros autores, o bien, se han simulado de
de muestras
manera que pueda ser posible la extraccion
complejos que han sido

en los disenos
muestrales mas
tratados en este trabajo. De esta forma, se dispone de
de
una estructura de datos apropiada para la obtencion
tanto los estimadores propuestos como del resto de estimadores existentes en la literatura.
A.1.
Poblaciones naturales
A.1.1.
Fam1500
ftp://ftp.wiley.com/public/sci tech med/finite populations
Ademas,
un breve resumen descriptivo de estas
poblaciones puede consultarse en las Tablas A.2 y A.3.
entre
La Figura B.32 nos da los diagramas de dispersion
las distintas variables de estas poblaciones. Puede obser livarse que estas poblaciones exhiben una mejor relacion
Fam1500, lo que
neal entre las variables que la poblacion
nos ha permitido comprobar en los distintos estudios el
en funcion
de una mayor
grado de ganancia en precision
lineal entre la variable principal y las auo menor relacion
xiliares.
A.1.3.
consta de N = 1500 familias de AnEsta poblacion
daluca y fue usada por primera vez por Fernandez

y Mayor (1994). Numerosos estudios posteriores (por ejemplo,
Rueda et al., 2006a, 2006b, Rueda y Gonzalez,

2004,
en sus estudios de sietc.) han usado esta poblacion
La caracterstica de interes,
y, son los gastos
mulacion.
mientras que las variables auxiliares x1
de alimentacion,
y x2 son, respectivamente, los ingresos familiares y otros
adigastos. En la Tabla A.1 puede consultarse informacion
Fam1500, miencional sobre las variables de la poblacion
tras que la Figura B.31 muestra los diagramas de disper correspondientes a dichas variables.
sion
A.1.2.
304 ciudades de Carolina del Norte, Carolina del Sur y

1970,
Georgia con menos de 100000 hogares en el ano
excluyendo los barrios de grupos de residentes y por las
variables auxiliares x1 y x2 , que coinciden con las varia anterior.
bles x e y, respectivamente, de la poblacion
pueden descargarse de:
Los datos de esta poblacion
Hospitals
es una muestra nacional de hospitales

Esta poblacion
fue consideraen Estados Unidos. Esta muestra tambien
en los estudios llevados a cabo
da como una poblacion
por Royall y Cumberland (1981) y Valliant et al. (2000). El
poblacional es de N = 393 hospitales de corta estamano
tancia con menos de 1000 camas, la variable de interes,

y, es el numero
de pacientes dados de alta, mientras que
la variable auxiliar es el numero

de camas que dispone el
hospital.
El resumen descriptivo de las variables de esta
puede consultarse en la Tabla A.4. El diagrama
poblacion
dado por la Figura B.33 nos permite prode dispersion
fundizar en la estructura que presentan los datos de las
Hospitals.
variables de la poblacion
Counties
Las poblaciones Counties60 y Counties70 son poblaciones habitualmente usadas en muestreo de poblaciones
finitas. Fueron usadas por primera vez en Royall y Cumberland (1981). Posteriormente, se ha usado en numerosos trabajos, como por ejemplo en Valliant et al.
Counties60 consta de N = 304 ciu(2000). La poblacion
dades de Carolina del Norte, Carolina del Sur y Georgia
1960. La vacon menos de 100000 hogares en el ano
de cada ciudad, excluyendo los
riable y es la poblacion
barrios de grupos de residentes. Como variable auxiliar,
x, se tiene el numero
de hogares en 1960.
Counties70 esta formada

Por otro lado, la poblacion
y que denota la poblacion
de
por la variable de interes
7
81

Fam1500
Tabla A.1: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
Min
5045
30052
2116
Q1
7358
36660
3515
Me
8136
40200
4001
Media
8181.94
40283.96
4044.40
Q3
8941
43700
4538
Max
11795
55379
6990
Cv
0.14
0.12
0.19
yx
0.848
0.546
Counties60
Tabla A.2: Analisis
V.
y
x
Min
1876
482
Q1
9787
2502
Me
18330
4886
Media
32916
8931
Q3
38690
10410
Max
266623
76887
Cv
1.24
1.30
yx
0.998
Counties70
Tabla A.3: Analisis
V.
y
x1
x2
Min
1924
482
1876
Q1
9613
2502
9787
Me
19080
4886
18330
Media
36984
8931
32916
Q3
42560
10410
38690
Max
409644
76887
266623
Cv
1.38
1.30
1.24
yx
0.982
0.982
Hospitals
Tabla A.4: Analisis
V.
y
x
82
Min
14
1
Q1
311
102
Me
713
233
Media
814.65
274.70
Q3
1186
393
Max
2844
986
Cv
0.72
0.78
yx
0.911
A.1.4.
Murthy
Murthy es apropiada para observar el

La poblacion
de un modelo de superefecto de una mala especificacion
en los estimadores, y poder proporcionar, por
poblacion
de la robustez de tales estimadores.
tanto, una indicacion
consta de 80 fabricas
Esta poblacion
donde la variable de
y, es la produccion,
y como variable auxiliar, x, se
interes,
ha considerado el numero
de trabajadores. Esta poblacion
se uso previamente en Murthy (1967), Kuk y Mak (1989) y

Kuk y Mak (1994).
En la Figura B.34 puede comprobarse que una
hipotesis
de linealidad no sera valida
para las variables de
Un estudio mas
exhaustivo sobre las caesta poblacion.
Murthy puede
ractersticas de las variables de la poblacion
obtenerse a partir de la Tabla A.5.
A.1.5.
Turismos
se ha obtenido a partir del numero

Esta poblacion
de
2002 y 2003 por el Instituto

turismos recogidos en los anos
de Estadstica de Andaluca en los distintos municipios de
Andaluca. Estos datos pueden descargarse en la pagina

web del Instituto de Estadstica de Andaluca:
El correspondiente analisis
descriptivo de las variables
esta dado por la Tabla A.7. Observamos
de esta poblacion
lineal entre
que en este caso no existe una fuerte relacion
la variable principal y la auxiliar. Este hecho es frecuente
entre datos correspondientes a variables tales como ingresos o gastos, donde la alta presencia de valores extremos
de algunas medihabitualmente dificulta la interpretacion
das como la media.
En cualquier caso, el objetivo al usar esta poblacion

es comprobar el comportamiento real de distintos estimadores en situaciones donde no pueda aceptarse una
lineal entre las variables. En la Figura B.36
fuerte relacion
se muestra el correspondiente diagrama de dispersion.
A.2.
Poblaciones simuladas
A.2.1.
Pop06, Pop07, Pop08 y Pop09
Paralelamente a Wu y Sitter (2001), se han generado cuatro poblaciones de N = 2000 unidades median
te muestras independientes e identicamente
distribuidas
mediante el modelo
y = 0 + 1 x + ,
http:\\www.juntadeandalucia.es\institutodeestadistica
Turismos esta formada por el
Por tanto, La poblacion
numero
de turismos en N = 770 municipios de Andaluca.
La variable principal, y, es el numero

de turismos por mu
2003. Se dispone de cuatro variables aunicipio en el ano
de
xiliares: x1 , x2 , x3 y x4 que corresponden al numero

2002 con capacidad cilndrica de clase
turismos en el ano
1, 2, 3 y 4, respectivamente.
es comEl objetivo que tiene el uso de esta poblacion
probar la ganancia en eficiencia de las estimaciones cuando se aumenta de manera paulatina el numero
de varia
bles auxiliares.
En el analisis
descriptivo de la Tabla A.6 se muestran
importantes de las variables de la
las caractersticas mas
Turismos. En estas variables destaca la presenpoblacion
cia de una alta asimetra y una importante variabilidad en
los datos, como reflejan los correspondientes coeficientes
Los diagramas de dispersion
asociados a esde variacion.
disponibles en la Figura B.35.
tas variables estan
A.1.6.
ECPF1997
natural que se ha considerado

La ultima
poblacion
en este trabajo se corresponde con los datos muestrales

1997 de la Enprocedentes del primer trimestre del ano
cuesta Continua de Presupuestos Familiares (ECP F ).
Vease
Instituto Nacional de Estadstica (1992) para una
ha
consulta detallada de la metodologa. Esta poblacion
analizada en Fernandez
sido tambien
et al. (2004).
Notamos que el objetivo de esta encuesta es proporcionar estimaciones acerca de los gastos de consumo y
de los ingresos para el conjunto nacional, segun
varias va La poblacion
consta de N = 3000
riables de clasificacion.
hogares espanoles,
donde se ha considerado que la va y, son los ingresos totales trimestrales
riable de interes,
por hogar (en euros), mientras que los gastos trimestrales
por hogar (en euros) sera la variable auxiliar.
(A.1)
donde x Gamma(1, 1), N (0, 2 ) y 0 = 1 = 1. Estas poblaciones se han generado escogiendo diferentes
valores de 2 , de modo que los coeficientes de correlacion

dados por 0.6, 0.7, 0.8 y 0.9. Las poblaentre y y x estan
ciones se han llamado Pop06, Pop07, Pop08 y Pop09, respectivamente. La Figura B.37 muestra los diagramas de
de estas poblaciones, mientras que los distindispersion
dados por las Tablas A.8,
tos estudios descriptivos estan
A.9 ,A.10 y A.11.
A.2.2.
Pob098 y Pob080
Por ultimo,
se han generado dos poblaciones (Pob098
N = 1000 mediante el modelo

y Pob080) de tamano
yi = 0 + 1 x1i + 2 x2i + i ,
(A.2)
donde 0 = 1 = 2 = 1 y las variables x1i y x2i se
han generado de distribuciones Gamma con parametros

de forma y escala dados por 4 y 1, respectvamente.
Las cantidades i son variables aleatorias independien
Normal
tes e identicamente
distribuidas con distribucion
de parametros
0 y 2 . El valor de 2 se ha selecciona entre yi e
do de modo que el coeficiente de correlacion
ybi = 0 + 1 x1i + 2 x2i es 0.98 para la primera poblacion

(Pob080). Los
(Pob098) y 0.80 para la segunda poblacion
dados por
analisis
descriptivos de estas poblaciones estan
las Tablas A.12 y A.13, mientras que los diagramas de dis los encontramos en las Figuras B.38 y B.39.
persion
7
83

Murthy
Tabla A.5: Analisis
V.
y
x1
Min
1176
51
Me
5105
148
Q1
3727.0
86.5
Media
5183.0
285.1
Q3
6754.0
445.3
Max
9250
1095
Cv
0.35
0.94
yx
0.915
Turismos
Tabla A.6: Analisis
V.
y
x1
x2
x3
x4
Min
11
5
4
1
0
Q1
343.3
73.0
101.0
123.0
22.0
Me
894.0
176.5
263.0
338.0
61.0
Media
3967.8
810.2
1313.7
1373.1
295.9
Q3
2483.5
464.0
749.3
957.5
174.8
Max
308738
61176
111977
102710
24023
Cv
4.23
4.41
4.55
4.04
4.26
yx
0.994
0.998
0.998
0.961
ECPF1997
Tabla A.7: Analisis
V.
y
x
Min
240.4
107.6
Q1
2745
2609
Me
4037
3845
Media
4660
4527
Q3
5842
5654
Max
61320
27730
Cv
0.67
0.66
yx
0.594
Pop06
Tabla A.8: Analisis
V.
y
x
Min
-2.4588
0.0008
Q1
0.87
0.27
Me
1.93
0.66
Media
1.98
0.96
Q3
2.96
1.32
Max
9.33
8.10
Cv
0.81
1.03
yx
0.6
Pop07
Tabla A.9: Analisis
V.
y
x
Min
-2.349
0.001
Q1
1.02
0.30
Me
1.88
0.70
Media
2.00
0.99
Q3
2.86
1.36
Max
10.03
8.22
Cv
0.71
0.98
yx
0.7
Pop08
Tabla A.10: Analisis
V.
y
x
Min
-2.243
0.001
Q1
1.15
0.25
Me
1.81
0.67
Media
1.99
0.98
Q3
2.63
1.34
Max
8.54
7.36
Cv
0.64
1.04
yx
0.8
Pop09
V.
y
x
84
Min
-0.374
0.002
Q1
1.23
0.29
Me
1.73
0.67
Media
1.96
0.98
Q3
2.43
1.33
Max
11.80
10.51
Cv
0.57
1.02
yx
0.9

Pob098
V.
y
x1
x2
yb
Min
-0.207
0.003
0.081
1.615
Q1
5.07
0.90
1.80
4.97
Me
7.33
2.26
3.17
7.23
Media
7.99
3.08
3.85
7.93
Q3
9.97
4.37
5.34
10.03
Max
25.65
22.32
17.55
25.08
Cv
0.52
0.96
0.72
0.51
yx
0.71
0.67
0.98
Pob080
V.
y
x1
x2
yb
Min
-0.097
0.480
0.417
3.316
Q1
6.61
2.46
2.54
6.88
Me
8.69
3.67
3.59
8.65
Media
8.89
3.98
3.89
8.87
Q3
11.00
5.15
5.00
10.47
Max
19.98
11.86
12.20
20.84
Cv
0.37
0.50
0.48
0.30
yx
0.60
0.53
0.80
85
B. Representaciones grficas
AB
e
Figura B.1: Eficiencia Relativa para los estimadores y A

P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti y y T 3 (Toutenburg 3). Se toman muestras de tamano
n = 200.
mo), y Reg (Regresion)
p=10
Pop06
p=80
p=45
1.4
1.8
1.2
1.6
3.0
2.5
1.4
1.0
2.0
1.2
0.8
0.6
1.0
1.5
0.8
1.0
0.5
10
45
80
1.4
10
45
80
1.8
1.4
1.0
10
45
80
10
45
80
10
45
80
10
45
80
1.2
Pop07
1.0
0.8
0.6
0.6
10
45
80
10
45
80
1.2
5
2.0
1.0
Pop08
0.8
1.5
0.6
1.0
0.4
0.5
0.2
10
45
80
10
45
80
6
1.2
2.0
1.5
1.0
Pop09
0.8
0.6
1.0
0.4
0.5
2
1
0.2
0.0
10
45
80
10
45
80
q
Pemle 1
Pemle 12
Alpha optimo
Regresion
Toutenburg 3
AB
e

P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti y y T 3 (Toutenburg 3). Se considera la poblacion
Fam1500 y muestras de tamano
mo), y Reg (Regresion)

n = 150.
p=10
Variable usada
p=40
1.0
3.0
0.8
x1
p=70
0.6
2.5
2.0
1.5
3
1.0
0.4
0.5
0.2
10
x2
30
50
70
30
50
70
3.5
10.5
2.2
3.0
8.5
2.5
1.8
10
30
10
30
50
70
50
70
6.5
2.0
1.4
4.5
1.5
1.0
1.0
0.6
0.5
10
30
50
q
Pemle 1
Pemle 12
Alpha optimo
88
10
2.6
70
2.5
0.5
10
30
50
70
Regresion
Toutenburg 3
AB
e

P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti
mo), y Reg (Regresion) y y T 3 (Toutenburg 3). Se considera la poblacion Hospitals y muestras de tamano
n = 100.
p=30
p=10
p=50
1.0
1.8
0.8
1.4
0.6
1.0
0.4
0.6
2
1
0.2
0.2
10
20
30
40
0
10
20
30
10
40
Pemle 1
Pemle 12
Alpha optimo
20
30
40
q
Regresion
Toutenburg 3
AB
e
Figura B.4: Sesgo Relativo para los estimadores y A

P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha optimo),
AC
y y T 3 (Toutenburg 3). Se toman muestras de tamano

n = 200.
yw (estandar),
y Reg (Regresion)
p=10
0.050
Pop06
p=80
p=45
0.045
0.065
0.10
0.060
0.09
0.055
0.08
0.050
0.07
0.045
0.06
0.040
0.035
0.05
0.040
10
45
80
10
45
80
10
45
80
10
45
80
10
45
80
10
45
80
0.060
0.042
Pop07
0.09
0.055
0.08
0.050
0.038
0.07
0.045
0.034
0.06
0.040
0.05
0.035
0.030
0.04
0.030
10
45
80
10
45
80
0.040
Pop08
0.09
0.05
0.035
0.030
0.04
0.025
0.03
0.07
0.05
0.03
0.020
0.02
10
Pop09
45
80
10
0.035
0.055
0.030
0.045
0.025
0.035
0.020
0.025
0.015
45
80
0.08
0.06
0.04
0.02
0.015
10
45
q
Pemle 1
Pemle 12
Alpha optimo
80
10
45
80
Estimador estandar
Regresion
Toutenburg 3
89
AB
e

AC
y y T 3 (Toutenburg 3). Se considera la poblacion

Fam1500 y muestras de
yw (estandar),
y Reg (Regresion)
n = 150.
tamano
p=10
Variable usada
p=40
0.009
0.035
0.015
0.008
x1
p=70
0.013
0.025
0.011
0.007
0.009
0.015
0.006
0.007
0.005
0.005
10
30
50
70
0.014
0.005
10
30
50
70
0.016
0.012
30
10
30
50
70
50
70
0.04
0.018
x2
10
0.03
0.014
0.010
0.02
0.012
0.010
0.008
0.01
0.008
10
30
50
70
10
q
Pemle 1
Pemle 12
Alpha optimo
30
50
70
Estimador estandar
Regresion
Toutenburg 3
AB
e

AC
y y T 3 (Toutenburg 3). Se considera la poblacion

Hospitals y muestras de
yw (estandar),
y Reg (Regresion)
n = 100.
tamano
p=30
p=10
p=50
0.08
0.05
0.16
0.07
0.12
0.06
0.04
0.05
0.03
0.08
0.04
0.04
0.03
0.02
10
20
Pemle 1
Pemle 12
Alpha optimo
90
30
40
10
20
30
40
10
20
30
40
Estimador estandar
Regresion
Toutenburg 3
Figura B.7: Eficiencia Relativa de distintos estimadores en las poblaciones Pob098 y Pob080.
Pob080
Pob098
0.9
1.0
0.8
t=QY (0.25)
ER
0.7
0.9
0.6
0.8
0.5
0.4
0.7
0.3
50
100
150
200
250
300
0.9
50
100
150
200
250
300
50
100
150
200
250
300
50
100
150
200
250
300
1.1
0.8
0.9
t=Q Y (0.50)
ER
0.7
0.6
0.7
0.5
0.4
0.5
0.3
0.3
0.2
50
100
150
200
250
300
0.9
0.8
0.8
0.7
ER
0.6
t=Q Y (0.75)
0.7
0.5
0.4
0.6
0.3
0.2
0.1
0.5
50
100
150
200
250
300
n
MA1
MC
Razon
Diferencia
CD
RKM
MA
91
Murthy.
Figura B.8: Eficiencia Relativa de distintos estimadores en la poblacion
t=Q Y (0.25)
t=Q Y (0.5)
0.7
0.9
0.6
0.7
ER
ER
0.5
0.5
0.4
0.3
0.3
0.2
0.1
0.1
40
45
50
55
60
40
45
50
55
60
n
t=Q Y (0.75)
0.7
0.6
MA1
MC
Razon
Diferencia
CD
RKM
MA
0.5
ER
0.4
0.3
0.2
0.1
0.0
40
45
50
55
60
92
Figura B.10: Eficiencia Relativa Media de distintos estimadores en las poblaciones Pob098, Pob080 y
Murthy.
Pob080
Pob098
1.0
1.1
ERM
0.9
0.9
0.8
0.7
0.8
0.6
50
100
150
200
250
50
300
100
150
200
250
300
Murthy
0.9
MA1
MC
Razon
Diferencia
RKM
MA
0.8
ERM
ERM
1.0
0.7
0.6
40
45
50
55
60
93
Figura B.11: Diagramas de cajas con bigotes de las Desviaciones Absolutas Medias de distintos estimadores en las poblaciones Pob098 (con n = 100), Pob080 (con n = 100) y Murthy (con n = 50).
Pob080
0.25
0.25
0.20
0.20
0.15
0.15
DAM
DAM
Pob098
0.10
0.10
0.05
0.05
0.00
0.00
1
3 4 5 6
Estimadores
3 4 5 6 7
Estimadores
Murthy
1 = Estandar
2 = MA1
3 = MC
4 = Razon
5 = Diferencia
6 = CD
7 = RKM
8 = MA
DAM
0.15
0.10
0.05
0.00
1
3 4 5 6 7
Estimadores
Fam1500 y bajo el diseno

muestral M as.M idzuno. n0 =
Figura B.12: Eficiencia Relativa para la poblacion
150.
=0.25
1.0
1.0
0.9
0.9
0.9
0.8
0.8
0.7
0.6
0.6
0.6
0.5
0
25
50
75
100
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
25
50
75
100
25
50
75
100
25
50
75
100
1.8
1.6
1.6
1.4
ER
1.4
1.2
1.2
1.0
1.0
0.8
0
25
50
75
Estimador 1
Estimador 2
Estimador 3
94
0.8
0.7
0.7
(**)
=0.75
1.0
ER
(*)
=0.5
100
0.8
0
25
50
75
100
(*) x1 se usa como variable auxiliar y x2 para asignar probabilidades.

(**) x2 se usa como variable auxiliar y x1 para asignar probabilidades.
Fam1500 y bajo el diseno

muestral M as.P oisson. n0 =
150.
=0.25
=0.5
=0.75
0.55
(*)
ER
0.50
0.45
0.40
0
25
50
75
0.55
0.55
0.50
0.50
0.45
0.45
0.40
0.40
100
25
50
75
100
1.4
1.4
1.2
1.2
1.0
1.0
0.8
0.8
0.6
0.6
25
50
75
50
75
100
1.4
ER
(**)
1.2
1.0
0.8
0
25
50
75
100
Estimador 1
Estimador 2
Estimador 3
25
50
75
100
25
100

Counties y bajo el diseno

muestral M as.M idzuno. n0 =
150.
=0.25
0.6
0.5
0.5
0.4
0.4
ER
(*)
=0.5
0.3
0.2
0.1
0
50
75
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0.6
0.5
0.5
0.4
0.4
0.6
0.3
100
ER
(**)
25
=0.75
25
50
75
100
0.2
0.1
0
25
50
75
Estimador 1
Estimador 2
Estimador 3
100
25
50
75
100
25
50
75
100
0.6
0.5
0.4
0.3
0.3
0.3
0.2
0.2
0.1
0.1
25
50
75
100

95
Counties y bajo el diseno

muestral M as.P oisson. n0 =
150.
=0.25
=0.5
=0.75
0.02
0.12
0.02
ER
0.08
(*)
0.01
0.01
0.00
0.00
0
25
50
75
0.00
100
0.015
0.015
0.010
0.010
25
50
75
100
25
50
75
100
25
50
75
100
0.10
0.08
0.06
ER
(**)
0.04
0.005
0.005
0.000
0.000
0.04
0.02
25
50
75
100
Estimador 1
Estimador 2
Estimador 3
0.00
0
25
50
75
100

Fam1500 cuando x1 se usa como variable

Figura B.16: Sesgo Relativo en porcentaje para la poblacion
auxiliar y x2 para asignar probabilidades. n0 = 150.
=0.25
=0.5
0.2
0.6
SR
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
0.1
0.4
(*)
=0.75
0.2
0.0
0.0
-0.1
-0.2
-0.2
-0.4
-0.3
0
25
50
75
100
25
50
75
100
2.5
1.5
1.5
2.0
1.5
1.0
1.0
1.0
0.5
0.5
0.0
SR
(**)
25
50
75
100
25
50
75
100
0.5
0.0
0.0
-0.5
0
25
50
75
100
Estimador directo
Estimador 1
Estimador 2
Estimador 3
96
25
50
75
100
(*) Diseo muestral Mas.Midzuno.

(**) Diseo Muestral Mas.Poisson.
Counties cuando x1 se usa como variable

Figura B.17: Sesgo Relativo en porcentaje para la poblacion
auxiliar y x2 para asignar probabilidades. Los valores SR para el estimador directo en (**) son mayores de
omitidos. n0 = 150.
97.6 %, 74.6 % y 21.5 % para = 0,25, 0,5 y 0.75, respectivamente, y estan
=0.25
30
30
20
25
25
15
20
15
20
10
10
10
25
50
75
100
25
15
25
50
75
100
10
20
-5
-10
50
75
100
25
50
75
100
25
15
10
10
SR
(**)
=0.75
25
SR
(*)
=0.5
-5
-10
25
50
75
Estimador directo
Estimador 1
Estimador 2
Estimador 3
100
25
50
75
100
(*) Diseo muestral Mas.Midzuno

(**) Diseo muestral Mas.Poisson.
9
97
Figura B.18: Ratios Teoricos

entre la varianza del estimador optimo
propuesto y la varianza del estimador
Counties y el cuantil de orden = 0,5.

estandar
bajo la poblacion
n=100. n=50
n=100. n=100
1.00
0.8
0.95
RT
RT
0.7
0.90
0.6
0.85
0.5
0.80
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
0.7
0.9
n=75. n=25
1.00
0.65
0.95
0.60
0.90
0.55
RT
RT
n=75. n=75
0.5
0.85
0.50
0.80
0.45
0.40
0.75
0.0
0.2
0.4
0.6
0.8
1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
n=50. n=25
n=50. n=50
0.70
1.00
0.65
0.90
RT
RT
0.95
0.85
0.60
0.80
0.55
0.75
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
Estimador optimo propuesto. P=2.
98
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Estimador optimo propuesto. P=1, x2.

Figura B.19: Ratios Teoricos

entre la varianza del estimador optimo
propuesto y la varianza del estimador
Turismos y el cuantil de orden = 0,5.

estandar
bajo la poblacion
n=100. n=50
n=100. n=100
0.75
0.90
0.70
RT
0.80
0.95
RT
1.00
0.65
0.85
0.60
0.80
0.55
0.75
0.50
0.70
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.65
0.95
0.60
RT
RT
0.90
0.85
0.80
0.50
0.45
0.70
0.40
0.4
0.9
0.55
0.75
0.2
0.7
n=75. n=25
1.00
0.0
0.5
0.6
0.8
1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.7
0.8
n=50. n=25
n=50. n=50
0.70
1.00
0.95
0.65
0.60
RT
RT
0.90
0.85
0.80
0.55
0.75
0.70
0.50
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
0.2
0.3
0.4
0.5
0.6

99
Counties
Figura B.20: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
0.9
0.6
ER
0.7
ER
1.0
0.8
0.5
0.7
0.4
0.6
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.5
0.7
0.9
n=75. n=25
0.45
1.1
0.40
ER
ER
0.9
0.35
0.7
0.30
0.5
0.0
0.2
0.4
0.6
0.8
0.2
1.0
0.3
0.4
0.5
0.6
0.7
0.8
n=50. n=25
n=50. n=50
0.55
0.50
ER
ER
0.9
0.7
0.45
0.40
0.35
0.5
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
100
0.2
0.3
0.4
0.5
0.6
0.7
0.8

Turismos
Figura B.21: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
1.1
0.8
0.9
ER
ER
0.7
0.6
0.7
0.5
0.5
0.4
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.5
0.7
0.9
n=75. n=25
1.2
0.50
1.0
ER
ER
0.45
0.8
0.40
0.35
0.30
0.6
0.25
0.0
0.2
0.4
0.6
0.8
0.2
1.0
0.3
0.4
0.5
0.6
0.7
0.8
0.7
0.8
n=50. n=25
n=50. n=50
0.7
1.1
0.6
0.9
ER
ER
1.0
0.5
0.8
0.4
0.7
0.6
0.3
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
0.2
0.3
0.4
0.5
0.6

101
de los valores Wopt usados por el estimador optimo
Figura B.22: Evolucion

propuesto en la poblacion
Counties y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
0.8
0.7
0.7
Wopt
Wopt
0.5
0.3
0.6
0.5
0.4
0.3
0.1
0.1
0.2
0.3
0.4
0.5
0.1
0.2
0.3
0.4
n=75. n=75
0.5
n=75. n=25
0.7
0.8
0.7
0.5
Wopt
Wopt
0.6
0.4
0.6
0.3
0.5
0.2
0.1
0.2
0.3
0.4
0.5
0.2
0.3
0.4
0.5
n=50. n=25
n=50. n=50
0.75
0.70
0.5
Wopt
Wopt
0.6
0.4
0.65
0.60
0.55
0.50
0.3
0.45
0.1
0.2
0.3
0.4
0.5
102
0.2
0.3
0.4
0.5

de los valores Wopt usados por el estimador optimo
Figura B.23: Evolucion

propuesto en la poblacion
Turismos y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
0.7
0.7
Wopt
Wopt
0.5
0.3
0.6
0.5
0.4
0.3
0.1
0.1
0.2
0.3
0.4
0.5
0.1
0.2
0.3
0.4
n=75. n=75
0.5
n=75. n=25
0.7
0.8
0.7
0.5
Wopt
Wopt
0.6
0.4
0.6
0.3
0.5
0.2
0.1
0.2
0.3
0.4
0.5
0.2
0.3
0.4
0.5
n=50. n=25
n=50. n=50
0.7
0.8
0.6
0.7
Wopt
Wopt
0.5
0.6
0.4
0.5
0.3
0.1
0.2
0.3
0.4
0.5

0.2
0.3
0.4
0.5

103
muestral SM S.
Figura B.24: Eficiencia Relativa para el diseno
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
10
15
20
25
1.0
1.0
0.8
0.8
ER
1.0
0.8
0.6
0.4
0.2
ER
n = 75
n = 50
ER
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.6
0.6
0.4
0.4
0.2
0.2
30
10
15
20
25
30
10
15
20
25
30
muestral M SS.
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
0.8
0.6
0.4
5
10
15
20
m
104
25
30
1.0
1.2
1.0
ER
ER
1.0
ER
n = 75
n = 50
0.8
0.6
0.4
0.8
0.6
0.4
0.2
10
15
20
25
30
10
15
20
m
25
30
muestral M M M .
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
10
15
20
25
1.2
1.0
0.8
0.6
0.4
0.2
30
1.0
ER
1.0
0.8
0.6
0.4
0.2
ER
n = 75
n = 50
ER
Estimador estandar.
0.8
0.6
0.4
0.2
10
15
20
25
30
10
15
20
25
30
muestral SM S.
Figura B.27: Sesgo Relativo para el diseno
=0.25
=0.75
0.30
SR
0.4
SR
0.4
SR
n = 75
n = 25
=0.50
0.25
0.3
0.20
0.2
0.2
0.15
5
11 13 15
0.3
11 13 15
11 13 15
m
Estimador estandar.
0.4
0.20
0.3
0.15
0.15
0.10
0.10
5
10
15
20
m
25
30
SR
0.25
SR
SR
n = 75
n = 50
0.20
0.2
0.1
5
10
15
20
m
25
30
10
15
20
25
30
105
muestral M SS.
=0.25
0.3
=0.75
0.4
0.5
0.3
0.4
SR
SR
0.4
SR
n = 75
n = 25
=0.50
0.2
0.2
0.3
0.2
0.1
5
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
0.20
SR
0.3
SR
0.20
SR
n = 75
n = 50
0.15
0.15
0.10
0.10
5
10
15
20
25
0.1
5
30
0.2
10
15
20
25
30
10
15
20
25
30
muestral M M M .
=0.25
=0.50
=0.75
0.3
SR
0.4
0.4
SR
SR
0.5
n = 75
n = 25
0.3
0.2
0.2
0.6
0.5
0.4
0.3
0.2
0.1
5
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
0.15
0.15
0.10
0.10
5
10
15
20
m
106
0.3
25
30
SR
0.20
SR
0.20
SR
n = 75
n = 50
0.2
0.1
10
15
20
25
30
10
15
20
m
25
30
Figura B.30: Diagrama de caja con bigotes para los valores de los distintos estimadores. Se asume el
muestral SM S y tamanos
muestrales n0 = 75 y n = 50.
diseno
m=5
m = 10
m = 15
m = 20
(1) (2) (3)
(1) (2) (3)
(1) (2) (3)
(1) (2) (3)
20000
=0.25
15000
10000
5000
30000
=0.50
20000
10000
=0.75
75000
50000
25000
(1). Estimador estandar.

(2). Estimador compuesto usando covarianzas.
(3). Estimador compuesto sin usar covarianzas.
de la poblacion
Fam1500
Figura B.31: Diagramas de dispersion
9000
9000
Y
11000
11000
7000
7000
5000
5000
30000
40000
50000
X1
60000
2000 3000 4000 5000 6000 7000

X2
107
400000
400000
300000
300000
Co70.Y
Co70.Y
de las poblaciones Counties70 y Counties60.

200000
200000
100000
100000
0
0
100000 200000 300000

Co70.X1
40000
Co70.x2
80000
250000
Co60.Y
200000
150000
100000
50000
0
0
40000
Co60.X
80000
de la poblacion
Hospitals.
Figura B.33: Diagrama de dispersion
3000
2500
2000
1500
1000
500
100
108
300
500
x
700
900
de la poblacion
Murthy.
9000
7000
5000
3000
1000
250
500
750
1000
de la poblacion
Turismos.
200000
200000
y
300000
300000
100000
100000
0
10000
30000
x1
20000
50000
200000
200000
100000
300000
300000
60000
x2
100000
100000
0
20000
60000
x3
100000
10000
x4
20000
109
de la poblacion
ECPF1997.
60000
50000
40000
30000
20000
10000
110
5000
10000
15000
X
20000
25000
30000
de las poblaciones Pop06, Pop07, Pop08 y Pop09

=0.7
=0.6
10
8
Y
10
-2
-2
0
4
X
4
X
=0.9
=0.8
10
12
10
2
0
-2
-2
0
4
X
10
25
20
20
15
15
25
10
10
0
0
10
x1
15
20
10
x2
15
20
25
20
Y
de la poblacion
Pob098
15
10
5
0
0
10
15
1+x1+x2
20
25
111
20
20
15
15
Y
de la poblacion
Pob080
10
10
0
0
6
x1
10
12
6
x2
10
20
15
10
5
0
5
112
10
15
1+x1+x2
20
12

Tesis

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tesis

Enviado por

Direitos autorais:

Formatos disponíveis

Juan Francisco Muoz Rosas

Aportaciones a los mtodos de estimacin de

Instituto de Estadstica de Andaluca

Juan Francisco Muoz Rosas

Ao de Edicin: 2010 Instituto de Estadstica de Andaluca

Instituto de Estadstica de Andaluca

2. El mtodo de verosimilitud emprica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3. Aportaciones a la estimacin de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3.6. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

A. Descripcin de poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Apndice B.1. en CD_CAR

En resumen, los objetivos que se persiguen en este

trabajo son: (i) analizar el metodo

(ii) estudiar el comportamiento de los cuantiles en disenos

En el campo del muestreo en poblaciones finitas

muestral, etc) donde este metodo

comprueba su eficiencia desde el punto de vista teorico

Por otro lado, los metodos

en algunas situaciones, como por ejemplo en los disenos

los cuantiles en aquellas situaciones que aunque son mas

los cuantiles son muy utilizay economicas,

propiedades de una verdadera funcion

pone a prueba el metodo

mientras que la segunda tecnica

Como se ha comentado, el metodo

el apropiado puede ayudar a obtener estimaciones mas

metodologa se plantean varias situaciones de un interes

sus variables. El inconveniente principal de esta tecnica

el incremento del sesgo en las estimaciones. Otra tecnica

dimiento se desarrolla bajo el metodo

emprica. Se estudian las propiedades teoricas

levante acerca del comportamiento global de la poblacion.

Sin duda, los estimadores estudiados clasicamente

y varianzas, no ofrecen tanta informacion

das importantes como las lneas de pobreza, proporcion

de tipo social o economico.

debe disponer de buenos metodos

lado, estos estimadores estan

sario el conocimiento de un modelo de superpoblacion,

aquellos otros parametros

frecuentemente usados en la practica,

de cuantiles en muestreo bifasico

caso particular, se investiga tambien

y bajos distintos disenos

los organismos nacionales de estadstica son periodicas,

bado desde el punto de vista teorico

muestral arbitrario, siendo varios los objetivos

3.4 se plantea el problema de la

asistidos basados en el metodo

se manejan, se propone usar la tecnica

El texto se completa con una serie de apendices

finitas que han sido usadas en los estudios de simulacion.

graen menor tiempo. R es un lenguaje de programacion

altas licencias esta unicamente

se describe el marco de trabajo usual

se introducen algunos conceptos basicos

que se desea obtener cierta informacion.

a los que se denomina parametros

Existen dos estrategias posibles para la recopilacion

de datos: (i) examinar todas las unidades de la poblacion,

unos planes establecidos con anterioridad, unas pocas

tra para estimar estos parametros

estimador, esto es,

tra, mejorar las estimaciones, etc. Asociado al elemento i