Você está na página 1de 113

Juan Francisco Muoz Rosas

Aportaciones a los mtodos de estimacin de


parmetros lineales y no lineales con
informacin auxiliar

Instituto de Estadstica de Andaluca


Pabelln de Nueva Zelanda
Leonardo Da Vinci, 21
Isla de la Cartuja
41092 Sevilla
Telfono: 955 03 38 00
Fax: 955 03 38 16-17
www.juntadeandalucia.es/institutodeestadistica

Juan Francisco Muoz Rosas


Aportaciones a los mtodos de estimacin de
parmetros lineales y no lineales con
informacin auxiliar

Datos catalogrficos
Muoz Rosas, Juan Francisco
Aportaciones a los mtodos de estimacin de parmetros lineales y
no lineales con informacin auxiliar / autor, Juan Francisco Muoz
Rosas. -- Sevilla : Instituto de Estadstica de Andaluca, 2010
112 p. ; 30 cm. + 1 disco compacto (CD-Rom). -- (Tesis)
D.L. SE. 7631-2010
ISBN 978-84-96659-83-4
Tesis premiada por el Instituto de Estadstica de Andaluca
1. Estadstica matemtica. 2. Estimacin estadstica. 3.
Probabilidades. 4. Muestreo. I. Instituto de Estadstica de Andaluca.
II. Ttulo. III. Serie
519.2(043.2)

Directora
Mara del Mar Rueda Garca
Departamento de Estadstica e Investigacin Operativa
Facultad de Ciencias
UNIVERSIDAD DE GRANADA
Autor
Juan Francisco Muoz Rosas
Licenciado en Ciencias y Tcnicas Estadsticas
Departamento de Mtodos Cuantitativos para la Economa y la Empresa
UNIVERSIDAD DE GRANADA

Ao de Edicin: 2010 Instituto de Estadstica de Andaluca

Instituto de Estadstica de Andaluca


Depsito Legal: SE-7631-2010
I.S.B.N.: 978-84-96659-83-4
Tirada: 300 ejemplares

Reproduccin autorizada con indicacin de la fuente bibliogrfica, excepto para fines comerciales

ndice

1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Problemas planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos cientficos y aportes a la teora del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Notacin y conceptos bsicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9
9
9
11

2. El mtodo de verosimilitud emprica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Estimacin de la media poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. Estimadores basados en el diseo muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3. Estimadores modelo-calibrados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Tratamiento de datos faltantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Estimador propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Estimacin de la funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2. Algunos estimadores de la funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.3. Estimador propuesto modelo-asistido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.4. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.5. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13
13
15
15
22
24
26
26
27
28
29
30
31
31
32
35
37
39

3. Aportaciones a la estimacin de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Estimadores bajo muestreo bifsico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2. Estimadores propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5. Aplicacin al muestreo estratificado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.6. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.7. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Estimadores bajo muestreo en dos ocasiones sucesivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2. Generalizacin a mltiples variables auxiliares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.4. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5. Muestreo con probabilidades desiguales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43
43
44
44
45
46
48
49
51
52
57
57
57
58
60
61

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

3.3.6. Propiedades tericas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


3.3.7. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Estimadores bajo el mtodo de verosimilitud emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Aplicacin a la estimacin de lneas de pobreza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3. Estimadores propuestos modelo-asistidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.4. Propiedades. Estimacin de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.5. Propiedades empricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62
64
65
65
66
67
68
69

4. Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Conclusiones y valoracin de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73
73

Bibliografa

......................................................................................

75

A. Descripcin de poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


A.1. Poblaciones naturales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.1. Fam1500. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.2. Counties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.3. Hospitals. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.4. Murthy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.5. Turismos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.1.6. ECPF1997 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2. Poblaciones simuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2.1. Pop06, Pop07, Pop08 y Pop09 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2.2. Pob098 y Pob080 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81
81
81
81
81
83
83
83
83
83
83

B. Representaciones grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

87

Apndice B.1. en CD_CAR

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Introducin

1.1.

Problemas planteados

En resumen, los objetivos que se persiguen en este

trabajo son: (i) analizar el metodo


de verosimilitud empri de la funcion
de
ca en campos no tratados (estimacion
desde una perspectiva basada en el diseno

distribucion
modelo-asistida,en
muestral y usando una aproximacion
de cuantiles, etc),
presencia de datos faltantes, estimacion

(ii) estudiar el comportamiento de los cuantiles en disenos


complejos (muestreo en dos ocasiones con probamas
bilidades desiguales o con multiples
variables auxiliares,

muestreo bifasico,
etc).

En el campo del muestreo en poblaciones finitas


son numerosas las aportaciones que pueden hacerse a

con informacion
auxiliar de
los metodos
de estimacion

parametros
lineales y no lineales. Por ejemplo, en los ulti
han surgido nuevas metodologas para obtener
mos anos
precisos usando informacion
auxiliar.
estimadores mas
Estas nuevas metodologas son los estimadores de cali (Deville y Sarndal,

bracion
1992) y el metodo
de verosimilitud emprica (Chen y Sitter, 1999). De estas metodologas,

el metodo
de verosimilitud emprica tiene un buen compor
tamiento asintotico
y emprico, pero a causa de su reciente
existen bastantes situaciones donde no ha siaparicion,
do analizado. En este trabajo se plantean diversos esce de la funnarios (presencia de datos faltantes, estimacion
de distribucion
bajo un enfoque basado en el diseno

cion

muestral, etc) donde este metodo


no haba sido exami importantes y se
nado, se estudian sus propiedades mas

comprueba su eficiencia desde el punto de vista teorico


y
emprico.

Por otro lado, los metodos


clasicos
estudiados en
muestreo de poblaciones finitas se han centrado en la es de parametros

timacion
lineales como la media o el total.

En las ultimas
decadas
se ha estado tratando el problema

de la funcion
de distribucion
por diversos
de la estimacion
de los
autores, pero este no es el caso de la estimacion
cuantiles, los cuales no han sido definidos ni analizados

en algunas situaciones, como por ejemplo en los disenos


complejos, etc. De este modo, en este
muestrales mas
de
trabajo se pretende plantear y estudiar la estimacion

los cuantiles en aquellas situaciones que aunque son mas


complejas no son las menos utilizadas, puesto que son los
muestrales empleados por la mayora de los orgadisenos
nismos y agencias estadsticas, investigaciones sociales

los cuantiles son muy utilizay economicas,


etc. Ademas,
que recogen
dos en estos organismos por la informacion
y para obtener medidas de gran importancia para el in de una nacion,
como por ejemplo la estimacion
de
teres
de bajos ingresos, etc.
las lneas de pobreza, proporcion
Existen determinados problemas para algunos de los
estimadores de cuantiles que han sido propuestos en la
literatura del muestreo. En primer lugar, varios de los es de distribucion
no cumplen las
timadores de la funcion
de distribucion,

propiedades de una verdadera funcion


mientras que existen otros estimadores que dependen es En algunas
trictamente de un modelo de superpoblacion.
ocasiones, puede ocurrir que no exista ningun
modelo que
en estudio,
se ajuste suficientemente bien a la poblacion
muestral
por lo que una perspectiva basada en el diseno
apropiada.
resultara mas

1.2.

Objetivos
cientficos
y
aportes a la teora del
muestreo

se indica como

A continuacion
se distribuye el presente texto y se comenta de forma breve los principales
objetivos cientficos y las aportaciones a la teora del
muestreo en poblaciones finitas.
se describe el marco de trabaEn la siguiente seccion
jo general seguido a lo largo del texto y se dan algunos

conceptos basicos
de la teora del muestreo en poblacion
y confinitas. El objetivo es familiarizarse con la notacion
ceptos que van a ser usados en todo el texto.
En la teora de muestreo en poblaciones finitas el objetivo principal de cualquier metodologa es la de mejo
rar las estimaciones de los parametros
en estudio en el
sentido de construir nuevos estimadores que, para el mis muestral, tengan menor error de estimacion,

mo tamano
en las estimaciones de los
lo que implica mayor precision

parametros,
o equivalentemente, tengan el mismo error
muesque los ya conocidos pero con un menor tamano
en el coste real de
tral, lo que produce una disminucion
de la encuesta. Existen dos procedimienla realizacion
tos para intentar mejorar las precisiones de las estima
ciones. Por un lado, se pueden emplear nuevas tecnicas
y por otro, usar metodos

de estimacion
de muestreo mas
informacion
(muestreo en ocacomplejos que utilicen mas
auxiliar sea
siones sucesivas, etc), o que la informacion
fiable (muestreo bifasico),

mas
etc. La primera de estas

tecnicas
se lleva a cabo en el Captulo 2, en donde se

pone a prueba el metodo


de verosimilitud emprica como

mientras que la segunda tecnica

metodo
de estimacion,
se aplica en el Captulo 3 para el problema de la esti de cuantiles.
macion

Como se ha comentado, el metodo


de verosimilitud
emprica se desarrolla en el Captulo 2 bajo distintos escenarios. Esta reciente metodologa obtiene estimadores
tan eficientes (ver Chen y Sitter, 1999, Wu, 2002, Rue-

3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


da, Munoz,
Berger, Arcos y Martnez 2006, etc.) como los

utilizados clasicamente
en muestreo de poblaciones fini
tas, lo que lo convierte en una alternativa valida
a usar en
las encuestas por muestreo, puesto que si el escenario es

el apropiado puede ayudar a obtener estimaciones mas


eficientes, reducir costes en las encuestas, etc. En la Sec 2.2 se recopilan los principales aspectos y resultados
cion

bajo esta
del metodo
de verosimilitud emprica. Ademas,

metodologa se plantean varias situaciones de un interes


relevante en la teora del muestreo, de los que destacan
de la
el problema de los datos faltantes y la estimacion
de distribucion
y cuantiles.
funcion
Cuando se realiza un estudio mediante encuestas o
cualquier otro procedimiento, es usual encontrarse en presencia de datos faltantes, que vienen dados por parte

del entrevistado o por cualquier otra circunstancia (perdi errores en la etapa de manida casual de informacion,
de datos, etc). Ante tal problema, una tecnica

pulacion
frecuentemente utilizada es eliminar del estudio a aquellos individuos que presentan datos faltantes en alguna de

sus variables. El inconveniente principal de esta tecnica


es

el incremento del sesgo en las estimaciones. Otra tecnica


que presenta el
habitualmente utilizada es la imputacion,
inconveniente de obtener en algunas ocasiones inferen
cias no validas
como consecuencia de considerar los va
lores imputados como si estos
fueran valores verdaderos.
2.3 se propone un camino alternativo
En la Seccion
para el tratamiento de los datos faltantes que no necesita
eliminar del estudio a ningun
individuo, aprovechando to que se tiene en la muestra. Este proceda la informacion

dimiento se desarrolla bajo el metodo


de verosimilitud

emprica. Se estudian las propiedades teoricas


y mediante
se contrasta la precision
de
un estudio de simulacion,
los estimadores propuestos con otros estimadores cono disenados

cidos y tambien
para el tratamiento de datos

Rueda, Munoz,

faltantes. Vease
tambien
Berger, Arcos y
Martnez (2006).
de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion

levante acerca del comportamiento global de la poblacion.

Sin duda, los estimadores estudiados clasicamente


en la
teora del muestreo, como totales, medias, proporciones
como la funcion

y varianzas, no ofrecen tanta informacion


El problema de la estimacion
de cuantiles
de distribucion.

y de otros parametros
de tipo no funcional queda resuelto
de distribucion,
puesto
con el conocimiento de la funcion

directa de
que estos
pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener medila funcion

das importantes como las lneas de pobreza, proporcion


de bajos ingresos, etc. y son muy utiles
en investigaciones

de tipo social o economico.


Debido a la importancia de es
tos parametros
en algunas investigaciones o estudios, se

debe disponer de buenos metodos


y tecnicas
para obtener las mejores estimaciones posibles.
modelo-calibrada, Chen y Wu
Bajo la aproximacion
de distribu(2002) propusieron estimadores de la funcion
usando el metodo

cion
de verosimilitud emprica. Por otro
basados en informacion

lado, estos estimadores estan


de un unico
auxiliar a traves
punto del conjunto de valores

de distribucion,
presenpara los que se define la funcion
tando el problema de obtener estimaciones menos pre
cisas cuando el argumento en el que se evalua
la funcion
se encuentra bastante alejado del punto
de distribucion
considerado para la variable auxiliar. Por tanto, estos estimadores presentan dos inconvenientes principalmente: (i)
es necesario el conocimiento y el uso de un modelo de
para los datos muestrales del estudio y (ii)
superpoblacion
auxiliar.
se hace un uso poco eficiente de la informacion

Asumiendo el metodo
de verosimilitud emprica, en
2.4 se propone un estimador modelo-asistido
la Seccion
de distribucion
basado en un uso efectivo
para la funcion
auxiliar. Este estimador sera mas
efide la informacion
entre las variables
ciente cuanto mayor sea la correlacion
no resulta neceauxiliares y la variable principal. Ademas,

sario el conocimiento de un modelo de superpoblacion,


puesto que el estimador propuesto no es dependiente del
auxiliar se jusmodelo. El uso efectivo de la informacion
tifica porque el estimador propuesto esta basado en tres
puntos perfectamente repartidos en el recorrido de valo de distribucion,
de mores en donde se define la funcion
do que, independientemente del valor donde se evalue
la
de distribucion,
este valor estara cercano a alguno
funcion
precisas
de los tres puntos, obteniendo estimaciones mas
de distribucion.
Esto permitira tambien

para la funcion
de los cuantiles y de
mejorar la calidad de la estimacion

aquellos otros parametros


relacionados con estos
y que
suelen obtenerse en las grandes instituciones estadsticas. Una propiedad deseable de un estimador de la fun de distribucion,
es que este

cion
sea por s mismo una ver de distribucion.
Este es otro punto impordadera funcion
tante a la hora de obtener estimadores eficientes para los
cuantiles poblacionales. Notamos que el estimador pro posee esta propiedad.
puesto tambien
En el Captulo 3 se analiza el problema de la esti de cuantiles bajo distintos esquemas de muestreo
macion

frecuentemente usados en la practica,


varios metodos
de
y por ultimo,

estimacion
usando el metodo
de verosimilitud

emprica.
3.2 resuelve el problema de la estimacion

La Seccion

de cuantiles en muestreo bifasico


cuando las muestras
en cada una de las fases son seleccionadas median muestral, con probabilidades iguales
te cualquier diseno
o desiguales. Se proponen varios estimadores de tipo
y exponencial que proporcionan estimadirecto, razon

ciones optimas
para un determinado cuantil. Se analizan
propiedades importantes de estos estimadores tales co de varianzas, etc. Como
mo la insesgadez, estimacion
el muestreo bifasico

caso particular, se investiga tambien


diseno
muestral que ofrece
aplicado a la estratificacion,
importantes ganancias en eficiencia debido a los beneficios que produce el muestreo estratificado. Todas es
tas propiedades se ven desde un punto de vista teori
co, aunque el analisis
de los estimadores se completa
con estudios empricos llevados a cabo para los cuartiles

y bajos distintos disenos


muestrales con probabilidades

desiguales. En terminos
de sesgo y de eficiencia relativa, estos estudios reflejan que los estimadores propues
tos mejoran a otros estimadores disenados
en muestreo

bifasico.
La mayora de las investigaciones llevadas a cabo por

los organismos nacionales de estadstica son periodicas,

10

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

es decir, se repiten a intervalos regulares de tiempo. Bajo este escenario, es aplicable la metodologa propuesta
3.3 para estimar cuantiles en muestreo en
en la Seccion
dos ocasiones, lo que puede permitir obtener una mayor
en la etapa de estimacion
como se ha comproprecision

bado desde el punto de vista teorico


y practico.
Esta in se ha llevado a cabo, por un lado, para el caso
vestigacion
de multiples
variables auxiliares, y por otro, bajo el uso de

muestral arbitrario, siendo varios los objetivos


un diseno
cientficos y aportes a la teora del muestreo, puesto que

en muestreo de
los metodos
tradicionales de estimacion
ocasiones sucesivas se han centrado en el problema de
de parametros

la estimacion
lineales. Para el caso de la
de cuantiles, la situacion
es bastante diferenestimacion
recientemente este campo ha sido tratado por
te, y solo
En cualquier caso, los eslos estudios de investigacion.
basados unicamente
tudios existentes estan
en muestreo

la variable de interes
en la
aleatorio simple y utilizan solo
o bien solo
estan
disenados

fase de estimacion,
para una
unica
variable auxiliar.

3.4 se plantea el problema de la


En la Seccion
de cuantiles mediante estimadores modeloestimacion

asistidos basados en el metodo


de verosimilitud empri de estos estimadores a la estimacion
de
ca. La aplicacion
se discute dentro
algunas medidas de pobreza tambien
Debido a la complejidad natural de los
de esta seccion.
cuantiles y principalmente de las medidas de pobreza que

se manejan, se propone usar la tecnica


bootstrap para el
de las varianzas de los estiproblema de la estimacion
madores. En los numerosos estudios empricos llevados
a cabo, puede observarse que tanto los estimadores propuestos como las estimaciones de las varianzas presen
tan un buen cumplimiento en terminos
de sesgo y eficiencia relativa.
global de los resultados obtenidos
Una valoracion
as como las principales conclusiones de todos los estudios de este texto se resumen en el Captulo 4.

El texto se completa con una serie de apendices


de
consulta sobre varios aspectos relacionados con los estu
dios llevados a cabo. As, el Apendice
A recoge las principales propiedades y caractersticas de las poblaciones

finitas que han sido usadas en los estudios de simulacion.


de un breve resumen estadstico de los datos de
Ademas
estas poblaciones, se muestran los diagramas de disper de tales poblaciones.
sion

Por ultimo,
notar que todos los estudios de simulacion

se han llevado a cabo mediante el lenguaje de progra R. Todos los procedimientos y funciones para obmacion
tener en R tanto los estimadores propuestos en este texto
muestral
como el resto de estimadores para cada diseno
disponibles en el Apendice

estan
??.
Son numerosas las razones por las que se ha usado este software. En primer lugar, es un lenguaje intuitivo con una gran cantidad de argumentos estadsticos
de los estimadores proque facilitan la implementacion
puestos. Otros programas como M athematica, M atlab,
C + +, etc., carecen de tales procedimientos estadsticos.
Por otro lado, es un paquete que destaca por su rapidez
y que permite obtener el mayor numero
de simulaciones

graen menor tiempo. R es un lenguaje de programacion


tuito y disponible a cualquier usuario, al contrario de otros
especficos de estadstica como SAS, que debido a sus

altas licencias esta unicamente


disponible, en la mayora

de los casos, a las grandes empresas. El dispositivo grafico que dispone R y su compatibilidad con S P LU S son
otros argumentos que hacen que la mayora de los investigadores en el campo del muestreo en poblaciones finitas prefieran el uso de este software. Sirva de ejemplo
los artculos publicados en este sentido (por ejemplo Wu,
2005) as como las conferencias internacionales sobre el
se estan
abriendo paso, como la
programa R que tambien
segunda conferencia internacional de usuarios de R que
se celebro del 15 al 17 de junio de 2006 en Viena, Austria.
De hecho, el gran auge que esta teniendo este software
introduciendo da a da nuevos procehace que se esten
dimientos y paquetes estadsticos.

1.3.

Notacion

basicos

conceptos

se describe el marco de trabajo usual


En esta seccion

en el ambito
del muestreo de poblaciones finitas. Ademas,

se introducen algunos conceptos basicos


y la notacion
comun
que se sigue a lo largo del texto.
a un conjunto de unidades del
Se denomina poblacion
Esta poblacion

que se desea obtener cierta informacion.


se denota como U , es finita y contiene N elementos distintos e identificados, es decir, U = {1, . . . , i, . . . , N }.
U es posible medir o contar en cada
En la poblacion
unidad una o varias caractersticas o variables, o clasificar
sus unidades de acuerdo a ellas. A partir de estos resultados se puede llegar al conocimiento de valores como la
funcion
de distribucion,
etc.,
media, el total, la proporcion,

a los que se denomina parametros


poblacionales. La me
dia, el total, etc., son parametros
lineales, mientras que la
de distribucion,
cuantiles, etc., son parametros

funcion
no
lineales.

Existen dos estrategias posibles para la recopilacion

de datos: (i) examinar todas las unidades de la poblacion,


es decir, realizar un censo, y (ii) examinar, segun

unos planes establecidos con anterioridad, unas pocas


que son representativas, es deunidades de la poblacion
cir, obtener una muestra, y suponer que de los resultados obtenidos se infieren a las caractersticas de toda la

poblacion.

En la practica,
determinados parametros
poblacionales son desconocidos y no pueden calcularse me se recurre a una muesdiante un censo. Por esta razon,

tra para estimar estos parametros


poblacionales. As, una
muestra es un subconjunto de unidades, s, de U selec de muestreo especficionados de acuerdo con un diseno
co, d, que asigna una probabilidad conocida, p(s), tal que
p(s) > 0 para todo s P
S, donde S es el conjunto de las
posibles muestras s y sS p(s) = 1. El valor de la media,
o funcion
de distribucion
obtenido a partir
total, proporcion
de la muestra se denomina estimador del correspondiente

parametro
poblacional.
interesa estudiar ciertas caDentro de esta poblacion
o principal
ractersticas de una variable de estudio, interes
denominada y. Las variables auxiliares son aquellas, que
sin ser objeto de estudio, son usadas para varios fines, co de unidades en la muesmo por ejemplo, para la seleccion

5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

11

P
donde di = di / js dj . El cuantil de orden puede es de este ultimo
timarse directamente mediante la inversion

estimador, esto es,

tra, mejorar las estimaciones, etc. Asociado al elemento i


de la muestra se conoce exactamente y sin error el va esta cantidad se denolor de la caracterstica de interes,
tara como yi . Para P variables auxiliares, el vector de variables auxiliares viene dado por x = (x1 , . . . , xp , . . . , xP ),
donde xp = (x1p , . . . , xip , . . . , xN p )t . Se asume que estas
son conocidas para aquellos
variables auxiliares tambien
individuos seleccionados en la muestra. En algunas ocasiones, se supone que los totales o medias poblacionales
de las variables auxiliares son conocidos, es decir, las
, XP ) o X = (X 1 , . . .P
, X P ) son
cantidades X = (X1 , . . .P
N
1
conocidas, donde Xp = N
i=1 xip y X p = N
i=1 xip .
de primer orden asociaLa probabilidad de inclusion
das al plan de muestreo d para un individuo i, i , indica
la probabilidad que tiene este individuo de pertenecer a
la muestra s. Asimismo, ij indica la probabilidad de que
ambas unidades i y j pertenezcan a la muestra s. A esta
de segundo
cantidad se le llama probabilidad de inclusion
usadas son los pesos
orden. Otras cantidades que seran

di = i1 , ij = ij i j , etc.
basicos
del diseno

De este modo, los principales parametros


pobla
cionales desconocidos en la practica
y que habra que es
timar son la media poblacional de la variable de interes,
Y =

1
b HKy () = FbHKy
() = nf{t | FbHKy (t) }.
Q

N
1 X
yi ,
N i=1

el total poblacional,
Y =

N
X

yi ,

i=1

de distribucion,

la funcion
Fy (t) =

N
1 X
(t yi ),
N i=1

y el cuantil para un orden (0 < < 1),


Qy () = Fy1 () = nf{t | Fy (t) },
indicadora que toma el valor
donde () es la funcion
(a) = 1 si a 0 y (a) = 0 en otro caso y Fy1 () de inversa de Fy ().
nota la funcion
auxiliar, la media poblaSin ningun
tipo de informacion
Y , suele estimarse mecional de la variable de interes,
diante el estimador de tipo Hortviz-Thompson
y HT =

1 X
di yi .
N is

(1.1)

de la funcion
de distribucion,

Para el caso de la estimacion


este estimador viene dado por
1 X
di (t yi ),
FbHT y (t) =
N is

(1.2)

aunque suele usarse el estimador de tipo Hajek


que es
de distribucion.

una verdadera funcion


Este estimador
viene dado por
X
di (t yi ),
(1.3)
FbHKy (t) =
is

12

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

(1.4)

2. El mtodo de verosimilitud emprica

El metodo
de verosimilitud emprica para la estimacion

de parametros
fue propuesto en Chen y Qin (1993),
aunque fueron Chen y Sitter (1999) quienes establecieron

las bases teoricas


principales de este metodo,
y partir de
las cuales se han basado todos los estudios posteriores.

En este captulo se investiga esta tecnica


reciente en diferentes campos del muestreo en poblaciones finitas.
2.2 se recogen los principales aspecEn la Seccion

tos de esta metodologa para el caso de la estimacion


de la media poblacional, pueden verse las propiedades

importantes y los diferentes tipos de esasintoticas


mas
timadores basados en cada una de las perspectivas de

estimacion.
En cualquier estudio es usual encontrarse con el pro 2.3 se propone
blema de datos faltantes. En la Seccion

usar un estimador basado en el metodo


de verosimilitud
al problema de la existencia de
emprica como solucion

Rueda, Munoz,

datos faltantes (vease


tambien
Berger, Arcos y Martnez 2006).
de la funcion
de distribucion
mediante
La estimacion

el metodo
de verosimilitud emprica se estudia en la Sec 2.4. Se propone usar la aproximacion
modelo-asistida
cion
para obtener tal estimador, y se hace un uso eficiente de la
auxiliar al estar basado el estimador en varias
informacion

variables auxiliares y en varios puntos de estimacion.

2.1.

Introduccion

En la teora del muestreo en poblaciones finitas, el ob


jetivo principal de un metodo
determinado para la obten de estimadores o de cualquier diseno
muestral es el
cion

de mejorar las estimaciones de los parametros


en estudio en el sentido de construir nuevos estimadores que,
muestral, tengan menor error de
para el mismo tamano
lo que implica mayor precision
en las estiestimacion,

maciones de los parametros,


o equivalentemente, tengan
el mismo error que los ya conocidos pero con un menor
muestral, lo que produce una disminucion
en el
tamano
de la encuesta.
coste real de la realizacion
Por estas razones fundamentalmente, la metodologa
del muestreo en poblaciones finitas precisa de nuevas
aportaciones que abaraten los costes de los estudios o
investigaciones estadsticas, se mejoren las estimaciones
desde el punto de vista de la eficiencia o sesgadez y se
dispongan, en general, de mejores propiedades.
que se utilize
Es conocido que segun
la informacion
de parametros,

en la etapa de estimacion
se tienen dos
de las estimacaminos para intentar mejorar la precision
muestrales mas
comciones: por un lado, utilizar disenos
plejos (muestreos estratificados, por conglomerados, poli-

etapicos,
adaptativos, etc.) basados unicamente
en los

y por otro lado, emdatos de la caracterstica de interes,


plear las metodologas propias de la teora del muestreo

en poblaciones finitas basadas en el uso de informacion


auxiliar, dada a traves
de un vecauxiliar. Esta informacion
tor de variables auxiliares, debe estar altamente correla para poder obtecionada con la caracterstica de interes
en la etapa de estimacion.
Estas dos
ner mayor precision
alternativas se pueden combinar para perseguir el objetivo

de obtener mejores estimaciones, es decir, usar disenos


complejos en metodos

de
muestrales mas
de estimacion

auxiliar es una opcion

parametros
que utilicen informacion

muy atractiva en la materia que nos ocupa (vease


Hedayat
y Sinha, 1991).

El metodo
de verosimilitud emprica, que se desarrolla
a largo de este captulo, permite combinar las dos ideas
anteriores y es bastante eficiente como se ha compro
bado tanto desde el punto de vista teorico
como empri
co (vease
Chen y Qin, 1993, Chen y Sitter, 1999, Zhong,
2000, Chen y Wu, 2002, Sitter y Wu, 2002, Wu, 2003, Wu,

2004a, 2004c, Rueda y Munoz,


2005, 2006a, 2006d, etc.).

auLos primeros metodos


que incorporan informacion
son los llamados meto
xiliar en la fase de estimacion
entre los que destacan los
dos indirectos de estimacion,

diferencia y regresion.
Esconocidos metodos
de razon,
tos estimadores no siempre garantizan que se produzca
del error de muestreo respecto a los estiuna disminucion
auxiliar. Esta ganancia
madores que no usan informacion
depende en mayor medida de la relacion
enen precision
tre las variables auxiliares y la variable objeto de estudio,

del buen uso de las hipotesis


que se supongan para em
plear un procedimiento u otro, y de que dichas hipotesis
se ajusten en mayor o menor medida al problema real.
Los estimadores anteriores se basan unicamente
en

los datos muestrales, es decir, utilizan un enfoque basa muestral. Recientemente, en muestreo se
do en el diseno
esta utilizando la perspectiva basada en modelos (ver p.e.

Perez,
2002 y Sanchez-Crespo,
2002) y la nueva aproxi modelo-calibrada (Wu y Sitter, 2001). Estas apromacion
y
ximaciones se basan en modelos de superpoblacion
son dependientes de dichos modelos. El objetivo de es
precisas, retos metodos
es obtener estimaciones mas
concluyentes en la comparacion
de estratesultados mas

gias, producir estrategias optimas,


obtener propiedades

atractivas, etc., pero cuando el esquema


asintoticas
mas
de trabajo esta perfectamente identificado con un mode Bajo esta perspectiva cobra espelo de superpoblacion.
cial importancia el uso de variables auxiliares cuyos valores tienen que ser conocidos para todos los individuos
Por tanto, para poder usar este enfoque
de la poblacion.

se debe conocer el adecuado modelo de superpoblacion

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

13

en estudio. En reasociado a los datos de la poblacion


eficientes que el
sumen, estas aproximaciones son mas
muestral cuando el moenfoque basado en el diseno
se ajusta bien, y pueden llegar
delo de superpoblacion
a obtener propiedades no deseables, como inferencias

no validas,
cuando se usa un modelo de superpoblacion

erroneo.
En consecuencia, para llegar a cabo estas apro informacion:

ximaciones, sera conveniente obtener mas


apropiado y todos los valoel modelo de superpoblacion
res de las variables auxiliares para todos los individuos
Cuando no se dan estas circunstancias,
de la poblacion.
apropiado un metodo

puede resultar mas


de estimacion
muestral.
basado en el diseno

Una alternativa intermedia entre los metodos


anterio
basada en disenos,

res y la clasica
estimacion
es la apro
modelo-asistida. Esta
ximacion
consiste en usar un mode para obtener una estimacion
de un
lo de superpoblacion

determinado parametro
poblacional, y entonces, usar este
Sin perdida de eficienultimo
en la etapa de estimacion.

cia, la ventaja de este estimador es que sus estimaciones


perno son dependientes del modelo de superpoblacion,

mitiendo obtener inferencias validas


independientemente
de si el modelo resulta ser apropiado o no para los datos
de estudio. El conocido estimador de rede la poblacion
generalizado (Cassel et al., 1976, Sarndal,

gresion
1980),
(Deville y Sarndal,

los estimadores de calibracion


1992,

Theberge,
1999, Wu y Luan, 2003) y el propio estimador
de verosimilitud emprica (Chen y Qin, 1993, Chen y Sitter,
1999) pueden ser categorizados como aproximaciones
modelo-asistidas.

Son dos los metodos


para obtener estimadores que
han aparecido recientemente: los estimadores de ca y los de verosimilitud emprica. Los primeros
libracion

fueron propuestos por Deville y Sarndal


(1992), y desde

entonces se han comprobado sus propiedades teoricas,


se han obtenido numerosas modificaciones, y se ha exten
dido el metodo
a diversos esquemas de muestreo, siendo
todos los resultados obtenidos bastante satisfactorios.

El metodo
de verosimilitud emprica para la esti de parametros

novedoso que el metodo

macion
es mas
Fue propuesto en Chen y Qin (1993) para
de calibracion.
de
muestreo aleatorio simple, aunque el auge y el interes
esta metodologa se produce en 1999 cuando Chen y Sit
muestral. Al
ter plantean el metodo
para cualquier diseno

este metodo

igual que el metodo


de calibracion,
permite
auxiliar de una o varias variables
incorporar informacion
adicionales, y se puede plantear tanto desde una perspec
tiva modelo-asistida, como desde la reciente aproximacion
modelo-calibrada (Wu y Sitter, 2001).
Los estimadores de verosimilitud emprica para la me muestral y bajo la
dia poblacional basados en el diseno
modelo-calibrada, seran
vistos en la Secaproximacion
2.2. Las principales propiedades asintoticas

cion
de es tambien
consultarse en esta sectos estimadores podran
Notese

cion.
que el metodo
de verosimilitud emprica usa
modelo-asistida para determinar un dela aproximacion

terminado parametro
o variable, y posteriormente se basa
muestral para determinar los estimadores.
en el diseno

Por simplicidad y sin perdida


de generalidad, en este ca modelo-asistida o
so nos referiremos como aproximacion
basada en el diseno
muestral.
aproximacion

de
Todos los metodos
generales de estimacion

parametros
asumen que no existen datos faltantes en la
muestra. Cuando existen observaciones perdidas en la
mas
simple es eliminar aquellos indimuestra, la solucion
viduos con observaciones incompletas y restringir el estudio a los individuos que presentan observaciones completas para todas las variables. De este modo, con este con
junto de observaciones se puede aplicar cualquier tecnica
de parametros.

de estimacion
Una consecuencia de este

de individuos en la muestra resmetodo


es la reduccion
pecto a la muestra planificada, lo que produce mayores
sesgos en las estimaciones y mayor varianza muestral.

Usando el metodo
de verosimilitud emprica, en la Seccion
2.3 se proponen estimadores para el problema de datos

faltantes con buenas propiedades asintoticas


y empricas.
Estos estimadores aprovechan todas las observaciones
estas

muestrales, esten
completas o incompletas para las
variables del estudio.
Otro tema de actualidad en muestreo es el proble de la funcion
de distribucion.
Los
ma de la estimacion

estudios se han centrado clasicamente


en la estimacion

de parametros
poblacionales de tipo puntual, como to
tales, medias, proporciones y varianzas. La estimacion
de distribucion
es un campo muy imporde la funcion
que permite determinar
tante al tratarse de una funcion
importantes de la poblacion
en
las caractersticas mas
relevante acerca del
estudio, proporcionando informacion
Obtener buenos
comportamiento global de la poblacion.
no es tan simple como en el
estimadores para tal funcion
caso de los estimadores puntuales. Para este problema,
un buen estimador, Fb (t), ha de cumplir las propiedades

de distribucion:

basicas
de una verdadera funcion
b
b
lm F (t) = 1.
1. lm F (t) = 0 ;
t

t+

2. Fb (t) es no decreciente, es decir, t1 < t2 se verifica Fb (t1 ) Fb (t2 ).


3. Dado t > t , lm , Fb (t) = Fb (t ).
tt

Varios de los estimadores propuestos en la literatura


del muestreo en poblaciones finitas no satisfacen todas
estas propiedades y no son, por tanto, funciones de dis Por ejemplo, la funcion
de distribucion
estimada
tribucion.

no cumple los requisimediante el metodo


de calibracion
de distributos necesarios para ser una verdadera funcion

cion.
2.4 se propone un estimador modeloEn la Seccion
de distribucion
basado en el
asistido para la funcion
muestral que cumple estas propiedades y goza de
diseno
una excelente ganancia en eficiencia como consecuencia

auxiliar. Estas
de un uso efectivo de la informacion
son dos
ventajas importantes de este estimador propuesto basado

en el metodo
de verosimilitud emprica. En esta seccion,
pueden consultarse los principales estimadores
tambien
de verosimilitud pseudo emprica modelo-calibrados para
de distribucion.

la funcion
deEn resumen, este captulo ofrece una descripcion

tallada del metodo


de verosimilitud emprica en la esti de la media o total de la poblacion.
El objetivo de
macion

este analisis
es mostrar de forma sencilla como
se cons
truye este estimador en distintos disenos
muestrales y

para los distintos enfoques existentes en muestreo, cuales


importantes y la relacion
que
son sus propiedades mas
conocidos. Usando este
tiene con otros estimadores mas

14

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


esquema teorico,
se aportan nuevas soluciones al proble de la funcion

ma de los datos faltantes y a la estimacion

de distribucion.

litud emprica, L(p) =


X

is

pi sujeta a las restricciones

pi = 1

(2.2)

(pi > 0),

is

2.2.
2.2.1.

Estimacion
de
poblacional

la

Estimadores basados
muestral
diseno

media

X1
1X
yi .
yi =
n is
n
is

pi xi = X.

(2.3)

is

en

el

La metodologa de verosimilitud emprica fue usada


por Owen (1988, 1990, 1991), Molina y Skinner (1992),

de regiones
etc, como un metodo
para la construccion
de confianza con observaciones independientes. Owen
afirmo que el estadstico de verosimilitud emprica tiene
asintotica

una distribucion
2 , y por tanto se puede usar
de intervalos de confianza y contraste
para la estimacion

de hipotesis.
Qin y Lawless (1994, 1995) usan el metodo
puntual cuande verosimilitud emprica para la estimacion
se incorpora a traves
de la maximizacion

do la informacion
de verosimilitud emprica. A raz de aqu,
de la funcion

este metodo
se popularizo y una gran gama de desarrollos sobre verosimilitud emprica han sido descritos en el

reciente libro de Owen (2001) para distintos ambitos.

Historicamente
el uso de verosimilitud emprica fue
propuesto por Hartley y Rao (1968), pero la primera apli formal en muestreo para poblaciones finitas del
cacion

metodo
de verosimilitud emprica se debe a Chen y Qin
(1993), que lo estudiaron bajo muestreo aleatorio simple.
se detalla de forma breve la idea prinA continuacion

cipal del metodo


de verosimilitud emprica para el pro de la media muestral de y, Y =
blema
de la estimacion
P
y
,
y
para
muestreo aleatorio simple. En este
N 1 N
i
i=1
caso, el estimador usual es el estimador de tipo HortvizThompson, dado por
y HT =

(2.1)

(2.1) se observa que el estimador usa n


En la expresion
puntos yi de la muestra con el mismo peso (1/n) para

estimar el parametro.
Puede ocurrir que ciertas observa determinantes que otras para el calciones yi sean mas

culo del parametro.


Bajo estas circunstancias es conve determinantes un
niente darle a las observaciones mas
mayor peso que aquellas que son menos influyentes para

estimar el valor del parametro.


Esta es la idea de los estimadores de verosimilitud emprica, es decir, pretenden
cambiar los pesos 1/n por otros pesos pbi , i = {1, . . . , n},
del parametro.

con el objetivo de mejorar la estimacion


Las
variables auxiliares juegan un papel importante en este

metodo,
puesto que son usadas para obtener los nuevos
pesos.
Sea pi la masa de probabilidad de yi , con i s. El es
timador maximo
verosmil emprico de Y se define como
X
yP E =
pbi yi ,
is

de verosimidonde pbi , i = {1, . . . , n}, maximiza la funcion

auxiliar se incorpora en la segunda restricLa informacion


Esta expresion
se justifica al asumir que los pesos
cion.
perfecta para X, deberan de dar
que dan una estimacion
en la estimacion
de Y . Resulta razouna buena precision
mas
eficientes a
nable asumir que las estimaciones seran
lineal mas
fuerte.
medida que y y x presenten una relacion
con restricciones
Este problema de maximizacion

puede resolverse mediante el metodo


de los multipli
por ejemplo, Aitchicadores de Lagrange. Vease
tambien,
son y Silvey (1958), Hall (1990) y Hall y La Scala (1990).
Los estimadores de verosimilitud emprica se pueden

disenar
desde distintas perspectivas, siendo el investi
gador quien debe decidir el modo de aplicar el metodo
de
verosimilitud emprica. Algunos de los distintos enfoques
de los cuales se puede disenar
esta metodologa
a traves
son los siguientes:
de L(p).
(E1). Sustitucion
L(p) para
En Chen y Qin (1993) se usa la funcion
obtener los estimadores de verosimilitud emprica,
mientras que Chen y Sitter (1999) usaron el loga a nivel poblacional, esto es,
ritmo de esta funcion
propusieron usar
l(p) = log

N
Y

pi =

i=1

N
X

log(pi ).

i=1

Notamos que el hecho de utilizar logaritmos no produce ningun


cambio en las estimaciones al tratarse
logaritmo de una funcion
estrictamente
la funcion
creciente que conserva los puntos extremos de la
original. La ventaja es una mayor facilifuncion
dad para obtener estimaciones. El problema que se

de una funplantea es como


estimar l(p) a traves
b
eficiente l(p). Tomando log(pi ) como una vacion
riable de la que se pretende estimar su total, este
solucion.
Como se deplanteamiento presenta facil
talla en Chen y Sitter (1999) y para un determinado
muestral general, l(p) se puede estimar a
diseno
de la denominada log-funcion
de verosimilitraves
tud pseudo emprica, dada por:
X
b
di log(pi ),
l(p) =
is

que hacen que b


l(p) sea
donde di son pesos basicos
para l(p), es decir
insesgada bajo el diseno
#
"
N
h
i
X
X
di log(pi ) =
log(pi ) = l(p).
E b
l(p) = E
is

i=1

de verosimilitud emprica
Este cambio en la funcion

hace que esta tecnica


sea aplicable bajo un diseno

muestral general, a diferencia del metodo


original

propuesto por Chen y Qin (1993) que esta disenado

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

15

exclusivamente para muestreo aleatorio simple. Ba


jo este metodo
de muestreo, ambas perspectivas

del metodo
de verosimilitud emprica producen las
mismas estimaciones.
P
de la restriccion

(E2). Sustitucion
is pi xi = X.
P
conAl imponer que
is pi xi = X, se estan
siderando valores para pi que proporcionan estimaciones perfectas para X, y podemos plantearnos

como
de efectivo es el uso que se esta haciendo
adicional a traves
de la condicion

de la informacion
auxiliar
anterior. Por este motivo, si la informacion
a prex = (x1 , . . . , xP ) es conocida, una cuestion
a usar
guntarse sera: Cual es la mejor expresion
(2.3) para hallar el estimador de
en la restriccion
verosimilitud emprica? . Para resolver esta pregunta se ha definido la cantidad ui = u(yi , xi ), con
conocida
i = {1, . . . , N }, siendo u() una funcion
de yi y de xi y que verifica
N
1 X
ui = 0.
N i=1

que
De este modo, ui es una variable de calibracion
(2.3) por
reemplaza la expresion
N
1 X
pi ui =
ui = 0,
N i=1
is

La perspectiva dada en Chen y Sitter (1999) es mas


apropiada como se ha comprobado en las investigaciones

posteriores. Ademas,
puede ser aplicada a cualquier
muestral, no estando limitada exclusivamente al
diseno
muestreo aleatorio simple. De este modo, los primeros pa
sos antes de aplicar el metodo
de verosimilitud emprica
son:
fi1. Enfocar el problema bajo un modelo de poblacion
muestral y aplicanja, es decir, basado en el diseno
modelo-asistida, o bien, asumir
do la aproximacion
para poder aplicar el
un modelo de superpoblacion
enfoque modelo-calibrado.
u() utilizada en la restriccion

2. Determinar la funcion
mues(2.4). Para el enfoque basado en el diseno
tral se suele usar ui = xi X, mientras que bajo el
u() es unica
enfoque modelo-calibrado, la funcion

y facilmente
deducible a partir del modelo de super
poblacion.

Estimadores bajo muestreo aleatorio simple


(2.4)

que surge ahora es


donde ui = xi X. La cuestion

como
escoger u() para obtener estimadores mas

eficientes. En resumen, este metodo


dispone de numerosas alternativas o soluciones dependiendo de
u() escogida. Una eleccion
apropiada de
la funcion
supondra mas
exactitud en las estimaesta funcion
modelo-calibrada
ciones. El uso de la aproximacion
optima

es una solucion
a este problema cuando no
lineal entre y y x.
pueda asumirse una relacion

(E3). Utilizacion
de la aproximacion
modelocalibrada.
modelo-asistida,
En (E2) se usa una aproximacion
lineal (aunque
esto es, se asume una relacion
pueden establecerse relaciones de otro tipo) para
determinar unos valores ui apropiados, y posteriormente, se realizan estimaciones basadas en el
Si la relacion
entre la variable de interes
y
diseno.
y el vector de variables auxiliares x = (x1 , . . . , xP )
de un modelo de supuede ser descrita a traves
con una buena bondad de ajuste,
perpoblacion
puede resultar util
el uso de estimadores modelocalibrados (Wu y Sitter, 2001) frente a los esti Esta aproximacion

madores basados en el diseno.


consiste en asumir un determinado modelo de su obtener los valores estimados para la
perpoblacion,

variable y mediante este modelo, y a continuacion

usarlos en la etapa de estimacion.


En este sentido, se han propuesto varios mo
delos que dan lugar a los estimadores optimos

modelo-calibrados. Estos
usan el criterio de mni
ma esperanza bajo el modelo de superpoblacion
para obtener
de la varianza basada en el diseno
optima

la solucion
(vease
por ejemplo los trabajos

16

de Godambe, 1955, Godambe y Thompson, 1973


y Cassel et al., 1976). Los estimadores modelo
calibrados se desarrollan con detalle en la Seccion
2.2.3.

Una vez tenidas en cuenta estas consideraciones pre


vias, empezaremos analizando el metodo
de verosimilitud

emprica segun
Chen y Qin (1993), el cual esta disenado
para muestreo aleatorio simple.
formal del
Este estimador fue la primera aplicacion

metodo
de verosimilitud emprica en poblaciones finitas
de parametros

para la estimacion
lineales y usando infor auxiliar. Este planteamiento no se puede extender
macion
muestrales mas
complejos.
a disenos
Segun
Chen y Qin (1993), el uso de verosimilitud
emprica en el contexto de poblaciones finitas se puede
plantear de dos formas diferentes:
disponibles para
1. Si todos los valores de yi estan
en estudio, la Q
de verosimilitud
la poblacion
funcion
se define como L (p) = N
i=1 pi , donde pi es la

yi . En la practica
esdensidad de la observacion
no se va a presentar y lo mas
usual
ta situacion
es que yi sea conocida para los individuos de la
de verosimilitud
muestra s. En tal caso la funcion
emprica para cualquier
muestra
s, con s S, se
Q
define como L(p) = is pi , donde se requiere que
P
n
i=1 pi 1. Este planteamiento fue propuesto por
Jagers (1986) y es el que se sigue en varios estu de parametros

dios de estimacion
en muestreo de
poblaciones finitas mediante verosimilitud emprica
(Chen y Qin, 1993, Zhong y Rao, 1996, etc).
2. Segun
el esquema de muestreo propuesto por Hartley y Rao (1968), los cuales consideraban que la va solo
puede tomar un numero
riable de interes
finito

de valores, es decir, yi , con i = {1, . . . , I}. Bajo es la poblacion


media se define como:
ta situacion,
Y =

I
X
Ni
yi ,
N
i=1

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


donde Ni es el numero
de unidades en la poblacion

con caracterstica yi . Bajo muestreo aleatorio sim n, la verosimilitud basada en el


ple de tamano
esta dada por una distribucion
hipergeodiseno

metrica
multidimensional:

Ni
I
Y
ni

,
L(N1 , . . . , NI ) =
N
i=1
n
donde ni es el numero
de unidades en la muestra

con la caracterstica yi . Cuando N , Ni /N


pi , y n/N 0, la verosimilitud se puede aproximar
de verosimilitud de una distribucion

por una funcion


multinomial, a saber:
QI

n!

i=1 ni !

I
Y

i
pn
i .

i=1

Utilizando el primer planteamiento propuesto por


auJagers (1986), al maximizar L(p) sin usar informacion
xiliar, resulta pbi = 1/n para cada i s, y el estimador de
verosimilitud emprica esta dado por
y EL =

X
is

pbi yi =

1X
yi = y HT ,
n is

coincidiendo con el estimador directo usual para la media


poblacional.
auxiliar,
Cuando se dispone de alguna informacion

de la funesta
puede usarse en la etapa de maximizacion
de verosimilitud para obtener nuevos pesos pi que
cion
eficientes para la media.
produzcan estimaciones mas
auxiliar disponible para la
Se asume que la informacion
verifica
poblacion

conocida de yi y de
donde ui = u(yi , xi ) es una funcion
xi de vectores valuados. De este modo, el nuevo problema
consiste en maximizar L(p) sujeto a las restricciones:
X
pi = 1 (pi 0),
(2.5)
is

pi ui = 0.

(2.6)

is

Usando el metodo
de los multiplicadores de Lagrange, los
dados por:
valores esperados para pi , con i s, estan
pbi =

1
,
n (1 + t ui )

de la ecuacion

donde es la solucion
X
ui
= 0.
1 + t ui
is

is

X
is

pi xi

is

X
is

pi X =
X

pi xi X = 0

is

pi xi = X,

(2.10)

is

que indica que las cantidades pi dan estimaciones perfectas para X, y por tanto, deberan dar una buena aproxi para la media de variable de interes
si la relacion

macion
entre y y x es lineal.
Cuando ui = xi X, las soluciones a las ecuaciones
son obtenidas por Hartley y Rao
(2.7) y (2.8) tambien
de una aproximacion
similar. Estos autores
(1968) a traves
es asintotica
demostraron que el estimador de regresion
mente equivalente al estimador dado en (2.9). Un resultado similar puede hacerse para el estimador de la mediana propuesto por Kuk y Mak (1989) cuando ui = (x

Mx ) 0,5, siendo Mx la mediana de x, y () la funcion


indicadora que toma el valor (a) = 1 si a 0 y el valor 0
en otro caso.
(2.8) no tenga solucion.

Puede ocurrir que la ecuacion


surge cuando el conjunto convexo {ui , i
Esta situacion
s} no contiene al 0. Se han planteado dos soluciones para
este problema:
1. Usar la verosimilitud eucldea propuesta por Owen
(1991):
1X
(1 npi )2 ,
2 is
y no requerir que 0 pi 1.
(2.6) por
2. Reemplazar la restriccion
X
e,
pi ui = u

N
1 X
ui = 0,
N i=1

entre y y el vector x es liAsumiendo que la relacion


de calibracion
usual viene dada por ui =
neal, la funcion
(2.6) resulta ser
xi X, en cuyo caso la restriccion
X
X
pi ui =
pi (xi X) =

(2.7)

(2.8)

El estimador de verosimilitud emprica para la media


poblacional bajo muestreo aleatorio simple y usando la
metodologa de Chen y Qin (1993) esta dado por
X
y EL =
pbi yi .
(2.9)
is

is

e esta dentro del conjunto convexo y tiende


tal que u
a 0.
en la
En cualquier caso, cuando n es grande, la situacion
(2.8) no tiene solucion
es poco probable.
cual la ecuacion

Existen situaciones extremas en las cuales el metodo


de verosimilitud emprica es incapaz de usar la informa auxiliar, como por ejemplo, cuando x es dicotomica

cion
y

todas las observaciones son xi = 1. Estos casos tambien

son poco probables en la practica.

muestral general
Estimadores bajo un diseno

El estimador del apartado anterior esta disenado


solo
para muestreo aleatorio simple, y su metodologa no se

complepuede extender a otros disenos


muestrales mas
de
jos. Chen y Sitter (1999) proponen una aproximacion
verosimilitud pseudo emprica que es aplicable a cualquier
muestral y coincide bajo muestreo aleatorio simple
diseno
con el estimador propuesto en Chen y Qin (1993).

El metodo
de verosimilitud emprica para un diseno
muestral general asume que la muestra s es seleccionada
muestral, p(), es decir, la muestra
usando algun
diseno

1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

17

s S es extrada con probabilidad p(s). El objetivo es


en estudio, es
maximizar la verosimilitudQde la poblacion
decir, maximizar L (p) = N
i=1 pi . Por conveniencia, y te logaritmo,
niendo en cuenta la monotona de la funcion
se
considera
el
objetivo
de
maximizar
l(p)
=
log L (p) =
PN

solo de disponen de los valoi=1 log pi . En la practica,

por
res yi para las unidades de la muestra, pudiendose,
tanto, utilizar unicamente
las cantidades pi para i s. Es
eficiente para
to provoca que se necesite una estimacion
viene dada por la llamada funcion

l(p). Esta estimacion


de verosimilitud pseudo emprica
X
b
di log pi ,
(2.11)
l(p) =
is

insesgada
que tiene la propiedad de ser una estimacion
para l(p), esto es
bajo el diseno
"
#
N
X
X
b
E[l(p)] = E
di log pi =
log pi = l(p),
is

i=1

muestral.
donde E[] denota la esperanza bajo el diseno
auxiliar se incorpora a traves
de la funLa informacion
de calibracion
ui = u(yi , xi ), donde u() es una funcion
de yi y de xi que debe satisfacer:
cion
N
1 X
ui = 0.
N i=1

Las cantidades pbi necesarias para obtener el estimador


de verosimilitud pseudo emprica (P EM LE) se obtienen
dada en (2.11) sujeta a las resmaximizando la funcion
tricciones (2.5) y (2.6).

Usando el metodo
de los multiplicadores de Lagrange
para resolver este problema, se obtiene, para i s, las
cantidades
di
,
(2.12)
pbi =
1 + t ui
donde el vector de multiplicadores de Lagrange, , es la
de la expresion:

solucion
X
is

di ui
= 0,
1 + t ui

(2.13)

siendo di = di / js dj . El P EM LE para la media


poblacional se define entonces como
X
yP E =
pbi yi .
(2.14)
is

lineal entre
Se recuerda que asumiendo una relacion
de calibracion
ui =
y y x se suele considerar la funcion
(2.6) puede expresarse
xi X. En este caso, la restriccion
como:
X
pi xi = X.

coincide con el estimador directo usual de tipo HorvitzThompson, aunque se demuestra que disfruta de buenas

propiedades respecto a este ultimo


(vease
Rao, 1966, Ba

su, 1971 y Sarndal


et al., 1992). Respecto al problema de
de la funcion
de distribucion,
el estimador
la estimacion

de tipo Hajek
disfruta de mejores propiedades, puesto
que el estimador de tipo Horvitz-Thompson no cumple las
de distribupropiedades para ser una verdadera funcion
(en concreto lmt+ FbHT y (t) 6= 1), propiedades
cion

que si posee el estimador de tipo Hajek.


de distribucion
tambien

Esta propiedad para la funcion


de calibracion,
y no tan
se cumple para cualquier funcion
dadas en
solo para ui = 0. Esto es, las cantidades pbi P
(2.12) son estrictamente positivas y satisfacen is pbi =
1 (como puede comprobarse en (2.5)), condiciones nece de distribucion,

sarias para estimar una verdadera funcion


hecho que no sucede, por ejemplo, con los estimadores
generalizados (GREG) definidos en Cassel
de regresion

et al. (1976) y Sarndal


(1980) o los estimadores de cali propuestos en Deville y Sarndal

bracion
(1992).
se dan expresiones del P EM LE para
A continuacion,
muestrales mas
simples y conocidos. De
algunos disenos
estos ejemplos se desprende que la aplicabilidad de esta metodologa no es tan complicada y que estos esti relacionados con otros estimadores tradimadores estan
cionales.
Ejemplo 2.1 Muestreo Aleatorio Simple.
i = n/N , di = 1/i = N/n y
P Bajo este diseno

js dj = N , obteniendose
di = P

is

is

que coincide con el estimador directo para la media

poblacional de tipo Hajek.


En general, este estimador no

js dj

yP E =

X
is

pbi yi =

1
.
n

(2.15)

1X
yi ,
n is

(2.16)

que coincide con el estimador usual bajo muestreo aleatorio simple (y HT ) y con el estimador y EL propuesto en
Chen y Qin (1993).
auxiliar, el P EM LE viene daUsando la informacion
do por
X
yP E =
pbi yi ,
(2.17)
is

donde
pbi =

1
,
n(1 + t ui )

de la ecuacion

y es la solucion
X
ui
1 + t ui

= 0.

(2.18)

(2.19)

Puede observarse que este estimador coincide, de nuevo,


con el estimador y EL .
Ejemplo 2.2 Muestreo con probabilidades iguales y
con reemplazamiento.

En los metodos
de muestreo con reemplazamien
to se demuestra (vease
Han-sen y Hurwitz, 1943) que
di = 1/(ni ), donde i es la probabilidad de que la

18

auxiliar, ui = 0, pbi =
Si no se dispone de informacion
di y el P EM LE para la media poblacional esta dado por

is

auxiliar, en
En el caso de no disponer de informacion

de verosimilitud
cuyo caso se toma ui = 0, el metodo
emprica produce pbi = di , y el P EM LE viene dado por
X
yP E =
di yi ,

di

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


al tratarse de
unidad i-esima
sea seleccionada. Ademas,
un muestreo con probabilidades iguales se tiene que i =
1/N y por tanto di = N/n, que coincide con los pesos

basicos
en un muestreo aleatorio simple. En consecuencia, las expresiones (2.15), (2.16), (2.17), (2.18) y (2.19)
La unica
coinciden en este diseno.
diferencia esta en la

muestra, es decir, el metodo


para seleccionarla es distinto
aqu es posible tener unidades repetidas.
y ademas
Ejemplo 2.3 Muestreo con probabilidades desiguales
y sin reemplazamiento.
Se tiene que di = 1/i ,
1/i
di
, donde di = P
,
pbi =
1 + t ui
js 1/j

js dj

= P

1/i
.
js 1/j

Algoritmo 2.1

Paso 1: Calcular (k ) donde

Ejemplo 2.4 Muestreo con probabilidades desiguales


y con reemplazamiento.
Es sabido que en este caso di = 1/(ni ), donde i es

la probabilidad de que la unidad i-esima


sea seleccionada
y por tanto
en cada extraccion
di

is

con respecto a sobre el conjunto convexo A, puesto que


de g() = 0 exise
l()/ = g(). Si la unica
solucion

te, esta
puede encontrarse aplicando la siguiente modifi del algoritmo de Newton-Raphson:
cacion

Paso 0: Sea 0 = 0, k = 0, 0 = 1 y = 108 .

de la ecuacion
(2.13). Sabido esto, el
y es solucion
P EM LE se construye segun
(2.14).
Bajo este muestreo existen muchos procedimientos para extraer una muestra (consultese,
por ejemplo,

Chaudhuri y Vos, 1988). Todos ellos poseen expresiones


que permiten calcular las cantidades i , necesarias para

obtener el P EM LE. En este texto se usan los metodos


de

Lahiri, Midzuno y Poisson (vease


Lahiri, 1951, Midzuno,

1952, Hajek,
1964, Ogus y Clark, 1971, Singh, 2003, etc).

En el Apendice
?? pueden consultarse funciones en el
R que permiten extraer mueslenguaje de programacion
tras basadas en estos procedimientos de muestreo con
probabilidades desiguales.

di = P

A = { : 1 + t ui > 0, i s}. El problema de maximizar la


b
funcion
l(p), definida en (2.11), sujeta a las restricciones

(2.5) y (2.6) es similar al problema de maximizar la funcion

concava
X
e
di log(1 + t ui ),
l() =

(2.20)

Y as, el P EM LE se construye mediante la expresion


de cada
(2.14). En el caso particular de usar el tamano
de
unidad como una variable auxiliar para la asignacion
probabilidades, se tiene que i =PMi /M , donde Mi es
de la unidad i, y M = N
el tamano
i=1 Mi . Sustituyendo
(2.20), se obtiene una expresion

este valor en la expresion


simple para el P EM LE.
mas
sin resolver hasta el momento es el
Una cuestion

procedimiento a seguir para despejar en la expresion


se ha de verificar que las canti(2.13), donde ademas,
de este problema
dades pbi sean positivas. La resolucion
no es tan simple al tratarse de ecuaciones no lineales,

debiendose
emplear metodos
especficos para la resolu de ecuaciones no lineales, como el de biseccion
o el
cion
se describe una mode Newton-Raphson. A continuacion
del metodo

dificacion
de Newton-Raphson, propuesto en
Chen et al. (2002), para el calculo del P EM LE en ca y esta

so de que este problema tenga una unica


solucion

exista.
Sea
X di ui
.
g() =
1 + t ui
is
Para una muestra dada, s, el conjunto de valores factibles
de tal que pbi > 0 esta dado por el conjunto convexo

() =

g () =

X
is

1

g ()

di ui uti
(1 + t ui )2

)1

;
X
is

di ui
.
1 + t ui

Si k(k )k < , se detiene el algoritmo y la solucion


es k . En otro caso ir al Paso 2
Paso 2: Calcular k = k (k ). Si 1 + (k k )t ui 0
para algun
l(k k ) < e
l(k ), entonces tomar
ioe
k = k /2 y repetir el Paso 2.
Paso 3: Considerar k+1 = k k , k = k + 1 y k+1 =
(k + 1)1/2 . Ir al Paso 1.
k k denota la norma eucldea.
La expresion
de este resultado puede consultarse
La demostracion
en Chen et al. (2002). As mismo, puede comprobarse que
del metodo

este algoritmo es similar a la modificacion


de
Newton descrito en Polyak (1987). Los cambios del paso
el valor de sigue den2 aseguran que en cada iteracion
e
concava

tro del rango de A y que la funcion


l() se mueve

alrededor del punto maximo.


El algoritmo es simple, eficiente y la convergencia esta garantizada, lo cual indica

que, salvo en casos extranos,


el P EM LE puede siempre
obtenerse.

Estimadores bajo muestreo estratificado


La metodologa de verosimilitud emprica para obtener estimadores en muestreo de poblaciones finitas

complejos, como
se extiende a disenos
muestrales mas

por ejemplo muestreo estratificado. Siguiendo la notacion

clasica
del muestreo estratificado, se define la log-funcion
de verosimilitud en muestreo estratificado como
l(p) =

Nh
L X
X

log(phi ),

(2.21)

h=1 i=1

que puede verse como un total poblacional, cuya esti insesgada a partir de la muestra s y bajo un diseno

macion
muestral especfico esta dada por
b
l(p) =

L X
X

dhi log(phi ).

(2.22)

h=1 ish

1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

19

En este caso, dhi son los pesos disenados


basicos
que
de verosimilitud
hacen que b
l(p), denominada log-funcion
para l(p).
pseudo emprica, sea insesgada bajo el diseno
Por ejemplo, asumiendo muestreo aleatorio simple en cada estrato, se tiene dhi = Nh /nh .
En muestreo estratificado, el P EM LE se obtiene
(2.22) sujeta a las restricciones
maximizando la funcion
X
phi = 1 (phi > 0), h = {1, . . . , L},
(2.23)
ish

Wh

phi xhi = X.

(2.24)

ish

(2.24) se ha considerado por comodidad


En la restriccion
lineal entre y y x, aunque es posible modificar
una relacion
en caso de existir o considerar oportuno
esta restriccion
entre y y x.
asumir otro tipo de relacion
Una vez obtenidas todas las soluciones pbhi de
este problema, el P EM LE bajo muestreo estratificado
esta dado por
y P Est =

L
X

Wh

h=1

X
ish

pbhi yhi .

(2.25)

P h
Dependiendo de si las cantidades Xh = Nh1 N
i=1 xhi

son conocidas o no, el calculo


de este estimador se puede
orientar en dos caminos distintos.
En primer lugar, si las cantidades Xh son conocidas
lineal, la
para h = {1, . . . , L}, y asumiendo una relacion
(2.24) puede sustituirse por la restriccion

restriccion
X
phi xhi = Xh , h = {1, . . . , L},
(2.26)
ish

y el problema que se plantea en este caso es maximizar


(2.22) sujeta a las restricciones (2.23) y (2.26). Segun

este planteamiento, el calculo del P EM LE bajo muestreo


estratificado es bastante simple, esto es, se calcula el
P EM LE para cada estrato, y P Eh , y el estimador final
viene dado por
y P Est =

L
X

Wh y P Eh .

h=1

Por otro lado, cuando Xh son desconocidas para


(2.26) no puede establecerse,
cualquier h, la restriccion
y el problema de maximizar (2.22) sujeto a las restriccio tan simple. Incluso
nes (2.23) y (2.24) no es una cuestion
resulta imposible aplicar el Algoritmo 2.1 bajo muestreo
(2.22) y la restriccion

estratificado debido a que la funcion


formuladas para el conjunto de los estratos,
(2.24) estan
esto es, contienen dobles sumatorias, mientras que la re (2.23) esta formulada a nivel del estrato, es destriccion
cir, contiene una sola sumatoria. Existen dos estrategias
optima:

a seguir para buscar una solucion


(2.24), considerar otra
(G1). En lugar de la restriccion
arbitraria para cada estrato y buscar la
restriccion
intermedia bajo esta situacion.
La solucion

solucion
del metodo

final se obtiene a traves


de verosimilitud
emprica.

(G2). Reemplazar las restricciones de modo que las


todas formuladas a nivel del conjunto
nuevas esten
de los estratos, y por tanto el Algoritmo 2.1 pueda
ser aplicado.
La estrategia (G1) fue seguida por Chen y Sitter
(1999). El planteamiento que se propuso es el siguiente.
El P EM LE bajo muestreo estratificado se calcula con
siderando los pesos pbhi obtenidos al maximizar la funcion
(2.22) sujeta a las restricciones
P P
h
ish phi = 1,
(2.27)
P P
h
ish phi xhi = X.

Estas restricciones surgen al incorporar la informacion


de cada estrato, es deauxiliar contenida en el tamano
auxiliar usada para construir el
cir, toda la informacion

P EM LE se puede incluir en los vectores ui = Ui U ,

t
donde i = {1, . . . , N }, Ui = (xi , 1i , . . . , Li ) , U =
(X, W1 , . . . , WL )t y hi vale 1 si i h y 0 en otro caso.
de los tamanos
de los esEn este sentido, la informacion
tratos se usa de forma efectiva, lo cual no ocurre ni con
generalizado (GREG) ni con
el estimador de regresion

(ORE) propuesto en
el estimador optimo
de regresion
Rao (1994), y esto hace que se obtengan mejores estimaciones. A su vez, bajo muestreo estratificado, el ORE
eficiente que el GREG porque usa la correlacion

es mas
entre y y x. Asumiendo muestreo estratificado aleatorio, el
P EM LE es equivalente al ORE (y ambos mejores que el
GREG) puesto que los pesos muestrales son constantes
del estrato
dentro de cada estrato e incluyen el tamano
No obstante,
que es equivalente a incluir la correlacion.
muestral, por ejemplo muestreo
asumiendo otro diseno

estratificado con probabilidades proporcionales al tamano


eficiente que el ORE
en cada estrato, el P EM LE es mas

debido a que usa los tamanos


de los estratos que con importante que no es suministrada ni
tienen informacion
En repor los pesos muestrales ni por la correlacion.
sumen, bajo muestreo estratificado, el P EM LE gana en

eficiencia respecto a otros estimadores (vease,


por ejemplo, Chen y Sitter, 1999, Zhong y Rao, 1996, Zhong y Rao,
2000).
Segun
lo descrito, se ha de resolver el problema de
maximizar (2.22) sujeta a las restricciones (2.27). Como
las restricciones
P
h = {1, . . . , L},
ish phi = Wh ,
(2.28)
P
e
h = {1, . . . , L},
ish phi xhi = Wh xh ,
son equivalentes a las dadas en (2.27), el problema se
resuelve buscando las cantidades
P

e
xh ,

(2.29)

xh = X y maximizando (2.22) sujeta a las


tal que h Wh e

nuevas restricciones (2.28). Aplicando el metodo


de los
que se obtiene
multiplicadores de Lagrange, la solucion
es
Wh dhi
,
(2.30)
pbhi =
dh + th (xhi e
xh )

donde h para h = {1, . . . , L}, se obtiene de la ecuacion


X
ish

20

h = {1, . . . , L},

dhi (xhi e
xh )
= 0,
dh + th (xhi e
xh )

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

(2.31)

y dh =
para la
ish dhi . Sabido esto, el valor maximo
(2.22) es
funcion
XX
dhi log(b
phi ) =

ha sido descrito en Zhong


Este algoritmo, que tambien
eficiente cuando la variable auxiy Rao (2000), es mas
liar x es unidimensional, puesto que en este caso puede
incrementando o disminuyendo el
encontrarse la solucion
h ish

valor de t, el cual es unidimensional. Cuando se tiene mas


XX

es un problema
de una variable auxiliar, buscar la solucion
t
dhi log dh + h (xhi e
xh ) +
(2.32) mas
=
complejo al tener que aumentar o disminuir un vech ish
el calculo de pbhi requiere resolver repetitor t. Ademas,
XX
+
dhi [log(dhi ) + log(Wh )] .
(2.33) damente sistemas no-lineales de grandes dimensiones
(2.34), y esto en la practica

segun
es difcil
h ish
la expresion
de calcular. Por estas razones, se han buscado aproximaComo (2.33) es constante, se puede
maximizar
(2.32)
resP

ciones alternativas, que sean eficientes y faciles


de llevar
e

pecto a e
xh y bajo la condicion
h Wh xh = X. Notamos

a
la
pr
actica
tanto
si
se
dispone
de
una
variable
auxiliar
e
que depende de xh . Usando de
que h es una funcion
como si son varias.

nuevo el metodo
de Lagrange, se tiene
En Wu (2004b) se detalla el siguiente planteamiento
xL , t) =
l(e
x1 , . . . , e
que resuelve los inconvenientes anteriores y se basa en
L
! la estrategia (G2).
XX

t X
t
El objetivo que se persigue es poder aplicar el Algoritxh X .

dhi log dh + h (xhi e


xh ) t
Wh e

mo 2.1 de Chen et al. (2002). Para ello, tanto la log-funcion


h ish
h=1
de verosimilitud pseudo emprica como las restricciones
Tomando derivadas respecto a e
xh e igualando al vector de deben estar formuladas para el conjunto de los estratos,
ceros se obtiene
esto es, todas deben tener dobles sumatorias. Para este
t

(2.23) por
proposito,
se tiene que reemplazar la expresion
h
t
(xhi e
xh ) h
X dhi e
otra
similar
formulada
a
nivel
poblacional.
Sean
las resxh
tt Wh = th tt Wh = 0, tricciones

t
dh + h (xhi e
xh )
L
ish
X
X
Wh
phi = 1,
(2.35)
t
t
(2.31) puede exprey por tanto h = Wh t . La expresion
ish
h=1
X
sarse como
phi = 1, h = {1, . . . , L 1}.
(2.36)
X
dhi (xhi e
xh )
ish
= 0.
(2.34)
dh + Wh tt (xhi e
xh )
is
Manteniendo al margen (2.35), se combinan (2.36) y
h

Debido a estos desarrollos, puede emplearse el siguiente


algoritmo para la busqueda
de los pesos pbhi necesarios

para obtener el P EM LE en muestreo estratificado.

(2.24) anadiendo
en el vector de variables auxiliares L 1
variables indicadoras para cada estrato. Esto es, si xhi =
(xhi1 , . . . , xhiP ), se define
z1i
z2i

Algoritmo 2.2
Paso 1. Fijar un vector t y obtener las cantidades e
xh , h =
(2.34).
{1, . . . , L}, soluciones de la expresion
P
xh = X, se calculan las cantidades pbhi
Paso 2. Si h Wh e
segun
(2.30), donde h = Wh t. En caso contrario,
elegir otro t y volver al paso anterior.
Una vez calculadas las cantidades pbhi , con i sh
y h = {1, . . . , L}, mediante el algoritmo anterior, el
P EM LE esta dado por
yP E =

L
X

h=1 ish

pbhi yhi .

Se deben de tener en cuenta las siguientes observaciones


cuando se aplica el Algoritmo 2.2:
Las cantidades e
xh se pueden ver como funciones
(2.34).
que dependen de t, segun
la expresion
P

xh es monotona
Se tiene que h Wh e
respecto t. Esto es importante para determinar las soluciones e
xh ,
puesto que aumentando o disminuyendo el valor t,

es posible llegar facilmente


a ellas.
esta asegurada
La unicidad de la solucion
como
P
e
x
W
resconsecuencia de la monotona de
h
h
h
pecto t.

z(L1)i
zLi

=
=
..
.
=
=

(1, 0, . . . , 0, x1i1 , . . . , x1iP )t ,


(0, 1, . . . , 0, x2i1 , . . . , x2iP )t ,
(0, 0, . . . , 1, x(L1)i1 , . . . , x(L1)iP )t ,
(0, 0, . . . , 0, xLi1 , . . . , xLiP )t ,

=
(W1 , . . . , WL1 , X 1 , . . . , X P )t , siendo
y Z
t
(X 1 , . . . , X P ) = X. As, las restricciones (2.36) y

(2.24) se pueden combinar mediante la restriccion


L
X

Wh

h=1

phi zhi = Z.

(2.37)

ish

El problema de maximizar b
l(p) sujeta a (2.23) y (2.24)
es equivalente a maximizar b
l(p) sujeta a (2.35) y (2.37).

Usando el metodo
de los multiplicadores de Lagrange a

este
ultimo
planteamiento, se obtiene

pbhi =

dhi
= 0,
1 + t uhi

donde
dhi =

Wh

PL

dhi
P

h=1

ish

dhi

uhi = zhi Z,

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

21

de
y es solucion
L X
X
h=1 ish

dhi uhi
= 0.
1 + t uhi

(2.38)

es posible aplicar el Algoritmo 2.1, esEn esta situacion


si
tando garantizada la convergencia a la unica
solucion,

existe.
tal solucion

Ejemplo 2.5 Estimadores bajo muestreo bifasico.


Los estimadores comentados hasta el momento en
estan
basados en un diseno
muestral general
esta seccion
y utilizan el vector media poblacional de las variables auxiliares para obtener las estimaciones. Cuando este vector es desconocido, ni los estimadores de verosimilitud
emprica ni cualquier otro estimador basado en informa auxiliar puede ser utilizado, puesto que la mayora de
cion

estos
se construyen con ayuda de X para mejorar la pre en la estimacion
de parametros

cision
de la variable de
Vease,

interes.
por ejemplo, Cochran (1977) y Sarndal
et
al. (1992) para consultar los numerosos estimadores en la
literatura del muestreo de poblaciones finitas que hacen
auxiliar.
uso de la informacion
anterior, donde tan solo se conocen los
En la situacion
datos muestrales de las variables auxiliares, es necesario
medianestimar X o intentar dar una buena aproximacion

te alguna tecnica
o recurso. El muestreo bifasico
(tambien
denominado muestreo doble o en dos fases) permite estimar estas cantidades desconocidas y por tanto, es posible

auxiliar.
utilizar todos los metodos
basados en informacion
De este modo, en este ejemplo se resuelve el proble de parametros

ma de la estimacion
lineales en muestreo

bifasico
con disenos
muestrales arbitrarios en cada una

de las dos fases y aplicando el metodo


de verosimilitud
emprica.

En muestreo bifasico,
el metodo
de verosimilitud
emprica puede ser aplicado como sigue. El P EM LE
viene dado por
X
y P Eb =
pbi yi
(2.39)
is

de verosimidonde los pesos pbi maximizan la log-funcion


litud pseudo emprica
X
b
di log(pi )
(2.40)
l(p) =
is

sujeta a las restricciones


X
pi = 1

(pi 0)

(2.41)

is

pi u0i = 0

(2.42)

que viene a indicar que si los pesos que van a se estimados se ponderan sobre los datos muestrales del vector
de variables auxiliares de la segunda fase, se obtendra la
cantidad x0 , es decir, la media muestral del vector de las
variables auxiliares obtenida a partir de la muestra de la
primera fase. De ah la importancia de realizar un gran es para X con los
fuerzo para obtener una buena estimacion
datos de la muestra de la primera fase.
del problema planteado se resuelve por
La solucion

el metodo
de los multiplicadores de Lagrange, obteniendo
para todo i s las cantidades
como solucion
pbi =
donde
di = P

is

lineal entre y y x, es usual considerar


Asumiendo relacion
(2.42) se puede expresar
u0i = xi x0 , y la restriccion
como
X
1 X
pi xi = 0
xi = x0 ,
n
0
is
is

22

di
js

dj

= P

d0i di/s0
,
0
0
js dj dj/s

y es el vector de multiplicadores de Lagrange que se

obtiene de la ecuacion
X di u0i
= 0.
1 + t u0i
is

2.2.2.

Propiedades teoricas

En esta seccion
se describen las propiedades

importantes de los estimadores de veasintoticas


mas
muestral. En
rosimilitud emprica basados en el diseno

primer lugar, se describen las propiedades teoricas


mas
importantes del estimador de verosimilitud emprica propuesto en Chen y Qin (1993) bajo muestreo aleatorio sim se demuestra la relacion
que tiene
ple. A continuacion,

el P EM LE con los conocidos estimadores de regresion.


se completa con las propiedades teoricas

Esta seccion
de
los estimadores de verosimilitud emprica en muestreo es con otros estimadores.
tratificado y su relacion

Propiedades en muestreo aleatorio simple

A continuacion
se estudian las propiedades

asintoticas
del estimador de verosimilitud emprica
descrito en Chen y Qin (1993). Asumamos muestreo
de la muestra, n, y
aleatorio simple, donde el tamano
de la poblacion,
N , tienden a infinito cuando
el tamano
un cierto ndice, , tiende a infinito, es decir, existe una
de poblaciones finitas indexadas por , donde
sucesion
poblacional
= {(x1 , y1 ), . . . , (xN , yN )} y el tamano
N tiende a infinito. Por comodidad, se suprime el ndice
una variable
siempre que sea posible y se considera solo
auxiliar. Sea

is

donde para todo i s, di = d0i di/s0 , y u0i es una funcion


que depende de y y de los valores de x obtenidos en la
esta funcion
ha
muestra de la primera fase, s0 . Ademas,
de verificar
X
1
u0i = 0.
n0
0

di
,
1 + t u0i

x2 =

N
1 X
(xi X)2 ,
N 1 i=1

xy =

y2 =

N
1 X
(yi Y )2 ,
N 1 i=1

N
1 X
(xi X)(yi Y ),
N 1 i=1

y x, y, s2x , s2y y sxy sus correspondientes versiones mues de calibracion


satisface
trales.
PN Se considera que la funcion
i=1 ui = 0 y se tiene que
u2 =

N
1 X 2
ui ,
N 1 i=1

yu =

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

N
1 X
(yi Y )ui .
N 1 i=1

se estima a
La media poblacional de variable
de interes
P
del estimador y EL = is pbi yi . Los siguientes teotraves
remas pueden ser definidos.

Teorema 2.1 Suponiendo que cuando , el tamano


muestral n, y N n tienden a
poblacional N , el tamano
infinito, y
)
)
( N
( N
1 X
1 X
3
3
|ui | ,
|yi | ,
N i=1
N i=1
tienen una cota superior independiente de , entonces se
verifica
n1/2 (y EL Y )
N (0, 1),

yu
n
y2 2 .
donde 2 = 1
N
u
de este resultado puede consultarse
La demostracion
en Chen y Qin (1993). Una consecuencia importante que
puede observarse de este teorema es que a mayor cor entre u e y, mayor sera la ganancia en precision.

relacion

Se demuestra que la eficiencia asintotica


del metodo
es

equivalente a la del metodo


de regresion.

En la practica,
la cantidad 2 es desconocida, con lo
que se tiene que buscar un buen estimador. Una alternati de y2 , yu y u2 por separado, aunque
va es la estimacion
muestrales moderados trabaja mejor el estipara tamanos
mador jackknife para la varianza. En el siguiente teorema,
debido a Chen y Qin (1993), se demuestra que el estimador jackknife es un buen estimador para 2 .
Teorema 2.2 Bajo las mismas condiciones del Teorema
j2.1, si y EL (j) es el estimador cuando la observacion

esima
es eliminada y

X
n
(n 1)
(y EL (j) y EL )2 ,

bJ2 = 1
N
is
entonces,

bJ2 2 = op (1).

y as y P E = y GREG + op (n1/2 ), donde

X
(xi xw )(xw X)

e
e
P
,
y GREG =
di yi , di = di 1

2
is di (xi xw )
is
yw =

di yi ,

is

Teorema 2.3 Bajo las condiciones (C2.1) y (C2.2), el

P EM LE de Y cuando X es conocida, es asintotica generalizado


mente equivalente al estimador de regresion
(GREG). Es decir,
= P

xw X
+ op (n1/2 ),

2
d
(x

x
)
i
w
i
is

di xi

is

di = P

di
js

dj

Propiedades en muestreo estratificado


La primera propiedad del P EM LE en muestreo estratificado se basa en el Teorema 2.3.
Corolario 2.1 Bajo las condiciones (C2.1) y (C2.2) se
tiene
PL P

h=1
is dhi (xhi xw )yhi
yP E = yw PL P h
(xw X)+op (n1
2
d
(x

x
)
w
hi
h=1
ish hi
donde
n=

En lo que sigue, se asume una sola variable auxiliar


de calibracion
ui = xi X. Consideremos
y la funcion
las siguientes condiciones
tambien

El siguiente teorema, debido a Chen y Sitter (1999), puede


establecerse.

Las condiciones (C2.1) y (C2.2) deben satisfacerse


para que este teorema pueda establecerse. Sin embargo,

estas condiciones no son muy restrictivas y los disenos


muestrales mas conocidos las satisfacen. En Chen y Sitter

(1999) se demuestra como


estas condiciones se cumplen

en tres disenos
comunes, como son, el muestreo con
con reemplazaprobabilidades proporcionales al tamano

miento, el metodo
de Rao-Hartley-Cochran y el muestreo
por conglomerados.
de la varianza
Un punto importante es la estimacion
el Teorema 2.3, resulta evidel estimador y P E . Segun
dente que cualquier estimador de la varianza consistente
para y GREG sera consistente para el P EM LE. Aunque

esto es asintoticamente
valido,
no es atractivo usar un
estimador de la varianza del GREG para estimar la va
rianza del P EM LE. Una alternativa optima
es aplicar
estimadores de la varianza remuestreados, tales como
jackknife, bootstrap y replicaciones de muestras repetidas
balanceadas (ver Shao y Wu (1989, 1992), Chen y Qin
(1993) y Shao (1994)) sobre y P E , recalculando pbi en cada muestra.

muestral general
Propiedades para un diseno

(C2.1). u = maxis |ui | = op (n1/2 ),


P
is di ui
P
= Op (n1/2 ).
(C2.2).
2
d
u
i
i
is

xw =

L
X

nh

yw =

L X
X

dhi yhi ,

h=1 ish

h=1

xw =

L X
X

dhi xhi

dhi = PL

h=1

h=1 ish

dhi
P

jsh

dhj

Considerando muestreo aleatorio estratificado, es de anterior se reduce


cir, cuando dhi = Nh /nh , la expresion
a
PL P
h=1
is Wh (xhi xst )yhi /nh
y P E = y st PL P h
(xst X)+
2
h=1
ish Wh (xhi xst ) /nh
+op (n1/2 ) = y GREG + op (n1/2 ),
donde
y st =

L
X
h=1

Wh y h

y xst =

L
X

Wh xh .

h=1

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

23

posible, puesto que


Esta no es la mejor aproximacion
optimo

se sabe que el estimador de regresion


(ORE),
definido en Rao (1994), funciona mejor que el GREG en
muestreo estratificado. Por este motivo, en Chen y Sitter
En el siguien(1999) se busca una mejor aproximacion.
te corolario se relaciona el P EM LE con el ORE bajo
muestreo aleatorio estratificado. Para ello, se asume que
de poblaciones finitas indexadas por
existe una sucesion
, tal que cuando se verifican las condiciones
P
2
(C2.3). 0 c1 L
h=1 Wh h c2 ,
1
(C2.4). max{n1
),
h Wh } = O(n
PNh
1 P L
3
(C2.5). N
|x
|
=
O(1),
hi
h=1
i=1
PNh
1 P L
3
(C2.6). N
h=1
i=1 |yhi | = O(1).

Corolario 2.2 Bajo muestreo aleatorio estratificado y las


condiciones (C2.3), (C2.4), (C2.5) y (C2.6), el P EM LE

equivade Y , cuando X es conocida, es asintoticamente


lente a y st , esto es, y P E = y st + op (n1/2 ), donde
P
PL
eh )yhi /nh
h=1 Wh
is (xhi x

y st = y st PL
(xst X),
P h
eh )2 /nh
h=1 Wh
ish (xhi x
definidas en (2.29). Cuando L
y las cantidades x
eh estan
permanece finito, x
eh xh = Op (n1/2 ) y el estimador y P E

es asintoticamente
equivalente al estimador lineal optimo
dado en Rao (1994).

Asumiendo otros disenos


muestrales en cada estrato, las comparaciones con respecto otros estimadores son

demasiado dificultosas y se ha de recurrir a la simulacion


para realizar las comparaciones.
de la varianza se obEn este caso, la estimacion
a traves
de estimadores de la varianza retiene tambien
muestreados. En Chen y Sitter (1999), se demuestra que
bajo muestreo aleatorio estratificado el estimador de la varianza jackknife para el P EM LE es consistente.

2.2.3.

Estimadores modelo-calibrados

Una de las restricciones considerada en los estimadores de verosimilitud emprica viene dada por
X
pi ui = 0,
(2.43)
is

conocida de y
donde ui = u(yi , xi ) y u() es una funcion
y de x que verifica
N
1 X
ui = 0.
N i=1

(2.44)

lineal entre la caracterstica de inAsumiendo una relacion


y el vector auxiliar de variables, se utiliza frecuenteteres

ui = xi X, y se plantea la cuestion
mente la expresion

de como
de efectivo es el uso que se esta haciendo de
auxiliar. Si tal relacion
no es lineal, los estila informacion
madores de verosimilitud emprica obtenidos a partir de la
ui = xi X pueden resultar ineficaces y surge,
expresion
de calipor tanto, el problema de encontrar una funcion
apropiada para los datos del estudio, es decir, que
bracion
para poder usar la informacion

se adapte a cada situacion

auxiliar de la mejor manera posible. Una alternativa eficiente para resolver este problema es el uso de los esti basados en
madores modelo-calibrados, los cuales estan

modelos de superpoblacion.

Recientemente, en la literatura del muestreo se estan


basadas
utilizando a menudo estimaciones que no estan
muestral, sino que dependen de un determien el diseno
que relaciona la variable
nado modelo de superpoblacion
a traves
de las variables auxiliares. Tales prode interes
cedimientos son los estimadores basados en modelos y
de
los estimadores modelo-calibrados. Con la aparicion
la teora de muestreo tuvo
los modelos de superpoblacion
un gran empuje pues se le doto de un instrumento muy
concluyentes
valioso que permitio obtener resultados mas
de estrategias y eventualmente proen la comparacion

ducir estrategias optimas


en varias situaciones. Ejemplos
sobre modelos de superpoblacion
pueden
e informacion
consultarse, por ejemplo, en Godambe (1955), Godambe

y Thompson (1973), Cassel et al. (1976), Perez


(2002) y

Sanchez-Crespo
(2002).
propuestos
Los estimadores modelo-calibrados estan
en Wu y Sitter (2001), y se obtienen adaptando un mode y a continuacion,
usando los valolo de superpoblacion,
res estimados mediante este modelo en la etapa de es As, se obtiene una funcion
eficiente de calitimacion.
y ademas
es posible encontrar la mejor funcion

bracion,
u() en el sentido de mnima esperanza bajo un modelo
de la varianza asintotica

de superpoblacion
basada en el

diseno.
Los valores ui pueden expresarse como
ui = wi

N
1 X
wi ,
N i=1

conocida. Es facil
demostrar que
donde wi es una funcion
tambien
se verifica (2.44), y por tanbajo esta situacion
to, se cumplen las condiciones necesarias para aplicar
la metodologa de verosimilitud emprica. Operando en la
(2.43) se llega a la restriccion
alternativa
restriccion
X
is

pi wi =

N
1 X
wi ,
N i=1

que es la que suele usarse en los estimadores modelocalibrados de verosimilitud emprica. Por tanto, el proble
ma de buscar unos valores optimos
ui para obtener esti eficientes, es similar al de encontrar la canmadores mas
tidades wi , para i s.

La idea de definir estimadores optimos


bajo un modelo y asumiendo el criterio de mnima esperanza bajo un
de la varianza asintotica

modelo de superpoblacion
basa ha sido discutida por diversos autores,
da en el diseno

vease,
por ejemplo, Godambe (1955), Godambe y Thompson (1973) y Cassel et al. (1976).
Un primer estimador modelo-calibrado surge cuan
do se asume el siguiente esquema asintotico.
Existe
de poblaciones finitas indexadas por . El
una sucesion
poblacional y el tamano
muestral para la poblacion

tamano

-esima
se denotan como N y n . Cuando ,
N y n . El ndice se suprimira para sim Por ejemplo, vease

plificar notacion.
Isaki y Fuller (1982)

24

(2.45)

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


para un mayor detalle de este esquema asintotico.
Por ulti
mo, sea y1 , y2 , . . . , yN una muestra aleatoria de un modelo
tal que
de superpoblacion
E (yi ) = i ,

V (yi ) = i2 ,

Este modelo es bastante general, e incluye dos casos


muy importantes:
lineal o no lineal
1. El modelo de regresion

i = {1, 2, . . . , N }, (2.46)

y y1 , y2 , . . . , yN son independientes entre ellos. E y V


denotan la esperanza y la varianza bajo el modelo de su
perpoblacion.
Sea yeCw el estimador de verosimilitud pseudo emprica modelo-calibrado de Y cuando se usa Cw =
(2.45) y L un conjunto
{w1 , w2 , . . . , wN } en la restriccion
de sucesiones Cw = {w1 , w2 , . . . , wN } que verifican

yi = (xi , ) + i i

donde i son variables aleatorias independientes e

identicamente
distribuidas, con E (i ) = 0, V (i ) =
conocida y estrictamen 2 y i = (xi ) una funcion
te positiva que depende de xi .
2. El modelo lineal generalizado
g(i ) = xti

N
1 X
(wi )6 = O(1)
N i=1

y
N
1 X
(wi )2 c 6= 0 cuando N .
N i=1

Cw L no son muy
Estas condiciones sobre la sucesion
restrictivas y se usan para facilitar las demostraciones.
Asumiremos que {1 , . . . , N } L .
muestral es regular si el diseno

Se dice que un diseno


de muestra indexado tiene proque resulta de un tamano
i y ij independientes de la cababilidades de inclusion
satisface las siguientes
racterstica yi dada xi , y ademas
condiciones:

ndi
= O(1).
(C2.7). maxis
N
N
1 X
1 X
di wi
wi = Op (n1/2 ) para
N is
N i=1
de funciones (w1 , . . . , wN )
cualquier sucesion
L .

(C2.8).

En Wu (2003) se demuestra que entre todas las clases


de estimadores yeCw con Cw = {w1 , w2 , . . . , wN } L ,

el valor C = {1 , . . . , N } como variable de calibracion


yCw )] bajo el modelo (2.46) y
en (2.45) minimiza E [AVp (e
muestral regular. AVp denota la vapara cualquier diseno

As, el estimador de verianza asintotica


bajo el diseno.
rosimilitud pseudo emprica modelo-calibrado (M CP E)
que presenta la propiedad arriba comentada, se constru= i , o lo que es lo mismo, tomando
ye tomando wi P
ui = i N 1 N
i=1 i . Sustituyendo estas cantidades
ui en las expresiones (2.12) y (2.13) se obtiene un primer
estimador de verosimilitud emprica basado en la aproxi modelo-calibrada.
macion
Otra alternativa para construir estimadores modelocalibrados es asumir que y1 , y2 , . . . , yN es una muestra
semiparametri
aleatoria de un modelo de superpoblacion
co tal que
V (yi |xi ) = i2 2 ,

V (yi |xi ) = (i ) i = {1, . . . , N },

de enlace
donde i = E (yi |xi ), g() es una funcion
varianza.
y () es la funcion

Los verdaderos parametros


del modelo son desconocidos, aunque pueden estimarse mediante cualquier

metodo
basado en el diseno.
Asumiendo una apro basada en el modelo, la dupla (yi , xi ) con i
ximacion

s puede verse como una muestra independiente identi Los


camente distribuida del modelo de superpoblacion.

parametros
se pueden estimar usando procedimientos

los
estandares.
Bajo el enfoque basado en el diseno,
datos muestrales pueden no seguir la misma estructura
finita completa bajo un esquedel modelo que la poblacion
ma muestral complejo, y puede carecer de sentido des En este caso, se reemde el punto de vista del diseno.
de basada en los datos de
plaza por N , una estimacion
b
completa. N se reemplaza entonces por ,
la poblacion
basada en el diseno
de los datos muesuna estimacion

trales (vease
Godambe y Thompson, 1986).
Asumiendo el modelo (2.47), el estimador de verosimilitud pseudo emprico modelo-calibrado se construye
b Los valores ui vienen dados por
tomando wi = (xi , ).
1 P N
b Consideranui =
bi N
bi , donde
bi = (xi , ).
i=1
do estas cantidades en las expresiones (2.12) y (2.13) se
obtiene el M CP E.
Al igual que ocurre bajo el primer M CP E que
se ha definido, en Wu (2003) se demuestra que
entre todas las clases de estimadores yeCw , donde
Cw = {w1 , w2 , . . . , wN } L , el valor C =
en
{(x1 , ), . . . , (xN , )} como variable de calibracion
yCw )] bajo el modelo (2.47) y para
(2.45) minimiza E [AVp (e
muestral regular.
cualquier diseno
se resumen las observaciones mas
imA continuacion
portantes sobre los estimadores de verosimilitud emprica
modelo-calibrada.
basados en una aproximacion
1. En Wu y Sitter (2001) se demuestra que reemplazar

por b en i = (xi , ), no cambia asintoticamente


el estimador resultante.

2.
i = {1, . . . , N },
(2.47)

pobladonde = (0 , 1 , . . . , P )t y 2 son parametros


3.
conocida
cionales desconocidos, (x, ) es una funcion
conocida de xi o bien de
de x y de , i es una funcion
i = (xi , ) y E y V denotan la esperanza y la varian Ademas,

za con respecto al modelo de superpoblacion.


se asume que los pares (y1 , x1 ); (y2 , x2 ); . . . ; (yN , xN ) son
mutuamente independientes.
E (yi |xi ) = i = (xi , ) ,

i = {1, . . . , N },

Con probabilidad tendiendo a uno, el M CP E existe y se puede calcular usando el algoritmo 2.1 de
Chen et al. (2002).
auxiliar depende
El uso efectivo de la informacion

entre
los parametros
estimados y de la relacion
la variable respuesta y las covarianzas. Por tanto,
sobre las variables auxiliares sin
usar la calibracion
un estudio exhaustivo previo no es usualmente una

buena aproximacion.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

25

lineal entre y y
4. Es sabido que para una relacion
el vector de variables auxiliares, se toma ui =
del P EM LE. En esta
xi X para la construccion
el P EM LE y el M CP E son asintotica
situacion,
mente equivalentes si se considera
bi = xti b como
para el calculo

variable de calibracion
de la aproxi modelo-calibrada. La demostracion
de este
macion
resultado puede consultarse en Wu y Sitter (2001).
entre y y x es lineal, tan solo
el
5. Si la relacion
conocimiento de X es suficiente para obtener estimadores eficientes para la media o el total pobla no es lineal o el parametro

cional. Si dicha relacion


no es una funcion
lineal, una informacion

de interes
datos
auxiliar completamente disponible y/o mas
sobre el modelo son esenciales para una esti optima.

macion
6. Al igual que se ha comentado anteriormente, las
cantidades pbi son positivas. Esta propiedad no se
ni en
cumple ni en los estimadores de calibracion
calculo del GREG y juega un papel muy importante
de otros parametros

en
en la estimacion
de interes
de distribucion,

el muestreo, como son la funcion

cuantiles, varianza y otras funciones cuadraticas.

2.2.4.

Propiedades teoricas

Sea el esquema asintotico


siguiente: se asume que
de disenos
muestrales y una sucesion

existe una sucesion


muesde poblaciones finitas indexadas por . El tamano
poblacional N se aproximan a infinito
tral n y el tamano
cuando .
Las condiciones siguientes son necesarias para poder
aplicar el Teorema 2.4.
(C2.9). b = N + Op (n1/2 ) y N .

(xi , t)
es continua en t y
t

(xi , t)

h(xi , )

t
P
para t en un entorno de , y N 1 N
i=1 h(xi , ) =
Op (1).

(C2.10). Para cada xi ,

(C2.11). Los pesos basicos


muestrales, di = i1 , hacen que los estimadores de Horvitz-Thompson para
asintoticamente

ciertas medias muestrales esten


normalmente distribuidos.
(C2.12). u = maxis |ui | = op (n1/2 ), donde ui =
N
1 X
(xi , N )
(xi , N ).
N i=1
P
di u i
1/2
).
(C2.13). P is
2 = Op (n
is di ui
(C2.14). h = maxis |hi | = op (n), siendo hi
h(xi , N ).

donde y M C es el estimador modelo-calibrado para la me


y cuya exdia obtenido mediante el metodo
de calibracion
viene dada por
presion
)
(
N
1 X
1 X
bN ,
y M C = y HT +

bi
di
bi B
N i=1
N is
con
bN =
B

is

P
di q i
bi
= Pis
.
d
q
is i i

Las cantidades qi son constantes positivas.

equivalente
Puesto que y M CP E es asintoticamente
al y M C , las mismas expresiones de la varianza y del
estimador de la varianza de y M C pueden usarse para

y M CP E . Estas varianzas asintoticas


basadas en el diseno
vienen dadas por
AV (y M CP E ) =

N
1 X
Ui
Uj
(

,
i
j
ij
N 2 i<j
i
j

de segundo
donde ij son las probabilidades de inclusion
orden, Ui = yi i BN , i = (xi , N ),
BN =

PN

qi (i N )(yi Y )
PN
2
i=1 qi (i N )

i=1

y N =

N
1 X
i .
N i=1

Un estimador para esta varianza viene dado por

2
n
1 X i j ij ui
uj

,
Vb (y M CP E ) = 2
N i<j
ij
i
j
bN .
bi B
donde ui = yi

del teoEstas varianzas asintoticas


y la demostracion
rema se pueden consultar en Wu y Sitter (2001).

Aunque estas aproximaciones son asintoticamente

atractivo usar estimadores de varianvalidas,


resulta mas
zas remuestreados sobre el M CP E.

2.3.

Tratamiento de datos faltantes

se propone un estimador para la meEn esta seccion


dia poblacional cuando algunas observaciones de la varia perdidas
ble de estudio o de las variables auxiliares estan

en la muestra. El nuevo estimador es valido


para cualquier
muestral (con probabilidades iguales o desiguales)
diseno

y esta basado en el metodo


de verosimilitud emprica. El
estimador propuesto se compara con otros estimadores
conocidos en un estudio emprico.

El siguiente teorema puede establecerse.

Teorema 2.4 Bajo el esquema asintotico


descrito y las
condiciones anteriores (C2.9)(C2.14), se tiene que
y M CP E = y M C + op (n1/2 ),

26

P
di qi yi
y = Pis
is di qi

di qi (b
i )(yi y)
,
d
i )2
is i qi (b

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

2.3.1.

Introduccion

auxiliar
En la practica,
es comun
el uso de informacion
Esta tecnica

poblacional en la etapa de estimacion.


tiene

muchas ventajas. Por ejemplo, una adecuada informacion


considerable en el
auxiliar puede producir una reduccion
sesgo y el error muestral.
variables auxiliares correlaCuando una o mas
disponibles, el
cionadas con la variable de estudio estan

(Deville y Sarndal,

metodo
de calibracion
1992) y el metodo de verosimilitud pseudo emprica (Chen y Qin, 1993,
Chen y Sitter, 1999, Wu y Sitter, 2001, Wu, 2002) pueden
usarse para estimar el total poblacional, la media pobla y cuantiles. Ambos meto
cional, funciones de distribucion
auxiliar de una o mas
variables audos usan informacion
xiliares.

Generalmente, estas tecnicas


proporcionan esti eficientes que los estimadores
madores que son mas
tradicionales, tales como el estimador de Horvitz y Thomp
son (1952) y el estimador tipo Hajek
para la media (Rao,

1966, Basu, 1971, Sarndal


et al., 1992). Sin embargo, el

metodo
de verosimilitud emprica asume respuesta completa sin valores perdidos, esto es, se asume que ninguna
en las
unidad muestral falla para proporcionar informacion
variables de estudio y auxiliares.

es una propiedad comun


La perdida
de informacion

en las investigaciones por muestreo. Esta perdida


de in puede ocurrir por varias razones: los individuos
formacion
muestreados pueden negarse a participar en el estudio,
los entrevistadores no pueden contactar con los individuos

etc.
del estudio, perdida
accidental de informacion,
se asume que si hay falta de respuesEn esta seccion,

ta, esta
es uniforme. Tratar con datos faltantes en una in por muestreo no es un asunto relativamente
vestigacion

sencillo. Existen una gran variedad de metodos


en el caso
de existir valores perdidos en los datos muestrales.
mas

Ante la presencia de datos faltantes, la solucion


simple es eliminar las unidades con falta de respuesta y

aplicar el metodo
de verosimilitud emprica a las unidades

restantes. Sin embargo, este metodo,


el cual Rubin (1987)

llamo analisis
de casos completos, puede producir sesgo
grandes
en las estimaciones y varianzas muestrales mas
(ver Rubin, 1987 o Little y Rubin, 1987).
es otra tecnica

La imputacion
que puede usarse en los
individuos con falta de respuesta (Little y Rubin, 1987, Rao

y Toutenburg, 1995, Sarndal,


1992, Chen et al., 2000). La
consiste en sustituir los valores perdidos por
imputacion
un valor adecuado. Tratar los valores imputados como si
estos fueran valores verdaderos y posteriormente usar el

metodo
de verosimilitud emprica puede dirigir a inferen
cias no validas.
Por ejemplo, la varianza puede resultar
de valoseriamente subestimada cuando la proporcion
(Rao y Shao, 1992, Sarndal,

res perdidos no es pequena


en algunas encuestas realizadas
1990, 1992). Ademas,
por organismos oficiales de estadstica (como por ejemplo
en la Oficina de Estadstica de Suecia) esta prohibida la
como solucion
al problema de datos faltantes.
imputacion
es intentar mejorar la precision
de las esOtra opcion
timaciones incluyendo los valores observados de la variable auxiliar donde la variable de estudio esta perdida. As,
aunque se tenga un valor perdido para y, el valor de x es

observado y utilizado en el proceso de estimacion.

diferencia o producLos estimadores de tipo razon,


asumen respuesta completa. Algunos autores
to tambien
en presencia de
han definido estimadores de tipo razon
datos faltantes. Estos estimadores solamente han sido

definidos para una clase limitada de disenos


muestrales.
Por ejemplo, Tracy y Osahan (1994), Toutenburg y Srivastava (1998, 1999, 2000) desarrollaron estimadores de tipo
para muestreo aleatorio simple sin reemplazamienrazon
to.
se propone modificar el estimador de
En esta seccion
verosimilitud pseudo emprica (P EM LE), el cual puede
muestral con probabiliobtenerse bajo cualquier diseno
dades iguales o desiguales. El estimador propuesto usa
muestral recogida para la variable de
toda la informacion
estudio y una variable auxiliar x, esto es, el estimador pro de los valores de x para las unidades
puesto es funcion
de los valores de y para
con datos y perdidos, y funcion
las unidades con valores x perdidos.
en la cual existen observaSe considera la situacion
ciones perdidas en una de las caractersticas para algunos

individuos, pero no en la otra, es decir, la perdida


de infor se produce para ambas caractersticas separadamacion

mente, pero no simultaneamente.


De este modo, sea p
(p 0) el numero
de unidades que responden a x pero

no a y, es decir, asumimos que tenemos p datos perdidos


se tiene informacion
auxiliar
para la variable y. Tambien
incompleta, esto es, q (q 0) unidades muestrales responden a y pero no a x. Notamos que p y q son numeros

enteros. As, se tiene un conjunto de n p q unidades


(p + q 6 n) que responden a ambas variables y y x. Con
este esquema, se pueden formar los tres siguientes conjuntos disjuntos de unidades muestrales
sA

perdidos},
{i s | xi , yi no estan

sB

{i s | xi no esta perdido, yi esta perdido},

sC

{i s | yi no esta perdido, xi esta perdido}.

Asumiendo muestreo aleatorio simple sin reemplazamiento, Toutenburg y Srivastava (2000) propusieron cuatro estimadores para la media poblacional de y:

npq xA + pxB
,
(2.48)
yT 1 = yA
(n q)xA

(n q)xA
,
(2.49)
yT 2 = yA
npq xA + pxB
yT 3

yT 4

(npq xA + pxB )(npq y A + qy C )


,
(n q)(n p)xA

nq A
npq y A + qy C
x ,
A
B
np
npq x + px

(2.50)
(2.51)

donde npq = n p q, y i y xi son las medias muestrales


basadas en si , con i = A, B, C.
Los estimadores y T 1 y y T 2 dependen de las muestras
sA y sB , y no dependen de la muestra sC . Sin embargo,
y T 3 y y T 4 dependen de las muestras sA , sB y sC . Toutenburg y Srivastava (2000) demostraron que ninguno de estos estimadores es uniformemente superior a otro. Una
apropiada del estimador requiere el conocimieneleccion

to de parametros
poblacionales.

Rueda y Gonzalez
(2004) propusieron varios esti muesmadores que pueden usarse bajo cualquier diseno
tral en presencia de datos faltantes. Estos estimadores

2
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

27

basados en metodos

diferencia y reestan
de tipo razon,
Por ejemplo, el estimador siguiente es asintotica
gresion.
mente insesgado, bajo muestreo aleatorio simple es

asintoticamente
normal y es mejor, en el sentido de error

cuadratico
medio, que el resto de estimadores propuestos.
y Reg =
+

breg y A
HT

b reg )y C
HT +

+ (1

A
donde pbA
i maximiza l(p ) =

pA
i = 1

donde y iHT y xiHT son los estimadores de HorvitzThompson (1952) basados en si (i = A, B, C),
d is (x, y) y Vd
arisA (x) denotan los estimadores de
Cov
A

la covarianza y varianza basados en sA . Los valores opti


mos
breg y breg pueden consultarse en Rueda y Gonzalez
(2004).

Estimador propuesto

se definen algunos estimadores de tipo


A continuacion

importantes de este tipo de


Hajek.
Las propiedades mas
descritas en Rao (1966), Basu (1971)
estimadores estan

y Sarndal
et al. (1992).
X A
X C
A
C
=
di yi ; yw
=
di yi ;
(2.53)
yw
isA

isC

AC
yw
=

dA
i xi

x
B
w =

isA

dB
i xi

(2.54)

isB

x
AB
=
w

dAB
xi ;
i

isA sB

con
= P
dA
i

dA
i
A
js1 dj

dB
= P
i

= P
dC
i
dAB
= P
i

dB
i
jsB

dC
i
jsC

dC
j

dB
j

dAC
= P
i

dAB
j

dAC
i
jsA sC

(2.55)

dAB
i
jsA sB

dAC
j

(2.56)

A
B
B
dA
i = 1/i , di = 1/i ,

(2.57)

C
AB
dC
= 1/iAB , dAC
= 1/iAC .
i = 1/i , di
i

Las cantidades iA , iB , iC , iAB y iAC son, respecti de primer orden


vamente, las probabilidades de inclusion
de las muestras sA , sB , sC , sA sB y sA sC .
auxiliar), se
Cuando ui = 0 (sin usar informacion
obtiene pbi = di y el estimador de verosimilitud pseudo emprico (P EM
P LE) coincide con el estimador de tipo

Hajek
dado por is di yi . Este estimador no usa la variable auxiliar x.
Sea el P EM LE de Y dado por
X A
yA
pbi yi ,
PE =
isA

28

(0 pA
i 1),

(2.58)

pA
i ui = 0.

(2.59)

Considerando el metodo
de multiplicadores de Lagrange,
dado por
pbA
i esta
pbA
i =

dA
i
, para i sA ,
1 + A ui

(2.60)

donde el vector de multiplicadores de Lagrange, A , se

obtiene de la ecuacion
X

dA
i ui
= 0.
1 + A ui

(2.61)

de las muesEl estimador y A


P E no usa la informacion
se define un P EM LE que
tras sB y sC . A continuacion
de sA y sB . Como la variable de
considera la informacion
contiene npq valores, el nuevo vector de pesos
interes
n p q. As, el nuevo
debe definirse con dimension
pbAB
i
estimador esta dado por
X AB
y AB
pbi yi ,
PE =
isA

dAC
yi ;
i

isA sC

x
A
w =

A
dA
i log pi sujeta a

isA

isA

2.3.2.

isA

isA

(2.52)

d is (x, y) h
Cov
B
A
b
,
X breg xA
HT + (1 reg )xHT
Vd
aris (x)

(i sA ) se obtiene como pbA


donde pbAB
i
i (el cual tiene
npq), aunque en este caso se usa el vector
dimension
de multiplicadores de Lagrange AB , el cual esta basado
(2.60). AB se
en las muestras sA y sB , en la expresion
de sustituir dA
por dAB
.
obtiene de (2.61) despues
i
i

Pueden usarse otros metodos


como el de imputacion
para obtener el P EM LE basado en las muestras sA y

relacionados con el metodo

no estan
de
sB , aunque estos
verosimilitud emprica.
A
Aunque y AB
P E parece mejor estimador que y P E al usar
de las muestras sA y sB , esteP
estimador no
informacion
=
resulta apropiado porque las condiciones isA pbAB
i
P
AB
1 y
p
b
u
=
0
no
se
cumplen.
El
estimador
no
i
i
isA
queda bien construido y las ventajosas propiedades del

metodo
de verosimilitud emprica no se sostienen. En el
2.3.4 puede confirmase
estudio emprico de la Seccion

esta observacion.
Desafortunadamente, el estimador propuesto y A
P E no
de la variable de estudio y proporcionada
usa informacion
por la muestra sC . Para resolver este problema, se propone una clase de estimadores que usan toda la infor de la variable y incluida en las muestras sA y sC
macion

Rueda, Munoz,

(vease
tambien
Berger, Arcos y Martnez,
2006). Esta clase viene dada por
C
y P E = y A
yw
,
P E + (1 )

(2.62)

donde es una constante debidamente escogida que ve 2.3.3, se proponen valorifica 0 < < 1. En la Seccion
C
esta definido en
res apropiados para . El estimador yw
(2.53).
Se observa que si = 1, el estimador resultante es
incluido en la clase
yA
P E , y por tanto, este estimador esta
y P E .

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Cualquier estimador de esta clase usa toda la infor


disponible de las muestras sA y sC sin usar tecnimacion
Los valores de x de la muestra sB
cas de imputacion.
No obstante, los valores
no se usan para la estimacion.
perdidos para i sB . Incluir esde la variable y estan
en la clase considerando y AB
ta informacion
P E en lugar de
A
2.3.4,
y P E empeorara las estimaciones. En la Seccion
muestra que los estimadores
un estudio de simulacion
de la clase propuesta son tan eficientes como otros es de cada muestra (sA ,
timadores que usan la informacion
sB y sC ).

2.3.3.

Propiedades teoricas

se demuestra que el estimador y P E


En esta seccion

propuesto en (2.62) es asintoticamente


insesgado. La va se deriva.

rianza asintotica
de y P E tambien
Sean las siguientes condiciones.
axisA |ui | = op (n1/2 ).
(C2.15). uA = m
P
A
is di ui
(C2.16). P A A 2 = Op (n1/2 ).
isA di ui

Corolario 2.3 Bajo las condiciones (C2.15) y (C2.16), se


tiene que
A
C
y P E =
yGREG
+ (1 )
yw
+ op (n1/2 )

(2.63)

donde
A
A

= yA
yGREG
w + (X xw )b,

X
b=

A 2
dA
i (xi xw )

()
= 0,

=B

(2.65)

isA

Demostracion
Chen y Sitter (1999) demostraron que y A
P E es
A

. Sabido esto, este


asintoticamente
equivalente a yGREG

resultado se sigue facilmente.

Teorema 2.5 Bajo las condiciones (C2.15) y (C2.16), se


tiene que
A
l y A2
yGREG
GREG ,
donde
A
A

y A2
GREG = y w + (X xw )B,

A2
C
yGREG
+ (1 )
yw
,
yP E l

(2.68)

el cual implica que yP E es asintoticamente


insesgado.
Teorema 2.6 Bajo las condiciones (C2.15) y (C2.16), la

varianza asintotica
de yP E esta dada por
h
i
A
A
yw
AV (
yP E ) = 2 V (
) + B 2 V (
xA
yw
,x
A
w ) 2BCov(
w) +
(2.69)
h
i
C
A
C
C
yw
)+2(1) Cov(
yw
, yw
)BCov(
xA
,
w
) .
+(1)2 V (
w y

(2.64)

A A
dA
i xi yi y w xw

isA

donde () = lmn+ E [Tn ()] y la esperanza es con


siderada cuando el verdadero parametro
es .
A
x
+ (X
A
Sea Tn () = yw
w ). Notamos que Tn (b) =
A
ha sido establecido en (2.64). Consideremos
yGREG
() = lmn E [Tn ()]. Notamos que cuando = B,
donde
el cual esta definido en (2.67), se obtiene (B) = Y

Y = lmn Y . Puesto () verifica

A
A2
l yGREG
. Esto completa la deesto implica que yGREG

mostracion.

Usando el Corolario 2.3 y el Teorema 2.5 se obtiene

Estas condiciones fueron usadas por Chen y Sitter

(1999), los cuales demuestran que varios disenos


mues comunes las satisfacen. Dadas estas conditrales mas
ciones, el siguiente resultado puede obtenerse.

con

del estadstico fuesen desconocidos. Este


la formulacion
b es una funcion
de datos que
autor demostro que si Tn ()
b
es una funcion
de los
usa el estimador , el cual tambien

datos que estima consistentemente el parametro


, enb y Tn () tienen la misma distribucion
lmite y
tonces Tn ()
se verifica

()
= 0,

(2.66)

Demostracion
(2.68) implica que la varianza
La aproximacion

asintotica
de yP E esta dada por

A2
C
=
(2.70)
V
yGREG
+ (1 )
yw
A2
C
A2
C
2 V (
yGREG
)+(1)2 V (
yw
)+2(1)Cov(
yGREG
, yw
).
A2
Usando (2.66), la varianza de yGREG
es

A2
A
x
V (
yGREG
) = V yw
+ (X
A
w )B

A
= V yw
x
A
wB

(2.71)

A
A
) + B 2 V (
xA
yw
,x
A
V (
yw
w ) 2BCov(
w ).

A2
C
El valor Cov(
yGREG
, yw
) esta dado por
A2
C
A
C
C
Cov(
yGREG
, yw
) = Cov(
yw
, yw
)BCov(
xA
w
). (2.72)
w, y

con
B=

Cov(x, y)
.
V ar(x)

(2.67)

Demostracion
Para establecer este resultado, se asume que la
finita envuelve una sucesion
de poblaciones
poblacion
donde n y N aumentan de modo que n/N f cuando n
y donde f es una constante.
Randles (1982) demostro que el comportamiento

asintotico
de algunas familias comunes de estadsticos

poda establecerse aunque algunos parametros


vitales en

As de (2.70), (2.71) y (2.72), la varianza asintotica


de

yP E esta dada por (2.69). El Teorema 2.6 se sigue facilmente.

El estimador optimo
de la clase propuesta esta dado
por el estimador definido en (2.62) con un valor que mi
nimize la varianza asintotica
dada por (2.69).

La varianza asintotica
(2.69) puede expresarse como
AV (
yP E ) = 2 M + (1 )2 N + 2(1 )L ,

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

29

donde

y 0.9, y las poblaciones se llaman Pop06, Pop07, Pop08


dey Pop09, respectivamente. Pueden consultarse mas
A
A
yw
) + B 2 V (
xA
yw
,x
A
(2.73) talles de estas poblaciones en el Apendice
M = V (
w ) 2BCov(
w ),

A.
C
yw
),
(2.74)
N = V (
de los estimadores propuestos se ha anaLa precision

A
C
A
C
lizado
por
medio
de un estudio emprico, donde para cada
= Cov(
yw , yw ) BCov(
xw , yw ).
(2.75)
L
se han representado tres numeros
poblacion
diferentes de

es solu- valores perdidos para la variable x, p. Varios valores perdiEl valor opt que minimiza la varianza asintotica
de la ecuacion

cion
dos de y, q, se han representado en el eje de abscisas. De

este modo, el comportamiento de los estimadores puede


AV (
yP E )
=

observase para relaciones fuertes y debiles


entre varia
=opt
bles y diferentes situaciones de datos perdidos.
e
El comportamiento de los estimadores y A
2opt = M 2(1 opt )N + 2(1 2opt )L = 0,
P E y y P Eopt
se compara con los siguientes estimadores: (i) el estila cual implica

mador estandar
de tipo Hajek
para la media poblacional
AC
N L
; (ii) y T 1 ,
basado en las muestras sA y sC , es decir, yw
.
(2.76)
opt =
y T 2 , y T 3 y y T 4 , los estimadores propuestos en ToutenM + N 2L
burg y Srivastava (2000); (iii) y AB
P E , el P EM LE basado
Sustituyendo opt en (2.69), se obtiene la varianza

que los
en las muestras sA y sB . Aunque se ha senalado

asintotica
mnima, dada por
pesos no quedan bien definidos, se usa en el estudio de
2
para observar su comportamiento; (iv) y Reg , el
M +(1opt )2 N +2opt (1opt )L . simulacion
AV (
yP Eopt ) = opt

estimador
propuesto en Rueda y Gonzalez
(2004) basado
(2.77)

Desafortunadamente, el valor optimo


opt depende en las muestras sA , sB y sC .
Para cada una de las seis poblaciones, se han gene
de parametros
poblacionales desconocidos, los cuales
rado
B = 1000 muestras independientes bajo muestreo
pueden estimarse a partir de los datos muestrales.
muestral n. A continuacion,

aleatorio
simple con tamano
Bajo
P muestreo aleatorio simple y muestreo estratifi- se eliminan de la muestra p elementos de la variable aud
=
N
,
esto
es,
el
estimador
de
Horvitzcado,
is i

Thompson y el estimador de tipo Hajek


son identicos,
y xiliar y q elementos de la variable de estudio de forma
por tanto, los estimadores de las varianzas y covarianzas aleatoria. Bajo este escenario, las submuestras sA , sB y

El cumplimiento de todos
de las expresiones (2.73), (2.74) y (2.75) pueden obtener- sC pueden definirse facilmente.

de Sesgo Relativo

analtica para (2.73), (2.74) los estimadores se mide en terminos


se facilmente.
Una expresion
y (2.75) bajo muestreo aleatorio simple puede encontrarse (SR) y de Eficiencia Relativa (ER), donde
B

en Rueda y Gonzalez
(2004).
ECM (y j )
1 X |y j (b) Y |
,
; ERj =
SRj =
Con estas estimaciones, puede obtenerse una aproB
ECM
(y AC
Y
w )
b=1
del esti
ximacion
opt de opt . Por lo tanto, la expresion
mador propuesto viene dada por

el Error Cuadratico

b indica la b-esima
simulacion,
Medio
emprico esta dado por
A
C

opt yP E + (1
opt )
yw .
(2.78)
yP Eopt =
B
X

ECM (y j ) = B 1
(y j (b) Y )2 ,
Tambien
es posible establecer la insesgadez
b=1

asintotica
de y
P Eopt .

2.3.4.

Propiedades empricas

se comparan los estimadores proEn esta seccion


puestos con otros estimadores alternativos usando un estudio emprico basado en poblaciones reales y simuladas,
usadas previamente en estudios de estimadores de re y razon,
estimacion
de la varianza e intervalos de
gresion
confianza.
Las poblaciones naturales usadas en este estudio son

la Fam1500 y Hospitals (vease


Apendice
A). Se recuer estan
dados por
da que los coeficientes de correlacion
Fam1500
y,x1 = 0,848 y y,x2 = 0,546 en la poblacion
Hospitals.
y y,x = 0,911 en la poblacion
Paralelamente a Wu y Sitter (2001), se han generado cuatro poblaciones de N = 2000 unidades median
te muestras independientes e identicamente
distribuidas
mediante el modelo
y = 0 + 1 x + ,

(2.79)

donde x Gamma(1, 1), N (0, 2 ) y 0 = 1 = 1. Los


estan
dados por 0.6, 0.7, 0.8
coeficientes de correlacion

AB
y j = 1, . . . , 8 se refiere a los estimadores y A
P E , yP E ,
e
y P Eopt , y Reg , y T 1 , y T 2 , y T 3 y y T 4 .
Las simulaciones se han llevado a cabo en R y los

codigos
se encuentran en el Apendice
??.
En primer lugar, se observa que el estimador y T 3
respecto
posee una considerable ganancia en precision
a los estimadores y T 1 , y T 2 y y T 4 . Con el fin de obtener
claridad en las figuras, las lneas correspondientes a
mas
los estimadores y T 1 , y T 2 y y T 4 no se han incluido.
Las Figuras B.1, B.2 y B.3 representan los valores
de la Eficiencia Relativa (eje de ordenadas) para los esAB e
timadores y A
P E , y P E , y P Eopt , y Reg y y T 3 bajo muestreo
aleatorio simple y diferentes valores de p y q. Las lneas
AC
, el
horizontales en el punto 1 representan la ER para yw

estimador estandar.
De estas figuras, se puede llegar a las siguientes conclusiones generales:
entre y y x y, ademas,
el
1. Si aumenta la relacion
numero
de datos faltantes es escaso, todos los es
timadores (excepto y T 3 ) obtienen mejores estima
ciones con respecto al estimador estandar.
Cuando ambos p y q incrementan, las estimaciones son

30

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

peores con respecto a y AC


w , y de ah, que todas las
lneas sean crecientes.
del
2. Los mejores resultados se consiguen a traves
y P Eopt , esto es, el ECM es siempre
estimador e
menor que el resto de estimadores y siempre mejora considerablemente los resultados proporcionaAC
.
dos por el estimador directo yw
3. El peor comportamiento lo muestra el estimador
de Toutenburg y Srivastava (2000). Esto puede deberse al hecho de que este estimador no usa X co auxiliar.
mo informacion
Comparando entre los estimadores basados en el

metodo
de verosimilitud emprica, se observa
e
son equivalentes
1. Los estimadores y A
P E y y P E

En resumen, estas simulaciones muestran como un


uso apropiado de las muestras sA y sC por el estimador
propuesto puede reducir el error de los estimadores direc de verosimilitud pseudo emprica, etc. Por
to, regresion,
y P Eopt es una alternativa
tanto, el estimador propuesto e

de parametros

optima
para la estimacion
lineales en presencia de datos faltantes y con un buen uso de la informa auxiliar.
cion

de la funcion
de
Estimacion

distribucion

2.4.

Introduccion

2.4.1.

opt

entre y y x y el
cuando existe una fuerte relacion
La ganannumero
de datos perdidos es pequeno.

y P Eopt con respecto a y A


cia en eficiencia de e
P E es
mayor en el caso contrario.

A
2. y AB
P E nunca es mejor que los estimadores y P E o
e

para
y P Eopt en terminos
de eficiencia. La razon
bien definidos.
esto es que sus pesos no estan

de sA , sB y sC es
Un estimador que usa la informacion
y Reg . En las poblaciones Hospitals y Fam1500 (cuando se
e
usa x1 ), y A
P E , y P Eopt y y Reg son equivalentes. En el resto
y P E .
de los casos, y Reg nunca mejora en eficiencia a e
opt

de sA , sB y sC , e
y P Eopt
Aunque y Reg usa informacion

es considerablemente mas eficiente cuando la correlacion


entre y y x es baja y aumentan los valores de p y q.
Finalmente, comparamos el estimador propuesto con

el estimador estandar:
eficiente que e
es
unicamente
mas
y P E
1. y AC

w
opt

entre variables es debil

cuando la relacion
y el
numero
total de datos perdidos, p + q, es alto. En

este caso, el resto de estimadores obtienen significativamente peores estimaciones. Esto ocurre, por
ejemplo, en Pop06, p = 80, q = 60, esto es, el 70 %

de la muestra son valores perdidos. En la practica,


es improbable o inaceptable. No obsesta situacion
tante, este caso se muestra para poder revelar el
comportamiento de los estimadores en situaciones
extremas.

2. Como se esperaba, cuando el numero


de valores de

x perdidos, p, incrementa, la ganancia en precision


AC
es
del estimador propuesto con respecto a yw
menor. Equivalentemente, cuando p permanece fijo,
decrece cuando el numero
la ganancia en precision

de valores perdidos q aumenta. Este resultado es

se proporciona
logico
porque si p/q es pequeno,
con
informacion
por la muestra sC en relacion
mas
AC
usa la informacion
de
tambien
la muestra sB , y yw
sC .
Las Figuras B.4, B.5 y B.6 muestran los valores del
Sesgo Relativo (SR) para todos los estimadores. Puede
todos en un ranobservarse que los valores SR estan
e
go razonable, teniendo los estimadores y A
P E y y P Eopt el

mejor comportamiento en terminos


de SR. Estas figuras
presentan similares resultados que la ER, y por tanto, se
puede llegar a las mismas conclusiones.

de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion

levante acerca del comportamiento global de la poblacion.

Sin duda, los estimadores estudiados clasicamente


en la
teora del muestreo, como totales, medias, proporciones y
como la funcion

varianzas, no ofrecen tanta informacion


aunque obtener estimadores eficientes
de distribucion,
no es tan simple como en el caso de los
para tal funcion
estimadores puntuales.
de cuantiles y de otros parametros

La estimacion
queda resuelto con el
de tipo no funcional tambien
de distribucion.
Los cuantiles,
conocimiento de la funcion
direcpor ejemplo, pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener
ta de la funcion
de las lneas
medidas importantes como la determinacion
de bajos ingresos, etc. y son
de pobreza, proporcion

muy utiles
en investigaciones de tipo social o economi

co. Debido a la importancia de estos parametros


en algunas investigaciones o estudios, se debe disponer de

buenos metodos
y tecnicas
para obtener las mejores estimaciones posibles.
de distribucion
para una
Recordemos que la funcion
y, y una poblacion
finita, U , es la provariable de interes,
de unidades en U para las cuales el valor de y
porcion
de
es menor o igual que t. El problema de la estimacion
de distribucion
en la presencia de informacion

la funcion
debido
auxiliar ha recibido recientemente mucha atencion
cona las importantes propiedades que posee, el interes
siderable que tiene cuando, por ejemplo, y es una medida
de gastos o ingresos, etc.
de distribucion
poblacional,
La funcion
Fy (t) =

N
1 X
(t yi ),
N i=1

(2.80)

satisface las siguientes condiciones:


(C2.17).

lm Fy (t) = 0

lm Fy (t) = 1.

t+

no-decreciente: t1 < t2 ,
(C2.18). Fy (t) es monotona
Fy (t1 ) Fy (t2 ).
(C2.19). Fy (t) es continua por la derecha: Dado t > t ,
lm Fy (t) = Fy (t ).
tt

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

31

Varios de los estimadores propuestos en la literatura


del muestreo en poblaciones finitas no satisfacen todas
estas propiedades y no son, por tanto, funciones de dis Por ejemplo, la funcion
de distribucion
estimada
tribucion.

no cumple los requisimediante el metodo


de calibracion
de distributos necesarios para ser una verdadera funcion

cion.
Asumamos que la variable de estudio, y, esta altamente asociada con un vector auxiliar de variables, xi =
(xi1 , . . . , xip , . . . , xiP )t , donde los valores x1 ,. . . ,xN son
Como se ha comentado
conocidos para toda la poblacion.
en varias ocasiones, en las investigaciones por muestreo
poblacional auxiliar
es comun
el uso de esta informacion
para incrementar la precision

en la etapa de estimacion
de los estimadores de una media o un total. Bajo este es auxiliar ha sido extensacenario, el uso de la informacion
mente estudiado, pero bastante menos ha sido el esfuerzo
de la funcion
de distribucion
y
por aplicarlo a la estimacion
de las
cuantiles poblacionales. Notamos que la aplicacion

de medias y totales
tecnicas
usuales para la estimacion
de la funcion
de distribuen el escenario de la estimacion
producen resultados no deseables y, en general, con
cion

una perdida
significativa en eficiencia.
Por otro lado, el numero
de variables auxiliares a usar

es otro punto de vista intereen la etapa de estimacion


de la funcion
distribucion.
Algunos
sante en la estimacion
construidos para
de los estimadores en la literatura estan
una unica
variable auxiliar, y el uso de otras variables auxi
liares resulta imposible o con un alto coste computacional.
con la vaSi estas variables presentan una fuerte relacion

riable de estudio, estas


deberan incluirse en el estudio y
parece razonable asumir que podran obtenerse mejores
propiedades. Estos estimadores tienen la desventaja de la

perdida
de eficiencia provocada por el hecho de no poder
auxiliar multivariante. Estas consiusar esta informacion
eficiente de la inforderaciones sugieren que un uso mas
auxiliar en la etapa de estimacion
es posible en el
macion
de la funcion
de distribucion.

problema de la estimacion

Sabemos que el metodo


de verosimilitud pseudo

emprica es una tecnica


reciente que puede usarse para
de medias o totales poblacionales (Chen
la estimacion
y Qin, 1993, Chen y Sitter, 1999), funciones de distribu (Chen y Wu, 2002, Wu, 2003) y otros parametros.

cion

Asumiendo este metodo,


Chen y Wu (2002) propusieron

estimadores modelo-calibrados para estimar la funcion


Estos estimadores estan
construidos por
de distribucion.
medio de restricciones que requieren el uso de un valor fi
jado t0 . Estos estimadores sufren una considerable perdida de eficiencia cuando t0 se encuentra alejado de t, el
de distribucion.
El espunto donde se evalua
la funcion
2.4.3 emplea el metodo

timador propuesto en la Seccion

de verosimilitud emprica y permite el uso de informacion


auxiliar multivariante. Este estimador esta basado en una
modelo-asistida. Ademas,
se usa un conjunaproximacion
to apropiado de puntos en las restricciones para evitar el

problema de la perdida
de eficiencia.

2.4.2.

Algunos estimadores de la fun de distribucion

cion

En este apartado se describen los principales trabajos


de la funcion

y enfoques relacionados con la estimacion


poblacional. Destacamos las propiedades
de distribucion
importantes de estos estimadores, prestando espemas
a los estimadores modelo-calibrados de verocial interes
similitud emprica. Estos ultimos
presentan bastantes si
2.4.3,
militudes con el estimador propuesto en la Seccion

por lo que senalaremos


las principales diferencias entre
unos y otros. Todos los estimadores que se exponen a
estan
basados en distintas aproximaciones.
continuacion
para describir los tipos de
Aprovecharemos la ocasion
inferencias que existen recientemente en muestreo de
poblaciones finitas.
(2.80) se observa que la funcion
de
En la expresion
puede verse como una media poblacional de
distribucion

la variable zi = (t yi ), y por tanto, sin utilizar ningun


auxiliar, la estimacion
de la funcion
de
tipo de informacion
es un caso especial de la estimacion
de la
distribucion
media poblacional. Haciendo uso de esta perspectiva, los
conocidos son el de Horvitz y Thompson
estimadores mas
(1952), dado por
1 X
di (t yi ),
FbHT y (t) =
N is

y el estimador de tipo Hajek


dado por
P
X
is di (t yi )
P
=
di (t yi ),
FbHKy (t) =
js dj
is

que el estimador de Horvitz y


donde di = 1/i . Notese

Thompson puede usarse unicamente


cuando el tamano

poblacional es conocido, mientras que el de tipo Hajek


puede emplearse en ambas P
situaciones. Bajo cualquier
muestral en el cual
diseno
is di = N , puede demostrarse que FbHT y (t) = FbHKy (t).
auxiliar, Rao et al.
En presencia de informacion
(1990) propusieron dos nuevos estimadores basados en
muestral: el estimador de tipo razon
dado por
el diseno
P
X
1
is di (t yi )
b i ), (2.81)
(t Rx
Fbr (t) =
P
b i)
N is di (t Rx
iU
y el estimador diferencia dado por
(
X
X
1
b i )
di (t yi ) +
(t Rx
Fbd (t) =
N is
iU

X
is

donde

(2.82)

b i)
di (t Rx

P
is di yi
b
P
.
R=
is di xi

Se observa que ambos estimadores utilizan como inforb


auxiliar la variable (t Rx).
macion
auxiliar, los
Al no utilizar ningun
tipo de informacion
estimadores FbHT y (t) y FbHKy (t) son menos eficientes que

Fbr (t) y Fbd (t), pero sin embargo, estos


ultimos
tienen el in
conveniente de dar valores, por lo general, fuera del rango

32

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


[0, 1] y no siempre son funciones monotonas
respecto a t,
de
con lo que no cumplen las propiedades de la funcion
Por este motivo, son numerosos los casos en
distribucion.
directa de Fbr (t) y Fbd (t) no produce
los que la inversion
buenas estimaciones para los cuantiles.
En Rao et al. (1990) y en Francisco y Fuller (1991)
monotona

se propone transformar Fbd (t) en una funcion


antes de obtener estimaciones para los cuantiles. Estos

procesos tienen basicamente


dos inconvenientes: (i) no

son transformaciones triviales y (ii) se desconoce la perdi


da de eficiencia al realizar la transformacion.
de distribucion
bastante
Otro estimador para la funcion

reciente es el obtenido mediante el metodo


de calibracion

descrito en Deville y Sarndal


(1992). Al igual que los ante auxiliar tienen la propiedad
riores que utilizan informacion

de distribuno deseable de no ser una autentica


funcion
Esto se debe a que los pesos que se utilizan para
cion.
ponderar las unidades muestrales de la variable de in (t yi ), pueden ser negativos, y por tanto, el estiteres,

mador resultante puede llegar a ser decreciente. Ademas


se demuestra que su lmite cuando t + es distinto de
1.
Por tanto, es deseable requerir que un estimador para
de distribucion
sea por si mismo una verla funcion
de distribucion.
Notese,

dadera funcion
que una verdadera
de distribucion
debe satisfacer las condiciones
funcion
(C2.17), (C2.18) y (C2.19).
generalizado
El conocido estimador de regresion

(GREG) (Cassel et al., 1976, 1977, Sarndal,


1980, Deng

y Wu, 1987, Sarndal


et al., 1989) es un estimador modelo recienasistido que esta basado en un modelo lineal. Mas

temente, son dos los principales metodos


en la literatura
categorizados como aproximaciones modeloque estan

asistidas. Estos procedimientos son el de calibracion

(Deville y Sarndal,
1992) y el de verosimilitud emprica
(Chen y Qin, 1993, Chen y Sitter, 1999). Notamos que
estos procedimientos no son dependientes de un modelo, aunque usan uno de ellos para construir el estimador.
En otras palabras, los estimadores modelo-asistidos son

aproximadamente (asintoticamente)
insesgados bajo el
independientemente de si el modelo es correcto o
diseno,
no, y son particularmente eficientes si el modelo en el que
modelo-asistida
se basa es correcto. As, la aproximacion

proporciona inferencias validas


bajo el modelo asumido y
al mismo tiempo, esta protegido contra una mala especi del modelo en el sentido de proporcionar inferenficacion

independientemente de
cias validas
basadas en el diseno,
de la variable de interes
con la variable auxiliar.
la relacion
Un ejemplo de estimadores modelo-asistidos para la fun de distribucion
son los estimadores Fbr (t) y Fbd (t).
cion

Otro procedimiento para estimar parametros


lineales

o no lineales en poblaciones finitas es la aproximacion


basada en modelos, la cual asume un modelo de su y donde los estimadores son dependientes
perpoblacion
del modelo. Chambers y Dunstan (1986) y Dorfman y
Hall (1993) propusieron estimadores basados en mode de distribucion.
El estimador de Chamlos para la funcion
bers y Dunstan presenta el inconveniente de ser inconsis Ademas,
se necesita llevar a cabo
tente bajo el diseno.
un cuidadoso contraste sobre el modelo antes de que es
tos estimadores sean usados. Todos estos metodos
pre y un posentan un grado de dificultad en la computacion

bre cumplimiento cuando el modelo especificado es incorrecto. Bajo muestreo aleatorio simple, Wang y Dorfman (1996) combinaron los estimadores de Chambers y
Dunstan (1986) con estimadores de tipo diferencia basa en un estimador hbrido, que bajo ciertas
dos en el diseno
eficiente que ambos estimadores. No
condiciones, es mas
obstante, este estimador hereda las desventajas de am a
bos estimadores y tiene una complicada generalizacion
muestrales mas
complejos. Silva y Skinner (1995)
disenos
llevaron a cabo un estudio exhaustivo de las propiedades
del estimador, y destacaron algunos problemas impor
tantes, como por ejemplo, la perdida
en eficiencia cuando
de cuantiles.
este estimador se usa en la estimacion
Finalmente, la recientemente desarrollada aproxi modelo-calibrada (Wu y Sitter, 2001) puede tammacion
usarse en las investigaciones por muestreo. Estos
bien
estimadores se obtienen, en primer lugar, adaptando un
y a continuacion,
usando los
modelo de superpoblacion,
valores estimados mediante este modelo en la etapa de

dada se
estimacion.
Por tanto, si para una poblacion
asociado o un modeconoce el modelo de superpoblacion
entonces
lo que se ajuste bastante bien a dicha poblacion,
puede resultar interesante utilizar la perspectiva modelo de la funcion
de distribucion

calibrada para la estimacion

poblacional mediante el metodo


de verosimilitud emprica.
modeloChen y Wu (2002) plantean una aproximacion
de
calibrada para obtener tres estimadores de la funcion
usando el metodo

distribucion
de verosimilitud emprica
distintos. Estos modey tres modelos de superpoblacion

los son bastantes generales, e incluyen los casos mas


importantes usados en muestreo. Bajo los modelos que
se describen, estos estimadores tienen mnima esperan
za bajo el modelo de la varianza asintotica
basada en el
entre una clase de estimadores, es decir, son opti
diseno
estos estimadores son
mos dentro de esa clase. Ademas,

si se satisface
asintoticamente
insesgados bajo el diseno
el modelo y aproximadamente insesgados bajo el modelo. Por ultimo,
los estimadores resultantes son verdaderas

y permiten obtener cuantiles efifunciones de distribucion


directa.
cientemente mediante inversion
semi-parametrico,

Sea un modelo de superpoblacion


entre y y x puede
, en el cual se supone que la relacion
describirse de la forma siguiente
E (yi |xi ) = (xi , ), V (yi |xi ) = i2 , con i = {1, . . . , N },

donde es un vector de parametros


de la superpoblacion.
Para este vector, se puede obtener un estimador basado
b utilizando metodos
,

en el diseno,
generales para la es de ecuaciones (vease

timacion
por ejemplo Godambe y
Thompson, 1986 y Wu y Sitter, 2001).
Dado el modelo , el estimador modelo-calibrado de
de disverosimilitud emprica (M CP E) para la funcion
viene dado por
tribucion
X
X
pbi (t yi ) =
pbi zi ,
(2.83)
FbM CP E (t) =
is

is

(2.11) sujeta a
donde los pesos pbi maximizan la funcion
wi de la restriclas restricciones (2.5) y (2.45). La funcion
(2.45) viene dada por
cion
wi = E (zi |xi ) = E ((t0 yi )|xi ) = P (yi t0 |xi ).

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

33

se considera fijo para


El valor t0 en la segunda restriccion
conseguir que el estimador FbM CP E (t) sea una verdadera
de distribucion.
Se pueden proponer otras exprefuncion
siones para wi , pero se ha considerado wi = E (zi |xi )
porque de entre todos los posibles valores wi = w(xi ), el
valor wi = E (zi |xi ) minimiza la esperanza bajo el modelo

muestral.
de la varianza asintotica
basada en el diseno
En lo que sigue, se describen tres estimadores de
verosimilitud pseudo emprica modelo-calibrados distintos
de distribucion
basados en diferentes mopara la funcion
(vease

delos de superpoblacion
Chen y Wu, 2002). Wu
(2003) proporciona resultados de optimalidad para estos
estimadores.

Estimadores bajo un modelo de regresion


comunmente
Un modelo de superpoblacion
usado en

que viene
poblaciones finitas es el modelo de regresion,
dado por
yi = (xi , ) + i i ,

i = {1, . . . , N },

(2.84)

conocida de xi , y i , con
donde i es una funcion
i = {1, . . . , N }, son variables aleatorias independientes

e identicamente
distribuidas con media 0 y varianza 2 .
lineal se tiene que
Para un modelo de regresion
(xi , ) = xti , aunque se puede considerar cualquier otro
modelo no lineal. Sea N y N los estimadores de y ,
respectivamente, basados en los datos poblacionales. Se
lineal con variansabe que bajo un modelo de regresion

P , N = (xt x)1 xt y,
zas homogeneas
y de dimension
donde x es la matriz de orden N P , y = (y1 , . . . , yN )t , y
2
=
N

(y xN )t (y xN )
.
(N P )

Bajo el modelo (2.84), las cantidades wi en (2.45)


vienen dadas por
wi =
=
=

E (zi |xi ) = P (yi t0 |xi ) =


P ((xi , N ) + i i t0 ) =
G

t0 (xi , N )
i

(2.85)

de distribucion
de los terminos

donde G() es la funcion


i , esto es,
N
1 X
(t i ).
G(t) =
N i=1
Como el vector N es desconocido, es necesario bus eficiente para poder obtener las canticar una estimacion

es necesario una
tambien
dades wi . Para este proposito,
de G(). Una posible estimacion
viene dada
estimacion
Gn (), donde
por los residuos estimados, bi , y la funcion
b
yi (xi , )
,
i
P
X
bi )
is di (t
P
di (t bi ) =
,
Gn (t) =
d
j
js
is
bi =

basada en el diseno
para N . En cony b es la estimacion

se llega a que las cantidades wi de la restriccion


clusion,
(2.45) vienen dadas por

!
b
t0 (xi , )
.
(2.86)
wi = Gn
i
En algunas situaciones, resulta razonable asumir que

normallos terminos
de error i en el modelo (2.84) estan
mente distribuidos. En este caso, se llega a que

t0 (xi , N )
,
(2.87)
wi =
i N
de distribucion
de la ley de prodonde () es la funcion

babilidad normal estandar.


Se observa que se considera
de wi . Esto se hace para que
N y no en la definicion
bien definidas sobre la poblacion

las cantidades wi esten


y puedan tomar todos los argumentos posibles basados
En la practica,

en el diseno.
se sustituye N y N por b y

b respectivamente, donde estas


ultimas
cantidades son

muestral de los
las estimaciones basadas en el diseno

parametros
desconocidos del modelo. De este modo, se

llega a la expresion
!

b
t0 (xi , )
.
(2.88)
wi =
i
b
En resumen, el estimador M CP E segun
el modelo
P
(1)
(2.84) esta dado por FbM CP E (t) = is pbi (t yi ), donde
(2.11) sujeta a las reslos pesos pbi maximizan la funcion
tricciones (2.5) y (2.45). Las cantidades wi de la segun vienen dadas por (2.86), o por los valores
da restriccion
(2.88) en caso de existir normalidad en los errores del mo
delo de superpoblacion.

Estimadores bajo un modelo lineal generalizado


Resulta atractivo adaptar un modelo lineal generalizado a las cantidades wi = E (zi |xi ) = P (yi t0 |xi ). Para
logstico
ello se considera el modelo de regresion

wi
= xti ,
(2.89)
log
1 wi
varianza V (w) = w(1 w). Bajo este mocon funcion

delo, el parametro
poblacional N puede definirse como
de las ecuaciones de
optimas

una solucion
on
P estimaci

esto es, N
x
(z

w
basadas en la poblacion,
i
i ) = 0,
i
i=1
donde zi = (t0 t). As,
wi =

exp(xti N )
.
1 + exp(xti N )

(2.90)

b para el parametro
,

Un estimador basado en el diseno,


poblacional N puede obtenerse resolviendo la corres muestral del sistema anterior, esto es,
pondiente
version
P

is di xi (zi wi ) = 0. De este modo, un segundo


M CP E, estaP
vez bajo el modelo (2.89), viene dado por
(2)
FbM CP E (t) = is pbi (t yi ), donde los pesos pbi se obtienen considerando
b
exp(xti )
wi =
.
(2.91)
b
1 + exp(xti )
logstico da una razonable esEl modelo de regresion
en la mayora de las estimaciones.
timacion

34

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

no
Estimadores bajo valores pseudo estimados de de la variable y para obtener el valor t0 . Esta eleccion

puede realizarse en la practica


debido que los cuantiles

un modelo semi-parametrico
La variable zi = (t yi ) toma solamente valores 0
o 1, pero los valores estimados wi construidos bajo los
siempre entre 0 y 1. Tammodelos (2.84) y (2.89) estan
es posible utilizar los llamados valores pseudo estibien
son variables
mados wi = (t0 ybi ), los cuales tambien

dicotomicas
y donde ybi son valores estimados para yi .

Bajo un modelo semi-parametrico,


E (yi |xi ) = i y
V (yi |xi ) = (i ), donde i = (xi , ) y () es una fun dados por
varianza. Los valores estimados ybi estan
cion
b Sea h() una conocida funcion
de enlace tal que
(xi , ).

h(i ) = xi . b es el estimador maximo


verosmil que se
obtiene del sistema de ecuaciones
X di xi (yi i )
= 0,
(i )h0 (i )
is
a
donde h0 (u) = h(u)/u. N es la solucion
N
X
xi (yi i )
= 0.
0
(
i )h (i )
i=1

b (3)
P Por tanto, el estimador viene dado por FM CP E (t) =
bi (t yi ), donde los pesos pbi se obtienen usando
is p
los valores pseudo estimados
wi = (t0 ybi ).

(2.92)

En la practica
se usan estas cantidades debido a que los
valores
(2.93)
wi = (t0 (xi , N )),
son desconocidos.
Bajo un modelo lineal simple con una unica
variable

auxiliar, (x, ) = 0 + 1 xi , y

N
N
1 X
t0 0
1 X
,
wi =
(t0 (0 + 1 xi )) = Fx
N i=1
N i=1
1
de distribucion
de la variable x.
donde Fx (t) es la funcion
(2.45) se resume a
La restriccion

!
X
t0 b0
b
b
,
pi (t0 (0 + 1 xi )) = Fx
b1
is

de
con lo que solamente se debe conocer la distribucion
(3)
frecuencias de x para obtener FbM CP E (t).
Notamos que puede usarse cualquier modelo de su Si el modelo de superpoblacion
asociado a
perpoblacion.
en estudio es otro distinto a cualquiera de esla poblacion

tos tres, el planteamiento para el calculo


del estimador de
verosimilitud pseudo emprica modelo-calibrado es similar
a lo comentado. Bastara con obtener las cantidades wi

asociado.
optimas
bajo el modelo de superpoblacion
del valor t0 es un aspecto importante,
La eleccion
precisos para estipuesto que los estimadores son mas
mar Fy (t) cuando t esta en las cercanas del punto t0 .
En consecuencia, ningun
wi con un valor fijo t0 puede

ser uniformemente optimo


para Fy (t) en todos los valores

de t. El problema de encontrar un valor optimo


t0 no se
discute en Chen y Wu (2002). De hecho, sus correspondientes estudios empricos usan cuantiles poblacionales

poblacionales de la variable de estudio son desconocidos.


En resumen, estos estimadores presentan dos inconvenientes principalmente: (i) es necesario el conocimiento
para los datos muesde un modelo de superpoblacion
trales del estudio y (ii) se hace un uso poco eficiente de la
auxiliar, puesto que sera posible definir los
informacion
de un punto t0 , utilizando de
estimadores usando mas
informacion
auxiliar, lo que conlleva eseste modo mas
precisas. Estos problemas puede
perar estimaciones mas
solventarse en gran medida mediante la metodologa pro 2.4.3, donde se usa un vector t0 para
puesta en la Seccion
eficientes para cualquier t.
obtener estimaciones mas
de disEl estimador que se propone para la funcion
usa una aproximacion
modelo-asistida y el meto
tribucion
do de verosimilitud emprica. Con el objetivo de que este
eficiente para cualquier t, este

estimador sea mas


usa
un vector t0 basado en los cuartiles poblacionales de una

pseudo-variable que es conocida en la practica.


Ademas,
de distribucion
y
este estimador es una verdadera funcion
goza de una excelente ganancia en eficiencia como con auxiliar.
secuencia de un uso efectivo de la informacion

importantes del estiEstas


son dos de las ventajas mas
mador propuesto.

2.4.3.

Estimador propuesto modeloasistido

se propone usar la aproximacion

En esta seccion

modelo-asistida basada en el metodo


de verosimilitud
de disemprica para construir un estimador de la funcion
poblacional. La informacion
auxiliar multivariante
tribucion
y se hace
puede incorporarse en la etapa de estimacion
auxiliar. Este estimador
un uso efectivo de la informacion
muestral es una autentica

basado en el diseno
funcion
que disfruta de varias propiedades imporde distribucion
tantes.
Para construir el nuevo estimador para Fy (t), se modifican los pesos del estimador FbHKy (t), es decir di , por
unos nuevos pesos pbi . Este conjunto de pesos se de modelo-asistida
termina por medio de una aproximacion

y usando las tecnicas


de verosimilitud emprica (Seccion
2.2).
modelo-asistida porque
Se considera la estimacion
proporciona un esquema de trabajo
esta aproximacion
conveniente en el cual se pueden desarrollar estimadores
de un modelo de superpoblacion

muy precisos. A traves


se construyen estimadores basados en la muestra que
de las estimaciones cuando el momejoran la precision
mantiene propiedades
delo es correcto, pero que tambien
importantes, tales como consistencia y una varianza estimable, cuando el modelo es incorrecto.
dado por
Se considera el usual modelo de regresion
yi = t xi + vi i ,

i = 1, . . . , N,

(2.94)

conocida de xi y los valores i


donde vi es una funcion

son variables aleatorias independientes e identicamente


distribuidas con media 0 y varianza 2 .

En la practica,
los valores del vector son desconoci puede deducirse que
dos. Mediante la teora de regresion,

2
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

35


el estimador de mnimos cuadrados de (Sarndal
et al.,
1992)
!1

X xi yi
X xi xti
B=

(2.95)
2

2
iU
iU
es el mejor estimador insesgado lineal de bajo el mo
delo (2.94). B es un parametro
poblacional desconocido,
pero puede estimarse usando los datos muestrales y apli de las probabilidades de
cando el principio de estimacion
esto es
inclusion,
!1

X di xi yi
X di xi xti
b

.
(2.96)
=
2

2
is
is
El estimador propuesto modelo-asistido basado en el

metodo
de verosimilitud emprica se obtiene definiendo la
pseudo-variable g, donde gi = bt xi , para i s. Esta varia para yi bajo
ble puede considerarse como una prediccion
el anterior modelo lineal.
Sean tg25 = Qg (0,25), tg50 = Qg (0,5) y tg75 =
Qg (0,75) los cuartiles poblacionales de la variable g,
donde Qg () = nf{t | Fg (t) } = Fg1 (). Bajo nues disponibles,
tro marco de trabajo, estas cantidades estan
auxiliar poblapuesto que asumimos que la informacion
cional es conocida. El estimador de verosimilitud pseudo
de distribucion

emprica modelo-asistido para


P la funcion
bi (t yi ), donde los
se define como FbM A (t) =
is p
l(p) sujeta a
nuevos pesos pbi se obtienen maximizando b
las siguientes condiciones
X
pi = 1, (pi > 0),
(2.97)
is

N
1 X
(tg25 gi ) = Fg (tg25 ) = 0,25,
N i=1
is
(2.98)
N
X
1 X
pi (tg50 gi ) =
(tg50 gi ) = Fg (tg50 ) = 0,5,
N i=1
is
(2.99)
N
X
1 X
pi (tg75 gi ) =
(tg75 gi ) = Fg (tg75 ) = 0,75.
N i=1
is
(2.100)

Notese
que la idea de usar (t gi ), para algun
t, co para construir restricciones
mo una variable de calibracion
tales como (2.98), (2.99) y (2.100) fue discutida, en primer
lugar, por Wu y Sitter (2001) y posteriormente elaborada
en Chen y Wu (2002).
Existen dos aspectos importantes relacionados con

Estos
este o cualquier otro procedimiento de estimacion.
son la eficiencia y la consistencia. La eficiencia se re
fiere al cumplimiento del estimador en terminos
de sesgo

2.4.5, se realiza
y error cuadratico
medio. En la Seccion
de la eficiencia de FbM A (t) con respecuna comparacion
to otros estimadores conocidos. Las restricciones (2.98),
(2.99) y (2.100) son requerimientos de consistencia al
tamente usados y son impuestos en la practica
porque
resulta razonable pensar que los pesos que dan estimaciones perfectas para las variables auxiliares, deberan
dar una buena estimacion
para la variable de estambien
tudio.

36

pi (tg25 gi ) =

de tg25 , tg50 y tg75 en (2.98), (2.99) y


La eleccion
(2.100) se realiza por varias razones. En primer lugar, esto esta altamente relacionado con la existencia de la solu del metodo

cion
de verosimilitud emprica. Si se usaran
de tres valores t0 , esto es, un mayor numero
de resmas

tricciones, se podra llegar a problemas de existencia de


(vease

2.4.4 para un mayor detalle).


solucion
la Seccion
tambien
especificados por motivos de
Estos puntos estan

eficiencia. Si se usa un unico


punto t0 , FbM A (t) sera mas

eficiente para t en las proximidades de t0 . Para varios va


perestan
lores de t0 , es razonable asumir que si estos
fectamente distribuidos dentro del posible rango de valo eficiente. Los valores
res de t, entonces, FbM A (t) sera mas
y por tantg25 , tg50 y tg75 exhiben una buena distribucion
preciso cuando t se encuentre en los
to, FbM A (t) sera mas
alrededores de los cuartiles poblacionales de la variable
g. Esto afecta a un alto rango de valores de la variable de
estudio.
especialmente, mas
eficiente cuando t
FbM A (t) sera,
es igual a uno de los valores tg25 , tg50 o tg75 . Esto im optima

plica que no hay una eleccion


de valores para todo t. Por otro lado, para t igual a tg25 , tg50 y tg75 y si el
de
modelo (2.94) se ajusta perfectamente a la poblacion
estudio, esto es, yi = t xi = gi , i = 1, . . . , N , entonces
(t gi ) = (t yi ) y FbM A (t) se reduce al valor exacto
de Fy (t). Es de esperar, que en el caso de una informa auxiliar fuertemente relacionada con la variable de
cion
entre yi y gi sera mayor, y conseestudio, la correlacion
cuentemente, FbM A (t) cumplira mejor en el sentido de ob precisas para Fy (t).
tener estimaciones mas
Denotando por tg = (tg25 , tg50 , tg75 )t ,
(tg gi ) = ((tg25 gi ), (tg50 gi ), (tg75 gi ))t
y K = (0,25, 0,50, 0,75)t , las restricciones (2.98), (2.99) y
(2.100) pueden expresarse por
X
pi (tg gi ) = K
(2.101)
is

como
o tambien

pi ui = 0,

(2.102)

is

donde ui = (tg gi ) K.

Mediante el conocido metodo


de multiplicadores de
del proLagrange, puede demostrarse que la solucion
sujeto a las condiciones (2.97) y
blema de maximizacion
(2.102) esta dado por
pbi =

di
,
1 + t ui

(2.103)

es
donde el multiplicador de Lagrange , cuya dimension

tres, se obtiene de la ecuacion


h() =

X
is

di ui
= 0.
1 + t ui

(2.104)

Puede demostrarse que, con probabilidad tendiendo a


muestral va a infinito, existe una
uno cuando el tamano
a h() = 0. Si tal solucion
existe, esta

unica
solucion

puede encontrarse, por ejemplo, con el Algoritmo 2.1, el

cual tiene garantizada la convergencia a la solucion.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

2.4.4.

Propiedades teoricas

de disUn estimador modelo-asistido para la funcion


se ha definido en la Seccion
2.4.3. A contitribucion
estudiamos varias propiedades de este estinuacion

mador, las cuales pueden ser importantes en la practica. En concreto, se estudia la existencia del estimador, se
de disdemuestra que FbM A (t) es una verdadera funcion
se obtiene otra propiedad relacionada con la efitribucion,
ciencia del estimador propuesto y se establecen algunos

resultados asintoticos.

Existencia del estimador


Existen dos aspectos computacionales por los cuales

el estimador FbM A (t) no pueda existir: (i) en la obtencion


a h() = 0 en
del vector b y (ii) para encontrar la solucion
(2.104).
En el punto (i), b siempre existe cuandoP
se aplica infor auxiliar univariante. En otro caso, ( is di xi xti )1
macion
no puede calcularse si no es de rango completo. Esta
es poco probable cuando n P .
situacion
se ha comentado
Respecto a la segunda cuestion,
que puede emplearse el Algoritmo 2.1.
de la media poblacional,
Para el caso de la estimacion
la variable ui que usualmente se toma es ui = xi X
justificada por
(Chen y Sitter, 1999), la cual esta tambien
y usando el Algoun modelo lineal. Bajo esta situacion

ritmo 2.1, h() = 0 falla para proporcionar la solucion


si: (i) el vector de medias X no es un punto interior del
conjunto
convexo formado por {xi , i s}, o (ii) la matriz
P
d
u
uti no es de rango completo.
i
i
is
En (i), el estimador de verosimilitud pseudo emprica
no existe. Para el caso de estimar la media poblacional,
esto ocurre con una probabilidad tendiendo a cero cuan muestral tiende a infinito. En el escenario
do el tamano
de la funcion
de distribucion,
la situacion

de la estimacion
es bastante diferente. En particular, para el procedimiento propuesto, el vector K es siempre un punto interior del
conjunto formado por {(tg gi ), i s}, puesto que los
componentes de este vector son 0 o 1, mientras que los
componentes de K toman valores dentro de [0, 1]. Notamos que los componentes del vector (tg gi ) no pueden
ser todos 0 o 1 para i s, salvo en situaciones extremas.
Sea t0 = (t0(1) , . . . , t0(h) , . . . , t0(H) )t otro vector dife y que puede
rente de tg con similar o diferente dimension
usarse en restricciones como la dada por (2.101). Respecto al punto (ii), decir que resulta necesario una cuidadosa
del vector t0 para evitar o eliminar el problema
eleccion
de multicolinealidad. En lo que sigue, se justifica la elec tg = (tg25 , tg50 , tg75 )t . En primer lugar, si se toman
cion
valores de t0(h) con dos ellos muy cercanos, entonces,
probable que surga el problema de la mulresulta mas
ticolinealidad. Si se usan valores extremos de t0 (o muy

elevados o demasiados pequenos),


la variable indicadora (t0 gi ) podra tener todos sus elementos iguales a

cero o a uno para i s, y por tanto, el metodo


de verosi Teniendo estas conmilitud emprica no tendra solucion.
tg = (tg25 , tg50 , tg75 )t
sideraciones en cuenta, la eleccion
resulta apropiada, puesto que cada punto esta alejado del
estos puntos no se encuentran cercanos
resto y ademas,
a los valores extremos de la variable g, evitando que la

variable indicadora (tg gi ) pueda contener valores que


sean todos iguales a cero o a uno para i s. Bajo este
planteamiento, el problema de la multicolinealidad es improbable. Notamos que este problema decrece conforme
muestral. Por ejemplo, no se ha obaumenta el tamano
servado problemas de multicolinealidad para el estimador
de la Seccion
2.4.5,
FbM A (t) en los estudios de simulacion

mientras que cuando se usa un vector t0 con dimension


mayor de 5, nos encontramos problemas de multicolinea muestrales mayores de 50.
lidad para tamanos
2.4.3, la eleccion

Como se comento en la Seccion


especificada por motg = (tg25 , tg50 , tg75 )t esta tambien
el estimador FbM A (t) es facil
tivos de eficiencia. Ademas,
mente computable debido a que el vector tg es de dimension igual a 3 y por tanto, el sistema (2.104) presenta un
de ecuaciones.
numero
pequeno

de distribucion

funcion
FbM A (t) es una autentica
es comprobar si el estimador
La siguiente cuestion
de distribucion.
Para
propuesto es una verdadera funcion
determinar esto, debemos verificar si se satisfacen, para
FbM A (t), las condiciones (C2.17), (C2.18) y (C2.19) de la
2.4.1.
Seccion
Resultado 2.1 El estimador FbM A (t) es una verdadera
de distribucion.

funcion

Demostracion
demostrar que la condicion
(C2.17) siemResulta facil
pre se satisface si los pesos pbi , para i = 1, . . . , n, son
independientes de t:
X
pbi (t yi ) =
lm FbM A (t) = lm
t

X
is

t+

X
is

pbi lm (t yi ) =

lm FbM A (t) = lm
=

is

t+

X
is

is

pbi (t yi ) =

pbi lm (t yi ) =
t+

pbi 0 = 0.

X
is

pbi = 1.

continua por la
Por otro lado, FbM A (t) es una funcion

derecha y monotona
no decreciente para unos pesos pbi
que sean independientes de t:
Sea t1 < t2 , entonces (t1 yi ) (t2 yi ) para
P
P
i s y FbM A (t1 ) = is pbi (t1 yi ) is pbi (t2
yi ) = FbM A (t2 ), puesto que pbi son los mismos valores positivos para t1 y t2 .
X
Sea t > t , lm FbM A (t) = lm
pbi (t yi ) =
tt

X
is

pbi lm (t yi ) =
tt

tt

X
is

is

pbi (t yi ) = FbM A (t ).

Por tanto, las condiciones (C2.17), (C2.18) y (C2.19)


se satisfacen para FbM A (t) si el mismo conjunto de valores pbi son usados para cada argumento t. Como FbM A (t)
asume un vector fijo tg , entonces, FbM A (t) es una ver de distribucion.

dadera funcion

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

37

FbM A (t) es igual a Fy (t) cuando xi = yi


En las investigaciones por muestreo que incorporan
muestreo sucesivo, la variable auxiliar es la misma que
la variable principal, pero medida en un periodo ante auxiliar incluye valores
rior. En este caso, la informacion
poblacionales de la variable x, los cuales pueden estar

resulta raproximos
a los valores de y. En tal situacion,
zonable esperar que un estimador de Fy (t) debera de
aproximarse a Fy (t) a medida que x se aproxima a y. Es
ta propiedad no se satisface para el estimador estandar,

auxiliar.
puesto que este
no hace uso de la informacion
Si yi = xi , puede verse que b = 1, gi = yi y
planteada para el estimador FbM A (t)
segunda restriccion
P
esta dada por is pi (tg yi ) = Fy (tg ). As, FbM A (t) =
P
bi (t yi ) es exactamente igual a Fy (t) si t coincide
is p
con uno de los valores de vector tg . Si esto no sucede,
la igualdad, en general, no se cumple, aunque se espe si el argumento
ran que las desviaciones sean pequenas

t esta proximo
a un componente de tg .

Comportamiento asintotico
El siguiente paso es establecer el comportamiento

asintotico
del estimador FbM A (t). Lamentablemente, este
b que son dependienestimador usa los vectores tg y ,
del comtes de la muestra, lo que dificulta la obtencion

portamiento asintotico
de este estimador. No obstante, es posible obtener algunos resultados para el estimador FbM A1 (t) que es muy similar al estimador propuesto
auaunque menos eficiente al utilizar menos informacion
xiliar. Este estimador se obtiene equivalentemente al estimador propuesto, con la diferencia de que los pesos pbi
basados en las restricciones (2.97) y
estan
X
is

pi (t0 gi ) =

1
N

N
X

(t0 gi ) = Fg (t0 ),

(2.105)

i=1

para un valor cualquiera t0 especificado.


Nota 2.1 En caso de haber establecido propiedades

asintoticas
como la equivalencia con otros estimadores
de la varianza del estimador FbM A (t),
o la determinacion

estas expresiones seran solamente validas


para mues y por tanto, seran poco utiles
tras de gran tamano
en la

de algun
practica.
Habitualmente, la replicacion
tipo, co mediante muestras
mo Bootstrap, Jackknife o replicacion
balanceadas (Shao y Tu, 1995), es una alternativa que
de la varianza, partise usa en la etapa de estimacion
de varianzas de funciones
cularmente para la estimacion
que son especialmente dificultosas. Tales
de distribucion

procedimientos son faciles


de computar (Dalgleish, 1995)
han demostrado un buen cumplimiento para
y ademas,

el metodo
de verosimilitud emprica (Chen y Sitter, 1999)
de la funcion
de distribucion
(Lomy para la estimacion
barda et al., 2003, Lombarda et al., 2004).
Teorema 2.7 Cuando el vector b se reemplaza por el

parametro
B dado en (2.95), el correspondiente estimador de verosimilitud pseudo emprica modelo-asistido,
B

FbM
A1 (t), cuando se usa el punto t0 = t, es asintotica-

38

genemente equivalente a un estimador de tipo regresion


ralizado:
B
1/2
b
b
b
),
FbM
A1 (t) = FHKy (t) + (Fb (t) Fb (t))D + op (n

b=
donde D
=

is

b z,w
2

bw

di [(t yi ) FbHKy (t)][(t bi ) Fbb (t)]


,
P

2
b
is di [(t bi ) Fb (t)]

de distribucion
de la vabi = Bt xi , Fb (t) es la funcion

riable b y Fbb (t) denota el estimador de tipo Hajek


para la
de distribucion
de b en el punto t. z y w denotan
funcion
las variables (t y) y (t b), respectivamente. Por tan

insesgado bajo el diseno


to, FbM A1 (t) es asintoticamente

y tiene la misma varianza asintotica


que el estimador de
generalizado.
tipo regresion

Demostracion
Para demostrar este teorema, asumimos que la
finita esta envuelta en una sucesion
de poblapoblacion
ciones donde n y N aumentan de tal forma que (n/N )
se considera la variable de
f cuando n . Ademas,
(tbi ) en (2.105) para construir FbM A1 (t). Sea
calibracion
ui = (t bi ) Fb (t). Puesto que |ui | 1, las condiciones
(C2.1) y (C2.2) del Teorema 2.3 se satisfacen y por tanto
P
di ui
= P is 2 + op (n1/2 ),
is di ui
y pbi = di (1 ui ) + op (n1/2 ). As:
X
B
pbi (t yi ) + op (n1/2 ) =
FbM
A1 (t) =
is


Fbb (t) Fb (t) ui
(t yi ) + op (n1/2 ) =
P
di 1
2
d
u
i
i
is
is

Fbb (t) Fb (t) X


di (tyi ) P
di ui (tyi )+op (n1/2 ) =
2
d
u
i
i
is
is
is
P
di ui (t yi )
+op (n1/2 ) =
FbHKy (t)+(Fb (t)Fbb (t)) isP
2
is di ui
b + op (n1/2 ).
FbHKy (t) + (Fb (t) Fbb (t))D

El resultado anterior es valido


cuando se usa el

parametro
poblacional B. El siguiente resultado garantiza
se cumple cuando usamos el
que el Teorema 2.7 tambien
b el usado por el estimador FbM A1 (t).

parametro
muestral ,

B
Teorema 2.8 Los estimadores FbM A1 (t) y FbM
A1 (t) tienen
lmite.
la misma distribucion

Demostracion
Denotemos los estimadores modelo-asistidos de veb y
rosimilitud pseudo emprica por FbM A1 (t) = Tn ()
B
b
b
Tn () depende del esFM A1 (t) = Tn (B). La expresion
b es cual es funcion
de los datos muestrales y estimator ,

tima consistentemente el vector de parametros


. Reem
por
plazando el estimador b en Tn () por y denotandolo
lmite de la meTn (), es posible encontrar la distribucion
cuando el valor actual del parametro

dia de esta expresion

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

es : () = lmn E [Tn ()] = Fey (t), donde Fey (t) es


el valor lmite de Fy (t) cuando N . Por tanto
!

()
()
()
()
=
,
,...,

=
1 = 2 =
P =

B
dada por

As, la varianza asintotica


de FbM
A1 (t) esta
B
b
b
AV (FbM
A1 (t)) = V (FHKy (t) Fb (t)D) =
!

XX
X
di Ei =
il (di Ei )(dl El ).
=V
is

= (0, 0, . . . , 0).

Randles (1982) demostro que bajo esta condicion,


b (= FbM A1 (t)) y Tn (B) (=
lmite de Tn ()
la distribucion
B

FbM

A1 (t)) son identicas.

iU lU

Considerando el Teorema 2.8, el resultado anterior


B
sostiene para FbM A1 (t) en lugar de FbM
tambien
A1 (t).
b
Por tanto, asumiendo el estimador FM A1 (t), la varianza
(2.106) puede estimarse por
X X ij
(b
pi ei )(b
pj ej ),
Vb (FbM A1 (t)) =
ij
is js

Teorema 2.9 El comportamiento asintotico


del estimador
b es el mismo del
FbyD1 (t) = FbHKy (t) + (Fb (t) Fbb (t))D
estimador FbyD2 (t) = FbHKy (t) + (Fb (t) Fbb (t))D, con
P
b con G
b = b z,v

donde ei = (t yi ) (t gi )G,
2 =

bv
z,w
iU di [(t yi ) Fy (t)][(t bi ) Fb (t)]
P
.
D= 2 =

2
P
w

iU di [(t bi ) Fb (t)]
b
b
is di [(t yi ) FHKy (t)][(t gi ) Fg (t)]
=
,
P
B

2
b

normal y
Consecuentemente, FbM
A1 (t) es asintoticamente
is di [(t gi ) Fg (t)]

Su corresponasintoticamente
insesgado bajo el diseno.
y donde v denota a la variable (t g).

diente varianza asintotica


esta dada por
XX
Nota 2.2 Algunos autores, tal como Rao et al.
B
il (di Ei )(dl El ),
(2.106)
AV (FbM
A1 (t)) =
b t xi , para
(1990), usan la pseudo-variable gi = R
iU lU
i = 1, . . . , N , para construir estimadores modelo

asistidosP para la funci


on
de distribucion,
donde
donde il = il i l y Ei = (t yi ) (t bi )D.
1 P
b = (
( is di yi ). El problema de esta
R
is di xi )

pseudo-variable es que unicamente


puede usarse para

Demostracion
b o b pueden
R
una variable auxiliar. Bajo tal situacion,
FbyD1 (t) puede expresarse como sigue:
usarse.
b=
FbyD1 (t) = FbHKy (t) + (Fb (t) Fbb (t))D
Nota 2.3 El estimador FbM A (t) es computacionalmente
b
b
b

simple
y no depende de parametros
desconocidos, puesto
= FHKy (t) + (Fb (t) Fb (t))(D D + D) =

de
puede
calcularse
f
acilmente
a traves
que
el
vector
t
g
b D) =
= FbHKy (t) + (Fb (t) Fbb (t))D + (Fb (t) Fbb (t))(D
x, el cual asumimos es conocido. Cuando esta informab D).
no esta disponible, el muestreo bifasico

= FbyD2 (t) + (Fb (t) Fbb (t))(D


cion
es una tecnica apropiada para poder aplicar el estimador propuesto.
b
b

insesgados bajo el diseno


Fb (t) y D son asintoticamente
Este muestreo consiste en tomar una primera muestra
para Fb (t) y D, respectivamente, y por tanto el producto
grande, donde se recogen los datos de la variable
b D) sera de menor orden que Fbb (t). mas
(Fb (t) Fbb (t))(D
auxiliar completa
auxiliar. Esto servira como informacion
b D)

Consecuentemente, el termino
(Fb (t) Fbb (t))(D
pequena.

en una segunda muestra mas


tiene menor orden que FbHKy (t) + (Fb (t) Fbb (t))D. En
tonces, FbyD1 (t) es asintoticamente
insesgado y puesto
2.4.5. Propiedades empricas
b

que los estimadores FHKy (t) y Fbb (t) son asintoticamente

normales, el estimador FbyD1 (t) es asintoticamente


normal.
Las principales propiedades del estimador FbM A (t)

La varianza asintotica
de FbyD1 (t) coincide con la va- han sido establecidas en la Seccion
2.4.4. El siguiente pa de este estimador por medio
rianza del estadstico FbyD2 (t), la cual esta dada por
so es analizar la precision
se llede un estudio emprico. Por tanto, en esta seccion

para investigar el cumvan a cabo estudios de simulacion


V FbHKy (t) + (Fb (t) Fbb (t))D =

plimiento muestral de varios estimadores de la funcion

de
distribuci
on
existentes
en
la
literatura
del
muestreo
en
b
b
= V FHKy (t) + Fb (t)D Fb (t)D =
poblaciones finitas.

Para realizar estos estudios se han usado dos pobla= V FbHKy (t) Fbb (t)D ,
lineal entre
ciones simuladas generadas bajo una relacion

puesto que Fb (t)D es un termino


constante. Ahora
natural, en la cual no se sostiene
y y x, y una poblacion
de este tipo.
una relacion
X
X
di (t yi )
di (t bi )D =
FbHKy (t) Fbb (t)D =
N = 1000, se
Las poblaciones simuladas, de tamano
is
is
han generado mediante el modelo
X
X
(2.107)
yi = 0 + 1 x1i + 2 x2i + i ,
di [(t yi ) (t bi )D] =
di Ei ,
=
is

is

donde las variables x1i y x2i se han generado de distribuciones Gamma y las cantidades i son variables aleatorias

con Ei = (t yi ) (t bi )D.

3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

39


independientes e identicamente
distribuidas con distribu Normal de parametros

cion
0 y 2 . El valor de 2 se es entre yi
coge de modo que el coeficiente de correlacion

y 0 + 1 x1i + 2 x2i es 0.98 para la primera poblacion


(Pob080).
(Pob098) y 0.80 para la segunda poblacion
natural se emplea la poblacion
Murthy,
Como poblacion
la cual presenta un comportamiento exponencial en sus

disponibles las propiedades


datos. En el Apendice
A estan
importantes de estas poblaciones as como sus resmas

pectivos diagramas de dispersion.


del estimador propuesto FbM A (t) es comLa precision
parada con los siguientes estimadores: el estimador convencional FbHT y (t), el estimador de Chambers y Dunstan
(1986) FbCD (t), los estimadores propuestos en Rao et
al. (1990), esto es Fbr (t), Fbd (t) y FbRKM (t), y por ulti
mo, el primer estimador M CP E propuesto en Chen y Wu
(1)
(2002), el cual denotamos como FbM C (t).
usado por
Notamos que el modelo (2.107) fue tambien
(1)
Chen y Wu (2002), teniendo el estimador FbM C (t) el mejor
cumplimiento en la mayora de los casos. En este estu se usa el estimador FbM A (t) cuando se condio, tambien
sidera un valor t0 en las restricciones. Este estimador se
denota como FbM A1 (t). Esto nos permitira comprobar la
de usar un vector en las restriccioganancia de precision
nes en lugar de usar un unico
valor. As, el mismo pun
(1)
to t0 = Qg (0,5) es usado por los estimadores FbM C (t) y
b
FM A1 (t) para cada t, puesto que esto es necesario para

de distribucion.

obtener una autentica


funcion
Por
Se llevan a cabo dos estudios de simulacion.
un lado, se evaluan
los estimadores en los puntos

t = Qy (0,25), t = Qy (0,50) y t = Qy (0,75).


Con el fin de revelar el comportamiento medio de
los distintos estimadores en diferentes valores de t,
para los arguse realiza otro estudio de simulacion

ultimo
mentos t = Qy (0,1), Qy (0,2), . . . , Qy (0,9). Este

nos permitira observar el comportamiento del estimador


FbM A (t) cuando se usan valores de t alejados de tg =
(tg25 , tg50 , tg75 )t .

Primera simulacion
consiste en tomar una muesEsta primera simulacion
tra aleatoria simple de las anteriores poblaciones y esti de distribucion
en los puntos t = Qy (0,25),
mar la funcion
t = Qy (0,50) y t = Qy (0,75) mediante los distintos estimadores. Este proceso se repite B = 1000 veces para
muestrales. A continuacion,
el cumplidiferentes tamanos

miento de todos los estimadores se compara en terminos


de Sesgo Relativo (SR) y de Eficiencia Relativa (ER), con
B
ECM [Fb (t)]
1 X Fb (t)b Fy (t)
; ER(t) =
,
B
Fy (t)
ECM [FbHT y (t)]
b=1
(2.108)

donde b expresa la b-esima


simulacion,
Fb (t) es un
de distribucion,

estimador cualquieraPde la funcion


b (t)b Fy (t)]2 es el Error
[
F
ECM [Fb (t)] = B 1 B
b=1

Cuadratico
Medio emprico para Fb (t), y ECM [FbHT y (t)]

se define de modo similar para el estimador estandar.


Notamos que valores de ER menores de 1 indican que el es
de error
timador Fb (t) es mejor que FbHT y (t) en terminos

cuadratico
medio.

SR(t) =

40

Las funciones que permiten llevar a cabo este estudio

de R
pueden consultarse en el Apendice
??. La funcion
de la ecuacion
h() = 0
usada para encontrar la solucion
verse en Wu (2005).
puede tambien
Las Figuras B.7 y B.8 muestran la ER para las tres
poblaciones cuando se evaluan
en los cuartiles pobla
En los casos donde
cionales de la variable de interes.

un estimador cumpla peor que el estimador estandar,


su
correspondiente lnea estara omitida. Los valores absolu todas dentro
tos de las cantidades SR para FbM A (t) estan
de un rango razonable y son todos menores del 1 %. Esto
sostiene para el resto de estimadores en la mayora de los
casos. De este modo, estos valores no se muestran.
De las Figuras B.7 y B.8 se pueden obtener las siguientes conclusiones:
preciso que el
1. FbM A (t) es considerablemente mas
resto de estimadores en t = Qy (0,25) y t =
baja ER en estos caQy (0,75), y exhibe la mas
sos. Cuando se estima la mediana de la variable
la situacion
es diferente, es decir, otros
de interes,
estimadores presentan un similar comportamiento
a FbM A (t). Por ejemplo, uno de estos estimadores
(1)
es FbM C (t) en las poblaciones Pop098 y Pop080.
Este estimador muestra una mayor ER en los puntos t = Qy (0,25) y t = Qy (0,75) debido a que t0
esta alejado de t. El conocimiento del modelo cor(1)
recto maximiza la eficiencia de FbM C (t), pero sola
mente cuando t esta proximo
a t0 .

2. En los casos donde hay una fuerte informacion


auxiliar (Pop098), la ganancia de usar FbCD (t),
(1)
FbM C (t), FbM A (t) y FbM A1 (t) puede ser substancial

comparada con el estimador estandar.


linealidad en la poblacion
Murthy afecta es3. La debil
(1)
b
b

pecialmente a FM C (t) y FCD (t), los cuales son mas


eficientes cuando los datos se rigen por un modelo
lineal (Pop098 y Pop080).
4. FbCD (t) es menos eficiente que el estimador

estandar
de tipo Horvitz-Thompson cuando la fun de distribucion
se estima en los puntos t =
cion
Qy (0,25) y t = Qy (0,75). Este estimador es bas
tante preciso cuando t esta proximo
a Qy (0,5),
aunque llega a ser considerablemente menos eficiente cuando t esta alejado de Qy (0,5).
5. FbM A1 (t) es siempre menos preciso que FbM A (t).
Esto revela la ganancia de usar el vector tg en lugar de un valor t0 . En cualquier caso, FbM A1 (t) tiene
eficiente
un buen comportamiento y es siempre mas

que el estimador estandar.

eficiente para
6. En terminos
de ER, el estimador mas

Fy (t) se obtiene por FbM A (Qy (0,75)) en la poblacion


Murthy. En este caso, los estimadores modelocalibrados y basados en modelos no tienen un buen
comportamiento. Esto puede deberse a que no existe una buena linealidad y a que t esta alejado de t0 .
7. Los estimadores Fbr (t) y Fbd (t) son siempre considerablemente menos eficientes que FbM A (t).

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


Segunda simulacion
anterior se ha realizado en los puntos
La simulacion
t = Qy (0,25), t = Qy (0,50) y t = Qy (0,75). Puede observarse que el orden de estos cuantiles coincide con el
orden de los cuantiles del vector tg . Es esperable que
Por este motivo,
FbM A (t) cumpla bien en esta situacion.
para medir la preusaremos otro estudio de simulacion
de los distintos estimadores en los puntos t =
cision
Qy (0,1), Qy (0,2), . . . , Qy (0,9).
En este caso, el cumplimiento de los estimadores es
medido mediante el Sesgo Relativo Medio (SRM ) y la
Eficiencia Relativa Media (ERM ), dados respectivamente
por
v
u
9
9
u1 X
1X
|SR(tq )| ; ERM = t
ER(tq ),
SRM =
9 q=1
9 q=1

En todos los estudios (ER, SR, SRM , ERM y


DAM ), el estimador propuesto, FbM A (t), proporciona una
buena mejora sobre FbM A1 (t), el cual usa un unico
punto

t0 . Esto confirma la ganancia en eficiencia al usar el vector


tg , especialmente cuando t esta alejado de t0 .

definidos en (2.108) y tq es el
donde SR(t) y ER(t) estan

q-esimo
decil para la variable de estudio.
una medida global del cumpliConsideramos tambien
de los 9 cuantiles para
miento de los estimadores a traves
cada muestra obtenida de las B = 1000 simulaciones.
Absoluta Maxima

Esta medida es la Desviacion


(DAM )
que esta dada por: DAM(b) = m
axq |Fb (tq )b F (tq )|, para
b = 1, . . . , B. Notamos que las medidas SRM , ERM y
usadas en Silva y Skinner (1995).
DAM han sido tambien
La Figura B.9 muestra los valores SRM , en tanto por
ciento, para las tres poblaciones. Puede observarse que
todos los estimadores exhiben valores SRM menores del
1 % para las poblaciones Pob098 y Murthy. Asumiendo
mas
debil

una relacion
(Pob080), el estimador de tipo
presenta el peor comportamiento (su SRM ronda
razon
el 1.4 %). En la mayora de los casos, puede observarse

que los valores SRM son decrecientes segun


el tamano
muestral y que el estimador FbM A (t) presenta el menor
sesgo.

Los valores ERM para las tres poblaciones estan


mostrados en la Figura B.10. Estos resultados revelan que
hay una razonable ganancia de eficiencia al usar FbM A (t)
(1)
con respecto a otros estimadores. FbM C (t) muestra el segundo mejor comportamiento en las poblaciones Pob098
basadas en un modelo lineal.
y Pob080, las cuales estan
lineal entre y y x, la perdida

A pesar de esta relacion


de
(1)
eficiencia de FbM C (t) comparada con FbM A (t) se debe al
(1)
hecho de que el estimador FbM C (t) usa un unico
valor fijo

es menos preciso cuando t esta alejat0 = 0,5, y este

de ERM , FbCD (t) muestra el peor


do de t0 . En terminos
comportamiento de todos los estimadores considerados.
preciso cuando t esta cercano a Qy (0,5),
FbCD (t) es mas

aunque este estimador sufre una considerable perdida


de
eficiencia en cuantiles extremos (de bajo o alto orden).
La Figura B.11 muestra los diagramas de cajas
con bigotes de las distribuciones de los valores DAM
obtenidos para las tres poblaciones. Se han tomado
100 para las poblaciones Pob098
muestras de tamano
50 para la poblacion

y Pob080 y muestras de tamano

Murthy. Estos diagramas confirman el analisis


anterior:

absoluta mientras
desviacion
FbCD (t) presenta la maxima
que FbM A (t) muestra el mejor comportamiento en todos
los casos.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

41

3. Aportaciones a la estimacin de cuantiles

3.1.

Introduccion

de la totales y medias
El problema de la estimacion
poblacionales en presencia de variables auxiliares ha sido extensamente discutido en la literatura del muestreo de
de
poblaciones finitas. Para el problema de la estimacion
es bastante difela mediana y otros cuantiles, la situacion
en la actualidad este problema esta sienrente y tan solo
de este
do discutido, debido en parte, al creciente interes
tipo de medidas. Notamos que los distintos estimadores y

metodos
propuestos para la media y el total de una varia obvia al problema de la estible no tienen una extension
de cuantiles.
macion
Un ejemplo del uso de cuantiles y otras medidas relacionadas en muestreo de poblaciones finitas es el siguiente. Frecuentemente, los organismos nacionales de
estadstica y otras agencias se encuentran con variables, tales como ingresos, gastos, etc., que presentan distribuciones con una alta asimetra. Bajo estas circuns apropiada que la metancias, la mediana resulta mas
dia poblacional. De este modo, asumiendo datos de Encuestas Continuas de Presupuestos Familiares, los gobiernos de diferentes pases obtienen numerosas medi de bajos ingredas de pobreza, tal como la proporcion
sos, que dependen directamente de determinados cuantiles. Un ejemplo de este tipo de medidas viene dado por
Eurostat (2000), en donde se define que un salario es ba
jo si este
esta por debajo del 60 % del salario mediano
mensual, es decir, el cuantil de orden = 0,5 se emplea
en Eurostat. A nivel nacional, el Instituto Nacional de Es
tadstica y sus correspondientes organismos autonomos,
definen una medida similar para determinar el ndice de
pobreza, aunque en este caso la variable principal es el

gasto producido en los hogares espanoles.


Otros estudios

usan cuantiles para estudiar


de tipo economico
tambien
entre gastos en alimentacion
de los hogares y
la relacion

los correspondientes ingresos, analisis


de salarios y gas
tos, impacto de varias caractersticas demograficas,
cali
dad en la escuela, analisis
de demanda, etc. Una extensa
bibliografa sobre estas y otras aplicaciones en estudios

de tipo economico
puede consultarse en Koenker y Hallock (2001).
de parame
Al igual que para el caso de la estimacion
tros lineales como medias o totales, las estimaciones
mas
eficientes si se incorpora informacion
auxiliar,
seran
en la
altamente correlacionada con la variable de interes,
En la estimacion
de cuantiles, exisetapa de estimacion.

ten dos grandes metodos


que incorporan la informacion
auxiliar de forma eficiente:
de cuantiles indirectos: consiste en
M1. Estimacion
diferencia o reconstruir estimadores de tipo razon,

tal como se construyen para la media o el


gresion,
pueden
total. Ejemplos de este tipo de estimacion

verse en Kuk y Mak (1989), Arcos, Rueda y Munoz


(2006), Rueda, et al. (1998, 2003, 2004), etc. Notamos que para formular la mayora de estos estimadores, se requiere conocer los cuantiles poblacionales de las variables auxiliares, o bien otro tipo

de parametro
poblacional.
a traves
de la funcion
de distribucion:

M2. Estimacion

La tecnica
habitual en muestreo de poblaciones fini de distribucion
para obtas es invertir la funcion
de un determinado cuantil. Se
tener la estimacion
requiere, por tanto, usar eficientemente la informa auxiliar en la etapa de estimacion
de la funcion
de distribucion.
El inconveniente de esta tecni
cion
de distribuca es que el estimador de la funcion
debe ser una verdadera funcion
de distribucion
para estimar cuantiles con mayor precision.

cion
Aunque este hecho resulta imprescindible, existen
varios estimadores en la literatura que no cumplen
tal propiedad. Chambers y Dunstan (1986) fueron
de los primeros investigadores en utilizar informa auxiliar para construir estimadores de la funcion
de distribucion,
y posteriormente invertir esta
cion
para obtener cuantiles. Otras importantes
funcion
referencias son Rao et al. (1990), Wang y Dorfman
(1996), Dorfman y Hall (1993), Kuo (1988), Silva y
Skinner (1995).
Notamos que durante el desarrollo de este captulo
exclusivamente con estimadores derivados del
se trataran

usado por su calidad de estimetodo


M 2, el cual es mas
y eficiencia.
macion
Los primeros trabajos relacionados con el problema
de parametros

como la mede la estimacion


de posicion,
diana y los cuantiles se deben a Woodruff (1952) donde se
construyen intervalos de confianza bajo muestreo aleatorio simple. Posteriormente, Hill (1968) utiliza un enfoque
de sus estimadores, mienbayesiano para la construccion
tras que Sendransk y Meyer (1978) se basan en un
de esenfoque puramente probabilstico de distribucion
tadsticos ordenados para muestreo aleatorio simple y
eficientes y con
estratificado. Pero los estimadores mas
mejores propiedades se desarrollan posteriormente bajo aproximaciones modelo-asistidas, basadas en el mo se han propuesto esdelo y modelo-calibradas. Tambien
timadores de cuantiles mediante intervalos de confianza
regresion
y diferencia
basados en estimadores de razon,
auxiliar multivariante (Rueda, Arcos
y usando informacion
1997, 1998, Rueda y Arcos, 2001, Rueda y Arcos,
y Artes,
2002a, Rueda y Arcos, 2002b).

En la literatura, los estimadores de cuantiles mas

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

43

conocidos son los siguientes. En primer lugar, citamos el


estimador de Chambers y Dunstan (1986) para la fun de distribucion,
el cual esta basado en un modelo
cion
La inversion
directa de esta funcion

de superpoblacion.
de cuantiles. Siguiendo
puede usarse para la obtencion

esta tecnica,
Rao et al. (1990) propusieron estimadores
y diferencia usando una aproximacion
basade tipo razon
Kuk y Mak (1989) propusieron dos esda en el diseno.
timadores para los cuales solamente es necesario conocer a nivel poblacional el valor de la mediana de una va recientemente, Rueda et al. (1998)
riable auxiliar. Mas
y Rueda y Arcos (2001) propusieron intervalos de confianza para los cuantiles basados en estimadores de tipo
y diferencia de la funcion
de distribucion.
En Rueda
razon
de cuantiles
et al. (2003, 2004) se plantea la estimacion
mediante estimadores de tipo diferencia usando cuantiles
poblacionales del mismo orden de la variable auxiliar. La
de cuantiles usando tecnicas

estimacion
recientes de es tambien
ha sido investigada. Por ejemplo, Chen
timacion
de cuantiles usando
y Wu (2002) proponen la estimacion
modelo-calibrada.
la aproximacion
Existe otro gran numero
de estimadores de cuantiles

propuestos para distintos disenos


muestrales. Los esti importantes se iran
citando a lo largo del
madores mas
presente captulo, en el cual se trata el problema de la es de cuantiles desde distintos enfoques. Por un latimacion
muesdo, se desarrollan nuevos estimadores en disenos
complejos, y por otro, se proponen estimadores
trales mas

asumiendo el reciente metodo


de verosimilitud emprica.
Para formular la mayora de los estimadores de cuan del metodo

tiles, ya sean a traves


M 1 o del metodo
M 2, es
necesario conocer los valores poblacionales de las varia
bles auxiliares, aunque esto es poco usual en la practica.
a este problema se trata en la Seccion
3.2 meLa solucion

diante el uso del muestreo bifasico,


en el cual la informa auxiliar poblacional puede estimarse usando la muescion
se propotra de la primera fase. Por tanto, en esta seccion

nen estimadores de cuantiles en muestreo bifasico


y asumiendo que las unidades muestrales se extraen mediante

metodos
de muestreo con probabilidades desiguales en
cada una de las dos fases. La eficiencia de estos estimadores puede mejorarse si se usa un muestreo estrati
ficado en la primera fase. Asumiendo este ultimo
diseno

muestral, denominado muestreo bifasico


aplicado a la es se comprueba que los estimadores propuestratificacion,
precisos con respecto a otros
tos pueden llegar a ser mas
existentes en la literatura.
3.3 se plantean nuevos esPor otro lado, en la Seccion
timadores de cuantiles bajo muestreo en ocasiones sucesivas. En primer lugar se definen estimadores de cuantiles

basados en multiples
variables auxiliares. La introduccion

proporciona un marco de estimacion

de tal informacion
precisos.
apropiado que permite obtener estimadores mas

se proponen estimadores de
A continuacion,
tambien
cuantiles basados en muestras seleccionadas mediante
muestreos probabilsticos con probabilidades desiguales

(por ejemplo, con unidades proporcionales al tamano).

Notamos que este


es el caso de los organismos nacionales y agencias de estadstica que realizan encuestas
continuas a lo largo del tiempo. El comportamiento de todos los estimadores propuestos se analiza desde el punto

de vista teorico
(mediante aproximaciones asintoticas),
y

desde una perspectiva emprica (analizando los resultados obtenidos a partir de una serie de poblaciones).
3.4 se propoPara cerrar este captulo, en la Seccion

nen estimadores para cuantiles asumiendo el metodo


de
verosimilitud emprica, expuesto con detalle en el captulo anterior. Los estimadores propuestos usan de manera
auxiliar, lo que se traduce en una
eficiente la informacion
Esta precision
de los estimadores
mejora de la precision.

propuestos se ha evaluado para el calculo


de algunas medidas de pobreza oficiales, las cuales dependen de forma
directa de cuantiles. Este estudio se ha llevado a cabo
asumiendo distintos estimadores de cuantiles. Los resultados obtenidos reflejan que los estimadores propuestos
precisas para las mediproporcionan estimaciones mas
das de pobreza involucradas en tal estudio.

3.2.

Estimadores bajo muestreo

bifasico

se resuelve el problema de la esEn esta seccion


de cuantiles bajo muestreo en dos fases o
timacion

muestreo bifasico
con disenos
muestrales arbitrarios en
cada una de las dos fases. Se proponen varios esti y exponencial que propormadores de tipo directo, razon

cionan estimaciones optimas


para un determinado cuantil. Se analizan propiedades importantes de estos esti de vamadores, tales como la insesgadez, estimacion

rianzas, etc. Como caso particular, se investiga tambien

diseno

el muestreo bifasico
aplicado a la estratificacion,
muestral que ofrece importantes ganancias en eficiencia
debido a los beneficios que produce el muestreo estratificado. Todas estas propiedades se ven desde un pun

to de vista teorico,
aunque el analisis
de los estimadores
se completa con un estudio emprico llevado a cabo para
muestrales con prolos cuartiles y bajos distintos disenos
babilidades desiguales. Este estudio refleja que los estimadores propuestos mejoran a otros estimadores conoci
dos en terminos
de sesgo y eficiencia relativa.
Notamos que la mayor ventaja al usar muestreo

sin un sustanbifasico
es una alta ganancia en precision
muescial incremento en costes. De hecho, este diseno
tral se usa frecuentemente en numerosas encuestas por
razones de coste y eficiencia.

3.2.1.

Introduccion

de un determinado
Para el problema de la estimacion

parametro
en muestreo de poblaciones finitas, la informa auxiliar juega un papel muy importante en la precision

cion
de los estimadores. La mayora de los estimadores basa auxiliar se basan en el conocimiento a
dos en informacion

nivel poblacional de las variables auxiliares. En la practica,


esta cantidad no tiene porque ser conocida. De hecho, son
muy poco frecuentes las encuestas que disponen de es por lo que resulta imposible obtener estos
ta informacion,
auxiliar. Una alternaestimadores basados en informacion

tiva es estimar los parametros


poblacionales que usan los
estimadores, aunque esto conlleva a importantes errores
de la varianza (vease

en la etapa de la estimacion
Ber y Rancourt, 2006). Bajo esta situacion,
el uso
ger, Munoz

44

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

apropiada para
de un muestreo bifasico
es la tecnica
mas
resolver este problema.

Por tanto, el muestreo bifasico


es una herramienta
util
para aquellas investigaciones en las cuales no existe conocimiento previo de las variables auxiliares a nivel

poblacional. Otro punto a favor del muestreo bifasico


es la
de un esquema importante de informacion
que
creacion
probabilstica de sub-muestras. Para
permite la seleccion
sobre el muestreo bifasico

una mayor profundizacion


en
de medias o totales puede consultarse, por
la estimacion

ejemplo, Prasad y Thach (2001), Sarndal


et al. (1992),

y Garca (2002).
Fernandez
y Mayor (1994) y Artes
de cuantiles en
En lo que respecta a la estimacion

muestreo bifasico,
los primeros autores en realizar investigaciones en este sentido fueron Singh et al. (2001),
Singh (2003) y Allen et al. (2002) para el problema de
de la mediana poblacional. Estos trabala estimacion
jos fueron desarrollados exclusivamente para muestreo
aleatorio simple. Con el fin de completar estos estudios,
se proponen numerosos estimadores
en esta seccion
para un determinado cuantil cuando se lleva a cabo un

muestreo bifasico
con disenos
muestrales arbitrarios en
cada una de las dos fases.
se describe brevemente en que conA continuacion

siste un muestreo bifasico.


Suponemos que tenemos una
U compuesta por N unidades de la que se
poblacion

extrae en una primera fase una muestra, s0 , de tamano,


n0 , bastante grande y de bajo costo, segun
cierto criterio
muestral, d1 , tal que pd1 (s0 ) sera la probabilidad de que
s0 sea seleccionada y donde las correspondientes proba de primer y segundo orden se debilidades de inclusion
0
0
notan, respectivamente, como i y ij para i y j U .
En esta muestra, una o varias variables auxiliares pueden

ser recogidas facilmente,


es decir, dicha muestra permite
auxiliar necesaria para todo el proobtener la informacion
n es
ceso. Dada s0 , una segunda muestra s de tamano
d2 ,
seleccionada en la segunda fase mediante un diseno
tal que p(s/s0 ) es la probabilidad condicional de escoger
bajo este diseno
se des. Las probabilidades de inclusion
0
0
0 0
notan como i/s0 y ij/s0 . Notamos que ij = ij i j
0
y sij = ij/s0 i/s0 j/s0 .

3.2.2.

Estimadores propuestos

auxiliar, el canSin usar ningun


tipo de informacion
b y () = nf{t |
didato natural para estimar el cuantil es Q
1
b
b
FHT y (t) } = FHT y (), donde
1 X (t yi )
FbHT y (t) =
N is
i
es el estimador de tipo Horvitz y Thompson (1952) de
estan
dadas por
Fy (t),Py las probabilidades de inclusion
i = s0 3i pd1 (s0 )i/s0 .
Como puede observarse, para determinar i se deben
conocer las probabilidades i/s0 para cada s0 , las cuales
no se conocen generalmente porque i/s0 pueden depen de la primera fase, por ejemplo si la muesder del diseno

tra de la segunda fase es disenada


mediante un muestreo
proporcional a una variable auxiliar.
Notamos que el estimador de tipo Horvitz-Thompson
para la media poblacional tampoco puede obtenerse en

Sarndal

la practica
bajo este muestreo. Por esta razon,
et
al. (1992) propusieron el uso de estimadores . Usan0
do esta idea, se definen las cantidades i = i i/s0 y
0

ij
= ij ij/s0 , que permiten definir el -estimador de la
de distribucion
como
funcion
1 X (t yi )

,
(3.1)
FbHT
y (t) =
N is
i
y as, el estimador directo propuesto para un cuantil esta
dado por
1
b y () = FbHT
(3.2)
Q
y ().

b y () no coincide generalmente con el


Notamos que Q
b
estimador Qy () excepto en casos excepcionales, aunque
la principal ventaja del estimador directo propuesto so
bre el estandar
comentado es su aplicabilidad para cua muestrales usados en calesquiera que sean los disenos
da fase.
El estimador (3.2) se ha definido sin usar ninguna in auxiliar. Si esta informacion
esta disponible, el
formacion
uso de estimadores indirectos nos puede ayudar a obtener
precisas para los cuantiles en muestreo
estimaciones mas

bifasico.
De este modo, el siguiente paso es definir una
auxiliar. En
clase de estimadores que usen informacion
primer lugar mostraremos los principales antecedentes
relacionados con el tema que nos ocupa.
Asumiendo muestreo aleatorio simple y que la mediana de la variable x es conocida, Kuk y Mak (1989) pro para la mepusieron el siguiente estimador de tipo razon
diana
b y (0,5) Qx (0,5) .
b ry (0,5) = Q
Q
b x (0,5)
Q

Kuk y Mak (1989) propusieron otros estimadores


Ademas,
de cuantiles bajo muestreo aleatorio simple llamados esti y de estratificacion,
pero la extension

madores de posicion

de cualquiera de ellos a otros disenos


muestrales mas
complejos no ha sido posible.
Rueda et al. (2003, 2004) propusieron, para cualquier
muestral d y para cualquier , metodos

diseno
de diferencia y exponenciales para estimar un cuantil . Singh et
regresion,

al. (2001) sugirieron estimadores de tipo razon,


y estratificacion
de la mediana cuando la muestra
posicion
es seleccionada en dos fases y usando muestreo aleato
rio simple en cada una de ellas. Bajo muestreo bifasico
y
muestreo aleatorio simple en cada fase, Allen et al. (2002)
propusieron dos clases de estimadores para la mediana
propoblacional. Estos estimadores usan la informacion
porcionada por dos variables auxiliares, x y z, donde se
asume que la mediana de z es conocida.
se presenta una clase de estimadores
A continuacion
para cuantiles poblacionales cuando las muestras en ambas fases son seleccionadas mediante un esquema de
muestreo arbitrario:

b
bH
Q
y () = H(Qy (), t ),
0

(3.3)

b x ()/Q
b x (), y Q
b x () es el estimador de
donde t = Q
Qx () basado en la muestra de la primera fase, esto es,
b 0x () = nf{t | Fb 0 1 (t) }, donde
Q
HT x
1 X (t xi )
0
FbHT
.
x (t) =
N
i0
0
is

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

45

H satisface las siguientes condiciones:


La funcion
(C3.1). Asume valores en un subconjunto convexo cerrado C R2 , el cual contiene el punto (Qy (), 1).
continua en C, tal que
(C3.2). H es una funcion
H(Qy (), 1) = Qy ().
(C3.3). Las primeras y segundas derivadas parciales de
H existen y son continuas en C, con

H(q, t )
= 1.
H10 (Qy (), 1) =

q
(q,t )=(Qy (),1)
Un caso particular dentro de la clase general de esti dado por:
madores H es el estimador tipo razon,
b0
b y () Qx () ,
b yr () = Q
Q
b x ()
Q
H(q, t ) = q/t .
y el cual se corresponde con la eleccion
Otro estimador para el cuantil , llamado el estimador
exponencial, esta dado por:
!
0
b
b y () Qx ()
b ye () = Q
,
Q
b x ()
Q
se ensiendo una constante fija. Este estimador tambien
cuentra dentro de la clase H, puesto que se corresponde
H(q, t ) = q/(t ) . Notamos que estos
con la eleccion

estimadores se han definido en Rueda, Arcos, Munoz


y
Singh (2006).
b y (), esto es,
b ye () = Q
Nota 3.1 Si = 0, entonces Q

b
Qye () coincide con el estimador . Por otro lado, si
b ye () = Q
b yr (). Por ultimo,
= 1, entonces Q
puede

b ye () = Q
b yp (),
comprobarse que si = 1, entonces Q
el cual puede definirse como un estimador producto.

donde fy () denota la derivada del valor lmite de Fy ()


cuando N .

es sabido que el estimador FbHT


Ademas,
y (t) es insesgado de F (t). En consecuencia, se tiene que

E( FbHT
y (Qy ())) = 0

(3.4), puede verse facilmente

y basandose
en la ecuacion
b y ()) = Qy () + O(n1/2 ), esto es, el estimador
que E(Q
b y () es asintoticamente

Q
insesgado de Qy ().

b y ()

Teorema 3.2 La varianza asintotica


del estimador Q

b
esta dada por AV (Qy ()) =
"
X 0
0 0 (Qy () yi ) (Qy ()
1
1
(ij i j )
= 2 2
0
0
N fy (Qy ()) i,jU
i
j

+Ed1

debida a cada una de las fases de


refleja la variacion
muestreo.
total del estimador
Por otro lado, el error de estimacion
dado por (3.1), cuando se evalua
en el punto Qy (),
puede expresarse como suma de dos componentes

FbHT
y (Qy ()) Fy (Qy ()) =

0
= FbHT
y (Qy ()) Fy (Qy ()) +

b0
+ FbHT
y (Qy ()) FHT y (Qy ()) = Qs0 + Rs ,

donde Qs0 es el error debido a la primera fase del


muestreo y Rs es el error debido a la segunda fase. Usan se tiene que
do esta descomposicion,

0
= Vd1 (Qs0 ) =
Vd1 E FbHT
y (Qy ())|s

b y () es asintoticamente

inTeorema 3.1 El estimador Q


sesgado para Qy ()

Demostracion
b y () puede expresarse
En primer lugar, el estimador Q

lineal de la funcion
de
asintoticamente
como una funcion
estimada y evaluada en el punto Qy () medistribucion
de Bahadur (vease,

diante la representacion
por ejemplo,
Bahadur, 1966, Chambers y Dunstan, 1986, Kuk y Mak,
1989, Chen y Chen, 2000, Chen y Wu, 2002, etc):
b y ()Qy () =
Q

46

(Qy () yi ) (Qy () y
i
j

0
+ Ed1 V FbHT
= Vd1 E FbHT
y (Qy ())|s
y (Qy ())|s

Propiedades teoricas

En este apartado se estudian las principales


b y () y de los estimadores
propiedades del estimador Q
basados en la clase H. Debido a que estos estimadores
necesarias aproximano son funciones continuas, seran
ciones lineales.

(ij/s0 i/s0 j/s0 )

i,js0

Demostracion
(3.4) se deduce que
De la expresion

b y ()) =
V FbHT
AV (Q
y (Qy ()) ,
2
fy (Qy ())

donde V FbHT
y (Qy ()) =

Nota 3.2 Bajo muestreo aleatorio simple en cada fase y


b ye ()
b yr () y Q
= 0,5, los estimadores propuestos Q
se corresponden, respectivamente, con los estimadores
cy(b) propuestos por Singh et al. (2001).
cy(a) y M
M

3.2.3.

0 0 (Qy () yi ) (Qy () yj )
1 X 0
(ij i j )
0
0
N 2 i,jU
i
j

y
Ed1 V

Ed1

0
= Ed1 V (Rs |s0 ) = 2
FbHT
y (Qy ())|s
N

(ij/s0 i/s0 j/s0 )

i,js0

1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())
(3.4)

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

(Qy () yi ) (Qy () yj
i
j

b y ())
Corolario 3.1 Un estimador insesgado de AV (Q
esta dado por

e0 =

1
b y ()) = 1

Vb (Q
N 2 fy2 (Qy ())
0
0 0
b y () yi ) (Q
b y () yj )
X ij
i j (Q

+
0
0

ij
i
j
i,js

b y () yi ) (Q
b y () yj )
X ij/s0 i/s0 j/s0 (Q

ij/s0
i
j
i,js

b y ()
Q
1,
Qy ()

e1 =

b x ()
Q
1
Qx ()

e2 =

b 0x ()
Q
1.
Qx ()

Introduciendo varianzas en (3.6) y bajo una aproximacion

de primer orden, se llega a la expresion:

donde:

bH
V (Q
y ())

= Qy ()2 V (e0 ) + H01 (Qy (), 1)2 V (e1 e2 )+


+2H01 (Qy (), 1)Cov(e0 , e1 e2 ).

Por otro lado, bajo muestreo bifasico:

En la practica,
la cantidad fy (Qy ()) es desconocida.
Un valor aproximado de fy (Qy ()) puede obtenerse apli

cando metodos
estandares
tal como el kernel (Silverman,

1986). Notamos que algunos de estos metodos


para la es de densidades han sido usados, por ejemplo, en
timacion
Kuk y Mak (1989) y Arcos et al. (2005).
El estimador de la varianza anterior no depende de
de la primera fase,
esperanzas relacionadas con el diseno

haciendo posible su calculo


en la practica.
Teorema 3.3 Cualquier estimador dentro de la clase H es

asintoticamente
insesgado para Qy ().

bH
bH
bH
V (Q
y ()) = Ed1 V (Qy ()/s ) + Vd1 E(Qy ()/s )
debida a cada una de las dos fases
refleja la variacion
de muestreo. Usando las propiedades conocidas del estimador de Horvitz-Thompson y su varianza, se obtiene
0

bH
Vd1 E(Q
y ()/s ) =

1
1

N 2 fy2 (Qy ())

(Qy () yi ) (Qy () yj )

ij
0
0
i
j
i,jU
0

y
0

Demostracion
Para obtener este resultado nos basaremos en las siguientes aproximaciones lineales:
b y ()Qy () =
Q

= Ed1

X s0 (Qy () yi ) (Qy () y
1
1
ij
N 2 fy2 (Qy ())
i
j
0
i,js

1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())

H 2 (Qy (), 1)
+ 01 2
Qx ()

1/2
(FbHT
),
x (Qx ()))+O(n
fx (Qx ())
0
0
1
b x ()Qx () =
(FbHT x (Qx ()))+O(n01/2 ),
Q
fx (Qx ())

b x ()Qx () =
Q

= H((Qy (), 1))+


b y () Qy () H10 (Qy (), 1)+
+ Q

sij

i,js0

1
1

N 2 fx2 (Qx ())

(Qx () xi ) (Qx () xj )
+
i
j

H01 (Qy (), 1) 1


1

Qx ()
N 2 fy (Qy ())fx (Qx ())
X s0 (Qy () yi ) (Qx () xj )

ij
,
i
j
0

+2

i,js

(3.5)

+(t 1)H01 (Qy (), 1) + O(n1 ),

donde H10 y H01 denotan las derivadas parciales de


primer orden de H con respecto a q y t, respectivamen
b
te. Como FbHT
y (t) y FHT x (t) son estimadores insesgados
de Fy (t) y Fx (t), respectivamente, puede observarse que

cualquier estimador en H sera asintoticamente


insesgado

para Qy ().

Para obtener las expresiones asintoticas


de las varian de la serie de Taylor
zas, consideraremos la expansion

dada en (3.5), que da lugar a la expresion:

donde ij = ij i j y sij = ij/s0 i/s0 j/s0 . Esta


no puede obtenerse en la practica,

expresion
as que para
ello
X 0 (Qy () yi ) (Qy () yj )
ij
0
0
i
j
i,jU
se estima por
b y () yi ) (Q
b y () yj )
X 0ij (Q
,
0
0

ij
i
j
i,js
y

Ed1

bH
Q
y () Qy () =

X
i,js0

sij

(Qy () yi ) (Qy () yj )
i
j

por

b
b y () Qy () + Qx () H01 (Qy (), 1) + O(n1 ).
= Q
b 0x ()
Q

b y () yi ) (Q
b y () yj )
X sij0 (Q
.

0
i
j
i,js ij/s

Desarrollando se obtiene

bH
Q
y () Qy () ' Qy ()e0 +

de la serie de Taylor de primer ory usando la expansion


den para H sobre el punto (Qy (), 1):
bH
Q
y ()

bH
Ed1 V (Q
y ()/s ) =

(3.6)

+(e1 e2 )H01 (Qy (), 1) e2 (e1 e2 )H01 (Qy (), 1),

Las funciones fx (Qx ()) y fy (Qy ()) pueden calcularse


siguiendo Silverman (1986).

Las varianzas asintoticas


de los estimadores de tipo

razon,
producto y exponencial se derivan a partir de

4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

47

H(q, t) = q/t, H(q, t) = q t y H(q, t) = q/t , respectivamente.


Una vez que la clase y sus propiedades principales
han sido definidas, el siguiente paso es obtener el estib ye (). La idea de optimalidad

mador optimo
en la clase Q

se define en el sentido de minimizar la varianza asintotica


de estos estimadores.

El valor optimo
de esta dado por
0

opt =

b x ()) Cov(Q
b y (), Q
b x ())
b y (), Q
Qx () Cov(Q
.
b x ()) + Q
b 0x () 2Cov(Q
b x (), Q
b 0x ())
Qy () V (Q

Usando las propiedades de muestreo bifasico,


se obtiene:
Qx () fx (Qx ())

opt =
Qy () fy (Qy ())

X s0 (Qy () yi ) (Qx () xj )

ij
Ed1
i
j
i,js0

X s0 (Qx () xi ) (Qx () xj )

Ed1
ij
i
j
0
i,js

y el estimador optimo
esta dado por
!
0
b x () opt
Q

opt
b
b
()
=
Q
()
.
Q
y
y
b x ()
Q
bH
b opt ()) = V (Q
b y ()) K1 =
V (Q
y ()) V (Qy

2
b
b
b0
b
b y ()) (Cov(Qy (), Qx ()) Cov(Qy (), Qx ())) ,
= V (Q
0
0
b
b
b
b
V (Qx ()) + Qx () 2Cov(Qx (), Qx ())

bH
bajo de la varianza de Q
esto es, el valor mas
y ()
esta dado por el estimador exponencial con = opt .
anterior demuestra que el estimador proLa ecuacion
opt
b
eficiente que el esti() es siempre mas
puesto Q
y
b y (). Puede observarse que K1 es
simple Q
mador mas
la cantidad que se reduce de varianza cuando se usa el

estimador exponencial con el valor optimo


de en lugar
b y ().
de usar el estimador Q

En la practica,
el valor de es desconocido. Sin em usarse para obtener
bargo, los datos muestrales podran

un estimador para este parametro.


Un posible estimador

para el valor optimo


de esta dado por

b x () fx (Qx ())
Q

b y () fy (Qy ())
Q

(3.7)

b y () yi ) (Qx () xj )
X sij0 (Q
0
i
j
i,js ij/s
X sij0 (Qx () xi ) (Qx () xj )
0
i
j
i,js ij/s

48

b y ()
Q

b 0x ()
Q
b x ()
Q

!b

Propiedades empricas

Se han propuesto varios estimadores para cuantiles

en muestreo bifasico
cuando las muestras en ambas fases se seleccionan con probabilidades desiguales. A con se lleva a cabo un estudio de simulacion
con
tinuacion
el objetivo de observar el comportamiento de estos esti eficiente entre ellos. En este
madores y destacar el mas
estudio se han considerado las poblaciones Fam1500 y

Counties (vease
Apendice
A).
Se han generado 1000 muestras independientes bajo

diferentes metodos
de muestreo en cada fase. El tamano
muestral en la primera fase, n0 , se ha fijado en 150, mien de la muestra de la segunda fase, n,
tras que el tamano
varia entre 10 y 100. Los casos considerados son los siguientes:

i =

n0
,
N

i/s0 =

x
n0 n
n1
P i
+ 0
n0 1 js0 xj
n 1

i = i i/s0 .

2. (M as.P oisson): En la primera fase se usa


n0 , y las
muestreo aleatorio simple de tamano
muestras de la segunda fase son seleccionadas

mediante el metodo
de Poisson (vease
Singh, 2003,
pg. 499), de modo que las probabilidades de in estan
dadas por:
clusion
0

i =

n0
,
N

i/s0 = n P

xi
js0

xj

i = i i/s0 .

El cumplimiento de los estimadores propuestos en

muestreo bifasico
para un determinado cuantil se evalua

para los tres cuartiles, = 0,25, 0,50, 0,75, en terminos de Sesgo Relativo ( %) (SR) y Eficiencia Relativa
(ER) mediante aproximaciones Monte Carlo derivadas
de B = 1000 muestras independientes. Estas medidas
vienen dadas por:

De este modo, se puede definir un estimador optimo


para el cuantil como:
b
b
Q
y ()

3.2.4.

1. (M as.M idzuno): Las muestras en la primera fase


han sido seleccionadas mediante muestreo aleato n0 , mientras que las muesrio simple de tamano
tras de la segunda fase se han tomado mediante el

metodo
de Midzuno (vease
Singh, 2003, pg. 390).
en este caso vienen
Las probabilidades de inclusion
dadas por:

Puede verse que:

b=

Siguiendo el procedimiento discutido en Allen et al.


b
b
(2002), puede demostrarse que E(Q
y ()) = Qy () +
1
b

b
V (Q
o(n ) y al primer grado de aproximacion,
y ()) =

opt
opt

b
b y ()), esto es, los estimadores Q
b y () y Q
b y ()
V (Q

son asintoticamente
equivalentes.

SRi = 100

B bi
b iy ()]
ECM [Q
1 XQ
y ()b Qy ()
; ERi =
,
b y ()]
B
Qy ()
ECM [Q
b=1

b iy () denota el

y Q
donde b indica la b-esima
simulacion

i-esimo
estimador propuesto, con
b0
b y () Qx () ,
b 1y () = Q
Q
b x ()
Q

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

b 2y ()
Q

b y ()
Q

b y ()
Q

(3.7),
b 3y ()
Q

b 0x ()
Q
b x ()
Q
b 0x ()
Q
b x ()
Q

!b

, donde
b esta dado en

!opt

b iy ()] = B 1 PB [Q
b iy ()b Qy ()]2 es el Error
ECM [Q
b=1
b y ()] se define

Cuadratico
Medio emprico y ECM [Q
b y (), el estimador directo definido

analogamente
para Q
en (3.2). Se recuerda que este estimador no usa informa auxiliar.
cion
Las Figuras B.12,. . .,B.15 representan la eficiencia reb 2y () y Q
b 3y () en
b 1y (), Q
lativa para los estimadores Q

las diferentes poblaciones y bajo los disenos


muestrales
M as.M idzuno y M as.P oisson. Estas figuras muestran
el comportamiento de los estimadores cuando aumenta
muestral en la segunda fase, mientras que el
el tamano
muestral de la primera fase permanece constante.
tamano
lineal entre y y la variaCuando existe alta correlacion
eficientes que
ble auxiliar, todos los estimadores son mas
b y (), mostrado con lneas horizontales. La
el estimador Q
ganancia en eficiencia relativa decrece cuando aumenta
muestral de la segunda fase. Este resultado reel tamano

muestral en la segunda
sulta logico
porque si el tamano
entonces la muestra tendra menos infase es pequeno,
b y () presen de la variable y, y el estimador Q
formacion
tara mayor grado de error, mientras que los estimadores
y exponencial son mas
eficientes porque
de tipo razon
b y () ob informacion.
Cuando n incrementa, Q
usan mas
cercanas a las estimatiene mejores estimaciones y mas
y exponencial.
ciones de los estimadores de tipo razon
b 3y () es el estimador mas
eficiente en la mayora de
Q
los casos. Este resultado era deseable puesto que este

estimador es asintoticamente
optimo
en la clase (3.3). Sin
b 2y () presenta valores bastantes
embargo, el estimador Q
similares y no depende de valores desconocidos. Se obb 1y () es el estimador menos eficiente de enserva que Q
lineal
tre los estimadores propuestos. Cuando la relacion
b 1y () es incluso menos
debil,

entre las variable es mas


Q
b 2y () y
eficiente que el estimador directo, mientras que Q
3
b
Qy () continuan
teniendo un buen comportamiento. En

resumen, el uso del estimador exponencial mejora las es lineal entre las vatimaciones, especialmente si la relacion

riables es debil.

Por otro lado, el metodo


de Poisson produce resulta eficientes en el sentido de ER que el metodo

dos mas
de
b y (). Esto se debe
Midzuno y con respecto al estimador Q
a que el estimador directo presenta estimaciones muy dis
persas bajo el metodo
de Poisson causadas por la hetero
geneidad de las probabilidades de inclusion.
Los estimadores propuestos son casi equivalentes en
Counties porque los coeficientes de correla poblacion
lineal estan
mas
cercanos a 1. De hecho, la ER
lacion
es mejor
de los estimadores propuestos en esta poblacion
Fam1500.
que la ER en la poblacion
El estudio del sesgo es otro aspecto importante,

particularmente para estimadores de tipo razon,


que
puede probar la existencia de sub-estimaciones o sobreestimaciones en los estimadores. Los valores SR en la
Fam1500 estan
todos dentro de un rango rapoblacion
b y () el mayor valor en
zonable, teniendo el estimador Q

torno al 3 %, como puede verse en la Figura B.16. Los va Counties cuando x1 se usa
lores de SR para la poblacion
como variable auxiliar y x2 para asignar probabilidades
b y () ob mostrados en la Figura B.17. El estimador Q
estan
especialmente cuantiene claramente sobre-estimacion,
muestral en la segunda fase es pequeno
y
do el tamano
muestral M as.P oisson. El valor absoluto
bajo el diseno
de los valores SR para los estimadores propuestos son
M as.M idzuno y menores
menores de 7 % para el diseno
M as.P oisson, excepto en muesde 13 % para el diseno
b 2y (), el cual no supera
para el estimador Q
tras pequenas
el 25 %. En resumen, el estudio de los valores SR revela
que los estimadores propuestos presentan un menor sesgo que el estimador directo.

3.2.5.

al muestreo estratifiAplicacion
cado

Es sabido que el muestreo estratificado es una potente

tecnica
que proporciona resultados eficientes cuando la
esta adecuadamente estratificada y las variapoblacion

bles auxiliares y principal presentan una alta correlacion.

Sin embargo, el muestreo bifasico


es la herramienta mas
auxiliar poblacional no
apropiada cuando la informacion
esta disponible, que es lo que ocurre en la mayora de los

casos. Estas dos tecnicas


pueden combinarse en el lla
Asumado muestreo bifasico
aplicado a la estratificacion.
muestral, en esta seccion
se define un
miendo este diseno
de distribucion
y se estudian sus
estimador para la funcion
principales propiedades. Este estimador se usara para
construir nuevos estimadores de cuantiles, y aplicando la
entre ambos parametros,

relacion
sera posible tambien
asintotica

determinar la expresion
de la varianza del es de la varianza es un astimador propuesto. La estimacion
pecto muy importante con un alto numero
de aplicaciones,

de intervalos de confianza, obtal como la construccion


del tamano
muestral optimo,

tencion
etc. Por esta razon,
tanto el estimador propuesto como su varianza se anali Los resultados de
zan mediante un estudio de simulacion.
este estudio reflejan algunas utiles
ganancias en eficien
cia del estimador propuesto y de su varianza sobre otros
estimadores.

La unica
diferencia de este metodo
de muestreo con

3.2.2, es el uso
respecto al expuesto en la Seccion
adicional del muestreo estratificado. Bajo determinadas

condiciones, esta tecnica


es particularmente eficiente,

siendo frecuentemente utilizada en la practica


por diferentes razones: (i) administrativas, cuando el marco de traba
jo esta dividido en varios distritos geograficos,
(ii) impor muestrales no
tante ganancia en eficiencia sobre disenos
estratificados, etc.

En resumen, el muestreo bifasico


aplicado a la es combina las principales ventajas del muestreo
tratificacion

bifasico
y muestreo estratificado. Esta tecnica
consiste en
en estutomar una primera gran muestra de la poblacion
muestral determinado. En esta muesdio segun
un diseno
tra, se observa una variable auxiliar, la cual se usa para
estratificar dicha muestra en H estratos. De cada estrato, se selecciona una muestra y se observa la variable de

interes.
se describe el muestreo bifasico

A continuacion
apli-

4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

49

y el estimador natural para escado a la estratificacion


de distribucion.
Ademas,
se propone un
timar la funcion
de distribucion
basado en estiestimador para la funcion
madores .
seguida para el muestreo bifasico

La notacion
aplica es la siguiente. Una primera muesdo a la estratificacion
n0 es disenada

muessegun
tra s0 de tamano
el diseno
tral d1 , de modo que pd1 (s0 ) es la probabilidad de que s0
sea seleccionada y donde las correspondientes probabili de primer y segundo orden se denotan
dades de inclusion
0
0
como i y ij , para i, j U . Para los elementos en s0 ,
de una variable auxiliar, x. Esse recoge la informacion
ta variable se usa para dividir s0 en H pre-especificados
0
0
estratos denotados como sh , (h = 1, . . . , H), con nh ele0
mentos en el estrato h. De este modo, de sh se puede
S
nh mediante un
seleccionar una muestra sh de tamano
ph (/s0 ). La muestra final sera s = H
diseno
h=1 sh . La pro para las unidades de la segunda
babilidades de inclusion
fase se denotan como i/s0 y ij/s0 , para i, j s0 . Nota0
0
0 0
0
mos que ij = ij i j y sij = ij/s0 i/s0 j/s0 .
El primer paso para estimar un determinado cuantil
de distribues obtener un buen estimador para la funcion
con propiedades deseables. El candidato natural (escion
timador de tipo Horvitz y Thompson) para estimar la fun de distribucion
bajo la tecnica

cion
de muestreo en estudio
es:
H
1 X X (t yi )
,
Fbst (t) =
N
i
is
h=1

estan
dadas por
dondeP
las probabilidades de inclusion
0
0 . Este estimador no puede obtep
(s
)
i =
0
d1
i/s
s 3i

nerse siempre en la practica


debido a que las probabilidades i/s0 , para cada s0 , deben de conocerse para poder
determinar i . Esto no es siempre posible porque i/s0
puede depender del resultado de la primera fase (por
ejemplo si la muestra de la segunda fase se selecciona
mediante un muestreo proporcional a una variable auxiliar).

En la practica,
el uso del estimador de tipo HorvitzThompson no resulta posible ni para el problema de la es de la media poblacional. Por esta razon,
Sarndal

timacion
et al. (1992) propusieron el uso de -estimadores. Usan0
do este idea, se introducen las cantidades i = i i/s0 y
0

ij
= ij ij/s0 para definir el -estimador de la funcion
como
de distribucion
H
1 X X (t yi )

(t) =
.
Fbst
N
i
is
h=1

de la etiqueta i. Esdonde los pesos wi dependen solo


to es particularmente deseable para investigaciones con

multiples
caractersticas. Puede comprobarse facilmente

(t) posee esta propiedad.


que el Fbst

Unicidad en la definicion
El estimador propuesto es un estimador basado en el
muestral, el cual no depende de la eleccion
de un
diseno
se ha asumido que los estratos estan

modelo. Ademas

para Fbst
(t)
pre-especificados. De este modo, la expresion
es unica.

Sesgo
Una medida importante de la calidad de un estimador

es la insesgadez. Sarndal
et al. (1992) establecieron
que, para el caso de estimar el total poblacional, el estimador es insesgado. Este resultado puede extenderse

de la funcion
de
facilmente
al problema de la estimacion
esto es, asumiendo que zi = (t yi ) es la
distribucion,
el estimador (3.8) puede verse como
variable de interes,
de la media poblacional de la
un problema de estimacion
variable zi .

Disponibilidad de la varianza
del Teorema 3.2, puede
Siguiendo la demostracion

(t) esta dacomprobarse facilmente


que la varianza de Fbst
da por
"
X 0 (t yi ) (t yj )
1

b
V (Fst (t)) = 2
ij
+
0
0
N i,jU
i
j

H
X
X
0
(t

y
)
(t

y
)

i
j
+Ed1
sij
.
i
j
0
h

De este modo, un estimador insesgado de esta varianza


viene dado por:

X 0ij (t yi ) (t yj )
1

+
Vb (Fbst (t)) = 2
0
0

N
ij
i
j
i,js

H
X
X
h=1 i,jsh

(3.8)

de distribuLa calidad de un estimador de la funcion


puede medirse a traves
de diversas propiedades decion

seables (vease
Chambers et al. , 1992). A continuacion
importantes para el estise analizan algunas de las mas
mador dado por (3.8).

Simplicidad

de distribuEl calculo
de un estimador de la funcion
Fby (t), sera particularmente simple si
cion,
1 X
wi (t yi ),
Fby (t) =
N is

0
sij (t yi ) (t yj )
,
ij/s0
i
j

(3.10)

puesto que cada componente de (3.10) es insesgado de


(3.9).
su correspondiente componente en la ecuacion

de distribucion

(t) es una verdadera funcion


Fbst

En primer lugar, notamos que varios de los estimadores propuestos en la literatura no son verdaderas
Por ejemplo, ninguno de los
funciones de distribucion.
y diferencia propuesconocidos estimadores de tipo razon
de distribucion
en
tos por Rao et al. (1990) es una funcion

general (vease
Kuk, 1993, Mukhopadhyay, 2000).
Las condiciones (C2.18) y (C2.19) siempre se sa

(t) y el valor lmite de Fbst


(t) es tamtisfacen para Fbst

igual a 0. En general, lmt+ Fbst


bien
(t) no es igual a

50

(3.9)

h=1 i,js

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


1, aunque esto se verifica para algunos disenos
mues
trales tal como muestreo aleatorio simple. En la Seccion

(t) para algunos disenos


3.2.7 se analiza lmt+ Fbst
Los remuestrales mediante un estudio de simulacion.
Fam1500 sostienen
sultados obtenidos para la poblacion

que este valor esta bastante proximo


a 1. En resumen,

(t) mantiene todas las condiciones para


el estimador Fbst
de distribucion,
excepto en
ser una verdadera funcion

(t) = 1, la cual se verifica para algunos


lmt+ Fbst
muestrales y esta bastante proximo

disenos
a 1 en otros.
La mayora de los estimadores de cuantiles se obtiene
de la funcion
de distribucion.
Asumediante la inversion

miendo muestreo bifasico,


Singh et al. (2001) propusieron
el siguiente estimador:
0

n Fe (t)
(n0 nx )FeY B (t)
+
,
FbSJT (t) = x Y0A
n
n0

b st () y la
Asumiendo la insesgadez del estimador Q
(3.13), es posible determinar facilmente

expresion
la varianza de dicho estimador al primer grado de aproxi Esta varianza queda establecida en el siguiente
macion.
corolario.
b st ()

Teorema 3.5 La varianza asintotica


del estimador Q
viene dada por
1
b st ()) = 1

AV (Q
N 2 fy2 (Qy ())

"

+Ed1

ij

i,jU
H
X

b st () yi ) (Q
b st () yj )
(Q
+
0
0
i
j

0
sij

h=1 i,js0

b st () yi ) (Q
b st () yj )
(Q
.
i
j

donde nx es el numero
de unidades en la primera muestra

b 0x (0,5) y FeY A (t) y FeY B (t) denotando la proporcon x Q


de unidades en la muestra de la segunda fase para
cion
b 0x (0,5), respectivamente,
b 0x (0,5) y x > Q
las cuales x Q
b 0x (0,5)
que tiene valores de y menores o iguales que t. Q
es el estimador de tipo Horvitz-Thompson para Qx (0,5)
basado en la primera muestra. De este modo, se definio el
siguiente estimador para la mediana
1
b SJT (0,5) = FbSJT
(0,5) = nf{t|FbSJT (t) 0,5} (3.11)
Q

Siguiendo esta tecnica,


el cuantil de orden puede

(t) como
estimarse a partir de Fbst
1

b st () = Fbst
() = nf{t|Fbst
(t) }.
Q

3.2.6.

(3.12)

Propiedades teoricas

Demostracion
(3.13) se deduce que
De la expresion

bst
b st ()) =
V
F
(Q
())
,
AV (Q
y
fy2 (Qy ())

donde V Fbst
(Qy ()) esta dada en (3.9).

Un estimador insesgado para esta varianza viene dado por:


1
b st ()) = 1

Vb (Q
N 2 fy2 (Qy ())

X 0ij (Q
b st () yi ) (Q
b st () yj )

+
0
0

ij
i
j
i,js

H
X
X sij0 (Q
b st () yi ) (Q
b st () yj )
.
+

ij/s
i
j
i,js
h=1

se estudian las propiedades del estiA continuacion


b st (). Para ello, se necesita una aproximacion
limador Q
b st () no es una funcion
continua.
neal debido a que Q
b st () es asintoticamente

Teorema 3.4 El estimador Q


insesgado para Qy ().

Demostracion
b st () puede expresarse asintotica
El estimador Q
lineal de la funcion
de distribumente como una funcion
estimada evaluada en el cuantil Qy () mediante la
cion
de Bahadur (vease

representacion
Chambers y Dunstan,
1986):
1

( Fbst
(Qy ()))+O(n1/2 ),
fy (Qy ())
(3.13)
donde fy () denota la derivada del valor lmite de Fy ()

cuando N . Como Fbst


(t) es un estimador insesga
do de F (t), se tiene que E( Fbst
(Qy ())) = 0 y con (3.13), puede comprobarse facil
siderando la expresion
mente que
b st ()Qy () =
Q

b st ()) = Qy () + O(n1/2 ).
E(Q

(3.14)
Este estimador para la varianza del estimador propuesto presenta una forma explcita, lo que permite que

pueda obtenerse siempre en la practica,


es decir, la expre (3.14) no depende del valor esperado sobre el diseno

sion

de la primera fase, haciendo posible los calculos


directos.
Una vez que la varianza del estimador ha sido determinada, intervalos de confianza y otras importantes apli tambien
obtecaciones derivadas de la varianza podran
nerse.
En el siguiente ejemplo se determina las expresiones
b st () y de su correspondiente
del estimador propuesto Q
de unidades
varianza estimada para el caso de seleccion
mediante muestreo aleatorio simple.
Ejemplo 3.1 Asumiendo muestreo aleatorio simple en
cada fase, el -estimador viene dado por
b st () = nf{t |
Q

0
H
X
nh X (t yi )
},
n0 is
nh

h=1

y el estimador de su varianza puede obtenerse de (3.14)


de sustituir las probabilidades i/s0 , i , ij/s0 y
despues

por
ij

i/s0 =

nh
0
nh

i =

n0 nh
,
N n0h

para i sh ,

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

51

ij/s0

ij

3.2.7.

0
n (n 1)

h0 h0
si i, j sh
n
(n

1)
=
0
0
nh n h

0h 0l si i sh y j sl
nh nl

0
nh (nh 1) n0 (n0 1)

si i, j sh
0 0
nh (nh 1) N (N 1)
=
0
0
nh nl n0 (n0 1)

si i sh y j sl
0 0
N
(N

1)
nh nl

Propiedades empricas

Asumiendo muestreo bifasico


aplicado a la estratifi se ha propuesto un estimador para un determinacacion,
do cuantil poblacional, mientras que su correspondiente

varianza asintotica
ha sido establecida. La insesgadez del
ha sido discutida. El siestimador de cuantiles tambien
guiente paso sera analizar, mediante un estudio de simu estas

lacion,
y otras medidas importantes de calidad para
los dos estimadores propuestos. Los resultados se compararan sobre otros estimadores conocidos en la literatura
del muestreo en poblaciones finitas.
Fam1500 (vease

En este estudio se usa la poblacion

Apendice
A), donde recordamos que las correlaciones entre la variable principal y las auxiliares vienen dadas por
y,x1 = 0,848 y y,x2 = 0,546.

(t) para
En primer lugar, analizaremos lmt Fst

poder comprobar como


de cercano se encuentra de la

(t) sera una verdadera fununidad. Recordamos que Fst


de distribucion
si este valor es igual a 1. Se ha
cion

considerado muestreo aleatorio simple (S), el metodo


de

Midzuno (M ) y el metodo
de Poisson (P ). Las diferentes

combinaciones de disenos
muestrales se van a denotar
como dij , para i, j = {S, M, P }, donde i y j van a ex muestrales usados en la primera y sepresar los disenos
gunda fase, respectivamente. Este estudio se ha llevado
a cabo usando aproximaciones Monte Carlo derivadas de
1000 muestras independientes, para = 0,5, n0 = 150 y
300 y varios valores de n.
muestral, las Tablas 3.1 y 3.2 muesPara cada diseno

(t) basada en
tran la esperanza emprica de lmt Fbst
Fam1500. Puede ob1000 muestras de la poblacion
cercanos a 1,
servarse que todos los resultados estan

obteniendose
mejores resultados cuando la muestra de

la segunda fase es mayor. Como esperabamos,


asumiendo muestreo aleatorio simple en cada una de las fases,

(t) = 1. Esto tambien


siempre se obtiene que lmt Fbst
ocurre en la mayora de los casos cuando se considera

el metodo
de Poisson en alguna de las dos fases. En
general, la variable x1 (para correlaciones altas) obtiene
mejores resultados que la variable x2 .
El siguiente paso es comparar el comportamiento del
estimador propuesto para cuantiles y de su varianza con
respecto a otros estimadores. En este estudio, se ha incluido el estimador (3.11) y su correspondiente estimador
de la varianza propuesto en Singh et al. (2001). La ganancia en eficiencia sobre muestreo no estratificado puede
contrastarse si comparamos el estimador propuesto con
el estimador basado en la segunda fase, sin considerar
estratos en la primera fase. Este estimador sera denotado
b y () y lo usaremos como el estimador base en las
como Q
comparaciones.

52

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


muestrales y considerando la variable
Tabla 3.1: Esperanza emprica de lmt Fbst
(t) para varios disenos
x1 .
n0
n
dSS
dSM
dSP
dM S dM M
dM P
dP S dP M
dP P
150 30 1.000 1.010 1.000 1.001 1.011 1.000 1.000 1.000 1.000
50 1.000 1.005 1.000 1.001 1.006 1.000 1.000 1.000 0.999
70 1.000 1.003 1.000 1.001 1.004 1.000 1.000 1.000 1.000
90 1.000 1.002 1.000 1.001 1.002 1.000 0.999 1.000 1.000
300 60 1.000 1.005 1.000 1.000 1.005 1.000 0.999 1.000 1.000
100 1.000 1.003 1.000 1.000 1.003 1.000 1.000 1.000 1.000
140 1.000 1.001 1.000 1.000 1.002 1.000 1.000 1.000 1.000
180 1.000 1.001 1.000 1.000 1.001 1.000 1.000 1.000 1.000

muestrales y considerando la variable


Tabla 3.2: Esperanza emprica de lmt Fbst
(t) para varios disenos
x2 .
n0
n
dSS
dSM
dSP
dM S dM M
dM P
dP S dP M
dP P
150 30 1.000 1.011 1.002 1.001 1.011 0.998 1.001 1.002 1.002
50 1.000 1.005 1.002 1.001 1.006 1.001 1.000 1.001 0.999
70 1.000 1.003 0.999 1.001 1.004 0.999 1.000 1.000 0.999
90 1.000 1.002 1.000 1.001 1.002 0.999 1.000 1.001 0.999
300 60 1.000 1.005 1.000 1.000 1.005 0.999 1.000 1.000 0.999
100 1.000 1.003 1.000 1.000 1.003 1.000 1.000 1.000 0.999
140 1.000 1.001 1.000 1.000 1.002 1.000 0.999 1.000 0.999
180 1.000 1.001 1.000 1.000 1.001 1.000 1.000 1.000 1.000

para los estimadores de cuantiles y sus varianzas asumiendo


Tabla 3.3: Medidas de eficiencia y precision
muestral dSM y la variable x1 . = 0,5 y n0 = 150.
el diseno
ER
SR ( %)
RECM R ( %)
n
30
50
70
90
30
50
70
90
30
50
70
90
b
0.59
0.69
0.59
0.68
-0.1
-0.1
-0.1
0.0
2.7
2.2
1.7
1.5
Q
st
b y
Q
1.00 1.00 1.00 1.00
0.2 -0.1
0.0
0.0 3.5 2.6 2.2 1.9
b SJT
0.64 0.66 0.67 0.74 -0.2 -0.1 -0.1
0.0 2.8 2.1 1.8 1.6
Q
b st )
Vb (Q
0.32 0.42 0.42 0.26 -5.2
9.2 13.2
7.4 15.8 12.7 14.9 8.6
b
b )
V (Q
1.00 1.00 1.00 1.00 -16.6 -13.5 -13.5 -11.3 16.6 13.5 13.5 11.3
y
b SJT ) 1.11 2.18 2.37 2.29 27.4 30.1 31.1 23.2 27.4 30.1 31.1 23.2
Vb (Q

para los estimadores de cuantiles y sus varianzas asumiendo


Tabla 3.4: Medidas de eficiencia y precision
muestral dSM y la variable x1 . = 0,5 y n0 = 300.
el diseno
ER
SR ( %)
RECM R ( %)
n
60 100 140 180
60
100
140
180
60 100 140 180
b st
Q
0.55 0.61 0.73 0.76 -0.1
0.0 -0.1 -0.1 1.8 1.4 1.3 1.1
b
Q
1.00
1.00
1.00
1.00
0.1
0.1
0.0 -0.1 2.5 1.8 1.5 1.3
y
b
0.58 0.62 0.73 0.80
0.0
0.0
0.0 -0.1 1.9 1.4 1.3 1.1
QSJT
b )
0.10
0.09
0.33
0.13
-4.8
-4.1
-9.9
-4.2 11.7 8.0 10.7 5.0
Vb (Q
st
b y )
Vb (Q
1.00 1.00 1.00 1.00 -20.2 -16.2 -13.4 -10.4 20.2 16.2 13.4 10.4
b SJT ) 1.18 2.10 1.68 2.38 37.7 37.6 23.7 20.2 37.7 37.6 23.7 20.2
Vb (Q

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

53

para los estimadores de cuantiles y sus varianzas asumiendo


Tabla 3.5: Medidas de eficiencia y precision
muestral dSM y la variable x2 . = 0,5 y n0 = 150.
el diseno
ER
SR ( %)
RECM R ( %)
n
30
50
70
90
30
50
70
90
30
50 70
90
b
0.59
0.60
0.72
0.77
-0.1
0.0
0.1
-0.1
2.7
2.1
1.8
1.7
Q
st
b y
Q
1.00 1.00 1.00 1.00
0.2
0.1 0.0 -0.1 3.5 2.7 2.1 1.9
b
0.78 0.84 0.90 0.94 -0.1
0.0 0.0 -0.1 3.1 2.5 2.0 1.9
QSJT
b st )
Vb (Q
0.27 0.12 0.28 0.24 -8.1 -1.8 -2.1 -8.6 17.5 10.4 6.7 9.5
b )
Vb (Q
1.00 1.00 1.00 1.00 -19.8 -18.3 -9.0 -14.9 19.8 18.3 9.0 14.9
y
b
b SJT ) 0.01 0.01 0.18 0.13
0.9 -1.7 4.2 -5.7 0.9 1.8 4.2 5.7
V (Q

para los estimadores de cuantiles y sus varianzas asumiendo


Tabla 3.6: Medidas de eficiencia y precision
muestral dSM y la variable x2 . = 0,5 y n0 = 300.
el diseno
ER
SR ( %)
RECM R ( %)
n
60 100 140 180
60
100
140
180
60 100 140 180
b
0.57 0.57 0.66 0.73 -0.1
0.0 -0.1
0.0 1.8 1.4 1.2 1.1
Q
st

b
Qy
1.00 1.00 1.00 1.00
0.0 -0.1 -0.1 -0.1 2.4 1.8 1.5 1.3
b SJT
0.80 0.84 0.89 0.90 -0.1 -0.1 -0.1
0.0 2.1 1.7 1.4 1.2
Q
b st )
0.29 0.09 0.06 0.08
0.7
3.1 -3.2 -4.8 12.0 8.4 5.8 5.7
Vb (Q
b y )
Vb (Q
1.00 1.00 1.00 1.00 -12.8 -17.0 -15.5 -14.5 12.8 17.0 15.5 14.5
b
b SJT ) 0.42 0.03 0.01 0.13 10.3
3.3
2.0
5.9 10.3 3.3 2.1 5.9
V (Q

47

54

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

de todos los estimadores de cuantiles y


La precision
sus respectivas varianzas se miden para = 0,5 mediante el Sesgo Relativo (SR), la Eficiencia Relativa (ER)

y la Raz cuadrada del Error Cuadratico


Medio Relativo
b y (), estan
medidas estan

(RECM R). Para un cuantil, Q


dadas por
b y ()]
SR[Q

b y ()] Qy ()
E[Q
,
Qy ()

b y ()]
ER[Q

b y ()]
ECM [Q
,
b
ECM [Qy ()]

b y ()]
RECM R[Q

b y ()]
ECM [Q

1/2

Qy ()

b y ()),
y para el estimador de la varianza de un cuantil, Vb (Q
las medidas son
b y ())]
SR[Vb (Q

b y ())] V [Qy ()]


E[Vb (Q
,
V [Qy ()]

b y ())]
ER[Vb (Q

b y ())]
ECM [Vb (Q
,
b y ())]
ECM [Vb (Q

b y ())]
RECM R[Vb (Q

1/2
b y ())]
ECM [Vb (Q
V [Qy ()]

deseada en la practica)
y para el caso de varianzas. Conclusiones similares pueden obtenerse a partir del sesgo y

del error cuadratico


medio. Como resulta razonable, estas
ultimas
medidas mejoran para cada estimador a medida

de la muestra de cualquiera de
que se aumenta el tamano
las dos fases.
Por ultimo,
se analiza la cobertura y la longitud me
dia de los intervalos de confianza de cada estimador. Estas medidas vienen dadas por las Tablas 3.7 y 3.8 para
la variable x1 y las Tablas 3.9 y 3.10 para la variable x2 .
En todos los casos se observa que el estimador propuesto tiene la menor longitud media emprica para el intervalo de confianza. Para altas correlaciones, la cobertura del estimador propuesto es mejor que la del resto de
proxi
estimadores, puesto que se obtienen valores mas
mos al 95 %. Para bajas correlaciones, la cobertura del
estimador propuesto se ve ligeramente superada por la
b SJT , aunque este

ultimo
estimador tiene el

cobertura de Q
inconveniente de presentar intervalos de confianza mucho
amplios. Todas estas propiedades teoricas

mas
y empri

cas bajo muestreo bifasico


aplicado a la estratificacion
consultarse en Rueda, Arcos, Munoz

pueden tambien
y
(2006c).
Singh (2006) y Rueda y Munoz

donde E[], ECM [] y V [] denotan las Esperanzas, Erro


res Cuadraticos
Medios y Varianzas empricas basadas
b y ()]
en 1000 muestras. Notamos que valores de ER[Q
b
b
b
y ER[V (Qy ())] menores de 1 indican que Qy () y
b y ()) son mas
b y () y Vb (Q
b y ()), res precisos que Q
Vb (Q
se ha calculado la Cobertura de
pectivamente. Tambien
los intervalos de confianza al 95 % (asumiendo distribu normal) y la longitud media de los intervalos basados
cion
en 1000 muestras.
Asumiendo muestreo aleatorio simple para obtener

la muestra de la primera fase y el metodo


de Midzuno
para obtener la segunda muestra, en las Tablas 3.3 y 3.4
pueden observarse los resultados de las distintas medi para los estimadores y asumiendo la vadas de precision

tanto
riable x1 . En este caso (para una alta correlacion),
el estimador propuesto como su correspondiente varian
za son mas precisos, en terminos
de ER, que sus competidores. Los valores absolutos de las medidas SR, para
todos los cuantiles, son siempre menores de 0,2 %. Resb y ) presenta
pecto a las varianzas, se observa que Vb (Q
b SJT ) claramente arras mientras que Vb (Q
subestimacion,
Los estimadores propuestra una seria sobreestimacion.
presentan la mejor precision
en terminos

tos tambien
de
RECM R.
se analiza la precision
de los estiA continuacion
entre la variable
madores usando una menor correlacion
principal y auxiliar. Para ello, observamos las Tablas 3.5
y 3.6. El estimador propuesto para estimar cuantiles es
preciso que el resto en terminos

mas
de ER. Respecb SJT ) parece tener
de varianzas, Vb (Q
to a la estimacion
ocurre para
el mejor comportamiento, aunque esto solo
entre las variables (situacion
no
una escasa correlacion

4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

55

Tabla 3.7: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x1 . = 0,5 y n0 = 150.
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
94.1
93.4
96.6
95.3
828
656 566 512
Q
st
b
Q
92.2
92.5
92.8
93.9
1010
772 646 564
y
b
QSJT 96.9 97.3 97.4 96.8 998 771 650 571

Tabla 3.8: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x1 . = 0,5 y n0 = 300.
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.4 93.9 93.7 93.2 568 447 385 347
Q
st
b
Q
92.1 93.1 93.0 93.1 701 534 444 385
y
b
QSJT 96.8 98.1 96.9 97.0 703 541 454 398

Tabla 3.9: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x2 . = 0,5 y n0 = 150.
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
93.7 94.0 94.7 93.8 830 655 567 512
Q
st
b
Q
90.7 93.5 94.1 92.8 1010 772 646 565
y
b
QSJT 93.8 94.7 95.4 94.5 1001 775 654 576

Tabla 3.10: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x2 . = 0,5 y n0 = 300.
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.8 95.7 94.8 92.4 568 447 385 347
Q
st
b
Q
92.7 92.8 92.6 92.4 701 534 444 385
y
b
QSJT 96.3 95.1 94.8 94.7 707 541 461 406

49

56

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

3.3.

Estimadores bajo muestreo


en dos ocasiones sucesivas

El muestreo en ocasiones sucesivas es una tecnica muy conocida que puede emplearse en las investi
gaciones longitudinales para estimar determinados parametros poblacionales y medidas de diferencia o cambio de
se discute
una variable objeto de estudio. En esta seccion
de cuantiles en la ocasion
mas
reciente bajo
la estimacion
un muestreo en dos ocasiones sucesivas. Este estudio se
efectivo de la inrealiza, por un lado, haciendo un uso mas
auxiliar, es decir, considerando varias variables
formacion
Por otro lado, tamauxiliares en la etapa de estimacion.
se obtienen estimadores basados en muestreos con
bien
de unidades desiguales. Se
probabilidades de seleccion
importantes y se deducen
estudian las propiedades mas
las expresiones de las varianzas. Como es habitual, se
de los estimadores propuestos en estumide la precision
basados en varias poblaciones.
dios de simulacion

3.3.1.

Introduccion

En numerosas investigaciones por muestreo, una mis puede ser muestreada repetidamente y la
ma poblacion
de
misma variable de estudio es medida en cada ocasion,

modo que se sigue el desarrollo de esta


sobre el tiempo. Por ejemplo, las encuestas de presupuestos familia
res son llevadas a cabo periodicamente
para estimar el
se llevan
numero
de empleados, las encuestas de opinion

a cabo a intervalos regulares de tiempo para medir las


preferencias de los votantes, etc. En estos casos, el uso
de la teora de un esquema de muestreo sucesivo puede
ser una alternativa atractiva para mejorar las estimaciones
de nivel en un punto en el tiempo, el cambio entre dos pun
tos, etc. (vease
por ejemplo Cochran, 1977).
El muestreo en ocasiones sucesivas ha sido extensamente usado en las ciencias sociales y aplicadas para es
timar medidas de nivel, cambios de un parametro
lineal tal

como la media o el total (vease,


por ejemplo, Sarndal
et
de la varianza de este cambio (Beral., 1992), estimacion
ger, 2004), etc. Otros ejemplos del uso de encuestas longitudinales pueden consultarse en Ruspini (1999) para el

analisis
en el cambio social, Solga (2001) para el estudio
de movilidad laboral, etc.
Asumiendo muestreo en dos ocasiones sucesivas, la
teora desarrollada por Jessen (1942) y Patterson (1950)

proporciona el estimador optimo


de la media poblacional
combinando dos estimadores disen la segunda ocasion,
tintos de esta media. Por un lado, se usa un estimador de
basado en la muestra solapada de la muestipo regresion
tra, considerando que la variable auxiliar es el valor de
Por ultimo, se
la variable principal en la primera ocasion.
considera un estimador simple de la media basado en una
no solapada de la segunda
muestra aleatoria de la porcion
El muestreo en ocasiones sucesivas tambien
ha
ocasion.
sido discutido en Narain (1953), Adhvaryu (1978), Eckler
(1955), Gordon (1983), Arnab y Okafor (1992), Sen (1972,
1973), Singh y Srivastava (1973), Sen et al. (1975), Singh
et al. (1992) y Singh (2003), el cual proporciona una ex
tensa bibliografa sobre este topico.
En todos los estudios

anteriores, el parametro
considerado para su estimacion
es la media poblacional.
Recientemente, Martnez et al. (2005) propusieron

una metodologa de estimacion


de cuantiles bajo
muestreo en ocasiones sucesivas usando el valor de la va anterior como variable auriable principal en una ocasion
xiliar. Este estudio fue desarrollado bajo muestreo aleato mas
reciente
rio simple y asumiendo que sobre la ocasion
se toma una submuestra a partir de las unidades previamente seleccionadas, y que ciertas de estas unidades
son reemplazadas por otras nuevas unidades seleccionadas independientemente de la muestra solapada.
Asumiendo un muestreo en dos ocasiones sucesivas,
se propone un estimador para un cuantil de orden que
auxiliar multivariante. El diseno

emplea una informacion


muestral usado en cada fase es el muestreo aleatorio sim se propone un estimador de
ple. Por otro lado, tambien
cuantiles cuando las correspondientes muestras son se
leccionadas mediante disenos
muestrales arbitrarios en
cada una de las dos fases que consta este esquema de
muestreo. En este caso, se usara un estimador de tipo
en la porcion
de muestra solapada para proporrazon

cionar el estimador optimo


de un cuantil. Para ello, se
pondera las estimaciones inversamente a sus varianzas.
Las propiedades del estimador propuesto se estudian ba
jo aproximaciones basadas en muestras de gran tamano.

El comportamiento de estos nuevos estimadores tambien


bajo los datos de una poblacion
real.
se estudiaran
habitual a seguir en muestreo en ocaLa notacion
siones sucesivas es la siguiente. Consideramos que es
tamos haciendo un seguimiento continuo de la poblacion
N , sobre dos, o mas,
periodos de tiempo
U , de tamano
mas
reciente. Se
con valores yi en el periodo u ocasion

n0 esta disenada
en la
asume que una muestra de tamano
anterior. En la ocasion
reciente, una submuestra
ocasion
m es disenada

(llamada muestra solapada) de tamano


de
las n0 unidades seleccionadas previamente, y u = n m
unidades son reemplazadas por nuevas unidades selec restante. = m/n sera la fraccionadas de la poblacion
de solapamiento.
cion
En muestreo con dos ocasiones sucesivas, el esti de cuantiles se consmador habitual para la estimacion
de
truye como sigue. En primer lugar se estima la funcion
a partir de la muestra s obtenida en la ocasion

distribucion
P
mas
reciente. Este estimador viene dado por Fbyn (t) =
n1 is (t yi ), el cual coincide con el estimador de
tipo Horvitz-Thompson bajo muestreo aleatorio simple. A
se estima el cuantil de orden a partir de
continuacion
de distribucion,
es decir:
esta funcion
n
o
1
b
b
(3.15)
Qyn () = Fyn () = nf t : Fbyn (t) .

3.3.2.

a multiples
Generalizacion

variables auxiliares

de cuantiles bajo un muestreo con dos


La estimacion
de muestras medianocasiones sucesivas con extraccion
te muestreo aleatorio simple ha sido discutida en Martnez
et al. (2005). Este estudio esta basado en una unica
va
riable auxiliar, es decir, el uso de un numero
mayor de

variables auxiliares no es posible. El objetivo que se per es por tanto el estudio de la


sigue en la presente seccion

5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

57

de cuantiles bajo este esquema de muestreo


estimacion
y para un vector multivariante de variables auxiliares. En
las Secciones 3.3.3 y 3.3.4 se analizan las propiedades

teoricas
y empricas de este nuevo estimador. Como se ha
disenados

comentado, todos estos estudios estan


para el

clasico
muestreo aleatorio simple. En la practica
el uso de

complejas, como por ejemplo la


tecnicas
de muestreo mas
de unidades con probabilidades proporcionales
extraccion
puede producir estimaciones mas
eficientes. A
al tamano,
3.3.5 se plantea el problema de la espartir de la Seccion
de cuantiles bajo muestreo con dos ocasiones
timacion
muestral arbitrario.
sucesivas y para un diseno
Asumiendo muestreo aleatorio simple, en este apartado se define una clase de estimadores que pueden obtenerse a partir de un vector multivariante de variables auxiliares. En concreto, esta clase esta formada por un es construido a partir de todas las vatimador de tipo razon

riables auxiliares disponibles en las muestras que estan


en
solapadas y por un estimador de la variable de interes
mas
reciente. El esla muestra no solapada de la ocasion

timador optimo
en el sentido de minimizar la varianza de
obtenido.
esta clase sera tambien
y en 3.3.3 y 3.3.4 asumiremos
En la presente seccion
se dispone de P variables auque en la primera ocasion
proporxiliares, denotadas por x1 , . . . , xP . La informacion
cionada por estas variables nos permitira obtener un es multivariante a partir de las muestimador de tipo razon
sera posible obtetras solapadas. Por otro lado, tambien
ner otro estimador para un determinado cuantil de la variable principal a partir de la muestra no solapada. La clase
esta formada
de estimadores propuesta en esta seccion
por estos dos nuevos estimadores, los cuales se definen

a continuacion.
De modo similar a como se ha definido (3.15) y usan pueden
do los datos de la muestra de la primera ocasion,
b xi (), para i = 1, . . . , P .
definirse los estimadores Q
b xim () y Q
b ym () denotaran

los cuantiles
Analogamente,
Q
muestrales de orden de la muestra solapada para las vab yu () denota
riables auxiliares y principal, mientras que Q
el cuantil muestral basado en la muestra no solapada de
mas
reciente.
la ocasion
Siguiendo a Olkin (1958), se propone el siguiente es multivariante de Qy () basado en la
timador de tipo razon
parte solapada:

b yrim (), Q
b yrjm ()) para
B = (bij ) y bij = Cov(Q
i, j = 1, . . . , P . Para obtener el valor extremo usaremos
la desigualdad de Cauchy-Schwarz, y puesto que B es

semidefinida positiva, se obtiene que el valor optimo


w
esta dado por
B 1 e
wopt = 0 1 ,
eB e
donde e = (1, . . . , 1)0 . Por tanto, la mnima varianza
obtenida a partir de wopt sera
1
.
e0 B 1 e
Asumiendo muestreo en dos ocasiones sucesivas, se
propone el siguiente estimador compuesto que combina
multiple
el anterior estimador de tipo razon
basado en la

muestra solapada con el estimador de la muestra no solapada:


R
bM
Vmin (Q
ym ()) =

R
bM
b
b y () = W Q
Q
ymopt () + (1 W )Qyu (),

(3.17)
R
bM
Q
ym ()

R
bM
Q
ymopt ()

esta dado por el estimador


donde

cuando se considera el valor optimo


de w, esto es wopt ,
mientras que W es una constante que satisface 0 < W <
b y () pre1 y que es escogida de modo que el estimador Q
sente la mnima varianza dentro la clase anterior. Un sim
ple calculo
demuestra que
Wopt =

b yu ())
V (Q
.
R
b
bM
V (Qyu ()) + V (Q
ymopt ())

(3.18)

En resumen, el estimador propuesto que presenta

las propiedades optimas


en terminos
de mnima varianza
esta dado por
R
b
bM
b yopt () = Wopt Q
Q
ymopt () + (1 Wopt )Qyu (), (3.19)

y su varianza viene dada por


2
R
2
bM
b
b yopt ()) = Wopt
V (Q
V (Q
ymopt ())+(1Wopt ) V (Qyu ()),
(3.20)
escribirse como
la cual puede tambien

b yopt ()) =
V (Q

3.3.3.

R
b yu ())V (Q
bM
V (Q
ymopt ())
.
R
b yu ()) + V (Q
bM
V (Q
ymopt ())

(3.21)

Propiedades teoricas

El siguiente paso en el estudio del estimador propuesb yopt () es la determinacion


de sus propiedades mas

to
Q
X
X
b ym ()
Q
R
b yrim (). importantes, ademas
b xi () =
bM
de la propiedad de mnima varianza
wi
wi Q
Q
Q
ym () =
b xim ()
Q
ya comentada. En concreto se establece la normalidad de
1iP
1iP
(3.16)
dicho estimador y su correspondiente varianza exacta.
P
Los pesos wi (verificando 1iP wi = 1) se obtienen de
Los resultados obtenidos se derivan asumiendo las siR
bM
guientes condiciones:
del estimador Q
modo que maximizan la precision
ym ().
Se usa el criterio de mnima varianza para obtener es- (C3.4). Asumimos que s0 es una muestra aleatoria simple
tas cantidades. Sabido esto, la varianza de este estimador
de U , lo cual implica que la muestra complemenviene dada por
una muestra aleatoria simple de
taria s0c es tambien
U . Finalmente, asumiremos que sm es una muestra
X
R
b yrim ())+
bM
wi2 V (Q
V (Q
ym ()) =
aleatoria simple de s0 y su es otra muestra aleato1iP
ria simple de s0c . Bajo estas condiciones, las proban0
X
vienen dadas por: i0 =
,
bilidades de inclusion
b yrim (), Q
b yrjm ()).
+2
wi wj Cov(Q
N
0 0
i<j
m(m 1)
n n 1
m
0
ij
, i/s0 = 0 , ij/s0 = 0 0
,
=
N N 1
n
n (n 1)

Esta ultima
ecuacion
puede escribirse como

R
u(u 1)
u
bM
= w0 Bw, donde w = (w1 , . . . , wP )0 ,
V (Q
ym ())
i/s0c =
.
, ij/s0c =
N n0
(N n0 )(N n0 1)

58

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

finita esta envuelta


(C3.5). Suponemos que la poblacion
de poblaciones {U }, donde n y
en una sucesion
N aumentan de modo que (n /N ) f cuando
n .
(C3.6). Se asume que cuando N la distribu bivariante formada por (x, y) puede aprocion
continua con densiximarse por una distribucion
dades marginales fx () y fy () para x e y respectivamente, siendo fx (Qx ()) y fy (Qy ()) positivas.

Teorema 3.6 El estimador de razon


multivariante
R
bM
Q
ym () dado por (3.16) y la clase propuesta de esb y () dada por (3.17) son asintoticamente

timadores Q
normales.

Demostracion
b yu (),
En primer lugar, los cuantiles muestrales Q
b
b
b

Qym (), Qxi () y Qxim () son asintoticamente


normales
como se demostro en Gross (1980).
Sean las siguientes funciones de este estimador

1
1
b yrim (), Q
b yrjm ()) = (1 )
Cov(Q

+
2
N

fy (Qy ())
m
P11 (y, xi )
fy (Qy ())
1
1
Ri
1 +

0
m fxi (Qxi ()) (1 )
n

fy (Qy ())
P11 (y, xj )
1
1
Rj
1

0
m
fxj (Qxj ()) (1 )
n
2
fy (Qy ())
1
1
Ri Rj

0
m
fxi (Qxi ())fxj (Qxj ())
n

P11 (xi , xj )
1 ,
(1 )
(3.24)
de valores en la
donde P11 (y, xi ) denota la proporcion
para los cuales y Qy () y xi Qxi (), y
poblacion
Ri = Qy ()/Qxi ().

Demostracion
b yrim () puede expresarse como
El estimador Q

b yrim () = Qy ()(1 + e0 )(1 + e2i )(1 e1i + e21i + . . .),


Q
(3.25)
b
b
()
()
Q
Q
ym
xim
b ym (), Q
b x1 (), ..., Q
b xP (), Q
b x1m (), ..., Q
b xP m ()) =
H1 (Q
1, e1i =
1 y e2i =
donde e0 =
Qy ()
Qxi ()
X
b xi ()
b ym ()
Q
Q
b xi ().
1, i = 1, . . . , P .
wi
Q
b
Q
xi ()
Qxim ()
1iP
de serie de Taylor se obConsiderando la expansion
continua con derivadas parciales de tiene la expresion
H1 es una funcion

primer y segundo orden continuas en un entorno de


b yrjm () Qy ())
b yrim () Qy ())(Q
(Q
= Qy ()2
y usando los re(Qy , Qx1 , . . . , QxP ). Bajo esta situacion
2
M
R
(e0 + e2i e1i + e1i e1i e2i e1i e0 + e0 e2i + . . .)
b ym () es asintoticamente

sultados de Cramer (1946), Q


(e0 + e2j e1j + e21j e1j e2j e1j e0 + e0 e2j + . . .).
normal.

La normalidad asintotica
de la clase propuesta de es asintotica

La expresion
de la covarianza de los esti
timadores se deriva facilmente
como consecuencia de la madores Q
b yrim () se obtiene tomando espeb yrim () y Q
lineal de la clase.
expresion
ranzas (se han considerado solamente terminos

de orden
b yopt () tam
La normalidad asintotica
del estimador Q
uno). Las esperanzas de las variables ei pueden derivarse
se deriva al pertenecer este estimador a la clase de Singh (2003):
bien
(3.17).
N m
nos
(1 )(Qy ()fy (Qy ()))2 ,
E[e20 ] =
La linealidad de la clase de estimadores tambien
Nm
permitira computar sus varianzas. Para ello, sera neceN m
mul(1 )(Qxi ()fxi (Qxi ()))2 ,
E[e21i ] =
sario conocer las varianzas del estimador de razon
Nm
tivariante basado en la muestra solapada y el estiE[e22i ] = E[e1i e2i ] =
mador que solamente envuelve a la muestra no solapada,
N n0
b yu (), como puede verse en (3.20) y (3.21).
Q
(1 )(Qxi ()fxi (Qxi ()))2 ,
0
N
n
asintotica

Gross (1980) demostro que una expresion


N m
b yu () esta dada por
para la varianza del estimador Q
(P11 (y, xi ) (1 ))
E[e0 e1i ] =
Nm
(Qxi ()Qy ()fxi (Qxi ())fy (Qy ()))1 ,
b yu ()) = N u (1 )(u)1 {fy (Qy ())}2 .
V (Q
N n0
N
E[e0 e2i ] =
(P11 (y, xi ) (1 ))
(3.22)
N n0
(Qxi ()Qy ()fxi (Qxi ())fy (Qy ()))1 ,
b yrim ()), con i =
Teorema 3.7 La varianza de V (Q
N n0
b yrim () y Q
b yrjm (), con
E[e1j e2i ] = E[e2j e2i ] =
(P11 (xj , xi ) (1 ))
1, . . . , P , y la covarianza entre Q
N n0
i, j = 1, . . . , P vienen dadas por
(Qxj ()fxj (Qxj ())Qxi ()fxi (Qxi ()))1 ,

N m
1
1
1
1
b yrim ()) = (1 )
(P11 (xj , xi ) (1 ))
E[e1j e1i ] =

+
0
V (Q
Nm
fy (Qy ())2
m
N
m
n
(Qxj ()fxj (Qxj ())Qxi ()fxi (Qxi ()))1 .
(3.23)

fy (Qy ())
fy (Qy ())
P11 (y, xi )
Sustituyendo estos valores y operando adecuadaRi
+2 1
,
Ri
fxi (Qxi ())
fxi (Qxi ())
(1 )
dada en (3.24).
mente, se obtiene la expresion

Por tanto, usando las expresiones (3.22) (3.23) y


(3.24), la matriz B, la varianza del estimador propuesto
dado en (3.20) o (3.21) y el valor Wopt definido en (3.18)
quedan determinadas.

5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

59

3.3.4.

Propiedades empricas

3.3.2 se ha definido un estimador opti


En la Seccion
mo dentro de la clase (3.17). La normalidad y la varian
za asintotica
de este estimador se ha establecido en la
3.3.3. El siguiente paso en este estudio es comSeccion
probar la exactitud de este estimador. En este apartado,

la eficiencia del estimador propuesto y su varianza seran


analizadas. En primer lugar, se analiza la ganancia en efib yopt ()

ciencia de la varianza asintotica


del estimador Q
b

con la varianza de Qyn (), el estimador estandar


basado
mas
reciente y el cual esta dado en (3.15).
en la ocasion
el comportamiento de estos estimadores
A continuacion,
contrastados en una situacion
real mediante un esseran
tudio emprico.
En ambos estudios se usaran dos poblaciones natura Counties y la poblacion
Turismos (vease

les: la poblacion

turismos resulta interesante en


Apendice
A). La poblacion
este caso porque dispone de cuatro variables auxiliares.
Se pueden comparar los varios estimadores usando un
numero
distinto de variables auxiliares, de modo que pue
de la ganancia en precision al
da observarse la evolucion
aumentar el numero
de variables auxiliares usadas en la

etapa de estimacion.

Comparaciones teoricas
El primer estudio consiste en comparar la varianza del

estimador optimo
propuesto dado en (3.21) con la varianb yn (). Este esza del estimador frecuentemente usado, Q
tudio nos permitira conocer el comportamiento de las va
rianzas teoricas
de los estimadores. Gross (1980) com asintotica

probo que una expresion


para la varianza del
b yn () esta dada por
estimador Q
b yn ()) = N n (1 )(n)1 {fy (Qy ())}2 .
V (Q
N

muestral en la ocasion
reciente es menor
tamano
muestral de la primera ocasion.

que el tamano
bajos se ob4. En ambas poblaciones, los ratios mas
muestrales son n0 = 75
tienen cuando los tamanos
y n = 25, en cuyo caso los RT , para valores
grandes de , son aproximadamente iguales a 0.4,

esto es, la varianza asintotica


del estimador propuesto presenta una mejora del 60 % con respecto

a la varianza asintotica
del estimador estandar.

Estudio emprico
El siguiente paso consiste en llevar a cabo un estudio
con el fin de revelar la ganancia en eficiende simulacion
b yn () en una situacion
b yopt () con respecto a Q

cia de Q

real. De nuevo, las poblaciones Counties y Turismos seran


muestra el comportamiento
usadas. Este estudio tambien
b yopt () cuando este estimador usa un numero
difede Q

rente de variables auxiliares.


Se generan B = 1000 muestras independientes bajo muestreo con dos ocasiones sucesivas. Todas las
muestras (solapadas y no solapadas) se obtienen bajo
muestreo aleatorio simple. El cumplimiento de estos estimadores se evalua
para el cuantil de orden = 0,5

en terminos
de Sesgo Relativo (SR) y Eficiencia Relativa (ER), con
SR =

B
b yopt ()]
b yopt ()b Qy ()
ECM [Q
1 XQ
; ER =
,
b yn ()]
B
Qy ()
ECM [Q
b=1

el Error Cuadratico

donde b indica la b-esima


simulacion,
Medio emprico esta dado por
B
X
b yopt ()] = 1
b yopt ()b Qy ()]2 ,
ECM [Q
[Q
B
b=1

En las Figuras B.18 y B.19, las varianzas teoricas


de
b yopt () y Q
b yn () son comparadas por
los estimadores Q
medio de sus cocientes, esto es, las figuras muestran los
b yn ()). En este
b yopt ())/V (Q

Ratios Teoricos
RT = V (Q
estudio, se representan diferentes valores de m en el eje
de abscisas y el estimador propuesto se ha obtenido para
Counties y
cada valor de P (P = 1, 2 en la poblacion
Turismos). Las lneas horiP = 1, 2, 3, 4 en la poblacion
b yn (). Nozontales muestran los RT para el estimador Q
tamos que valores de RT por debajo de 1 indican que
b yn ()), y por tanto el estib yopt ()) es menor que V (Q
V (Q
eficiente.
mador propuesto es mas

De estas comparaciones teoricas,


se pueden destacar
la siguientes conclusiones:
1. Para ambas poblaciones, el estimador propuesto
parece tener uniformemente menor varianza que el
b yn (), y a su vez menor va
estimador estandar,
Q

rianza que el estimador propuesto cuando este


utiliza una unica
variable auxiliar.

2. Las mejores propiedades se obtienen cuando se


usan todas las variables auxiliares.

3. Cuando los tamanos


muestrales en ambas oca de solapamiento
siones son iguales, la fraccion

de sooptima
esta entre 0.2 y 0.4. Una fraccion
alta resulta apropiada cuando el
lapamiento mas

b yn ()] se define de modo similar para


y donde ECM [Q
b
Qyn (). Por tanto, el comportamiento emprico del esti
mador propuesto se compara con el estimador estandar
mediante diferentes valores de P .

de
Las generaciones aleatorias, calculos
y obtencion
estimadores se han obtenido mediante el programa R.
estan
disponibles en el
Los detalles de la programacion

Apendice
??.
Las Figuras B.20 y B.21 representan la ER obtenida
En la Figuras B.22 y B.23
en el estudio de simulacion.
de los valores optimos

se muestra la evolucion
Wopt con
de solapamiento. Los valores SR
respecto a la fraccion
todos dentro de un rango razonable y por tanto se
estan
han omitido.
De las Figuras B.20, B.21, B.22 y B.23 se pueden hacer las siguientes observaciones:
1. Los resultados confirman un buen comportamiento

por parte del estimador optimo


propuesto en com con el estimador estandar,

paracion
y a su vez con

respecto al estimador optimo


simple, es decir, el es
timador propuesto optimo
basado en una unica
va
riable auxiliar.
nos muestra que se obtienen
2. Este estudio tambien
precisas cuando se usa un mayor
estimaciones mas
numero
de variables auxiliares.

60

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


3. Cuando los tamanos
muestrales en ambas oca de solapamiento opti
siones son iguales, la fraccion
ma esta entre 0,2 y 0,4. En otro caso, no puede ob de solapamiento optima.

servarse una fraccion


4. Los valores Wopt son crecientes con respecto a
de solapamiento. Este resultado era
la fraccion
predecible puesto que a medida que aumenta el
muestral de la parte solapada con respecto
tamano
de la muestra no solapada, el estimador
al tamano
multivariante debera tener un mayor pede razon
so dentro del estimador propuesto. En todos los
altos de Wopt se obtienen
casos, los valores mas
cuando se usan todas las variables auxiliares en
Este resultado demuestra
la etapa de estimacion.
precisas cuando
que se obtienen estimaciones mas
se usan todas las variables auxiliares: de la expre (3.18) puede observarse que Wopt es mayor si
sion
b ymopt ()) tiene valores mas
pequenos,

y bajo
V (Q
el estimador optimo

esta situacion,
propuesto ob precisas.
tiene estimaciones mas
muestral en la segunda ocasion

5. Cuando el tamano
en la primera ocasion,
se
es menor que el tamano
y esta
obtiene una mayor ganancia en precision,
ganancia aumenta a medida que crece la diferencia
muestrales. Este resultado es raentre los tamanos
en relacion
con n0 ,
zonable porque si n es pequeno
entonces, la primera muestra proporcionara mayor
y el estimador de razon
multiple
informacion,
basa
un
do en la muestra solapada presentara tambien
menor grado de error.

La muestra no solapada su es por tanto seleccionada de


d3 , tal que pu (su /s0c ) es
U s0 = s0c segun
el diseno
la probabilidad condicional de escoger su . Las probabili bajo este diseno
se denotaran
como
dades de inclusion
i/s0c y ij/s0c .
en esta seccion
y en las dos siguientes
Ademas,
asumiremos que se dispone de una unica
variable auxi
los valores de la variable principal que
liar, x, que seran
Tamtoman los individuos en el primer periodo u ocasion.
puede considerase que x es una variable auxiliar albien
tamente correlacionada con la variable principal, aunque

en la practica
esto no es lo habitual.
se define un estimador compuesto
A continuacion

Sarndal
et al., 1992,
basado en estimadores (vease
p.347) y que combina un estimador construido en la muestra solapada con otro estimador basado en la muestra no
solapada.
As, usando la muestra no solapada, su , es posible ob de distribucion

tener el siguiente estimador para la funcion


1 X (t yi )
,
Fbyu (t) =
N is i0c i/s0c
u

el cual es un estimador . El correspondiente estimador


para el cuantil de orden viene por tanto dado por
b yu () = nf{t : Fbyu (t) }.
Q

(3.26)

A partir de la muestra solapada pueden construirse los


de distribucion

siguientes estimadores de la funcion

y Arcos (2006) pueden consultarse


En Rueda, Munoz
detalles sobre la estimacion
de cuantiles en muestreo
mas
con dos ocasiones sucesivas y para un vector multivariante de variables auxiliares.

1 X (t yi )
,
Fbym (t) =
N is i0 i/s0

(3.27)

1 X (t xi )
,
Fbxm (t) =
N is i0 i/s0

(3.28)

3.3.5.

Muestreo con probabilidades desiguales

Asumiendo muestreo en dos ocasiones sucesivas y


muestrales arbitrarios para la seleccion
de las disdisenos
tintas muestras que requieren ser seleccionadas bajo este

esquema, Sarndal
et al. (1992) demostraron que el estimador de tipo Horvitz-Thompson de una media no puede

siempre usarse en la practica


debido a que el estimador

i ,
requiere el calculo
de las probabilidades de inclusion
y esto no es posible para las unidades de la muestra su o
para las unidades de la muestra sm .
Los distintos esquemas de muestreo que pueden
plantearse bajo un muestreo en dos ocasiones sucesi
vas y sus correspondientes probabilidades de inclusion
La muestra de la
son los que se detallan a continuacion.
n0 esta disenada

segun
primera fase s0 con tamano
un
muestral d1 , tal que pd1 (s0 ) es la probabilidad de
diseno
que s0 sea escogida. Las correspondientes probabilidades
de primer y segundo orden vienen dadas por
de inclusion
0
0

i , ij , para i, j U . Dada s0 , en la segunda ocasion,


m, es disenada

una muestra solapada sm con tamano


d2 , tal que pm (sm /s0 ) es la probabilisegun
un diseno
dad condicional de escoger sm . Las probabilidades de in bajo este diseno
se denotan como i/s0 y ij/s0 .
clusion

los cuales son estimadores basados en la segunda


respectivamente. Usando tambien
la
y primera ocasion
muestra de la primera fase, es posible construir un estimador de tipo Horvitz-Thompson para la variable auxiliar
como sigue
1 X (t xi )
.
(3.29)
Fbx (t) =
N
i0
0
is

Usando los estimadores dados en (3.27), (3.28) y

(3.29) y basandonos
en la muestra solapada y en la muestra de la primera fase, se propone el siguiente estimador

de tipo razon

donde

b
b ym () Qx () ,
b rym () = Q
Q
b
Qxm ()

(3.30)

b ym () = nf{t : Fbym (t) },


Q

(3.31)

b xm () = nf{t : Fbxm (t) },


Q
b x () = nf{t : Fbx (t) }.
Q

(3.32)
(3.33)

Siguiendo a Jessen (1942), se propone el estimador


bR
lineal
compuesto Q
y () para Qy () como combinacion
del estimador (3.26) y el estimador (3.30). Este estimador
viene dado por
br
b
bR
Q
y () = w Qym () + (1 w)Qyu (),

(3.34)

5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

61

donde w es un peso constante y no negativo. El siguiente paso sera determinar w de modo que se minimice la
bR
varianza del estimador compuesto Q
y ().
Teorema 3.8 La varianza mnima del estimador
viene dada por
bR
Vmin (Q
y ()) =

bR
Q
y ()

V1 V2 C 2
.
V1 + V2 2C

de Bahadur (vease

representacion
por ejemplo Chambers
y Dunstan, 1986):
1
r
(Fbym
(Qy ()))+op (n1/2 ),
fy (Qy ())
(3.36)
donde fy () denota la derivada del valor lmite de Fy ()
r
cuando N y Fbym
(t) denota un estimador de tipo
para Fy (t), es decir
razon
b rym ()Qy () =
Q

Fbym (t) b
r
Fbym
(t) =
Fx (t).
Fbxm (t)

Demostracion
bR
La varianza de Q
y () viene dada por
2
2
br
b
bR
V (Q
y ()) = w V (Qym ()) + (1 w) V (Qyu ())

b rym (t) es asintoticamente

insesgado deEl estimador Q


r
b
bido a que Fym (t) es un estimador insesgado de Fy (t)

(vease
Rao et al., 1990). De este modo,

b rym ()) =
b yu (), Q
+2w(1 w)Cov(Q

= w2 V1 + (1 w)2 V2 + 2w(1 w)C =


V2 C
V1 V 2 C 2
}2 +

(V1 + V2 2C){w
V1 + V2 2C
V1 + V2 2C
V1 V2 C 2
bR
= Vmin (Q
y ()),
V1 + V2 2C
puesto que V1 + V2 2C > 0, y donde
b rym ()),
(Q

V1

=V

V2

b yu ()),
= V (Q

b rym ()).
b yu (), Q
= Cov(Q

V2 C
.
V1 + V2 2C

(3.35)

Partiendo de este resultado, el estimador propuesto


b yu () y el
eficiente que el estimador habitual Q
sera mas
b rym ().
Q
estimador de tipo razon

3.3.6.

Propiedades teoricas

En esta seccion
se estudian las propiedades

asintoticas
del estimador propuesto en (3.34). Los resultados que se establecen se derivan asumiendo las condiciones (C3.4), (C3.5) y (C3.6).
Teorema 3.9 El estimador compuesto

asintoticamente
insesgado para Qy ().

bR
Q
y ()

es

Demostracion
Para demostrar este resultado usaremos la insesgadez de los dos estimadores en los que se basa el estimador propuesto. En primer lugar, es sabido que el cuanb yu () es asintoticamente

insesgado para
til muestral Q

por ejemplo Sarndal


et al., 1992), por lo que
Qy () (vease
pasamos a estudiar si dicha propiedad la satisface el esb rym (). Para ello, usaremos una
Q
timador de tipo razon
b rym () no es una fun lineal debido a que Q
aproximacion
continua.
cion
b rym () puede expresarse asintotica
El estimador Q
lineal de la funcion
de distribumente como una funcion
estimada evaluada en el cuantil Qy () mediante la
cion

62

y usando (3.36) puede verse que


b rym ()) = Qy () + O(n1/2 ).
E(Q
b yu () son asintoticamente
b rym () y Q

inPuesto que Q
R
b
sesgados para Qy (), el estimador propuesto Qy () tam lo sera.

bien

Teorema 3.10 El estimador

asintoticamente
normal.

Por tanto el valor de w que hace mnima la varianza


bR
de Q
y () viene dado por
w=

r
(Qy ())) = 0,
E( Fbym

compuesto

bR
Q
y ()

es

Demostracion

La normalidad asintotica
de la clase propuesta se deri
(3.34).
va facilmente
a partir de la expresion
En primer lugar, bajo las condiciones (C3.4), (C3.5) y
b yu () es asintoticamente

nor(C3.6), el cuantil muestral Q


mal. Este resultado puede consultarse en Gross (1980).
r
(t) es
Por otro lado, es sabido que el estimador Fbym

la aproxiasintoticamente
normal. Asumiendo ademas
lineal (3.36), puede derivarse facilmente

macion
la norb rym ().
malidad del estimador Q
Por ultimo, usando los dos resultados anteriores, la li (3.34) nos permite establecer la
nealidad de la expresion
normalidad del estimador compuesto propuesto.

El siguiente paso en el estudio asintotico


del estimador
de una expresion
para la
propuesto es la determinacion
varianza de dicho estimador. La expression (3.34) del estimador propuesto nos va a permitir computar su varianza

asintotica
a partir de la varianza del estimador basado en
la muestra solapada, la varianza del estimador basado en
la muestra no solapada y la covarianza entre ambos. As
2
2
bR
V (Q
y ()) = w V1 + (1 w) V2 + 2w(1 w)C. (3.37)

Estas varianzas y covarianzas toman una forma simple cuando la unidades muestrales se seleccionan mediante muestreo aleatorio simple.
asintotica

Gross (1980) demostro que una expresion


b yu () esta dada por
para la varianza del estimador Q
b yu ()) =
V (Q

N u
(1 )(u)1 {fy (Qy ())}2 .
N
(3.38)

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

proTeorema 3.11 La varianza del estimador de razon


puesto esta dada por

1
1
1
1
b rym ()) = (1 )

V (Q
fy (Qy ())2
m
N
m
n0
(3.39)

fy (Qy ())
P11 (x, y)
fy (Qy ())
R
+2 1
,
R
fx (Qx ())
fx (Qx ())
(1 )

Debido a la independencia entre su y sm , el segundo

termino
es cero. En lo que respecta al primer termino
b ys0 () + o(m1 )
b rym ()/s0 )) = Q
E(Q
y

b ys0c (),
b yu ()/s0 )) = Q
E(Q

donde

b ys0 () = inf {t : Fbys0 (t) },


Q

de valores en la
donde P11 (x, y) denota la proporcion
para los cuales x Qx () e y Qy (), y
poblacion
R = Qy ()/Qx ().

Demostracion

Usando propiedades del muestreo bifasico,


la expreb rym ()) puede obtenerse de
asintotica

sion
para V (Q
b rym () Qy ()
Q
=

!
b
b ym () Qy () + Qxm () 1 (Qy ()) = (3.40)
Q
b x ()
Q

b ys0c () = inf {t : Fbys0c (t) },


Q
1 X (t yi )
Fbys0 (t) =
N
i0
0
is

1 X (t yi )
.
Fbys0c (t) =
N
i0c
0c
is

de Bahadur da (vease

Por otro lado, la representacion


Kuk y Mak, 1989)
b ys0c () Qy () =
Q

Qy ()e0 + (e1 e2 )(Qy ()) e2 (e1 e2 )(Qy ()),


b ym ()
b xm ()
Q
Q
e0 =
1, e1 =
1y
con la notacion:
Qy ()
Qx ()
b x ()
Q
e2 =
1.
Qx ()
asintotica

La expresion
de la varianza del estimador
b rym () se obtiene elevando al cuadrado los dos miemQ
bros de (3.40) y posteriormente tomando esperanzas (No
tamos que solamente se han considerado terminos
de orden uno):

(1 )
1
1
1
1
r
b

+
0
V (Qym ()) =
fy (Qy ())2
m
N
m
n
fy (Qy ()
(Qy ())

x ()fx (Qx ())


P11 (x, y)
fy (Qy ())
(Qy ()) + 2
1

Qx ()fx (Q
(1 )
x ())

(1 )
fy (Qy ())
1
1
1
1
=

+
0 R

2
f
(Q
())
m
N
m
n
f
y
y
x (Qx ())

fy (Qy ())
P11 (x, y)
R
+2 1
.
fx (Qx ())
(1 )
Los valores de E[e20 ], E[e21 ], E[e22 ], E[e0 e1 ] y E[e0 e2 ] pueden
verse en Allen et al. (2002) y Singh (2003).

Teorema 3.12 La covarianza entre los estimadores


b rym () esta dada por
b yu () y Q
Q
b rym ()) =
b yu (), Q
Cov(Q

n
n0 (1 )
1
1
.
=
fy (Qy ())2 N n
N
n0

b rym ()/s0 ))+


b yu ()/s0 ), E(Q
= Cov(E(Q
b rym ()/s0 )).
b yu (), Q
+E(Cov(Q

1
( Fbys0c (Qy ())) + op (n1/2 ),
fy (Qy ())
b ys0 () Qy () =
Q

1
( Fbys0 (Qy ())) + op (n1/2 ),
fy (Qy ())
y de este modo se obtiene
=

b ys0c (), Q
b ys0 ()) '
Cov(Q
'

1
Cov(Fbys0 (Qy ()), Fbys0c (Qy ())) =
fy (Qy ())2
n
1
V (Fbys0 (Qy ())) =
fy (Qy ())2 N n

n
n0 (1 )
1
1

,
=
fy (Qy ())2 N n
N
n0

obteniendo as el resultado (3.41).

Sustituyendo los valores (3.38), (3.39) y (3.41) en


para la varianza
(3.37), se obtiene la siguiente expresion
del estimador propuesto

h
i2
n
1
1
1
n
C

C
(

)
0
1
0
1
N
N n n
N
bR

,
V (Q
y ()) = C1
n
1
1
n
N + C0 + 2C1 N n ( n0 N1 )
1
(3.42)
de solapamiento,
donde = m/n es la fraccion

1
1
1
1

+ C2
0 ,
C0 =
n
N
n
n

(3.41)

Demostracion
Para obtener la covarianza entre los estimadores
b rym () al primer orden de aproximacion,
b yu () y Q
nos
Q
de varianza:
basaremos en la propia definicion
b rym ()) =
b yu (), Q
Cov(Q

C1 =

(1 )
fy (Qy ())2

y
fy (Qy ())
C2 = R
fx (Qx ())

fy (Qy ())
P11 (x, y)
R
+ 2(1
) .
fx (Qx ())
(1 )

El estimador resultante para fy (Qy ()) junto con


de valores en la muestra para los
p11 (x, y) (la proporcion
b x () y y Q
b y ()) pueden usarse para
cuales x Q
proporcionar un estimador consistente de las varianzas

asintoticas
y los valores optimos
w y 1 w.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

63

Para completar el estudio asintotico


en esta seccion,
del estimador proanalizaremos la ganancia en precision
b yn (), el cual esta basado
puesto sobre el estimador Q
exclusivamente en las n unidades muestrales para la se La varianza de este estimador esta dada
gunda ocasion.
por
b yn ()) = N n (1 )(n)1 {fy (Qy ())}2 .
V (Q
N
(3.43)
bR
G1 , de Q
De este modo, la ganancia en precision,
y ()
b yn () esta dada por
sobre Q
G1 =

b yn ()) V (Q
bR
V (Q
y ())
.
R
b
V (Qy ())

(3.44)

dependera de los tamanos

Esta ganancia en precision


objeto
muestrales, del orden del cuantil y de la poblacion
de estudio.

El valor optimo
de u que maximiza (3.44) coincide con

el valor que minimiza la varianza asintotica


(3.42).
Por tanto, el problema es obtener el mnimo en de
bR

() = V (Q
la funcion
y ()) y verificando la condicion
es monotona

natural 0 < < 1. Esta funcion


en el intervalo (0, 1). El crecimiento o decrecimiento depende del
en estudio. Por tanto,
orden del cuantil y de la poblacion

proximos

los valores optimos


para estaran
a cero (cuando se renueva completamente la muestra al pasar de una
a otra), o bien, estaran
proximos

ocasion
a uno (cuando la
a otra). Todos
misma muestra se conserva de una ocasion

consultarse
estos resultados asintoticos
pueden tambien
(2006b).
en Rueda y Munoz

3.3.7.

Propiedades empricas

El siguiente paso en el analisis


de estimador propuesto en muestreo con dos ocasiones sucesivas y usan
do disenos
probabilsticos desiguales consiste en llevar
asumiendo distintos
a cabo un estudio de simulacion

tamanos
muestrales en todas las muestras y bajo distin
tos esquemas de muestreo. Para este analisis
se usara la
Counties (vease

poblacion
Apendice
A para una descrip completa de esta poblacion).

cion
Como se ha podido comprobar, para la puesta en

practica
de un muestreo con dos ocasiones sucesivas es
necesario seleccionar tres muestras diferentes, las cuales
muestrales.
pueden obtenerse a partir de distintos disenos
En concreto, estas tres muestras son la muestra de la
primera fase, la muestra solapada y la muestra no solapa de esta seccion
se usaran
da. En el estudio de simulacion
las distintas combinaciones de esquemas de muestreo

descritas en la Tabla 3.11. El metodo


de Midzuno se em
de unidades con probaplea como metodo
de extraccion
del
bilidades desiguales, aunque es posible la aplicacion
muestral.
estimador propuesto bajo cualquier otro diseno
Para cada esquema de muestreo se han generado
muestrales n0 = 75,
B = 1000 simulaciones con tamanos
0
n = 25, m = 5, . . . , 15 y n = 75, n = 50, m = 5, . . . , 30. El
cumplimiento del estimador propuesto se evalua
para los

tres cuartiles, = 0,25, 0,50, 0,75, en terminos


de Sesgo
Relativo (SR) y Eficiencia Relativa (ER), donde
SR =

B
bR
bR
ECM [Q
1 X |Q
y ()b Qy ()|
y ()]
; ER =
,
b yn ()]
B
Qy ()
ECM
[
Q
b=1

Tabla 3.11: Combinaciones de disenos


muestrales
usados en muestreo con dos ocasiones sucesivas y
probabilidades desiguales.

Acronimo
SM S

M SS

MMM

Muestra
s0
sm
su
s0
sm
su
s0
sm
su

Tipo de muestreo
M. aleatorio simple

Metodo
de Midzuno
M. aleatorio simple

Metodo
de Midzuno
M. aleatorio simple
M. aleatorio simple

Metodo
de Midzuno

Metodo
de Midzuno

Metodo
de Midzuno

siendo b la b-esima
simulacion,
bR
br
b
Q
y () = w Qym () + (1 w)Qyu (),

P
2
bR
bR
= B 1 B
ECM [Q
y ()]
b=1 [Qy ()b Qy ()] , y
b
b

ECM [Qyn ()] se define analogamente


para Qyn (), el

estimador estandar
para el cuantil poblacional basado en
mas
reciente.
la ocasion

Notamos que el valor optimo


para la constante w
(3.35) depende de varianzas y covarianzas desconocib yu ())
b rym ()), V (Q
das, en concreto depende de V (Q
r
b
b
tecnicas

y Cov(Qyu (), Qym ()). Se usaran


Jackknife
de estas ex(Efron y Tibshirani, 1993) para la estimacion
presiones.
Por otro lado, la constante w depende de covarianzas porque la muestra solapada y la no solapada son dependientes, aunque algunos autores ignoran este hecho y
consideran tales muestras como independientes, es decir,
emplearan la constante
w =

b yu ())
V (Q
,
b rym ()) + V (Q
b yu ())
V (Q

b rym ()) estara omitida. Con el fin de


b yu (), Q
donde Cov(Q

analizar este hecho en la practica,


el estimador propuesto
basado en la constante w (asumiendo que existe independencia entre las muestras, por lo que se ignoran las

covarianzas) ha sido incluido en el estudio de simulacion.


En primer lugar analizaremos la eficiencia de los estimadores, la cual puede observarse en las Figuras B.24,
B.25 y B.26, en donde se representa la Eficiencia Relativa

de los distintos estimadores y combinaciones de disenos

en el cumplimiento
y tamanos
muestrales. La variacion
de los estimadores desde distintas perspectivas puede
por tanto observarse. Notamos que las curvas continuas
corresponden al estimador propuesto (usando covarianzas), mientras que las curvas discontinuas corresponden
al estimador compuesto que no emplea covarianzas. Las

lneas horizontales representan al estimador estandar.


En los tres casos, los resultados obtenidos muestran
un buen cumplimiento del estimador propuesto, el cual es
eficiente que el estimador estandar,

siempre mas
excepto para el caso de fracciones de solapamiento elevadas.
de solapamiento aumenta, decrece la
Cuando la fraccion

64

(S)
(M)
(S)
(M)
(S)
(S)
(M)
(M)
(M)

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Eficiencia Relativa para el estimador propuesto en com con el estimador estandar.

paracion
En lo que respecta al comportamiento del uso o no
de covarianzas en el estimador propuesto, puede comprobarse que se obtiene una ligera mejora en eficiencia
cuando se tiene en cuenta las covarianzas en la construc del estimador, teniendo por tanto sentido la hipotesis

cion
de dependencia entre el estimador de la muestra no solapada y el estimador propuesto para la parte solapada.
observarse que la ganancia en precision

Puede ademas
sobre el estimador que omite las covarianzas es mayor
muestral de la ocasion

a medida que aumenta el tamano


reciente. En resumen, estos resultados recomiendan
mas
el uso de covarianzas en el estimador propuesto para la
de cuantiles bajo un muestreo con dos ocaestimacion
siones sucesivas y probabilidades desiguales.

El analisis
del Sesgo Relativo de los distintos estimadores puede seguirse en las Figuras B.27, B.28 y B.29.
A partir de estas figuras puede observase un similar
comportamiento de los estimadores al obtenido en el estudio de la Eficiencia Relativa. Los valores del Sesgo Rel siempre por
ativo para los estimadores propuestos estan
debajo de 0.2, y en algunas ocasiones son inferiores a 0.1,

mientras que el Sesgo Relativo para el estimador estandar


es bastante mayor llegando incluso a 0.6.
Por ultimo,
analizaremos los valores observados de

los estimadores mediante diagramas de cajas con big muesotes. Por brevedad, se ha considerado el diseno

tral SM S y los tamanos


muestrales n0 = 75 , n = 50
y m = 5, 10, 15, 20. La Figura B.30 nos da tal informa para los tres cuartiles. Tambien
en este estudio se
cion
comprueba que el estimador propuesto presenta el mejor
comportamiento, al obtenerse estimadores menos disper con el estimador estandar

sos en comparacion
y el estimador que omite las covarianzas.
Notamos que se han realizado otras simulaciones con

distintos tamanos
muestrales a los usados en los estudios anteriores. En todos los casos los resultados confirman el buen comportamiento del estimador propuesto
se ha observado que
frente a sus competidores. Tambien
del estimador propuesto es mejor
la ganancia en precision
muestral en la primera ocasion

a medida que el tamano


de la segunda ocasion.

aumenta con respecto al tamano


muestral en la primera
Por otro lado, cuando el tamano
es menor que el tamano
en la segunda, se obocasion
y esta ganantiene una menor ganancia en precision,
cia disminuye a medida que aumenta la diferencia en

tre tamanos
muestrales. Este resultado es logico
porque
con n, la primera muessi n0 es mayor en comparacion
y el estimador de
tra proporcionara mayor informacion,
basado en la muestra solapada presentara un
tipo razon
menor grado de error, por lo que es de esperar que el es en precision.
Con el fin
timador propuesto mejore tambien
informacion
sobre la estimacion
de cuande obtener mas

tiles en muestreo con dos ocasiones sucesivas y disenos


consultarse Rueda
muestrales arbitrarios, puede tambien
(2006b).
y Munoz

3.4.

Estimadores bajo el metodo


de verosimilitud emprica

En este apartado se utiliza el metodo


de verosimilitud
de cuantiles. Para ello, usareemprica para la estimacion

mos el estimator de verosimilitud emprica para la funcion


definido en la Seccion
2.4.3. Tomando la
de distribucion
inversa de este estimador, podremos obtener estimadores

se utide cuantiles facilmente.


Estos estimadores tambien
para el analisis

lizaran
de algunas medidas de pobreza.
Bajo datos de la Encuesta Continua de Presupuestos

Familiares para el primer trimestre del ano


1997,
mostraremos como tanto el estimador propuesto para los

cuantiles como el metodo


bootstrap para la estimacion
de la varianza, exhiben un buen comportamiento en com con otros estimadores alternativos.
paracion

3.4.1.

Antecedentes

Asumiendo el metodo
de verosimilitud emprica, los
unicos
estimadores conocidos para cuantiles en la lite
modelo-calibrada, es
ratura se basan en la aproximacion
decir, se usan los estimadores modelo-calibrados para la
de distribucion
descritos en la Seccion
2.4.2. Sea
funcion
FbM CP E (t) uno de estos estimadores cuando se usa el
b HKy (). Notamos que FbM CP E (t) sera mas

punto t0 = Q
eficiente que FbHKy (t) para t en las cercanas de Qy ().

El cuantil Qy () puede estimarse mediante inversion


b M CP E () = Fb 1
directa de FbM CP E (t), esto es, Q
M CP E ()
para (0, 1). Puesto que FbM CP E (t) es una verdadera
de distribucion,
esta inversion
es computacionalfuncion
mente simple.
Notamos que tanto este estimador como su corres
usadas en la Secpondiente varianza asintotica
seran
3.4.5 para su comparacion
emprica con el esticion

mador propuesto bajo el metodo


de verosimilitud empri a continuacion
se resumen las princa. Por esta razon,

cipales propiedades asintoticas


de este estimador. Para
de poblaciones finiello, asumimos que hay una sucesion
tas {U , = 1, 2, . . .}. F (t) y Q () denotan respectiva U . Ademas,
sean
mente Fy (t) y Qy (), para la poblacion
muestrales siguientes:
los disenos
(i) Muestreo aleatorio simple con o sin reemplazamiento.
(ii) Muestreo estratificado aleatorio simple con o sin
reemplazamiento.
(iii) Muestreo con probabilidades desiguales de una etapa con reemplazamiento.
(iv) Muestreo de varias etapas con reemplazamiento en
la primera etapa.
con reemplazamienNotamos que en el caso de disenos
to se usa el estimador de tipo Hansen-Hurwitz (Hansen y
Hurwitz, 1943), esto es i = nqi , donde qi es la probabili
dad de seleccionar la i-esima
unidad.
de Bahadur para el cuantil
Una representacion
b M CP E () puede establecerse para estos disenos
muesQ
las condiciones (C2.20), (C2.21) y
trales. Sean tambien
2.4.2 junto a las siguientes:
(C2.22) dadas en la Seccion

5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

65

de distribucion
F (t) diferen(C3.7). Existe una funcion
de densidad f (t), tal
ciable de orden 2 con funcion
que F (t) F (t) = o(1), y para cualquier a =
O(n1/2 )
sup |[F (t + ) F (t)] [F (t + ) F (t)]| =
||a

),
= o(n1/2

muestral n cuando .
donde el tamano
(C3.8). Para un valor fijo (0, 1), Q () Q0 (),
donde Q0 () es el cuantil de F (t) y f (Q0 ()) > 0.
El siguiente teorema puede establecerse.

Teorema 3.13 Bajo los disenos


muestrales (i)(iv) y las
condiciones (C2.20), (C2.21), (C2.22), (C3.7) y (C3.8), se
b M CP E () Qy () =
tiene que Q

1
FbM CP E (Qy ()) + op (n1/2 ),
=
f (Qy ())
densidad de la funcion
de disdonde f () es la funcion
lmite de Fy (t) cuando N .
tribucion
b M CP E ()

En consecuencia, la varianza asintotica


de Q
puede aproximarse por
b M CP E ()) '
V (Q

1
V (FbM CP E (Qy ())) =
f (Qy ())2

N
1 XX
1
Ui
Uj
(

+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j

donde Ui = (Q
y () yi ) Fy (Qy ()) (wi w )BN

1 P N

yw = N
i=1 wi . wi viene dada por (2.85), (2.87),
(2.90) o (2.93) cuando t0 = Qy ().
Esta varianza puede estimarse mediante

b M CP E ()) '
Vb (Q

1
b M CP E ())) =
V (FbM CP E (Q
f (Qy ())2

N
1 XX
1
ui
uj
(

+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j
b
donde
Pui = (QM CP E () yi ) (wi w)BN y w =
w
.
wi viene dada por (2.86), (2.88), (2.91) o
N 1 N
i
i=1
b HKy (). f (Qy ()) puede estimarse
(2.92) cuando t0 = Q

mediante procedimientos estandares


(Silverman, 1986).
b M CP E () sobre
La ganancia en eficiencia al usar Q
b
QHKy () es comparable a la ganancia de FbM CP E (t) so
wi = E (zi |xi ), la
bre FbHKy (t). Con la optima
eleccion

ganancia maxima
de la eficiencia asintotica
esta garanti
mueszada. As, este metodo
puede aplicarse en disenos
trales complejos y para un vector multivariante de variables auxiliares.

3.4.2.

a la estimacion
de
Aplicacion
lneas de pobreza

El analisis
de las lneas de pobreza es un tema re en la sociedad. La proporcion
oficiente y de gran interes
cial de pobreza y el numero
de personas en pobreza son

importantes medidas para el bienestar economico


de un
pas.

El analisis
de la estructura de los ingresos y la desigualdad de ingresos son los principales objetivos en los
estudios de pobreza. Esto se debe a que la desigualdad
de los ingresos puede afectar a la eficiencia del mercado
laboral, y a que esto conlleva a una serie de problemas
relacionados con la igualdad social, tal como la incidencia
social.
de la pobreza o la estratificacion
de una medida de pobreza requiere la
La aplicacion
de una lnea de pobreza, la cual separe
especificacion
en pobres y no pobres. En la literatura,
a la poblacion
existen distintas formas de especificar una lnea de po para la Cooperacion

breza. Por ejemplo, La Organizacion

Economica
y el Desarrollo (OECD, acronimo
de Organization for Economic Cooperation and Development) en el
1997, definio la lnea de bajos ingresos como dos terano
cios del salario mediano, de modo que un empleado se
consideraba que tena ingresos bajos si reciba un salario

inferior al anterior umbral senalado.


Sin embargo, Euro Europea
stat (2000) define que un empleado en la Union
percibe un salario bajo si su salario mensual es inferior al
60 % del salario mediano de su correspondiente pas.
Los empleados con bajos ingresos, en particular, ha
con alto interes
poltico
sido un centro de investigacion
(Lucifora y Salverda, 1998). Por un lado, a un nivel

macroeconomico,
los empleados con bajos ingresos es
claramente relevante para la igualdad social, como lo demuestran las razones con alta pobreza en los pases
donde los empleados con bajos ingresos es relativamente
alto (OECD, 1997). Por otro lado, desde una perspectiva

entre salarios bajos y


microeconomica,
existe una relacion
estado de pobreza de los hogares (OECD,1997, Eurostat,
2000).

En la literatura, existen tres tipos de metodos


para de
terminar las lneas de pobreza: los metodos
absolutos, re
lativos y los subjetivos. Los metodos
absolutos obtienen
la lnea de pobreza como una cantidad mnima de fuentes
en un punto del tiempo y ponen al da la lnea solamente
para cambios de precio sobre el tiempo. La lnea de pobreza usada por el estadstico oficial de pobreza de Estados Unidos es un ejemplo de lnea de pobreza absoluta.

El metodo
relativo especifica la lnea de pobreza como un
de ingresos o gastos y, por lo tanpunto en la distribucion

to, la lnea puede estar sin fecha automaticamente


sobre

el tiempo para cambios en niveles de vida. En la practica, los investigadores a menudo especifican la lnea de
pobreza relativa como un porcentaje del ingreso o gasto
medio (Wolfson y Evans, 1989, Johnson y Webb, 1992),
como un porcentaje del ingreso o gasto mediano (Smeeding, 1991, Eurostat, 2000) o simplemente como un cuantil

(OECD, 1982). El metodo


subjetivo deriva de la lnea de
publica.
pobreza basada en la opinion
Comparada con las

dos primeras aproximaciones, el metodo


subjetivo es relativamente menos popular y raramente se usa.
Mientras que las lneas de pobreza absolutas han sido usadas en la mayora de los estadsticos de pobreza de
los gobiernos, las lneas de pobreza relativas han ganado
recientemente en popularidad y uso tanto en las compara
ciones internacionales de pobreza como en analisis
na del tiempo. Preston (1995)
cionales de pobreza a traves
establecio las distribuciones muestrales de los estadsti-

66

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

cos de pobreza relativos.


La desigualdad entre salarios es requerida a menudo
de la riqueza. Tradien estudios de pobreza o distribucion
cionalmente, La oficina censal de Estados Unidos ha empleado un determinado numero
de percentiles lmite y ra
zones para estudiar cambios en la desigualdad de salarios
de inde los hogares. Entre ellos encontramos la razon
gresos para un determinado hogar entre el percentil 95 y
el percentil 20, el percentil 95 con respecto a la media basna, etc. Derivadas de estos percentiles son tambien
tantes usados en la literatura de ingresos. Algunos investigadores han propuesto otras medidas alternativas como
entre los percentiles 90 y 10 o la razon
entre los
la razon
empercentiles de orden 50 y 10. Eurostat (2000) tambien
plea el salario mediano con respecto al primer decil. Es de las desigualtos valores dan una idea de la extension
entre los perdades entre salarios. Por ejemplo, la razon
centiles de orden 50 y 10 nos permite ver si la incidencia de empleos con bajos ingresos esta fuertemente rela de salarios en la cola izquierda
cionada con la dispersion
En Binder y Kova
de la distribucion.
cevic (1995), Dickens
y Manning (2004) pueden consultarse otras medidas desigualdad de ingresos.
dada a este tipo de estadsticos en los
La atencion
y en los crculos de poltica es
medios de comunicacion
considerable, hasta el punto de que importantes decisiones polticas pueden verse influenciadas por estas medidas.
La caracterstica comun
de estas medidas es su com
plejidad. Estas
son funciones no lineales de las observa
ciones y un alto numero
de estas
dependen de cuantiles.

Como se ha comentado, la literatura relacionada a la es de medianas y otros cuantiles, los cuales usan
timacion
una variable auxiliar, es considerablemente menos exten
so que en el caso de medias y totales, y las tecnicas
ha
no tienen una
bituales, tal como el metodo
de regresion,
obvia a la estimacion
de cuantiles. Por tanto, la
extension
mayora de los estudios relacionados con cuantiles han
sido desarrollados asumiendo muestreo aleatorio simple
o muestreo estratificado (Gross, 1980, Sedransk y Meyer,
1978, Sedransk y Smith, 1988, Kuk y Mak, 1989, Singh et
al., 2001), o bien considerando aproximaciones basadas
en el modelo (Chambers y Dunstan, 1986, Dorfman y Hall,
1993, Mak y Kuk, 1993), las cuales asumen un modelo de
los estimadores son dependientes de disuperpoblacion,
cho modelos y puede llegarse a obtener un pobre cumplimiento de los estimadores bajo una inapropiada especi del modelo. En la practica,

ficacion
estas situaciones no
son usuales, especialmente para el caso de datos relacionados con ingresos o gastos, los cuales se analizan

asumiendo disenos
muestrales complejos con probabili exhiben una
dades desiguales y cuyos datos, ademas,
alta asimetra, lo que hace muy difcil asociar un mode a los datos en estudio. El uso de
lo de superpoblacion
estimadores de cuantiles eficientes basados en informa auxiliar y aproximaciones independientes del modelo,
cion

puede ayudarnos a obtener una mejora en la estimacion


de medidas de pobreza. Notamos que la mayora de los
estudios relacionados con medidas de pobreza han sido

llevados a cabo usando estimadores clasicos


de la literatura del muestreo en poblaciones finitas.

es desarrollar un estiEl proposito


de esta seccion

mador de cuantiles que pueda aplicarse a diferentes me


didas de pobreza. Para ello, usaremos la aproximacion

modelo-asistida y el metodo
de verosimilitud emprica
para construir nuevos estimadores para un determina de cuando cuantil. En lo que respecta a la estimacion

tiles usando el metodo


de verosimilitud emprica (vease
3.4.1), Chen y Wu (2002) propusieron estila Seccion
madores modelo-calibrados (Wu y Sitter, 2001). Estos
estimadores requieren el uso de un modelo de super apropiado, y son por tanto dependientes de dipoblacion
estos estimadores se construyen
cho modelo. Ademas,
por medio de restricciones que requieren el uso de un

unico
valor fijado. Una importante perdida
de eficiencia

puede llegar a obtenerse cuando dicho valor fijado se encuentra alejado del cuantil que va a ser estimado.
El estimador propuesto usa de modo efectivo la in auxiliar en la etapa de estimacion
porque este

formacion
esta basado en tres valores fijados construidos a partir de
auxiliar. Estos valores se encuentran bien
la informacion
de datos, resolvienrepartidos dentro de la distribucion

do de este modo la perdida


de eficiencia provocada por
de un valor fijado situado a gran distancia de
la eleccion
cuantil que se va a estimar. Este estimador propuesto
de distribuesta basado en el estimador para la funcion
descrito en la Seccion
2.4.3.
cion
Debido a la naturaleza especfica de los cuantiles y
a la complejidad de algunas medidas de pobreza, las varianzas de estos estadsticos complejos no pueden expre
sarse por simples formulas. Mostraremos como la tecnica
de la
bootstrap es una posible alternativa en la estimacion
varianza del estimador propuesto.

3.4.3.

Estimadores
modelo-asistidos

propuestos

En este epgrafe se describe el estimador propuesto usando la metodologa de verosimilitud emprica. Como se ha comentado, usaremos una perspectiva modeloasistida debido a que esta proporciona un enfoque en el
cual se pueden desarrollar estimadores eficientemente.

Para ello, necesitaremos un modelo de superpoblacion


entre la variable de interes
y
que describa la relacion
las variables auxiliares. Este modelo sera posteriormente

usado para construir estimadores basados en el diseno.


Como resulta habitual, consideraremos el modelo re lineal dado por
gresion
yi = t xi + vi i ,

i = 1, . . . , N

(3.45)

conocida de xi y las cantidades i


donde vi es una funcion

son variables aleatorias independientes e identicamente


distribuidas con media 0 y varianza 2 . Notamos que en

la practica
los valores del vector son desconocidos,

aunque es sabido que este parametro


puede estimarse

eficientemente por mnimos cuadrados (vease


por ejem
plo Sarndal
et al., 1992) como
!1

X xi yi
X xi xti

.
(3.46)
B=
2

2
iU
iU

Este estimador es optimo


en el sentido de ser el mejor estimador lineal e insesgado para bajo el modelo (3.45). A

6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

67

su vez, B es una caracterstica poblacional finita, aunque


puede estimarse usando los datos muestrales. Esta esti viene dada por
macion
!1

X di xi yi
X di xi xti
b

.
(3.47)
=
2

2
is
is

Como ya sabemos, el metodo


de verosimilitud empri
ca presenta buenas propiedades asintoticas
y empricas
de medias o totales
para el problema de la estimacion
(Chen y Qin, 1993, Chen y Sitter, 1999), funciones de dis (Chen y Wu, 2002), estimacion
en presencia de
tribucion

datos faltantes (Rueda, Munoz,


Berger, Arcos y Martnez,
2006, Leung y Qin, 2006), etc. Chen y Wu (2002) propusieron estimadores de verosimilitud emprica modelocalibrados que requieren el uso de un unico
valor prefi
de estos estimadores a la estimacion

jado. La aplicacion
de cuantiles resulta posible, aunque este proceso arras
tra una importante perdida
de eficiencia cuando dicho valor prefijado esta alejado de cuantil que va a ser estima

do. Con el proposito


de reducir esta perdida
en eficiencia,
se proponen estimadores modelo-asistidos para cuantiles

usando el metodo
de verosimilitud emprica y tres valores
a reducir tal perdida

prefijados que ayudaran


de eficiencia.

Asumiendo el metodo
de verosimilitud emprica (Chen
y Sitter, 1999), el estimador propuesto para el cuantil
esta dado por
b M A () = nf{t : FbM A (t) },
Q
donde

FbM A (t) =

X
is

pbi (t yi ),

(3.48)
(3.49)

y las cantidades pbi son las soluciones al problema de ma de la funcion


de verosimilitud pseudo emprica
ximizaciP
on
b
l(p) = is di log(pi ) sujeta a
X

pi = 1,

(pi > 0),

(3.50)

is

N
1 X
(tg25 gk ) = Fg (tg25 ) = 0,25,
N
is
k=1
(3.51)
N
X
X
1
pi (tg50 gi ) =
(tg50 gk ) = Fg (tg50 ) = 0,5,
N
is
k=1
(3.52)
N
X
1 X
pi (tg75 gi ) =
(tg75 gk ) = Fg (tg75 ) = 0,75,
N
is
k=1
(3.53)
donde tg25 = Qg (0,25), tg50 = Qg (0,50), tg75 = Qg (0,75),
y Qg () es el cuantil para la variable gi = bt xi .
Notamos que la idea de usar (t gi ) para cualquier
para formar restricciot como una variable de calibracion
nes como las dadas en (3.51), (3.52) y (3.53) fue en primer
lugar discutida en Wu y Sitter (2001) y posteriormente ela de
borada en Chen y Wu (2002). Por otro lado, la eleccion
los valores tg25 , tg50 y tg75 en (3.51), (3.52) y (3.53) ha
2.4.
sido discutida en la Seccion
Una vez que se ha definido el estimador de cuantiles,

las medidas de pobreza que dependan de tales parame ser estimadas. Por ejemplo, la lnea de bajos
tros podran

pi (tg25 gi ) =

de un cuaningresos puede definirse como la fraccion


til (Eurostat, 2000, Blackburn, 1990, 1994, Smeeding,
1991, etc.):
(3.54)
L, = Qy (),
y las medidas para cuantificar la desigualdad de ingresos
dadas por la razon
entre los cuantiles de ordenes

estan
1
y 2 (Eurostat, 2000, U.S. Census Bureau, etc):
r1 ,2 = Qy (1 )/Qy (2 ).

Estas medidas pueden estimarse facilmente


por
b , = Q
b M A (),
L

(3.56)

para la medida dada en (3.54), y por


b M A (1 )/Q
b M A (2 ),
rb1 ,2 = Q

(3.57)

para la medida dada en (3.55).

3.4.4.

de la
Propiedades. Estimacion
varianza

El estudio de las propiedades asintoticas


del estimador propuesto pasa por analizar tales propiedades para
el estimador FbM A (t), las cuales se han establecido en la
2.4.4. Queda por tanto describir una expresion

Seccion
para la varianza del estimador propuesto para cuantiles.
de tal expresion
es posible, aunque tenLa determinacion

dra unicamente
validez asintotica,
es decir, para tamanos

no siempre premuestrales bastantes elevados, situacion

sente en la practica.
Por otro lado, por la estructura no

lineal del cuantil, se requiere el uso de una aproximacion

lineal que emplea parametros


poblacionales, por ejemplo
tendran que ser estimados, lo
densidades, que tambien

que conlleva a otra perdida


de eficiencia en la etapa de
de la varianza.
estimacion

Si aplicamos el estimador propuesto a la estimacion


de dicha exde medidas de pobreza, la determinacion
asintotica

difcil,
presion
para la varianza resulta aun
mas
puesto que la caracterstica comun
de las medidas de
pobreza, como por ejemplo (3.54) y (3.55), es su complejidad. Este hecho puede comprobarse en Shao y Rao
(1993), Kova
cevik y Binder (1997), Kova
cevik y Yung

(1997), Zheng, 2001, y Berger y Skinner (2003). Ademas,


los datos de ingresos y gastos provienen usualmente de
encuestas complejas (muestreos con probabilidades desiguales de tipo estratificado, con multiple
etapas, por

dificulta la determiconglomerados, etc), lo que tambien


de expresiones asintoticas

nacion
bajo estas situaciones.

La unica
alternativa en estos casos es el uso de metodos

de varianzas.
especiales para la estimacion

Por estas razones, proponemos el uso de tecnicas


al de la varianza del estimador
ternativas para la estimacion

propuesto. En concreto, se propone la tecnica


bootstrap
de cuantiles,
que frecuentemente se usa en la estimacion
de las medidas de poy en particular, para la estimacion
breza. Este hecho queda justificado por los estudios ya
llevados a cabo y los cuales resumiremos brevemente a
Puesto que el estudio emprico que llevacontinuacion.
mos a cabo esta basado en algunas medidas de pobreza,
a la estimacion
de la variancentraremos nuestra atencion
za de medidas de pobreza.

68

(3.55)

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

En primer lugar, notamos que en los estudios de pobreza, la variabilidad muestral de las diferentes medidas
particular cuando estas

estimadas presentan un interes


del tiempo o entre
son comparadas entre pases, a traves
subgrupos dentro de un pas.

Los metodos
tradicionales para aproximar la varianza

de un estimador (vease
Wolter, 1985), envuelven una de
de Taylor o meto
las siguientes estrategias: linealizacion
tal como bootstrap, jackknife, etc. En
dos de replicacion
los casos donde los estimadores presentan una forma

compleja (como en el caso de cuantiles), los metodos


de
son preferidos por ser mas
faciles

replicacion
de imple

mentar, aunque para el caso de cuantiles, el clasico


metodo jackknife da estimadores inconsistentes para la varian pueden
za (Kovar et al., 1988, Shao y Wu, 1989). Tambien
de la varianza otros metodos

usarse para la estimacion


y tecnicas

alternativos tal como linealizacion


residuales
al aplicar el metodo

(Deville, 1999). Una complicacion


de
en la estimacion
de cuantiles es que este

linealizacion
re de funciones de densidad de probaquiere la estimacion

bilidad para la variable de interes.

ganando en populariLos metodos


bootstraps estan
dad en las investigaciones empricas. Por ejemplo, en el
Instituto Estadstico de Canada se llevo a cabo un estu para comparar la eficiencia de varios
dio de simulacion

metodos
de remuestreo con respecto al metodo
de es de ecuaciones (vease

timacion
Kovacevic, Yung y Pandher, 1995) en el caso de medidas de desigualdad de ingresos. Para algunos cuantiles, el estimador bootstrap exh

hiba el menor sesgo relativo, mientras que el metodo


de
de ecuaciones junto con el metodo

estimacion
bootstrap

eran los optimos


en el sentido de estabilidad. Estos resul
tados confirman la ventaja al usar el metodo
bootstrap so de las tecni
bre el resto de aproximaciones. La precision
de la varianza de cuantiles
cas bootstrap en la estimacion
diferencia
obtenidos mediante estimadores de tipo razon,
ha sido discutida en Rueda, Martnez-Miranda
y regresion
medidas de pobreza,
y Arcos (2006). Asumiendo tambien
demostraron la consistenShao y Chen (1998) tambien

de la variancia del metodo


bootstrap para la estimacion
za. En Bickel y Freedman (1984), Dalgleish (1995), etc,
pueden consultarse otros estudios del bootstrap y sus
propiedades en muestreo de poblaciones finitas.

3.4.5.

Propiedades empricas

se evalua
del estiEn esta seccion
la precision
mador propuesto junto con otros estimadores conocidos.
se estudia la eficiencia de estos procedimientos
Ademas,
de cuantiles a diversas mecuando se aplica la estimacion

didas de pobreza. El comportamiento del metodo


boot de varianzas sera tambien
anastrap para la estimacion
lizado. Para ello, se calculan las estimaciones bootstrap
para los distintos estimadores y comparamos estos resul de las correspondientes
tados con los obtenidos a traves
expresiones para la varianza de cada estimador, en aquellos casos que se disponga de tales expresiones. Por simplicidad, se asume muestreo aleatorio simple.

y eficiencia basadas en cuantiles de ordenes

Tabla 3.12: Medidas globales medias de precision


=
n = 500.
0,1, 0,3, 0,5, 0,7, 0,9, y muestras de tamano

Est. ERM SRM


MA
0.86 0.25
MA1
0.89 0.23
MCPE 0.92 0.25
HK
1.00 0.26
r
1.04 0.23
d
1.05 0.25
dm
0.87 0.21
CD
3.58 12.44

Varianzas bootstrap
Varianzas asintoticas
ERM SRM CIM
LIM ERM SRM CIM
LIM
0.82 14.05 92.9 550.96

0.83 12.65 93.2 561.62

0.86 8.72 92.9 563.18 0.78 7.16 93.9 553.87


1.00 9.97 92.8 622.32 1.00 9.52 94.0 616.53
1.08 9.87 93.3 654.58 1.01 3.96 93.2 646.85
1.06 7.32 92.9 651.83 1.02 3.67 93.3 650.31
0.81 12.17 92.7 556.01 0.70 5.27 93.9 548.07
0.48 10.24 17.1 436.84

y eficiencia para la lnea de bajos ingresos cuando = 0,6, = 0,5 y se


Tabla 3.13: Medidas de precision
n = 500.
toman muestras de tamano

Est.
MA
MA1
MCPE
HK
r
d
dm
CD

ER
0.70
0.79
0.78
1.00
1.09
1.11
0.74
1.11

SR
-0.10
-0.08
-0.11
-0.24
-0.00
0.01
-0.07
2.23

Varianzas bootstrap
ER
SR
CI
LI
0.57 16.59 93.8 391.54
0.63 13.03 94.2 410.32
0.65 14.87 94.0 412.62
1.00 17.09 93.4 470.88
0.98 7.77 94.6 473.71
0.97 6.40 93.8 474.52
0.49 7.39 93.6 388.18
0.09 0.65 77.2 313.01

Varianzas asintoticas
ER
SR
CI
LI

0.53 15.81 94.8 423.94


1.00 18.41 94.2 482.73
0.81 6.97 93.8 481.26
0.87 7.45 93.8 486.03
0.37 8.17 94.8 398.41

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

69

ECPF1997 (vease

En este estudio se usa la poblacion

Apendice
A) que esta formada por los datos de ingresos y
gastos de 3000 familias extradas de la Encuesta Continua
1997. Estos datos se
de Presupuestos Familiares del ano
artifihan duplicado tres veces para crear una poblacion
cial de N = 9000 individuos, a partir de los cuales nos
basaremos para llevar a cabo el presente estudio de si Como variable principal se han tomado los inmulacion.
gresos, mientras que como variable auxiliar se consideran
los gastos familiares.
El cumplimiento del estimador de cuantiles propues de la varianza obtenito y su correspondiente estimacion
da mediante bootstrap se comparara con los estimadores
de cuantiles obtenidos a partir de las siguientes fun el clasico

ciones de distribucion:
estimador de tipo HorvitzThompson , FbHT y (t), el cual lo usaremos como esti para todos los estimadores, los esmador de comparacion
y diferencia (Fbr (t), Fbd (t), Fbdm (t))
timadores de tipo razon
propuestos en Rao et al. (1990), el estimador de Chambers y Dunstan (1986), FbCD (t), y FbM CP E (t), el estimador
calcularemos el
propuesto en Chen y Wu (2002). Ademas,
estimador modelo-asistido asumiendo un unico
valor pre

fijado. Esto nos permitira conocer la ganancia en precision


al usar mas de un valor prefijado.
Dado un cuantil de orden , el comportamiento de to
dos los estimadores de cuantiles y sus varianzas estan
medidos por medio del Sesgo Relativo, (SR) y Eficiencia
b y (),
Relativa (ER). As, para un determinado cuantil, Q
calcularemos
b y ()]
ER[Q
b y ()]
SR[Q

=
=

b y ()]/ECM [Q
b HT y ()],
ECM [Q

b
100 E[Qy ()] Qy () /Qy (),

(3.58)
b y ()), se obteny para un estimador de la varianza, Vb (Q
de sustituir
dra las medidas dadas por (3.58) despues
b y ()) y V [Qy ()] respectivamente.
b y () y Qy () por Vb (Q
Q
E[], ECM [] y V [] son las Esperanzas Empricas, Error

Cuadratico
Medio y Varianzas basadas en 500 muesb y ())]
b y ()] y ER[Vb (Q
tras. Notamos que valores de ER[Q
b
b
b
premenores de 1 indican que Qy () y V (Qy ()) son mas
b HT y () y Vb (Q
b HT y ()), respectivamente. Asucisos que Q
se ha obtenido la Cobertura
miendo normalidad, tambien
de los Intervalos de Confianza (CI) al 95 % y la Longitud
Media de cada Intervalo (LI). Todos los estudios se han
n = 500.
basado en muestras de tamano
de cada estimador depende
Notamos que la precision
directamente del cuantil que va a ser estimado. Por ejemplo, el estimador de Chambers y Dunstan es muy eficiente
de la mediana, aunque generalmente
en la estimacion
sufre de importantes sesgos en las estimaciones a medi alejados de la mediana
da que se estiman cuantiles mas

(vease
Rao et al., 1990, Chambers et al., 1993, y Dorfman,
1993). Por este motivo, el primer estudio desarrollado in media global de cada estimador
tenta medir la precision
a partir de los resultados obtenidos en las estimaciones

de los cuantiles de ordenes


= 0,1, 0,3, 0,5, 0,7, 0,9. Las
son el Sesgo
medidas usadas para realizar tal medicion
Relativo Medio (SRM ), dado por
1X
b y (i )]|,
|SR[Q
5 i=1
5

SRM =

la raz cuadrada del valor medio de las medidas ER, es


decir,
v
u
5
u1 X
b y (i )],
ER[Q
ERM = t
5 i=1
y por ultimo,
los valores medios para las medidas CI y LI.

como CIM y LIM respecDichas medidas se denotaran


tivamente. En la Tabla 3.12 puede observarse las distintas
medidas globales para todos los estimadores. A partir de
la eficiencia relativa media, podemos comprobar que el
estimador propuesto presenta el mejor comportamiento,

seguido del estimador de diferencia optimo


(dm). El estimador de Chambers y Dunstan es el menos eficiente,
y diferencia
mientras que los estimadores de tipo razon
funcionan peor que el estimador estandar.

tambien
En el
estudio de las varianzas observamos que las expresiones

asintoticas
funcionan ligeramente mejor que la tecnica
bootstrap, por lo que a tenor de los resultados sera acep de la
table recurrir a tal procedimiento para la estimacion
varianza. Por ultimo,
al estimar todas las varianzas de los

estimadores mediante bootstrap, se observa que el estimador propuesto presenta el mejor comportamiento, al
estimar los intervalos de confianza con menor longitud y
una cobertura similar al resto de estimadores.
es el analisis

El siguiente paso en esta seccion


de la
eficiencia del estimador propuesto cuando se aplica a la
de medidas de pobreza. En primer lugar analiestimacion
de las
zamos los resultados obtenidos para la estimacion
deslneas de bajos ingresos (Tabla 3.13) y a continuacion
importantes en la esticribiremos las conclusiones mas
de razones entre cuantiles para el analisis

macion
de la
desigualdad entre ingresos (Tablas 3.14 y 3.15).
En primer lugar, notamos que al tratarse de medidas
relativas, los resultados obtenidos para las lneas de bajos
los mismos si se usaran
ingresos en la Tabla 3.13 seran
otros valores de , o bien si se considera la propia mediana. Por tanto, las conclusiones que puedan extraerse
de esta tabla se podran hacer para estos casos comentados.
En la Tabla 3.13 observamos que el estimador pro eficiente en terminos

puesto es el mas
de eficiencia relativa. Todos los sesgos relativos se encuentran dentro
de un rango razonable, excepto el de Chambers y Dunstan con un valor superior al resto, en torno al 2.23 %.

Un aspecto importante a tener en cuenta en la estimacion


de la varianza es que las estimaciones bootstrap son, en

precisas que las obtenidas meterminos


generales, mas

diante las expresiones asintoticas,


puesto que se obtienen
reducidos, e intervapara cada estimador sesgos mas

los de confianza menos amplios con identicas


coberturas.

Este resultado nos confirma que la tecnica


bootstrap es

de la varianun procedimiento optimo


en la estimacion
de la vaza de la mediana, y en particular, la estimacion
rianza de las lneas de bajos ingresos. Observando las
estimaciones bootstrap podemos comprobar que el esti
mador diferencia optimo
y el estimador propuesto obtiene
las mejores estimaciones para la varianza.
Las Tablas 3.14 y 3.15 nos dan las distintas medidas
y eficiencia para medidas de pobreza dadas
de precision
por razones de cuantiles. De nuevo, el estimador propues eficiente en terminos

to se muestra mas
de eficiencia relativa. Conclusiones similares pueden derivarse de los re-

70

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

y eficiencia para la
Tabla 3.14: Medidas de precision
de cuantiles cuando 1 = 0,5, 2 = 0,25, y se
razon
n = 500.
toman muestras de tamano

Est.
ER
SR
MA
0.93 0.05
MA1
1.04 0.14
MCPE 1.00 -0.01
HK
1.00 0.05
r
1.62 0.34
d
1.65 0.29
dm
0.90 0.06
CD
21.07 14.10

Varianzas bootstrap
ER
SR
CI
LI
0.92 18.18 93.6 0.18
1.07 17.75 95.2 0.19
1.01 14.68 93.8 0.19
1.00 15.91 95.2 0.19
2.53 14.78 94.4 0.24
2.16 11.45 94.2 0.23
0.80 15.69 93.8 0.18
0.05 23.43 0.0 0.08

de la vasultados obtenidos en la etapa de la estimacion


rianza mediante bootstrap. El estimador de Chambers y
Dunstan ofrece el peor comportamiento con importantes
de las razones. Esto
sobreestimaciones en la estimacion
estimando cuantiles alejados de
se debe a que se estan
la mediana.

y eficiencia para la
Tabla 3.15: Medidas de precision
de cuantiles cuando 1 = 0,95, 2 = 0,2, y se
razon
n = 500.
toman muestras de tamano

Est.
ER
SR
MA
0.93 0.56
MA1 14.66 1.70
MCPE 1.02 0.61
HK
1.00 0.27
r
1.40 0.95
d
1.38 0.72
dm
1.03 0.61
CD
46.52 43.58

Varianzas bootstrap
ER
SR
CI
LI
1.01 -0.70 91.4 0.92
-82.28 91.4 1.06
1.07 -3.21 91.6 0.96
1.00 -3.04 91.4 0.95
2.15
0.30 92.6 1.14
2.01 -3.69 91.4 1.11
1.12 -6.12 90.8 0.95

2.4 1.33

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

71

4. Discusin

conjunta de
En este captulo se hace una discusion
los resultados obtenidos en todos los captulos anteriores,
resumiendo las principales conclusiones.

No es dependiente de un modelo de superpoblacion


como le ocurre por ejemplo a los estimadores
basados en modelos o a los estimadores modelocalibrados.

Conclusiones y valoracion
de resultados

Se establecen las condiciones para la existencia del


estimador.

4.1.

El presente trabajo se divide en dos grandes blo bajo el metodo

ques: estimacion
de verosimilitud emprica
de cuantiles (Captulo 3). En
(Captulo 2) y la estimacion
estos dos captulos se han planteado nuevos estimadores
en situaciones reales del muestreo en poblaciones finitas.

As, asumiendo el metodo


de verosimilitud emprica
se han propuesto estimadores en presencia de datos
muy usual en la practica

faltantes, situacion
y que no
se tiene en cuenta en la mayora de las investigaciones
por muestreo. Las aportaciones hechas en este sentido
de este problema,
dan una alternativa para la solucion
puesto que se ha comprobado que puede existir una importante ganancia en eficiencia en las estimaciones de los

parametros
desconocidos.

En concreto, se ha usado el metodo


de verosimilitud
emprica para estimar una media poblacional cuando en la
faltante tanto
encuesta nos encontramos con informacion
en la variable de estudio como en la variable auxiliar. Se
ha asumido que la muestra puede ser seleccionada me muestral arbitrario, con probabilidades
diante un diseno
iguales o desiguales.
El estimador propuesto se basa en una clase de
estimadores formada por un estimador de verosimilitud

emprica y por un estimador de tipo Hajek.


Se han deriva
do las propiedades asintoticas
de estos estimadores y el

estimador optimo
dentro de la clase propuesta en el sen
tido de minimizar la varianza asintotica.
El estimador propuesto se ha comparado con otros es donde se ha comtimadores en un estudio de simulacion,

probado que el estimador optimo


presenta el mejor comportamiento con respecto a sus competidores. La mayor
ganancia en eficiencia se presenta cuando el numero
de

livalores perdidos es relativamente elevado y la relacion

neal entre la variable principal y la auxiliar es debil.

Asumiendo el metodo
de verosimilitud emprica tam se han propuesto estimadores modelo-asistidos para
bien
de distribucion.
El estimador propuesto posee
la funcion
un importante numero
de propiedades deseables. Por

ejemplo:

Puede aplicarse facilmente


a disenos
muestrales
con probabilidades desiguales.

Bajo ciertas condiciones, el estimador es una ver de distribucion.


Notamos que esta
dadera funcion
propiedad no se satisface para un gran numero
de

estimadores en la literatura.
otras propiedades imporSe satisfacen tambien

tantes como la insesgadez asintotica,


normalidad

asintotica,
disponibilidad de un estimador de la varianza, etc.
del estimador propuesto se ha comparaLa precision
do mediante varias medidas con otros estimadores conocidos. Estos estudios han mostrado un comportamiento

optimo
por parte del estimador propuesto modelo-asistido.
se ha visto que el estimador de Chambers y DunTambien
stan puede llegar a ser muy eficiente cuando el modelo
en el que se basa es apropiado, aunque como se discutio en Rao et al. (1990), Chambers et al. (1993) y Dorfman
(1993), este estimador cumple pobremente cuando se
del modelo. Un comentario
tiene una mala especificacion
similar puede hacerse sobre el estimador de verosimilitud
sufre
emprica modelo-calibrado. Este estimador tambien

una importante perdida


de eficiencia cuando se considera
un valor fijado alejado del punto donde va a ser estimada
de distribucion.

la funcion
Otra propiedad importante que caracteriza al estimador propuesto es el uso eficiente que se hace de la
auxiliar: por un lado porque pueden usarse
informacion
y
multiples
variables auxiliares en la etapa de estimacion,

por otro porque se usan un conjunto de valores prefijados


y ayudan a mejorar
que poseen una buena distribucion
de la funcion
de distribucion,
especialmente
la estimacion
en las proximidades de algunos de estos puntos. Recor que el hecho de considerar tg y x como
damos tambien
valores fijados hacen que los pesos pbi sean independientes de t y puedan establecerse mejores propiedades para
el estimador propuesto.
el metodo

En conclusion,
de verosimilitud emprica
practica

modelo-asistido es una aproximacion


y simple

auxiliar en la estique incorpora facilmente


informacion
de la funcion
de distribucion.
Este estimador premacion
senta un buen cumplimiento y puede ser una alternativa

de distribucion.

valida
a otros estimadores de la funcion
de cuantiles se ha llevado
El estudio de la estimacion
a cabo en el Captulo 3. Los aportes a la teora de la es de cuantiles se han centrado en tres aspectos:
timacion

6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

73

en muestreo bifasico,

en muestreo
estimacion
estimacion
usando el cocon dos ocasiones sucesivas y estimacion

mentado metodo
de verosimilitud emprica.
La mayora de los procedimientos de muestreo que
auxiliar se basan en estimadores que reusan informacion
quieren el uso de variables conocidas a nivel poblacional,

siendo este hecho poco frecuente en la practica.


Una solu a este problema se presenta con la aplicacion
de un
cion

muestreo bifasico.
Por tanto, el problema de la estimacion
auxiliar queda rede cuantiles basados en informacion
suelto con los estimadores propuestos en este sentido.
precisas
Con el fin de obtener unas estimaciones mas

en poblaciones heterogeneas,
con una posible distribu en grupos homogeneos,

se han propuesto
cion
tambien

estimadores para cuantiles en muestreo bifasico


y usando un muestreo estratificado en la muestra de la primera
fase.

Asumiendo muestreo bifasico


bajo cualquier metodo
de unidades en cada una de las dos fade extraccion
y exses, se han propuesto estimadores de tipo razon
ponencial. Se ha demostrado la insesgadez de estos estimadores y se han proporcionado expresiones para sus
varianzas. Estos resultados nos han servido para poder

obtener un estimador optimo


en el estimador de tipo exponencial. Bajo distintos esquemas de muestreo y varios
se ha comprobado que los estiestudios de simulacion,

madores propuestos pueden obtener estimaciones mas


precisas que el resto de estimadores existentes en la literatura.

Los estimadores propuestos en muestreo bifasico,


cuando se usa un muestreo estratificado en la primera
basados en un estimador eficiente para
fase, estan
de distribucion.

la funcion
Se han establecido varias
de dispropiedades para este estimador de la funcion
por lo que el estimador propuesto para cuantribucion,

tiles posee mejores propiedades. Los resultados teoricos


y empricos que se han llevado a cabo han demostrado
que el estimador propuesto puede proporcionar resulta
dos optimos
en este esquema de muestreo.

El muestreo en ocasiones sucesivas es una tecnica


muy conocida que puede usarse en encuestas continuas

para estimar parametros


poblacionales y medidas de dife Las encuestas
rencia o cambio de una variable de interes.

de tipo economico
o social llevadas a cabo por la agencias nacionales y otros organismos estadsticos usan este
muestral, y la estimacion
de cuantiles es un prodiseno
blema comun
en la mayora de estos estudios. Dentro
del muestreo en dos ocasiones sucesivas se han planteado estimadores desde dos perspectivas bastantes usadas
dentro del muestreo en poblaciones finitas: asumiendo

multiples
variables auxiliares y bajo disenos
muestrales

probabilsticos con probabilidades desiguales.


Asumiendo multiples
variables auxiliares y muestreo

aleatorio simple en cada una de las dos ocasiones, se ha


propuesto una clase de estimadores para cuantiles basa multivariante y consdos en un estimador de tipo razon
obtenida en la parte solatruido a partir de la informacion
pada. Bajo la clase propuesta se ha obtenido la expre del estimador optimo

sion
en el sentido de mnima va
rianza asintotica.
El estimador propuesto posee un buen
numero
de propiedades deseables, tal como normalidad

asintotica,
disponibilidad de la varianza del estimador,

etc. En los estudios emprisimplicidad de computacion,

cos y teoricos
que se han llevado a cabo, el estimador se
preciso que otros estimadores conocidos.
muestra mas
muestrales con proPor otro lado, asumiendo disenos
se ha propuesto
babilidades desiguales en cada ocasion

un estimador compuesto por un estimador de tipo razon


solapada por ambas muestras) y otro de
(en la porcion

tipo Hajek
(en la parte no solapada de la muestra mas
de computar y
reciente). El estimador propuesto es facil
se ha mostrado bastante preciso en los estudios de si Asumiendo muestreo aleatorio simple en cada
mulacion.
una de las dos ocasiones, se ha obtenido la normalidad

asintotica
del estimador, la cual nos sirve, por ejemplo,
para construir intervalos de confianza para los cuantiles.
Por ultimo,
se han propuesto estimadores para cuan
tiles desde una perspectiva modelo-asistida y consideran
de
do el metodo
de verosimilitud emprica. La aplicacion
de algunas medidas de
estos estimadores a la estimacion
ha sido analizada. Se ha propuesto usar
pobreza tambien

de la varianza de
la tecnica
bootstrap para la estimacion
de todos estos
los estimadores propuestos. La precision
procedimientos nuevos ha sido confirmada en estudios de
y para el problema de la estimacion
de cuansimulacion
tiles y medidas de pobreza usadas por numerosos organismos de estadstica internacionales y de varios pases.

74

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

5. Bibliografa

[1] Adhvaryu, D. (1978) Successive sampling using


multi-auxiliary information. Sankhya 40, 167-173.
[2] Aitchison, J. y Silvey, S.D. (1958) Maximumlikelihood estimation of parameter subject to restraints. Annals of Mathematical Statistics 29, 813888.
[3] Allen, J., Singh, H.P., Singh, S. y Smarandache,
F. (2002) A general class of estimators of population median using two auxiliary variables in double
sampling. INTERSTAT.
[4] Arcos, A., Rueda, M. y Martnez-Miranda, M.D.
(2005) Using multiparametric auxiliary information
at the estimation stage. Statistical Papers 46, 339
358.
[5]

Arcos, A., Rueda, M. y Munoz,


J.F.(2006) An
improved class of estimators of a finite population
quantile in sample surveys. Applied Mathematics
Letters. En prensa.

[6] Arnab, R. y Okafor, F.C. (1992) A note on double


sampling over two occasions. Pakistan Journal of
Statistics 8, 9-18.
Rodrguez, E.M. y Garca Luengo A.V.
[7] Artes

(2002) Disenos
muestrales en el tiempo. Monografas, Universidad de Almera.
[8] Bahadur, R.R (1966) A note on quantiles in large
samples. Annals of Mathematical Statistics 37, 577580.
[9] Basu, D. (1971) Foundations of statistical inference.
A Symposium, eds. V.P. Godambe and D. A. Sprott,
Toronto: Holt Rinehart and Winston.
[10] Berger, Y.G. (2004) Variance estimation for measures of change in probability sampling. The Canadian Journal of Statistics 32, 451-467.
[11]

Berger, Y.G., Munoz,


J.F. y Rancourt, E. (2006)
Variance estimation of regression estimators when
control total are estimated: an application to the
composite estimator. Survey Methodology. Aceptado bajo revision.

[12] Berger, Y.G. y Skinner, C.J. (2003) Variance estimation for a low income proportion. Journal of the
Royal Statistical Society, Series C 52, 457-468.
[13] Bickel, P.J. y Freedman, D.A. (1984) Asymptotic
normality and the bootstrap in stratified sampling.
The Annals of Statistics 12, 470-482.
1 Bibliografa

correspondiente al doctorando.
1 Bibliografa correspondiente al doctorando.

[14] Binder, D.A. y Kova


cevic (1995) Estimating some
measures of income inequality from survey data:
an application of the estimating equation approach.
Survey Methodology 21, 137-145.
[15] Blackburn, M. (1990) Trends in poverty in the United States, 1967-84. Review of Income and Wealth
36, 53-66.
[16] Blackburn, M. (1994) International comparisons of
poverty. American Economic Review 84, 371-374.
[17] Brewer, K.R.W. (1999) Cosmetic calibration with
unequal probability sampling. Survey Methodology
25, 205-212.
[18] Brewer, K.R.W., Early, L.J. y Joyce, S.F. (1972)
Selecting several samples from a single population.
Australian Journal of Statistics 14, 231-239.

[19] Casell, C.M., Sarndal,


C.E. y Wretman, J.H.
(1976) Some results on generalized difference estimation and generalized regression estimation for
finite populations. Biometrika 63, 615-620.

[20] Casell, C.M., Sarndal,


C.E. y Wretman, J.H.
(1977) Foundations of Inference in Survey Sampling. New York: Wiley.
[21] Chambers, R.L., Dorfman, A.H. y Hall, P. (1992)
Properties of estimator of the finite population distribution function. Biometrika 79, 577-582.
[22] Chambers, R.L., Dorfman, A.H. y Wehrly, T.E.
(1993) Bias robust estimation in finite population using nonparametric calibration. Journal of the American Statistical Association 88, 268-277.
[23] Chambers, R.L. y Dunstan, R. (1986) Estimating
distribution functions from survey data. Biometrika
73, 597-604.
[24] Chaudhuri, A. y Vos, J.W.E. (1988) Unified theory and strategies of survey sampling. North-Holland,
Amsterdam.
[25] Chen, H. y Chen, J. (2000) Bahadur representations of the empirical likelihood quantile processes.
Journal of Nonparametric Statistics 12, 645-660.
[26] Chen, J. y Qin, J. (1993) Empirical likelihood estimation for finite populations and the effective usage
of auxiliary information. Biometrika 80, 107-116.
[27] Chen, J., Rao, J.N.K. y Sitter, R.R. (2000) Efficient
random imputation for missing data in complex surveys. Statistica Sinica 10, 1153-1169.
[28] Chen, J. y Sitter, R.R. (1999) A pseudo empirical
likelihood approach to the effective use of auxiliary
information in complex surveys. Statistica Sinica 9,
385-406.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

75

[29] Chen, J., Sitter, R.R. y Wu, C. (2002) Using empirical likelihood methods to obtain range restricted weights in regression estimators for surveys.
Biometrika 89, 230-237.
[30] Chen, J. y Wu, C. (2002) Estimation of distribution
function and quantiles using the model-calibrated
pseudo empirical likelihood method. Statistica Sinica 12, 1223-1239.

[47] Godambe, V.P. y Thompson, M.E. (1973) Estimation in sampling theory with exchangeable prior distributions. The Annals of Statistics 1, 1212-1221.

[31] Cochran, W.G. (1977) Sampling Techniques. 3rd


ed. New York: Wiley

[48] Godambe, V.P. y Thompson, M.E. (1986) Parameters of superpopulation and survey population: Their
relationships and estimation. International Statistical Review 54, 127-138.

[32] Cramer, H. (1946) Mathematical methods of statistics. Princenton University Press. Princeton.

[49] Gordon, L. (1983) Successive sampling in finite


populations. The Annals of Statistics 11, 702-706.

[33] Dalgleish, L. I. (1995) Software review: Bootstrapping and jackknifing with BOJA. Statistics and Computing 5, 165-174.

[50] Gross, S.T. (1980) Median estimation in sample


survey. Proc. Surv. Res. Meth. Sect. Amer. Statist.
Ass. 181-184.

[34] Deng, L.Y. y Wu, C.F.J. (1987) Estimation of variance of the regression estimator. Journal of the
American Statistical Association 82, 568-576.

[51] Hajek,
J. (1964) Asymptotic theory of rejective sampling with varying probabilities from a finite population. Annals of Mathematical Statistics 35, 14911523.

[35] Deville, J.C. (1999) Variance estimation for complex statistics and estimators: linearization and
residual techniques. Survey Methodology 25, 193203.

[36] Deville, J.C. y Sarndal,


C.E. (1992) Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376-382.
[37] Dickens, R. y Manning, A. (2004) Has the national
minimum wage reduced UK wage inequality?. Journal of the Royal Statistical Society, Series A 167,
613-626.
[38] Dorfman, A.H. (1993). A comparison of designbased and model-based estimators of the finite population distribution function. The Australian Journal
of Statistics 35, 29-41.
[39] Dorfman, A.H. y Hall, P. (1993) Estimators of the
finite population distribution function using nonparametric regression. The Annals of Statistics 21 (3),
1452-1475.
[40] Eckler, A.R. (1955) Rotation Sampling. The Annals
of Mathematical Statistics 26 664-685.
[41] Efron, B. y Tibshirani, R.J. (1993) An introduction
to the Bootstrap. Chapman & Hall, London.
[42] Eurostat. (2000) Low-wage employees in EU countries. Statistics in Focus: Population and Social Conditions. Theme 3 11/2000. Office for Official Publications of the EC, Luxemburgo.

[43] Fernandez
Garca, F.R. y Mayor Gallego, J.A.
(1994) Muestreo en Poblaciones Finitas: Curso

Basico.
P.P.U., Barcelona.

[44] Fernandez
Sanchez,
M.P., Hernandez
Bastida, A.

y Sanchez
Gonzalez,
C. (2004) Analisis
de los
ingresos y gastos trimestrales de los hogares es
panoles
usando verosimilitud emprica. Estudios de
Economa Aplicada 22, 139-150.
[45] Francisco, C.A. y Fuller, W.A. (1991) Quantiles estimation with a complex survey design. The Annals
of Statistics 19, 454-469.

76

[46] Godambe, V.P. (1955) A unified theory of sampling


from finite populations. Journal of the Royal Statistical Society, Series B 17, 269-278.

[52] Hall, P. (1990) Pseudo-likelihood theory for empirical likelihood. The Annals of Statistics 18, 121-140.
[53] Hall, P. y La Scala, B. (1990) Methodology and algorithms of empirical likelihood. International Statistical Review 58, 109-127.
[54] Hansen, M.H. y Hurwitz, W.N. (1943) On the theory
of sampling from finite populations. Annals of Mathematical Statistics 14, 333-362.
[55] Hanurav, T.V. (1966) Some aspects of unified sampling theory. Sankhya, Series A 28, 175-204.
[56] Hartley, H.O. y Rao, J.N.K. (1968) A new estimation theory for sample surveys. Biometrika 55, 547557.
[57] Hedayat, A.S. y Sinha, B.K. (1991) Design and Inference in Finite Population Sampling. John Wiley
and Sons.
[58] Hill, B.M. (1968) Posterior distribution of percentiles: Bayes theorem for sampling from a population. Journal of the American Statistical Association
63, 677-691.
[59] Horvitz, D.G. y Thompson, D.J. (1952) A generalization of sampling without replacement from a finite
universe. Journal of the American Statistical Association 47, 663-685.
[60] Huang, E.T. y Fuller,W.A. (1978) Nonnegative regression estimation for sample survey data. In Proc.
Social Statistics Sec., Am. Statist. Assoc., 300-305
Washington, D.C: American Statistical Association.
[61] Instituo Nacional de Estadstica. (1992) Encuesta
Continua de Presupuestos Familiares. Metodologa.
Instituto Nacional de Estadstica. Madrid.
[62] Isaki, C.T. y Fuller, W.A. (1982) Survey design under the regression superpopulation model. Journal
of the American Statistical Association 77, 89-96.
[63] Jagers, P. (1986) Post-stratification against bias in
sampling. International Statistical Review 54, 159167.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

[64] Jessen, R.J. (1942) Statistical investigation of a


sample survey for obtaining farm facts. Iowa Agricultural Experiment Statistical Research Bulletin, 304.
[65] Jonhson, P. y Webb, S. (1992) Official statistics on
poverty in the United Kingdom. Poverty measurement for economies in transition in eastern european countries. Polish Statistical Association and
Polish Central Statistica Office, Warsaw. Journal of
Economics Perspectives 15, 143-156.

[79] Lombarda, M. J., Gonzalez-Manteiga


W., y

Prada-Sanchez,
J.M. (2004) Bootstrapping the
Dorfman-Hall-Chambers-Dunstan estimator of a finite population distribution function. Journal of Nonparametric Statistics 16, 63-90.
[80] Lucifora, C. y Salverda, W. (1998) Policies for low
wage employment and social exclusion. Ed. FrancoAngeli.

[66] Koenker, R. y Hallock, K.F. (2001) Quantile regression. Journal of Economics Perspectives 15, 143156.

[81] Mak, T.K. y Kuk, A.Y.C. (1993) A new method for


estimating finitepopulation quantiles using auxiliary information. The Canadian Journal of Statistics
25, 29-38.

[67] Kova
cevik, M.S. y Binder, D. A. (1997) Variance
estimation for measures of income inequality and
polarization - The estimating equations approach.
Journal of Official Statistics 13, 41-58.

[82] Martnez-Miranda, M.D., Rueda, M., Arcos, A.,

Roman,
Y. y Gonzalez,
S. (2005) Quantile estimation under successive sampling. Computational
Statistics 20, 385-399.

[68] Kova
cevik, M.S. y Yung, W. (1997) Variance estimation for measures of income inequality and polarization - an empirical study. Survey Methodology
23, 41-52.

[83] Midzuno, H. (1952) On the sampling system with


probability proportional to sum of sizes. Annals of
Institute of Statistical Mathematics 3, 99-107.

[69] Kova
cevik, M.S., Yung, W. y Pandher (1995) Estimating the sampling variances of measures of
income inequality and polarization - an empirical
study. Statistic Canada, Methodology Branch Working Paper, HSMD-95-007E.
[70] Kovar, J.G., Rao, J.N.K. y Wu, C.F.J. (1988) Bootstrap and other methods to measure errors in survey estimates. The Canadian Journal of Statistics
16, 25-45.
[71] Kuk, A.Y.C. (1993) A kernel method for estimating
finite population distribution functions using auxiliary
information. Biometrika 80, 385-392.
[72] Kuk, A.Y.C. y Mak, T.K. (1989) Median estimation
in the presence of auxiliary information. Journal of
the Royal Statistical Society, Series B 51, 261-269.
[73] Kuk, A.Y.C. y Mak, T.K. (1994) A functional approach to estimating finite population distribution
functions. Theory Meth. 23 (3), 883-896.
[74] Kuo, L. (1988) Classical and Prediction Approaches to Estimating Distribution Functions from Survey Data. Proceeding of the Section on Survey Researh Methods. American Statistical Association,
280-285.
[75] Lahiri, D.B. (1951) A method of sample selection
providing unbiased ratio estimates. Bulletin of the
International Statistical Institute 33, 133-140.
[76] Leung, D.H.Y. y Qin, J. (2006) Analysing survey
data with incomplete responses by using a method
based on empirical likelihood. Journal of the Royal
Statistical Society, Series C 55, 379-396.
[77] Little, R.J.A. y Rubin, D.B. (1987) Statistical analysis with missing data. John Wiley, New York.

[78] Lombarda, M. J., Gonzalez-Manteiga,


W. y

Prada-Sanchez,
J.M. (2003) Bootstrapping the
Chambers-Dunstan estimate of a finite population
distribution function. Journal of Statistical Planning
and Inference 116, 367-388.

[84] Molina, C.E.A. y Skinner, C.J. (1992) Pseudolikelihood and Quasi-likelihood estimation for complex sampling schemes. Computational Statistics
and Data Analysis 13, 395-405.
[85] Mukhopadhyay, P. (2000) Topics in Survey Sampling Springer.
[86] Murthy, M.N. (1967) Sampling theory and method.
Calcutta: Statistical Publishing Society.
[87] Narain, R.D. (1953) On the recurrence formula in
sampling on successive occasions. Journal of the
Indian Society of Agricultural Statistics 5, 96-99.
[88] OECD (1982) The OECD list of social indicators,
Paris.
[89] OECD (1997) Labour market policies: new challenges policies for low-paid workers and unskilled
job seekers. OECD Working Papers. vol 5, no 86 .
[90] Ogus, J.K. y Clark, D.F. (1971) The annual survey
of manufacturers: A report on methodology. Technical Report No. 2, U.S. Bureau of Census, Washington D.C.
[91] Olkin, I. (1958) Multivariate ratio estimation for finite
population. Biometrika 45, 154-165.
[92] Owen, A.B. (1988) Empirical likelihood ratio confidence intervals for a single functional. Biometrika
75, 237-249.
[93] Owen, A.B. (1990) Empirical likelihood confidence
regions. The Annals of Statistics 18, 90-120.
[94] Owen, A.B. (1991) Empirical likelihood for linear
models. The Annals of Statistics 19, 1725-1747.
[95] Owen, A.B. (2001) Empirical likelihood. Chapman y
Hall/CRC.
[96] Patterson, H.D. (1950) Sampling on successive occasions with partial replacement of units. Journal of
the Royal Statistical Society, Series B 12, 241-255.

[97] Perez,
R.A. (2002) Que es un modelo de super
poblacion?.
Metodologa de Encuestas 4 (1), 79-86.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

77

[98] Polyak, B.T. (1987) Introduction to Optimization.


New York: Optimization Software, Inc. Publications
Division.

[115] Rueda, M., Arcos, A. y Martnez-Miranda, M.D.


(2003) Difference estimators of quantiles in finite
populations. Test 12, 481-496.

[99] Prasad, N.G.N. y Thach, T. (2001) Variance estimation under two-phase sampling. Working paper,
Department of Mathematical Sciences, University of
Alberta.

[116] Rueda, M., Arcos, A., Martnez-Miranda, M.D. y


Y. (2004) Some improved estimators of fiRoman,
nite population quantile using auxiliary information
in sample surveys. Computational Statistics and Data Analysis 45, 825-848.

[100] Preston, I. (1995) Sampling distributions of relative


poverty statistics. Journal of the Royal Statistical Society, Series C 44, 91-99.
[101] Qin, J. y Lawless, J.F. (1994) Empirical likelihood
and general estimating equations. The Annals of
Statistics 22, 300-325.
[102] Qin, J. y Lawless, J.F. (1995) Estimating equations,
empirical likelihood and constraints on parameters.
The Canadian Journal of Statistics 23, 145.
[103] Randles, R.H. (1982) On the asymptotic normality
of statistics with estimated parameters. The Annals
of Statistics 10, 462-474.
[104] Rao, J.N.K. (1966) Alternative estimators in PPS
sampling for multiple characteristics. Sankhya Series A 28, 47-60.
[105] Rao, J.N.K. (1994) Estimating totals and distribution
functions using auxiliary information at the estimation stage. Journal of Official Statistics 10, 153-165.
[106] Rao, J.N.K., Kovar, J.G. y Mantel, H.J. (1990) On
estimating distribution functions and quantiles from
survey data using auxiliary information. Biometrika
77, 365-375.
[107] Rao, C.R. y Toutenburg, H. (1995) Linear Models: Least Squares and Alternatives. Springer, New
York.
[108] Royall, R.M. y Cumberland, W.G. (1981) An empirical study of the ratio estimator and estimator of
its variance. Journal of the American Statistical Association 76, 66-88.

[117]

[111] Rueda, M. y Arcos, A. (2002a) The use of quantiles


of auxiliary variables to estimate medians. Biometrical Journal 44 (5), 619-632.
por in[112] Rueda, M. y Arcos, A. (2002b). Estimacion
y
tervalos de la mediana con estimadores de razon
diferencia. Estudios de Economa Aplicada 20, 241260.
E. (1997) Improve[113] Rueda, M., Arcos, A. y Artes,
ment on Estimating Quantiles in Finite Population
Using Indirect Methods of Estimation. Lecture Notes
in Computer Science 1280, 491-500.
E. (1998) Quantile
[114] Rueda, M., Arcos, A. y Artes,
Interval Estimation in Finite Population using a Multivariate Ratio Estimator. Metrika 47, 203-213.

Rueda, M., Arcos, A., Munoz,


J.F. y Singh,
S.(2006) Quantile estimation in two-phase sampling. Computational Statistics and Data Analysis.
En prensa.

[118] Rueda, M. y Gonzalez,


S. (2004) Missing data
and auxiliary information in surveys. Computational Statistic 19, 551-567.
[119] Rueda, M., Martnez-Miranda, M.D., Arcos, A.
(2006) Bootstrap confidence intervals for finite population quantiles in the presence of auxilairy information. Model Assisted Statistic and Aplications En
prensa.
1

[120]

del

Rueda, M. y Munoz,
J.F. (2005) Una revision

metodo
de verosimilitud emprica en las encuestas
Operacional 26, 225por muestreo. Investigacion
237.

[121]

Rueda, M. y Munoz,
J.F.(2006a) A modelassisted estimator for the distribution function using
the pseudo empirical likelihood method. Statistics

and Computing. En revision

[122]

Rueda, M. y Munoz,
J.F. (2006b) Estimating
quantiles under sampling in two occasions with
unequal probabilities. Computational Statistics and

Data Analysis. Aceptado bajo revision.

[123]

[124]

Rueda, M. y Munoz,
J.F. (2006d) Model-assisted
estimation of quantiles using empirical likelihood.
Applications to different poverty measures. Journal
of the Royal Statistical Society, Series C. En re
vision.

[125]

Rueda, M., Munoz,


J.F., y Arcos, A. (2006) Estimating quantiles under sampling on two occasions
with P auxiliary variables. Quality and Quantity. En
prensa.

[126]

Rueda, M., Munoz,


J.F., Berger, Y.G., Arcos, A.
y Martnez, S. (2006) Pseudo empirical likelihood
method in the presence of missing data. Metrika. En
prensa.

[109] Rubin, D.B. (1987) Multiple imputation for nonresponse in sample surveys. Wiley, New York.
[110] Rueda, M. y Arcos, A. (2001) On estimating the
median from survey data using multiple auxiliary information. Metrika 4, 161-173.

Rueda, M. y Munoz,
J.F. (2006c) Estimating
quantiles under twophase sampling for stratifica
tion. Statistics and Probability Letters. En revision.

[127] Ruspini, E. (1999) Longitudinal research and the


analysis of social change. Quality and Quantity 33,
219-227.
a los

[128] Sanchez-Crespo,
G. (2002) Introduccion

modelos de superpoblacion
en las tecnicas
de muestreo con probabilidades desiguales.
Metodologa de Encuestas 4 (1), 87-104.
1 Bibliografa
1 Bibliografa

correspondiente al doctorando.
correspondiente al doctorando.

78

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


[129] Sarndal,
C.E. (1980) On -inverse weighting versus best linear weighting in probability sampling.
Biometrika 67, 639-650.

[130] Sarndal,
C.E. (1990) Methods for estimating the
precision of survey estimates when imputation has
been used. Proceedings of Symposium 1990: Measurement and improvement of data quality, Ottawa,
337-347.

[131] Sarndal,
C.E. (1992) Methods for estimating the
precision of survey estimates when imputation has
been used. Survey Methodology 18, 241-252.

[132] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1989) The weighted technique for estimating the
variance of the general regression estimator of the
finite population total. Biometrika 76, 527-537.

[133] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1992) Model Assisted Survey Sampling. SpringerVerlag, New York
[134] Sedransk, J. y Meyer, J. (1978) Confidence Intervals for the quantiles of a finite populations: simple random and stratified simple random sampling.
Journal of the Royal Statistical Society, Series B 40,
No2, 239-252.
[135] Sedransk, J. y Smith, P.J. (1988) Inference for finite population quantiles. In: Krishnaiah, P.R. and
Rao, C. R. (eds.) Handbook of Statistics 6, Cap11,
267-289. North-Holland.
[136] Sen, A.R. (1972) Successive sampling with p (p
1) auxiliary variables. The Annals of Mathematical
Statistics 43 (6), 2031-2034.
[137] Sen, A.R. (1973) Some theory of sampling on successive occasions. The Australian Journal of Statistics 15 (2), 105-110.
[138] Sen, A. R., Sellers, S. y Smith, G.E.J. (1975) The
use of a ratio estimate in successive sampling. Biometrics 31, 673-683.
[139] Shao, J. (1994) L-statistics in complex survey problems. The Annals of Statistics 22, 946-967.

[146] Silverman, B.W. (1986) Density estimation for


statistics and data analysis. Chapman and Hall.
[147] Singh, S. (2003) Advanced sampling theory with
applications: How Michael Selected Amy., Kluwer
Academic Publishers, The Netherlands.
[148] Singh, S., Joarder, A.H. y Tracy, D.S. (2001) Median estimation using double sampling. Australian and
New Zealand Journal of Statistics 43, 33-46.
[149] Singh, H.P., Singh, H.P. y Singh, V.P. (1992) A
generalized efficient class of estimators of population mean in two phase and successive sampling.
Inter. J. Mgmt. Syst. 8 (2), 173-183.
[150] Singh, S. y Srivastrava, A.K. (1973) Use of auxiliary information in two stage successive sampling.
Journal of Indian Society of Agricultural Statistic 25,
101-104.
[151] Sitter, R.R y Wu, C. (2002) Efficient estimation of
quadratic finite population functions in the presence
of auxiliary information. Journal of the American
Statistical Association 97, 535-543.
[152] Smeeding, T.M. (1991) Cross-national comparisons of inequality and poverty position. In: Osberg,
L. (Ed.), Economic Inequality and Poverty: International Perspectives, M.E. Sharpe, Inc., Armonk.
[153] Solga, H. (2001) Longitudinal surveys and the study
of occupational mobility: Panel and retrospective design in comparison. Quality and Quantity 35, 291309.
[154] Swamy, P.A.V.B., Tavlas, G.S. y Chang, I.L. (2005)
How stable are monetary police rules: estimating
the time-varying coefficient in monetary policy reaction function for the U.S. Computational Statistics
and Data Analysis 49, 575-590.

[155] Theberge,
A. (1999) Extensions of calibration estimators in survey sampling. Journal of the American
Statistical Association 94, 635-644.

[140] Shao, J. y Chen, Y. (1998) Bootstrapping sample


quantiles based on complex survery data under hot
deck imputation. Statistica Sinica 8, 1071-1085.

[156] Toutenburg, H. y Srivastava, V.K. (1998) Estimation of ratio of population means in survey sampling
when some observations are missing. Metrika 48,
177-187.

[141] Shao, J. y Rao, J.N.K. (1993) Standard errors for


low income proportions estimated from stratified
multi-stage samples. Sankhya Series B 55, 393414.

[157] Toutenburg, H. y Srivastava, V.K. (1999) Amputation versus imputation of missing values through
ratio method in sample surveys. Unpublished document.

[142] Shao, J. y Tu, D. (1995) The Jackknife and Bootstrap. Springer-Verlag, New York.

[158] Toutenburg, H. y Srivastava, V.K. (2000) Efficient


estimation of population mean using incomplete survey data on study and auxiliary characteristic. Unpublished document.

[143] Shao, J. y Wu, C.F.J. (1989) A general theory for


jackknife variance estimation. The Annals of Statistics 17, 1176-1197.
[144] Shao, J. y Wu, C.F.J. (1992) Asymptotic properties of the balanced repeated replication method for
sample quantiles. The Annals of Statistics 20, 15711593.
[145] Silva, P.L.D. y Skinner, C.J. (1995) Estimating distribution functions with auxiliary information using
poststratification. Journal of Official Statistics 11 (3),
277-294.

[159] Tracy, D.S. y Osahan, S.S. (1994) Random nonresponse on study variable versus on study as well as
auxiliary variables. Statistica 54, 163-168.
[160] Valliant, R., Dorfman, A.H. y Royall, R.M. (2000)
Finite population sampling and inference: A prediction approach. Wiley Series in Probability and
Statistics, Survey Methodology Section. New York.
John Wiley and Sons, Inc.

7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

79

[161] Wang, S. y Dorfman, A.H. (1996) A new estimator for the finite population distribution function.
Biometrika 83, 639-652.

[170] Wu, C. (2005) Algorithms and R Codes for the


Pseudo Empirical Likelihood Method in Survey
Sampling. Survey Methodology, 31, 239-243.

[162] Wolfson, M. y Evans, J.M. (1989) Statistics Canadas low income cut-offs: metodological concerns
and possibilities - a discussion paper. Research Paper Series, Statistical Canada, Ottawa. distribution
function. Biometrika 83, 639-652.

[171] Wu, C. y Luan, Y . (2003) Optimal calibration estimators under two-phase sampling. Journal of Official Statistics 19, 119-131.

[163] Wolter, K.M. (1985) Introduction to Variance Estimation. Springer-Verlag.

[172] Wu, C. y Sitter, R.R. (2001) A model-calibration approach to using complete auxiliary information from
survey data. Journal of the American Statistical Association 96, 185-193.

[164] Woodruff, R.S. (1952) Confidence intervals for medians and other position measures. Journal of the
American Statistical Association 47, 635-646.

[173] Zheng, B. (2001) Statistical inference for poverty measures with relative poverty lines. Journal of
Econometrics 101, 337-356.

[165] Wu, C. (2002) Empirical likelihood method for finite


populations. Recent Advances in Statistical Methods, Y.P. Chaubey, Ed., Imperial College Press, London, 339-351.

[174] Zhong, C.X.B., Chen, J. y Rao, J.N.K. (2000) Empirical likelihood inference in the presence of measurement error. The Canadian Journal of Statistics
28, 841.

[166] Wu, C. (2003) Optimal calibration estimators in survey sampling. Biometrika 90, 937-951.

[175] Zhong, C.X.B. y Rao, J.N.K. (1996) Empirical likelihood inference for finite populations with auxiliary
information using stratified random sampling. Proceeding of the Section on Survey Research Methods, Am. Statist. Assoc., 793-803. Washington, DC:
American Statistical Association.

[167] Wu, C. (2004a) Weighted empirical likelihood inference. Statistics and Probability Letters 66/1, 67-79.
[168] Wu, C. (2004b) Some algorithmic aspects of the
empirical likelihood method in survey sampling. Statistica Sinica 14, 1057-1067.
[169] Wu, C. (2004c) Combining information from multiple
surveys through empirical likelihood method. The
Canadian Journal of Statistics 32, 15-26.

80

[176] Zhong, C.X.B. y Rao, J.N.K. (2000) Empirical likelihood inference under stratified random sampling using auxiliary information. Biometrika 87, 929-938.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

A. Descripcin de poblaciones finitas

En este apendice
se detallan las distintas poblaciones
que han sido usadas en este trabajo con objeto de estudiar el comportamiento de los estimadores propuestos y
con respecto a otros estimadores existentes
su precision
en las literatura. Notamos que las poblaciones basadas en
datos reales han sido utilizadas por otros autores en dife siendo estas poblaciones
rentes estudios de simulacion,
apropiadas para el estudio del comportamiento de estimadores en muestreo de poblaciones finitas. Las poblaciones que han sido simuladas siguen los modelos propuestos por otros autores, o bien, se han simulado de
de muestras
manera que pueda ser posible la extraccion

complejos que han sido


en los disenos
muestrales mas
tratados en este trabajo. De esta forma, se dispone de
de
una estructura de datos apropiada para la obtencion
tanto los estimadores propuestos como del resto de estimadores existentes en la literatura.

A.1.

Poblaciones naturales

A.1.1.

Fam1500

ftp://ftp.wiley.com/public/sci tech med/finite populations

Ademas,
un breve resumen descriptivo de estas
poblaciones puede consultarse en las Tablas A.2 y A.3.
entre
La Figura B.32 nos da los diagramas de dispersion
las distintas variables de estas poblaciones. Puede obser livarse que estas poblaciones exhiben una mejor relacion
Fam1500, lo que
neal entre las variables que la poblacion
nos ha permitido comprobar en los distintos estudios el
en funcion
de una mayor
grado de ganancia en precision
lineal entre la variable principal y las auo menor relacion
xiliares.

A.1.3.

consta de N = 1500 familias de AnEsta poblacion

daluca y fue usada por primera vez por Fernandez


y Mayor (1994). Numerosos estudios posteriores (por ejemplo,

Rueda et al., 2006a, 2006b, Rueda y Gonzalez,


2004,
en sus estudios de sietc.) han usado esta poblacion
La caracterstica de interes,
y, son los gastos
mulacion.
mientras que las variables auxiliares x1
de alimentacion,
y x2 son, respectivamente, los ingresos familiares y otros
adigastos. En la Tabla A.1 puede consultarse informacion
Fam1500, miencional sobre las variables de la poblacion
tras que la Figura B.31 muestra los diagramas de disper correspondientes a dichas variables.
sion

A.1.2.

304 ciudades de Carolina del Norte, Carolina del Sur y


1970,
Georgia con menos de 100000 hogares en el ano
excluyendo los barrios de grupos de residentes y por las
variables auxiliares x1 y x2 , que coinciden con las varia anterior.
bles x e y, respectivamente, de la poblacion
pueden descargarse de:
Los datos de esta poblacion

Hospitals

es una muestra nacional de hospitales


Esta poblacion
fue consideraen Estados Unidos. Esta muestra tambien
en los estudios llevados a cabo
da como una poblacion
por Royall y Cumberland (1981) y Valliant et al. (2000). El
poblacional es de N = 393 hospitales de corta estamano

tancia con menos de 1000 camas, la variable de interes,


y, es el numero
de pacientes dados de alta, mientras que

la variable auxiliar es el numero


de camas que dispone el

hospital.
El resumen descriptivo de las variables de esta
puede consultarse en la Tabla A.4. El diagrama
poblacion
dado por la Figura B.33 nos permite prode dispersion
fundizar en la estructura que presentan los datos de las
Hospitals.
variables de la poblacion

Counties

Las poblaciones Counties60 y Counties70 son poblaciones habitualmente usadas en muestreo de poblaciones
finitas. Fueron usadas por primera vez en Royall y Cumberland (1981). Posteriormente, se ha usado en numerosos trabajos, como por ejemplo en Valliant et al.
Counties60 consta de N = 304 ciu(2000). La poblacion
dades de Carolina del Norte, Carolina del Sur y Georgia
1960. La vacon menos de 100000 hogares en el ano
de cada ciudad, excluyendo los
riable y es la poblacion
barrios de grupos de residentes. Como variable auxiliar,
x, se tiene el numero
de hogares en 1960.

Counties70 esta formada


Por otro lado, la poblacion
y que denota la poblacion
de
por la variable de interes

7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

81


Fam1500
Tabla A.1: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2

Min
5045
30052
2116

Q1
7358
36660
3515

Me
8136
40200
4001

Media
8181.94
40283.96
4044.40

Q3
8941
43700
4538

Max
11795
55379
6990

Cv
0.14
0.12
0.19

yx
0.848
0.546

Counties60
Tabla A.2: Analisis
descriptivo para las variables de la poblacion
V.
y
x

Min
1876
482

Q1
9787
2502

Me
18330
4886

Media
32916
8931

Q3
38690
10410

Max
266623
76887

Cv
1.24
1.30

yx
0.998

Counties70
Tabla A.3: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2

Min
1924
482
1876

Q1
9613
2502
9787

Me
19080
4886
18330

Media
36984
8931
32916

Q3
42560
10410
38690

Max
409644
76887
266623

Cv
1.38
1.30
1.24

yx
0.982
0.982

Hospitals
Tabla A.4: Analisis
descriptivo para las variables de la poblacion
V.
y
x

82

Min
14
1

Q1
311
102

Me
713
233

Media
814.65
274.70

Q3
1186
393

Max
2844
986

Cv
0.72
0.78

yx
0.911

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

A.1.4.

Murthy

Murthy es apropiada para observar el


La poblacion
de un modelo de superefecto de una mala especificacion
en los estimadores, y poder proporcionar, por
poblacion
de la robustez de tales estimadores.
tanto, una indicacion
consta de 80 fabricas

Esta poblacion
donde la variable de
y, es la produccion,
y como variable auxiliar, x, se
interes,

ha considerado el numero
de trabajadores. Esta poblacion

se uso previamente en Murthy (1967), Kuk y Mak (1989) y


Kuk y Mak (1994).
En la Figura B.34 puede comprobarse que una

hipotesis
de linealidad no sera valida
para las variables de
Un estudio mas
exhaustivo sobre las caesta poblacion.
Murthy puede
ractersticas de las variables de la poblacion
obtenerse a partir de la Tabla A.5.

A.1.5.

Turismos

se ha obtenido a partir del numero


Esta poblacion
de

2002 y 2003 por el Instituto


turismos recogidos en los anos
de Estadstica de Andaluca en los distintos municipios de

Andaluca. Estos datos pueden descargarse en la pagina


web del Instituto de Estadstica de Andaluca:

El correspondiente analisis
descriptivo de las variables
esta dado por la Tabla A.7. Observamos
de esta poblacion
lineal entre
que en este caso no existe una fuerte relacion
la variable principal y la auxiliar. Este hecho es frecuente
entre datos correspondientes a variables tales como ingresos o gastos, donde la alta presencia de valores extremos
de algunas medihabitualmente dificulta la interpretacion
das como la media.

En cualquier caso, el objetivo al usar esta poblacion


es comprobar el comportamiento real de distintos estimadores en situaciones donde no pueda aceptarse una
lineal entre las variables. En la Figura B.36
fuerte relacion

se muestra el correspondiente diagrama de dispersion.

A.2.

Poblaciones simuladas

A.2.1.

Pop06, Pop07, Pop08 y Pop09

Paralelamente a Wu y Sitter (2001), se han generado cuatro poblaciones de N = 2000 unidades median
te muestras independientes e identicamente
distribuidas
mediante el modelo
y = 0 + 1 x + ,

http:\\www.juntadeandalucia.es\institutodeestadistica
Turismos esta formada por el
Por tanto, La poblacion
numero
de turismos en N = 770 municipios de Andaluca.

La variable principal, y, es el numero


de turismos por mu
2003. Se dispone de cuatro variables aunicipio en el ano
de

xiliares: x1 , x2 , x3 y x4 que corresponden al numero


2002 con capacidad cilndrica de clase
turismos en el ano
1, 2, 3 y 4, respectivamente.
es comEl objetivo que tiene el uso de esta poblacion
probar la ganancia en eficiencia de las estimaciones cuando se aumenta de manera paulatina el numero
de varia
bles auxiliares.

En el analisis
descriptivo de la Tabla A.6 se muestran
importantes de las variables de la
las caractersticas mas
Turismos. En estas variables destaca la presenpoblacion
cia de una alta asimetra y una importante variabilidad en
los datos, como reflejan los correspondientes coeficientes
Los diagramas de dispersion
asociados a esde variacion.
disponibles en la Figura B.35.
tas variables estan

A.1.6.

ECPF1997

natural que se ha considerado


La ultima
poblacion

en este trabajo se corresponde con los datos muestrales


1997 de la Enprocedentes del primer trimestre del ano
cuesta Continua de Presupuestos Familiares (ECP F ).

Vease
Instituto Nacional de Estadstica (1992) para una
ha
consulta detallada de la metodologa. Esta poblacion
analizada en Fernandez

sido tambien
et al. (2004).
Notamos que el objetivo de esta encuesta es proporcionar estimaciones acerca de los gastos de consumo y
de los ingresos para el conjunto nacional, segun
varias va La poblacion
consta de N = 3000
riables de clasificacion.

hogares espanoles,
donde se ha considerado que la va y, son los ingresos totales trimestrales
riable de interes,
por hogar (en euros), mientras que los gastos trimestrales
por hogar (en euros) sera la variable auxiliar.

(A.1)

donde x Gamma(1, 1), N (0, 2 ) y 0 = 1 = 1. Estas poblaciones se han generado escogiendo diferentes

valores de 2 , de modo que los coeficientes de correlacion


dados por 0.6, 0.7, 0.8 y 0.9. Las poblaentre y y x estan
ciones se han llamado Pop06, Pop07, Pop08 y Pop09, respectivamente. La Figura B.37 muestra los diagramas de
de estas poblaciones, mientras que los distindispersion
dados por las Tablas A.8,
tos estudios descriptivos estan
A.9 ,A.10 y A.11.

A.2.2.

Pob098 y Pob080

Por ultimo,
se han generado dos poblaciones (Pob098

N = 1000 mediante el modelo


y Pob080) de tamano
yi = 0 + 1 x1i + 2 x2i + i ,

(A.2)

donde 0 = 1 = 2 = 1 y las variables x1i y x2i se

han generado de distribuciones Gamma con parametros


de forma y escala dados por 4 y 1, respectvamente.
Las cantidades i son variables aleatorias independien
Normal
tes e identicamente
distribuidas con distribucion

de parametros
0 y 2 . El valor de 2 se ha selecciona entre yi e
do de modo que el coeficiente de correlacion

ybi = 0 + 1 x1i + 2 x2i es 0.98 para la primera poblacion


(Pob080). Los
(Pob098) y 0.80 para la segunda poblacion

dados por
analisis
descriptivos de estas poblaciones estan
las Tablas A.12 y A.13, mientras que los diagramas de dis los encontramos en las Figuras B.38 y B.39.
persion

7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

83


Murthy
Tabla A.5: Analisis
descriptivo para las variables de la poblacion
V.
y
x1

Min
1176
51

Me
5105
148

Q1
3727.0
86.5

Media
5183.0
285.1

Q3
6754.0
445.3

Max
9250
1095

Cv
0.35
0.94

yx
0.915

Turismos
Tabla A.6: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
x3
x4

Min
11
5
4
1
0

Q1
343.3
73.0
101.0
123.0
22.0

Me
894.0
176.5
263.0
338.0
61.0

Media
3967.8
810.2
1313.7
1373.1
295.9

Q3
2483.5
464.0
749.3
957.5
174.8

Max
308738
61176
111977
102710
24023

Cv
4.23
4.41
4.55
4.04
4.26

yx
0.994
0.998
0.998
0.961

ECPF1997
Tabla A.7: Analisis
descriptivo para las variables de la poblacion
V.
y
x

Min
240.4
107.6

Q1
2745
2609

Me
4037
3845

Media
4660
4527

Q3
5842
5654

Max
61320
27730

Cv
0.67
0.66

yx
0.594

Pop06
Tabla A.8: Analisis
descriptivo para las variables de la poblacion
V.
y
x

Min
-2.4588
0.0008

Q1
0.87
0.27

Me
1.93
0.66

Media
1.98
0.96

Q3
2.96
1.32

Max
9.33
8.10

Cv
0.81
1.03

yx
0.6

Pop07
Tabla A.9: Analisis
descriptivo para las variables de la poblacion
V.
y
x

Min
-2.349
0.001

Q1
1.02
0.30

Me
1.88
0.70

Media
2.00
0.99

Q3
2.86
1.36

Max
10.03
8.22

Cv
0.71
0.98

yx
0.7

Pop08
Tabla A.10: Analisis
descriptivo para las variables de la poblacion
V.
y
x

Min
-2.243
0.001

Q1
1.15
0.25

Me
1.81
0.67

Media
1.99
0.98

Q3
2.63
1.34

Max
8.54
7.36

Cv
0.64
1.04

yx
0.8

Pop09
Tabla A.11: Analisis
descriptivo para las variables de la poblacion
V.
y
x

84

Min
-0.374
0.002

Q1
1.23
0.29

Me
1.73
0.67

Media
1.96
0.98

Q3
2.43
1.33

Max
11.80
10.51

Cv
0.57
1.02

yx
0.9

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR


Pob098
Tabla A.12: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
yb

Min
-0.207
0.003
0.081
1.615

Q1
5.07
0.90
1.80
4.97

Me
7.33
2.26
3.17
7.23

Media
7.99
3.08
3.85
7.93

Q3
9.97
4.37
5.34
10.03

Max
25.65
22.32
17.55
25.08

Cv
0.52
0.96
0.72
0.51

yx
0.71
0.67
0.98

Pob080
Tabla A.13: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
yb

Min
-0.097
0.480
0.417
3.316

Q1
6.61
2.46
2.54
6.88

Me
8.69
3.67
3.59
8.65

Media
8.89
3.98
3.89
8.87

Q3
11.00
5.15
5.00
10.47

Max
19.98
11.86
12.20
20.84

Cv
0.37
0.50
0.48
0.30

yx
0.60
0.53
0.80

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

85

B. Representaciones grficas

AB
e

Figura B.1: Eficiencia Relativa para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti y y T 3 (Toutenburg 3). Se toman muestras de tamano
n = 200.
mo), y Reg (Regresion)
p=10

Pop06

p=80

p=45

1.4

1.8

1.2

1.6

3.0
2.5

1.4
1.0

2.0

1.2

0.8
0.6

1.0

1.5

0.8

1.0
0.5

10

45

80

1.4

10

45

80

1.8

1.4

1.0

10

45

80

10

45

80

10

45

80

10

45

80

1.2

Pop07

1.0
0.8

0.6

0.6
10

45

80

10

45

80

1.2

5
2.0

1.0

Pop08

0.8

1.5

0.6

1.0

0.4

0.5

0.2
10

45

80

10

45

80
6

1.2

2.0

1.5

1.0

Pop09

0.8

0.6

1.0

0.4

0.5

2
1

0.2
0.0
10

45

80

10

45

80

q
Pemle 1
Pemle 12
Alpha optimo

Regresion
Toutenburg 3

AB
e

Figura B.2: Eficiencia Relativa para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti y y T 3 (Toutenburg 3). Se considera la poblacion
Fam1500 y muestras de tamano

mo), y Reg (Regresion)


n = 150.
p=10

Variable usada

p=40

1.0

3.0

0.8

x1

p=70

0.6

2.5

2.0

1.5
3

1.0

0.4

0.5
0.2
10

x2

30

50

70

30

50

70

3.5

10.5

2.2

3.0

8.5

2.5

1.8

10

30

10

30

50

70

50

70

6.5

2.0
1.4

4.5

1.5

1.0

1.0

0.6

0.5
10

30

50

q
Pemle 1
Pemle 12
Alpha optimo

88

10

2.6

70

2.5
0.5
10

30

50

70

Regresion
Toutenburg 3

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

AB
e

Figura B.3: Eficiencia Relativa para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha opti

mo), y Reg (Regresion) y y T 3 (Toutenburg 3). Se considera la poblacion Hospitals y muestras de tamano
n = 100.
p=30

p=10

p=50

1.0

1.8

0.8

1.4

0.6

1.0

0.4

0.6

2
1

0.2

0.2
10

20

30

40

0
10

20

30

10

40

Pemle 1
Pemle 12
Alpha optimo

20

30

40

q
Regresion
Toutenburg 3

AB
e

Figura B.4: Sesgo Relativo para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha optimo),
AC

y y T 3 (Toutenburg 3). Se toman muestras de tamano


n = 200.
yw (estandar),
y Reg (Regresion)
p=10

0.050

Pop06

p=80

p=45

0.045

0.065

0.10

0.060

0.09

0.055

0.08

0.050

0.07

0.045

0.06

0.040
0.035

0.05

0.040
10

45

80

10

45

80

10

45

80

10

45

80

10

45

80

10

45

80

0.060
0.042

Pop07

0.09

0.055

0.08

0.050

0.038

0.07

0.045
0.034

0.06

0.040

0.05

0.035

0.030

0.04

0.030
10

45

80

10

45

80

0.040

Pop08

0.09

0.05

0.035
0.030

0.04

0.025

0.03

0.07
0.05
0.03

0.020
0.02
10

Pop09

45

80

10

0.035

0.055

0.030

0.045

0.025

0.035

0.020

0.025

0.015

45

80

0.08
0.06
0.04
0.02

0.015
10

45

q
Pemle 1
Pemle 12
Alpha optimo

80

10

45

80

Estimador estandar
Regresion
Toutenburg 3

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

89

AB
e

Figura B.5: Sesgo Relativo para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha optimo),
AC

y y T 3 (Toutenburg 3). Se considera la poblacion


Fam1500 y muestras de
yw (estandar),
y Reg (Regresion)
n = 150.
tamano
p=10

Variable usada

p=40

0.009

0.035

0.015

0.008

x1

p=70

0.013

0.025

0.011

0.007

0.009

0.015

0.006
0.007
0.005

0.005
10

30

50

70

0.014

0.005
10

30

50

70

0.016

0.012

30

10

30

50

70

50

70

0.04

0.018

x2

10

0.03

0.014
0.010

0.02

0.012
0.010

0.008

0.01
0.008
10

30

50

70

10

q
Pemle 1
Pemle 12
Alpha optimo

30

50

70

Estimador estandar
Regresion
Toutenburg 3

AB
e

Figura B.6: Sesgo Relativo para los estimadores y A


P E (Pemle 1), y P E (Pemle 12), y P Eopt (Alpha optimo),
AC

y y T 3 (Toutenburg 3). Se considera la poblacion


Hospitals y muestras de
yw (estandar),
y Reg (Regresion)
n = 100.
tamano
p=30

p=10

p=50

0.08
0.05

0.16

0.07
0.12

0.06

0.04

0.05
0.03

0.08

0.04
0.04

0.03
0.02
10

20

Pemle 1
Pemle 12
Alpha optimo

90

30

40

10

20

30

40

10

20

30

40

Estimador estandar
Regresion
Toutenburg 3

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Figura B.7: Eficiencia Relativa de distintos estimadores en las poblaciones Pob098 y Pob080.
Pob080

Pob098
0.9
1.0
0.8

t=QY (0.25)

ER

0.7

0.9

0.6
0.8

0.5
0.4

0.7
0.3
50

100

150

200

250

300

0.9

50

100

150

200

250

300

50

100

150

200

250

300

50

100

150

200

250

300

1.1

0.8
0.9

t=Q Y (0.50)

ER

0.7
0.6

0.7
0.5
0.4

0.5

0.3
0.3
0.2
50

100

150

200

250

300

0.9
0.8
0.8

0.7

ER

0.6

t=Q Y (0.75)

0.7

0.5
0.4

0.6

0.3
0.2
0.1

0.5
50

100

150

200

250

300

n
MA1
MC
Razon
Diferencia

CD
RKM
MA

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

91

Murthy.
Figura B.8: Eficiencia Relativa de distintos estimadores en la poblacion

t=Q Y (0.25)

t=Q Y (0.5)

0.7

0.9

0.6
0.7
ER

ER

0.5
0.5

0.4
0.3

0.3
0.2
0.1

0.1
40

45

50

55

60

40

45

50

55

60

n
t=Q Y (0.75)

0.7
0.6

MA1
MC
Razon
Diferencia
CD
RKM
MA

0.5

ER

0.4
0.3
0.2
0.1
0.0
40

45

50

55

60

92

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Figura B.10: Eficiencia Relativa Media de distintos estimadores en las poblaciones Pob098, Pob080 y
Murthy.

Pob080

Pob098
1.0
1.1

ERM

0.9

0.9

0.8
0.7
0.8

0.6
50

100

150

200

250

50

300

100

150

200

250

300

Murthy
0.9

MA1
MC
Razon
Diferencia
RKM
MA

0.8
ERM

ERM

1.0

0.7

0.6

40

45

50

55

60

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

93

Figura B.11: Diagramas de cajas con bigotes de las Desviaciones Absolutas Medias de distintos estimadores en las poblaciones Pob098 (con n = 100), Pob080 (con n = 100) y Murthy (con n = 50).
Pob080

0.25

0.25

0.20

0.20

0.15

0.15

DAM

DAM

Pob098

0.10

0.10

0.05

0.05

0.00

0.00
1

3 4 5 6
Estimadores

3 4 5 6 7
Estimadores

Murthy

1 = Estandar
2 = MA1
3 = MC
4 = Razon
5 = Diferencia
6 = CD
7 = RKM
8 = MA

DAM

0.15
0.10
0.05
0.00
1

3 4 5 6 7
Estimadores

Fam1500 y bajo el diseno


muestral M as.M idzuno. n0 =
Figura B.12: Eficiencia Relativa para la poblacion
150.
=0.25

1.0

1.0

0.9

0.9

0.9

0.8

0.8

0.7

0.6

0.6

0.6

0.5
0

25

50

75

100

2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8

25

50

75

100

25

50

75

100

25

50

75

100

1.8

1.6

1.6
1.4

ER

1.4
1.2

1.2

1.0

1.0

0.8
0

25

50

75

Estimador 1
Estimador 2
Estimador 3

94

0.8

0.7

0.7

(**)

=0.75

1.0

ER

(*)

=0.5

100

0.8
0

25

50

75

100

(*) x1 se usa como variable auxiliar y x2 para asignar probabilidades.


(**) x2 se usa como variable auxiliar y x1 para asignar probabilidades.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Fam1500 y bajo el diseno


muestral M as.P oisson. n0 =
Figura B.13: Eficiencia Relativa para la poblacion
150.
=0.25

=0.5

=0.75

0.55

(*)

ER

0.50
0.45
0.40
0

25

50

75

0.55

0.55

0.50

0.50

0.45

0.45

0.40

0.40

100

25

50

75

100

1.4

1.4

1.2

1.2

1.0

1.0

0.8

0.8

0.6

0.6

25

50

75

50

75

100

1.4

ER

(**)

1.2
1.0
0.8
0

25

50

75

100

Estimador 1
Estimador 2
Estimador 3

25

50

75

100

25

100

(*) x1 se usa como variable auxiliar y x2 para asignar probabilidades.


(**) x2 se usa como variable auxiliar y x1 para asignar probabilidades.

Counties y bajo el diseno


muestral M as.M idzuno. n0 =
Figura B.14: Eficiencia Relativa para la poblacion
150.
=0.25

0.6

0.5

0.5

0.4

0.4

ER

(*)

=0.5

0.3
0.2
0.1
0

50

75

0.5
0.4
0.3

0.2

0.2

0.1

0.1

0.6

0.5

0.5

0.4

0.4

0.6

0.3

100

ER

(**)

25

=0.75

25

50

75

100

0.2
0.1
0

25

50

75

Estimador 1
Estimador 2
Estimador 3

100

25

50

75

100

25

50

75

100

0.6
0.5
0.4

0.3

0.3

0.3

0.2

0.2

0.1

0.1

25

50

75

100

(*) x1 se usa como variable auxiliar y x2 para asignar probabilidades.


(**) x2 se usa como variable auxiliar y x1 para asignar probabilidades.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

95

Counties y bajo el diseno


muestral M as.P oisson. n0 =
Figura B.15: Eficiencia Relativa para la poblacion
150.
=0.25

=0.5

=0.75

0.02

0.12
0.02

ER

0.08

(*)

0.01
0.01

0.00

0.00
0

25

50

75

0.00

100

0.015

0.015

0.010

0.010

25

50

75

100

25

50

75

100

25

50

75

100

0.10
0.08
0.06

ER

(**)

0.04

0.005

0.005

0.000

0.000

0.04
0.02

25

50

75

100

Estimador 1
Estimador 2
Estimador 3

0.00
0

25

50

75

100

(*) x1 se usa como variable auxiliar y x2 para asignar probabilidades.


(**) x2 se usa como variable auxiliar y x1 para asignar probabilidades.

Fam1500 cuando x1 se usa como variable


Figura B.16: Sesgo Relativo en porcentaje para la poblacion
auxiliar y x2 para asignar probabilidades. n0 = 150.
=0.25

=0.5

0.2

0.6

SR

0.8
0.6
0.4
0.2
0.0
-0.2
-0.4

0.1

0.4

(*)

=0.75

0.2

0.0

0.0

-0.1

-0.2

-0.2

-0.4

-0.3
0

25

50

75

100

25

50

75

100

2.5
1.5

1.5

2.0
1.5

1.0

1.0

1.0

0.5

0.5

0.0

SR

(**)

25

50

75

100

25

50

75

100

0.5

0.0

0.0

-0.5
0

25

50

75

100

Estimador directo
Estimador 1
Estimador 2
Estimador 3

96

25

50

75

100

(*) Diseo muestral Mas.Midzuno.


(**) Diseo Muestral Mas.Poisson.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Counties cuando x1 se usa como variable


Figura B.17: Sesgo Relativo en porcentaje para la poblacion
auxiliar y x2 para asignar probabilidades. Los valores SR para el estimador directo en (**) son mayores de
omitidos. n0 = 150.
97.6 %, 74.6 % y 21.5 % para = 0,25, 0,5 y 0.75, respectivamente, y estan
=0.25

30

30

20

25

25

15

20
15

20

10

10

10

25

50

75

100

25

15

25

50

75

100

10

20

-5

-10

50

75

100

25

50

75

100

25

15
10

10

SR

(**)

=0.75

25

SR

(*)

=0.5

-5
-10

25

50

75

Estimador directo
Estimador 1
Estimador 2
Estimador 3

100

25

50

75

100

(*) Diseo muestral Mas.Midzuno


(**) Diseo muestral Mas.Poisson.

9
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

97

Figura B.18: Ratios Teoricos


entre la varianza del estimador optimo
propuesto y la varianza del estimador

Counties y el cuantil de orden = 0,5.


estandar
bajo la poblacion
n=100. n=50

n=100. n=100

1.00

0.8

0.95
RT

RT

0.7

0.90

0.6
0.85
0.5

0.80
0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.3

0.7

0.9

n=75. n=25

1.00

0.65

0.95

0.60

0.90

0.55

RT

RT

n=75. n=75

0.5

0.85

0.50

0.80

0.45
0.40

0.75
0.0

0.2

0.4

0.6

0.8

1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

n=50. n=25

n=50. n=50
0.70
1.00
0.65

0.90

RT

RT

0.95

0.85

0.60

0.80
0.55

0.75
0.1

0.3

0.5

0.7

0.9

Estimador estandar.
Estimador optimo propuesto. P=2.

98

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Estimador optimo propuesto. P=1, x2.


Estimador optimo propuesto. P=1, x1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Figura B.19: Ratios Teoricos


entre la varianza del estimador optimo
propuesto y la varianza del estimador

Turismos y el cuantil de orden = 0,5.


estandar
bajo la poblacion
n=100. n=50

n=100. n=100

0.75

0.90

0.70
RT

0.80

0.95
RT

1.00

0.65

0.85

0.60

0.80

0.55

0.75

0.50

0.70
0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.3

n=75. n=75

0.65

0.95

0.60
RT

RT

0.90
0.85
0.80

0.50
0.45

0.70

0.40
0.4

0.9

0.55

0.75

0.2

0.7

n=75. n=25

1.00

0.0

0.5

0.6

0.8

1.0

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.7

0.8

n=50. n=25

n=50. n=50
0.70
1.00
0.95

0.65
0.60

RT

RT

0.90
0.85
0.80
0.55

0.75
0.70

0.50
0.1

0.3

0.5

0.7

0.9

Estimador estandar.
Estimador optimo propuesto. P=4.

0.2

0.3

0.4

0.5

0.6

Estimador optimo propuesto. P=3.


Estimador optimo propuesto. P=2.
Estimador optimo propuesto. P=1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

99

Counties
Figura B.20: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50

n=100. n=100

0.9

0.6
ER

0.7

ER

1.0

0.8

0.5
0.7
0.4

0.6
0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.3

n=75. n=75

0.5

0.7

0.9

n=75. n=25
0.45

1.1

0.40
ER

ER

0.9

0.35

0.7

0.30
0.5
0.0

0.2

0.4

0.6

0.8

0.2

1.0

0.3

0.4

0.5

0.6

0.7

0.8

n=50. n=25

n=50. n=50

0.55
0.50
ER

ER

0.9

0.7

0.45
0.40
0.35

0.5
0.1

0.3

0.5

0.7

0.9

Estimador estandar.
Estimador optimo propuesto. P=2.

100

0.2

0.3

0.4

0.5

0.6

0.7

0.8

Estimador optimo propuesto. P=1, x2.


Estimador optimo propuesto. P=1, x1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

Turismos
Figura B.21: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50

n=100. n=100
1.1
0.8
0.9
ER

ER

0.7
0.6

0.7
0.5
0.5

0.4
0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.3

n=75. n=75

0.5

0.7

0.9

n=75. n=25

1.2
0.50
1.0
ER

ER

0.45

0.8

0.40
0.35
0.30

0.6

0.25
0.0

0.2

0.4

0.6

0.8

0.2

1.0

0.3

0.4

0.5

0.6

0.7

0.8

0.7

0.8

n=50. n=25

n=50. n=50
0.7
1.1
0.6

0.9

ER

ER

1.0

0.5

0.8
0.4

0.7
0.6

0.3
0.1

0.3

0.5

0.7

0.9

Estimador estandar.
Estimador optimo propuesto. P=4.

0.2

0.3

0.4

0.5

0.6

Estimador optimo propuesto. P=3.


Estimador optimo propuesto. P=2.
Estimador optimo propuesto. P=1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

101

de los valores Wopt usados por el estimador optimo

Figura B.22: Evolucion


propuesto en la poblacion
Counties y para el cuantil de orden = 0,5.
n=100. n=50

n=100. n=100
0.8

0.7

0.7
Wopt

Wopt

0.5

0.3

0.6
0.5
0.4
0.3

0.1
0.1

0.2

0.3

0.4

0.5

0.1

0.2

0.3

0.4

n=75. n=75

0.5

n=75. n=25

0.7

0.8

0.7

0.5

Wopt

Wopt

0.6

0.4

0.6

0.3
0.5

0.2
0.1

0.2

0.3

0.4

0.5

0.2

0.3

0.4

0.5

n=50. n=25

n=50. n=50

0.75
0.70

0.5

Wopt

Wopt

0.6

0.4

0.65
0.60
0.55
0.50

0.3

0.45
0.1

0.2

0.3

0.4

0.5

Estimador optimo propuesto. P=2.

102

0.2

0.3

0.4

0.5

Estimador optimo propuesto. P=1, x2.


Estimador optimo propuesto. P=1, x1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

de los valores Wopt usados por el estimador optimo

Figura B.23: Evolucion


propuesto en la poblacion
Turismos y para el cuantil de orden = 0,5.
n=100. n=50

n=100. n=100
0.7
0.7
Wopt

Wopt

0.5

0.3

0.6
0.5
0.4
0.3

0.1
0.1

0.2

0.3

0.4

0.5

0.1

0.2

0.3

0.4

n=75. n=75

0.5

n=75. n=25

0.7

0.8

0.7

0.5

Wopt

Wopt

0.6

0.4

0.6

0.3
0.5

0.2
0.1

0.2

0.3

0.4

0.5

0.2

0.3

0.4

0.5

n=50. n=25

n=50. n=50
0.7

0.8

0.6

0.7
Wopt

Wopt

0.5

0.6

0.4
0.5
0.3
0.1

0.2

0.3

0.4

0.5

Estimador optimo propuesto. P=4.


Estimador optimo propuesto. P=3.

0.2

0.3

0.4

0.5

Estimador optimo propuesto. P=2.


Estimador optimo propuesto. P=1.

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

103

muestral SM S.
Figura B.24: Eficiencia Relativa para el diseno
=0.50

=0.75

1.0

1.0

0.8

0.8

0.8

0.6

ER

1.0
ER

n = 75
n = 25

ER

=0.25

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

11 13 15

11 13 15

11 13 15
m

10

15

20

25

1.0

1.0

0.8

0.8

ER

1.0
0.8
0.6
0.4
0.2

ER

n = 75
n = 50

ER

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.

0.6

0.6

0.4

0.4

0.2

0.2

30

10

15

20

25

30

10

15

20

25

30

muestral M SS.
Figura B.25: Eficiencia Relativa para el diseno
=0.50

=0.75

1.0

1.0

0.8

0.8

0.8

0.6

ER

1.0
ER

n = 75
n = 25

ER

=0.25

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

11 13 15

11 13 15

11 13 15
m

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.

0.8
0.6
0.4
5

10

15

20
m

104

25

30

1.0

1.2
1.0

ER

ER

1.0
ER

n = 75
n = 50

0.8
0.6
0.4

0.8
0.6
0.4
0.2

10

15

20

25

30

10

15

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

20
m

25

30

muestral M M M .
Figura B.26: Eficiencia Relativa para el diseno
=0.50

=0.75

1.0

1.0

0.8

0.8

0.8

0.6

ER

1.0
ER

n = 75
n = 25

ER

=0.25

0.6

0.6

0.4

0.4

0.4

0.2

0.2

0.2

11 13 15

11 13 15

11 13 15
m

10

15

20

25

1.2
1.0
0.8
0.6
0.4
0.2

30

1.0
ER

1.0
0.8
0.6
0.4
0.2

ER

n = 75
n = 50

ER

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.

0.8
0.6
0.4
0.2

10

15

20

25

30

10

15

20

25

30

muestral SM S.
Figura B.27: Sesgo Relativo para el diseno
=0.25

=0.75

0.30
SR

0.4

SR

0.4
SR

n = 75
n = 25

=0.50

0.25

0.3

0.20

0.2

0.2

0.15
5

11 13 15

0.3

11 13 15

11 13 15
m

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.4

0.20

0.3

0.15

0.15

0.10

0.10
5

10

15

20
m

25

30

SR

0.25
SR

SR

n = 75
n = 50

0.20

0.2
0.1
5

10

15

20
m

25

30

10

15

20

25

30

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

105

muestral M SS.
Figura B.28: Sesgo Relativo para el diseno
=0.25

0.3

=0.75

0.4

0.5

0.3

0.4

SR

SR

0.4
SR

n = 75
n = 25

=0.50

0.2

0.2

0.3
0.2

0.1
5

11 13 15

11 13 15

11 13 15
m

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.20
SR

0.3

SR

0.20

SR

n = 75
n = 50

0.15

0.15

0.10

0.10
5

10

15

20

25

0.1
5

30

0.2

10

15

20

25

30

10

15

20

25

30

muestral M M M .
Figura B.29: Sesgo Relativo para el diseno
=0.25

=0.50

=0.75

0.3

SR

0.4

0.4

SR

SR

0.5

n = 75
n = 25

0.3
0.2

0.2

0.6
0.5
0.4
0.3
0.2

0.1
5

11 13 15

11 13 15

11 13 15
m

Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.

0.15

0.15

0.10

0.10
5

10

15

20
m

106

0.3

25

30

SR

0.20

SR

0.20

SR

n = 75
n = 50

0.2
0.1

10

15

20

25

30

10

15

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

20
m

25

30

Figura B.30: Diagrama de caja con bigotes para los valores de los distintos estimadores. Se asume el
muestral SM S y tamanos
muestrales n0 = 75 y n = 50.
diseno

m=5

m = 10

m = 15

m = 20

(1) (2) (3)

(1) (2) (3)

(1) (2) (3)

(1) (2) (3)

20000

=0.25

15000
10000
5000
30000

=0.50
20000

10000

=0.75

75000
50000
25000

(1). Estimador estandar.


(2). Estimador compuesto usando covarianzas.
(3). Estimador compuesto sin usar covarianzas.

de la poblacion
Fam1500
Figura B.31: Diagramas de dispersion

9000

9000
Y

11000

11000

7000

7000

5000

5000
30000

40000
50000
X1

60000

2000 3000 4000 5000 6000 7000


X2

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

107

400000

400000

300000

300000

Co70.Y

Co70.Y

de las poblaciones Counties70 y Counties60.


Figura B.32: Diagramas de dispersion

200000

200000

100000

100000

0
0

100000 200000 300000


Co70.X1

40000
Co70.x2

80000

250000
Co60.Y

200000
150000
100000
50000
0
0

40000
Co60.X

80000

de la poblacion
Hospitals.
Figura B.33: Diagrama de dispersion

3000

2500

2000

1500

1000

500

100

108

300

500
x

700

900

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

de la poblacion
Murthy.
Figura B.34: Diagrama de dispersion

9000

7000

5000

3000

1000

250

500

750

1000

de la poblacion
Turismos.
Figura B.35: Diagramas de dispersion

200000

200000
y

300000

300000

100000

100000

0
10000

30000
x1

20000

50000

200000

200000

100000

300000

300000

60000
x2

100000

100000

0
20000

60000
x3

100000

10000
x4

20000

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

109

de la poblacion
ECPF1997.
Figura B.36: Diagrama de dispersion

60000

50000

40000

30000

20000

10000

110

5000

10000

15000
X

20000

25000

30000

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

de las poblaciones Pop06, Pop07, Pop08 y Pop09


Figura B.37: Diagramas de dispersion
=0.7

=0.6

10

8
Y

10

-2

-2
0

4
X

4
X

=0.9

=0.8
10

12

10

2
0

-2

-2
0

4
X

10

25

20

20

15

15

25

10

10

0
0

10
x1

15

20

10
x2

15

20

25
20
Y

de la poblacion
Pob098
Figura B.38: Diagramas de dispersion

15
10
5
0
0

10
15
1+x1+x2

20

25

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

111

20

20

15

15
Y

de la poblacion
Pob080
Figura B.39: Diagramas de dispersion

10

10

0
0

6
x1

10

12

6
x2

10

20

15
10
5
0
5

112

10
15
1+x1+x2

20

APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR

12

Você também pode gostar