Escolar Documentos
Profissional Documentos
Cultura Documentos
Datos catalogrficos
Muoz Rosas, Juan Francisco
Aportaciones a los mtodos de estimacin de parmetros lineales y
no lineales con informacin auxiliar / autor, Juan Francisco Muoz
Rosas. -- Sevilla : Instituto de Estadstica de Andaluca, 2010
112 p. ; 30 cm. + 1 disco compacto (CD-Rom). -- (Tesis)
D.L. SE. 7631-2010
ISBN 978-84-96659-83-4
Tesis premiada por el Instituto de Estadstica de Andaluca
1. Estadstica matemtica. 2. Estimacin estadstica. 3.
Probabilidades. 4. Muestreo. I. Instituto de Estadstica de Andaluca.
II. Ttulo. III. Serie
519.2(043.2)
Directora
Mara del Mar Rueda Garca
Departamento de Estadstica e Investigacin Operativa
Facultad de Ciencias
UNIVERSIDAD DE GRANADA
Autor
Juan Francisco Muoz Rosas
Licenciado en Ciencias y Tcnicas Estadsticas
Departamento de Mtodos Cuantitativos para la Economa y la Empresa
UNIVERSIDAD DE GRANADA
Reproduccin autorizada con indicacin de la fuente bibliogrfica, excepto para fines comerciales
ndice
1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Problemas planteados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Objetivos cientficos y aportes a la teora del muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3. Notacin y conceptos bsicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
9
9
11
13
13
15
15
22
24
26
26
27
28
29
30
31
31
32
35
37
39
43
43
44
44
45
46
48
49
51
52
57
57
57
58
60
61
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
62
64
65
65
66
67
68
69
4. Discusin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1. Conclusiones y valoracin de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
73
Bibliografa
......................................................................................
75
81
81
81
81
81
83
83
83
83
83
83
B. Representaciones grficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Introducin
1.1.
Problemas planteados
distribucion
modelo-asistida,en
muestral y usando una aproximacion
de cuantiles, etc),
presencia de datos faltantes, estimacion
muestreo bifasico,
etc).
con informacion
auxiliar de
los metodos
de estimacion
parametros
lineales y no lineales. Por ejemplo, en los ulti
han surgido nuevas metodologas para obtener
mos anos
precisos usando informacion
auxiliar.
estimadores mas
Estas nuevas metodologas son los estimadores de cali (Deville y Sarndal,
bracion
1992) y el metodo
de verosimilitud emprica (Chen y Sitter, 1999). De estas metodologas,
el metodo
de verosimilitud emprica tiene un buen compor
tamiento asintotico
y emprico, pero a causa de su reciente
existen bastantes situaciones donde no ha siaparicion,
do analizado. En este trabajo se plantean diversos esce de la funnarios (presencia de datos faltantes, estimacion
de distribucion
bajo un enfoque basado en el diseno
cion
timacion
lineales como la media o el total.
En las ultimas
decadas
se ha estado tratando el problema
de la funcion
de distribucion
por diversos
de la estimacion
de los
autores, pero este no es el caso de la estimacion
cuantiles, los cuales no han sido definidos ni analizados
1.2.
Objetivos
cientficos
y
aportes a la teora del
muestreo
se indica como
A continuacion
se distribuye el presente texto y se comenta de forma breve los principales
objetivos cientficos y las aportaciones a la teora del
muestreo en poblaciones finitas.
se describe el marco de trabaEn la siguiente seccion
jo general seguido a lo largo del texto y se dan algunos
conceptos basicos
de la teora del muestreo en poblacion
y confinitas. El objetivo es familiarizarse con la notacion
ceptos que van a ser usados en todo el texto.
En la teora de muestreo en poblaciones finitas el objetivo principal de cualquier metodologa es la de mejo
rar las estimaciones de los parametros
en estudio en el
sentido de construir nuevos estimadores que, para el mis muestral, tengan menor error de estimacion,
mo tamano
en las estimaciones de los
lo que implica mayor precision
parametros,
o equivalentemente, tengan el mismo error
muesque los ya conocidos pero con un menor tamano
en el coste real de
tral, lo que produce una disminucion
de la encuesta. Existen dos procedimienla realizacion
tos para intentar mejorar las precisiones de las estima
ciones. Por un lado, se pueden emplear nuevas tecnicas
y por otro, usar metodos
de estimacion
de muestreo mas
informacion
(muestreo en ocacomplejos que utilicen mas
auxiliar sea
siones sucesivas, etc), o que la informacion
fiable (muestreo bifasico),
mas
etc. La primera de estas
tecnicas
se lleva a cabo en el Captulo 2, en donde se
metodo
de estimacion,
se aplica en el Captulo 3 para el problema de la esti de cuantiles.
macion
3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
da, Munoz,
Berger, Arcos y Martnez 2006, etc.) como los
utilizados clasicamente
en muestreo de poblaciones fini
tas, lo que lo convierte en una alternativa valida
a usar en
las encuestas por muestreo, puesto que si el escenario es
bajo esta
del metodo
de verosimilitud emprica. Ademas,
del entrevistado o por cualquier otra circunstancia (perdi errores en la etapa de manida casual de informacion,
de datos, etc). Ante tal problema, una tecnica
pulacion
frecuentemente utilizada es eliminar del estudio a aquellos individuos que presentan datos faltantes en alguna de
cidos y tambien
para el tratamiento de datos
Rueda, Munoz,
faltantes. Vease
tambien
Berger, Arcos y
Martnez (2006).
de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion
y de otros parametros
de tipo no funcional queda resuelto
de distribucion,
puesto
con el conocimiento de la funcion
directa de
que estos
pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener medila funcion
cion
de verosimilitud emprica. Por otro
basados en informacion
de distribucion,
presenpara los que se define la funcion
tando el problema de obtener estimaciones menos pre
cisas cuando el argumento en el que se evalua
la funcion
se encuentra bastante alejado del punto
de distribucion
considerado para la variable auxiliar. Por tanto, estos estimadores presentan dos inconvenientes principalmente: (i)
es necesario el conocimiento y el uso de un modelo de
para los datos muestrales del estudio y (ii)
superpoblacion
auxiliar.
se hace un uso poco eficiente de la informacion
Asumiendo el metodo
de verosimilitud emprica, en
2.4 se propone un estimador modelo-asistido
la Seccion
de distribucion
basado en un uso efectivo
para la funcion
auxiliar. Este estimador sera mas
efide la informacion
entre las variables
ciente cuanto mayor sea la correlacion
no resulta neceauxiliares y la variable principal. Ademas,
para la funcion
de los cuantiles y de
mejorar la calidad de la estimacion
cion
sea por s mismo una ver de distribucion.
Este es otro punto impordadera funcion
tante a la hora de obtener estimadores eficientes para los
cuantiles poblacionales. Notamos que el estimador pro posee esta propiedad.
puesto tambien
En el Captulo 3 se analiza el problema de la esti de cuantiles bajo distintos esquemas de muestreo
macion
estimacion
usando el metodo
de verosimilitud
emprica.
3.2 resuelve el problema de la estimacion
La Seccion
ciones optimas
para un determinado cuantil. Se analizan
propiedades importantes de estos estimadores tales co de varianzas, etc. Como
mo la insesgadez, estimacion
el muestreo bifasico
desiguales. En terminos
de sesgo y de eficiencia relativa, estos estudios reflejan que los estimadores propues
tos mejoran a otros estimadores disenados
en muestreo
bifasico.
La mayora de las investigaciones llevadas a cabo por
10
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
es decir, se repiten a intervalos regulares de tiempo. Bajo este escenario, es aplicable la metodologa propuesta
3.3 para estimar cuantiles en muestreo en
en la Seccion
dos ocasiones, lo que puede permitir obtener una mayor
en la etapa de estimacion
como se ha comproprecision
en muestreo de
los metodos
tradicionales de estimacion
ocasiones sucesivas se han centrado en el problema de
de parametros
la estimacion
lineales. Para el caso de la
de cuantiles, la situacion
es bastante diferenestimacion
recientemente este campo ha sido tratado por
te, y solo
En cualquier caso, los eslos estudios de investigacion.
basados unicamente
tudios existentes estan
en muestreo
la variable de interes
en la
aleatorio simple y utilizan solo
o bien solo
estan
disenados
fase de estimacion,
para una
unica
variable auxiliar.
Por ultimo,
notar que todos los estudios de simulacion
se han llevado a cabo mediante el lenguaje de progra R. Todos los procedimientos y funciones para obmacion
tener en R tanto los estimadores propuestos en este texto
muestral
como el resto de estimadores para cada diseno
disponibles en el Apendice
estan
??.
Son numerosas las razones por las que se ha usado este software. En primer lugar, es un lenguaje intuitivo con una gran cantidad de argumentos estadsticos
de los estimadores proque facilitan la implementacion
puestos. Otros programas como M athematica, M atlab,
C + +, etc., carecen de tales procedimientos estadsticos.
Por otro lado, es un paquete que destaca por su rapidez
y que permite obtener el mayor numero
de simulaciones
de los casos, a las grandes empresas. El dispositivo grafico que dispone R y su compatibilidad con S P LU S son
otros argumentos que hacen que la mayora de los investigadores en el campo del muestreo en poblaciones finitas prefieran el uso de este software. Sirva de ejemplo
los artculos publicados en este sentido (por ejemplo Wu,
2005) as como las conferencias internacionales sobre el
se estan
abriendo paso, como la
programa R que tambien
segunda conferencia internacional de usuarios de R que
se celebro del 15 al 17 de junio de 2006 en Viena, Austria.
De hecho, el gran auge que esta teniendo este software
introduciendo da a da nuevos procehace que se esten
dimientos y paquetes estadsticos.
1.3.
Notacion
basicos
conceptos
en el ambito
del muestreo de poblaciones finitas. Ademas,
funcion
no
lineales.
poblacion.
En la practica,
determinados parametros
poblacionales son desconocidos y no pueden calcularse me se recurre a una muesdiante un censo. Por esta razon,
parametro
poblacional.
interesa estudiar ciertas caDentro de esta poblacion
o principal
ractersticas de una variable de estudio, interes
denominada y. Las variables auxiliares son aquellas, que
sin ser objeto de estudio, son usadas para varios fines, co de unidades en la muesmo por ejemplo, para la seleccion
5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
11
P
donde di = di / js dj . El cuantil de orden puede es de este ultimo
timarse directamente mediante la inversion
di = i1 , ij = ij i j , etc.
basicos
del diseno
1
b HKy () = FbHKy
() = nf{t | FbHKy (t) }.
Q
N
1 X
yi ,
N i=1
el total poblacional,
Y =
N
X
yi ,
i=1
de distribucion,
la funcion
Fy (t) =
N
1 X
(t yi ),
N i=1
1 X
di yi .
N is
(1.1)
de la funcion
de distribucion,
(1.2)
12
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
(1.4)
El metodo
de verosimilitud emprica para la estimacion
de parametros
fue propuesto en Chen y Qin (1993),
aunque fueron Chen y Sitter (1999) quienes establecieron
estimacion.
En cualquier estudio es usual encontrarse con el pro 2.3 se propone
blema de datos faltantes. En la Seccion
Rueda, Munoz,
el metodo
de verosimilitud emprica se estudia en la Sec 2.4. Se propone usar la aproximacion
modelo-asistida
cion
para obtener tal estimador, y se hace un uso eficiente de la
auxiliar al estar basado el estimador en varias
informacion
2.1.
Introduccion
en la etapa de estimacion
se tienen dos
de las estimacaminos para intentar mejorar la precision
muestrales mas
comciones: por un lado, utilizar disenos
plejos (muestreos estratificados, por conglomerados, poli-
etapicos,
adaptativos, etc.) basados unicamente
en los
de
muestrales mas
de estimacion
parametros
que utilicen informacion
El metodo
de verosimilitud emprica, que se desarrolla
a largo de este captulo, permite combinar las dos ideas
anteriores y es bastante eficiente como se ha compro
bado tanto desde el punto de vista teorico
como empri
co (vease
Chen y Qin, 1993, Chen y Sitter, 1999, Zhong,
2000, Chen y Wu, 2002, Sitter y Wu, 2002, Wu, 2003, Wu,
diferencia y regresion.
Esconocidos metodos
de razon,
tos estimadores no siempre garantizan que se produzca
del error de muestreo respecto a los estiuna disminucion
auxiliar. Esta ganancia
madores que no usan informacion
depende en mayor medida de la relacion
enen precision
tre las variables auxiliares y la variable objeto de estudio,
los datos muestrales, es decir, utilizan un enfoque basa muestral. Recientemente, en muestreo se
do en el diseno
esta utilizando la perspectiva basada en modelos (ver p.e.
Perez,
2002 y Sanchez-Crespo,
2002) y la nueva aproxi modelo-calibrada (Wu y Sitter, 2001). Estas apromacion
y
ximaciones se basan en modelos de superpoblacion
son dependientes de dichos modelos. El objetivo de es
precisas, retos metodos
es obtener estimaciones mas
concluyentes en la comparacion
de estratesultados mas
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
13
no validas,
cuando se usa un modelo de superpoblacion
erroneo.
En consecuencia, para llegar a cabo estas apro informacion:
res y la clasica
estimacion
es la apro
modelo-asistida. Esta
ximacion
consiste en usar un mode para obtener una estimacion
de un
lo de superpoblacion
determinado parametro
poblacional, y entonces, usar este
Sin perdida de eficienultimo
en la etapa de estimacion.
gresion
1980),
(Deville y Sarndal,
Theberge,
1999, Wu y Luan, 2003) y el propio estimador
de verosimilitud emprica (Chen y Qin, 1993, Chen y Sitter,
1999) pueden ser categorizados como aproximaciones
modelo-asistidas.
El metodo
de verosimilitud emprica para la esti de parametros
macion
es mas
Fue propuesto en Chen y Qin (1993) para
de calibracion.
de
muestreo aleatorio simple, aunque el auge y el interes
esta metodologa se produce en 1999 cuando Chen y Sit
muestral. Al
ter plantean el metodo
para cualquier diseno
este metodo
cion
de es tambien
consultarse en esta sectos estimadores podran
Notese
cion.
que el metodo
de verosimilitud emprica usa
modelo-asistida para determinar un dela aproximacion
terminado parametro
o variable, y posteriormente se basa
muestral para determinar los estimadores.
en el diseno
de
Todos los metodos
generales de estimacion
parametros
asumen que no existen datos faltantes en la
muestra. Cuando existen observaciones perdidas en la
mas
simple es eliminar aquellos indimuestra, la solucion
viduos con observaciones incompletas y restringir el estudio a los individuos que presentan observaciones completas para todas las variables. De este modo, con este con
junto de observaciones se puede aplicar cualquier tecnica
de parametros.
de estimacion
Una consecuencia de este
Usando el metodo
de verosimilitud emprica, en la Seccion
2.3 se proponen estimadores para el problema de datos
muestrales, esten
completas o incompletas para las
variables del estudio.
Otro tema de actualidad en muestreo es el proble de la funcion
de distribucion.
Los
ma de la estimacion
de parametros
poblacionales de tipo puntual, como to
tales, medias, proporciones y varianzas. La estimacion
de distribucion
es un campo muy imporde la funcion
que permite determinar
tante al tratarse de una funcion
importantes de la poblacion
en
las caractersticas mas
relevante acerca del
estudio, proporcionando informacion
Obtener buenos
comportamiento global de la poblacion.
no es tan simple como en el
estimadores para tal funcion
caso de los estimadores puntuales. Para este problema,
un buen estimador, Fb (t), ha de cumplir las propiedades
de distribucion:
basicas
de una verdadera funcion
b
b
lm F (t) = 1.
1. lm F (t) = 0 ;
t
t+
cion.
2.4 se propone un estimador modeloEn la Seccion
de distribucion
basado en el
asistido para la funcion
muestral que cumple estas propiedades y goza de
diseno
una excelente ganancia en eficiencia como consecuencia
auxiliar. Estas
de un uso efectivo de la informacion
son dos
ventajas importantes de este estimador propuesto basado
en el metodo
de verosimilitud emprica. En esta seccion,
pueden consultarse los principales estimadores
tambien
de verosimilitud pseudo emprica modelo-calibrados para
de distribucion.
la funcion
deEn resumen, este captulo ofrece una descripcion
este analisis
es mostrar de forma sencilla como
se cons
truye este estimador en distintos disenos
muestrales y
14
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
esquema teorico,
se aportan nuevas soluciones al proble de la funcion
de distribucion.
is
pi = 1
(2.2)
is
2.2.
2.2.1.
Estimacion
de
poblacional
la
Estimadores basados
muestral
diseno
media
X1
1X
yi .
yi =
n is
n
is
pi xi = X.
(2.3)
is
en
el
de regiones
etc, como un metodo
para la construccion
de confianza con observaciones independientes. Owen
afirmo que el estadstico de verosimilitud emprica tiene
asintotica
una distribucion
2 , y por tanto se puede usar
de intervalos de confianza y contraste
para la estimacion
de hipotesis.
Qin y Lawless (1994, 1995) usan el metodo
puntual cuande verosimilitud emprica para la estimacion
se incorpora a traves
de la maximizacion
do la informacion
de verosimilitud emprica. A raz de aqu,
de la funcion
este metodo
se popularizo y una gran gama de desarrollos sobre verosimilitud emprica han sido descritos en el
Historicamente
el uso de verosimilitud emprica fue
propuesto por Hartley y Rao (1968), pero la primera apli formal en muestreo para poblaciones finitas del
cacion
metodo
de verosimilitud emprica se debe a Chen y Qin
(1993), que lo estudiaron bajo muestreo aleatorio simple.
se detalla de forma breve la idea prinA continuacion
(2.1)
estimar el parametro.
Puede ocurrir que ciertas observa determinantes que otras para el calciones yi sean mas
metodo,
puesto que son usadas para obtener los nuevos
pesos.
Sea pi la masa de probabilidad de yi , con i s. El es
timador maximo
verosmil emprico de Y se define como
X
yP E =
pbi yi ,
is
disenar
desde distintas perspectivas, siendo el investi
gador quien debe decidir el modo de aplicar el metodo
de
verosimilitud emprica. Algunos de los distintos enfoques
de los cuales se puede disenar
esta metodologa
a traves
son los siguientes:
de L(p).
(E1). Sustitucion
L(p) para
En Chen y Qin (1993) se usa la funcion
obtener los estimadores de verosimilitud emprica,
mientras que Chen y Sitter (1999) usaron el loga a nivel poblacional, esto es,
ritmo de esta funcion
propusieron usar
l(p) = log
N
Y
pi =
i=1
N
X
log(pi ).
i=1
i=1
de verosimilitud emprica
Este cambio en la funcion
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
15
del metodo
de verosimilitud emprica producen las
mismas estimaciones.
P
de la restriccion
(E2). Sustitucion
is pi xi = X.
P
conAl imponer que
is pi xi = X, se estan
siderando valores para pi que proporcionan estimaciones perfectas para X, y podemos plantearnos
como
de efectivo es el uso que se esta haciendo
adicional a traves
de la condicion
de la informacion
auxiliar
anterior. Por este motivo, si la informacion
a prex = (x1 , . . . , xP ) es conocida, una cuestion
a usar
guntarse sera: Cual es la mejor expresion
(2.3) para hallar el estimador de
en la restriccion
verosimilitud emprica? . Para resolver esta pregunta se ha definido la cantidad ui = u(yi , xi ), con
conocida
i = {1, . . . , N }, siendo u() una funcion
de yi y de xi y que verifica
N
1 X
ui = 0.
N i=1
que
De este modo, ui es una variable de calibracion
(2.3) por
reemplaza la expresion
N
1 X
pi ui =
ui = 0,
N i=1
is
posteriores. Ademas,
puede ser aplicada a cualquier
muestral, no estando limitada exclusivamente al
diseno
muestreo aleatorio simple. De este modo, los primeros pa
sos antes de aplicar el metodo
de verosimilitud emprica
son:
fi1. Enfocar el problema bajo un modelo de poblacion
muestral y aplicanja, es decir, basado en el diseno
modelo-asistida, o bien, asumir
do la aproximacion
para poder aplicar el
un modelo de superpoblacion
enfoque modelo-calibrado.
u() utilizada en la restriccion
2. Determinar la funcion
mues(2.4). Para el enfoque basado en el diseno
tral se suele usar ui = xi X, mientras que bajo el
u() es unica
enfoque modelo-calibrado, la funcion
y facilmente
deducible a partir del modelo de super
poblacion.
como
escoger u() para obtener estimadores mas
es una solucion
a este problema cuando no
lineal entre y y x.
pueda asumirse una relacion
(E3). Utilizacion
de la aproximacion
modelocalibrada.
modelo-asistida,
En (E2) se usa una aproximacion
lineal (aunque
esto es, se asume una relacion
pueden establecerse relaciones de otro tipo) para
determinar unos valores ui apropiados, y posteriormente, se realizan estimaciones basadas en el
Si la relacion
entre la variable de interes
y
diseno.
y el vector de variables auxiliares x = (x1 , . . . , xP )
de un modelo de supuede ser descrita a traves
con una buena bondad de ajuste,
perpoblacion
puede resultar util
el uso de estimadores modelocalibrados (Wu y Sitter, 2001) frente a los esti Esta aproximacion
modelo-calibrados. Estos
usan el criterio de mni
ma esperanza bajo el modelo de superpoblacion
para obtener
de la varianza basada en el diseno
optima
la solucion
(vease
por ejemplo los trabajos
16
emprica segun
Chen y Qin (1993), el cual esta disenado
para muestreo aleatorio simple.
formal del
Este estimador fue la primera aplicacion
metodo
de verosimilitud emprica en poblaciones finitas
de parametros
para la estimacion
lineales y usando infor auxiliar. Este planteamiento no se puede extender
macion
muestrales mas
complejos.
a disenos
Segun
Chen y Qin (1993), el uso de verosimilitud
emprica en el contexto de poblaciones finitas se puede
plantear de dos formas diferentes:
disponibles para
1. Si todos los valores de yi estan
en estudio, la Q
de verosimilitud
la poblacion
funcion
se define como L (p) = N
i=1 pi , donde pi es la
yi . En la practica
esdensidad de la observacion
no se va a presentar y lo mas
usual
ta situacion
es que yi sea conocida para los individuos de la
de verosimilitud
muestra s. En tal caso la funcion
emprica para cualquier
muestra
s, con s S, se
Q
define como L(p) = is pi , donde se requiere que
P
n
i=1 pi 1. Este planteamiento fue propuesto por
Jagers (1986) y es el que se sigue en varios estu de parametros
dios de estimacion
en muestreo de
poblaciones finitas mediante verosimilitud emprica
(Chen y Qin, 1993, Zhong y Rao, 1996, etc).
2. Segun
el esquema de muestreo propuesto por Hartley y Rao (1968), los cuales consideraban que la va solo
puede tomar un numero
riable de interes
finito
I
X
Ni
yi ,
N
i=1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
donde Ni es el numero
de unidades en la poblacion
metrica
multidimensional:
Ni
I
Y
ni
,
L(N1 , . . . , NI ) =
N
i=1
n
donde ni es el numero
de unidades en la muestra
n!
i=1 ni !
I
Y
i
pn
i .
i=1
X
is
pbi yi =
1X
yi = y HT ,
n is
de la funesta
puede usarse en la etapa de maximizacion
de verosimilitud para obtener nuevos pesos pi que
cion
eficientes para la media.
produzcan estimaciones mas
auxiliar disponible para la
Se asume que la informacion
verifica
poblacion
conocida de yi y de
donde ui = u(yi , xi ) es una funcion
xi de vectores valuados. De este modo, el nuevo problema
consiste en maximizar L(p) sujeto a las restricciones:
X
pi = 1 (pi 0),
(2.5)
is
pi ui = 0.
(2.6)
is
Usando el metodo
de los multiplicadores de Lagrange, los
dados por:
valores esperados para pi , con i s, estan
pbi =
1
,
n (1 + t ui )
de la ecuacion
donde es la solucion
X
ui
= 0.
1 + t ui
is
is
X
is
pi xi
is
X
is
pi X =
X
pi xi X = 0
is
pi xi = X,
(2.10)
is
que indica que las cantidades pi dan estimaciones perfectas para X, y por tanto, deberan dar una buena aproxi para la media de variable de interes
si la relacion
macion
entre y y x es lineal.
Cuando ui = xi X, las soluciones a las ecuaciones
son obtenidas por Hartley y Rao
(2.7) y (2.8) tambien
de una aproximacion
similar. Estos autores
(1968) a traves
es asintotica
demostraron que el estimador de regresion
mente equivalente al estimador dado en (2.9). Un resultado similar puede hacerse para el estimador de la mediana propuesto por Kuk y Mak (1989) cuando ui = (x
N
1 X
ui = 0,
N i=1
(2.7)
(2.8)
is
cion
y
muestral general
Estimadores bajo un diseno
El metodo
de verosimilitud emprica para un diseno
muestral general asume que la muestra s es seleccionada
muestral, p(), es decir, la muestra
usando algun
diseno
1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
17
por
res yi para las unidades de la muestra, pudiendose,
tanto, utilizar unicamente
las cantidades pi para i s. Es
eficiente para
to provoca que se necesite una estimacion
viene dada por la llamada funcion
insesgada
que tiene la propiedad de ser una estimacion
para l(p), esto es
bajo el diseno
"
#
N
X
X
b
E[l(p)] = E
di log pi =
log pi = l(p),
is
i=1
muestral.
donde E[] denota la esperanza bajo el diseno
auxiliar se incorpora a traves
de la funLa informacion
de calibracion
ui = u(yi , xi ), donde u() es una funcion
de yi y de xi que debe satisfacer:
cion
N
1 X
ui = 0.
N i=1
Usando el metodo
de los multiplicadores de Lagrange
para resolver este problema, se obtiene, para i s, las
cantidades
di
,
(2.12)
pbi =
1 + t ui
donde el vector de multiplicadores de Lagrange, , es la
de la expresion:
solucion
X
is
di ui
= 0,
1 + t ui
(2.13)
lineal entre
Se recuerda que asumiendo una relacion
de calibracion
ui =
y y x se suele considerar la funcion
(2.6) puede expresarse
xi X. En este caso, la restriccion
como:
X
pi xi = X.
coincide con el estimador directo usual de tipo HorvitzThompson, aunque se demuestra que disfruta de buenas
de tipo Hajek
disfruta de mejores propiedades, puesto
que el estimador de tipo Horvitz-Thompson no cumple las
de distribupropiedades para ser una verdadera funcion
(en concreto lmt+ FbHT y (t) 6= 1), propiedades
cion
bracion
(1992).
se dan expresiones del P EM LE para
A continuacion,
muestrales mas
simples y conocidos. De
algunos disenos
estos ejemplos se desprende que la aplicabilidad de esta metodologa no es tan complicada y que estos esti relacionados con otros estimadores tradimadores estan
cionales.
Ejemplo 2.1 Muestreo Aleatorio Simple.
i = n/N , di = 1/i = N/n y
P Bajo este diseno
js dj = N , obteniendose
di = P
is
is
js dj
yP E =
X
is
pbi yi =
1
.
n
(2.15)
1X
yi ,
n is
(2.16)
que coincide con el estimador usual bajo muestreo aleatorio simple (y HT ) y con el estimador y EL propuesto en
Chen y Qin (1993).
auxiliar, el P EM LE viene daUsando la informacion
do por
X
yP E =
pbi yi ,
(2.17)
is
donde
pbi =
1
,
n(1 + t ui )
de la ecuacion
y es la solucion
X
ui
1 + t ui
= 0.
(2.18)
(2.19)
En los metodos
de muestreo con reemplazamien
to se demuestra (vease
Han-sen y Hurwitz, 1943) que
di = 1/(ni ), donde i es la probabilidad de que la
18
auxiliar, ui = 0, pbi =
Si no se dispone de informacion
di y el P EM LE para la media poblacional esta dado por
is
auxiliar, en
En el caso de no disponer de informacion
de verosimilitud
cuyo caso se toma ui = 0, el metodo
emprica produce pbi = di , y el P EM LE viene dado por
X
yP E =
di yi ,
di
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
al tratarse de
unidad i-esima
sea seleccionada. Ademas,
un muestreo con probabilidades iguales se tiene que i =
1/N y por tanto di = N/n, que coincide con los pesos
basicos
en un muestreo aleatorio simple. En consecuencia, las expresiones (2.15), (2.16), (2.17), (2.18) y (2.19)
La unica
coinciden en este diseno.
diferencia esta en la
js dj
= P
1/i
.
js 1/j
Algoritmo 2.1
is
te, esta
puede encontrarse aplicando la siguiente modifi del algoritmo de Newton-Raphson:
cacion
de la ecuacion
(2.13). Sabido esto, el
y es solucion
P EM LE se construye segun
(2.14).
Bajo este muestreo existen muchos procedimientos para extraer una muestra (consultese,
por ejemplo,
1952, Hajek,
1964, Ogus y Clark, 1971, Singh, 2003, etc).
En el Apendice
?? pueden consultarse funciones en el
R que permiten extraer mueslenguaje de programacion
tras basadas en estos procedimientos de muestreo con
probabilidades desiguales.
di = P
concava
X
e
di log(1 + t ui ),
l() =
(2.20)
debiendose
emplear metodos
especficos para la resolu de ecuaciones no lineales, como el de biseccion
o el
cion
se describe una mode Newton-Raphson. A continuacion
del metodo
dificacion
de Newton-Raphson, propuesto en
Chen et al. (2002), para el calculo del P EM LE en ca y esta
exista.
Sea
X di ui
.
g() =
1 + t ui
is
Para una muestra dada, s, el conjunto de valores factibles
de tal que pbi > 0 esta dado por el conjunto convexo
() =
g () =
X
is
1
g ()
di ui uti
(1 + t ui )2
)1
;
X
is
di ui
.
1 + t ui
complejos, como
se extiende a disenos
muestrales mas
clasica
del muestreo estratificado, se define la log-funcion
de verosimilitud en muestreo estratificado como
l(p) =
Nh
L X
X
log(phi ),
(2.21)
h=1 i=1
que puede verse como un total poblacional, cuya esti insesgada a partir de la muestra s y bajo un diseno
macion
muestral especfico esta dada por
b
l(p) =
L X
X
dhi log(phi ).
(2.22)
h=1 ish
1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
19
Wh
phi xhi = X.
(2.24)
ish
L
X
Wh
h=1
X
ish
pbhi yhi .
(2.25)
P h
Dependiendo de si las cantidades Xh = Nh1 N
i=1 xhi
restriccion
X
phi xhi = Xh , h = {1, . . . , L},
(2.26)
ish
L
X
Wh y P Eh .
h=1
solucion
del metodo
t
donde i = {1, . . . , N }, Ui = (xi , 1i , . . . , Li ) , U =
(X, W1 , . . . , WL )t y hi vale 1 si i h y 0 en otro caso.
de los tamanos
de los esEn este sentido, la informacion
tratos se usa de forma efectiva, lo cual no ocurre ni con
generalizado (GREG) ni con
el estimador de regresion
(ORE) propuesto en
el estimador optimo
de regresion
Rao (1994), y esto hace que se obtengan mejores estimaciones. A su vez, bajo muestreo estratificado, el ORE
eficiente que el GREG porque usa la correlacion
es mas
entre y y x. Asumiendo muestreo estratificado aleatorio, el
P EM LE es equivalente al ORE (y ambos mejores que el
GREG) puesto que los pesos muestrales son constantes
del estrato
dentro de cada estrato e incluyen el tamano
No obstante,
que es equivalente a incluir la correlacion.
muestral, por ejemplo muestreo
asumiendo otro diseno
e
xh ,
(2.29)
20
h = {1, . . . , L},
dhi (xhi e
xh )
= 0,
dh + th (xhi e
xh )
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
(2.31)
y dh =
para la
ish dhi . Sabido esto, el valor maximo
(2.22) es
funcion
XX
dhi log(b
phi ) =
es un problema
de una variable auxiliar, buscar la solucion
t
dhi log dh + h (xhi e
xh ) +
(2.32) mas
=
complejo al tener que aumentar o disminuir un vech ish
el calculo de pbhi requiere resolver repetitor t. Ademas,
XX
+
dhi [log(dhi ) + log(Wh )] .
(2.33) damente sistemas no-lineales de grandes dimensiones
(2.34), y esto en la practica
segun
es difcil
h ish
la expresion
de calcular. Por estas razones, se han buscado aproximaComo (2.33) es constante, se puede
maximizar
(2.32)
resP
pecto a e
xh y bajo la condicion
h Wh xh = X. Notamos
a
la
pr
actica
tanto
si
se
dispone
de
una
variable
auxiliar
e
que depende de xh . Usando de
que h es una funcion
como si son varias.
nuevo el metodo
de Lagrange, se tiene
En Wu (2004b) se detalla el siguiente planteamiento
xL , t) =
l(e
x1 , . . . , e
que resuelve los inconvenientes anteriores y se basa en
L
! la estrategia (G2).
XX
t X
t
El objetivo que se persigue es poder aplicar el Algoritxh X .
(2.23) por
proposito,
se tiene que reemplazar la expresion
h
t
(xhi e
xh ) h
X dhi e
otra
similar
formulada
a
nivel
poblacional.
Sean
las resxh
tt Wh = th tt Wh = 0, tricciones
t
dh + h (xhi e
xh )
L
ish
X
X
Wh
phi = 1,
(2.35)
t
t
(2.31) puede exprey por tanto h = Wh t . La expresion
ish
h=1
X
sarse como
phi = 1, h = {1, . . . , L 1}.
(2.36)
X
dhi (xhi e
xh )
ish
= 0.
(2.34)
dh + Wh tt (xhi e
xh )
is
Manteniendo al margen (2.35), se combinan (2.36) y
h
(2.24) anadiendo
en el vector de variables auxiliares L 1
variables indicadoras para cada estrato. Esto es, si xhi =
(xhi1 , . . . , xhiP ), se define
z1i
z2i
Algoritmo 2.2
Paso 1. Fijar un vector t y obtener las cantidades e
xh , h =
(2.34).
{1, . . . , L}, soluciones de la expresion
P
xh = X, se calculan las cantidades pbhi
Paso 2. Si h Wh e
segun
(2.30), donde h = Wh t. En caso contrario,
elegir otro t y volver al paso anterior.
Una vez calculadas las cantidades pbhi , con i sh
y h = {1, . . . , L}, mediante el algoritmo anterior, el
P EM LE esta dado por
yP E =
L
X
h=1 ish
pbhi yhi .
xh es monotona
Se tiene que h Wh e
respecto t. Esto es importante para determinar las soluciones e
xh ,
puesto que aumentando o disminuyendo el valor t,
z(L1)i
zLi
=
=
..
.
=
=
=
(W1 , . . . , WL1 , X 1 , . . . , X P )t , siendo
y Z
t
(X 1 , . . . , X P ) = X. As, las restricciones (2.36) y
Wh
h=1
phi zhi = Z.
(2.37)
ish
El problema de maximizar b
l(p) sujeta a (2.23) y (2.24)
es equivalente a maximizar b
l(p) sujeta a (2.35) y (2.37).
Usando el metodo
de los multiplicadores de Lagrange a
este
ultimo
planteamiento, se obtiene
pbhi =
dhi
= 0,
1 + t uhi
donde
dhi =
Wh
PL
dhi
P
h=1
ish
dhi
uhi = zhi Z,
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
21
de
y es solucion
L X
X
h=1 ish
dhi uhi
= 0.
1 + t uhi
(2.38)
existe.
tal solucion
estos
se construyen con ayuda de X para mejorar la pre en la estimacion
de parametros
cision
de la variable de
Vease,
interes.
por ejemplo, Cochran (1977) y Sarndal
et
al. (1992) para consultar los numerosos estimadores en la
literatura del muestreo de poblaciones finitas que hacen
auxiliar.
uso de la informacion
anterior, donde tan solo se conocen los
En la situacion
datos muestrales de las variables auxiliares, es necesario
medianestimar X o intentar dar una buena aproximacion
te alguna tecnica
o recurso. El muestreo bifasico
(tambien
denominado muestreo doble o en dos fases) permite estimar estas cantidades desconocidas y por tanto, es posible
auxiliar.
utilizar todos los metodos
basados en informacion
De este modo, en este ejemplo se resuelve el proble de parametros
ma de la estimacion
lineales en muestreo
bifasico
con disenos
muestrales arbitrarios en cada una
En muestreo bifasico,
el metodo
de verosimilitud
emprica puede ser aplicado como sigue. El P EM LE
viene dado por
X
y P Eb =
pbi yi
(2.39)
is
(pi 0)
(2.41)
is
pi u0i = 0
(2.42)
que viene a indicar que si los pesos que van a se estimados se ponderan sobre los datos muestrales del vector
de variables auxiliares de la segunda fase, se obtendra la
cantidad x0 , es decir, la media muestral del vector de las
variables auxiliares obtenida a partir de la muestra de la
primera fase. De ah la importancia de realizar un gran es para X con los
fuerzo para obtener una buena estimacion
datos de la muestra de la primera fase.
del problema planteado se resuelve por
La solucion
el metodo
de los multiplicadores de Lagrange, obteniendo
para todo i s las cantidades
como solucion
pbi =
donde
di = P
is
22
di
js
dj
= P
d0i di/s0
,
0
0
js dj dj/s
obtiene de la ecuacion
X di u0i
= 0.
1 + t u0i
is
2.2.2.
Propiedades teoricas
En esta seccion
se describen las propiedades
Esta seccion
de
los estimadores de verosimilitud emprica en muestreo es con otros estimadores.
tratificado y su relacion
A continuacion
se estudian las propiedades
asintoticas
del estimador de verosimilitud emprica
descrito en Chen y Qin (1993). Asumamos muestreo
de la muestra, n, y
aleatorio simple, donde el tamano
de la poblacion,
N , tienden a infinito cuando
el tamano
un cierto ndice, , tiende a infinito, es decir, existe una
de poblaciones finitas indexadas por , donde
sucesion
poblacional
= {(x1 , y1 ), . . . , (xN , yN )} y el tamano
N tiende a infinito. Por comodidad, se suprime el ndice
una variable
siempre que sea posible y se considera solo
auxiliar. Sea
is
di
,
1 + t u0i
x2 =
N
1 X
(xi X)2 ,
N 1 i=1
xy =
y2 =
N
1 X
(yi Y )2 ,
N 1 i=1
N
1 X
(xi X)(yi Y ),
N 1 i=1
N
1 X 2
ui ,
N 1 i=1
yu =
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
N
1 X
(yi Y )ui .
N 1 i=1
se estima a
La media poblacional de variable
de interes
P
del estimador y EL = is pbi yi . Los siguientes teotraves
remas pueden ser definidos.
yu
n
y2 2 .
donde 2 = 1
N
u
de este resultado puede consultarse
La demostracion
en Chen y Qin (1993). Una consecuencia importante que
puede observarse de este teorema es que a mayor cor entre u e y, mayor sera la ganancia en precision.
relacion
En la practica,
la cantidad 2 es desconocida, con lo
que se tiene que buscar un buen estimador. Una alternati de y2 , yu y u2 por separado, aunque
va es la estimacion
muestrales moderados trabaja mejor el estipara tamanos
mador jackknife para la varianza. En el siguiente teorema,
debido a Chen y Qin (1993), se demuestra que el estimador jackknife es un buen estimador para 2 .
Teorema 2.2 Bajo las mismas condiciones del Teorema
j2.1, si y EL (j) es el estimador cuando la observacion
esima
es eliminada y
X
n
(n 1)
(y EL (j) y EL )2 ,
bJ2 = 1
N
is
entonces,
bJ2 2 = op (1).
X
(xi xw )(xw X)
e
e
P
,
y GREG =
di yi , di = di 1
2
is di (xi xw )
is
yw =
di yi ,
is
xw X
+ op (n1/2 ),
2
d
(x
x
)
i
w
i
is
di xi
is
di = P
di
js
dj
h=1
is dhi (xhi xw )yhi
yP E = yw PL P h
(xw X)+op (n1
2
d
(x
x
)
w
hi
h=1
ish hi
donde
n=
en tres disenos
comunes, como son, el muestreo con
con reemplazaprobabilidades proporcionales al tamano
miento, el metodo
de Rao-Hartley-Cochran y el muestreo
por conglomerados.
de la varianza
Un punto importante es la estimacion
el Teorema 2.3, resulta evidel estimador y P E . Segun
dente que cualquier estimador de la varianza consistente
para y GREG sera consistente para el P EM LE. Aunque
esto es asintoticamente
valido,
no es atractivo usar un
estimador de la varianza del GREG para estimar la va
rianza del P EM LE. Una alternativa optima
es aplicar
estimadores de la varianza remuestreados, tales como
jackknife, bootstrap y replicaciones de muestras repetidas
balanceadas (ver Shao y Wu (1989, 1992), Chen y Qin
(1993) y Shao (1994)) sobre y P E , recalculando pbi en cada muestra.
muestral general
Propiedades para un diseno
xw =
L
X
nh
yw =
L X
X
dhi yhi ,
h=1 ish
h=1
xw =
L X
X
dhi xhi
dhi = PL
h=1
h=1 ish
dhi
P
jsh
dhj
L
X
h=1
Wh y h
y xst =
L
X
Wh xh .
h=1
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
23
y st = y st PL
(xst X),
P h
eh )2 /nh
h=1 Wh
ish (xhi x
definidas en (2.29). Cuando L
y las cantidades x
eh estan
permanece finito, x
eh xh = Op (n1/2 ) y el estimador y P E
es asintoticamente
equivalente al estimador lineal optimo
dado en Rao (1994).
2.2.3.
Estimadores modelo-calibrados
Una de las restricciones considerada en los estimadores de verosimilitud emprica viene dada por
X
pi ui = 0,
(2.43)
is
conocida de y
donde ui = u(yi , xi ) y u() es una funcion
y de x que verifica
N
1 X
ui = 0.
N i=1
(2.44)
ui = xi X, y se plantea la cuestion
mente la expresion
de como
de efectivo es el uso que se esta haciendo de
auxiliar. Si tal relacion
no es lineal, los estila informacion
madores de verosimilitud emprica obtenidos a partir de la
ui = xi X pueden resultar ineficaces y surge,
expresion
de calipor tanto, el problema de encontrar una funcion
apropiada para los datos del estudio, es decir, que
bracion
para poder usar la informacion
auxiliar de la mejor manera posible. Una alternativa eficiente para resolver este problema es el uso de los esti basados en
madores modelo-calibrados, los cuales estan
modelos de superpoblacion.
Sanchez-Crespo
(2002).
propuestos
Los estimadores modelo-calibrados estan
en Wu y Sitter (2001), y se obtienen adaptando un mode y a continuacion,
usando los valolo de superpoblacion,
res estimados mediante este modelo en la etapa de es As, se obtiene una funcion
eficiente de calitimacion.
y ademas
es posible encontrar la mejor funcion
bracion,
u() en el sentido de mnima esperanza bajo un modelo
de la varianza asintotica
de superpoblacion
basada en el
diseno.
Los valores ui pueden expresarse como
ui = wi
N
1 X
wi ,
N i=1
conocida. Es facil
demostrar que
donde wi es una funcion
tambien
se verifica (2.44), y por tanbajo esta situacion
to, se cumplen las condiciones necesarias para aplicar
la metodologa de verosimilitud emprica. Operando en la
(2.43) se llega a la restriccion
alternativa
restriccion
X
is
pi wi =
N
1 X
wi ,
N i=1
que es la que suele usarse en los estimadores modelocalibrados de verosimilitud emprica. Por tanto, el proble
ma de buscar unos valores optimos
ui para obtener esti eficientes, es similar al de encontrar la canmadores mas
tidades wi , para i s.
modelo de superpoblacion
basa ha sido discutida por diversos autores,
da en el diseno
vease,
por ejemplo, Godambe (1955), Godambe y Thompson (1973) y Cassel et al. (1976).
Un primer estimador modelo-calibrado surge cuan
do se asume el siguiente esquema asintotico.
Existe
de poblaciones finitas indexadas por . El
una sucesion
poblacional y el tamano
muestral para la poblacion
tamano
-esima
se denotan como N y n . Cuando ,
N y n . El ndice se suprimira para sim Por ejemplo, vease
plificar notacion.
Isaki y Fuller (1982)
24
(2.45)
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
para un mayor detalle de este esquema asintotico.
Por ulti
mo, sea y1 , y2 , . . . , yN una muestra aleatoria de un modelo
tal que
de superpoblacion
E (yi ) = i ,
V (yi ) = i2 ,
i = {1, 2, . . . , N }, (2.46)
yi = (xi , ) + i i
identicamente
distribuidas, con E (i ) = 0, V (i ) =
conocida y estrictamen 2 y i = (xi ) una funcion
te positiva que depende de xi .
2. El modelo lineal generalizado
g(i ) = xti
N
1 X
(wi )6 = O(1)
N i=1
y
N
1 X
(wi )2 c 6= 0 cuando N .
N i=1
Cw L no son muy
Estas condiciones sobre la sucesion
restrictivas y se usan para facilitar las demostraciones.
Asumiremos que {1 , . . . , N } L .
muestral es regular si el diseno
ndi
= O(1).
(C2.7). maxis
N
N
1 X
1 X
di wi
wi = Op (n1/2 ) para
N is
N i=1
de funciones (w1 , . . . , wN )
cualquier sucesion
L .
(C2.8).
de enlace
donde i = E (yi |xi ), g() es una funcion
varianza.
y () es la funcion
metodo
basado en el diseno.
Asumiendo una apro basada en el modelo, la dupla (yi , xi ) con i
ximacion
parametros
se pueden estimar usando procedimientos
los
estandares.
Bajo el enfoque basado en el diseno,
datos muestrales pueden no seguir la misma estructura
finita completa bajo un esquedel modelo que la poblacion
ma muestral complejo, y puede carecer de sentido des En este caso, se reemde el punto de vista del diseno.
de basada en los datos de
plaza por N , una estimacion
b
completa. N se reemplaza entonces por ,
la poblacion
basada en el diseno
de los datos muesuna estimacion
trales (vease
Godambe y Thompson, 1986).
Asumiendo el modelo (2.47), el estimador de verosimilitud pseudo emprico modelo-calibrado se construye
b Los valores ui vienen dados por
tomando wi = (xi , ).
1 P N
b Consideranui =
bi N
bi , donde
bi = (xi , ).
i=1
do estas cantidades en las expresiones (2.12) y (2.13) se
obtiene el M CP E.
Al igual que ocurre bajo el primer M CP E que
se ha definido, en Wu (2003) se demuestra que
entre todas las clases de estimadores yeCw , donde
Cw = {w1 , w2 , . . . , wN } L , el valor C =
en
{(x1 , ), . . . , (xN , )} como variable de calibracion
yCw )] bajo el modelo (2.47) y para
(2.45) minimiza E [AVp (e
muestral regular.
cualquier diseno
se resumen las observaciones mas
imA continuacion
portantes sobre los estimadores de verosimilitud emprica
modelo-calibrada.
basados en una aproximacion
1. En Wu y Sitter (2001) se demuestra que reemplazar
2.
i = {1, . . . , N },
(2.47)
i = {1, . . . , N },
Con probabilidad tendiendo a uno, el M CP E existe y se puede calcular usando el algoritmo 2.1 de
Chen et al. (2002).
auxiliar depende
El uso efectivo de la informacion
entre
los parametros
estimados y de la relacion
la variable respuesta y las covarianzas. Por tanto,
sobre las variables auxiliares sin
usar la calibracion
un estudio exhaustivo previo no es usualmente una
buena aproximacion.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
25
lineal entre y y
4. Es sabido que para una relacion
el vector de variables auxiliares, se toma ui =
del P EM LE. En esta
xi X para la construccion
el P EM LE y el M CP E son asintotica
situacion,
mente equivalentes si se considera
bi = xti b como
para el calculo
variable de calibracion
de la aproxi modelo-calibrada. La demostracion
de este
macion
resultado puede consultarse en Wu y Sitter (2001).
entre y y x es lineal, tan solo
el
5. Si la relacion
conocimiento de X es suficiente para obtener estimadores eficientes para la media o el total pobla no es lineal o el parametro
de interes
datos
auxiliar completamente disponible y/o mas
sobre el modelo son esenciales para una esti optima.
macion
6. Al igual que se ha comentado anteriormente, las
cantidades pbi son positivas. Esta propiedad no se
ni en
cumple ni en los estimadores de calibracion
calculo del GREG y juega un papel muy importante
de otros parametros
en
en la estimacion
de interes
de distribucion,
2.2.4.
Propiedades teoricas
(xi , t)
es continua en t y
t
(xi , t)
h(xi , )
t
P
para t en un entorno de , y N 1 N
i=1 h(xi , ) =
Op (1).
bi
di
bi B
N i=1
N is
con
bN =
B
is
P
di q i
bi
= Pis
.
d
q
is i i
equivalente
Puesto que y M CP E es asintoticamente
al y M C , las mismas expresiones de la varianza y del
estimador de la varianza de y M C pueden usarse para
N
1 X
Ui
Uj
(
,
i
j
ij
N 2 i<j
i
j
de segundo
donde ij son las probabilidades de inclusion
orden, Ui = yi i BN , i = (xi , N ),
BN =
PN
qi (i N )(yi Y )
PN
2
i=1 qi (i N )
i=1
y N =
N
1 X
i .
N i=1
2
n
1 X i j ij ui
uj
,
Vb (y M CP E ) = 2
N i<j
ij
i
j
bN .
bi B
donde ui = yi
2.3.
26
P
di qi yi
y = Pis
is di qi
di qi (b
i )(yi y)
,
d
i )2
is i qi (b
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
2.3.1.
Introduccion
auxiliar
En la practica,
es comun
el uso de informacion
Esta tecnica
(Deville y Sarndal,
metodo
de calibracion
1992) y el metodo de verosimilitud pseudo emprica (Chen y Qin, 1993,
Chen y Sitter, 1999, Wu y Sitter, 2001, Wu, 2002) pueden
usarse para estimar el total poblacional, la media pobla y cuantiles. Ambos meto
cional, funciones de distribucion
auxiliar de una o mas
variables audos usan informacion
xiliares.
metodo
de verosimilitud emprica asume respuesta completa sin valores perdidos, esto es, se asume que ninguna
en las
unidad muestral falla para proporcionar informacion
variables de estudio y auxiliares.
etc.
del estudio, perdida
accidental de informacion,
se asume que si hay falta de respuesEn esta seccion,
ta, esta
es uniforme. Tratar con datos faltantes en una in por muestreo no es un asunto relativamente
vestigacion
aplicar el metodo
de verosimilitud emprica a las unidades
llamo analisis
de casos completos, puede producir sesgo
grandes
en las estimaciones y varianzas muestrales mas
(ver Rubin, 1987 o Little y Rubin, 1987).
es otra tecnica
La imputacion
que puede usarse en los
individuos con falta de respuesta (Little y Rubin, 1987, Rao
metodo
de verosimilitud emprica puede dirigir a inferen
cias no validas.
Por ejemplo, la varianza puede resultar
de valoseriamente subestimada cuando la proporcion
(Rao y Shao, 1992, Sarndal,
perdidos},
{i s | xi , yi no estan
sB
sC
Asumiendo muestreo aleatorio simple sin reemplazamiento, Toutenburg y Srivastava (2000) propusieron cuatro estimadores para la media poblacional de y:
npq xA + pxB
,
(2.48)
yT 1 = yA
(n q)xA
(n q)xA
,
(2.49)
yT 2 = yA
npq xA + pxB
yT 3
yT 4
nq A
npq y A + qy C
x ,
A
B
np
npq x + px
(2.50)
(2.51)
to de parametros
poblacionales.
Rueda y Gonzalez
(2004) propusieron varios esti muesmadores que pueden usarse bajo cualquier diseno
tral en presencia de datos faltantes. Estos estimadores
2
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
27
basados en metodos
diferencia y reestan
de tipo razon,
Por ejemplo, el estimador siguiente es asintotica
gresion.
mente insesgado, bajo muestreo aleatorio simple es
asintoticamente
normal y es mejor, en el sentido de error
cuadratico
medio, que el resto de estimadores propuestos.
y Reg =
+
breg y A
HT
b reg )y C
HT +
+ (1
A
donde pbA
i maximiza l(p ) =
pA
i = 1
donde y iHT y xiHT son los estimadores de HorvitzThompson (1952) basados en si (i = A, B, C),
d is (x, y) y Vd
arisA (x) denotan los estimadores de
Cov
A
Estimador propuesto
y Sarndal
et al. (1992).
X A
X C
A
C
=
di yi ; yw
=
di yi ;
(2.53)
yw
isA
isC
AC
yw
=
dA
i xi
x
B
w =
isA
dB
i xi
(2.54)
isB
x
AB
=
w
dAB
xi ;
i
isA sB
con
= P
dA
i
dA
i
A
js1 dj
dB
= P
i
= P
dC
i
dAB
= P
i
dB
i
jsB
dC
i
jsC
dC
j
dB
j
dAC
= P
i
dAB
j
dAC
i
jsA sC
(2.55)
dAB
i
jsA sB
dAC
j
(2.56)
A
B
B
dA
i = 1/i , di = 1/i ,
(2.57)
C
AB
dC
= 1/iAB , dAC
= 1/iAC .
i = 1/i , di
i
Hajek
dado por is di yi . Este estimador no usa la variable auxiliar x.
Sea el P EM LE de Y dado por
X A
yA
pbi yi ,
PE =
isA
28
(0 pA
i 1),
(2.58)
pA
i ui = 0.
(2.59)
Considerando el metodo
de multiplicadores de Lagrange,
dado por
pbA
i esta
pbA
i =
dA
i
, para i sA ,
1 + A ui
(2.60)
obtiene de la ecuacion
X
dA
i ui
= 0.
1 + A ui
(2.61)
dAC
yi ;
i
isA sC
x
A
w =
A
dA
i log pi sujeta a
isA
isA
2.3.2.
isA
isA
(2.52)
d is (x, y) h
Cov
B
A
b
,
X breg xA
HT + (1 reg )xHT
Vd
aris (x)
no estan
de
sB , aunque estos
verosimilitud emprica.
A
Aunque y AB
P E parece mejor estimador que y P E al usar
de las muestras sA y sB , esteP
estimador no
informacion
=
resulta apropiado porque las condiciones isA pbAB
i
P
AB
1 y
p
b
u
=
0
no
se
cumplen.
El
estimador
no
i
i
isA
queda bien construido y las ventajosas propiedades del
metodo
de verosimilitud emprica no se sostienen. En el
2.3.4 puede confirmase
estudio emprico de la Seccion
esta observacion.
Desafortunadamente, el estimador propuesto y A
P E no
de la variable de estudio y proporcionada
usa informacion
por la muestra sC . Para resolver este problema, se propone una clase de estimadores que usan toda la infor de la variable y incluida en las muestras sA y sC
macion
Rueda, Munoz,
(vease
tambien
Berger, Arcos y Martnez,
2006). Esta clase viene dada por
C
y P E = y A
yw
,
P E + (1 )
(2.62)
donde es una constante debidamente escogida que ve 2.3.3, se proponen valorifica 0 < < 1. En la Seccion
C
esta definido en
res apropiados para . El estimador yw
(2.53).
Se observa que si = 1, el estimador resultante es
incluido en la clase
yA
P E , y por tanto, este estimador esta
y P E .
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
2.3.3.
Propiedades teoricas
rianza asintotica
de y P E tambien
Sean las siguientes condiciones.
axisA |ui | = op (n1/2 ).
(C2.15). uA = m
P
A
is di ui
(C2.16). P A A 2 = Op (n1/2 ).
isA di ui
(2.63)
donde
A
A
= yA
yGREG
w + (X xw )b,
X
b=
A 2
dA
i (xi xw )
()
= 0,
=B
(2.65)
isA
Demostracion
Chen y Sitter (1999) demostraron que y A
P E es
A
y A2
GREG = y w + (X xw )B,
A2
C
yGREG
+ (1 )
yw
,
yP E l
(2.68)
varianza asintotica
de yP E esta dada por
h
i
A
A
yw
AV (
yP E ) = 2 V (
) + B 2 V (
xA
yw
,x
A
w ) 2BCov(
w) +
(2.69)
h
i
C
A
C
C
yw
)+2(1) Cov(
yw
, yw
)BCov(
xA
,
w
) .
+(1)2 V (
w y
(2.64)
A A
dA
i xi yi y w xw
isA
A
A2
l yGREG
. Esto completa la deesto implica que yGREG
mostracion.
con
()
= 0,
(2.66)
Demostracion
(2.68) implica que la varianza
La aproximacion
asintotica
de yP E esta dada por
A2
C
=
(2.70)
V
yGREG
+ (1 )
yw
A2
C
A2
C
2 V (
yGREG
)+(1)2 V (
yw
)+2(1)Cov(
yGREG
, yw
).
A2
Usando (2.66), la varianza de yGREG
es
A2
A
x
V (
yGREG
) = V yw
+ (X
A
w )B
A
= V yw
x
A
wB
(2.71)
A
A
) + B 2 V (
xA
yw
,x
A
V (
yw
w ) 2BCov(
w ).
A2
C
El valor Cov(
yGREG
, yw
) esta dado por
A2
C
A
C
C
Cov(
yGREG
, yw
) = Cov(
yw
, yw
)BCov(
xA
w
). (2.72)
w, y
con
B=
Cov(x, y)
.
V ar(x)
(2.67)
Demostracion
Para establecer este resultado, se asume que la
finita envuelve una sucesion
de poblaciones
poblacion
donde n y N aumentan de modo que n/N f cuando n
y donde f es una constante.
Randles (1982) demostro que el comportamiento
asintotico
de algunas familias comunes de estadsticos
El estimador optimo
de la clase propuesta esta dado
por el estimador definido en (2.62) con un valor que mi
nimize la varianza asintotica
dada por (2.69).
La varianza asintotica
(2.69) puede expresarse como
AV (
yP E ) = 2 M + (1 )2 N + 2(1 )L ,
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
29
donde
A.
C
yw
),
(2.74)
N = V (
de los estimadores propuestos se ha anaLa precision
A
C
A
C
lizado
por
medio
de un estudio emprico, donde para cada
= Cov(
yw , yw ) BCov(
xw , yw ).
(2.75)
L
se han representado tres numeros
poblacion
diferentes de
es solu- valores perdidos para la variable x, p. Varios valores perdiEl valor opt que minimiza la varianza asintotica
de la ecuacion
cion
dos de y, q, se han representado en el eje de abscisas. De
mador estandar
de tipo Hajek
para la media poblacional
AC
N L
; (ii) y T 1 ,
basado en las muestras sA y sC , es decir, yw
.
(2.76)
opt =
y T 2 , y T 3 y y T 4 , los estimadores propuestos en ToutenM + N 2L
burg y Srivastava (2000); (iii) y AB
P E , el P EM LE basado
Sustituyendo opt en (2.69), se obtiene la varianza
que los
en las muestras sA y sB . Aunque se ha senalado
asintotica
mnima, dada por
pesos no quedan bien definidos, se usa en el estudio de
2
para observar su comportamiento; (iv) y Reg , el
M +(1opt )2 N +2opt (1opt )L . simulacion
AV (
yP Eopt ) = opt
estimador
propuesto en Rueda y Gonzalez
(2004) basado
(2.77)
aleatorio
simple con tamano
Bajo
P muestreo aleatorio simple y muestreo estratifi- se eliminan de la muestra p elementos de la variable aud
=
N
,
esto
es,
el
estimador
de
Horvitzcado,
is i
El cumplimiento de todos
de las expresiones (2.73), (2.74) y (2.75) pueden obtener- sC pueden definirse facilmente.
de Sesgo Relativo
en Rueda y Gonzalez
(2004).
ECM (y j )
1 X |y j (b) Y |
,
; ERj =
SRj =
Con estas estimaciones, puede obtenerse una aproB
ECM
(y AC
Y
w )
b=1
del esti
ximacion
opt de opt . Por lo tanto, la expresion
mador propuesto viene dada por
el Error Cuadratico
b indica la b-esima
simulacion,
Medio
emprico esta dado por
A
C
opt yP E + (1
opt )
yw .
(2.78)
yP Eopt =
B
X
ECM (y j ) = B 1
(y j (b) Y )2 ,
Tambien
es posible establecer la insesgadez
b=1
asintotica
de y
P Eopt .
2.3.4.
Propiedades empricas
(2.79)
AB
y j = 1, . . . , 8 se refiere a los estimadores y A
P E , yP E ,
e
y P Eopt , y Reg , y T 1 , y T 2 , y T 3 y y T 4 .
Las simulaciones se han llevado a cabo en R y los
codigos
se encuentran en el Apendice
??.
En primer lugar, se observa que el estimador y T 3
respecto
posee una considerable ganancia en precision
a los estimadores y T 1 , y T 2 y y T 4 . Con el fin de obtener
claridad en las figuras, las lneas correspondientes a
mas
los estimadores y T 1 , y T 2 y y T 4 no se han incluido.
Las Figuras B.1, B.2 y B.3 representan los valores
de la Eficiencia Relativa (eje de ordenadas) para los esAB e
timadores y A
P E , y P E , y P Eopt , y Reg y y T 3 bajo muestreo
aleatorio simple y diferentes valores de p y q. Las lneas
AC
, el
horizontales en el punto 1 representan la ER para yw
estimador estandar.
De estas figuras, se puede llegar a las siguientes conclusiones generales:
entre y y x y, ademas,
el
1. Si aumenta la relacion
numero
de datos faltantes es escaso, todos los es
timadores (excepto y T 3 ) obtienen mejores estima
ciones con respecto al estimador estandar.
Cuando ambos p y q incrementan, las estimaciones son
30
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
metodo
de verosimilitud emprica, se observa
e
son equivalentes
1. Los estimadores y A
P E y y P E
de parametros
optima
para la estimacion
lineales en presencia de datos faltantes y con un buen uso de la informa auxiliar.
cion
de la funcion
de
Estimacion
distribucion
2.4.
Introduccion
2.4.1.
opt
entre y y x y el
cuando existe una fuerte relacion
La ganannumero
de datos perdidos es pequeno.
A
2. y AB
P E nunca es mejor que los estimadores y P E o
e
para
y P Eopt en terminos
de eficiencia. La razon
bien definidos.
esto es que sus pesos no estan
de sA , sB y sC es
Un estimador que usa la informacion
y Reg . En las poblaciones Hospitals y Fam1500 (cuando se
e
usa x1 ), y A
P E , y P Eopt y y Reg son equivalentes. En el resto
y P E .
de los casos, y Reg nunca mejora en eficiencia a e
opt
de sA , sB y sC , e
y P Eopt
Aunque y Reg usa informacion
el estimador estandar:
eficiente que e
es
unicamente
mas
y P E
1. y AC
w
opt
cuando la relacion
y el
numero
total de datos perdidos, p + q, es alto. En
este caso, el resto de estimadores obtienen significativamente peores estimaciones. Esto ocurre, por
ejemplo, en Pop06, p = 80, q = 60, esto es, el 70 %
se proporciona
logico
porque si p/q es pequeno,
con
informacion
por la muestra sC en relacion
mas
AC
usa la informacion
de
tambien
la muestra sB , y yw
sC .
Las Figuras B.4, B.5 y B.6 muestran los valores del
Sesgo Relativo (SR) para todos los estimadores. Puede
todos en un ranobservarse que los valores SR estan
e
go razonable, teniendo los estimadores y A
P E y y P Eopt el
de la funcion
de distribuEl problema de la estimacion
es un tema actual y muy importante del muestreo en
cion
que perpoblaciones finitas, por tratarse de una funcion
importantes de
mite determinar las caractersticas mas
en estudio, proporcionando informacion
rela poblacion
La estimacion
queda resuelto con el
de tipo no funcional tambien
de distribucion.
Los cuantiles,
conocimiento de la funcion
direcpor ejemplo, pueden obtenerse mediante inversion
de distribucion.
Ademas,
permite obtener
ta de la funcion
de las lneas
medidas importantes como la determinacion
de bajos ingresos, etc. y son
de pobreza, proporcion
muy utiles
en investigaciones de tipo social o economi
buenos metodos
y tecnicas
para obtener las mejores estimaciones posibles.
de distribucion
para una
Recordemos que la funcion
y, y una poblacion
finita, U , es la provariable de interes,
de unidades en U para las cuales el valor de y
porcion
de
es menor o igual que t. El problema de la estimacion
de distribucion
en la presencia de informacion
la funcion
debido
auxiliar ha recibido recientemente mucha atencion
cona las importantes propiedades que posee, el interes
siderable que tiene cuando, por ejemplo, y es una medida
de gastos o ingresos, etc.
de distribucion
poblacional,
La funcion
Fy (t) =
N
1 X
(t yi ),
N i=1
(2.80)
lm Fy (t) = 0
lm Fy (t) = 1.
t+
no-decreciente: t1 < t2 ,
(C2.18). Fy (t) es monotona
Fy (t1 ) Fy (t2 ).
(C2.19). Fy (t) es continua por la derecha: Dado t > t ,
lm Fy (t) = Fy (t ).
tt
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
31
cion.
Asumamos que la variable de estudio, y, esta altamente asociada con un vector auxiliar de variables, xi =
(xi1 , . . . , xip , . . . , xiP )t , donde los valores x1 ,. . . ,xN son
Como se ha comentado
conocidos para toda la poblacion.
en varias ocasiones, en las investigaciones por muestreo
poblacional auxiliar
es comun
el uso de esta informacion
para incrementar la precision
en la etapa de estimacion
de los estimadores de una media o un total. Bajo este es auxiliar ha sido extensacenario, el uso de la informacion
mente estudiado, pero bastante menos ha sido el esfuerzo
de la funcion
de distribucion
y
por aplicarlo a la estimacion
de las
cuantiles poblacionales. Notamos que la aplicacion
de medias y totales
tecnicas
usuales para la estimacion
de la funcion
de distribuen el escenario de la estimacion
producen resultados no deseables y, en general, con
cion
una perdida
significativa en eficiencia.
Por otro lado, el numero
de variables auxiliares a usar
perdida
de eficiencia provocada por el hecho de no poder
auxiliar multivariante. Estas consiusar esta informacion
eficiente de la inforderaciones sugieren que un uso mas
auxiliar en la etapa de estimacion
es posible en el
macion
de la funcion
de distribucion.
problema de la estimacion
cion
problema de la perdida
de eficiencia.
2.4.2.
cion
X
is
donde
(2.82)
b i)
di (t Rx
P
is di yi
b
P
.
R=
is di xi
32
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
[0, 1] y no siempre son funciones monotonas
respecto a t,
de
con lo que no cumplen las propiedades de la funcion
Por este motivo, son numerosos los casos en
distribucion.
directa de Fbr (t) y Fbd (t) no produce
los que la inversion
buenas estimaciones para los cuantiles.
En Rao et al. (1990) y en Francisco y Fuller (1991)
monotona
dadera funcion
que una verdadera
de distribucion
debe satisfacer las condiciones
funcion
(C2.17), (C2.18) y (C2.19).
generalizado
El conocido estimador de regresion
(Deville y Sarndal,
1992) y el de verosimilitud emprica
(Chen y Qin, 1993, Chen y Sitter, 1999). Notamos que
estos procedimientos no son dependientes de un modelo, aunque usan uno de ellos para construir el estimador.
En otras palabras, los estimadores modelo-asistidos son
aproximadamente (asintoticamente)
insesgados bajo el
independientemente de si el modelo es correcto o
diseno,
no, y son particularmente eficientes si el modelo en el que
modelo-asistida
se basa es correcto. As, la aproximacion
independientemente de
cias validas
basadas en el diseno,
de la variable de interes
con la variable auxiliar.
la relacion
Un ejemplo de estimadores modelo-asistidos para la fun de distribucion
son los estimadores Fbr (t) y Fbd (t).
cion
bre cumplimiento cuando el modelo especificado es incorrecto. Bajo muestreo aleatorio simple, Wang y Dorfman (1996) combinaron los estimadores de Chambers y
Dunstan (1986) con estimadores de tipo diferencia basa en un estimador hbrido, que bajo ciertas
dos en el diseno
eficiente que ambos estimadores. No
condiciones, es mas
obstante, este estimador hereda las desventajas de am a
bos estimadores y tiene una complicada generalizacion
muestrales mas
complejos. Silva y Skinner (1995)
disenos
llevaron a cabo un estudio exhaustivo de las propiedades
del estimador, y destacaron algunos problemas impor
tantes, como por ejemplo, la perdida
en eficiencia cuando
de cuantiles.
este estimador se usa en la estimacion
Finalmente, la recientemente desarrollada aproxi modelo-calibrada (Wu y Sitter, 2001) puede tammacion
usarse en las investigaciones por muestreo. Estos
bien
estimadores se obtienen, en primer lugar, adaptando un
y a continuacion,
usando los
modelo de superpoblacion,
valores estimados mediante este modelo en la etapa de
dada se
estimacion.
Por tanto, si para una poblacion
asociado o un modeconoce el modelo de superpoblacion
entonces
lo que se ajuste bastante bien a dicha poblacion,
puede resultar interesante utilizar la perspectiva modelo de la funcion
de distribucion
distribucion
de verosimilitud emprica
distintos. Estos modey tres modelos de superpoblacion
si se satisface
asintoticamente
insesgados bajo el diseno
el modelo y aproximadamente insesgados bajo el modelo. Por ultimo,
los estimadores resultantes son verdaderas
en el diseno,
generales para la es de ecuaciones (vease
timacion
por ejemplo Godambe y
Thompson, 1986 y Wu y Sitter, 2001).
Dado el modelo , el estimador modelo-calibrado de
de disverosimilitud emprica (M CP E) para la funcion
viene dado por
tribucion
X
X
pbi (t yi ) =
pbi zi ,
(2.83)
FbM CP E (t) =
is
is
(2.11) sujeta a
donde los pesos pbi maximizan la funcion
wi de la restriclas restricciones (2.5) y (2.45). La funcion
(2.45) viene dada por
cion
wi = E (zi |xi ) = E ((t0 yi )|xi ) = P (yi t0 |xi ).
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
33
muestral.
de la varianza asintotica
basada en el diseno
En lo que sigue, se describen tres estimadores de
verosimilitud pseudo emprica modelo-calibrados distintos
de distribucion
basados en diferentes mopara la funcion
(vease
delos de superpoblacion
Chen y Wu, 2002). Wu
(2003) proporciona resultados de optimalidad para estos
estimadores.
que viene
poblaciones finitas es el modelo de regresion,
dado por
yi = (xi , ) + i i ,
i = {1, . . . , N },
(2.84)
conocida de xi , y i , con
donde i es una funcion
i = {1, . . . , N }, son variables aleatorias independientes
e identicamente
distribuidas con media 0 y varianza 2 .
lineal se tiene que
Para un modelo de regresion
(xi , ) = xti , aunque se puede considerar cualquier otro
modelo no lineal. Sea N y N los estimadores de y ,
respectivamente, basados en los datos poblacionales. Se
lineal con variansabe que bajo un modelo de regresion
P , N = (xt x)1 xt y,
zas homogeneas
y de dimension
donde x es la matriz de orden N P , y = (y1 , . . . , yN )t , y
2
=
N
(y xN )t (y xN )
.
(N P )
t0 (xi , N )
i
(2.85)
de distribucion
de los terminos
es necesario una
tambien
dades wi . Para este proposito,
de G(). Una posible estimacion
viene dada
estimacion
Gn (), donde
por los residuos estimados, bi , y la funcion
b
yi (xi , )
,
i
P
X
bi )
is di (t
P
di (t bi ) =
,
Gn (t) =
d
j
js
is
bi =
basada en el diseno
para N . En cony b es la estimacion
!
b
t0 (xi , )
.
(2.86)
wi = Gn
i
En algunas situaciones, resulta razonable asumir que
normallos terminos
de error i en el modelo (2.84) estan
mente distribuidos. En este caso, se llega a que
t0 (xi , N )
,
(2.87)
wi =
i N
de distribucion
de la ley de prodonde () es la funcion
en el diseno.
se sustituye N y N por b y
muestral de los
las estimaciones basadas en el diseno
parametros
desconocidos del modelo. De este modo, se
llega a la expresion
!
b
t0 (xi , )
.
(2.88)
wi =
i
b
En resumen, el estimador M CP E segun
el modelo
P
(1)
(2.84) esta dado por FbM CP E (t) = is pbi (t yi ), donde
(2.11) sujeta a las reslos pesos pbi maximizan la funcion
tricciones (2.5) y (2.45). Las cantidades wi de la segun vienen dadas por (2.86), o por los valores
da restriccion
(2.88) en caso de existir normalidad en los errores del mo
delo de superpoblacion.
wi
= xti ,
(2.89)
log
1 wi
varianza V (w) = w(1 w). Bajo este mocon funcion
delo, el parametro
poblacional N puede definirse como
de las ecuaciones de
optimas
una solucion
on
P estimaci
esto es, N
x
(z
w
basadas en la poblacion,
i
i ) = 0,
i
i=1
donde zi = (t0 t). As,
wi =
exp(xti N )
.
1 + exp(xti N )
(2.90)
b para el parametro
,
34
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
no
Estimadores bajo valores pseudo estimados de de la variable y para obtener el valor t0 . Esta eleccion
un modelo semi-parametrico
La variable zi = (t yi ) toma solamente valores 0
o 1, pero los valores estimados wi construidos bajo los
siempre entre 0 y 1. Tammodelos (2.84) y (2.89) estan
es posible utilizar los llamados valores pseudo estibien
son variables
mados wi = (t0 ybi ), los cuales tambien
dicotomicas
y donde ybi son valores estimados para yi .
b (3)
P Por tanto, el estimador viene dado por FM CP E (t) =
bi (t yi ), donde los pesos pbi se obtienen usando
is p
los valores pseudo estimados
wi = (t0 ybi ).
(2.92)
En la practica
se usan estas cantidades debido a que los
valores
(2.93)
wi = (t0 (xi , N )),
son desconocidos.
Bajo un modelo lineal simple con una unica
variable
auxiliar, (x, ) = 0 + 1 xi , y
N
N
1 X
t0 0
1 X
,
wi =
(t0 (0 + 1 xi )) = Fx
N i=1
N i=1
1
de distribucion
de la variable x.
donde Fx (t) es la funcion
(2.45) se resume a
La restriccion
!
X
t0 b0
b
b
,
pi (t0 (0 + 1 xi )) = Fx
b1
is
de
con lo que solamente se debe conocer la distribucion
(3)
frecuencias de x para obtener FbM CP E (t).
Notamos que puede usarse cualquier modelo de su Si el modelo de superpoblacion
asociado a
perpoblacion.
en estudio es otro distinto a cualquiera de esla poblacion
asociado.
optimas
bajo el modelo de superpoblacion
del valor t0 es un aspecto importante,
La eleccion
precisos para estipuesto que los estimadores son mas
mar Fy (t) cuando t esta en las cercanas del punto t0 .
En consecuencia, ningun
wi con un valor fijo t0 puede
2.4.3.
En esta seccion
basado en el diseno
funcion
que disfruta de varias propiedades imporde distribucion
tantes.
Para construir el nuevo estimador para Fy (t), se modifican los pesos del estimador FbHKy (t), es decir di , por
unos nuevos pesos pbi . Este conjunto de pesos se de modelo-asistida
termina por medio de una aproximacion
i = 1, . . . , N,
(2.94)
En la practica,
los valores del vector son desconoci puede deducirse que
dos. Mediante la teora de regresion,
2
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
35
el estimador de mnimos cuadrados de (Sarndal
et al.,
1992)
!1
X xi yi
X xi xti
B=
(2.95)
2
2
iU
iU
es el mejor estimador insesgado lineal de bajo el mo
delo (2.94). B es un parametro
poblacional desconocido,
pero puede estimarse usando los datos muestrales y apli de las probabilidades de
cando el principio de estimacion
esto es
inclusion,
!1
X di xi yi
X di xi xti
b
.
(2.96)
=
2
2
is
is
El estimador propuesto modelo-asistido basado en el
metodo
de verosimilitud emprica se obtiene definiendo la
pseudo-variable g, donde gi = bt xi , para i s. Esta varia para yi bajo
ble puede considerarse como una prediccion
el anterior modelo lineal.
Sean tg25 = Qg (0,25), tg50 = Qg (0,5) y tg75 =
Qg (0,75) los cuartiles poblacionales de la variable g,
donde Qg () = nf{t | Fg (t) } = Fg1 (). Bajo nues disponibles,
tro marco de trabajo, estas cantidades estan
auxiliar poblapuesto que asumimos que la informacion
cional es conocida. El estimador de verosimilitud pseudo
de distribucion
N
1 X
(tg25 gi ) = Fg (tg25 ) = 0,25,
N i=1
is
(2.98)
N
X
1 X
pi (tg50 gi ) =
(tg50 gi ) = Fg (tg50 ) = 0,5,
N i=1
is
(2.99)
N
X
1 X
pi (tg75 gi ) =
(tg75 gi ) = Fg (tg75 ) = 0,75.
N i=1
is
(2.100)
Notese
que la idea de usar (t gi ), para algun
t, co para construir restricciones
mo una variable de calibracion
tales como (2.98), (2.99) y (2.100) fue discutida, en primer
lugar, por Wu y Sitter (2001) y posteriormente elaborada
en Chen y Wu (2002).
Existen dos aspectos importantes relacionados con
Estos
este o cualquier otro procedimiento de estimacion.
son la eficiencia y la consistencia. La eficiencia se re
fiere al cumplimiento del estimador en terminos
de sesgo
2.4.5, se realiza
y error cuadratico
medio. En la Seccion
de la eficiencia de FbM A (t) con respecuna comparacion
to otros estimadores conocidos. Las restricciones (2.98),
(2.99) y (2.100) son requerimientos de consistencia al
tamente usados y son impuestos en la practica
porque
resulta razonable pensar que los pesos que dan estimaciones perfectas para las variables auxiliares, deberan
dar una buena estimacion
para la variable de estambien
tudio.
36
pi (tg25 gi ) =
cion
de verosimilitud emprica. Si se usaran
de tres valores t0 , esto es, un mayor numero
de resmas
como
o tambien
pi ui = 0,
(2.102)
is
donde ui = (tg gi ) K.
di
,
1 + t ui
(2.103)
es
donde el multiplicador de Lagrange , cuya dimension
X
is
di ui
= 0.
1 + t ui
(2.104)
unica
solucion
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
2.4.4.
Propiedades teoricas
mador, las cuales pueden ser importantes en la practica. En concreto, se estudia la existencia del estimador, se
de disdemuestra que FbM A (t) es una verdadera funcion
se obtiene otra propiedad relacionada con la efitribucion,
ciencia del estimador propuesto y se establecen algunos
resultados asintoticos.
de la estimacion
es bastante diferente. En particular, para el procedimiento propuesto, el vector K es siempre un punto interior del
conjunto formado por {(tg gi ), i s}, puesto que los
componentes de este vector son 0 o 1, mientras que los
componentes de K toman valores dentro de [0, 1]. Notamos que los componentes del vector (tg gi ) no pueden
ser todos 0 o 1 para i s, salvo en situaciones extremas.
Sea t0 = (t0(1) , . . . , t0(h) , . . . , t0(H) )t otro vector dife y que puede
rente de tg con similar o diferente dimension
usarse en restricciones como la dada por (2.101). Respecto al punto (ii), decir que resulta necesario una cuidadosa
del vector t0 para evitar o eliminar el problema
eleccion
de multicolinealidad. En lo que sigue, se justifica la elec tg = (tg25 , tg50 , tg75 )t . En primer lugar, si se toman
cion
valores de t0(h) con dos ellos muy cercanos, entonces,
probable que surga el problema de la mulresulta mas
ticolinealidad. Si se usan valores extremos de t0 (o muy
de distribucion
funcion
FbM A (t) es una autentica
es comprobar si el estimador
La siguiente cuestion
de distribucion.
Para
propuesto es una verdadera funcion
determinar esto, debemos verificar si se satisfacen, para
FbM A (t), las condiciones (C2.17), (C2.18) y (C2.19) de la
2.4.1.
Seccion
Resultado 2.1 El estimador FbM A (t) es una verdadera
de distribucion.
funcion
Demostracion
demostrar que la condicion
(C2.17) siemResulta facil
pre se satisface si los pesos pbi , para i = 1, . . . , n, son
independientes de t:
X
pbi (t yi ) =
lm FbM A (t) = lm
t
X
is
t+
X
is
pbi lm (t yi ) =
lm FbM A (t) = lm
=
is
t+
X
is
is
pbi (t yi ) =
pbi lm (t yi ) =
t+
pbi 0 = 0.
X
is
pbi = 1.
continua por la
Por otro lado, FbM A (t) es una funcion
derecha y monotona
no decreciente para unos pesos pbi
que sean independientes de t:
Sea t1 < t2 , entonces (t1 yi ) (t2 yi ) para
P
P
i s y FbM A (t1 ) = is pbi (t1 yi ) is pbi (t2
yi ) = FbM A (t2 ), puesto que pbi son los mismos valores positivos para t1 y t2 .
X
Sea t > t , lm FbM A (t) = lm
pbi (t yi ) =
tt
X
is
pbi lm (t yi ) =
tt
tt
X
is
is
pbi (t yi ) = FbM A (t ).
dadera funcion
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
37
resulta raproximos
a los valores de y. En tal situacion,
zonable esperar que un estimador de Fy (t) debera de
aproximarse a Fy (t) a medida que x se aproxima a y. Es
ta propiedad no se satisface para el estimador estandar,
auxiliar.
puesto que este
no hace uso de la informacion
Si yi = xi , puede verse que b = 1, gi = yi y
planteada para el estimador FbM A (t)
segunda restriccion
P
esta dada por is pi (tg yi ) = Fy (tg ). As, FbM A (t) =
P
bi (t yi ) es exactamente igual a Fy (t) si t coincide
is p
con uno de los valores de vector tg . Si esto no sucede,
la igualdad, en general, no se cumple, aunque se espe si el argumento
ran que las desviaciones sean pequenas
t esta proximo
a un componente de tg .
Comportamiento asintotico
El siguiente paso es establecer el comportamiento
asintotico
del estimador FbM A (t). Lamentablemente, este
b que son dependienestimador usa los vectores tg y ,
del comtes de la muestra, lo que dificulta la obtencion
portamiento asintotico
de este estimador. No obstante, es posible obtener algunos resultados para el estimador FbM A1 (t) que es muy similar al estimador propuesto
auaunque menos eficiente al utilizar menos informacion
xiliar. Este estimador se obtiene equivalentemente al estimador propuesto, con la diferencia de que los pesos pbi
basados en las restricciones (2.97) y
estan
X
is
pi (t0 gi ) =
1
N
N
X
(t0 gi ) = Fg (t0 ),
(2.105)
i=1
asintoticas
como la equivalencia con otros estimadores
de la varianza del estimador FbM A (t),
o la determinacion
de algun
practica.
Habitualmente, la replicacion
tipo, co mediante muestras
mo Bootstrap, Jackknife o replicacion
balanceadas (Shao y Tu, 1995), es una alternativa que
de la varianza, partise usa en la etapa de estimacion
de varianzas de funciones
cularmente para la estimacion
que son especialmente dificultosas. Tales
de distribucion
el metodo
de verosimilitud emprica (Chen y Sitter, 1999)
de la funcion
de distribucion
(Lomy para la estimacion
barda et al., 2003, Lombarda et al., 2004).
Teorema 2.7 Cuando el vector b se reemplaza por el
parametro
B dado en (2.95), el correspondiente estimador de verosimilitud pseudo emprica modelo-asistido,
B
FbM
A1 (t), cuando se usa el punto t0 = t, es asintotica-
38
b=
donde D
=
is
b z,w
2
bw
2
b
is di [(t bi ) Fb (t)]
de distribucion
de la vabi = Bt xi , Fb (t) es la funcion
Demostracion
Para demostrar este teorema, asumimos que la
finita esta envuelta en una sucesion
de poblapoblacion
ciones donde n y N aumentan de tal forma que (n/N )
se considera la variable de
f cuando n . Ademas,
(tbi ) en (2.105) para construir FbM A1 (t). Sea
calibracion
ui = (t bi ) Fb (t). Puesto que |ui | 1, las condiciones
(C2.1) y (C2.2) del Teorema 2.3 se satisfacen y por tanto
P
di ui
= P is 2 + op (n1/2 ),
is di ui
y pbi = di (1 ui ) + op (n1/2 ). As:
X
B
pbi (t yi ) + op (n1/2 ) =
FbM
A1 (t) =
is
Fbb (t) Fb (t) ui
(t yi ) + op (n1/2 ) =
P
di 1
2
d
u
i
i
is
is
parametro
poblacional B. El siguiente resultado garantiza
se cumple cuando usamos el
que el Teorema 2.7 tambien
b el usado por el estimador FbM A1 (t).
parametro
muestral ,
B
Teorema 2.8 Los estimadores FbM A1 (t) y FbM
A1 (t) tienen
lmite.
la misma distribucion
Demostracion
Denotemos los estimadores modelo-asistidos de veb y
rosimilitud pseudo emprica por FbM A1 (t) = Tn ()
B
b
b
Tn () depende del esFM A1 (t) = Tn (B). La expresion
b es cual es funcion
de los datos muestrales y estimator ,
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
()
()
()
()
=
,
,...,
=
1 = 2 =
P =
B
dada por
XX
X
di Ei =
il (di Ei )(dl El ).
=V
is
= (0, 0, . . . , 0).
FbM
iU lU
donde ei = (t yi ) (t gi )G,
2 =
bv
z,w
iU di [(t yi ) Fy (t)][(t bi ) Fb (t)]
P
.
D= 2 =
2
P
w
iU di [(t bi ) Fb (t)]
b
b
is di [(t yi ) FHKy (t)][(t gi ) Fg (t)]
=
,
P
B
2
b
normal y
Consecuentemente, FbM
A1 (t) es asintoticamente
is di [(t gi ) Fg (t)]
Su corresponasintoticamente
insesgado bajo el diseno.
y donde v denota a la variable (t g).
Demostracion
b o b pueden
R
una variable auxiliar. Bajo tal situacion,
FbyD1 (t) puede expresarse como sigue:
usarse.
b=
FbyD1 (t) = FbHKy (t) + (Fb (t) Fbb (t))D
Nota 2.3 El estimador FbM A (t) es computacionalmente
b
b
b
simple
y no depende de parametros
desconocidos, puesto
= FHKy (t) + (Fb (t) Fb (t))(D D + D) =
de
puede
calcularse
f
acilmente
a traves
que
el
vector
t
g
b D) =
= FbHKy (t) + (Fb (t) Fbb (t))D + (Fb (t) Fbb (t))(D
x, el cual asumimos es conocido. Cuando esta informab D).
no esta disponible, el muestreo bifasico
Consecuentemente, el termino
(Fb (t) Fbb (t))(D
pequena.
La varianza asintotica
de FbyD1 (t) coincide con la va- han sido establecidas en la Seccion
2.4.4. El siguiente pa de este estimador por medio
rianza del estadstico FbyD2 (t), la cual esta dada por
so es analizar la precision
se llede un estudio emprico. Por tanto, en esta seccion
de
distribuci
on
existentes
en
la
literatura
del
muestreo
en
b
b
= V FHKy (t) + Fb (t)D Fb (t)D =
poblaciones finitas.
Para realizar estos estudios se han usado dos pobla= V FbHKy (t) Fbb (t)D ,
lineal entre
ciones simuladas generadas bajo una relacion
is
donde las variables x1i y x2i se han generado de distribuciones Gamma y las cantidades i son variables aleatorias
con Ei = (t yi ) (t bi )D.
3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
39
independientes e identicamente
distribuidas con distribu Normal de parametros
cion
0 y 2 . El valor de 2 se es entre yi
coge de modo que el coeficiente de correlacion
de distribucion.
ultimo
mentos t = Qy (0,1), Qy (0,2), . . . , Qy (0,9). Este
Primera simulacion
consiste en tomar una muesEsta primera simulacion
tra aleatoria simple de las anteriores poblaciones y esti de distribucion
en los puntos t = Qy (0,25),
mar la funcion
t = Qy (0,50) y t = Qy (0,75) mediante los distintos estimadores. Este proceso se repite B = 1000 veces para
muestrales. A continuacion,
el cumplidiferentes tamanos
Cuadratico
Medio emprico para Fb (t), y ECM [FbHT y (t)]
cuadratico
medio.
SR(t) =
40
de R
pueden consultarse en el Apendice
??. La funcion
de la ecuacion
h() = 0
usada para encontrar la solucion
verse en Wu (2005).
puede tambien
Las Figuras B.7 y B.8 muestran la ER para las tres
poblaciones cuando se evaluan
en los cuartiles pobla
En los casos donde
cionales de la variable de interes.
estandar
de tipo Horvitz-Thompson cuando la fun de distribucion
se estima en los puntos t =
cion
Qy (0,25) y t = Qy (0,75). Este estimador es bas
tante preciso cuando t esta proximo
a Qy (0,5),
aunque llega a ser considerablemente menos eficiente cuando t esta alejado de Qy (0,5).
5. FbM A1 (t) es siempre menos preciso que FbM A (t).
Esto revela la ganancia de usar el vector tg en lugar de un valor t0 . En cualquier caso, FbM A1 (t) tiene
eficiente
un buen comportamiento y es siempre mas
eficiente para
6. En terminos
de ER, el estimador mas
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Segunda simulacion
anterior se ha realizado en los puntos
La simulacion
t = Qy (0,25), t = Qy (0,50) y t = Qy (0,75). Puede observarse que el orden de estos cuantiles coincide con el
orden de los cuantiles del vector tg . Es esperable que
Por este motivo,
FbM A (t) cumpla bien en esta situacion.
para medir la preusaremos otro estudio de simulacion
de los distintos estimadores en los puntos t =
cision
Qy (0,1), Qy (0,2), . . . , Qy (0,9).
En este caso, el cumplimiento de los estimadores es
medido mediante el Sesgo Relativo Medio (SRM ) y la
Eficiencia Relativa Media (ERM ), dados respectivamente
por
v
u
9
9
u1 X
1X
|SR(tq )| ; ERM = t
ER(tq ),
SRM =
9 q=1
9 q=1
definidos en (2.108) y tq es el
donde SR(t) y ER(t) estan
q-esimo
decil para la variable de estudio.
una medida global del cumpliConsideramos tambien
de los 9 cuantiles para
miento de los estimadores a traves
cada muestra obtenida de las B = 1000 simulaciones.
Absoluta Maxima
una relacion
(Pob080), el estimador de tipo
presenta el peor comportamiento (su SRM ronda
razon
el 1.4 %). En la mayora de los casos, puede observarse
absoluta mientras
desviacion
FbCD (t) presenta la maxima
que FbM A (t) muestra el mejor comportamiento en todos
los casos.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
41
3.1.
Introduccion
de la totales y medias
El problema de la estimacion
poblacionales en presencia de variables auxiliares ha sido extensamente discutido en la literatura del muestreo de
de
poblaciones finitas. Para el problema de la estimacion
es bastante difela mediana y otros cuantiles, la situacion
en la actualidad este problema esta sienrente y tan solo
de este
do discutido, debido en parte, al creciente interes
tipo de medidas. Notamos que los distintos estimadores y
metodos
propuestos para la media y el total de una varia obvia al problema de la estible no tienen una extension
de cuantiles.
macion
Un ejemplo del uso de cuantiles y otras medidas relacionadas en muestreo de poblaciones finitas es el siguiente. Frecuentemente, los organismos nacionales de
estadstica y otras agencias se encuentran con variables, tales como ingresos, gastos, etc., que presentan distribuciones con una alta asimetra. Bajo estas circuns apropiada que la metancias, la mediana resulta mas
dia poblacional. De este modo, asumiendo datos de Encuestas Continuas de Presupuestos Familiares, los gobiernos de diferentes pases obtienen numerosas medi de bajos ingredas de pobreza, tal como la proporcion
sos, que dependen directamente de determinados cuantiles. Un ejemplo de este tipo de medidas viene dado por
Eurostat (2000), en donde se define que un salario es ba
jo si este
esta por debajo del 60 % del salario mediano
mensual, es decir, el cuantil de orden = 0,5 se emplea
en Eurostat. A nivel nacional, el Instituto Nacional de Es
tadstica y sus correspondientes organismos autonomos,
definen una medida similar para determinar el ndice de
pobreza, aunque en este caso la variable principal es el
de tipo economico
puede consultarse en Koenker y Hallock (2001).
de parame
Al igual que para el caso de la estimacion
tros lineales como medias o totales, las estimaciones
mas
eficientes si se incorpora informacion
auxiliar,
seran
en la
altamente correlacionada con la variable de interes,
En la estimacion
de cuantiles, exisetapa de estimacion.
de parametro
poblacional.
a traves
de la funcion
de distribucion:
M2. Estimacion
La tecnica
habitual en muestreo de poblaciones fini de distribucion
para obtas es invertir la funcion
de un determinado cuantil. Se
tener la estimacion
requiere, por tanto, usar eficientemente la informa auxiliar en la etapa de estimacion
de la funcion
de distribucion.
El inconveniente de esta tecni
cion
de distribuca es que el estimador de la funcion
debe ser una verdadera funcion
de distribucion
para estimar cuantiles con mayor precision.
cion
Aunque este hecho resulta imprescindible, existen
varios estimadores en la literatura que no cumplen
tal propiedad. Chambers y Dunstan (1986) fueron
de los primeros investigadores en utilizar informa auxiliar para construir estimadores de la funcion
de distribucion,
y posteriormente invertir esta
cion
para obtener cuantiles. Otras importantes
funcion
referencias son Rao et al. (1990), Wang y Dorfman
(1996), Dorfman y Hall (1993), Kuo (1988), Silva y
Skinner (1995).
Notamos que durante el desarrollo de este captulo
exclusivamente con estimadores derivados del
se trataran
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
43
de superpoblacion.
de cuantiles. Siguiendo
puede usarse para la obtencion
esta tecnica,
Rao et al. (1990) propusieron estimadores
y diferencia usando una aproximacion
basade tipo razon
Kuk y Mak (1989) propusieron dos esda en el diseno.
timadores para los cuales solamente es necesario conocer a nivel poblacional el valor de la mediana de una va recientemente, Rueda et al. (1998)
riable auxiliar. Mas
y Rueda y Arcos (2001) propusieron intervalos de confianza para los cuantiles basados en estimadores de tipo
y diferencia de la funcion
de distribucion.
En Rueda
razon
de cuantiles
et al. (2003, 2004) se plantea la estimacion
mediante estimadores de tipo diferencia usando cuantiles
poblacionales del mismo orden de la variable auxiliar. La
de cuantiles usando tecnicas
estimacion
recientes de es tambien
ha sido investigada. Por ejemplo, Chen
timacion
de cuantiles usando
y Wu (2002) proponen la estimacion
modelo-calibrada.
la aproximacion
Existe otro gran numero
de estimadores de cuantiles
metodos
de muestreo con probabilidades desiguales en
cada una de las dos fases. La eficiencia de estos estimadores puede mejorarse si se usa un muestreo estrati
ficado en la primera fase. Asumiendo este ultimo
diseno
basados en multiples
variables auxiliares. La introduccion
de tal informacion
precisos.
apropiado que permite obtener estimadores mas
se proponen estimadores de
A continuacion,
tambien
cuantiles basados en muestras seleccionadas mediante
muestreos probabilsticos con probabilidades desiguales
de vista teorico
(mediante aproximaciones asintoticas),
y
desde una perspectiva emprica (analizando los resultados obtenidos a partir de una serie de poblaciones).
3.4 se propoPara cerrar este captulo, en la Seccion
3.2.
bifasico
muestreo bifasico
con disenos
muestrales arbitrarios en
cada una de las dos fases. Se proponen varios esti y exponencial que propormadores de tipo directo, razon
diseno
el muestreo bifasico
aplicado a la estratificacion,
muestral que ofrece importantes ganancias en eficiencia
debido a los beneficios que produce el muestreo estratificado. Todas estas propiedades se ven desde un pun
to de vista teorico,
aunque el analisis
de los estimadores
se completa con un estudio emprico llevado a cabo para
muestrales con prolos cuartiles y bajos distintos disenos
babilidades desiguales. Este estudio refleja que los estimadores propuestos mejoran a otros estimadores conoci
dos en terminos
de sesgo y eficiencia relativa.
Notamos que la mayor ventaja al usar muestreo
sin un sustanbifasico
es una alta ganancia en precision
muescial incremento en costes. De hecho, este diseno
tral se usa frecuentemente en numerosas encuestas por
razones de coste y eficiencia.
3.2.1.
Introduccion
de un determinado
Para el problema de la estimacion
parametro
en muestreo de poblaciones finitas, la informa auxiliar juega un papel muy importante en la precision
cion
de los estimadores. La mayora de los estimadores basa auxiliar se basan en el conocimiento a
dos en informacion
en la etapa de la estimacion
Ber y Rancourt, 2006). Bajo esta situacion,
el uso
ger, Munoz
44
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
apropiada para
de un muestreo bifasico
es la tecnica
mas
resolver este problema.
y Garca (2002).
Fernandez
y Mayor (1994) y Artes
de cuantiles en
En lo que respecta a la estimacion
muestreo bifasico,
los primeros autores en realizar investigaciones en este sentido fueron Singh et al. (2001),
Singh (2003) y Allen et al. (2002) para el problema de
de la mediana poblacional. Estos trabala estimacion
jos fueron desarrollados exclusivamente para muestreo
aleatorio simple. Con el fin de completar estos estudios,
se proponen numerosos estimadores
en esta seccion
para un determinado cuantil cuando se lleva a cabo un
muestreo bifasico
con disenos
muestrales arbitrarios en
cada una de las dos fases.
se describe brevemente en que conA continuacion
3.2.2.
Estimadores propuestos
Sarndal
la practica
bajo este muestreo. Por esta razon,
et
al. (1992) propusieron el uso de estimadores . Usan0
do esta idea, se definen las cantidades i = i i/s0 y
0
ij
= ij ij/s0 , que permiten definir el -estimador de la
de distribucion
como
funcion
1 X (t yi )
,
(3.1)
FbHT
y (t) =
N is
i
y as, el estimador directo propuesto para un cuantil esta
dado por
1
b y () = FbHT
(3.2)
Q
y ().
bifasico.
De este modo, el siguiente paso es definir una
auxiliar. En
clase de estimadores que usen informacion
primer lugar mostraremos los principales antecedentes
relacionados con el tema que nos ocupa.
Asumiendo muestreo aleatorio simple y que la mediana de la variable x es conocida, Kuk y Mak (1989) pro para la mepusieron el siguiente estimador de tipo razon
diana
b y (0,5) Qx (0,5) .
b ry (0,5) = Q
Q
b x (0,5)
Q
madores de posicion
diseno
de diferencia y exponenciales para estimar un cuantil . Singh et
regresion,
b
bH
Q
y () = H(Qy (), t ),
0
(3.3)
b x ()/Q
b x (), y Q
b x () es el estimador de
donde t = Q
Qx () basado en la muestra de la primera fase, esto es,
b 0x () = nf{t | Fb 0 1 (t) }, donde
Q
HT x
1 X (t xi )
0
FbHT
.
x (t) =
N
i0
0
is
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
45
H(q, t )
= 1.
H10 (Qy (), 1) =
q
(q,t )=(Qy (),1)
Un caso particular dentro de la clase general de esti dado por:
madores H es el estimador tipo razon,
b0
b y () Qx () ,
b yr () = Q
Q
b x ()
Q
H(q, t ) = q/t .
y el cual se corresponde con la eleccion
Otro estimador para el cuantil , llamado el estimador
exponencial, esta dado por:
!
0
b
b y () Qx ()
b ye () = Q
,
Q
b x ()
Q
se ensiendo una constante fija. Este estimador tambien
cuentra dentro de la clase H, puesto que se corresponde
H(q, t ) = q/(t ) . Notamos que estos
con la eleccion
b
Qye () coincide con el estimador . Por otro lado, si
b ye () = Q
b yr (). Por ultimo,
= 1, entonces Q
puede
b ye () = Q
b yp (),
comprobarse que si = 1, entonces Q
el cual puede definirse como un estimador producto.
E( FbHT
y (Qy ())) = 0
y basandose
en la ecuacion
b y ()) = Qy () + O(n1/2 ), esto es, el estimador
que E(Q
b y () es asintoticamente
Q
insesgado de Qy ().
b y ()
b
esta dada por AV (Qy ()) =
"
X 0
0 0 (Qy () yi ) (Qy ()
1
1
(ij i j )
= 2 2
0
0
N fy (Qy ()) i,jU
i
j
+Ed1
FbHT
y (Qy ()) Fy (Qy ()) =
0
= FbHT
y (Qy ()) Fy (Qy ()) +
b0
+ FbHT
y (Qy ()) FHT y (Qy ()) = Qs0 + Rs ,
0
= Vd1 (Qs0 ) =
Vd1 E FbHT
y (Qy ())|s
b y () es asintoticamente
Demostracion
b y () puede expresarse
En primer lugar, el estimador Q
lineal de la funcion
de
asintoticamente
como una funcion
estimada y evaluada en el punto Qy () medistribucion
de Bahadur (vease,
diante la representacion
por ejemplo,
Bahadur, 1966, Chambers y Dunstan, 1986, Kuk y Mak,
1989, Chen y Chen, 2000, Chen y Wu, 2002, etc):
b y ()Qy () =
Q
46
(Qy () yi ) (Qy () y
i
j
0
+ Ed1 V FbHT
= Vd1 E FbHT
y (Qy ())|s
y (Qy ())|s
Propiedades teoricas
i,js0
Demostracion
(3.4) se deduce que
De la expresion
b y ()) =
V FbHT
AV (Q
y (Qy ()) ,
2
fy (Qy ())
donde V FbHT
y (Qy ()) =
3.2.3.
0 0 (Qy () yi ) (Qy () yj )
1 X 0
(ij i j )
0
0
N 2 i,jU
i
j
y
Ed1 V
Ed1
0
= Ed1 V (Rs |s0 ) = 2
FbHT
y (Qy ())|s
N
i,js0
1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())
(3.4)
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
(Qy () yi ) (Qy () yj
i
j
b y ())
Corolario 3.1 Un estimador insesgado de AV (Q
esta dado por
e0 =
1
b y ()) = 1
Vb (Q
N 2 fy2 (Qy ())
0
0 0
b y () yi ) (Q
b y () yj )
X ij
i j (Q
+
0
0
ij
i
j
i,js
b y () yi ) (Q
b y () yj )
X ij/s0 i/s0 j/s0 (Q
ij/s0
i
j
i,js
b y ()
Q
1,
Qy ()
e1 =
b x ()
Q
1
Qx ()
e2 =
b 0x ()
Q
1.
Qx ()
donde:
bH
V (Q
y ())
En la practica,
la cantidad fy (Qy ()) es desconocida.
Un valor aproximado de fy (Qy ()) puede obtenerse apli
cando metodos
estandares
tal como el kernel (Silverman,
asintoticamente
insesgado para Qy ().
bH
bH
bH
V (Q
y ()) = Ed1 V (Qy ()/s ) + Vd1 E(Qy ()/s )
debida a cada una de las dos fases
refleja la variacion
de muestreo. Usando las propiedades conocidas del estimador de Horvitz-Thompson y su varianza, se obtiene
0
bH
Vd1 E(Q
y ()/s ) =
1
1
(Qy () yi ) (Qy () yj )
ij
0
0
i
j
i,jU
0
y
0
Demostracion
Para obtener este resultado nos basaremos en las siguientes aproximaciones lineales:
b y ()Qy () =
Q
= Ed1
X s0 (Qy () yi ) (Qy () y
1
1
ij
N 2 fy2 (Qy ())
i
j
0
i,js
1/2
(FbHT
),
y (Qy ()))+O(n
fy (Qy ())
H 2 (Qy (), 1)
+ 01 2
Qx ()
1/2
(FbHT
),
x (Qx ()))+O(n
fx (Qx ())
0
0
1
b x ()Qx () =
(FbHT x (Qx ()))+O(n01/2 ),
Q
fx (Qx ())
b x ()Qx () =
Q
sij
i,js0
1
1
(Qx () xi ) (Qx () xj )
+
i
j
Qx ()
N 2 fy (Qy ())fx (Qx ())
X s0 (Qy () yi ) (Qx () xj )
ij
,
i
j
0
+2
i,js
(3.5)
para Qy ().
expresion
as que para
ello
X 0 (Qy () yi ) (Qy () yj )
ij
0
0
i
j
i,jU
se estima por
b y () yi ) (Q
b y () yj )
X 0ij (Q
,
0
0
ij
i
j
i,js
y
Ed1
bH
Q
y () Qy () =
X
i,js0
sij
(Qy () yi ) (Qy () yj )
i
j
por
b
b y () Qy () + Qx () H01 (Qy (), 1) + O(n1 ).
= Q
b 0x ()
Q
b y () yi ) (Q
b y () yj )
X sij0 (Q
.
0
i
j
i,js ij/s
Desarrollando se obtiene
bH
Q
y () Qy () ' Qy ()e0 +
bH
Ed1 V (Q
y ()/s ) =
(3.6)
razon,
producto y exponencial se derivan a partir de
4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
47
mador optimo
en la clase Q
El valor optimo
de esta dado por
0
opt =
b x ()) Cov(Q
b y (), Q
b x ())
b y (), Q
Qx () Cov(Q
.
b x ()) + Q
b 0x () 2Cov(Q
b x (), Q
b 0x ())
Qy () V (Q
opt =
Qy () fy (Qy ())
X s0 (Qy () yi ) (Qx () xj )
ij
Ed1
i
j
i,js0
X s0 (Qx () xi ) (Qx () xj )
Ed1
ij
i
j
0
i,js
y el estimador optimo
esta dado por
!
0
b x () opt
Q
opt
b
b
()
=
Q
()
.
Q
y
y
b x ()
Q
bH
b opt ()) = V (Q
b y ()) K1 =
V (Q
y ()) V (Qy
2
b
b
b0
b
b y ()) (Cov(Qy (), Qx ()) Cov(Qy (), Qx ())) ,
= V (Q
0
0
b
b
b
b
V (Qx ()) + Qx () 2Cov(Qx (), Qx ())
bH
bajo de la varianza de Q
esto es, el valor mas
y ()
esta dado por el estimador exponencial con = opt .
anterior demuestra que el estimador proLa ecuacion
opt
b
eficiente que el esti() es siempre mas
puesto Q
y
b y (). Puede observarse que K1 es
simple Q
mador mas
la cantidad que se reduce de varianza cuando se usa el
En la practica,
el valor de es desconocido. Sin em usarse para obtener
bargo, los datos muestrales podran
b x () fx (Qx ())
Q
b y () fy (Qy ())
Q
(3.7)
b y () yi ) (Qx () xj )
X sij0 (Q
0
i
j
i,js ij/s
X sij0 (Qx () xi ) (Qx () xj )
0
i
j
i,js ij/s
48
b y ()
Q
b 0x ()
Q
b x ()
Q
!b
Propiedades empricas
en muestreo bifasico
cuando las muestras en ambas fases se seleccionan con probabilidades desiguales. A con se lleva a cabo un estudio de simulacion
con
tinuacion
el objetivo de observar el comportamiento de estos esti eficiente entre ellos. En este
madores y destacar el mas
estudio se han considerado las poblaciones Fam1500 y
Counties (vease
Apendice
A).
Se han generado 1000 muestras independientes bajo
diferentes metodos
de muestreo en cada fase. El tamano
muestral en la primera fase, n0 , se ha fijado en 150, mien de la muestra de la segunda fase, n,
tras que el tamano
varia entre 10 y 100. Los casos considerados son los siguientes:
i =
n0
,
N
i/s0 =
x
n0 n
n1
P i
+ 0
n0 1 js0 xj
n 1
i = i i/s0 .
mediante el metodo
de Poisson (vease
Singh, 2003,
pg. 499), de modo que las probabilidades de in estan
dadas por:
clusion
0
i =
n0
,
N
i/s0 = n P
xi
js0
xj
i = i i/s0 .
muestreo bifasico
para un determinado cuantil se evalua
para los tres cuartiles, = 0,25, 0,50, 0,75, en terminos de Sesgo Relativo ( %) (SR) y Eficiencia Relativa
(ER) mediante aproximaciones Monte Carlo derivadas
de B = 1000 muestras independientes. Estas medidas
vienen dadas por:
3.2.4.
metodo
de Midzuno (vease
Singh, 2003, pg. 390).
en este caso vienen
Las probabilidades de inclusion
dadas por:
b=
b
V (Q
o(n ) y al primer grado de aproximacion,
y ()) =
opt
opt
b
b y ()), esto es, los estimadores Q
b y () y Q
b y ()
V (Q
son asintoticamente
equivalentes.
SRi = 100
B bi
b iy ()]
ECM [Q
1 XQ
y ()b Qy ()
; ERi =
,
b y ()]
B
Qy ()
ECM [Q
b=1
b iy () denota el
y Q
donde b indica la b-esima
simulacion
i-esimo
estimador propuesto, con
b0
b y () Qx () ,
b 1y () = Q
Q
b x ()
Q
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
b 2y ()
Q
b y ()
Q
b y ()
Q
(3.7),
b 3y ()
Q
b 0x ()
Q
b x ()
Q
b 0x ()
Q
b x ()
Q
!b
, donde
b esta dado en
!opt
b iy ()] = B 1 PB [Q
b iy ()b Qy ()]2 es el Error
ECM [Q
b=1
b y ()] se define
Cuadratico
Medio emprico y ECM [Q
b y (), el estimador directo definido
analogamente
para Q
en (3.2). Se recuerda que este estimador no usa informa auxiliar.
cion
Las Figuras B.12,. . .,B.15 representan la eficiencia reb 2y () y Q
b 3y () en
b 1y (), Q
lativa para los estimadores Q
muestral en la segunda
sulta logico
porque si el tamano
entonces la muestra tendra menos infase es pequeno,
b y () presen de la variable y, y el estimador Q
formacion
tara mayor grado de error, mientras que los estimadores
y exponencial son mas
eficientes porque
de tipo razon
b y () ob informacion.
Cuando n incrementa, Q
usan mas
cercanas a las estimatiene mejores estimaciones y mas
y exponencial.
ciones de los estimadores de tipo razon
b 3y () es el estimador mas
eficiente en la mayora de
Q
los casos. Este resultado era deseable puesto que este
estimador es asintoticamente
optimo
en la clase (3.3). Sin
b 2y () presenta valores bastantes
embargo, el estimador Q
similares y no depende de valores desconocidos. Se obb 1y () es el estimador menos eficiente de enserva que Q
lineal
tre los estimadores propuestos. Cuando la relacion
b 1y () es incluso menos
debil,
resumen, el uso del estimador exponencial mejora las es lineal entre las vatimaciones, especialmente si la relacion
riables es debil.
dos mas
de
b y (). Esto se debe
Midzuno y con respecto al estimador Q
a que el estimador directo presenta estimaciones muy dis
persas bajo el metodo
de Poisson causadas por la hetero
geneidad de las probabilidades de inclusion.
Los estimadores propuestos son casi equivalentes en
Counties porque los coeficientes de correla poblacion
lineal estan
mas
cercanos a 1. De hecho, la ER
lacion
es mejor
de los estimadores propuestos en esta poblacion
Fam1500.
que la ER en la poblacion
El estudio del sesgo es otro aspecto importante,
torno al 3 %, como puede verse en la Figura B.16. Los va Counties cuando x1 se usa
lores de SR para la poblacion
como variable auxiliar y x2 para asignar probabilidades
b y () ob mostrados en la Figura B.17. El estimador Q
estan
especialmente cuantiene claramente sobre-estimacion,
muestral en la segunda fase es pequeno
y
do el tamano
muestral M as.P oisson. El valor absoluto
bajo el diseno
de los valores SR para los estimadores propuestos son
M as.M idzuno y menores
menores de 7 % para el diseno
M as.P oisson, excepto en muesde 13 % para el diseno
b 2y (), el cual no supera
para el estimador Q
tras pequenas
el 25 %. En resumen, el estudio de los valores SR revela
que los estimadores propuestos presentan un menor sesgo que el estimador directo.
3.2.5.
al muestreo estratifiAplicacion
cado
tecnica
que proporciona resultados eficientes cuando la
esta adecuadamente estratificada y las variapoblacion
relacion
sera posible tambien
asintotica
determinar la expresion
de la varianza del es de la varianza es un astimador propuesto. La estimacion
pecto muy importante con un alto numero
de aplicaciones,
tencion
etc. Por esta razon,
tanto el estimador propuesto como su varianza se anali Los resultados de
zan mediante un estudio de simulacion.
este estudio reflejan algunas utiles
ganancias en eficien
cia del estimador propuesto y de su varianza sobre otros
estimadores.
La unica
diferencia de este metodo
de muestreo con
3.2.2, es el uso
respecto al expuesto en la Seccion
adicional del muestreo estratificado. Bajo determinadas
bifasico
y muestreo estratificado. Esta tecnica
consiste en
en estutomar una primera gran muestra de la poblacion
muestral determinado. En esta muesdio segun
un diseno
tra, se observa una variable auxiliar, la cual se usa para
estratificar dicha muestra en H estratos. De cada estrato, se selecciona una muestra y se observa la variable de
interes.
se describe el muestreo bifasico
A continuacion
apli-
4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
49
La notacion
aplica es la siguiente. Una primera muesdo a la estratificacion
n0 es disenada
muessegun
tra s0 de tamano
el diseno
tral d1 , de modo que pd1 (s0 ) es la probabilidad de que s0
sea seleccionada y donde las correspondientes probabili de primer y segundo orden se denotan
dades de inclusion
0
0
como i y ij , para i, j U . Para los elementos en s0 ,
de una variable auxiliar, x. Esse recoge la informacion
ta variable se usa para dividir s0 en H pre-especificados
0
0
estratos denotados como sh , (h = 1, . . . , H), con nh ele0
mentos en el estrato h. De este modo, de sh se puede
S
nh mediante un
seleccionar una muestra sh de tamano
ph (/s0 ). La muestra final sera s = H
diseno
h=1 sh . La pro para las unidades de la segunda
babilidades de inclusion
fase se denotan como i/s0 y ij/s0 , para i, j s0 . Nota0
0
0 0
0
mos que ij = ij i j y sij = ij/s0 i/s0 j/s0 .
El primer paso para estimar un determinado cuantil
de distribues obtener un buen estimador para la funcion
con propiedades deseables. El candidato natural (escion
timador de tipo Horvitz y Thompson) para estimar la fun de distribucion
bajo la tecnica
cion
de muestreo en estudio
es:
H
1 X X (t yi )
,
Fbst (t) =
N
i
is
h=1
estan
dadas por
dondeP
las probabilidades de inclusion
0
0 . Este estimador no puede obtep
(s
)
i =
0
d1
i/s
s 3i
En la practica,
el uso del estimador de tipo HorvitzThompson no resulta posible ni para el problema de la es de la media poblacional. Por esta razon,
Sarndal
timacion
et al. (1992) propusieron el uso de -estimadores. Usan0
do este idea, se introducen las cantidades i = i i/s0 y
0
ij
= ij ij/s0 para definir el -estimador de la funcion
como
de distribucion
H
1 X X (t yi )
(t) =
.
Fbst
N
i
is
h=1
multiples
caractersticas. Puede comprobarse facilmente
Unicidad en la definicion
El estimador propuesto es un estimador basado en el
muestral, el cual no depende de la eleccion
de un
diseno
se ha asumido que los estratos estan
modelo. Ademas
para Fbst
(t)
pre-especificados. De este modo, la expresion
es unica.
Sesgo
Una medida importante de la calidad de un estimador
es la insesgadez. Sarndal
et al. (1992) establecieron
que, para el caso de estimar el total poblacional, el estimador es insesgado. Este resultado puede extenderse
de la funcion
de
facilmente
al problema de la estimacion
esto es, asumiendo que zi = (t yi ) es la
distribucion,
el estimador (3.8) puede verse como
variable de interes,
de la media poblacional de la
un problema de estimacion
variable zi .
Disponibilidad de la varianza
del Teorema 3.2, puede
Siguiendo la demostracion
b
V (Fst (t)) = 2
ij
+
0
0
N i,jU
i
j
H
X
X
0
(t
y
)
(t
y
)
i
j
+Ed1
sij
.
i
j
0
h
X 0ij (t yi ) (t yj )
1
+
Vb (Fbst (t)) = 2
0
0
N
ij
i
j
i,js
H
X
X
h=1 i,jsh
(3.8)
seables (vease
Chambers et al. , 1992). A continuacion
importantes para el estise analizan algunas de las mas
mador dado por (3.8).
Simplicidad
de distribuEl calculo
de un estimador de la funcion
Fby (t), sera particularmente simple si
cion,
1 X
wi (t yi ),
Fby (t) =
N is
0
sij (t yi ) (t yj )
,
ij/s0
i
j
(3.10)
de distribucion
En primer lugar, notamos que varios de los estimadores propuestos en la literatura no son verdaderas
Por ejemplo, ninguno de los
funciones de distribucion.
y diferencia propuesconocidos estimadores de tipo razon
de distribucion
en
tos por Rao et al. (1990) es una funcion
general (vease
Kuk, 1993, Mukhopadhyay, 2000).
Las condiciones (C2.18) y (C2.19) siempre se sa
50
(3.9)
h=1 i,js
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
1, aunque esto se verifica para algunos disenos
mues
trales tal como muestreo aleatorio simple. En la Seccion
disenos
a 1 en otros.
La mayora de los estimadores de cuantiles se obtiene
de la funcion
de distribucion.
Asumediante la inversion
n Fe (t)
(n0 nx )FeY B (t)
+
,
FbSJT (t) = x Y0A
n
n0
b st () y la
Asumiendo la insesgadez del estimador Q
(3.13), es posible determinar facilmente
expresion
la varianza de dicho estimador al primer grado de aproxi Esta varianza queda establecida en el siguiente
macion.
corolario.
b st ()
AV (Q
N 2 fy2 (Qy ())
"
+Ed1
ij
i,jU
H
X
b st () yi ) (Q
b st () yj )
(Q
+
0
0
i
j
0
sij
h=1 i,js0
b st () yi ) (Q
b st () yj )
(Q
.
i
j
donde nx es el numero
de unidades en la primera muestra
(t) como
estimarse a partir de Fbst
1
b st () = Fbst
() = nf{t|Fbst
(t) }.
Q
3.2.6.
(3.12)
Propiedades teoricas
Demostracion
(3.13) se deduce que
De la expresion
bst
b st ()) =
V
F
(Q
())
,
AV (Q
y
fy2 (Qy ())
donde V Fbst
(Qy ()) esta dada en (3.9).
Vb (Q
N 2 fy2 (Qy ())
X 0ij (Q
b st () yi ) (Q
b st () yj )
+
0
0
ij
i
j
i,js
H
X
X sij0 (Q
b st () yi ) (Q
b st () yj )
.
+
ij/s
i
j
i,js
h=1
Demostracion
b st () puede expresarse asintotica
El estimador Q
lineal de la funcion
de distribumente como una funcion
estimada evaluada en el cuantil Qy () mediante la
cion
de Bahadur (vease
representacion
Chambers y Dunstan,
1986):
1
( Fbst
(Qy ()))+O(n1/2 ),
fy (Qy ())
(3.13)
donde fy () denota la derivada del valor lmite de Fy ()
b st ()) = Qy () + O(n1/2 ).
E(Q
(3.14)
Este estimador para la varianza del estimador propuesto presenta una forma explcita, lo que permite que
sion
0
H
X
nh X (t yi )
},
n0 is
nh
h=1
por
ij
i/s0 =
nh
0
nh
i =
n0 nh
,
N n0h
para i sh ,
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
51
ij/s0
ij
3.2.7.
0
n (n 1)
h0 h0
si i, j sh
n
(n
1)
=
0
0
nh n h
0h 0l si i sh y j sl
nh nl
0
nh (nh 1) n0 (n0 1)
si i, j sh
0 0
nh (nh 1) N (N 1)
=
0
0
nh nl n0 (n0 1)
si i sh y j sl
0 0
N
(N
1)
nh nl
Propiedades empricas
varianza asintotica
ha sido establecida. La insesgadez del
ha sido discutida. El siestimador de cuantiles tambien
guiente paso sera analizar, mediante un estudio de simu estas
lacion,
y otras medidas importantes de calidad para
los dos estimadores propuestos. Los resultados se compararan sobre otros estimadores conocidos en la literatura
del muestreo en poblaciones finitas.
Fam1500 (vease
Apendice
A), donde recordamos que las correlaciones entre la variable principal y las auxiliares vienen dadas por
y,x1 = 0,848 y y,x2 = 0,546.
(t) para
En primer lugar, analizaremos lmt Fst
Midzuno (M ) y el metodo
de Poisson (P ). Las diferentes
combinaciones de disenos
muestrales se van a denotar
como dij , para i, j = {S, M, P }, donde i y j van a ex muestrales usados en la primera y sepresar los disenos
gunda fase, respectivamente. Este estudio se ha llevado
a cabo usando aproximaciones Monte Carlo derivadas de
1000 muestras independientes, para = 0,5, n0 = 150 y
300 y varios valores de n.
muestral, las Tablas 3.1 y 3.2 muesPara cada diseno
(t) basada en
tran la esperanza emprica de lmt Fbst
Fam1500. Puede ob1000 muestras de la poblacion
cercanos a 1,
servarse que todos los resultados estan
obteniendose
mejores resultados cuando la muestra de
el metodo
de Poisson en alguna de las dos fases. En
general, la variable x1 (para correlaciones altas) obtiene
mejores resultados que la variable x2 .
El siguiente paso es comparar el comportamiento del
estimador propuesto para cuantiles y de su varianza con
respecto a otros estimadores. En este estudio, se ha incluido el estimador (3.11) y su correspondiente estimador
de la varianza propuesto en Singh et al. (2001). La ganancia en eficiencia sobre muestreo no estratificado puede
contrastarse si comparamos el estimador propuesto con
el estimador basado en la segunda fase, sin considerar
estratos en la primera fase. Este estimador sera denotado
b y () y lo usaremos como el estimador base en las
como Q
comparaciones.
52
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
muestrales y considerando la variable
Tabla 3.1: Esperanza emprica de lmt Fbst
(t) para varios disenos
x1 .
n0
n
dSS
dSM
dSP
dM S dM M
dM P
dP S dP M
dP P
150 30 1.000 1.010 1.000 1.001 1.011 1.000 1.000 1.000 1.000
50 1.000 1.005 1.000 1.001 1.006 1.000 1.000 1.000 0.999
70 1.000 1.003 1.000 1.001 1.004 1.000 1.000 1.000 1.000
90 1.000 1.002 1.000 1.001 1.002 1.000 0.999 1.000 1.000
300 60 1.000 1.005 1.000 1.000 1.005 1.000 0.999 1.000 1.000
100 1.000 1.003 1.000 1.000 1.003 1.000 1.000 1.000 1.000
140 1.000 1.001 1.000 1.000 1.002 1.000 1.000 1.000 1.000
180 1.000 1.001 1.000 1.000 1.001 1.000 1.000 1.000 1.000
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
53
b
Qy
1.00 1.00 1.00 1.00
0.0 -0.1 -0.1 -0.1 2.4 1.8 1.5 1.3
b SJT
0.80 0.84 0.89 0.90 -0.1 -0.1 -0.1
0.0 2.1 1.7 1.4 1.2
Q
b st )
0.29 0.09 0.06 0.08
0.7
3.1 -3.2 -4.8 12.0 8.4 5.8 5.7
Vb (Q
b y )
Vb (Q
1.00 1.00 1.00 1.00 -12.8 -17.0 -15.5 -14.5 12.8 17.0 15.5 14.5
b
b SJT ) 0.42 0.03 0.01 0.13 10.3
3.3
2.0
5.9 10.3 3.3 2.1 5.9
V (Q
47
54
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
b y ()] Qy ()
E[Q
,
Qy ()
b y ()]
ER[Q
b y ()]
ECM [Q
,
b
ECM [Qy ()]
b y ()]
RECM R[Q
b y ()]
ECM [Q
1/2
Qy ()
b y ()),
y para el estimador de la varianza de un cuantil, Vb (Q
las medidas son
b y ())]
SR[Vb (Q
b y ())]
ER[Vb (Q
b y ())]
ECM [Vb (Q
,
b y ())]
ECM [Vb (Q
b y ())]
RECM R[Vb (Q
1/2
b y ())]
ECM [Vb (Q
V [Qy ()]
deseada en la practica)
y para el caso de varianzas. Conclusiones similares pueden obtenerse a partir del sesgo y
de la muestra de cualquiera de
que se aumenta el tamano
las dos fases.
Por ultimo,
se analiza la cobertura y la longitud me
dia de los intervalos de confianza de cada estimador. Estas medidas vienen dadas por las Tablas 3.7 y 3.8 para
la variable x1 y las Tablas 3.9 y 3.10 para la variable x2 .
En todos los casos se observa que el estimador propuesto tiene la menor longitud media emprica para el intervalo de confianza. Para altas correlaciones, la cobertura del estimador propuesto es mejor que la del resto de
proxi
estimadores, puesto que se obtienen valores mas
mos al 95 %. Para bajas correlaciones, la cobertura del
estimador propuesto se ve ligeramente superada por la
b SJT , aunque este
ultimo
estimador tiene el
cobertura de Q
inconveniente de presentar intervalos de confianza mucho
amplios. Todas estas propiedades teoricas
mas
y empri
pueden tambien
y
(2006c).
Singh (2006) y Rueda y Munoz
tanto
riable x1 . En este caso (para una alta correlacion),
el estimador propuesto como su correspondiente varian
za son mas precisos, en terminos
de ER, que sus competidores. Los valores absolutos de las medidas SR, para
todos los cuantiles, son siempre menores de 0,2 %. Resb y ) presenta
pecto a las varianzas, se observa que Vb (Q
b SJT ) claramente arras mientras que Vb (Q
subestimacion,
Los estimadores propuestra una seria sobreestimacion.
presentan la mejor precision
en terminos
tos tambien
de
RECM R.
se analiza la precision
de los estiA continuacion
entre la variable
madores usando una menor correlacion
principal y auxiliar. Para ello, observamos las Tablas 3.5
y 3.6. El estimador propuesto para estimar cuantiles es
preciso que el resto en terminos
mas
de ER. Respecb SJT ) parece tener
de varianzas, Vb (Q
to a la estimacion
ocurre para
el mejor comportamiento, aunque esto solo
entre las variables (situacion
no
una escasa correlacion
4
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
55
Tabla 3.7: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x1 . = 0,5 y n0 = 150.
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
94.1
93.4
96.6
95.3
828
656 566 512
Q
st
b
Q
92.2
92.5
92.8
93.9
1010
772 646 564
y
b
QSJT 96.9 97.3 97.4 96.8 998 771 650 571
Tabla 3.8: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x1 . = 0,5 y n0 = 300.
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.4 93.9 93.7 93.2 568 447 385 347
Q
st
b
Q
92.1 93.1 93.0 93.1 701 534 444 385
y
b
QSJT 96.8 98.1 96.9 97.0 703 541 454 398
Tabla 3.9: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x2 . = 0,5 y n0 = 150.
diseno
Cobertura ( %)
Longitud Media
n
30
50
70
90
30 50 70 90
b
93.7 94.0 94.7 93.8 830 655 567 512
Q
st
b
Q
90.7 93.5 94.1 92.8 1010 772 646 565
y
b
QSJT 93.8 94.7 95.4 94.5 1001 775 654 576
Tabla 3.10: Cobertura y Longitud Media de Intervalos de Confianza de los distintos estimadores bajo el
dSM y asumiendo la variable x2 . = 0,5 y n0 = 300.
diseno
Cobertura ( %)
Longitud Media
n
60 100 140 180 60 100 140 180
b
94.8 95.7 94.8 92.4 568 447 385 347
Q
st
b
Q
92.7 92.8 92.6 92.4 701 534 444 385
y
b
QSJT 96.3 95.1 94.8 94.7 707 541 461 406
49
56
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
3.3.
El muestreo en ocasiones sucesivas es una tecnica muy conocida que puede emplearse en las investi
gaciones longitudinales para estimar determinados parametros poblacionales y medidas de diferencia o cambio de
se discute
una variable objeto de estudio. En esta seccion
de cuantiles en la ocasion
mas
reciente bajo
la estimacion
un muestreo en dos ocasiones sucesivas. Este estudio se
efectivo de la inrealiza, por un lado, haciendo un uso mas
auxiliar, es decir, considerando varias variables
formacion
Por otro lado, tamauxiliares en la etapa de estimacion.
se obtienen estimadores basados en muestreos con
bien
de unidades desiguales. Se
probabilidades de seleccion
importantes y se deducen
estudian las propiedades mas
las expresiones de las varianzas. Como es habitual, se
de los estimadores propuestos en estumide la precision
basados en varias poblaciones.
dios de simulacion
3.3.1.
Introduccion
En numerosas investigaciones por muestreo, una mis puede ser muestreada repetidamente y la
ma poblacion
de
misma variable de estudio es medida en cada ocasion,
analisis
en el cambio social, Solga (2001) para el estudio
de movilidad laboral, etc.
Asumiendo muestreo en dos ocasiones sucesivas, la
teora desarrollada por Jessen (1942) y Patterson (1950)
anteriores, el parametro
considerado para su estimacion
es la media poblacional.
Recientemente, Martnez et al. (2005) propusieron
n0 esta disenada
en la
asume que una muestra de tamano
anterior. En la ocasion
reciente, una submuestra
ocasion
m es disenada
distribucion
P
mas
reciente. Este estimador viene dado por Fbyn (t) =
n1 is (t yi ), el cual coincide con el estimador de
tipo Horvitz-Thompson bajo muestreo aleatorio simple. A
se estima el cuantil de orden a partir de
continuacion
de distribucion,
es decir:
esta funcion
n
o
1
b
b
(3.15)
Qyn () = Fyn () = nf t : Fbyn (t) .
3.3.2.
a multiples
Generalizacion
variables auxiliares
5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
57
teoricas
y empricas de este nuevo estimador. Como se ha
disenados
clasico
muestreo aleatorio simple. En la practica
el uso de
timador optimo
en el sentido de minimizar la varianza de
obtenido.
esta clase sera tambien
y en 3.3.3 y 3.3.4 asumiremos
En la presente seccion
se dispone de P variables auque en la primera ocasion
proporxiliares, denotadas por x1 , . . . , xP . La informacion
cionada por estas variables nos permitira obtener un es multivariante a partir de las muestimador de tipo razon
sera posible obtetras solapadas. Por otro lado, tambien
ner otro estimador para un determinado cuantil de la variable principal a partir de la muestra no solapada. La clase
esta formada
de estimadores propuesta en esta seccion
por estos dos nuevos estimadores, los cuales se definen
a continuacion.
De modo similar a como se ha definido (3.15) y usan pueden
do los datos de la muestra de la primera ocasion,
b xi (), para i = 1, . . . , P .
definirse los estimadores Q
b xim () y Q
b ym () denotaran
los cuantiles
Analogamente,
Q
muestrales de orden de la muestra solapada para las vab yu () denota
riables auxiliares y principal, mientras que Q
el cuantil muestral basado en la muestra no solapada de
mas
reciente.
la ocasion
Siguiendo a Olkin (1958), se propone el siguiente es multivariante de Qy () basado en la
timador de tipo razon
parte solapada:
b yrim (), Q
b yrjm ()) para
B = (bij ) y bij = Cov(Q
i, j = 1, . . . , P . Para obtener el valor extremo usaremos
la desigualdad de Cauchy-Schwarz, y puesto que B es
R
bM
b
b y () = W Q
Q
ymopt () + (1 W )Qyu (),
(3.17)
R
bM
Q
ym ()
R
bM
Q
ymopt ()
b yu ())
V (Q
.
R
b
bM
V (Qyu ()) + V (Q
ymopt ())
(3.18)
b yopt ()) =
V (Q
3.3.3.
R
b yu ())V (Q
bM
V (Q
ymopt ())
.
R
b yu ()) + V (Q
bM
V (Q
ymopt ())
(3.21)
Propiedades teoricas
to
Q
X
X
b ym ()
Q
R
b yrim (). importantes, ademas
b xi () =
bM
de la propiedad de mnima varianza
wi
wi Q
Q
Q
ym () =
b xim ()
Q
ya comentada. En concreto se establece la normalidad de
1iP
1iP
(3.16)
dicho estimador y su correspondiente varianza exacta.
P
Los pesos wi (verificando 1iP wi = 1) se obtienen de
Los resultados obtenidos se derivan asumiendo las siR
bM
guientes condiciones:
del estimador Q
modo que maximizan la precision
ym ().
Se usa el criterio de mnima varianza para obtener es- (C3.4). Asumimos que s0 es una muestra aleatoria simple
tas cantidades. Sabido esto, la varianza de este estimador
de U , lo cual implica que la muestra complemenviene dada por
una muestra aleatoria simple de
taria s0c es tambien
U . Finalmente, asumiremos que sm es una muestra
X
R
b yrim ())+
bM
wi2 V (Q
V (Q
ym ()) =
aleatoria simple de s0 y su es otra muestra aleato1iP
ria simple de s0c . Bajo estas condiciones, las proban0
X
vienen dadas por: i0 =
,
bilidades de inclusion
b yrim (), Q
b yrjm ()).
+2
wi wj Cov(Q
N
0 0
i<j
m(m 1)
n n 1
m
0
ij
, i/s0 = 0 , ij/s0 = 0 0
,
=
N N 1
n
n (n 1)
Esta ultima
ecuacion
puede escribirse como
R
u(u 1)
u
bM
= w0 Bw, donde w = (w1 , . . . , wP )0 ,
V (Q
ym ())
i/s0c =
.
, ij/s0c =
N n0
(N n0 )(N n0 1)
58
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
timadores Q
normales.
Demostracion
b yu (),
En primer lugar, los cuantiles muestrales Q
b
b
b
1
1
b yrim (), Q
b yrjm ()) = (1 )
Cov(Q
+
2
N
fy (Qy ())
m
P11 (y, xi )
fy (Qy ())
1
1
Ri
1 +
0
m fxi (Qxi ()) (1 )
n
fy (Qy ())
P11 (y, xj )
1
1
Rj
1
0
m
fxj (Qxj ()) (1 )
n
2
fy (Qy ())
1
1
Ri Rj
0
m
fxi (Qxi ())fxj (Qxj ())
n
P11 (xi , xj )
1 ,
(1 )
(3.24)
de valores en la
donde P11 (y, xi ) denota la proporcion
para los cuales y Qy () y xi Qxi (), y
poblacion
Ri = Qy ()/Qxi ().
Demostracion
b yrim () puede expresarse como
El estimador Q
La normalidad asintotica
de la clase propuesta de es asintotica
La expresion
de la covarianza de los esti
timadores se deriva facilmente
como consecuencia de la madores Q
b yrim () se obtiene tomando espeb yrim () y Q
lineal de la clase.
expresion
ranzas (se han considerado solamente terminos
de orden
b yopt () tam
La normalidad asintotica
del estimador Q
uno). Las esperanzas de las variables ei pueden derivarse
se deriva al pertenecer este estimador a la clase de Singh (2003):
bien
(3.17).
N m
nos
(1 )(Qy ()fy (Qy ()))2 ,
E[e20 ] =
La linealidad de la clase de estimadores tambien
Nm
permitira computar sus varianzas. Para ello, sera neceN m
mul(1 )(Qxi ()fxi (Qxi ()))2 ,
E[e21i ] =
sario conocer las varianzas del estimador de razon
Nm
tivariante basado en la muestra solapada y el estiE[e22i ] = E[e1i e2i ] =
mador que solamente envuelve a la muestra no solapada,
N n0
b yu (), como puede verse en (3.20) y (3.21).
Q
(1 )(Qxi ()fxi (Qxi ()))2 ,
0
N
n
asintotica
N m
1
1
1
1
b yrim ()) = (1 )
(P11 (xj , xi ) (1 ))
E[e1j e1i ] =
+
0
V (Q
Nm
fy (Qy ())2
m
N
m
n
(Qxj ()fxj (Qxj ())Qxi ()fxi (Qxi ()))1 .
(3.23)
fy (Qy ())
fy (Qy ())
P11 (y, xi )
Sustituyendo estos valores y operando adecuadaRi
+2 1
,
Ri
fxi (Qxi ())
fxi (Qxi ())
(1 )
dada en (3.24).
mente, se obtiene la expresion
5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
59
3.3.4.
Propiedades empricas
les: la poblacion
etapa de estimacion.
Comparaciones teoricas
El primer estudio consiste en comparar la varianza del
estimador optimo
propuesto dado en (3.21) con la varianb yn (). Este esza del estimador frecuentemente usado, Q
tudio nos permitira conocer el comportamiento de las va
rianzas teoricas
de los estimadores. Gross (1980) com asintotica
muestral en la ocasion
reciente es menor
tamano
muestral de la primera ocasion.
que el tamano
bajos se ob4. En ambas poblaciones, los ratios mas
muestrales son n0 = 75
tienen cuando los tamanos
y n = 25, en cuyo caso los RT , para valores
grandes de , son aproximadamente iguales a 0.4,
a la varianza asintotica
del estimador estandar.
Estudio emprico
El siguiente paso consiste en llevar a cabo un estudio
con el fin de revelar la ganancia en eficiende simulacion
b yn () en una situacion
b yopt () con respecto a Q
cia de Q
en terminos
de Sesgo Relativo (SR) y Eficiencia Relativa (ER), con
SR =
B
b yopt ()]
b yopt ()b Qy ()
ECM [Q
1 XQ
; ER =
,
b yn ()]
B
Qy ()
ECM [Q
b=1
el Error Cuadratico
Ratios Teoricos
RT = V (Q
estudio, se representan diferentes valores de m en el eje
de abscisas y el estimador propuesto se ha obtenido para
Counties y
cada valor de P (P = 1, 2 en la poblacion
Turismos). Las lneas horiP = 1, 2, 3, 4 en la poblacion
b yn (). Nozontales muestran los RT para el estimador Q
tamos que valores de RT por debajo de 1 indican que
b yn ()), y por tanto el estib yopt ()) es menor que V (Q
V (Q
eficiente.
mador propuesto es mas
de sooptima
esta entre 0.2 y 0.4. Una fraccion
alta resulta apropiada cuando el
lapamiento mas
de
Las generaciones aleatorias, calculos
y obtencion
estimadores se han obtenido mediante el programa R.
estan
disponibles en el
Los detalles de la programacion
Apendice
??.
Las Figuras B.20 y B.21 representan la ER obtenida
En la Figuras B.22 y B.23
en el estudio de simulacion.
de los valores optimos
se muestra la evolucion
Wopt con
de solapamiento. Los valores SR
respecto a la fraccion
todos dentro de un rango razonable y por tanto se
estan
han omitido.
De las Figuras B.20, B.21, B.22 y B.23 se pueden hacer las siguientes observaciones:
1. Los resultados confirman un buen comportamiento
paracion
y a su vez con
60
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
3. Cuando los tamanos
muestrales en ambas oca de solapamiento opti
siones son iguales, la fraccion
ma esta entre 0,2 y 0,4. En otro caso, no puede ob de solapamiento optima.
y bajo
V (Q
el estimador optimo
esta situacion,
propuesto ob precisas.
tiene estimaciones mas
muestral en la segunda ocasion
5. Cuando el tamano
en la primera ocasion,
se
es menor que el tamano
y esta
obtiene una mayor ganancia en precision,
ganancia aumenta a medida que crece la diferencia
muestrales. Este resultado es raentre los tamanos
en relacion
con n0 ,
zonable porque si n es pequeno
entonces, la primera muestra proporcionara mayor
y el estimador de razon
multiple
informacion,
basa
un
do en la muestra solapada presentara tambien
menor grado de error.
en la practica
esto no es lo habitual.
se define un estimador compuesto
A continuacion
Sarndal
et al., 1992,
basado en estimadores (vease
p.347) y que combina un estimador construido en la muestra solapada con otro estimador basado en la muestra no
solapada.
As, usando la muestra no solapada, su , es posible ob de distribucion
(3.26)
1 X (t yi )
,
Fbym (t) =
N is i0 i/s0
(3.27)
1 X (t xi )
,
Fbxm (t) =
N is i0 i/s0
(3.28)
3.3.5.
esquema, Sarndal
et al. (1992) demostraron que el estimador de tipo Horvitz-Thompson de una media no puede
i ,
requiere el calculo
de las probabilidades de inclusion
y esto no es posible para las unidades de la muestra su o
para las unidades de la muestra sm .
Los distintos esquemas de muestreo que pueden
plantearse bajo un muestreo en dos ocasiones sucesi
vas y sus correspondientes probabilidades de inclusion
La muestra de la
son los que se detallan a continuacion.
n0 esta disenada
segun
primera fase s0 con tamano
un
muestral d1 , tal que pd1 (s0 ) es la probabilidad de
diseno
que s0 sea escogida. Las correspondientes probabilidades
de primer y segundo orden vienen dadas por
de inclusion
0
0
(3.29) y basandonos
en la muestra solapada y en la muestra de la primera fase, se propone el siguiente estimador
de tipo razon
donde
b
b ym () Qx () ,
b rym () = Q
Q
b
Qxm ()
(3.30)
(3.31)
(3.32)
(3.33)
(3.34)
5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
61
donde w es un peso constante y no negativo. El siguiente paso sera determinar w de modo que se minimice la
bR
varianza del estimador compuesto Q
y ().
Teorema 3.8 La varianza mnima del estimador
viene dada por
bR
Vmin (Q
y ()) =
bR
Q
y ()
V1 V2 C 2
.
V1 + V2 2C
de Bahadur (vease
representacion
por ejemplo Chambers
y Dunstan, 1986):
1
r
(Fbym
(Qy ()))+op (n1/2 ),
fy (Qy ())
(3.36)
donde fy () denota la derivada del valor lmite de Fy ()
r
cuando N y Fbym
(t) denota un estimador de tipo
para Fy (t), es decir
razon
b rym ()Qy () =
Q
Fbym (t) b
r
Fbym
(t) =
Fx (t).
Fbxm (t)
Demostracion
bR
La varianza de Q
y () viene dada por
2
2
br
b
bR
V (Q
y ()) = w V (Qym ()) + (1 w) V (Qyu ())
(vease
Rao et al., 1990). De este modo,
b rym ()) =
b yu (), Q
+2w(1 w)Cov(Q
(V1 + V2 2C){w
V1 + V2 2C
V1 + V2 2C
V1 V2 C 2
bR
= Vmin (Q
y ()),
V1 + V2 2C
puesto que V1 + V2 2C > 0, y donde
b rym ()),
(Q
V1
=V
V2
b yu ()),
= V (Q
b rym ()).
b yu (), Q
= Cov(Q
V2 C
.
V1 + V2 2C
(3.35)
3.3.6.
Propiedades teoricas
En esta seccion
se estudian las propiedades
asintoticas
del estimador propuesto en (3.34). Los resultados que se establecen se derivan asumiendo las condiciones (C3.4), (C3.5) y (C3.6).
Teorema 3.9 El estimador compuesto
asintoticamente
insesgado para Qy ().
bR
Q
y ()
es
Demostracion
Para demostrar este resultado usaremos la insesgadez de los dos estimadores en los que se basa el estimador propuesto. En primer lugar, es sabido que el cuanb yu () es asintoticamente
insesgado para
til muestral Q
62
inPuesto que Q
R
b
sesgados para Qy (), el estimador propuesto Qy () tam lo sera.
bien
asintoticamente
normal.
r
(Qy ())) = 0,
E( Fbym
compuesto
bR
Q
y ()
es
Demostracion
La normalidad asintotica
de la clase propuesta se deri
(3.34).
va facilmente
a partir de la expresion
En primer lugar, bajo las condiciones (C3.4), (C3.5) y
b yu () es asintoticamente
la aproxiasintoticamente
normal. Asumiendo ademas
lineal (3.36), puede derivarse facilmente
macion
la norb rym ().
malidad del estimador Q
Por ultimo, usando los dos resultados anteriores, la li (3.34) nos permite establecer la
nealidad de la expresion
normalidad del estimador compuesto propuesto.
asintotica
a partir de la varianza del estimador basado en
la muestra solapada, la varianza del estimador basado en
la muestra no solapada y la covarianza entre ambos. As
2
2
bR
V (Q
y ()) = w V1 + (1 w) V2 + 2w(1 w)C. (3.37)
Estas varianzas y covarianzas toman una forma simple cuando la unidades muestrales se seleccionan mediante muestreo aleatorio simple.
asintotica
N u
(1 )(u)1 {fy (Qy ())}2 .
N
(3.38)
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
1
1
1
1
b rym ()) = (1 )
V (Q
fy (Qy ())2
m
N
m
n0
(3.39)
fy (Qy ())
P11 (x, y)
fy (Qy ())
R
+2 1
,
R
fx (Qx ())
fx (Qx ())
(1 )
termino
es cero. En lo que respecta al primer termino
b ys0 () + o(m1 )
b rym ()/s0 )) = Q
E(Q
y
b ys0c (),
b yu ()/s0 )) = Q
E(Q
donde
de valores en la
donde P11 (x, y) denota la proporcion
para los cuales x Qx () e y Qy (), y
poblacion
R = Qy ()/Qx ().
Demostracion
sion
para V (Q
b rym () Qy ()
Q
=
!
b
b ym () Qy () + Qxm () 1 (Qy ()) = (3.40)
Q
b x ()
Q
1 X (t yi )
.
Fbys0c (t) =
N
i0c
0c
is
de Bahadur da (vease
La expresion
de la varianza del estimador
b rym () se obtiene elevando al cuadrado los dos miemQ
bros de (3.40) y posteriormente tomando esperanzas (No
tamos que solamente se han considerado terminos
de orden uno):
(1 )
1
1
1
1
r
b
+
0
V (Qym ()) =
fy (Qy ())2
m
N
m
n
fy (Qy ()
(Qy ())
Qx ()fx (Q
(1 )
x ())
(1 )
fy (Qy ())
1
1
1
1
=
+
0 R
2
f
(Q
())
m
N
m
n
f
y
y
x (Qx ())
fy (Qy ())
P11 (x, y)
R
+2 1
.
fx (Qx ())
(1 )
Los valores de E[e20 ], E[e21 ], E[e22 ], E[e0 e1 ] y E[e0 e2 ] pueden
verse en Allen et al. (2002) y Singh (2003).
n
n0 (1 )
1
1
.
=
fy (Qy ())2 N n
N
n0
1
( Fbys0c (Qy ())) + op (n1/2 ),
fy (Qy ())
b ys0 () Qy () =
Q
1
( Fbys0 (Qy ())) + op (n1/2 ),
fy (Qy ())
y de este modo se obtiene
=
b ys0c (), Q
b ys0 ()) '
Cov(Q
'
1
Cov(Fbys0 (Qy ()), Fbys0c (Qy ())) =
fy (Qy ())2
n
1
V (Fbys0 (Qy ())) =
fy (Qy ())2 N n
n
n0 (1 )
1
1
,
=
fy (Qy ())2 N n
N
n0
h
i2
n
1
1
1
n
C
C
(
)
0
1
0
1
N
N n n
N
bR
,
V (Q
y ()) = C1
n
1
1
n
N + C0 + 2C1 N n ( n0 N1 )
1
(3.42)
de solapamiento,
donde = m/n es la fraccion
1
1
1
1
+ C2
0 ,
C0 =
n
N
n
n
(3.41)
Demostracion
Para obtener la covarianza entre los estimadores
b rym () al primer orden de aproximacion,
b yu () y Q
nos
Q
de varianza:
basaremos en la propia definicion
b rym ()) =
b yu (), Q
Cov(Q
C1 =
(1 )
fy (Qy ())2
y
fy (Qy ())
C2 = R
fx (Qx ())
fy (Qy ())
P11 (x, y)
R
+ 2(1
) .
fx (Qx ())
(1 )
asintoticas
y los valores optimos
w y 1 w.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
63
b yn ()) V (Q
bR
V (Q
y ())
.
R
b
V (Qy ())
(3.44)
El valor optimo
de u que maximiza (3.44) coincide con
() = V (Q
la funcion
y ()) y verificando la condicion
es monotona
proximos
ocasion
a uno (cuando la
a otra). Todos
misma muestra se conserva de una ocasion
consultarse
estos resultados asintoticos
pueden tambien
(2006b).
en Rueda y Munoz
3.3.7.
Propiedades empricas
tamanos
muestrales en todas las muestras y bajo distin
tos esquemas de muestreo. Para este analisis
se usara la
Counties (vease
poblacion
Apendice
A para una descrip completa de esta poblacion).
cion
Como se ha podido comprobar, para la puesta en
practica
de un muestreo con dos ocasiones sucesivas es
necesario seleccionar tres muestras diferentes, las cuales
muestrales.
pueden obtenerse a partir de distintos disenos
En concreto, estas tres muestras son la muestra de la
primera fase, la muestra solapada y la muestra no solapa de esta seccion
se usaran
da. En el estudio de simulacion
las distintas combinaciones de esquemas de muestreo
B
bR
bR
ECM [Q
1 X |Q
y ()b Qy ()|
y ()]
; ER =
,
b yn ()]
B
Qy ()
ECM
[
Q
b=1
Acronimo
SM S
M SS
MMM
Muestra
s0
sm
su
s0
sm
su
s0
sm
su
Tipo de muestreo
M. aleatorio simple
Metodo
de Midzuno
M. aleatorio simple
Metodo
de Midzuno
M. aleatorio simple
M. aleatorio simple
Metodo
de Midzuno
Metodo
de Midzuno
Metodo
de Midzuno
siendo b la b-esima
simulacion,
bR
br
b
Q
y () = w Qym () + (1 w)Qyu (),
P
2
bR
bR
= B 1 B
ECM [Q
y ()]
b=1 [Qy ()b Qy ()] , y
b
b
estimador estandar
para el cuantil poblacional basado en
mas
reciente.
la ocasion
b yu ())
V (Q
,
b rym ()) + V (Q
b yu ())
V (Q
en el cumplimiento
y tamanos
muestrales. La variacion
de los estimadores desde distintas perspectivas puede
por tanto observarse. Notamos que las curvas continuas
corresponden al estimador propuesto (usando covarianzas), mientras que las curvas discontinuas corresponden
al estimador compuesto que no emplea covarianzas. Las
siempre mas
excepto para el caso de fracciones de solapamiento elevadas.
de solapamiento aumenta, decrece la
Cuando la fraccion
64
(S)
(M)
(S)
(M)
(S)
(S)
(M)
(M)
(M)
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
paracion
En lo que respecta al comportamiento del uso o no
de covarianzas en el estimador propuesto, puede comprobarse que se obtiene una ligera mejora en eficiencia
cuando se tiene en cuenta las covarianzas en la construc del estimador, teniendo por tanto sentido la hipotesis
cion
de dependencia entre el estimador de la muestra no solapada y el estimador propuesto para la parte solapada.
observarse que la ganancia en precision
Puede ademas
sobre el estimador que omite las covarianzas es mayor
muestral de la ocasion
El analisis
del Sesgo Relativo de los distintos estimadores puede seguirse en las Figuras B.27, B.28 y B.29.
A partir de estas figuras puede observase un similar
comportamiento de los estimadores al obtenido en el estudio de la Eficiencia Relativa. Los valores del Sesgo Rel siempre por
ativo para los estimadores propuestos estan
debajo de 0.2, y en algunas ocasiones son inferiores a 0.1,
los estimadores mediante diagramas de cajas con big muesotes. Por brevedad, se ha considerado el diseno
sos en comparacion
y el estimador que omite las covarianzas.
Notamos que se han realizado otras simulaciones con
distintos tamanos
muestrales a los usados en los estudios anteriores. En todos los casos los resultados confirman el buen comportamiento del estimador propuesto
se ha observado que
frente a sus competidores. Tambien
del estimador propuesto es mejor
la ganancia en precision
muestral en la primera ocasion
tre tamanos
muestrales. Este resultado es logico
porque
con n, la primera muessi n0 es mayor en comparacion
y el estimador de
tra proporcionara mayor informacion,
basado en la muestra solapada presentara un
tipo razon
menor grado de error, por lo que es de esperar que el es en precision.
Con el fin
timador propuesto mejore tambien
informacion
sobre la estimacion
de cuande obtener mas
3.4.
lizaran
de algunas medidas de pobreza.
Bajo datos de la Encuesta Continua de Presupuestos
3.4.1.
Antecedentes
Asumiendo el metodo
de verosimilitud emprica, los
unicos
estimadores conocidos para cuantiles en la lite
modelo-calibrada, es
ratura se basan en la aproximacion
decir, se usan los estimadores modelo-calibrados para la
de distribucion
descritos en la Seccion
2.4.2. Sea
funcion
FbM CP E (t) uno de estos estimadores cuando se usa el
b HKy (). Notamos que FbM CP E (t) sera mas
punto t0 = Q
eficiente que FbHKy (t) para t en las cercanas de Qy ().
5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
65
de distribucion
F (t) diferen(C3.7). Existe una funcion
de densidad f (t), tal
ciable de orden 2 con funcion
que F (t) F (t) = o(1), y para cualquier a =
O(n1/2 )
sup |[F (t + ) F (t)] [F (t + ) F (t)]| =
||a
),
= o(n1/2
muestral n cuando .
donde el tamano
(C3.8). Para un valor fijo (0, 1), Q () Q0 (),
donde Q0 () es el cuantil de F (t) y f (Q0 ()) > 0.
El siguiente teorema puede establecerse.
1
FbM CP E (Qy ()) + op (n1/2 ),
=
f (Qy ())
densidad de la funcion
de disdonde f () es la funcion
lmite de Fy (t) cuando N .
tribucion
b M CP E ()
1
V (FbM CP E (Qy ())) =
f (Qy ())2
N
1 XX
1
Ui
Uj
(
+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j
donde Ui = (Q
y () yi ) Fy (Qy ()) (wi w )BN
1 P N
yw = N
i=1 wi . wi viene dada por (2.85), (2.87),
(2.90) o (2.93) cuando t0 = Qy ().
Esta varianza puede estimarse mediante
b M CP E ()) '
Vb (Q
1
b M CP E ())) =
V (FbM CP E (Q
f (Qy ())2
N
1 XX
1
ui
uj
(
+ o(n1 ),
i
j
ij
f (Qy ())2 N 2 i<j j=1
i
j
b
donde
Pui = (QM CP E () yi ) (wi w)BN y w =
w
.
wi viene dada por (2.86), (2.88), (2.91) o
N 1 N
i
i=1
b HKy (). f (Qy ()) puede estimarse
(2.92) cuando t0 = Q
ganancia maxima
de la eficiencia asintotica
esta garanti
mueszada. As, este metodo
puede aplicarse en disenos
trales complejos y para un vector multivariante de variables auxiliares.
3.4.2.
a la estimacion
de
Aplicacion
lneas de pobreza
El analisis
de las lneas de pobreza es un tema re en la sociedad. La proporcion
oficiente y de gran interes
cial de pobreza y el numero
de personas en pobreza son
El analisis
de la estructura de los ingresos y la desigualdad de ingresos son los principales objetivos en los
estudios de pobreza. Esto se debe a que la desigualdad
de los ingresos puede afectar a la eficiencia del mercado
laboral, y a que esto conlleva a una serie de problemas
relacionados con la igualdad social, tal como la incidencia
social.
de la pobreza o la estratificacion
de una medida de pobreza requiere la
La aplicacion
de una lnea de pobreza, la cual separe
especificacion
en pobres y no pobres. En la literatura,
a la poblacion
existen distintas formas de especificar una lnea de po para la Cooperacion
Economica
y el Desarrollo (OECD, acronimo
de Organization for Economic Cooperation and Development) en el
1997, definio la lnea de bajos ingresos como dos terano
cios del salario mediano, de modo que un empleado se
consideraba que tena ingresos bajos si reciba un salario
macroeconomico,
los empleados con bajos ingresos es
claramente relevante para la igualdad social, como lo demuestran las razones con alta pobreza en los pases
donde los empleados con bajos ingresos es relativamente
alto (OECD, 1997). Por otro lado, desde una perspectiva
El metodo
relativo especifica la lnea de pobreza como un
de ingresos o gastos y, por lo tanpunto en la distribucion
el tiempo para cambios en niveles de vida. En la practica, los investigadores a menudo especifican la lnea de
pobreza relativa como un porcentaje del ingreso o gasto
medio (Wolfson y Evans, 1989, Johnson y Webb, 1992),
como un porcentaje del ingreso o gasto mediano (Smeeding, 1991, Eurostat, 2000) o simplemente como un cuantil
66
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Como se ha comentado, la literatura relacionada a la es de medianas y otros cuantiles, los cuales usan
timacion
una variable auxiliar, es considerablemente menos exten
so que en el caso de medias y totales, y las tecnicas
ha
no tienen una
bituales, tal como el metodo
de regresion,
obvia a la estimacion
de cuantiles. Por tanto, la
extension
mayora de los estudios relacionados con cuantiles han
sido desarrollados asumiendo muestreo aleatorio simple
o muestreo estratificado (Gross, 1980, Sedransk y Meyer,
1978, Sedransk y Smith, 1988, Kuk y Mak, 1989, Singh et
al., 2001), o bien considerando aproximaciones basadas
en el modelo (Chambers y Dunstan, 1986, Dorfman y Hall,
1993, Mak y Kuk, 1993), las cuales asumen un modelo de
los estimadores son dependientes de disuperpoblacion,
cho modelos y puede llegarse a obtener un pobre cumplimiento de los estimadores bajo una inapropiada especi del modelo. En la practica,
ficacion
estas situaciones no
son usuales, especialmente para el caso de datos relacionados con ingresos o gastos, los cuales se analizan
asumiendo disenos
muestrales complejos con probabili exhiben una
dades desiguales y cuyos datos, ademas,
alta asimetra, lo que hace muy difcil asociar un mode a los datos en estudio. El uso de
lo de superpoblacion
estimadores de cuantiles eficientes basados en informa auxiliar y aproximaciones independientes del modelo,
cion
modelo-asistida y el metodo
de verosimilitud emprica
para construir nuevos estimadores para un determina de cuando cuantil. En lo que respecta a la estimacion
unico
valor fijado. Una importante perdida
de eficiencia
puede llegar a obtenerse cuando dicho valor fijado se encuentra alejado del cuantil que va a ser estimado.
El estimador propuesto usa de modo efectivo la in auxiliar en la etapa de estimacion
porque este
formacion
esta basado en tres valores fijados construidos a partir de
auxiliar. Estos valores se encuentran bien
la informacion
de datos, resolvienrepartidos dentro de la distribucion
3.4.3.
Estimadores
modelo-asistidos
propuestos
En este epgrafe se describe el estimador propuesto usando la metodologa de verosimilitud emprica. Como se ha comentado, usaremos una perspectiva modeloasistida debido a que esta proporciona un enfoque en el
cual se pueden desarrollar estimadores eficientemente.
i = 1, . . . , N
(3.45)
la practica
los valores del vector son desconocidos,
X xi yi
X xi xti
.
(3.46)
B=
2
2
iU
iU
6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
67
X di xi yi
X di xi xti
b
.
(3.47)
=
2
2
is
is
jado. La aplicacion
de cuantiles resulta posible, aunque este proceso arras
tra una importante perdida
de eficiencia cuando dicho valor prefijado esta alejado de cuantil que va a ser estima
usando el metodo
de verosimilitud emprica y tres valores
a reducir tal perdida
Asumiendo el metodo
de verosimilitud emprica (Chen
y Sitter, 1999), el estimador propuesto para el cuantil
esta dado por
b M A () = nf{t : FbM A (t) },
Q
donde
FbM A (t) =
X
is
pbi (t yi ),
(3.48)
(3.49)
pi = 1,
(3.50)
is
N
1 X
(tg25 gk ) = Fg (tg25 ) = 0,25,
N
is
k=1
(3.51)
N
X
X
1
pi (tg50 gi ) =
(tg50 gk ) = Fg (tg50 ) = 0,5,
N
is
k=1
(3.52)
N
X
1 X
pi (tg75 gi ) =
(tg75 gk ) = Fg (tg75 ) = 0,75,
N
is
k=1
(3.53)
donde tg25 = Qg (0,25), tg50 = Qg (0,50), tg75 = Qg (0,75),
y Qg () es el cuantil para la variable gi = bt xi .
Notamos que la idea de usar (t gi ) para cualquier
para formar restricciot como una variable de calibracion
nes como las dadas en (3.51), (3.52) y (3.53) fue en primer
lugar discutida en Wu y Sitter (2001) y posteriormente ela de
borada en Chen y Wu (2002). Por otro lado, la eleccion
los valores tg25 , tg50 y tg75 en (3.51), (3.52) y (3.53) ha
2.4.
sido discutida en la Seccion
Una vez que se ha definido el estimador de cuantiles,
las medidas de pobreza que dependan de tales parame ser estimadas. Por ejemplo, la lnea de bajos
tros podran
pi (tg25 gi ) =
estan
1
y 2 (Eurostat, 2000, U.S. Census Bureau, etc):
r1 ,2 = Qy (1 )/Qy (2 ).
(3.56)
(3.57)
3.4.4.
de la
Propiedades. Estimacion
varianza
Seccion
para la varianza del estimador propuesto para cuantiles.
de tal expresion
es posible, aunque tenLa determinacion
dra unicamente
validez asintotica,
es decir, para tamanos
sente en la practica.
Por otro lado, por la estructura no
difcil,
presion
para la varianza resulta aun
mas
puesto que la caracterstica comun
de las medidas de
pobreza, como por ejemplo (3.54) y (3.55), es su complejidad. Este hecho puede comprobarse en Shao y Rao
(1993), Kova
cevik y Binder (1997), Kova
cevik y Yung
nacion
bajo estas situaciones.
La unica
alternativa en estos casos es el uso de metodos
de varianzas.
especiales para la estimacion
68
(3.55)
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
En primer lugar, notamos que en los estudios de pobreza, la variabilidad muestral de las diferentes medidas
particular cuando estas
Los metodos
tradicionales para aproximar la varianza
de un estimador (vease
Wolter, 1985), envuelven una de
de Taylor o meto
las siguientes estrategias: linealizacion
tal como bootstrap, jackknife, etc. En
dos de replicacion
los casos donde los estimadores presentan una forma
replicacion
de imple
linealizacion
re de funciones de densidad de probaquiere la estimacion
metodos
de remuestreo con respecto al metodo
de es de ecuaciones (vease
timacion
Kovacevic, Yung y Pandher, 1995) en el caso de medidas de desigualdad de ingresos. Para algunos cuantiles, el estimador bootstrap exh
estimacion
bootstrap
3.4.5.
Propiedades empricas
se evalua
del estiEn esta seccion
la precision
mador propuesto junto con otros estimadores conocidos.
se estudia la eficiencia de estos procedimientos
Ademas,
de cuantiles a diversas mecuando se aplica la estimacion
Varianzas bootstrap
Varianzas asintoticas
ERM SRM CIM
LIM ERM SRM CIM
LIM
0.82 14.05 92.9 550.96
Est.
MA
MA1
MCPE
HK
r
d
dm
CD
ER
0.70
0.79
0.78
1.00
1.09
1.11
0.74
1.11
SR
-0.10
-0.08
-0.11
-0.24
-0.00
0.01
-0.07
2.23
Varianzas bootstrap
ER
SR
CI
LI
0.57 16.59 93.8 391.54
0.63 13.03 94.2 410.32
0.65 14.87 94.0 412.62
1.00 17.09 93.4 470.88
0.98 7.77 94.6 473.71
0.97 6.40 93.8 474.52
0.49 7.39 93.6 388.18
0.09 0.65 77.2 313.01
Varianzas asintoticas
ER
SR
CI
LI
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
69
ECPF1997 (vease
Apendice
A) que esta formada por los datos de ingresos y
gastos de 3000 familias extradas de la Encuesta Continua
1997. Estos datos se
de Presupuestos Familiares del ano
artifihan duplicado tres veces para crear una poblacion
cial de N = 9000 individuos, a partir de los cuales nos
basaremos para llevar a cabo el presente estudio de si Como variable principal se han tomado los inmulacion.
gresos, mientras que como variable auxiliar se consideran
los gastos familiares.
El cumplimiento del estimador de cuantiles propues de la varianza obtenito y su correspondiente estimacion
da mediante bootstrap se comparara con los estimadores
de cuantiles obtenidos a partir de las siguientes fun el clasico
ciones de distribucion:
estimador de tipo HorvitzThompson , FbHT y (t), el cual lo usaremos como esti para todos los estimadores, los esmador de comparacion
y diferencia (Fbr (t), Fbd (t), Fbdm (t))
timadores de tipo razon
propuestos en Rao et al. (1990), el estimador de Chambers y Dunstan (1986), FbCD (t), y FbM CP E (t), el estimador
calcularemos el
propuesto en Chen y Wu (2002). Ademas,
estimador modelo-asistido asumiendo un unico
valor pre
=
=
b y ()]/ECM [Q
b HT y ()],
ECM [Q
b
100 E[Qy ()] Qy () /Qy (),
(3.58)
b y ()), se obteny para un estimador de la varianza, Vb (Q
de sustituir
dra las medidas dadas por (3.58) despues
b y ()) y V [Qy ()] respectivamente.
b y () y Qy () por Vb (Q
Q
E[], ECM [] y V [] son las Esperanzas Empricas, Error
Cuadratico
Medio y Varianzas basadas en 500 muesb y ())]
b y ()] y ER[Vb (Q
tras. Notamos que valores de ER[Q
b
b
b
premenores de 1 indican que Qy () y V (Qy ()) son mas
b HT y () y Vb (Q
b HT y ()), respectivamente. Asucisos que Q
se ha obtenido la Cobertura
miendo normalidad, tambien
de los Intervalos de Confianza (CI) al 95 % y la Longitud
Media de cada Intervalo (LI). Todos los estudios se han
n = 500.
basado en muestras de tamano
de cada estimador depende
Notamos que la precision
directamente del cuantil que va a ser estimado. Por ejemplo, el estimador de Chambers y Dunstan es muy eficiente
de la mediana, aunque generalmente
en la estimacion
sufre de importantes sesgos en las estimaciones a medi alejados de la mediana
da que se estiman cuantiles mas
(vease
Rao et al., 1990, Chambers et al., 1993, y Dorfman,
1993). Por este motivo, el primer estudio desarrollado in media global de cada estimador
tenta medir la precision
a partir de los resultados obtenidos en las estimaciones
SRM =
tambien
En el
estudio de las varianzas observamos que las expresiones
asintoticas
funcionan ligeramente mejor que la tecnica
bootstrap, por lo que a tenor de los resultados sera acep de la
table recurrir a tal procedimiento para la estimacion
varianza. Por ultimo,
al estimar todas las varianzas de los
estimadores mediante bootstrap, se observa que el estimador propuesto presenta el mejor comportamiento, al
estimar los intervalos de confianza con menor longitud y
una cobertura similar al resto de estimadores.
es el analisis
macion
de la
desigualdad entre ingresos (Tablas 3.14 y 3.15).
En primer lugar, notamos que al tratarse de medidas
relativas, los resultados obtenidos para las lneas de bajos
los mismos si se usaran
ingresos en la Tabla 3.13 seran
otros valores de , o bien si se considera la propia mediana. Por tanto, las conclusiones que puedan extraerse
de esta tabla se podran hacer para estos casos comentados.
En la Tabla 3.13 observamos que el estimador pro eficiente en terminos
puesto es el mas
de eficiencia relativa. Todos los sesgos relativos se encuentran dentro
de un rango razonable, excepto el de Chambers y Dunstan con un valor superior al resto, en torno al 2.23 %.
to se muestra mas
de eficiencia relativa. Conclusiones similares pueden derivarse de los re-
70
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
y eficiencia para la
Tabla 3.14: Medidas de precision
de cuantiles cuando 1 = 0,5, 2 = 0,25, y se
razon
n = 500.
toman muestras de tamano
Est.
ER
SR
MA
0.93 0.05
MA1
1.04 0.14
MCPE 1.00 -0.01
HK
1.00 0.05
r
1.62 0.34
d
1.65 0.29
dm
0.90 0.06
CD
21.07 14.10
Varianzas bootstrap
ER
SR
CI
LI
0.92 18.18 93.6 0.18
1.07 17.75 95.2 0.19
1.01 14.68 93.8 0.19
1.00 15.91 95.2 0.19
2.53 14.78 94.4 0.24
2.16 11.45 94.2 0.23
0.80 15.69 93.8 0.18
0.05 23.43 0.0 0.08
y eficiencia para la
Tabla 3.15: Medidas de precision
de cuantiles cuando 1 = 0,95, 2 = 0,2, y se
razon
n = 500.
toman muestras de tamano
Est.
ER
SR
MA
0.93 0.56
MA1 14.66 1.70
MCPE 1.02 0.61
HK
1.00 0.27
r
1.40 0.95
d
1.38 0.72
dm
1.03 0.61
CD
46.52 43.58
Varianzas bootstrap
ER
SR
CI
LI
1.01 -0.70 91.4 0.92
-82.28 91.4 1.06
1.07 -3.21 91.6 0.96
1.00 -3.04 91.4 0.95
2.15
0.30 92.6 1.14
2.01 -3.69 91.4 1.11
1.12 -6.12 90.8 0.95
2.4 1.33
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
71
4. Discusin
conjunta de
En este captulo se hace una discusion
los resultados obtenidos en todos los captulos anteriores,
resumiendo las principales conclusiones.
Conclusiones y valoracion
de resultados
4.1.
ques: estimacion
de verosimilitud emprica
de cuantiles (Captulo 3). En
(Captulo 2) y la estimacion
estos dos captulos se han planteado nuevos estimadores
en situaciones reales del muestreo en poblaciones finitas.
faltantes, situacion
y que no
se tiene en cuenta en la mayora de las investigaciones
por muestreo. Las aportaciones hechas en este sentido
de este problema,
dan una alternativa para la solucion
puesto que se ha comprobado que puede existir una importante ganancia en eficiencia en las estimaciones de los
parametros
desconocidos.
estimador optimo
dentro de la clase propuesta en el sen
tido de minimizar la varianza asintotica.
El estimador propuesto se ha comparado con otros es donde se ha comtimadores en un estudio de simulacion,
Asumiendo el metodo
de verosimilitud emprica tam se han propuesto estimadores modelo-asistidos para
bien
de distribucion.
El estimador propuesto posee
la funcion
un importante numero
de propiedades deseables. Por
ejemplo:
estimadores en la literatura.
otras propiedades imporSe satisfacen tambien
asintotica,
disponibilidad de un estimador de la varianza, etc.
del estimador propuesto se ha comparaLa precision
do mediante varias medidas con otros estimadores conocidos. Estos estudios han mostrado un comportamiento
optimo
por parte del estimador propuesto modelo-asistido.
se ha visto que el estimador de Chambers y DunTambien
stan puede llegar a ser muy eficiente cuando el modelo
en el que se basa es apropiado, aunque como se discutio en Rao et al. (1990), Chambers et al. (1993) y Dorfman
(1993), este estimador cumple pobremente cuando se
del modelo. Un comentario
tiene una mala especificacion
similar puede hacerse sobre el estimador de verosimilitud
sufre
emprica modelo-calibrado. Este estimador tambien
la funcion
Otra propiedad importante que caracteriza al estimador propuesto es el uso eficiente que se hace de la
auxiliar: por un lado porque pueden usarse
informacion
y
multiples
variables auxiliares en la etapa de estimacion,
En conclusion,
de verosimilitud emprica
practica
de distribucion.
valida
a otros estimadores de la funcion
de cuantiles se ha llevado
El estudio de la estimacion
a cabo en el Captulo 3. Los aportes a la teora de la es de cuantiles se han centrado en tres aspectos:
timacion
6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
73
en muestreo bifasico,
en muestreo
estimacion
estimacion
usando el cocon dos ocasiones sucesivas y estimacion
mentado metodo
de verosimilitud emprica.
La mayora de los procedimientos de muestreo que
auxiliar se basan en estimadores que reusan informacion
quieren el uso de variables conocidas a nivel poblacional,
muestreo bifasico.
Por tanto, el problema de la estimacion
auxiliar queda rede cuantiles basados en informacion
suelto con los estimadores propuestos en este sentido.
precisas
Con el fin de obtener unas estimaciones mas
en poblaciones heterogeneas,
con una posible distribu en grupos homogeneos,
se han propuesto
cion
tambien
la funcion
Se han establecido varias
de dispropiedades para este estimador de la funcion
por lo que el estimador propuesto para cuantribucion,
de tipo economico
o social llevadas a cabo por la agencias nacionales y otros organismos estadsticos usan este
muestral, y la estimacion
de cuantiles es un prodiseno
blema comun
en la mayora de estos estudios. Dentro
del muestreo en dos ocasiones sucesivas se han planteado estimadores desde dos perspectivas bastantes usadas
dentro del muestreo en poblaciones finitas: asumiendo
multiples
variables auxiliares y bajo disenos
muestrales
sion
en el sentido de mnima va
rianza asintotica.
El estimador propuesto posee un buen
numero
de propiedades deseables, tal como normalidad
asintotica,
disponibilidad de la varianza del estimador,
cos y teoricos
que se han llevado a cabo, el estimador se
preciso que otros estimadores conocidos.
muestra mas
muestrales con proPor otro lado, asumiendo disenos
se ha propuesto
babilidades desiguales en cada ocasion
tipo Hajek
(en la parte no solapada de la muestra mas
de computar y
reciente). El estimador propuesto es facil
se ha mostrado bastante preciso en los estudios de si Asumiendo muestreo aleatorio simple en cada
mulacion.
una de las dos ocasiones, se ha obtenido la normalidad
asintotica
del estimador, la cual nos sirve, por ejemplo,
para construir intervalos de confianza para los cuantiles.
Por ultimo,
se han propuesto estimadores para cuan
tiles desde una perspectiva modelo-asistida y consideran
de
do el metodo
de verosimilitud emprica. La aplicacion
de algunas medidas de
estos estimadores a la estimacion
ha sido analizada. Se ha propuesto usar
pobreza tambien
de la varianza de
la tecnica
bootstrap para la estimacion
de todos estos
los estimadores propuestos. La precision
procedimientos nuevos ha sido confirmada en estudios de
y para el problema de la estimacion
de cuansimulacion
tiles y medidas de pobreza usadas por numerosos organismos de estadstica internacionales y de varios pases.
74
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
5. Bibliografa
(2002) Disenos
muestrales en el tiempo. Monografas, Universidad de Almera.
[8] Bahadur, R.R (1966) A note on quantiles in large
samples. Annals of Mathematical Statistics 37, 577580.
[9] Basu, D. (1971) Foundations of statistical inference.
A Symposium, eds. V.P. Godambe and D. A. Sprott,
Toronto: Holt Rinehart and Winston.
[10] Berger, Y.G. (2004) Variance estimation for measures of change in probability sampling. The Canadian Journal of Statistics 32, 451-467.
[11]
[12] Berger, Y.G. y Skinner, C.J. (2003) Variance estimation for a low income proportion. Journal of the
Royal Statistical Society, Series C 52, 457-468.
[13] Bickel, P.J. y Freedman, D.A. (1984) Asymptotic
normality and the bootstrap in stratified sampling.
The Annals of Statistics 12, 470-482.
1 Bibliografa
correspondiente al doctorando.
1 Bibliografa correspondiente al doctorando.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
75
[29] Chen, J., Sitter, R.R. y Wu, C. (2002) Using empirical likelihood methods to obtain range restricted weights in regression estimators for surveys.
Biometrika 89, 230-237.
[30] Chen, J. y Wu, C. (2002) Estimation of distribution
function and quantiles using the model-calibrated
pseudo empirical likelihood method. Statistica Sinica 12, 1223-1239.
[47] Godambe, V.P. y Thompson, M.E. (1973) Estimation in sampling theory with exchangeable prior distributions. The Annals of Statistics 1, 1212-1221.
[48] Godambe, V.P. y Thompson, M.E. (1986) Parameters of superpopulation and survey population: Their
relationships and estimation. International Statistical Review 54, 127-138.
[32] Cramer, H. (1946) Mathematical methods of statistics. Princenton University Press. Princeton.
[33] Dalgleish, L. I. (1995) Software review: Bootstrapping and jackknifing with BOJA. Statistics and Computing 5, 165-174.
[34] Deng, L.Y. y Wu, C.F.J. (1987) Estimation of variance of the regression estimator. Journal of the
American Statistical Association 82, 568-576.
[51] Hajek,
J. (1964) Asymptotic theory of rejective sampling with varying probabilities from a finite population. Annals of Mathematical Statistics 35, 14911523.
[35] Deville, J.C. (1999) Variance estimation for complex statistics and estimators: linearization and
residual techniques. Survey Methodology 25, 193203.
[43] Fernandez
Garca, F.R. y Mayor Gallego, J.A.
(1994) Muestreo en Poblaciones Finitas: Curso
Basico.
P.P.U., Barcelona.
[44] Fernandez
Sanchez,
M.P., Hernandez
Bastida, A.
y Sanchez
Gonzalez,
C. (2004) Analisis
de los
ingresos y gastos trimestrales de los hogares es
panoles
usando verosimilitud emprica. Estudios de
Economa Aplicada 22, 139-150.
[45] Francisco, C.A. y Fuller, W.A. (1991) Quantiles estimation with a complex survey design. The Annals
of Statistics 19, 454-469.
76
[52] Hall, P. (1990) Pseudo-likelihood theory for empirical likelihood. The Annals of Statistics 18, 121-140.
[53] Hall, P. y La Scala, B. (1990) Methodology and algorithms of empirical likelihood. International Statistical Review 58, 109-127.
[54] Hansen, M.H. y Hurwitz, W.N. (1943) On the theory
of sampling from finite populations. Annals of Mathematical Statistics 14, 333-362.
[55] Hanurav, T.V. (1966) Some aspects of unified sampling theory. Sankhya, Series A 28, 175-204.
[56] Hartley, H.O. y Rao, J.N.K. (1968) A new estimation theory for sample surveys. Biometrika 55, 547557.
[57] Hedayat, A.S. y Sinha, B.K. (1991) Design and Inference in Finite Population Sampling. John Wiley
and Sons.
[58] Hill, B.M. (1968) Posterior distribution of percentiles: Bayes theorem for sampling from a population. Journal of the American Statistical Association
63, 677-691.
[59] Horvitz, D.G. y Thompson, D.J. (1952) A generalization of sampling without replacement from a finite
universe. Journal of the American Statistical Association 47, 663-685.
[60] Huang, E.T. y Fuller,W.A. (1978) Nonnegative regression estimation for sample survey data. In Proc.
Social Statistics Sec., Am. Statist. Assoc., 300-305
Washington, D.C: American Statistical Association.
[61] Instituo Nacional de Estadstica. (1992) Encuesta
Continua de Presupuestos Familiares. Metodologa.
Instituto Nacional de Estadstica. Madrid.
[62] Isaki, C.T. y Fuller, W.A. (1982) Survey design under the regression superpopulation model. Journal
of the American Statistical Association 77, 89-96.
[63] Jagers, P. (1986) Post-stratification against bias in
sampling. International Statistical Review 54, 159167.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Prada-Sanchez,
J.M. (2004) Bootstrapping the
Dorfman-Hall-Chambers-Dunstan estimator of a finite population distribution function. Journal of Nonparametric Statistics 16, 63-90.
[80] Lucifora, C. y Salverda, W. (1998) Policies for low
wage employment and social exclusion. Ed. FrancoAngeli.
[66] Koenker, R. y Hallock, K.F. (2001) Quantile regression. Journal of Economics Perspectives 15, 143156.
[67] Kova
cevik, M.S. y Binder, D. A. (1997) Variance
estimation for measures of income inequality and
polarization - The estimating equations approach.
Journal of Official Statistics 13, 41-58.
Roman,
Y. y Gonzalez,
S. (2005) Quantile estimation under successive sampling. Computational
Statistics 20, 385-399.
[68] Kova
cevik, M.S. y Yung, W. (1997) Variance estimation for measures of income inequality and polarization - an empirical study. Survey Methodology
23, 41-52.
[69] Kova
cevik, M.S., Yung, W. y Pandher (1995) Estimating the sampling variances of measures of
income inequality and polarization - an empirical
study. Statistic Canada, Methodology Branch Working Paper, HSMD-95-007E.
[70] Kovar, J.G., Rao, J.N.K. y Wu, C.F.J. (1988) Bootstrap and other methods to measure errors in survey estimates. The Canadian Journal of Statistics
16, 25-45.
[71] Kuk, A.Y.C. (1993) A kernel method for estimating
finite population distribution functions using auxiliary
information. Biometrika 80, 385-392.
[72] Kuk, A.Y.C. y Mak, T.K. (1989) Median estimation
in the presence of auxiliary information. Journal of
the Royal Statistical Society, Series B 51, 261-269.
[73] Kuk, A.Y.C. y Mak, T.K. (1994) A functional approach to estimating finite population distribution
functions. Theory Meth. 23 (3), 883-896.
[74] Kuo, L. (1988) Classical and Prediction Approaches to Estimating Distribution Functions from Survey Data. Proceeding of the Section on Survey Researh Methods. American Statistical Association,
280-285.
[75] Lahiri, D.B. (1951) A method of sample selection
providing unbiased ratio estimates. Bulletin of the
International Statistical Institute 33, 133-140.
[76] Leung, D.H.Y. y Qin, J. (2006) Analysing survey
data with incomplete responses by using a method
based on empirical likelihood. Journal of the Royal
Statistical Society, Series C 55, 379-396.
[77] Little, R.J.A. y Rubin, D.B. (1987) Statistical analysis with missing data. John Wiley, New York.
Prada-Sanchez,
J.M. (2003) Bootstrapping the
Chambers-Dunstan estimate of a finite population
distribution function. Journal of Statistical Planning
and Inference 116, 367-388.
[84] Molina, C.E.A. y Skinner, C.J. (1992) Pseudolikelihood and Quasi-likelihood estimation for complex sampling schemes. Computational Statistics
and Data Analysis 13, 395-405.
[85] Mukhopadhyay, P. (2000) Topics in Survey Sampling Springer.
[86] Murthy, M.N. (1967) Sampling theory and method.
Calcutta: Statistical Publishing Society.
[87] Narain, R.D. (1953) On the recurrence formula in
sampling on successive occasions. Journal of the
Indian Society of Agricultural Statistics 5, 96-99.
[88] OECD (1982) The OECD list of social indicators,
Paris.
[89] OECD (1997) Labour market policies: new challenges policies for low-paid workers and unskilled
job seekers. OECD Working Papers. vol 5, no 86 .
[90] Ogus, J.K. y Clark, D.F. (1971) The annual survey
of manufacturers: A report on methodology. Technical Report No. 2, U.S. Bureau of Census, Washington D.C.
[91] Olkin, I. (1958) Multivariate ratio estimation for finite
population. Biometrika 45, 154-165.
[92] Owen, A.B. (1988) Empirical likelihood ratio confidence intervals for a single functional. Biometrika
75, 237-249.
[93] Owen, A.B. (1990) Empirical likelihood confidence
regions. The Annals of Statistics 18, 90-120.
[94] Owen, A.B. (1991) Empirical likelihood for linear
models. The Annals of Statistics 19, 1725-1747.
[95] Owen, A.B. (2001) Empirical likelihood. Chapman y
Hall/CRC.
[96] Patterson, H.D. (1950) Sampling on successive occasions with partial replacement of units. Journal of
the Royal Statistical Society, Series B 12, 241-255.
[97] Perez,
R.A. (2002) Que es un modelo de super
poblacion?.
Metodologa de Encuestas 4 (1), 79-86.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
77
[99] Prasad, N.G.N. y Thach, T. (2001) Variance estimation under two-phase sampling. Working paper,
Department of Mathematical Sciences, University of
Alberta.
[117]
[120]
del
Rueda, M. y Munoz,
J.F. (2005) Una revision
metodo
de verosimilitud emprica en las encuestas
Operacional 26, 225por muestreo. Investigacion
237.
[121]
Rueda, M. y Munoz,
J.F.(2006a) A modelassisted estimator for the distribution function using
the pseudo empirical likelihood method. Statistics
[122]
Rueda, M. y Munoz,
J.F. (2006b) Estimating
quantiles under sampling in two occasions with
unequal probabilities. Computational Statistics and
[123]
[124]
Rueda, M. y Munoz,
J.F. (2006d) Model-assisted
estimation of quantiles using empirical likelihood.
Applications to different poverty measures. Journal
of the Royal Statistical Society, Series C. En re
vision.
[125]
[126]
[109] Rubin, D.B. (1987) Multiple imputation for nonresponse in sample surveys. Wiley, New York.
[110] Rueda, M. y Arcos, A. (2001) On estimating the
median from survey data using multiple auxiliary information. Metrika 4, 161-173.
Rueda, M. y Munoz,
J.F. (2006c) Estimating
quantiles under twophase sampling for stratifica
tion. Statistics and Probability Letters. En revision.
[128] Sanchez-Crespo,
G. (2002) Introduccion
modelos de superpoblacion
en las tecnicas
de muestreo con probabilidades desiguales.
Metodologa de Encuestas 4 (1), 87-104.
1 Bibliografa
1 Bibliografa
correspondiente al doctorando.
correspondiente al doctorando.
78
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
[129] Sarndal,
C.E. (1980) On -inverse weighting versus best linear weighting in probability sampling.
Biometrika 67, 639-650.
[130] Sarndal,
C.E. (1990) Methods for estimating the
precision of survey estimates when imputation has
been used. Proceedings of Symposium 1990: Measurement and improvement of data quality, Ottawa,
337-347.
[131] Sarndal,
C.E. (1992) Methods for estimating the
precision of survey estimates when imputation has
been used. Survey Methodology 18, 241-252.
[132] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1989) The weighted technique for estimating the
variance of the general regression estimator of the
finite population total. Biometrika 76, 527-537.
[133] Sarndal,
C.E., Swensson, B. y Wretman, J.H.
(1992) Model Assisted Survey Sampling. SpringerVerlag, New York
[134] Sedransk, J. y Meyer, J. (1978) Confidence Intervals for the quantiles of a finite populations: simple random and stratified simple random sampling.
Journal of the Royal Statistical Society, Series B 40,
No2, 239-252.
[135] Sedransk, J. y Smith, P.J. (1988) Inference for finite population quantiles. In: Krishnaiah, P.R. and
Rao, C. R. (eds.) Handbook of Statistics 6, Cap11,
267-289. North-Holland.
[136] Sen, A.R. (1972) Successive sampling with p (p
1) auxiliary variables. The Annals of Mathematical
Statistics 43 (6), 2031-2034.
[137] Sen, A.R. (1973) Some theory of sampling on successive occasions. The Australian Journal of Statistics 15 (2), 105-110.
[138] Sen, A. R., Sellers, S. y Smith, G.E.J. (1975) The
use of a ratio estimate in successive sampling. Biometrics 31, 673-683.
[139] Shao, J. (1994) L-statistics in complex survey problems. The Annals of Statistics 22, 946-967.
[155] Theberge,
A. (1999) Extensions of calibration estimators in survey sampling. Journal of the American
Statistical Association 94, 635-644.
[156] Toutenburg, H. y Srivastava, V.K. (1998) Estimation of ratio of population means in survey sampling
when some observations are missing. Metrika 48,
177-187.
[157] Toutenburg, H. y Srivastava, V.K. (1999) Amputation versus imputation of missing values through
ratio method in sample surveys. Unpublished document.
[142] Shao, J. y Tu, D. (1995) The Jackknife and Bootstrap. Springer-Verlag, New York.
[159] Tracy, D.S. y Osahan, S.S. (1994) Random nonresponse on study variable versus on study as well as
auxiliary variables. Statistica 54, 163-168.
[160] Valliant, R., Dorfman, A.H. y Royall, R.M. (2000)
Finite population sampling and inference: A prediction approach. Wiley Series in Probability and
Statistics, Survey Methodology Section. New York.
John Wiley and Sons, Inc.
7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
79
[161] Wang, S. y Dorfman, A.H. (1996) A new estimator for the finite population distribution function.
Biometrika 83, 639-652.
[162] Wolfson, M. y Evans, J.M. (1989) Statistics Canadas low income cut-offs: metodological concerns
and possibilities - a discussion paper. Research Paper Series, Statistical Canada, Ottawa. distribution
function. Biometrika 83, 639-652.
[171] Wu, C. y Luan, Y . (2003) Optimal calibration estimators under two-phase sampling. Journal of Official Statistics 19, 119-131.
[172] Wu, C. y Sitter, R.R. (2001) A model-calibration approach to using complete auxiliary information from
survey data. Journal of the American Statistical Association 96, 185-193.
[164] Woodruff, R.S. (1952) Confidence intervals for medians and other position measures. Journal of the
American Statistical Association 47, 635-646.
[173] Zheng, B. (2001) Statistical inference for poverty measures with relative poverty lines. Journal of
Econometrics 101, 337-356.
[174] Zhong, C.X.B., Chen, J. y Rao, J.N.K. (2000) Empirical likelihood inference in the presence of measurement error. The Canadian Journal of Statistics
28, 841.
[166] Wu, C. (2003) Optimal calibration estimators in survey sampling. Biometrika 90, 937-951.
[175] Zhong, C.X.B. y Rao, J.N.K. (1996) Empirical likelihood inference for finite populations with auxiliary
information using stratified random sampling. Proceeding of the Section on Survey Research Methods, Am. Statist. Assoc., 793-803. Washington, DC:
American Statistical Association.
[167] Wu, C. (2004a) Weighted empirical likelihood inference. Statistics and Probability Letters 66/1, 67-79.
[168] Wu, C. (2004b) Some algorithmic aspects of the
empirical likelihood method in survey sampling. Statistica Sinica 14, 1057-1067.
[169] Wu, C. (2004c) Combining information from multiple
surveys through empirical likelihood method. The
Canadian Journal of Statistics 32, 15-26.
80
[176] Zhong, C.X.B. y Rao, J.N.K. (2000) Empirical likelihood inference under stratified random sampling using auxiliary information. Biometrika 87, 929-938.
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
En este apendice
se detallan las distintas poblaciones
que han sido usadas en este trabajo con objeto de estudiar el comportamiento de los estimadores propuestos y
con respecto a otros estimadores existentes
su precision
en las literatura. Notamos que las poblaciones basadas en
datos reales han sido utilizadas por otros autores en dife siendo estas poblaciones
rentes estudios de simulacion,
apropiadas para el estudio del comportamiento de estimadores en muestreo de poblaciones finitas. Las poblaciones que han sido simuladas siguen los modelos propuestos por otros autores, o bien, se han simulado de
de muestras
manera que pueda ser posible la extraccion
A.1.
Poblaciones naturales
A.1.1.
Fam1500
Ademas,
un breve resumen descriptivo de estas
poblaciones puede consultarse en las Tablas A.2 y A.3.
entre
La Figura B.32 nos da los diagramas de dispersion
las distintas variables de estas poblaciones. Puede obser livarse que estas poblaciones exhiben una mejor relacion
Fam1500, lo que
neal entre las variables que la poblacion
nos ha permitido comprobar en los distintos estudios el
en funcion
de una mayor
grado de ganancia en precision
lineal entre la variable principal y las auo menor relacion
xiliares.
A.1.3.
A.1.2.
Hospitals
hospital.
El resumen descriptivo de las variables de esta
puede consultarse en la Tabla A.4. El diagrama
poblacion
dado por la Figura B.33 nos permite prode dispersion
fundizar en la estructura que presentan los datos de las
Hospitals.
variables de la poblacion
Counties
Las poblaciones Counties60 y Counties70 son poblaciones habitualmente usadas en muestreo de poblaciones
finitas. Fueron usadas por primera vez en Royall y Cumberland (1981). Posteriormente, se ha usado en numerosos trabajos, como por ejemplo en Valliant et al.
Counties60 consta de N = 304 ciu(2000). La poblacion
dades de Carolina del Norte, Carolina del Sur y Georgia
1960. La vacon menos de 100000 hogares en el ano
de cada ciudad, excluyendo los
riable y es la poblacion
barrios de grupos de residentes. Como variable auxiliar,
x, se tiene el numero
de hogares en 1960.
7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
81
Fam1500
Tabla A.1: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
Min
5045
30052
2116
Q1
7358
36660
3515
Me
8136
40200
4001
Media
8181.94
40283.96
4044.40
Q3
8941
43700
4538
Max
11795
55379
6990
Cv
0.14
0.12
0.19
yx
0.848
0.546
Counties60
Tabla A.2: Analisis
descriptivo para las variables de la poblacion
V.
y
x
Min
1876
482
Q1
9787
2502
Me
18330
4886
Media
32916
8931
Q3
38690
10410
Max
266623
76887
Cv
1.24
1.30
yx
0.998
Counties70
Tabla A.3: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
Min
1924
482
1876
Q1
9613
2502
9787
Me
19080
4886
18330
Media
36984
8931
32916
Q3
42560
10410
38690
Max
409644
76887
266623
Cv
1.38
1.30
1.24
yx
0.982
0.982
Hospitals
Tabla A.4: Analisis
descriptivo para las variables de la poblacion
V.
y
x
82
Min
14
1
Q1
311
102
Me
713
233
Media
814.65
274.70
Q3
1186
393
Max
2844
986
Cv
0.72
0.78
yx
0.911
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
A.1.4.
Murthy
Esta poblacion
donde la variable de
y, es la produccion,
y como variable auxiliar, x, se
interes,
ha considerado el numero
de trabajadores. Esta poblacion
hipotesis
de linealidad no sera valida
para las variables de
Un estudio mas
exhaustivo sobre las caesta poblacion.
Murthy puede
ractersticas de las variables de la poblacion
obtenerse a partir de la Tabla A.5.
A.1.5.
Turismos
El correspondiente analisis
descriptivo de las variables
esta dado por la Tabla A.7. Observamos
de esta poblacion
lineal entre
que en este caso no existe una fuerte relacion
la variable principal y la auxiliar. Este hecho es frecuente
entre datos correspondientes a variables tales como ingresos o gastos, donde la alta presencia de valores extremos
de algunas medihabitualmente dificulta la interpretacion
das como la media.
A.2.
Poblaciones simuladas
A.2.1.
Paralelamente a Wu y Sitter (2001), se han generado cuatro poblaciones de N = 2000 unidades median
te muestras independientes e identicamente
distribuidas
mediante el modelo
y = 0 + 1 x + ,
http:\\www.juntadeandalucia.es\institutodeestadistica
Turismos esta formada por el
Por tanto, La poblacion
numero
de turismos en N = 770 municipios de Andaluca.
En el analisis
descriptivo de la Tabla A.6 se muestran
importantes de las variables de la
las caractersticas mas
Turismos. En estas variables destaca la presenpoblacion
cia de una alta asimetra y una importante variabilidad en
los datos, como reflejan los correspondientes coeficientes
Los diagramas de dispersion
asociados a esde variacion.
disponibles en la Figura B.35.
tas variables estan
A.1.6.
ECPF1997
Vease
Instituto Nacional de Estadstica (1992) para una
ha
consulta detallada de la metodologa. Esta poblacion
analizada en Fernandez
sido tambien
et al. (2004).
Notamos que el objetivo de esta encuesta es proporcionar estimaciones acerca de los gastos de consumo y
de los ingresos para el conjunto nacional, segun
varias va La poblacion
consta de N = 3000
riables de clasificacion.
hogares espanoles,
donde se ha considerado que la va y, son los ingresos totales trimestrales
riable de interes,
por hogar (en euros), mientras que los gastos trimestrales
por hogar (en euros) sera la variable auxiliar.
(A.1)
donde x Gamma(1, 1), N (0, 2 ) y 0 = 1 = 1. Estas poblaciones se han generado escogiendo diferentes
A.2.2.
Pob098 y Pob080
Por ultimo,
se han generado dos poblaciones (Pob098
(A.2)
de parametros
0 y 2 . El valor de 2 se ha selecciona entre yi e
do de modo que el coeficiente de correlacion
dados por
analisis
descriptivos de estas poblaciones estan
las Tablas A.12 y A.13, mientras que los diagramas de dis los encontramos en las Figuras B.38 y B.39.
persion
7
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
83
Murthy
Tabla A.5: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
Min
1176
51
Me
5105
148
Q1
3727.0
86.5
Media
5183.0
285.1
Q3
6754.0
445.3
Max
9250
1095
Cv
0.35
0.94
yx
0.915
Turismos
Tabla A.6: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
x3
x4
Min
11
5
4
1
0
Q1
343.3
73.0
101.0
123.0
22.0
Me
894.0
176.5
263.0
338.0
61.0
Media
3967.8
810.2
1313.7
1373.1
295.9
Q3
2483.5
464.0
749.3
957.5
174.8
Max
308738
61176
111977
102710
24023
Cv
4.23
4.41
4.55
4.04
4.26
yx
0.994
0.998
0.998
0.961
ECPF1997
Tabla A.7: Analisis
descriptivo para las variables de la poblacion
V.
y
x
Min
240.4
107.6
Q1
2745
2609
Me
4037
3845
Media
4660
4527
Q3
5842
5654
Max
61320
27730
Cv
0.67
0.66
yx
0.594
Pop06
Tabla A.8: Analisis
descriptivo para las variables de la poblacion
V.
y
x
Min
-2.4588
0.0008
Q1
0.87
0.27
Me
1.93
0.66
Media
1.98
0.96
Q3
2.96
1.32
Max
9.33
8.10
Cv
0.81
1.03
yx
0.6
Pop07
Tabla A.9: Analisis
descriptivo para las variables de la poblacion
V.
y
x
Min
-2.349
0.001
Q1
1.02
0.30
Me
1.88
0.70
Media
2.00
0.99
Q3
2.86
1.36
Max
10.03
8.22
Cv
0.71
0.98
yx
0.7
Pop08
Tabla A.10: Analisis
descriptivo para las variables de la poblacion
V.
y
x
Min
-2.243
0.001
Q1
1.15
0.25
Me
1.81
0.67
Media
1.99
0.98
Q3
2.63
1.34
Max
8.54
7.36
Cv
0.64
1.04
yx
0.8
Pop09
Tabla A.11: Analisis
descriptivo para las variables de la poblacion
V.
y
x
84
Min
-0.374
0.002
Q1
1.23
0.29
Me
1.73
0.67
Media
1.96
0.98
Q3
2.43
1.33
Max
11.80
10.51
Cv
0.57
1.02
yx
0.9
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Pob098
Tabla A.12: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
yb
Min
-0.207
0.003
0.081
1.615
Q1
5.07
0.90
1.80
4.97
Me
7.33
2.26
3.17
7.23
Media
7.99
3.08
3.85
7.93
Q3
9.97
4.37
5.34
10.03
Max
25.65
22.32
17.55
25.08
Cv
0.52
0.96
0.72
0.51
yx
0.71
0.67
0.98
Pob080
Tabla A.13: Analisis
descriptivo para las variables de la poblacion
V.
y
x1
x2
yb
Min
-0.097
0.480
0.417
3.316
Q1
6.61
2.46
2.54
6.88
Me
8.69
3.67
3.59
8.65
Media
8.89
3.98
3.89
8.87
Q3
11.00
5.15
5.00
10.47
Max
19.98
11.86
12.20
20.84
Cv
0.37
0.50
0.48
0.30
yx
0.60
0.53
0.80
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
85
B. Representaciones grficas
AB
e
Pop06
p=80
p=45
1.4
1.8
1.2
1.6
3.0
2.5
1.4
1.0
2.0
1.2
0.8
0.6
1.0
1.5
0.8
1.0
0.5
10
45
80
1.4
10
45
80
1.8
1.4
1.0
10
45
80
10
45
80
10
45
80
10
45
80
1.2
Pop07
1.0
0.8
0.6
0.6
10
45
80
10
45
80
1.2
5
2.0
1.0
Pop08
0.8
1.5
0.6
1.0
0.4
0.5
0.2
10
45
80
10
45
80
6
1.2
2.0
1.5
1.0
Pop09
0.8
0.6
1.0
0.4
0.5
2
1
0.2
0.0
10
45
80
10
45
80
q
Pemle 1
Pemle 12
Alpha optimo
Regresion
Toutenburg 3
AB
e
Variable usada
p=40
1.0
3.0
0.8
x1
p=70
0.6
2.5
2.0
1.5
3
1.0
0.4
0.5
0.2
10
x2
30
50
70
30
50
70
3.5
10.5
2.2
3.0
8.5
2.5
1.8
10
30
10
30
50
70
50
70
6.5
2.0
1.4
4.5
1.5
1.0
1.0
0.6
0.5
10
30
50
q
Pemle 1
Pemle 12
Alpha optimo
88
10
2.6
70
2.5
0.5
10
30
50
70
Regresion
Toutenburg 3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
AB
e
mo), y Reg (Regresion) y y T 3 (Toutenburg 3). Se considera la poblacion Hospitals y muestras de tamano
n = 100.
p=30
p=10
p=50
1.0
1.8
0.8
1.4
0.6
1.0
0.4
0.6
2
1
0.2
0.2
10
20
30
40
0
10
20
30
10
40
Pemle 1
Pemle 12
Alpha optimo
20
30
40
q
Regresion
Toutenburg 3
AB
e
0.050
Pop06
p=80
p=45
0.045
0.065
0.10
0.060
0.09
0.055
0.08
0.050
0.07
0.045
0.06
0.040
0.035
0.05
0.040
10
45
80
10
45
80
10
45
80
10
45
80
10
45
80
10
45
80
0.060
0.042
Pop07
0.09
0.055
0.08
0.050
0.038
0.07
0.045
0.034
0.06
0.040
0.05
0.035
0.030
0.04
0.030
10
45
80
10
45
80
0.040
Pop08
0.09
0.05
0.035
0.030
0.04
0.025
0.03
0.07
0.05
0.03
0.020
0.02
10
Pop09
45
80
10
0.035
0.055
0.030
0.045
0.025
0.035
0.020
0.025
0.015
45
80
0.08
0.06
0.04
0.02
0.015
10
45
q
Pemle 1
Pemle 12
Alpha optimo
80
10
45
80
Estimador estandar
Regresion
Toutenburg 3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
89
AB
e
Variable usada
p=40
0.009
0.035
0.015
0.008
x1
p=70
0.013
0.025
0.011
0.007
0.009
0.015
0.006
0.007
0.005
0.005
10
30
50
70
0.014
0.005
10
30
50
70
0.016
0.012
30
10
30
50
70
50
70
0.04
0.018
x2
10
0.03
0.014
0.010
0.02
0.012
0.010
0.008
0.01
0.008
10
30
50
70
10
q
Pemle 1
Pemle 12
Alpha optimo
30
50
70
Estimador estandar
Regresion
Toutenburg 3
AB
e
p=10
p=50
0.08
0.05
0.16
0.07
0.12
0.06
0.04
0.05
0.03
0.08
0.04
0.04
0.03
0.02
10
20
Pemle 1
Pemle 12
Alpha optimo
90
30
40
10
20
30
40
10
20
30
40
Estimador estandar
Regresion
Toutenburg 3
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Figura B.7: Eficiencia Relativa de distintos estimadores en las poblaciones Pob098 y Pob080.
Pob080
Pob098
0.9
1.0
0.8
t=QY (0.25)
ER
0.7
0.9
0.6
0.8
0.5
0.4
0.7
0.3
50
100
150
200
250
300
0.9
50
100
150
200
250
300
50
100
150
200
250
300
50
100
150
200
250
300
1.1
0.8
0.9
t=Q Y (0.50)
ER
0.7
0.6
0.7
0.5
0.4
0.5
0.3
0.3
0.2
50
100
150
200
250
300
0.9
0.8
0.8
0.7
ER
0.6
t=Q Y (0.75)
0.7
0.5
0.4
0.6
0.3
0.2
0.1
0.5
50
100
150
200
250
300
n
MA1
MC
Razon
Diferencia
CD
RKM
MA
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
91
Murthy.
Figura B.8: Eficiencia Relativa de distintos estimadores en la poblacion
t=Q Y (0.25)
t=Q Y (0.5)
0.7
0.9
0.6
0.7
ER
ER
0.5
0.5
0.4
0.3
0.3
0.2
0.1
0.1
40
45
50
55
60
40
45
50
55
60
n
t=Q Y (0.75)
0.7
0.6
MA1
MC
Razon
Diferencia
CD
RKM
MA
0.5
ER
0.4
0.3
0.2
0.1
0.0
40
45
50
55
60
92
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Figura B.10: Eficiencia Relativa Media de distintos estimadores en las poblaciones Pob098, Pob080 y
Murthy.
Pob080
Pob098
1.0
1.1
ERM
0.9
0.9
0.8
0.7
0.8
0.6
50
100
150
200
250
50
300
100
150
200
250
300
Murthy
0.9
MA1
MC
Razon
Diferencia
RKM
MA
0.8
ERM
ERM
1.0
0.7
0.6
40
45
50
55
60
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
93
Figura B.11: Diagramas de cajas con bigotes de las Desviaciones Absolutas Medias de distintos estimadores en las poblaciones Pob098 (con n = 100), Pob080 (con n = 100) y Murthy (con n = 50).
Pob080
0.25
0.25
0.20
0.20
0.15
0.15
DAM
DAM
Pob098
0.10
0.10
0.05
0.05
0.00
0.00
1
3 4 5 6
Estimadores
3 4 5 6 7
Estimadores
Murthy
1 = Estandar
2 = MA1
3 = MC
4 = Razon
5 = Diferencia
6 = CD
7 = RKM
8 = MA
DAM
0.15
0.10
0.05
0.00
1
3 4 5 6 7
Estimadores
1.0
1.0
0.9
0.9
0.9
0.8
0.8
0.7
0.6
0.6
0.6
0.5
0
25
50
75
100
2.2
2.0
1.8
1.6
1.4
1.2
1.0
0.8
25
50
75
100
25
50
75
100
25
50
75
100
1.8
1.6
1.6
1.4
ER
1.4
1.2
1.2
1.0
1.0
0.8
0
25
50
75
Estimador 1
Estimador 2
Estimador 3
94
0.8
0.7
0.7
(**)
=0.75
1.0
ER
(*)
=0.5
100
0.8
0
25
50
75
100
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
=0.5
=0.75
0.55
(*)
ER
0.50
0.45
0.40
0
25
50
75
0.55
0.55
0.50
0.50
0.45
0.45
0.40
0.40
100
25
50
75
100
1.4
1.4
1.2
1.2
1.0
1.0
0.8
0.8
0.6
0.6
25
50
75
50
75
100
1.4
ER
(**)
1.2
1.0
0.8
0
25
50
75
100
Estimador 1
Estimador 2
Estimador 3
25
50
75
100
25
100
0.6
0.5
0.5
0.4
0.4
ER
(*)
=0.5
0.3
0.2
0.1
0
50
75
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0.6
0.5
0.5
0.4
0.4
0.6
0.3
100
ER
(**)
25
=0.75
25
50
75
100
0.2
0.1
0
25
50
75
Estimador 1
Estimador 2
Estimador 3
100
25
50
75
100
25
50
75
100
0.6
0.5
0.4
0.3
0.3
0.3
0.2
0.2
0.1
0.1
25
50
75
100
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
95
=0.5
=0.75
0.02
0.12
0.02
ER
0.08
(*)
0.01
0.01
0.00
0.00
0
25
50
75
0.00
100
0.015
0.015
0.010
0.010
25
50
75
100
25
50
75
100
25
50
75
100
0.10
0.08
0.06
ER
(**)
0.04
0.005
0.005
0.000
0.000
0.04
0.02
25
50
75
100
Estimador 1
Estimador 2
Estimador 3
0.00
0
25
50
75
100
=0.5
0.2
0.6
SR
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
0.1
0.4
(*)
=0.75
0.2
0.0
0.0
-0.1
-0.2
-0.2
-0.4
-0.3
0
25
50
75
100
25
50
75
100
2.5
1.5
1.5
2.0
1.5
1.0
1.0
1.0
0.5
0.5
0.0
SR
(**)
25
50
75
100
25
50
75
100
0.5
0.0
0.0
-0.5
0
25
50
75
100
Estimador directo
Estimador 1
Estimador 2
Estimador 3
96
25
50
75
100
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
30
30
20
25
25
15
20
15
20
10
10
10
25
50
75
100
25
15
25
50
75
100
10
20
-5
-10
50
75
100
25
50
75
100
25
15
10
10
SR
(**)
=0.75
25
SR
(*)
=0.5
-5
-10
25
50
75
Estimador directo
Estimador 1
Estimador 2
Estimador 3
100
25
50
75
100
9
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
97
n=100. n=100
1.00
0.8
0.95
RT
RT
0.7
0.90
0.6
0.85
0.5
0.80
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
0.7
0.9
n=75. n=25
1.00
0.65
0.95
0.60
0.90
0.55
RT
RT
n=75. n=75
0.5
0.85
0.50
0.80
0.45
0.40
0.75
0.0
0.2
0.4
0.6
0.8
1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
n=50. n=25
n=50. n=50
0.70
1.00
0.65
0.90
RT
RT
0.95
0.85
0.60
0.80
0.55
0.75
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
Estimador optimo propuesto. P=2.
98
0.2
0.3
0.4
0.5
0.6
0.7
0.8
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
n=100. n=100
0.75
0.90
0.70
RT
0.80
0.95
RT
1.00
0.65
0.85
0.60
0.80
0.55
0.75
0.50
0.70
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.65
0.95
0.60
RT
RT
0.90
0.85
0.80
0.50
0.45
0.70
0.40
0.4
0.9
0.55
0.75
0.2
0.7
n=75. n=25
1.00
0.0
0.5
0.6
0.8
1.0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.7
0.8
n=50. n=25
n=50. n=50
0.70
1.00
0.95
0.65
0.60
RT
RT
0.90
0.85
0.80
0.55
0.75
0.70
0.50
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
Estimador optimo propuesto. P=4.
0.2
0.3
0.4
0.5
0.6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
99
Counties
Figura B.20: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
0.9
0.6
ER
0.7
ER
1.0
0.8
0.5
0.7
0.4
0.6
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.5
0.7
0.9
n=75. n=25
0.45
1.1
0.40
ER
ER
0.9
0.35
0.7
0.30
0.5
0.0
0.2
0.4
0.6
0.8
0.2
1.0
0.3
0.4
0.5
0.6
0.7
0.8
n=50. n=25
n=50. n=50
0.55
0.50
ER
ER
0.9
0.7
0.45
0.40
0.35
0.5
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
Estimador optimo propuesto. P=2.
100
0.2
0.3
0.4
0.5
0.6
0.7
0.8
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
Turismos
Figura B.21: Eficiencia Relativa para los estimadores optimo
propuesto y estandar
en la poblacion
y para el cuantil de orden = 0,5.
n=100. n=50
n=100. n=100
1.1
0.8
0.9
ER
ER
0.7
0.6
0.7
0.5
0.5
0.4
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.3
n=75. n=75
0.5
0.7
0.9
n=75. n=25
1.2
0.50
1.0
ER
ER
0.45
0.8
0.40
0.35
0.30
0.6
0.25
0.0
0.2
0.4
0.6
0.8
0.2
1.0
0.3
0.4
0.5
0.6
0.7
0.8
0.7
0.8
n=50. n=25
n=50. n=50
0.7
1.1
0.6
0.9
ER
ER
1.0
0.5
0.8
0.4
0.7
0.6
0.3
0.1
0.3
0.5
0.7
0.9
Estimador estandar.
Estimador optimo propuesto. P=4.
0.2
0.3
0.4
0.5
0.6
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
101
n=100. n=100
0.8
0.7
0.7
Wopt
Wopt
0.5
0.3
0.6
0.5
0.4
0.3
0.1
0.1
0.2
0.3
0.4
0.5
0.1
0.2
0.3
0.4
n=75. n=75
0.5
n=75. n=25
0.7
0.8
0.7
0.5
Wopt
Wopt
0.6
0.4
0.6
0.3
0.5
0.2
0.1
0.2
0.3
0.4
0.5
0.2
0.3
0.4
0.5
n=50. n=25
n=50. n=50
0.75
0.70
0.5
Wopt
Wopt
0.6
0.4
0.65
0.60
0.55
0.50
0.3
0.45
0.1
0.2
0.3
0.4
0.5
102
0.2
0.3
0.4
0.5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
n=100. n=100
0.7
0.7
Wopt
Wopt
0.5
0.3
0.6
0.5
0.4
0.3
0.1
0.1
0.2
0.3
0.4
0.5
0.1
0.2
0.3
0.4
n=75. n=75
0.5
n=75. n=25
0.7
0.8
0.7
0.5
Wopt
Wopt
0.6
0.4
0.6
0.3
0.5
0.2
0.1
0.2
0.3
0.4
0.5
0.2
0.3
0.4
0.5
n=50. n=25
n=50. n=50
0.7
0.8
0.6
0.7
Wopt
Wopt
0.5
0.6
0.4
0.5
0.3
0.1
0.2
0.3
0.4
0.5
0.2
0.3
0.4
0.5
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
103
muestral SM S.
Figura B.24: Eficiencia Relativa para el diseno
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
10
15
20
25
1.0
1.0
0.8
0.8
ER
1.0
0.8
0.6
0.4
0.2
ER
n = 75
n = 50
ER
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.6
0.6
0.4
0.4
0.2
0.2
30
10
15
20
25
30
10
15
20
25
30
muestral M SS.
Figura B.25: Eficiencia Relativa para el diseno
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.8
0.6
0.4
5
10
15
20
m
104
25
30
1.0
1.2
1.0
ER
ER
1.0
ER
n = 75
n = 50
0.8
0.6
0.4
0.8
0.6
0.4
0.2
10
15
20
25
30
10
15
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
20
m
25
30
muestral M M M .
Figura B.26: Eficiencia Relativa para el diseno
=0.50
=0.75
1.0
1.0
0.8
0.8
0.8
0.6
ER
1.0
ER
n = 75
n = 25
ER
=0.25
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
11 13 15
11 13 15
11 13 15
m
10
15
20
25
1.2
1.0
0.8
0.6
0.4
0.2
30
1.0
ER
1.0
0.8
0.6
0.4
0.2
ER
n = 75
n = 50
ER
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.8
0.6
0.4
0.2
10
15
20
25
30
10
15
20
25
30
muestral SM S.
Figura B.27: Sesgo Relativo para el diseno
=0.25
=0.75
0.30
SR
0.4
SR
0.4
SR
n = 75
n = 25
=0.50
0.25
0.3
0.20
0.2
0.2
0.15
5
11 13 15
0.3
11 13 15
11 13 15
m
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.4
0.20
0.3
0.15
0.15
0.10
0.10
5
10
15
20
m
25
30
SR
0.25
SR
SR
n = 75
n = 50
0.20
0.2
0.1
5
10
15
20
m
25
30
10
15
20
25
30
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
105
muestral M SS.
Figura B.28: Sesgo Relativo para el diseno
=0.25
0.3
=0.75
0.4
0.5
0.3
0.4
SR
SR
0.4
SR
n = 75
n = 25
=0.50
0.2
0.2
0.3
0.2
0.1
5
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.20
SR
0.3
SR
0.20
SR
n = 75
n = 50
0.15
0.15
0.10
0.10
5
10
15
20
25
0.1
5
30
0.2
10
15
20
25
30
10
15
20
25
30
muestral M M M .
Figura B.29: Sesgo Relativo para el diseno
=0.25
=0.50
=0.75
0.3
SR
0.4
0.4
SR
SR
0.5
n = 75
n = 25
0.3
0.2
0.2
0.6
0.5
0.4
0.3
0.2
0.1
5
11 13 15
11 13 15
11 13 15
m
Estimador estandar.
Estimador compuesto usando covarianzas.
Estimador compuesto sin usar covarianzas.
0.15
0.15
0.10
0.10
5
10
15
20
m
106
0.3
25
30
SR
0.20
SR
0.20
SR
n = 75
n = 50
0.2
0.1
10
15
20
25
30
10
15
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
20
m
25
30
Figura B.30: Diagrama de caja con bigotes para los valores de los distintos estimadores. Se asume el
muestral SM S y tamanos
muestrales n0 = 75 y n = 50.
diseno
m=5
m = 10
m = 15
m = 20
20000
=0.25
15000
10000
5000
30000
=0.50
20000
10000
=0.75
75000
50000
25000
de la poblacion
Fam1500
Figura B.31: Diagramas de dispersion
9000
9000
Y
11000
11000
7000
7000
5000
5000
30000
40000
50000
X1
60000
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
107
400000
400000
300000
300000
Co70.Y
Co70.Y
200000
200000
100000
100000
0
0
40000
Co70.x2
80000
250000
Co60.Y
200000
150000
100000
50000
0
0
40000
Co60.X
80000
de la poblacion
Hospitals.
Figura B.33: Diagrama de dispersion
3000
2500
2000
1500
1000
500
100
108
300
500
x
700
900
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
de la poblacion
Murthy.
Figura B.34: Diagrama de dispersion
9000
7000
5000
3000
1000
250
500
750
1000
de la poblacion
Turismos.
Figura B.35: Diagramas de dispersion
200000
200000
y
300000
300000
100000
100000
0
10000
30000
x1
20000
50000
200000
200000
100000
300000
300000
60000
x2
100000
100000
0
20000
60000
x3
100000
10000
x4
20000
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
109
de la poblacion
ECPF1997.
Figura B.36: Diagrama de dispersion
60000
50000
40000
30000
20000
10000
110
5000
10000
15000
X
20000
25000
30000
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
=0.6
10
8
Y
10
-2
-2
0
4
X
4
X
=0.9
=0.8
10
12
10
2
0
-2
-2
0
4
X
10
25
20
20
15
15
25
10
10
0
0
10
x1
15
20
10
x2
15
20
25
20
Y
de la poblacion
Pob098
Figura B.38: Diagramas de dispersion
15
10
5
0
0
10
15
1+x1+x2
20
25
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
111
20
20
15
15
Y
de la poblacion
Pob080
Figura B.39: Diagramas de dispersion
10
10
0
0
6
x1
10
12
6
x2
10
20
15
10
5
0
5
112
10
15
1+x1+x2
20
APORTACIONES A LOS MTODOS DE ESTIMACIN DE PARMETROS LINEALES Y NO LINEALES CON INFORMACIN AUXILIAR
12