Você está na página 1de 41

, vol. 21, 1 i 2, p.

109-149, 1997 Q UESTII O

ESTIMADORES DE RAZON: UNA REVISION


A. MAYOR GALLEGO JOSE Universidad de Sevilla En este trabajo de revisi on exponemos los principios b asicos de la utilizaci on de informaci on adicional en la estimaci on de par ametros denidos sobre poblaciones nitas, mediante el empleo de estimadores de raz on. Aunque la introducci on de este tipo de estimadores se realiz o inicialmente desde un punto de vista heur stico, basado en la existencia de relaciones de proporcionalidad directa aproximada entre la variable de estudio y otras variables m as controladas, su estudio detallado se desarrolla a partir del enfoque de modelos de superpoblaci on. La problem atica principal que presentan este tipo de estimaciones es la existencia de sesgo, lo que obliga a utilizar dise nos muestrales espec cos o a modicar las expresiones de los estimadores con el n de obtener estrategias insesgadas o con sesgo reducido, pero manteniendo la simplicidad en la estimaci on del error de muestreo.

Ratio estimators: a review

Keywords: Muestreo, poblaciones nitas, estimadores de raz on.

Clasicaci on AMS: 62DO5

* Jos e A. Mayor Gallego. Dpto. Estad stica e Investigaci on Operativa. Universidad de Sevilla. C/Tara s/n. 41012 SEVILLA. Article rebut el maig de 1996. Acceptat labril de 1997.

109

1. INTRODUCCION La utilizaci on de informaci on auxiliar es un recurso muy extendido en los diversos a mbitos del muestreo en poblaciones nitas, siendo su principal objetivo la obtenci on de estimaciones m as acuradas. En t erminos generales, podemos armar que la informaci on auxiliar, generalmente suministrada por una o m as variables auxiliares, conocidas o controladas al menos en cierto grado, puede ser aplicada en la fase de muestreo, en la fase de estimaci on o en ambas. As , los dise nos PS y PPS, es decir, con probabilidades de inclusi on o de selecci on de elementos, proporcionales al tama no, utilizan probabilidades de selecci on de elementos, que est an afectadas por los valores de una variable auxiliar, X . Tambi en, en el muestreo estraticado, se emplean variables auxiliares en cuestiones tales como la ajaci on y la denici on de estratos. En este trabajo revisaremos diferentes formas de construir estimadores, con una estructura matem atica de tipo fraccional, y que utilicen en la forma m as adecuada, dicha informaci on auxiliar, buscando la obtenci on de buenas estimaciones. Por supuesto, ello no va en detrimento de utilizar estos estimadores en combinaci on con dise nos muestrales que tambi en incorporen informaci on auxiliar como los mencionados anteriormente. Una clasicaci on pormenorizada de e stas y otras formas de empleo de la informaci on auxiliar puede verse en Hedayat y Sinha (1991). Este tipo de estimadores de raz on resultan muy apropiados cuando se presenta una relaci on aproximada de proporcionalidad directa entre la variable de estudio y otras variables auxiliares. Estas relaciones aparecen con frecuencia en situaciones reales. Por ejemplo, para estimar el contenido total de az ucares de un gran cargamento de naranjas, podemos utilizar la proporcionalidad existente entre el peso del fruto y el de az ucares que contiene, empleando el muestreo para estimar el factor de proporcionalidad. O para estimar el total de autom oviles en una poblaci on, podemos tener en cuenta la proporcionalidad aproximada, existente entre e stos y el n umero de habitantes. De esta forma, la existencia de este tipo de relaciones puede ayudarnos a obtener estimaciones m as precisas, aunque como veremos, con la contrapartida de la aparici on de sesgos en las mismas. As , en la secci on 2, iniciaremos el desarrollo de estas cuestiones estudiando lo que denominamos soluciones heur sticas, basadas en considerar el par ametro a estimar como una derivaci on de una expresi on m as compleja, sobre la cual se sustituyen ciertas cantidades poblacionales por muestrales. Un estudio posterior permitir a calibrar si hemos obtenido un estimador adecuado, y encontrar las mejores condiciones para su aplicaci on.

110

En la secci on 3., enfocaremos nuestro estudio bajo la perspectiva de los modelos de superpoblaci on, desarrollando la soluci on general obtenida para el caso de dise no nos PS, es decir, con muestral aleatorio simple, MAS(N ; n), y para el caso de dise probabilidades de inclusi on proporcionales al tama no. En la secci on 4., se estudian varias estrategias insesgadas, basadas en el dise no de Lahiri-Midzuno, y en el dise no MAS(N ; n) combinado con estimadores especiales como el de Hartley-Ross y el de Mickey. Estas estrategias presentan estimadores de la varianza complicado, por lo que, en esta misma secci on, introducimos varias estrategias cuasi-insesgadas, con estimadores de la varianza m as simples. La secci on 5., se dedica al estudio del estimador de raz on multivariante, y la secci on 6., a las distintas formas de combinar el estimador de raz on con la estructura de estratos. Finalmente, en la secci on 7. estudiamos propiedades de optimalidad del estimador de raz on, bajo el modelo de superpoblaci on de proporcionalidad directa, exponiendo los resultados cl asicos sobre optimalidad de ciertas estrategias basadas en muestreo intencional. En lo que sigue, denotaremos por U a la poblaci on nita bajo estudio, siendo sus elementos, U = f1; 2; 3; : : : ; N g Tambi en denotaremos por Y una variable gen erica, denida sobre U que asocia a cada elemento, i 2 U , un n umero real, Yi . Supondremos que las estimaciones se realizan a partir de una muestra, m, obtenida de la poblaci on mediante un determinado dise no muestral. En particular, emplearemos frecuentemente el dise no muestral formado por todas las muestras posibles (en el sentido de subconjuntos) de tama no n, con distribuci on de probabilidad uniforme sobre muestral aleatorio simple, ya mencionado las mismas, al que denominamos diseno previamente, y que denotaremos MAS(N ; n).

2. SOLUCIONES HEURISTICAS Si suponemos que el par ametro a estimar es la media poblacional de la variable Y,
=

1 Yi N i 2U

111

y que X es una variable auxiliar perfectamente conocida para todos los elementos de U , podemos considerar la expresi on, Y X = RX X a partir de la cual podemos denir, heur sticamente, el estimador, Y
=

YR = RX La forma nal del estimador depender a del dise no muestral utilizado. Por ejemplo, si la muestra se obtiene mediante dise no muestral aleatorio simple, MAS(N ; n), podemos estimar R por la raz on de medias muestrales, obteniendo, YR =

y X x

Obviamente, la eciencia de este estimador depende en gran medida de la relaci on existente entre las variables Y y X , siendo el caso m as favorable aquel en el que existe una relaci on aproximada de proporcionalidad entre la variable de estudio y la variable auxiliar. Gr acamente ello signica una nube de puntos concentrada en las proximidades de una l nea recta que pasa por el origen. V ease la Figura 1.

"" " ""


p p pp p
Figura 1.

p p p pp p p pp p p pp p p pp p p p pp p p p p p p p p p p p p p p p p p p p p pp p p p p pp p p p p p p p p p p ppppp p pppp p

"" " "" " ""

p pp pp p p p p pp p p p pp p p p p p pp p p pp p p pp

"" " ""

p p p p p p p p pp p p p p p p p p p p p p pp p p p p p p p p p p p p p p p p p pp p p p p p p p p p pp p p p p p p pp p p p p p p p

" "" " ""

Relaci on de proporcionalidad aproximada entre dos variables.

112

El caso ideal, aunque ut opico, se dar a cuando la proporcionalidad entre las variables es exacta. En tal caso V Y R ] = 0, y la estimaci on coincide con el verdadero valor. En general, y suponiendo dise no MAS(N ; n), basta aplicar las expresiones usuales para la varianza aproximada de la raz on, y su estimaci on, v ease Fern andez y Mayor (1995), para obtener inmediatamente las conocidas expresiones,

V Y R] V Y R]

1? f 2 2 S y + R2 S x ? 2RSxy n
=

bb

1? f 2 sy + R2s2 x ? 2Rsxy n

2 , S2 , S denotan cuasivarianzas y cuasicovarianza poblacionales, y s2 , s2 , donde Sy xy x y x sxy las correspondientes muestrales. Tambi en denotamos f = n=N .

Es interesante observar que la soluci on obtenida heur sticamente volver a a aparecer al aplicar el enfoque predictivo, por lo que pospondremos para m as adelante un estudio en profundidad de esta soluci on, en lo que se reere al tratamiento del sesgo y del error cuadr atico medio. Tambi en es necesario resaltar que, en el enfoque heur stico se est a empleando, aunque no a priori o de una forma maniesta, la existencia de una relaci on aproximada de proporcionalidad directa, entre las variables Y y X , y en este sentido, hemos de recordar los trabajos pioneros de algunos cient cos, en el campo de la demograf a, que han utilizado esta idea. As , son cl asicos los estudios del ingl es John Graunt sobre la estimaci on del n umero de habitantes de Londres. Sus resultados se publicaron en el famoso trabajo Natural and Political Observations made upon the Bills of Mortality, aparecido en 1662. En este estudio, Graunt investig o un conjunto de familias pertenecientes a determinadas parroquias de la ciudad de Londres, donde los registros resultaban ables, y observ o que hab a un promedio de tres fallecimientos anuales en 11 familias, siendo la cantidad total de fallecimientos por a no en esta ciudad de aproximadamente de 13000. De este forma, Graunt concluy o que el n umero de familias era de 48000, y suponiendo un tama no medio familiar de 8, estim o en 384000 el n umero de habitantes de la ciudad. Como puede observarse, en estos c alculos est a impl cito un modelo de proporcionalidad entre el n umero de fallecimientos y el de familias y tambi en entre el n umero de e stas y el de habitantes. Tambi en hay que notar como Graunt no realiz o ning un estudio adicional encaminado a cuanticar los posibles errores cometidos. V eanse Chang (1976) y Hald (1990) para un estudio pormenorizado del trabajo de Graunt. Otro precedente hist orico de gran relevancia lo constituyen los estudios sobre la poblaci on de Francia, llevados a cabo por Laplace, y cuyos primeros resultados 113

aparecieron en 1786. Sus m etodos de muestreo y estimaci on fueron similares a los empleados por Graunt, pero el cient co franc es vio la necesidad de tener en cuenta de alguna forma la precisi on de los resultados obtenidos, tanto en su control, seleccionando una muestra de calidad, como en su medici on. A partir de una muestra, Laplace estim o la poblaci on total del pa s utilizando una estimaci on de raz on, empleando los nacimientos ocurridos el a no precente como variable auxiliar. Adicionalmente, calcul o la distribuci on de la diferencia entre el verdadero valor y el estimado, aproximando esta distribuci on por una normal. Sus m etodos y resultados aparecieron en la cl asica obra Th eorie Analytique des Probabilit es, publicada en 1812. V ease Cochran (1978) y Chang (1976).

DE PROPORCIONALIDAD DIRECTA 3. MODELO DE SUPERPOBLACION El enfoque considerado en el apartado anterior, que denominamos heur stico, en cierto modo se contrapone, metodol ogicamente, al que vamos a considerar ahora, m as formal, y denominado enfoque predictivo. Este enfoque se basa en suponer un modelo o relaci on funcional entre la variable de estudio, Y , y la variable auxiliar, X , de la forma Y = f (X ). Si f ( ) fuera conocida completamente, el conocimiento de X nos llevar a al de Y y por tanto al de cualquier par ametro (Y ). Usualmente, f ( ) es desconocida y su determinaci on s olo puede realizarse de un modo aproximado, a partir del conocimiento de la variable X , y de la informaci on suministrada por el estad stico,

f(Xi Yi) j i 2 mg
;

Con dicha informaci on, buscaremos la funci on f ( ) que mejor explique la relaci on observada y que denominaremos funci on predictora. En este sentido, es muy importante realizar estudios exploratorios de los datos muestrales, por ejemplo dibujando la nube de puntos, que proporcionen indicios sobre las pautas que relacionan X con Y . V ease Fern andez y Mayor (1995). El siguiente paso ser a estimar (Y ) mediante (Y ), siendo Yi ; i 2 U los valores aproximados a los verdaderos valores Yi ; i 2 U , proporcionados por la funci on predictora f ( ), es decir, Yi = f (Xi ) i2U

b b

Por ejemplo, para un par ametro lineal del tipo (Y ) = i2U aiYi se tendr a, (Y ) =
i2U

bi) bi + ai(Yi ? Y aiYi = aiY


i2U i2U

114

cuyo primer sumando es conocido, y el segundo es desconocido, siendo funci on del error de estimaci on de f ( ). Si es posible despreciar este segundo sumando, entonces podemos dar como estimador,

b bi 1 (Y ) = aiY
i2U

en otro caso, podemos estimarlo, por ejemplo mediante el estimador de HorvitzThompson, obteniendo el estimador alternativo,

bi b bi + ai Yi ? Y 2 = aiY
i2U i2m

Es importante observar que en el enfoque predictivo se combinan dos procesos estad sticos, el ajuste y la estimaci on, dependiendo la bondad de las estimaciones de numerosos factores entre los que destacamos la habilidad en la conjunci on de ambos procesos, la bondad del ajuste realizado y la estructura de la poblaci on en lo que ata ne a las variables involucradas. Con el n de obtener el estimador de raz on a partir del enfoque predictivo, vamos a suponer que la poblaci on, en relaci on a la variable de estudio, Y , y la variable auxiliar, X , posee el siguiente modelo de superpoblaci on, de proporcionalidad directa,

Yi = Xi + i Es i ] = 0 Vs i ] = 2 v(Xi ) Es i j ] = 0; i 6= j siendo v( ) una funci on conocida que marca la estructura de la varianza. Adicionalmente, supondremos que X toma u nicamente valores no negativos. Notemos que si fuera posible observar la totalidad de los valores f(Xi ; Yi ) j i 2 U g, como en el caso de un censo, podr amos obtener una estimaci on de bas andonos en el teorema de Gauss-Markov generalizado dado por C.R. Rao (1965), mediante la resoluci on del siguiente problema de minimizaci on,

min

i2U

(Yi

2 v(Xi )

? Xi)2

115

lo que proporcionar a, Yi Xi b = i2U 2


=v(Xi ) X = i2U i v(Xi )

Pero como s olo disponemos de la informaci on suministrada por la muestra, utilizaremos el m etodo de estimaci on propuesto por Kish y Frankel (1974) y Fuller (1975), consistente en reemplazar la suma poblacional por una estimaci on muestral, y m as concretamente, si es la de Horvitz-Thompson, resolviendo el problema,
(Yi Xi)2 2 i2m v(Xi )i

min

Para simplicar la soluci on del mismo, tomaremos v(x) = x, lo que representa una situaci on muy general, en la cual la varianza en la superpoblaci on aumenta proporcionalmente al valor de la variable auxiliar (que ha de ser no negativa). Con esta hip otesis, obtenemos, sin m as que derivar, la siguiente ecuaci on normal, Yi ? Xi i i2m

=0

y la siguiente estimaci on de , Yi b = i2m i i2m Xi =i


=

Si ahora empleamos el estimador 2 para estimar la media poblacional, obtendremos, Yi ? Yi i2m N i

b 2

i2U

bi Y

N+

i2U

Xi b

N+

Yi ? Xi i2m N i

= X = YR

4b

donde el segundo sumando se ha anulado por la ecuaci on normal. As pues, hemos obtenido el siguiente estimador de la media poblacional, YR =

i2m Yi =i X i2m Xi =i

caso particular del de S anchez-Crespo (1980). 116

El estudio de la varianza de Y R depender a del dise no muestral que se emplee, y en general, se puede realizar por los m etodos usuales basados en aproximaci on lineal. A continuaci on particularizaremos la soluci on obtenida, para el dise no muestral nos PS, esto es, con probabilidades de aleatorio simple, MAS(N ; n), y para los dise inclusi on de los elementos proporcionales a su valor de la variable auxiliar. MAS(N, n) 3.1. Diseno Al ser las probabilidades de inclusi on de primer orden para este dise no muestral, i = n=N ; 8i 2 U , obtenemos el estimador, YR =

y X x

que coincide con el obtenido heur sticamente, y obviamente es, en general sesgado, ya que, B Y R] = E Y R] ? Y

= XE

y x

?E y ] = E x ]E

y x

?E y ] = ? Cov

x ;

y x

Con objeto de realizar un estudio cuantitativo de este sesgo, as como del error cuadr atico medio y de la varianza, construiremos los valores, y = y ?Y Y x = x ?X X

que nos servir an, adoptando la l nea expuesta en David y Sukhatme (1974), para denir las siguientes cantidades,

bR ] Bk Y bR] ECMk Y

YE

"2k?1 "
i=0

) (y ? x ) (?x
i

Y E

(y

2k?2 x ) (i + 1)( i=0 2

?x )

#
i

con k 1 entero. Estas cantidades ser an utilizadas como aproximaciones del sesgo y del error cuadr atico medio, y con respecto a sus o rdenes de aproximaci on se verica el resultado que exponemos a continuaci on.

Teorema 1 Bajo dise no muestral MAS(N ; n), y suponiendo que la media muestral de X verica x x0 > 0, se tiene para las cantidades Bk Y R ] y ECMk Y R ],

117

B Y R ] ? Bk Y R ] ECM Y R ] ? ECMk Y R ]

O(n?(k+1) )

O(n?(k+1) )

Para un estudio pormenorizado de este resultado, y su demostraci on, v eanse David y Sukhatme (1974) y Sukhatme et al. (1984). Tomando ahora k = 1, y teniendo en cuenta que entre el error cuadr atico medio y la varianza existe la relaci on, ECM Y R ] = V Y R ] + B Y R ] se obtienen f acilmente las siguientes aproximaciones.

Teorema 2 B Y R]

1? f n 1? f n 1? f n

Y X

S2 2 x

1 ?X Sxy
2

+ O(n

bR] ECM Y
V Y R]

2 Sy +

Y X Y

S2 2 x
2

?2Y Sxy X

! !

?2) = O(n?1 )
+ O(n

?2) = O(n?1 ) ?2) = O(n?1 )

Y 2 2 Sy + 2 Sx ? 2 Sxy X X

+ O(n

El resultado anterior es importante por varias razones. Por una parte, nos dice que el sesgo puede ser reducido incrementando el tama no muestral. Por otra parte, proporciona una expresi on del sesgo, aproximada hasta el orden O(n?2 ). Similares consideraciones se derivan para el error cuadr atico medio y la varianza. Como una aplicaci on interesante, hemos realizado una comprobaci on emp rica del comportamiento del sesgo, utilizando una poblaci on construida articialmente, an ligadas EXP1000, con N = 1000 elementos, para los cuales las variables Y y X est por la relaci on, Yi = 1000 + 10 Xi + 3 118 i; i = 1; : : : ; 1000

Los valores de Xi han sido generados de una distribuci on exponencial de media = 200 y los de i se han obtenido restando 50 a los valores generados a partir de una distribuci on exponencial de media 50. Para cada uno de los valores n = 10; 15; : : : ; 100 hemos simulado 500 veces un muestreo aleatorio simple, MAS(1000; n), y para cada valor de n hemos tabulado el t ermino gu a del sesgo, B1 = B1 Y R ] =

as como B = B Y R ] calculado promediando Y R ? Y sobre las 500 simulaciones. Tambi en hemos tabulado la diferencia, en valor absoluto, entre ambas cantidades. De esta forma hemos obtenido los resultados siguientes,

b bb

1? f n

S2 2 x

1 ?X Sxy

n 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

B1 94.367097 62.593663 46.706946 37.174917 30.820230 26.281168 22.876871 20.229085 18.110856 16.377760 14.933513 13.711458 12.663982 11.756170 10.961834 10.260949 9.637941 9.080512 8.578827

B ? B1 14.982127 4.711667 4.167631 6.419399 4.470765 3.568236 2.005691 0.058046 5.991041 4.332078 3.336261 4.739429 1.849570 1.757715 1.043960 1.612399 0.851466 1.025983 0.704621

79.384970 67.305330 50.874577 43.594316 26.349465 22.712932 20.871180 20.171039 12.119815 20.709838 18.269774 18.450887 14.513552 13.513885 12.005794 11.873348 10.489407 10.106495 9.283448 119

Como puede verse, el comportamiento del sesgo estimado coincide con la expresi on te orica, en lo que se reere a su dependencia del tama no muestral, n. Tambi en la r apida disminuci on observada para jB Y R ] ? B1 Y R ]j parece concordar con el orden O(n?2 ) hallado te oricamente. Una gr aca de estos valores se muestra en la Figura 2.

bb

80 70 60 50 40 30 20 10

t BY ] R d

bb b R ] ? B1 Y bR]j bY jB

t d d
10 20

t d
40

d
30

t d
50

t d
60

t d
70

t d
80

t d
90

t d
100

Figura 2.

Sesgo estimado y su diferencia con el t ermino orden O(n?1 ).

b = y, que no emplea informaci Y on auxiliar, se tiene, b

Con respecto a la comparaci on entre el estimador de raz on, Y R y el estimador

Teorema 3 Si el tama no muestral es lo sucientemente grande para despreciar los ? t erminos de orden O(n 2 ), entonces el estimador de raz on, Y R es m as eciente que Y =y si el coeciente de correlaci on lineal, verica,

>

1 CVx 2 CVy

donde CVy = Sy =Y denota el cuasicoeciente de variaci on de Y , y an alogo para X.

120

Resultado que se obtiene inmediatamente sin m as que resolver en la inecuaci on, 1? f n


2 Sy +

Y X

S2 2 x

?2Y Sxy X

<

1? f 2 S n y

Observemos que la anterior condici on para , suele vericarse cuando existe una elevada correlaci on entre las variables, con lo cual obtendremos mejores resultados con el estimador de raz on que con la media muestral simple. Por supuesto, ello presenta el inconveniente del sesgo, aunque este puede ser reducido por algunos procedimientos como el aumento del tama no muestral, la aplicaci on de t ecnicas de tipo jackknife o la estimaci on del sesgo, siendo referencias fundamentales para el estudio de estas cuestiones, adem as de las citadas, Hansen, Hurwitz y Madow (1953), Cochran (1993) y Hedayat y Sinha (1991). Tambi en es interesante la comparaci on con el estimador de regresi on de la media, Y RG = y +

sxy (X ? x ) s2 x

En este sentido, se verica que si, como en el anterior resultado, despreciamos los t erminos de orden O(n?2 ), entonces siempre es m as eciente el estimador de ease Hedayat y Sinha (1991). regresi on que el de raz on, es decir, V Y RG ] V Y R ]. V

Finalmente a nadiremos que tanto el sesgo, como el error cuadr atico medio y la varianza de Y R , pueden ser estimados mediante,

B Y R] ECM Y R ] V Y R]

bb

1? f n 1? f n 1? f n

y 2 1 s ? sxy x 2 x x s2 y+ s2 y+ y 2 2 y sx ? 2 sxy 2 x x y 2 2 y s ? 2 sxy x 2 x x

bb

PS 3.2. Disenos Para estos dise nos, suponiendo tama no de muestra jo, n, se tiene i = n Xi =T (X ), con lo cual, el estimador de raz on adopta la forma, YR =

1 Yi X n i X 2m i 121

Es interesante observar que dicho estimador coincide con el estimador de HorvitzThompson de la media, empleando X como variable auxiliar y probabilidades de inclusi on proporcionales al tama no, siendo pues la estimaci on insesgada. El estudio de su varianza se realizar a por los m etodos usuales. Por ejemplo, aplicando las expresiones de Yates-Grundy-Sen, obtendremos, V Y R]

X ?2 ( i j ? i j ) n2
i; j 2U

Yi Y j ? Xi X j Yi Xi Yj ?X

V Y R]

bb

X ?2 n2

(i j

? i j )
i j

i; j 2m

As , la varianza disminuye cuanto m as ajustada es la relaci on de proporcionalidad entre las variables Y y X .

4. ESTRATEGIAS INSESGADAS Y CUASI-INSESGADAS En este apartado estudiaremos algunas combinaciones de dise no y estimador que proporcionan estimaciones insesgadas o cuasi-insesgadas, es decir, con sesgo de orden no muestral, O(n?2 ). Estas estrategias se basan, tanto en las particularidades del dise como en modicaciones introducidas en la expresi on del estimador. 4.1. Estrategia insesgada basada en el esquema de Lahiri-Midzuno Lahiri (1951) y Midzuno (1952), independientemente, han descrito el esquema de muestreo consistente en la selecci on de un elemento, i, con probabilidad proporcional a su tama no, es decir, pi = Xi =T (X ); 8i 2 U ; y la selecci on de n ? 1 elementos adicionales mediante dise no MAS(N ? 1; n ? 1) en U ?fig. La importancia de este esquema radica en el siguiente resultado,

Teorema 4 Bajo el dise no muestral originado por el esquema de Lahiri-Midzuno se verica que Y R = (y =x ) X es un estimador insesgado de Y .

Demostraci on: Estudiemos en primer lugar el dise no muestral resultante. Su espacio muestral est a formado por todas las muestras de tama no n. Para calcular la no, m, consideremos m = ( j1 ; j2 ; : : : ; jn ), probabilidad, p(m), de una muestra del dise muestra ordenada con los mismos elementos de m. Se tiene entonces, p(m
)=

X j1 1 ?1 T (X ) (n ? 1)! N n?1 122

y para la muestra m ser a, p(m) =

p (m

)=

i2m Xi T (X )

?N1 ?1
n?1

donde la notaci on m m expresa que la suma se extiende a todas las muestras ordenadas, con los mismos elementos que la muestra m. Calculemos ahora la esperanza de Y R ,

E (y =x ) X ]

m2M

p(m)(y (m)=x (m)) X

1 T (X )

(m)(y (m) x (m)) X ?N1 ?1 nx m2M


n?1
=

1 N

1 1 ?N1 ?1 Yi = N ?N?1 m2M i2m


n?1 n?1

T (Y )

N ?1 n?1

=Y

Para estudiar la varianza de esta estimaci on, se pueden seguir varios caminos. Uno de ellos se basa en la t ecnica de linealizaci on, tomando los t erminos lineales del =x ) X en un entorno de (Y ; X ), desarrollo de Taylor de Y R = (y

YR =

y X x

Y + (y ?Y) ?

Y (x ? X ) = Y + (y ? Rx ) = Y + z X

donde Zi = Yi ? R Xi ; i 2 m. Se tiene pues, V Y R]


=

Vz ] = ?

1 2 (i j ? i j )(Zi ? Z j ) 2n2 i; j 2U

i; j 2U

ci j (Zi ? Z j )2

siendo,

ci j = ?

1 (i j ? i j ) 2n2

Y si tenemos en cuenta que para el dise no que estamos considerando se verica, v ease Fern andez y Mayor (1995), i i j
=

N ? n Xi n?1 + N ? 1 T (X ) N ? 1

n ? 1 N ? n (Xi + X j ) n ? 2 + N ? 1 N ? 2 T (X ) N ?2 123

i 6= j

sustituyendo y desarrollando, se obtiene, ci j = 2n2 (N N ?n ? 1 )2


(N (n ? 1)(1 ? Xi T (X ) ? X j Xj ? n) (TX(iX + 2 )) N ?2
= =

T (X ))

i 6= j

De forma similar, empleando la expresi on de Yates-Grundy-Sen para la varianza estimada, se puede obtener una estimaci on de V Y R ].

Otra l nea diferente para el estudio de la varianza, sin emplear t ecnicas aproximadas, es la introducida por Rao y Vijayan (1977). Estos autores consideran la siguiente forma cuadr atica para expresar la varianza, obtenida mediante un c alculo directo, V Y R] =

i2U

iiYi2 + i jYiY j
i; j 2U i6= j

donde, ii i j
=

X n2 N n X n2 N n

? ?

1 x ( m3i m)

1 x m3i; j (m)

1 ?N 2 1 ?N 2

8i 2 U 8 i 6= j 2 U

Y aplicando los resultados cl asicos sobre estimaci on insesgada de formas cuadr aticas (v ease por ejemplo Hedayat y Sinha (1991)), obtenemos directamente el siguiente teorema,

Teorema 5 Todo estimador insesgado y no negativo de la anterior varianza, V Y R ], adopta necesariamente la forma, V Y R] = ?

bb

1 i j (m)Xi X j 2 i; j 2m

Yi Xi

Yj ?X

vericando los coecientes la condici on de insesgadez,


m3i; j

i j (m) p(m) = i j

8 i 6= j 2 U

Como posibles elecciones de i j (m), Rao y Vijayan (1977) sugieren las siguientes, (a) i j (m) = i j =i j i; j 2 m 124

(b) i j (m) =

2 X (N ? 1) X ? 2 2 x ( m )Nn(n ? 1) n x (m)

i; j 2 m

En Rao (1966, 1972), Lanke (1974), Rao y Vijayan (1977) y Hedayat y Sinha (1991) pueden encontrarse resultados adicionales relacionados con esta l nea. 4.2. Estrategia insesgada basada en el estimador de Hartley-Ross Esta estrategia utiliza como dise no muestral el aleatorio simple, MAS(N ; n), en combinaci on con un estimador especial denido por Hartley y Ross (1954). Para construir este estimador, consideremos previamente el siguiente estimador, heur stico, de la media poblacional, 0 1 Yi YR = X = z X n i2m Xi

donde Zi = Yi =Xi . Este estimador es sesgado ya que, B Y R]

b0

=E

z X] ?Y

= ZX

?Y

= ZX

?1 S ? Z X = ?NN zx

siendo entonces

?(N ? 1)szx

N ] un estimador insesgado de dicho sesgo.

Podemos entonces, sin m as que restar la estimaci on insesgada del sesgo, construir el siguiente estimador insesgado de Hartley y Ross para la media poblacional, Y HR

=z X +

N ?1 szx N n(N ? 1) ?z x ) (y N (n ? 1)

=z X +

La varianza de este estimador, as como su estimaci on, adoptan formas muy complicadas, lo que explica que el estimador de Hartley-Ross no se haya popularizado. Para su obtenci on, Robson (1957) ha empleado el formalismo de polykays multivariantes, obteniendo una expresi on de V Y HR ] en funci on de medias sim etricas poblacionales, a partir de la cual, podemos obtener un estimador insesgado sin m as que sustituir e stas por las correspondientes medias sim etricas muestrales.

Es posible realizar una simplicaci on suponiendo que la poblaci on es innita, en cuyo caso se obtiene, empleando la notaci on usual,

125

N !

lim V Y HR ]

1 2 2 y + Z 2 x ? 2Z xy n 1 2 2 y + Z 2 x ? 2Z xy n

n (n ? 1 )

?22 + 2
z x

xz

aproximaci on obtenida tambi en, independientemente, por Goodman y Hartley (1958). Estos autores proporcionan adem as el siguiente resultado acerca de la comparaci on del estimador de Hartley y Ross y el estimador de raz on usual, Y R = (y =x ) X ,

Teorema 6 Si se ignoran los t erminos de orden O(n?2 ) y superior, el estimador Y HR =x ) X si y s olo si el coeciente de regresi on, es m as eciente que el estimador Y R = (y , entre las variables Y y X est a m as pr oximo a Z que R = Y =X. En caso de ser Z = R, ambos estimadores son igualmente ecientes.

Observemos que la condici on propuesta en este teorema no es f acil de vericar en la pr actica, v ease Sukhatme et al. (1984). Otras aportaciones relacionadas pueden tambi en consultarse en Ruiz y Santos (1989), y en Sahoo y Ruiz (1994). 4.3. Estrategia insesgada basada en el estimador de Mickey Una metodolog a diferente, propuesta por Mickey (1959), se fundamenta en la partici on al azar de una muestra aleatoria simple, m, de tama no n, en k grupos, cada uno con l = n=k elementos. Denotando por m1 ; m2 ; : : : ; mk a dichos grupos, se denen entonces las cantidades, y (m ?m j ); x (m ?m j ) j = 1; : : : ; k

es decir, las medias de Y y X calculadas sobre las submuestras obtenidas omitiendo en m, sucesivamente, los grupos m1 ; m2 ; : : : ; mk . A partir de las cantidades anteriores, denimos, y R
( j)

y (m ?m j ) X x (m ?m j ) j = 1; : : : ; k

y M

( j)

k(N ( j) =y R +

? n + l) y j ?y R N
126

( )

x X

que nos sirven para construir el estimador de Mickey, YM =

1 k

j =1

M y

( j)

cuya importancia radica en el siguiente resultado,

Teorema 7 Y M es un estimador insesgado de la media poblacional.


( j)

Demostraci on: Para probarlo, es suciente demostrar que para cada j, y M es insesgado respecto a Y , para ello expresamos dichas cantidades en la forma, y M
( j)

y (m ?m j ) N ? (n ? l ) y (m j ) ? N x (m ?m j )
+

x (m j ) ?

n?l y (m ?m j ) N

NX ? (n ? l ) x (m ?m j ) N ? (n ? l )

Por las propiedades del dise no muestral MAS(N ; n), sabemos que que si (n ? l ) unidades son seleccionadas al azar en m, las l unidades restantes forman una muestra aleatoria seleccionada mediante dise no MAS(N ? (n ? l ); l ). As pues, descomponiendo la esperanza en dos fases, la primera fase, E1 , de obtenci on de l elementos de entre N ? (n ? l ), supuesto que (n ? l ) unidades ya han sido seleccionadas; y la segunda fase, E2 , de selecci on de (n ? l ) elementos a partir de N , obtenemos, Ey M
( j)

( j) = E2 E1 y M ]

= E2

N ? (n ? l ) N Y
=Y

NY ? (n ? l ) y (m ?m j ) N ? (n ? l )

n?l y (m?m j ) N

= E2

4.4. Estrategias cuasi-insesgadas

Ya hemos visto que el estimador de raz on, Y R = (y =x ) X , en combinaci on con el dise no muestral aleatorio simple, da lugar a una estrategia sesgada, en el sentido de

127

que la estimaci on lo es, siendo el sesgo de orden O(n?1 ). Denominaremos estrategias cuasi-insesgadas a aquellas que siendo sesgadas, proporcionan estimaciones con sesgo de orden O(n?2 ) o inferior. Las estrategias de este tipo, que vamos a considerar, est an basadas en el dise no muestral aleatorio simple, MAS(N ; n), en combinaci on con estimadores especiales, =x ) X , de forma tal que el sesgo usualmente construidos a partir del estimador Y R = (y se reduzca en cierto orden de aproximaci on.

As , el primer estimador que estudiamos se obtiene aplicando una t ecnica de tipo jackknife, al estimador Y R = (y =x ) X . Para ello, utilizaremos las cantidades introducidas para construir el estimador de Mickey, y deniremos a partir de las mismas el siguiente estimador,

YJ

N ?n+l N ?n k?1 kY R ? N N k

j =1

R y

( j)

Observemos que si N es muy elevado, de forma que,


(N

? n + l) ? n)
=

1 1

(N

obtenemos la versi on simplicada, YJ


k j b0 = kY bR ? k ? 1 y R
( )

j =1

que coincide con la forma de jackknife usual, tomando k = n, y por tanto l = 1. V ease Quenouille (1956). Con respecto a los anteriores estimadores, se tiene el siguiente resultado sobre su sesgo y error cuadr atico medio, cuya demostraci on sigue la misma l nea que la realizada para el estimador de Mickey.

Teorema 8 El sesgo y el error cuadr atico medio del estimador Y J verican, B Y J]

= O(n

?2 )
2 Sy +

bJ ] ECM Y
y an alogo para Y J .

1? f n

Y X

S2 2 x

?2Y Sxy X

!
+ O(n

?2 )

b0

128

=x ) X . V ease Sukhatme et al. (1984). e Y J son igualmente ecientes que Y R = (y Otras estrategias cuasi-insesgadas, basadas en dise no MAS(N ; n), son las denidas por los siguientes estimadores, Estimador de De Pascual (1961), Y DP = Y R + Estimador de Beale (1962),

b0

Este resultado nos dice que, en aproximaci on de primer orden, los estimadores Y J

y ?z x n?1

con Zi =

Yi Xi

bB = Y bR Y b

1+

1 1 ? n N

sxy x y

1+

1 1 ? n N

s2 x x 2

?1

Estimador de Tin (1965), YT


= YR

1?

1 1 ? n N

s2 x x 2

xy ? sx y

Todos estos estimadores poseen un sesgo de orden O(n?2 ), y con respecto a su eciencia, se tiene el siguiente resultado,

Teorema 9 Los errores cuadr aticos medios de los estimadores de Tin, Beale y De Pascual verican,

bT ] ECM Y bB ] ECM Y bDP] ECM Y

1? f n 1? f n 1? f n

2 Sy +

Y X Y X Y X

S2 2 x
2

Sxy ?2Y X Sxy ?2Y X

! !

+ O(n

?2) ?2) ?2)

2 Sy +

S2 2 x
2

+ O(n

2 Sy +

S2 2 x

?2Y Sxy X

!
+ O(n

Este teorema asegura que, en aproximaci on de primer orden, los estimadores de Tin, Beale y De Pascual son igualmente ecientes que el estimador de raz on Y R = (y =x ) X , y que el estimador Y J .

129

En las referencias citadas, y tambi en en Williams (1961), Rao (1967), Rao y Beegle (1967) y Rao y Rao (1971) se pueden encontrar comparaciones, tanto anal ticas como emp ricas, entre estos estimadores. Algunas conclusiones que se desprenden de estos estudios comparativos son, 1. Bajo el modelo de proporcionalidad directa considerado en el enfoque predictivo, con funci on gu a de la varianza v(Xi ) = Xi , y tama no muestral no muy reducido, es preferible el empleo del estimador cl asico de raz on, Y R . 2. El sesgo de Y T es peque no, y su error cuadr atico medio es menor que para el resto de los estimadores, salvo para Y R con v(Xi ) = Xi .

3. El estimador de Beale, Y B , no diere sustancialmente de Y T salvo que n sea muy peque no. 4. Si lo importante es la reducci on del sesgo, y no necesariamente de error cuadr atico medio, Y J y Y M han de ser preferidos al resto de los estimadores.

b b

5. El estimador de Hartley-Ross, Y HR , puede no ser apropiado en ciertas circunstancias, bajo el modelo de proporcionalidad directa considerado. Hartley y Ross (1954), proponen para su estimador una modicaci on basada en la partici on en grupos de la muestra. Adem as de las referencias citadas, v eanse tambi en Sukhatme et al. (1984), Rao (1988) y Hedayat y Sinha (1991).

MULTIVARIANTE 5. ESTIMADOR DE RAZON =x ) X , bajo dise no muestral aleatorio simple, se geEl estimador de raz on, Y R = (y neraliza, de manera natural, al siguiente estimador de raz on multivariante, propuesto por Olkin (1958), Y MR = y wi
i=1

Xi x i

i=1

bRi wiY
p

con Y Ri =

y Xi x i

siendo Xi1 ; Xi2 ; : : : ; XiN ; i = 1; : : : ; p, p variables auxiliares conocidas, relacionadas con la variable de estudio, Y , con medias poblacionales respectivas X i ; i = 1; : : : ; p, y medias muestrales x i ; i = 1; : : : ; p. Las cantidades wi son unos pesos que se determinar an en relaci on a la eciencia del estimador.

130

Al ser combinaci on lineal de estimadores sesgados, Y MR tambi en lo ser a, y su sesgo estar a inuenciado por la elecci on de los pesos. En este sentido, se tiene el siguiente teorema, cuya demostraci on se basa en los resultados para el sesgo del estimador de raz on univariante bajo dise no muestral MAS(N ; n).

Teorema 10 Una condici on necesaria y suciente para que el estimador Y MR posea w = 1, siendo en tal caso, sesgo de orden O(n?1 ) es que ip =1 i
p bMR] = 1 ? f wi BY

i=1

S2 2 xi Xi

1 ?X Syxi i

+ O(n

?2 )

denota la cuasivarianza poblacional de Xi1 ; : : : ; XiN , y Syxi la correspondiente cuasicovarianza. En lo que sigue, supondremos ya que ip w =1 i sesgo.
=

2 donde Sxi

1, con objeto de controlar el

Para el estudio del error cuadr atico medio utilizaremos la siguiente expresi on, que se obtiene mediante un c alculo directo, E

hb

i 1? f b (Y Ri ? Y )(Y R j ? Y ) =
n

2 Sy

Y Y Y ?X Syxi ? Syx j + Sxix j Xj Xi X j i

+ O(n

?2)

veric andose el siguiente resultado,

Teorema 11 El error cuadr atico medio del estimador multivariante de raz on, Y MR , es de orden O(n?1 ), siendo adem as,
p bMR] = 1 ? f ECM Y wi w j

2 Sy

i; j =1

Y Y Y ?X Syxi ? Syx j + Sxix j Xj Xi X j i

+ O(n

?2)

Demostraci on: Al ser i=1 wi = 1, podemos escribir,

bMR ] ECM Y

2 2 !2 3 !2 3 p p b b 5 = E 4 wi Y Ri ? Y 5 = E 4 wiY Ri ? Y i=1 i=1 # "p p 2 b bR j ? Y 2 b = E wi Y Ri ? Y + wi w j Y Ri ? Y Y i=1 i6= j=1 p p h i h i 2 b b Ri ? Y Y bR j ? Y = wi ECM Y Ri + wi w j E Y i=1 i6= j=1
131

Y basta aplicar los resultados para el error cuadr atico medio del estimador de raz on univariante, as como la expresi on de E (Y Ri ? Y )(Y R j ? Y ) , para obtener el resultado propuesto.

hb

Planteamos ahora el problema de calcular los pesos de forma que el error sea lo menor posible. Para ello trabajaremos con la aproximaci on de primer orden del error cuadr atico medio, es decir,
p bMR] = 1 ? f wi w j ECM1 Y 2 Sy

i; j =1

Y Y Y ?X Syxi ? Syx j + Sxix j X X i j iXj

que se puede expresar como ECM1 Y MR ] = wAw0 siendo w on p p denida como, A = (ai j ) la matriz de dimensi ai j = 1? f n
2 Sy

= (w1 ; : : : ; w p ),

Y Y Y ?X Syxi ? Syx j + Sxix j X X i j iX j

i; j = 1; : : : ; p

Observemos que A es sim etrica y denida positiva, luego, por la desigualdad de Cauchy generalizada, se tiene,

02 (ab )

(aAa )(bA

?1 b0 )

8a b 2 R p
;

donde la igualdad se da si y s olo si aA = b siendo un escalar no nulo. En particular, tomando a = w, y b = e = (1; : : : ; 1), tendremos, 1 = (we0 )2
(wAw )(eA

?1 e0 )

con lo que (wAw0 ) toma el valor m nimo si y s olo si wA = e, es decir, w = eA?1 , y a partir de la condici on de normalidad de los pesos, se obtiene el siguiente vector ptimos, de pesos o eA?1 wopt = ?1 0 eA e y con esta elecci on, el t ermino gu a, es decir, de orden O(n?1 ) del error cuadr atico medio resulta ser, 1 ECM1 Y MR ] = ?1 0 eA e

Adem as de la fundamental referencia de Olkin, pueden consultarse Sukhatme et al. (1984), donde se realiza un tratamiento exhaustivo del caso p = 2, y Cochran (1993). 132

Hemos de observar tambi en que si la correlaci on entre la variable Y y las variables auxiliares es positiva para algunas y negativas para otras, se puede plantear un estimador multivariante mixto basado en una combinaci on lineal de estimadores de raz on y producto, propuesto por Rao y Mudholkar (1967), tomando como base las propiedades del estimador de producto de Murthy (1964).

Y ESTRATIFICACION 6. ESTIMADOR DE RAZON En este apartado estudiaremos las formas que adopta el estimador usual de raz on cuando se utiliza muestreo estraticado, y m as concretamente, dise no muestral aleatorio simple estraticado, MASE(N ; n), consistente en realizar diferentes muestreos aleatorios simples en cada uno de los estratos, siendo N = (N1 ; : : : ; NL ) un vector cuyas componentes son los tama nos de los diferentes estratos, y lo mismo para n = nos de muestra en cada estrato. (n1 ; : : : ; nL ), compuesto por los tama Dependiendo de la metodolog a aplicada, obtendremos dos tipos de estimaci on, separada y combinada. 6.1. Estimaci on separada de raz on Teniendo en cuenta la descomposici on usual de la media poblacional como combinaci on lineal de medias en cada estrato, Y
=

h=1

WhY h

podemos estimar las medias de cada estrato empleando estimadores de raz on, obteniendo el estimador separado, Y RS =

h=1

bhR WhY
L

Obviamente, las propiedades de este estimador depender an de los estimadores de raz on utilizados en los distintos estratos. En particular podr a ser sesgado, insesgado o cuasi-insesgado, y su eciencia, medida por ejemplo en t erminos del error cuadr atico medio, estar a inuenciada por la eciencia de las estimaciones en cada estrato, ya que, por la independencia de las extracciones, se tendr a, ECM Y RS ] =

h=1

Wh2 ECM Y hR
133

hb i

En particular, si empleamos los estimadores de raz on usuales para el muestreo aleatorio, Y hR = (y h =x h ) X h = Rh X k obtendremos,

h = 1; : : : ; L

Y RS =

h=1

Xh Wh x h

y h

que ser a sesgado, siendo su sesgo,

bRS] BY

y h = E Wh Xh x h h=1

"L "L
L

? WhY h
h=1

=E

h=1

Wh

y h Xh ?Yh x h
;

h=1

Wh

E Rh ]E x h ] ? E Rhx h ]

bh xh] ? Wh Cov R
h=1

y suponiendo para los coecientes de variaci on de x h la acotaci on com un CV x h ] = x h ]=E x h ] C0 ; 8h, obtenemos, B Y RS ]

h=1

bhR]CV xh] Wh Y
L

C0

h=1

bhR] Wh Y
L

que proporciona la siguiente cota,

b bRS] Y
B Y RS ]

C0 L

Podemos pues armar que si el n umero de estratos es elevado, el sesgo de la estimaci on puede llegar a ser apreciable. Ello sugiere el empleo de estimadores insesgados o cuasi-insesgados, sobre todo si los tama nos de la muestra en los diferentes estratos no son muy elevados. 134

Con respecto al error cuadr atico medio de la estimaci on anterior, tendremos, en primer orden de aproximaci on,

ECM1 Y RS ] =

h=1

Wh2

1 nh

1 ?N

?S 2 + R 2 S 2 ? 2 R S
yh h xh

h xyh

6.2. Estimaci on combinada de raz on Otra posibilidad para reducir el sesgo es emplear el estimador combinado de raz on, propuesto por Hansen, Hurwitz y Gurney (1946), y denido como, Y RC =

h L h=1 Wh y X L h h=1 Wh x

y est X x est

= Rest X

Este estimador tambi en es sesgado, siendo ahora el sesgo, B Y RC ]

=E

Rest ] X ? Y Rest ]E x est ] ? E Restx est ]


;

=E

best xest] ? Cov R


CV x est ]

de donde se obtiene,

b bRC] Y

B Y RC ]

es decir, si el coeciente de variaci on de x est es peque no, el sesgo puede ser despreciable. Para el error cuadr atico medio del estimador combinado tendremos, en primer orden de aproximaci on, ECM1 Y RC ] =

h=1

Wh2

1 nh

1 ?N

?S2 + R2S2 ? 2RS


yh xh

xyh

Es interesante comparar este error cuadr atico medio con el correspondiente del estimador separado. De esta forma, es inmediato obtener, ECM1 Y RC ] ? ECM1 Y RS ]

h=1

Wh2
+ 2 (R

1 nh

1 ?N

?S2 (R ? R )2
xh h

2 ? Rh)(Rh Sxh ? Sxyh)

135

Como puede verse, la diferencia depende de la variabilidad de las razones, Rh , 2 ? S ). Estas u en los diferentes estratos, y tambi en de las cantidades (Rh Sxh ltimas xyh ser an, usualmente, peque nas, pudiendo ser despreciables si el ajuste al modelo de proporcionalidad directa es muy satisfactorio en todos los estratos. As pues, el estimador separado resulta ser m as eciente que el combinado, a menos que las razones Rh presenten muy poca variabilidad a lo largo de los estratos. V eanse Sukhatme et al. (1984), Cochran (1993) y para ejemplos num ericos, Fern andez y Mayor (1995).

7. OPTIMALIDAD DEL ESTIMADOR DE RAZON Ya hemos visto como, en general, los estimadores de raz on no son insesgados en , esto es, no tienen por qu el diseno e cumplir, Ed Y R

hb i

m2M

p(m)Y R (m) = Y

lo que, en principio, los descarta como candidatos a ser considerados o ptimos. No obstante, s es posible considerar, bajo un determinado modelo de superpoblaci on, la denominada insesgadez en el modelo, seg un la denici on que exponemos a continuaci on.

on, Denici on Dado un dise no muestral, d = (M ; p( )), y un modelo de superpoblaci S, diremos que el estimador de (Y ), , es insesgado en el modelo S, si cumple, Es ? (Y )

hb

=0

8m 2 M

Por ejemplo, si consideramos el modelo de proporcionalidad directa ya empleado para obtener el estimador de raz on gen erico,

Yi = Xi + i Es i ] = 0 Vs i ] = 2 v(Xi ) Es i j ] = 0; i 6= j

136

se tendr a, con v(x) = x, Es Y R ? Y

hb

= Es

i2m Yi =i X ?Y i2m Xi =i

i2m Xi =i X ? X i2m Xi =i

=0

es decir, el estimador de raz on gen erico es insesgado en el modelo, aunque , en general, no lo sea en el dise no. Es obvio que este nuevo concepto de insesgadez se puede considerar m as d ebil que el usual, en el sentido de que est a supeditado a que el modelo de superpoblaci on sea el adecuado. Observemos tambi en que, al igual que un estimador puede ser insesgado en el modelo pero no en el dise no, es posible que sea insesgado en el dise no pero no en el modelo. Por ejemplo, en el dise no MAS(N ; n), la media muestral, y es un estimador insesgado (en el dise no) de Y , sin embargo, para el modelo de proporcionalidad directa se tiene, Es y ? Y ] = x ? X que, en general, es distinto de cero. Bajo este enfoque, que podemos denominar dependiente del modelo es posible obtener ciertas propiedades de optimalidad sobre el estimador de raz on, que estudiaremos a continuaci on, siguiendo la l nea iniciada en Royall (1970). Para simplicar la notaci on, supondremos que el par ametro a estimar es el total poblacional, T (Y ) = i2U Yi , y que el estimador, T (Y ), se va a buscar en la clase de los estimadores lineales e insesgados en el modelo.
= (x

? X)

Observemos que, dada una muestra, m, perteneciente al dise no muestral que estemos empleando, T (Y ) admite la descomposici on,

T (Y ) =

i2m

Yi +

T (Y ) ? i2m Yi Xi = Yi + Xi i2U ?m Xi i2U ?m i2U ?m i2m

donde la notaci on introducida se justica al ser Es ] = , lo que se comprueba f acilmente. Adem as, al ser T (Y ) lineal en Yi ; i 2 m, tambi en lo ser a , es decir,

b = iYi
i2m

Dado un dise no muestral, d = (M ; p( )), podemos utilizar la siguiente cantidad, ECM T (Y ); d ] = Es ECMd T (Y )] = Es

"

como medida de la eciencia del estimador T (Y ). Esta medida involucra tanto el efecto del dise no muestral, como la inuencia del modelo de superpoblaci on, y en relaci on a la misma, se tiene el siguiente resultado, 137

m2M

T (m; Y ) ? T (Y )

p(m)

Lema Para un dise no muestral cualquiera, d = (M ; p( )), y los estimadores del total, T 0 (Y ) T 00 (Y ) se verica que si, Es entonces,

i2m i2m

0 Yi + b

00 Yi + b

i2U ?m

Xi Xi

i2U ?m

b 0 ? h

Es

00 ?

8m 2 M

ECM T 0 (Y ); d

ECM T 00 (Y ); d

Demostraci on: Teniendo en cuenta el modelo de superpoblaci on, podemos realizar el siguiente desarrollo,

b0(Y ); d ECM T

"

= Es

m2M

T (m; Y ) ? T (Y ) T (m; Y ) ? T (Y )

p(m) p(m)

2 !2 3 = Es 4 Yi + b 0 Xi ? Yi ? Yi 5 p(m) m2M i2m i2U ?m i2m i2U ?m 2 !23 = Es 4 b 0 Xi ? Xi ? i 5 p(m) m2M i2U ?m i2U ?m i2U ?m 0 1 !2 2 2 + 0 ? = @ Xi Es b v(Xi )A p(m)
m2M i2U ?m i2U ?m

m2M

Es

de donde se deduce inmediatamente el resultado propuesto.

Con respecto a la optimalidad del estimador de raz on, se verica el siguiente resultado fundamental, en cuya demostraci on emplearemos el anterior lema. 138

Teorema 12 Dado un dise no muestral cualquiera, d = (M ; p( )), sea,

b
y el estimador del total,

i2m XiYi =v(Xi ) i2m Xi2 =v(Xi ) Yi + b Xi

T (Y ) =

i2m

i2U ?m

Entonces se verica que para cualquier estimador del total, T (Y ), lineal e insesgado en el modelo, ECM T (Y ); d ] ECM T (Y ); d ]

siendo adem as,

b (Y ) d] = 2 ECM T
;

m2M

2 (i2U ?m Xi ) + v(Xi ) i2m Xi2 =v(Xi ) i2U ?m

!
p(m)

Demostraci on: Para la demostraci on, nos basaremos en el lema anterior. Sea pues m una muestra del dise no, y lineal en Yi ; i 2 m, esto es,

b = iYi
i2m

on, A partir de la condici on Es ] = se obtiene la restricci


i2m

i Xi = 1

Por otra parte, Es ?

2 !2 3 5 = Es 4 i (Yi ? Xi) i2m "


= Es

"
= Es

i; j 2m

i j (Yi ? Xi)(Y j ? X j )

i2m

2 i (Yi

? Xi)

2 =

i2m

2 i v(Xi )

139

que, con la restricci on ya obtenida anteriormente,


i2m

i Xi = 1
i2m

alcanza el m nimo para los valores, i = Xi =v(Xi ) i2m Xi2 =v(Xi )

lo que proporciona precisamente . Hemos demostrado pues que 8m 2 M , Es

b ?

Es

b ?

b 8

y basta tener en cuenta el anterior lema para obtener el resultado de optimalidad enunciado. Finalmente, la expresi on para ECM T (Y ); d ] se obtiene mediante un c alculo directo.

Observemos que para el caso v(x) = x, ya considerado en el enfoque predictivo aplicado al principio del tema, se obtiene como estimador o ptimo, T (Y ) =

i2m

Yi Xi Xi Yi + i2m X 2 Xi
=

i2m i

i2U ?m

Xi =

y T (X ) x

Este resultado no est a en contradicci on con las buenas propiedades que presenta el estimador gen erico de raz on obtenido en la secci on 3. de esta revisi on, i2m Yi =i T (X ) i2m Xi =i en lo que respecta a la estimaci on del error. Por otra parte, hay que tener en cuenta que el estimador o ptimo ha sido buscado en una clase muy especial de estimadores lineales, insesgados para el modelo, con los inconvenientes de dependencia del mismo que ello supone. TR (Y ) = atico medio resulta Observemos tambi en que para el caso v(x) = x, el error cuadr ser, ECM T (Y ); d ]

m2M

2 (i2U ?m Xi ) Xi + i2m Xi2 =Xi i2U ?m

!
p(m)

2 = T (X )Ed

i2U ?m Xi i2m Xi

140

Y si denotamos por m la muestra formada por los elementos de la poblaci on, tal que,
i2m

Xi Xi = max m2M
i2m

el anterior error cuadr atico medio ser a m nimo para el siguiente dise no muestral intencional, d = (fm g; p(m ) = 1) es decir, un dise no con una u nica muestra, m , que es seleccionada con probabilidad uno. Hemos obtenido pues el siguiente resultado,

Teorema 13 Bajo el modelo de superpoblaci on de proporcionalidad directa, con fun=x ) T (X )) es o ci on gu a de la varianza v(x) = x, la estrategia muestral (d ; (y ptima para la estimaci on de T (Y ). Notemos que el resultado anterior sigue siendo v alido si solamente exigimos que v(x) sea no decreciente, y v(x)=x2 no creciente. A pesar de su importancia te orica, estos resultados, como arman Cassel, S arndal y Wretman (1977), est an en conicto con uno de los principios m as extendidos de la Estad stica como es el de la aleatorizaci on. Por otra parte, la estrategia o ptima anterior es incompatible con el c alculo o la estimaci on del error. Como fuentes importantes para profundizar en estas cuestiones, citaremos Royall (1970), Royall y Herson (1973a, 1973b), Royall y Eberhardt (1975), Cassel, S arndal y Wretman (1977), Bellhouse (1984), Sukhatme et al. (1984) y Chaudhuri y Vos (1988). Observemos nalmente que es posible plantear el problema complementario de hallar las probabilidades de inclusi on o ptimas para que el estimador de raz on gen erico, TR (Y ) =

i2m Yi =i T (X ) i2m Xi =i

sea o ptimo bajo el modelo de superpoblaci on de proporcionalidad directa. V ease S arndal, Swensson y Wretman (1992) para un estudio del mismo.

8. REFERENCIAS [1] Azor n, F. y S anchez-Crespo, J.L. (1986). M etodos y Aplicaciones del Muestreo. Alianza Universidad Textos. Madrid. 141

[2] Beale, E.M.L. (1962). Some use of computers in operational research. Industrielle Organization, 31, 2728. [3] Bellhouse, D.R. (1984). A review of optimal designs in survey sampling. The Canadian Journal of Statistics, 12, 5365. [4] Cassel, C., S arndal, C. y Wretman, J. (1977). Foundations of Inference in Survey Sampling. Wiley. New York. [5] Cochran, W.G. (1978). Laplaces Ratio Estimator. Contributions to Survey Sampling and Applied Statistics. H.A. David (ed.). Academic Press. New York. [6] Cochran, W.G. (1993). T ecnicas de Muestreo. D ecima reimpresi on. CECSA. M exico. [7] Chang, W.C. (1976). Statistical theories and sampling practice. On the History of Statistics and Probability. D.B. Owen (ed.). Dekker. New York. [8] Chaudhuri, A. y Vos, J. (1988). Unied Theory and Strategies of Survey Sampling. North Holland. Amsterdam. [9] David, I.P. y Sukhatme, B.V. (1974). On the bias and mean square error of the ratio estimator. J. Amer. Statist. Assoc., 69, 464466. [10] De Pascual, N. (1961). Unbiased ratio estimators in stratied sampling. J. Amer. Statist. Assoc., 56, 7087. [11] Fern andez, F.R. y Mayor, J.A. (1995). Muestreo en Poblaciones Finitas: Curso B asico. E.U.B. Barcelona. (Tambi en en P.P.U., (1994)). [12] Fuller, W.A. (1975). Regression analysis for sample survey. Sankhya, C37, 117132. [13] Goodman, L.A. y Hartley, H.O. (1958). The precision of unbiased ratio-type estimators. J. Amer. Statist. Assoc., 53, 491508. [14] Hald, A. (1990). A History of Probability and Statistics and Their Applications before 1750. Wiley. New York. [15] Hansen, M.H., Hurwitz, W.N. y Gurney, M. (1946). Problems and methods of the sample survey of business. J. Amer. Statist. Assoc., 41, 173189. [16] Hansen, M.H., Hurwitz, W.N. y Madow, W.G. (1953). Sample Survey Methods and Theory. Vol. I y II. Wiley. New York. [17] Hartley, H.O. y Ross, A. (1954). Unbiased ratio estimators. Nature, 174, 270271. [18] Hedayat, A.S. y Sinha, B.K. (1991). Design and Inference in Finite Population Sampling. Wiley. New York. [19] Kish, L. y Frankel, M.R. (1974). Inference from complex samples. J. Roy. Statist. Soc., B36, 137.

142

[20] Lahiri, D.B. (1951). A method of sample selection providing unbiased ratio estimates. Bulletin of the International Statistical Institute, 33, 133140. [21] Lanke, J. (1974). On nonnegative variance estimators in survey sampling. Sankhya, C36, 3342. [22] Mickey, M.R. (1959). Some nite population unbiased ratio and regression estimators. J. Amer. Statist. Assoc., 54, 594612. [23] Midzuno, H. (1952). On the sampling system with probability proportionate to sum of sizes. Annals of the Institute of Statistical Mathematics, 3, 99107. [24] Murthy, M.N. (1964). Product method of estimation. Sankhya, A26, 6974. [25] Olkin, I. (1958). Multivariate ratio estimation for nite populations. Biometrika, 45, 154165. [26] Quenouille, M.H. (1956). Notes on bias in estimation. Biometrika, 43, 353 360. [27] Rao, C.R. (1965). Linear Statistical Inference and its Applications. Wiley. New York. [28] Rao, J.N.K. (1967). The precision of Mickeys unbiased ratio estimator. Biometrika, 54, 321324. [29] Rao, J.N.K. y Beegle, L.D. (1977). A Monte Carlo study of some ratio estimators. Sankhya, B29, 4756. [30] Rao, J.N.K. y Vijayan, K. (1977). On estimating the variance in sampling with probability proportional to aggregate size. J. Amer. Statist. Assoc., 72, 579584. [31] Rao, P.S.R.S. (1971). Small sample results for ratio estimators. Biometrika, 58, 625630. [32] Rao, P.S.R.S. (1988). Ratio and regression estimators. Handbook of Statistics 6. Sampling. Krishnaiah y Rao, (Eds.). North Holland. Amsterdam. [33] Rao, P.S.R.S. y Mudholkar, G.S. (1967). Generalized multivariate estimator for the mean of nite populations. J. Amer. Statist. Assoc., 62, 10091012. [34] Rao, T.J. (1966). On the variance of the ratio estimator for Midzuno-Sen sampling scheme. Metrika, 10, 8991. [35] Rao, T.J. (1972). On the variance of the ratio estimator. Metrika, 18, 209 215. [36] Robson, D.S. (1957). Application of multivariate polykays to the theory of unbiased ratio-type estimators. J. Amer. Statist. Assoc., 52, 511522. [37] Royall, R.M. (1970). On nite population sampling theory under certain linear regression models. Biometrika, 57, 377387.

143

[38] Royall, R.M. y Herson, J. (1973a). Robust estimation in nite populations I. J. Amer. Statist. Assoc., 68, 880890. [39] Royall, R.M. y Herson, J. (1973b). Robust estimation in nite populations II. J. Amer. Statist. Assoc., 68, 890894. [40] Royall, R.M. y Eberhardt, K.R. (1975). Variance estimates for the ratio estimator. Sankhya, C37, 4352. [41] Royall, R.M. y Cumberland, W.G. (1981). An empirical study of the ratio estimator and estimators of its variance. J. Amer. Statist. Assoc., 76, 6677. [42] Ruiz, M. y Santos, J. (1989). Unbiased mean-of-the-ratios estimators. Statistica, 49, 617622. [43] Sahoo, L.N. y Ruiz, M. (1994). Unbiased estimators using auxiliary information in sample surveys: a review. Revista de la Academia de Ciencias de Zaragoza, 49, 137146. [44] S anchez-Crespo, J.L. (1980). Curso Intensivo de Muestreo en Poblaciones Finitas. 2a edici on. Instituto Nacional de Estad stica. Madrid. [45] S arndal, C. (1984). Inf erence Statistique et Analyse des Donn ees sous des Plans dEchantillonnage Complexes. Presses de lUniversit e de Montr eal. [46] S arndal, C., Swensson, B. y Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag. New York. [47] Singh, P. y Srivastava, A.K. (1980). Sampling schemes providing unbiased regression estimators. Biometrika, 67, 205209. [48] Sukhatme, P.V., Sukhatme, B.V., Sukhatme, S. y Asok, C. (1984). Sampling Theory of Surveys Applications. Tercera edici on. Iowa State University Press. Ames. Iowa. [49] Tin, M. (1965). Comparison of some ratio estimators. J. Amer. Statist. Assoc., 60, 294307. [50] Williams, W.H. (1961). Generating unbiased ratio and regression estimators. Biometrics, 17, 267274.

144

ENGLISH SUMMARY
RATIO ESTIMATORS: A REVIEW
A. MAYOR GALLEGO JOSE Universidad de Sevilla In this review we expose the basic principles relating to the use of auxiliary information, in order to estimate linear parameters dened over nite populations, by means of ratio type estimators. The construction of these estimators is rstly carried out by means of an heuristic approach based on the existence of a direct proportionality relation between the study variable and the auxiliary variable, but a more formal study is carried out under a superpulation model approach. The main problem of these estimators is the existence of bias, and in order to reduce it, we have to use special sampling designs or to modify the structure of the estimators to obtain unbiased or almost unbiased strategies. Keywords: Sampling, nite populations, ratio-type estimators

AMS Classication: 62D05

* Jos e A. Mayor Gallego. Dpto. Estad stica e Investigaci on Operativa. Universidad de Sevilla. C/Tara s/n. 41012 SEVILLA. Received may 1996. Accepted april 1997.

145

A way to integrate the auxiliary information, in order to increase the accuracy of the estimates over a nite population is to use estimators with a rational mathematical structure, involving the study variable, Y , and an auxiliary variable, X , completely known. In this paper, we review this class of estimators, emphasizing the importance of the proportionality between the X and Y variables, in order to obtain good estimates, but controlling the bias. We are going to suppose that we are estimating the linear parameter, (Y ) = over a nite population, U sampling design, d .
=
i2U

aiYi

f1 2
;

;::: ;

N g, by means of a sample, s, chosen from a

Thus we study rstly the heuristic approach, based on the following factorizing, (for the population mean), Y Y = X = RX X then, we can dene the estimator, YR = RX The nal form of this estimator depends on the sampling design. If we use the simple random sampling, SRS(N ; n), we can estimate R using the sample means ratio, that is to say, y YR = X x

The efciency of this estimator depends on the relation between the study variable, Y , and the auxiliary variable, X . It has a good behaviour if there is an approximate relation, Y X , that is to say, a direct proportionality. Using approximate techniques, we obtain the following expressions for the variance and its estimation, V Y R] V Y R]

1? f 2 2 S y + R2 S x ? 2RSxy n
=

bb

1? f 2 sy + R2s2 x ? 2Rsxy n

2 , S2 , S where Sy xy are the population quasivariances and quasicovariance of the Y x 2 , s the corresponding over the sample. Also, we denote f = n=N . values, and s2 , s y x xy

146

An alternative and more formal approach is the predictive approach, based on the existence of the following superpopulation model,

Yi = Xi + i Es i ] = 0 Vs i ] = 2 v(Xi ) Es i j ] = 0; i 6= j where v( ) is a known function. We suppose that X only takes positive values. Under this model, and if v(x) = x, we obtain the estimator, YR =

i2s Yi =i X i2s Xi =i

particular case of S anchez-Crespo (1980). The properties of this estimator depends on the sampling design. If the sample, s, is obtained using a SRS(N ; n), then, the estimator is, YR = This estimator is biased, since, B Y R] = E Y R] ? Y

y X x

= XE

y x

] = E x ]E ?E y

y x

] = ? Cov ?E y

x ;

y x

and dening the quantities,

bR ] Bk Y bR] ECMk Y b

YE
2

"2k?1 "
i=0

) (y ? x ) (?x
i

#
?x )

Y E

(y

2k?2 x ) (i + 1)( i=0 2

#
i

we have the following result, about the bias and the mean square error, B Y R ] ? Bk Y R ] ECM Y R ] ? ECMk Y R ] 147

O(n?(k+1) )

O(n?(k+1) )

If k = 1, we obtain the rst order approximations, B Y R]

1? f n 1? f n 1? f n

Y X

S2 2 x

1 ?X Sxy
2

+ O(n

bR] ECM Y bR ] VY

2 Sy +

Y X Y X

S2 2 x
2

?2Y Sxy X ?2Y Sxy X

! !

?2) = O(n?1 )
+ O(n

?2) = O(n?1 ) ?2) = O(n?1 )

2 Sy +

S2 2 x

+ O(n

Thus, the bias and the mean square error can be controlled, increasing the sample size. If we use a sampling design with rst order inclusion probabilities proportional to size, X , we obtain the unbiased estimation, YR = with variance (for xed sample size), V Y R]

1 Yi X n X i2s i

X ?2 (i j ? i j ) n2
i; j 2U

Yi Y j ? Xi X j Yi Y j ? Xi X j

V Y R]

bb

X ?2 n2

( i j

? i j )
i j

i; j 2s

that is to say, the variance decreases if the Y and X variables are proportional or nearly proportional. Other unbiased strategies are obtained combining the ratio estimator, YR =

y X x

with the sampling design generated by the Lahiri-Midzuno scheme. The Harley-Ross estimator, Y HR = z X + with the SRS(N ; n) design. 148

n(N ? 1) (y ?z x ); N (n ? 1 )

Zi = Yi =Xi

The Mickeys estimator with the SRS(N ; n) design, and others related by Ruiz and Santos (1989). Also, is possible to obtain almost unbiased strategies, that is to say, with bias O(1=n2), for example, The De Pascuals estimator, Y DP = Y R + The Beales estimator, YB = YR 1+ The Tins estimator, YT

y ?z x n?1

with Zi =

Yi Xi

1 1 ? n N

sxy x y

1+

1 1 ? n N

s2 x x 2

?1

= YR

1?

1 1 ? n N

s2 x x 2

xy ? sx y

in combination with the SRS(N ; n) design. And also, the estimator obtained applying =x )X . the jackknife technique to the ratio estimator, Y R = (y

To nish this review, we study the multivariate ratio estimator, the ratio estimator in stratied sampling and the optimality of the ratio estimator.

149

Você também pode gostar