Escolar Documentos
Profissional Documentos
Cultura Documentos
Las opiniones y conclusiones de esta investigacin son de exclusiva responsabilidad del autor, por
lo que el INEI no se solidariza necesariamente con ellas.
Presentacin
En tal sentido, los resultados de la ENAHO deberan ser similares a los de la ENDES, es
decir ambas encuestas son igualmente consistentes, el objetivo de esta investigacin es
aclarar una controversia encontrada en la ENAHO y la ENDES, sin una base sustentada
por lo que este estudio permite realizar las respectivas aclaraciones.
I. Introduccin ....................................................................................................................... 5
X. Bibliografa......................................................................................................................... 26
La presente investigacin est dirigida a una encuesta de hogares seleccionados con un cierto
diseo de muestreo. Para el diseo, se tuvo disponible un marco de muestreo (en el INEI denominado
marco maestro de conglomerados CPV). En general, el diseo contempla una estratificacin con
la seleccin de diferentes tipo de unidades, independiente en cada estrato, en varias etapas y
considerando sus tipos de unidades con los correspondientes procedimientos de seleccin (por
ejemplo por conglomerados y sistemtica con probabilidades proporcional al tamao, y con seleccin
de viviendas sistemtica o simple aleatoria).
El INEI entre sus diferentes actividades, mantiene dos tipos de encuestas similares,
una denominada ENDES y la otra llamada ENAHO. La encuesta ENDES tiene las siguientes
caractersticas:
(a).- Cada estrato est constituido por la combinacin de cada departamento (24 en total) y una
provincia constitucional con el rea de residencia (2 en total: urbano y rural); es decir en el
Per se tiene 49 estratos.
(b).- La muestra para esta encuesta est seleccionada en dos etapas; con la primera etapa para
los conglomerados (segmentos censales definidos en el ltimo censo) y con la segunda etapa
para las viviendas.
(c).- La seleccin de esos dos tipos de unidades es independiente a travs de cada estrato
previamente definido.
(d).- Considerando los procedimientos de seleccin, se tiene que los conglomerados son unidades
ms variables (en trminos de caractersticas y del nmero de viviendas), que las viviendas
per se, lo que determina el uso de la seleccin de conglomerados sea con probabilidad
proporcional al tamao,
(f).- Finalmente, las viviendas son seleccionadas sistemticamente en cada una de esas listas y
se considera toda la informacin de todos los hogares en la vivienda seleccionada, para todos
los miembros del hogar para conseguir informacin del hogar, y tambin obtener informacin
de caractersticas asociadas con la informacin de fecundidad, mortalidad y de tpicos de
salud para todas las mujeres elegibles (15-49 aos).
Sin embargo, la ENAHO tiene un mandato adicional de proveer estimaciones de totales sean
de hogares o de poblacin especfica para cada dominio de estudio. Es aqu donde se ha venido
encontrando una controversia que no tiene una base sustentada, pero si, debe ser aclarada y por
lo cual es la intencin de este estudio.
Antes de entrar al estudio con mayor detalle, debe decirse que un conjunto especifico de pesos
o ponderaciones multiplicado por un mismo valor escala a nivel de estrato es otro conjunto de
pesos que provee los mismos valores de estimaciones relativas, no as los valores de estimaciones
absolutas (totales). La ENDES utiliza como pesos o ponderaciones a los valores inversos de la
fraccin de muestreo total ajustados para reproducir el total de muestra a nivel total de muestra
(estandarizados) solo al nivel nacional y al mismo tiempo reproduce la proporcionalidad del universo
total, en el total de muestra. Si se aplica directamente el inverso de la fraccin de muestreo como
peso o ponderador, obtendramos valores demasiados grandes de muestra para cada cuadro de
estudio, y esa no es la intencin de la ENDES de trabajar con nmeros grandes que compliquen
su anlisis.
Se presenta tres diferentes casos (es decir 3 cuadros) de una proporcin asumida ser el valor
actual, por decir. 0,5, 0,3 y 0,1 (indicados en la celda superior izquierda de cada cuadro), obsrvese
tambin en el rtulo superior derecho se asume una variabilidad de la proporcin muestral entre
el valor actual asumido y un supuesto valor mximo establecido de la proporcin muestral de
la encuesta (se presenta a partir de un 5% mximo, hasta un 90% mximo, indicado en el lado
superior del valor actual, pero similarmente se puede hacer sobre el lado inferior). En la parte
interna del cuadro se presenta los valores de la proporcin muestral esperada asumiendo diferentes
distribuciones de probabilidades entre solo dos puntos, el valor actual asumido y el valor mximo
asumido sobre el actual; ya que de tener que trabajar con todo el rango se necesitara establecer
una distribucin sobre ese rango, es decir se complicara su anlisis.
Obsrvese que en todos los tres cuadros (es decir en cada uno de ellos con el valor asumido),
la variabilidad del valor mximo en el rango del 0% al 30% nos lleva a valores de la proporcin
esperada cercanos a la asumida actual. Este anlisis nos garantiza que valores relativos estimados
por una encuesta grande por lo general provee una buena aproximacin del valor actual y que
tambin es garantizada por la teora estadstica de la ley de los grandes nmeros. Esa es la razn
principal del porqu la ENDES se concentra en dar valores relativos
Mximo porcentaje asumido de la proporcin muestral, considerando una distribucin en dos puntos, en el valor actual asumido y en el mximo valor
Proporcin
Actual
5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0,5
0,525 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1
Distribucin
Asumida
60% y 40% 0,5100 0,5200 0,5400 0,5600 0,5800 0,6000 0,6200 0,6400 0,6600 0,6800 0,7000
70% y 30% 0,5075 0,5150 0,5300 0,5450 0,5600 0,5750 0,5900 0,6050 0,6200 0,6350 0,6500
80% y 20% 0,5050 0,5100 0,5200 0,5300 0,5400 0,5500 0,5600 0,5700 0,5800 0,5900 0,6000
90% y 10% 0,5025 0,5050 0,5100 0,5150 0,5200 0,5250 0,5300 0,5350 0,5400 0,5450 0,5500
100% y 0% 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
Cuadro 1: Mximo porcentaje asumido de la proporcin muestral, considerando una distribucin en dos puntos,
en el valor actual asumido y en el mximo valor
Mximo porcentaje asumido de la proporcin muestral considerando una distribiucion en dos puntos, en el valor actual asumido y en el mximo valor
Proporcin
Actual
5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0,3
0,315 0,33 0,36 0,39 0,42 0,45 0,48 0,51 0,54 0,57 0,6
Distribucin
Asumida
50% y 50% 0,3075 0,3150 0,3300 0,3450 0,3600 0,3750 0,3900 0,4050 0,4200 0,4350 0,4500
60% y 40% 0,3060 0,3120 0,3240 0,3360 0,3480 0,3600 0,3720 0,3840 0,3960 0,4080 0,4200
70% y 30% 0,3045 0,3090 0,3180 0,3270 0,3360 0,3450 0,3540 0,3630 0,3720 0,3810 0,3900
80% y 20% 0,3030 0,3060 0,3120 0,3180 0,3240 0,3300 0,3360 0,3420 0,3480 0,3540 0,3600
90% y 10% 0,3015 0,3030 0,3060 0,3090 0,3120 0,3150 0,3180 0,3210 0,3240 0,3270 0,3300
100% y 0% 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000 0,3000
Mximo porcentaje asumido de la proporcin muestral considerando una distribucion en dos puntos, en el valor actual asumido y en el mximo valor
Proporcin
Actual
5% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
0,1
0,105 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,2
Distribucin
Asumida
60% y 40% 0,1020 0,1040 0,1080 0,1120 0,1160 0,1200 0,1240 0,1280 0,1320 0,1360 0,1400
70% y 30% 0,1015 0,1030 0,1060 0,1090 0,1120 0,1150 0,1180 0,1210 0,1240 0,1270 0,1300
80%-20% 0,1010 0,1020 0,1040 0,1060 0,1080 0,1100 0,1120 0,1140 0,1160 0,1180 0,1200
90%-10% 0,1005 0,1010 0,1020 0,1030 0,1040 0,1050 0,1060 0,1070 0,1080 0,1090 0,1100
100%-0% 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000 0,1000
V. Metodologa para la estimacin de totales
a. La encuesta debe tener los medios necesarios para solucionar el nivel de no respuesta y de
tambin cubrir el grado de no cobertura.
b. Se tiene disponible del proceso de estimacin para obtener las estimaciones correspondientes
c. Observar si las estimaciones son o no consistentes con otras encuestas, y de que podra hacerse
para una solucin aceptable.
Con relacin al punto a), la ENDES tiene el cubrimiento por no respuesta y probablemente
tambin la ENAHO. Sin embargo ninguna de las dos encuestas tiene solucin directa por no
cobertura. Respecto al punto b) la ENDES no necesita este requerimiento de no cobertura por
lo expuesto en la seccin anterior, sin embargo la ENAHO como tiene que dar estimaciones de
totales se hace necesario solucionar el problema de no cobertura. Una solucin dada en la ENAHO,
adems de mantener las ponderaciones originales por diseo, es la introduccin de ajustes sobre
la fraccin de muestreo con cifras de proyecciones de poblacin.
Es decir las ponderaciones fueron ajustados con cifras de proyecciones demogrficas y fueron
denominados factores de expansin.
Esencialmente las dos encuestas, ENDES y ENAHO, tienen pesos o ponderadores bsicos
de muestreo, pero ellos fueron ajustados, estandarizados en la ENDES al total de la muestra, y
ajustados con proyecciones demogrficas en la ENAHO para el total de poblacin Son dos tipos
de ajustes que hacen la diferencia entre esas dos encuestas.
Es esta fraccin de muestreo total para cada vivienda (de acuerdo con el diseo de muestra
elaborado) es la pieza fundamental bsica en la elaboracin de las ponderaciones, y tal como se
plantea el valor inverso es el factor de expansin bsico.
Analicemos entonces esta fraccin de muestreo a travs de sus diferentes etapas de muestreo,
observese que el primer factor corresponde a la primera etapa y es dado por:
es decir que esa probabilidad de seleccin del hogar en la lista actualizada puede interpretarse
tambin como el producto de la probabilidad de la seleccin de b hogares utilizando el valor censal
y del inverso de un factor de crecimiento (o de decrecimiento del conglomerado).
En otras palabras, el segundo factor con la lista actualizada trata de corregir el primer factor al
nivel de conglomerado. Aun cuando esto proceso matemticamente es correcto, y las mencionadas
correcciones son solo para cada conglomerado seleccionado, no se puede decir que el marco
censal de conglomerados en el estrato haya sido corregido en su totalidad dado que como se
observa, este proceso solo se realiza en un nmero muy limitado de ellos y por lo tanto muy difcil
de justificar que esa correccin parcial, asi obtenida, sea una correccin del marco total ( marco
maestro de conglomerados CPV) del estrato correspondiente, a menos que se tenga un nmero
grande de ellos en la muestra con una buena actualizacin.
Debe recalcarse que para estimaciones de indicadores de totales, el inverso de esta fraccin
de muestreo no refleja bien la situacin de crecimiento (o decrecimiento) de una poblacin total
a nivel de dominio.
El valor inverso de este valor es el ponderador de un total expandido por proyeccin, es decir
= =
= =
= =
en donde el producto del valor medio de los tamaos de los conglomerados seleccionados
multiplicado con el nmero total de ellos en el estrato, y que ese producto acta como la proyeccin
de viviendas, asimismo el valor es reemplazado por el valor en el primer factor. El
valor inverso de esta ltima relacin es la ponderacin o tambin denominado factor de expansin.
Debe recalcarse que estas relaciones modificadas para la estimacin de los totales sern usadas
durante la aplicacin en esta investigacin.
Con estas modificaciones, podemos decir que se tiene hasta cuatro tipos de ponderaciones:
Un aspecto que debe ser recalcado en los ltimos tres tipos de ponderaciones es que se usa cifras
de proyecciones o actualizacin estimada o extrapolacin (denominadas simplemente proyecciones)
y que por lo tanto se puede decir que esos pesos (o ponderadores) calculados es la fraccin de
muestreo con cifras proyectadas (tambin llamados factores de expansin) y que se encuentran
limitados por la exactitud de esas proyecciones, se puede decir que en trminos generales las
cifras de proyecciones son mucho ms consistentes en los aos inmediatamente despus del ao
base de proyeccin. Esto es una limitacin en el uso de las cifras de proyecciones, sin embargo
el uso de ellas es un medio para conseguir estimaciones de totales De tenerse proyecciones por
grupo decenal de edad, o por estado marital o por educacin, para cada estrato se podra intentar
otro tipo de ponderacin, pero por lo general tal informacin es difcil de obtenerla. De tenerla, se
podra usar como variables auxiliares en un proceso post estratificacin y sus ponderaciones o
factores bsicos de expansin podran ser calibrados a los totales de dichas variables auxiliares.
Como una mencin del porqu de esto, en un sentido amplio -Smith (1991) considera el concepto
de post estratificacin cuando se hace referencia a la formacin de grupos homogneos despus
de la recoleccin de la encuesta, sin embargo se aplica este concepto en el muestreo cuando se
induce una estructura (en general distribucional) a la poblacin de acuerdo con una variable auxiliar
(categrica o continua) supuestamente estando correlacionada con las principales variables de
la encuesta. En el caso de la ENAHO, el ajuste es por proyeccin de poblacin demogrfica en
cada estrato.
Entre los aos 1980 al 1995 hubo una enorme cantidad de trabajos similares con metodologas de
post estratificacin, de regresin, del raking generalizado y de calibracin con la ayuda de variables
auxiliares (ver Li-Chun Zhang 2000, donde se describe una buena lista de referencias sobre estos
temas), siendo esta ltima tcnica un refinamiento, pero que se hace necesario tener informacin
de variables auxiliares. Los objetivos fueron siempre lo mismo, de intentar reducir la variabilidad
de la muestra, de reducir el sesgo, especialmente el dado por no respuesta y no cobertura, y de
imponer consistencia con otros resultados similares.
Volviendo a nuestro objetivo en este estudio, los indicadores (relativos y totales) sern calculados
con cada tipo de ponderador. Para los indicadores relativos, los estimadores con las ponderaciones
del tipo de proyecciones por estrato sern calculados y ellos sern comparados entre ellos y con
los valores de la ENDES cuando esto sea posible. Nos concentraremos en estudiar las diferencias
de ciertas distribuciones poblacionales entre ellas, observando su consistencia o sus divergencias.
El desarrollo matemtico anterior nos muestra la apertura de una gran avenida en que se puede
obtener cualquier otro factor de ajuste racional y razonable. Bajo este marco de confianza es bueno
intentar nuestro anlisis con las cifras de las proyecciones y observar de cuan consistentes son
los estimadores de valores relativos y de totales resultantes, adems de tenerse otras posibles
alternativas. En el presente ejercicio se ha calculado diversos archivos de ponderaciones de
expansin, en formato EXCEL, que nos permita observar el efecto de ellas en sus correspondientes
distribuciones asociadas. Esas distribuciones, con sus correspondientes juegos de ponderadores
son presentadas aqu y el objetivo es obtener la distribucin ms consistente contra la distribucin
de la poblacin proyectada, lo que ser detallado inmediatamente despus.
Estimada
Porciento Distribucin Porciento
Distribucin Distribucin Distribucin Porciento Distribucin Porciento Distribucin Porciento
Porcentaje urbano en poblacin por urbano en
Poblacional poblacin por poblacin urbano en poblacin por urbano en poblacin por urbano en
urbano en Depto depto con depto con la depto con
proyectada depto con por depto depto con depto con la depto con la depto con la depto con
cada depto marco en extrapolacin extrapolacin
por depto marco en con ENDES ENDES Aprox 1 Aprox 1 Aprox 2 la Aprox 2
ENDES de censos de censos
ENDES
0,8 42,5 AMAZONAS 1,5 30,7 1,3 39 1,3 44,5 1,4 37,4 1,1 53,8
2,9 59,7 ANCASH 4,0 49,9 4,1 60 3,9 64,2 4,2 58,5 3,8 74,8
Contina
Cuadro 3: Distribuciones de ponderaciones en distintos escenarios
2,9 66,2 LORETO 3,1 61,6 3,2 75 3,7 69,8 3,6 75,3 3,6 74
0,4 76,8 MADRE DE DIOS 0,4 69,4 0,5 82 0,5 83,7 0,5 80,9 0,6 86,1
0,6 79,3 MOQUEGUA 0,6 76,5 0,5 84 0,5 82,8 0,5 85 0,5 90,1
0,8 63,2 PASCO 1,0 56,2 0,8 62 0,7 60 0,8 58,1 0,7 60,6
6 76,4 PIURA 5,8 71,7 6,1 81 6,6 76,5 6,4 77,3 6,4 82,6
3,1 52,0 PUNO 5,4 38,1 3,4 55 3,2 62,8 3,1 60,9 2,8 75,1
2,3 63,7 SAN MARTIN 2,6 56,3 2,7 65 2,8 66,7 2,7 62,3 3,1 71,1
1,3 87,0 TACNA 1,1 82,6 0,9 91 0,9 91,9 0,9 91,2 0,9 96,4
0,9 94,3 TUMBES 0,7 89,6 0,8 92 0,9 94,1 0,8 88,2 0,9 91,3
1,6 78,1 UCAYALI 1,5 72,5 2 77 1,9 80,4 1,8 78,2 2,2 82,2
100 75,6 TOTAL PAIS 100,0 68,8 100 81 100 79,3 100,0 79,2 100 85,3
Analizando este ltimo cuadro, se puede observar que la distribuciones por departamento a travs
de los diferentes procesos estimativos (del cuarto al sptimo sub cuadro) son diferentes entre ellos,
por ejemplo el porcentaje de la proporcin urbana nacional vara entre 79,2 y 85,3. Sin embargo, si
nos restringimos del cuarto al sexto sub cuadro ellos son bastantes consistentes, con una variacin
entre 79,2 y 81; y se podra considerar una decisin sobre la base de cualquiera de ellos (entre el
cuarto y sexto) como una respuesta definitiva. Sin embargo, si consideramos el porcentaje urbano
nacional de ellos contra el correspondiente valor calculado con la cifras de poblacin proyectado
75,5 en el primer sub cuadro, ellos difieren en casi un 5% ms.
Asimismo para Lima, como el departamento de mayor poblacin, en dichos sub cuadros (del
cuarto al sexto) el porcentaje urbano es bastantes consistente entre ellos (de 32,4 al 34,5), con
el cuarto sub cuadro para las ponderaciones construidas sin proyeccin de la ENDES, el quinto
cuadro para la aprox 1, y el sexto sub-cuadro para la aprox 2.
Debe observarse que en el ltimo sub cuadro se han calculado dichas estimaciones con
extrapolacin de los ltimos dos censos, con ligera mejora del porcentaje para el departamento de
Lima pero sin embargo con el mayor porcentaje urbano nacional al compararse con el de poblacin
proyectada (primer sub cuadro) 85,3 contra 75,6 , de all que este sub cuadro no ser considerado
para una decisin final.
El cuadro siguiente nos ayudar a observar la consistencia con las cifras proyectadas de
poblacin o no, a travs de esos conjuntos de ponderaciones con relacin a las cifras dadas
por distribucin de las cifras de poblacin. De all, este cuadro muestra las diferencias de esos
porcentajes contra los correspondientes con la proyeccin de las cifras de poblacin.
Porciento
Porciento Porciento Porciento Porciento
urbano en
urbano en depto urbano en urbano en urbano en
Departamento depto con
con marco en depto con depto con depto con
extrapolacion
ENDES ENDES Aprox 1 Aprox 2
censal
Entre todos los procesos estimativos desde el segundo al cuarto sub cuadro de distribuciones,
las diferencias de los porcentajes son muy ligeras y proporcionan las mejores sumas de diferencia,
aun cuando ellas tengan el porcentaje urbano nacional (con ligera ventaja para el cuarto sub cuadro).
Si se tuviese que elegir entre ellos, se podra decir que por tener las menores sumas de diferencias
entonces cualquiera de ellos podra ser el seleccionado. Esto no significa que sea el ptimo, pero
si nos da un soporte lgico en usar al que seleccionemos, es decir lograr ponderadores o factores
de expansin consistentes.
En un futuro cercano, se realizar una produccin de ciertos indicadores seleccionados para ver
sus efectos (la cual ser incluida como un apndice de este informe) y as tener una recomendacin
final si fuese posible.
En resumen, estamos buscando la mejor metodologa de ponderaciones que nos reduzca los
efectos de la variabilidad y la de evitar posible sesgos. Los archivos de trabajo para todas estas
metodologas estarn disponibles a travs del INEI.
Pero un hecho esencialmente primordial con esta investigacin es que usando ponderaciones
de expansin ajustados por cifras de proyeccin o no, se obtienen resultados similares con mayor
consistencia para algunos de ellos y que todos ellos estuvieron basados en la hoja de ponderaciones
ENDES 2013 segundo semestre. En todas ellas, se us el nmero promedio estimado de personas
por vivienda (hogar) en cada estrato a travs de sus procesos de la elaboracin de los factores
de expansin.
Debemos aclarar que despus de calculadas dichas ponderaciones con cualquiera sea el
proceso, y obtenindose el nmero del total de personas ponderado a nivel nacional recin entonces
las ponderaciones calculadas deben ser estandarizadas al total de poblacin proyectado.
Smith, T.M.F. (1961), Post Stratification The Statistician, Vol 40, 315-323
Li-Chin Zhang (2000) , Post-Stratification and Calibration-A Synthesis The American Statistician,
August 2000, Vol 54, No. 3, 178-184