Escolar Documentos
Profissional Documentos
Cultura Documentos
Las opiniones y conclusiones de esta investigación son de exclusiva responsabilidad del autor, por
lo que el INEI no se solidariza necesariamente con ellas.
TABLA DE CONTENIDO
PRESENTACIÓN
En el marco de la gestión por resultados, los programas sociales deben ser evaluados, monitoreados,
de tal manera que sirva de pilotos de modificaciones y mejora en nuevas intervenciones. La
literatura en evaluación de impacto aún no documenta un estudio que sistematice y resuma las
fórmulas para el cálculo del tamaño de muestra y el análisis de poder para las distintas técnicas de
evaluación de impacto que sea de utilidad en las políticas públicas.
En tal sentido, este documento es una guía práctica para investigadores, profesionales y hacedores
de políticas, que intentan introducir el estudio de la determinación del tamaño de muestra y análisis
de poder para técnicas de evaluación de impacto. Esta sistematización de la documentación
provee fórmulas y/o procedimientos para la determinación del tamaño de muestra requerido.
Esta investigación ha sido seleccionada en el concurso nacional de investigaciones que realiza cada
año el Instituto Nacional de Estadística e Informática - INEI, a través de su órgano desconcentrado
el Centro de Investigación y Desarrollo (CIDE).
Abstract
This paper is a practical guide for researchers, practitioners and policymakers, which
wants to introduce the study of sample size calculation and power analysis for impact
evaluation techniques. First, some basic concepts of impact evaluation and statistics in-
ference; analyze the different steps in an impact evaluation design, and discuss sampling
techniques and is relationship with hierarchical models (single, cluster and block de-
sign). Then, the study develops the formulas for sample size determination for experi-
mental and non-experimental design (instrumental variables, differences in differences,
regression discontinuity and matching), and includes adjustment for using covariates
and problems in randomization (partial compliance and spillovers effects) in the basic
framework of sample size determination. Finally, the study includes practical examples
and applications in STATA package.
TABLA DE CONTENIDO
TABLA DE CONTENIDO
Presentación...................................................................................................................... 3
Resumen............................................................................................................................ 5
PARTE I: Conceptos Básicos.......................................................................................... 9
1. Introducción................................................................................................................... 9
2. Diseño de Evaluación de Impacto................................................................................ 10
2.1. Muestreo............................................................................................................... 10
2.2. Costos de una evaluación de impacto................................................................... 11
3. Conceptos..................................................................................................................... 12
3.1. La evaluación de impacto..................................................................................... 12
3.2. Modelos Descriptivos vs Modelos Analíticos...................................................... 12
3.3. Repaso de Inferencia............................................................................................ 13
3.4. Cálculo de Tamaño de Muestra............................................................................ 14
3.5. Implementación del cálculo del tamaño de muestra en Stata............................... 19
4. Diseño Multinivel de una Evaluación de Impacto....................................................... 20
4.1. Modelos Multinivel.............................................................................................. 20
4.2. Diseños por conglomerados................................................................................. 20
4.2.1. Ajustes a la varianza con conglomerado....................................................... 21
4.2.2. ICC en la práctica.......................................................................................... 23
4.3. Diseño de bloques................................................................................................. 24
4.4 Implementación del cálculo del tamaño de muestra en Stata................................ 25
PARTE II: Diseño Experimental.................................................................................. 27
5. Diseño Experimental.................................................................................................... 27
5.1. Definición............................................................................................................. 27
5.2. Cálculo del Tamaño de muestra............................................................................ 28
5.3. Ajustes por covariados.......................................................................................... 28
5.4. Implementación del cálculo del tamaño de muestra en Stata............................... 30
1. Introducción
El rápido avance en el uso de técnicas de inferencia causal y su aplicación en las
evaluaciones de impacto de diversos programas e intervenciones de políticas públicas,
así como el exponencial gasto social en estos, han generado la necesidad de incrementar el
conocimiento de estas técnicas. En el marco de la gestión por resultados, los programas sociales
deben ser evaluados, así como los pilotos de modificaciones, mejora y nuevas intervenciones que
se vienen realizando.
Por ejemplo, las técnicas de muestreo y determinación de tamaño de muestra para diseños
aleatorios y diferencias en diferencias han sido trabajados inicialmente en el campo de la medicina
(Bloom 1995, Bloom et al. 2007, Chow et al. 2008, Frison et al 1992, Jo 2002, Raudenbush et al.
2007, Rhoads 2011, Teerenstra et al. 2012) y posteriormente en diversos campos entre los que se
encuentra la economía (Duflo et al. 2008, McKenzie 2012). Por otro lado, las técnicas de muestreo
para regresión discontinua han sido inicialmente trabajadas en el campo de la medicina (Cappelleri
et al. 1994) y posteriormente con mayor profundidad en el campo de la educación (Schochet
2008). Finalmente, aún hay poco avance respecto a la técnica de emparejamiento y las diversas
técnicas de propensity score matching.
De este modo, este documento busca brindar fórmulas y/o procedimientos para la determinación
del tamaño de muestra requerido para diferentes diseños de evaluación de impacto. Está
estructurado en dos secciones: la primera, introductoria y la segunda, repasa algunos conceptos
de inferencia y cálculo del tamaño de muestra.
Los pasos del proceso de diseño de la evaluación de impacto serán desarrollados ampliamente
en el presente trabajo con especial énfasis en el cálculo del tamaño de muestra. Sin embargo,
es necesario dedicarle un espacio a las principales técnicas de muestreo que se abordarán
inicialmente dado que son transversales para todos las técnicas de evaluación
2.1. Muestreo1
El muestreo es una técnica estadística para la selección de una muestra a partir de una población
de interés. Los pasos que deben seguirse para desarrollar un adecuado muestreo en una
evaluación de impacto son los siguientes:
c. Levantar tanta información del marco muestral como el cálculo de poder lo requiere.
En general, el método de muestreo en las evaluaciones de impacto está relacionada con las
reglas de elegibilidad del programa y el diseño jerárquico de la evaluación, temas que discutiremos
ampliamente en la sección 4.
Las evaluaciones de impacto suelen requerir presupuestos elevados, donde deben ser
considerados los costos del equipo evaluador (investigadores, coordinador de campo, experto
en muestreo, etc), materiales y levantamiento de la información, entre otros. Según Gertler et al.
(2011), el costo de las evaluaciones de impacto equivalen aproximadamente a un 4,5% del costo
total de la intervención, dependiendo del tipo de diseño de este.
La data administrativa hace referencia a data levantada por una organización como parte de sus
funciones normales. Una de las principales condiciones que deben asegurarse en el uso de data
administrativa es que la data sea comparable entre los grupos tratados y controles. Existen dos
tipos de fuentes comúnmente utilizadas de data administrativa.
Dado que el término Yi (t=1,D=0) no es observable porque solo existe información de los
beneficiarios una vez que recibieron el programa Yi (t=1,D=1). El reto de las técnicas de
evaluación de impacto pasan por identificar un grupo contrafactual (j ) similar al grupo tratado (i ).
El escenario ideal para la construcción del grupo control consiste en la asignación aleatoria del
tratamiento. La aleatorización del tratamiento asegura que las características observables y no
observables de los individuos sean similares, por lo que cualquier diferencia entre los grupos
debería ser atribuible solo al tratamiento.
Los modelos descriptivos buscan estimar un estadístico (p.ej. media, proporción) para una población
o subpoblación a partir de una muestra representativa. Por ejemplo, suponga que se deseamos
responder la pregunta: ¿Cuál es el puntaje promedio de la Evaluación Censal de Estudiante (ECE)
de matemática en colegios públicos de primaria? Para ello necesitamos definir el marco muestral
de la subpoblación que buscamos estudiar: 29 434 colegios públicos de primaria2 (suponiendo que
todos son elegibles). Una vez definido el marco muestral, nuestra labor será elegir una muestra de
colegios sobre la cual el puntaje promedio muestral de la ECE de matemática sea representativo
del puntaje promedio ECE poblacional.
Por otro lado, los modelos analíticos, a diferencia de los modelos descriptivos, buscan establecer
inferencia acerca del proceso generador de datos en una población, es decir, a partir de una prueba
de hipótesis estimar la relación entre una variable dependiente y una variable independiente.
Por ejemplo, en este caso estamos interesados en responder la pregunta: ¿Cuál es la diferencia
en el puntaje de la ECE de matemáticas en los colegios públicos de primaria que reciben y
no reciben el programa de acompañamiento pedagógico? Note que la pregunta puede ser
formulada de la siguiente manera, ¿Cuál es el impacto del programa de acompañamiento
pedagógico sobre los resultados de la ECE de matemática en los colegios públicos de
2 Fuente: Estadística de la Calidad Educativa (ESCALE) del Ministerio de Educación.
Las pruebas de hipótesis tienen dos hipótesis, una hipótesis nula y una alternativa. En las técnicas
de evaluación de impacto, la hipótesis nula está definida como la no existencia de diferencias entre
las medias de las poblaciones de los grupos tratados y controles, mientras que la alternativa está
definida como la existencia de estas diferencias.
El poder (denotado por k) es la probabilidad de rechazar la hipótesis nula cuando esta es falsa. La
inversa del poder es conocida como error tipo II y se da cuando no se encuentran diferencias entre
los dos grupos, cuando en realidad sí existen.
El valor comúnmente utilizado para α es 0,05, por lo que la probabilidad de no rechazar (aceptar)
la hipótesis nula cuando es verdadera es 0,95, mientras que el valor comúnmente utilizado para el
poder está entre los valores de 0,8 y 0,9.
Para el caso
Paradel estimador
el caso de una
del estimador variable
de una variablebinaria (Ttoma
binaria (T toma
solosolo
dos dos valores),
valores), la varianza
la varianza del del
estimador queda definida
estimador queda definida como: como:
1 𝜎𝜎 2 (1)
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) =
𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁 (1)
2
Donde 𝑃𝑃 es la proporción de la muestra que recibe el tratamiento y 𝜎𝜎 es la varianza del
Donde P es la proporción de la muestra que recibe el tratamiento y σ2 es la varianza del error εi.
error 𝜀𝜀𝑖𝑖 .
La figura 01 muestra las distribuciones normales para las hipótesis nula (curva de la izquierda)
La figuray la01hipótesis
muestra las (curva
alternativa distribuciones
de la derecha)normales para delas
para el estimador unahipótesis nula
evaluación de (curva de la
impacto.
izquierda) y la hipótesis alternativa (curva de la derecha) para el estimador de una
evaluación de impacto. Figura 01: Distribuciones de hipótesis nula y alternativa
HO HA 12
Es decir, con 524 personas (314 tratados y 210 controles), tengo la certeza (con un poder de 80%)
que puedo detectar un impacto del programa de capacitación laboral de al menos 100 soles.
Supongamos ahora que contamos con un presupuesto reducido y no podemos levantar información
para este número de individuos. Es decir, ahora nos enfrentamos a la siguiente pregunta ¿Qué nos
reduce el tamaño de muestra necesario?
El Efecto Mínimo Detectable: La primera expresión del lado derecho depende del EMD de
forma inversa. Para nuestro ejemplo, con los parámetros originales, notamos que aumentando
una unidad, el EMD se reduce el tamaño de muestra en 11 unidades, si reducimos 2 unidades
el EMD se reduce en 22 unidades y así sucesivamente. Sin embargo, como se observa en
la fórmula anterior, esta relación inversa es decreciente. La intuición detrás de esta relación
es que si queremos capturar efectos más pequeños (dado los demás parámetros) vamos a
El error estándar: En la expresión del lado derecho observamos que el error estándar (σ)
tiene una relación directa con el tamaño de la muestra. La intuición detrás de esta relación es
que a medida que la varianza es más pequeña (dado los demás parámetros) va a ser más
fácil distinguir las diferencias entre las distribuciones de las hipótesis nula y alternativa. Los
paneles A y B de la figura 04 nos muestran el poder para un error estándar alto (σ =2) y
bajo (σ=0,7) respectivamente. En el panel B, el área sombreada es una proporción mayor
en la distribución de la hipótesis alternativa lo que denota un mayor poder.
El poder: Se observa una relación directa con respecto al tamaño de la muestra. Esto quiere
decir que si deseamos ser más exigentes con la probabilidad de no cometer error tipo II,
entonces (dado los demás parámetros) necesitaremos mayor tamaño de muestra para hacer
esto posible.
La probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0,05 (prueba de 2 colas) y poder de 0,8.
scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/
scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta
En las ciencias sociales, médicas y educativas las estructuras multiniveles y diseños jerárquicos
son comunes. Las poblaciones están agrupadas en comunidades, centros poblados y distritos; los
alumnos en secciones, y estas a su vez en colegios; los trabajadores en empresas; entre otros.
La presente sección aborda los ajustes al cálculo del tamaño de muestra al diseño de la
intervención y brinda algunas consideraciones prácticas de algunos parámetros asociados a
estas. Los parámetros varían dependiendo la unidad de asignación: individual, conglomerados o
bloques (estratos).
Cabe resaltar que aunque la sección sintetiza los modelos básicos de los diseños estudiados
(bloques y conglomerados), la gama de niveles y combinaciones posibles es grande y compleja
por lo que superan el alcance de este trabajo. Afortunadamente, el software “Optimal Design”, nos
permite calcular estos modelos y el manual nos brinda un acercamiento amigable a estos modelos
(Spybrook, et al 2011).
En este diseño todos los individuos que están agrupados dentro de un conglomerado (p.ej. centro
poblado, colegio, hospitales) reciben la misma intervención (tratados o controles); es decir, el nivel
de asignación del tratamiento es el conglomerado.
Por ejemplo, Kremer y Miguel (2004) evaluaron el impacto de una intervención que consistía en
entregar medicinas de desparasitación a niños y niñas en colegios de Kenia. Siendo los parásitos
intestinales una enfermedad que se transmite vía contacto humano ¿Es posible que existan
efectos indirectos en el grupo control si se asigna a nivel individual? ¿Es ético brindar medicinas
a un grupo de niños y a otros dentro de una misma aula? Por tanto, ¿Cuál sería el nivel de
asignación de la intervención?
Existen algunas razones para utilizar un diseño de conglomerado como evitar que los beneficios
En este diseño, se estratifica grupos de individuos dentro de los cuales la variable resultado es similar
entre los individuos. Si la variación entre e intra estratos es grande y pequeña respectivamente, el
diseño por bloques incrementará la precisión y por tanto, el poder estadístico. En este diseño, se
deben seguir dos pasos: Primero, se debe definir los bloques (estratos) y luego, dentro de cada
estrato se asignan los individuos a los grupos de tratamiento o control.
La definición de los bloques también servirá para incrementar la validez de la evaluación (Spybrook
et al. 2011). Supongamos que deseamos implementar una intervención que busca evaluar el
impacto de entregar libros sobre el rendimiento escolar (medido por una prueba estandarizada).
En algunos casos podemos estar interesados en definir estratos sobre la en base de la evidencia
empírica, la cual nos sugiere estratificar los colegios según nivel de rendimiento (bajo, mediano
y alto rendimiento). En otros casos, podemos estar interesados en alguna definición establecida
como impactos diferenciados según área (urbana, rural), región natural (Costa, Sierra y Selva) o
modalidad (unidocentes y polidocente).
yij=β0j+β1j Xij+eij
Para n ∈ {1,2,…,n} individuos por bloque y j ∈ {1,2,…,J} bloques. Donde yij es el resultado para
el individuo i en el bloque j, β0j es la media del bloque j, β1j es el efecto tratamiento del bloque
j, X1j es el indicador de tratamiento del bloque j, eij~(0,σ2) es el error asociado a cada persona y
σ2 es la varianza dentro del bloque.
β0j=γ00+u0j
β1j=γ10+u1j
Donde es la media total, γ10 es el efecto total del tratamiento, u0j~(0,τ00) es el efecto aleatorio
asociado con la media, u0j~(0,τ10) es el error aleatorio asociado al efecto del tratamiento y
finalmente, τ00 es la variabilidad de la media entre bloques y τ10 es la variabilidad del efecto de
tratamiento entre bloques. Tanto u0j y u1j son independientes de eij y se asume que tienen una
distribución normal bivariada sobre los bloques
Ahora, reemplazando
Ahora, reemplazando la la ecuación
ecuación dede lala varianza
varianzade ajustada
̂ ajustada
de 𝛽𝛽 porpor
el el
diseño
diseñode de
bloques en en
bloques la
laecuación del EMD
ecuación y reordenando
del EMD los términos,
y reordenando los tenemos
términos,quetenemos
la fórmulaque
de laladeterminación
fórmula de della
tamaño de bloques
determinación se expresa
del tamaño de la siguiente
de bloques forma:
se expresa de la siguiente forma:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
𝐽𝐽𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = [ ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛
4.4 Implementación del cálculo del tamaño de muestra en Stata
4.4 Implementación del cálculo del tamaño de muestra en Stata
En el ejemplo práctico que utiliza este trabajo acerca del programa Trabaja Joven, se evalúa
elEn efecto de práctico
el ejemplo la intervención
que utiliza sobre los ingresos
este trabajo acerca delde los hogares.
programa Tal como
Trabaja Joven, vimos
se evalúa el
anteriormente,
efecto de la intervención sobre los ingresos de los hogares. Tal como vimos anteriormente,que
se desea diseñar un piloto para evaluar esta intervención. Supongamos se
para
deseaevitar spillovers
diseñar un pilotoypara
efectos de equilibrio
evaluar generalSupongamos
esta intervención. se decide asignar aleatoriamente
que para la
evitar spillovers
intervención a nivel centro poblado (conglomerado).
y efectos de equilibrio general se decide asignar aleatoriamente la intervención a nivel centro
poblado (conglomerado).
a. Especificar las siguiente variables:
Como se puede observar en la ecuación del número de conglomerados (J), los parámetros
adicionales al cálculo del tamaño de muestra para un diseño a nivel individuos son el
número de individuos por conglomerado (𝑛𝑛) y la correlación intra cluster (𝜌𝜌). Supongamos
Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 25
que cada centro poblado (conglomerado) tiene aproximadamente 20 individuos (𝑛𝑛 = 20)
que cumplen los requisitos del programa.
a. Especificar las siguiente variables:
Como se puede observar en la ecuación del número de conglomerados (J), los parámetros
adicionales al cálculo del tamaño de muestra para un diseño a nivel individuos son el número
de individuos por conglomerado (n) y la correlación intracluster (ρ). Supongamos que cada
centro poblado (conglomerado) tiene aproximadamente 20 individuos (n=20 ) que cumplen los
requisitos del programa.
En cuento a la correlación intracluster (ICC), en el Perú no se cuenta con un censo que tenga
información de ingresos de los individuos (variable resultado a estudiar) con inferencia a nivel
centro poblado. Por ello, se tomará en cuenta una encuesta de un piloto desarrollado por el
Programa JUNTOS para cinco regiones del Perú (Arequipa, Lambayeque, Lima, Ica y Ucayali).
Cabe resaltar que los ICC calculados tienen poca validez externa por lo que deben ser tomados
de forma referencial.
A partir de la base del eat se calcula la correlación intracluster utilizando los dos comandos
mencionados anteriormente.
Las probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0.05 (prueba de 2 colas) y poder de 0.8.
El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación.
II Experimental
5. Diseño
5. Diseño Experimental
Experimental
5.1.5.1.
Definición
Definición
Como se mencionó en la sección 3.1, el reto de la evaluación de impacto radica en
Como se mencionó en la sección 3.1, el reto de la evaluación de impacto radica en determinar las
determinar las condiciones bajo las cuales un grupo control j que no haya recibido el
condiciones bajo las cuales un grupo control j que no haya recibido el tratamiento E[Yj│D=0],
tratamiento 𝐸𝐸[𝑌𝑌𝑗𝑗 |𝐷𝐷como
puede utilizarse = 0], puede utilizarse
aproximación válida delcomo aproximación
contrafactual válida
E[Y │D=1] . Si del
esto contrafactual
fuera cierto,
j
𝐸𝐸[𝑌𝑌𝑗𝑗ahora
|𝐷𝐷 =estaríamos interesados
1]. Si esto en estimar
fuera cierto, la siguiente
ahora ecuación:
estaríamos interesados en estimar la siguiente
ecuación:
=E[Yi│D=1]-E[Yj│D=0]
= 𝐸𝐸[𝑌𝑌 |𝐷𝐷 = 1] − 𝐸𝐸[𝑌𝑌 |𝐷𝐷 = 0]
𝑖𝑖 𝑗𝑗
Ahora,
Ahora,si siaa la ecuaciónanterior
la ecuación anterior le restamos
le restamos y sumamos
y sumamos 𝐸𝐸[𝑌𝑌𝑗𝑗, |𝐷𝐷
E[Yj│D=1] = 1], obtenemos
obtenemos los siguienteslos
resultados:
siguientes resultados:
Cuando
Cuandoel eldiseño experimentales escorrectamente
diseño experimental correctamente diseñado
diseñado e implementado,
e implementado, permite
permite remover
enteramente
remover el sesgoel de
enteramente selección,
sesgo proporcionando
de selección, un estimadoruninsesgado
proporcionando estimadordelinsesgado
impacto del del
programa en la muestra bajo estudio, es decir, un estimador que tenga validez
impacto del programa en la muestra bajo estudio, es decir, un estimador que tenga validez interna (Duflo
et al.(Duflo
interna 2008). etLaal.importancia
2008). Lade esta técnicaderadica
importancia en que radica
esta técnica es entendida
en quecomo la forma como
es entendida más
efectiva de garantizar la eliminación del sesgo de selección en comparación a
la forma más efectiva de garantizar la eliminación del sesgo de selección en comparación otras técnicas no a
experimentales (Glazerman et al., 2003; Lalonde, 1986).
otras técnicas no experimentales (Glazerman et al., 2003; Lalonde, 1986).
Las fórmulas que estudiadas anteriormente en las secciones 3 y 4 representan los cálculos
del tamaño de muestra para diseños aleatorios. Por un lado, para un diseño aleatorio con
asignación individual, la sección 3.3 nos permite determinar el tamaño de la muestra necesario
para un EMD dado:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1
𝑁𝑁 = [ ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃)
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 22 1
Como mencionó anteriormente, 𝑁𝑁 = [𝜎𝜎 ∗ (𝑡𝑡 + 𝑡𝑡 ) ] 1
𝑁𝑁 = [una de
𝛼𝛼 las1−𝑘𝑘 mejores
𝐸𝐸𝐸𝐸𝐸𝐸 ] 𝑃𝑃(1 formas − 𝑃𝑃) de evitar problemas de
contaminación o desbordes (spillovers) 𝐸𝐸𝐸𝐸𝐸𝐸
en el diseño 𝑃𝑃(1una
de − 𝑃𝑃)evaluación de impacto consiste
ComoComomencionó
se mencionó anteriormente,unaunadedelaslasmejores
anteriormente, mejores formas formas de
de evitar
evitar problemas
problemas de de
en contaminación
Como asignar el tratamiento
mencionó anteriormente,
o desbordes a (spillovers)
nivel una de conglomerado
endeel las
diseño mejores
de una(e.g.evaluación
colegios,
formas dedecentros
evitar poblados).
consiste enLa
impactoproblemas de
contaminación
sección 4.3 o desbordes
nos permite (spillovers)
determinar enel eltamaño
diseño de de una evaluación
muestra de impacto
necesario consiste
(número de
asignar el tratamiento
contaminación o desbordes a nivel de conglomerado
(spillovers) en el diseño (p.ej. colegios, centros poblados).
de una evaluación de impacto La sección
consiste
en asignar
4.3 el
nos permite tratamiento
determinar a nivel de conglomerado (e.g. colegios, centros poblados). La
conglomerados)
en asignar para
el tratamiento un diseño a elniveltamaño
porde de muestra necesario
conglomerado
conglomerado de dos (número
(e.g.niveles:
colegios, de centros
conglomerados)
poblados). paraLa
sección
un diseño 4.3 nos permite determinar el tamaño de muestra necesario (número de
sección 4.3pornos conglomerado
permite determinar de dos niveles: el2 tamaño de muestra necesario (número de
conglomerados) para un diseño 𝜎𝜎 ∗ (𝑡𝑡por conglomerado
𝛼𝛼 +conglomerado
𝑡𝑡1−𝑘𝑘 ) 1 de dos 1 niveles:
conglomerados) para𝐽𝐽2un=diseño [ por ] de dos[1niveles:
+ (𝑛𝑛 − 1)𝜌𝜌]
𝐸𝐸𝐸𝐸𝐸𝐸 2 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
La principal desventaja 𝐽𝐽2 = [𝜎𝜎del 𝛼𝛼 + 𝑡𝑡1−𝑘𝑘por
∗ (𝑡𝑡diseño ) ] conglomerados
1 1 [1 + (𝑛𝑛 −la1)𝜌𝜌]
es − pérdida de precisión
𝐽𝐽2 = [ 𝐸𝐸𝐸𝐸𝐸𝐸 ] 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛 [1 + (𝑛𝑛 1)𝜌𝜌]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1
(incremento del error estándar) en comparación al diseño de asignación individual (Bloom,− 𝑃𝑃) 𝑛𝑛
Laal,principal
et desventaja del diseñoEnpor
2007, Konstantopoulos, conglomerados esestándar
la pérdida de precisión
La principal desventaja del 2008). diseño poresteconglomerados diseño, el errores la pérdida depende de de mayor
precisión
(incremento
La principal
forma del número del error
desventaja estándar)
del
de estándar)
conglomeradosdiseño en comparación
por conglomerados al
(𝐽𝐽) que delal número diseño
es la de asignación
pérdida de
de asignación individual
precisión
individuos individual (Bloom,
(incremento
por conglomerado
(incremento del error en comparación diseño de (Bloom,
et del
al,En2007,
error Konstantopoulos,
estándar) en un
comparación 2008).del alEndiseñoeste de diseño,
asignación el error estándar
individual depende
(Bloom, et al,de2007,
mayor
et al, 2007, Konstantopoulos, 2008). En este diseño, el error estándar depende de mayora
(𝑛𝑛). este contexto, aumento poder estadístico está asociado necesariamente
Konstantopoulos,
forma del número 2008).
de En este diseño,
conglomerados (𝐽𝐽) el error
que del estándardedepende
número individuos de mayor
por forma del
conglomerado
incrementos
forma del de en el número
número de conglomerados de conglomerados (𝐽𝐽) que del y por tanto en el
número costo de por la evaluación. Por
número
(𝑛𝑛). En este conglomerados
contexto, un aumento (J ) que del delnúmero
poder de individuosde
estadístico por
está
individuos
conglomerado
asociado
conglomerado
(n). En este a
necesariamente
ejemplo,
(𝑛𝑛). En en
este una evaluación
contexto,
contexto, unenaumento un
del de con
aumento
poder asignación
del poder
estadístico está a nivel colegio,
estadístico
asociado estáun incremento
asociado
necesariamente en una
necesariamente unidad a
incrementos
del tamaño de el número
muestra representa conglomerados
un incremento y pordel tanto
costo en
de el costo de
levantar la aevaluación.
incrementosPor
información de todos
incrementos
en el número en deel número
conglomerados de conglomerados
y por tanto, en y por tantodeenlaelevaluación.
el costo costo de laPor evaluación.
ejemplo, enPor
ejemplo,
los alumnos en una evaluación con asignación a nivel colegio, un incremento en una unidad
una
ejemplo, en dentro
evaluación con deasignación
una evaluación este colegio. conaasignación
nivel colegio, un incremento
a nivel colegio, en un una unidad del
incremento entamaño de
una unidad
delmuestra
tamañorepresenta
de muestraunrepresenta
incremento undel incremento
costo de del costo
levantar de levantar
información de información
todos los de todos
alumnos
del tamaño de muestra representa un incremento del costo de levantar información de todos
5.3. Ajustes
los alumnos por colegio.
dentro covariados
de este colegio.
losdentro
alumnos de este
dentro de este colegio.
Una
5.3. de las formas
Ajustes de mejorar la precisión de los diseños por conglomerados consiste en
por covariados
5.3.5.3. Ajustes
Ajustes
utilizar porpor
un análisis covariados
covariados
de regresión múltiple (también conocido como Análisis de Covarianza o
Una
ANCOVA) de las formas
para de de mejorar la precisión
controlar de los diseños por conglomerados consiste en
Una Una dedelaslasformas
formas mejorarlapor
de regresión
mejorar características
laprecisión
precisión de de diseños
los en porunconglomerados
los diseños periodo
por base
conglomerados anterior
consiste consiste a en
en utilizar la
utilizar un
aleatorización. análisis de múltiple (también conocido como Análisis de Covarianza o
utilizar
un análisis de regresión múltiple (también conocido como Análisis de Covarianza o ANCOVA) para o
un análisis de regresión múltiple (también conocido como Análisis de Covarianza
ANCOVA) para controlar por características en un periodo base anterior a la
controlar
ANCOVA)
Estos porpara
covariados características
controlar
pueden en por
controlar un periodo base anterior
características
características aenanivel
la un
aleatorización.
periodo base(e.g.
conglomerado anterior
colegio)a o laa
aleatorización.
aleatorización.
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, la
Estoscovariados
Estos covariados puedenpueden controlar
controlarcaracterísticas
características a nivel
a nivel conglomerado
conglomerado (p.ej. colegio) o a nivelo a
(e.g. colegio)
regresión
Estos a estimarpueden
covariados debe incluirlos
controlar de la siguiente forma:
características a nivel en conglomerado (e.g. colegio) ao a
individual (p.ej. estudiantes). Para considerar los
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, lacovariados ambos niveles, la regresión
nivel individual
estimar (e.g. estudiantes).
debe incluirlos de la𝑖𝑖𝑖𝑖 siguiente Para
𝛽𝛽forma: +considerar 𝛽𝛽2los
𝑋𝑋𝑗𝑗 +covariados
𝑒𝑒𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖 en ambos niveles, la
regresión a estimar debe 𝑦𝑦 incluirlos= 𝛼𝛼 +de 𝑇𝑇𝑗𝑗 siguiente
0la 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖𝑖 +forma:
regresión a estimar debe incluirlos de la siguiente forma:
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado 𝑦𝑦 = 𝛼𝛼 +a𝛽𝛽nivel 𝑇𝑇 +individual
𝛽𝛽 𝑥𝑥 + 𝛽𝛽para 𝑋𝑋 +el𝑒𝑒individuo
+ 𝜀𝜀 i en el conglomerado
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽00𝑇𝑇𝑗𝑗𝑗𝑗 + 𝛽𝛽11𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 + 𝛽𝛽22𝑋𝑋𝑗𝑗𝑗𝑗 + 𝑒𝑒𝑗𝑗𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
j, mientras que 𝑋𝑋𝑗𝑗 representa el covariado a nivel conglomerado en el conglomerado j.
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado a nivel individual para el individuo i en el conglomerado
Donde
Bloom 𝑥𝑥et𝑖𝑖𝑖𝑖alrepresenta
(2007) muestra el covariado una fórmulaa nivelsimplificada
individual para de laelvarianza
individuoque i ennoelasume
conglomerado
mayores
j, mientras que 𝑋𝑋𝑗𝑗 representa el covariado a nivel conglomerado en el conglomerado 3 j.
j,pérdidas
mientras de que
precisión para muestras
𝑋𝑋𝑗𝑗 representa de conglomerados
el covariado mayores a 20 en
a nivel conglomerado unidades .
el conglomerado j.
Bloom et al (2007) muestra una fórmula simplificada de la varianza que no asume mayores
Bloom et al (2007) muestra una fórmula simplificada de la varianza que no asume 3 mayores
pérdidas de precisión para muestras de conglomerados mayores a 20 unidades 3.
pérdidas de precisión para muestras de conglomerados 2 mayores
𝜌𝜌(1 − 𝑅𝑅𝐶𝐶 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼 ) a 20 unidades
2 .
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) =
28 • Instituto Nacional de Estadística e Informática +
𝑃𝑃(1 − 𝑃𝑃)𝐽𝐽 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛𝑛𝑛
𝜌𝜌(1 − 𝑅𝑅2𝐶𝐶2 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅2𝐼𝐼2 )
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂̂ ) = 𝜌𝜌(1 − 𝑅𝑅𝐶𝐶 ) + (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼 )
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, la
regresión a estimar debe incluirlos de la siguiente forma:
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽0 𝑇𝑇𝑗𝑗 + 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝛽𝛽2 𝑋𝑋𝑗𝑗 + 𝑒𝑒𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado a nivel individual para el individuo i en el conglomerado
Donde xij representa el covariado a nivel individual para el individuo i en el conglomerado j,
j, mientras que que
mientras 𝑋𝑋𝑗𝑗 representa
Xj representael elcovariado
covariado aa nivel
nivelconglomerado
conglomerado enconglomerado
en el el conglomerado j. et
j. Bloom
Bloom etal al (2007)
(2007) muestra
muestra una una fórmula
fórmula simplificada
simplificada de la varianza
de la varianza que nomayores
que no asume asume mayores
pérdidas de
pérdidasprecisión 3 unidades3.
para muestras de conglomerados mayores a 20 unidades .
de precisión para muestras de conglomerados mayores a 20
𝜌𝜌(1 − 𝑅𝑅𝐶𝐶2 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼2 )
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) = +
𝑃𝑃(1 − 𝑃𝑃)𝐽𝐽 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛𝑛𝑛
Primero, el uso del estimador ANCOVA genera pérdidas de grados de libertad por el uso de
covariados. Entonces, si asociación lineal entre los covariados (x ) y la variable resultado (y)
es débil, el uso del estimador ANCOVA puede resultar ser incluso perjudicial para el poder de la
evaluación.
Segundo, las características pretratamiento a nivel agregado (Xj), son más accesibles y menos
costosas de conseguir.
Tercero, en las ciencias sociales las características a nivel conglomerado (Xj) están más asociadas
con la variable resultado que las características a nivel individual (xij ). Por tanto, las primeras
incrementan el poder de la evaluación más que las segundas (Bloom 2005, Bloom et al 2007).
En el ejemplo práctico que utiliza este trabajo acerca del programa Trabaja Joven, se evalúa el
efecto de la intervención sobre los ingresos de los hogares. Tal como vimos anteriormente, se
desea diseñar un piloto para evaluar esta intervención
Como se puede observar en la ecuación del número de conglomerados con covariados, los
parámetros del número de individuos por conglomerado (n), la proporción de tratados (P) y
el EMD conservador son los mismos a los parámetros utilizados en el cálculo del tamaño de
conglomerados (J).
Como hicimos en la sección 3.4, a partir de la base del ATE se calcula la correlación intracluster
condicional (con covariados) y no condicional (sin covariados). En este caso, solo utilizaremos
el comando “xtmixed”. En este caso, los covariados incluyen características de la vivienda (tipo
de pared y piso, acceso a agua potable, alumbrado, cocina y teléfono) y de los individuos (sexo,
edad, analfabetismo e indicador de empleo), así como características a nivel distrital (pobreza).
Tal como hicimos anteriormente, las probabilidad de errores tipo I y II son definidas para los valores
típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.
El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación.
SinSin embargo,loslosdiseños
embargo, diseñospor
por conglomerados
conglomerados sonson costosos
costosos yynonosiempre
siemprerepresentan
representanla la
mejor elección en el diseño de la evaluación. Rhoads (2011) compara el diseñopor
mejor elección en el diseño de la evaluación. Rhoads (2011) compara el diseño bloques
por bloques
y el diseño por conglomerados utilizando el poder estadístico como criterio
y el diseño por conglomerados utilizando el poder estadístico como criterio de elección de elección
entre
entre loslos diseños.
diseños. El El autor,
autor, calcula
calcula el el máximomonto
máximo montodedecontaminación
contaminaciónpermisible
permisible bajo
bajo el
el cual el diseño por bloques puede ser preferible al diseño por conglomerados, de la
cual el diseño por bloques puede ser preferible al diseño por conglomerados, de la siguiente
siguiente forma:
forma:
1 − 𝜌𝜌
𝑀𝑀𝑀𝑀𝑀𝑀 = 1 − √
1 + (𝑛𝑛 − 1)𝜌𝜌
Donde 𝑀𝑀𝑀𝑀𝑀𝑀 representa el Monto Máximo de Contaminación que puede ser tolerado antes
queDonde MACpor
el diseño representa el Monto Máximo
conglomerados de Contaminación
sea preferible al diseño que
por puede ser tolerado antes que el
bloques.
diseño por conglomerados sea preferible al diseño por bloques.
III
7. Diferencias en Diferencias
PARTE III: Diseños no Experimentales
Experimentales
7.1. Definición
PARTE III: Diseños no Experimentales
La técnica de Diferencias en Diferencias (desde ahora DD) consiste en aplicar una doble
7. Diferencias
diferencia. La primera en diferencia
Diferencias compara, dentro de cada grupo, los cambios a lo largo del
7. Diferencias
tiempo en la variable
7.1. Definición en Diferencias
de interés (línea de base y seguimiento), mientras que la segunda
diferencia compara los cambios entre grupos (tratados y controles). Entonces, el estimador
Lapuede
técnica 7.1.deDefinición
Diferencias en Diferencias
de DD expresarse de la siguiente manera:(desde ahora DD) consiste en aplicar una doble
diferencia. La La primera
técnica diferencia
de Diferencias compara,
en Diferencias (desdedentro
ahora DD de) consiste
cada grupo,
en aplicarlosunacambios a lo largo del
doble diferencia.
𝜏𝜏𝐷𝐷𝐷𝐷enLa
tiempo = la[𝐸𝐸(𝑌𝑌 |𝐷𝐷 = de
variable
primera1diferencia 1)compara,
−
interés 0 |𝐷𝐷
𝐸𝐸(𝑌𝑌dentro=de 1)]
(línea de −
cada [𝐸𝐸(𝑌𝑌
base
grupo, |𝐷𝐷 = 0)
y1cambios
los a lo−
seguimiento), 𝐸𝐸(𝑌𝑌
largo |𝐷𝐷 = en
del0mientras
tiempo 0)]laque la segunda
variable
de interés (línea de base y seguimiento), mientras que la segunda diferencia
diferencia compara los cambios entre grupos (tratados y controles). Entonces, el estimador compara los cambios
El estimador de DD
entre permite
grupos mejorar
(tratados las estimaciones
y controles). en dos
Entonces, el estimador aspectos:
de DD puede expresarse de la siguiente
de DD puede manera:expresarse de la siguiente manera:
a. Eficiencia: La doble diferenciación elimina algunos determinantes de 𝑌𝑌 constantes
𝜏𝜏𝐷𝐷𝐷𝐷 = [𝐸𝐸(𝑌𝑌1 |𝐷𝐷 = 1) − 𝐸𝐸(𝑌𝑌0 |𝐷𝐷 = 1)] − [𝐸𝐸(𝑌𝑌1 |𝐷𝐷 = 0) − 𝐸𝐸(𝑌𝑌0 |𝐷𝐷 = 0)]
en el tiempo no incluidos en la regresión, y que de otro modo serían cargados al
Eltérmino Elde
estimador error
de
estimadorDDde (ypermite
porpermite
DD tanto, a la varianza
mejorar
mejorar de este).
lasestimaciones
las estimaciones en dosenaspectos:
dos aspectos:
b. Sesgo de selección: Elimina los determinantes de 𝑌𝑌 constantes en el tiempo y
a. Eficiencia:La
a. Eficiencia: La doble diferenciación elimina algunos determinantes de Y constantes en de el tiempo
correlacionados con doble diferenciación
el tratamiento elimina
no incluidos enalgunos determinantes
la regresión. Es decir, elimina
no incluidos en la regresión, y que de otro modo serían cargados al término de error (y por
𝑌𝑌 constantes
las
en el tiempo
diferenciastanto, no
preexistentes incluidos
a la varianza deconstantes
este).
en la en el tiempo que hace que los individuos se al
regresión, y que de otro modo serían cargados
término de al
autoseleccionen error
grupo(y por tanto, a la varianza
de tratamiento o control. de este).
b. Sesgo de selección: Elimina los determinantes en
b. Sesgo de selección: Elimina los determinantes de Y constantes deel 𝑌𝑌
tiempo y correlacionados
constantes en elcontiempo y
La técnica de el tratamiento
DD nos permite no incluidos en la regresión.
controlar por no Es decir,
factoreselimina las
no en diferencias
observables preexistentes constantes
constantes en el las
correlacionados
en el tiempo quecon hace el
quetratamiento incluidos
los individuos se autoseleccionen la regresión.
al grupo de tratamientoEs decir, elimina
o control.
tiempo, mas diferencias
no por las preexistentes
característicasconstantes no observables que varían
en el tiempo que ahace lo largo
que los del individuos
tiempo. se
Debido a esto, La técnica de DD al
el estimador
autoseleccionen nosgrupo
permiteasume
DD decontrolar por factores
que
tratamiento no observables
el otérmino
control. de errorconstantes
(𝑢𝑢) ensolo
el tiempo,
incluye
mas no por las características no observables que varían a lo largo del tiempo. Debido a esto,
características no observables constantes en el tiempo, lo que se conoce como el supuesto
el estimador DD asume que el término de error (u) solo incluye características no observables
La técnica
de “tendencias de DD nos
paralelas” lospermite controlar por factores no observables constantes en el
constantes en de
el tiempo,grupos.
lo que se conoce como el supuesto de “tendencias paralelas” de los
tiempo, masgrupos. no por las características no observables que varían a lo largo del tiempo.
7.2. Cálculo
Debido de a la varianza
esto, en DD DD asume que el término de error (𝑢𝑢) solo incluye
el estimador
7.2. Cálculo de la varianza en DD
características
El cálculo de la potenciano observables
de la evaluaciónconstantes en el en
consiste tiempo,
ajustarlolaque se conoce
fórmula como básico
del diseño el supuesto
de “tendencias
experimental El cálculo
por paralelas”
el coeficiente de
de la potenciade losde grupos.
la evaluación consiste
autocorrelación de lasenvariables
ajustar la defórmula
interésdel y
diseño básico de
el número
experimental por el coeficiente de autocorrelación de las variables de interés y el número de
periodos de línea de base y de seguimiento (Frison et al 1992, McKenzie 2012)).
7.2. Cálculo de de
periodos la línea
varianza
de baseen
y deDD
seguimiento (Frison et al 1992, McKenzie 2012)).
𝜎𝜎La∗representa
parte
(𝑡𝑡 A de la varianza
) 2total ̂ es
de+𝛽𝛽𝑟𝑟(𝑟𝑟 la elvarianza
(𝑚𝑚 + 1)𝜃𝜃 del −diseño básico exper
a. Dato un T (que 𝛼𝛼 + 𝑡𝑡1−𝑘𝑘el 1 periodos,
de 1 1 +−𝑚𝑚),1)𝜃𝜃 número óptimo 1 de periodos
𝑁𝑁 = [ estudiamos en ]la sección 3. La [ parte B de la − varianza introduce ]
de seguimiento es 𝐸𝐸𝐸𝐸𝐸𝐸 igual a 𝑟𝑟 = 𝑇𝑇/2 𝑃𝑃(1 para − 𝑃𝑃)T2 pares. Para 𝑟𝑟 T impares, el 𝑚𝑚poder es eltres nuevos c
mismo
cuando elegimos coeficiente
𝑚𝑚 − 𝑟𝑟a =tomarde1 oautocorrelación
𝑟𝑟 − = 1 . en
𝑚𝑚cuenta de la variable resultado (denotado por 𝑟𝑟), el
Algunas consideraciones
Algunas consideraciones
periodos(𝑟𝑟de a tomar
línea ende en
cuenta en
seguimientoel trabajo el trabajo
aplicado
(denotado poraplicado
se describen
𝑟𝑟) se describen
ya continuación:
elbaja
número deextremo
periodosa de l
b. Con solo
continuación: 2 periodos = 𝑚𝑚 = 1), si la autocorrelación fuese muy (en el
cero),a. elDato un(denotado
ajuste Tpor por 𝑚𝑚).
(quediferencias
representa elen diferencias
total de periodos,(término B) tiende
r+m), el número óptimoa 1.de periodos de
a. Dada
c. Dato un seguimiento
unaTcantidad es
(que representa igual a
de periodo r=T/2 para
el total
de líneaT pares.
de periodos,Para
de base (e.g,T impares, el poder
el número
es común
𝑟𝑟 + 𝑚𝑚), es el
tener mismo
𝑚𝑚 =cuando
óptimo de aumentar
1), periodos
elegimos m-r=1 o r-m=1.
de número
el seguimiento es igual de
de periodos a 𝑟𝑟seguimiento
= 𝑇𝑇/2 para reducirá T pares. Para T impares,
la varianza (y por el poder
tanto, es el mismo
mejorará el
cuando
poder). elegimos
Aumentar
b. Con 𝑚𝑚el−𝑟𝑟 𝑟𝑟será
solo 2 periodos = 1más
(r=m=1), o 𝑟𝑟si relevante
− 𝑚𝑚 = 1 a. medida
la autocorrelación fuese muyquebajala autocorrelación
(en el extremo cero),(𝜃𝜃) el sea más
b. baja. ajuste por diferencias en diferencias (término B) tiende
Con solo 2 periodos (𝑟𝑟 = 𝑚𝑚 = 1), si la autocorrelación fuese muy baja (en el extremoa 1.
cero),c. elDada
ajusteunapor diferencias
cantidad de periodoendediferencias
línea de base(término B) tiende
(p.ej. es común tener m a=1),
1. aumentar el
7.3. Ajuste
c. Dada una por
número
diseño
cantidad multinivel
de periodo
de periodos de línea
de seguimiento de base
reducirá (e.g, (yespor
la varianza común tener 𝑚𝑚el=poder).
tanto, mejorará 1), aumentar
Por ello número Aumentar
general, de el r
la periodos será
asignación más
de norelevante a medida
es nivel individual
seguimiento que la autocorrelación
reducirá lasino (θ)
a un (y
varianza sea más
nivel baja.
por más
tanto,agregado.
mejorará La el
literatura
poder).para
7.3. diseños
Aumentar
Ajuste multiniveles
el 𝑟𝑟 será
por diseño másenrelevante
multinivel modelosade DD aún
medida quenolahaautocorrelación
sido muy desarrolla (𝜃𝜃) seapor lo
más
que baja.
en la presente sección solo abordaremos el caso del diseño de conglomerados. La
Por lo general, la asignación no es a nivel individual sino a un nivel más agregado. La literatura
varianza (y por tanto también la determinación del tamaño de muestra) debe ajustarse a este
7.3. Ajusteparapordiseños
diseño multiniveles en modelos de DD aún no ha sido muy desarrolla por lo que en la
multinivel
cambio enpresente
el diseño.
sección solo abordaremos el caso del diseño de conglomerados. La varianza (y por tanto
también lala
Por lo general, determinación
asignación del tamaño
no es denivel muestra) debe ajustarse
individual sinoa este
a uncambio en elmás
nivel diseño.agregado. La
Como ya hicimos anteriormente, suponemos que la asignación es a nivel conglomerado
literatura Como
para ya diseños
hicimos
multinivelessuponemos en modeloslade DD aún no haconglomerado
sido muy desarrolla por lo
pero que la unidad deanteriormente,
análisis es a nivelque asignaciónPara
individual. es a nivel
esto Teerenstra peroetque
al. (2012)
que en lala unidad
presente sección
de análisis soloindividual.
es a nivel abordaremos el caso etdel
Para esto Teerenstra diseño
al. (2012) de conglomerados.
consideran la siguiente La
consideran la siguiente
versión generalizada versión
de un generalizada de un conglomerado.
conglomerado.
varianza (y por tanto también la determinación del tamaño de muestra) debe ajustarse a este
cambio en el diseño. 𝑦𝑦 = 𝜇𝜇 + 𝛾𝛾 + 𝜏𝜏 + (𝛾𝛾𝛾𝛾) + 𝑐𝑐 + (𝑐𝑐𝑐𝑐) + 𝑠𝑠 + (𝑠𝑠𝑠𝑠)
𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑔𝑔 𝑡𝑡 𝑔𝑔𝑔𝑔 𝑖𝑖 𝑖𝑖𝑖𝑖 𝑖𝑖𝑖𝑖 𝑖𝑖𝑖𝑖𝑖𝑖
Evaluación
6 ElEl Censal
parámetro
parámetro está
𝛿𝛿 δestá definido
definido Estudiantes
como
como (pruebas estandarizadas lenguaje matemática)
6 𝑐𝑐 𝑠𝑠
+𝜎𝜎 +𝜎𝜎 2 2 2 2
En el ejemplo práctico que utiliza este manual acerca del programa Trabaja Joven, se
evalúa el efecto de la intervención sobre los ingresos de los hogares. Tal como vimos
anteriormente, se desea diseñar un piloto para evaluar esta intervención. Supongamos
que se decide asignar aleatoriamente a los individuos a cada uno de los grupos (tratados
y controles) pero ahora además se cuenta con la posibilidad de tener periodos de línea de
base y seguimiento.
El piloto tiene una duración de dos años (T=2) por lo que óptimamente se asignan un periodo a la
línea de base (m=1) y un periodo a la línea de seguimiento (r=1). Se siguen las fórmulas descritas
en el trabajo de Frison y Pocock (1992).
Dado el número de periodos que durará el piloto (T=2), se define óptimamente el número de
periodos ex post al tratamiento (línea de base), mientras que el número de periodos exante al
tratamiento (follow up) será por el resto (T-r=m). Dado que la variable estudiada es el gasto
de los hogares, se asume una baja correlación entre periodos ex post al tratamiento (θ) igual
a tetha=0,4.
El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación. Para tales fines, hacemos uso de la fórmula descritas en la sección 4.2.
*Sample size in DD
DIF =(((1+(r-1)*rho_l)/r)+((1+(me-1)*rho_l)/me)-2*rho_l)
scalar n_DIF=2*(1/emd)^2*DIF*(t_alphaplusbeta^2)
display round(n_DIF)
Como trabajamos anteriormente, supongamos que se asume que para evitar efectos desborde
(spillovers) y efectos de equilibrio general se decide hacer la asignación a nivel de centro poblado.
En este caso buscaremos determinar el número de centros poblados (conglomerados) de la
muestra dado un número promedio de hogares dentro del conglomerado y los demás parámetros
estuadiados anteriormente. Las fórmulas descritas siguen el trabajo de Teerenstra et al. (2012).
Al igual que los casos anteriores, el primer paso es definir los parámetros con los cuales
trabajaremos. Dado el T=2, el número de periodos ex ante y ex post al tratamiento (línea de base
y follow-up). Se ha decidido que dentro de cada conglomerado se tomará una muestra de 20
hogares y la correlación intra cluster (ρ) es obtenida a partir de la Encuesta Nacional de Hogares.
scalar r=p_c*(n*rho/(1+(n-1)*rho))+p_s*((1-rho)/(1+(n-1)*rho))
disp r
Tal como hicimos anteriormente, la probabilidad de errores tipo I y II son definidas para los valores
típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.
El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar, un
tamaño muestral dentro de cada cluster n=20 y un tamaño de potencia de 80%. Esta vez, en las
fórmulas anteriormente descritas despejamos J:
*DIF
scalar DIF =2*(1-r)*(1+(n-1)*rho)*(1/phiT+1/phiC)
scalar J_DIF= (t_alphaplusbeta^2)*(DIF)*1/emd
display round(J_DIF)
𝜎𝜎 𝛼𝛼∗ +
𝜎𝜎 ∗ (𝑡𝑡 (𝑡𝑡𝛼𝛼𝑡𝑡1−𝑘𝑘 2
+ 𝑡𝑡)1−𝑘𝑘 ) 2 1 1 (1 −(1 2− 𝑅𝑅 2 )
𝑅𝑅𝑅𝑅𝑅𝑅 ) (𝑞𝑞
𝑅𝑅𝑅𝑅𝑇𝑇 − 𝑞𝑞𝐶𝐶 )
=[=[
𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅 ] ] 2
𝐸𝐸𝐸𝐸𝐸𝐸 𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃)
𝑃𝑃(1 − 𝑃𝑃) (1 −(1 2−)𝜌𝜌(𝑝𝑝
𝜌𝜌𝑇𝑇𝑇𝑇 ) − 𝑝𝑝𝐶𝐶 )
𝑇𝑇𝑇𝑇𝑇𝑇
8.3.
8.4. Regresión
ImplementaciónDiscontinua Difusa
del cálculo del tamaño de muestra en Stata
8.4. Implementación del cálculo del tamaño de muestra en Stata
Lo estudiado
8.4.1. Modelohasta el momento
de Regresión se aplica aa nivel
Discontinua un diseño de Regresión Discontinua Nítida
Individual
(RDN);8.4.1.es Modelo
decir, de cuando
Regresión Discontinua a nivel Individual completamente la asignación al
la variable puntaje define
En el ejemplo práctico que utiliza este manual acerca del programa Trabaja Joven, se
tratamiento. Sin embargo, en la práctica el caso más común es el diseño de Regresión
evalúaEnelelefecto
ejemplo de la intervención
que utiliza estesobre los ingresos de los hogares. Joven,Tal comoelvimos
Discontinua Difusapráctico
(RDD), en el cual lamanual acerca
variable del programa
puntaje defineTrabaja
parcialmente se evalúa
la asignación
anteriormente,
efecto de laseintervención
desea diseñar
sobreun lospiloto para
ingresos de evaluar estaTalintervención.
los hogares. Supongamos
como vimos anteriormente, se ahora
al tratamiento;
desea es decir
diseñar un solopara
piloto cambia
evaluar discontinuamente
esta intervención. la probabilidad
Supongamos ahora deelser
que tratado.
programa brinda
que el programa brinda la capacitación a los individuos cuyos hogares sean focalizados
la capacitación a los individuos cuyos hogares sean focalizados como pobres según el Índice de
como
En pobres
el caso de según
RDD, ellaÍndice
variablede Focalización
puntaje funciona de Hogares continuo. de la asignación, por
como instrumento
Focalización de Hogares continuo.
tanto el ajuste RDD al modelo RDN será análogo al ajuste por no cumplimiento (non
Por simplicidad se asume que el diseño es RDN (el caso de RDD puede ser adicionado
Por simplicidad
complience) se asume
utilizando que el
técnicas dediseño es RDN
variables (el caso de RDD(Hahn
instrumentales puede et
seral.
adicionado
2001). utilizando
utilizando los comandos
los comandos). Se tienede la sección
conocimiento 2). Se tiene
conocimientos que conocimiento
la intervención yaconocimientos
está en curso y seque la
intervención ya estáinformación
quiere levantar en curso de
y seunaquiere levantar
muestra información
que permita de una muestra
tener una adecuada precisiónque permita
de los
resultados.
tener una adecuada precisión de los resultados.
a. Especificar
a. Especificar laslas siguientevariables:
siguiente variables: 41
41
Las técnicas de emparejamiento, introducidas por Rubin (1973), buscan calcular los efectos
promedios en tratados asumiendo que el sesgo de selección se debe únicamente a diferencias en
características observables. Es decir, se debe cumplir la condición de Independencia Condicional
(CI):
Y(0),Y(1)⊥D|X
P(X)=Pr(D=1|X)
Este procedimiento permite calcular el puntaje para cada una de las unidades tratadas sobre la
base de estas variables observables, solucionando así la multidimensionalidad. Una vez se calcula
este puntaje se procede a acotar la muestra al área de Soporte Común (SC) de las probabilidades
de tratamiento eliminándose las observaciones que no se encuentren dentro de esta área con la
finalidad de asegurar la comparabilidad entre el grupo de tratados y control (Heckman, Ichimura y
Todd, 1998). Es decir, se debe cumplir:
0<P(D=1|X)<1
Según Bernal y Peña (2011), el estimador del ATT por PSM está dado de la siguiente forma:
τDD=E(P(X)|D=1) {E[Y(1)|D=1,P(X)]-E[Y(0)|D=0,P(X)]}
a. Vecino más cercano (nearest neighbour matching): El individuo del grupo de comparación
como el pareo del individuo tratado en términos de cercanía del PSM.
c. Kernel Matching: Utiliza los promedios ponderados de todos los individuos del grupo control
para construir el resultado contrafactual. Se ponderar de acuerdo a la distancia del puntaje,
siendo una de las mayores ventajas de este método.
a. Identificar cuánto se conoce sobre las características de los grupos tratados y control.
Como se puede observar en la ecuación del número de individuos (N), los parámetros que
debemos asumir son la proporción de tratados (P) y el EMD conservador de 0,20.
La probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0,05 (prueba de 2 colas) y poder de 0,8.
sum comsup
scalar trimming=1-r(mean) /*Trimming*/
Se calcula el tamaño de muestra para un diseño aleatorio balanceado (P=0,5), dado un poder de
0,8 y un EMD conservador de 0,2.
*Sample size
scalar N_1=(1/emd)^2*(t_alphaplusbeta^2)*(1/(p*(1-p)))
display round(N_1)
A partir del tamaño de muestra para un diseño aleatorio se obtiene el número de individuos tratados,
definido como nTreat=N_1. El tamaño del grupo control lo determinaremos como el tamaño del
grupo tratado dividido entre el porcentaje de la muestra recortada por el soporte común, definido
como nControl=N_1/trim. La muestra total de la evaluación será nTOTAL=nTreat+nControl.
scalar N_1=round(N_1)
scalar N_2=round(N_1/trimming)
disp N_total=round(N_1)+round(N_2)
Bernal, R. y Peña, X. (2012). “Guía práctica para la evaluación de impacto”. Universidad de los
Andes.
Bloom, H. (1995). “Minimum Detectable Effects: A Simple Way to Report the Statistical Power of
Experimental Designs”. Evaluation Review, 19: 547
Caliendo, M. y S. Kopeining (2008). “Some Practical Guidance for the Implementation of Propensity
Score Matching”. Journal of Economics Surveys.
Chow, S., Shao, J, y Wang, H. (2008) “Sample size calculations in Clinical Research” 2nd Edition.
Chapman & Hall/CRC.
Duflo, E., Glennerster R., Kremer, M. (2008). “Using Randomization in Development Economics
Research: A Toolkit” Handbook of Development Economics, vol. 4 - Chapter 61.
Fizbein, A. y Schady, N. (2009) “Conditional cash transfers: reducing present and future poverty”
Banco Mundial.
Frison, L., Pocock, S. (1992). “Repeated measures in clinical trials: analysis using mean summary
statistics and its implications for design”. Statistics in medicine, vol. 11, pp.1685-1704.
Gertler, P., Martinez, S., Premand, P. Rawlings, L. y Vermeersch, C. (2011) “Impact evaluation in
practice”. The World Bank
Goldberger, A. (1972). Selection Bias in Evaluating Treatment Effects: Some Formal Illustrations.
Working Paper, Economics Department, University of Wisconsin
Jacob, R.; Zhu, P. y Bloom, H. (2010) “New Empirical Evidence for the Design of Group Randomized
Lechner, M. (2001) “Identification and estimation of causal effects of multiple treatments under the
conditional independence assumption,” in Econometric Evaluation of Labour Market Policies,
ed. by M. Lechner, and F. Pfeiffer, pp. 1–18.
McKenzie, D. (2012). “Beyond baseline and follow-up: The case for more T in experiments,” Journal
of Development Economics, Elsevier, vol. 99(2), pp.210-221.
Piaggio, G., Carroli, G., Villar, J, Pino, A. (2001) “Methodological considerations on the design and
analysis of an equivalence stratified cluster randomization trial”. Statistics in Medicine,.vol. 20,
pp. 401–416.
Raudenbush, S., Martinez, A. y Spybrook, J. (2007). “Strategies for Improving Precision in Group-
Randomized Experiments”. Educational Evaluation and Policy Analysis, Vol. 29(1), pp. 5–29
Rosenbaum P. y Rubin D. (1983). “The Central Role of the Propensity Score in Observational
Studies for Causal Effects”. Biometrika
Schochet, P. (2008a) “Technical Methods Report: Statistical Power for Regression Discontinuity
Designs in Education Evaluations” National Center for Educational Evaluation and Regional
Assistance.
Teerenstra, S., Eldridge, S., Graff, M, De Hoop, E., y Borm, G. (2012). “A simple sample size for
analysis of covariance in cluster randomized trials. Statistics in Medicine, vol 31, pp.2169-2178.