Você está na página 1de 47

Microeconometria

Aula 8 – MQO com dados experimentais

Prof. Gilberto Boaretto

Ibmec/RJ
Conteúdo

Introdução

Robustez do resultado

Precisão das estimativas

Heterogeneidade / Subgrupos

Múltiplas observações e múltiplos tratamentos

Desenho de experimento
Estratificação × Pareamento
Aleatorização por agrupamento (clustering)

Simulação de um experimento no R
Como analisar dados de um experimento?
▶ Imagine que queremos estimar o efeito médio de uma intervenção T em
um indicador Y .

▶ Suponha que a alocação de um tratamento T é determinada em um


sorteio (aleatorização bem feita) e, portanto,

Ti ⊥ Yi0 , Yi1 .


▶ O modelo de resultados potenciais nos diz que a o efeito médio de


tratamento (ATE) é dado pela diferença
 
ATE = E Yi | Ti = 1 − E Yi | Ti = 0

que será equivalente a

E(Yi1 ) − E(Yi0 ).

• Por quê? Rever slides da aula 7 sobre resultados potenciais.

2 / 38
Como analisar dados de um experimento?

▶ Suponha que observamos uma amostra aleatória com nT indivı́duos no


grupo de tratamento (T ) e nC indivı́duos no grupo de controle (C).

▶ Podemos estimar o ATE utilizando a diferença de médias:

[= 1 1 X
X
ATE yi − yi
nT nC
i∈T i∈C

▶ Note que:
p  
[ →
ATE E Yi | i ∈ T − E Yi | i ∈ C = ATE.

▶ Entretanto, raramente dados experimentais são analisados utilizando


diferenças de média.

3 / 38
Regressão
▶ Considere uma regressão simples:

Yi = α + β Ti + Ui

▶ Note que

E Yi | Ti = 1 = α + β

E Yi | Ti = 0 = α

▶ Assim,
p  
βb → β = E Yi | Ti = 1 − E Yi | Ti = 0

= E Y1i ) − E Y0i (devido a aleatorização)

= ATE

▶ Uma regressão simples em que o regressor é binário identifica uma


diferença de médias!
4 / 38
Regressão
▶ Tipicamente os experimentos são analisados utilizando regressões
lineares múltiplas:
Yi = α + β Ti + X i γ + Ui
em que
• X i = (X1i , . . . , Xki ) é um vetor de controles (regressores),
• γ = (γ1 , . . . , γk )′ é um vetor de coeficientes associados.

▶ Por quê?
1. Checar “estabilidade”/robustez do resultado
2. Precisão das estimativas
3. Heterogeneidade / Efeitos em subgrupos
4. Múltiplas observações e múltiplos tratamentos
5. Desenho do experimento
6. Correção de problemas de implementação
5 / 38
Robustez do resultado
▶ Se a aleatorização foi bem feita e o experimento foi bem desenhado,
sabemos que

E(Ui | Ti ) = 0, (1)

ou seja, vale a hipótese de exogeneidade.

▶ Sejam βb1 e βb2 os estimadores de MQO para β1 e β2 nos modelos

Yi = α + β1 Ti + Ui

Yi = α + β2 Ti + X i γ + Vi .
| {z }
= Ui

▶ Então, sob a condição (1) (e outras regularidades), devemos ter


 
E βb1 | Ti , X i = E βb2 | Ti , X i ,

ou seja, esperamos obter o mesmo resultado a partir da estimação


dos dois modelos usando MQO.
6 / 38
Robustez do resultado
 
▶ Se E βb1 | Ti , X i ̸= E βb2 | Ti , X i , isso é um sinal de que a
aleatorização não foi bem feita ou alguma falha no desenho do
experimento implicou violação de alguma outra hipótese relevante
(exemplo: efeito não linear ou pouca ou nenhuma variação nas variáveis
explicativas).

▶ Isso decorre do que chamamos em lógica de contrapositiva:

• Sejam A e B duas sentenças.

• Se A implica B, escrevemos A → B.

• Logo, ∼ B → ∼ A, ou seja, não A implica não B.

▶ No caso anterior, A é a hipótese de exogeneidade (e demais


regularidades) enquanto B é a igualdade das esperanças condicionais.

7 / 38
Precisão

▶ Para analisar esse experimento poderı́amos usar duas regressões:

Yi = α1 + β1 Ti + νi
Yi = α2 + β2 Ti + X i γ + ηi

▶ Qual a diferença?

▶ Se Ti é alocado aleatoriamente, vimos que


  p
[ = E βb1 | Ti , X i = E βb2 | Ti , X i →
ATE ATE,

ou seja, ambos os modelos identificam o efeito causal (não há viés).

▶ Entretanto, os diferentes estimadores têm variâncias diferentes.

8 / 38
Precisão
▶ Sob aleatorização bem feita, as variâncias dos estimadores das duas
equações são:
  σ2   σ2
c1 = U × 1
Var β Var β c2 = V × 1
n 2
σT n σT2
em que
• n = nT + nC ,
2
• σU é a variância de Ui ,
• σV2 é a variância de Vi ,
n
X 2
• n · σT2 é a soma dos quadrados totais de T , isto é, SQTT = Ti − T .
i=1
2
▶ Como Ui = X i γ + Vi , temos σU > σV2 .
   
▶ Isso implica que Var β
c2 < Var β c1 .

▶ Intuição: a inclusão dos controles em X i absorve variância (não


explicada) de Yi , e portanto, do termo de erro. Isso melhora a precisão
das estimativas do efeito de tratamento.
9 / 38
Controles
▶ Quais controles incluir?

▶ Incluir como controles variáveis medidas na linha de base e/ou variáveis


que não mudam ao longo do tempo.

▶ Nunca incluir como controles coisas potencialmente afetadas pelo


tratamento – essas coisas são mecanismos!

• Exemplo: considere um experimento analisando o impacto de seguro


saúde sobre saúde dos indivı́duos. Não devemos controlar por gastos com
remédios porque isso é um mecanismo / mediador do seguro saúde sobre
a saúde do indivı́duo.

▶ Não incluir todas as variáveis possı́veis e imagináveis para evitar


problemas de multicolinearidade.

▶ Boa prática: incluir controles que aumentam (significativamente) o


R-quadrado (R2 ).
10 / 38
Controles
▶ Regressões com e sem controles deveriam ter efeitos de tratamento
parecidos.

▶ Boa prática: reportar os resultados com e sem controles.

▶ São esperados valores similares para os coeficientes, mas dispersão


(variância do estimador) pode mudar bastante.

▶ Qual a implicação de incluirmos controles para um teste de


H0 : ATE = 0?

βb 
• Como t =  , então ↓ EP βb leva a ↑ t
EP β
b

• Ou seja, aumenta a chance de rejeitarmos H0 quando ela é falsa.

– Diminui a probabilidade de Erro Tipo I.

– Aumenta o poder estatı́stico do experimento, isto é, aumenta a


probabilidade do teste rejeitar corretamente a hipótese nula.
11 / 38
Heterogeneidade / Efeitos em subgrupos
▶ Suponha que acreditamos que o tratamento possua efeitos diferenciados
em diferentes subgrupos do experimento.

▶ Exemplos:
• Se mulheres possuem mais dificuldade em acessar crédito do que homens,
um programa de microcrédito pode ter efeitos maiores em mulheres do
que em homens.
• Alunos com mais dificuldade são os que se beneficiam mais de um
programa de reforço escolar.

▶ Como testar isso? Há duas alternativas:


1. Dividir a amostra: rodamos uma regressão para um subgrupo e outra
para outro subgrupo. Problemas:
(i) ↓ amostra implica ↑ erros-padrão e ↓ poder estatı́stico.
(ii) subgrupos podem ser caracterizados por variável contı́nua.

2. Em uma única regressão, permitir que o efeito de tratamento varie


entre subgrupos.
– Podemos fazer isso via interações de variáveis na regressão.
12 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

▶ E Yi | Ti = 0, Hi = 1 = α + γ ⇒ média de Y dos H em C (H0)

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

▶ E Yi | Ti = 0, Hi = 1 = α + γ ⇒ média de Y dos H em C (H0)

▶ E Yi | Ti = 1, Hi = 0 = α + β ⇒ média de Y das M em T (M1)

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

▶ E Yi | Ti = 0, Hi = 1 = α + γ ⇒ média de Y dos H em C (H0)

▶ E Yi | Ti = 1, Hi = 0 = α + β ⇒ média de Y das M em T (M1)

▶ E Yi | Ti = 1, Hi = 1 = α + β + γ + δ ⇒ média de Y dos H em T
(H1)

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

▶ E Yi | Ti = 0, Hi = 1 = α + γ ⇒ média de Y dos H em C (H0)

▶ E Yi | Ti = 1, Hi = 0 = α + β ⇒ média de Y das M em T (M1)

▶ E Yi | Ti = 1, Hi = 1 = α + β + γ + δ ⇒ média de Y dos H em T
(H1)

13 / 38
Interações
Considere a regressão:

Yi = α + β Ti + γ Hi + δ (Ti × Hi ) + Ui

▶ E Yi | Ti = 0, Hi = 0 = α ⇒ média de Y das M em C (M0)

▶ E Yi | Ti = 0, Hi = 1 = α + γ ⇒ média de Y dos H em C (H0)

▶ E Yi | Ti = 1, Hi = 0 = α + β ⇒ média de Y das M em T (M1)

▶ E Yi | Ti = 1, Hi = 1 = α + β + γ + δ ⇒ média de Y dos H em T
(H1)
Logo,

▶ M 1 − M 0 = βb ⇒ estimativa do efeito de tratamento para mulheres.


▶ H1 − H0 = βb + δb ⇒ estimativa do efeito de tratamento para homens.
▶ (H1 − H0) − (M 1 − M 0) = δb ⇒ estimativa do efeito de tratamento
diferencial para homens.
13 / 38
Interações

O subgrupo do exemplo anterior era binário (H ou M ). A variável de


interação poderia ser contı́nua:

Yi = α + β Ti + γ Xi + δ (Ti × Xi ) + Ui .

Agora, o efeito de tratamento depende de Xi . Para ver isso:


∂Yi
= β + δXi .
∂Ti

▶ se δ > 0, indivı́duos com Xi maior se beneficiam mais do tratamento

▶ se δ < 0, indivı́duos com Xi maior se beneficiam menos do tratamento

▶ se δ = 0, não há efeito da interação.

14 / 38
Múltiplas observações
Às vezes temos várias observações para o mesmo indivı́duo antes e/ou depois
do tratamento T . O que fazer?

▶ Podemos incluir Y antes como controle.

▶ Podemos usar ∆Yi = Yidepois − Yiantes como variável de interesse.

• Equivalente a “forçar” λ = 1 em Yidepois = α + β Ti + λYiantes + Ui .

• Assim, Yidepois − Yiantes = ∆Yi = α + β Ti + Ui .

▶ Com mais de um Y depois do tratamento T , podemos rodar uma


regressão para cada Y t .

▶ Desta forma, conseguimos testar se efeito do tratamento


aumenta/diminui com o passar do tempo.

15 / 38
Múltiplos tratamentos

▶ O que fazer se temos não apenas tratamento e controle (T e C), mas


sim vários tratamentos (T1 , T2 , . . . , Tk ) e controle (C)?

16 / 38
Múltiplos tratamentos

▶ O que fazer se temos não apenas tratamento e controle (T e C), mas


sim vários tratamentos (T1 , T2 , . . . , Tk ) e controle (C)?

Yi = α + β1 T1i + β2 T2i + · · · + βk Tki + X i γ + Ui .

▶ Neste caso, βbj é a estimativa do efeito do j-ésimo tratamento Tj em


relação ao grupo de controle C.

▶ Exemplo: experimento de crédito para microempresas.

16 / 38
Exemplo: De Mel et al. (QJE, 2008)

17 / 38
Exemplo: De Mel et al. (QJE, 2008)
▶ Microempresas em vários paı́ses pagam taxas de juros altı́ssimas. Isso
sugere altas taxas de retorno do capital.
• Teoria prevê que o capital deveria fluir para essas empresas, mas há
fricções no mercado de capitais.

▶ Dificuldades para obtenção de estimativa não viesada dos retornos de


capital para todas as microempresas.

▶ Por que um experimento?


• Alocação aleatória de subsı́dios garante que mudanças no estoque de
capital sejam não correlacionadas com capacidade empreendedora,
choques de demanda e outros fatores associados à diferenças na
lucratividade de investimentos entre firmas.

▶ Um resultado surpreendente: retornos experimentais foram mais do que


o dobro dos retornos não experimentais!
• Explicação plausı́vel para subestimar os retornos não experimentais: viés
de atenuação decorrente da mensuração imprecisa do estoque de capital.

18 / 38
Exemplo: De Mel et al. (QJE, 2008)

▶ Experimento: “cash drop” em 618 firmas no Sri Lanka com menos de


LKR 100.000 (USD 1.000) em capital na linha de base.

• Em 2004, tsunami afetou diretamente 218 firmas – retorno do capital foi


maior no caso destas empresas (por isso foram descartadas).

• Assim, amostra baseline de 408 empresas.

• Tratamento 2 x 2:

– LKR 10k versus 20k (mediana de capital no baseline: LKR 18k)

– Em dinheiro (in cash) versus equipamentos (in-kind).

▶ Dados: baseline + 9 rodadas trimestrais.

▶ Variáveis analisadas: receitas, custos, lucros, investimentos, estoques,


horas trabalhadas, entre outras.

19 / 38
Balanceamento

20 / 38
Especificação básica


▶ δt : controle de tempo = efeito fixo de tempo

• Sazonalidade, choques macro, etc.


▶ λi : controle de firma = efeito fixo de firma

• Este termo capta todas as caraterı́sticas da firma que sejam fixas no


tempo.

• A identificação do efeito do tratamento T é intra-firma.

21 / 38
Principais resultados

22 / 38
Principais resultados

▶ Podemos dizer que efeitos in cash foram maiores que efeitos in-kind?
• Formalmente, terı́amos que fazer um teste F que leva em conta a
covariância das estimativas – tabela III do artigo faz isso.

• Mas os ICs dos efeitos do tratamento T de in cash englobam as


estimativas pontuais de in-kind.

▶ Resultados em log medem o efeito percentual sobre o estoque de


capital.
• Vantagem: diminui o efeito de outliers; mas é bom ver se os resultados
em nı́vel versus log são comparáveis.

• Efeito é sobre o nı́vel de capital de cada firma na linha de base.

▶ Obs.: a tabela não coloca as médias do controle (C)


• Temos que olhar a tabela I para interpretar magnitudes.

23 / 38
Heterogeneidade

24 / 38
Desenho de experimento

▶ Muitas vezes a aleatorização não é simples.

▶ Aleatorização ocorre intra-grupo (estratificação ou pareamento) ou


inter-grupo (clusterização).

▶ O uso de regressões é útil para corrigir estimadores e sua variância.

25 / 38
Estratificação × Pareamento

▶ Na estratificação há um sorteio dentro de cada grupo (= estrato).

▶ O pareamento é um procedimento de estratificação em que o sorteio


ocorre ao nı́vel de pares de observações.

▶ Estratos (ou pares) são escolhidos com base em terem observáveis


comuns.

▶ Efeito de tratamento médio (ATE) é média dos efeitos nos diferentes


experimentos.

• Média simples ou ponderada?

26 / 38
Estratificação × Pareamento
▶ Se chances de T /C são iguais dentro de cada estrato, ATE é média
simples dos efeitos de tratamento nos diferentes estratos.

▶ Se chances de T /C não são iguais em cada estrato, alocação não é mais


aleatória na população e temos que ponderar pelo número de unidades
tratadas.

▶ Exemplo:

Homens Mulheres Total

Bolsas 80 240 320


Elegı́veis 600 400 1000
Fração de Alocação 13% 60% 32%
Efeito de Tratamento $15 $25 A ser calculado
Fração do total em T 0.25 0.75 1

27 / 38
Estratificação × Pareamento
▶ Se chances de T /C são iguais dentro de cada estrato, ATE é média
simples dos efeitos de tratamento nos diferentes estratos.

▶ Se chances de T /C não são iguais em cada estrato, alocação não é mais


aleatória na população e temos que ponderar pelo número de unidades
tratadas.

▶ Exemplo:

Homens Mulheres Total

Bolsas 80 240 320


Elegı́veis 600 400 1000
Fração de Alocação 13% 60% 32%
Efeito de Tratamento $15 $25 A ser calculado
Fração do total em T 0.25 0.75 1

▶ ATE = (15 × 0, 25) + (25 × 0, 75) = 22, 5


• Compare com efeito assumindo (erroneamente) alocação 50-50.

27 / 38
Estratificação × Pareamento

▶ Regressão nos dá efeitos ponderados pelo número de indivı́duos tratados


e não tratados em cada estrato.

▶ Inclusão de dummies de estrato é fundamental para garantir T /C


alocados aleatoriamente.

▶ Dummies de estrato também absorvem variância e melhoram a precisão.

▶ Formalmente,

Yis = β Tis + γs + Uis

em que γs = 1 se indivı́duo pertence ao estrato s, e zero, caso contrário.

28 / 38
Aleatorização por agrupamento (clustering)
▶ Se os dados são coletados no nı́vel do indivı́duo, ou agregamos por
cluster, ou fazemos uma correção nos erros-padrão. Por quê?

▶ Quando estimamos Yi = α + β Ti + Ui , supomos que o Uj é


independente de Us .
▶ Mas dentro de clusters, os resultados tendem a ser correlacionados. Um
modelo mais próximo disso é
Yig = α + β Ti + Uig , i = 1, . . . , ng , g = 1, . . . , G,
com Uig = Eg + Vig ,
em que
• Eg é um componente não-observado no nı́vel do cluster (grupo) g
• Vig é um componente idiossincrático.

▶ Isso requer uma correção na hora de calcular os erros-padrão.


▶ Por conta disso, dizemos que clusterização pode fazer correção de
problemas de implementação.
29 / 38
Simulação de um experimento

▶ Considere um experimento cujo tratamento é um reforço educacional.

▶ Hipótese: todos os alunos que recebem o tratamento melhoram em 0,1


desvio-padrão seu desempenho.

▶ Temos 200 alunos: 100 no grupo de tratamento e 100 no grupo de


controle.

▶ O desempenho dos alunos é influenciado por inúmeras outras variáveis


tais como renda, presença dos pais no domicı́lio, habilidade, etc.

▶ Mas suporemos que a renda da famı́lia é o único outro determinante do


desempenho dos alunos e que um aumento de 1% da renda implique em
um aumento de 0,2 desvio-padrão no desempenho dos alunos.

30 / 38
Simulação de um experimento

▶ Isso significa que supomos que o processo gerador de dados é:

Yi = 0 + 0, 1 Ti + 0, 2 log(rendai ) + Ui

▶ Considere a estimação do efeito de tratamento por MQO com e sem


controles:

1. Com controles: Yi em Ti e log(rendai )

2. Sem controles: Yi em Ti

▶ Como vocês acham que essas duas situações seriam comparadas?


Faremos uma simulação de Monte Carlo para descobrir.

31 / 38
Simulação no R

Começamos definindo os parâmetros e as variáveis.


rm(list=ls())

num_alunos = 200

beta = 0.1

gamma = 0.2

set.seed(2017)

# simulando dummy de tratamento


TRAT = sample(c(0,1), size = num_alunos, replace = T)

# simulando renda
RENDA = log(rlnorm(num_alunos, meanlog = log(1786), sdlog = 2))

Em seguida definimos uma função que simula dados do termo de erro e


estima os modelos com e sem controles.

32 / 38
# função para simulacao
simulacao = function(numRep, sd_e){
# argumentos da funcao:
# numRep: numero de repeticoes da simulacao; sd_e: desvio-padrao do termo de erro

# matrizes para armazenar resultados de estimacao


matRes1 = matrix(nrow = numRep, ncol = 2) # para y = b*T + g*R + e
matRes2 = matrix(nrow = numRep, ncol = 2) # para y = b*T + u

for (i in 1:numRep){
# simulo erros
e <- rnorm(num_alunos, mean = 0, sd = sd_e)
# construo y "verdadeiro"
y <- beta*TRAT + gamma*RENDA + e
# estimacao ’full’
est1 <- summary(lm(y ˜ TRAT + RENDA))
# estimacao sem controles
est2 <- summary(lm(y ˜ TRAT))
# betas
coef1 <- est1$coefficients[2,1]
coef2 <- est2$coefficients[2,1]
# erros-padrao
std_err1 <- est1$coefficients[2,2]
std_err2 <- est2$coefficients[2,2]
# armazeno os resultados
matRes1[i, ] <- c(coef1, std_err1)
matRes2[i, ] <- c(coef2, std_err2)
}

# retorno da funcao: lista com dois elementos


return(list(matRes1, matRes2))
}
33 / 38
Simulação no R

Rodamos uma simulação com 10.000 repetições e salvamos os resultados em


vetores.
# rodo a simulação
res = simulacao(10000, sqrt(2))

# recupero coeficientes e erros-padrao

coefs_com_ctrls <- res[[1]][, 1]


coefs_sem_ctrls <- res[[2]][, 1]
dp_com_ctrls <- res[[1]][, 2]
dp_sem_ctrls <- res[[2]][, 2]

# defino cores

deepskyblue2_alpha <- rgb(0/255, 178/255, 238/255, alpha = .5)


sienna2_alpha <- rgb(238/255, 121/255, 66/255, alpha = .5)

Por fim, fazemos o histograma dos coeficientes.

34 / 38
# histograma dos coefientes #

pdf(’experimento_coeficientes.pdf’)

# coeficientes da estimacao SEM controles


hist(coefs_sem_ctrls,
breaks = seq(from = -1, to = 1, length.out = 200),
col = deepskyblue2_alpha,
border = deepskyblue2_alpha,
freq = T,
xlab = "beta",
ylab = "Frequência",
main = "Coeficientes")

# coeficientes da estimacao COM controles


hist(coefs_com_ctrls,
breaks = bks,
col = sienna2_alpha,
border = sienna2_alpha,
freq = T,
add = T)

# marcando o verdadeiro valor de beta


abline(v = beta, col = ’grey10’, lwd = 2)

legend("right",
c( "sem controles" , "com controles"),
col = c(’deepskyblue2’, ’sienna2’),
lwd = 10,
bty = "n",
y.intersp = 2)

dev.off() 35 / 38
Resultado
Coeficientes

200
150
Frequência

sem controles
100

com controles
50
0

−1.0 −0.5 0.0 0.5 1.0

beta
36 / 38
E o histograma dos erros-padrão:
# histograma dos erros #

pdf(’experimento_std_erros.pdf’)

# erros-padrão da estimacao SEM controles


hist(dp_sem_ctrls,
breaks = seq(from = 0.15, to = 0.25, length.out = 200),
col = deepskyblue2_alpha,
border = deepskyblue2_alpha,
freq = T,
main = "Erros-padrão",
xlab = expression(hat(sigma[beta])), ylab = "Frequência",
xlim = c(0.15, 0.25)
)

# erros da estimacao COM controles


hist(dp_com_ctrls,
breaks = bks,
col = sienna2_alpha,
border = sienna2_alpha,
add = T,
freq = T)

legend("topleft",
c( "sem controles" , "com controles"),
col = c(’deepskyblue2’, ’sienna2’),
lwd = 10,
bty = "n",
y.intersp = 2)

dev.off() 37 / 38
Resultado
Erros−padrão

sem controles

200
150 com controles
Frequência

100
50
0

0.16 0.18 0.20 0.22 0.24

σ^β
38 / 38

Você também pode gostar