Aula 6 - DiferenÃ As em DiferenÃ As e Event Study

de
Desenvolvimento Regional e Políticas
an
Públicas
gr
Dieison Casagrande
sa
Universidade Federal de Santa Maria (UFSM)
Ca
Programa de Pós-Graduação em Economia e
Desenvolvimento
n
so
Aula - Diferenças em Diferenças e Event-Study

iei
Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 1 / 84

de
an
1 Dados em Painel
gr
sa
2 Diferenças em Diferenças
3 Event Studies Ca
n
so
iei

Diferenças em Diferenças
de
an
O objetivo é “imitar” um desenho experimental, usando dados ob-
servacionais (quase experimentos) tomando a vantagem de uma
intervenção que gera grupos tratados e de controle;
gr
Basicamente, o método assume duas diferenças: a mudança mé-
sa
dia ao longo do tempo na variável de resultado para o grupo de
tratamento, comparado a mudança média ao longo do tempo
Ca
para o grupo de controle;
Diferenças em Diferenças (DD), como uma estratégia de identi-
ficação, é uma versão de uma estimação de efeitos fixos, reque-
n
rendo assim, dados longitudinais – repetidas cross-sections das
so
unidades ao longo do tempo;

iei
Precisamos entender como funcionam os dados em painel!!

de
an
1 Dados em Painel
gr
sa
3 Event Studies Ca
n
so
iei

Estrutura dos Dados em Painel
de
i t tratado Y X ...
1 1 0 ...
an
y1,1 x1,1
1 2 0 y1,2 x1,2 ...
1 3 1 y1,3 x1,3 ...
gr
1 4 1 y1,4 x1,4 ...
2 1 0 y2,1 x2,1 ...
sa
2 2 0 y2,2 x2,2 ...
2 3 0 y2,3 x2,3 ...
2
.
.
4
.
.
Ca
0
.
.
y2,4
.
.
x2,4
.
.
...
...
...
n
. . . . . ...
so
n 1 0 yn,1 xn,1 ...

n 2 0 yn,2 xn,2 ...
iei
n 3 1 yn,3 xn,3 ...

n 4 1 yn,4 xn,4 ...
Efeitos Aleatórios (RE) x Efeitos Fixos (FE)
de
Exemplo: A filiação sindical afeta os salários?
an
As duas abordagens tem diferentes hipóteses relacionadas a he-
terogeneidade não observada. Suponha que queremos estimar
o efeito da filiação sindical sobre os salários usando o seguinte
gr
modelo:
sa
0 0
Yit = λt + β1 Dit + Xit γ + Ai θ + uit
Ca
onde λt são os efeitos fixos de tempo (dummies para cada pe-
ríodo t), Xit é um vetor de características observáveis, Ai é a
habilidade dos trabalhadores, Dit é o status de filiação sindical
n
dos trabalhadores e β1 é o nosso coeficiente de interesse;
so
O problema é que nós não observamos a habilidade dos indiví-

duos, de modo que o modelo torna-se:
iei
0
Yit = λt + β1 Dit + Xit γ + it
Efeitos Aleatórios (RE)
de
an
Se Cov (Ai , Dit ) = 0, o modelo anterior pode ser estimado usando
gr
RE. O termo Ai é visto como um distúrbio aleatório, e não um
parâmetro a ser estimado;
sa
Sob a não existência de correlação serial em uit , FGLS (Feasible
Ca
Generalized Least Square) é mais eficiente que (OLS);
Em outras palavras, a estimação via RE requer que a atribuição do
tratamento seja independente da heterogeneidade não observada,
n
o que geralmente não é sustentável;
so
iei

Efeitos Fixos(FE)
de
an
Em nosso exemplo, não temos motivos para acreditar que a ha-
gr
bilidade/capacidade do trabalhador seja independente da filiação
sindical. É plausível pensar em indivíduos com diferentes habili-
sa
dades que se autosselecionam para o tratamento.
Ca
Por simplicidade, reescrevemos A0i θ = αi . No modelo de FE, αi
é o parâmetro a ser estimado, uma vez que permitimos que seja
correlacionado com a variável de tratamento;
n
Vamos usar a notação de expectativas condicionais;
so
iei

de
an
O Yit observado é tanto Y0it ou Y1it , dependendo do status de
filiação. Vamos supor, ainda, que:
gr
E [Y0it |Ait , Xit , t, Dit ] = E [Y0it |Ait , Xit , t]
sa
Ca
A principal suposição é que a habilidade/capacidade é invariável
ao longo do tempo em um modelo linear para E [Y0it |Ait , Xit , t]:
0 0
E [Y0it |Ait , Xit , t] = λt + Xit γ + Xit θ.
n
so
iei

de
Assumindo que o efeito causal é aditivo e constante, reescrevemos
a expectativa condicional como:
an
0 0
E [Yit |Ait , Xit , t, Dit ] = λt + β1 Dit + Xit γ + Ait θ.
gr
sa
O modelo de efeitos fixos, em termos dos outcomes observados,
é:
Ca 0
Yit = λt + β1 Dit + Xit γ + αi + uit (A)
n
Este modelo é chamado two-way fixed effects pois considera tanto
so
o componente individual invariante (αi ) e o efeito constante no

tempo (λt );
iei

O modelo FE é um desvio de médias
de
Na prática, estimar os parâmetros de um modelo com muitas
an
dummies de indivíduos pode não ser computacionalmente possí-
vel;
gr
Como uma solução, podemos calcular as médias individuais:
sa
0
Ȳi = αi + λ̄ + β1 D̄i + X̄i γ + ūi (B)
Subtraindo (B) de (A):

Ca 0
n
Yit −Ȳi = (λt −λ̄)+β1 (it −D̄i )+(Xit −X̄i γ)+(uit −ūi ) (C )
so
No modelo (C), o estimador “desvio de médias”, também conhe-

iei
cido como “within-estimator” é o mesmo que estimar um modelo

com o conjunto completo de dummies de indivíduos e tempo.
Estimador de Primeira Diferença (FD)
de
an
O parâmetro de interesse também pode ser estimado usando o
modelo em primeira diferença:
gr
0
∆Yit = ∆λt + β1 ∆Dit + ∆Xit γ + ∆uit
sa
Ca
O operador ∆ denota a mudança de uma ano para o próximo
ano. Por exemplo, ∆Yit = Yit − Yit−1 ;
Com dois períodos, FD e o modelo de desvios de médias (ou FE)
n
geram os mesmos resultados. Se uit são não correlacionados (e
so
homocedásticos), FE é mais eficiente que FD. Se ∆uit são não

correlacionados, então FD é melhor.
iei

de
an
1 Dados em Painel
gr
sa
3 Event Studies Ca
n
so
iei

de
an
Um dos métodos não experimentais mais utilizados na área de
avaliação de impacto;
gr
Um tratamento não aleatório é aplicado para um ou mais grupos
sa
Um grupo de unidades não recebe o tratamento ao mesmo tempo
(nunca recebem, ou ainda não recebem, para fins de compara-
Ca
ção);
Exige dos dados - as observações são coletadas antes e após para
cada grupo;
n
É capaz de lidar com o viés de seleção associado a certo tipo de
so
características não observáveis dos indivíduos, especificamente

àquelas que são invariantes no tempo;
iei

de
É baseado no cálculo de uma dupla subtração: a primeira se refere
an
à diferença das médias da variável de resultado entre os períodos
anterior e posterior ao programa para o grupo de tratamento e
gr
para o de controle, e a segunda se refere à diferença da primeira
diferença calculada entre esses dois grupos;
sa
Método muito antigo, desenho de pesquisa conceitualmente in-
tuitivo;
Ca
As primeiras tentativas de uso datam de várias políticas de saúde
debatidas no século 19;
n
Trazido para a economia do trabalho com Orley Ashenfelter (1978),
so
LaLonde (1985), Card e Krueger (1994);

iei
Desde então, tornou-se o método quase experimental mais popu-

lar, até mais do que RDD;

de
Métodos Quase Experimentais
an
gr
sa
Ca
n
so
iei

Ampla aplicabilidade! Contexto “experimento natural” – uma
de
situação na qual a ocorrência de um evento fortuito – ou em
larga medida imprevisto – permite formar grupos de tratamento
an
e controle parecidos em diversos aspectos;
Mudanças que ocorrem na própria natureza, alterações institu-
gr
cionais, ou até mesmo na seleção dos participantes, que ocorre
devido a circunstâncias que envolvem um alto grau de aleatorie-
sa
dade;
Ca
A ideia é que a fortuidade do evento permita criar uma seleção dos
indivíduos ou unidades de observação que comporão os grupos de
tratamento e controle próxima daquela do método experimental
... não há garantias de que o grupo de controle seja uma boa
n
representação contrafatual do grupo tratado;
so
O método de DD procura resolver isso levando em considera-

iei
ção as diferenças de características preexistentes entre tratados e

controles;
de
an
A principal hipótese do método de DD é que a trajetória temporal
da variável de resultado para o grupo de controle represente o que
ocorreria com o grupo tratado caso não houvesse a intervenção;
gr
Não pode ser testada ... trajetórias dos dois grupos são parecidas
sa
com pré-programa;
Ca
Se as trajetórias se assemelham durante o período antes do pro-
grama, parece razoável supor que a evolução do grupo de controle
após o programa represente com fidedignidade o que ocorreria
com o grupo de tratados na situação de não tratamento;
n
so
iei

de
an
Dados para indivíduos, setores de atividade, ocupações, municí-
pios ou estados;
gr
Sua aplicabilidade com dados agregados é uma importante van-
tagem do método de DD, pois permite que o impacto de uma
sa
série de intervenções possam ser avaliadas apenas com base em
informações rotineiramente coletadas por governos e institutos
Ca
de pesquisa e estatística;
Permite controlar para características não observáveis dos indiví-
duos que sejam invariantes no tempo;
n
so
iei

Relação com os métodos “ingênuos”
de
Na avaliação de impacto sempre se busca encontrar o contrafatual
para o grupo tratado, ou seja, o que teria ocorrido a esse grupo
an
na ausência da intervenção;
gr
O método de diferenças em diferenças busca contornar os proble-
mas dos dois métodos de identificar o impacto de um programa;
sa
Ao invés de simplesmente contrastar o grupo de tratamento com
ele mesmo antes e depois do programa, o método de DD vai
Ca
buscar um grupo de comparação que se pareça ao máximo com
o grupo tratado;
n
Uma característica do método de DD que ajuda nesse processo
so
é que ele é capaz de levar em conta uma das principais fontes
de diferença entre tratados e controles: as características não
iei
observáveis dos indivíduos que são invariantes no tempo;

de
Hipóteses
Objetivo: o método quer encontrar um grupo de indivíduos para
an
os quais a evolução da variável de resultado corresponda à trajetó-
ria dessa variável para o grupo tratado na ausência do programa;
gr
Naturalmente, essa é uma condição não diretamente testável pe-
los dados. Mas, isso não significa que os dados não possam ser
sa
utilizados para revelar algo sobre sua validade;
Ca
A verificação da hipótese é feita de forma indireta por meio de
um teste que requer que a tendência temporal da variável de
resultado dos dois grupos seja a mesma antes do programa;
n
A ideia é que uma trajetória temporal semelhante indica que am-
so
bos os grupos vinham reagindo de forma similar a todo e qualquer

fator que afeta a variável de resultado antes da intervenção;
iei

de
Então, na ausência da intervenção, essa trajetória continuaria ao
longo do tempo para o grupo tratado após o programa tal como
an
ela efetivamente segue para o grupo de controle;
gr
Portanto, a condição é a seguinte: os grupos tenham a mesma
tendência temporal, mas não é necessário que eles partam exa-
sa
tamente do mesmo ponto antes do programa: o método de DD
é capaz de lidar com diferenças existentes entre os grupos pré-
Ca
programa;
Assim sendo, desvios na trajetória da variável de resultado entre
os grupos após o programa são atribuídos aos efeitos causais da
n
intervenção;
so
Teste com base nos dados do período pré-programa;

iei

de
Embora a existência de mesma tendência temporal pré-programa
an
não garanta que o grupo de controle seja um bom contrafatual
para o grupo tratado, recomenda-se que o teste seja realizado.
gr
De fato, caso a hipótese de mesma tendência não seja rejeitada,
o teste confere maior credibilidade ao grupo de controle como
sa
contrafatual adequado para o grupo tratado;
Ca
O método de DD pode ser utilizado tanto com dados de painel
quanto com dados cross-section repetidos no tempo;
Hipótese: Com base nos dados, a composição dos grupos de
n
tratamento ou controle não se altere de forma significativa pré e
so
pós intervenção;
iei

Exemplo: Com dados em painel, é possível que tenha ocorrido
de
atrito amostral não aleatório com o grupo de tratamento ou con-
trole (ou ambos) ... assim, as diferenças na variável de resultado
an
entre períodos de tempo e entre grupos podem refletir não apenas
o efeito do tratamento, mas também mudanças nas característi-
gr
cas não observadas dos indivíduos;
sa
Esse problema torna-se mais acentuado se as mudanças na dis-
tribuição dessas características, principalmente a das não obser-
Ca
vadas, decorrem da própria intervenção. Parte do que o método
atribuirá ao efeito do tratamento sobre a variável de resultado es-
tará associada às mudanças de composição dos grupos nas áreas
tratadas e não tratadas;
n
so
Outra condição requerida pelo método de DD é que os grupos de
tratamento e controle não sejam afetados de forma específica por
iei
mudanças de qualquer natureza que ocorram após o programa;

O modelo de diferenças em diferenças
de
Dupla diferença de médias da variável de resultado. Represen-
tando por T = {1, 0} a participação ou não no programa e por
an
t = {1, 0} os períodos posterior e anterior à intervenção, respec-
tivamente, o estimador é dado por:
gr
sa
βDD = {E [Yi |Ti = 1, t = 1] − E [Yi |Ti = 1, t = 0]}− (1)
Ca
{E [Yi |Ti = 0, t = 1] − E [Yi |Ti = 0, t = 0]}
diferença temporal pós e pré-programa da variável de resultado
para o grupo tratamento subtraída da diferença correspondente
n
calculada para o grupo de controle.
so
Nesse estimador está a hipótese de que a variação temporal na

variável de resultado para o grupo de controle representa a vari-
iei
ação contrafatual do grupo tratado;

As hipóteses requeridas são:
de
Tendências paralelas: unidades tartadas e no grupo de controle
têm a mesma tendência na ausência do tratamento;
an
Não há variação no efeito do tratamento entre os indivíduos;
Usando a noção de resultados potenciais, Yi (1) e Yi (0) corres-
pondem à variável de resultado do indivíduo i respectivamente nas
gr
situações de tratamento e não tratamento e os valores efetiva-
sa
mente observados são expressos por Yi = Ti Yi (1)+(1−Ti )Yi (0);
As médias observadas que compõem a expressão (1) correspon-
Ca
dem a
E [Yi |Ti = 1, t = 1] = E [Yi (1)|Ti = 1, t = 1]

n
E [Yi |Ti = 0, t = 0] = E [Yi (0)|Ti = 1, t = 0]
so
E [Yi |Ti = 0, t = 1] = E [Yi (0)|Ti = 0, t = 1]

iei
E [Yi |Ti = 0, t = 0] = E [Yi (0)|Ti = 0, t = 0]

de
Assim, escrevemos o estimador como:
an
βDD = {E [Yi |Ti = 1, t = 1] − E [Yi (0)|Ti = 1, t = 0]}− (2)
gr
{E [Yi (0)|Ti = 0, t = 1] − E [Yi (0)|Ti = 0, t = 0]}
sa
O efeito médio do tratamento sobre os tratados (EMTT) é dado
Ca
por: n
EMTT = E [Yi (1)|Ti = 1, t = 1] − E [Yi (0)|Ti = 1, t = 1]
so
pela diferença na média dos resultados potenciais para os tratados

após o programa;
iei

de
Não é possível observar a segunda média dessa expressão, mas
se considerarmos a hipótese de que variação temporal na média
da variável de resultado potencial para o grupo de tratados na
an
situação de não tratamento é igual à variação correspondente
para o grupo de não tratados, isto é, se consideramos a hipótese
gr
de que:
sa
E [Yi (0)|Ti = 1, t = 1] − E [Yi (0)|Ti = 1, t = 0] =
Ca
E [Yi (0)|Ti = 0, t = 1] − E [Yi (0)|Ti = 0, t = 0],
podemos escrever a média contrafatual como:
(H1 )
n
so
E [Yi (0)|Ti = 1, t = 1] = E [Yi (0)|Ti = 1, t = 0]+
{E [Yi (0)|Ti = 0, t = 0] − E [Yi (0)|Ti = 0, t = 0]}

iei

de
Inserindo esse resultado na expressão anterior do EMTT, temos
an
que:
gr
EMTT = {E [Yi (1)|Ti = 1, t = 1] − E [Yi (0)|Ti = 1, t = 0]}−
sa
{E [Yi (0)|Ti = 0, t = 1] − E [Yi (0)|Ti = 0, t = 0]} = βDD
Ca
Portanto, , com a hipótese H1, o estimador de DD identifica o
EMTT. Essa hipótese, portanto, permite usar a diferença entre a
variação efetivamente observada para o grupo de tratamento e a
n
variação fornecida pelo grupo de controle para capturar o efeito
causal da intervenção sobre os tratados!
so
iei

de
Os grupos podem ou não partir de um mesmo ponto;
O que o método de fato requer é que a variação temporal do
an
que ocorre com o grupo de controle antes e depois do programa
reflita corretamente a variação temporal do grupo de tratados na
gr
situação contrafatual de não tratamento;
sa
Forma equivalente de mostrar o estimador:
Ca
βDD = {E [Yi |Ti = 1, t = 1] − E [Yi |Ti = 0, t = 1]}−
{E [Yi |Ti = 1, t =] − E [Yi |Ti = 0, t = 0]}

(3)
n
Ou seja, a diferença das diferenças de médias existentes entre
so
os dois grupos no período anterior e posterior ao programa (não

requer que o segundo termo seja igual a 0);
iei

de
Relembre o Exemplo do curso de treinamento profissional (o sa-
an
lário médio dos tratados, que era de R$ 1.000 um pouco antes
do início do curso e de R$ 1.100 alguns meses após o programa);
gr
Agora, possuímos informações sobre o grupo de não tratados no
sa
período anterior ao programa;
A Tabela a seguir contém os valores dos salários médios dos gru-
Ca
pos de tratamento e controle – (T1 , T0 ), respectivamente – para
os períodos anterior e posterior ao programa – (t0 , t1 ), respecti-
vamente. A notação Ȳ representa a média amostral do salário,
n
e ∆ significa o operador de diferença;
so
iei

de
an
gr
sa
Duas formas: i) diferença das médias entre os períodos antes e de-
pois do programa para cada grupo e, posteriormente, calculando-
Ca
se a segunda diferença entre os grupos; ii) subtração das médias
salariais entre os grupos de tratamento e controle para cada pe-
ríodo de tempo e, a seguir, pela diferença dessa primeira subtra-
n
ção entre os períodos anterior e posterior ao programa;
so
Impacto: R$ 50, ou 5% em média para os tratados relativamente

à situação deles antes do início do programa;
iei

Graficamente ... é baseada na hipótese de que a trajetória do
de
salário médio do grupo de tratamento na ausência do programa
é igual à trajetória dessa variável para o grupo de controle após
an
a intervenção;
gr
sa
Ca
n
so
iei

Diferenças em Diferenças em regressões
de
Suponhamos inicialmente que só possuímos observações para dois
períodos de tempo, um anterior e o outro posterior ao programa:
an
Yit = α + γTi + θdtt + β(Ti .dtt ) + it (4)
gr
onde: t denota o período de tempo no qual o indivíduo i se en-
sa
contra; Ti é uma variável binária que assume valor unitário se o
indivíduo é tratado e valor nulo caso contrário; dtt , binária, assu-
Ca
mindo valor 1 no período pós-programa e valor 0 caso contrário;
it representa distúrbio aleatório com média nula
O termo de interação capta o que ocorreu especificamente com
n
o grupo de tratamento no período pós-programa, ou seja, se a
so
média da variável de resultado para esse grupo tornou-se diferente
após a intervenção. É o parâmetro β, portanto, que mede o efeito
iei
do programa;

de
Com base no arcabouço de resultados potenciais.
an
Na ausência da intervenção, a média da variável de resultado é
expressa por:
gr
sa
Yit (0) = α + θdtt + it (5)
Ca
Para a situação de tratamento a média é dada por:
Yit (1) = α + γ + θdtt + βdtt + it = Yit (0) + γ + βdtt (6)

n
so
iei

de
Introduzindo as equações (5) e (6) na expressão para variável de
resultado observada Yit = Ti Yit (1) + (1 − Ti )Yit (0), obtemos:
an
gr
Yit = Ti [Yit (0) + γ + βdtt ] + (1 − Ti )Yit (0) = (7)
sa
Yit (0) + γTi + βTi dtt = α + γTi + θdtt + β(Ti dtt ) + it
Ca
A expressão (5) especifica a variável de resultado na situação de
não tratamento tanto para os controles quanto para os tratados
ao longo do tempo;
n
O parâmetro θ impõe que a variável de resultado na ausência da
so
intervenção varia entre os períodos de tempo da mesma forma
para os não tratados e para os tratados;
iei

de
an
Equações (5) e (6) têm formato aditivo ... permite o isolamento
gr
do efeito de interesse pela operacionalização da dupla diferença
que caracteriza o método;
sa
Vamos escrever as médias da variável de resultado para os se-
Ca
guintes casos: n
so
iei

de
(A) Tratados, pré-programa:
an
E [Y |T = 1, t = 0] = α + γ + E [|T = 1, t = 0] = α + γ + E [10 ]
(B) Tratados, pós-programa:
gr
E [Y |T = 1, t = 1] = α+γ+θ+β+E [|T = 1, t = 1] = α+γ+θ+β+E [11 ]
sa
(C) Controles, pré-programa:
Ca
E [Y |T = 0, t = 0] = α + E [|T = 0, t = 0] = α + E [00 ]
(D) Controles, pós-programa:

n
so
E [Y |T = 0, t = 1] = α + θ + E [|T 01, t = 1] = α + θ + E [01 ]

iei

de
Calculando agora a dupla diferença {(B) − (A)} − {(D) − (C )},
an
temos que:
gr
{(α + γ + θ + β + E [11 ]) − (α + γ + E [10 ])}− (8)
sa
{(α + θ + E [01 ]) − (α + E [00 ])} =
Ca
{α + β + E [11 ] − E [10 ]} − {θ + E [01 ] − E [00 ]} =
β + {(E [11 ] − E [10 ]) − (E [01 ] − E [00 ])} = β
n
Portanto, conseguimos isolar o parâmetro de interesse, usando
so
H1 e o caráter aditivo;
iei

de
Uma das utilidades do modelo de regressão para expressar o mé-
an
todo de DD é que ele facilita a inclusão de controles para ca-
racterísticas observáveis. A introdução dessas características é
muitas vezes importante, já que elas podem absorver parte do
gr
efeito que, na ausência delas, seria equivocadamente atribuído à
intervenção;
sa
Quando a variável de resultado é afetada pelas características ob-
Ca
serváveis, a introdução delas no modelo também pode permitir
estimativas mais precisas do efeito de interesse, já que elas ten-
dem a absorver parte da variabilidade da variável de resultado;
n
0
so
Yit = αXit + γTi + θdtt + β(Ti .dtt ) + it (9)
iei

de
Uma das implicações da inclusão das características observáveis
no modelo é que a análise passa a ser condicionada a Xit ;
an
A equação (9) pode ser expandida para o caso em que há dis-
ponibilidade de informações para vários períodos de tempo (por
gr
exemplo, meses ou anos). Seja então t = 1, 2, ..., τ , onde τ ≥ 3
representa o número máximo de períodos para o qual temos in-
sa
formações para os grupos de tratados e controles. A intervenção
o corre em 1 < t0 < τ ;
Ca
Portanto, para múltiplos períodos ...
0
n
Yit = αXit + γTi + θt + βDit + it (10)
so
O efeito causal do programa também será capturado pelo parâ-

metro β;
iei

de
Uma das principais vantagens do método de DD é que ele é capaz
an
de controlar para as influências sobre a variável de resultado das
características não observáveis dos indivíduos que sejam fixas no
gr
tempo;
O método de DD é capaz de levar em conta a associação entre
sa
a variável de resultado, a participação no programa e as caracte-
rísticas não observáveis dos indivíduos que sejam invariantes no
tempo;
Ca
Portanto, como o problema do viés de seleção pode surgir da
n
associação entre essas dimensões, o método de DD oferece uma
ferramenta poderosa para contornar esse problema;
so
iei

de
an
Utilizar uma especificação da regressão linear tipicamente em-
pregada em modelos de dados de painel. Nesse tipo de modelo,
a expressão para a variável de resultado inclui o efeito fixo in-
gr
dividual, que representa um elemento que absorve a influência
de qualquer característica (observável ou não) fixa no tempo do
sa
indivíduo sobre a variável de resultado;
Ca
0
Yit = αXit + θt + βDit + µi + it (11)
onde µi representa o componente específico do indivíduo i que
n
não varia no tempo.
so
iei

Desvantagens
de
Tem dificuldade de lidar com casos em que alguma mudança tem-
porária num fator não observável dos indivíduos afeta a decisão
an
de participar no programa;
gr
Por exemplo, muitos trabalhadores que fazem cursos de treina-
mento experimentaram choques negativos e temporários de renda
sa
um pouco antes do começo do programa;
Se essa mudança temporária não ocorrer com o grupo de controle,
Ca
o procedimento de DD estimará o impacto do programa de forma
incorreta;
n
O estimador de DD não identificará o efeito de interesse quando
so
houver algum tipo de característica não observável que varie no
tempo e afete simultaneamente a variável de resultado e a parti-
iei
cipação no programa;

Exemplo:
de
Mudanças no salário mínimo afetam o emprego? (Kard e Krueger,
1994)
an
Em Abril de 1992, o estado de New Jersey aumentou o salá-
gr
rio mínimo de $ 4.25 para $ 5.05. Os autores coletaram dados
de emprego para os restaurantes fast food em New Jersey para
sa
Fevereiro de 1992 e Novamente para Novembro de 1992;
Ca
Conduzidos em 400 lojas fast food em New Jersey (NJ) e Pennsyl-
vania (PA);
n
so
iei

Resultados Potenciais:
Y1ist : emprego no restaurante i e período t se existe um alto
de
salário mínimo estadual (NJ);
Y0ist : emprego no restaurante i e período t se existe um baixo
an
salário mínimo estadual (PA);
O arcabouço central do setup de DD é a estrutura aditiva para
gr
os outcomes potenciais no estado não tratado. Ou seja:
sa
E [Y0ist |s, t] = αs λt
Na ausência do aumento do salário mínimo, o emprego depende
Ca
de forma linear dos dois fatores aditivos: um efeito específico do
estado invariante no tempo (αs ) e um efeito comum específico
do tempo (λt );
n
Para o indivíduo i no estado s e tempo t, onde Dit representa o
so
estado de alto salário mínimo e β o efeito do tratamento, pode-

mos descrever o outcome observado usando a regressão:
iei
Yist = αs + λt +it +ist

de
As expectativas condicionais são:
an
E [Yist |s = NJ, t = Nov ] = αNJ + λNov + β
E [Yist |s = NJ, t = Fev ] = αNJ + λFev
gr
E [Yist |s = PA, t = Nov ] = αPA + λNov
sa
E [Yist |s = PA, t = Fev ] = αPA + λFev
Ca
Aplicando o estimador de DD, temos:
n
so
{(αNJ +λNov +β)−(αNJ +λFev )}−{(αPA +λNov )−(αPA +λFev )} = β

iei

de
an
gr
sa
Ca
n
so
iei

de
O modelo de DD em dois períodos pode ser estimado como:
an
Yist = α + γTreats + λPostt + δ(Treat ∗ Post)st + ist
gr
Onde, em Kard e Krueger (1994):
sa
α: média do emprego na PA em Fevereiro;
Ca
γ : Diferença entre NJ e PA em Fevereiro;
λ: Diferença entre Novembro e Fevereiro para PA;
n
δ: estimador DD;
so
iei

Análise Gráfica
de
an
gr
sa
Ca
n
so
iei

de
Yist = α + γNJs + λdt + δ(NJs ∗ dt ) + ist
an
gr
sa
Ca
n
so
iei

de
an
gr
sa
Ca
n
so
iei

de
an
gr
sa
Ca
n
so
iei

de
an
gr
sa
Ca
n
so
iei

de
an
Normalmente, os erros-padrão são clusterizados ao nível da uni-
dade observacional para levar em consideração a correlação serial
gr
(ver Bertrand, Duflo e Mullainathan, 2004);
Podemos também estudar tratamentos com diferenças na inten-
sa
sidade de tratamento (por exemplo, diferentes aumentos dos sa-
Ca
lários em diferentes estados);
Ao invés do tempo, podemos também agrupar os dados por co-
orte ou outras características (setores, regiões, etc);
n
so
iei

de
an
Ainda, como vimos anteriormente, podemos controlar por um
gr
conjunto de características observáveis na estratégia de DD (uma
vez que são independentes do tratamento, o ep deve cair);
sa
Yit = αi + λt + βDit + θX0it + it
Ca
n
so
iei

de
Tendências Paralelas
Na ausência do tratamento, o grupo de tratamento teria experi-
an
mentado a mesma variação no outcome que o grupo de controle
teria;
gr
Apesar de não ser diretamente testável, podemos checar as in-
sa
formações pré tratamento para investigar se as tendências são
similares;
Ca
Atenção: mesmas tendências não implicam que tratamento e
controle teriam os mesmos níveis do outcome;
n
Importante saber se existem outras intervenções acontecendo
(substitutas ou complementares) ao mesmo tempo de tratamento;
so
Disponibilidade de dados, antes da intervenção;

iei

de
an
gr
sa
Ca
n
so
iei

No exemplo anterior:
de
an
gr
sa
Ca
n
so
iei
Observando dados ao longo do tempo: a hipótese de tendências

paralelas parece não ser válida neste contexto;
de
Outras formas de checar a validade do desenho DD
Uma forma alternativa de testar a validade da estratégia de iden-
an
tificação DD é adicionar tendência temporais específicas dos esta-
dos na regressão. Com base em Kard e Krueger (1994), podemos
gr
estimar o seguinte modelo:
sa
Yist = αi + λt + γst + βDit + θX0it + it
Ca
Permite os estados tratados e controle seguirem diferentes ten-
dências. É esperado que β não se altere com este exercício;
Checar o balanceamento das covariadas usando dados do período
n
inicial;
so
Usar a imaginação com relação aos testes de robustez para con-

vencer sobre o impacto;
iei

de
an
1 Dados em Painel
gr
sa
3 Event Studies Ca
n
so
iei

de
Um Event Study é uma análise empírica que estima efeitos di-
nâmicos do tratamento, tomando a vantagem de uma base de
dados longitudinal;
an
O objetivo é fornecer evidências que as causas acontecem antes
gr
das consequências e não vice-versa. Baseado na ideia de Causa-
lidade de Granger (1969);
sa
A estratégia usa leads (efeitos antecipatórios) e lags efeitos pós
tratamento para ver se o tratamento anterior prediz o resultado
Ca
enquanto o tratamento futuro não. Ou seja, os leads não devem
importar;
n
Incluir leads na especificação DD é uma forma fácil de analisar
so
tendências pré tratamento. Os lags são incluídos para analisar se
o efeito do tratamento muda ao longo do tempo, após a atribui-
iei
ção do tratamento;

Portanto, o método de DiD pode ser modificado e permitir o
de
efeito diferir em cada período de tempo. Ou seja, podemos esti-
mar dynamic treatment effects!!
an
Permite verificar o efeito desaparecendo ou demorando para
aparecer!
Uma maneira comum de fazer isso é primeiro gerar uma variável
gr
de tempo centralizada, que é apenas a variável de tempo original
menos o período de tratamento:
sa
Portanto, o primeiro período com o tratamento implementado é
t = 1;
Ca
Então, interage-se a variável de tratamento com um conjunto de
variáveis binárias para cada período de tempo:
n
Y = αg +αt +β−T1 Treated +β−T1 −1 Treated +...+β−1 Treated +
so
β1 Treated + ...βT2 Treated + gt

onde: T1 períodos antes do tratamento e T2 períodos após o
iei
tratamento. O último período antes do tratamento é excluído.

de
an
Importante ter em mente, quando estamos estimando efeitos di-
gr
nâmicos:
Regular DiD tem a vantagem de usar todos os dados após o tra-
sa
tamento. O efeito de cada período usa dados daquele período;
A interpretação dos resultados é relativo ao período omitido;
Ca
Apresentação dos resultados graficamente;
n
so
iei

de
A regressão estimada é a seguinte:
q
an
X
Yit = αi + αt + βj Di,t+j + it
j=−m
gr
Tratamento ocorre no período 0;
sa
Inclui q leads ou efeito antecipatório;
Inclui m lags ou efeitos pós tratamento;
Ou também:
Ca
n
−m q
so
X X
Yit = αi + αt + γj Dit + j Dit + it
τ =−2 τ =0
iei

Exemplo
de
Rocha et al, 2019. Does Universalization of Health Work? Evidence
from Health Systems Restructuring and Expansion in Brazil,
an
WP-LACEA
gr
sa
Ca
n
so
iei

Exemplo
de
Autor, 2003. Outsourcing at Will: The Contribution of Unjust
Dismissal Doctrine to the Growth of Employment Outsourcing, JLE
an
gr
sa
Ca
n
so
iei

de
an
gr
Aplicação!!
sa
Ca
n
so
iei

Exemplo: Changing the Pyramids: The Impact of Broadband Internet on Firm
de
Employment Structures (Barbosa, Casagrande, Maier e Trevisan (WP 2021))
an
Especificação DD:
yit = βClosei × Postst + δi + ηst + it ,
gr
sa
Ca
n
so
iei

de
an
Especificação DD:
gr
sa
Ca
n
so
iei

Event Study :
de
J
X
yit = βk Closei × Dk + δi + ηst + uit ,
an
k=−j
gr
sa
Ca
n
so
iei

de
Event Study :
an
gr
sa
Ca
n
so
iei

de
Event Study :
an
gr
sa
Ca
n
so
iei

Advances in Difference-in-Differences
de
an
Avanços metodológicos recentes discutem algumas advertências
nas especificações padrão:
gr
Homogenous vs heterogeneous treatment eects.
Staggered designs (multiple periods and variation in treatment
sa
timing)– provavelmente fornecerá estimativas tendenciosas em es-
pecificações simples. O método de decomposição de Goodman-
Ca
Bacon (2021) esclarece o papel dos pesos de coorte usados para
calcular a média dos efeitos do tratamento;
Alternate DD estimators: Sun and Abraham (2020), de Chaise-
n
martin and D’Haultfoeuille (2020), Borusyak, Jaravel and Spiess
so
(2021), Callaway and Sant’Anna (2021).
iei

de
Referência: Roth et al (2023) - What’s trending in difference-in-
differences? A synthesis of the recent econometrics literature;
an
DiD canônico:
Existem dois períodos de tempo e dois grupos: no primeiro período
gr
nenhum é tratado e no segundo período algumas unidades são
tratadas (o grupo tratado) e outras não (o grupo de comparação);
sa
Hipótese de identificação: o outcome médio entre as unidades
tratadas e de comparação teria seguido “tendências paralelas” na
ausência do tratamento;
Ca
O tratamento não tem efeito causal antes da implementação (sem
antecipação);
Juntas, estas hipóteses nos permitem identificar o average treat-
n
ment effect on the treated (ATT);
so
Consistentemente estimado via two-way fixed effects (TWFE) e

erros-padrão clusterizados fornecem inferência válida;
iei

de
an
Na prática, as aplicações de DiD normalmente não atendem a
gr
todos os requisitos da configuração canônica do DiD;
sa
Quais hipóteses do modelo canônico são relaxadas:
Múltiplos períodos e variação no período de tratamento;
Ca
Potenciais violações das tendências paralelas;
n
so
iei

de
Múltiplos períodos e variação no período de tratamento:
Existem mais de dois períodos de tempo as unidades são tratadas
an
em diferentes pontos no tempo;
Os coeficientes do modelo TWFE parão podem não representar
gr
uma simples média ponderada dos efeitos do tratamento em nível
de unidade quando os efeitos do tratamento podem ser hetero-
sa
gêneos;
Regressões TWFE fazem tanto uma comparação “limpa” entre as
Ca
unidades treated e not-yet-treated bem como uma comparação
“forbidden” entre unidades que já estão tratadas;
Quando os efeitos do tratamento são heterogêneos, essas compa-
n
rações “forbidden” levam potencialmente a desvantagens graves,
so
como os coeficientes TWFE tendo o sinal oposto de todos os
efeitos do tratamento em nível individual devido a problemas de
iei
“ponderação negativa”;

de
an
gr
Estratégias para contornar estas limitações;
Um tema comum é que estes novos estimadores isolam compara-
sa
ções “limpas” entre grupos tratados e ainda não tratados e depois
agregam-nas utilizando pesos especificados pelo usuário para es-
timar um parâmetro alvo de interesse econômico;
Ca
n
so
iei

de
an
Tendências não-paralelas: possibilidade que a hipótese de ten-
gr
dências paralelas pode ser violada:
Uma vertente se concentra onde a hipótese se mantém apenas con-
sa
dicional em covariadas observadas, e propõe estimadores que são
válidos sob uma suposição de tendências paralelas condicionais.
Ca
No entanto, ainda assim pode ser violadas devido time-varying
unobserved confounding factors;
n
so
iei

Limitações dos Modelos TWFE
de
an
Embora as regressões TWFE são workhorse models para adoção
escalonada do tratamento, eles apresentam estimativas consis-
gr
tentes apenas sob a suposição de homogeneidade no efeito do
tratamento;
sa
Goodman-Bacon (2021) mostra que o efeito estimado via TWFE
Ca
é uma média ponderada de todas as comparações possíveis DiD
2x2 entre grupos de unidades tratadas em diferentes pontos no
tempo;
n
Se os efeitos do tratamento são homogêneos entre os grupos
tratados e entre os períodos de tempo, o estimador TWFE é
so
consistente para o ATT;

iei

Pacotes
de
an
gr
sa
Ca
n
so
iei

de
an
gr
Aplicações!!
sa
Ca
n
so
iei

Referências
de
an
Básica: Livro Texto – Avaliação Econômica de Projetos Sociais
gr
Cap. 4;
sa
Complementar: Avaliação de Impacto na Prática - Banco Mun-
dial
Ca
Cap. 7;
Angrist, J. D., Pischke, J. S. (2009). Mostly harmless econome-

n
trics: An empiricist’s companion
so
Cap. 5;
iei

de
Goodman-Bacon, Andrew, 2021. Difference-in-differences with
variation in treatment timing. J. Econometrics 225 (2), 254–277.
an
Borusyak, Kirill, Jaravel, Xavier, Spiess, Jann, 2021. Revisiting
Event Study Designs: Robust and Efficient Estimation.
gr
Callaway, Brantly, Sant’Anna, Pedro H.C., 2021. Difference-in-
Differences with multiple time periods. J. Econometrics 225 (2),
sa
200–230.
Ca
de Chaisemartin, Clément, D’Haultfoeuille, Xavier, 2020. Two-
Way Fixed Effects Estimators with Heterogeneous Treatment Ef-
fects. Amer. Econ. Rev. 110 (9), 2964–2996.
n
Sun, Liyang, Abraham, Sarah, 2021. Estimating dynamic treat-
ment effects in event studies with heterogeneous treatment ef-
so
fects. J. Econometrics 225 (2), 175–199.

iei

Aula 6 - DiferenÃ As em DiferenÃ As e Event Study

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 6 - DiferenÃ As em DiferenÃ As e Event Study

Enviado por

Direitos autorais:

Formatos disponíveis

de

Desenvolvimento Regional e Políticas

Aula - Diferenças em Diferenças e Event-Study

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 1 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 2 / 84

unidades ao longo do tempo;

Precisamos entender como funcionam os dados em painel!!

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 3 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 4 / 84

n 1 0 yn,1 xn,1 ...

n 3 1 yn,3 xn,3 ...

O problema é que nós não observamos a habilidade dos indiví-

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 7 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 8 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 9 / 84

o componente individual invariante (αi ) e o efeito constante no

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 10 / 84

Subtraindo (B) de (A):

No modelo (C), o estimador “desvio de médias”, também conhe-

cido como “within-estimator” é o mesmo que estimar um modelo

homocedásticos), FE é mais eficiente que FD. Se ∆uit são não

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 12 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 13 / 84

características não observáveis dos indivíduos, especificamente

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 14 / 84

LaLonde (1985), Card e Krueger (1994);

Desde então, tornou-se o método quase experimental mais popu-

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 15 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 16 / 84

O método de DD procura resolver isso levando em considera-

ção as diferenças de características preexistentes entre tratados e

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 18 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 19 / 84

observáveis dos indivíduos que são invariantes no tempo;

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 20 / 84

bos os grupos vinham reagindo de forma similar a todo e qualquer

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 21 / 84

Teste com base nos dados do período pré-programa;

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 22 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 23 / 84

mudanças de qualquer natureza que ocorram após o programa;

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 24 / 84

Nesse estimador está a hipótese de que a variação temporal na

ação contrafatual do grupo tratado;

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 25 / 84

E [Yi |Ti = 1, t = 1] = E [Yi (1)|Ti = 1, t = 1]

E [Yi |Ti = 0, t = 1] = E [Yi (0)|Ti = 0, t = 1]

E [Yi |Ti = 0, t = 0] = E [Yi (0)|Ti = 0, t = 0]

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 26 / 84

pela diferença na média dos resultados potenciais para os tratados

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 27 / 84

{E [Yi (0)|Ti = 0, t = 0] − E [Yi (0)|Ti = 0, t = 0]}

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 28 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 29 / 84

{E [Yi |Ti = 1, t =] − E [Yi |Ti = 0, t = 0]}

os dois grupos no período anterior e posterior ao programa (não

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 30 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 31 / 84

Impacto: R$ 50, ou 5% em média para os tratados relativamente

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 32 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 33 / 84

Prof. Dieison Casagrande Desenvolvimento Regional e Pol. Públicas 34 / 84

Yit (1) = α + γ + θdtt + βdtt + it = Yit (0) + γ + βdtt (6)

Yit (1) = α + γ + θdtt + βdtt + it = Yit (0) + γ + βdtt (6)

E [Y |T = 0, t = 1] = α + θ + E [|T 01, t = 1] = α + θ + E [01 ]

Yist = αs + λt +it +ist

β1 Treated + ...βT2 Treated + gt

yit = βClosei × Postst + δi + ηst + it ,