Técnicas de Análise de Causalidade

TÉCNICAS PARA AVALIAÇÃO DO IMPACTO DE INTERVENÇÕES
Francisco Gildemir Ferreira da Silva
CAEN/UFC
Esta nota toma como base os livros de Lee (2005) e Angrist and Pischke (2009). As considerações
em relação a políticas setoriais de transportes tomam como base Schiff et al. (2017) que
resumem os métodos com aplicações em casos de transporte. A figura 4, adaptada de Schiff et
al. (2017) resume as técnicas utilizadas para medir impactos de intervenções e quando elas são
aplicáveis.
Figura 4: Técnicas para medir impacto de intervenções (adaptado de Schiff et al.; 2017).
As seguintes questões devem ser abordadas e bem definidas em qualquer análise empírica dos
efeitos causados por uma intervenção ou tratamento Schiff et al. (2017): o tipo de tratamento,
a unidade de observação, o conjunto de indicadores que serão impactados, um grupo de
controle ou contrafctuais, e a estimação do efeito do tratamento. Dentre estas questões, a
definição do contrafactual é de vital importância para estimar os efeitos das intervenções. O
contrafactual nos ajuda a responder a questão de como seria o impacto caso a intervenção não
fosse implementada. O contrafactual representa o estado do sistema sem a intervenção. Assim,
sem um contrafactual não possível medir os efeitos de uma intervenção.
Um forma simples de definir contrafactuais é considerar as unidades de observação que não

sofreram intervenção, podendo ser antes ou depois da intervenção, como grupo de controle.
Tais contrafactuais simplistas podem ser razoáveis se as condições forem relativamente
estáticas, ou seja, se outros fatores além da intervenção tiverem impactos mínimos nos
resultados ao longo do tempo, ou se estivermos confiantes de que as características dos grupos
de tratamento e controle são semelhantes (Schiff et al., 2017).
O problema da estimação dos efeitos do tratamento é que para qualquer unidade podemos
observar o impacto quando a unidade recebe ou não o tratamento, mas não podemos observar
o resultado potencial no outro caso, mesmo que os dados tenham sido obtidos a partir de um
experimento aleatório (Schiff et al., 2017). Assim, deve-se fazer suposições que nos permitam
estimar os efeitos do tratamento a partir do que pode ser observado sobre cada unidade. Estas
premissas permitem-nos definir um contrafactual e estimar o efeito do tratamento.
O Experimento Randomizado, onde unidades são selecionadas e observadas em ambiente

controlado, para verificar a diferença entre um grupo que sofreu intervenção e outro que não
sofreu, trata-se da técnica mais consagrada para estudos e inferência de causalidade. A principal
vantagem da aleatorização é que ela permite diferenciar entre associações devido aos efeitos
causais do tratamento e associações devido à alguma variável que é uma causa comum tanto
do tratamento quanto das variáveis respostas (Livro da Bill Shipley). Contudo, em muitos
estudos de avaliação do impacto de interveções não é possível realizar tal experimento, seja
devido à questões legais, éticas ou práticas (Schiff et al., 2017). O caso de transportes é um
desses, precisando de auxílio de técnicas apresentadas nos quadrados da parte inferior na Figura
4. Tratam-se de técnicas aplicáveis a dados observacionais, onde ocorrem intervenções que se
caracterizam por quase-experimentos ou experimentos naturais1.
Os métodos definidos na parte inferior da Figura 4 têm como finalidade estabelecer relações
causais entre o tratamento e o seu impacto, e.g. como melhorar as condições de travessia de
pedestres irá reduzir atropelamento no meio urbano. Eles são idealizados para estimar os afeitos
das intervenções para o caso de dados observacionais, quando as intervenções são idealizadas
ou implementadas, mas sem que antes se pense em realizar uma análise ex-post. Isto quer dizer
que a análise empírica de infererência causal deve ser realizada com os dados que estejam
disponíveis ou dados não experimentais. Desta forma, a análise pode ser problemática devido à
algum viés de tratamento ou dificuldade de definir grupos de controle quando as unidades de
tratamento e controle não são aleatorizadas (Schiff et al., 2017). O principal problema aqui é
que alguns fatores podem influenciar tanto o tratamento quanto o seu impacto (e.g. fatores
confundidores) ou somente o impacto da intervenção. Neste caso, a estimativas dos efeitos
serão viesadas ou imprecisas caso estes fatores não sejam considerads ou observados.
A figura 5 apresenta diferentes situações em que os métdos para dados observacionais são
aplicados. O método mais simples quando se conhece os fatores confudidores e os dados estão
em seção transversal é o uso de regressão linear múltipla. Neste caso, os efeitos são estimados
a partir de estimadores de míminimos quadrados (conhecidos como OLS - Ordinary Least Square
Estimators). A figura 5a representa o grafo da relação causal para este caso, em que X representa
o tratamento, a matriz W os fatores confundidores e Y a resposta ao tratamento. Conforme Lee
(2005) na ausência de endogeneidade e relações não lineares, estimadores de mínimos
quadrados são adequados para medir relações causais médias em modelos lineares. A Equação
1 a seguir apresenta o modelo linear para este caso:
𝑦 = 𝛽 + 𝛽 𝑋 + 𝑾𝒊 . 𝜷𝒘 + 𝜀 (1)
Onde:
1
Se não for possível a atribuição aleatória pura de unidades aos grupos de tratamento e controle, pode
ser possível estabelecer uma quase-experimentação através da escolha cuidadosa da forma como a
intervenção é implementada. Por exemplo, antes de uma política ser aplicada a todas as áreas geográficas,
ela pode ser experimentada em áreas selecionadas escolhidas aleatoriamente ou com base em
características que possam ser observadas. Isto pode mitigar as preocupações sobre a atribuição
aleatória, enquanto ainda define grupos de tratamento e controle para estimar os efeitos do tratamento
(Schiff et al., 2017).
Os outros métodos apresentados na Figura 5 têm o objetivo de controlar os fatores
confundidores que causam endogendeidade (cov(i ,Xi) ≠ 0) e, portanto, viés nos estimadores
de mínimos quadrados. A endogeneidade pode surgir de erros nas variáveis independentes, má
especificação, ausência de uma covariável importante, entre outros. Em especial, a
endogeneidade é causada por fatores não observados (i.e., quando não é possível observar os
fatores representados por W na Figura 5a) que têm relação com o tratamento e a variável
resposta. Neste caso, o tipo de análise depende da disponibilidade de dados.
De qualquer forma, para análise dos efeitos é necessário que as unidades de observação nos
grupos de controle e tratamento compartilhem caracteríticas similares. Isto significa, que todas
as unidades de observação devem ser elegíveis para tramento, podendo ser tratadas ou não.
Contudo, na impossibilidade de construir contrafactuais ricos, tal como apresentados em
Morgan e Winship (2014), utiliza-se o método de escore de propensão para associação
(Propensity Score Mathing - PSM). A Figura 5b apresenta o grafo com as relações de causalidade
quando este método é aplicável. Este método consiste em duas fases (Boarnet 2007): a primeira
com intuito de estimar a probabilidade (um escore de propensão é associado a cada unidade)
de uma dada unidade ser tratada com base em características, variáveis X, que influenciam o
tratamento, e a segunda que consiste em associar unidades tratadas e não tratadas que
apresentem o escores de propensão similares, permitindo que os impactos da intervenção
sejam comparados entre os dois grupos de controle e tratamento. Uma limitação relevante
deste método é que todas as variáveis confundidoras, X, precisam ser consideradas, exigindo
uma grande amostra para estimação dos efeitos das intervenções.
Quando o analista conta com dados longitudinais sobre cada unidade de observação (também
conhecido como dado em painel), recomenda-se de acordo com Schiff et al. (2017) a regressão
em painel com efeitos fixos podendo ou não se ter variáveis de interação com o tratamento e
controle. A Figura 5c apresenta o grafo para este caso. Assume-se que cada unidade de
obervação, ou indivíduo, tem uma característica fixa (e.g., comportamento no trânsito que pode
ser específico para cada indivíduo ou região de observação) que não se altera ao longo do tempo
ou que todas as unidade de observação têm alguma característica (e.g., desemprego que reduz
o poder aquisitivo e a taxa de motorização de todos os indivíduos de um país) comum que varia
ao longo do tempo. Estes fatores não observados que podem causar endogeneidade podem ser
eliminados a partir da técnica da regressão com efeitos fixos. Os dados em painel podem
também ser usados para controlar o efeito de eventos que ocorrem antes da intevenção e que
podem influenciar os efeitos da mesma.
Alternativamente, pode-se optar por regressão diferença em diferença (DD) juntamente com
outras variáveis de controle disponíveis, caso o painel tenha poucas unidades de tempo para a
análise. Este é o caso da Figura 5d e 5e. O tempo no diagrama representa fatores que podem
fazer com que o efeito do tratamento varie ao longo do tempo. Já o nó “in-treated group” no
grafo da Figura 5e indica que o efeito do tratamento não pode ser estimado apenas analisando
os efeitos nas unidades tratatadas, devendo-se definir um grupo de controle. A racionalidade
deste método é que se os grupos de controle e tratamento tem tendências similares, um grupo
pode operar como um contrafactual do outro. Assim, subtrair a variação da variável resposta Y
ao longo tempo entre os grupos de tratamento e de controle é suficiente para estimar o efeito
do tratamento, mesmo quando existem fatores não observados que podem viesar as
estimativas da análise de regressão (Schiff et al., 2017). Quandos os grupos de controle e
tratamento nao apresentam tendências similares em relação a variável resposta, o efeito da
intervenção pode ser controlado incluindo outros fatores que influenciam o resultado, caso
possam ser observados. Além disso, o analista pode eliminar unidades de controle ruins usando
o PSM, para melhorar a equivalência das tendências dos grupos de tratamento e de controle
pré-intervenção.
Para o caso em que se tem observações antes e depois do tratamento para cada unidade de
observação, o modelo de regressão DD para estimar os efeitos do tratamento é mostrado na
Equação 2, abaixo, onde a diferença 𝑦 𝑦( ) entre os resultados da intervenção antes e
depois para cada unidade é relacionada à variável dummy Di que indica se a unidade i foi tratada
e a diferença Xi nas variáveis adicionais de controle.
𝑦 𝑦( ) = 𝛼 + 𝛽𝐷 + ∆𝑿𝒊 . 𝜷𝒙 + 𝜀 (2)
Outro modelo de regressão pode ser definido quando não se tem observações antes e depois
da intervenção para o mesmo conjuto de unidades observacionais. Neste caso se tem dados
transversais repetidos, ou seja, quando as observações pré e pós-intervenção não são feitas no
mesmo conjunto de unidades dentro de cada seção transversal. A intuição aqui é que, se as
unidades forem retiradas aleatoriamente da mesma população, as unidades da seção
transversal pré-intervenção podem ser usadas como "substitutos" para unidades nos grupos
tratados e de controle na seção transversal pós-intervenção (Stock e Watson 2003).
Em análise de intervenções em transportes é comum o fenômeno da endogeneidade. Por

exemplo, o investimento em infra-estrutura de transporte pode gerar produtividade, ao mesmo
tempo em que invetimentos podem ocorrer com maior frequência em áreas com maior
produtividade (Schiff et al., 2017). Ou seja, possivelmente existem fatores omitidos que
influenciam tanto o tramento quanto o seu resultado causando uma relação cíclica entre
investimento e produtividade. Essencialmente, em tal caso, a regressão OLS não pode separar
os efeitos que são causados apenas pelo tratamento, versus aqueles causados pelos fatores
omitidos que afetam tanto o tratamento quanto os resultados. O método de variáveis
intrumentais (Instrumental variables - IV) representa uma alternativa ao método DD quando
existem fatores não observados que podem ter efeitos diferentes em unidades observacionais
ao longo do tempo. O método envolve encontrar uma ou mais variáveis (chamadas
'instrumentos') que estão fortemente associadas à(s) variável(s) explicativa(s) de interesse mas
que não afetam diretamente os resultados da intervenção (Khandker 2010). A inserção de
intrumentos, Z, permitem estimar o efeito do tratamento já que estes só estão associadas ao
resultado da interveção, Y, através do tratamento, X. Ou seja, os instrumentos não estão
associados a qualquer fator não observado, W. Uma grande limitação deste método é encontrar
instrumentos que sejam válidos.
Uma técnica alternativa quando o efeito ocorre entre um limiar ou uma linha de corte é utilizar
a Regressão Descontínua (RD). Tal técnica propicia verificar a diferença no limiar da
descontinuidade. Por exemplo, analisar o efeito da fiscalização de velocidade a partir de
observações obtidas nas proximidades de redutores de velocidade. O tratamento é aplicado
com base em alguma caracterítica da unidade de observação (Angrist and Pischke 2009), como
por exemplo, redutores de velocidade são aplicados em segmentos de via que apresentem um
elevado volume de pedestres, acima de um determinado limiar. Neste caso, não é possível
definir grupos de controle e tratamentos com carcaterísticas similares. Portanto, é comum
limitar a análise RD a valores de características em torno do limite de atribuição, e ao interpretar
os resultados devemos ter cuidado para não aplicá-los a unidades com características muito
diferentes das unidades em torno do ponto de corte. A Figura 5g ilustra este caso, em que
“Running-Variable” representa a característica das unidades observação adotada para definir o
tratamento, e “Above-Cutoff” corresponde ao critério de tratamento. O uso deste método
também irá remover o efeito de qualquer outro fator não observado, W na Figura 5f, que
influencie tanto o tratamento quanto o seu efeito.
Além dos métodos descritos, o analista pode observar uma única variável ao longo do tempo,
ou série temporal da variável resposta. Neste caso, não existindo covariáveis observadas e uma
série de tempo longa da variável de impacto, aconselha-se o uso de métodos aplicados a Séries
Temporais Interrompidas (Schiff et al., 2017). Assim, utiliza-se regressões de séries temporais
com uma variável dummy para a ocorrência da intervenção e a série temporal da variável
resposta para estimar o tratamento. Conforme Bernal et al. (2016), este método é aplicável
quando todas as unidade de observação sofrem o tratamento (i.e., avaliação de políticas globais
como por exemplo a Lei Seca no Brasil, ou intervenções como a integração tarifária em Fortaleza
que atingiu todos os usuários do Sistema de Transporte Público) e se tem uma longa série
temporal da variável resposta.
a) Uso do OLS b) Uso do Propensity Score Matching
c) Uso do Efeito Fixo d) Uso da diferença em diferença
e) Uso da diferença em diferença f) Uso de Variáveis Instrumentais

g) Uso de Regressão descontínua h) Uso de Regressão descontínua
Figura 5: Grafos adequados para técnicas para medir impacto de intervenções (adaptado de
Schiff et al.; 2017). Retirado de https://nickchk.com/causalgraphs.html
A literatura sobre métodos aplicáveis a inferência causal não se reduz aos métodos acima,
embora eles sejam os mais largamente utilizados em pesquisas sociais. Pearl (2010) apresenta
métodos alternativos, destacando-se os métodos Bayesianos, em que é possível estimar os
efeitos da intervenção em estudos antes e depois, quando dados do grupo de controle não estão
disponíveis. A partir do teorema de Bayes é possível ajustar o valor esperado da variável resposta
antes da intervenção com dados após a ocorrência da intervenção. Ou seja, determinar um valor
esperado a posteriori da variável resposta Y após o tratamento X, partindo de uma informação
a priori sobre o valor esperado de Y. Pearl (2010) também discute o método de Equações
Estruturais para construção de contrafactuais e estimação de efeitos diretos e indiretos que
surgem na presença de mediadores. Na prática, conforme indica a Figura 4, potenciais variáveis
confundidoras são tanto observadas como não observadas (Schiff et al., 2017). Assim, uma
combinação de diferentes de técnicas de inferência causal pode ser usada, como será o caso na
aplicação apresentada neste trabalho.
REFERÊNCIAS
ANGRIST, Joshua David; PISCHKE, Jorn-Steffen. Mostly harmless econometrics: an empiricists

companion . Princeton ; New Jersey: Princeton University Press, c2009. xiii, 373 p. ISBN
9780691120355 (broch.).
Baron RM, Kenny DA (1986). “The Moderator-Mediator Variable Distinction in Social

Psychological Research: Conceptual, Strategic, and Statistical Considerations.” Journal of
Personality and Social Psychology, 51(6), 1173–1182.
Imai K, Keele L, Tingley D, Yamamoto T (2010b). “Causal Mediation Analysis Using R.” In HD Vinod
(ed.), Advances in Social Science Research Using R, Lecture Notes in Statistics, pp. 129–154.
Springer-Verlag, New York.
Joksh, H. C (1976). Critique of Sam Peltzman's study: The effects of automobile safety regulation.
"Accident Analysis & Prevention," Volume 8, Issue 2, p. 129-137.
LEE, Myoung-jae. (2005) Micro-econometrics for policy, program, and treatment effects. Oxford:
Oxford University Press, 2005. xiv, 248 p. (Advanced texts in econometrics ). ISBN
9780199267682 (enc.).
Pearl, Judea (2010) "An Introduction to Causal Inference, "The International Journal of
Biostatistics: Vol. 6: Iss. 2, Article 7.DOI:10.2202/1557-4679.1203 Available at:
http://www.bepress.com/ijb/vol6/iss2/7
Pearl, J. and Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect.Basic
Books, New York.
Peltzman, Sam. “The Effects of Automobile Safety Regulation.” Journal of Political Economy, vol.
83, no. 4, 1975, pp. 677–725. JSTOR, www.jstor.org/stable/1830396.
Schiff A, L Wright and T Denne (2017) Ex-post evaluation of transport interventions using causal
inference methods. NZ Transport Agency research report 630. 154pp.
Morgan, Stephen, Winship, Christopher (2014) Counterfactuals and Causal Inference: Models
and Principles for Social Research, Analytical Methods for Social Research Cambridge University
ISBN: 978-1-107-06507-9
Yamamoto T (2013). “Identification and Estimation of Causal Mediation Effects with Treatment
Noncompliance.” Unpublished Manuscript.

Técnicas de Análise de Causalidade

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Técnicas de Análise de Causalidade

Enviado por

Direitos autorais:

Formatos disponíveis

TÉCNICAS PARA AVALIAÇÃO DO IMPACTO DE INTERVENÇÕES

Francisco Gildemir Ferreira da Silva

Um forma simples de definir contrafactuais é considerar as unidades de observação que não

O Experimento Randomizado, onde unidades são selecionadas e observadas em ambiente

Em análise de intervenções em transportes é comum o fenômeno da endogeneidade. Por

a) Uso do OLS b) Uso do Propensity Score Matching

c) Uso do Efeito Fixo d) Uso da diferença em diferença

e) Uso da diferença em diferença f) Uso de Variáveis Instrumentais

ANGRIST, Joshua David; PISCHKE, Jorn-Steffen. Mostly harmless econometrics: an empiricists

Baron RM, Kenny DA (1986). “The Moderator-Mediator Variable Distinction in Social

Você também pode gostar