Escolar Documentos
Profissional Documentos
Cultura Documentos
Daniel Grimaldi
Arthur Pinto
Breno Albuquerque
Felipe Buchbinder
João Paulo Pereira
Leandro Ortiz
Marcus Tortorelli
Ricardo Martini
Presidente do BNDES
Dyogo Henrique de Oliveira
Daniel Grimaldi
Arthur Pinto
Breno Albuquerque
Felipe Buchbinder
João Paulo Pereira
Leandro Ortiz
Marcus Tortorelli
Ricardo Martini
Resumo
MARVIm (Automated Model in R for Verification of Impact) was developed as an agile first
response tool to eventual demands of impact assessments of interest to BNDES. As a way to
showcase the potential of MARVIm, we have implemented a series of assessments to inves-
tigate the same issue: how do the different interventions from BNDES affect the short-term
performance of clients? Ten different types of intervention were assessed with the microdata
from the Annual Social Information Report (Rais) and the Centralized Banking Services S.A.
(Serasa) during the years 2008-2011. The variables of interest analyzed were always gross
revenues, average number of employees, labor productivity, net profit and investment. In
general, there was positive evidence of impact from BNDES on revenue, employment and
investment of micro, small and medium-sized companies (MSME) supported with lines for BK
acquisition (mainly BNDES Finame) and BNDES Card. Relevant impacts on the net income
or labor productivity of clients were not identified. However, the results on the productivity
will probably take more than two years to be observed, requiring an analysis interval longer
than that implemented herein.
Sumário
1. Introdução 9
2. A base de dados 10
3. O Modelo Automatizado em R
para Verificação de Impacto (MARVIm) 12
Referências 42
1. Introdução
Por essa razão, toda política deve ser avaliada, com cômputo de seus custos (in-
clusive os associados à melhor alternativa de aplicação – o custo de oportunidade) e
benefícios. A avaliação também cumpre o fundamental papel de gerar informação para
que políticas sejam aperfeiçoadas. Como importante instrumento de política pública,
impõe-se ao BNDES o desafio de dar escala a suas atividades de monitoramento e ava-
liação, compreendendo o senso de urgência e o rigor metodológico que o tema exige.
1
Em breve o código do MARVIm estará disponível em plataformas adequadas de compartilhamento.
Por ora, se houver interesse, entrar em contato com daniel.grimaldi@bndes.gov.br.
10 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
2. A base de dados
Trabalhos recentes superaram essa limitação fazendo uso dos dados identificados
nas pesquisas anuais do Instituto Brasileiro de Geografia e Estatística (IBGE) –
ver Cavalcanti e Vaz (2017) e Machado e outros (2016), por exemplo. Esse é
certamente o caminho mais adequado a ser explorado no futuro. O uso de tais
informações, entretanto, exige a submissão de projetos, e a execução das estima-
ções precisa ser feita na Sala de Acesso Restrito (SAR) do IBGE. Em função de
todos os procedimentos envolvidos no uso da SAR, o tempo entre o desenho da
avaliação e a extração de resultados pode facilmente atingir a escala de meses.
Não serve, portanto, ao objetivo de construir com agilidade uma primeira resposta.
3. O Modelo Automatizado em R
para Verificação de Impacto (MARVIm)
2
Exemplos desse tipo de avaliação podem ser encontrados em Lazzarini e outros (2015) e Bonomo,
Brito e Martins (2014).
3
Exemplos dessas avaliações podem ser encontrados em Machado e outros (2016), Cavalcanti e
Vaz (2017) e Gadenne (2017).
4
Alguns exemplos de avaliações de impacto já implementadas sob essa lógica no BNDES podem
ser localizados em Machado, Parreiras e Peçanha (2011), Machado e Roitman (2015) e Machado
e outros (2016).
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 13
analisar, o processo é muito mais demorado. Leva-se bastante tempo até que alguma
resposta empírica possa ser produzida a respeito da efetividade de qualquer medida.
Outra importante desvantagem é a quantidade de retrabalho. As bases são tabuladas
apenas para uma avaliação, e os métodos são programados para implementação
apenas em um contexto específico. Com isso, novas demandas requerem novo
processo de tabulação, novos scripts de programação etc. A ausência de rotinas
consistentes, por sua vez, também dificulta a comparação sistemática de resultados.
Dessa forma, será possível operar com razoável agilidade um conjunto básico
de dados e técnicas para construir uma primeira resposta para questões de avaliação
de impacto, o que permite a elaboração de uma visão panorâmica da atuação do
BNDES. Não há pretensão, contudo, de construir a visão final sobre cada tema, dado
que inferir causalidade é algo bastante complexo e precisa ser encarado como tal.5
Em particular, inferir causalidade com base em resultados estatísticos – dirigidos
fundamentalmente por correlação – é algo que deve ser feito com muita cautela6
e não pode ficar simplesmente a cargo de rotinas automatizadas.
Resultado potencial =
{ Y1i
Y0i
se Di = 1
se Di = 0,
5
Para uma discussão mais fundamental a respeito de modelos e inferência causal, ver Pearl (2009).
6
Inferências estatísticas são fartas em exemplos que ficaram conhecidos na literatura como Paradoxo
de Simpson – casos em que uma aparente correlação surge para uma população, mas o inverso
vale em subpopulações. Tais exemplos mostram como os resultados devem ser cuidadosamente
interpretados. Para uma discussão mais ampla a esse respeito, ver, por exemplo, Pearl, Glymour
e Jewell (2016).
14 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
7
Na literatura de avaliação de impacto, define-se como unidades “tratadas” aquelas que foram
beneficiárias de determinada intervenção, que pode ser uma política pública, um mecanismo de
incentivo, um tratamento médico etc.
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 15
Taxa de
desmatamento
Arco do desmatamento
da Amazônia
Resto do Brasil
Taxa de
desmatamento Arco do
desmatamento
da Amazônia
(caso não houvesse
a política pública)
Arco do
desmatamento
da Amazônia
(com a política
pública)
8
Vale notar que, nesse segundo processo de seleção, a capacidade de pagamento das firmas apoiadas
é um elemento crucial, haja vista o peso da análise de risco de crédito.
9
O faturamento bruto das empresas, por exemplo, pode ser observado na base de dados e condiciona
o acesso a determinadas operações com o BNDES.
• A performance em Y depende de um conjunto X de características observáveis das empresas (que pode
ou não afetar também a probabilidade de acessar o tratamento).
os impactos das intervenções
• Um conjunto V (que podeanalisadas. Para compreender
ter intersecção com X) afetamelhor comoa isso
também ocorre, considere
probabilidade de umao firma
seguinte
ser
contexto:
beneficiária dessa política pública, gerando,Uma
portanto,
soluçãoum viés de seleção.
automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 17
• Um
A variável Di define
policy-maker a condição
deseja avaliar ode uma firma
impacto i com
de uma respeito à política pública,
determinada conforme
pública sobre uma odimensão
modelo de
Y
resultados
das potenciais
empresas definido
apoiadas. anteriormente.
• existe um conjunto N de firmas beneficiárias e um conjunto N de firmas
t c
• AExiste
performance queY não
um conjunto
em N tiveram
t de
depende deacesso
firmas um à política.
beneficiárias
conjunto Xedeum conjunto Nc observáveis
características de firmas que
dasnão tiveram(que
empresas acesso
podeà
política.
ou não afetar também a probabilidade de acessar o tratamento).
Nesse cenário, a dificuldade do avaliador pode ser descrita pelo problema de
• Um conjunto
Nesse cenário, (que podedo
aVdificuldade teravaliador
intersecção
pode com X) afeta10pelo
também a probabilidade decorretamente
uma firma sero
estimar corretamente
9
o parâmetro τ daser descrita
equação 1. problema de se estimar
beneficiária dessa
parâmetro τ da equação 1. política pública, gerando, portanto, um viés de seleção.
• A variável Di define a condição de uma firma i com respeito à política pública, conforme o modelo de
yi = α + τ Di + βXi + ∀ f irmai (1)
resultados potenciais definido anteriormente. (1)
Por causa das características (observáveis ou não) da empresa, o candidato natural a estimador
• Existe um
de impacto, a diferença Nt de firmas
conjuntosimples beneficiárias
de desempenho e um
entre conjunto eNnão
tomadores c detomadores
firmas quede não tiveram retorna
recursos, acesso ào
política. Em virtude das características (observáveis 10 ou não) da empresa, o candidato
efeito verdadeiro do tratamento adicionado de um viés. É, portanto, um estimador ingênuo para a equação 1.
natural a estimador de impacto – a diferença simples de desempenho entre toma-
Nesse cenário,
Grosso modo, aa estimação
dores dificuldade
e não9 tomadoresdo avaliador
pode de feita
ser pode
recursos ser descrita
por –Mínimos
retorna pelo verdadeiro
oQuadrados
efeito problema de
Ordináriosdose estimar
do corretamente
tratamento
(OLS, inglês Ordinary o
parâmetro τ da equação
Least Squares). adicionado
Contudo, esse1. método
de um viés.11não é adequado
É, portanto, um para inferências
estimador ingênuo quando
para a as distribuições
equação 1. das variáveis
do conjunto X são muito desbalanceadas ou assimétricas, pois, os resultados tornam-se muito sensíveis
à especificação daGrosso forma modo,
funcional. yi = α + τ Di + βXi o+efeito
Adicionalmente, ∀ médio f irmado i tratamento é pouco preciso para (1)
a estimação pode ser feita por Mínimos Quadrados Ordinários
espaços em X das
Por causa em que há pouca representatividade
características (observáveis ou denão)tratados ou controles,
da empresa, e isso contamina
o candidato natural aa estimador
estimativa
(OLS, do inglês Ordinary
11 Least Squares). Contudo, esse método não é adequado
média
de de impacto
impacto, obtidasimples
a diferença por τ̂ols .de desempenho entre tomadores e não tomadores de recursos, retorna o
para inferências quando as distribuições10das variáveis do conjunto X são muito
efeito verdadeiro do tratamento adicionado de um viés. É, portanto, um estimador ingênuo para a equação 1.
desbalanceadas
O MARVIm contorna ou assimétricas,
esse problema por meiopois os resultados
de técnicas tornam-se
baseadas muito de
em escores sensíveis
propensãoà (p-scores). O
primeiro
Grossoestágio
modo, de
a estimadores
especificação
estimação desse
da forma
pode tipo equivale
funcional.
ser feita sempreQuadrados
Adicionalmente,
por Mínimos a implementar
o efeito médio a regressão(OLS,que
do tratamento
Ordinários doébusca
inglêsexplicar
Ordinarya
probabilidade de
Least Squares). pouco uma
Contudo, determinada
essepara
preciso método firma
nãoem
espaços ser apoiada
é adequado pela
X em que para política
inferências
há pouca pública que se deseja
quando as distribuições
representatividade avaliar. Isso é feito
de tratados das variáveis
porconjunto
do meio de um modelo
X são muitodedesbalanceadas
regressão logística oudefinido conforme
assimétricas, pois,a os
equação 2. tornam-se muito sensíveis
resultados
ou controles, e isso contamina a estimativa média de impacto obtida por τ̂ ols.12
à especificação da forma funcional. Adicionalmente, o efeito médio do tratamento é pouco preciso para
exp(v γ)
espaços em X em que há poucae(v) representatividade
≡ P
O MARVIm contorna esse problema r(D = 1|V =
de v) =
tratados ou
i por meio de técnicas + e isso contamina a estimativa
controles, (2)
1 + exp(v γ) baseadas em escores
i
média de impacto obtida por τ̂ols .11
Uma das formas de propensão (p-scores).de
mais tradicionais O aumentar
primeiro estágio de estimadores
a comparabilidade desse
entre tipo equivale
tratados e controles dentro da
amostra é parear
O MARVIm sempre
contorna aesse
unidades implementar
por meioado
problema regressão
poralgoritmo
meio dequetécnicas
busca
de explicar
vizinho maisa próximo.
baseadas probabilidade
em escores Nessa depropensão
de uma de- (p-scores).
abordagem, escolhe-seO
primeiro
9 estágio de estimadores desse tipo equivale sempre a implementar a
terminada firma ser apoiada pela política pública que se deseja avaliar. Isso é feito regressão que busca explicar a
Os estimadores aplicados supõem, implicitamente, que, para grupos suficientemente homogêneos, a resposta ao tratamento
probabilidade de
poruma
de tratados e controles meio determinada
de um
é idêntica seja,firma
modelo
– ou ser que
apoiada
de regressão
supõe-se = βpela
βt logística política
c = β.definido,
Existem,pública que
conforme
contudo, aseequação
formas deseja avaliar. Isso é feito
2. de estimação
alternativas que
por meio de um modelo de regressão logística definido conforme
flexibilizam também essa hipótese – ver, por exemplo (HIRANO; IMBENS, 2001). a equação 2.
10
São exemplos de características observáveis porte, participação no mercado externo, custo da mão de obra etc. São não
γ)
observáveis todas aquelas para as quais o modelo não tem informação – porexp(v exemplo, motivação dos administradores.
11 e(v) ≡ P r(D = 1|V = v) = + (2) (2)
1 + exp(v γ) distribution in the two treatment arms.
i i
“(...) In observational studies we often find substantial differences between covariates
Such lack of covariate balance creates two problems. First, it can make subsequent inferences sensitive to ostensibly minor changes
in theUma das and
methods formas mais tradicionais
specifications de aumentar
used. For example, adding anainteraction
comparabilidade
or quadraticentre tratados
term to e controles
a linear regression dentro can
specification da
Uma
average das formas
treatment mais
effect tradicionais
substantially whende aumentar
amostra é parear unidades por meio do algoritmo de vizinho mais próximo. Nessa abordagem, escolhe-se
change the estimated covariate a comparabilidade
distributions are far apart. entre tra-
Second, lack of balance can
make the inferences imprecise. For covariate values with either few treated or few controls, it may be difficult to obtain precise estimates
9
Os estimadores
for treatment
tados
effects, and
e controles
aplicados supõem,
this, in turn,
dentro da amostra
may implicitamente,
make the estimates
é parear
que,ofpara
unidades
grupos
overall
por meiohomogêneos,
suficientemente
treatment
do algoritmo
effects imprecise."(IMBENS;
de ao tratamento
a resposta
RUBIN, 2015)
de tratados e controles é idêntica – ou seja, supõe-se que βt = βc = β. Existem, contudo, formas alternativas de estimação que
flexibilizam também 10
Os estimadores
essa aplicados
hipótese – ver, supõem,(HIRANO;
por exemplo implicitamente,
IMBENS,que, para grupos suficientemente homogêneos,
2001).
10
São exemplos dea características
resposta ao tratamento de tratados
observáveis porte,eparticipação
controles é idêntica – ou seja,
no mercado supõe-se
externo, custo quedaβtmão
= βc de
= β.obra etc. São não 7
observáveis todas aquelas Existem,
paracontudo,
as quaisformas
o modeloalternativas
não temde estimação –que
informação porflexibilizam também essa
exemplo, motivação doshipótese – ver,
administradores.
11 por exemplo,
“(...) In observational studiesHirano e Imbens
we often (2001). differences between covariates distribution in the two treatment arms.
find substantial
Such lack of covariate 11
São exemplos
balance de características
creates two problems.observáveis:
First, it can porte,
make participação
subsequent no mercadosensitive
inferences externo etocusto da
ostensibly minor changes
mão de obra.used.
in the methods and specifications São não
Forobserváveis
example, addingtodas aquelas sobre asorquais
an interaction o modelo
quadratic termnão
to atem informação
linear – specification can
regression
change the estimated por exemplo,
average motivação
treatment effectdos administradores.
substantially when covariate distributions are far apart. Second, lack of balance can
“(...) In observational
make the inferences imprecise.
12 For covariatestudies
valueswe often
with findfew
either substantial
treated differences between
or few controls, covariates
it may distribution
be difficult to obtain precise estimates
for treatment effects, and in the twointreatment
this, turn, mayarms.
makeSuch lack of covariate
the estimates balance
of overall creates
treatment two problems.
effects First, it can make
imprecise."(IMBENS; RUBIN, 2015)
subsequent inferences sensitive to ostensibly minor changes in the methods and specifications
used. For example, adding an interaction or quadratic term to a linear regression specification
can change the estimated average treatment effect substantially when covariate distributions are 7
far apart. Second, lack of balance can make the inferences imprecise. For covariate values with
either few treated or few controls, it may be difficult to obtain precise estimates for treatment
effects, and this, in turn, may make the estimates of overall treatment effects imprecise” (IMBENS;
RUBIN, 2015, p. 337).
18 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
vizinho mais próximo. Nessa abordagem, escolhe-se para cada firma do conjunto
Nt uma outra firma que está em Nc cujo p-score é semelhante. Ou seja, para cada
firma apoiada será encontrada uma outra que não foi beneficiada pela política, mas
que apresentou probabilidade de tratamento muito parecida com a da primeira. A
equação 1 pode ser estimada por OLS dentro dessa subamostra, obtendo-se um
estimador τ̂ psm.13
Uma vantagem dessa técnica é que ela tenderia a construir grupos de controle e
tratamento bastante homogêneos com respeito a V, reduzindo o viés de seleção em
observáveis.
para cada firma do conjuntoEntretanto, uma que
Nt uma outra crítica comum
está em Nac cujo
esse algoritmo de pareamento
p-score é semelhante. Oué seja,
que para cada firma
apoiada será encontrada umaa outra
ele reduz muito quedescartando
amostra, não foi beneficiada pela política,
uma quantidade masde
expressiva que apresentou probabilidade
informação.
de tratamentoAssim,
muitooparecida com a da primeira. A equação 1 pode ser estimada
ganho em comparabilidade é obtido muitas vezes à custa do aumento por OLS dentro dessa
subamostra, obtendo-se um estimador τ̂psm .12
na variância do estimador, prejudicando a inferência estatística (CALIENDO;
KOPEINIG,
Uma vantagem 2008). é que ela tenderia a construir grupos de controle e tratamento bastante
dessa técnica
homogêneos com respeito a V , reduzindo o viés de seleção em observáveis. Entretanto, uma crítica comum
a esse algoritmo Uma forma de contornar
de pareamento essareduz
é que ele limitação
muitoé aplicar estimadores
a amostra, que usam
descartando o p-score
uma quantidade expressiva
de informação.para atribuir peso às unidades analisadas – propensity score weighting (HIRANO;
Assim, o ganho em comparabilidade é obtido muitas vezes às custas do aumento na variância
do estimador, IMBENS,
prejudicando a inferência
2001). estatística
Nesse caso, (CALIENDO;
não se restringe KOPEINIG,
a análise 2008).
apenas às firmas pareadas.
Nesse método, a equação 1 é estimada por Mínimos Quadrados Ponderados (WLS,
Uma forma de contornar essa limitação é aplicar estimadores que usam o p-score para atribuir peso às
do inglês– Weighted
unidades analisadas propensityLeast
scoreSquare), e o peso
weighting de cada
(HIRANO; observação
IMBENS, wi éNesse
2001). dado por uma
caso, não se restringe a
análise apenasfunção inversa
às firmas do p-score
pareadas. Nesse– equação
método,3a –, seguindo
equação 1 éoestimada
que foi exposto por Imbens
por Mínimos e
Quadrados Ponderados
(WLS, do inglês Weighted
Rubin Least
(2015). Square)desse
A intuição e o peso
segundode cada observação
estimador – que será é dado por
wi definido por uma
τpsw – função
é inversa do
p-score – equação 3 – seguindo (IMBENS; RUBIN, 2015). A intuição desse segundo estimador
que tendem a ter maior peso na estimação as unidades mais “comparáveis”, isto é, – que será definido
por τpsw – é que tendem a ter maior peso na estimação as unidades mais “comparáveis", aquelas que estão
aquelas que estão em áreas de maior densidade na distribuição do p-score.
em áreas de maior densidade na distribuição do p-score.
Nt
e(vi )
se Di = 1
1
i∈N t
e(vi )
wi = (3) (3)
Nc
1 − e(vi )
se Di = 0
1
i∈Nc
1 − e(vi )
Adicionalmente, seguindo (HECKMAN; ICHIMURA; TODD, 1998), aplica-se um método simples para
expurgar o viés de Adicionalmente, seguindo
seleção por variáveis nãoHeckman,
observáveisIchimura e tempo:
fixas no Todd (1998), aplica-se
calcula-se um considerando
o impacto
como variávelmétodo simples
de impacto ∆Y para≡ Yitexpurgar
− Yit−1 . Ao intuição
viés de seleção por variáveis
é que, caso não observáveis
uma empresa tenha alguma característica
não observável e que
fixas no condiciona sua performance
tempo: calcula-se o impacto em Yt , ela provavelmente
considerando como variáveljá de
se fazia
impactonotar em t-1. Logo,
sobre ∆
∆Y ≡ Yit – Yit – 1. A intuição é que, caso uma empresa tenha alguma característica no tempo que,
ao avaliar o impacto Y , exclui-se naturalmente a influência de quaisquer fatores fixos
porventura, não estejam contemplados em X. Por fim, tanto τpsm quanto τpsw são aplicados sobre uma
não observável e que condicione sua performance em Yt, ela provavelmente já se
amostra que respeita as restrições de suporte comum, seguindo (IMBENS; RUBIN, 2015). A forma como isso
faziaclara
é feito ficará mais notarnaem t-1. Logo,
próxima ao avaliar o impacto sobre ∆Y , exclui-se naturalmente a
subseção.
13
Uma forma alternativa de estimar o impacto do tratamento é implementar um estimador simples
3.3 A qualidade do balanceamento
de diferenças de médias para Y entre tratados e controles na amostra pareada. Imbens e Rubin
(2015), por exemplo, defendem que a combinação de pareamento com o ajuste por regressão em
Quando as distribuições
covariadas é umadeabordagem
covariadas
maissão muito
robusta e quesimilares entrepor
permite controlar tratados e controles,
heterogeneidade como se esperaria
adicional,
em um contexto de experimento
podendo aleatório,
existir mesmo dentro estimadores
da amostra pareada. simples como τ̂ols podem ser considerados
adequados. Contudo, em situações nas quais há grande heterogeneidade, há também um viés de seleção e,
portanto, uma prescrição para o uso de estimadores mais robustos – tais como τ̂psm e τ̂psw .
A confiabilidade das técnicas de matching em lidar com tal viés dependerá diretamente de sua capacidade
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 19
influência de quaisquer fatores fixos no tempo que porventura não estejam con-
templados em X. Por fim, tanto τpsm quanto τpsw são aplicados sobre uma amostra
que respeita as restrições de suporte comum, seguindo Imbens e Rubin (2015). A
forma como isso é feito ficará mais clara na próxima subseção.
14
Formalmente, essa necessidade é apresentada como hipótese de “ignorabilidade forte“
(unconfoundedness).
15
Formalmente, essa restrição está definida pela hipótese de suporte comum, crucial para a validade
da estratégia de identificação (BLUNDELL; DIAS, 2002).
16
Intuitivamente, imagine-se que, para um dado conjunto de características Xi = x, a probabilidade
de a empresa ser beneficiada pela política é igual a 100%. Para esse tipo de empresa, portanto,
não há como achar uma outra que seja “comparável” para servir de contrafactual porque, por
definição, todas aquelas com características semelhantes também foram beneficiadas pela política.
20 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
ˆ ct = X̄t − X̄c 2 1
2
∆ X̄2t − X̄2c em que, S ≡ 1− 1 (Xi − X̄d ) 2 (4) (4)
ˆ
d=c,t
2
∆ct = (Sc + St )/2 em que, Sd=c,t ≡ N d i:D =d (Xi − X̄d ) (4)
(Sc2 + St2 )/2 Nd − 1 i:Di =d
i
e Π̂t , definidos
α
avaliação de Π̂αc epelas equações
Π̂αt permite 6 e 7.
inferir se OasMARVIm
caudas das implementa essas
distribuições medidas
têm considerando
densidades um α de 0.05. A
semelhantes.
avaliação de Π̂c e Π̂t permite inferir se as caudas das distribuições têm densidades semelhantes.
α α
controles éé grande
controles grande aa ponto
ponto de
de causar
causar vieses
vieses nos
nos estimadores
estimadores mais
mais simples,
simples, como
como
X̄t − X̄ ols .. Além
τ̂τ̂ols Além de comparar 1a
de2comparar a
ˆ ct =
∆
c
em que,
posição das
posição das distribuições,
distribuições, cabe
cabe avaliar
avaliar se
se as
as dispersões
dispersões são
são semelhantes.
semelhantes. Isso2 éé feito
feito pela Γ̂ctrazão
= ln(S
S ≡
t ) −N
logarítmica
d=c,t )
d − c1 i:D
ln(S
dos desvios-padrão, definida na equação 5.17
17
(Sc2 +Isso
St )/2 pela razão logarítmica i
dos desvios-padrão, definida na equação 5. Outra abordagem possível é avaliar a fração das unidades tratad
outliersUma
pelasolução
distribuição da amostra
automatizada deΓ̂ct
controles
para avaliações = ln(St )(tratados).
− ln(Sc ) Para en
quantitativas
− X̄
X̄t de
considere impacto:
que F̂ (.)
primeiros
e (.)
resultados
1t
F̂ são
as do MARVIm
funções das|
1−1 é avaliar
21
distribuições empírica
ˆˆ ct 2
X̄dd ))22 das unidades tratadas
c
∆ = X̄t − X̄c Outra (Xii −
c
emabordagem
que, S ≡possível a inversas.
fração (4)
nível (c
2
∆ ct =
2 )/2
em
enquanto que, Sd=c,t
F̂ −1 (.) ≡ e F̂ (.)
1 são (X
suas − X̄ Para qualquer (4) d
(Sc22 ++S 2
d=c,t
c N dt− 1 i:D =d
−
Outra abordagem (S c possível
t
t )/2
Soutliers
é pela
avaliar
α distribuição
a fração
N
das da
d amostra
unidades i de
tratadas controles
(controles)
e Π̂t , definidos pelas equações 6 e 7. O MARVIm implementa essas
i:Di =d (tratados). Para entend
que seriam consideradasconsidere outliers pela
avaliação F̂
de c (.)
quedistribuição
Π̂αcln(S t (.)
e eF̂Π̂ da são as funções
amostra
α permite das
de controles
inferir se asdistribuições
(trata- empíricas detê
caudas das distribuições X
enquanto Γ̂ ct =
Γ̂ct =F̂ln(S
ln(S
−1 (.)
t )
t) −
−
e ln(S −1ct)
F̂t c(.)) são suas inversas. Para qualquer nível (5)
(5) de sig
dos). Para entender a implementação c dessa análise, considere-se que F̂c(.) e F̂t(.)
Outra abordagem
Outra abordagem possível possível éé avaliar e
avaliar a Π̂ α , definidos
atfração
fração das pelas
das unidades equações
unidades tratadas 6 e 7.
tratadas (controles) que O MARVIm
que seriam implementa
consideradas med
seriam consideradas essas
são as funções das distribuições empíricas deαXi para cada (controles)
uma das subamostras,
outliers pela
outliers pela distribuição
distribuição da da amostra
amostra de avaliação
de controles
controles Π̂c e Π̂t permite
de(tratados).
α
(tratados). inferirΠ̂aase
Para entender
Para entender as 1caudas
− (F̂c (das
implementação
=
αimplementação distribuições
−1dessa análise,
(1 − α/2)) + têmF̂c (F̂de−
enquanto F̂c−1são
(.) easF̂funções
−1
(.) são suas inversas. Paraempíricas
qualquer nível de csignificância té dessa
αF̂das
análise, t
considere que
considere que F̂cc (.) e F̂
F̂ (.) e F̂ (.)
tt (.) são as αfunções
t das distribuições de X para cada
das distribuições empíricas de Xii para cada uma das subamostras, uma subamostras,
enquanto −1 (.) possível
e −1
(.)
calcularsão Π̂
suas e Π̂ α
, definidos
inversas. pelas
Para equações
qualquer 6 e 7.
nível deOsignificância
MARVIm implementa
significância α éé possível
possível calcular Π̂ααc
calcular Π̂
enquanto F̂c (.) e F̂t (.) são suas inversas. Para
F̂ −1
c F̂ t−1 c t qualquer nível de α c
Π̂αt ,, definidos
ee Π̂
α definidosessas pelasmedidas
pelas equações
equações 6 ee 7.
6 7. O
considerando O MARVIm
MARVIm
um α de implementa
0.05. A
implementa essasde
avaliação
essas Π̂
medidas
α
medidas
c =
e Π̂1 α
t −=( 1
permite
− (
considerando
considerando
F̂ c (
F̂ −1
(
(1
inferir
F̂
t t F̂ c
um
−1
−
um (1
α−
α de
α/2)) 0.05.
+
deα/2))
0.05.
F̂c (+AA tF̂
F̂ t ((α/
−1 −
F̂c
t
avaliação de
avaliação de Π̂ Π̂ααtcaudas
Π̂ααcseeeas
Π̂ permite
permite inferir
inferir se
se as
as
das distribuições têm caudas
caudas das
das distribuições
distribuições
densidades semelhantes. têm
têm densidades
densidades semelhantes.
semelhantes.
c t Observando a forma como a etapa de pareamento afeta essa
sobreposição entre as amostras Π̂αt = 1de − (tratados
F̂t (F̂c−1 (1 e−controles
α/2)) + e, F̂t (com
F̂c−1isso
(α/
Π̂c =
α
= 11 −− ((F̂ No
F̂cc ((F̂ contexto
−1
(1 − de avaliações
+ F̂
F̂cc ((F̂ −1 de política pública, tradicionalmente as d
(α/2))) (6) (6)
Π̂α
c
F̂t (1
Observando t
−1 α/2)) +
− α/2))
a forma
F̂t (α/2)))
comot
−1
a etapa de apareamento afeta essas(6) qua
apoiadas serão bastante heterogêneas priori. Espera-se, contudo,
sobreposição
mais−1homogêneas. entre as amostras Quando deissotratados
não ocorre,e controles
tem-see,um com isso, julg
indicativo d
Π̂ α
α
t = 1No
− (
Π̂t = 1 − (F̂sendoF̂ (
contexto
t (F̂c (1
t F̂ c−1 (1 de
− α/2))
capazes
− α/2))de +
avaliações (
+controlarde (α/2)))
−1política pública, tradicionalmente
F̂t (F̂c (α/2)))
F̂ t F̂ −1
c (7)
adequadamente o viés de seleção. as
(7)
(7) distrib
apoiadas serão bastante heterogêneas a priori. Espera-se, contudo, que
Observando a
Observando a forma
forma como
como a a etapa
etapa de de pareamento
pareamento afeta afeta essas
essas quatro quatro métricas,
métricas, éé possível
possível avaliar
avaliar a
sobreposição entre as amostras de mais homogêneas.
tratados e controles e,Quando
com isso, isso nãoaocorre,
julgar qualidade tem-se
do um indicativoa de qu
balanceamento.
sobreposição entreObservando
as amostras de tratados
a forma como 3.4 aeetapa Superando
controles
dede e, comum
pareamento isso, trade-off
afeta julgar
essasaquatro: seleção
qualidade do
métricas,automatizada
balanceamento.de var
No contexto
No contexto de
de avaliações
avaliações de política sendo
de política pública,
pública,
capazes controlar
tradicionalmente
tradicionalmente
adequadamente
as distribuições
as distribuições o viés
de unidades
de unidades de seleção.e não
apoiadas
apoiadas e não
é possível avaliar a sobreposiçãoUm entregrande
as amostras de
desafio para tratados e controles
a matching
aplicaçãoseja e, com
doscapaz
métodos de estimação
apoiadas serão bastante heterogêneas a priori. Espera-se, contudo, que
apoiadas serão bastante heterogêneas a priori. Espera-se, contudo, que o matching seja capaz de torná-las o de torná-las
mais homogêneas.
homogêneas.isso, Quando
julgar a qualidadenão 3.4
isso não do balanceamento.
ocorre, Superando
especificação
tem-se um Noum
das contexto
um indicativo trade-offdedeque
covariadas
indicativo queavaliações
: das
seleção
mesmo de
equaçõespolítica
automatizada
esses não de
1 e 2, definidas,
métodos estão variáve
respec
mais Quando isso ocorre, tem-se de mesmo esses métodos não estão
sendo capazes pública,
de tradicionalmente
controlar adequadamente
sendo capazes de controlar adequadamente asetapa o viés
ogrande é
distribuições crucial
de de
seleção.
viés de seleção. porque,
unidades como
apoiadas já explicitado,
e não apoiadasuma especificação equi
Um desafio para a aplicação dos métodos de estimação de i
serão bastante heterogêneas aestimadores priori. Espera-se, utilizados.
contudo, que o matching seja capaz
especificação das covariadas das equações 1 e 2, definidas, respectivam
3.4 Superando
3.4 Superando um trade-off
um
de torná-lastrade-off :: seleção
seleção automatizada
mais homogêneas. automatizada isso nãode de variáveis
variáveis
etapa é Quando crucial porque, ocorre, tem-se um indicativo de
É evidente quecomo o ideal já explicitado,
seria fazer auma escolhaespecificação
das variáveis equivoca
caso
Um grande que mesmo
desafio para esses
a
Um grande desafio para a aplicação dosmétodos
aplicação não
dos
estimadores estão
métodos
métodos sendo de
de capazes
estimação
utilizados.
estimação de controlar
de
de impacto
impacto adequadamente
descritos
descritos neste
neste estudo
estudo éa
é a
de cada política pública a ser avaliada. Agregar políticas muito h
especificação das
especificação das covariadas
o viés de seleção.
covariadas das equações
das equações 11 ee 2, 2, definidas,
definidas, respectivamente,
respectivamente, pelos pelos vetores
vetores X X ee V V .. Essa
Essa
etapa éé crucial
crucial porque,
porque, comocomo já já explicitado,
explicitado,
definidos como
uma especificação
especificação
macroavaliações,
equivocada
tende
poderia
a enfraquecer
afetardas decisivamente
a estratégia
os a cas
d
etapa É evidente
uma que o ideal seria fazer
equivocada a escolha
poderia afetar variáveis caso
decisivamente os
estimadores utilizados.
utilizados. de matching. Isso ocorre porque comparar firmas que são semelhan
estimadores
3.4 Superando um trade-off: de cada política pública a ser de avaliada. Agregar políticas muito hetero
o seleção
acesso àautomatizada
política pública será, variáveis
na melhor das hipóteses, inócuo pa
definidos como macroavaliações, tende a enfraquecer a estratégia de id
É evidente
evidente que
que o ideal
idealdesafio
seria fazer
fazer pode introduzir viés.
É Um grande
o seria parade aaaaplicação
escolha
escolha
matching. dasIsso
dos
das variáveis
métodos
variáveis
ocorre caso
decaso
estimação
porque a caso,
a caso, entendendo
deentendendo
impactofirmas
comparar asque
descritos
as particularidades
particularidades
são semelhantes e
de cada política
de cada política pública
pública a
a ser
ser avaliada.
avaliada. Agregar
Agregar políticas
políticas muito
muito heterogêneas,
heterogêneas, como
como fazem
fazem os trabalhos
os trabalhos
neste estudo é a especificação o acesso à políticadas
das covariadas pública
equações será, 1 ena melhor das
2, definidas, hipóteses,
respecti- inócuo para co
definidos como
definidos como macroavaliações,
macroavaliações, tende tende a Os
a enfraquecer
enfraquecer a elementos que
a estratégia
estratégia de condicionam
de identificação uma
identificação associada empresa
associada aos a buscar, por e
aos métodos
métodos
vamente, pelos vetores Xpode
e V. introduzir
Essa etapa é viés.
crucial porque, como já explicitado, uma
de matching. Isso
de matching. Isso ocorre
ocorre porque comparardistintos
porque comparar firmas que
firmas que daqueles que a levam
são semelhantes
são semelhantes a buscar crédito
em características
em características que não
que para
não expandir a p
explicam
explicam
especificação equivocada poderia
mesma afetar decisivamente
equação de p-score os estimadores
pode utilizados.
produzir coeficientes
o acesso à política pública será, na
o acesso à política pública será, na melhor melhor
Os
das
das hipóteses,
hipóteses,que
elementos
inócuo
inócuo para controlar
para controlar
condicionam uma
o viés
o empresade seleção
viés de seleção
a – napouco
–
buscar,
na pior, confiá
pior,
por exemp
pode introduzir
pode introduzir viés.
viés. eventualmente, que empresas muito endividadas buscam crédito p
É evidente que o idealdistintos fazerdaqueles
seriaestimadores a escolha quevariáveis
dedas
a levamcaso
impacto não
a buscar
a caso,
serão
crédito para expandir a planta
entendendo
confiáveis.
Os elementos
elementos que condicionam
condicionam
as particularidades mesma
uma
de cada empresa
política equação de
a buscar,
pública buscar,p-score
a ser pode
por exemplo,
avaliada. exemplo, produzir
Agregar capital coeficientes
de muito
políticas são pouco
giro são totalmente confiáveis
Os que uma empresa a por capital de giro totalmente
distintos daqueles
daqueles que a a levam
levam a fazemeventualmente,
buscaroscrédito
crédito para que empresas
expandir a planta. muito
planta. endividadas
Misturar os os buscam
doisa casos
casos em crédito
em uma uma para e
distintos heterogêneas,
que como a buscar trabalhos
17 para
Usa-se definidos
a expandir
razão como a
logarítmica macroavaliações,
porque Misturar
ela é tende
dois
tipicamente mais próxima de uma dis
mesma equação
mesma equação de p-score pode
de p-score pode produzir estimadores
produzir coeficientes
coeficientes
de impacto não serãopara
pouco confiáveis
pouco confiáveis confiáveis.
para a equação
a equação 22 –– concluindo-se,
concluindo-se,
enfraquecer a estratégia de identificação associada aos métodos de matching. Isso
eventualmente, que
eventualmente, que empresas
empresas muito
muito endividadas
endividadas buscam
buscam crédito
crédito para
para expansão.
expansão. Como
Como consequência,
consequência, osos
estimadores de ocorre
impacto porque
não comparar
serão firmas
confiáveis. semelhantes em características que não explicam
estimadores de impacto não serão confiáveis. 17
Usa-se a razão logarítmica porque ela é tipicamente mais próxima de uma distribui
o acesso à política pública será, na melhor das hipóteses, inócuo para controlar o
17 viés
17 Usa-se a razão de seleção
logarítmica – e,ela
porque naépior delas, pode
tipicamente introduzir
mais próxima o viés.
de uma distribuição normal.
Usa-se a razão logarítmica porque ela é tipicamente mais próxima de uma distribuição normal.
Fazer artesanalmente a especificação para cada caso, ainda que seja desejável,
é inviável quando se deseja avaliar um conjunto amplo de intervenções em curto
espaço de tempo – como se propõe a fazer o MARVIm. A saída encontrada para
enfrentar esse trade-off foi utilizar técnicas de aprendizagem automatizada (machine
learning) para que a seleção pudesse ser feita pelo próprio modelo em cada inter-
venção analisada. Desde que cada intervenção seja adequadamente definida como
um conjunto razoavelmente uniforme de políticas de financiamento, a especificação
pode ser automatizada, sem prejuízos à estratégia de identificação de impacto.
19
Utiliza-se um ponto de corte para o ganho esperado na razão de verossimilhança, a partir do qual
a contribuição da variável adicional passa a ser considerada negligenciável. Para mais detalhes,
ver Imbens e Rubin (2015).
20
Serão analisadas, na prática, k*(k* + 1)/2 possíveis variáveis de segunda ordem, incluindo-se aí
os termos quadráticos (interação de uma variável com ela mesma).
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 23
O passo seguinte é elaborar uma base que identifique todas as empresas que
formam o conjunto de tratadas, bem como o ano e o valor envolvido em cada caso.
Outro importante input do modelo é a base de análise, que nesse exercício conso-
lida dados da Rais, Secex e Serasa.21 Existe também uma série de parâmetros que
precisam ser escolhidos pelo avaliador e que são apresentados no Box 1. É impor-
tante destacar que cada um desses parâmetros permite customizar algum aspecto
da avaliação, sempre com o objetivo de testar diferentes hipóteses a respeito dos
impactos esperados. Analisar os resultados obtidos por diferentes configurações
é etapa fundamental para a robustez das conclusões.
21
Para mais detalhes, ver Apêndice 1.
22
São consideradas nesse recorte todas as empresas que receberam crédito no âmbito da linha
Aquisição de BK (seja pelo BNDES Finame, seja pelo BNDES Finem) mais todas aquelas que
adquiriram máquinas e equipamentos por meio do Cartão BNDES.
24 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
Define como momento do tratamento de uma firma apenas o primeiro ano em que
ela tiver recebido o apoio. Permite medir o impacto apenas nos anos seguintes ao
acesso inicial das firmas.
Serve para restringir a avaliação de impacto. A estimação pode ser feita para
cada um dos anos disponíveis ou considerar todo o intervalo. Note que limitar
a análise a anos específicos mostra como os resultados se alteram com respeito
às condições particulares de cada momento do tempo – em alguns casos, existe
fundamentação teórica para supor que o efeito da intervenção pode depender de
questões conjunturais.a
Define o número de anos antes do tratamento que devem ser considerados para o
pareamento das observações. Janelas de pareamento maiores exigem que as firmas
pareadas tenham, para as variáveis selecionadas, médias próximas durante um in-
tervalo de tempo maior.
Define o número de anos depois do tratamento que devem ser considerados para a
mensuração do resultado. O aumento dessa janela pode ser usado para investigar se
o impacto do tratamento se dissipa ao longo do tempo.
(f) Lag:
a Ver Machado e outros (2016), por exemplo, com o caso do BNDES PSI.
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 25
Nesse caso em particular, é possível notar que apenas uma pequena par-
cela das empresas apoiadas pelo BNDES foi encontrada também na base de
análise – no melhor ano, a sobreposição foi de 12,52%. Essa informação é
importante porque, quanto maior o percentual de firmas apoiadas encontradas,
maior tende a ser a capacidade de generalização dos resultados. Adicionalmen-
te, a Tabela 3 mostra que a sobreposição das amostras foi maior na dimensão
de valor financiado. Isso indica que, entre as unidades tratadas, foi possível
encontrar na base de análise aquelas que tinham proporcionalmente maior
fatia dos financiamentos. Há, portanto, uma indicação de viés de amostragem,
reforçando a ideia de que o resultado obtido para essas empresas pode não ser
generalizável para o conjunto de firmas apoiadas pelo BNDES no âmbito da
aquisição de bens de capital.
8.794
7.871
7.568
7.500 7.290
6.366
6.003
5.782
5.000 4.760
4.309
2.500
1.062
246 246
0
2007
2008
2009
2010
2011
2012
23
Esse filtro pré-pareamento serve para aumentar a comparabilidade das amostras. De certa forma,
entende-se implicitamente que firmas cujos setores de atividades não contam com nenhuma
empresa beneficiada não devem ser elegíveis para a intervenção que se deseja avaliar.
26 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
0.42
0.4 0.41
0.3
0.29
0.25 0.25
0.2
0.18
0.0
2007
2008
2009
2010
2011
2012
24
Exceto para os anos de 2007 e 2012, quando a amostra cai drasticamente. Esse comportamento
é consequência da base da Serasa utilizada pelo MARVIm, e é por isso que, neste trabalho, as
análises se concentraram sempre no período 2008-2011.
25
Portanto, foram consideradas firmas tratadas todas aquelas unidades balanceadas que receberam
do BNDES um financiamento para a aquisição de bens de capital em 2010.
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 27
superior, margem Ebitda (do inglês, earnings before interest, taxes, depreciation and
amortization), ativo financeiro e ativo imobilizado. A equação do p-score contou
também com outros 12 termos iterados, totalizando 23 covariadas para V.
300
Nº de empresas
200
100
0
0.00
0.25
0.50
0.75
1.00
Escore de propensão
300
Nº de empresas
200
100
0
0.00
0.25
0.50
0.75
1.00
Escore de propensão
Fonte: Elaboração própria, com base no MARVIm.
28 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
4a. Tratados
Tratados
10
Nº de empresas
0
0.00
0.25
0.50
0.75
3.000
Nº de empresas
2.000
1.000
0
0.00
0.25
0.50
0.75
1.00
Escore de propensão
Para que fique claro esse argumento, o Gráfico 4 traça as mesmas curvas em uma
avaliação feita para empresas apoiadas pelo BNDES Profarma. A observação visual,
nesse caso, deixa evidente o problema de micronumerosidade, com a distribuição
dos tratados sendo formada fundamentalmente por “saltos” que a fazem parecer uma
função discreta. Além disso, a curva dos não tratados é excessivamente concentrada em
p-scores muito baixos, tendo baixa representatividade para faixas superiores a 0,1. No
exemplo do Profarma, portanto, a mera inspeção visual já é capaz de sinalizar a baixa
confiabilidade das estimativas obtidas pelos métodos implementados no MARVIm.
Anos de estudo 11.393 10.489 1.92 1.662 (0.5028) (0.147) 0.143 0.0340
(média)
Ativo financeiro 17,713.135 19,619.951 210,869.98 291,493.202 0.0075 0.324 0.054 0.0459
Capital de giro 10,705.961 10,378.757 168,999.98 309,305.417 (0.0013) 0.604 0.069 0.0368
Exportações 4,055.320 7,511.185 68,385.25 193,146.139 0.0239 1.038 0.021 0.0281
Faturamento 101,294.101 136,671.606 489,924.89 1,756,666.559 0.0274 1.277 0.053 0.0466
líquido
Funcionários 0.077 0.035 0.14 0.076 (0.3804) (0.589) 0.097 0.0066
graduados (%)
Idade da firma 20.938 21.762 13.38 12.971 0.0626 (0.031) 0.046 0.0182
Ativo imobilizado 36,957.113 67,099.533 336,076.33 1,783,988.545 0.0235 1.669 0.109 0.0316
Margem Ebitda 0.061 0.239 3.43 4.023 0.0477 0.159 0.101 0.0231
(Continua)
26
O MARVIm permite definir um ano em particular para a análise ou definir uma estimação em que as
diferentes observações, em diferentes anos, são alinhadas e empilhadas como em um event-study. Nesse
segundo caso, as estimações contam com dummies para controlar efeitos específicos de cada ano.
30 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
(Continuação)
- - ^ ^ ^ 0.05 ^ 0.05
Variável Xc Xt Sc St Δ ct
Γ ct
Π c
Π t
Massa salarial 739.373 806.761 3,681.08 8,726.994 0.0101 0.863 0.067 0.0387
(dez.)
Passivo financeiro 18,069.140 23,599.779 151,643.56 397,877.348 0.0184 0.965 0.068 0.0419
Produtividade 249.073 46.857 12,142.47 754.531 (0.0235) (2.778) 0.127 0.0131
do trabalho
p-score 0.370 0.458 0.15 0.120 0.6462 (0.211) 0.134 0.0677
p-score-lin (0.680) (0.142) 1.43 1.356 0.3861 (0.052) 0.134 0.0677
Anos de estudo 10.570 10.43 1.562 1.594 (0.0902) 0.021 0.051 0.049
(média)
Ativo financeiro 7,831.482 9,340.13 37,838.253 62,303.355 0.0293 0.499 0.050 0.050
Capital de giro 8,459.948 9,542.78 51,505.816 55,709.031 0.0202 0.078 0.065 0.039
Exportações 1,919.933 2,524.68 23,016.223 35,800.955 0.0201 0.442 0.020 0.030
Faturamento 72,347.447 85,231.70 230,542.584 345,613.487 0.0439 0.405 0.047 0.055
líquido
Funcionários 0.031 0.03 0.064 0.062 (0.0153) (0.036) 0.027 0.023
graduados (%)
Idade da firma 21.645 21.78 13.330 12.946 0.0102 (0.029) 0.042 0.018
Ativo imobilizado 18,915.839 25,690.08 94,519.554 178,101.454 0.0475 0.634 0.103 0.036
Margem Ebitda 0.171 0.20 0.350 0.314 0.0784 (0.108) 0.077 0.032
Massa salarial 518.508 578.54 1,388.072 1,719.307 0.0384 0.214 0.058 0.046
(dez.)
Passivo financeiro 10,092.434 12,341.07 48,589.652 72,949.119 0.0363 0.406 0.068 0.044
Produtividade 48.414 44.79 618.300 743.648 (0.0053) 0.185 0.081 0.032
do trabalho
p-score 0.447 0.46 0.099 0.107 0.1332 0.072 0.039 0.066
p-score-lin (0.228) (0.17) 0.435 0.467 0.1245 0.070 0.039 0.066
Para que se possa julgar a magnitude dos efeitos, vale notar que a amostra
inicial de empresas com informações encontradas na base de análise do MARVIm
totalizou, nesse exercício, 8.794 Cadastros Nacionais da Pessoa Jurídica (CNPJ) e
representava R$ 22,9 bilhões em financiamentos – ver tabelas 2 e 3. O desembolso
médio foi de R$ 2,6 milhões. O impacto estimado sobre o nível de emprego foi
positivo e estatisticamente significante em todos os casos. O mesmo ocorreu com
o faturamento bruto. Ou seja, as técnicas aplicadas apontaram impacto positivo
do financiamento do BNDES à aquisição de máquinas e equipamentos sobre o
faturamento bruto e o nível de emprego das firmas beneficiárias. Considerando as
estimativas mais conservadoras, essa intervenção teria gerado, na média, 12 em-
pregos adicionais por empresa, bem como uma expansão do faturamento bruto da
ordem de R$ 1,5 milhão – em ambos os casos, considerando o período de até um
ano após a contratação da operação no BNDES.
É evidente que esses são os resultados obtidos para uma especificação parti-
cular, que considerou apenas empresas financiadas em 2010. Contudo, a vanta-
gem da automação é justamente a capacidade de refazer com grande agilidade o
mesmo exercício com diversas especificações distintas, o que permite considerar
um conjunto mais amplo de evidências para se concluir a respeito da efetivida-
de das intervenções. Aproveitando-se da flexibilidade do método desenvolvido
32 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
neste estudo, a seção seguinte analisará de forma mais completa uma série de
intervenções, buscando conhecer o impacto de curto prazo sobre as empresas
apoiadas pelo BNDES.
De forma geral, foram considerados robustos os casos nos quais houve certa
estabilidade no sinal e na significância estatística dos coeficientes nas diferentes
especificações. Analogamente, foram reportados impactos positivos ou nega-
tivos nos casos em que o sinal do coeficiente estimado se manteve estável nas
diferentes especificações.
27
Outros estudos já haviam identificado impacto positivo do BNDES Finame sobre o investimento
das firmas. Ver, por exemplo, Machado e outros (2016) e Cavalcanti e Vaz (2017).
28
Outros estudos também já haviam identificado impacto positivo do Cartão BNDES sobre o
emprego dos beneficiados. Ver, por exemplo, Machado, Parreiras e Peçanha (2011).
36 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
29
Trabalho recente dos autores Cavalcanti e Vaz (2017) identifica impacto positivo do BNDES
Finame sobre a produtividade das firmas apoiadas. Esse resultado, contudo, vale apenas nos casos
em que o apoio do BNDES é permanente.
30
Alguns recortes testados, contudo, apresentaram amostras menores – como no caso da análise
das firmas tratadas no ano de 2009, no qual a amostra se reduz a 182 empresas.
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 37
31
A separação seguiu a regra de porte do BNDES, que toma como grandes as empresas com
faturamento bruto superior a R$ 300 milhões.
40 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
No caso da amostra com empresas grandes, foi possível obter impacto robusto
apenas sobre faturamento.
Esse movimento gera para instituições públicas, como o BNDES, uma neces-
sidade: aumentar a escala de suas atividades de monitoramento e avaliação. Exis-
tem diversas iniciativas gestadas no DEAPE para responder a isso. O MARVIm
é uma delas e possibilita a construção de informações a respeito da efetividade
do BNDES por meio de avaliações de impacto quantitativas. É evidente que os
resultados da ferramenta não pretendem substituir o esforço de elaborar avalia-
ções de impacto artesanais, nem de buscar metodologias ainda mais robustas
para a atribuição de causalidade – o ideal a ser perseguido está determinado por
experiências de aleatorização.
Referências
GADENNE, L. Tax me, but spend wisely: Sources of public finance and
government accountability. American Economic Journal: Applied Economics,
[S.l.], v. 9, n. 1, p. 274-314, Jan. 2017. Disponível em: <http://www.aeaweb.org/
articles?id=10.1257/app.20150509>. Acesso em: 1o ago. 2018.
Apêndice 1:
Detalhamento da base de dados utilizada no MARVIm
As fontes originais
Os dados da Rais são oriundos das informações coletadas pelo Ministério do Tra-
balho (MTE). Estão entre as principais variáveis presentes neste estudo: setor de
atividade da firma, ano de sua abertura, número de trabalhadores, qualificação (grau
de instrução) da mão de obra, gastos com salários e rotatividade dessa mão de obra.32
Apesar disso, ela traz um conjunto amplo de empresas e, entre as bases dispo-
níveis, é a única alternativa à sala de sigilo do IBGE com representatividade para
empresas de menor porte. Considerando o objetivo de traçar um panorama a respeito
do impacto do BNDES sobre o conjunto de empresas brasileiras, as vantagens
de utilizar a Serasa são mais relevantes do que os problemas a ela relacionados.
Além disso, os problemas informacionais podem ser mitigados por meio de um
tratamento adequado dos dados, conforme ficará claro adiante.
32
Os registros identificados da Rais são dados sigilosos e seu acesso foi viabilizado por meio de um
acordo de cooperação com o MTE. Essa base é entregue de forma consolidada uma vez por ano
ao BNDES. Inicialmente, são duas bases distintas: Rais Estabelecimento – com dados básicos
sobre os estabelecimentos empregadores de mão de obra – e Rais Trabalhadores – com dados
sobre os trabalhadores vinculados a esse conjunto de estabelecimentos. Esses dois arquivos são
combinados em uma única base, denominada Rais Empresa, que consolida informações sobre
os estabelecimentos (Radical CNPJ) e sobre os empregados a ele vinculados.
33
A Área de Crédito do BNDES comprou os registros referentes ao período de 2009 a 2013 para
fins de análise de risco de crédito. Durante a aquisição, os registros eram disponibilizados para
uma janela de quatro anos. A base de dados conta, portanto, com observações para o período
de 2005 até 2012. Em razão de o número de observações antes de 2007 e depois de 2011 cair
substancialmente, este trabalho utilizou apenas informações para o período entre 2007 e 2011.
46 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
34
A Economática engloba informações para cerca de setecentas empresas por ano, enquanto o Valor
5000 traz dados das cinco mil maiores empresas brasileiras.
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 47
Essa segunda etapa teve dois objetivos. Do ponto de vista técnico, buscava-se
lidar indiretamente com problemas informacionais. As contas mais comuns do
balanço (com maior taxa de preenchimento) têm maior probabilidade de serem
preenchidas de forma correta por todas as empresas, enquanto informações mais
complexas tendem a ser preenchidas corretamente apenas por empresas mais
estruturadas – aquelas que fazem auditoria do balanço, por exemplo. Do ponto
de vista prático, pretendia-se minimizar o número de missings na base de dados.
Uma base com informações faltantes prejudica essa comparação, porque mo-
delos com diferentes conjuntos de variáveis seriam também modelos com número
de observações distintos. Como o MARVIm desconsidera observações com in-
formação incompleta para fins de seleção de modelo, incluir variáveis com baixa
taxa de preenchimento poderia resultar em estimações com poucas observações.
Logo, esse recorte era importante também para manter o maior número possível
de empresas na base de dados de análise.
Além dos filtros aplicados sobre a base da Serasa, a base da Rais Empresa
limitou-se àquelas observações que não haviam declarado Rais negativa – o que
significa declarar que a empresa não contou com nenhum empregado vinculado
durante todo o ano de referência.35 Implementados esses filtros, as três bases de
dados foram unidas para dar origem à base utilizada pelo MARVIm.
35
Boa parte delas diz respeito a microempreendedores individuais. O fato é que tais firmas têm um
incentivo ainda menor em apresentar dados formais de balanço, e a chance de tais dados serem
capturados pela Serasa era muito baixa.
48 | Daniel Grimaldi, Arthur Pinto, Breno Albuquerque, Felipe Buchbinder,
João Paulo Pereira, Leandro Ortiz, Marcus Tortorelli e Ricardo Martini
2006
2007
2008
2009
2010
2011
2012
Cobertura da informação
0.00
0.25
0.50
0.75
1.00
11 569
18 540
81 539
38 489
78 414
55 406
61 402
33 361
60 351
94 341
30 303
68 282
2 270
64 251
70 247
73 224
36 211
63 209
7 207
50 194
51 181
93 180
69 145
9 129
84 121
74 116
79 109
37 107
59 98
66 95
72 73
12 73
95 52
5 51
96 49
53 40
3 39
6 27
87 22
99 21
90 18
88 10
39 9
91 4
75 1
0
5.000
10.000
15.000
20.000
25.000 24.183
22.533 22.137
20.000 19.679
18.255
15.000
10.000
5.942
5.000
985
0
2006
2007
2008
2009
2010
2011
2012
Fonte: Elaboração própria, com base no MARVIm.
(Continuação)
(Continuação)
Essa base adicional foi utilizada para testar a robustez de todos os resultados
reportados na quarta seção, aumentando a confiança de que as conclusões expos-
tas não decorrem de problemas informacionais da base da Serasa. A Tabela A.3
exibe as estatísticas descritivas dessa base depois da detecção de outliers e, como
esperado, o filtro reduziu bastante o desvio-padrão das variáveis, de tal forma que
os máximos e mínimos passaram a apresentar valores menos extremos.
36
Para mais detalhes a respeito do método implementado, ver Filzmoser, Garrett e Reimann (2005).
Uma solução automatizada para avaliações
quantitativas de impacto: primeiros resultados do MARVIm | 53
Além disso, existiam duas variáveis diferentes que pareciam fazer menção
à mesma conta: FATURAMENTO LÍQUIDO e FATURAMENTO BRUTO.
Apesar da alta correlação entre elas (aproximadamente 0,99), notou-se que o
FATURAMENTO LÍQUIDO era superior ao FATURAMENTO BRUTO com
excessiva frequência. Já o FATURAMENTO LÍQUIDO era sempre inferior ao
FATURAMENTO BRUTO. Com isso, julgou-se que a variável correta era FA-
TURAMENTO LÍQUIDO.
Coordenação Editorial
Gerência de Editoração e Memória
do BNDES
Projeto Gráfico
Fernanda Costa e Silva
Produção Editorial
Expressão Editorial
Editoração Eletrônica
Expressão Editorial
Editado pelo
Departamento de Comunicação
Outubro de 2018
www.bndes.gov.br