Você está na página 1de 13

Aluno: Hygor Lucas Xavier da Cunha

Matrícula: 201551055

1. Sobre avaliação de impacto, responda:

1.a. O que é inferência causal? Qual a diferença entre causalidade e


correlação?

A inferência causal envolve o processo de avaliar se uma variável é


responsável por causar variações em outra, sendo importante distinguir a
causalidade da correlação para compreender como se dão as relações entre
as variáveis.

A causalidade implica a existência de uma relação direta entre duas


variáveis, onde mudanças em uma resultam em mudanças na outra. Já a
correlação indica que duas variáveis estão relacionadas, sem
necessariamente sugerir a existência de uma causalidade. A diferença entre a
causalidade e a correlação pode ser observada no exemplo a seguir:

O aumento das vendas de sorvetes e o número de afogamentos durante o


verão. Existe uma correlação positiva entre os dois eventos, uma vez que
ambos tendem a aumentar durante os períodos mais quentes. A correlação
pode ser explicada por uma variável comum, que é a temperatura, sendo que,
durante o verão, as pessoas estão mais propensas a comprar sorvetes devido
ao calor e, ao mesmo tempo, é mais provável que elas se envolvam em
atividades aquáticas, aumentando o risco de afogamentos. Portanto, a
temperatura é a variável que causa tanto o aumento das vendas de sorvetes
quanto o aumento de afogamentos, ilustrando a importância de não assumir
causalidade com base apenas na correlação observada.

1.b.O que é uma intervenção? O que significa avaliar o impacto de uma


intervenção?

Uma intervenção consiste em realizar ações específicas com o objetivo


de induzir alterações em variáveis específicas de interesse, podendo se manifestar
através de um experimento, política ou tratamento. Avaliar o impacto de uma
intervenção significa mensurar a influência exercida sobre as variáveis, comparando
os resultados alcançados com o que teria ocorrido caso a intervenção não tivesse
sido implementada. A avaliação de impacto normalmente utiliza métodos estatísticos
e experimentais, possibilitando isolar o efeito da intervenção das demais variáveis
que também podem influenciar o resultado.

1.c. Por que avaliar o impacto de uma intervenção?

A avaliação do impacto de uma intervenção é fundamental, uma vez que


possibilita determinar se os objetivos da intervenção estão sendo atingidos e se o
estudo está sendo realizado de maneira eficaz e eficiente. Os resultados desse
processo de avaliação desempenham um papel crucial na tomada de decisões,
contribuindo para o aprimoramento de políticas e programas ao oferecer evidências
sobre a eficácia das intervenções. Ela também fornece informações objetivas sobre
o desempenho de programas e políticas, permitindo uma maior transparência e a
identificação de efeitos e causas. Dessa forma, a avaliação de impacto desempenha
um papel essencial na gestão de políticas, programas e projetos, sendo possível
uma compreensão mais clara e auxiliando no implemento de ajustes ao modelo.

2. Suponha que você esteja interessado em estimar o efeito da conclusão do


curso técnico sobre os rendimentos dos jovens estimando um modelo linear
via Mínimos Quadrados Ordinários (MQO). Suponha, inicialmente, que você
faça uma regressão sem controles.

2.a. Qual o coeficiente estimado via MQO? Como ele está relacionado ao
coeficiente do modelo populacional?

Ao realizar uma regressão por MQO sem controles, o objetivo é estimar a


relação entre uma variável dependente (rendimentos dos jovens) e uma variável
independente (conclusão do curso técnico), sem levar em consideração outras
variáveis que possam influenciar a variável dependente. O coeficiente calculado por
meio do MQO, nesse caso, representa o efeito médio estimado da conclusão do
curso técnico nos rendimentos dos jovens. Enquanto isso, um modelo populacional é
a representação que descreve a relação entre a variável dependente e as variáveis
independentes na população como um todo, sendo assim, o coeficiente do modelo
populacional é o verdadeiro efeito causal médio da variável independente sobre a
variável dependente na população.
O coeficiente estimado pelo MQO é uma aproximação do coeficiente do
modelo populacional, baseada em uma amostra da população. Se a amostra for
representativa e não houver viés de seleção ou erro de medição e especificação, o
coeficiente estimado por MQO será um estimador conhecido como BLUE (o melhor
estimado linear não viesado).

2.b. Ele reporta a diferença das médias salariais entre jovens que concluíram e
não concluíram o curso técnico?

Positivo, o coeficiente calculado em uma regressão MQO sem controles,


nesse caso, pode ser interpretado como a média da discrepância nos entre jovens
que finalizaram o curso técnico e aqueles que não finalizaram, considerando que a
única distinção entre esses dois grupos seja a conclusão do curso técnico. Em
termos matemáticos, se Xi = 1 para jovens que concluíram o curso técnico e X i = 0
para aqueles que não concluíram, o coeficiente β 1 representa a média da diferença
nos rendimentos entre esses dois grupos, enquanto o termo constante β 0
representaria o rendimento médio dos jovens que não concluíram o curso técnico.

2.c. Ele reporta o efeito causal da conclusão do curso técnico? Por quê?

Não, o coeficiente calculado em um modelo de regressão simples usando


MQO sem controles não necessariamente indica o verdadeiro efeito causal da
conclusão do curso técnico sobre os rendimentos. Diversos problemas podem
comprometer a inferência causal, tais como:

1) Variáveis que impactam os rendimentos e que também estejam


correlacionadas com a conclusão do curso técnico;
2) Omissão de variáveis do modelo podem distorcer o coeficiente estimado,
resultando em inferências equivocadas sobre o efeito causal;
3) Variáveis não observáveis (como habilidade, aptidão) afetando de maneira
diferente os indivíduos que concluem o curso técnico e aqueles que não
concluem;
4) Se o efeito de concluir o curso técnico variar entre diferentes subgrupos da
população, o coeficiente estimado pode apenas representar o efeito médio,
que pode não ser indicativo do efeito causal para todos os indivíduos.
5) Erro na medição da variável dependente ou independente, podendo resultar
em estimativas imprecisas e incorretas do efeito causal.

2.d. Suponha agora que você decida adicionar controles. Qual especificação
você testaria? Por quê?

Ao optar por incorporar controles à regressão, é essencial incluir variáveis


que possam ter relação tanto com a conclusão do curso técnico quanto com os
rendimentos dos jovens. A especificação do modelo depende da compreensão
teórica do que poderia impactar os rendimentos, assim como a disponibilidade de
dados. Seguem exemplos de controles e variáveis que podem ser inclusas:

- Nível Educacional: representando o grau de escolaridade do indivíduo


(anos de educação, conclusão do ensino médio, etc.)

- Características Demográficas: Idade, sexo, etnia, estado civil.

- Características Socioeconômicas: Renda familiar, condições de moradia,


status socioeconômico.

- Experiência de Trabalho: Anos de experiência, tipo de trabalho (meio


período/tempo integral), indústria.

- Habilidades e Competências: Habilidades cognitivas e não cognitivas,


certificações profissionais.

- Localização Geográfica: Região, urbanização, acesso a empregos.

2.e. Adicionando controles, você espera que o coeficiente da variável


indicativa da conclusão do curso seja diferente do coeficiente da primeira
regressão? E o erro padrão? Por quê?

Ao incorporar variáveis de controle em uma regressão, é provável que o


coeficiente da variável de interesse sofra alterações, especialmente se as variáveis
de controle estiverem correlacionadas tanto com a variável de interesse quanto com
a variável dependente. Se essas variáveis de controle forem omitidas e
apresentarem correlação com a variável de interesse, a estimativa do coeficiente
pode ser enviesada, refletindo o efeito conjunto da variável de interesse e das
variáveis omitidas. A inclusão dos controles possibilita obter uma estimativa mais
precisa do efeito da variável de interesse ao isolar seu impacto das demais
variáveis.

O erro padrão de um coeficiente mensura a precisão da estimativa desse


coeficiente, sendo que a adição de variáveis de controle influencia de diversas
maneiras distintas o erro padrão: caso as variáveis de controle reduzam a variância
residual, o erro padrão da variável de interesse pode diminuir, resultando em
estimativas mais precisas. Se as variáveis adicionadas apresentarem alta correlação
com a variável de interesse (problema de multicolinearidade), possivelmente irá
dificultar a interpretação precisa dos coeficientes. A inclusão de controle pode
causar efeitos ambíguos e depende da relação entre a variável de interesse e as
variáveis de controle, assim como da relação entre as variáveis de controle e a
variável dependente.

2.f. Suponha que, em Minas Gerais, o governo tenha sorteado entre jovens de
baixa renda, vagas no curso técnico. Suponha que todos os jovens sorteados
concluam o curso e todos os jovens que concorreram às vagas sejam
acompanhados ao longo da sua vida, sendo que os não sorteados não tenham
cursado nenhum outro curso. É possível estimar o efeito causal da conclusão
do curso via regressão de salário contra uma variável indicativa de conclusão
do curso para jovens de baixa renda no estado? Neste caso você estaria
estimando o ATE ou o ATT? Por que incluir controles nessa regressão?

No caso em que o governo realiza sorteios para vagas em um curso


técnico destinado a jovens de baixa renda, com todos os sorteados concluindo o
curso, enquanto todos os concorrentes (sorteados ou não) são acompanhados ao
longo de suas vidas, surge um formato de pesquisa ideal para inferência causal,
denominado Experimento Randomizado Controlado (RCT). Nesse contexto, torna-se
viável estimar o efeito causal da conclusão do curso técnico sobre os salários, uma
vez que o processo de sorteio assegura que a alocação ao grupo de tratamento
(aqueles que concluíram o curso) é, em média, independente das características
observadas e não observadas dos jovens, eliminando assim o problema de viés de
seleção.
Dentro desse cenário, a estimativa estaria relacionada ao Efeito de
Tratamento Médio (ATE - Average Treatment Effect), pois há informações sobre
toda a população de interesse (todos os jovens que concorreram às vagas), e não
apenas sobre os tratados. A inclusão de controles pode apresentar vantagens, tais
como:

- Aumento de precisão: caso a variação nos controles esteja associada à


variação nos salários, a inclusão de controles pode contribuir para a redução da
variância residual e, por conseguinte, dos erros padrão, incrementando a precisão
das estimativas.

- Correção para desequilíbrios aleatórios: mesmo com a randomização,


é possível que ocorram desequilíbrios em algumas características observadas entre
o grupo de tratamento e controle.

- Compreensão adicional: analisar o efeito das variáveis de controle no


modelo pode proporcionar visões adicionais sobre os fatores que influenciam os
salários, além do efeito do tratamento.

Finalmente, seria possível utilizar uma regressão salarial com uma


variável indicativa de conclusão do curso para estimar o efeito causal da conclusão
do curso técnico sobre os salários de jovens de baixa renda no estado, estimando
assim o ATE.

2.g. Suponha que, adicionalmente, você queira estimar o efeito heterogêneo de


cursar o curso superior para homens e mulheres. Qual especificação você
testaria? Por que ela retorna o efeito heterogêneo do tratamento?

Para avaliar a disparidade nos efeitos do curso superior entre homens e


mulheres, é possível incorporar um termo de interação entre a variável de
tratamento (conclusão do curso técnico) e a variável indicadora de gênero. Um
modelo que contenha um termo de interação possibilita que o efeito do tratamento
varie entre os gêneros.

Y i=β 0 + β 1 (Conclus ã o do Curso T é cnico )i + β 2 ( G ê nero )i + β 3 ( Conclus ã o do Curso T é cnico )i∗( G ê nero )i +ε

Aqui:
Yi é o salário do indivíduo i.

( Conclus ã o do Curso T é cnico )i é a variável indicadora de ter concluído o curso técnico.

( G ê nero )ié a variável indicadora para o gênero, podendo ser 1 para mulheres e 0
para homens, por exemplo.

( Conclus ã o do Curso T é cnico )i∗( G ê nero )ié o termo de interação entre a conclusão do
curso técnico e o gênero.

β 1 captura o efeito do curso técnico para o grupo de referência do gênero (supondo


que seja homens se ((( G ê nero )i=¿0 para homens).

β 2 captura a diferença de salário entre homens e mulheres, desconsiderando o efeito


do curso técnico.

β 3 é o coeficiente de interesse para o efeito heterogêneo, e representa a diferença


no efeito do curso técnico entre homens e mulheres.

Então, o efeito total do curso técnico para mulheres, por exemplo, seria β 1+ β3 se
( Gênero )i=1 para mulheres.

Este modelo retorna o efeito heterogêneo do tratamento porque permite


que o impacto da conclusão do curso técnico no salário seja diferente para homens
e mulheres através do coeficiente do termo de interação β 3 . Este coeficiente indicará
se o efeito do tratamento é significativamente diferente entre os gêneros, permitindo
a avaliação de heterogeneidade no impacto do tratamento.

2.h. Suponha que alguns jovens selecionados decidam não se matricular ou


não concluam o curso, é possível garantir que o coeficiente estimado reporta o
ATE? Por quê? Ele reporta o efeito da intenção de tratar (ITT)?

ATE (Efeito de Tratamento Médio)

Se alguns jovens selecionados decidem não se matricular ou não concluem o curso,


então o coeficiente estimado não capturará mais o ATE. O ATE é a média dos
efeitos de tratamento individuais na população, considerando que todos no grupo de
tratamento recebam o tratamento. Quando alguns indivíduos no grupo de tratamento
não recebem o tratamento, o efeito médio no grupo de tratamento não refletirá o
efeito causal médio do tratamento em si.

ITT (Efeito da Intenção de Tratar)

Nesse caso, o que você estaria estimando é o Efeito da Intenção de Tratar (ITT). ITT
compara todos os indivíduos no grupo de tratamento (aqueles que foram sorteados
para ter a chance de concluir o curso técnico) com todos os indivíduos no grupo de
controle, independentemente de se os indivíduos no grupo de tratamento realmente
receberam o tratamento (concluir o curso técnico).

1 1
ITT = ∑ Yi ​∣ Tratado− ∑ Yi ​∣ Controle
Nt Nc

 Nt = Número de indivíduos no grupo de tratamento

 Nc = Número de indivíduos no grupo de controle

 Yi∣Tratado = Resultado do indivíduo i no grupo de tratamento

 Yi∣Controle = Resultado do indivíduo i no grupo de controle

ITT é uma medida importante porque reflete a eficácia do tratamento em um cenário


"do mundo real", onde nem todos os que são oferecidos o tratamento irão, de fato,
recebê-lo. O ITT dá uma visão do efeito causal da oportunidade de receber o
tratamento, em vez do efeito causal do tratamento propriamente dito.

2.i. Sob as hipóteses da letra f, o tratamento tem validade interna? E validade


externa? Explique.

A validade interna refere-se à extensão em que podemos inferir um relacionamento


causal verdadeiro a partir dos resultados de um estudo.

Sob as hipóteses da letra f, onde você tem um experimento randomizado com


acompanhamento completo dos participantes e onde todos os sorteados concluem o
curso (compliance total), há uma alta validade interna. Isso porque a randomização
ajuda a garantir que quaisquer diferenças sistemáticas entre o grupo de tratamento e
o grupo de controle são atribuíveis ao acaso, e não a diferenças pré-existentes entre
os grupos (viés de seleção). Portanto, qualquer diferença nas médias de resultado
entre os grupos pode ser atribuída ao tratamento com um alto grau de confiança.
A validade externa, por outro lado, refere-se à extensão em que os resultados de um
estudo podem ser generalizados para outros contextos, populações, tempos e
configurações.

Sob as hipóteses da letra f, a validade externa pode ser mais desafiadora. Mesmo
que você tenha conclusões sólidas sobre o efeito do curso técnico nos jovens de
baixa renda em Minas Gerais que participaram do estudo, pode ser difícil generalizar
esses resultados para outras populações, outros tipos de cursos técnicos, ou outros
contextos socioeconômicos, educacionais ou geográficos.

3. Nesta questão, vamos aplicar os conhecimentos da aula empírica de Stata e


usar o banco de dados enviado. Suponha que o governo introduza um
programa de microcrédito e as vilas sejam selecionadas para receber o
tratamento ou não a partir de um sorteio, não havendo diferenças em
características observáveis entre as vilas tratadas e não tratadas. Você deseja
avaliar o impacto do programa sobre o gasto anual per capita dos domicílios.
Siga os seguintes passos:

1. Faça um teste t para estimar o efeito do programa sobre a vila (Atenção: os


dados estão desagregados no nível do domicílio, mas o tratamento ocorre para
toda a vila, então é necessário aplicar o comando do teste t utilizando a opção
", by(progvillf)"). Qual o efeito do tratamento? Ao nível de significância de 5%
ele é estatisticamente diferente de zero?
. ttest lGDPC, by(progvillf)

Two-sample t test with equal variances

Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]

0 67 8.328525 .0644093 .5272125 8.199927 8.457122


1 1,062 8.458371 .0157201 .5122923 8.427525 8.489217

combined 1,129 8.450665 .0152934 .5138679 8.420659 8.480672

diff -.1298466 .0646421 -.2566789 -.0030142

diff = mean(0) - mean(1) t = -2.0087


Ho: diff = 0 degrees of freedom = 1127

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0


Pr(T < t) = 0.0224 Pr(|T| > |t|) = 0.0448 Pr(T > t) = 0.9776

.
end of do-file

O efeito do tratamento, com base nos resultados do teste t, é de aproximadamente


−0,130. Isso significa que, em média, o grupo de controle tem um lGDPC 0.130
pontos menor que o grupo de tratamento.

Ao nível de significância de 5%, o valor-p é 0,0448, que é menor que 0,05. Portanto,
você rejeitaria a hipótese nula de que não há diferença entre as médias de lGDPC
entre os grupos de tratamento e controle. Isso sugere que o programa teve um efeito
estatisticamente significativo sobre lGDPC, aumentando-o nas vilas tratadas em
comparação com as vilas de controle.

2. Faça uma regressão sem controles para estimar o efeito do programa. Qual
o efeito do tratamento? Ao nível de significância de 5% ele é estatisticamente
diferente de zero? O resultado é análogo ou idêntico ao encontrado no item
anterior?

O coeficiente para progvillf é 0,1298, com um erro padrão de 0,0646. Este


coeficiente representa o efeito estimado do programa progvillf sobre o log do PIB per
capita (lGDPC). Dado que o valor-p para este coeficiente é 0,045, que é menor do
que o nível de significância de 0,05, você pode concluir que há evidências
suficientes para rejeitar a hipótese nula de que o programa não tem efeito sobre
lGDPC. Portanto, ao nível de significância de 5%, o efeito do tratamento é
estatisticamente diferente de zero.

Os resultados da regressão são análogos aos do teste t. O coeficiente de progvillf na


regressão é exatamente igual à diferença nas médias entre os grupos de tratamento
e controle observada no teste t, ou seja, 0,1298. Além disso, o valor-p é o mesmo
em ambos os casos, 0,0448, permitindo rejeitar a hipótese nula de não haver
diferença ao nível de significância de 5%.

O efeito do tratamento é de aproximadamente 0,1298, e ao nível de significância de


5%, ele é estatisticamente diferente de zero, sugerindo que o programa teve um
efeito positivo e significativo sobre o log do PIB per capita. E sim, os resultados são
idênticos aos encontrados no teste t anterior, validando a conclusão de que há um
efeito positivo do programa.

3. Faça uma regressão com controles para outros fatores que podem afetar o
gasto dos domicílios. Há diferentes especificações que podem ser utilizadas,
no entanto é importante pensar com cuidado a especificação. Lembre-se das
discussões em sala. (Atenção: é necessário ponderar seus resultados pelo
peso dos domicílios na amostra. Ao aplicar o comando de regressão, utilize ao
final do comando a opção "[pw=weight]"). Qual o efeito estimado do
tratamento? Ao nível de significância de 5% ele é estatisticamente diferente de
zero? O resultado é análogo ou idêntico ao encontrado no item anterior?

Ao incluir variáveis de controle em um modelo de regressão, buscamos controlar os


possíveis fatores de confusão que podem estar associados tanto com a variável
independente de interesse quanto com a variável dependente, ou seja, queremos
isolar o efeito do tratamento da presença de outras variáveis que também podem
afetar o resultado.

Vamos detalhar as razões para incluir cada uma das variáveis de controle
mencionadas anteriormente:

agehead: A idade do chefe do domicílio pode influenciar o gasto per capita do


domicílio. Domicílios chefiados por indivíduos mais velhos podem ter padrões de
consumo diferentes daqueles chefiados por indivíduos mais jovens, devido a
diferenças nas preferências, necessidades ou renda.
sexhead: O gênero do chefe do domicílio pode afetar as decisões de gasto do
domicílio, devido a possíveis diferenças nas preferências e prioridades entre homens
e mulheres.

educhead: A educação do chefe do domicílio pode influenciar os gastos do domicílio.


Indivíduos com maior nível educacional podem ter empregos com maiores salários
e, portanto, ter maior capacidade de gasto. Além disso, a educação pode afetar as
preferências e escolhas de consumo.

famsize: O tamanho do domicílio pode ter um impacto direto no gasto per capita.
Domicílios maiores podem ter economias de escala nos gastos, influenciando o
gasto per capita.

hhland: A quantidade de terra que um domicílio possui pode ser um indicativo de


riqueza e capacidade produtiva, o que pode influenciar diretamente o nível de gasto
do domicílio.

hhasset: O valor total dos ativos de um domicílio é um indicativo de riqueza, e


domicílios mais ricos podem ter padrões de gasto diferentes dos domicílios menos
ricos.

Vaccess: Vilas com melhor acesso podem ter maior acesso a mercados e serviços,
o que pode influenciar o gasto dos domicílios nessas vilas.

Pcirr: A proporção de terra irrigada na vila pode afetar a produtividade agrícola e,


consequentemente, a renda e os gastos dos domicílios.

O coeficiente de progvillf é -0.0727027, sugerindo que, controlando para as outras


variáveis no modelo, estar em uma vila tratada está associado, em média, com uma
diminuição de 0.0727 unidades no log do Gasto Domiciliar per capita (lGDPC).
Contudo, este resultado não é estatisticamente significativo ao nível de 5%, uma vez
que o p-valor associado é 0.505 (> 0.05).

O resultado não é análogo ao do modelo sem controles, onde a variável de


tratamento era significativa e o coeficiente era positivo (0.1298466). No modelo sem
controles, parecia que o tratamento tinha um efeito significativo no aumento do log
do Gasto Domiciliar per capita. Contudo, quando controlamos para outros fatores no
modelo multivariado, o efeito do tratamento parece ser não significativo e sua
magnitude muda de direção.

Você também pode gostar