Escolar Documentos
Profissional Documentos
Cultura Documentos
Capa
Folha de rosto
Copyright
Dedicatória
Agradecimentos
Prefácio
Sumário
1 Da Estatística para a Econometria
1.1 Introdução
1.2 Revisão de Estatística
1.2.1 Conceitos básicos
1.2.2 Propriedades de estimadores
Propriedades de pequenas amostras
Propriedades de grandes amostras (assintóticas)
1.2.3 Métodos de Estimação
Método dos Momentos (MM)
Método de Máxima Verossimilhança (MV)
Método de Mínimos Quadrados (MQ)
1.2.4 Breve Revisão das Distribuições de
Probabilidade
1.3 Relação entre Variáveis Aleatórias
1.3.1 Independência em distribuições bivariadas
1.4 Considerações sobre o Capítulo
1.5 Exercícios
Apêndice 1.A A Revisão de Estatística Básica
1. A.1 Propriedades dos Momentos da Distribuição
1. A.2 Inferência Estatística
2 Efeitos Causais em Economia
2.1 Introdução
2.2 Análise Econômica Empírica
2.2.1 Abordagem estrutural
2.2.2 Abordagem de equações reduzidas usando
dados experimentais
2.2.3 Abordagem de equações reduzidas usando
dados observados
2.3 Considerações sobre o Capítulo
2.4 Exercícios
3 Tipos de Dados Secundários no Brasil
3.1 Estrutura de Dados
3.2 Bases de Dados Brasileiras
3.2.1 Pesquisa Nacional por Amostra de Domicílios
(PNAD) – Anual
3.2.2 Suplementos da PNAD
3.2.3 PNAD Contínua
3.2.4 Pesquisa Nacional de Saúde (PNS)
3.2.5 Pesquisa de Orçamentos Familiares (POF)
3.2.6 Censo Demográfico
3.2.7 Censo Agropecuário
3.2.8 Pesquisas de Comércio
3.2.9 Pesquisa Industrial – empresa e produto
3.2.10 Pesquisas de Serviços
3.2.11 Censo Escolar
3.2.12 Prova Brasil
3.2.13 Cadastro Nacional de Estabelecimentos de
Saúde (CNES)
3.2.14 Sistema de Informação da Atenção Básica
(SIAB)
3.2.15 Sistema de Informação sobre Mortalidade (SIM)
3.2.16 Sistema de Informações Hospitalares do SUS
(SIHSUS)
3.2.17 Sistema de Informações de Nascidos Vivos
(SINASC)
3.2.18 Sistema de Contas Nacionais (SCN)
3.2.19 Pesquisas de Origem e Destino (OD)
3.2.20 Finanças Públicas do Brasil (FINBRA)
3.2.21 Dados do Tribunal Superior Eleitoral (TSE)
3.2.22 Cadastro Geral de Empregados e
Desempregados (CAGED)
3.2.23 Relação Anual de Informações Sociais (RAIS)
3.2.24 Sistema Gerenciador de Séries Temporais
(SGS) do Banco Central
3.2.25 Cadastro Único (CadÚnico)
3.3 Exercícios
4 Modelo de Regressão Linear Simples
4.1 Introdução
4.2 Estimação do Modelo de Regressão Simples
4.2.1 Estimador pelo Método dos Momentos (MM)
4.2.2 Estimador pelo Método dos Mínimos Quadrados
Ordinários (MQO)
4.2.3 Estimador pelo Método de Máxima
Verossimilhança (MV)
4.2.4 Nota sobre os estimadores e sua interpretação
4.3 Grau de Ajuste da Regressão
4.4 Propriedades dos Estimadores de MQO
4.4.1 Propriedade de não viés
4.4.2 Cálculo da variância dos estimadores
4.4.3 Estimador para a variância dos erros
4.5 Modelo de Regressão Simples sem Intercepto
4.6 Considerações sobre o Capítulo
4.7 Exercícios
Apêndice 4.A
5 Modelo de Regressão Linear Múltipla
5.1 Introdução
5.2 Métodos de Estimação
5.2.1. Estimador pelo Método dos Momentos (MM)
5.2.2. Estimador pelo Método dos Mínimos Quadrados
Ordinários (MQO)
5.3 Álgebra de Somatório para os Estimadores de MQO
5.4 Propriedades dos Estimadores de MQO
5.4.1 Propriedade do não viés
5.4.2 Propriedade da consistência
5.4.3 Cálculo da variância dos estimadores
5.5 Comparação entre a Regressão Linear Simples e
Múltipla
5.6 Eficiência dos Estimadores de MQO e Gauss-Markov
5.7 Relação entre o R2 e O R−2
5.8 Considerações sobre o Capítulo
5.9 Exercícios
6 Especificações dos Modelos de Regressão
6.1 Mudanças nas Unidades de Medida das Variáveis
6.2 Não Linearidades na Relação entre Y E X
6.2.1 Uso de logaritmos
Efeitos marginais em log
Previsão quando a variável dependente está em
log
6.2.2 Outras formas funcionais: polinômios
6.2.3 Outras formas funcionais: produtos cruzados
6.3 Variáveis Binárias (Dummy)
6.3.1 Variáveis qualitativas com duas categorias
6.3.2 Variáveis qualitativas com várias categorias
6.3.3 Produtos cruzados usando variáveis dummy
6.3.4 Variável dependente binária
6.4 Exercícios
Apêndice 6.A Padronização de Variáveis
7 Inferência Estatística
7.1 Breve Revisão
7.2 Distribuição dos Estimadores para Amostras Finitas
7.2.1 Distribuição normal dos erros
7.2.2 Distribuição normal dos estimadores de MQO
Demonstração
7.3 Distribuição dos Estimadores para Grandes Amostras
Demonstração
7.4 Teste de Hipóteses Individuais
7.4.1 Teste bicaudal para significância estatística
7.4.2 Teste bicaudal para valores específicos
7.4.3 Testes monocaudais
7.4.4 Regra de decisão usando p-valores
7.4.5 Significância estatística e tamanho da amostra
7.4.6 Intervalo de confiança
7.4.7 Teste de combinação linear de parâmetros
7.4.8 Uso do R−2 para escolher entre modelos
7.5 Teste de Múltiplas Hipóteses
7.5.1 Teste F de múltiplas restrições de exclusão
7.5.2 Significância geral da regressão
7.5.3 Teste de outras restrições lineares
7.5.4 Relação entre as estatísticas t e F
7.5.5 Relação entre R2 e a estatística t
7.5.6 Teste entre grupos de variáveis dummy
7.6 Considerações sobre o Capítulo
7.7 Exercícios
Apêndice 7.A Breve Revisão do Teorema do Limite Central
7. A.1 Propriedades Assintóticas: Teorema da
Normalidade Assintótica
7.A.2 Breve Revisão de Teste de Hipóteses
7.A.3 Tabelas de Distribuições Conhecidas
8 Heterocedasticidade e Autocorrelação
8.1 Correção do Estimador da Variância
8.1.1 Sob heterocedasticidade
8.1.2 Sob autocorrelação entre as observações
8.1.3 Testes de hipóteses usando bootstrapping
8.2 Testes para Detecção de Heterocedasticidade e
Autocorrelação
8.2.1 Teste para heterocedasticidade
8.2.2 Teste para autocorrelação dos erros
8.3 Estimadores Alternativos ao MQO
8.3.1 Estimador MQG para heterocedasticidade
8.3.2 Estimador MQGF para heterocedasticidade
8.3.3 Estimador MQG e MQGF para autocorrelação
8.3.4 Estimação usando matrizes
8.4 Exercícios
9 Endogeneidade e Variáveis Instrumentais
9.1 Omissão de Variáveis Relevantes
9.1.1 Uso de variáveis proxy
9.1.2 Uso de variáveis instrumentais na regressão
simples
9.1.3 Uso de variáveis instrumentais na regressão
múltipla
9.1.4 Múltiplas variáveis instrumentais: MQ2E
9.1.5 Testes entre os estimadores de MQO e MQ2E
9.1.5.1 Teste de Hausman
9.1.5.2 Teste de Sargan
9.1.6 Múltiplas variáveis endógenas
9.2 Erro de Medida nas Variáveis Explicativas
9.3 Problema de Simultaneidade
9.4 Considerações sobre o Capítulo
9.5 Exercícios
Apêndice 9.A Normalidade Assintótica do Estimador de
Variáveis Instrumentais para a Regressão Simples
10 Métodos para Dados em Painel
10.1 Dados em Cortes Transversais Agrupados
10.1.1 Método de diferenças em diferenças
10.2 Dados em Painel
10.2.1 Efeitos fixos: métodos de primeiras diferenças
10.2.2 Efeitos: método within
10.2.3 Efeitos fixos: método de variáveis dummy
10.2.4 Comparação de métodos
10.2.5 Nota sobre painéis desbalanceados
10.2.6 Análise de impacto com dados em painel
10.2.7 Estimação na presença de efeitos aleatórios
10.3 Exercícios
11 Variáveis Dependentes Limitadas
11.1 Modelos de Variável Dependente Binária
11.2 Modelos de Variável Dependente em Proporção
11.3 Modelos de Variável Dependente Censurada
11.4 Modelo de Seleção Amostral
11.5 Considerações sobre o Capítulo
11.6 Exercícios
12 Avaliação de Impacto: Tópicos Avançados
12.1 Efeito Causal e Mecanismo de Seleção
12.2 Tipos de Efeitos de Tratamento
12.3 Seleção em Observáveis: Análise de Regressão
12.4 Análise Usando Propensity Score
Etapa I: Testes de balanceamento
Etapa II: Estimando o propensity score
Etapa III: Pareamento
Etapa IV: Análise pós-pareamento
12.5 Método de Diferenças em Diferenças (DD)
12.6 Método de Controle Sintético
Comparação: Controle sintético vs Diferenças em
diferenças
12.7 Método de Variáveis Instrumentais
12.8 Regressão Descontínua
Sharp RD
12.9 Considerações sobre o Capítulo
12.10 Exercícios
Referências
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
ECONOMETRIA
APLICADA
Nota: Muito zelo e técnica foram empregados na edição desta obra. No entanto, podem
ocorrer erros de digitação, impressão ou dúvida conceitual. Em qualquer das hipóteses,
solicitamos a comunicação ao nosso Serviço de Atendimento ao Cliente, para que
possamos esclarecer ou encaminhar a questão.
Nem a editora nem o autor assumem qualquer responsabilidade por eventuais danos ou
perdas a pessoas ou bens, originados do uso desta publicação.
E
m primeiro lugar, agradecemos aos nossos alunos da FEA-
USP pela inspiração constante. Em segundo, agradecemos
à Bruna Guidetti, aluna do mestrado em Teoria Econômica
da USP, pela excelente assistência à pesquisa. O apoio
dos alunos Ana Beatriz Davoli, Bruno Toni Palialol, Camila Steffens,
Edivaldo Constantino das Neves Júnior, Larissa Bueno e Maria Alice
Moz Christoffoletti também foi muito importante na elaboração dos
exemplos e bases de dados do livro. Agradecemos, também, ao
excelente auxílio prestado por Helena Ciorra e Renata Dias. Este
projeto também não teria sido possível sem o apoio institucional do
Departamento de Economia da USP. Por fim, agradecemos aos
nossos familiares pela paciência e apoio fundamentais ao longo da
nossa trajetória acadêmica.
PREFÁCIO
Agradecimentos
Prefácio
7 Inferência Estatística
7.1 Breve Revisão
7.2 Distribuição dos Estimadores para Amostras Finitas
7.2.1 Distribuição normal dos erros
7.2.2 Distribuição normal dos estimadores de MQO
7.3 Distribuição dos Estimadores para Grandes Amostras
7.4 Teste de Hipóteses Individuais
7.4.1 Teste bicaudal para significância estatística
7.4.2 Teste bicaudal para valores específicos
7.4.3 Testes monocaudais
7.4.4 Regra de decisão usando p-valores
7.4.5 Significância estatística e tamanho da amostra
7.4.6 Intervalo de confiança
7.4.7 Teste de combinação linear de parâmetros
−
7.4.8 Uso do R 2 para escolher entre modelos
7.5 Teste de Múltiplas Hipóteses
7.5.1 Teste F de múltiplas restrições de exclusão
7.5.2 Significância geral da regressão
7.5.3 Teste de outras restrições lineares
7.5.4 Relação entre as estatísticas t e F
−
7.5.5 Relação entre R 2 e a estatística t
7.5.6 Teste entre grupos de variáveis dummy
7.6 Considerações sobre o Capítulo
7.7 Exercícios
Apêndice 7.A Breve Revisão do Teorema do Limite Central
7. A.1 Propriedades Assintóticas: Teorema da Normalidade Assintótica
7.A.2 Breve Revisão de Teste de Hipóteses
7.A.3 Tabelas de Distribuições Conhecidas
8 Heterocedasticidade e Autocorrelação
8.1 Correção do Estimador da Variância
8.1.1 Sob heterocedasticidade
8.1.2 Sob autocorrelação entre as observações
8.1.3 Testes de hipóteses usando bootstrapping
8.2 Testes para Detecção de Heterocedasticidade e Autocorrelação
8.2.1 Teste para heterocedasticidade
8.2.2 Teste para autocorrelação dos erros
8.3 Estimadores Alternativos ao MQO
8.3.1 Estimador MQG para heterocedasticidade
8.3.2 Estimador MQGF para heterocedasticidade
8.3.3 Estimador MQG e MQGF para autocorrelação
8.3.4 Estimação usando matrizes
8.4 Exercícios
Referências
1
DA ESTATÍSTICA PARA A
ECONOMETRIA
E
ste capítulo apresenta os principais conceitos de estatística
que usaremos no estudo de relações econômicas com o
uso de econometria. Isso porque uma amostra de dados
pode ser vista como uma sequência de variáveis aleatórias.
Assim, precisamos entender as características das variáveis
aleatórias e como relacioná-las para caracterizar comportamentos
de interesse.
1.1 INTRODUÇÃO
A disciplina de Econometria antigamente era chamada de Estatística
Econômica. A disciplina surgiu da evolução dos métodos de
estimação e das formas de análise e acabou contribuindo
fortemente para o desenvolvimento de outros ramos da estatística.
Em linhas gerais, a Econometria é considerada a junção de três
disciplinas: a economia (que fundamenta as relações que se deseja
analisar); a matemática (que formaliza as relações econômicas na
forma de funções); e a estatística (que possibilita a inferência das
relações de interesse a partir do uso de amostras de dados). Ou
seja, a Econometria é uma disciplina baseada no desenvolvimento
de métodos estatísticos para estimar relações econômicas. Para tal,
é necessário que se tenha uma amostra de dados (de preferência,
uma amostra representativa de uma população de interesse) que
permita encontrar estimadores/estimativas sobre as relações
econômicas dessa população. O mais comum é que obtenhamos
amostras de dados econômicos, as quais chamamos de não
experimentais (ou amostra de dados observados).
Uma amostra de dados é um subconjunto de dados de uma
população de interesse. As amostras de dados observados em geral
são coletadas por meio de pesquisas de campo, surveys e bases
administrativas. No Brasil, há diversas instituições que coletam
bases de dados, como o Instituto Brasileiro de Geografia e
Estatística (IBGE), a Fundação Seade (SEADE), a Fundação
Instituto de Pesquisas Econômicas (FIPE), o Instituto de Pesquisas
Econômicas Aplicadas (IPEA), a Fundação Getulio Vargas (FGV),
entre muitas outras. O IBGE, por exemplo, realiza frequentemente
pesquisas domiciliares para o levantamento dos índices oficiais de
inflação, da taxa de desemprego e de diversos outros indicadores
oficiais da economia brasileira.
Já amostras de dados experimentais são aquelas coletadas a
partir do desenho de um experimento (por exemplo, experimentos
desenhados para se testar a eficácia de um novo medicamento).
Esses dados também são conhecidos como dados de laboratório.
Na análise da eficácia de um medicamento, é desenhado um
experimento no qual um grupo de pessoas, escolhido
aleatoriamente, recebe o medicamento verdadeiro (conhecido por
grupo de tratamento) e outro grupo, também escolhido de forma
aleatória, recebe o placebo1 (conhecido por grupo de controle). Em
economia, os experimentos são considerados experimentos sociais,
existindo, portanto, questões éticas envolvidas na distribuição
aleatória do tratamento.2 Veremos como analisar dados
experimentais nos capítulos seguintes.
Assim, mesmo a partir de estratégias de análise diferentes que
dependem do tipo de base de dados, a Econometria é considerada
uma importante ferramenta da Economia, que pode ser usada para
encontrar relações de causalidade entre variáveis. Entre os usos da
ferramenta, destacamos:
1. Avaliar o impacto de políticas públicas (efeito de políticas
educacionais como o bônus para professores das escolas
públicas sobre o desempenho dos alunos; efeito do
recebimento de royalties do petróleo sobre o desenvolvimento
econômico dos municípios ou estados).
2. Avaliar o efeito de programas implementados em empresas
(efeito de treinamentos na produtividade dos trabalhadores, ou
de um tipo de estratégia de marketing nas vendas do produto).
3. Testar relações teóricas em economia (testar valores das
elasticidades preço de bens e serviços para verificar o efeito
de aumento de um imposto sobre o bem-estar das famílias, ou
para testar a intensidade da relação entre desemprego e
inflação).
4. Projetar variáveis econômicas (como a taxa de inflação da
economia, com o objetivo de planejar investimentos de médio
e longo prazos, ou os preços das ações de empresas, para
tomar decisões de venda ou compra de ativos), entre outros
usos.
Ao utilizar uma amostra de dados observados para testar as
relações de interesse, precisamos analisar uma coleção de variáveis
econômicas, ou variáveis econômicas aleatórias. Isso porque cada
valor da variável observada (cada indivíduo da amostra) é
considerado uma realização de uma variável aleatória, por isso
dizemos que temos uma coleção (ou sequência) de variáveis
aleatórias.
X:Ω→ℜ
QUADRO 1.1
Exemplo de amostra de dados sobre os trabalhadores
brasileiros
Estamos interessados em analisar o rendimento médio dos brasileiros.
Temos uma amostra de N = 4 indivíduos (os quais indexaremos por i
tal que i = 1,2,3,4) e uma variável aleatória (X = Rendimento), que
observamos para todos os indivíduos (Xi):
1 2.500
2 8.200
3 1.300
4 900
E( ) = θ
E (x–) = μ
E (S2) = σ2
Momento Amostral:
X ~ Be (p)
X ~ G (p)
X ~ P(λ)
X ~ BN(n, k, p)
3.
Normal: Quando x assume valores tal que
4. Normal Padrão: Quando x assume valores tal que
5. Lognormal: Quando
6. Qui-quadrado: Quando
Esperança condicional
Variância condicional
a) fX (x) =
b) fX,Y (x, y) =
X
–10 0 20 30
fX (x) =
fX (x) =
fY|X (y|x) =
Calcule E (Y).
f(x)=2(1-x), para 0 ≤ x ≤1
f(x) = 0, caso contrário.
Propriedades da esperança
• E (c) = c
• E (aX + b) = aE (X) + b
• E (∑ Xi) = ∑ E (Xi)
• E (X + Y) = E (X) + E (Y)
• Em geral, temos: E (g (X)) ≠ g (E (X))
Propriedades da variância
• V (c) = 0
• V (aX + b) = a2 V (X)
• V (X ± Y) = V (X) + V (Y) ± 2COV (X, Y)
Propriedades da covariância
Ho: µ = 1
Ha: µ ≠ 1
23 Sejam três pontos: (–1,1), (0,0), (1,1), então E [Y|X = 1] = 0 = E [Y|X = 0],
mas E [X|Y = –1] = E [X|Y = 1] = 1, mas E [X|Y = 0] = 0.
24 Isso porque a Cov (Y, X) = Cov (E (Y|X), X). Como E (Y|X) = μ ∀ x, então
y
Cov (Y, X) = Cov(μY, X) = 0.
25 Demonstramos isso usando a mesma ideia da nota de rodapé anterior.
2
2.1 INTRODUÇÃO
Neste capítulo vamos discutir a intuição dos demais
desenvolvimentos deste livro, assim como a forma de se estruturar
uma análise econométrica. Lembramos que o objetivo do
econometrista é encontrar a relação causal entre variáveis
econômicas de interesse: o impacto de uma variável X em outra
variável Y. Vejamos alguns exemplos de problemas de interesse em
economia:
1. Mais anos de estudo (X) aumentam a produtividade dos
trabalhadores e, portanto, os salários (Y)? Ou seja, será que
indivíduos mais escolarizados são mais valorizados no
mercado de trabalho?
2. A renda das famílias (X) influencia o consumo de alimentos
mais saudáveis (Y)?
3. O uso de cigarro e outras drogas pela mãe na gravidez (X)
aumenta a chance de nascimento de bebês com problemas de
saúde (Y)?
4. O tamanho da turma na escola (X) impacta o desempenho
escolar dos alunos (Y)?
5. Há discriminação de gênero (X) no mercado de trabalho, isto
é, homens com mesmas características que as mulheres
recebem salário (Y) maior do que das mulheres?
6. Leis mais duras, que impõem maior pena (X), levam à redução
da taxa de criminalidade (Y)?
Neste capítulo, vamos detalhar as preocupações que o
econometrista deve ter ao iniciar o estudo de relações econômicas
como as dos exemplos anteriores. Primeiramente, é importante
entender a diferença entre a correlação entre as variáveis e a
causalidade entre elas. O nosso desafio é encontrar um efeito
causal (relação de causa e efeito) entre variáveis econômicas de
interesse a partir dos dados de uma amostra a sua disposição.
2.2 ANÁLISE ECONÔMICA EMPÍRICA
Vimos no Capítulo 1 que a econometria pode ser vista como a fusão
da economia, matemática e estatística. Isto porque partimos de um
problema econômico, mas usamos a matemática e estatística para
inferir sobre as relações estabelecidas (parâmetros) por esse
modelo econômico. De forma geral, o problema econômico pode vir
de duas abordagens distintas: abordagem estrutural e abordagem
em forma reduzida.
QUADRO 2.1
Problema do consumidor e a estimação de elasticidades
da demanda
O problema do consumidor começou a ser estudado no final do
século XIX. O problema estabelece que os indivíduos, face à
decisão de adquirir produtos para o consumo, escolhem os produtos
que lhes geram maior bem-estar. Para melhor compreensão desse
comportamento é necessária a exploração dos mecanismos de
decisão que os mesmos enfrentam ao escolher determinada cesta,
frente a todas as distintas possibilidades de escolha. A teoria
econômica do consumidor procura explicar a racionalidade por trás
das decisões dos agentes por meio da abordagem baseada num
conjunto de preferências, isto é, argumenta-se que os agentes
econômicos têm preferências intrínsecas sobre um conjunto de
escolhas, que satisfazem algumas hipóteses sobre a racionalidade
dessa decisão.
É pressuposto da teoria que as escolhas observadas dos indivíduos
são resultantes de decisões racionais, o que torna viável o estudo
do comportamento do consumidor por meio do problema clássico de
otimização: a maximização da função de utilidade do consumidor
sujeita à sua restrição orçamentária e à quantidades não negativas
dos bens. A função utilidade descreve as relações de preferências
dos indivíduos, enumerando as escolhas do consumidor de acordo
com suas preferências. A solução do problema de maximização
gera funções de demanda pelos bens, possibilitando o cálculo da
elasticidade renda e elasticidades preços direta e cruzadas. Assim,
este aparato microeconômico, somado à correta especificação das
funções, descreve o comportamento dos consumidores.
Ou seja, para cada consumidor, temos o seguinte problema:
Ou em termos logarítmicos:
Y = β0 + β1X + u
τi = Y1i – Y0i
τ = E (Y1|X = 1) – E (Y0|X = 0)
QUADRO 2.2
Efeito do cadastro na saúde da família sobre a saúde dos
indivíduos
A saúde da família é um dos principais focos do Sistema Único de
Saúde (SUS). Assim, as unidades básicas de saúde oferecem
serviços de médicos, enfermeiros, agentes comunitários de saúde,
dentistas, entre outros, para todas as famílias cadastradas na
unidade de saúde da família. A Pesquisa Nacional de Saúde pediu,
em 2013, a todos os entrevistados com mais de 18 anos para que
avaliassem sua saúde dando notas de 1 a 5, em que 1 reflete uma
saúde muito boa e 5 muito ruim. A Tabela 2.1 mostra a nota média
das pessoas de famílias cadastradas e não cadastradas na unidade
de saúde da família:
TABELA 2.1
Média e erro-padrão da avaliação da saúde de cadastrados e não cadastrados
na unidade de saúde da família*
*Pergunta do questionário: “Em geral, como o(a) Sr.(a) avalia a sua saúde?”
QUADRO 2.3
Retorno salarial da escolarização
Suponha que você esteja interessado em analisar o efeito de mais
educação no retorno salarial, isto é, responder à seguinte pergunta:
Será que estudar mais melhora os salários futuros dos indivíduos?
Você poderia utilizar dados da Pesquisa Nacional por Amostra de
Domicílios (PNAD) do IBGE para fazer esse exercício (veja mais
detalhes sobre essa base de dados no Capítulo 3). Vamos verificar
se conseguimos, a partir desses dados, um efeito causal com o
modelo que procura encontrar o efeito de anos de estudo
(educação) sobre os salários dos indivíduos:
salário = β0 + β1 educação + u
Δsalário = β1 Δeducação + Δu
A
ntes de iniciarmos o estudo das técnicas e dos estimadores
que utilizaremos para identificar relações causais em
Economia, apresentamos neste capítulo algumas
possibilidades de bases de dados secundárias brasileiras
para realizar as análises. Antes discutiremos as estruturas de dados
típicas em estudos econométricos.
3.1 ESTRUTURA DE DADOS
Toda análise empírica requer dados e há várias apresentações
diferentes para as possibilidades de dados. Apresentamos a seguir
as estruturas de dados mais comuns, seguidas de um exemplo de
como esses dados estão organizados:
Dados em corte transversal ( cross-section): Neste tipo de
organização de dados são coletadas várias informações sobre
unidades de observação – sejam indivíduos, empresas, regiões, ou
países – em um ponto específico do tempo. Em outras palavras,
podemos considerar que temos uma fotografia destas unidades de
observação em determinado período. É importante que a amostra
de dados seja representativa da população em estudo. Este tipo de
dado é bastante utilizado em estudos de Organização Industrial,
Economia da Saúde, Microeconomia Aplicada e Finanças Públicas.
No Brasil, várias bases de dados caracterizam-se como cortes
transversais, tais como: as Pesquisas Nacionais por Amostra de
Domicílios (PNADs) anuais coletadas pelo IBGE; as Pesquisas de
Orçamentos Familiares (POF) do IBGE; entre outras.
TABELA 3.1
Exemplo da organização de dados em corte transversal
Unidade (i) Nome Salário mensal (em reais) Escolaridade (anos de estudo)
1 Thomas 2.000 5
2 Clara 3.200 9
3 Lucas 2.800 8
4 Eduardo 2.500 7
5 Beatriz 1.700 3
6 Leticia 3.600 10
7 Stela 3.100 12
Dados em séries de tempo ( time series): Este tipo de base de
dados consiste em uma coleção de observações de uma, ou mais
variáveis, ao longo do tempo. Alguns exemplos de variáveis em
séries de tempo são: série de preços diários das ações de uma
empresa negociadas na bolsa brasileira de 1º a 31 de dezembro de
2016; série de vendas mensais de automóveis no Brasil de janeiro
de 2015 a dezembro de 2016; série do crescimento real anual do
Produto Interno Bruto (PIB) brasileiro de 1970 a 2017; entre outras.
Em séries temporais, a ordenação do tempo é muito importante,
pois pode haver dependência ou inércia temporal. As frequências
mais comuns de análises são diárias, semanais, mensais,
trimestrais e anuais. Séries de tempo para dados brasileiros podem
ser obtidas em vários repositórios de dados, como o Ipeadata (base
de dados econômicos e financeiros mantida pelo Instituto de
Pesquisas Econômicas Aplicadas, IPEA), o Sistema Gerenciador de
Séries Temporais do Banco Central do Brasil (BC) e as Séries
Estatísticas e Séries Históricas do IBGE.
TABELA 3.2
Exemplo da organização de dados em séries de tempo
TABELA 3.3
Exemplo da organização de dados de cortes transversais agrupadas
TABELA 3.4
Exemplo da organização de dados em painel
QUADRO 3.1
Nota sobre correção da amostra das pesquisas amostrais
do IBGE
Nas bases de dados amostrais do IBGE, o procedimento de
amostragem é, em geral, estratificado, sendo que são selecionados
domicílios dentro dos estratos de forma probabilística. Assim, o
instituto reporta o peso amostral de cada domicílio pesquisado.
Podemos imaginar que cada domicílio é, portanto, representativo
para um grupo de domicílios de acordo com o seu peso amostral.
Por exemplo:
Domicílio A tem peso amostral 1/nA = 1/200 ou peso nA =200. Isto
significa que ele representa 200 domicílios do estrato;
Domicílio B tem peso amostral 1/nB =1/100 ou peso nB =100. Isto
significa que ele representa 100 domicílios do estrato.
Neste caso, devemos corrigir as observações da amostra pelos
seus respectivos pesos amostrais. Por exemplo, se nossa amostra
contiver apenas os domicílios A e B anteriores, a média amostral da
renda deve ser calculada da seguinte forma:
N
o Capítulo 2 discutimos a importância de encontrar efeitos
causais entre as variáveis de interesse. Neste capítulo,
vamos descrever com mais detalhes o modelo
econométrico mais simples que podemos propor, o modelo
de regressão linear simples, e quais são as hipóteses necessárias
para que ele gere bons estimadores (que reflitam um efeito causal
com precisão), para os parâmetros de interesse.
4.1 INTRODUÇÃO
O modelo de regressão simples propõe o estudo da relação entre
apenas duas variáveis econômicas. Esta relação simplificada será
estudada para introduzir os conceitos de que precisaremos
futuramente em análises mais complexas. O objetivo aqui é explicar
uma variável Y em termos de uma outra variável X, ceteris paribus
(i.e., supondo que outros fatores estejam fixos ou constantes).1
Essa condição é fundamental para inferirmos causalidade entre as
variáveis. Em estudos empíricos, precisamos sempre nos perguntar:
Foi possível manter os outros fatores relevantes constantes para
poder afirmar que a relação entre as variáveis econômicas é de
causalidade?
Vamos analisar o modelo de regressão linear simples:
y = β0 + β1 x + u
QUADRO 4.1
Relação entre a produtividade agrícola e o emprego de
mão de obra
Um modelo simples que relaciona a produtividade agrícola à
quantidade utilizada de mão de obra na lavoura é:
produtividade = β0 + β1 trabalho + u
QUADRO 4.2
Retorno salarial da educação
A tentativa de estimar os retornos salariais da educação é base de
uma enorme literatura em microeconomia aplicada. O modelo mais
simples é aquele que relaciona salários a anos de estudo de forma
linear, conforme mostrado a seguir.
salário = β0 + β1 educação + u
QUADRO 4.3
Efeito do tamanho sobre os preços dos imóveis
Além das influências macroeconômicas (condições do mercado de
crédito, condições da atividade econômica local), o preço de
lançamento de imóveis é influenciado pelo tamanho dos mesmos,
em geral medido pela área útil (somatório da área de ambientes
internos). Ao comparar imóveis na mesma região, temos que, em
geral, quanto maior a área útil mais alto é o preço de mercado. Essa
relação pode ser representada pelo modelo a seguir.
preço = β0 + β1 área útil + u
O preço do imóvel é dado em unidades monetárias (R$), enquanto a
área útil é medida em metros quadrados (m²).
Neste exemplo, para que β1 meça o efeito causal do aumento da
área de um imóvel sobre o preço do mesmo, deve-se considerar
que nenhuma outra característica que impacte no preço do imóvel
mude com o aumento de área (número de dormitórios, número de
banheiros, entre outras).
E (u|x) = E (u) = 0
yi = β0 + β1 xi + ui, ∀ i = 1, ..., n
FIGURA 4.1
Representação da equação de regressão da população: E (u|x).
Substituindo u (u = y – β0 – β1 x) dentro das duas hipóteses
importantes do modelo de regressão linear simples, temos:
E (y – β0 – β1 x) = 0
E (x (y – β0 – β1 x)) = 0
FIGURA 4.2
Representação da equação de regressão da amostra ŷ e da equação de
regressão da população (E (y|x)).
A partir da Figura 4.2, podemos também visualizar o resíduo da
regressão. O resíduo, para cada observação i, é a diferença entre o
valor observado de y e o valor previsto para y (ŷ, que está sobre a
reta de regressão):
O resíduo (û) não deve ser confundido com o erro (u), do modelo
populacional. Há um resíduo para cada observação da amostra
(portanto, n resíduos). Quanto melhor for o ajuste da reta de
regressão amostral aos dados, menores os valores dos resíduos.
Este é, na verdade, o princípio por trás do estimador de Mínimos
Quadrados Ordinários, encontrar a reta de regressão que minimiza
a soma dos resíduos. Assim, os estimadores de MQO ( e )
são aqueles que minimizam a Soma dos Quadrados dos Resíduos
(SQR):6
QUADRO 4.4
Estimação da regressão simples entre salários e
escolaridade no Brasil
Usando uma subamostra dos dados da PNAD de 2014 para
pessoas adultas inseridas no mercado de trabalho (consideraremos
indivíduos adultos aqueles cuja idade varia entre 18 e 65 anos),
queremos entender o efeito de anos de educação sobre o
salário/hora no Brasil. Ao estimar a regressão linear simples pelo
Método de MQO, encontramos os seguintes resultados:
Note que
Assim:
QUADRO 4.6
Estimação da regressão simples entre salários e
escolaridade no Brasil
No exemplo do Quadro 4.4, vimos que a regressão de salário-
educação usando dados brasileiros chegou aos seguintes
resultados:
salario = –0,52 + 1,41educ + u
R2 = 0,0125
O coeficiente R2 mostra que educação explica 1,25% do total da
variação de salários. No entanto, para verificar se educação é
relevante para explicar salários, é preciso testar a significância do
parâmetro (como veremos no Capítulo 6) e verificar as propriedades
deste estimador.
4.4 PROPRIEDADES DOS ESTIMADORES DE MQO
4.4.1 Propriedade de não viés
Vimos até agora vários métodos para estimar os parâmetros de
interesse do nosso modelo. Por enquanto, vamos estudar a
estimação apenas de modelos lineares. É importante, no entanto,
verificar as propriedades destes estimadores. Bons estimadores
caracterizam-se por se aproximar, de forma precisa, dos valores
verdadeiros dos parâmetros. As duas propriedades dos
estimadores, válidas para qualquer tamanho de amostra, que
veremos neste capítulo são o “não viés” e a “eficiência”. Vamos,
também, focar nossos estudos no estimador de Mínimos Quadrados
Ordinários, devido à flexibilidade deste método de estimação
(lembre-se de que o estimador pelo Método dos Momentos
necessita das hipóteses sobre os momentos populacionais para ser
derivado e o estimador pelo Método de Máxima Verossimilhança
necessita de hipóteses sobre a distribuição de probabilidades do y
para encontrar os seus estimadores).
Para derivarmos o estimador por MQO do modelo de regressão
simples, assumimos, até o momento, três hipóteses, as quais
formalizaremos a seguir:
y = β0 + β1x + u
yi = β0 + β1 xi + ui, ∀ i = 1, ..., n
E (u|x) = 0
Cov (x, u) = 0.
E [ui|xi] = 0, ∀ i
Var (u|x) = σ2
E [u2] = σ2
E (y|x) = β0 + β1x
Var [y|x] = σ2
Demonstração da variância de
Para demonstrar a variância de , vamos substituir a equação do
dentro da equação que define o estimador . Assim,
Colocamos yi em evidência (ainda dentro do somatório em i) e
substituímos o modelo verdadeiro:
σ2 = E [u2]
O problema com este estimador é que ele será viesado para σ2.
Isso porque, para calcular , precisamos de duas equações (dos
dois estimadores do modelo de regressão simples), logo perdemos
duas informações da amostra (ou dois graus de liberdade) ao fazê-
lo. Assim, o estimador não viesado para σ2 na regressão simples é:1
4
Ao usar o estimador no lugar de σ2, escrevemos a variância
estimada dos nossos estimadores da seguinte forma:
y = β1 x + u
yi = β0 + β1 P B Fi + ui
(0)
(1) (desviopadrão β2) < (desviopadrão β1)
(2) A reta passa pelo ponto médio da amostra ( )
(3) (K2 / K1) > 1
(4) A soma dos resíduos de mínimos quadrados de ambas
equações estimadas é zero.
yi = β0 + β1 X1i + εi
Yi = β0 + β1 X1i + εi,
18 8 95 1200 4800
yi = β0 + β1 xi + ui
Demonstração15
Somando em n,
Tirando a esperança de todos os termos, condicionais a x, temos:
Portanto,
N
o Capítulo 4 vimos como encontrar estimadores para o
modelo de regressão linear simples. Neste capítulo, vamos
estender os métodos e propriedades vistas para modelos
com mais de uma variável explicando y, ou seja, para o
modelo de regressão múltipla. Veremos que este tipo de modelo vai
resolver alguns dos problemas que observamos nos modelos de
regressão simples por incorporar mais variáveis como controles. O
objetivo é capturar os efeitos causais de cada variável explicativa
sobre y. Lembre-se que estamos sempre buscando estimadores
com boas propriedades para os efeitos de interesse.
5.1 INTRODUÇÃO
A regressão múltipla difere da regressão simples porque, agora,
incluiremos mais variáveis como explicativas para nossa variável
dependente. Um modelo linear com K variáveis pode ser escrito da
seguinte maneira:
, ou
Sendo que
A derivação do problema de MQO, então, depende do vetor
coluna dos resíduos . A soma dos quadrados dos
resíduos será
Ou3
ou
Em que é o R2 da regressão de xm contra as demais variáveis
explicativas do modelo. Deixaremos a demonstração desta fórmula
para um exercício ao final do capítulo.
A fórmula pelo FWL fornece algumas intuições importantes.
Primeira, quanto mais variação na amostra para a variável
explicativa de interesse , menor a
variância do estimador. Segunda, quanto maior a relação linear
entre a variável xm e as demais variáveis explicativas do modelo (x1,
..., xm–1, xm+1, ..., xk), mais o se aproxima de 1 e, portanto, maior
é a variância do estimador de βm. Note que não pode ser igual a
um, pois isso feriria a Hipótese 5.3. Assim, incluir duas variáveis
explicativas no modelo que sejam altamente correlacionadas não se
reflete em viés (vimos que só a correlação perfeita entre elas
inviabilizaria o estimador), mas causaria maior variância no
estimador do parâmetro referente ao efeito dessas variáveis. Se
mesmo com uma alta correlação entre elas a variância for baixa,
isso não será problemático.
Novamente temos o problema de não conhecermos σ2. No caso
da regressão linear múltipla, o estimador não viesado para σ2,
supondo válidas as Hipóteses 5.1 a 5.5, será:
QUADRO 5.1
Retorno salarial da educação
No capítulo anterior, foi mostrado o seguinte modelo que explicava o
salário por hora a partir dos anos de educação para pessoas de 18
a 65 anos, usando a PNAD 2014:
salário = –0,52 + 1,41 educ
(0,33) (0,05)
N = 151.934 R2 = 0,0125
No entanto, provavelmente há outras variáveis que explicam o
salário e que estão correlacionadas com os anos de educação,
como a idade. É intuitivo pensar que quanto mais velho o indivíduo,
menos anos de estudo o mesmo pode ter. No entanto, é muito
comum pessoas mais velhas terem estudado menos, dado os
baixos incentivos, ausência de informação e poucas políticas
públicas na área da educação em poucas décadas atrás. Por outro
lado, mais idade pode sinalizar mais experiência no mercado de
trabalho e, então, maiores seriam as chances de alguém mais velho
receber um salário/hora maior. Nota-se, assim, que idade é
correlacionada tanto com o salário quanto com os anos de
educação, fazendo com o coeficiente de anos de educação seja
enviesado caso não seja incluída a variável de idade no modelo. Ao
incluir idade no modelo, o resultado se torna:
salário = –15,19 + 1,64 educ + 0,33 idade + u
(0,788) (0,055) (0,01)
N = 151934 R2 = 0,0178
Como a correlação entre idade e educação é negativa, enquanto
entre idade e salário é positiva, a omissão da idade no modelo faz
com que o coeficiente de anos de educação seja menor do que ele
deveria ser, conforme é possível verificar comparando os dois
modelos, isto é, o primeiro modelo subestima o impacto do salário.
, para o estimador de β1 na
regressão que inclui x2
Note que, se há correlação entre x1 e x2, vimos que o estimador
de MQO do modelo que omite x2 será viesado. No entanto, a sua
variância será menor do que a variância do estimador de MQO para
a regressão múltipla (isso porque será maior que zero). Há,
portanto, um tradeoff entre viés e variância que deve ser
considerado na análise.
5.6 EFICIÊNCIA DOS ESTIMADORES DE MQO E GAUSS-MARKOV
Vimos que sob as Hipóteses 5.1 a 5.4 os estimadores de MQO
serão não viesados. Adicionando a quinta hipótese, conseguimos
derivar a variância dos estimadores e o estimador da variância dos
erros. Além disso, as Hipóteses 5.1 a 5.5 são conhecidas por
Hipóteses de Gauss-Markov, pois se elas são válidas, os
estimadores de MQO são considerados os mais eficientes (de
menor variância) dentre os estimadores lineares não viesados,
como o teorema a seguir enuncia:
Temos que:
Como
QUADRO 5.2
Efeito das características da mãe sobre o peso dos bebês
Usando os dados de uma subamostra do Sistema de Informações
sobre Nascidos Vivos (SINASC) de 2014, podemos explicar o peso
de nascimento de um recém-nascido (em gramas) a partir das
características da mãe, entre 18 e 45 anos, e da gravidez.
Primeiramente, foi feita a regressão do peso de nascimento contra a
idade da mãe, quantos filhos vivos a mãe tinha e com quantas
semanas de gestação ocorreu o parto para aquelas mães que
tiveram mais de 27 semanas de gravidez. Os resultados obtidos
foram:
A = β1 + β2P + β3S + u
y = β0 + β1 X1 + β2X2 + β3X3 + u
N
este capítulo mostraremos as consequências de algumas
mudanças dos modelos de regressão. Primeiro, veremos
como muda a interpretação dos estimadores quando
alteramos as unidades de medidas das variáveis, ou
quando usamos o logaritmo das variáveis ao invés de incluí-las no
nível.
Segundo, permitiremos que a relação entre y e x seja descrita
por um polinômio e veremos as consequências disso para a
estimação. Por fim, veremos como podemos usar variáveis binárias
(as chamadas variáveis dummy) para considerar variáveis
qualitativas no nosso modelo, tanto como variáveis explicativas
quanto como variáveis explicadas. O objetivo deste capítulo é
mostrar o potencial de análise dessas ferramentas, assim como
verificar como o modelo e a interpretação de seus parâmetros são
alterados a partir dessas alterações. Este é um capítulo com grande
apelo prático e necessário para partirmos para os testes de
hipóteses sobre os parâmetros do modelo (tópico do Capítulo 7).
6.1 MUDANÇAS NAS UNIDADES DE MEDIDA DAS VARIÁVEIS
Suponhamos o seguinte modelo de regressão linear simples:
yi = β0 + β1 xi + ui ∀ i = 1, ... , n
c1yi = α0 + α1 xi + ui
QUADRO 6.1
Mudança na unidade de medida da variável dependente
Para avaliar o tempo de resposta de uma máquina em função da
sua memória RAM, podemos construir o seguinte modelo:
tempo = β0 + β1 memória + u
QUADRO 6.2
Mudança na unidade de medida da variável explicativa
Usando os dados da PNS de 2013, vamos propor uma regressão
linear entre o peso e a altura das pessoas acima de 60 anos
(peso.xls):
= –46,859 + 72,04 altura
(5,660) (3,477)
N = 5.916 R2 = 0,2325
O peso é medido em quilogramas (kg) e altura em metros (m).
Conforme esperado, a relação entre peso e altura é positiva, no
entanto, a interpretação do modelo ficou dificultada pelas unidades
de medidas utilizadas. Temos aqui que a redução em 1 m na altura
reduz o peso em 72,04kg. É incomum supor uma variação na altura
em metros, assim, poderíamos redimensionar a altura usando
centímetros (cm) ao invés de metros (alturacm = 100.altura). O
modelo com a variável em centímetros ficaria:
= –46,859 + 0,7204 alturacm
(5,660) (0,03477)
N = 5.916 R2 = 0,2325
Como 1 metro equivale a 100 centímetros, o novo estimador da
altura é o estimador do modelo anterior dividido por 100. A
interpretação, nesse caso, ficou mais intuitiva: a redução em 1 cm
na altura do idoso, reduz seu peso em 0,72kg.
QUADRO 6.3
Mudança na unidade de medida da variável dependente e
independente
No mesmo exemplo do Quadro 6.2 podemos alterar também a
unidade de medida do peso para gramas, ao invés de quilogramas.
Como 1 kg equivale a 1000 g, temos Peso.1000 = Pesogramas.
Neste caso, teríamos a seguinte regressão:
N = 5.916 R2 = 0,2325
Apesar do tamanho dos coeficientes estimados ter aumentado
ln (y) = β0 + β1 x + u
y = β0 + β1 ln (x) + u
ln (y) = β0 + β1 ln (x) + u
ln (y) = β0 + β1 ln (x1) + β2 x2 + u,
FIGURA 6.1
Reta de regressão da relação entre y e x para diferentes especificações
usando o logaritmo neperiano.
sabemos que β1 pode ser interpretado como a elasticidade entre y e
x1. A interpretação exata de β2, no entanto, não é tão direta, pois
∆%y ≅ β2 (∆x2)
ou
Como
Temos que
em que
Em que: .
Ou seja, basta estimar a regressão por MQO de yi em , sem
intercepto, para que se obtenha como estimador de γ0 e
possibilite fazer a previsão para y. Note, entretanto, que esta última
alternativa pode resultar em valor estimado para γ0 menor do que
um, o que teoricamente não faz sentido, pois γ0 = E (eu). Este termo
só será igual a um quando todos os ’s forem iguais a zero.
y = β0 + β1 x + β2 x2 + u
ou
Utilizamos 1 e 0 para ter interpretações naturais do modelo.
Veremos a facilidade que o uso de variáveis binárias gera.
Suponha que estamos interessados em analisar se existe gap
(hiato ou diferença) salarial entre homens e mulheres por meio do
seguinte modelo:
mulher + homem = 1
α2 = β0 + β2
α3 = β0
QUADRO 6.5
Discussão sobre a avaliação de um programa de
treinamento
Suponha que queremos estudar o impacto da participação em um
treinamento sobre a produtividade dos funcionários. Como a
participação é uma informação qualitativa, podemos transformá-la
em binária, usando uma variável dummy d = 1, quando o funcionário
participa do treinamento, e d = 0, quando o funcionário não participa
do treinamento. Considere que a produtividade do funcionário seja
medida por y:
y = β0 + β1 d + u
QUADRO 6.6
Efeito das características dos veículos sobre os preços
A aluna Ana Beatriz Silva (2015)2 buscou entender como os preços
dos veículos se relacionam com as suas características no Brasil.
Para tal, utilizou uma amostra de dados da tabela da Fundação
Instituto de Pesquisas Econômicas (FIPE), que possui informação
sobre os preços médios de veículos de todos os automóveis de
passeio discriminados por modelo, marca, tipo de combustível e
número de passageiros. As características adicionais utilizadas no
modelo de estimação foram obtidas por meio de pesquisa e análise
individual das fichas técnicas dos modelos de veículos
selecionados. Os dados estão disponíveis em veiculos1.xls.
Ela propõe inicialmente um modelo de regressão múltipla com base
nos modelos de preços hedônicos, que relaciona a utilidade de um
bem advinda da valoração feita pelos consumidores das diferentes
características desses bens (isto é, os consumidores não
demandariam um certo bem, mas sim, suas características).3
Assim, podemos estabelecer uma relação entre o preço e as
características de diferentes veículos.
ln (p) = β0 + β1 cv + β2 torque + β3 comp + β4 peso + β5 abs + β6 auto + β7 ar + β8
flex + u
Em que cv representa a quantidade de cavalos-vapor, torque é o
torque líquido máximo (em kfgm), comp denota o comprimento (em
metros), peso é medido em kg, abs é uma dummy para posse de
freios abs, auto é uma dummy para posse de câmbio automático, ar
indica posse de ar-condicionado (tem ou não tem) e flex é uma
dummy para veículos que funcionam com gasolina e etanol.
A estimação por MQO do modelo anterior gerou os seguintes
resultados:
salário = α0 + α1 educ + xβ + u
Em que
E (QV|mulheres, solteiras) = β0 + β2
E (QV|homens, casados) = β0 + β2
E (QV|homens, solteiros) = β0
yi = β0 + β1 xi + ui
yi = β0 + β1 ln (x1i) + β2 x2i + ui
Mostre que, se estimarmos em
que , então .
yi = β0 + β1 Xi + ϵi
PADRONIZAÇÃO DE VARIÁVEIS
Em que:
INFERÊNCIA ESTATÍSTICA
N
este capítulo vamos apresentar as condições importantes
para derivar a distribuição de probabilidades dos
estimadores. Lembrem-se de que os estimadores são
variáveis aleatórias e que observamos apenas uma
realização da distribuição (com base na amostra que temos). O
conhecimento da distribuição de probabilidades dos estimadores é
necessário para realizar testes de hipóteses sobre os verdadeiros
parâmetros do modelo. Logo, este capítulo também apresenta
testes que podem ser realizados a partir do conhecimento das
distribuições das estimativas.
7.1 BREVE REVISÃO
Vimos na revisão de estatística básica que, em geral,
desconhecemos os parâmetros de interesse que descrevem a
distribuição de probabilidades de uma variável aleatória X (μ ou σ2,
por exemplo, que descrevem a média e variância de uma
distribuição). Em econometria, desconhecemos os β’s que
relacionam as variáveis econômicas. Por isso, obtemos uma
amostra (aleatória), que utilizamos para inferir sobre os parâmetros
de interesse. Os estimadores que criamos ( ’s) são funções da
amostra que buscam se aproximar do parâmetro verdadeiro
desconhecido.
Os estimadores, possuem suas próprias distribuições de
probabilidade. Por isso é que usamos testes de hipóteses e
intervalos de confiança para analisar os parâmetros verdadeiros a
partir dos estimadores da amostra.
Um teste de hipótese investiga se determinada afirmação
(hipótese nula, H0 sobre um parâmetro desconhecido) é rejeitada ou
não com base na informação obtida da amostra. Ao analisar essa
afirmação, podemos incorrer em dois tipos de erro:
Ou
Demonstração
Sabemos, pela fórmula que derivamos da análise de viés do
estimador, que e que, sob as Hipóteses 5.1 a 5.4, .
ou matricialmente
Demonstração3
Vamos demonstrar o teorema utilizando a notação matricial do
seguinte modelo:
Tal que
xi = (1, x1i, x2i, ..., xki) é um vetor-linha 1x (K + 1) das variáveis
explicativas de uma observação i;
é um vetor-coluna (K + 1) x1 dos parâmetros do modelo que
acompanham as variáveis explicativas.
Assim, podemos reescrever o estimador de MQO da seguinte
forma:
Em que
7.4 TESTE DE HIPÓTESES INDIVIDUAIS
Uma vez que derivamos a distribuição de probabilidades, exata ou
assintótica, dos nossos estimadores, podemos construir testes de
hipóteses e intervalos de confiança para os nossos parâmetros.
Aqui, usaremos os mesmos conceitos vistos nos cursos de
estatística básica.
QUADRO 7.1
Teste de significância estatística da elasticidade renda da
carne
A partir dos dados da Pesquisa de Orçamentos Familiares (POF) de
2008/2009 podemos estimar a elasticidade renda da demanda por
carne de primeira nos domicílios brasileiros (equivalente às
unidades de consumo, nesse caso). A variável de renda é medida
pela renda mensal domiciliar e a variável de quantidade de carne de
primeira é medida em quilogramas comprados mensalmente. Os
resultados estimados por MQO são:
= 0,9689 + 0,1021 ln (renda)
(0,4284) (0,0584)
N = 431, R2 = 0,0812
A estimação aponta que um incremento de 1% na renda das
famílias aumenta, em média, em 0,10% o consumo de carne de
primeira. Para testar a significância da estimativa (ou seja, a Ho: ϵr =
0 contra H1: ϵr ≠ 0), podemos calcular a estatística t:
H1: εr ≠ 1
FIGURA 7.3
Distribuição de probabilidades da estatística t para teste de
elasticidade renda unitária. Região de rejeição para o teste
bicaudal.
QUADRO 7.3
Teste monocaudal para elasticidade renda
No mesmo exemplo anterior, para a estimação de demanda por
carne de primeira, se estamos interessados em testar a hipótese
nula de εr ≤ 0 (se este tipo de carne é um bem inferior) contra a
hipótese alternativa de ϵr > 0 a 5% de nível de significância, a
estatística de teste seria
FIGURA 7.4
Distribuição de probabilidades da estatística t. Região de
rejeição para o teste monocaudal.
Como a estatística calculada está dentro da área de rejeição do
teste (ao nível de significância de 5%), rejeitamos a hipótese nula de
que a elasticidade renda da demanda é menor ou igual a 0 em favor
da hipótese de elasticidade renda da demanda maior que zero.
QUADRO 7.4
Efeito da redução da amostra: Participação em sindicato e
retorno salarial
Neste exemplo, vamos usar dados da PNAD 2014 para verificar se
as pessoas filiadas a algum sindicato têm, em média, salários-hora
mais altos. Os resultados obtidos estimando um modelo simples por
MQO com duas variáveis explicativas foram os seguintes:
Note que, dentre pessoas com mesma educação, as sindicalizadas
ganham mais em média do que as não sindicalizadas (estimador
positivo). Esse ganho adicional de salário é estatisticamente
diferente de 0 ao nível de 5% de significância (t = 38,39). No
entanto, se retirarmos uma amostra aleatória de 2.000 indivíduos da
amostra usada na regressão anterior, os resultados se tornam:
QUADRO 7.5
Variáveis explicativas altamente correlacionadas:
Valoração de características dos imóveis
Usando os dados de lançamento de imóveis de 2000 a 2008,
estimamos o modelo para entender como a área útil e o número de
dormitórios influencia o preço dos imóveis em São Paulo (a valores
de 2000). Os resultados da estimação por MQO foram
QUADRO 7.6
Relação entre a renda municipal e o nível de esgotamento
sanitário
O Brasil ainda enfrenta problemas com o esgotamento sanitário. A
fim de investigar a situação sanitária no Rio Grande do Sul, usamos
dados do Censo Demográfico de 2010 e contabilizamos, para cada
município, a proporção dos domicílios que tinham esgoto canalizado
pela rede geral de esgoto ou pluvial, ou por fossa séptica.4
Calculamos, também, a renda domiciliar média desses municípios.
O modelo estimado tem o objetivo de testar se municípios com
renda domiciliar mais alta tinham uma maior proporção de domicílios
com o esgoto tratado de forma correta:
QUADRO 7.7
Uso do intervalo de confiança: efeito da área no preço dos
imóveis
Retomando o exemplo do modelo para explicar o preço dos imóveis
em São Paulo, vamos estimar o modelo de regressão simples que
relaciona o preço do imóvel, em logaritmo, contra a com sua área
útil.
−
7.4.8 Uso do R 2 para escolher entre modelos
Para dois modelos não aninhados (em inglês, “non-nested”), não
conseguimos escrever hipóteses nulas para testar a melhor
especificação entre eles, isto porque um não é um caso particular do
outro. Por exemplo, nosso interesse pode ser em testar uma
especificação quadrática com relação a x (Modelo 1) em
comparação ao uso do logaritmo no modelo (Modelo 2):
QUADRO 7.8
Teste F: Determinantes do consumo de tabaco
Explicar o comportamento de consumo de tabaco é uma tarefa
difícil, uma vez que o cigarro é um bem de vício. Usando os dados
na Pesquisa Nacional de Saúde de 2013, estimamos um modelo
para explicar o número de cigarros industrializados fumados por dia
em relação ao preço do maço (para indivíduos que fumam), gênero
do indivíduo, alfabetização do indivíduo e número de dias na
semana em que pratica atividade física (para entender outros
hábitos dos indivíduos). Os resultados encontrados pela estimação
por MQO foram
A baixa elasticidade do preço, embora estatisticamente significante
ao nível de significância de 5%, não é algo inesperado, pois como o
cigarro é um bem que pode gerar dependência química, os
consumidores são menos sensíveis a preço. Nota-se que as
mulheres fumam, em média, menos que homens. A tentativa de
incluir algum hábito relacionado à preocupação com a saúde pode
não ter sido boa, pois o coeficiente do número de vezes em que se
pratica exercício físico não foi significante individualmente a 5%,
assim como a informação sobre educação (se o indivíduo é
alfabetizado). No entanto, podemos testar se essas duas variáveis,
individualmente não significantes, são conjuntamente significantes.
Para isso, precisamos do modelo reduzido (estimado para a mesma
amostra anterior):
QUADRO 7.9
Teste F de significância geral: Alimentação escolar e
desempenho dos alunos
Usando os dados da Prova Brasil 2015, tentamos avaliar o impacto
de oferecimento de merenda e da existência reforço escolar no
desempenho escolar. A unidade de observação são as escolas
públicas do Brasil. O desempenho escolar é medido pela nota média
de matemática da escola na escala SAEB. As variáveis de merenda
e reforço escolar assumem o valor 1 se a escola tiver merenda
escolar e algum programa de reforço, respectivamente, e 0 caso
contrário. Os resultados obtidos por MQO foram:
Portanto,
zt 0 1 2 3 4 5 6 7 8 9
0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
Distribuição t de Student
g.l. 90% 80% 70% 60% 50% 40% 30% 20% 10% 9% 8% 7% 6% 5% 4% 3% 2% 1% 0,5% 0,2% 0,1%
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 3,104 3,320 3,578 3,896 4,303 4,849 5,643 6,965 9,925 14,089 22,327 31,599
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 2,471 2,605 2,763 2,951 3,182 3,482 3,896 4,541 5,841 7,453 10,215 12,924
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,226 2,333 2,456 2,601 2,776 2,999 3,298 3,747 4,604 5,598 7,173 8,610
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,098 2,191 2,297 2,422 2,571 2,757 3,003 3,365 4,032 4,773 5,893 6,869
6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,019 2,104 2,201 2,313 2,447 2,612 2,829 3,143 3,707 4,317 5,208 5,959
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 1,966 2,046 2,136 2,241 2,365 2,517 2,715 2,998 3,499 4,029 4,785 5,408
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 1,928 2,004 2,090 2,189 2,306 2,449 2,634 2,896 3,355 3,833 4,501 5,041
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 1,899 1,973 2,055 2,150 2,262 2,398 2,574 2,821 3,250 3,690 4,297 4,781
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 1,877 1,948 2,028 2,120 2,228 2,359 2,527 2,764 3,169 3,581 4,144 4,587
11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 1,859 1,928 2,007 2,096 2,201 2,328 2,491 2,718 3,106 3,497 4,025 4,437
12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 1,844 1,912 1,989 2,076 2,179 2,303 2,461 2,681 3,055 3,428 3,930 4,318
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 1,832 1,899 1,974 2,060 2,160 2,282 2,436 2,650 3,012 3,372 3,852 4,221
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 1,821 1,887 1,962 2,046 2,145 2,264 2,415 2,624 2,977 3,326 3,787 4,140
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 1,812 1,878 1,951 2,034 2,131 2,249 2,397 2,602 2,947 3,286 3,733 4,073
16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 1,805 1,869 1,942 2,024 2,120 2,235 2,382 2,583 2,921 3,252 3,686 4,015
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 1,798 1,862 1,934 2,015 2,110 2,224 2,368 2,567 2,898 3,222 3,646 3,965
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 1,792 1,855 1,926 2,007 2,101 2,214 2,356 2,552 2,878 3,197 3,610 3,922
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 1,786 1,850 1,920 2,000 2,093 2,205 2,346 2,539 2,861 3,174 3,579 3,883
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 1,782 1,844 1,914 1,994 2,086 2,197 2,336 2,528 2,845 3,153 3,552 3,850
21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 1,777 1,840 1,909 1,988 2,080 2,189 2,328 2,518 2,831 3,135 3,527 3,819
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 1,773 1,835 1,905 1,983 2,074 2,183 2,320 2,508 2,819 3,119 3,505 3,792
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 1,770 1,832 1,900 1,978 2,069 2,177 2,313 2,500 2,807 3,104 3,485 3,768
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 1,767 1,828 1,896 1,974 2,064 2,172 2,307 2,492 2,797 3,091 3,467 3,745
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 1,764 1,825 1,893 1,970 2,060 2,167 2,301 2,485 2,787 3,078 3,450 3,725
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 1,761 1,822 1,890 1,967 2,056 2,162 2,296 2,479 2,779 3,067 3,435 3,707
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 1,758 1,819 1,887 1,963 2,052 2,158 2,291 2,473 2,771 3,057 3,421 3,690
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 1,756 1,817 1,884 1,960 2,048 2,154 2,286 2,467 2,763 3,047 3,408 3,674
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 1,754 1,814 1,881 1,957 2,045 2,150 2,282 2,462 2,756 3,038 3,396 3,659
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 1,752 1,812 1,879 1,955 2,042 2,147 2,278 2,457 2,750 3,030 3,385 3,646
35 0,127 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 1,744 1,803 1,869 1,944 2,030 2,133 2,262 2,438 2,724 2,996 3,340 3,591
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 1,737 1,796 1,862 1,936 2,021 2,123 2,250 2,423 2,704 2,971 3,307 3,551
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 1,729 1,787 1,852 1,924 2,009 2,109 2,234 2,403 2,678 2,937 3,261 3,496
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 1,723 1,781 1,845 1,917 2,000 2,099 2,223 2,390 2,660 2,915 3,232 3,460
>120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,709 1,766 1,828 1,899 1,980 2,076 2,196 2,358 2,617 2,860 3,160 3,373
Distribuição χ2
p
g.l. 99% 98% 97,5% 95% 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2.5% 2% 1% 0,2
1 0,000 0,001 0,001 0,004 0,016 0,064 0,148 0,275 0,455 0,708 1,074 1,642 2,706 3,841 4,218 5,024 5,412 6,635 9,5
2 0,020 0,040 0,051 0,103 0,211 0,446 0,713 1,022 1,386 1,833 2,408 3,219 4,605 5,991 6,438 7,378 7,824 9,210 12,
3 0,115 0,185 0,216 0,352 0,584 1,005 1,424 1,869 2,366 2,946 3,665 4,642 6,251 7,815 8,311 9,348 9,837 11,345 14,
4 0,297 0,429 0,484 0,711 1,064 1,649 2,195 2,753 3,357 4,045 4,878 5,989 7,779 9,488 10,026 11,143 11,668 13,277 16,
5 0,554 0,752 0,831 1,145 1,610 2,343 3,000 3,655 4,351 5,132 6,064 7,289 9,236 11,070 11,644 12,833 13,388 15,086 18,
6 0,872 1,134 1,237 1,635 2,204 3,070 3,828 4,570 5,348 6,211 7,231 8,558 10,645 12,592 13,198 14,449 15,033 16,812 20,
7 1,239 1,564 1,690 2,167 2,833 3,822 4,671 5,493 6,346 7,283 8,383 9,803 12,017 14,067 14,703 16,013 16,622 18,475 22,
8 1,646 2,032 2,180 2,733 3,490 4,594 5,527 6,423 7,344 8,351 9,524 11,030 13,362 15,507 16,171 17,535 18,168 20,090 24,
9 2,088 2,532 2,700 3,325 4,168 5,380 6,393 7,357 8,343 9,414 10,656 12,242 14,684 16,919 17,608 19,023 19,679 21,666 26,
10 2,558 3,059 3,247 3,940 4,865 6,179 7,267 8,295 9,342 10,473 11,781 13,442 15,987 18,307 19,021 20,483 21,161 23,209 27,
11 3,053 3,609 3,816 4,575 5,578 6,989 8,148 9,237 10,341 11,530 12,899 14,631 17,275 19,675 20,412 21,920 22,618 24,725 29,
12 3,571 4,178 4,404 5,226 6,304 7,807 9,034 10,182 11,340 12,584 14,011 15,812 18,549 21,026 21,785 23,337 24,054 26,217 30,
13 4,107 4,765 5,009 5,892 7,042 8,634 9,926 11,129 12,340 13,636 15,119 16,985 19,812 22,362 23,142 24,736 25,472 27,688 32,
14 4,660 5,368 5,629 6,571 7,790 9,467 10,821 12,078 13,339 14,685 16,222 18,151 21,064 23,685 24,485 26,119 26,873 29,141 34,
15 5,229 5,985 6,262 7,261 8,547 10,307 11,721 13,030 14,339 15,733 17,322 19,311 22,307 24,996 25,816 27,488 28,259 30,578 35,
16 5,812 6,614 6,908 7,962 9,312 11,152 12,624 13,983 15,338 16,780 18,418 20,465 23,542 26,296 27,136 28,845 29,633 32,000 37,
17 6,408 7,255 7,564 8,672 10,085 12,002 13,531 14,937 16,338 17,824 19,511 21,615 24,769 27,587 28,445 30,191 30,995 33,409 38,
18 7,015 7,906 8,231 9,390 10,865 12,857 14,440 15,893 17,338 18,868 20,601 22,760 25,989 28,869 29,745 31,526 32,346 34,805 40,
19 7,633 8,567 8,907 10,117 11,651 13,716 15,352 16,850 18,338 19,910 21,689 23,900 27,204 30,144 31,037 32,852 33,687 36,191 41,
20 8,260 9,237 9,591 10,851 12,443 14,578 16,266 17,809 19,337 20,951 22,775 25,038 28,412 31,410 32,321 34,170 35,020 37,566 43,
21 8,897 9,915 10,283 11,591 13,240 15,445 17,182 18,768 20,337 21,991 23,858 26,171 29,615 32,671 33,597 35,479 36,343 38,932 44,
22 9,542 10,600 10,982 12,338 14,041 16,314 18,101 19,729 21,337 23,031 24,939 27,301 30,813 33,924 34,867 36,781 37,659 40,289 45,
23 10,196 11,293 11,689 13,091 14,848 17,187 19,021 20,690 22,337 24,069 26,018 28,429 32,007 35,172 36,131 38,076 38,968 41,638 47,
24 10,856 11,992 12,401 13,848 15,659 18,062 19,943 21,652 23,337 25,106 27,096 29,553 33,196 36,415 37,389 39,364 40,270 42,980 48,
25 11,524 12,697 13,120 14,611 16,473 18,940 20,867 22,616 24,337 26,143 28,172 30,675 34,382 37,652 38,642 40,646 41,566 44,314 50,
26 12,198 13,409 13,844 15,379 17,292 19,820 21,792 23,579 25,336 27,179 29,246 31,795 35,563 38,885 39,889 41,923 42,856 45,642 51,
27 12,879 14,125 14,573 16,151 18,114 20,703 22,719 24,544 26,336 28,214 30,319 32,912 36,741 40,113 41,132 43,195 44,140 46,963 53,
28 13,565 14,847 15,308 16,928 18,939 21,588 23,647 25,509 27,336 29,249 31,391 34,027 37,916 41,337 42,370 44,461 45,419 48,278 54,
29 14,256 15,574 16,047 17,708 19,768 22,475 24,577 26,475 28,336 30,283 32,461 35,139 39,087 42,557 43,604 45,722 46,693 49,588 55,
30 14,953 16,306 16,791 18,493 20,599 23,364 25,508 27,442 29,336 31,316 33,530 36,250 40,256 43,773 44,834 46,979 47,962 50,892 57,
35 18,509 20,027 20,569 22,465 24,797 27,836 30,178 32,282 34,336 36,475 38,859 41,778 46,059 49,802 50,928 53,203 54,244 57,342 63,
40 22,164 23,838 24,433 26,509 29,051 32,345 34,872 37,134 39,335 41,622 44,165 47,269 51,805 55,758 56,946 59,342 60,436 63,691 70,
45 25,901 27,720 28,366 30,612 33,350 36,884 39,585 41,995 44,335 46,761 49,452 52,729 57,505 61,656 62,901 65,410 66,555 69,957 77,
50 29,707 31,664 32,357 34,764 37,689 41,449 44,313 46,864 49,335 51,892 54,723 58,164 63,167 67,505 68,804 71,420 72,613 76,154 83,
g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,42 99,43 99,43 99,44 99,44 99,45 99,47 99,47 99,48 99,49
g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,05 26,92 26,87 26,83 26,75 26,69 26,50 26,41 26,32 26,22
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,25 14,20 14,15 14,08 14,02 13,84 13,75 13,65 13,56
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,77 9,72 9,68 9,61 9,55 9,38 9,29 9,20 9,11
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,60 7,56 7,52 7,45 7,40 7,23 7,14 7,06 6,97
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,36 6,31 6,28 6,21 6,16 5,99 5,91 5,82 5,74
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,56 5,52 5,48 5,41 5,36 5,20 5,12 5,03 4,95
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 5,01 4,96 4,92 4,86 4,81 4,65 4,57 4,48 4,40
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,60 4,56 4,52 4,46 4,41 4,25 4,17 4,08 4,00
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,29 4,25 4,21 4,15 4,10 3,94 3,86 3,78 3,69
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,05 4,01 3,97 3,91 3,86 3,70 3,62 3,54 3,45
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,86 3,82 3,78 3,72 3,66 3,51 3,43 3,34 3,25
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,70 3,66 3,62 3,56 3,51 3,35 3,27 3,18 3,09
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,56 3,52 3,49 3,42 3,37 3,21 3,13 3,05 2,96
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,45 3,41 3,37 3,31 3,26 3,10 3,02 2,93 2,84
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,35 3,31 3,27 3,21 3,16 3,00 2,92 2,83 2,75
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,27 3,23 3,19 3,13 3,08 2,92 2,84 2,75 2,66
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,19 3,15 3,12 3,05 3,00 2,84 2,76 2,67 2,58
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,13 3,09 3,05 2,99 2,94 2,78 2,69 2,61 2,52
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,07 3,03 2,99 2,93 2,88 2,72 2,64 2,55 2,46
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 3,02 2,98 2,94 2,88 2,83 2,67 2,58 2,50 2,40
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,97 2,93 2,89 2,83 2,78 2,62 2,54 2,45 2,35
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,93 2,89 2,85 2,79 2,74 2,58 2,49 2,40 2,31
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,89 2,85 2,81 2,75 2,70 2,54 2,45 2,36 2,27
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,86 2,81 2,78 2,72 2,66 2,50 2,42 2,33 2,23
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,82 2,78 2,75 2,68 2,63 2,47 2,38 2,29 2,20
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,79 2,75 2,72 2,65 2,60 2,44 2,35 2,26 2,17
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,77 2,73 2,69 2,63 2,57 2,41 2,33 2,23 2,14
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,74 2,70 2,66 2,60 2,55 2,39 2,30 2,21 2,11
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,56 2,52 2,48 2,42 2,37 2,20 2,11 2,02 1,92
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,39 2,35 2,31 2,25 2,20 2,03 1,94 1,84 1,73
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,23 2,19 2,15 2,09 2,03 1,86 1,76 1,66 1,53
g1\g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40
2 198,50 199,00 199,17 199,25 199,30 199,33 199,36 199,37 199,39 199,40 199,42 199,43 199,43 199,44 199,44 199,45 199,47 199,47 1
g1\g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40
3 55,55 49,80 47,47 46,19 45,39 44,84 44,43 44,13 43,88 43,69 43,39 43,17 43,08 43,01 42,88 42,78 42,47 42,31
4 31,33 26,28 24,26 23,15 22,46 21,97 21,62 21,35 21,14 20,97 20,70 20,51 20,44 20,37 20,26 20,17 19,89 19,75
5 22,78 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77 13,62 13,38 13,21 13,15 13,09 12,98 12,90 12,66 12,53
6 18,63 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39 10,25 10,03 9,88 9,81 9,76 9,66 9,59 9,36 9,24
7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51 8,38 8,18 8,03 7,97 7,91 7,83 7,75 7,53 7,42
8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 7,01 6,87 6,81 6,76 6,68 6,61 6,40 6,29
9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,23 6,09 6,03 5,98 5,90 5,83 5,62 5,52
10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,66 5,53 5,47 5,42 5,34 5,27 5,07 4,97
11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,24 5,10 5,05 5,00 4,92 4,86 4,65 4,55
12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,91 4,77 4,72 4,67 4,59 4,53 4,33 4,23
13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,64 4,51 4,46 4,41 4,33 4,27 4,07 3,97
14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,43 4,30 4,25 4,20 4,12 4,06 3,86 3,76
15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,25 4,12 4,07 4,02 3,95 3,88 3,69 3,58
16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 4,10 3,97 3,92 3,87 3,80 3,73 3,54 3,44
17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 3,97 3,84 3,79 3,75 3,67 3,61 3,41 3,31
18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,86 3,73 3,68 3,64 3,56 3,50 3,30 3,20
19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,76 3,64 3,59 3,54 3,46 3,40 3,21 3,11
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,68 3,55 3,50 3,46 3,38 3,32 3,12 3,02
21 9,83 6,89 5,73 5,09 4,68 4,39 4,18 4,01 3,88 3,77 3,60 3,48 3,43 3,38 3,31 3,24 3,05 2,95
22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81 3,70 3,54 3,41 3,36 3,31 3,24 3,18 2,98 2,88
23 9,63 6,73 5,58 4,95 4,54 4,26 4,05 3,88 3,75 3,64 3,47 3,35 3,30 3,25 3,18 3,12 2,92 2,82
24 9,55 6,66 5,52 4,89 4,49 4,20 3,99 3,83 3,69 3,59 3,42 3,30 3,25 3,20 3,12 3,06 2,87 2,77
25 9,48 6,60 5,46 4,84 4,43 4,15 3,94 3,78 3,64 3,54 3,37 3,25 3,20 3,15 3,08 3,01 2,82 2,72
26 9,41 6,54 5,41 4,79 4,38 4,10 3,89 3,73 3,60 3,49 3,33 3,20 3,15 3,11 3,03 2,97 2,77 2,67
27 9,34 6,49 5,36 4,74 4,34 4,06 3,85 3,69 3,56 3,45 3,28 3,16 3,11 3,07 2,99 2,93 2,73 2,63
28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52 3,41 3,25 3,12 3,07 3,03 2,95 2,89 2,69 2,59
29 9,23 6,40 5,28 4,66 4,26 3,98 3,77 3,61 3,48 3,38 3,21 3,09 3,04 2,99 2,92 2,86 2,66 2,56
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,18 3,06 3,01 2,96 2,89 2,82 2,63 2,52
40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 2,95 2,83 2,78 2,74 2,66 2,60 2,40 2,30
60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,74 2,62 2,57 2,53 2,45 2,39 2,19 2,08
120 8,18 5,54 4,50 3,92 3,55 3,28 3,09 2,93 2,81 2,71 2,54 2,42 2,37 2,33 2,25 2,19 1,98 1,87
1 Sabemos que a variância do estimador reduz conforme aumenta o número de observações da amostra (n).
Assim, propomos menos tolerância ao erro quando temos amostras muito grandes.
2 Isso porque a estatística t será a fração entre duas variáveis aleatórias, sendo que o numerador tem distribuição
normal padrão e o denominador tem distribuição qui-quadrada com (n – k – 1) graus de liberdade.
3 Baseada em Wooldridge (2015).
4 O termo converge para as médias verdadeiras e é, portanto, não degenerado.
5 Vale reforçar que o VC dependerá das hipóteses assumidas. Se valem as Hipóteses 5.1 a 5.6 (para o modelo de
regressão linear múltipla) e se n for pequeno, usamos os valores críticos da distribuição t-Student. Se valem as
hipóteses de Gauss-Markov e temos uma amostra grande, usamos os valores críticos da normal padrão.
6 Utilizamos o valor crítico do lado da desigualdade da hipótese alternativa.
7 Uma crítica comum ao uso desses dados refere-se ao fato de os indivíduos reportarem se possuem ou não
esgoto canalizado. Muitas vezes, os indivíduos desconhecem o destino do esgoto de seus domicílios.
8 O modelo restrito inclui as variáveis explicativas de xq+1 a xk e o modelo irrestrito inclui todas as k variáveis
explicativas.
9 Note que a fórmula do R-quadrado não é adequada para testar modelos restritos e irrestritos que possuem
diferentes variáveis independentes.
10 Essa variável foi estimada a partir dos alunos que fizeram a Prova Brasil.
8
HETEROCEDASTICIDADE E
AUTOCORRELAÇÃO
N
este capítulo trataremos das formas alternativas de
estimar tanto os parâmetros quanto a variância dos
estimadores quando há a quebra da Hipótese 5.5 (erros
homocedásticos ou não correlacionados entre as
observações). Sabemos que a quebra da Hipótese 5.5 não implica
viés do estimador de MQO, quando valem ainda as Hipóteses 5.1 a
5.4, mas o estimador da variância do erro que derivamos está
errado e, como consequência, a variância do estimador será
viesada e inconsistente. A estimativa da variância do estimador é
usada para a construção de testes de hipóteses sobre os
parâmetros (t e F) e construção de Intervalos de Confiança, logo se
a estimativa é viesada ou inconsistente, teremos estatísticas de
teste erradas, que não convergirão para uma distribuição conhecida.
Nesse sentido, é útil que se use estimadores alternativos ou formas
alternativas de contornar a inviabilidade da Hipótese 5.5. Vamos
verificar, inicialmente, como podemos lidar com a
heterocedasticidade e, posteriormente, como resolveremos o
problema de correlação entre os erros para dados em cross-section.
De maneira geral, há duas formas de se lidar com a quebra da
Hipótese 5.5:
1. podemos manter a estimação por MQO e apenas corrigir o
estimador da variância (seja utilizando o estimador robusto,
seja realizando testes usando o procedimento de bootstrap);
ou
2. podemos encontrar um estimador alternativo ao MQO, que
seja consistente e tenha variância dos erros homocedástica e
sem correlação entre erros nas observações.
Em que
Ou, em termos matriciais para a regressão linear múltipla
Tal que
Quando vale a quarta hipótese (média condicional zero dos
erros), sabemos que
Com base na fórmula da variância dos erros e na fórmula da
variância do estimador sem impor homocedasticidade, Halbert
White1 sugeriu o uso da relação entre os resíduos ao quadrado de
cada observação ( ) para entender a dispersão dos erros do
modelo para essas observações ( ). Assim, ele propôs o
seguinte estimador para a variância de da regressão linear
simples:
QUADRO 8.1
Estimação robusta da variância: Efeito das características
dos veículos sobre os preços
No trabalho de Silva (2015), vimos como os preços dos veículos se
relacionam com as suas características no Brasil. Usando uma
amostra de dados da tabela da Fundação Instituto de Pesquisas
Econômicas (FIPE) para janeiro de 2014 (veiculos1.xls),
estimamos o modelo hedônico usando algumas características. A
estimação por MQO do modelo anterior gerou os seguintes
resultados (reportamos os erros-padrão sob homocedasticidade em
parênteses e os erros-padrão de White em colchetes):
Em que:
Sob H0, temos que Var [u] = σ2 = E [u2] e E [u2|x] = σ2, ou, em
outras palavras, u2 não se relaciona com x (ou com funções de x).
Dessa forma, todas as variáveis explicativas do seguinte modelo
deveriam ser irrelevantes sob H0 (δ1 = 0, …, δK = 0):
QUADRO 8.2
Teste de detecção de heterocedasticidade
Vamos realizar o teste Breusch-Pagan para verificar a existência de
heterocedasticidade do modelo estimado para entender a
valorização das características dos veículos no Brasil. Assim,
partindo da estimação por MQO realizada no Quadro 8.1, salvamos
os resíduos de MQO e estimamos a equação dos resíduos ao
quadrado contra as variáveis explicativas do modelo. Os resultados
desta estimação podem ser visualizados a seguir:
QUADRO 8.3
Correção da heterocedasticidade de dados agregados
Suponha que temos o seguinte modelo populacional para indivíduos
i (cujas hipóteses de Gauss Markov sejam válidas)
yi = β0 + β1 x1i + ...+ βk xki +ui
em que
Assumindo que ln(u2) satisfaz as quatro primeiras hipóteses de
Gauss-Markov, δj pode ser estimado por MQO. Assim podemos
estimar a função , para, posteriormente, criarmos os
pesos .
O Estimador MQGF não tem propriedades tão boas quanto as do
MQG, mas é um estimador consistente e assintoticamente mais
eficiente que o MQO.14
É preciso atenção para que os mesmos pesos sejam dados para
as regressões nos modelos restrito e irrestrito (para fazer um teste
conjunto, F). MQO e MQGF geram estimadores diferentes por conta
de erros amostrais. Se os estimadores foram muito diferentes, pode
haver problema de especificação do modelo principal.
E se ou hi estiverem erradas? De imediato, temos que Var
[y|x1, …, xk] ≠ σ2 h(X). Se E [u|x1, …, xk] = 0 ainda for válida,
sabemos que qualquer função de x também é não correlacionado
com u. Isso implica que continua consistente. No entanto, os
erros-padrão continuarão errados, o que implica que os testes são
invalidados.
Implicava
Em que U* é homocedástico
Em que
Mostre que
Compute a estimativa de β.
ENDOGENEIDADE E VARIÁVEIS
INSTRUMENTAIS
QUADRO 9.1
Medida de habilidade para regressão de salários
O trabalho de Neves Junior et al. (2017) investiga a relação entre
capital humano dos indivíduos e os seus salários para o Brasil. A
literatura indica que quanto maior a qualificação do trabalhador,
maiores serão os salários pagos. Entretanto, ainda persistem
lacunas no que diz respeito à presença de heterogeneidades
referentes às diferenças de magnitude do prêmio salarial para
trabalhadores com diferentes perfis de capital humano.
A literatura econômica aponta outros aspectos que são
potencialmente relacionados com essa heterogeneidade, como por
exemplo, as habilidades individuais. Recentemente, alguns estudos
têm utilizado a ocupação do trabalhador como proxy para o nível de
habilidades, focando mais nas atividades que o indivíduo
desempenha do que o que ele estuda.1 Com esse arcabouço, fica
evidente que educação e habilidades não são sinônimos, e que o
uso de novas métricas pode lançar insights importantes sobre o
problema.
Mesmo se Corr (z, u) for próxima a zero, se Corr (z, x1) for muito
pequena também, podemos ter ter um viés assintótico
(inconsistência) grande. Já o viés assintótico do estimador de MQO
pode ser escrito por:
Em que
Equação Reduzida
Em termos matriciais,
em que
É importante evitar fazer esse procedimento manualmente, pois
o erro-padrão do estimador no segundo estágio não será calculado
corretamente, o que inviabiliza a realização de testes de hipóteses.
Isso porque o resíduo da regressão correto deve ser calculado
sobre x1, e não sobre 1 (ou seja, o resídio correto é:
).
Note que o estimador de variáveis instrumentais é equivalente ao
estimador de mínimos quadrados de dois estágios quando temos
apenas uma variável instrumental para cada variável endógena. O
MQ2E é consistente e tem distribuição normal assintótica. Para
ou
Em que: σ2 = Var (u| z), e da regressão de 1
sobre as variáveis z incluídas na equação estrutural (todas as
exógenas, menos as variáveis instrumentais).
Observando a variância do estimador de MQ2E por FWL, temos
duas principais razões para ser maior que a :
1. : 1 tem menos variação que x1
2. Na regressão de 1 contra z1 a zK – 1 o R2 é maior do que o da
regressão de contra x1 a z1 a zK – 1;
QUADRO 9.2
Efeito da poluição do ar sobre internações por doenças
respiratórias em São Paulo
Há evidências na literatura de que a poluição do ar impacta a saúde,
principalmente de indivíduos mais vulneráveis (por exemplo,
crianças e idosos). No entanto, a endogeneidade da exposição à
poluição surge como um problema para mensurar seus efeitos na
saúde. Isso porque os indivíduos tomam decisões para contornar os
efeitos nocivos da poluição com o objetivo de maximizar bem-estar.7
Nesse contexto, podemos usar uma variável instrumental para a
poluição do ar, de forma a eliminar esta endogeneidade. Uma das
variáveis recomendadas pela literatura é o vento. Isto porque o
vento é a variável meteorológica que mais influencia a distribuição e
transporte dos poluidores no ar (e potencialmente não
correlacionada com outros fatores, que não a poluição do ar, que
influenciam a saúde dos indivíduos).8 Por ser uma variável exógena
e altamente correlacionada com a poluição do ar, o vento pode ser
usado, a princípio, como instrumento para a poluição na estimação
de seus impactos na saúde. A ideia é de que vento mais forte deixa
o ar mais limpo, reduzindo a poluição. Utilizando dados da
Companhia Ambiental do Estado de São Paulo (CETESB) para o
nível de óxidos de nitrogênio (NOx), em partes por bilhão, na Região
Metropolitana de São Paulo, Guidetti e Pereda (2017) estimam a
equação reduzida para verificar se realmente há correlação entre a
medida de vento e a poluição do ar:9
NOxt = β0 + β1 ventot + ut
FIGURA 9.2
Equilíbrio de mercado competitivo e problema de identificação das curvas de
oferta e demanda para três períodos (esquerda) e para sete períodos (direita).
Os pontos (P1, Q1), (P2, Q2) e (P3, Q3) representam os
equilíbrios de mercado, nos períodos t1, t1 e t3, respectivamente.
Todos os pontos são determinados por deslocamentos tanto da
curva de oferta (variação no custo de produção, por exemplo)
quanto da curva de demanda (variação na renda, por exemplo). A
ideia de Wright foi encontrar as variáveis que deslocam uma das
curvas, mas mantêm a outra constante. Desta forma, seria possível
determinar cada uma das curvas separadamente. A Figura 9.3
ilustra a identificação da curva de demanda a partir da ideia
proposta por Wright:
FIGURA 9.3
Identificação da curva de demanda. A partir do deslocamento da curva de
oferta.
Note que ao encontrar uma variável que desloque apenas a
curva de oferta (z1), podemos identificar pontos na curva de
demanda, ou seja, conseguimos estimar a curva de demanda. Os
deslocadores da curva de oferta, neste caso, são chamados de
variáveis instrumentais para o preço na curva de demanda. As
condições para que a variável seja um bom instrumento e,
consequentemente, permita-nos estimar a curva de demanda são:
Em termos formais, podemos descrever um modelo geral básico
de equações simultâneas da seguinte forma:
Tal que
A restrição de exclusão exige que os vetores z1 e z2 precisam ter
ao menos uma variável diferente para que possamos identificar o
sistema. Outra condição importante, que vimos algebricamente, é
que α11 α22 ≠ 1.
6. Considere o modelo
Em que
É correto afirmar que:
(0) O estimador de mínimos quadrados ordinários de θ1 na
equação (1) é consistente.
(1) Os estimadores de mínimos quadrados ordinários de β1 e
β2 na equação (2) são não viesados.
(2) A equação (1) é exatamente identificada e a equação (2) é
sobreidentificada.
(3) Se σ12 = 0, tanto a equação (1) quanto a equação (2) são
exatamente identificadas.
(4) Se σ12 = 0, os estimadores de mínimos quadrados
ordinários de β1 e β2 na equação (2) são consistentes.
NORMALIDADE ASSINTÓTICA DO
ESTIMADOR DE VARIÁVEIS INSTRUMENTAIS
PARA A REGRESSÃO SIMPLES
Note que
C
om a melhoria constante da capacidade de
armazenamento de dados temos, cada vez mais, grandes
massas de dados disponíveis. A possibilidade de obter
dados sobre empresas, regiões e indivíduos ao longo do
tempo traz oportunidades para a identificação dos efeitos modelos
econômicos. Veremos neste capítulo as vantagens de estimar
modelos com dados ao longo do tempo.
10.1 DADOS EM CORTES TRANSVERSAIS AGRUPADOS
Vimos no Capítulo 3 que as bases de dados em cortes transversais
agrupados (pooled cross-sections) consistem na combinação de
duas ou mais amostras aleatórias (com diferentes unidades de
observação, i) em instantes diferentes do tempo. Neste caso, não
observamos as mesmas unidades no tempo, mas sim diversas
amostras aleatórias de uma mesma população ao longo do tempo –
tais amostras aleatórias são consideradas um agrupamento
independente de cortes transversais no tempo.
Há diversas vantagens em se usar esse tipo de base de dados.
Uma delas é o fato de o tamanho da amostra aumentar: o tamanho
total da amostra passa a ser N1 + ⋯ + NT, ou seja, a soma do total
de observações em cada período de tempo (suponha que temos T
períodos de tempo disponíveis). Assim, melhoramos a precisão das
estimativas (temos a redução da variância do estimador) e, portanto,
a inferência do nosso modelo. Outra vantagem importante é a
viabilização de análises de impacto ao longo do tempo. Suponha
que uma política pública seja implementada em um período t*, tal
que 1< t* ≤ T. Assim, dependendo das demais informações da
amostra, temos chances de poder avaliar o antes e depois da
política usando um estimador de diferenças em diferenças.
No entanto, há também alguns cuidados que precisamos ter ao
trabalhar com diversas amostras ao longo do tempo. Isso porque a
distribuição da população pode ser diferente no tempo. Uma forma
simplificada de corrigir esse problema seria usar interceptos
diferentes para cada período de tempo t (ou seja, incluir variáveis
dummy para cada período: chamamos os efeitos medidos por essas
variáveis dummy de efeitos fixos no tempo), ou inclinações
diferentes para os períodos de tempo t (efeitos das variáveis
explicativas mudam ao longo do tempo). Além da inclusão de
variáveis dummy temporais (e seus cruzamentos com as demais
variáveis explicativas), a matriz de variância-covariância dos erros,
V( u), normalmente não será homocedástica. Neste caso, podemos
usar o estimador robusto para a variância (ou estimador por
bootstrap), ou estimar o modelo por FGLS.
Entretanto, a própria mudança no tempo pode ser o problema a
ser pesquisado: Como a fertilidade das mulheres varia no tempo?
Será que o retorno da educação no Brasil mudou ao longo do
tempo? Nestes casos, utilizamos o cruzamento destas variáveis
com variáveis dummy para os períodos. Mas o que acontece se
utilizamos todas as x1, ⋯ , xk variáveis explicativas cruzadas com as
dummies de tempo? Como vimos no Capítulo 6, usar todas as
interações gera estimadores equivalentes aos das estimações de
equações diferentes para cada período. Neste caso, podemos
utilizar o teste de Chow para verificar se há diferença de efeitos no
tempo (Chow, 1960). Seja o modelo para uma amostra de dados
com dois períodos de tempo (1 e 2).
TABELA 10.1 Exemplo de matriz de dados necessária para aplicação do método DID
2 1990 0 90 1 2 ... 1
N1 + 1 1991 1 98 0 2 ... 0
QUADRO 10.1
Impacto da construção do metrô em São Paulo
Poderíamos utilizar dados sobre os preços dos imóveis da cidade de
São Paulo, ao longo do tempo, para verificar a potencial valorização
de uma política urbana, como a inauguração de uma estação do
metrô. O grande problema é que observamos preços de imóveis
diferentes ao longo dos meses. Neste sentido, poderíamos propor
uma análise de dados de cortes transversais agrupadas para
realizar essa análise. Note que é necessário observar os preços de
transação (do Zap imóveis, ou da EMBRAESP, para a cidade de
São Paulo) e as características dos imóveis, além da localização
dos mesmos. Os imóveis tratados seriam as casas próximas à
estação de metrô e os imóveis do grupo de controle seriam imóveis
parecidos, mas não impactados pela estação.
10.2 DADOS EM PAINEL
Dados em painel consistem em uma coleção de dados para uma
mesma unidade de observação ao longo do tempo. Este tipo de
base de dados possui diversas vantagens para a estimação de
modelos econômicos. Dados em painel são facilmente obtidos para
regiões (distritos, municípios, estados, países). Já no caso de
painéis de indivíduos, empresas, famílias, por exemplo, obter dados
ao longo do tempo tem custo mais elevado. No entanto, várias
instituições brasileiras vêm se dedicando a coletar dados em painel,
como o IBGE (que iniciou a coleta de dados em painel para a
PNAD, conhecida por PNAD Contínua, em substituição à Pesquisa
Mensal de Emprego, PME), a FIPE (que coleta a Pesquisa de
Orçamentos Familiares da Região Metropolitana de São Paulo no
formato de painel de domicílios), entre outras.
Na notação utilizada neste livro, os dados em painel consistem
em acompanhar o mesmo i para períodos t diferentes. Podemos ter
um painel balanceado, quando não perdemos nenhuma observação,
ou seja, a amostra total tem N x T observações, ou não
balanceados, quando temos a perda observações no tempo por
alguns motivos (atrito, ou em inglês: attrition).
No caso dos painéis desbalanceados, precisamos entender os
motivos da perda de dados. Se os motivos foram aleatórios
(exemplo: perda de formulários/questionários) não existem
consequências para a causalidade do modelo. No entanto, se os
motivos foram não aleatórios (exemplo: empresas que faliram,
indivíduos que perderam emprego) podem haver consequências
relevantes para a estimação do modelo. Neste último caso, teremos
que lidar com o problema de seleção amostral (tópico do Capítulo
11).
No caso de dados em painel, identificaremos as variáveis por yit,
xit, com i = 1, ⋯ , N e t = 1, ⋯ , T. A maior vantagem do uso de
dados em painel é a possibilidade de expurgar alguns fatores não
observados do termo de erro (εit), tais como:
1. Choques agregados não observados, que influenciam todos os
i’s em determinado período de tempo, identificados por meio
da inclusão de variáveis dummy para os períodos (λt, para t =
1, ⋯ , T).
2. Os fatores não observados dos indivíduos (efeitos
heterogêneos dos indivíduos/firmas/regiões, constantes no
tempo), identificados por meio da inclusão de variáveis dummy
para as observações (αi, para i = 1, ⋯ , N).
Ou
Note que o efeito fixo não observado é eliminado na
transformação within. Vamos verificar sob as hipóteses do modelo
de regressão linear a estimação por MQO do modelo anterior gerará
estimadores com propriedades desejáveis.
R2 between
R2 within
QUADRO 10.2
Retorno salarial de educação com fatores não observados
do indivíduo constantes no tempo
Vimos no Quadro 9.1 que podemos incluir as variáveis de habilidade
calculadas por Neves Junior et al. (2017) como variáveis proxy para
a verdadeira habilidade dos trabalhadores brasileiros no modelo de
retorno salarial do capital humano. Se observamos dados em painel,
outra forma de lidar com a variável omitida “habilidade’ seria a
inclusão de um efeito fixo no tempo. Neste caso, este efeito captará
a habilidade do indivíduo se acreditarmos que essas habilidades são
constantes no tempo.
Usando os dados do estudo de Neves Junior para 2013 e 2014,
podemos agora comparar o modelo com e sem os efeitos fixos:
QUADRO 10.2
Efeitos da redução da velocidade nas vias de São Paulo
A prefeitura do município de São Paulo determinou a redução da
velocidade de diversas vias da cidade a partir de 20 de julho de
2015. O objetivo da prefeitura foi reduzir o número de acidentes e
mortes no trânsito da cidade. A política, revogada pelo prefeito
seguinte, foi realizada progressivamente em diversas avenidas e
vias locais, atingindo as principais vias da cidade, incluindo as
marginais do Rio Pinheiros e do Rio Tietê.
Algumas cidades do mundo adotaram política parecida ao longo dos
últimos anos. Em Nova York,4 por exemplo, o limite na área urbana
passou para 40 km/h a partir de novembro de 2014 e, em Londres, a
máxima diminuiu para 32 km/h em importantes avenidas da capital
inglesa desde 2013.5 Paris e Roma também possuem limitações na
velocidade em áreas urbanas, que variam de 50 km/h em vias
expressas, até 30 km/h em áreas mais urbanizadas. As prefeituras
dessas cidades alegam diminuição no número geral de acidentes
nessas localidades.
Em 2016, a Companhia de Engenharia de Tráfego (CET), que
monitora o trânsito na cidade, reportou que o número de acidentes
fatais nas marginais caiu 52%, comparando o período de julho de
2014 a julho de 2015 com os 12 meses seguintes.6
Entretanto, a queda no número de mortes no trânsito das marginais
Tietê e Pinheiros coincide com a tendência de queda nos óbitos e
acidentes de trânsito em todo o estado de São Paulo.
FIGURA 10.2
Mortes no trânsito em São Paulo.
Fonte: http://www1.folha.uol.com.br/cotidiano/2016/03/1752627-numero-de-mortes-
no-transito-de-sao-paulo-tem-a-maior-queda-desde-1998.shtml.
Argumentos contrários à medida incluem a desconfiança em relação
ao governo municipal sobre uma possível motivação de aumento da
arrecadação com multas. Nesse sentido, o tema entrou também no
debate político das eleições municipais. Independentemente do
debate político, é relevante que os efeitos de políticas públicas
sejam rigorosamente mensurados para verificar se, de fato, as
variações observadas sejam causadas pelas intervenções. Isso é
essencial para que políticos justifiquem suas ações perante a
sociedade, sinalizando que conhecem os efeitos exatos das
medidas.
No entanto, como vimos ao longo deste livro, será que essa simples
comparação de estatística pode ser interpretada como causal? Não
podemos comparar o número de mortes no trânsito (ou as taxas de
acidentes) em São Paulo no tempo, devido à tendência observada
de redução de acidentes. Entre as potenciais variáveis que explicam
a taxa de acidentes no trânsito e que estão correlacionadas com o
período antes e depois da política: destacamos as comportamentais
(conscientização); outras políticas (lei seca, aumento de multas,
aumento da fiscalização); conjunturais (desemprego leva a menos
deslocamentos para trabalho); preços relativos (substituição dos
veículos individualizados por transportes coletivos); entre outras.
Uma forma de estimar o efeito pretendido sobre a taxa de redução
de acidentes seria comparar os acidentes nas vias das cidades
impactadas pela redução da velocidade, em vias semelhantes, mas
não impactadas pela política. Esse modelo pode ser expresso da
seguinte forma:
Suponha:
Assim, temos
Em que:
Em que:
Em outras palavras:
Podemos reescrever o modelo de efeitos aleatórios para eliminar
a heterocedasticidade e, portanto, estimar o modelo transformado
por MQO:
Em que:
será consistente.
• Se Corr(xjit, αi) = 0, temos que EA será consistente e
assintoticamente eficiente e EF será consistente, mas
assintoticamente ineficiente.
QUADRO 10.3
Aplicação do teste de Hausman
No Quadro 10.1 estimamos o modelo de Efeitos Fixos para o painel
de indivíduos da RAIS. Temos motivos teóricos para crer que os
efeitos fixos, fatores não observados constantes no tempo, sejam
correlacionados com a variável de educação. Para testar essa
hipótese, poderíamos fazer o Teste de Hausman entre os dois
modelos. Os resultados das estimações usando o método de Efeitos
Fixos e Efeitos Aleatórios podem ser visualizados a seguir:
Efeitos Fixos:
Efeitos Aleatórios:
Notamos que os estimadores para os betas diferem em magnitude,
mas só podemos confirmar as diferenças ao aplicar o Teste de
Hausman que (pondera tais diferenças por suas variâncias). A
estatística do teste de Hausman para esse caso foi 84.624,88
(converge para uma distribuição ), bastante superior ao valor
crítico a 1%. Assim, rejeitamos a hipótese nula de que ambos são
consistentes, escolhendo o Método de Efeitos Fixos.
10.3 EXERCÍCIOS
N = 101670 R2 = 0,1058
N = 101670 R2 = 0,1058
Interprete os coeficientes.
d) Qual a diferença entre os dois modelos?
VARIÁVEIS DEPENDENTES
LIMITADAS
E
ste capítulo apresenta métodos para a estimativa de
modelos em que a variável de interesse é limitada. Outras
estratégias de estimação podem ser utilizadas uma vez que
conhecemos a natureza do processo gerador da variável
de interesse.
11.1 MODELOS DE VARIÁVEL DEPENDENTE BINÁRIA
No Capítulo 6 discutimos o modelo de probabilidade linear para a
estimação por MQO de um modelo de regressão linear em que a
variável y é binária (variável dummy). Modelos cuja variável
dependente é binária são chamados de modelos de escolha
discreta, pois basicamente buscam entender o que leva os
indivíduos, firmas, governos a adotarem uma ação em detrimento de
outra. As aplicações mais comuns destes modelos são para
entender a participação na força de trabalho (y = 1 refere-se aos
trabalhadores empregados e y = 0 se refere às pessoas que não
participam do mercado de trabalho), analisar os determinantes da
pobreza (y = 1 refere-se às famílias/indivíduos que estão abaixo da
linha de pobreza e y = 0 se refere às famílias/indivíduos que estão
acima da linha de pobreza), estudar a decisão de consumo de um
bem complexo (como habitação, carro etc.), verificar como pessoas
escolhem modal de transporte, entre outros.
Vimos que quando a variável dependente é binária (y), temos
que
QUADRO 11.1
Consumo de cigarro no Brasil
Se estamos interessados em entender o comportamento de
consumo de cigarro no Brasil, podemos fazê-lo usando dados da
PNS de 2013 para estimar um modelo em que a variável
dependente é binária (e igual a um para os indivíduos que fumam) e
as variáveis independentes são as características dos indivíduos. A
Tabela 11.1 apresenta os resultados das estimações dos modelos
MPL, Probit e Logit, considerando o seguinte modelo:
TABELA 11.1
Efeitos marginais e erros-padrão estimados: MPL; Logit; e Probit
idade2 – – –
0.000112*** 0.000126*** 0.000124***
Erros-padrão em parênteses
QUADRO 11.1
Consumo de cigarro no Brasil (continuação)
A Tabela 11.1 apresentou as estimativas do modelo que busca
entender os determinantes do comportamento tabagista para o
Brasil. O MPL foi estimado por MQO, e os modelos Probit e Logit
foram estimados por Máxima Verossimilhança. Podemos
acrescentar à tabela os resultados do R2 e pseudo-R2-estimados.
Note que o coeficiente de ajustamento foi bastante similar para os
três modelos.
TABELA 11.2
Efeitos marginais e erros-padrão estimados por MQO e MV
idade2 – – –
0,000112*** 0,000126*** 0,000124***
Erros-padrão em parênteses
*** p<0,01, ** p<0,05, * p<0,1
11.2 MODELOS DE VARIÁVEL DEPENDENTE EM PROPORÇÃO
Muitos modelos caracterizam-se pela variável dependente como
uma proporção. Como exemplo, temos modelos que buscam
entender os fatores que determinam a participação de mercado
(market share) das empresas, ou quando o nosso interesse é
explicar os determinantes de índices conhecidos. Nestes casos, não
podemos usar a abordagem de variável discreta, pois a variável
dependente, apesar de limitada entre 0 e 1, não é mais discreta e,
portanto, assume infinitos valores dentro deste intervalo.
Supondo uma amostra de i observações, a variável dependente
observada é uma proporção Pi. Nestes casos, podemos modelar a
probabilidade por meio de uma função logística:
QUADRO 11.2
Efeito dos gastos com campanha eleitoral sobre o
percentual de votos
Usando dados sobre a eleição para vereadores no município de São
Paulo em 2012, tentamos entender como a participação de votos
conquistados por partido se relacionam com os gastos totais da
campanha (soma dos gastos para todos os candidatos que
concorreram pelo partido) em milhões de reais. Estimando o modelo
linear por MQO obtemos:
Em que9
Portanto,
Seja
QUADRO 11.3
Impacto de um imposto sobre bebidas açucaradas
Na literatura médica, o alto consumo de açucar está associado ao
aumento da obesidade, doenças cardíacas e desenvolvimento de
diabetes tipo 2.11 Países como Chile, Equador, Colômbia, Taiwan e
Tailândia têm discutido formas de regular e diminuir o consumo de
bebidas açucaradas (refrigerantes e sucos adoçados) por meio de
instrumentos econômicos – como impostos.
Para identificar o impacto de um aumento no imposto sobre o
consumo de bebidas açucaradas são necessários dados de
pesquisas orçamentárias. É comum encontrarmos nesses dados
domicílios que reportam despesas nulas com esse produto – isto é,
que não realizaram aquisições de bebidas açucaradas no período
da pesquisa. Esse tipo de comportamento caracteriza uma censura:
a variável dependente – no caso, o consumo de bebidas açucaradas
– assume valor zero para um número razoável de observações e é
uma variável aleatória contínua para valores estritamente positivos
de consumo.
Vimos que na presença de censura, o estimador de Mínimos
Quadrados Ordinários (MQO) do impacto analisado é viesado e
inconsistente. Nesse caso, o modelo linear mais utilizado é o de
Tobit, cujas decisões de dispêndio e do quanto é gasto pelas
famílias são estimadas em uma mesma etapa. No modelo Tobit,
cria-se uma variável latente y* (não observada) conforme mostrado
a seguir:
ou
Em que:
w = 1 denota o tratamento e w = 0 o controle; e
y (w) denota o resultado potencial do tratamento ou do controle.
ou
QUADRO 12.1
Efeitos do vale alimentação e refeição sobre o consumo
de alimentos
O trabalho de Palialol e Pereda (2017) testa se famílias cujos
membros recebem vale alimentação, vale refeição ou similares
(chamados genericamente na literatura de in-kind transfers) tendem
a consumir mais alimentos do que consumiriam se recebessem a
mesma quantia em dinheiro (o que seria uma medida de distorção
dos vales). A distribuição de vales pode fazer sentido se a distorção
de consumo for direcionada a alimentos que contribuam para a
qualidade nutricional da família. Assim, esta pergunta de pesquisa é
importante para motivar políticas públicas voltadas à alimentação de
qualidade dos trabalhadores.
Para estimar o efeito desejado, idealmente deveríamos observar a
quantidade de alimentos consumidos pela mesma família na
situação em que ela recebe o benefício e na situação em que ela
não recebe (ou que recebe o valor em dinheiro). Observar esses
dois resultados é impossível por definição, pois uma vez que se
observa a família recebendo o benefício não se pode observá-la não
recebendo (no mesmo período de tempo), caracterizando um
problema de contrafactual.
Utilizando a mesma base de dados do artigo original, os autores
compararam a quantidade de alimentos (em kg) consumidos por
famílias que recebiam o benefício e famílias que não o recebiam. A
comparação foi feita utilizando Propensity Score Matching (PSM)
entre famílias que possuíam características observáveis similares,
por exemplo, famílias de mesmo tamanho vivendo em regiões
metropolitanas, com renda per capita similar cujos chefes possuem
mesmo nível educacional. Os resultados obtidos foram os seguintes:
TABELA 12.1
Teste de média sobre amostra pareada
e, portanto,
Tal que
A dupla diferenciação remove o viés da comparação que pode
ser resultado das diferenças permanentes entre os grupos e
também da comparação ao longo do tempo. Dessa forma, DD é o
ganho médio do tratamento no tempo subtraído do ganho médio do
controle no tempo.
Para fazer inferência, a amostra deve ser suficiente para cada
um dos quatro grupos. Note que é possível adicionarmos diversas
covariadas para controlar mudanças de composição (etnia, gênero
etc.). É possível, também, incluir diversos períodos de tempo e
grupos múltiplos.
QUADRO 12.2
Efeitos da Lei Antifumo sobre as internações por asma no
Brasil
Diversos municípios e estados brasileiros introduziram leis de
proibição de fumar em locais coletivos fechados ou parcialmente
abertos a partir de 2008, popularmente conhecidas como Leis
Antifumo. Antes disso, vigorava, no Brasil, a permissão da criação
de fumódromos nesses ambientes, o que foi vedado com as
restrições introduzidas. O objetivo da política é reduzir a exposição
dos indivíduos à fumaça do cigarro, pois há evidências de que isso
aumenta a incidência de diversas doenças respiratórias e
cardíacas.13
No Brasil, os estados que adotaram leis antifumo em 2009 são
Roraima, Amazonas, Paraíba, São Paulo, Rio de Janeiro e Paraná.
Os municípios de Belém/PA e de Salvador/BA também introduziram
leis próprias em 2009. Steffens e Pereda (2017), analisam o efeito
da política sobre a saúde dos indivíduos por meio da comparação
das taxas de internações anuais por asma no Sistema Único de
Saúde nos locais que introduziram as restrições com unidades que
tenham trajetórias semelhantes de internação antes de 2009, mas
não impactadas pela política. Para isolar o efeito sobre o fumo
passivo, podemos limitar as observações para internações em
indivíduos com até 18 anos, uma vez que o consumo de cigarro é
proibido para esse grupo etário. Esse modelo pode ser expresso da
seguinte forma:
O modelo DD com dados em painel permite a estimação dos efeitos
heterogêneos de uma política ao longo dos anos de sua adoção
(sendo t* o número de anos de adoção). O modelo anterior controla
para os efeitos fixos de município (αm) e por choques agregados no
tempo que tenham ocorrido em todos os municípios brasileiros no
período analisado (Dt). Estamos interessados na estimação dos
parâmetros , isso é, o efeito de t* anos de exposição à lei
antifumo em cada região brasileira (Sul, Sudeste, Centro-Oeste,
Nordeste e Norte). As autoras estimaram esse modelo usando
dados de internação por asma no período entre 2009 e 2014 (em
que as unidades de observação são os municípios brasileiros).
Na região Sul do Brasil, o efeito estimado foi de uma redução de
cerca de 20% da taxa de internações por asma entre pessoas de
até 18 anos nos municípios que adotaram Lei Antifumo, mas apenas
dois anos após a adoção.
FIGURA 12.1
Evolução temporal dos efeitos estimados da Lei Antifumo para a
região Sul.
FIGURA 12.2
Evolução temporal dos efeitos estimados da Lei Antifumo para a
Região Sudeste.
Nos indivíduos de até 18 anos residentes nos municípios tratados
das regiões Sudeste e Norte, por outro lado, os efeitos estimados
foram de aumento na taxa de internações por asma para anos de
exposição à lei antifumo. Os efeitos são estatisticamente
significantes a 1%. Para os indivíduos de até 18 anos residentes nos
municípios tratados da região Nordeste, foram encontrados efeitos
significativos a 5% de redução na taxa de internação por asma para
1, 2, 3 e 4 anos de exposição à lei. Na região Centro-Oeste, não
houve nenhuma unidade tratada em 2009.14
12.6 MÉTODO DE CONTROLE SINTÉTICO14
O método do Controle Sintético nasceu na análise de políticas
agregadas, ou seja, para quando temos unidades de medida
agregadas e apenas uma unidade tratada na amostra (e muitas
unidades de controle).15 Neste modelo, ao contrário do diferenças
em diferenças, as variáveis não observadas (que podem se
relacionar com X) podem variar no corte transversal (cross-section)
e no tempo. Esse modelo é utilizado para avaliar o impacto de uma
política agregada (nível nacional ou estadual), por exemplo).
O método surgiu no estudo de Abadie e Gardeazabal (2003),
cujo objetivo era investigar o efeito do terrorismo do grupo ETA, no
País Basco, sobre crescimento econômico da região. Para avaliar
este impacto, os autores usam uma combinação de regiões da
Espanha para construir um contrafactual (controle sintético) que se
assemelhe às características relevantes do País Basco no período
anterior às ações do ETA (anos 1960). A ideia é que a evolução
econômica do controle sintético seria semelhante à evolução
econômica do País Basco sem terrorismo.
As vantagens iniciais da proposta dos autores são:
1. Podemos observar apenas uma unidade tratada.
2. Dados agregados são mais fáceis de se obter do que
microdados.
3. O método aparece como uma extensão ao método DD para
dados em painel.
4. Há redução da discricionariedade na escolha do grupo de
controle, pois eles propõem um mecanismo explícito, em
forma sistemática, para a escolha do contrafactual.
FIGURA 12.3
Representação da descontinuidade do tratamento em x0 (Sharp RD).
FIGURA 12.4
Representação do efeito estimado a partir de um modelo linear.
Pode acontecer de a relação entre y e x ser não linear: E (Y0i|xi)
= f (xi). Neste caso, podemos construir estimativas RD a partir do
modelo
FIGURA 12.5
Representação do efeito estimado a partir de um modelo não linear.
Olhamos para os dados na vizinhança da descontinuidade (não
importa a forma funcional de E (Y0i|xi)):
tal que
21 O cálculo do erro-padrão pode ser feito tal como proposto em Hahn, Todd
e van der Klaauw (2001).
22 O Programa Ensino Médio Inovador (ProEMI) foi lançado em 2009. Como
o Censo Escolar aponta apenas a partir de 2012 se a escola participa do
programa, considerou-se como tratado aqueles que não participavam do
programa em 2012 e participavam em 2013 e 2014, e como controle
aqueles que não participavam em nenhum dos anos.
REFERÊNCIAS