Econometria Aplicada - Paula Pereda

Table of Contents
Capa
Folha de rosto
Copyright
Dedicatória
Agradecimentos
Prefácio
Sumário
1 Da Estatística para a Econometria
1.1 Introdução
1.2 Revisão de Estatística
1.2.1 Conceitos básicos
1.2.2 Propriedades de estimadores
Propriedades de pequenas amostras
Propriedades de grandes amostras (assintóticas)
1.2.3 Métodos de Estimação
Método dos Momentos (MM)
Método de Máxima Verossimilhança (MV)
Método de Mínimos Quadrados (MQ)
1.2.4 Breve Revisão das Distribuições de
Probabilidade
1.3 Relação entre Variáveis Aleatórias
1.3.1 Independência em distribuições bivariadas
1.4 Considerações sobre o Capítulo
1.5 Exercícios
Apêndice 1.A A Revisão de Estatística Básica
1. A.1 Propriedades dos Momentos da Distribuição
1. A.2 Inferência Estatística
2 Efeitos Causais em Economia
2.1 Introdução
2.2 Análise Econômica Empírica
2.2.1 Abordagem estrutural
2.2.2 Abordagem de equações reduzidas usando
dados experimentais
2.2.3 Abordagem de equações reduzidas usando
dados observados
2.4 Exercícios
3 Tipos de Dados Secundários no Brasil
3.1 Estrutura de Dados
3.2 Bases de Dados Brasileiras
3.2.1 Pesquisa Nacional por Amostra de Domicílios
(PNAD) – Anual
3.2.2 Suplementos da PNAD
3.2.3 PNAD Contínua
3.2.4 Pesquisa Nacional de Saúde (PNS)
3.2.5 Pesquisa de Orçamentos Familiares (POF)
3.2.6 Censo Demográfico
3.2.7 Censo Agropecuário
3.2.8 Pesquisas de Comércio
3.2.9 Pesquisa Industrial – empresa e produto
3.2.10 Pesquisas de Serviços
3.2.11 Censo Escolar
3.2.12 Prova Brasil
3.2.13 Cadastro Nacional de Estabelecimentos de
Saúde (CNES)
3.2.14 Sistema de Informação da Atenção Básica
(SIAB)
3.2.15 Sistema de Informação sobre Mortalidade (SIM)
3.2.16 Sistema de Informações Hospitalares do SUS
(SIHSUS)
3.2.17 Sistema de Informações de Nascidos Vivos
(SINASC)
3.2.18 Sistema de Contas Nacionais (SCN)
3.2.19 Pesquisas de Origem e Destino (OD)
3.2.20 Finanças Públicas do Brasil (FINBRA)
3.2.21 Dados do Tribunal Superior Eleitoral (TSE)
3.2.22 Cadastro Geral de Empregados e
Desempregados (CAGED)
3.2.23 Relação Anual de Informações Sociais (RAIS)
3.2.24 Sistema Gerenciador de Séries Temporais
(SGS) do Banco Central
3.2.25 Cadastro Único (CadÚnico)
3.3 Exercícios
4 Modelo de Regressão Linear Simples
4.1 Introdução
4.2 Estimação do Modelo de Regressão Simples
4.2.1 Estimador pelo Método dos Momentos (MM)
4.2.2 Estimador pelo Método dos Mínimos Quadrados
Ordinários (MQO)
4.2.3 Estimador pelo Método de Máxima
Verossimilhança (MV)
4.2.4 Nota sobre os estimadores e sua interpretação
4.3 Grau de Ajuste da Regressão
4.4 Propriedades dos Estimadores de MQO
4.4.1 Propriedade de não viés
4.4.2 Cálculo da variância dos estimadores
4.4.3 Estimador para a variância dos erros
4.5 Modelo de Regressão Simples sem Intercepto
4.7 Exercícios
Apêndice 4.A
5 Modelo de Regressão Linear Múltipla
5.1 Introdução
5.2 Métodos de Estimação
5.2.1. Estimador pelo Método dos Momentos (MM)
5.2.2. Estimador pelo Método dos Mínimos Quadrados
Ordinários (MQO)
5.3 Álgebra de Somatório para os Estimadores de MQO
5.4.1 Propriedade do não viés
5.4.2 Propriedade da consistência
5.5 Comparação entre a Regressão Linear Simples e
Múltipla
5.6 Eficiência dos Estimadores de MQO e Gauss-Markov
5.7 Relação entre o R2 e O R−2
5.9 Exercícios
6 Especificações dos Modelos de Regressão
6.1 Mudanças nas Unidades de Medida das Variáveis
6.2 Não Linearidades na Relação entre Y E X
6.2.1 Uso de logaritmos
Efeitos marginais em log
Previsão quando a variável dependente está em
log
6.2.2 Outras formas funcionais: polinômios
6.2.3 Outras formas funcionais: produtos cruzados
6.3 Variáveis Binárias (Dummy)
6.3.1 Variáveis qualitativas com duas categorias
6.3.2 Variáveis qualitativas com várias categorias
6.3.3 Produtos cruzados usando variáveis dummy
6.3.4 Variável dependente binária
6.4 Exercícios
Apêndice 6.A Padronização de Variáveis
7 Inferência Estatística
7.1 Breve Revisão
7.2 Distribuição dos Estimadores para Amostras Finitas
7.2.1 Distribuição normal dos erros
7.2.2 Distribuição normal dos estimadores de MQO
Demonstração
7.3 Distribuição dos Estimadores para Grandes Amostras
Demonstração
7.4 Teste de Hipóteses Individuais
7.4.1 Teste bicaudal para significância estatística
7.4.2 Teste bicaudal para valores específicos
7.4.3 Testes monocaudais
7.4.4 Regra de decisão usando p-valores
7.4.5 Significância estatística e tamanho da amostra
7.4.6 Intervalo de confiança
7.4.7 Teste de combinação linear de parâmetros
7.4.8 Uso do R−2 para escolher entre modelos
7.5 Teste de Múltiplas Hipóteses
7.5.1 Teste F de múltiplas restrições de exclusão
7.5.2 Significância geral da regressão
7.5.3 Teste de outras restrições lineares
7.5.4 Relação entre as estatísticas t e F
7.5.5 Relação entre R2 e a estatística t
7.5.6 Teste entre grupos de variáveis dummy
7.7 Exercícios
Apêndice 7.A Breve Revisão do Teorema do Limite Central
7. A.1 Propriedades Assintóticas: Teorema da
Normalidade Assintótica
7.A.2 Breve Revisão de Teste de Hipóteses
7.A.3 Tabelas de Distribuições Conhecidas
8 Heterocedasticidade e Autocorrelação
8.1 Correção do Estimador da Variância
8.1.1 Sob heterocedasticidade
8.1.2 Sob autocorrelação entre as observações
8.1.3 Testes de hipóteses usando bootstrapping
8.2 Testes para Detecção de Heterocedasticidade e
Autocorrelação
8.2.1 Teste para heterocedasticidade
8.2.2 Teste para autocorrelação dos erros
8.3 Estimadores Alternativos ao MQO
8.3.1 Estimador MQG para heterocedasticidade
8.3.2 Estimador MQGF para heterocedasticidade
8.3.3 Estimador MQG e MQGF para autocorrelação
8.3.4 Estimação usando matrizes
8.4 Exercícios
9 Endogeneidade e Variáveis Instrumentais
9.1 Omissão de Variáveis Relevantes
9.1.1 Uso de variáveis proxy
9.1.2 Uso de variáveis instrumentais na regressão
simples
múltipla
9.1.4 Múltiplas variáveis instrumentais: MQ2E
9.1.5 Testes entre os estimadores de MQO e MQ2E
9.1.5.1 Teste de Hausman
9.1.5.2 Teste de Sargan
9.1.6 Múltiplas variáveis endógenas
9.2 Erro de Medida nas Variáveis Explicativas
9.3 Problema de Simultaneidade
9.5 Exercícios
Apêndice 9.A Normalidade Assintótica do Estimador de
Variáveis Instrumentais para a Regressão Simples
10 Métodos para Dados em Painel
10.1 Dados em Cortes Transversais Agrupados
10.1.1 Método de diferenças em diferenças
10.2 Dados em Painel
10.2.1 Efeitos fixos: métodos de primeiras diferenças
10.2.2 Efeitos: método within
10.2.3 Efeitos fixos: método de variáveis dummy
10.2.4 Comparação de métodos
10.2.5 Nota sobre painéis desbalanceados
10.2.6 Análise de impacto com dados em painel
10.2.7 Estimação na presença de efeitos aleatórios
10.3 Exercícios
11 Variáveis Dependentes Limitadas
11.1 Modelos de Variável Dependente Binária
11.2 Modelos de Variável Dependente em Proporção
11.3 Modelos de Variável Dependente Censurada
11.4 Modelo de Seleção Amostral
11.6 Exercícios
12 Avaliação de Impacto: Tópicos Avançados
12.1 Efeito Causal e Mecanismo de Seleção
12.2 Tipos de Efeitos de Tratamento
12.3 Seleção em Observáveis: Análise de Regressão
12.4 Análise Usando Propensity Score
Etapa I: Testes de balanceamento
Etapa II: Estimando o propensity score
Etapa III: Pareamento
Etapa IV: Análise pós-pareamento
12.5 Método de Diferenças em Diferenças (DD)
12.6 Método de Controle Sintético
Comparação: Controle sintético vs Diferenças em
diferenças
12.7 Método de Variáveis Instrumentais
12.8 Regressão Descontínua
Sharp RD
12.10 Exercícios
Referências
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
ECONOMETRIA
APLICADA
PAULA CARVALHO PEREDA

DENISARD ALVES
© 2018, Elsevier Editora Ltda.
Todos os direitos reservados e protegidos pela Lei no 9.610, de 19/02/1998.
Nenhuma parte deste livro, sem autorização prévia por escrito da editora, poderá ser
reproduzida ou transmitida sejam quais forem os meios empregados: eletrônicos,
mecânicos, fotográficos, gravação
ou quaisquer outros.
Copidesque: Augusto Coutinho
Revisão: Tathyana Viana
Editoração Eletrônica: Estúdio Castellani
Desenvolvimento de eBooks: Loope - design e publicações digitais | www.loope.com.br
Elsevier Editora Ltda.
Conhecimento sem Fronteiras
Rua da Assembléia, 100 – 6º andar
CEP: 20011-904 – Centro – Rio de Janeiro – RJ – Brasil
Rua Quintana, 753 – 8o andar

04569-011 – Brooklin – São Paulo – SP – Brasil
Serviço de Atendimento ao Cliente

0800-0265340
gendigital@grupogen.com.br
ISBN 978-85-352-8804-9
ISBN (versão digital): 978-85-352-8805-6
Nota: Muito zelo e técnica foram empregados na edição desta obra. No entanto, podem
ocorrer erros de digitação, impressão ou dúvida conceitual. Em qualquer das hipóteses,
solicitamos a comunicação ao nosso Serviço de Atendimento ao Cliente, para que
possamos esclarecer ou encaminhar a questão.
Nem a editora nem o autor assumem qualquer responsabilidade por eventuais danos ou
perdas a pessoas ou bens, originados do uso desta publicação.
CIP-Brasil. Catalogação na Publicação

Sindicato Nacional dos Editores de Livros, RJ
P486e Alves, Denisard e Pereda, Paula Carvalho
Econometria aplicada / Denisard Alves e Paula Carvalho
Pereda. – 1. ed. – Rio de Janeiro: Elsevier, 2018.
:il.
Inclui bibliografia
ISBN 978-85-352-8804-9
1. Econometria. 2. Estatística. I. Título.
17-43934 CDD: 330.015195
CDU:330.43
Aos nossos alunos, à USP e aos nossos familiares.
AGRADECIMENTOS
E
m primeiro lugar, agradecemos aos nossos alunos da FEA-
USP pela inspiração constante. Em segundo, agradecemos
à Bruna Guidetti, aluna do mestrado em Teoria Econômica
da USP, pela excelente assistência à pesquisa. O apoio
dos alunos Ana Beatriz Davoli, Bruno Toni Palialol, Camila Steffens,
Edivaldo Constantino das Neves Júnior, Larissa Bueno e Maria Alice
Moz Christoffoletti também foi muito importante na elaboração dos
exemplos e bases de dados do livro. Agradecemos, também, ao
excelente auxílio prestado por Helena Ciorra e Renata Dias. Este
projeto também não teria sido possível sem o apoio institucional do
Departamento de Economia da USP. Por fim, agradecemos aos
nossos familiares pela paciência e apoio fundamentais ao longo da
nossa trajetória acadêmica.
PREFÁCIO
A ideia de escrever este livro surgiu de conversas entre os autores

sobre a evolução do estudo de econometria. Muitos métodos
surgiram (ou ressurgiram) nos últimos 30 anos, sempre com o
objetivo de identificar o efeito causal de uma variável econômica
sobre outra. A expressão em latim ceteris paribus resume o que os
econometristas buscam atingir no uso de modelos aplicados. A ideia
de obter causalidade nada mais é do que encontrar o efeito de
causa a relação (efeito puro) entre duas variáveis econômicas. O
exemplo mais utilizado nos livros-texto e manuais de econometria
busca explicar o efeito da educação ou nível de escolaridade) sobre
os retornos salariais dos indivíduos (produtividade marginal do
trabalho ou salários). Nesse caso, o efeito causal de educação no
retorno salarial do indivíduo considera que, se compararmos dois
indivíduos iguais (com as mesmas características, tais como idade,
setor de atuação no trabalho, anos de experiência profissional,
sociabilidade, habilidades de comunicação, características
familiares, características físicas e background escolar, entre outras
variáveis) que diferem apenas no nível de escolaridade, o efeito da
educação no salário é refletido na diferença de salários observada
entre os indivíduos. Nesse sentido, falar em causalidade é entender
a relação entre duas variáveis condicionando todas as demais
variáveis econômicas que explicam o retorno salarial. Esse é um
dos motivos pelos quais a econometria se utiliza do instrumental
estatístico. Como os modelos econômicos utilizam uma amostra de
variáveis econômicas (ou uma sequência de variáveis aleatórias),
conceitos como distribuição de probabilidade de variáveis aleatórias,
probabilidades condicionais e esperança condicional são
fundamentais para encontrar estimativas para os efeitos
pretendidos.
Voltando ao nosso exemplo inicial: estudo do efeito da educação
sobre o retorno salarial dos indivíduos. Como separar o efeito de
cada ano a mais de escolaridade nos resultados futuros dos
indivíduos? A resposta para essa pergunta não é tão óbvia de se
responder. Isto porque envolve a separação do que é um ano a mais
de educação de outros fatores (outras variáveis) que influenciam a
educação e o retorno financeiro dos indivíduos. Um desses fatores é
o que chamamos de “habilidade cognitiva” dos indivíduos. Como se
espera que a habilidade seja positivamente relacionada com a
escolaridade dos indivíduos, pois indivíduos mais hábeis adquirem
mais educação do que indivíduos menos hábeis, é importante
separar esses dois efeitos ao se analisar o impacto da educação
puramente nos retornos futuros dos indivíduos (e, portanto,
obtermos o efeito causal).
Nesse sentido, veremos neste livro uma série de ferramentas
que podem ser aplicadas para o estudo rigoroso dos efeitos
pretendidos. Destacamos que as principais ferramentas utilizadas
na pesquisa empírica dependem da interpretação do pesquisador e
da disponibilidade de dados para sua aplicação, como a técnica de
experimentação aleatória (ou randomização).
Considerada a regra de ouro da avaliação dos efeitos causais, a
experimentação aleatória em economia surgiu entre os anos 1910 e
1920 na análise dos efeitos da aplicação de fertilizantes na
produtividade das culturas agrícolas. Para analisar o efeito da
adoção de fertilizantes sobre a produção agrícola devemos
comparar áreas agriculturáveis que possuem as mesmas
características (isto é, controlamos pelo tipo de solo, pelo uso de
insumos – homens-hora de trabalho, máquinas e tratores, adubação
– e pelo clima da região, entre outros fatores que influenciam tanto a
produtividade agrícola quanto o uso da técnica) tal que a única
diferença entre elas seja o uso ou não de fertilizante. Por exemplo,
se em uma dessas áreas iguais é utilizado determinado fertilizante e
na outra não, o diferencial de produtividade observado (produção
por trabalhador, por exemplo) é dado única e exclusivamente pelo
uso do fertilizante. Assim, é possível analisar o valor que esse
insumo agrega à produção e compará-lo com o seu custo (análise
de custo benefício). Se a diferença for positiva, o produtor rural pode
optar pelo uso do fertilizante.1
Durante muitos anos, experimentos aleatórios foram
desconsiderados nas ciências sociais devido aos seus altos custos
e às questões éticas envolvidas em sua operacionalização. A
aplicação dessa ferramenta deve ser feita com muito cuidado para
que efeitos não desejáveis não se confundam com a avaliação de
impacto pretendida. Na impossibilidade, portanto, do uso de
experimentação aleatória, surgem também técnicas aplicáveis a
dados quase experimentais, ou os chamados experimentos naturais.
Para a aplicação desta ferramenta, devemos encontrar situações
particulares dos dados que permitam a exploração de variações
exógenas ao problema em questão. Exemplos comuns na análise
de dados quase experimentais são o uso de mudanças na
legislação, ou os estudos comparativos de irmãos gêmeos, ou ainda
os estudos relacionados com as mudanças no clima. Nesses casos,
utilizam-se as variações exógenas advindas de tais alterações para
observar o impacto causado na variável pretendida.
No caso do efeito da educação sobre os retornos futuros dos
indivíduos, poderiam ser utilizadas, por exemplo, mudanças na
legislação educacional que alterassem exogenamente um ano de
escolaridade no ensino básico (lei que aumente os anos de estudos
obrigatórios, ou legislação sobre entrada na escola vinculada à data
de nascimento). Nesses casos, a variação de anos de escolaridade
dos indivíduos é decorrente da variação proposta pela legislação,
separando-se dos efeitos de um ano a mais de escolaridade nas
habilidades cognitivas dos indivíduos. No entanto, tais alterações
exógenas também são de difícil observação no mundo real. Neste
caso, podemos recorrer à análise clássica de regressão para
controlar esses efeitos usando variáveis observadas. Esta última
técnica exige grande esforço dos pesquisadores e disponibilidade
de dados. Apresentaremos e discutiremos as vantagens e
desvantagens de cada uma dessas técnicas ao longo dos capítulos
deste livro. Os métodos estudados neste livro serão: o estimador de
Mínimos Quadrados Ordinários (MQO) e suas extensões; o
estimador de Máxima Verossimilhança (EMV); e os estimadores de
Método dos Momentos (MM). Cada um desses métodos pode ser
aplicado, a depender das hipóteses consideradas da estimação.
1 Não estamos considerando os potenciais efeitos nocivos de alguns tipos

de fertilizantes na saúde humana. Nessa análise simplificada,
consideramos que o fertilizante não possui qualquer outro efeito que não
o aumento da produtividade.
SUMÁRIO
Agradecimentos
Prefácio
1 Da Estatística para a Econometria

1.1 Introdução
1.2 Revisão de Estatística
1.2.4 Breve Revisão das Distribuições de Probabilidade
1.3 Relação entre Variáveis Aleatórias
1.4 Considerações Sobre o Capítulo
1.5 Exercícios
Apêndice 1.A A Revisão de Estatística Básica
1. A.1 Propriedades dos Momentos da Distribuição
1. A.2 Inferência Estatística
2 Efeitos Causais em Economia

2.1 Introdução
2.2 Análise Econômica Empírica
2.2.2 Abordagem de equações reduzidas usando dados experimentais
2.2.3 Abordagem de equações reduzidas usando dados observados
2.4 Exercícios
3 Tipos De Dados Secundários no Brasil

3.1 Estrutura de Dados
3.2 Bases de Dados Brasileiras
3.2.1 Pesquisa Nacional por Amostra de Domicílios (PNAD) – Anual
3.2.2 Suplementos da PNAD
3.2.12 Prova Brasil
3.2.13 Cadastro Nacional de Estabelecimentos de Saúde (CNES)
3.2.14 Sistema de Informação da Atenção Básica (SIAB)
3.2.16 Sistema de Informações Hospitalares do SUS (SIHSUS)
3.2.17 Sistema de Informações de Nascidos Vivos (SINASC)
3.2.22 Cadastro Geral de Empregados e Desempregados (CAGED)
3.2.24 Sistema Gerenciador de Séries Temporais (SGS) do Banco Central
3.3 Exercícios
4 Modelo de Regressão Linear Simples

4.1 Introdução
4.2 Estimação do Modelo de Regressão Simples
4.2.2 Estimador pelo Método dos Mínimos Quadrados Ordinários (MQO)
4.2.3 Estimador pelo Método de Máxima Verossimilhança (MV)
4.3 Grau de Ajuste da Regressão
4.5 Modelo de Regressão Simples sem intercepto
4.7 Exercícios
Apêndice 4.A
5 Modelo de Regressão Linear Múltipla

5.1 Introdução
5.2 Métodos de Estimação
5.2.2. Estimador pelo Método dos Mínimos Quadrados Ordinários (MQO)
5.3 Álgebra de Somatório para os Estimadores de MQO
5.5 Comparação entre a Regressão Linear Simples e Múltipla
5.6 Eficiência dos Estimadores de MQO e Gauss-Markov
−
5.7 Relação entre o R2 E O R 2
5.9 Exercícios
6 Especificações dos Modelos de Regressão

6.1 Mudanças nas Unidades de Medida das Variáveis
6.2 Não Linearidades na Relação entre Y e X
Previsão quando a variável dependente está em log
6.3 Variáveis Binárias (Dummy)
6.4 Exercícios
Apêndice 6.A Padronização de Variáveis
7 Inferência Estatística
7.1 Breve Revisão
7.2 Distribuição dos Estimadores para Amostras Finitas
7.3 Distribuição dos Estimadores para Grandes Amostras
7.4 Teste de Hipóteses Individuais
−
7.4.8 Uso do R 2 para escolher entre modelos
7.5 Teste de Múltiplas Hipóteses
−
7.5.5 Relação entre R 2 e a estatística t
7.7 Exercícios
Apêndice 7.A Breve Revisão do Teorema do Limite Central
7. A.1 Propriedades Assintóticas: Teorema da Normalidade Assintótica
7.A.2 Breve Revisão de Teste de Hipóteses
7.A.3 Tabelas de Distribuições Conhecidas
8 Heterocedasticidade e Autocorrelação
8.1 Correção do Estimador da Variância
8.2 Testes para Detecção de Heterocedasticidade e Autocorrelação
8.3 Estimadores Alternativos ao MQO
8.4 Exercícios
9 Endogeneidade e Variáveis Instrumentais

9.1 Omissão de Variáveis Relevantes
9.1.2 Uso de variáveis instrumentais na regressão simples
9.1.3 Uso de variáveis instrumentais na regressão múltipla
9.2 Erro de Medida nas Variáveis Explicativas
9.3 Problema de Simultaneidade
9.5 Exercícios
Apêndice 9.A Normalidade Assintótica do Estimador de Variáveis Instrumentais
para a Regressão Simples
10 Métodos para Dados em Painel

10.1 Dados em Cortes Transversais Agrupados
10.2 Dados em Painel
10.3 Exercícios
11 Variáveis Dependentes Limitadas

11.1 Modelos de Variável Dependente Binária
11.2 Modelos de Variável Dependente em Proporção
11.3 Modelos de Variável Dependente Censurada
11.4 Modelo de Seleção Amostral
11.6 Exercícios
12 Avaliação de Impacto: Tópicos Avançados

12.1 Efeito Causal e Mecanismo de Seleção
12.2 Tipos de Efeitos de Tratamento
12.3 Seleção em Observáveis: Análise de Regressão
12.4 Análise Usando Propensity Score
12.5 Método de Diferenças em Diferenças (DD)
12.6 Método de Controle Sintético
Comparação: Controle sintético vs Diferenças em diferenças
12.7 Método de Variáveis Instrumentais
12.8 Regressão Descontínua
Sharp RD
12.10 Exercícios
Referências
1
DA ESTATÍSTICA PARA A
ECONOMETRIA
E
ste capítulo apresenta os principais conceitos de estatística
que usaremos no estudo de relações econômicas com o
uso de econometria. Isso porque uma amostra de dados
pode ser vista como uma sequência de variáveis aleatórias.
Assim, precisamos entender as características das variáveis
aleatórias e como relacioná-las para caracterizar comportamentos
de interesse.
1.1 INTRODUÇÃO
A disciplina de Econometria antigamente era chamada de Estatística
Econômica. A disciplina surgiu da evolução dos métodos de
estimação e das formas de análise e acabou contribuindo
fortemente para o desenvolvimento de outros ramos da estatística.
Em linhas gerais, a Econometria é considerada a junção de três
disciplinas: a economia (que fundamenta as relações que se deseja
analisar); a matemática (que formaliza as relações econômicas na
forma de funções); e a estatística (que possibilita a inferência das
relações de interesse a partir do uso de amostras de dados). Ou
seja, a Econometria é uma disciplina baseada no desenvolvimento
de métodos estatísticos para estimar relações econômicas. Para tal,
é necessário que se tenha uma amostra de dados (de preferência,
uma amostra representativa de uma população de interesse) que
permita encontrar estimadores/estimativas sobre as relações
econômicas dessa população. O mais comum é que obtenhamos
amostras de dados econômicos, as quais chamamos de não
experimentais (ou amostra de dados observados).
Uma amostra de dados é um subconjunto de dados de uma
população de interesse. As amostras de dados observados em geral
são coletadas por meio de pesquisas de campo, surveys e bases
administrativas. No Brasil, há diversas instituições que coletam
bases de dados, como o Instituto Brasileiro de Geografia e
Estatística (IBGE), a Fundação Seade (SEADE), a Fundação
Instituto de Pesquisas Econômicas (FIPE), o Instituto de Pesquisas
Econômicas Aplicadas (IPEA), a Fundação Getulio Vargas (FGV),
entre muitas outras. O IBGE, por exemplo, realiza frequentemente
pesquisas domiciliares para o levantamento dos índices oficiais de
inflação, da taxa de desemprego e de diversos outros indicadores
oficiais da economia brasileira.
Já amostras de dados experimentais são aquelas coletadas a
partir do desenho de um experimento (por exemplo, experimentos
desenhados para se testar a eficácia de um novo medicamento).
Esses dados também são conhecidos como dados de laboratório.
Na análise da eficácia de um medicamento, é desenhado um
experimento no qual um grupo de pessoas, escolhido
aleatoriamente, recebe o medicamento verdadeiro (conhecido por
grupo de tratamento) e outro grupo, também escolhido de forma
aleatória, recebe o placebo1 (conhecido por grupo de controle). Em
economia, os experimentos são considerados experimentos sociais,
existindo, portanto, questões éticas envolvidas na distribuição
aleatória do tratamento.2 Veremos como analisar dados
experimentais nos capítulos seguintes.
Assim, mesmo a partir de estratégias de análise diferentes que
dependem do tipo de base de dados, a Econometria é considerada
uma importante ferramenta da Economia, que pode ser usada para
encontrar relações de causalidade entre variáveis. Entre os usos da
ferramenta, destacamos:
1. Avaliar o impacto de políticas públicas (efeito de políticas
educacionais como o bônus para professores das escolas
públicas sobre o desempenho dos alunos; efeito do
recebimento de royalties do petróleo sobre o desenvolvimento
econômico dos municípios ou estados).
2. Avaliar o efeito de programas implementados em empresas
(efeito de treinamentos na produtividade dos trabalhadores, ou
de um tipo de estratégia de marketing nas vendas do produto).
3. Testar relações teóricas em economia (testar valores das
elasticidades preço de bens e serviços para verificar o efeito
de aumento de um imposto sobre o bem-estar das famílias, ou
para testar a intensidade da relação entre desemprego e
inflação).
4. Projetar variáveis econômicas (como a taxa de inflação da
economia, com o objetivo de planejar investimentos de médio
e longo prazos, ou os preços das ações de empresas, para
tomar decisões de venda ou compra de ativos), entre outros
usos.
Ao utilizar uma amostra de dados observados para testar as
relações de interesse, precisamos analisar uma coleção de variáveis
econômicas, ou variáveis econômicas aleatórias. Isso porque cada
valor da variável observada (cada indivíduo da amostra) é
considerado uma realização de uma variável aleatória, por isso
dizemos que temos uma coleção (ou sequência) de variáveis
aleatórias.
Variável aleatória. Uma variável aleatória (v.a.) é uma variável

que assume valores numéricos e é resultado de um experimento.
Em linguagem matemática, uma v.a. é uma função X que leva um
Ω (espaço amostral, ou conjunto de todos os resultados possíveis
de um experimento) ao espaço do ℜ (conjunto dos números
reais).
X:Ω→ℜ
Um dos exemplos mais conhecidos de variável aleatória é uma

variável X que assume valor 1, quando o resultado de se jogar uma
moeda é “Cara”, e valor 0, quando o resultado for “Coroa”. Se a
moeda é não viciada, a probabilidade por trás dos eventos “Cara” e
“Coroa” é igual a 0,5. Lembre-se que a variável aleatória é a que
assume os valores reais como resultado de um experimento. Neste
caso, a variável assume dois possíveis resultados reais: 0 ou 1.
Diversas questões do nosso dia a dia lidam com elementos de
aleatoriedade/probabilidade.
Probabilidade e suas propriedades. Probabilidade é o ramo da

Matemática destinado a estudar fenômenos aleatórios. Sendo A e
B eventos de interesse, temos as seguintes relações importantes:
• Teorema de Bayes:
• Probabilidade da União:
• , para variáveis aleatórias (X) discretas
• , para variáveis aleatórias (X) contínuas
Assim, a Econometria é uma ferramenta para analisar a relação

de causalidades entre variáveis econômicas aleatórias. Em geral,
especificamos uma hipótese sobre esta relação entre as variáveis e
usamos uma amostra de dados para testá-las. Vamos verificar como
encontraremos boas estimativas dessas relações para testá-las,
mas antes é preciso fazer uma revisão de outros conceitos
importantes de estatística básica, os quais usaremos ao longo de
todos os capítulos.
1.2 REVISÃO DE ESTATÍSTICA
Nos cursos de estatística básica, um dos objetivos é estimar o valor
de um parâmetro populacional importante, como o rendimento
médio dos trabalhadores brasileiros em determinado ano (por
exemplo: μ). Assim, se X é a variável aleatória do rendimento de
todos os trabalhadores do Brasil no período em questão, estamos
interessados no primeiro momento da distribuição de X, ou seja E
[X] = μ. Em geral, os momentos da distribuição de uma variável são
parâmetros de interesse, como a esperança matemática e a
variância da distribuição de probabilidades de uma variável (que são
chamados de momentos da distribuição), ou a covariância e
correlação entre duas variáveis aleatórias:3
Esperança matemática (Primeiro Momento da Distribuição).

Média ponderada de todos os resultados possíveis de uma v.a. Os
pesos aqui são as probabilidades de ocorrência dos resultados:
, para variáveis aleatórias (X) discretas; e
, para variáveis aleatórias (X) contínuas.
Variância e desvio-padrão (Segundo Momento Centrado da

Distribuição). Desvio quadrático médio de todas as observações
em relação à média. É uma medida de dispersão.
, para variáveis aleatórias (X) discretas; e
, para variáveis aleatórias (X) contínuas.

Outra expressão bastante usual para a variância de uma variável
aleatória é:
A partir da variância, podemos calcular o desvio-padrão, cuja
unidade de medida é a mesma da variável X:
Covariância. Medida do grau de dependência linear entre duas

v.a. (X, Y):
A covariância assume valores dentro do conjunto dos reais. Seu

valor é sensível às unidades de medida de x e y.
Correlação. Medida da força e direção da dependência linear

entre duas v.a ( X , Y ):
O índice de correlação assume valores dentro do intervalo [–1, 1].
Voltemos, então, para nosso problema de interesse, que é

estimar o rendimento médio dos trabalhadores brasileiros. Como
não observamos o rendimento de todos os brasileiros, é preciso
encontrar formas de se aproximar, ou estimar, esse valor. Para isso,
precisamos de uma amostra de dados representativa para a
população brasileira. Uma amostra representativa é caracterizada
por um subconjunto de dados da população que permite que
façamos inferência sobre os parâmetros desconhecidos da
população (chamados de populacionais, ou verdadeiros) usando
estimadores (calculados com base na amostra).
Amostra. Subconjunto de uma população com N observações, a
qual denotaremos por {X1, X2, ..., XN}, para a variável aleatória X.
QUADRO 1.1
Exemplo de amostra de dados sobre os trabalhadores
brasileiros
Estamos interessados em analisar o rendimento médio dos brasileiros.
Temos uma amostra de N = 4 indivíduos (os quais indexaremos por i
tal que i = 1,2,3,4) e uma variável aleatória (X = Rendimento), que
observamos para todos os indivíduos (Xi):
Indivíduo (i) Rendimento, em R$ por mês (Xi)
1 2.500
2 8.200
3 1.300
4 900
Se temos uma amostra aleatória com N observações: {X1, X2, ...,

XN}, cada Xi é uma variável aleatória com mesma distribuição de
probabilidades de X e independente das demais observações (isto
é, são v.a. i.i.d.4).
No nosso exemplo, estamos interessados no rendimento médio
verdadeiro da população, o qual denotaremos por μ, pois E(X) = μ.
O parâmetro de interesse, μ, é sempre uma constante.
Parâmetro. Característica de interesse da população (não é uma

v.a., mas sim uma constante).
Podemos encontrar estimativas para o rendimento médio
verdadeiro (μ) utilizando a média simples:
Note que x– é uma estatística, pois é uma função de valores da

amostra, mas também é um estimador para a média verdadeira, o
parâmetro de interesse μ.
Estatística. Função de valores da amostra, f (X1, ... Nx). Note que

a função não depende de parâmetros desconhecidos, apenas das
observações da amostra.
Estimador. É uma estatística (i.e., é uma função de valores da

amostra) construída a partir de informações da amostra para
estimar um parâmetro de interesse. Vale ressaltar que a função do
estimador não depende de nenhum parâmetro desconhecido.
Outros exemplos de estimadores:

1. Estimador da variância populacional verdadeira de X, :
2. Estimador da covariância populacional entre X e Y, σXY :
3. Estimador da correlação populacional entre X e Y, ρXY :

A partir de agora vamos representar o estimador de um parâmetro θ
por (que neste caso chamaremos de “teta chapéu”). Um estimador
deve apresentar propriedades desejáveis para ser um estimador
utilizável, ou para representar uma relação causal entre variáveis
econômicas. As propriedades dos estimadores se dividem em dois
grupos: propriedades de amostras finitas (ou de pequenas
amostras); e propriedades assintóticas (de amostras infinitas, ou de
grandes amostras).

As propriedades de pequenas amostras, ou de amostras finitas, são
válidas para amostras com qualquer número de observações. Veja
que, como elas são válidas para pequenas amostras, logicamente
serão válidas também para grandes amostras.
Como o estimador é uma função de valores da amostra e,
portanto, uma função de variáveis aleatórias, o estimador também é
uma variável aleatória. As boas propriedades do estimador referem-
se a duas características básicas da distribuição para amostra finita
de um estimador: esperança (primeiro momento da distribuição); e
variância (segundo momento centrado da distribuição).
Propriedade de não viés. Um estimador é não viesado (ou não

tendencioso, ou não viciado) para θ se
E( ) = θ
Em palavras, a esperança do estimador (primeiro momento da

distribuição) é igual ao parâmetro a ser estimado.
Qual é o significado prático dessa propriedade? Significa que se
calculássemos ̂ para infinitas amostras, o valor esperado de seria
igual ao valor verdadeiro do parâmetro, θ. Pode ser que nenhum
dos valores da distribuição de probabilidades de seja igual a θ,
mas a média da distribuição amostral de é igual ao verdadeiro
valor do parâmetro (θ).
Exemplos de estimadores não viesados:
E (x–) = μ
E (S2) = σ2
Propriedade da eficiência. Um estimador é eficiente se for não

viesado e possuir a menor variância entre todos os estimadores
não viesados ( ).
Note que um estimador só será eficiente se, e somente se, ele

for não viesado. A propriedade da eficiência diz que o estimador,
além de atingir o parâmetro verdadeiro na média (pois é não
viesado), também o faz com a melhor precisão entre todos os
estimadores. Assim, suponha V( ) < V( ), onde é não viesado e é
qualquer outro estimador não viesado. Quando isso ocorre, dizemos
que o estimador é eficiente, ou seja, possui menor dispersão
dentre os demais estimadores não viesados.

Além das propriedades de pequenas amostras, podemos analisar o
que ocorre com o estimador quando o tamanho da amostra cresce
indefinidamente. Chamamos tais propriedades de assintóticas.
Propriedade da consistência. Seja N um estimador de θ em

uma amostra {X1, X2, ..., XN}. N será consistente para θ se
A expressão anterior mostra que a distribuição amostral de
probabilidade do estimador N se concentra cada vez mais em torno
de θ, conforme N cresce (vai para infinito). Outra forma de
enunciarmos esta convergência é utilizando a definição de limite de
probabilidade (plim5):
que se refere ao seguinte limite:
A consistência é a única propriedade que se baseia na

distribuição degenerada, ou seja, ela ocorre quando a distribuição
de colapsa para o verdadeiro valor do parâmetro, θ.
Outra forma de se pensar na consistência do estimador é por
meio do Erro Quadrático Médio6, EQM( ), quando N tende para
infinito. Se , o é um estimador consistente, pois a
distribuição amostral colapsou em cima do verdadeiro valor do
parâmetro com viés e variância tendendo para o zero.
Propriedade da eficiência assintótica. é um estimador

assintoticamente eficiente de θ, se as seguintes condições forem
satisfeitas:
• tem distribuição assintótica com média e variância finitas;
• é consistente;
• nenhum outro estimador consistente de θ tem variância
assintótica menor que a variância assintótica de .
A eficiência assintótica só pode ser definida quando se conhece
a forma da distribuição que gerou os dados. O que se observa,
então, é que eficiência implica em eficiência assintótica, mas o
reverso não é verdade.
Propriedade da normalidade assintótica. Seja { 1, ... , n} uma

sequência de variáveis aleatórias de modo que:
em que Φ(x) é a função densidade acumulada da distribuição

Normal Padrão, N (0,1). Dizemos então que n tem distribuição N
(0,1) assintótica (ou que n converge em distribuição para uma (N
(0,1)), i.e., N (0,1).
A normalidade assintótica do estimador deriva da aplicação do

Teorema do Limite Central (TLC). Esse teorema garante que,
quando o tamanho da amostra cresce, a distribuição assintótica do
estimador será aproximadamente normal. Então, para qualquer que
seja a distribuição que tenha gerado os dados amostrais, sabemos
sob algumas hipóteses que o estimador convergirá para a
distribuição normal, sendo esta a distribuição assintótica do
estimador. Essa propriedade é bastante importante para fazermos
inferência sobre os parâmetros de interesse.

O nosso objetivo é encontrar bons estimadores para os parâmetros
populacionais desconhecidos. Como vimos, para que estes
estimadores sejam bons, eles devem apresentar propriedades
desejáveis. Tendo definido as propriedades desejáveis do estimador,
como o não viés e a eficiência, por exemplo, surge o problema de
formulação do estimador. Para tal, podemos recorrer a vários
métodos de estimação. Cada método de estimação usa um conceito
ou princípio básico intuitivo e simples para sua formulação.
Esperamos que estes métodos apresentem todas ou pelo menos
algumas das propriedades desejáveis.
Veremos neste livro três métodos bastante utilizados:

1. Método dos Momentos (MM).
2. Método de Mínimos Quadrados (MQ).
3. Método de Máxima Verossimilhança (MV).
Todos estes métodos incorporam princípios refletidos nos

próprios nomes. Outra maneira de se propor estimadores é construí-
los incorporando as propriedades desejáveis.7 Neste capítulo,
vamos rever os três métodos mencionados para encontrar um bom
estimador para a média populacional (μ) de uma variável aleatória
X.

Esse método é provavelmente o mais antigo método de estimação
conhecido na estatística. O termo “momento populacional” foi usado
pela primeira vez em estatística por Adolphe Quetelet, um belga que
viveu de 1796 a 1874, inspirado no conceito de momento da física.8
Foi Karl Pearson (1883, 1884, 1885), no entanto, quem primeiro
utilizou o conceito de momento populacional e sua contrapartida
amostral como base para o método de estimação que se tornou
conhecido como “método dos momentos”.9
Esse método utiliza o conhecimento que temos sobre os
momentos populacionais da distribuição de interesse – E (X), por
exemplo, que é o primeiro momento da distribuição da v.a. X – para
encontrar o momento amostral da variável. Foi exatamente o que
fizemos quando consideramos a média simples da amostra como
um estimador da média populacional.
Suponha uma amostra de dados {X1, X2, ..., XN}. Como sabemos
que E [X] = μ, podemos usar o momento amostral (média amostral,
ou equivalente amostral) para encontrar o estimador para a média
verdadeira:
Momento Populacional: E [X] = μ.
Momento Amostral:
Assim, dizemos que MM é o estimador pelo Método dos

Momentos (MM) para μ. Lembre-se que usamos o “chapéu” sobre o
parâmetro de interesse para denotar o estimador para aquele
parâmetro.
O estimador obtido pelo método dos momentos é um estimador,
em geral, consistente e assintoticamente normal.10 Ele pode,
também, apresentar outras propriedades desejáveis, além da
consistência. Note que o método dos momentos não pode ser
aplicado quando o momento populacional não existe. Também, sob
certas circunstâncias, pode ocorrer que o método leve a diferentes
estimadores para o mesmo parâmetro.
Vimos que o estimador pelo MM da média populacional é dado
por . O estimador MM da variância populacional de X
é dado pela sua contrapartida amostral:
Como o método é bastante intuitivo, Pearson (1895) conseguiu

realizar a análise de várias distribuições à época. Mas o seu
estimador também possui limitações. Por exemplo, os momentos de
ordem mais elevada de uma variável com distribuição normal
dependem de σ2 e μ, logo a mesma técnica tem que ser aplicada
aos dois primeiros momentos da distribuição para estimar
momentos de maior ordem.11. Mas, os estimadores assim obtidos
são diferentes dos obtidos anteriormente, onde os dois primeiros
momentos da distribuição foram usados. Surge então a dúvida
sobre qual estimador usar. Essa questão é difícil de ser respondida
dentro do arcabouço do método dos momentos. Como veremos a
seguir, foi exatamente essa questão que levou Ronald Fisher, um
grande estatístico do século XX, a desenvolver um método de
estimação que não sofria desse problema. Este método é conhecido
como Método de Máxima Verossimilhança.12

O estimador de Máxima Verossimilhança (MV), desenvolvido por
Ronald Fisher,13 se baseia em uma ideia bem simples: populações
diferentes geram amostras diferentes e é mais provável que
determinada amostra tenha vindo de uma determinada população
do que de outras.
Para encontrar estimadores pelo Método de Máxima
Verossimilhança, precisamos conhecer a distribuição de
probabilidades da v.a. X (ao contrário do método dos momentos,
que necessita apenas do conhecimento dos momentos da
distribuição da variável de interesse).14 Por exigir o conhecimento
de toda a distribuição de probabilidade, esse método é chamado de
método de informação completa (full information).
O objetivo da estimação do parâmetro pelo Método de Máxima
Verossimilhança é encontrar os valores dos parâmetros que
maximizem a probabilidade dos dados observados (ou seja, a
probabilidade da amostra) terem sido gerados pela distribuição
especificada. Em outras palavras, o método consiste em encontrar
estimadores para os parâmetros que maximizem a função de
probabilidade conjunta da amostra, conhecida por função de
verossimilhança. De forma ilustrativa, imagine que a amostra tem
um DNA e o Método de Máxima Verossimilhança identifica de qual
população este DNA é proveniente a partir de informações
conhecidas da população.
Veremos como derivar os seus estimadores para o exemplo em
que a distribuição de probabilidade da nossa variável de interesse
seja uma normal.
Suponha uma amostra aleatória de dados {X1, X2, ..., XN}.
Suponha, também, que X tenha uma distribuição Normal, X ~ N (μ,
σ2), com função densidade de probabilidade f (X) conhecida. Assim,
cada observação da amostra, Xi, é também uma v.a. com
distribuição normal (Xi ~ N (μ, σ2)) e, portanto, com função
densidade de probabilidade conhecida e igual a f (Xi). Como a
amostra é aleatória, as observações de X são independentes e
identicamente distribuídas (i.i.d.), de forma que a função de
probabilidade conjunta da amostra, f (X1, ..., XN), pode ser escrita
pelo produtório das funções de probabilidade de cada observação:
Note que a função densidade de probabilidade da amostra

depende dos valores da amostra e é definida condicionalmente aos
parâmetros verdadeiros. A função de verossimilhança é a função
densidade de probabilidade conjunta da amostra, porém condicional
aos valores da amostra. Podemos escrevê-la da seguinte forma:15
Os estimadores de Máxima Verossimilhança (MV) são os valores

dos parâmetros ( ) que maximizam a função de
verossimilhança para essa amostra:
Podemos, também, escrever o problema de maximização

utilizando o logaritmo neperiano (ln) da função de verossimilhança
(a função transformada é conhecida por função log-
verossimilhança):16
No nosso exemplo, para a distribuição normal, a log-

verossimilhança será:
Resolvendo o problema de maximização, temos a Condição de

Primeira Ordem (C.P.O.) para μ:
A Condição de Primeira Ordem (C.P.O.) para σ2 pode ser

descrita assim:
Para que sejam pontos de máximo, as Condições de
Segunda Ordem (C.S.O.) do problema de maximização devem ser
atendidas. As C.S.O., sejam elas estabelecidas em termos dos
menores principais do determinante do hessiano, ou nas raízes
características da matriz hessiana (matriz das segundas derivadas
da função log-verossimilhança com relação às incógnitas), têm o
objetivo de verificar se o ponto estacionário obtido está no pico de
uma função côncava para baixo (para soluções de maximização) ou
se está no fundo de uma função côncava para cima (para soluções
de minimização). Se a função for estritamente côncava, dizemos
que o ponto estacionário encontrado é o máximo absoluto ou
mínimo absoluto (sem nenhuma porção horizontal) e a matriz
hessiana é negativa ou positiva definida.17

As primeiras ideias do estimador de MQ remontam aos gregos e
egípcios (na Antiguidade) e aos árabes (na Idade Média), mas foi
Galileo Galilei (1632) quem primeiro usou a noção de minimização
de erros de medida ao estimar a distância de uma nova estrela com
relação à terra com base em dados de dois observatórios. Isso
porque, dependendo da época do ano, os observatórios mediam um
ângulo diferente entre a estrela e o plano horizontal na terra. Assim,
ele obteve 74 observações sobre este ângulo e minimizou os erros
de observação para obter uma estimativa mais precisa da
distância.18 Entretanto, Andres Marie Legendre, matemático francês,
foi quem primeiro publicou artigo descrevendo o método em 1805.
Andres foi contestado por Carl Friedrich Gauss,19 matemático
alemão, que disse já ter descoberto o método de mínimos
quadrados em 1795, à semelhança de Galilei, para estimar a órbita
percorrida por um asteroide.20
O Método de Estimação por Mínimos Quadrados é adequado
para se estimar momentos em torno do zero de uma distribuição.
Para explicá-lo, considere uma v. a. X. O seu r-ésimo momento em
torno de zero seria E (Xr) – μr = 0, para r = 1,2,3,... (para o primeiro
momento da distribuição, temos que E (X) = μ, logo E (X) – μ = 0).
Supondo que possuímos uma amostra aleatória {X1, X2, ..., Xn},
podemos calcular o “erro” de cada observação com base no desvio
com relação ao parâmetro verdadeiro. Para o primeiro momento da
distribuição, teríamos:
erroi = Xi – μ para todo i = 1, ... , n
A ideia do estimador de Mínimos Quadrados, neste caso, é

encontrar o valor de μ tal que a soma dos erros seja a menor
possível ( ). No entanto, como podemos ter erros positivos e
negativos, a soma dos erros pode ser nula quando, na verdade,
temos muitas observações com desvios positivos e negativos.
Assim, o estimador de Mínimos Quadrados propõe que
consideremos o mesmo sinal para os erros, elevando-os, portanto,
ao quadrado e, portanto, penalizando maiores desvios com relação
à média. Assim, o estimador para μ é o valor do parâmetro tal que a
soma dos quadrados dos erros seja a menor possível:
O princípio de MQ nos leva a um problema de minimização de

uma função objetivo, que é uma soma de quadrados dos erros.
Basta, portanto, derivar a soma de quadrados com relação a μ e
igualar a zero (Condição de Primeira Ordem). A condição suficiente
consiste em tomarmos a segunda derivada com relação a μ. Se a
segunda derivada for positiva, significa que o ponto estacionário
obtido pela condição de primeira ordem é um ponto de mínimo e
MQ minimiza a soma de quadrados dos erros. No caso em que
estamos ilustrando, temos o seguinte resultado da condição de
primeira ordem:
Note que este estimador é exatamente igual ao estimador obtido

pelo Método dos Momentos para a média populacional, ou seja, é a
média amostral simples. Consequentemente, apresenta as mesmas
propriedades desejáveis apresentadas pelo estimador do Método
dos Momentos.
Outro exemplo seria o estimador do segundo momento da
amostra (μ2): E (X2) = μ2. O estimador de MQ é obtido aplicando-se
o princípio de MQ, ou seja, minimizamos a seguinte soma de
quadrados com relação a:
Tomando a primeira derivada dessa soma de quadrados com

relação μ2 e igualando a zero, obtemos a seguinte C.P.O.:
Resolvendo a equação anterior para 2, obtém-se o seguinte

valor do ponto de mínimo, que é o estimador de MQ de μ2:
As propriedades de MQ têm que ser estabelecidas para cada
estimador. Nos dois exemplos, os estimadores de MQ para os dois
momentos populacionais discutidos são iguais àqueles do MM, logo
eles apresentam a propriedade de consistência, já que o estimador
de MM é consistente. Isso pode não acontecer em modelos mais
complicados. Em análises econométricas, busca-se estabelecer a
relação causal entre variáveis econômicas e o fato de o estimador
usado deixar de ser consistente leva a dificuldades em se
estabelecer relação de causalidade entre essas variáveis, que é a
grande motivação da análise econométrica.
1.2.4 Breve Revisão das Distribuições de Probabilidade

Vimos que a definição da distribuição de probabilidades da nossa
variável de interesse é importante para encontrarmos os
estimadores de Máxima Verossimilhança para os parâmetros da
distribuição. Entender a distribuição de probabilidades da variável
também é importante para derivarmos a distribuição de
probabilidades do nosso estimador, que é uma variável aleatória.
As distribuições de probabilidades fornecem a probabilidade de
as variáveis aleatórias assumirem certos valores, sejam elas
variáveis discretas ou contínuas. Para v.a. discretas, falaremos em
“probabilidade” ou “probabilidade acumulada”. Para v.a. contínuas,
falaremos em “funções de densidade de probabilidade (fdp)” e
“funções de densidade acumulada (fda)”.
Veja alguns exemplos de distribuições de probabilidade comuns
para v.a. discretas são:
1. Bernoulli: Quando X assume valor 1 com probabilidade de
sucesso (p), e valor 0 com probabilidade de fracasso (1 – p)
X ~ Be (p)
2. Binomial: Quando X contabiliza o número de sucessos em

uma sequência de n experimentos independentes, com
probabilidade de sucesso (p)
X ~ B(n, p)
3. Geométrica: Quando X contabiliza o número de repetições até

o 1º sucesso, com probabilidade p
X ~ G (p)
4. Poisson: Quando X contabiliza o número de ocorrências de

interesse em determinado período, com média de λ ocorrência
X ~ P(λ)
5. Binomial Negativa: Quando X contabiliza o número de

repetições até a obtenção de k sucessos (com probabilidade
p) após n experimentos de Bernoulli
X ~ BN(n, k, p)
Exemplos de distribuições de probabilidade bastante utilizadas

para v.a. contínuas são:
1. Uniforme: Quando a probabilidade de acontecer um fenômeno
de mesmo comprimento é a mesma, ou seja
2. Exponencial: Quando x assume valores positivos tal que
3.
Normal: Quando x assume valores tal que
4. Normal Padrão: Quando x assume valores tal que
5. Lognormal: Quando
6. Qui-quadrado: Quando
7. T-student: Quando :21

1.3 RELAÇÃO ENTRE VARIÁVEIS ALEATÓRIAS
Nosso objetivo em utilizar as ferramentas de econometria é analisar
a relação entre variáveis econômicas (Y e X, por exemplo). Neste
caso, nosso parâmetro de interesse será o parâmetro que define
essa relação. Para tal, precisaremos analisar ambas as variáveis
conjuntamente. Aplicaremos, os conceitos vistos nesse capítulo
considerando as distribuições de probabilidades conjuntas e
condicionais e funções densidades de probabilidade conjuntas e
condicionais fX,Y (x, y) e fY|X (y|x), respectivamente.
Distribuição de probabilidades e função de densidade de

probabilidade condicionais
Variáveis aleatórias contínuas:
Variáveis aleatórias discretas:
Veremos, também, que as relações de interesse podem ser

escritas em função dos momentos da distribuição condicional
(esperança condicional e variância condicional).
Esperança condicional

Variância condicional

Nesta subseção vamos apresentar três conceitos de independência
entre duas variáveis aleatórias para entender sob quais condições
dizemos que ambas são independentes na população bivariada.22
O primeiro conceito é o de independência estocástica (ou
independência estrita). Dizemos que duas v.a. X e Y são
estocasticamente independentes se f (y, x) = f (x) f (y) ∀ (x, y), em
que f (y, x) é a função densidade de probabilidade conjunta e f (x) e f
(y) são as funções densidade de probabilidade marginais de X e Y,
respectivamente. Neste caso, a função de distribuição condicional
de Y|X é a mesma para todos os valores de x, f (y|x) = f (y). Essa
propriedade implica que, se z = h (x) e Y e X são independentes,
então Z e Y serão, também, estocasticamente independentes. De
forma mais geral, se z1 = h1(x) e z2 = h2(y) são funções de x e y,
respectivamente, então Z1 e Z2 serão estocasticamente
independentes.
O segundo conceito que veremos é o de independência na
média condicional. Dizemos que Y é independente na média
condicional de X se a E (Y|X) = μY ∀ x, ou seja, se μY não depende
de x, a esperança condicional é a mesma para todos os valores de
X. Essa propriedade implica que E (Y) = EX (Y|X) = EX (μY). Como a
esperança condicional de Y em X é a mesma para todos os valores
de X, a esperança marginal coincide com a esperança de Y. Outra
implicação importante é que, se Y é independente na média
condicional a X e Z é uma função de X, então Y é independente na
média condicional a Z. Note que a independência na média
condicional é mais fraca que a independência estocástica, pois
podemos, por exemplo, ter duas distribuições de mesma média,
mas com variâncias diferentes, o que inviabilizaria a independência
estocástica. Ademais, o conceito de independência na média não é
simétrico: se E (Y|X) = μY, então E (X|Y) pode ser μX ou não.23
O terceiro conceito de independência é o de não correlação
entre duas variáveis aleatórias, ou o que chamamos de
independência linear. Dizemos que Y é não correlacionado com X
se Cov (X, Y) = 0, sendo essa relação simétrica (também, dizemos
que X é não correlacionado linearmente com Y). Esse conceito de
independência é mais fraco que os demais. Por exemplo, se Y é
independente na média condicional em X, então Y é não
correlacionado com X.24 Outra implicação da média condicional é
que, se Y é independente na média de X e Z é uma função de X,
então Y é não correlacionado com Z.25
1.4 CONSIDERAÇÕES SOBRE O CAPÍTULO
A Econometria é a junção das disciplinas de economia, matemática
e estatística, que permite analisar a relação de causalidade entre
variáveis econômicas aleatórias. Como baseamos o estudo destas
relações em uma coleção de variáveis aleatórias (a partir de dados
observados ou experimentais), precisamos conhecer as
probabilidades para encontrar estimadores para os parâmetros de
interesse e verificar suas propriedades. Neste capítulo
apresentamos um breve resumo de conceitos e métodos
importantes de estimação, que serão utilizados ao longo do livro. No
entanto, é necessário um conhecimento muito mais aprofundado do
que o apresentado aqui. Espera-se que o leitor tenha esse
conhecimento para o estudo dos próximos capítulos.
1.5 EXERCÍCIOS
1. Um levantamento realizado em uma amostra de pessoas adultas

para medir a quantidade de hemoglobina (g/100 ml) existente no
sangue forneceu os seguintes resultados:
13,5 10,6 11,7 12,8 14,9
12,5 15,1 12,9 9,4 12,0
Calcule a média amostral e o erro-padrão.
2. As seguintes funções configuram-se como funções densidade de

probabilidade? Justifique.
a) fX (x) =
b) fX,Y (x, y) =
3. A tabela a seguir fornece a distribuição de probabilidade conjunta

P (X, Y) das variáveis aleatórias X e Y, em que X é a taxa de
retorno (%) do Projeto A e Y do Projeto B:
X
–10 0 20 30
Y 20 0,27 0,08 0,16 0
50 0 0,04 0,10 0,35
a) Calcule a taxa de retorno esperada dos dois projetos: E (X)

e E (Y).
b) Obtenha E (Y|X = 0) e E (Y|X = 30).
c) As taxas de retorno dos dois projetos são independentes?
4. Prove que X e Y são independentes se, e somente se, E (Y|X) =

E (Y).
5. Suponha que X e Y sejam duas variáveis aleatórias. Podemos

definir três formas de independência:
(i) Independência estrita ou estocástica: fX,Y (x, y) = fX (x). fY
(y)
(ii) Independência de média condicional: E (Y|X) = E (Y)
(iii) Independência linear: Cov (X, Y) = 0
Mostre que (i) ⇒ (ii) ⇒ (iii).
6. Demonstre (apenas para variáveis contínuas) a Lei das

Expectativas Iteradas, isto é, Ex [E (X|Y)] = E (X).
7. Seja {X1, X2, ..., Xm} uma amostra aleatória igualmente

distribuída com distribuição binomial de parâmetros n e p, ou
seja, P (X1 = x|n, p) = px (1 – p)n–x e x = 0,1, ..., n. Assumindo
que n e p sejam desconhecidos, encontre estimadores para
ambos os parâmetros usando o Método dos Momentos.
8. (Anpec 2016) Sendo X, Y e Z três variáveis aleatórias, julgue as

proposições a seguir:
(0) E (h(X)|X)] = h(X) para qualquer função h(X)
(1) Para as funções f(Y) e g (Y), temos E[f(Y)X + g (Y)|Y] =
f(Y)X + g (Y)
(2) E (Y|X) = E [E (Y|X,Z)|X]
(3) Se Y e X são independentes e E (Y) = 0, então E (Y|X) = 0
(4) Se E (Y|X) = 0, então E (Y) = 0
9. Seja X uma variável aleatória com a seguinte função densidade
de probabilidade:
Encontre o estimador de Máxima Verossimilhança de α,

baseado numa amostra aleatória de tamanho n.
10. A densidade da velocidade absoluta de uma molécula é dada

pela seguinte função de distribuição de Maxwell
f (x) = , para x > 0 e f (x) = 0, para x ≤ 0,
sendo α uma constante. Se as v.a. i.i.d. X1, X2, ..., Xn têm

distribuição Maxwell, obtenha o estimador de máxima
verossimilhança do parâmetro α.
11. (Anpec 2014) Julgue as afirmativas a seguir:

(0) Suponha que X seja uma variável aleatória distribuída de
acordo com a função densidade: f (x) = (1/2) x, em que 0 ≤
x ≤2. A probabilidade de que x se situe entre 0 e 1 é igual a
0,5;
(1) Se X é uma variável aleatória distribuída de acordo com a
função densidade f (x) = (1/2) x, em que 0 ≤ x ≤2, então Var
(X) = 2/9;
(2) Suponha que Y seja uma variável aleatória distribuída de
acordo com a função densidade: f (y) = 2y–3, em que y ≥ 1.
Então E (Y) = 3;
(3) Suponha que Y seja uma variável aleatória distribuída de
acordo com a função densidade: f (y) = 2y–3, em que y ≥ 1.
Então a mediana de E(Y) é ;
(4) Considere a seguinte função densidade de probabilidade
conjunta para as variáveis Z e W: f (z, w) = 2-z-w, 0 ≤ z ≤1,
0 ≤ w ≤ 1. Podemos dizer que as variáveis Z e W são
independentes.
12. (Anpec 2013) Considere X, Y e Z variáveis aleatórias com

distribuição conjunta caracterizada por fX,Y,Z (x, y, z) e
distribuições marginais caracterizadas por fX (x), e fY (y), fZ (z)
Sejam a, b, c e d constantes.
Julgue as seguintes afirmativas:
(0) O resultado g(E [X]) = E [g(X)] se verifica para g (X) = X2
(1) Se X e Y são independentes, E [aX + bY + c] = a E [X] + b
E [Y] + c
(2) Se X, Y e Z são independentes, Var [aX + bY + c + d + Z] =
a2 Var [X] + b2 Var [Y] + Var [Z]
(3) Cov (X, aY + bZ) = Cov (X, Y) + Cov (X, Z)
(4) E [(aX).(cY)] = ac. E [XY]
13. (Anpec 2003) O custo X de produção de certo bem é uma

variável aleatória com função de densidade de probabilidade:
fX (x) =
É correto afirmar que:

(0) O valor de k é 63
(1) O custo médio do produto é aproximadamente 1,04
(2) O custo é menor do que 2 com probabilidade 1/9
(3) A variância do custo do produto é aproximadamente 3,04
(4) O custo é maior do que 3 com probabilidade 8/9
14. (Anpec 2009) Considere duas variáveis aleatórias X e Y.
Suponha que X seja distribuída de acordo com a seguinte função
de densidade:
fX (x) =
Suponha ainda que:
fY|X (y|x) =
Calcule E (Y).
15. (Anpec 2017) Seja X uma variável aleatória com media μx e

variância , e seja Y uma variável aleatória com media μy e
variância . Considere σx > 0 e σy > 0. Sendo cov(X, Y) a
covariância entre X e Y e corr(X, Y) a correlação entre X e Y,
podemos afirmar que:
(0) Cov(X, Y) = E[(X-μy)Y] E[(Y-μy)X]
(1) Se μy = 0 ou μx = 0, então cov(X,Y) = E(XY)
(2) Se μy = 0 e μx = 0, corr(X,Y) = 0
(3) Se E(Y/X) = μy, então cov(X, Y) = 0
(4) Se cov(X,Y) > 0, então 0 < corr(X,Y) ≤ 1
16. (Anpec 2017) Suponha que X seja uma variável aleatória

distribuída de acordo com a seguinte função densidade de
probabilidade:
f(x)=2(1-x), para 0 ≤ x ≤1
f(x) = 0, caso contrário.
Sendo Y = 6X + 10, obtenha a variância de Y.

APÊNDICE 1.A
A REVISÃO DE ESTATÍSTICA BÁSICA
O objetivo deste apêndice é apresentar algumas propriedades

importantes que usaremos ao longo do livro. Obviamente, um curso
de estatística e probabilidade apresenta estes conceitos com muito
mais detalhes e espera-se que o leitor tenha tido contato com
matéria mais aprofundada do que a apresentada aqui.
1. A.1 PROPRIEDADES DOS MOMENTOS DA DISTRIBUIÇÃO
Suponha duas v.a., X e Y; quatro constantes, a, b, c e d; e g (.) uma
função qualquer em R.
Propriedades da esperança
• E (c) = c
• E (aX + b) = aE (X) + b
• E (∑ Xi) = ∑ E (Xi)
• E (X + Y) = E (X) + E (Y)
• Em geral, temos: E (g (X)) ≠ g (E (X))
Propriedades da variância
• V (c) = 0
• V (aX + b) = a2 V (X)
• V (X ± Y) = V (X) + V (Y) ± 2COV (X, Y)
Propriedades da covariância
• COV (X, X) = COV (X)

• COV (X, Y) = COV (Y, X)
• COV (aX + b, cY + d) = acCOV (X, Y)
• COV (∑i Xi, ∑j Xj) = ∑i ∑j COV (Xi, Yj)
1. A.2 INFERÊNCIA ESTATÍSTICA
Em geral, não conhecemos os parâmetros populacionais. Porém, se
temos uma amostra (subconjunto da população) podemos inferir
sobre tais parâmetros desconhecidos. Os estimadores, por serem
funções da amostra em questão, são também variáveis aleatórias. A
avaliação dos momentos da distribuição dos estimadores gera as
propriedades esperadas para esses estimadores: viés (a esperança
matemática do estimador é, igual ao parâmetro a ser estimado, ou
seja, em média o estimador é igual ao parâmetro verdadeiro); e
eficiência (o estimador encontrado é o que tem a variância menor
possível dentre os estimadores não viesados).
Além disso, é possível testar hipóteses sobre os parâmetros
verdadeiros. Os testes de hipóteses verificam uma determinada
afirmação sobre um parâmetro da distribuição de probabilidade por
meio de uma estatística. Para as hipóteses a seguir a respeito do
parâmetro populacional de interesse:
Ho: µ = 1
Ha: µ ≠ 1
Podemos utilizar um estimador da média amostral (x–) e o

estimador da variância (S2) para calcular a estatística t que permite
testar as hipóteses anteriores:
Para concluir sobre a veracidade de cada hipótese, precisamos

impor alguma margem de erro. O tipo de erro escolhido é o erro de
se rejeitar Ho quando ela é verdadeira (Erro Tipo II). A probabilidade
α do erro tipo I ocorrer é o que chamamos de nível de significância.
Após escolhido o nível de significância α, no caso do teste anterior,
comparamos a estatística com os Valores Críticos da distribuição t-
Student para o α apontado (VCα).
1 Substância sem fins terapêuticos administrada como se tivesse

propriedades farmacológicas.
2 Pense em uma política pública de auxílio à população mais carente, por
exemplo. O desenho de um experimento pressupõe que parte da
população carente receberá a ajuda e parte não receberá por um
período. Isso pode causar um problema nestes grupos, pois apenas uma
parcela da população terá acesso à política pública (mesmo que por um
período curto, durante o experimento) e, portanto, usufruirá dos possíveis
benefícios da política.
3 Veja a revisão de propriedades da esperança, variância e covariância no
Apêndice.
4 i.i.d.: independentes e identicamente distribuídas.
5 Abreviação do inglês para a probability limit.
6 O Erro Quadrático Médio (EQM) é a média da diferença entre o valor do
estimador e do parâmetro ao quadrado:
7 O exemplo mais representativo dessa categoria de estimador é o “melhor
estimador linear não viesado – BLUE” (resultante de Best Linear
Unbiased Estimator). Na sua construção já estão incorporadas duas
propriedades desejáveis para um estimador: não viés e eficiência.
Veremos mais detalhes nos capítulos seguintes.
8 Para uma discussão sobre as contribuições de Adolphe Quetelet, ver
Stigler (1986).
9 Karl Pearson (1857-1936), inglês, matemático, cujos interesses foram
desde a física e a história da Alemanha até a filosofia. Forneceu inúmeras
contribuições em estatística, como o teste Chi-Quadrado para qualidade
de ajustamento, o cálculo do índice de correlação e a família de
distribuições de Pearson.
10 Ver Lundgreen (1976).
11 Ver Stuart e Ord (1987).

12 Para uma discussão desse aspecto do desenvolvimento do estimador de
máxima verossimilhança, ver Hall (2005).
13 Ronald A. Fisher, estatístico do século XX, é considerado o fundador da
estatística matemática e desenvolveu o método MV a partir das
dificuldades do método dos momentos em encontrar estimadores dos
parâmetros de uma distribuição quando existem mais momentos do que
parâmetros para serem estimados. Para isso é suficiente que se conheça
a forma funcional da distribuição e usá-la para encontrar a função
densidade de probabilidade conjunta das observações amostrais. Essa
função deve apresentar as condições de regularidade necessárias para
se obter um hiperplano estacionário que corresponda ao máximo da
função de verossimilhança. Ver Chiang e Wainwright (2005).
14 Veja a Seção 1.2.4 para uma revisão sobre distribuições de probabilidade
conhecidas.
15 L vem do termo em inglês para “verossimilhança” (likelihood).
16 É importante observar que ln é uma transformação monotônica

crescente, como consequência à maximização de uma função e do ln
dela levam aos mesmos resultados. Assim, no caso da função de
verossimilhança, ao se tomar o ln não somente o ponto de máximo
continua o mesmo da função não transformada, mas também facilita a
derivação do ponto de máximo para algumas funções.
17 Não cabe aqui uma discussão pormenorizada dessas condições de
segunda ordem, pois envolve uma análise além do que é previsto neste
capítulo. Uma referência para aqueles interessados: Chiang e Wainwright
(2005).
18 Ver Harter e Abdi (2010).
19 Gauss é conhecido como um dos mais notáveis matemáticos de todos os

tempos, tanto que o Banco Central alemão estampou o seu rosto e a
famosa distribuição normal (gaussiana) na nota de 10 marcos.
20 No entanto, o primeiro a usar o estimador em análise de regressão (como
hoje é conhecido e como veremos nos próximos capítulos) foi Francis
Galton, antropólogo e estatístico inglês, tio de Charles Darwin, em 1886.
Ver Placket (1972).
21 Quanto maior o k (graus de liberdade), a distribuição T se aproxima de
uma distribuição normal. Os graus de liberdade de uma estatística são o
número de observações que podem variar (número de maneiras
independentes de um sistema dinâmico se mover).
22 Para mais detalhes, ver Goldberger (1991).
23 Sejam três pontos: (–1,1), (0,0), (1,1), então E [Y|X = 1] = 0 = E [Y|X = 0],
mas E [X|Y = –1] = E [X|Y = 1] = 1, mas E [X|Y = 0] = 0.
24 Isso porque a Cov (Y, X) = Cov (E (Y|X), X). Como E (Y|X) = μ ∀ x, então
y
Cov (Y, X) = Cov(μY, X) = 0.
25 Demonstramos isso usando a mesma ideia da nota de rodapé anterior.
2
EFEITOS CAUSAIS EM ECONOMIA
2.1 INTRODUÇÃO
Neste capítulo vamos discutir a intuição dos demais
desenvolvimentos deste livro, assim como a forma de se estruturar
uma análise econométrica. Lembramos que o objetivo do
econometrista é encontrar a relação causal entre variáveis
econômicas de interesse: o impacto de uma variável X em outra
variável Y. Vejamos alguns exemplos de problemas de interesse em
economia:
1. Mais anos de estudo (X) aumentam a produtividade dos
trabalhadores e, portanto, os salários (Y)? Ou seja, será que
indivíduos mais escolarizados são mais valorizados no
mercado de trabalho?
2. A renda das famílias (X) influencia o consumo de alimentos
mais saudáveis (Y)?
3. O uso de cigarro e outras drogas pela mãe na gravidez (X)
aumenta a chance de nascimento de bebês com problemas de
saúde (Y)?
4. O tamanho da turma na escola (X) impacta o desempenho
escolar dos alunos (Y)?
5. Há discriminação de gênero (X) no mercado de trabalho, isto
é, homens com mesmas características que as mulheres
recebem salário (Y) maior do que das mulheres?
6. Leis mais duras, que impõem maior pena (X), levam à redução
da taxa de criminalidade (Y)?
Neste capítulo, vamos detalhar as preocupações que o
econometrista deve ter ao iniciar o estudo de relações econômicas
como as dos exemplos anteriores. Primeiramente, é importante
entender a diferença entre a correlação entre as variáveis e a
causalidade entre elas. O nosso desafio é encontrar um efeito
causal (relação de causa e efeito) entre variáveis econômicas de
interesse a partir dos dados de uma amostra a sua disposição.
2.2 ANÁLISE ECONÔMICA EMPÍRICA
Vimos no Capítulo 1 que a econometria pode ser vista como a fusão
da economia, matemática e estatística. Isto porque partimos de um
problema econômico, mas usamos a matemática e estatística para
inferir sobre as relações estabelecidas (parâmetros) por esse
modelo econômico. De forma geral, o problema econômico pode vir
de duas abordagens distintas: abordagem estrutural e abordagem
em forma reduzida.

Para entendermos a abordagem estrutural, vamos usar um exemplo
bastante conhecido em economia: o problema do consumidor,
estudado em cursos introdutórios de microeconomia, tema do
Quadro 2.1.
QUADRO 2.1
Problema do consumidor e a estimação de elasticidades
da demanda
O problema do consumidor começou a ser estudado no final do
século XIX. O problema estabelece que os indivíduos, face à
decisão de adquirir produtos para o consumo, escolhem os produtos
que lhes geram maior bem-estar. Para melhor compreensão desse
comportamento é necessária a exploração dos mecanismos de
decisão que os mesmos enfrentam ao escolher determinada cesta,
frente a todas as distintas possibilidades de escolha. A teoria
econômica do consumidor procura explicar a racionalidade por trás
das decisões dos agentes por meio da abordagem baseada num
conjunto de preferências, isto é, argumenta-se que os agentes
econômicos têm preferências intrínsecas sobre um conjunto de
escolhas, que satisfazem algumas hipóteses sobre a racionalidade
dessa decisão.
É pressuposto da teoria que as escolhas observadas dos indivíduos
são resultantes de decisões racionais, o que torna viável o estudo
do comportamento do consumidor por meio do problema clássico de
otimização: a maximização da função de utilidade do consumidor
sujeita à sua restrição orçamentária e à quantidades não negativas
dos bens. A função utilidade descreve as relações de preferências
dos indivíduos, enumerando as escolhas do consumidor de acordo
com suas preferências. A solução do problema de maximização
gera funções de demanda pelos bens, possibilitando o cálculo da
elasticidade renda e elasticidades preços direta e cruzadas. Assim,
este aparato microeconômico, somado à correta especificação das
funções, descreve o comportamento dos consumidores.
Ou seja, para cada consumidor, temos o seguinte problema:
em que: cm é a quantidade consumida do bem m; U(.) denota a

função de utilidade que representa as preferências dos indivíduos;
pm é o preço do bem m; e R é a renda total do indivíduo.
Resolvendo o problema de maximização, temos como resultado um
sistema de equações de demanda Marshalliana, em função do vetor
de preços dos bens (p) e da renda total do consumidor:2
Desta forma, a teoria econômica nos diz que há relação entre a

demanda dos indivíduos pelos bens e os preços do sistema de
demandas (ou seja, o preço de todos os bens da economia) e a
renda dos indivíduos. A forma desta função dependerá de como foi
especificada a função de utilidade dos consumidores (seja ela uma
Cobb-Douglas, CES, Quadrática, entre outras formas funcionais).
Assim, há uma relação teórica de causa e efeito entre a demanda
dos consumidores e os preços dos bens, assim como entre a
demanda e a renda dos consumidores. O próximo passo da análise
empírica é, portanto, encontrar as relações matemáticas que
descrevem a relação econômica em questão.
Por exemplo, suponha que a função de utilidade seja uma Cobb-
Douglas:
em que αi > 0. Nesse caso, a função de demanda Marshalliana no
ponto de ótimo será:
Ou em termos logarítmicos:
Assim, para essa função de utilidade a quantidade demandada

depende dos preços e da renda de acordo com a função anterior.
No entanto, ao lidarmos com o modelo econométrico, precisamos
escrever o modelo de tal forma que possamos estimar as relações
de causalidade definidas teoricamente e não menos importante,
testar essas relações. Além disso, precisamos considerar que as
relações não são determinísticas (ou seja, podem existir outros
fatores que explicam a demanda pelo produto que estamos
analisando, que não sejam apenas o preço do produto, preço dos
demais produtos e a renda). Assim, podemos escrever o modelo
econométrico que descreve a relação anterior encontrada por:
Em que os β´s representam os parâmetros do modelo, que

descrevem a força das relações entre as variáveis do lado direito
(preço e renda, no nosso exemplo) e a variável do lado esquerdo
(quantidade demandada). O termo “u” é chamado de termo de erro,
ou termo aleatório, ou fatores não observados, e denota todos os
demais fatores que explicam a quantidade demandada que não são
o preço e a renda. Se o objetivo for testar se a função Cobb-Douglas
ajusta bem o modelo de demanda proposto, podemos testar as
seguintes hipóteses:
Para realizar esses testes, vamos precisar de uma amostra dos
dados das variáveis em questão. Nosso objetivo será encontrar os
estimadores para os parâmetros do modelo (no nosso exemplo: os
parâmetros são os β´s destacados anteriormente) para testar os
seus valores.
As etapas da análise empírica usando a abordagem estrutural

podem ser resumidas por:
1. Formulação do problema de interesse: Qual é o efeito da
variável X sobre a variável Y?
2. Desenvolvimento do modelo teórico formal, explicitando as
equações matemáticas que descrevem a relação de interesse:
Y = f (X, Z), em que Z representa as demais variáveis que
explicam Y.
3. Descrição do modelo econométrico, considerando os vetores
de parâmetros que medem a relação ( β) e os demais fatores
que afetam o problema de interesse: Y = f ( β, X, Z, u).
4. Estimação dos parâmetros descritos na etapa III, ou seja,
encontrar estimadores para β.
5. Realização de testes sobre as hipóteses teóricas: H0: β=a?
A variável Y, objeto de análise do pesquisador, é chamada de:

1. variável de interesse, ou
2. variável dependente, ou
3. variável explicada.
Já a variável X, variável que explica Y, é denominada:

1. variável explicativa, ou
2. variável independente, ou
3. covariada, ou
4. variável de controle.
Os β’s identificam os efeitos (relações de causalidade) nos quais

estamos interessados, ou seja, são parâmetros da população
desconhecidos pelo pesquisador. Suponha um modelo linear que
relaciona as variáveis Y e X (e os parâmetros que identificam a
relação entre elas):
Y = β0 + β1X + u
O último termo do lado direito da equação, u, é conhecido por

termo de erro, termo aleatório, ou fatores não observados. O termo
de erro contém todos os demais fatores que explicam Y, mas que
não foram controlados pelo modelo econométrico. Veremos que a
análise do comportamento do termo de erro e sua relação com as
demais variáveis do modelo serão fundamentais para interpretarmos
um efeito causal.
2.2.2 Abordagem de equações reduzidas usando dados

experimentais
A abordagem que chamamos de “reduzida” tem interesse em uma
pergunta específica sobre a relação entre duas variáveis aleatórias,
sem necessariamente impor um modelo teórico que a ampare. Essa
abordagem parte de pressupostos estatísticos importantes para
entender a relação em estudo.
Por exemplo, suponha que estejamos interessados em avaliar o
efeito de uma nova técnica agrícola (X = 1 identifica a adoção da
técnica, e X = 0 identifica a não adoção) na produtividade agrícola
(Y). Nesse caso, o objetivo é entender a relação de causa e efeito
entre o uso de determinada técnica e a produtividade agrícola. Essa
é uma pergunta interessante, pois pode definir se um grupo de
agricultores adota ou não a nova técnica, isto é, responde ao
seguinte questionamento: Será que o potencial aumento de
produtividade (impacto que queremos calcular) compensa o custo
de adoção da técnica?
Sem precisar entender o modelo teórico por trás da decisão dos
agricultores,3 podemos propor uma análise que permita identificar o
efeito que possível o uso da técnica teria no incremento, da
produção. Idealmente, o efeito exato da adoção da técnica em
determinada área seria calculado pela diferença entre a
produtividade agrícola da área com a adoção (resultado esse que
podemos definir como: Y1 = Y (X = 1)) e da mesma área sem a
adoção (a qual definimos por Y0 = Y (X = 0)). Ou seja, o efeito exato
para a área i seria:
τi = Y1i – Y0i
No entanto, observar a mesma área na situação de receber e

não receber a nova técnica é impossível. Por esse motivo, problema
é conhecido por “Problema Fundamental da Inferência Causal” ou
“Problema de Dados Faltantes”, devido à impossibilidade de
observação de uma mesma unidade com e sem a variação a qual
se pretende analisar.4
Assim, o objetivo da análise empírica de formas reduzidas é, no
nosso exemplo, comparar a produtividade em áreas muitos similares
(em termos de aptidão do solo, clima e uso de outros insumos, entre
outras) tal que, em uma houve a aplicação da nova técnica, e na
outra não. Em outras palavras, objetiva-se encontrar o efeito, ceteris
paribus (todos os demais fatores que podem afetar a produtividade
mantidos constantes), da adoção da nova técnica sobre a
produtividade agrícola. Para fazer essa análise, podem ser
coletados tanto dados experimentais quanto dados observados.
Os dados experimentais são considerados dados primários, ou
seja, há um planejamento que envolve tanto a aplicação da
intervenção pretendida, quanto a posterior coleta dos dados com o
objetivo de responder a uma pergunta específica. Para a aplicação
da intervenção em questão (escolha das unidades de análise que
receberão a intervenção), recorre-se ao sorteio dos lotes ou áreas
que receberão a nova técnica. O termo utilizado para definir este
sorteio é a aleatorização (ou randomização) das unidades que
receberão e das unidades que não receberão a intervenção. Ao se
aleatorizar5 as unidades dos grupos que receberão ou não a
intervenção em questão, é possível comparar o resultado médio dos
grupos e concluir sobre o efeito da intervenção (utilizando a
esperança matemática). Matematicamente o efeito médio (τ) seria:
τ = E (Y1|X = 1) – E (Y0|X = 0)
Como há aleatoriedade na escolha do X, este será independente

de Y (vimos no Capítulo 1 que se Y é independente na média
condicional em X, temos que E (Y|X) = E (Y)). Assim, podemos
escrever o efeito por:
τ = E (Y1|X = 1) – E (Y0|X = 0) = E (Y1) – E (Y0) = E (Y1 – Y0)
O uso de dados aleatorizados permite estimar o impacto da

adoção de uma técnica (X) sobre a produtividade da lavoura (Y),
independente de outros fatores não observáveis.
QUADRO 2.2
Efeito do cadastro na saúde da família sobre a saúde dos
indivíduos
A saúde da família é um dos principais focos do Sistema Único de
Saúde (SUS). Assim, as unidades básicas de saúde oferecem
serviços de médicos, enfermeiros, agentes comunitários de saúde,
dentistas, entre outros, para todas as famílias cadastradas na
unidade de saúde da família. A Pesquisa Nacional de Saúde pediu,
em 2013, a todos os entrevistados com mais de 18 anos para que
avaliassem sua saúde dando notas de 1 a 5, em que 1 reflete uma
saúde muito boa e 5 muito ruim. A Tabela 2.1 mostra a nota média
das pessoas de famílias cadastradas e não cadastradas na unidade
de saúde da família:
TABELA 2.1
Média e erro-padrão da avaliação da saúde de cadastrados e não cadastrados
na unidade de saúde da família*
Avaliação da Saúde Avaliação da Saúde

Grupo (Média) (Erro-padrão)
Cadastrados 2,353 0,0078
Não cadastrados 2,170 0,0091
Diferença 0,183 0,0120
*Pergunta do questionário: “Em geral, como o(a) Sr.(a) avalia a sua saúde?”
A Tabela 2.1 sugere que a percepção da saúde em 2013 era pior

entre os cadastrados na unidade de saúde de família, com uma
diferença de 0,18 na nota dada. A correlação entre a variável de
cadastro no programa e o estado de saúde é positiva, mas isso faz
sentido? Será que a participação no programa causa um pior estado
de saúde?
Se interpretássemos esses resultados como causais, concluiríamos,
equivocadamente, que o programa piora a saúde dos seus
beneficiários. Entretanto, não podemos inferir causalidade, pois há
diferenças importantes entre os grupos, que não estão sendo
consideradas e que influenciam os resultados. A relação positiva é
considerada uma correlação e não causalidade entre as variáveis.
Um dos argumentos é que as pessoas que fazem parte do
programa saúde da família têm, em média, saúde pior do que as
pessoas que não fazem parte. Isso porque os indivíduos que
buscam as unidades de saúde possuem saúde mais vulnerável.
Esse problema é conhecido por problema de seleção amostral (a
seleção dos que frequentam unidades de saúde ocorre de forma
não aleatória, havendo, portanto, variáveis que influenciam tanto o
recebimento da intervenção quanto os resultados da mesma).
Se fosse possível aleatorizar o cadastro do programa antes da sua
implementação, os cadastrados seriam escolhidos com base em um
sorteio, sem que a necessidade de cadastro no programa (por conta
das condições de saúde dos indivíduos) influenciasse na
participação. Em termos de avaliação do programa, vimos que essa
forma de análise é bastante interessante. No entanto, há algumas
dificuldades para implementar uma aleatorização de um programa
para fazer a sua avaliação, principalmente quando envolve questões
relacionadas com a saúde dos indivíduos. No entanto, é importante
avaliar a efetividade das políticas públicas e há formas alternativas
de avaliação.
O uso de experimentos (aleatorização) em Economia ganhou

maior destaque no final dos anos 1990 e começo dos 2000, apesar
de o primeiro experimento ter sido realizado em 1919 por Ronald
Fisher para avaliar a eficácia do uso de fertilizantes sobre a
produção agrícola. O uso de experimentos em Economia é
conhecido por “Regra de Ouro” entre os métodos de avaliação de
impactos (de uma variável X em Y), devido à solução dos problemas
econométricos que influenciam na obtenção de um efeito causal. No
entanto, muitos autores criticam o uso de experimentos pela
dificuldade na sua implementação.6
As etapas da análise empírica usando a abordagem reduzida e
dados experimentais (advindos de uma aleatorização) podem ser
resumidas por:
1. Formulação da questão de interesse: Qual é o efeito da
variável X sobre a variável Y?.
2. Desenho do experimento a partir de dados da população de
interesse do estudo.
3. Seleção aleatória dos indivíduos nos grupos de tratamento ou
controle.
4. Coleta de dados primários antes do experimento (se é
possível).
5. Implementação do experimento.
6. Coleta de dados primários após o experimento.
7. Estimação do parâmetro de impacto da intervenção em
estudo.
8. Realização de testes sobre o parâmetro do efeito.
2.2.3 Abordagem de equações reduzidas usando dados
observados
Devido às dificuldades de obtenção de dados experimentais,
recorremos usualmente à análise de dados observados, que podem
ser dados primários coletados (sem o desenho de um experimento),
ou dados secundários (tanto coletados por institutos de pesquisa,
quanto administrados por empresas públicas ou privadas). No caso
de dados observados, a especificação do modelo econométrico é
fundamental para a obtenção da causalidade do efeito. Suponha o
modelo econométrico mais simples, que estabelece uma relação
linear entre a variável de interesse, ou variável dependente Y, e a
variável explicativa X:
Para a avaliação do efeito da variável X na variável Y, é

importante entender como Y muda a partir de uma variação de X.
Vamos simular como o nosso modelo simples trataria o efeito em Y
após uma variação de X para X':
Subtraindo a segunda equação da primeira, temos:
Assim, para que β1 seja o efeito de uma variação de X em Y

teríamos de supor Δu = 0. Quando isso ocorre, dizemos que β1 é o
efeito de X em Y, ceteris paribus. Isto é, se os demais fatores (não
observados e contidos em u) que explicam Y são considerados
constantes após uma variação em X, isso significa que que X e u
são independentes. Logo, toda a mudança observada em Y deve-se
à variação de X. Dizemos, portanto, que β1 é o efeito causal de X
em Y, expresso pela seguinte equação:
Esse efeito causal é o que desejamos encontrar,

independentemente da abordagem utilizada. O Quadro 2.3
apresenta um exemplo do efeito da educação sobre salários.
QUADRO 2.3
Retorno salarial da escolarização
Suponha que você esteja interessado em analisar o efeito de mais
educação no retorno salarial, isto é, responder à seguinte pergunta:
Será que estudar mais melhora os salários futuros dos indivíduos?
Você poderia utilizar dados da Pesquisa Nacional por Amostra de
Domicílios (PNAD) do IBGE para fazer esse exercício (veja mais
detalhes sobre essa base de dados no Capítulo 3). Vamos verificar
se conseguimos, a partir desses dados, um efeito causal com o
modelo que procura encontrar o efeito de anos de estudo
(educação) sobre os salários dos indivíduos:
salário = β0 + β1 educação + u
Para a avaliação do efeito, veremos como “salário” responde a

variações em “educação”:
Δsalário = β1 Δeducação + Δu
Assim, para que β1 seja o efeito causal de uma variação de

educação (usando anos de escolaridade, por exemplo) nos salários
dos indivíduos, teríamos de supor que os demais fatores não
observados que explicam salários (u) se mantêm constantes após
uma variação em educação (ou seja, são independentes da variável
educação). No entanto, podemos pensar em algumas variáveis
importantes que estão em u e são potencialmente correlacionadas
com educação, como as habilidades cognitivas e emocionais (sob a
hipótese de que indivíduos mais hábeis estudam mais). Nesse caso,
se não conseguimos controlar esses outros fatores, não podemos
dizer que o β1 mede o efeito causal entre educação e salário.
Em linhas gerais, as etapas da análise empírica usando a

abordagem reduzida e dados observados podem ser resumidas por:
1. Formulação da questão de interesse: Qual é o efeito da
variável X sobre a variável Y?
2. Formulação do modelo econométrico para identificar o efeito
causal de X em Y.
3. Coleta de dados (primários ou secundários).
4. Estimação do parâmetro de impacto da intervenção em
estudo.
5. Realização de testes sobre o parâmetro do efeito.
Em análises empíricas, o economista busca estimar o efeito causal
de uma variável econômica em outra. Para tal, ele pode utilizar
abordagens estruturais (a partir de um modelo teórico conhecido ou
proposto pelo pesquisador), ou abordagens em forma reduzida. No
último caso, é importante verificar se algumas condições são
atendidas para que se possa inferir causalidade sobre o efeito
encontrado. Os próximos capítulos apresentarão diversos
estimadores do efeito de uma variável (X) em outra de interesse (Y).
O objetivo é encontrar o estimador com melhores propriedades, isto
é, que represente o parâmetro que identifica a relação causal entre
as variáveis.
2.4 Exercícios
1. Suponha que você esteja interessado em analisar a existência

de discriminação de gênero (identificada pela variável x) no
mercado de trabalho. Defina as etapas de análise e mostre que
condições são necessárias para que o efeito encontrado seja
causal?
2. Frequentemente, os jornais e (às vezes, periódicos) parecem

confundir o conceito de causalidade. Desmistifique as seguintes
associações:
Caso I: “Di Tella & Schargrodsky (2004) citam que 18 de 22
artigos publicados na literatura de Economia do Crime
encontraram um efeito positivo da presença da polícia sobre o
crime. Logo, há fortes evidências suportando a tese de que
policiamento aumenta a criminalidade.’’
Caso II: “Moore (1993) constatou que a quantidade vendida de
sorvete está fortemente associada com o número de mortes
por afogamentos. Portanto, na dúvida, convém substituir o
sorvete por uma raspadinha.’’
Caso III: Em 2012, artigo publicado na New England Journal of
Medicine encontrou alta correlação entre a quantidade per
capita consumida de chocolate e o número de laureados pelo
Prêmio Nobel usando dados de 23 países. Com objetivo de
divulgar este importante avanço científico, jornais publicaram
as seguintes manchetes:
a) Forbes: “Chocolate Makes Us Smarter’’
b) Time: “Secret to Winning a Nobel Prize? Eat More
Chocolate’’
c) Huffington Post: “Why Chocolate Makes You Smarter: It’s
Proven!’’
3. Sabemos que correlação não implica causalidade. Justifique
para os casos a seguir apontando o fator que invalida a
causalidade.
a) “Vários estudos apontavam inicialmente que as mulheres
em menopausa que recebiam terapia de substituição
hormonal (TSH) tinham também um menor risco de doença
coronária, o que levou à ideia de que a TSH conferia
proteção contra a doença coronária. No entanto, estudos
controlados e randomizados (mais rigorosos), feitos
posteriormente, mostraram que a TSH causava na verdade
um pequeno, mas significativo, aumento do risco de
doença coronária. Uma reanálise dos estudos revelou que
as mulheres que recebiam a TSH tinham também uma
maior probabilidade de pertencer a uma classe
socioeconômica superior, com melhor dieta e hábitos de
exercício.7”
b) Em 1998, um médico britânico, Andrew Wakefield, publicou
um estudo onde revelava uma correlação entre o autismo e
a vacina anti-sarampo, parotidite e rubéola (VASPR).
Seguiu-se uma onda de pânico que levou muitos pais a
deixarem de vacinar os seus filhos e, como resultado,
começaram a surgir novamente focos de sarampo por todo
o mundo. O fato de o autismo ser normalmente
diagnosticado depois da criança ter tomado a vacina
VASPR, levou muitos pais a ficarem convencidos da
veracidade da causalidade. Vários outros investigadores
tentaram também confirmar a ligação, mas nenhum teve
sucesso. O estudo de Wakefield acabou por se revelar
nada mais do que uma fraude, tendo sido retratado pela
revista onde foi publicado.8
c) “Quanto maiores são os pés de uma criança, maior a
capacidade para resolver problemas de matemática”.
4. A partir de dados da Pesquisa Nacional de Saúde (PNS) para
2013 (veja mais detalhes destes dados no Capítulo 3), foi
montada a tabela a seguir a fim de analisar a relação entre ter
plano de saúde e número de idas ao médico em um ano.
Número de idas ao Número de idas ao

Grupo médico (Média) médico (Erro-padrão)
Com plano de saúde 4,25 0,064
Sem plano de saúde 3,98 0,050
Diferença 0,27 0,082
a) Qual a correlação esperada entre o estado de saúde de um

indivíduo e o número de idas ao médico em um ano? O
que os resultados da tabela sugerem?
b) Você acredita que pessoas que têm plano de saúde
possuem, em média, uma saúde pior?
c) Qual o problema em interpretar os resultados da tabela
como causais? Explique usando argumentos econômicos.
5. O consumo de cigarros, bebidas alcóolicas e outras drogas

durante a gravidez pode aumentar a chance de nascimento de
bebês com saúde mais frágil ou, até mesmo, com má formação.
Com base nisso:
a) Sugira uma variável para medir a qualidade da saúde dos
recém-nascidos. Explique a sua sugestão.
b) Construa uma relação entre a variável sugerida
anteriormente e a quantidade de cigarros fumados pela
mãe durante a gravidez. Interprete.
c) Quais outros fatores influenciam a saúde dos bebês além
dos vícios da mãe? Como esses fatores se relacionam com
a variável sugerida no item a)? O que devemos supor para
que a relação possa ser interpretada como causal?
6. Investigar os determinantes do desempenho escolar de crianças

sempre foi um dos focos da literatura econômica empírica. Um
dos temas bastante discutidos é como o tamanho da sala de
aula (quantos alunos têm na sala de aula) impacta a nota dos
alunos. Com base nesse tema, responda:
a) Você acha que o tamanho da sala de aula pode impactar
positivamente o desempenho dos alunos? E
negativamente? Quando cada um dos casos acontece?
Explique.
b) Quais outros determinantes do desempenho escolar você
julga importantes além do tamanho da sala? O tamanho da
sala parece estar correlacionado com algum deles?
Explique.
7. Considere a seguinte função de utilidade quase-linear: U(x1, x2)

= ln (x1) + x2, em que x1 e x2 são bens distintos. Suponha que
um comerciante queira estimar a demanda pelo x1, sabendo que
a utilidade de seus fregueses é dada pela função anterior.
a) Derive a quantidade ótima demandada de x1.
b) Conforme mostrado neste capítulo, linearize a demanda
ótima encontrada anteriormente, proponha um modelo
econométrico que ilustre a relação anterior. Como você
testaria se a relação encontrada se adequa ao que você
propôs?
1 A restrição de que cm ≥ 0, para todo m = 1, … , M, ou seja, as

quantidades consumidas dos M bens são sempre não negativas, é
fundamental pois permite a existência de “soluções de canto”, ou melhor,
que consumir uma quantidade nula de algum bem possa ser uma solução
do problema de maximização.
2 As funções assumem um valor para cada par ordenado (p,R).
3 Neste caso, o modelo teórico deveria levar em consideração a função de
produção dos agricultores e, portanto, a utilização de outros fatores de
produção (como tratores, mão de obra, quantidade de área utilizada,
entre outros).
4 Apresentamos no Capítulo 12 diversas técnicas adicionais para lidar com
esse problema.
5 “Aleatorizar os grupos” significa tornar aleatória a adoção da intervenção.
6 Ver mais detalhes em Levitt e List (2009).
7 http://comcept.org/cepticismo/correlacao-nao-implica-necessariamente-
causalidade/.
8 http://comcept.org/cepticismo/correlacao-nao-implica-necessariamente-
causalidade/.
3
TIPOS DE DADOS SECUNDÁRIOS NO

BRASIL
A
ntes de iniciarmos o estudo das técnicas e dos estimadores
que utilizaremos para identificar relações causais em
Economia, apresentamos neste capítulo algumas
possibilidades de bases de dados secundárias brasileiras
para realizar as análises. Antes discutiremos as estruturas de dados
típicas em estudos econométricos.
3.1 ESTRUTURA DE DADOS
Toda análise empírica requer dados e há várias apresentações
diferentes para as possibilidades de dados. Apresentamos a seguir
as estruturas de dados mais comuns, seguidas de um exemplo de
como esses dados estão organizados:
Dados em corte transversal ( cross-section): Neste tipo de
organização de dados são coletadas várias informações sobre
unidades de observação – sejam indivíduos, empresas, regiões, ou
países – em um ponto específico do tempo. Em outras palavras,
podemos considerar que temos uma fotografia destas unidades de
observação em determinado período. É importante que a amostra
de dados seja representativa da população em estudo. Este tipo de
dado é bastante utilizado em estudos de Organização Industrial,
Economia da Saúde, Microeconomia Aplicada e Finanças Públicas.
No Brasil, várias bases de dados caracterizam-se como cortes
transversais, tais como: as Pesquisas Nacionais por Amostra de
Domicílios (PNADs) anuais coletadas pelo IBGE; as Pesquisas de
Orçamentos Familiares (POF) do IBGE; entre outras.
TABELA 3.1
Exemplo da organização de dados em corte transversal
Unidade (i) Nome Salário mensal (em reais) Escolaridade (anos de estudo)
1 Thomas 2.000 5
2 Clara 3.200 9
3 Lucas 2.800 8
4 Eduardo 2.500 7
5 Beatriz 1.700 3
6 Leticia 3.600 10
7 Stela 3.100 12
Dados em séries de tempo ( time series): Este tipo de base de
dados consiste em uma coleção de observações de uma, ou mais
variáveis, ao longo do tempo. Alguns exemplos de variáveis em
séries de tempo são: série de preços diários das ações de uma
empresa negociadas na bolsa brasileira de 1º a 31 de dezembro de
2016; série de vendas mensais de automóveis no Brasil de janeiro
de 2015 a dezembro de 2016; série do crescimento real anual do
Produto Interno Bruto (PIB) brasileiro de 1970 a 2017; entre outras.
Em séries temporais, a ordenação do tempo é muito importante,
pois pode haver dependência ou inércia temporal. As frequências
mais comuns de análises são diárias, semanais, mensais,
trimestrais e anuais. Séries de tempo para dados brasileiros podem
ser obtidas em vários repositórios de dados, como o Ipeadata (base
de dados econômicos e financeiros mantida pelo Instituto de
Pesquisas Econômicas Aplicadas, IPEA), o Sistema Gerenciador de
Séries Temporais do Banco Central do Brasil (BC) e as Séries
Estatísticas e Séries Históricas do IBGE.
TABELA 3.2
Exemplo da organização de dados em séries de tempo
Unidade (t) Inflação (var. % mês) Taxa de desemprego (%)
Jan-2016 0,71 10,1%
Fev-2016 0,56 9,8%
Mar-2016 0,62 9,9%
Abr-2016 0,08 10,5%
Mai-2016 0,23 11,0%
Jun-2016 0,43 10,8%
Jul-2016 0,69 10,4%
Dados em cortes transversais agrupadas ( pooled cross-

sections): Essas bases de dados consistem na combinação de
duas ou mais amostras aleatórias (com diferentes unidades de
observação) em instantes diferentes do tempo. Neste caso, não
observamos as mesmas unidades no tempo, mas sim diversas
amostras aleatórias da mesma população em estudo ao longo do
tempo. Este é o caso do uso das várias edições temporais das
bases de dados da POF-IBGE (2002-2003 e 2008-2009), das
PNADs-IBGE anuais, entre outras.
TABELA 3.3
Exemplo da organização de dados de cortes transversais agrupadas
Unidade Salário mensal Escolaridade

(i) Período (t) Nome (em reais) (anos de estudo)
1 2016 Thomas 2.000 5
2 2016 Clara 3.200 9
3 2016 Lucas 2.800 8
4 2016 Eduardo 2.500 7
5 2017 Beatriz 2.200 5
6 2017 Leticia 3.600 10
7 2017 Stela 3.100 12
8 2017 João 2.600 9
Dados em painel ( panel data): Dados em painel consistem em

uma coleção de dados para uma mesma unidade de observação no
tempo. Veremos nos capítulos mais avançados do livro que este tipo
de base de dados possui vantagens para a estimação de vários
efeitos de interesse. Os dados em painel mais fáceis de se obter
são de regiões (distritos, municípios, estados, países) ao longo do
tempo. Já no caso de painéis de indivíduos, empresas, famílias, por
exemplo, obter dados ao longo do tempo é mais custoso. No
entanto, várias instituições brasileiras vêm se dedicando a coletar
dados em painel, como o IBGE (que iniciou a PNAD em seu formato
em painel, conhecida por PNAD Contínua, em substituição à
Pesquisa Mensal de Emprego, PME), a FIPE (que coleta a Pesquisa
de Orçamentos Familiares da Região Metropolitana de São Paulo
no formato de painel de domicílios), entre outras.
TABELA 3.4
Exemplo da organização de dados em painel
Renda Média Taxa de

Unidade (i) Período Cidade (R$) desemprego (%)
1 2016 Guarulhos 2.000 11,0
2 2016 Osasco 1.200 10,5
3 2016 Itu 800 8,9
4 2016 Arujá 1.500 10,7
1 2017 Guarulhos 2.300 10,5
2 2017 Osasco 1.400 10,1
3 2017 Itu 1.000 10,0
4 2017 Arujá 1.600 9,9

3.2 BASES DE DADOS BRASILEIRAS
Nesta seção apresentamos informações sobre diversas pesquisas
realizadas no Brasil. Ao longo de todo o livro, mostraremos
exemplos de análises usando essas bases de dados. Ao final deste
capítulo, o leitor poderá resolver exercícios usando subamostras de
algumas destas pesquisas.
3.2.1 Pesquisa Nacional por Amostra de Domicílios

(PNAD) – Anual
A PNAD é realizada anualmente (exceto em anos de censo) pelo
IBGE desde 1971. A pesquisa contém informações sobre
características demográficas e socioeconômicas da população e
domicílios brasileiros. A PNAD objetiva prover informações sobre a
população brasileira no período entre dois censos e incluir dados
sobre os temas pouco ou não estudados nos censos. A estrutura da
pesquisa é a seguinte:
1. Pesquisa básica: investiga de forma contínua os temas mais
importantes como educação, trabalho, rendimento, habitação,
migração e fecundidade da população brasileira.
2. Pesquisas suplementares (ou suplementos): realizam um
aprofundamento dos temas permanentes e investigam outros
assuntos relacionados aos coletados na pesquisa básica.
3. Pesquisas especiais: abrangem a coleta de dados sobre
temas mais complexos que muitas vezes exigem mecanismos
diferentes de amostragem e que precisam ser tratados à parte
dos temas abordados na pesquisa básica.
A PNAD é realizada por meio de um sistema de amostra de

domicílios, sendo os dados coletados no último trimestre de cada
ano. Considera a população residente nas unidades domiciliares
(domicílios particulares e unidades de habitação em domicílios
coletivos) e tem abrangência geográfica nacional.
3.2.2 Suplementos da PNAD1
PNAD 2001 – Trabalho Infantil: Neste suplemento são
aprofundados os dados relativos à situação das crianças com idade
de 5 a 17 anos, com enfoque nas características de educação e de
trabalho.
PNAD 2003 e 2008 – Acesso e Utilização de Serviços de Saúde:

Neste suplemento são levantadas informações adicionais sobre as
características da saúde da população brasileira. A pesquisa provê
um perfil das necessidades em saúde dos brasileiros a partir de
declarações sobre a autoavaliação do estado de saúde das pessoas
e outras questões como a restrição de atividades habituais por
motivo de saúde e o acesso e utilização dos serviços de saúde
(atendimentos privados, via planos de saúde e do Sistema Único de
Saúde, SUS).2
PNAD 2004, 2009 e 2013 – Segurança Alimentar: Essa pesquisa

faz um levantamento do perfil da condição de segurança alimentar
no Brasil, de acordo com a Escala Brasileira de Insegurança
Alimentar (EBIA) (segurança alimentar, insegurança alimentar leve,
insegurança alimentar moderada e insegurança alimentar grave).
PNAD 2004 – Aspectos Complementares de Educação e Acesso

a Transferências de Renda de Programas Sociais: Essa pesquisa
investigou características adicionais das crianças e adolescentes em
relação à educação (aproveitamento do ensino e frequência escolar)
e ao acesso, nas unidades domiciliares, a algumas transferências
de rendimentos por meio de programas sociais.3 Além disso,
permitiu avaliar a abrangência e o perfil socioeconômico da
população que recebe transferências de renda de programas
sociais.
PNAD 2005, 2008, 2011, 2013 e 2014 – Acesso à Internet e Posse

de Telefone Móvel Celular para Uso Pessoal: Essas pesquisas
objetivam aumentar o conhecimento sobre a utilização das
tecnologias da informação e das comunicações no Brasil a partir da
caracterização do perfil dos usuários, e dos não usuários, de
internet (finalidade e frequência do acesso, tipo de conexão) e
telefonia móvel celular.4
PNAD 2006 – Aspectos Complementares de Educação, Afazeres

Domésticos e Trabalho Infantil: No suplemento da PNAD 2006
investigaram-se aspectos complementares da educação de crianças
e adolescentes de 0 a 17 anos de idade, do exercício e trabalho e
de afazeres domésticos das pessoas de 5 a 17 anos de idade.
PNAD 2006 – Acesso a Transferências de Renda de Programas

Sociais: A pesquisa investigou o acesso a transferências de renda
de programas sociais e permite, entre outras coisas, comparar o
perfil da população atendida por tais programas com o da população
não atendida.
PNAD 2007 – Aspectos Complementares da Educação de

Jovens e Adultos e Educação Profissional: O suplemento tem
como objetivo complementar os dados sobre educação investigados
regularmente na pesquisa básica da PNAD. Assim, foram
investigadas características da educação de jovens e adultos para
moradores de 15 ou mais anos de idade e características da
educação profissional para moradores de 10 ou mais anos de idade.
A investigação da educação de jovens e adultos visou analisar o
alcance desse tipo de educação e caracterizar aspectos dos cursos
oferecidos nas suas diferentes modalidades, enquanto a
investigação da educação profissional buscou traçar o perfil da
população em relação ao acesso e formação nos segmentos de
qualificação profissional, técnico de nível médio e graduação
tecnológica.
PNAD 2009 – Características da Vitimização e do Acesso à

Justiça no Brasil: A pesquisa suplementar levanta dados sobre o
perfil socioeconômico das vítimas de roubo, furto, agressão física e
tentativa de furto ou roubo, além de investigar algumas questões
comportamentais associadas aos mesmos, tais como a sensação de
segurança e atitudes de prevenção da violência, e algumas
características dessas ocorrências criminais. Com relação à
temática da justiça, a pesquisa levantou dados sobre conflitos
vivenciados pela população e a resolução dos mesmos
(acionamento do judiciário, ou outros modos).
PNAD 2014 – Acesso ao Cadastro Único para Programas

Sociais do Governo Federal e a Programas de Inclusão
Produtiva: Este suplemento investigou dados relativos ao acesso
ao Cadastro Único para programas sociais do governo federal e aos
programas de inclusão produtiva. Quanto ao primeiro tema, a
pesquisa buscou investigar o conhecimento dos moradores dos
domicílios investigados sobre a existência do Cadastro Único e de
alguns programas federais acessados por meio dele.5 Quanto ao
segundo tema, a pesquisa coletou dados sobre o acesso a ações e
programas orientados à inserção dos indivíduos no mercado de
trabalho formal e em iniciativas empreendedoras.
PNAD 2014 – Mobilidade Sócio-ocupacional: A pesquisa levantou

dados, para brasileiros de 16 anos ou mais de idade, sobre a
mobilidade social e ocupacional, a última relativa à inserção no
mercado de trabalho.

A PNAD Contínua é uma pesquisa por amostra probabilística com
abrangência nacional, também realizada pelo IBGE, que permite a
investigação contínua de indicadores sobre trabalho e rendimento
da população brasileira. A pesquisa é realizada trimestralmente e
segue uma rotação de domicílios, isto é, os domicílios selecionados
são entrevistados num total de cinco vezes consecutivas, sendo
uma entrevista a cada trimestre. A pesquisa coleta, portanto, dados
de um painel de domicílios. A PNAD Contínua dá destaque para
informações de trabalho e rendimento. A cada trimestre são
investigados cerca de 200 mil domicílios particulares permanentes.

A PNS foi realizada pelo IBGE para o ano de 2013. É uma pesquisa
independente da PNAD, mas integra o conjunto de pesquisas
domiciliares. A pesquisa foi elaborada para coletar informações de
saúde, aos moldes dos suplementos da PNAD. Em linhas gerais, a
PNS contém três principais eixos: o desempenho do sistema
nacional de saúde (acesso e utilização dos serviços de saúde e
cobertura dos planos de saúde); as condições de saúde dos
brasileiros (percepção dos indivíduos sobre sua saúde); e a
vigilância de doenças crônicas não transmissíveis (monitoramento,
diagnóstico, assistência e levantamento de características que
podem ser fator de risco para essas doenças6).

A POF é uma pesquisa realizada pelo IBGE utilizando um método
de amostragem domiciliar. A POF possui dados gerais
representativos para o Brasil e atualiza a cesta básica de consumo e
obtém novas estruturas de ponderação para os índices de preços
calculados pelo IBGE. O objetivo principal da pesquisa é mensurar
as estruturas de consumo, dos gastos, dos rendimentos e parte da
variação patrimonial das famílias. A pesquisa é realizada, em média,
a cada seis ou sete anos desde o ano de 1995 e acompanha
aquisições dos domicílios investigados dos últimos 12 meses.
QUADRO 3.1
Nota sobre correção da amostra das pesquisas amostrais
do IBGE
Nas bases de dados amostrais do IBGE, o procedimento de
amostragem é, em geral, estratificado, sendo que são selecionados
domicílios dentro dos estratos de forma probabilística. Assim, o
instituto reporta o peso amostral de cada domicílio pesquisado.
Podemos imaginar que cada domicílio é, portanto, representativo
para um grupo de domicílios de acordo com o seu peso amostral.
Por exemplo:
Domicílio A tem peso amostral 1/nA = 1/200 ou peso nA =200. Isto
significa que ele representa 200 domicílios do estrato;
Domicílio B tem peso amostral 1/nB =1/100 ou peso nB =100. Isto
significa que ele representa 100 domicílios do estrato.
Neste caso, devemos corrigir as observações da amostra pelos
seus respectivos pesos amostrais. Por exemplo, se nossa amostra
contiver apenas os domicílios A e B anteriores, a média amostral da
renda deve ser calculada da seguinte forma:
Em geral, os softwares estatísticos apresentam soluções fáceis para

a contabilização dos pesos amostrais. O Capítulo 8 apresenta
formas de lidar com o peso da pesquisa dentro das estimações
propostas ao longo do livro.

O Censo Demográfico é realizado pelo IBGE a cada dez anos e
configura uma importante fonte de informações sobre a situação de
vida da população em cada um dos municípios e localidades do
país. A coleta de dados é feita por meio de entrevista presencial
com os moradores dos domicílios entrevistados. As unidades de
análise dos dados são o domicílio, a família, a unidade doméstica e
a pessoa. A pesquisa tem como objetivo a contagem dos habitantes
do território nacional, a identificação de suas características, o
levantamento de como vivem os brasileiros, a produção de
informações imprescindíveis para a definição de políticas públicas,
para a tomada de decisões de investimentos da iniciativa privada ou
do governo e para análises sobre a situação de vida da população
nos municípios e suas subdivisões internas (distritos, bairros e
localidades, rurais ou urbanas).
Dentre as variáveis que podem ser obtidas pelo censo estão a
condição de ocupação do domicílio, o número de banheiros de uso
exclusivo, a existência de energia elétrica, número de moradores, o
rendimento domiciliar per capita, as variáveis de migração
internacional e interna, o registro de mortalidade e as características
sociodemográficas, entre outras.

O Censo Agropecuário é coletado pelo IBGE com periodicidade de
coleta e divulgação decenal. O censo investiga os estabelecimentos
agropecuários e as atividades desenvolvidas nos mesmos, obtendo
informações detalhadas sobre as características dos produtores,
dos estabelecimentos e da economia e do emprego no meio rural,
no que diz respeito à agricultura, pecuária e agroindústria. A partir
de 1995-1996, o inquérito foi refinado para captar mudanças na
atividade agrícola nacional, tais como: informações sobre a
agricultura familiar; sobre diferentes práticas agrícolas; formas de
ocupação da área, manejo e conservação do solo; utilização de
agrotóxicos; uso de agricultura orgânica e atividades aquícolas e
disponibilidade de água no estabelecimento. A pesquisa tem
abrangência nacional e obteve informações para o universo de
estabelecimentos agropecuários existentes no país, no período de
referência da pesquisa, sendo o estabelecimento a unidade de
investigação. Os dados estão diretamente disponíveis nos níveis
Brasil, Grandes Regiões, Unidades da Federação, Mesorregiões,
Microrregiões Geográficas e Municípios.

Pesquisa Anual de Comércio. Pesquisa amostral7 de
periodicidades de coleta e divulgação anuais (desde 1998) e que
cobre a temática do comércio e de estatísticas econômicas setoriais.
Os dados da pesquisa são coletados pelo IBGE estão disponíveis
nos níveis de Brasil, Grandes Regiões e Unidade da Federação da
Sede da Empresa. Dentre as principais variáveis levantadas estão:
informações sobre pessoal ocupado; dados de salários, retiradas e
outras remunerações; informações sobre demonstrativo da receita;
dados receitas líquidas de revenda; o destino das vendas; dados de
regionalização; entre outros.
Pesquisa Mensal de Comércio. Pesquisa amostral8 mensal (desde

janeiro de 2000) de abrangência nacional. O objetivo da pesquisa é
acompanhar o comportamento conjuntural dos principais segmentos
do comércio varejista, calculando de forma contínua e sistemática
indicadores de evolução da receita bruta de revenda das empresas
formalizadas dedicadas ao comércio varejista. Os dados levantados
têm como unidade de análise a empresa e são representativos para
as seguintes abrangências: Brasil, Ceará, Pernambuco, Bahia,
Minas Gerais, Espírito Santo, Rio de Janeiro, São Paulo, Paraná,
Santa Catarina, Rio Grande do Sul, Goiás e Distrito Federal, de
modo que para as demais unidades da federação são produzidos
indicadores gerais do comércio varejista. Dentre as principais
variáveis levantadas estão a receita bruta de revenda e o número de
estabelecimentos com receita de revenda.

Pesquisa Industrial Anual – Produto (PIA-Produto). A PIA é uma
pesquisa nacional de empresas coletada anualmente desde 1967.9
A pesquisa é realizada pelo IBGE e com base nela calculam-se
estatísticas econômicas setoriais das indústrias extrativas e de
transformação. A pesquisa objetiva obter informações de valores e
quantidades produzidas e vendidas dos produtos e serviços
industriais prestados por empresas, sendo organizada de acordo
com as categorias de atividades da Classificação Nacional de
Atividades Econômicas (CNAE). A PIA-Produto é baseada em um
painel intencional extraído entre as empresas industriais com 30 ou
mais pessoas ocupadas por meio de questionário eletrônico
autopreenchido. Dentre as principais variáveis levantadas estão: a
receita líquida de vendas de produtos e serviços industriais; o
código, descrição e unidade de medida do produto; entre outras que
permitem calcular a quantidade produzida e vendida e o valor das
vendas dos produtos.
Pesquisa Industrial Anual – Empresa (PIA-Empresa). A PIA-

Empresa, assim como a PIA-Produto, baseia-se na PIA anual.
Diferentemente da PIA-Produto, a PIA-Empresa caracteriza toda a
atividade industrial e levanta informações econômico-financeiras das
empresas industriais e de suas unidades locais. A pesquisa é
centrada nos dados informados pela contabilidade central e é
realizada sobre o conjunto de empresas industriais selecionadas
unicamente a partir do Cadastro Geral de Empresas (CEMPRE) e
formalmente constituídas que ocupam 1 ou mais pessoas. Até 2007,
a população coberta estava restrita às empresas com cinco ou mais
pessoas ocupadas. A coleta de dados é feita por meio de
questionário eletrônico autopreenchido e os dados estão disponíveis
de acordo com o número de pessoas ocupadas na empresa. Dentre
as principais variáveis levantadas pela pesquisa no nível da
empresa estão: pessoal ocupado; salários, retiradas e outras
remunerações; aquisições; melhorias e baixas de ativos tangíveis
realizadas no ano; entre outras. Entre as variáveis derivadas,
destacam-se: a receita líquida de vendas de produtos e serviços
industriais; e outras variáveis investigadas e derivadas na unidade
local.
Pesquisa Industrial Mensal – Produção Física (PIM-PF). A PIM-

PF é uma pesquisa de empresas conjuntural e de abrangência
nacional, realizada pelo IBGE, com periodicidades de coleta e de
divulgação mensais. A pesquisa tem por finalidade acompanhar a
evolução do produto real da indústria extrativa e da indústria de
transformação no curto prazo por meio da produção de indicadores.
Os índices são produzidos mensalmente para as unidades da
federação e para o Brasil. A coleta dos dados é feita por meio de
questionário, incluindo questionário eletrônico autopreenchido e
entrevista pessoal direta com questionário em papel. A principal
variável obtida pela pesquisa é a quantidade produzida dos produtos
da “Lista de Produtos Selecionados”, conjunto de produtos
escolhidos por critério específico de seleção amostral utilizado na
pesquisa.

Pesquisa Anual de Serviços (PAS). A PAS é realizada pelo IBGE
anualmente desde 1998. É uma pesquisa importante para o
entendimento da atividade de serviços no país e para o
acompanhamento de sua evolução temporal, sendo também
utilizada para o cálculo do PIB. A pesquisa levanta informações
sobre receitas, despesas, pessoal ocupado, salários, retiradas e
outras remunerações, valor adicionado, entre outros aspectos,
dando enfoque as empresas do setor com 20 ou mais pessoas
ocupadas. Também gera dados regionalizados sobre a distribuição e
a configuração do setor de serviços não financeiros.
Pesquisa Mensal de Serviços (PMS). A PMS é produzida com

periodicidade de divulgação e coleta mensais pelo IBGE para prover
dados que permitam o acompanhamento do desempenho
conjuntural do setor de serviços no Brasil. Investiga, em nível de
Brasil e unidades da federação, a receita bruta de serviços e o
número de estabelecimentos formalmente constituídos, cuja
atividade principal é um serviço não financeiro, com 20 ou mais
pessoas ocupadas, excetuando-se as áreas de saúde e educação.
A primeira pesquisa data do ano de 2011.

O Censo Escolar é um levantamento estatístico de abrangência
nacional realizado anualmente pelo Instituto Nacional de Estudos e
Pesquisas Educacionais Anísio Teixeira (INEP), em colaboração
com as secretarias estaduais e municipais de educação e com a
participação de todas as escolas públicas e privadas do país. Desde
2007 é realizado pela internet por meio do Sistema Educacenso10 e
coleta dados referentes a escolas, alunos e professores da
Educação Básica (Educação Infantil, creche e pré-escola, Ensino
Fundamental, Ensino Médio e Educação Profissional de nível
técnico, nas modalidades Regular, Educação de Jovens e Adultos e
Educação Especial) das redes pública e privada.
Os dados levantados sobre estabelecimentos de ensino, turmas,
alunos, profissionais escolares em sala de aula e movimento e
rendimento escolar permitem a construção de um panorama da
educação básica no país, que serve para orientar a elaboração de
políticas públicas e programas educacionais.
Dentre as principais variáveis da pesquisa, destacam-se as
características das escolas (local, infraestrutura, disponibilidade de
equipamentos didáticos, fornecimento de alimentação escolar, entre
outras), das turmas (horário de funcionamento, tipo de atendimento,
tipo de disciplinas, existência de atividade complementar, entre
outras), dos alunos (idade, gênero, etnia, uso de transporte escolar,
rendimento escolar) e dos docentes (idade, gênero, etnia,
escolaridade, função exercida na escola, disciplina que leciona).
3.2.12 Prova Brasil

A Prova Brasil, também conhecida por Avaliação Nacional do
Rendimento Escolar (Anresc), é realizada com periodicidade bienal
pelo INEP e integra o Sistema Nacional de Avaliação da Educação
Básica (SAEB). A pesquisa foi iniciada em 2005 e tem por objetivo
produzir informações que auxiliem o governo e as instituições de
ensino no estabelecimento de metas e planos para a melhoria da
qualidade do ensino no Brasil. É uma avaliação censitária realizada
sobre estudantes do 5º ano e 9º ano do Ensino Fundamental de
escolas públicas das redes municipais, estaduais e federal com, no
mínimo, 20 alunos matriculados. No entanto, a participação dos
alunos não é obrigatória. Os resultados são apresentados em uma
escala de desempenho por disciplina. Dentre as principais variáveis
da Prova Brasil estão dados da turma, da escola, dos professores e
diretores, de proficiência dos alunos por disciplina, características
dos alunos e dos responsáveis.
3.2.13 Cadastro Nacional de Estabelecimentos de

Saúde (CNES)
O CNES é um registro administrativo criado em 199911 pelo
Ministério da Saúde (MS) e pela Secretaria de Atenção à Saúde
(SAS) com periodicidade mensal. O CNES tem por finalidade
cadastrar todos os estabelecimentos de saúde do país, sejam eles
públicos, conveniados, privados, pessoa física ou jurídica, que
realizam algum tipo de serviço de atenção à Saúde no âmbito do
território nacional. Os dados compõem, portanto, um mapeamento
assistencial de saúde do território nacional. Dentre os principais
dados disponibilizados pelo CNES estão a localização do
estabelecimento de saúde, sua esfera jurídica, a natureza do
estabelecimento, a classificação do serviço, os dados de recursos
físicos e infraestrutura do estabelecimento, a indicação se o serviço
está disponível para os pacientes do SUS e as informações sobre
as equipes de saúde, entre outros.
3.2.14 Sistema de Informação da Atenção Básica

(SIAB)
O SIAB, de responsabilidade do Ministério da Saúde (Departamento
de Atenção Básica e da Secretaria de Atenção à Saúde),
disponibiliza informações sobre cadastros de famílias, condições de
moradia e saneamento, situação de saúde, produção e composição
das equipes de saúde. Foi implantado em 1998, substituindo o
Sistema de Informação do Programa de Agentes Comunitários de
Saúde (SIPACS), com o objetivo de acompanhar as ações e
resultados das atividades realizadas pelas equipes do Programa
Saúde da Família (PSF), servindo, entre outros usos, como
ferramenta para orientação na elaboração de políticas no campo da
saúde e para a tomada de decisão pelos gestores do SUS.
A unidade de coleta do sistema é a equipe de Saúde da Família,
na figura do agente comunitário. A pesquisa é realizada sobre a
população atendida pelo PACS/PSF. Dentre as variáveis disponíveis
nas bases de dados do SIAB estão: o modelo de atenção; a zona de
referência (urbana ou rural); quantidade de nascidos vivos; número
de gestantes; número de casos de tuberculose registrados; número
de domicílios com abastecimento de água; número de domicílios de
acordo com o destino dado ao lixo do domicílio e ao esgoto; número
de domicílios de acordo com o tipo de parede da casa; número de
indivíduos hospitalizados por abuso de álcool; entre outras.

O SIM é um sistema de informações de registros administrativos
com periodicidade contínua sob a responsabilidade do Ministério da
Saúde e da Secretaria de Vigilância à Saúde. Constitui uma
importante base para gestores atuarem na área de saúde do país,
pois por meio dos dados coletados sobre óbitos no território
nacional, aliados à causa mortis atestada pelo médico, é possível
gerar estatísticas e indicadores de saúde e fazer análises
epidemiológicas. A coleta dos dados é realizada pela Declaração de
Óbito (DO) padronizada, que deve ser preenchida pelo médico ou
pessoa qualificada que tenha verificado o óbito. Essas declarações
são recolhidas pela Secretaria de Saúde respectiva da localidade,
que insere os dados no sistema. Os dados são consolidados
mensalmente. Dentre as variáveis agregadas disponíveis no SIM
destacam-se, o número de óbitos por causa e mês/ano de
ocorrência, o sexo e faixa etária da pessoa falecida, entre outras.
3.2.16 Sistema de Informações Hospitalares do SUS

(SIHSUS)
O SIHSUS registra permanentemente todos os atendimentos
provenientes de internações hospitalares em estabelecimentos de
saúde cujo pagamento é feito pelo Sistema Único de Saúde (SUS).
Tem coleta permanente. As principais variáveis coletadas são dados
do paciente (idade, gênero, local de residência, ocupação), dados
da hospitalização (especialidade, admissão, permanência, dias de
UTI), procedimentos realizados (código do procedimento, tipo do
procedimento ou profissional) e custo hospitalar (serviços de
diagnóstico, terapia, materiais etc.).
3.2.17 Sistema de Informações de Nascidos Vivos

(SINASC)
O SINASC reúne informações epidemiológicas dos nascimentos em
todo o Brasil a partir das declarações de nascidos vivos nos
estabelecimentos de saúde e nos cartórios (para partos
domiciliares). O sistema é gerido pelo Departamento de Análise de
Situação de Saúde, da Secretaria de Vigilância em Saúde, em
conjunto com as Secretarias Estaduais e Municipais de Saúde.
Representa importantes dados sobre as declarações de
nascimentos, características da mãe (residência, idade, gênero),
questões relacionadas à saúde da mãe e do recém-nascido (tipo do
parto, peso ao nascer, duração da gestação, número de consultas
pré-natal).

O SCN é elaborado pelo IBGE e tem como núcleo central as Contas
Econômicas Integradas: uma sequência de contas de fluxos inter-
relacionadas, detalhadas por setor institucional. Dentre seus
objetivos está o de representar de forma completa o funcionamento
da economia e os fenômenos essenciais da mesma, como a
produção de bens e serviços, a geração, alocação e distribuição da
renda, o consumo e a acumulação. Além disso, mostra as relações
entre a economia mundial e a economia nacional.
A elaboração do SCN é dividida em duas áreas: 1) a estimação
de uma Tabela de Recursos e Usos (TRU) a preços correntes e
constantes do ano anterior; e 2) a estimação da Conta Econômica
Integrada (CEI). A primeira ilustra as operações de produção,
importação e uso intermediário e final das atividades econômicas,
oferecendo estimativas da oferta e demanda de bens na economia.1
2 As CEIs contêm um desenho do conjunto da economia,
descrevendo os fenômenos principais de cada setor institucional e
suas inter-relações no período de análise. O IBGE disponibiliza em
seu website as informações e a série completa do SCN desde 2000.

As Pesquisas de OD são uma importante ferramenta para o
planejamento e avaliação da mobilidade nas cidades e no seu
entorno. Estas pesquisas fornecem uma ilustração dos principais
padrões de deslocamento das pessoas na região de análise a partir
da identificação das origens e destinos dos deslocamentos dos
cidadãos (horário e duração do deslocamento), dos meios de
transporte associados, dos motivos do deslocamento a eles
correspondentes (trabalho, estudo, mercado, entre outros) e demais
atributos operacionais e socioeconômicos. Com esses dados, os
formuladores de políticas urbanas verificam os principais anseios da
população em relação à mobilidade e os gargalos do atual sistema
de transportes.
Há dois tipos de Pesquisas OD: a domiciliar (entrevista em
domicílios amostrados em que se tomam dados de deslocamento e
socioeconômicos de seus moradores relativos a deslocamentos
anteriores); e a pesquisa na linha de contorno (informações das
viagens das pessoas que passam pela região em análise, como
origem ou destino em seu trajeto, relativas ao deslocamento
realizado no momento da entrevista).

O Relatório FINBRA, de responsabilidade da Secretaria do Tesouro
Nacional, é uma base de dados estratégica, de periodicidade de
coleta e divulgação anuais, com início em 1989. É a fonte utilizada
para estudos das finanças municipais e os dados são reportados
pelos gestores municipais. As principais variáveis do FINBRA
constituem dados contábeis e de execução orçamentária dos
municípios, assim como informações do Balanço Patrimonial dos
mesmos. Desde 2005 são reportados, também, dados de despesas
dos municípios por função e subfunção.

O TSE elabora e divulga uma série de estatísticas relativas aos
dados eleitorais, as quais resultam da compilação dos dados dos
tribunais regionais eleitorais. Essa base de dados possui estatísticas
sobre os resultados das eleições, o perfil do eleitorado brasileiro
(gênero, grau de instrução, faixa etária), justificativas eleitorais,
entre outras. As estatísticas estão divididas em quatro categorias:
eleitorado (perfil do eleitorado brasileiro informados pelos cidadãos
no momento de seu cadastro.); candidatos (perfil dos candidatos,
declarações de bens e dados sobre os partidos, as coligações e as
vagas por cargo e por unidade eleitoral); resultados (votação total,
por partido/legenda, por zona eleitoral); e prestação de contas
(prestação de contas de candidatos, partidos e comitês, receitas e
despesas de campanhas).
3.2.22 Cadastro Geral de Empregados e

Desempregados (CAGED)
O CAGED é um registo administrativo que cobre todo o território
nacional e de periodicidade mensal elaborado pelo Ministério do
Trabalho e Emprego (MTE). Os dados acompanham o registro de
admissões, desligamentos e transferências de funcionários com
contrato de trabalho regido pela Consolidação das Leis do Trabalho
(CLT), tendo por objetivo prover informações a respeito do mercado
de trabalho formal no Brasil. Todo estabelecimento que tenha
quadro de funcionários regido pelo regime de contratação da CLT, e
que tenha realizado qualquer alteração neste quadro, deve declarar
o registro permanente de admissões e desligamentos de seus
funcionários CLT mensalmente ao MTE. Esse conjunto de dados
possui informações sobre o setor da atividade econômica, a
ocupação do emprego e os salários de admissão e demissão.

A RAIS é uma base de dados estatística do tipo registo
administrativo de âmbito nacional elaborada anualmente pelo
Ministério do Trabalho e Emprego (MTE) desde 1975. A RAIS é
gerada a partir dos dados declarados por todos os estabelecimentos
sobre suas características e as de seus funcionários.
Os dados das bases RAIS Trabalhadores e RAIS
Estabelecimentos permitem a consulta a variáveis como: o número
de empregados ao final do ano segundo faixa etária, escolaridade,
etnia e gênero por nível geográfico, setorial e ocupacional; o número
de empregados por tamanho de estabelecimento e setor da
atividade econômica; remuneração média dos empregados ao final
do ano; tamanho do estabelecimento declarado; entre outras.
3.2.24 Sistema Gerenciador de Séries Temporais (SGS)

do Banco Central
O Banco Central, por meio de do SGS, disponibiliza um conjunto de
séries de dados e indicadores econômicos. O sistema consolida
dados econômico-financeiros relevantes e uniformiza as séries e
documentos produzidos pelo Banco Central. Os dados são
subdivididos por: atividade econômica; economia regional;
expectativas do mercado; inclusão financeira; indicadores
monetários; Mercosul; setor externo; tabelas especiais; economia
internacional; estabilidade financeira; finanças públicas; indicadores
de crédito; mercados financeiros e de capitais; multiplicadores de
unificação monetária; e Sistema Financeiro Nacional. Dentre as
séries mais pesquisadas no sistema estão as séries de taxa de juros
referencial (TR), de taxa de juros básica (TBF), de depósitos de
poupança, de taxa de juros de CDI e de depósitos de poupança.

O Cadastro Único dos Programas Sociais (CadÚnico) é uma base
de dados de responsabilidade do Ministério do Desenvolvimento
Social e Agrário (MDS) com o objetivo de identificar e caracterizar
as famílias de baixa renda do país, auxiliando na análise e
elaboração de políticas públicas pelo governo e na implantação e
acompanhamento de programas sociais do governo. São incluídas
no CadÚnico famílias cuja renda mensal é de até meio salário-
mínimo por pessoa, ou que tenham renda mensal total de até 3
salários-mínimos.13 Os dados das famílias são coletados por meio
de visitas domiciliares às famílias de baixa renda ou pelo
preenchimento do formulário do CadÚnico.
Os dados do CadÚnico são divulgados agregados para o Brasil,
por Grandes Regiões, Unidades da Federação, ou Municípios. Os
dados contêm informações sobre as famílias e seus integrantes
como nome, localização, e características das famílias (despesas,
rendimentos, escolaridade dos membros da família, situação no
mercado de trabalho, entre outras).
3.3 EXERCÍCIOS
1. Usando os dados do arquivo peso.xls, construído a partir da

PNS de 2013:
a) Quantos dias, no mínimo e no máximo, os indivíduos
analisados consomem doces? E na média?
b) Crie uma variável em que a altura seja medida em metros.
Qual a relação esperada entre a média de altura medida
em metros e a medida em centímetros? Qual a correlação
entre as duas variáveis? Justifique.
c) Qual é o peso médio declarado e medido em laboratório?
Esses valores são iguais? Faça um teste de média.
2. Usando os dados disponíveis da PNAD de 2014, construiu-se a

base filhos.xls com informações para mulheres entre 18 e 45
anos:
a) Qual a proporção de mulheres? Quantas mulheres não
responderam sobre o seu nível de escolaridade?
b) Gere um gráfico de pizza com a variável do número de
filhos vivos. Interprete-o.
c) Você espera que anos de educação e número de filhos
estejam correlacionados? Encontre o coeficiente de
correlação entre essas variáveis.
3. Usando os dados da PNAD contínua para o primeiro semestre

de 2016, foi construído o arquivo trabalho.xls contendo
informações para indivíduos inseridos no mercado de trabalho de
ambos os gêneros de 14 a 94 anos:
a) Restrinja a base de dados para indivíduos com até 65 anos
inseridos no mercado de trabalho. Quantas unidades de
observações sobraram?
b) Dentre as mulheres, qual a proporção que possui carteira
assinada? E dentre os homens? Interprete os resultados.
c) Qual a média de salário para homens? E para mulheres? A
diferença entre eles parece significante? Faça o teste e
discuta.
4. A base sinasc-2014.xls traz algumas variáveis para uma

amostra aleatória de nascidos vivos em 2014, segundo o
SINASC. Usando esses dados, responda:
a) Qual a proporção de gravidez múltipla (gêmeos, trigêmeos
ou mais)? Nascidos gêmeos (trigêmeos ou mais) possuem
peso de nascimento menor? Justifique.
b) Há evidências de que bebês com mais irmãos nascem com
maior/menor peso? Mostre graficamente.
c) Há correlação entre o peso de nascimento e o número de
semanas que durou a gestação? Encontre o coeficiente de
correlação.
d) Qual relação é apontada pelos dados entre a duração
média da gravidez e o tipo de parto realizado? Com base
no item anterior, o que você espera da relação peso médio
de nascimento e parto normal? O que os dados mostram?
5. O arquivo pnscigs.xls apresenta dados sobre hábitos

relacionados ao cigarro para uma subamostra da PNS de 2013.
Usando esses dados, responda os itens abaixo.
a) A variável icigs traz a idade que o fumante começou a
fumar. Assim, para as pessoas que nunca fumaram a
variável é missing. Usando os dados da variável icigs e da
variável que indica se a pessoa fuma ou não, encontre a
quantidade de ex-fumantes na amostra.
b) Descubra quantas pessoas fumam cigarro não
industrializado.
c) Em 2012 passou a vigorar uma lei que estabelecia preço
mínimo de R$3,00 por maço de cigarro, e impunha um
aumento de R$0,5 a esse preço mínimo em cada ano
subsequente. Quantas pessoas dessa subamostra
estavam adquirindo cigarro abaixo do preço estabelecido?
Interprete.
6. Usando o arquivo imoveis.xls, que contém uma amostra dos

lançamentos de imóveis residenciais em São Paulo de 1985 a
2008, a preços de 2000, responda os seguintes itens:
a) Qual a zona de São Paulo com o maior preço médio de
lançamento por área útil?
b) Gere um gráfico de barras mostrando a área média dos
imóveis lançados por ano.
c) De modo geral, compare as características de imóveis
próximos e distantes do metrô?
7. A base escolas.xls traz informações sobre o desempenho

médio das escolas da rede pública de ensino na Prova Brasil em
2015 (nota média em português e matemática na escala SAEB
para 5º e 9º ano), bem como algumas características da
instituição de ensino. Usando esses dados, responda:
a) Qual a porcentagem de escolas que possuem merenda
escolar? E com reforço escolar? E atividades
extracurriculares? E com as três características?
b) Faça um gráfico mostrando a quantidade de escolas em
cada um dos níveis socioeconômico (muito alto, alto, médio
alto, médio, médio baixo, baixo e muito baixo).
c) Sabendo que a participação na Prova Brasil não é
obrigatória aos alunos, você acredita que as escolas que
tiveram alta taxa de participação na prova obtiveram notas
mais ou menos altas? Justifique usando os dados.
8. A base de dados em vereadorsp.xls contém dados sobre as
eleições para vereador no município de São Paulo em 2012.
a) Quantos votos cada partido político recebeu? Qual foi o
partido que mais gastou com campanha?
b) Encontre a quantidade de cadeiras ocupadas por cada
partido na Câmara de Vereadores.
c) A princípio, todos os candidatos não eleitos para vereador
se tornam suplentes da Câmara de Vereadores. Os
suplentes podem ou não assumir, a depender da
quantidade de eleitos afastados que renunciam ou
assumem outro cargo. A lista de suplentes é por partido e a
ordem é dada pela quantidade de votos. Considere que um
eleito de cada partido seja afastado, encontre os suplentes
que assumiriam cargo de vereador.
1 Em termos amostrais, a pesquisa suplementar é feita da mesma forma

que a PNAD Anual.
2 Em 2008, houve uma investigação adicional sobre o cadastramento dos
domicílios no Programa de Saúde da Família, informações sobre a
realização de exames preventivos da saúde das mulheres e fatores de
risco e proteção à saúde da população (atividade física, tabagismo,
trânsito e violência).
3 Auxílio-Gás, Bolsa Família, Cartão Alimentação, Bolsa-Alimentação,
Benefício Assistencial de Prestação Continuada (BPC–LOAS), entre
outros.
4 Nos anos 2013 e 2014, o suplemento em questão passou a ser chamado
“Acesso à Internet e à Televisão e Posse de Telefone Móvel Celular para
Uso Pessoal” e complementou a pesquisa com informações sobre o
acesso ao sinal digital de televisão aberta.
5 Tais como, Bolsa Família, Minha Casa Minha Vida, Pronatec, tarifa social
de energia elétrica.
6 Inclui monitoramento sobre o estilo de vida, tal como o uso de tabaco, de
bebidas alcóolicas, a prática de exercícios físicos e hábitos alimentares.
7 Procedimento de amostragem probabilística selecionada a partir do
Cadastro Central de Empresas do IBGE (CEMPRE).
8 Método de amostragem probabilística com estratificação por Unidade da
Federação e atividades econômicas de empresas registradas no
Cadastro Nacional de Pessoas Jurídicas do Ministério da Fazenda com
20 ou mais pessoas ocupadas.
9 A amostragem probabilística de estabelecimentos foi introduzida em
1981. Entretanto, apenas em 1996 foi criada a PIA-Produto, que passou a
investigar de forma sistemática a produção das principais indústrias do
Brasil, de modo que a série da mesma tem início no ano de 1998.
10 Os formulários do Censo Escolar são de preenchimento obrigatório pelas
instituições de ensino das redes pública e privada.
11 O CNES foi criado em 1999, mas só começou a ser realizado em nível
nacional, sobre a totalidade de estabelecimentos de saúde do Brasil, em
2003.
12 Além disso, contém os componentes do valor adicionado, o total de
pessoas ocupadas por atividade econômica e o Produto Interno Bruto
brasileiro.
13 Pode-se incluir famílias com renda superior a essas faixas caso as
mesmas estejam vinculadas à seleção ou acompanhamento de
programas sociais do governo.
4
MODELO DE REGRESSÃO LINEAR

SIMPLES
N
o Capítulo 2 discutimos a importância de encontrar efeitos
causais entre as variáveis de interesse. Neste capítulo,
vamos descrever com mais detalhes o modelo
econométrico mais simples que podemos propor, o modelo
de regressão linear simples, e quais são as hipóteses necessárias
para que ele gere bons estimadores (que reflitam um efeito causal
com precisão), para os parâmetros de interesse.
4.1 INTRODUÇÃO
O modelo de regressão simples propõe o estudo da relação entre
apenas duas variáveis econômicas. Esta relação simplificada será
estudada para introduzir os conceitos de que precisaremos
futuramente em análises mais complexas. O objetivo aqui é explicar
uma variável Y em termos de uma outra variável X, ceteris paribus
(i.e., supondo que outros fatores estejam fixos ou constantes).1
Essa condição é fundamental para inferirmos causalidade entre as
variáveis. Em estudos empíricos, precisamos sempre nos perguntar:
Foi possível manter os outros fatores relevantes constantes para
poder afirmar que a relação entre as variáveis econômicas é de
causalidade?
Vamos analisar o modelo de regressão linear simples:
y = β0 + β1 x + u
Como vimos, y é a variável dependente e x representa a variável

que explica y, a variável independente. O termo de erro, ou fatores
não observados, é u e os betas do modelo, β0 e β1, são parâmetros
populacionais que se relacionam com os efeitos pretendidos.
Suponha que o modelo linear anterior esteja correto para medir a
relação entre y e x. Vimos que β1 = Δy/Δx, quando Δu = 0 (os outros
fatores que explicam y, que não o x, são mantidos constantes
quando x varia).
Assim, ceteris paribus, temos que β1 mede o efeito de uma
variação em x sobre a variação de y. Para fazermos essa afirmação,
é evidente que precisamos entender como u se comporta quando x
varia. Assumiremos algumas hipóteses (que devem fazer sentido na
prática) de forma que possamos medir os efeitos pretendidos.
Sabemos que u e x são variáveis aleatórias. Supondo que
observamos uma amostra de dados (realizações destas variáveis
aleatórias), vamos precisar assumir hipóteses baseadas na
distribuição de probabilidades delas.
Para completar o estudo da regressão linear simples, temos que
β0 é o valor médio de y quando x = 0. Veremos adiante que, quando
β0 é incluído no modelo, os fatores não observados da população
têm média zero.
QUADRO 4.1
Relação entre a produtividade agrícola e o emprego de
mão de obra
Um modelo simples que relaciona a produtividade agrícola à
quantidade utilizada de mão de obra na lavoura é:
produtividade = β0 + β1 trabalho + u
Podemos medir a produtividade pela quantidade de sacas,

quilogramas ou toneladas por área plantada. Já a variável de
trabalho poderia ser a quantidade de trabalhadores empregados por
área plantada. Logo, no termo de erro estão incluídos todos os
demais fatores ligados à produção (outros insumos utilizados –
como quantidade de terra, fertilizantes, uso de tratores – e
condições da região – como a qualidade do solo, a exposição ao
clima etc.).
Neste exemplo, para que β1 seja o efeito causal de um trabalhador
a mais por área na produtividade agrícola, deve-se considerar que
os fazendeiros não escolhem o número de trabalhadores em
conjunto com o uso de outros insumos (ou para corrigir eventuais
problemas existentes na qualidade do solo, ou exposição ao clima),
o que equivale a dizer que ao considerarmos um acréscimo de
trabalhadores na lavoura, os demais fatores que explicam a
produção (que não trabalho) são mantidos constantes.
QUADRO 4.2
Retorno salarial da educação
A tentativa de estimar os retornos salariais da educação é base de
uma enorme literatura em microeconomia aplicada. O modelo mais
simples é aquele que relaciona salários a anos de estudo de forma
linear, conforme mostrado a seguir.
salário = β0 + β1 educação + u
A variável de salário é comumente medida em reais por hora de

trabalho, a fim de tornar comparáveis as ocupações com jornada
semanal de 44 horas com aquelas que possuem jornadas menores
(em geral 40 horas, pra trabalhos em tempo integral, ou 20 horas,
para trabalhos em tempo parcial). A variável educação, em geral, é
medida em anos de estudos. Outras formas de mensurar essa
variável serão vistas mais à frente. No termo u estão incluídos todos
os fatores que impactam o salário, que não educação, tais como
experiência profissional, ocupação e outras habilidades importantes
para o mercado de trabalho.
Para que β1 seja o efeito causal de “educação” em “salário”, outros
fatores não observados que explicam y devem ficar constantes,
conforme aumentam os anos de escolaridade dos indivíduos. Se
isso ocorre (veremos que é uma condição muito forte para ser
imposta nessa relação), podemos dizer que β1 mede o efeito causal
de educação em salários, ou seja: Para cada ano adicional de
escolaridade, o salário médio dos indivíduos aumenta β1 reais por
hora. Já o parâmetro β0 é uma medida de salário para os indivíduos
que não possuem qualquer escolaridade (educação = 0) quando u =
0. Veremos que podemos entender esse parâmetro como um salário
médio para indivíduos com 0 anos de educação.
QUADRO 4.3
Efeito do tamanho sobre os preços dos imóveis
Além das influências macroeconômicas (condições do mercado de
crédito, condições da atividade econômica local), o preço de
lançamento de imóveis é influenciado pelo tamanho dos mesmos,
em geral medido pela área útil (somatório da área de ambientes
internos). Ao comparar imóveis na mesma região, temos que, em
geral, quanto maior a área útil mais alto é o preço de mercado. Essa
relação pode ser representada pelo modelo a seguir.
preço = β0 + β1 área útil + u
O preço do imóvel é dado em unidades monetárias (R$), enquanto a
área útil é medida em metros quadrados (m²).
Neste exemplo, para que β1 meça o efeito causal do aumento da
área de um imóvel sobre o preço do mesmo, deve-se considerar
que nenhuma outra característica que impacte no preço do imóvel
mude com o aumento de área (número de dormitórios, número de
banheiros, entre outras).
Assim, quando consideramos que u não varia dada uma

alteração em x, em outras palavras dizemos que a correlação linear
entre x e u é zero. A Corr (x, u) = 0 implica que não há dependência
linear entre x e u. Note que isso não cobre possíveis relações não
lineares entre essas variáveis.2 Para incluir os casos de
dependência não linear entre u e x (correlações nulas entre u e
funções de x), assumimos a hipótese da média condicional zero:
E (u|x) = E (u) = 0
A hipótese de média condicional zero impõe o conceito de

independência mais forte que Corr (x, u) = 0 entre x e u. Como E
(u|x) = E (u) = 0 ∀ x, o valor esperado de u independe de qualquer
função de x.
No exemplo do Quadro 4.2, vimos que outras variáveis
(excluindo a escolaridade) que explicam y salários, como outras
habilidades valorizadas no mercado de trabalho, estão dentro de u.
A hipótese de que E (u|escolaridade) = E(u) = 0 requer que o nível
médio esperado de habilidade seja o mesmo para grupos de
indivíduos de mesma escolaridade, para qualquer nível de
escolaridade, isto é, seja independentemente do nível educacional.
4.2 ESTIMAÇÃO DO MODELO DE REGRESSÃO SIMPLES
No modelo de regressão simples, estamos interessados em
encontrar os valores dos β0 e β1. Idealmente, gostaríamos de obter
os valores populacionais (constantes), mas estes são
desconhecidos. Assim, vamos buscar estimadores para esses
parâmetros com base em uma amostra de dados. Vamos supor,
inicialmente, que temos uma amostra aleatória com n observações
das variáveis de interesse: {(xi, yi): i = 1, ..., n}. Se o modelo de
regressão linear simples é válido para a população, ele também
será válido para todas as observações da amostra. Assim, podemos
escrever o modelo para cada i da amostra:
yi = β0 + β1 xi + ui, ∀ i = 1, ..., n
Vimos que duas hipóteses sobre o modelo populacional são

importantes para inferirmos causalidade na relação entre y e x e,
também, para a inclusão do intercepto no modelo:
E (u) = 0: quando há intercepto (β0) no modelo; e

E (u|x) = 0: quando há x no modelo para explicar y.
Como vimos, E (u|x) = 0 implica que u é independente na média

condicional a x, o que nos leva à seguinte condição de momento
(mais fraca): Cov (u, x) = 0 ou E (xu) = 0, a qual também deverá ser
satisfeita pelo modelo de regressão linear, implicando a causalidade
de β1. Sabemos que a esperança é o primeiro momento da
distribuição de probabilidades de u (condicional a x), ou seja, estas
hipóteses são sobre os momentos populacionais. Se as hipóteses
anteriores são válidas, podemos aplicá-las ao modelo de regressão
linear, resultando na seguinte equação (chamada de função de
regressão da população):
A função de regressão da população indica o valor médio de y

(valor esperado) condicional a x, ou seja, obtém-se o mesmo valor
médio de y para grupos de observações com mesmos valores de x.
Um exemplo dessa equação pode ser visualizada na Figura 4.1 (os
pontos cinzas mostram as observações da população).
FIGURA 4.1
Representação da equação de regressão da população: E (u|x).
Substituindo u (u = y – β0 – β1 x) dentro das duas hipóteses
importantes do modelo de regressão linear simples, temos:
E (y – β0 – β1 x) = 0
E (x (y – β0 – β1 x)) = 0
Essas duas expressões referem-se aos momentos populacionais

de u. Logo, podemos encontrar estimadores para β0 e β1 utilizando
o Método dos Momentos. Isto é, se temos uma amostra
representativa (amostra aleatória com n observações) para essa
população, podemos escrever os seguintes momentos amostrais
(ou contrapartidas amostrais):
Aproximamos o valor esperado pela média simples usando os

valores da amostra. Os valores de β0 e β1 que resolvem as duas
condições anteriores são os estimadores para esses parâmetros
pelo Método dos Momentos. Identificaremos estes estimadores pelo
“^” sobre os parâmetros a que se referem e com o sobrescrito “MM”.
Rearranjando os termos do primeiro momento amostral, temos:3
Resolvendo a segunda equação de momento amostral, temos:4

Note que é preciso que (>0) para que exista o
estimador para β1 pelo Método dos Momentos. Quando
significa que não há variação nos valores de x na amostra, ou seja,
todas as observações possuem o mesmo valor de x, o que não faz
sentido quando nosso interesse é avaliar o quanto y varia em
resposta à variação de x. Precisamos da variação de x para
identificar o efeito.5
Se dividirmos o numerador e o denominador de MM por (N – 1),
veremos que é a razão entre estimadores de covariância de x e y
e da variância de x:
Assim, se x e y são positivamente (negativamente)

correlacionados, o sinal do estimador pelo método dos momentos
de será positivo (negativo).
4.2.2 Estimador pelo Método dos Mínimos Quadrados

Ordinários (MQO)
Outro método muito utilizado para encontrar estimadores para os
parâmetros do modelo de interesse é o método dos Mínimos
Quadrados Ordinários (sigla em inglês: OLS). Para encontrar estes
estimadores, precisamos entender dois conceitos importantes: i) o
valor estimado de y (ŷ); ii) o resíduo para cada observação i (ûi).
O valor estimado de y (valor predito, ou valor previsto de y) é o
que chamamos de reta de regressão da amostra (ou função de
regressão amostral):
Ou seja, é o valor estimado para y, considerando os estimadores

(e não os parâmetros verdadeiros) e os valores de x. A partir dele,
podemos desenhar o gráfico da relação entre y e x usando dados da
amostra, relação essa que chamamos de reta de regressão (os
pontos em cinza mostram as observações da amostra). Vamos
comparar com a equação populacional que vimos na Figura 4.1.
FIGURA 4.2
Representação da equação de regressão da amostra ŷ e da equação de
regressão da população (E (y|x)).
A partir da Figura 4.2, podemos também visualizar o resíduo da
regressão. O resíduo, para cada observação i, é a diferença entre o
valor observado de y e o valor previsto para y (ŷ, que está sobre a
reta de regressão):
O resíduo (û) não deve ser confundido com o erro (u), do modelo
populacional. Há um resíduo para cada observação da amostra
(portanto, n resíduos). Quanto melhor for o ajuste da reta de
regressão amostral aos dados, menores os valores dos resíduos.
Este é, na verdade, o princípio por trás do estimador de Mínimos
Quadrados Ordinários, encontrar a reta de regressão que minimiza
a soma dos resíduos. Assim, os estimadores de MQO ( e )
são aqueles que minimizam a Soma dos Quadrados dos Resíduos
(SQR):6
Podemos resolver esse problema de minimização derivando as

condições de primeira de segunda ordem da função objetivo (SQR=
). As Condições de Primeira Ordem
geram os seguintes resultados:
As CPO geram duas equações (e temos duas incógnitas: e

). Resolvendo o sistema, temos:
Para verificarmos se os estimadores anteriores se referem aos

pontos de mínimo da função objetivo, precisamos checar as
Condições de Segunda Ordem, que geram a seguinte matriz (A):
Os pontos serão de mínimo se o determinante da matriz A for
positivo. Calculando o determinante da matriz temos:7
Portanto, os estimadores e são pontos de mínimo. Eles

não serão pontos de mínimo quando , o que significaria
que não há variação de x na amostra. Vimos que se isso ocorre não
conseguiremos derivar o estimador de MQO para β1.
Note também que, pela função que determina , temos que (x‒,
y‒) está sobre a reta de regressão: .
4.2.3 Estimador pelo Método de Máxima

Verossimilhança (MV)
Outra forma de estimar os β’s da regressão simples é por meio do
Método da Máxima Verossimilhança. Para isso, precisaremos
conhecer, ou supor, uma distribuição de probabilidades para a
variável y. Vamos supor, por facilidade de exposição, que y tenha
uma distribuição normal (condicional a x e aos parâmetros de
interesse) com média E (y|x) = β0 + β1x e variância V (y|x) = σ2. Se
temos uma amostra aleatória de {(xi, yi) ∀ i = 1, ..., n}, isso implica
que cada yi|xi será independente e identicamente distribuído (i.i.d),
ou seja, também terá distribuição normal com média E (yi|xi) = β0 +
β1xi e variância V (yi|xi) = σ2 ∀ i, ou seja:
Assim, a função densidade de probabilidade de y condicional a x
e aos parâmetros será:
Portanto, a função de verossimilhança e log-verossimilhança

serão, respectivamente:
Nosso objetivo é, encontrar os estimadores para β0, β1 e σ2 que

maximizem a função de verossimilhança (ou de log-
verossimilhança) da amostra. As CPO do problema de maximização
geram as seguintes equações:
Note que as duas primeiras equações são equivalentes às CPO

do problema de MQO. Sendo assim, para o caso do modelo de
regressão linear, em que y|x siga uma distribuição normal tal que
yi|xi ~ N (β0, β1xi, σ2), temos que:
Para verificar se esses estimadores de MV são pontos de
máximo, é preciso derivar as C.S.O, i.e., verificar se a matriz das
derivadas segundas é negativa definida. A matriz das segundas
derivadas será:
Podemos mostrar que o determinante desta matriz é negativo:
O determinante é sempre negativo se .

Se a função densidade de probabilidade do y estiver correta, os
estimadores de Máxima Verossimilhança terão as melhores
propriedades assintóticas dentre todos os estimadores. Esse
estimador é conhecido por estimador de informação completa (full
information), pois precisamos da hipótese sobre toda a distribuição
de y para derivar os estimadores, ao contrário dos estimadores de
MQO e do MM.
Lembre-se que os estimadores são funções de variáveis da amostra
com o objetivo de inferir sobre parâmetros desconhecidos ( é um
estimador para β1, que é desconhecido, mas mede a relação entre y
e x). Assim, eles são funções de variáveis aleatórias, que assumem
valores reais como resultado de experimentos. Logo, os
estimadores serão, também, variáveis aleatórias com distribuições
de probabilidade.
Após encontrarmos um estimador para os parâmetros do
modelo, vimos que podemos escrever a reta de regressão da
seguinte forma:
Assim, , ou seja, mede a variação no valor previsto de y

dada uma variação em x (ceteris paribus). Já mede o valor médio
da previsão de y para quando x = 0. Veja nos Quadros 4.4 e 4.5
exemplos de interpretação desses estimadores.
QUADRO 4.4
Estimação da regressão simples entre salários e
escolaridade no Brasil
Usando uma subamostra dos dados da PNAD de 2014 para
pessoas adultas inseridas no mercado de trabalho (consideraremos
indivíduos adultos aqueles cuja idade varia entre 18 e 65 anos),
queremos entender o efeito de anos de educação sobre o
salário/hora no Brasil. Ao estimar a regressão linear simples pelo
Método de MQO, encontramos os seguintes resultados:
Se o efeito anterior é causal (veremos sob quais condições isso

ocorre), os resultados sugerem que um ano a mais de educação
(Δeduc = 1) aumenta, em média, R$1,41 o salário recebido por hora
dos trabalhadores adultos no Brasil.
QUADRO 4.5
Estimação da regressão simples entre fecundidade e
educação
Usando novamente uma subamostra dos dados da PNAD de 2014
para mulheres entre 18 e 45 anos, verificamos a influência da
educação, medida por anos de estudo, na fecundidade,
representada pelo número de filhos vivos:
= 3,14 –0,11 educ
Interpretando os efeitos como causais (ou seja, se não houver
outros fatores que explicam y, ou se u for independente de educ), o
resultado indica que mulheres com mais educação decidem ter
menos filhos. Se o estimador tiver boas propriedades, cada ano a
mais de educação reduz, em média, 0,11 o número de filhos de uma
mulher.
4.3 GRAU DE AJUSTE DA REGRESSÃO
As Condições de Primeira Ordem da estimação por MQO e por MV,
assim como as equações de momento amostrais do MM, geram o
seguinte resultado:
1. Média amostral dos resíduos é igual a zero:
2. Covariância amostral entre o x e é zero:
A partir destas duas relações, podemos derivar um resultado

importante sobre a relação entre y, x e û:
• a Soma dos Quadrados dos Resíduos: SQR = ∑ i
2
• a Soma dos Quadrados Totais de y: SQT = ∑ (yi – ȳ)2 e

• a Soma dos Quadrados Explicados: SQE = ∑ (ŷi – ȳ)2
Note que
Como , o segundo termo é nulo. Note que , pois o

ponto ( ) pertence à reta de regressão. Assim, temos:
SQT = SQR + SQE

Esta relação nos permite derivar o coeficiente R2, que é um
indicador de quanto da variação de y (expressa pela SQT) é
explicada pela variação de x (relação essa expressa pela SQE), ou
seja:
Assim:
Pela expressão anterior, temos que 0 ≤ R2 ≤ 1.8 É comum

obtermos R2 baixos (próximos a 0) para dados em corte transversal
em comparação com dados em séries de tempo. Entretanto, isso
não significa que as estimativas não são boas, tampouco que os
estimadores de MQO, ou por outros métodos de estimação, sejam
inúteis. O que definirá a qualidade do estimador serão suas
propriedades (como o não viés e a eficiência, por exemplo).
A Figura 4.3 ilustra exemplos de amostras para casos em que
temos R2 de diversos valores.
FIGURA 4.3
Exemplos da relação entre as observações da amostra e valores do R2.
QUADRO 4.6
Estimação da regressão simples entre salários e
escolaridade no Brasil
No exemplo do Quadro 4.4, vimos que a regressão de salário-
educação usando dados brasileiros chegou aos seguintes
resultados:
salario = –0,52 + 1,41educ + u
R2 = 0,0125
O coeficiente R2 mostra que educação explica 1,25% do total da
variação de salários. No entanto, para verificar se educação é
relevante para explicar salários, é preciso testar a significância do
parâmetro (como veremos no Capítulo 6) e verificar as propriedades
deste estimador.
4.4 PROPRIEDADES DOS ESTIMADORES DE MQO
Vimos até agora vários métodos para estimar os parâmetros de
interesse do nosso modelo. Por enquanto, vamos estudar a
estimação apenas de modelos lineares. É importante, no entanto,
verificar as propriedades destes estimadores. Bons estimadores
caracterizam-se por se aproximar, de forma precisa, dos valores
verdadeiros dos parâmetros. As duas propriedades dos
estimadores, válidas para qualquer tamanho de amostra, que
veremos neste capítulo são o “não viés” e a “eficiência”. Vamos,
também, focar nossos estudos no estimador de Mínimos Quadrados
Ordinários, devido à flexibilidade deste método de estimação
(lembre-se de que o estimador pelo Método dos Momentos
necessita das hipóteses sobre os momentos populacionais para ser
derivado e o estimador pelo Método de Máxima Verossimilhança
necessita de hipóteses sobre a distribuição de probabilidades do y
para encontrar os seus estimadores).
Para derivarmos o estimador por MQO do modelo de regressão
simples, assumimos, até o momento, três hipóteses, as quais
formalizaremos a seguir:
Hipótese 4.1. Linearidade do modelo nos parâmetros: O modelo

verdadeiro (populacional) é uma função linear nos parâmetros
β0 e β1:
y = β0 + β1x + u
Hipótese 4.2. Amostragem aleatória: Como desconhecemos a

população, precisamos de uma amostra aleatória com n
observações das variáveis observadas do modelo:
{(xi, yi); i = 1, ..., n}
Hipótese 4.3. Variabilidade em x: Para identificarmos o efeito de

x em y, o qual vimos que se relaciona com β1, é preciso ter
variabilidade em x, ou seja, x não pode ser constante para todas
as observações da amostra:
As Hipóteses 4.1 e 4.2 conjuntamente permitem que escrevamos

o modelo populacional para cada observação da amostra:
yi = β0 + β1 xi + ui, ∀ i = 1, ..., n
como fizemos para encontrar os erros de cada observação i.

Já a Hipótese 4.3 é necessária para a determinação do
estimador para os parâmetros do modelo, sem ela ( ficaria
indeterminado e, consequentemente, o estimador do intercepto).
Agora veremos quais hipóteses adicionais são necessárias para
observamos boas propriedades do estimador de MQO.
Hipótese 4.4. Exogeneidade do x ou Média Condicional Zero: u

é indepentende na média condicional de X:
E (u|x) = 0
A partir de agora, vamos condicionar os resultados a x, ou seja,

apesar de x ser uma variável aleatória, condicionar a x implica tratar
x como não aleatório.9 A hipótese de média condicional zero (dado
que E(u) = 0) equivale a dizer que x e u são independentes
linearmente. Vimos que a independência linear é um conceito mais
fraco de independência do que a independência na média
condicional.10
Cov (x, u) = 0.
A Hipótese 4.4 é fundamental para estabelecer o ceteris paribus

no exercício que fizemos sobre a variação do x. Se ela não for
válida, o β1 do modelo de regressão linear simples não indicará o
efeito causal entre x e y. A Hipótese 4.4, considerando que temos
uma amostra aleatória de n observações, pode ser relativizada para
todas as observações:
E [ui|xi] = 0, ∀ i
Sob as Hipóteses 4.1 a 4.4, conseguimos derivar a primeira

propriedade importante de pequenas amostras: o não viés do
estimador de MQO.
Teorema do Não Viés. Supondo que as Hipóteses 4.1 a 4.4

sejam válidas, temos que os estimadores de MQO, e , são
não viesados, ou seja:
Demonstração do teorema do não viés

Pela derivação dos estimadores de MQO temos:
Para encontrar a relação entre e β1, podemos substituir yi pelo
modelo populacional verdadeiro (valendo-nos das Hipóteses 4.1 e
4.2). Assim,
Para verificar o viés do estimador, precisamos calcular a

esperança matemática condicional a x da expressão anterior, E (
|x):
Usando as propriedades do operador esperança matemática11 e

a Hipótese 4.4, condicional a x, podemos escrever:
A última igualdade vale quando a Hipótese 4.4 for válida. Logo,

é não viesado para β1 quando assumimos as Hipóteses 4.1 a 4.4.
Para verificar o viés de , faremos o mesmo procedimento.
Primeiramente, substituiremos o modelo populacional verdadeiro na
equação do estimador de MQO para regressão simples:
Como yi = β0 + β1xi + ui, a média simples amostral é
. Substituindo este último termo em temos:
Agora, procedemos ao cálculo do viés de passando o

operador esperança, condicional a x. Note que os parâmetros
verdadeiros, β0 e β1, são constantes. Assim, temos:
A última desigualdade decorre da Hipótese 4.4 e da

demonstração do não viés de . Logo, mostramos que também é
não viesado para o seu parâmetro verdadeiro (β0), quando valem as
Hipóteses 4.1 a 4.4.
Note que o não viés dos estimadores decorre da análise da
esperança de e , que é uma característica da distribuição de
probabilidades amostral dos mesmos. Se a amostra que temos
representa a população, esperamos que, o estimador de MQO
esteja próximo do valor verdadeiro.
A Hipótese 4.4 é particularmente importante, pois, se E (u|x) ≠ 0,
podem haver outros fatores não observados em u que sejam
correlacionados com x (como variáveis que não conseguimos medir
ou observar, por exemplo). Neste caso, o estimador de MQO não
mede apenas o efeito de x em y, mas contabiliza também o efeito
destas outras variáveis (chamadas de variáveis confundidoras).
Veremos mais sobre como lidar com esse problema nos Capítulos 9,
10 e 12.

A variância de um estimador indica a precisão com a qual o
estimador atinge o parâmetro verdadeiro e é chamada de segundo
momento centrado da distribuição do estimador.
Para derivarmos a variância do estimador, temos que adicionar
uma nova hipótese entre aquelas que já estudamos, isso porque
precisamos entender como a variância das variáveis aleatórias que
compõem o estimador (y ou u) se comportam.
Hipótese 4.5. Homocedasticidade
Var (u|x) = σ2
Os erros do modelo (u, ou fatores não observados que explicam

y) possuem a mesma variância para qualquer valor das
variáveis explicativas (x).
A Figura 4.4 mostra um exemplo da validade da hipótese de

homocedasticidade e um exemplo da quebra da hipótese, ou seja,
quando temos heterocedasticidade.
FIGURA 4.4
Exemplo de erros homocedásticos e erros heterocedásticos.
A Hipótese 4.5 diz que a variância do termo aleatório,

condicional a x, é constante. Uma consequência dessa hipótese, em
conjunto com a Hipótese 4.4, é:
A última igualdade decorre da independência entre u e x. Assim,
se também vale a Hipótese 4.5, temos que:
E [u2] = σ2
Outra consequência importante dessa hipótese é o cálculo da

variância de y. Já vimos como calcular o valor esperado de y,
assumindo as Hipóteses 4.1 e 4.4:
E (y|x) = β0 + β1x
Aplicando o operador variância sobre o modelo populacional, e

supondo que os erros sejam homocedásticos, temos:
Var [y|x] = σ2
Assim, se a Var [y|x] = f (x), ou seja, varia com x (não sendo

mais igual a uma constante), dizemos que o modelo apresenta
heterocedasticidade. Com base nessas hipóteses, podemos
enunciar o Teorema da Variância.
Teorema da Variância. Supondo válidas as Hipóteses 4.1 a 4.5,

podemos escrever as variâncias dos estimadores, condicionais
a x, da seguinte forma:
Demonstração da derivação da variância de

Vimos que, ao substituir o modelo verdadeiro dentro da equação
que define o , podemos escrever:12
Passando o operador variância sobre essa equação, temos:
Como estamos condicionando a x (x é considerada constante). A

hipótese de amostra aleatória faz com que os ui sejam v.a. i.i.d.,
assim temos que a variância da soma será a soma das variâncias:
Se a Hipótese 4.5 for válida, temos que:
Demonstração da variância de
Para demonstrar a variância de , vamos substituir a equação do
dentro da equação que define o estimador . Assim,
Colocamos yi em evidência (ainda dentro do somatório em i) e
substituímos o modelo verdadeiro:
Note que os elementos de A são constantes, quando

condicionamos a x. Assim, ao passar o operador variância sobre a
fórmula anterior, e assumindo erros homocedásticos, temos que o
primeiro tem variância nula. Logo:
As variâncias dos estimadores são fundamentais para comparar

estimadores e para inferir sobre os parâmetros verdadeiros (realizar
testes de hipóteses sobre os parâmetros). Note ainda que, quanto
mais variação houver em x, menor será a variância de . O
problema, entretanto, reside em não conhecermos σ2, que é um
parâmetro populacional. Portanto, precisamos de um estimador para
σ2.

Vimos que ambas as variâncias dos estimadores e dependem
do parâmetro σ2, que é desconhecido. Considerando as Hipóteses
4.4 e 4.5 válidas, podemos escrever:
σ2 = E [u2]
Pelo Método dos Momentos, podemos propor um estimador com

base no momento amostral (média simples), que seria:13
No entanto, ainda desconhecemos ui, que é o termo de erro da

população para a observação i. Ao estimarmos os parâmetros do
modelo e , podemos obter os resíduos ( ) e utilizá-los para
propor o seguinte estimador:
O problema com este estimador é que ele será viesado para σ2.
Isso porque, para calcular , precisamos de duas equações (dos
dois estimadores do modelo de regressão simples), logo perdemos
duas informações da amostra (ou dois graus de liberdade) ao fazê-
lo. Assim, o estimador não viesado para σ2 na regressão simples é:1
4
Ao usar o estimador no lugar de σ2, escrevemos a variância
estimada dos nossos estimadores da seguinte forma:
Definimos, também, o erro-padrão (ep) dos estimadores como a

raiz do estimador da variância deles. Note que o erro-padrão é
diferente do desvio-padrão do estimador, pois o desvio-padrão
considera a variância verdadeira. Assim temos que:
4.5 MODELO DE REGRESSÃO SIMPLES SEM INTERCEPTO
Os modelos sem intercepto são conhecidos por modelos de
regressão pela origem, isso porque y tem valor esperado nulo
quando a variável explicativa assume valor zero, E [y|x = 0] = 0. Se
ilustrarmos esse comportamento no gráfico bidimensional entre y e
x, a reta de regressão da população (definida por E [y|x]) passa pela
origem do gráfico. Nesse caso, o modelo populacional verdadeiro
omitiria β0, pois este seria igual a zero:
y = β1 x + u
É um bom exercício utilizar os métodos aprendidos neste

capítulo para derivar um estimador para β1 neste modelo (é o único
parâmetro desconhecido na regressão). Note que agora temos
apenas uma incógnita, logo a CPO do MQO, por exemplo, seria:
O estimador, o qual denotamos por , que resolve essa equação

é, portanto:
Este estimador só será igual ao quando x‒ = 0. Além disso,

se β0 ≠ 0, este estimador será viesado (embora tenha variância
menor ou igual à de ). Deixaremos para o leitor, como exercício,
demonstrar esses resultados.
Este capítulo introduz o modelo mais simples que veremos: o
Modelo de Regressão Linear Simples. Vimos como estimá-lo por
três métodos diferentes: Método dos Momentos; Método de Mínimos
Quadrados Ordinários; e Método de Máxima Verossimilhança. Para
o caso específico deste modelo, e sob as hipóteses assumidas no
capítulo, verificamos que os métodos derivam estimadores
equivalentes. Mostramos, também, sob quais hipóteses os
estimadores de MQO são não viesados, o que é uma propriedade
desejável para um estimador, pois assim podemos dizer que o efeito
que queremos estimar é um efeito causal (isto é, reflete o quanto x
causa y). Vimos, também, como derivar a variância dos
estimadores, que são variáveis aleatórias. A observação da fórmula
da variância é bastante importante para entendermos como a
precisão da nossa estimativa é impactada pelos dados.
4.7 EXERCÍCIOS
1. Compare os métodos de estimação apresentados no capítulo

com relação às hipóteses necessárias para a estimação,
propriedades dos estimadores e intuição do método.
2. Encontre estimadores para o modelo de regressão linear simples

usando o Método de Máxima Verossimilhança e considerando
que a distribuição de probabilidades de u é uma Poisson.
3. Suponha que você queira estimar a regressão simples yi = β0 +

β1 x1i + ui. Sua amostra, {(xi, yi) ∀ i} tem 3 indivíduos tal que:
(1,1), (1,0) e (0,2). Calcule as estimativas de MQO de β0 e β1
sem utilizar um software estatístico.
4. Mostre que para uma regressão linear simples da forma y = β0 +

β1 x + u, o R2 é igual ao , isso é, o quadrado do coeficiente de
correlação amostral entre y e x.
5. Suponha que desejamos avaliar o impacto dos recursos do

Programa Bolsa Família sobre a educação dos filhos de famílias
beneficiárias pelo programa usando o seguinte modelo de
regressão simples:
yi = β0 + β1 P B Fi + ui
Em que y é uma medida de desempenho de educação dos

filhos e PBF o montante, em reais, que a família recebe do
Programa Bolsa Família. Considerando que utilizamos uma
amostra aleatória de famílias, responda os itens:
a) Descreva as hipóteses necessárias para a inexistência de
viés no estimador por MQO.
b) Qual a interpretação dos parâmetros β0 e β1?
c) Nesse caso, é um estimador viesado para β1? Justifique
explicando por que cada uma das hipóteses mencionadas
no item (a) são (ou não) satisfeitas.
6. Considere o modelo de regressão simples padrão yi = β0 + β1 x1i

+ ui. Suponha que, por um engano, o modelo yi = β1 x1i + ϵi tenha
sido estimado.
a) Encontre o estimador de MQO para β1 do modelo estimado
por engano, chame-o de . Mostre que ele é viesado.
b) Encontre Var( | x). Compare-a com a variância do
estimador de MQO do modelo correto, Var( | x).
c) Comente a relação entre viés e v ariância nesse caso.
7. (Anpec 2001) A partir de uma amostra de n elementos, foi

estimada uma regressão linear simples, pelo método de mínimos
quadrados, obtendo-se os resultados:
A seguir, a mesma regressão foi estimada sabendo-se que a

reta de regressão da população passa pela origem das
coordenadas (termo constante = 0), obtendo-se os resultados:
Pode-se afirmar que:
(0)
(1) (desviopadrão β2) < (desviopadrão β1)
(2) A reta passa pelo ponto médio da amostra ( )
(3) (K2 / K1) > 1
(4) A soma dos resíduos de mínimos quadrados de ambas
equações estimadas é zero.
8. (Anpec 2012) Considere o seguinte modelo de regressão:
yi = β0 + β1 X1i + εi
Em que β0 e β1 e são parâmetros estimados pelo Método dos

Mínimos Quadrados Ordinários e ε representa o erro do
modelo.
Julgue as alternativas:
(0) A hipótese de que E[y|X1] = 0 assegura que a soma dos
resíduos da regressão é igual a zero.
(1) Nesse modelo, a soma dos quadrados total é igual a soma
dos quadrados explicada mais a soma dos quadrados dos
resíduos da regressão.
(2) A covariância amostral entre a variável independente X1i e
os resíduos da regressão é zero se a hipótese de que
E[y|X1] = 0 for verdadeira.
(3) Neste modelo, a covariância amostral entre os valores
preditos pela regressão, , e os resíduos da regressão é
sempre igual a zero.
(4) Para verificar quão bom é o ajuste da regressão podemos
usar o R2, que é igual ao quadrado do coeficiente de
correlação entre o y observado e o predito, .
9. (Anpec 2014) Neste exemplo, queremos prever o peso do
indivíduo i usando somente sua altura,
Yi = β0 + β1 X1i + εi,
no qual Y é o peso do indivíduo e X a altura. Assumimos que

é uma amostra aleatória, E [εi| Xi] = 0, Var [Xi] > 0, 0 < E
[ ] < ∞ e Var [εi|Xi] = . Após coletar a informação de peso e
altura de 100 indivíduos, obtemos a seguinte tabela:
18 8 95 1200 4800
Estimando o modelo por Mínimos Quadrados Ordinários,

calcule o valor da estimativa obtida para . Multiplique o
resultado por 10.
10. (Anpec 2017) Considere o modelo de regressão linear simples:
yi = β0 + β1 xi + ui
Para uma amostra de 10 observações são encontrados os

seguintes resultados:
Sendo o estimador de Mínimos Quadrados Ordinários de β1,

calcule o valor da estimativa para usando os resultados
dessa amostra.
11. A base de dados peso.xls traz algumas informações sobre o

peso e circunferência abdominal de indivíduos acima de 18 anos
com base na Pesquisa Nacional de Saúde (PNS) de 2013.
a) Usando esses dados, encontre o estimador da regressão
de peso contra circunferência tanto pelo Método de
Mínimos Quadrados Ordinários quanto pelo Método de
Máxima Verossimilhança, considerando uma distribuição
exponencial.
b) Há diferenças nos resultados encontrados pelos dois
métodos?
c) Verifique que o R2 da regressão é igual à correlação
amostral ao quadrado entre as duas variáveis.
APÊNDICE 4.A
Teorema 4.A.1. Sob as Hipóteses 4.1 a 4.5, temos que
Demonstração15
Substituindo o modelo verdadeiro na Equação dos resíduos temos

que:
Sabemos que a média amostral dos resíduos é zero (por

consequência da C.P.O da estimação por MQO). Assim:
Note que ū não é necessariamente zero.
Subtraindo a segunda equação da primeira, temos:
Elevando a equação acima ao quadrado, temos:
Somando em n,
Tirando a esperança de todos os termos, condicionais a x, temos:
Portanto,
1 Ver Wooldridge (2012, p. 12).

2 Veja uma discussão sobre os conceitos de independência entre variáveis
aleatórias no Capítulo 1.
3 Vamos suprimir os índices do somatório a partir de agora. Exceto quando
destacado, o índice inicial é o 1 e o índice final é o N (última observação
da amostra).
4 Note que: . É
possível demonstrar a igualdade aplicando a propriedade distributiva.
5 Imagine que você quer encontrar o efeito do nível de escolaridade sobre
os salários dos indivíduos, mas na sua amostra só há indivíduos com 8
anos de escolaridade. Sem variação em x, fica impossível estimar essa
relação.
6 Minimiza-se a soma dos quadrados dos resíduos, e não a soma dos
resíduos, tanto para penalizar aquelas observações que se distanciam
muito da reta de regressão quanto para deixar os resíduos positivos e
negativos com o mesmo sinal. Caso contrário, se tivéssemos muitas
observações acima e muitas observações abaixo da reta de regressão,
poderíamos encontrar a soma dos resíduos nula quando, na verdade, os
valores negativos dos resíduos anulariam os valores positivos.
7 Note que
8 O R2 equivale ao quadrado da correlação amostral entre y e ŷ, ou seja,
(ry,ŷ)2.
9 Equivale também a dizer que x é fixo em amostras repetidas, ou seja,
seria possível repetir o experimento, obtendo diferentes amostras, por
exemplo, com os mesmos valores das variáveis independentes.
10 Cov [x, u] = E [xu] – E [x] E [u] = xE [u] – x0 = 0, dado x fixo.
11 Veja Apêndice 1A para verificar as propriedades dessa função.
12 Para tal, utilizamos as Hipóteses 4.1 a 4.3.
13 Note que esse é o mesmo estimador derivado pelo Método de Máxima

Verossimilhança para a distribuição normal de y.
14 Para a demonstração do não viés desse estimador, ver o Apêndice 4.A.
15 Wooldridge (2015, p. 49).

5
MODELO DE REGRESSÃO LINEAR

MÚLTIPLA
N
o Capítulo 4 vimos como encontrar estimadores para o
modelo de regressão linear simples. Neste capítulo, vamos
estender os métodos e propriedades vistas para modelos
com mais de uma variável explicando y, ou seja, para o
modelo de regressão múltipla. Veremos que este tipo de modelo vai
resolver alguns dos problemas que observamos nos modelos de
regressão simples por incorporar mais variáveis como controles. O
objetivo é capturar os efeitos causais de cada variável explicativa
sobre y. Lembre-se que estamos sempre buscando estimadores
com boas propriedades para os efeitos de interesse.
5.1 INTRODUÇÃO
A regressão múltipla difere da regressão simples porque, agora,
incluiremos mais variáveis como explicativas para nossa variável
dependente. Um modelo linear com K variáveis pode ser escrito da
seguinte maneira:
, ou
Há diversas vantagens no modelo de regressão múltipla em

relação ao modelo de regressão simples, tais como:
1. O modelo de regressão linear múltipla permite que
controlemos vários outros fatores (por meio das variáveis
explicativas) conjuntamente. Desta forma, facilitamos a
obtenção do ceteris paribus do termo de erro quando
estudamos o efeito de uma variação de x em y, isto é,
aumentam as chances de obtermos um efeito causal a partir
do nosso modelo. Consequentemente, há menor possibilidade
de violação da hipótese da esperança condicional de u, ser
nula, ou seja, (E [u|x] = 0).
2. Quando o objetivo do nosso modelo é realizar previsões para
a variável y, considerar mais variáveis de controle relevantes
significa explicar mais da variação de y (aumentando, portanto,
o R2 da regressão, como veremos a seguir).
3. O modelo de regressão múltipla permite que incorporemos
outras formas funcionais da relação entre y e x, (flexibilizando
a linearidade entre a relação de y e x), como por exemplo uma
função quadrática entre y e x:
y = β0 + β1x + β2x2 + u
Veja um exemplo de regressão linear1 múltipla para estimar os

fatores que explicam a demanda por arroz no Brasil em função dos
preços de vários bens e da renda:
Neste exemplo, β0 continua sendo o intercepto do modelo e os

demais parâmetros, β1, β2 ... , β5, são parâmetros de inclinação. Se
estamos interessados em avaliar o efeito de um aumento no preço
do arroz na quantidade demandada por arroz, poderíamos verificar
como muda a quantidade demandada após a variação apenas do
preço do arroz de Parroz,0 para Parroz,1:
Note que a variação pode ser medida pelo parâmetro β1 que

acompanha a variável Parroz:
No entanto, vale ressaltar que o parâmetro β1 só reflete o efeito

puramente do preço do arroz quando todas as outras variáveis são
consideradas constantes (não mudam com a variação do preço do
arroz), assim como quando os demais fatores não observados que
explicam o y (que não são as variáveis incluídas no modelo de
regressão múltipla) também não variam com o preço do arroz.
5.2 MÉTODOS DE ESTIMAÇÃO
No modelo de regressão múltipla, estamos interessados em
encontrar os valores dos β0, β1 ... , βk, para um modelo com k
variáveis explicativas. Como os valores populacionais são
desconhecidos, vamos precisar de uma amostra de dados.
Supomos uma amostra aleatória com n observações das variáveis
de interesse: {(x1i, ..., xki, yi}: i = 1, ..., n}. Se o modelo de regressão
linear múltipla é válido para a população, ele também será válido
para todas as observações da amostra. Assim, podemos escrever:
As hipóteses sobre o modelo populacional para inferirmos

causalidade na relação entre y e os x’s são:
• E (u) = 0, quando há intercepto no modelo (β0).
• E (u|x1, x2, ..., xk) = 0, quando há um conjunto de k variáveis
explicativas, x1, ..., xk, no modelo para explicar y (isso significa
que todas as variáveis explicativas são independentes de u).
Com a validade das hipóteses anteriores, podemos, novamente,
escrever a função de regressão populacional:
Considerando estas hipóteses e o modelo de regressão linear

múltipla, podemos reescrevê-las da seguinte forma:
Essas k+1 expressões referem-se aos momentos populacionais
de u. A partir de uma amostra representativa para essa população,
podemos escrever os seguintes momentos amostrais (ou
contrapartidas amostrais):
Os valores dos k+1 betas que resolvem as equações anteriores

são os estimadores para esses parâmetros pelo Método dos
Momentos. Veremos a seguir como resolveremos esse sistema de
equações.
5.2.2. Estimador pelo Método dos Mínimos Quadrados

Ordinários (MQO)
Como sabemos, para encontrar o estimador por MQO vamos
minimizar a soma dos quadrados dos resíduos. A diferença é que,
agora, e, portanto, os resíduos terão a forma
.
Pelas C.P.O., teremos K + 1 equações:

Note que as C.P.O do problema de minimização da SQR são
equivalentes às condições de momento amostrais que vimos por
MM. Dada a dificuldade de resolver este sistema algebricamente,
vamos resolvê-lo utilizando álgebra matricial. Para isso, podemos
escrever a equação da população para cada observação de modo
que a observação i fique na i-ésima linha:2
Esse sistema de equações pode ser representado da seguinte

forma:
Portanto, podemos escrever o sistema a partir de matrizes e

vetores (veja as dimensões das matrizes no subscrito):
Sendo que
A derivação do problema de MQO, então, depende do vetor
coluna dos resíduos . A soma dos quadrados dos
resíduos será
Ou3
Reescrevendo a C.P.O. em termos matriciais, temos que:
Se existe a inversa da matriz ( X' X), é imediato então que:
Novamente, é preciso checar as Condições de Segunda Ordem

para verificar se o vetor de estimadores encontrado realmente
minimiza a função objetivo (SQR).
Note que é o valor previsto de y quando x1 = x2 = ... = xk = 0 .
Já (para j = 1, ... k) deve ser entendido tal qual antes: como a
contribuição marginal de xj sobre y, desde que mantenhamos as
outras variáveis (observadas e não observadas) constantes
(condição de ceteris paribus). Assim,
tudo o mais constante. Podemos também reescrever as condições

da C.P.O como:
Adicionalmente, ainda vale a mesma fórmula derivada

inicialmente para o R2 ou seja,
, tudo o mais constante.
Ocorre, entretanto, que o R2 sempre aumenta quando uma

variável é adicionada ao modelo, pois SQR sempre diminui quando
adicionamos regressores. Isso enfraquece o R2 como medida de
decisão para incluir ou não uma variável como explicativa. Essa
decisão deve ser tomada com base em testes que investiguem se o
coeficiente da população é igual a zero ou não.
Note também que se β0 = 0 (um modelo sem intercepto),
podemos ter Assim, R2 pode ser negativo. Isso ocorre
quando ȳ explica mais da variação de yi do que as variáveis
explicativas (expressas pelo valor previsto do modelo sem
intercepto, ), quando .4
Deixaremos os estimadores pelo Método de Máxima
Verossimilhança para o leitor derivar nos exercícios ao final do
capítulo.
5.3 ÁLGEBRA DE SOMATÓRIO PARA OS ESTIMADORES DE MQO
Uma forma de entender a intuição por trás da expressão matricial
é por meio do Teorema de Frisch-Waugh-Lovell (FWL).
O teorema diz que, se estamos interessados no efeito de x1 em y,
podemos escrever o estimador de MQO para β1 da seguinte forma:
Em que é o resíduo da regressão de x1 em x2, x3, ..., xK

(chamada de equação auxiliar). Assim, o de regressão múltipla
seria o estimador de regressão simples da equação de y contra .
Note que é a parte de x1 não correlacionada com as demais
variáveis explicativas do modelo (x2, x3, ..., xK). Dessa fórmula do
é possível observar que este é um estimador de efeito parcial (efeito
de uma variação apenas de x1 em y, ou seja, da parte de x1 líquida
da variação das demais variáveis explicativas). É possível
observarmos, também, que o da regressão múltipla será
equivalente ao da regressão simples somente se não houver
qualquer correlação entre x1 e x2, x3, ... , xK. No Diagrama de Venn,
poderíamos descrever a relação da seguinte forma (para um modelo
com apenas duas variáveis explicativas):
FIGURA 5.1
Ilustração do efeito marginal de X1 e X2 na regressão múltipla.
Demonstração do teorema de FWL

A ideia é regredir xji nas outras variáveis de modo a produzir
Aqui,
.
Pelas C.P.O. do parâmetro dessa variável, temos:
Como xj é uma combinação linear de x1 a xK (exceto xj), temos

que (segunda propriedade algébrica do MQO para a
equação auxiliar). Assim, sabemos que
Substituindo e considerando a relação

acima:
Substituindo , concluímos que:
Por hipótese , porque supomos que não há

multicolinearidade perfeita entre as variáveis.
5.4 PROPRIEDADES DOS ESTIMADORES DE MQO
Vimos as hipóteses necessárias para que se derive o não viés do
estimador de MQO para o modelo de regressão linear simples. Para
a regressão linear múltipla, veremos que as hipóteses são mais
gerais. O estimador que derivamos por MQO do modelo de
regressão linear múltipla assumiu, até o momento, três hipóteses, as
quais formalizaremos a seguir:
Hipótese 5.1. Linearidade do modelo: A linearidade que se

requer é a linearidade nos parâmetros β0, β1, ..., βk. O modelo y
= β0 + β1 x + ... + βk xk + u é formulado como uma combinação
linear dos betas.
Em geral, confunde-se a ideia de linearidade nas variáveis

explicativas com a linearidade nos parâmetros. A linearidade do
modelo nos parâmetros fará com que os estimadores sejam
perfeitamente determinados pelo problema de otimização
(minimização da SQR) e que sejam funções lineares nas
observações da amostra. É possível linearizar o modelo em alguns
casos, como por exemplo, no caso de uma função de produção
Cobb-Douglas com dois insumos:
Podemos aplicar o logaritmo neperiano e obter:
Modelos em que é possível obter a linearidade nos parâmetros

após manipulação algébrica são chamados de modelos
linearizáveis. Note que a função logarítmica implica não linearidade
na relação entre a variável dependente (Y) e as variáveis
explicativas (K e L).
Hipótese 5.2. Amostragem aleatória: Observamos uma amostra

aleatória da nossa população com n observações das variáveis
observadas do modelo:
Hipótese 5.3. Inexistência de Multicolinearidade Perfeita: Para

identificarmos o efeito de qualquer xj em y é preciso que a matriz
( X' X) tenha inversa, i.e., seja não singular. Para tal, todas as
linhas de X devem ser independentes (nenhuma delas pode ser
uma combinação perfeita das demais linhas).
A Hipótese 5.3 implica que:
a. é preciso haver variabilidade em todos xk’s (se não há

variabilidade, x será constante e, portanto, perfeitamente
correlacionado com o vetor de 1’s que define o intercepto
do modelo);
b. nenhum xj é uma combinação linear perfeita de outros xk’s
(não é possível incluir no modelo uma variável xk+1 = xk +
x2, por exemplo);
c. n > k + 1, caso contrário a matriz (X' X) será singular.
As Hipóteses 5.1 e 5.2 conjuntamente permitem que escrevamos
o modelo populacional para cada observação da amostra:
como fizemos para encontrar os erros de cada observação i. A
Hipótese 5.3 foi consequência da derivação do estimador, ou seja,
se ela não for válida, não é possível derivar o estimador de MQO.
Agora veremos quais hipóteses adicionais são necessárias para que
observemos desejáveis propriedades do estimador de MQO para a
regressão múltipla.
Hipótese 5.4. Exogeneidade estrita dos x’s ou Média

Condicional Zero:
A hipótese de média condicional zero equivale a dizer que todas

as variáveis explicativas incluídas no modelo (x1, ..., xk) são
independentes de u. A Hipótese 5.4 é fundamental para estabelecer
o ceteris paribus e, portanto, para atribuirmos causalidade sobre o
efeito da variação de um xk em y. Novamente, considerando que
temos uma amostra aleatória de n observações, podemos escrever
a Hipótese 5.4 para todas as observações: E [ui| xi] = 0, ∀ i, em que
xi = (x1i, x2i, ..., xki) = 0.
Em geral, a Hipótese 5.4 é invalidada quando
a. não incluímos, entre as covariadas, variáveis relevantes
para explicar o y e estas variáveis excluídas são
correlacionadas com as variáveis incluídas;
b. as variáveis explicativas são medidas com erro;
c. há viés na seleção da amostra (que não é mais aleatória);
e
d. há simultaneidade na relação entre y e x (x causa y, mas y
também causa x).
Veremos em detalhes cada um desses problemas e como
resolvê-los ao longo dos próximos capítulos. Quando a Hipótese 5.4
é válida, dizemos que as variáveis explicativas são exógenas, ou
seja, são determinadas por ocorrências externas ao problema em
questão.
As Hipóteses 5.1 a 5.4 são suficientes para derivarmos a
primeira propriedade importante do estimador de MQO: o não viés.
Teorema do Não Viés. Supondo que as Hipóteses de 5.1 a 5.4

sejam válidas, temos que os estimadores de MQO, , são
não viesados, ou seja:
Em termos matriciais, temos:
Demonstração do teorema do não viés usando matrizes

Vimos que o estimador de MQO, em termos matriciais, pode ser
escrito da seguinte forma (considerando válidas as três primeiras
hipóteses):
Ao substituirmos o modelo populacional na equação que define o

estimador, temos:
Para verificar a propriedade do não viés, é preciso calcular a
esperança condicional em X da expressão anterior:
Como condicionamos os resultados a X, podemos escrever:
Se a Hipótese 5.4 for válida, temos que o último termo é igual ao

vetor (nx1) de zeros e, portanto: .
A demonstração usando a fórmula do estimador por FWL é
análoga. Basta verificar que o resíduo da regressão utilizado é uma
combinação das variáveis explicativas e, portanto, é considerado
constante quando condicionamos a esperança em x.

Sob as mesmas hipóteses assumidas para derivar o não viés do
estimador de MQO, podemos verificar a consistência deste
estimador. É possível, ainda, suavizar a Hipótese 5.4 para assumir
apenas a independência linear entre os erros e as variáveis
explicativas (veremos isso na demonstração do teorema da
consistência).
Teorema da Consistência. Supondo que as Hipóteses de 5.1 a

5.4 sejam válidas, temos que os estimadores de MQO, ,
são consistentes, ou seja:
Em termos matriciais, temos:

Demonstração usando matrizes
Vimos que o estimador de MQO, em termos matriciais, pode ser
escrito da seguinte forma (considerando válidas as três primeiras
hipóteses):
Ao substituirmos o modelo populacional na equação que define o

estimador, temos:
Para verificar a propriedade de consistência, é preciso verificar o

limite de probabilidade do estimador, condicional a x, usando a
expressão anterior:
Como condicionamos os resultados a X, podemos escrever:

como converge para uma matriz Q positiva definida,
quando vale a Hipótese 5.3
Em que 0 é uma matriz quadrada de dimensão K+1.
Se a Hipótese 5.4 for válida, temos que ou que o
o último termo é igual ao vetor (nx1) de zeros e, portanto,
e MQO é um estimador consistente de β.

Assim como fizemos para a regressão linear simples, precisamos
derivar a variância dos estimadores da regressão múltipla. Para tal,
adicionaremos uma nova hipótese entre aquelas que já estudamos,
pois a variância do estimador (que é uma variável aleatória)
depende de outras variáveis aleatórias (y ou u).
Hipótese 5.5. Homocedasticidade e inexistência de

autocorrelação:
Os erros do modelo (u, ou fatores não observados que explicam

y) possuem a mesma variância para quaisquer valores das
variáveis explicativas (x1, x2, ..., xk.) a covariância entre os erros
das observações é nula:
Em termos matriciais, podemos escrever a matriz de variância-

covariância dos erros da seguinte forma (quando vale a Hipótese
5.5):
Note que essa expressão abrange duas hipóteses importantes:

1. Variância dos erros é constante e igual a σ2:
2. Covariância entre os erros é igual a 0:
Com base nessas hipóteses, podemos enunciar o Teorema da

Variância para os estimadores de MQO da regressão linear múltipla.
Teorema da Variância. Supondo válidas as Hipóteses 5.1 a 5.5,

podemos escrever as variâncias dos estimadores, condicionais
a X, da seguinte forma:
Demonstração da variância de
Vimos que podemos escrever (a partir da derivação do estimador de
MQO e da suposição das Hipóteses 5.1 a 5.3):
Passamos o operador da variância sobre a fórmula anterior para

encontrarmos a variância do estimador, condicional a X:
Como condicionamos os resultados em X, podemos escrever:
Se vale a Hipótese 5.5 (na sua forma matricial, ou seja,

assumindo homocedasticidade e inexistência de autocorrelação dos
erros), temos que:
O termo anterior corresponde à matriz de variância-covariância

dos estimadores. Na diagonal temos as variâncias dos estimadores
e os elementos fora da diagonal medem a covariância entre os
estimadores.
Usando álgebra de somatório, ou seja, calculando a variância
dos estimadores pela fórmula do FWL, o teorema da variância diz
que:
ou
Em que é o R2 da regressão de xm contra as demais variáveis
explicativas do modelo. Deixaremos a demonstração desta fórmula
para um exercício ao final do capítulo.
A fórmula pelo FWL fornece algumas intuições importantes.
Primeira, quanto mais variação na amostra para a variável
explicativa de interesse , menor a
variância do estimador. Segunda, quanto maior a relação linear
entre a variável xm e as demais variáveis explicativas do modelo (x1,
..., xm–1, xm+1, ..., xk), mais o se aproxima de 1 e, portanto, maior
é a variância do estimador de βm. Note que não pode ser igual a
um, pois isso feriria a Hipótese 5.3. Assim, incluir duas variáveis
explicativas no modelo que sejam altamente correlacionadas não se
reflete em viés (vimos que só a correlação perfeita entre elas
inviabilizaria o estimador), mas causaria maior variância no
estimador do parâmetro referente ao efeito dessas variáveis. Se
mesmo com uma alta correlação entre elas a variância for baixa,
isso não será problemático.
Novamente temos o problema de não conhecermos σ2. No caso
da regressão linear múltipla, o estimador não viesado para σ2,
supondo válidas as Hipóteses 5.1 a 5.5, será:
Note que esses estimadores (da variância dos estimadores e dos

erros) só são deriváveis com a suposição das Hipóteses 5.1 a 5.5.
Sendo assim, se elas são válidas, podemos escrever o estimador da
variância dos estimadores da seguinte forma:
ou
5.5 COMPARAÇÃO ENTRE A REGRESSÃO LINEAR SIMPLES E
MÚLTIPLA
Sabendo como verificar as propriedades dos estimadores, podemos
comparar alguns resultados entre os modelos lineares com uma ou
mais variáveis. Suponha um modelo linear com duas variáveis
explicativas (modelo verdadeiro):
Se estimarmos esse modelo com apenas x1, isto é, como uma

regressão simples, teremos o seguinte estimador de MQO para o
efeito que mede o impacto de x1 em y (o qual identificaremos por
“~”):
Para verificarmos se é não viesado, precisamos substituir a

fórmula anterior pelo modelo verdadeiro e tirar a esperança
condicional a x:
A última igualdade vem da Hipótese 5.4. Notamos que o
estimador da regressão linear simples será não viesado se β2 = 0
(o que significa que o modelo verdadeiro não contém x2), ou se
COV (x1, x2) = 0 (quando x1 e x2 são não correlacionados
linearmente). É possível, também, verificar o sinal do viés, que
dependerá da multiplicação de sinais do β2 (efeito esperado de x2
em y) e de COV (x1, x2). Se esse viés for diferente de zero, é
chamado de viés de variável omitida, pois resulta da omissão de
uma variável importante para explicar y e correlacionada com x1.
QUADRO 5.1
Retorno salarial da educação
No capítulo anterior, foi mostrado o seguinte modelo que explicava o
salário por hora a partir dos anos de educação para pessoas de 18
a 65 anos, usando a PNAD 2014:
salário = –0,52 + 1,41 educ
(0,33) (0,05)
N = 151.934 R2 = 0,0125
No entanto, provavelmente há outras variáveis que explicam o
salário e que estão correlacionadas com os anos de educação,
como a idade. É intuitivo pensar que quanto mais velho o indivíduo,
menos anos de estudo o mesmo pode ter. No entanto, é muito
comum pessoas mais velhas terem estudado menos, dado os
baixos incentivos, ausência de informação e poucas políticas
públicas na área da educação em poucas décadas atrás. Por outro
lado, mais idade pode sinalizar mais experiência no mercado de
trabalho e, então, maiores seriam as chances de alguém mais velho
receber um salário/hora maior. Nota-se, assim, que idade é
correlacionada tanto com o salário quanto com os anos de
educação, fazendo com o coeficiente de anos de educação seja
enviesado caso não seja incluída a variável de idade no modelo. Ao
incluir idade no modelo, o resultado se torna:
salário = –15,19 + 1,64 educ + 0,33 idade + u
(0,788) (0,055) (0,01)
N = 151934 R2 = 0,0178
Como a correlação entre idade e educação é negativa, enquanto
entre idade e salário é positiva, a omissão da idade no modelo faz
com que o coeficiente de anos de educação seja menor do que ele
deveria ser, conforme é possível verificar comparando os dois
modelos, isto é, o primeiro modelo subestima o impacto do salário.
É interessante também analisarmos a variância do estimador de

MQO de regressão simples e de regressão múltipla para o caso em
estudo (sob as Hipóteses 5.1 a 5.5):
, para o estimador de β1 quando omitimos
x2; e
, para o estimador de β1 na
regressão que inclui x2
Note que, se há correlação entre x1 e x2, vimos que o estimador
de MQO do modelo que omite x2 será viesado. No entanto, a sua
variância será menor do que a variância do estimador de MQO para
a regressão múltipla (isso porque será maior que zero). Há,
portanto, um tradeoff entre viés e variância que deve ser
considerado na análise.
5.6 EFICIÊNCIA DOS ESTIMADORES DE MQO E GAUSS-MARKOV
Vimos que sob as Hipóteses 5.1 a 5.4 os estimadores de MQO
serão não viesados. Adicionando a quinta hipótese, conseguimos
derivar a variância dos estimadores e o estimador da variância dos
erros. Além disso, as Hipóteses 5.1 a 5.5 são conhecidas por
Hipóteses de Gauss-Markov, pois se elas são válidas, os
estimadores de MQO são considerados os mais eficientes (de
menor variância) dentre os estimadores lineares não viesados,
como o teorema a seguir enuncia:
Teorema de Gauss-Markov. Sob as Hipóteses 5.1 a 5.5, os

estimadores de MQO, , são BLUE (Best Linear Unbiased
Estimators. Em português: os melhores estimadores lineares
não viesados) de β0, ..., βk.
Ideia da demonstração: Vamos propor um estimador qualquer,

que seja linear e não viesado, e mostrar que a variância dele será
sempre maior que a variância do estimador de MQO. Vamos
demonstrar usando álgebra de somatório e álgebra matricial.
Demonstração por álgebra de somatório5

Seja um estimador qualquer linear em y:
Em que wij é uma função dos valores amostrais das variáveis

explicativas (x1i, ..., xki ∀ i = 1, ..., n) Veremos as condições sobre wij
para que o estimador linear anterior seja não viesado.
Primeiramente, vamos substituir o modelo verdadeiro (linear e com k
variáveis explicativas) na função do estimador:
Como wij é uma função das variáveis explicativas, temos a
seguinte expressão quando passamos o operador esperança:
Como estamos supondo a Hipótese 5.4, temos:
Assim, nosso estimador linear será não viesado se
Considerando as hipóteses anteriores, e seja o resíduo da

regressão de xji sobre as demais variáveis explicativas do modelo
(x1i, ..., x(j–1)i, ..., xki), temos que , pois e
A partir dessas condições, veremos como escrevemos a

variância desse estimador (considerando válidas as cinco hipóteses
mencionadas):
Podemos, agora, comparar as variâncias de um estimador linear
qualquer não viesado, , com a do estimador de MQO, :
Outra forma de escrever essa diferença seria:
Supondo , temos que . Assim:
Demonstração por álgebra matricial

Seja um estimador qualquer linear em Y e expresso no formato
matricial:
Veremos as condições sobre C para que os estimadores do vetor

sejam não viesados (note que C é função de X).
Considerando válida a Hipótese 5.4, se CX = I.

A partir dessa condição, e das Hipóteses 5.1 a 5.5, a variância
desse estimador será:
Seja uma matriz D, tal que:
Temos que:
Assim, podemos reescrever a variância de da seguinte forma:
Como
Portanto, DX = 0. Assim, temos que:
Como DD' é uma forma quadrática (portanto, uma matriz não

negativa), temos que .
−
5.7 RELAÇÃO ENTRE O R2 E O R 2
Vimos que o R2 pode não ser a melhor medida de ajuste porque ele
nunca diminui quando se acrescentam variáveis explicativas no
modelo, sejam elas relevantes ou não. E o problema de se
acrescentar variáveis é a perda de graus de liberdade ao fazê-lo.6
Para contornar esse problema, podemos calcular um novo
coeficiente de ajustamento: (lê-se R2 ajustado).
Esta medida faz uma compensação na adição de uma variável
com a perda de um grau de liberdade. Perdemos K + 1 graus de
liberdade para calcularmos o SQR e 1 g.l. para calcularmos SQT. O
é o R2 ponderado pelos g.l. de cada um desses termos:
Desta forma, só aumentará quando a variável adicional

incluída for capaz de diminuir SQR a ponto de compensar ao menos
a perda de 1 um grau de liberdade.
QUADRO 5.2
Efeito das características da mãe sobre o peso dos bebês
Usando os dados de uma subamostra do Sistema de Informações
sobre Nascidos Vivos (SINASC) de 2014, podemos explicar o peso
de nascimento de um recém-nascido (em gramas) a partir das
características da mãe, entre 18 e 45 anos, e da gravidez.
Primeiramente, foi feita a regressão do peso de nascimento contra a
idade da mãe, quantos filhos vivos a mãe tinha e com quantas
semanas de gestação ocorreu o parto para aquelas mães que
tiveram mais de 27 semanas de gravidez. Os resultados obtidos
foram:
Nota-se que o impacto de todas as variáveis é positivo. De maneira

intuitiva, mães mais velhas e com mais filhos podem ter mais
experiência, sabendo lidar melhor com a gravidez. O sinal positivo
do coeficiente de semanas era esperado, já que com o passar das
semanas o bebê se desenvolve, ganhando peso. Assim, quanto
menos tempo o bebê passa na barriga da mãe, menos tempo de
formação ele teve, em média, fazendo com que nasça com menor
peso. O coeficiente de determinação aponta que essas variáveis
explicam 21,1% do peso de nascimento. Neste caso, o não difere
do R2, já que temos bastantes observações e poucos regressores, o
que implica em baixa perda de graus de liberdade. Para entender
apenas os efeitos das características da mãe, podemos tirar as
semanas de gestação do modelo, obtendo os seguintes resultados:
Nesse novo modelo, o coeficiente de idade caiu enquanto o

coeficiente de filhos aumentou. O mais notável, nesse caso, é a
diferença no R2, que agora aponta que essas características da
mãe explicam apenas 0,5% do peso de nascimento do recém-
nascido. Essa mudança no R2 sinaliza que eram as semanas de
gestação que explicavam a maior parte do peso de nascimento no
primeiro modelo. Assim como antes, o não difere do R2 pelo
mesmo motivo apontado anteriormente.
QUADRO 5.3
Mulheres chefes de família, pobreza e saúde infantil7
O aumento do número de famílias chefiadas por mulheres, ou seja,
famílias nas quais o principal gerador de renda é uma mulher, é um
fenômeno verificado globalmente. No Brasil, essas famílias
representam hoje mais de um terço do total, sendo que, na metade
dos casos, a mulher tem filhos, mas não tem cônjuge.8 Sabe-se que
mulheres recebem, na média, salários inferiores aos dos homens,9
por isso não é errado supor que a chefia familiar feminina esteja
associada a uma menor renda domiciliar e, muito possivelmente, a
uma jornada dupla de trabalho: o trabalho assalariado e o
doméstico. Assim sendo, o fato de a mulher ser chefe de família tem
potencial de afetar a saúde da família.
Para verificar se crianças cujas famílias são lideradas por mulheres
possuem piores indicadores de saúde do que crianças com famílias
lideradas por homens, podemos estimar uma equação de demanda
por saúde, usando como proxy o escore-z de altura padronizado por
idade,10 e usando o gênero do chefe de família como variável de
controle, da seguinte maneira:
saúde infantil = β0 + τ.mulher chefe + Xθ + u
Estamos interessados no parâmetro τ. A aluna Larissa Bueno Stolar,

em sua monografia do curso de Economia, estimou esse modelo
usando dados da POF de 2008-2009, para crianças de 2 a 5 anos, e
obteve o seguinte resultado:
= –0,48 + 0,02 mulher chefe + (0,21) (0,04)
R2 = 0,112 n = 6.513
Para a inexistência de viés nos parâmetros estimados, o modelo
deve seguir quatro condições: (1) deve ser linear nos parâmetros;
(2) a amostragem deve ser aleatória; (3) inexistência de
colinearidade perfeita entre as variáveis e (4) a média condicional
dos erros em relação às variáveis explicativas deve ser zero.
Entretanto, é bastante plausível que existam fatores não
observáveis relacionados ao gênero do chefe de família, o que traz
o problema de endogeneidade ao modelo. Ainda assim, sua
estimação permite verificar se há correlação entre o gênero do chefe
de família e a saúde das crianças do domicílio.
O coeficiente estimado pode indicar que o gênero da pessoa de
referência da família tem pouca correlação com a saúde das
crianças. Isso porque as mulheres tendem a alocar melhor os
recursos na família, mesmo quando escassos. A experiência do
Banco Grameen, de Muhammad Yunus, em Bangladesh, é um caso
que apoia essa teoria. A instituição ficou famosa por priorizar a
mulher na concessão de crédito e comprovou que, quando as
mulheres utilizavam o dinheiro, beneficiavam o conjunto dos
membros da família muito mais frequentemente do que quando os
homens o utilizavam. Evidências internacionais indicam que, ao
receber crédito, os homens tendem a priorizar suas próprias
necessidades, enquanto as mulheres buscam atender primeiro às
necessidades dos filhos, seguidas pelas obrigações com a casa.11
Neste capítulo apresentamos o modelo de regressão linear múltipla
e o comparamos com o de regressão simples. Vimos as condições
sob as quais o estimador de MQO possui propriedades de interesse:
não viés; consistência; e eficiência dentre os estimadores lineares
não viesados. Nos próximos capítulos veremos como flexibilizar o
modelo linear discutido neste capítulo.
5.9 EXERCÍCIOS
1. Encontre estimadores de máxima verossimilhança para o modelo

considerando a distribuição normal para y (não se esqueça de
checar as condições de segunda ordem):
Compare os seus resultados (estimador e sua variância) com

os estimadores de Mínimos Quadrados Ordinários.
2. Derive a variância do estimador de Mínimos Quadrados

Ordinários de um modelo de regressão múltipla a partir do
Teorema de Frisch-Waugh-Lovell.
3. O Teorema de Frisch-Waugh-Lovell propõe uma forma

alternativa de estimar os efeitos marginais. Seja Y = Xβ + u.
Podemos particionar X de modo que: Y = X1β1 + X2β2 + u. O
Teorema de FWL implica que
Em que é o resíduo da regressão de X1 sobre X2. Sabe-se

que pode ser escrito como = M2 X1 e M2 = I – X2 ( X2'
X2')–1 X2' é a matriz geradora de resíduos. Mostre que:
(i) M2 X2 = 0.
(ii) M2 é simétrica.
(iii) M2 é idempotente.
4. Mostre que o R2 nunca diminui quando adicionamos uma

variável independente ao modelo.
5. Considere as seguintes citações:
"Econometristas exigem demais dos dados e acabam
desapontados com os resultados, já que os dados são
incompletos e imperfeitos. Em parte, isso é nossa culpa,
pois o apetite cresce ao comer. Ao obter amostras
grandes, adicionamos variáveis e expandimos nossos
modelos até que, na margem, voltamos aos mesmos
níveis de significância" (tradução livre).
Griliches, American Economic Review, 1985
"Usar covariadas pode aumentar a percepção de que a
regressão estimada tem uma interpretação causal.
Porém, mais controles nem sempre é o melhor.
Algumas variáveis são controles ruins e não devem ser
incluídas em uma regressão, mesmo que a sua inclusão
possa mudar os coeficientes da regressão" (tradução
livre).
Angrist & Pischke, Mostly Harmless Econometrics, 2009
Os autores alertam para importantes questões, em especial: a
omissão de variáveis relevantes (subespecificação) e a
inclusão de irrelevantes (sobreespecificação).
a) Defina cada conceito. Como você espera que cada
problema mencionado afete os estimadores de MQO (viés,
variância, R2)? Explique.
b) Como você definiria controles (covariadas) ruins? E
controles bons? Explique com exemplos.
Vamos agora formalizar cada um dos casos.

c) Caso 1: Suponha que o modelo verdadeiro é yi = β0 + β1 x1i
+ β2x2i + ui, mas o modelo estimado é = + x1i+ :
(i) Derive o viés de variável omitida. Discuta em quais
casos o viés é positivo, negativo e nulo.
(ii) Mostre que Var ( | X) ≤ Var ( |X).
d) Caso 2: Suponha que o modelo verdadeiro é yi = β0 + β1 x1i
+ ui, mas o modelo estimado é = + x1i + x2i:
(i) Mostre, mencionando as hipóteses, que a inclusão de
variável irrelevante não afeta viés: E ( |X) = γ1 e E(|X)
= E ( |X) = γ2.
(ii) Mostre que Var ( |X) ≥ Var ( |X).
6. Suponha que você esteja tentando prever sua nota na prova de

Econometria por meio da quantidade de horas que você estuda
por dia. No entanto, você sabe que suas horas de lazer e sono
também influenciam sua nota, já que descansar e se divertir
aumentam seu rendimento nos estudos. Suponha que as horas
do seu dia sejam divididas apenas em descanso, lazer e
estudos. Assim, você tentará estimar o seguinte modelo:
nota = β0 + β1 estudar + β2 dormir + β3 lazer + ui
a) Qual o problema desse modelo?

b) Como você reformularia esse modelo para que seus
parâmetros tivessem uma interpretação útil?
7. Considere o seguinte modelo de regressão:
a) Há evidências de multicolinearidade perfeita? Explique.

b) Obtenha as estimativas dos betas por MQO e escreva o
modelo estimado.
c) Qual o tamanho da amostra?
8. (Anpec 2015) Julgue as seguintes afirmativas:

(1) Colinearidade quase perfeita na matriz de variáveis
explicativas causa um viés no estimador de Mínimos
Quadrados Ordinários;
explicativas causa um viés no estimador da variância do
estimador de Mínimos Quadrados Ordinários;
explicativas gera uma perda da propriedade de eficiência
do estimador de Mínimos Quadrados Ordinários;
(4) Colinearidade quase perfeita faz com que o erro-padrão de
algumas estimativas dos coeficientes de Mínimos
Quadrados Ordinários seja grande;
(5) Colinearidade quase perfeita faz com que o estimador de
Mínimos Quadrados Ordinários deixe de ser linear.
9. (Anpec 2012 – modificada) Suponha que um pesquisador esteja

interessado em investigar os determinantes da delinquência
juvenil e tenha acesso aos seguintes dados provenientes de 100
cidades de um dado país: A denota o número de internações por
1000 adolescentes; P é o número de residências por 1000
domicílios na cidade com renda abaixo da linha da pobreza; S
representa o número de residências por 1000 domicílios na
cidade com apenas um dos pais. O pesquisador estima a
seguinte regressão:
A = β1 + β2P + β3S + u
Em que u é o termo de erro que satisfaz todas as hipóteses

usuais do modelo de regressão. A correlação populacional
entre P e S é 0,96.
Julgue as seguintes afirmativas:
(0) A alta correlação populacional entre P e S dará origem ao
problema conhecido como multicolinearidade.
(1) Multicolinearidade não torna viesados os estimadores de
Mínimos Quadrados Ordinários dos coeficientes, mas faz
com que eles sejam inconsistentes.
(2) As estimativas dos desvios-padrão serão viesadas e
provavelmente subestimarão os valores verdadeiros.
(3) Se ao invés de uma alta correlação populacional, houvesse
uma alta correlação entre A e P ou entre A e S, o problema
de multicolinearidade seria ainda pior.
10. (Anpec 2008 – modificada) Considere a regressão múltipla:
y = β0 + β1 X1 + β2X2 + β3X3 + u
Cujos parâmetros tenham sido estimados pelo método dos

Mínimos Quadrados Ordinários. Julgue as afirmativas:
(0) Se E (u|x1, x2, x3) = 0 e o modelo não é perfeitamente
colinear, então os estimadores não são viesados.
(1) Se o R2 = 1, então y é uma combinação linear de x1, x2, x3.
(2) Se o modelo satisfaz as hipóteses do Teorema de Gauss-
Markov, então é o estimador linear não viesado de β1
com menor variância possível.
(3) Se omitirmos x3 da regressão, os estimadores de β1, β2 e
β3 podem ser viesados.
11. A partir do exercício do capítulo anterior sobre a relação entre

peso e circunferência abdominal para indivíduos acima de 18
anos e usando os dados de peso.xls:
Você acha que a circunferência abdominal é suficiente para
a) explicar o peso de um indivíduo maior de 18 anos?
Justifique usando as variáveis disponíveis na base de
dados.
b) Aponte alguma variável não incluída no modelo que está
correlacionada tanto com a circunferência abdominal
quanto com o peso. Qual o sinal do viés esperado do
estimador de circunferência nesse caso?
c) Você acha relevante incluir idade no modelo? Justifique.
12. A inserção da mulher no mercado de trabalho é um evento

recente, bastante influenciado pela disseminação da pílula
anticoncepcional. Usando os dados filhos.xls que têm
informações de mulheres entre 18 e 45 anos obtidas na PNAD
2014:
a) Você acha que o número de filhos de uma mulher impacta
de forma positiva ou negativa o salário recebido?
b) Faça a regressão de salário contra o número de filhos e
interprete.
c) Conforme visto no capítulo, a educação também influencia
o salário recebido. Você acha que educação influencia o
número de filhos? Se sim, explique de qual maneira. Isso
traz algum problema para a regressão do modelo anterior?
d) Faça a regressão de salário contra filhos e educação. O
que aconteceu com o coeficiente de filhos? Você consegue
explicar o motivo?
13. Considere uma amostra aleatória de uma variável com média ε e

variância σ2. Proponha um estimador viesado, mas consistente
para ε e explique a diferença entre um estimador consistente e
um estimador viesado.
14. A partir da teoria assintótica:

Prove que a média amostral simples de y é um estimador
a)
consistente de µ no modelo yi = µ + ϵi, em que ϵi ~ N(0, σ2).
b) Prove que o estimador de Mínimos Quadrados Ordinários
de β1 no modelo de regressão simples é consistente.
c) Prove que o estimador de Mínimos Quadrados Ordinários
de β0 no modelo de regressão simples é consistente.
1 Lembre-se: a linearidade necessária é sobre os parâmetros, e não sobre

as variáveis x. Linearidade nos parâmetros significa que as condições de
primeira ordem, obtidas quando se minimiza a soma dos quadrados dos
resíduos, possuem soluções explícitas para cada um dos parâmetros
sendo estimados.
2 Vamos manter a notação dos demais capítulos para a apresentação das
matrizes. Note que essa notação difere da notação matricial padrão
(linha,coluna).
3 Note que e, como representam escalares (dimensão 1x1),
temos que .
4 Podemos escrever
5 Baseada em Wooldridge (2015, p. 103-104).

6 Lembre-se que os graus de liberdade são determinados pela diferença
entre o número de observações da amostra e o número de parâmetros
estimados em nosso modelo. Eles representam a quantidade de
informação que os dados nos fornecem para estimar os valores de
parâmetros populacionais desconhecidos. Cada novo parâmetro
adicionado no modelo necessita de um estimador a mais, o que nos faz
perder um grau de liberdade.
7 Ver Stolar (2014).
8 Dados da PNAD de 2011.
9 Ver Barros et al. (1997), Buvinić e Gupta (1997, p. 259-80) e Sen (2002).
10 Quando se utiliza a medida de altura para idade, joga-se luz a problemas
de saúde crônicos, ligados a condições econômicas gerais de pobreza.
Essa desnutrição crônica é conhecida como stunting e provoca
desaceleração do crescimento esquelético (KASSOUF, 1994; ALVES &
BELLUZZO, 2004).
11 Ver Sen (2002) e Yunus (2001).
6
ESPECIFICAÇÕES DOS MODELOS DE

REGRESSÃO
N
este capítulo mostraremos as consequências de algumas
mudanças dos modelos de regressão. Primeiro, veremos
como muda a interpretação dos estimadores quando
alteramos as unidades de medidas das variáveis, ou
quando usamos o logaritmo das variáveis ao invés de incluí-las no
nível.
Segundo, permitiremos que a relação entre y e x seja descrita
por um polinômio e veremos as consequências disso para a
estimação. Por fim, veremos como podemos usar variáveis binárias
(as chamadas variáveis dummy) para considerar variáveis
qualitativas no nosso modelo, tanto como variáveis explicativas
quanto como variáveis explicadas. O objetivo deste capítulo é
mostrar o potencial de análise dessas ferramentas, assim como
verificar como o modelo e a interpretação de seus parâmetros são
alterados a partir dessas alterações. Este é um capítulo com grande
apelo prático e necessário para partirmos para os testes de
hipóteses sobre os parâmetros do modelo (tópico do Capítulo 7).
6.1 MUDANÇAS NAS UNIDADES DE MEDIDA DAS VARIÁVEIS
Suponhamos o seguinte modelo de regressão linear simples:
yi = β0 + β1 xi + ui ∀ i = 1, ... , n
O que aconteceria com os parâmetros (β0 e β1), estimadores por

MQO ( e ) e variância (V ( ) e V ( )) se mudássemos as
unidades de medida de y, de x ou de ambas as variáveis?
Primeiramente, veremos o caso em que mudamos a unidade de
medida da nossa variável dependente, multiplicando-a por uma
constante c1 (imagine que observamos a variável “salários” em reais
(y), mas gostaríamos de transformá-la em mil reais, ou seja,
estamos interessados em c1 y, tal que c1 = 1/1000). Assim, temos a
seguinte transformação do modelo original (usaremos os
parâmetros “α” para diferenciar os dois modelos):
c1yi = α0 + α1 xi + ui
Podemos escrever os novos estimadores de MQO, para o

modelo redimensionado, como:
Note que tanto o intercepto quanto a inclinação do modelo são

afetados por mudanças na unidade de medida de y. Isto porque
tanto β0 e β1 medem efeitos sobre y. A variância dos estimadores, e
consequentemente o erro-padrão, também serão alterados:
QUADRO 6.1
Mudança na unidade de medida da variável dependente
Para avaliar o tempo de resposta de uma máquina em função da
sua memória RAM, podemos construir o seguinte modelo:
tempo = β0 + β1 memória + u
em que o tempo é dado em minutos e a memória é dada em

gigabytes (GB). No entanto, é esperado que uma máquina tenha
tempo de resposta bastante curto, fazendo com que medir o tempo
em segundos seja mais adequado. Como 1 minuto é equivalente a
60 segundos, temos que temposeg = 60.tempo. Reescrevendo o
modelo:
temposeg = 60.tempo = 60 (β0 + β1 memoria + u)
temposeg = 60β0 + 60β1 memoria + 60u
temposeg = α0 + α1 memoria + u'
Note agora que, ceteris paribus, α1 mede os segundos de resposta

da máquina para cada GB adicional de memória. Esse tempo de
resposta, em segundos, é 60 vezes o tempo medido em minutos
(representado por β1).
Podemos, também, analisar o caso em que há uma mudança na

unidade de medida de x (nova variável explicativa é observada
como xc2, sendo c2 uma constante). Considerando o modelo inicial
como partida, temos a seguinte alteração:
Neste caso, apenas o parâmetro que mede o efeito de x em y se
altera. Portanto, apenas a variância do estimador da inclinação
sofrerá alteração:
QUADRO 6.2
Mudança na unidade de medida da variável explicativa
Usando os dados da PNS de 2013, vamos propor uma regressão
linear entre o peso e a altura das pessoas acima de 60 anos
(peso.xls):
= –46,859 + 72,04 altura
(5,660) (3,477)
N = 5.916 R2 = 0,2325
O peso é medido em quilogramas (kg) e altura em metros (m).
Conforme esperado, a relação entre peso e altura é positiva, no
entanto, a interpretação do modelo ficou dificultada pelas unidades
de medidas utilizadas. Temos aqui que a redução em 1 m na altura
reduz o peso em 72,04kg. É incomum supor uma variação na altura
em metros, assim, poderíamos redimensionar a altura usando
centímetros (cm) ao invés de metros (alturacm = 100.altura). O
modelo com a variável em centímetros ficaria:
= –46,859 + 0,7204 alturacm
(5,660) (0,03477)
N = 5.916 R2 = 0,2325
Como 1 metro equivale a 100 centímetros, o novo estimador da
altura é o estimador do modelo anterior dividido por 100. A
interpretação, nesse caso, ficou mais intuitiva: a redução em 1 cm
na altura do idoso, reduz seu peso em 0,72kg.
Por fim, temos o caso em que ambas as variáveis são

observadas com unidades de medida diferentes das iniciais. Assim,
supondo que y seja multiplicado por c1 e x, por c2, temos:
Este caso nada mais é do que a combinação dos efeitos

observados nos dois anteriores. Veja como mudam as
interpretações no Quadro 6.3.
QUADRO 6.3
Mudança na unidade de medida da variável dependente e
independente
No mesmo exemplo do Quadro 6.2 podemos alterar também a
unidade de medida do peso para gramas, ao invés de quilogramas.
Como 1 kg equivale a 1000 g, temos Peso.1000 = Pesogramas.
Neste caso, teríamos a seguinte regressão:
gramas = –46.859 + 720,4 alturacm

(5.660) (34,77)
N = 5.916 R2 = 0,2325
Apesar do tamanho dos coeficientes estimados ter aumentado
a interpretação ficou mais simples. Agora, a redução em 1 cm na

altura leva a uma redução de 720,4 gramas.
Vale ressaltar que em todos os casos de mudança da unidade de

medida, o R2 não muda para mudanças nas unidades de medida.
Deixamos essa demonstração para a resolução de exercícios ao
final do capítulo.
6.2 NÃO LINEARIDADES NA RELAÇÃO ENTRE Y E X

Até agora, vimos apenas efeitos lineares de x em y. Assim, o efeito
de x em y é sempre β1, não obstante o nível de x. Se suspeitarmos
de não linearidade na relação entre as variáveis dos modelos,
podemos fazer transformações nas variáveis (o que é diferente de
transformar as unidades de medida). Uma das funções mais
utilizadas para transformar variáveis é a função logarítmica
(veremos que podemos ter bons motivos para calcular o logaritmo
das variáveis no modelo). Vamos analisar como, e quando,
podemos usar o logaritmo nas variáveis dependentes ou
independentes.
O modelo a seguir, de regressão linear simples, considera uma
transformação logarítmica apenas em y. Este é o chamado “Modelo
log-nível”:
ln (y) = β0 + β1 x + u
Dada essa transformação, o parâmetro β1 terá o seguinte

significado (ceteris paribus):
Em palavras, teremos que o β1 nos dará aproximadamente o
efeito, em termos de variação percentual de y, de uma variação
unitária em x.
Se quisermos incorporar não linearidades em x, podemos criar

uma nova variável extraindo o logaritmo de x, modelo esse
conhecido por “Modelo Nível-Log”:
y = β0 + β1 ln (x) + u
Neste caso, o parâmetro β1 pode ser expresso por (ceteris

paribus):
Assim, o β1 nos dará o efeito da variação absoluta de y de uma
mudança em termos percentuais em x.
Se quisermos incorporar não linearidades em y e em x, podemos

utilizar o “Modelo Log-Log”:
ln (y) = β0 + β1 ln (x) + u
O parâmetro β1 pode ser expresso por (ceteris paribus):

Neste caso, o β1 nos dará a elasticidade entre y e x. O modelo
log-log também é conhecido por modelo de elasticidade constante.
Note que, não obstante as relações entre y e x serem não
lineares, continuamos com regressões lineares nos parâmetros
(sendo essa uma das hipóteses importantes para derivarmos as
boas propriedades dos estimadores de MQO). A não linearidade em
x ou y só faz mudar a interpretação dos parâmetros. Na Figura 6.1
ilustramos as diferenças das formas funcionais para uma regressão
simples.
Os cálculos dos efeitos que vimos para os modelos com
logaritmo foram feitos considerando uma variação marginal em x
(efeitos aproximados). Por exemplo, no modelo
ln (y) = β0 + β1 ln (x1) + β2 x2 + u,
FIGURA 6.1
Reta de regressão da relação entre y e x para diferentes especificações
usando o logaritmo neperiano.
sabemos que β1 pode ser interpretado como a elasticidade entre y e
x1. A interpretação exata de β2, no entanto, não é tão direta, pois
∆%y ≅ β2 (∆x2)
ou
∆%y ≅ 100β2 (∆x2) (em casas decimais)
são aproximações advindas do fato de ∆x2 → 0. Assim, o efeito

exato da variação de x2(0) para x2(1) pode ser calculado da seguinte
forma (supondo x1 e u constantes):
Como
Temos que
ou, em termos percentuais:
A diferença entre os dois cálculos pode ser vista no exemplo do

quadro a seguir.
QUADRO 6.4
Estimação da regressão de salários e escolaridade
usando ln
Usando a amostra de dados da PNAD de 2014 para pessoas
adultas (salario.xls), vamos propor uma regressão simples usando
a variável dependente em logaritmo. Ao estimar essa regressão
linear simples pelo Método de MQO, encontramos os seguintes
resultados:
ln (salário) = 1,152 + 0,090 educ
Interpretando o efeito como marginal, temos que cada ano de
escolaridade adiciona 9% ao salário dos indivíduos. No entanto,
como a variação de um ano de escolaridade não pode ser
considerada como uma variação marginal, o efeito exato do ano
adicional de escolaridade em salários seria 100 (e0,090 – 1) =
9,417%.
É importante, no entanto, fazer algumas observações quanto ao

uso do logaritmo nos modelos de regressão linear:
i. Não usar o logaritmo quando a variável em questão apresentar
elevado número de zeros, uma vez que o logaritmo de 0 é
indeterminado (evitar o uso quando a variável é uma
proporção, ou variável discreta limitada).
ii. Note que os parâmetros de inclinação do modelo, quando
suas variáveis estão em logaritmo, não variam com o
redimensionamento das variáveis.
iii. Por reduzir a variabilidade das variáveis, o uso do logaritmo
pode amenizar o problema com outliers e/ou fazer com que a
hipótese de homocedasticidade seja satisfeita mais facilmente.
iv. O uso do logaritmo na variável dependente muda a soma dos
quadrados totais do modelo (usada para o cálculo do R2), o
que faz com que o R2 perca a comparabilidade entre os
modelos com y no nível e modelos com logaritmo de y.
v. O uso do logaritmo na variável dependente também muda a
forma como fazemos previsão da nossa variável de interesse.
Previsão quando a variável dependente está em log

É bastante comum, em modelos econômicos, a presença de
variáveis dependentes com distribuições assimétricas e com “caldas
pesadas”. Mesmo com a inclusão de variáveis relevantes, os
resultados das regressões, em geral, indicam baixos R2, ou seja,
com baixa porcentagem de explicação da variação da variável
dependente tomada em nível. Pode ser uma indicação que o termo
erro talvez deva entrar no modelo na forma multiplicativa e não
aditiva, como ocorre com a variável dependente em nível. Isso
ocorre frequentemente com variáveis como renda de indivíduos ou
famílias, despesa familiar, rendimentos de modo geral etc. Nessas
situações a transformação logarítmica da variável dependente é, por
vezes, uma solução que torna o modelo mais próximo das hipóteses
do modelo de regressão.
O modelo com logaritmo na variável dependente corresponde ao
seguinte modelo exponencial:
em que
Mas, sob as Hipóteses 5.1 a 5.5, temos que . Assim,

tomando o logaritmo de ambos os lados do modelo e estendendo o
modelo para as observações i de uma amostra aleatória, obtemos
Estimando o modelo na forma logarítmica obtém-se:

Para se fazer previsão para y usando o modelo estimado é
preciso que se tome o anti-logarítmo de , ou seja , mas
note que precisamos fazer um ajuste do modelo, pois E (eu|x) é
igual a . Desta forma, temos duas situações para se fazer a
previsão:
1) Sob a hipótese de u| x ~ N (0, σ2): Neste caso,
. Note que para fazer a correção basta
usar o estimador não viesado de σ2 da regressão para se
prever o valor de y para qualquer i. Neste caso, a previsão não
é não viesada, pois , mas é consistente, pois
;
2) Supondo que ui não tenha distribuição normal, mas que todos
os ui sejam idêntica e igualmente distribuídos, podemos fazer
a previsão estimando o parâmetro γ0 de correção:
Neste caso, podemos estimar γ0 de duas formas:
(i) usando os resíduos estimados, e

estimando:
Em que: .
Ou seja, basta estimar a regressão por MQO de yi em , sem
intercepto, para que se obtenha como estimador de γ0 e
possibilite fazer a previsão para y. Note, entretanto, que esta última
alternativa pode resultar em valor estimado para γ0 menor do que
um, o que teoricamente não faz sentido, pois γ0 = E (eu). Este termo
só será igual a um quando todos os ’s forem iguais a zero.

Além do uso do logaritmo para ajustar a reta de regressão de uma
relação não linear entre a variável dependente e as independentes,
podemos considerar outras formas funcionais.
Suponha que y e x tenham uma relação expressa por um
polinômio de 2° grau (função quadrática). Neste caso, o modelo
mais simples pode ser enunciado da seguinte forma:
y = β0 + β1 x + β2 x2 + u
Um exemplo da relação anterior é a produção semanal de uma

empresa de telemarketing (y), medidas em termos de número de
ligações, considerando o número de telefonistas da empresa (x). Se
no curto prazo a quantidade de capital é fixa, a função de produção
apresenta rendimentos decrescentes no número de trabalhadores.
O efeito exato da variação do número de telefonistas de x(0) para
x(1) pode ser calculado da seguinte forma (considerando u mantido
constante):
Se considerarmos uma variação marginal em x (tal que ∆x → 0):

Note que o efeito parcial de x em y depende de valores de x, ou
seja, se x = 0, mede o efeito de x = 0 para x = 1, se x > 0 (ou x <
0), é preciso considerar 2 x. Em geral, usamos alguma medida de
tendência central no lugar de x para interpretar esse efeito (média
simples, mediana, ou quintis da amostra).
Outra informação interessante deste tipo de modelo refere-se
aos sinais de β1 e β2 invertidos (+ e –, ou – e +, respectivamente).
Neste caso, podemos calcular o ponto de inflexão do efeito de x em
y (um x*, tal que o efeito muda de direção em torno deste ponto).
Podemos calculá-lo igualando a derivada (efeito marginal) a zero, ou
seja:
A análise para polinômios de maior grau é análoga. Seja o

modelo:
O efeito de uma variação marginal no valor de x (considerando u

constante) será, portanto:
FIGURA 6.2
Reta de regressão da relação entre y e x para especificações polinomiais de
2° e 3° grau.

Outra forma de analisar a relação entre y e as demais variáveis
explicativas é usando o produto cruzado entre elas, ou seja, um
termo de interação “x1 x2”, como neste exemplo
Antes de mostrarmos a aplicabilidade desta forma funcional,

vamos calcular o efeito parcial de x1 ou x2 para esse modelo. O
efeito parcial de x2 pode ser descrito da seguinte forma
(considerando u constante):
Assim, o efeito parcial de x2 em y depende do valor de x1.

Suponha, por exemplo, que estamos medindo o efeito da
temperatura (x1) sobre a produtividade dos trabalhadores agrícolas
(y). Sabe-se que o desconforto com relação ao trabalho no campo
aumenta com a temperatura do ar. No entanto, para níveis mais
altos de umidade relativa do ar (x2), a regulação do corpo via
transpiração é reduzida, aumentando a sensação de calor. Se
estivéssemos analisando o efeito da temperatura sobre a
produtividade dos trabalhadores (medida pelos seus salários/hora,
ou pela quantidade produzida/hora), precisamos considerar a
interação entre as duas variáveis (temperatura e umidade relativa do
ar). Assim, o efeito da temperatura sobre a produtividade é diferente
para níveis de umidade relativa do ar distintos. Nestes casos, é
preciso avaliar o efeito em algum ponto de referência de x1, como a
média ou mediana.
6.3 VARIÁVEIS BINÁRIAS (DUMMY)
Muitas das variáveis econômicas observadas, tanto explicadas
quanto explicativas, são variáveis qualitativas, ou categóricas. Estas
variáveis não assumem valores reais, mas medem informações
importantes sobre os indivíduos, regiões, empresas etc. Ao contrário
das variáveis aleatórias que vimos anteriormente, essas variáveis
indicam se uma observação de interesse pertence a uma dada
categoria ou se possui alguma dada característica. São exemplos
de variáveis qualitativas:
1. Características dos indivíduos: gênero, etnia, ou estado civil.
2. Condição dos indivíduos: trabalha, ou não trabalha; compra ou
não compra determinado bem ou serviço; possui ou não cartão
de crédito; participa ou não da política/programa; fuma ou não
fuma.
3. Condição de um local, ou região: implementou ou não a nota
fiscal eletrônica; faz parte ou não de um aglomerado urbano.
4. Condição temporal: o dia, mês, bimestre, ano, ou qualquer
outra frequência temporal.
Transformar essas variáveis qualitativas em binárias é uma das

formas que temos para analisá-las. Assim, para utilizar uma variável
binária (e tecer interpretações adequadas), é preciso definir
claramente o que será medido por 1 e 0. Veja o exemplo da
informação sobre o gênero dos indivíduos:
ou
Utilizamos 1 e 0 para ter interpretações naturais do modelo.
Veremos a facilidade que o uso de variáveis binárias gera.
Suponha que estamos interessados em analisar se existe gap
(hiato ou diferença) salarial entre homens e mulheres por meio do
seguinte modelo:
Supondo E [u|educ, mulher] = 0, o modelo indicará existência de

diferencial salarial se
Ou seja, esse diferencial ocorrerá se β2 ≠ 0. Pode-se dizer que

existem evidências empíricas sobre a existência desta
desigualdade, mas precisaríamos testar essa hipótese para nos
certificarmos (lembre-se que consideramos válida a seguinte
hipótese: E [u|educ, mulher] = 0).
A Figura 6.3 ilustra a função de regressão da população para o
modelo explicitado com variável dummy.
FIGURA 6.3
Diferença da regressão na população para homens e mulheres considerando
a inclusão da variável dummy de gênero.
Note que há um deslocamento do intercepto na regressão entre
homens e mulheres. Esse deslocamento, β2, é a diferença salarial
média entre homens e mulheres neste modelo. Note ainda que essa
diferença é independente do nível de educação do indivíduo (as
retas são paralelas).
Seria redundante incluir uma nova variável “homem”, pois o
intercepto do modelo para indivíduos homens já é β0. Usar duas
dummies traria multicolinearidade perfeita porque
mulher + homem = 1
Ou seja, as variáveis somam um, o que geraria uma redundância

com o intercepto (veja como definimos a primeira coluna da matriz X
do modelo). Assim, sempre precisamos excluir uma das categorias
da variável. Chamamos a categoria excluída de “grupo-base” ou
“grupo de comparação” (no nosso exemplo, seria o grupo dos
homens). O β0 será sempre o intercepto do grupo-base.
Uma alternativa seria incluir ambas as variáveis dummy e excluir
o intercepto. Assim, teríamos o modelo:
salário = α1 educ + α2 mulher + α3 homens + u
Note que, neste modelo, se vale a hipótese de exogeneidade:
E [sal|educ, mulher = 0, homem = 1] = α3 + α1 educ
E [sal|educ, mulher = 1, homem = 0 ] = α2 + α1 educ
Tal que a relação entre os parâmetros das duas especificações

seria
α2 = β0 + β2
α3 = β0
Há, portanto, uma correspondência exata entre os parâmetros. O

segundo modelo, no entanto, não permite testar diretamente a
diferença de intercepto entre os modelos (basta testar se o
parâmetro β2 ≠ 0 no primeiro modelo) e o R2, em geral, perde a
interpretação quando excluímos o intercepto.
QUADRO 6.5
Discussão sobre a avaliação de um programa de
treinamento
Suponha que queremos estudar o impacto da participação em um
treinamento sobre a produtividade dos funcionários. Como a
participação é uma informação qualitativa, podemos transformá-la
em binária, usando uma variável dummy d = 1, quando o funcionário
participa do treinamento, e d = 0, quando o funcionário não participa
do treinamento. Considere que a produtividade do funcionário seja
medida por y:
y = β0 + β1 d + u
Para que β1 seja o efeito do treinamento, precisamos verificar se a

Hipótese E [u|d] = 0, ou seja, se E [u|d] = 1] = E [u|d = 0]. Podemos
ter várias situações de bases de dados (e de alocação dos
funcionários para o treinamento) em que haveria correlação entre o
treinamento e o erro:
• Os gestores da empresa incentivam seus piores funcionários a
participarem de treinamentos.
• Os melhores funcionários escolhem participar do treinamento.
Nos dois casos, a participação no treinamento não é aleatória.
Assim, esperamos que E [u|d = 1] ≠ E [u|d = 0], pois os demais
fatores que explicam a produtividade dos indivíduos serão
correlacionados com a participação (dizemos que a participação é
endógena). Vimos que a quebra dessa hipótese implica que será
viesado.
Uma solução para esse problema é fazer uma regressão múltipla
para controlar por outros fatores que afetam a participação e y. Se o
problema persistir, outros métodos podem ser utilizados.1
QUADRO 6.6
Efeito das características dos veículos sobre os preços
A aluna Ana Beatriz Silva (2015)2 buscou entender como os preços
dos veículos se relacionam com as suas características no Brasil.
Para tal, utilizou uma amostra de dados da tabela da Fundação
Instituto de Pesquisas Econômicas (FIPE), que possui informação
sobre os preços médios de veículos de todos os automóveis de
passeio discriminados por modelo, marca, tipo de combustível e
número de passageiros. As características adicionais utilizadas no
modelo de estimação foram obtidas por meio de pesquisa e análise
individual das fichas técnicas dos modelos de veículos
selecionados. Os dados estão disponíveis em veiculos1.xls.
Ela propõe inicialmente um modelo de regressão múltipla com base
nos modelos de preços hedônicos, que relaciona a utilidade de um
bem advinda da valoração feita pelos consumidores das diferentes
características desses bens (isto é, os consumidores não
demandariam um certo bem, mas sim, suas características).3
Assim, podemos estabelecer uma relação entre o preço e as
características de diferentes veículos.
ln (p) = β0 + β1 cv + β2 torque + β3 comp + β4 peso + β5 abs + β6 auto + β7 ar + β8
flex + u
Em que cv representa a quantidade de cavalos-vapor, torque é o
torque líquido máximo (em kfgm), comp denota o comprimento (em
metros), peso é medido em kg, abs é uma dummy para posse de
freios abs, auto é uma dummy para posse de câmbio automático, ar
indica posse de ar-condicionado (tem ou não tem) e flex é uma
dummy para veículos que funcionam com gasolina e etanol.
A estimação por MQO do modelo anterior gerou os seguintes
resultados:
Note que uma das características mais valiosas é se o carro possui

câmbio automático ou manual. Interpretando o resultado pelo efeito
aproximado, temos que carros automáticos são, aproximadamente,
16,3% mais caros que carros manuais na média. Na interpretação
exata, a valorização de carros automáticos passa para 17,74% em
relação a carros com câmbio manual.
1 Discutiremos esse tipo de problema de maneira mais avançada no Capítulo 12.

2 Ver Silva (2015).
3 Ver Pakes (2003).

Vimos um exemplo do uso de variáveis dummy com apenas dois
grupos (homens e mulheres). Nestes casos, tínhamos dois
interceptos com a inclusão de apenas uma variável dummy no
modelo (além do intercepto). Quando temos mais grupos para uma
variável qualitativa, ou seja, g grupos (como etnia, estado civil,
unidades da federação, entre outras), precisaremos de g –1
dummies para representar todas as categorias mais o intercepto,
que será o intercepto do grupo-base (grupo excluído).
Um exemplo de variável qualitativa com vários grupos e a
variável de educação da forma como foi perguntada na PNAD
2015.1
Qual foi o curso mais elevado que frequentou anteriormente?

1 = Elementar (primário)
2 = Médio 1o ciclo (ginasial etc.)
3 = Médio 2o ciclo (científico, clássico etc.)
4 = Regular do ensino fundamental ou do 1o grau
5 = Regular do ensino médio ou do 2o grau
6 = Educação de jovens e adultos, ou supletivo do ensino
fundamental ou do 1o grau
7 = Educação de jovens e adultos, ou supletivo do ensino
fundamental ou do 2o grau
8 = Superior de graduação
9 = Mestrado ou doutorado
10 = Alfabetização de jovens e adultos
11 = Creche
12 = Classe de alfabetização – CA
13 = Maternal, jardim de infância etc.
Se utilizarmos esta variável como “educ” no modelo, mais um

vetor de outras variáveis resumidas em x, teríamos:
salário = α0 + α1 educ + xβ + u
α1 será o efeito esperado, ceteris paribus, de uma variação de uma

unidade de educ, ∆educ = 1, em salários. Este efeito será linear em
qualquer valor da variável educ. No entanto, espera-se que haja
ganhos diferentes entre: sair do ensino elementar (primário) para o
ginasial; e sair do ensino fundamental para finalizar o ensino médio.
Note que a variável, da forma como é perguntada e tabulada na
PNAD, não permite que capturemos diferentes efeitos entre os
níveis de educação. Assim, poderíamos transformar cada nível de
educação em uma variável dummy. Seriam, portanto, 13 variáveis
dummy, sendo que precisaríamos incluir apenas 12 no modelo de
regressão linear múltipla (mais o intercepto).
A Figura 6.4 ilustra a função da regressão na população (sob a
hipótese de que E (u|educ, x) = 0) considerando diversas variáveis
dummy resumidas para cada ciclo escolar:
E (salário│DE1, ... , DE5, x) = β0 + β1 DE1 + ⋯ + β5 DE5
Em que
DE1 = I (concluiu Ensino Fund I)
DE2 = I (concluiu Ensino Fund II)
DE3 = I (concluiu Ensino Médio)
DE4 = I (concluiu Ensino Superior)
DE5 = I (concluiu pós-graduação)

FIGURA 6.4
Regressão na população de salário em função de variáveis dummy para o
ciclo escolar.

Vimos que podemos interagir as variáveis explicativas quando os
efeitos delas sobre y dependem umas das outras. No caso de
variáveis dummy, a interação entre elas pode medir efeitos
interessantes.
Suponha que estejamos interessados em analisar o efeito do
casamento na felicidade das pessoas, medida por um indicador de
qualidade de vida (QV: medida de qualidade de vida) e verificar se
esse efeito é diferente para homens e para mulheres.
Como temos duas variáveis dummy que medem categorias

diferentes (gênero e estado civil), o grupo-base é composto pelas
categorias que recebem zero em ambas as variáveis dummy, ou
seja, homens solteiros. Neste modelo, temos quatro interceptos
diferentes (supondo válida a hipótese de exogeneidade):
E (QV|mulheres, casadas) = β0 + β1 + β2 + β3
E (QV|mulheres, solteiras) = β0 + β2
E (QV|homens, casados) = β0 + β2
E (QV|homens, solteiros) = β0
Alguns estudos mostram que a renda é, também, uma

importante variável que explica qualidade de vida.2 Para verificar se
existem diferenças no efeito da renda sobre qualidade de vida para
homens e mulheres, podemos reescrever o modelo da seguinte
forma:
QV = α0 + α1 mulher + α2 casado + α3 mulher * casado + α4 renda +

α5 renda * mulher + u
Agora, o efeito da renda sobre a QV dos homens é α4 e para

mulheres é α4 + α5. A interação de variáveis dummy com variáveis
quantitativas contínuas faz com que haja diferença de inclinação nos
gráficos da variável dependente contra a variável quantitativa em
questão.
Para testar se o efeito da renda sobre QV é igual para os dois
gêneros, testa-se a hipótese de que α5 = 0. Para testar se não há
diferenças entre a QV de homens e mulheres, testa-se as seguintes
hipóteses α1 = 0, α3 = 0 e α5 = 0. Veremos como testar essas
hipóteses no capítulo sobre inferência.
FIGURA 6.5
Regressão na população de Qualidade de Vida em função da renda.

Muitos modelos em economia buscam entender como se dão as
escolhas dos indivíduos, por exemplo:
1. Quais fatores influenciam a decisão de se casar?
2. Quais fatores influenciam a decisão de continuar estudando,
ou ir para o mercado de trabalho?
3. Por que os indivíduos escolhem se locomover de carro
(automóvel particular) e não de transporte coletivo?
Todas essas perguntas têm em comum o fato de a variável de

interesse ser considerada binária (y = 1, se a decisão foi casar, ou
trabalhar, ou ir de carro; e y = 0, caso contrário).Veremos que é
possível analisar esses modelos usando regressão linear simples ou
múltipla, mas eles também terão alguns problemas. Suponha o
modelo de regressão linear múltipla, sendo xi = (1, x1i, ..., xki):
yi = xi β + ui
em que, para toda observação i da amostra, yi é uma variável

dummy que indica sucesso (= 1) ou fracasso (= 0) para a
observação i.
Se a Hipótese E [ui| xi] = 0 for válida, temos E [yi| xi] = xi β ∀ i.
No entanto, devido à natureza da variável y, sabemos que ela segue
uma distribuição de Bernoulli.3 Assim, temos que
Como a função que modela a probabilidade de sucesso é linear,

esse modelo é conhecido por Modelo de Probabilidade Linear
(MPL). O efeito marginal de xj na probabilidade de sucesso é o
próprio βj (chamamos esse efeito de probabilidade marginal).
No entanto, assim como derivamos a esperança condicional de y

usando os resultados da Bernoulli, podemos fazer o mesmo com a
variância condicional de y (que guarda relação com a variância
condicional dos erros).
Assim, o problema em se estimar este modelo por MQO padrão

está no fato de haver heterocedasticidade, uma vez que a variância
condicional de y não é mais constante para todas as observações.
Sabemos que, se a Hipótese 5.5 não for válida, violaremos as
Hipóteses de Gauss-Markov e o estimador de MQO não será mais
BLUE.
Outro problema que decorre da estimação linear da
probabilidade está no fato de que, dependendo dos valores que
assumimos para x1, ⋯ , xK, podemos ter negativos ou
maiores que, o que viola as propriedades da lei das probabilidades.
Veremos formas de lidar com esses problemas no Capítulo 11.
6.4 EXERCÍCIOS
1. Um pesquisador estima o seguinte modelo de regressão simples
yi = β0 + β1 xi + ui
Outro pesquisador estima o mesmo modelo, mas com escalas

diferentes para xi e yi. O Segundo modelo é ,
em que são constantes maiores que
zero.
a) Qual a relação entre ?
b) Mostre que os coeficientes de determinação, R2, são iguais
nos dois modelos.
2. Explique como é interpretado o impacto da distância a um aterro

sanitário nos preços dos imóveis de uma cidade para os modelos
a seguir, em que pi é o preço do imóvel i em reais e disti é a
distância do imóvel i, em metros, ao aterro da cidade:
a) pi = β0 + β1 disti + u1i
b) ln (pi) = β0 + β1 disti + u2i
c) pi = β0 + β1 ln (disti) + u3i
d) ln (pi) = β0 + β1 ln (disti) + u4i
e) ln (pi) = β0 + β1 disti +β2 disti2 + u5i
f) pi = β0 + β1 disti + β2 disti2 + u6i
3. Suponha um modelo de regressão da forma
yi = β0 + β1 ln (x1i) + β2 x2i + ui
Mostre que, se estimarmos em
que , então .
4. Suponha que você esteja tentando escolher o tempo gasto

dormindo em cada dia a partir do tempo gasto trabalhando, anos
de educação e idade. A estimação retornou o seguinte resultado:
em que dormir e trabalho são as quantidades de minutos

dormidos e trabalhados por dia.
a) Quais seriam as estimativas se ao invés de usarmos
minutos dormidos usássemos horas dormidas? Justifique.
b) E se substituíssemos minutos dormidos e minutos
trabalhados por horas dormidas e horas trabalhadas, como
ficaria o modelo?
5. Com uma amostra de preços sobre lançamento de imóveis em

São Paulo, foi possível estimar o seguinte modelo que explica o
preço por área útil de imóveis habitacionais a partir da
quantidade de dormitórios e distância mínima, em metros, até o
metrô em São Paulo.
a) Qual a porcentagem exata de mudança no preço ao

aumentar a quantidade de dormitórios em uma unidade? E
em duas unidades?
b) Ao incluir no modelo a variável ln (metro)2, encontrou-se os
Faça o gráfico de ln (preço) como função quadrática de
ln (metro). Qual é o ponto crítico? Esse gráfico faz
sentido para você? Explique e interprete.
c) Qual é a elasticidade do preço em relação à distância do
metrô para um imóvel que fica a 1 km do metrô?
6. Observe os seguintes modelos que tentam explicar o salário

hora a partir da educação dos indivíduos de 18 a 65 anos que
habitam a região metropolitana de Recife, segundo os dados da
PNAD 2014:
a) Compare os dois modelos interpretando os coeficientes.

Qual a principal diferença entre eles?
b) Recupere o R2 ajustado dos dois modelos e compare-os
com o R2, eles são muito diferentes? Justifique. Compare
agora os dois modelos pelo R2 ajustado.
7. (Anpec 2015) O governo gostaria de estimar o efeito do

Programa Saúde da Família sobre a taxa de internação por
difteria das crianças entre 0 e 4 anos de idade. Para isso, ele
gostaria de estimar o seguinte modelo de regressão:
yi = β0 + β1 Xi + ϵi
no qual Yi é a taxa de internação por difteria do município i, Xi

é uma variável binária igual a 1, se o município i participa do
programa, e 0, caso contrário. Usando os dados para o Brasil
em 2013, temos os seguintes resultados: Ȳ1 = 85, Ȳ0 = 65.
Neste caso, Ȳ1 é a média da taxa de internação para os
municípios que participaram do Programa e Ȳ0 é a média da
taxa de internação para os municípios que não participaram do
Programa. Além disso, 70% dos municípios brasileiros
participam do Programa Saúde da Família. Você estima o
modelo anterior por Mínimos Quadrados Ordinários. Qual o
valor obtido para o coeficiente associado a Xi?
8. (Anpec 2007) A regressão a seguir foi estimada com o objetivo

de explicar a diferença de salários entre homens e mulheres. As
seguintes variáveis foram utilizadas:
sal = salário médio por hora, em reais;
homecas = 1 se homem e casado; = 0, caso contrário;
mulhcas = 1 se mulher e casada; = 0, caso contrário;
mulhsol = 1 se mulher solteira; = 0, caso contrário;
edu = número de anos de educação formal;
exper = número de anos de experiência profissional;
empre = número de anos com o atual empregador.
Entre parênteses encontram-se os erros-padrão calculados por

Mínimos Quadrados Ordinários (MQO).
Suponha que um indivíduo do sexo masculino, com 15 anos
de experiência profissional, se case. Ceteris Paribus, qual a
variação percentual esperada no seu salário dois anos após
seu casamento em relação ao seu salário de solteiro?
Suponha que o número de anos de educação formal do
indivíduo não se tenha alterado e que ele não tenha trocado
de emprego.
9. Usando os dados do primeiro trimestre de 2016 da PNAD

contínua, é possível investigar as diferenças salariais entre
homens e mulheres. Responda os itens a seguir usando o
arquivo trabalho.xls.
a) Faça a regressão do log do salário contra a dummy de
mulher. Interprete.
b) Adicione as dummies de escolaridade, idade, idade ao
quadrado e dummy que aponta se o indivíduo tem carteira
assinada ao modelo. Qual a intuição para incluir idade ao
quadrado? O que acontece com coeficiente de mulher?
Explique.
c) Como você faria para descobrir se homens e mulheres com
graduação possuem salários diferentes? E homens e
mulheres com carteira assinada? Faça uma regressão para
cada caso e interprete os resultados.
d) Por meio de uma nova regressão, descubra a diferença
salarial entre mulheres com nível superior e carteira
assinada e homens com nível superior e carteira assinada?
10. Usando as informações do arquivo imoveis.xls:

a) Faça a regressão de ln(preço) contra o número de
dormitórios, número de banheiros e a interação entre
dormitórios e banheiros. Não se esqueça que a variável de
interação deve ser criada. Qual o efeito parcial da
quantidade de dormitórios no preço? Qual a interpretação
de βdorm. Faça uma crítica ao modelo.
b) Estime agora o seguinte modelo:
Em que ddorm é (dorm – média(dorm)) e dbanho é

(banho – média(banho)). Qual a interpretação para β1?
Lembre-se que você deve criar as váriáveis de média
de banheiro, média de dormitório, dbanho e ddorm.
c) Faça a equivalência entre os dois modelos.
11. Com os dados do arquivo filhos.xls, para mulheres entre 18 e

45 anos, estimaremos a probabilidade de uma mulher se inserir
no mercado de trabalho.
a) Crie uma variável que aponte se a mulher faz parte do
mercado de trabalho. Para tanto, considere que mulheres
que possuem salário hora igual a 0 não estão inseridas no
mercado. Qual a proporção de mulheres que não possuem
remuneração?
b) Estime a regressão da variável dummy criada contra filhos
e educação. Interprete os coeficientes.
c) Adicione uma variável de interação entre filhos e educação.
O que podemos dizer sobre a diferença do impacto de um
filho adicional entre mulheres mais e menos educadas?
d) Qual a probabilidade de uma mulher com 5 anos de estudo
e 3 filhos se inserir no mercado de trabalho?
e) Apesar de a probabilidade de mulheres entre 18 e 40
trabalhar ser alta, o modelo não é o mais adequado para
avaliar a situação da mulher no mercado. Faça uma crítica
ao modelo.
APÊNDICE 6.A
PADRONIZAÇÃO DE VARIÁVEIS
Usamos a padronização de unidade de medida quando a

interpretação da variável é difícil (exemplos: indicadores, medidas
de poluentes). Para isso, podemos padronizar as variáveis segundo
o zscore. A leitura aqui será relativa ao desvio-padrão de cada
variável.
Dividimos a equação anterior por e multiplicamos e dividimos

cada variável explicativa (xj) por :
Em que:
A interpretação do modelo anterior é: se xj varia em um desvio-

padrão, então muda em desvios-padrão. Assim, a unidade de
medida não importa para a interpretação dos resultados. Além
disso, podemos rankear as variáveis.
1 Ver o site do IBGE: http://www.ibge.gov.br/home/estatistica/populacao/tra
balhoerendimento/pnad2014/microdados.shtm.
2 Ver Di Tella et al. (2006) e Frey e Stutzer (2002).
3 Veja que, como conhecemos a distribuição de probabilidades de y,
poderíamos utilizar o método de Máxima Verossimilhança (ou método de
informação completa), que precisa do conhecimento da função densidade
de probabilidade para encontrar os estimadores do modelo. Veremos
essa estimação no Capítulo 11.
7
INFERÊNCIA ESTATÍSTICA
N
este capítulo vamos apresentar as condições importantes
para derivar a distribuição de probabilidades dos
estimadores. Lembrem-se de que os estimadores são
variáveis aleatórias e que observamos apenas uma
realização da distribuição (com base na amostra que temos). O
conhecimento da distribuição de probabilidades dos estimadores é
necessário para realizar testes de hipóteses sobre os verdadeiros
parâmetros do modelo. Logo, este capítulo também apresenta
testes que podem ser realizados a partir do conhecimento das
distribuições das estimativas.
7.1 BREVE REVISÃO
Vimos na revisão de estatística básica que, em geral,
desconhecemos os parâmetros de interesse que descrevem a
distribuição de probabilidades de uma variável aleatória X (μ ou σ2,
por exemplo, que descrevem a média e variância de uma
distribuição). Em econometria, desconhecemos os β’s que
relacionam as variáveis econômicas. Por isso, obtemos uma
amostra (aleatória), que utilizamos para inferir sobre os parâmetros
de interesse. Os estimadores que criamos ( ’s) são funções da
amostra que buscam se aproximar do parâmetro verdadeiro
desconhecido.
Os estimadores, possuem suas próprias distribuições de
probabilidade. Por isso é que usamos testes de hipóteses e
intervalos de confiança para analisar os parâmetros verdadeiros a
partir dos estimadores da amostra.
Um teste de hipótese investiga se determinada afirmação
(hipótese nula, H0 sobre um parâmetro desconhecido) é rejeitada ou
não com base na informação obtida da amostra. Ao analisar essa
afirmação, podemos incorrer em dois tipos de erro:
• Erro do Tipo I: Concluir que a hipótese H0 é falsa quando ela é

verdadeira (falso-negativo).
• Erro do Tipo II: Concluir que a hipótese H0 é verdadeira
quando ela é falsa (falso-positivo).
Para os testes de hipóteses que veremos, estipulamos um limite

de tolerância para o erro do Tipo I. Esse limite, identificado por “α”, é
o que chamamos de nível de significância do teste. Quanto menor o
α, menor é a probabilidade de se rejeitar H0 quando ela é
verdadeira. Em geral, usamos um α entre 1% e 10%, a depender do
tamanho da amostra.1
7.2 DISTRIBUIÇÃO DOS ESTIMADORES PARA AMOSTRAS
FINITAS
A distribuição de probabilidades dos estimadores de MQO,
dependerá da distribuição de probabilidades dos erros, pois
sabemos que nosso estimador pode ser escrito como uma função
dos erros (e dos x’s):
Ou, em termos matriciais
Isso implica que a distribuição de probabilidade de ,

condicional a x, depende da distribuição de probabilidade de u.
Assim, para derivar esta distribuição, vamos adicionar a seguinte
hipótese às cinco já assumidas para o modelo de regressão linear
múltipla:
Hipótese 5.6. Normalidade dos erros: O erro populacional u,

condicional às variáveis explicativas x1, ..., xk, é normalmente
distribuído com média 0 e variância σ2, ou seja
Em termos matriciais, se vale a hipótese de amostra aleatória, a

matriz de erros condicionada à amostra tem distribuição normal
multivariada (NMV) com média 0 e variância σ2 IN, ou seja:
A Hipótese 5.6 é uma hipótese forte. Note que, ao assumi-la,
estamos também assumindo as Hipóteses 5.4 (E [u|x] = 0) e 5.5 (V
[u|x] = σ2). Outra implicação da Hipótese 5.6 é a derivação da
distribuição de probabilidades de y, condicional às variáveis
explicativas:
Ou
A Figura 7.1 ilustra a distribuição condicional de y para o

exemplo de uma regressão simples. Dada a relação entre a
distribuição de probabilidade dos erros e do y (ambas condicionais a
x), a suposição de normalidade pode ser uma questão
eminentemente empírica. Por exemplo, será que a distribuição de
salários dos trabalhadores no Brasil tem distribuição normal, ou
outra distribuição que possui massa no valor do salário-mínimo? Ou
será que a distribuição de probabilidades não é simétrica, mas sim
assimétrica à direita?
FIGURA 7.1
Distribuição de probabilidades de y|x para vários valores de x.*
*As curvas representam a distribuição de probabilidades de y em cada valor de x mostrado
no eixo horizontal.
Para lidar com estas questões empíricas acerca da distribuição

de probabilidades de y, podemos realizar transformações no
modelo, como por exemplo a transformação logarítmica. Isso porque
o salário dos brasileiros pode não ter distribuição normal, mas sim
uma distribuição log-normal (o que implica que o logaritmo do
salário terá distribuição normal). Assim, após o uso do logaritmo,
podemos assumir a Hipótese 5.6 com amparo empírico.

Com a assunção da Hipótese 5.6, em adição às Hipóteses 5.1 a 5.5
assumidas inicialmente, podemos derivar a da distribuição do
estimador de MQO.
Teorema. Distribuição Normal de : Sob as Hipóteses 5.1 a 5.6

do modelo de regressão linear múltipla, temos:
ou
Demonstração
Sabemos, pela fórmula que derivamos da análise de viés do
estimador, que e que, sob as Hipóteses 5.1 a 5.4, .
Quando adicionamos a Hipótese 5.5, temos .

Pela Hipótese 5.6, os erros são variáveis aleatórias normalmente
distribuídas, condicionais a (x1, ..., xk). Temos que é uma
combinação linear dos erros acrescida de β:
Em que w é uma função de x1, ..., xk, que é considerada fixa

quando condicionamos a x:
Uma variável aleatória caracterizada por uma combinação linear

de v.a. com distribuição normal também terá distribuição normal.
Assim, também tem distribuição normal, com média E ( |x) e
variância V ( |x) já calculadas.
Com base no resultado do teorema da distribuição normal dos
estimadores de MQO, temos outro resultado importante enunciado
no teorema a seguir.
Teorema. Distribuição t-Student: Supondo válidas as Hipóteses

5.1 a 5.6 do modelo de regressão linear múltipla, temos:
Ao substituir a variância dos erros verdadeira, e desconhecida

(σ2), pelo seu estimador não viesado, a padronização do estimador
(estatística t) converge para uma distribuição t-Student com (n – k –
1) graus de liberdade2. Assim, podemos testar hipóteses sobre o
valor de βj, porque conhecemos a distribuição t-Student para
qualquer número de graus de liberdade.
7.3 DISTRIBUIÇÃO DOS ESTIMADORES PARA GRANDES
AMOSTRAS
Na seção 7.2, derivamos as distribuições exatas de MQO
(condicionais a X) adicionando a Hipótese 5.6, i.e., U| X ~ N (0, σ2
IN). Sob as seis hipóteses, a distribuição normal dos estimadores de
MQO vale para qualquer tamanho de amostra.
Veremos nesta seção que, no caso de termos uma amostra
grande o suficiente, podemos desconsiderar a Hipótese 5.6, pois é
possível derivar a distribuição assintótica dos estimadores de MQO
utilizando um resultado bastante conhecido, o Teorema do Limite
Central (TLC). Veja uma breve revisão do TLC no Apêndice 7.A.1.
Teorema de Normalidade Assintótica. Sob as Hipóteses de

Gauss-Markov (Hipóteses 5.1 a 5.5) e considerando n → ∞,
temos que:
ou matricialmente
Demonstração3
Vamos demonstrar o teorema utilizando a notação matricial do
seguinte modelo:
Tal que
xi = (1, x1i, x2i, ..., xki) é um vetor-linha 1x (K + 1) das variáveis
explicativas de uma observação i;
é um vetor-coluna (K + 1) x1 dos parâmetros do modelo que
acompanham as variáveis explicativas.
Assim, podemos reescrever o estimador de MQO da seguinte
forma:
Substituindo o modelo verdadeiro, temos
O termo , constituído de médias, converge para uma

matriz A positiva definida e finita pela Lei dos Grandes Números.4
Assim,
O termo , converge para uma

distribuição normal com média (se for válida a
Hipótese 5.4) e variância (se
for válida a Hipótese 5.5) pelo Teorema do Limite Central.
Assim,
O Teorema de Normalidade Assintótica nos diz que,

independentemente da distribuição de probabilidade dos erros (e,
portanto, da variável dependente), a distribuição dos estimadores de
MQO converge para uma distribuição normal, se valem as
Hipóteses de Gauss Markov e se temos uma amostra grande o
suficiente. Desta forma, é possível usar o estimador de MQO para
testar hipóteses e estabelecer intervalos de confiança assintóticos
para os parâmetros estimados. Uma consequência do teorema de
normalidade assintótica é o seguinte teorema.
Teorema de Normalidade Assintótica da Estatística t. Sob as

Hipóteses de Gauss Markov, temos:
Em que
7.4 TESTE DE HIPÓTESES INDIVIDUAIS
Uma vez que derivamos a distribuição de probabilidades, exata ou
assintótica, dos nossos estimadores, podemos construir testes de
hipóteses e intervalos de confiança para os nossos parâmetros.
Aqui, usaremos os mesmos conceitos vistos nos cursos de
estatística básica.

Um dos primeiros testes que podemos realizar sobre os parâmetros
do modelo é para verificar se há efeito de uma variável xj sobre y.
Se βj = 0 isso significa que xj é irrelevante para explicar a variável
dependente. Ou seja podemos testar,
O teste destas hipóteses nos permite tomar uma decisão sobre a

relevância estatística, ou não, da variável xj. Para tal, construímos a
estatística tj:
Sabemos que a estatística tj possui uma distribuição t-Student

com (n – k – 1) graus de liberdade, se valem as Hipóteses 5.1 a 5.6,
ou converge assintoticamente para uma Normal Padrão, resultado
este garantido pelo Teorema do Limite Central para uma amostra
grande. Basta, então, compararmos o valor da estatística com os
valores críticos (VC) dessas distribuições com base em um nível de
significância α.
Se |tj| ≥ V Cα/2, rejeitamos Ho. Se |tj| < V Cα/2, não rejeitamos Ho.5
QUADRO 7.1
Teste de significância estatística da elasticidade renda da
carne
A partir dos dados da Pesquisa de Orçamentos Familiares (POF) de
2008/2009 podemos estimar a elasticidade renda da demanda por
carne de primeira nos domicílios brasileiros (equivalente às
unidades de consumo, nesse caso). A variável de renda é medida
pela renda mensal domiciliar e a variável de quantidade de carne de
primeira é medida em quilogramas comprados mensalmente. Os
resultados estimados por MQO são:
= 0,9689 + 0,1021 ln (renda)
(0,4284) (0,0584)
N = 431, R2 = 0,0812
A estimação aponta que um incremento de 1% na renda das
famílias aumenta, em média, em 0,10% o consumo de carne de
primeira. Para testar a significância da estimativa (ou seja, a Ho: ϵr =
0 contra H1: ϵr ≠ 0), podemos calcular a estatística t:
A Figura 7.2, mostra que o valor da estatística calculado está fora da

área de rejeição do teste ao nível de significância de 5%. Assim, não
rejeitamos a hipótese nula de que a elasticidade renda da demanda
por carne de primeira seja igual a 0.
FIGURA 7.2
Distribuição de probabilidades da estatística t. Região de
rejeição para o teste bicaudal.

Outro teste interessante é para verificar se a variável xj tem um
efeito com valor específico sobre y. Por exemplo, no modelo log-log,
podemos testar se a elasticidade-renda de determinado produto é
igual a 1. Ou seja, testamos uma hipótese da seguinte forma
(supondo b constante):
Assim, construímos a seguinte estatística tj:
Com base em um nível de significância α: se |tj| ≥ V Cα/2,

rejeitamos Ho. Se |tj| < V Cα/2, não rejeitamos Ho.
QUADRO 7.2
Teste de valor específico para a elasticidade renda da
carne
Para o mesmo exemplo do Quadro 7.1, podemos testar se a carne
possui elasticidade renda unitária, ou seja, podemos testar se
H0: εr = 1
H1: εr ≠ 1
Assim, podemos calcular a estatística t:
Conforme podemos ver na Figura 7.3, o valor da estatística

calculado está dentro da área de rejeição do teste. Logo, rejeitamos
a hipótese nula de que a elasticidade renda da demanda por carne
de primeira seja igual a 1 ao nível de significância de 5%.
FIGURA 7.3
Distribuição de probabilidades da estatística t para teste de
elasticidade renda unitária. Região de rejeição para o teste
bicaudal.

Os testes bicaudais são úteis para testar hipóteses sobre valores
dos parâmetros (hipóteses de igualdade: βj = b; ou βj = 0). No
entanto, podemos nos interessar em testar o sinal de determinado
parâmetro (hipóteses de desigualdade: βj > 0; βj < 0). Por exemplo,
podemos testar se determinado bem é inferior realizando o teste
monocaudal sobre o parâmetro que mede a elasticidade-renda da
demanda:
Supondo que o modelo anterior atenda às Hipóteses 5.1 a 5.6

(ou 5.1 a 5.5 e contamos com amostras grandes), poderíamos
realizar o seguinte teste:
Assim, construímos a seguinte estatística t2:
A diferença do teste monocaudal para o teste bicaudal está na

forma como atribuímos o nível de significância (α) para encontrar o
VC. Agora, utilizamos VCα apenas de um lado da distribuição. Se t2
≤ VCα, rejeitamos Ho; se, t2 > VCα não rejeitamos Ho.6
QUADRO 7.3
Teste monocaudal para elasticidade renda
No mesmo exemplo anterior, para a estimação de demanda por
carne de primeira, se estamos interessados em testar a hipótese
nula de εr ≤ 0 (se este tipo de carne é um bem inferior) contra a
hipótese alternativa de ϵr > 0 a 5% de nível de significância, a
estatística de teste seria
Note que a estatística do teste é a mesma calculada no Quadro 7.1,

porém a área de rejeição do teste seria de acordo com a Figura 7.4.
FIGURA 7.4
Distribuição de probabilidades da estatística t. Região de
rejeição para o teste monocaudal.
Como a estatística calculada está dentro da área de rejeição do
teste (ao nível de significância de 5%), rejeitamos a hipótese nula de
que a elasticidade renda da demanda é menor ou igual a 0 em favor
da hipótese de elasticidade renda da demanda maior que zero.

Podemos utilizar o p-valor de uma estatística para fazer testes de
hipóteses sem precisar escolher o nível de significância α com o
qual trabalharemos. O p-valor (em inglês: p-value) se define pelo
menor nível de significância ao qual a hipótese nula (H0) seria
rejeitada.
Em que T é uma variável aleatória com distribuição t-Student

com (n – k – 1) graus de liberdade e t é o valor numérico do teste de
hipóteses realizado.
Assim, temos que p-valores muito grandes sugerem que há
pouca evidência contra H0, enquanto p-valores pequenos sugerem o
contrário. Para tomarmos uma decisão pela rejeição ou não de H0,
comparamos o p-valor com o nível de significância α:
Se p-valor ≤ α, concluímos pela rejeição de H0.

Se p-valor > α, concluímos pela não rejeição de H0.
A maior parte dos softwares estatísticos e econométricos calcula

o p-valor para testes bicaudais de significância estatística de xj (H0:
βj = 0 contra H1: βj ≠ 0). Se for preciso realizar o mesmo teste
monocaudal, deve-se dividir o p – valor obtido do teste bicaudal por
2.

Sabemos que, conforme o tamanho da amostra aumenta (N → ∞), a
variância estimada dos estimadores diminui, ou seja, temos mais
precisão nas estimativas, o que faz com que a estatística t aumente
(rejeitando mais a H0). É recomendável, portanto, o uso de níveis de
significância menores para amostras grandes (menos tolerância
com o erro do tipo I) e maiores para amostras pequenas. Em geral,
na literatura empírica utiliza-se α entre 1% e 10%.
QUADRO 7.4
Efeito da redução da amostra: Participação em sindicato e
retorno salarial
Neste exemplo, vamos usar dados da PNAD 2014 para verificar se
as pessoas filiadas a algum sindicato têm, em média, salários-hora
mais altos. Os resultados obtidos estimando um modelo simples por
MQO com duas variáveis explicativas foram os seguintes:
Note que, dentre pessoas com mesma educação, as sindicalizadas
ganham mais em média do que as não sindicalizadas (estimador
positivo). Esse ganho adicional de salário é estatisticamente
diferente de 0 ao nível de 5% de significância (t = 38,39). No
entanto, se retirarmos uma amostra aleatória de 2.000 indivíduos da
amostra usada na regressão anterior, os resultados se tornam:
Note que o coeficiente estimado para o efeito de sindicato foi igual

na terceira casa decimal. O efeito estimado indica que trabalhadores
sindicalizados ganham, aproximadamente, 20,5% a mais do que os
trabalhadores não sindicalizados. Esse impacto continua sendo
estatisticamente significante a 5%. No entanto, veja que a estatística
do teste é 4,19, bem menor do que no caso anterior. Se ao invés de
retirarmos uma amostra aleatória de 2.000 indivíduos, obtivéssemos
uma amostra de 200 indivíduos, os resultados seriam:
Note agora que o coeficiente de sindicato perde significância

estatística, uma vez que a estatística t é 0,87. A não significância é
causada pelo aumento no erro-padrão da estimativa, tanto pela
redução na variabilidade da variável de sindicato, quanto pela queda
no número de observações. Vale notar que, apesar de não ter
perdido significância, a estatística t do coeficiente de educação
também reduziu conforme o número de observações foi diminuindo.
Outro fator que impacta o resultado dos testes, por influenciar a

variância dos estimadores, é a correlação entre as variáveis
explicativas. Note que não conseguimos derivar estimadores de
MQO apenas quando temos variáveis explicativas perfeitamente
correlacionadas (invalidez da Hipótese 5.3 de regressão linear
múltipla). A correlação não perfeita entre as variáveis explicativas
(exemplo: xj e x1) impacta a variância destes estimadores, como
podemos verificar pela variância derivada usando o Teorema de
FWL:
Quanto maior a correlação entre xj e x1, por exemplo, mais o
(R2 da regressão de xj contra os demais explicativas) se aproxima
de 1 e, portanto, maior é variância do estimador do efeito de xj em y.
Novamente, os testes poderão ser impactados.
QUADRO 7.5
Variáveis explicativas altamente correlacionadas:
Valoração de características dos imóveis
Usando os dados de lançamento de imóveis de 2000 a 2008,
estimamos o modelo para entender como a área útil e o número de
dormitórios influencia o preço dos imóveis em São Paulo (a valores
de 2000). Os resultados da estimação por MQO foram
Conforme esperado, o coeficiente de área útil é positivo e

significante a 5% (t = 63,33), assim como o coeficiente de
dormitório. Sabemos que o número de dormitórios e o número de
banheiros são bastante correlacionados (e que o número de
banheiros potencialmente influencia os preços dos imóveis). Assim,
é possível que o estimador para o efeito do número de dormitórios
seja viesado. Podemos incluir o número de banheiros na regressão,
o que geraria os seguintes resultados:
Nota-se que a inclusão da variável banheiro, cujo efeito é positivo e

estatisticamente significante a 5%, fez com que o coeficiente de
dormitório se tornasse não estatisticamente significante a 5% (t =
1,56). De forma intuitiva, é razoável pensar que ambas as variáveis
são correlacionadas. A regressão de dormitório nas demais
variáveis explicativas do modelo mostra que a quantidade de
banheiros e dormitórios são fortemente correlacionadas:
Como o R2 dessa regressão é bastante alto podemos atribuir a
perda de significância do parâmetro ao aumento do erro-padrão
(que depende do R2).
Outro ponto importante dentro da discussão de testes de

significância é a diferença entre a significância estatística de uma
variável xj (que testamos a partir de testes com H0: βj = 0) com a
significância econômica da variável, dada pela magnitude de seu
efeito, ou pelo significado econômico da variável. O exemplo do
Quadro 7.6 ilustra este ponto:
QUADRO 7.6
Relação entre a renda municipal e o nível de esgotamento
sanitário
O Brasil ainda enfrenta problemas com o esgotamento sanitário. A
fim de investigar a situação sanitária no Rio Grande do Sul, usamos
dados do Censo Demográfico de 2010 e contabilizamos, para cada
município, a proporção dos domicílios que tinham esgoto canalizado
pela rede geral de esgoto ou pluvial, ou por fossa séptica.4
Calculamos, também, a renda domiciliar média desses municípios.
O modelo estimado tem o objetivo de testar se municípios com
renda domiciliar mais alta tinham uma maior proporção de domicílios
com o esgoto tratado de forma correta:
Assim como esperado, municípios com renda domiciliar mais alta

possuem maior proporção de domicílios com esgoto canalizado.
Esse coeficiente é significante a 5% (t = 7,34). No entanto, se
observarmos a magnitude do efeito, temos que o aumento de 1% na
renda domiciliar média do município aumenta a proporção de
domicílios com esgotamento sanitário correto em apenas 0,003 (ou
0,3 pontos percentuais ao olhar o percentual de domicílios com
acesso a esgoto). Sabendo que a renda domiciliar média desses
municípios é de, aproximadamente, R$ 2.170,00, se cada domicílio
ganhasse 217 reais (10% da renda), a proporção subiria em apenas
0,03 (ou 3 pontos percentuais). A proporção média de domicílios
com esgotamento sanitário no Rio Grande do Sul é de 0,48 (ou
48%) o que mostra, que o estado ainda está distante de resolver
seus problemas sanitários.

Se valem as Hipóteses 5.1 a 5.6, vimos que podemos realizar testes
de hipóteses individuais, pois a estatística de teste possui uma
distribuição conhecida (t-Student ou Normal Padrão). Sob as
mesmas hipóteses, podemos também construir intervalos de
confiança para os parâmetros verdadeiros, βj, a partir de um nível de
erro estabelecido (α). A partir desse nível de erro, encontramos o
valor crítico para o qual se rejeitaria a hipótese H0. Assim,
construímos o Intervalo de Confiança da seguinte forma:7
A ideia do IC com significância α é a seguinte: se tivéssemos

infinitas amostras aleatórias e para cada uma delas fosse calculado
este IC, o βj (parâmetro verdadeiro) estaria dentro do IC em (100 –
α)% das amostras. Isto é, para um IC de 95%, se tivéssemos
100.000 amostras aleatórias, espera-se que em aproximadamente
95.000 delas o IC conteria o parâmetro verdadeiro. No entanto, em
geral observamos apenas uma amostra aleatória. Desta forma,
esperamos que essa amostra seja um dos (100 – α)% dos casos.
QUADRO 7.7
Uso do intervalo de confiança: efeito da área no preço dos
imóveis
Retomando o exemplo do modelo para explicar o preço dos imóveis
em São Paulo, vamos estimar o modelo de regressão simples que
relaciona o preço do imóvel, em logaritmo, contra a com sua área
útil.
Os resultados mostram que o aumento de 1 m² na área útil no

imóvel leva, em média, a um aumento de aproximadamente 0,73%
no preço de venda. Podemos, então, fazer o teste t de significância
estatística para o coeficiente de área útil:
O teste t mostra que o parâmetro é significante a 5%. Outra forma

de analisar a significância estatística de βárea util é olhar para o
intervalo de confiança da estimativa. Se queremos checar se βárea
util é estatisticamente diferente de 0, basta olharmos se 0 está
incluído no intervalo.
Como 0 não pertence ao intervalo de confiança de , concluímos

que o coeficiente de área útil é estatisticamente diferente de 0 ao
nível de significância de 5%.

Seja o seguinte modelo:
Suponha que queremos comparar β1 com β2. Nossa hipótese H0

é de que eles sejam iguais (ou seja, x1 e x2 tem o mesmo impacto
sobre y) e a hipótese alternativa é de que sejam diferentes.
Podemos fazer a seguinte manipulação nas nossas hipóteses de
interesse:
A estatística t natural para esse teste é
e as regras de decisão continuam as mesmas. No entanto, o

problema reside no cálculo de . Isto porque
Note que para encontrar precisaríamos derivar toda a

matriz de variância-covariância dos estimadores para calcular
(elemento A12 ou A21 da matriz de variância-covariância
dos estimadores). A alternativa é manipular o modelo de forma que
seja calculado diretamente. Para tanto, definiremos γ = β1 –
β2 e w = x1 + x2 e transformaremos o modelo da seguinte forma:
Assim, quando estimamos a regressão anterior por MQO, temos

que e podemos realizar o teste t diretamente.
−
7.4.8 Uso do R 2 para escolher entre modelos
Para dois modelos não aninhados (em inglês, “non-nested”), não
conseguimos escrever hipóteses nulas para testar a melhor
especificação entre eles, isto porque um não é um caso particular do
outro. Por exemplo, nosso interesse pode ser em testar uma
especificação quadrática com relação a x (Modelo 1) em
comparação ao uso do logaritmo no modelo (Modelo 2):
Outro exemplo é quando estamos em dúvida entre duas

variáveis explicativas que tem objetivos parecidos: (i) incluir a renda
familiar total (x3, no Modelo 3); ou (ii) a renda do chefe da família
(x4, no Modelo 4).
Nestes casos, podemos usar o para a escolha entre as

formas funcionais. Note que não podemos usar o para a escolha
de modelos não aninhados em que diferentes formas funcionais
para a variável dependente são utilizadas (exemplo: y vs. ln(y)), pois
sabemos que não há correspondência entre as SQT desses
diferentes modelos.
7.5 TESTE DE MÚLTIPLAS HIPÓTESES
Em alguns casos, estamos interessados em testar múltiplas
hipóteses conjuntamente. Por exemplo, em modelos de
desempenho escolar (normalmente usamos notas de matemática ou
português como uma medida de desempenho dos alunos) podemos
testar qual é a importância dos insumos escolares no desempenho
dos alunos. Em geral, medimos insumos escolares usando diversas
variáveis: tamanho da turma; número de computadores por aluno;
tipo de internet da escola; existência de biblioteca na escola; entre
outras. Neste caso, para responder à pergunta inicial, podemos
testar a importância conjunta dessas variáveis.
De forma geral, partimos de um modelo geral com K variáveis
explicativas:
Podemos questionar se as q primeiras variáveis são

conjuntamente relevantes. Para tanto, nossas hipóteses serão:
As restrições desta hipótese nula são conhecidas por “restrição

de exclusão”, pois caso todos os parâmetros sejam zero (H0), isso
significa que as variáveis explicativas a que eles dizem respeito
poderiam ser excluídas do modelo.
Para testar esta H0 não bastaria fazermos q testes com a
estatística t com a qual viemos trabalhando. Fazer q testes
conjuntos usando t levaria a uma distribuição multivariada cuja
interpretação é diferente dos casos que vimos. Ou seja, não
podemos interpretar os testes t individualmente, porque eles não
levam em conta a interação com outros testes t.
Assim vamos propor um teste F que considera a correlação entre
os regressores. A ideia por trás do Teste F é comparar a Soma dos
Quadrados dos Resíduos do modelo sob H0 (o qual chamaremos de
restrito) com o modelo completo (o qual chamamos de irrestrito).8
Poderíamos fazer a seguinte comparação:
Ponderando o numerador e o denominador pelos seus

respectivos graus de liberdade, temos a estatística do teste F:
Se valem as Hipóteses 5.1 a 5.6, temos que a expressão anterior

(estatística F) é uma razão de Normais Padrão ao quadrado, ou
seja, uma razão de termos que convergem para uma distribuição
Qui-quadrada, cada termo com seu grau de liberdade. Como a
estatística F é a razão de duas variáveis aleatórias χ2
independentes divididas pelos respectivos números de graus de
liberdade, temos que . Assim, para fazer o teste F, basta
computar a SQR dos modelos irrestrito (completo) e restrito (sob
H0). Outra forma de se escrever a estatística F é em termos de R2:
A equivalência da estatística F usando SQR ou R2 se dá porque9

Quando F é alta o suficiente para superar o valor crítico da
distribuição , rejeitamos H0. Se rejeitamos H0, dizemos que
x1, ⋯, xq são conjuntamente estatisticamente significantes a α%.
Caso contrário, as variáveis são conjuntamente insignificantes e
podemos excluí-las do modelo por esse critério.
Note que, quando há variáveis altamente correlacionadas no
modelo, sabemos que a variância dos seus estimadores aumenta.
Por conseguinte, a estatística t diminuirá. Por conta disso, o teste t
não se apresenta como boa alternativa neste caso por não
conseguir indicar a significância estatística. O teste F, porém, pode
mostrar que elas são significantes estatisticamente, quando
analisadas em conjunto. Assim, se houver alta correlação nas
variáveis, podemos usar o teste F para concluir sobre a inclusão ou
exclusão dessas variáveis.
QUADRO 7.8
Teste F: Determinantes do consumo de tabaco
Explicar o comportamento de consumo de tabaco é uma tarefa
difícil, uma vez que o cigarro é um bem de vício. Usando os dados
na Pesquisa Nacional de Saúde de 2013, estimamos um modelo
para explicar o número de cigarros industrializados fumados por dia
em relação ao preço do maço (para indivíduos que fumam), gênero
do indivíduo, alfabetização do indivíduo e número de dias na
semana em que pratica atividade física (para entender outros
hábitos dos indivíduos). Os resultados encontrados pela estimação
por MQO foram
A baixa elasticidade do preço, embora estatisticamente significante
ao nível de significância de 5%, não é algo inesperado, pois como o
cigarro é um bem que pode gerar dependência química, os
consumidores são menos sensíveis a preço. Nota-se que as
mulheres fumam, em média, menos que homens. A tentativa de
incluir algum hábito relacionado à preocupação com a saúde pode
não ter sido boa, pois o coeficiente do número de vezes em que se
pratica exercício físico não foi significante individualmente a 5%,
assim como a informação sobre educação (se o indivíduo é
alfabetizado). No entanto, podemos testar se essas duas variáveis,
individualmente não significantes, são conjuntamente significantes.
Para isso, precisamos do modelo reduzido (estimado para a mesma
amostra anterior):
Calculando a estatística F de significância conjunta de βalfabetizado e

βatividade:
Como o valor da F(2,1186) = 3 (para um α = 5%), não rejeitamos a

hipótese nula de não significância conjunta das variáveis.

Podemos utilizar o teste F para fazer um teste de significância geral
da regressão. Neste caso, temos as seguintes hipóteses:
Se a H0 for válida (restrição de exclusão em todas as K
variáveis), temos que o R2 = 0. Assim, a forma funcional da
estatística de teste em termos de R2 será:
A estatística F anterior é mais indicada que o R2 para avaliar a

significância geral da regressão. Isso porque podemos ter uma
regressão linear múltipla com R2 baixo, mas ainda assim a
regressão ser significante (o que dependerá no tamanho da
amostra, n, e da quantidade de variáveis explicativas, k). Os
softwares estatísticos costumam reportar esse teste
automaticamente.
QUADRO 7.9
Teste F de significância geral: Alimentação escolar e
desempenho dos alunos
Usando os dados da Prova Brasil 2015, tentamos avaliar o impacto
de oferecimento de merenda e da existência reforço escolar no
desempenho escolar. A unidade de observação são as escolas
públicas do Brasil. O desempenho escolar é medido pela nota média
de matemática da escola na escala SAEB. As variáveis de merenda
e reforço escolar assumem o valor 1 se a escola tiver merenda
escolar e algum programa de reforço, respectivamente, e 0 caso
contrário. Os resultados obtidos por MQO foram:
A partir desses resultados podemos calcular a estatística F de

significância conjunta de todas as variáveis:
Comparando a estatística F com o seu valor crítico (a 5% de
significância), rejeitamos a hipótese nula de não significância
conjunta das variáveis explicativas. Concluímos, então, que a
regressão é significante. No entanto, se olharmos apenas para o R2
do modelo, a conclusão seria de que o modelo explica muito pouco
a variação do desempenho escolar médio nas escolas.

Outra possibilidade é testar hipóteses múltiplas sobre os parâmetros
assumirem valores diferentes de zero (exemplo: queremos testar
conjuntamente se a elasticidade renda é unitária, β1 = 1, e a
elasticidade preço nula, β2 = 0). Neste caso, não podemos usar o R2
da regressão restrita (sob H0) e da regressão irrestrita para o cálculo
da estatística F, porque as variáveis dependentes destas regressões
não são as mesmas, logo a soma dos quadrados totais de cada
regressão também não será a mesma. Veremos a seguir a diferença
entre elas.
Suponha que tenhamos o seguinte conjunto de hipóteses para
um modelo de k variáveis:
Sob H0, então, teríamos o seguinte modelo:
Como y* = y – x1 ≠ y, podemos ter que SQTIR ≠ SQTR. Se a SQT

entre os modelos restrito e irrestrito diferirem, não conseguiremos
transformar a estatística F de SQR para R2. Assim, apenas a
estatística usando SQR tem distribuição conhecida para testar
esses modelos:

Um resultado interessante é a relação algébrica entre as estatísticas
t e F. Essa relação se dá para testes bicaudais com apenas uma
restrição de exclusão. Nestes casos, t2 = F. Em termos distributivos,
temos,
Podemos demonstrar essa relação facilmente usando um

modelo de regressão linear simples
Em que o objetivo é testar
Sabemos que neste modelo . Aplicando esse

resultado na fórmula da estatística F com 1 restrição, temos:
No entanto, para testar hipóteses individuais, o teste t é sempre
preferível porque, permite também a realização de testes
monocaudais.
7.5.5 Relação entre R–2 e a estatística t

Existe, também, uma relação algébrica entre a estatística t e o .
Esta relação diz que se incluirmos 1 variável independente a uma
regressão, o só aumenta se a estatística da variável incluída for,
em módulo, maior que 1. Para demonstrar esse resultado, vamos
supor que seja o coeficiente da regressão sem a variável xK e
que seja o coeficiente da regressão com a variável xK.
Assim:
Escrevendo ambas as formulas em termos de SQR, temos:
Sabemos que há relação entre as estatísticas t e F, logo

substituímos as SQR anteriores dentro da fórmula da F:
Assim, para que aumente com o acréscimo da K-ésima
variável, i.e., para que , precisamos que . Nota-
se que o é mais útil para selecionar variáveis independentes do
2
que o R , uma vez que ele considera o trade-off de se incluir uma
nova variável (perde-se um grau de liberdade, mas ganha-se na
explicação da variação de y).

Quando usamos variáveis dummy, pode ser interessante avaliar
diferentes efeitos para grupos/categorias diferentes. Um objetivo
comum ao analisar efeitos entre grupos (homens e mulheres,
brancos e negros, nativos e estrangeiros, entre outros) é verificar se
a mesma regressão vale para grupos diferentes. Por exemplo, para
testar se a regressão
será a mesma para homens e mulheres, vimos que podemos incluir
no modelo a interação da variável dummy que define as mulheres
com todas as variáveis (além de incluir a variável dummy no
modelo) de forma que
e testar as seguintes hipóteses usando o teste F:
No entanto, quando há muitas variáveis explicativas no modelo,

pode ser custoso incluir todos os termos cruzados (ou quando há
muitas variáveis dummy, ou seja, muitos grupos a serem
comparados). Assim, temos outra forma de computar a estatística
de comparação do modelo entre os grupos: o Teste de Chow.
Seja o seguinte modelo geral:
Em que g define os grupos nos quais se quer analisar
Para testar se o modelo difere entre os grupos, podemos

enunciar a H0 de que não há diferença entre os grupos, ou seja,
SQRtotal = SQR1 + SQR2 + … + SQRG. Se os β’s forem iguais entre
os g grupos, haverão K + 1 restrições para cada grupo no modelo
restrito, ou seja, serão (K + 1) (G – 1) Seja SQRtotal a soma dos
quadrados dos resíduos do modelo restrito (considerando o mesmo
modelo para todos os grupos). O modelo irrestrito terá N – G (K + 1)
graus de liberdade e SQR do modelo irrestrito pode ser escrito como
SQR1 + … + SQRG, separando as somas dos quadrados dos
resíduos de cada grupo. A estatística do teste de Chow é, então,
É importante notar que a validade do Teste de Chow também só

se dá sob as Hipóteses 5.1 a 5.6 do modelo de regressão linear
múltipla.
Neste capítulo enunciamos a hipótese sobre a distribuição de
probabilidade dos erros do modelo. Essa hipótese é importante para
se derivar a distribuição de probabilidade exata dos estimadores
para qualquer amostra e, portanto, para se derivar a distribuição de
probabilidade das estatísticas de teste sobre os parâmetros. Vimos
também que, para o caso de amostras grandes, podemos derivar a
distribuição assintótica dos estimadores e, assim, relaxar a Hipótese
5.6 (quando valem as hipóteses de Gauss-Markov) para realizar
inferência. É importante lembrar que os testes propostos no capítulo
são válidos apenas sob as Hipóteses 5.1 a 5.6 (i.e. não são válidos
quando os estimadores são viesados ou quando há
heterocedasticidade) ou sob as Hipóteses de Gauss Markov em
grandes amostras.
7.7 EXERCÍCIOS
1. Responda às seguintes perguntas:

a. O que é inferência estatística?
b. Defina teste de hipótese e explique qual o seu propósito
2. O arquivo nota-alagoas.xls traz alguns dados da Prova Brasil

de 2015 para alunos do 5o ano do Ensino Fundamental do
estado de Alagoas. Nesse arquivo, podemos encontrar a nota
dos alunos em português e matemática, na escala SAEB, bem
como algumas características do aluno, sala de aula e escola.
Usando esses dados:
a) Faça a regressão da nota de matemática contra tamanho
da turma10, variáveis dummy de escolaridade da mãe e
uma variável dummy que indica se o aluno mora com o pai.
As variáveis de educação da mãe são conjuntamente
significantes? Interprete o sinal e a significância do
tamanho da turma e da variável dummy de morar com o
pai. Essas variáveis são significantes conjuntamente?
b) Adicione uma variável do tamanho da turma ao quadrado.
Qual a intuição para incluir essa variável? Construa o
intervalo de confiança para vários tamanhos de turma.
Interprete os resultados.
c) Teste se o efeito marginal do tamanho da turma para uma
turma com 20 alunos é diferente de zero. E para uma turma
de 25 alunos?
d) Teste se o efeito marginal do tamanho da turma, para uma
turma com 20 alunos, e o efeito de morar com o pai são
conjuntamente diferentes de zero. E para uma turma de 25
alunos?
e) Repita o exercício para a nota de português. Há alguma
diferença?
3. Os dados sinasc-parana.xls contém informações sobre

nascidos vivos do estado do Paraná em 2014. Usando esses
dados:
a) Estime a regressão do peso de nascimento na variável
dummy que indica se a mãe é casada ou não e nas
variáveis dummy de escolaridade. Interprete o intercepto.
Comente a significância de cada variável de educação,
explicando o resultado. As variáveis dummy de educação
são conjuntamente significantes? Faça o teste.
b) Acrescente à regressão anterior as variáveis dummy que
indicam se o nascimento ocorreu em hospital e se o parto
foi normal. A significância de alguma variável de educação
mudou? E a significância conjunta?
c) Qual o peso esperado para o recém-nascido de uma mãe
graduada, divorciada, com parto normal feito fora do
hospital?
d) Inclua ao modelo do item b) uma variável de interação
entre a dummy que indica parto normal e a dummy que
indica se o nascimento ocorreu em algum estabelecimento
de saúde. O que aconteceu? Procure uma explicação.
4. Usando os dados em imoveis.xls, investigaremos o preço dos

imóveis incorporando algumas características do
prédio/condomínio, isto é, características externas ao imóvel:
a) Faça a regressão do logaritmo do preço dos imóveis contra
área útil, número de dormitórios, garagem e elevador.
Interprete magnitude, sinal e significância dos estimadores.
b) Teste a hipótese de que o coeficiente de dormitório é igual
ao de garagem. Descreva as hipóteses nula e alternativa.
Qual a conclusão a 5% de significância? E a 1%?
c) Conforme mostrado no capítulo, escreva um novo modelo
de modo que um único coeficiente testado reflita a
diferença entre os coeficientes de dormitório e garagem do
modelo original.
d) Estime o modelo anterior. As conclusões são as mesmas?
O p-valor dos testes são iguais?
e) Os estimadores de βelev e βárea útil mudaram? Explique
intuitivamente.
5. (Anpec 2004) Um pesquisador estimou uma regressão múltipla

com cinco variáveis independentes e n = 56, mas, na pressa,
não imprimiu os resultados e anotou apenas o valor do R2 =
0,90, o coeficiente de determinação. Este pesquisador precisa
verificar se a regressão é significante. Ajude-o, calculando o
valor da estatística do teste a ser empregado.
6. (Anpec 2006 modificada) O método de Mínimos Quadrados

Ordinários foi empregado para estimar o modelo de regressão a
seguir, cujo objetivo é explicar as variações de renda entre 526
indivíduos de uma amostra aleatória:
Em que mulher é uma variável dummy (valor 1, se for mulher, e

0, caso contrário), educ é o número de anos de escolaridade (0 ≤
educ ≤ 17), exper são os anos de experiência profissional (0 ≤
exper ≤ 40) e u é a estimativa do erro. Os números entre
parênteses são os erros-padrão das estimativas. Com base nos
resultados anteriores, é correto afirmar que:
(1) Ao nível de significância de 5%, o efeito de um ano a mais
de experiência profissional para indivíduos do sexo
masculino é estatisticamente maior do que o efeito para
mulheres.
(2) Para um indivíduo com 10 anos de escolaridade, 1 ano
adicional de estudo acarreta um aumento da renda de
aproximadamente 9%.
(3) O efeito na renda de um aumento de 1 ano na experiência
profissional para as mulheres é 1% menor do que para os
homens.
(4) Se a um nível de significância de 5%, o valor crítico do
teste F para a regressão for 2,37, os coeficientes angulares
serão conjuntamente diferentes de zero.
7. (Anpec 2011 modificada) Considere as seguintes estimativas

obtidas pelo método de Mínimos Quadrados Ordinários para o
modelo de regressão a seguir (erros-padrão entre parênteses).
Em que educ e exper denotam, respectivamente, o número de

anos de estudo e o número de anos de experiência
profissional, sindicato é uma variável dummy que assume o
valor 1 se o trabalhador for sindicalizado e 0 caso contrário e
hom é uma variável dummy igual a 1 se o trabalhador for do
sexo masculino e igual a 0 se for do sexo feminino. O resíduo
da regressão é o termo . Todas as suposições usuais acerca
do modelo de regressão linear clássico são satisfeitas.
(0) Supondo que o tamanho da amostra seja grande o
suficiente para que aproximações assintóticas sejam
válidas, é possível rejeitar, ao nível de significância de 5%,
a hipótese nula de que os salários de trabalhadores
sindicalizados e não sindicalizados são iguais. A hipótese
alternativa é que os trabalhadores sindicalizados ganham
mais do que os não sindicalizados.
(1) Supondo que o tamanho da amostra seja grande o
suficiente para que aproximações assintóticas sejam
válidas, é possível rejeitar, ao nível de significância de 5%,
a hipótese nula de que os salários de homens e mulheres
são iguais. A hipótese alternativa é que os salários de
homens e mulheres são diferentes.
(2) Um ano adicional de experiência eleva o salário em 3,00%.
(3) Se incluirmos um regressor adicional entre as variáveis
explicativas, o R2 não diminuirá.
(4) Supondo que os erros tenham distribuição normal e que o
tamanho da amostra seja 206, é possível rejeitar, ao nível
de significância de 5%, a hipótese de que os coeficientes
da regressão, com exceção do intercepto, são
simultaneamente iguais a 0 (F0,95;5,200 = 2,2592).
8. (Anpec 2012) Usando uma base de dados que tem informações

de 65.535 trabalhadores, queremos verificar se existe
desigualdade salarial entre os setores da economia.
Consideremos que a economia está dividida em quatro setores:
indústria, comércio, serviços e construção. Cada um dos
trabalhadores está em um dos quatro setores e eles são
mutuamente exclusivos. Seja Yi o salário mensal do trabalhador i
e definimos para cada setor uma variável binária que é igual a 1
se o trabalhador pertence ao setor e 0 caso contrário. Estimando
um modelo linear de regressão, obtemos o seguinte resultado:
Em que educ representa o número de anos de estudos de
cada trabalhador, idade é medida em anos, homem é uma
variável binária que assume valor igual a 1 se i é homem e 0
caso contrário, DI representa a dummy para indústria, DC para
comércio e DCons para o setor de construção. Entre
parênteses encontra-se o erro-padrão de cada estimativa.
Baseado nas informações anteriores julgue as seguintes
afirmativas:
(0) Com base nos resultados anteriores é possível rejeitar ao
nível de 5% de significância a hipótese nula de que o
salário do setor da indústria é igual ao salário do setor de
serviços para trabalhadores com o mesmo nível
educacional, a mesma idade e do mesmo sexo. A hipótese
alternativa é que os salários nestes setores sejam
diferentes.
(1) Com base nos resultados anteriores é possível rejeitar ao
nível de 5% de significância a hipótese nula de que o
salário no setor de construção é igual ao salário no setor de
comércio, mantendo educação, idade e sexos fixos. A
hipótese alternativa é que os salários nesses setores sejam
diferentes.
(2) Com base nos resultados anteriores, é possível rejeitar ao
nível de 5% de significância a hipótese nula de que os
salários nos 4 setores da economia são iguais, mantendo
constante educação, idade e sexo.
(3) Os resultados do modelo anterior permitem testar a
hipótese nula de que o retorno salarial entre homem e
mulher é diferente para cada nível educacional, ao nível de
5% de significância.
(4) Com base nos resultados anteriores, podemos testar a
hipótese de que o intercepto do modelo linear de salário
em função de educação, idade e setor para homem é
diferente do intercepto do mesmo modelo linear de salário
para mulher.
9. (Anpec 2016) Um economista deseja avaliar o consumo de carne

bovina em dois estados brasileiros: Rio Grande do Sul (RS) e
Rio Grande do Norte (RN). Para tanto, ele seleciona uma
amostra de 50.000 unidades de consumo, 35.000 localizadas no
Rio Grande do Sul (primeira subamostra) e 15.000 no Rio
Grande do Norte (segunda subamostra). Inicialmente, o
economista preferiu trabalhar com as subamostras em separado.
Para as duas subamostras ele estima a Curva de Engel para o

consumo de carne bovina pelo método de Mínimos Quadrados
Ordinários. Os resultados das regressões estão a seguir, em que
os erros-padrão estão entre parênteses:
Em que ln(consumo) é o logaritmo natural do consumo e carne

bovina, em quilogramas, e ln(renda) é o logaritmo natural da
renda total do domicílio, em milhares de reais. Todas as
suposições usuais acerca do modelo de regressão linear
clássico são satisfeitas.
Com base nos resultados anteriores, e supondo que a amostra é

suficientemente grande para que aproximações assintóticas
sejam válidas, é correto afirmar que:
(0) Na equação (1), mantendo os preços constantes, com um
aumento de 1% na renda das unidades de consumo, o
consumo de carne bovina terá um aumento esperado de
1,15%;
(1) De acordo com os resultados das regressões, para um
nível de renda igual a R$1,00, o consumo de carne no Rio
Grande do Sul será maior do que no Rio Grande do Norte,
mantendo as demais condições constantes;
(2) É possível afirmar, ao nível de significância de 10%, que no
Rio Grande do Norte a carne bovina depende
exclusivamente do nível de renda, portanto, não é um bem
de primeira necessidade;
(3) É possível afirmar, com 1% de significância, que a
demanda de carne bovina no estado do Rio Grande do Sul
é superior a do Rio Grande do Norte em 67%, para um
nível de renda média igual a R$ 1.000,00;
(4) O economista decidiu trabalhar apenas com a amostra
completa, agregando as informações dos dois estados e
indicando a localização da unidade de consumo por meio
de uma variável dummy, nos parâmetros em que 1 indica o
estado do Rio Grande do Sul. Dado um aumento de 1% na
renda a diferença média de consumo de carne bovina entre
as unidades localizadas no Rio Grande do Sul e no Rio
Grande do Norte será a diferença entre os dois parâmetros
da ln(renda) das equações (1) e (2).
10. (Anpec 2014) Usando dados de uma amostra aleatória da

população com 80.000 indivíduos, é estimada uma regressão
pelo método de Mínimos Quadrados Ordinários. Os resultados
dessa regressão são mostrados a seguir, em que os erros-
padrão são mostrados entre parênteses:
[Para a resolução desta questão talvez lhe seja útil saber que
se Z tem distribuição normal padrão, então P (|Z| > 1,645) =
0,10 e P (|Z| > 1,96) = 0,05]
em que escol representa o número de anos de estudo, idade é a
idade do indivíduo em anos e mulher é uma variável dummy
igual a 1 se o trabalhador for do sexo feminino e igual a 0 se for
do sexo masculino. Todas as suposições usuais acerca do
modelo de regressão linear clássico são satisfeitas.
Com base nos resultados anteriores, e supondo que a amostra é

suficientemente grande para que aproximações assintóticas
sejam válidas, é correto afirmar que:
(0) É possível rejeitar, ao nível de significância de 10%, a
hipótese nula de que o coeficiente associado a variável
escol é igual a zero. A hipótese alternativa é a de que o
coeficiente associado a variável escol é diferente de zero;
(1) A média dos salários dos homens é maior do que a média
dos salários das mulheres;
(2) Cada ano adicional de escolaridade deve elevar os salários
em 10%;
(3) O coeficiente de interação (mulher x escol) é significante
(hipótese alternativa de que é diferente de zero) ao nível de
10%;
(4) É possível rejeitar, ao nível de significância de 5%, a
hipótese nula de que o coeficiente associado a variável
idade é igual a zero. A hipótese alternativa é que o
coeficiente associado a variável idade é maior do que zero.
11. (Anpec 2014) Suponha que queremos estimar como a renda de

um indivíduo varia ao longo do ciclo de vida. Queremos testar a
teoria de que a renda do indivíduo cresce a partir do momento
que ele entra no mercado de trabalho até uma idade média, e
depois começa a decrescer até o final do ciclo de vida. Usando
dados de uma pesquisa anual para 14.368 trabalhadores,
estimamos o seguinte modelo:
em que Yi é o logaritmo da renda mensal do indivíduo i, X1i é a

idade do indivíduo i, X2i é uma variável binária que é igual 1 se o
indivíduo é homem e X3i representa o número de anos de estudo
do indivíduo i.
Estimando o modelo por Mínimos Quadrados Ordinários,
obtemos o seguinte resultado, em que os valores entre
parênteses abaixo dos coeficientes representam os erros-
padrão: [Para a resolução desta questão talvez lhe seja útil
saber que se Z tem distribuição normal padrão, então
P(|Z|>1,645)=0,10 e P(|Z|>1,96)=0,05]
(0) Se a teoria descrita é verdadeira, esperamos que o sinal de

β1 seja positivo e o sinal de β4 negativo;
(1) Neste modelo, o intercepto do modelo para homens é β0 +
β2, e o do modelo para mulheres é somente β0;
(2) O resultado indica que, mantendo tudo mais constante, o
aumento de 1 ano da idade do indivíduo aumenta a sua
renda em 45%;
(3) Temos evidência de que a equação de salários dos
homens apresenta um intercepto diferente do modelo para
mulheres;
(4) Com os resultados do modelo, podemos afirmar que idade
e educação têm um efeito conjunto significativo no
logaritmo do salário, isto é, temos evidência para rejeitar a
hipótese nula H0: β2 = 0, β3 = 0 .
12. (Exercício adicional – Lei dos Grandes Números e Teorema do

Limite Central)
Suponha o modelo yi = β0 + β1 x1i + β2 x2i + εi, onde xi ~ N (μ,
Ʃ), em que
e εi ~ U [–1, 1]. O exercício será feito para n = 10, n = 100 e n

= 1000, em que n denota o número de observações de cada
amostra.
a) Construa a matriz de X e ε para 1000 amostras. Calcule y
dessas 1000 amostras usando os betas populacionais
dados no exercício.
b) Usando y calculado no item anterior, calcule os betas
estimados para cada amostra.
c) Faça um histograma dos betas estimados. Qual a diferença
entre os histogramas para os diferentes n’s? Os resultados
estão de acordo com a Lei dos Grandes Números?
Explique.
d) Construa um histograma para cada β com as estimativas
centralizadas, isto é, . Inclua o desenho da densidade
da normal padrão no histograma. Qual a conclusão?
Explique usando o Teorema do Limite Central.
APÊNDICE 7.A
BREVE REVISÃO DO TEOREMA DO LIMITE

CENTRAL
7. A.1 PROPRIEDADES ASSINTÓTICAS: TEOREMA DA
NORMALIDADE ASSINTÓTICA
Seja {z1, … , zn} uma sequência de variáveis aleatórias de modo
que:
em que Φ(z) é a função densidade acumulada da Normal Padrão,

N(0,1). Dizemos então que zn tem distribuição N(0,1) assintótica, (ou
que zn converge em distribuição para uma N(0,1), i.e., .
Teorema do Limite Central

Seja {y1, … , yn} uma a.a. de uma v.a. y tal que E [y] = μ e Var [y]
= σ2. Então
Note que o TLC vale para a padronização da média amostral de

y. Como a maioria dos estimadores pode ser descrita como funções
de médias amostrais, podemos aplicar o TLC.
7.A.2 BREVE REVISÃO DE TESTE DE HIPÓTESES
Suponha que temos uma v.a. X ~ N (μ, σ2 = 4) e que nosso
estimador de média amostral (com N = 25) resultou em = 1,2 .
Queremos agora investigar se as informações de que dispomos
permitem-nos afirmar se μ = 1 ou não. Temos, então, o seguinte
conjunto de hipóteses:
Como é também uma v.a., precisamos saber como ele se

distribui. Para isso, usamos o estimador de sua variância
e o nível de significância α = 0,05 para construir a Região Crítica
(RC), região de rejeição de H0, de modo que
.
Como supomos que X ~ N (1,4), temos que
Como a distribuição normal é simétrica,
Portanto,
Como , não rejeitamos a hipótese H0 em favor de H1.

Outra maneira de enxergar isso é construindo o Intervalo de
Confiança de μ supondo
,
e a normalidade de X. Assim, temos
Como não rejeitamos H0.

7.A.3 TABELAS DE DISTRIBUIÇÕES CONHECIDAS
Distribuição Normal Padrão
zt 0 1 2 3 4 5 6 7 8 9
0,0 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,1 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,2 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,3 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,4 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,5 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,6 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,7 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,8 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,9 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,0 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,1 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,2 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,3 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,4 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,5 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,6 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,7 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
1,8 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,9 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,0 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,1 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,2 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,3 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,4 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,5 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,6 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,7 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,8 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,9 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,0 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,1 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,2 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,3 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,4 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,5 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,6 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,7 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,8 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,9 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
Distribuição t de Student
g.l. 90% 80% 70% 60% 50% 40% 30% 20% 10% 9% 8% 7% 6% 5% 4% 3% 2% 1% 0,5% 0,2% 0,1%
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 3,104 3,320 3,578 3,896 4,303 4,849 5,643 6,965 9,925 14,089 22,327 31,599
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 2,471 2,605 2,763 2,951 3,182 3,482 3,896 4,541 5,841 7,453 10,215 12,924
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,226 2,333 2,456 2,601 2,776 2,999 3,298 3,747 4,604 5,598 7,173 8,610
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,098 2,191 2,297 2,422 2,571 2,757 3,003 3,365 4,032 4,773 5,893 6,869
6 0,131 0,265 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,019 2,104 2,201 2,313 2,447 2,612 2,829 3,143 3,707 4,317 5,208 5,959
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 1,966 2,046 2,136 2,241 2,365 2,517 2,715 2,998 3,499 4,029 4,785 5,408
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 1,928 2,004 2,090 2,189 2,306 2,449 2,634 2,896 3,355 3,833 4,501 5,041
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 1,899 1,973 2,055 2,150 2,262 2,398 2,574 2,821 3,250 3,690 4,297 4,781
10 0,129 0,260 0,397 0,542 0,700 0,879 1,093 1,372 1,812 1,877 1,948 2,028 2,120 2,228 2,359 2,527 2,764 3,169 3,581 4,144 4,587
11 0,129 0,260 0,396 0,540 0,697 0,876 1,088 1,363 1,796 1,859 1,928 2,007 2,096 2,201 2,328 2,491 2,718 3,106 3,497 4,025 4,437
12 0,128 0,259 0,395 0,539 0,695 0,873 1,083 1,356 1,782 1,844 1,912 1,989 2,076 2,179 2,303 2,461 2,681 3,055 3,428 3,930 4,318
13 0,128 0,259 0,394 0,538 0,694 0,870 1,079 1,350 1,771 1,832 1,899 1,974 2,060 2,160 2,282 2,436 2,650 3,012 3,372 3,852 4,221
14 0,128 0,258 0,393 0,537 0,692 0,868 1,076 1,345 1,761 1,821 1,887 1,962 2,046 2,145 2,264 2,415 2,624 2,977 3,326 3,787 4,140
15 0,128 0,258 0,393 0,536 0,691 0,866 1,074 1,341 1,753 1,812 1,878 1,951 2,034 2,131 2,249 2,397 2,602 2,947 3,286 3,733 4,073
16 0,128 0,258 0,392 0,535 0,690 0,865 1,071 1,337 1,746 1,805 1,869 1,942 2,024 2,120 2,235 2,382 2,583 2,921 3,252 3,686 4,015
17 0,128 0,257 0,392 0,534 0,689 0,863 1,069 1,333 1,740 1,798 1,862 1,934 2,015 2,110 2,224 2,368 2,567 2,898 3,222 3,646 3,965
18 0,127 0,257 0,392 0,534 0,688 0,862 1,067 1,330 1,734 1,792 1,855 1,926 2,007 2,101 2,214 2,356 2,552 2,878 3,197 3,610 3,922
19 0,127 0,257 0,391 0,533 0,688 0,861 1,066 1,328 1,729 1,786 1,850 1,920 2,000 2,093 2,205 2,346 2,539 2,861 3,174 3,579 3,883
20 0,127 0,257 0,391 0,533 0,687 0,860 1,064 1,325 1,725 1,782 1,844 1,914 1,994 2,086 2,197 2,336 2,528 2,845 3,153 3,552 3,850
21 0,127 0,257 0,391 0,532 0,686 0,859 1,063 1,323 1,721 1,777 1,840 1,909 1,988 2,080 2,189 2,328 2,518 2,831 3,135 3,527 3,819
22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 1,773 1,835 1,905 1,983 2,074 2,183 2,320 2,508 2,819 3,119 3,505 3,792
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 1,770 1,832 1,900 1,978 2,069 2,177 2,313 2,500 2,807 3,104 3,485 3,768
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 1,767 1,828 1,896 1,974 2,064 2,172 2,307 2,492 2,797 3,091 3,467 3,745
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 1,764 1,825 1,893 1,970 2,060 2,167 2,301 2,485 2,787 3,078 3,450 3,725
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 1,761 1,822 1,890 1,967 2,056 2,162 2,296 2,479 2,779 3,067 3,435 3,707
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 1,758 1,819 1,887 1,963 2,052 2,158 2,291 2,473 2,771 3,057 3,421 3,690
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 1,756 1,817 1,884 1,960 2,048 2,154 2,286 2,467 2,763 3,047 3,408 3,674
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 1,754 1,814 1,881 1,957 2,045 2,150 2,282 2,462 2,756 3,038 3,396 3,659
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 1,752 1,812 1,879 1,955 2,042 2,147 2,278 2,457 2,750 3,030 3,385 3,646
35 0,127 0,255 0,388 0,529 0,682 0,852 1,052 1,306 1,690 1,744 1,803 1,869 1,944 2,030 2,133 2,262 2,438 2,724 2,996 3,340 3,591
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 1,737 1,796 1,862 1,936 2,021 2,123 2,250 2,423 2,704 2,971 3,307 3,551
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 1,729 1,787 1,852 1,924 2,009 2,109 2,234 2,403 2,678 2,937 3,261 3,496
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 1,723 1,781 1,845 1,917 2,000 2,099 2,223 2,390 2,660 2,915 3,232 3,460
>120 0,126 0,254 0,386 0,526 0,677 0,845 1,041 1,289 1,658 1,709 1,766 1,828 1,899 1,980 2,076 2,196 2,358 2,617 2,860 3,160 3,373
Distribuição χ2
p
g.l. 99% 98% 97,5% 95% 90% 80% 70% 60% 50% 40% 30% 20% 10% 5% 4% 2.5% 2% 1% 0,2
1 0,000 0,001 0,001 0,004 0,016 0,064 0,148 0,275 0,455 0,708 1,074 1,642 2,706 3,841 4,218 5,024 5,412 6,635 9,5
2 0,020 0,040 0,051 0,103 0,211 0,446 0,713 1,022 1,386 1,833 2,408 3,219 4,605 5,991 6,438 7,378 7,824 9,210 12,
3 0,115 0,185 0,216 0,352 0,584 1,005 1,424 1,869 2,366 2,946 3,665 4,642 6,251 7,815 8,311 9,348 9,837 11,345 14,
4 0,297 0,429 0,484 0,711 1,064 1,649 2,195 2,753 3,357 4,045 4,878 5,989 7,779 9,488 10,026 11,143 11,668 13,277 16,
5 0,554 0,752 0,831 1,145 1,610 2,343 3,000 3,655 4,351 5,132 6,064 7,289 9,236 11,070 11,644 12,833 13,388 15,086 18,
6 0,872 1,134 1,237 1,635 2,204 3,070 3,828 4,570 5,348 6,211 7,231 8,558 10,645 12,592 13,198 14,449 15,033 16,812 20,
7 1,239 1,564 1,690 2,167 2,833 3,822 4,671 5,493 6,346 7,283 8,383 9,803 12,017 14,067 14,703 16,013 16,622 18,475 22,
8 1,646 2,032 2,180 2,733 3,490 4,594 5,527 6,423 7,344 8,351 9,524 11,030 13,362 15,507 16,171 17,535 18,168 20,090 24,
9 2,088 2,532 2,700 3,325 4,168 5,380 6,393 7,357 8,343 9,414 10,656 12,242 14,684 16,919 17,608 19,023 19,679 21,666 26,
10 2,558 3,059 3,247 3,940 4,865 6,179 7,267 8,295 9,342 10,473 11,781 13,442 15,987 18,307 19,021 20,483 21,161 23,209 27,
11 3,053 3,609 3,816 4,575 5,578 6,989 8,148 9,237 10,341 11,530 12,899 14,631 17,275 19,675 20,412 21,920 22,618 24,725 29,
12 3,571 4,178 4,404 5,226 6,304 7,807 9,034 10,182 11,340 12,584 14,011 15,812 18,549 21,026 21,785 23,337 24,054 26,217 30,
13 4,107 4,765 5,009 5,892 7,042 8,634 9,926 11,129 12,340 13,636 15,119 16,985 19,812 22,362 23,142 24,736 25,472 27,688 32,
14 4,660 5,368 5,629 6,571 7,790 9,467 10,821 12,078 13,339 14,685 16,222 18,151 21,064 23,685 24,485 26,119 26,873 29,141 34,
15 5,229 5,985 6,262 7,261 8,547 10,307 11,721 13,030 14,339 15,733 17,322 19,311 22,307 24,996 25,816 27,488 28,259 30,578 35,
16 5,812 6,614 6,908 7,962 9,312 11,152 12,624 13,983 15,338 16,780 18,418 20,465 23,542 26,296 27,136 28,845 29,633 32,000 37,
17 6,408 7,255 7,564 8,672 10,085 12,002 13,531 14,937 16,338 17,824 19,511 21,615 24,769 27,587 28,445 30,191 30,995 33,409 38,
18 7,015 7,906 8,231 9,390 10,865 12,857 14,440 15,893 17,338 18,868 20,601 22,760 25,989 28,869 29,745 31,526 32,346 34,805 40,
19 7,633 8,567 8,907 10,117 11,651 13,716 15,352 16,850 18,338 19,910 21,689 23,900 27,204 30,144 31,037 32,852 33,687 36,191 41,
20 8,260 9,237 9,591 10,851 12,443 14,578 16,266 17,809 19,337 20,951 22,775 25,038 28,412 31,410 32,321 34,170 35,020 37,566 43,
21 8,897 9,915 10,283 11,591 13,240 15,445 17,182 18,768 20,337 21,991 23,858 26,171 29,615 32,671 33,597 35,479 36,343 38,932 44,
22 9,542 10,600 10,982 12,338 14,041 16,314 18,101 19,729 21,337 23,031 24,939 27,301 30,813 33,924 34,867 36,781 37,659 40,289 45,
23 10,196 11,293 11,689 13,091 14,848 17,187 19,021 20,690 22,337 24,069 26,018 28,429 32,007 35,172 36,131 38,076 38,968 41,638 47,
24 10,856 11,992 12,401 13,848 15,659 18,062 19,943 21,652 23,337 25,106 27,096 29,553 33,196 36,415 37,389 39,364 40,270 42,980 48,
25 11,524 12,697 13,120 14,611 16,473 18,940 20,867 22,616 24,337 26,143 28,172 30,675 34,382 37,652 38,642 40,646 41,566 44,314 50,
26 12,198 13,409 13,844 15,379 17,292 19,820 21,792 23,579 25,336 27,179 29,246 31,795 35,563 38,885 39,889 41,923 42,856 45,642 51,
27 12,879 14,125 14,573 16,151 18,114 20,703 22,719 24,544 26,336 28,214 30,319 32,912 36,741 40,113 41,132 43,195 44,140 46,963 53,
28 13,565 14,847 15,308 16,928 18,939 21,588 23,647 25,509 27,336 29,249 31,391 34,027 37,916 41,337 42,370 44,461 45,419 48,278 54,
29 14,256 15,574 16,047 17,708 19,768 22,475 24,577 26,475 28,336 30,283 32,461 35,139 39,087 42,557 43,604 45,722 46,693 49,588 55,
30 14,953 16,306 16,791 18,493 20,599 23,364 25,508 27,442 29,336 31,316 33,530 36,250 40,256 43,773 44,834 46,979 47,962 50,892 57,
35 18,509 20,027 20,569 22,465 24,797 27,836 30,178 32,282 34,336 36,475 38,859 41,778 46,059 49,802 50,928 53,203 54,244 57,342 63,
40 22,164 23,838 24,433 26,509 29,051 32,345 34,872 37,134 39,335 41,622 44,165 47,269 51,805 55,758 56,946 59,342 60,436 63,691 70,
45 25,901 27,720 28,366 30,612 33,350 36,884 39,585 41,995 44,335 46,761 49,452 52,729 57,505 61,656 62,901 65,410 66,555 69,957 77,
50 29,707 31,664 32,357 34,764 37,689 41,449 44,313 46,864 49,335 51,892 54,723 58,164 63,167 67,505 68,804 71,420 72,613 76,154 83,
Distribuição F de Snedecor a 10% (p = 0,10)

g1/g2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 20 30 40 60 120
2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,40 9,41 9,41 9,42 9,42 9,43 9,44 9,44 9,46 9,47 9,47 9,48
3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,22 5,21 5,20 5,20 5,20 5,19 5,18 5,17 5,16 5,15 5,14
4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,91 3,90 3,89 3,88 3,87 3,86 3,85 3,84 3,82 3,80 3,79 3,78
5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,28 3,27 3,26 3,25 3,24 3,23 3,22 3,21 3,17 3,16 3,14 3,12
6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,92 2,90 2,89 2,88 2,87 2,86 2,85 2,84 2,80 2,78 2,76 2,74
7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,68 2,67 2,65 2,64 2,63 2,62 2,61 2,59 2,56 2,54 2,51 2,49
8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,52 2,50 2,49 2,48 2,46 2,45 2,44 2,42 2,38 2,36 2,34 2,32
9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,40 2,38 2,36 2,35 2,34 2,33 2,31 2,30 2,25 2,23 2,21 2,18
10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,30 2,28 2,27 2,26 2,24 2,23 2,22 2,20 2,16 2,13 2,11 2,08
11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,23 2,21 2,19 2,18 2,17 2,16 2,14 2,12 2,08 2,05 2,03 2,00
12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,17 2,15 2,13 2,12 2,10 2,09 2,08 2,06 2,01 1,99 1,96 1,93
13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,12 2,10 2,08 2,07 2,05 2,04 2,02 2,01 1,96 1,93 1,90 1,88
14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,07 2,05 2,04 2,02 2,01 2,00 1,98 1,96 1,91 1,89 1,86 1,83
15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,04 2,02 2,00 1,99 1,97 1,96 1,94 1,92 1,87 1,85 1,82 1,79
16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 2,01 1,99 1,97 1,95 1,94 1,93 1,91 1,89 1,84 1,81 1,78 1,75
17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,98 1,96 1,94 1,93 1,91 1,90 1,88 1,86 1,81 1,78 1,75 1,72
18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,95 1,93 1,92 1,90 1,89 1,87 1,85 1,84 1,78 1,75 1,72 1,69
19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,93 1,91 1,89 1,88 1,86 1,85 1,83 1,81 1,76 1,73 1,70 1,67
20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,91 1,89 1,87 1,86 1,84 1,83 1,81 1,79 1,74 1,71 1,68 1,64
21 2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92 1,90 1,87 1,86 1,84 1,83 1,81 1,79 1,78 1,72 1,69 1,66 1,62
22 2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90 1,88 1,86 1,84 1,83 1,81 1,80 1,78 1,76 1,70 1,67 1,64 1,60
23 2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89 1,87 1,84 1,83 1,81 1,80 1,78 1,76 1,74 1,69 1,66 1,62 1,59
24 2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88 1,85 1,83 1,81 1,80 1,78 1,77 1,75 1,73 1,67 1,64 1,61 1,57
25 2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87 1,84 1,82 1,80 1,79 1,77 1,76 1,74 1,72 1,66 1,63 1,59 1,56
26 2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86 1,83 1,81 1,79 1,77 1,76 1,75 1,72 1,71 1,65 1,61 1,58 1,54
27 2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85 1,82 1,80 1,78 1,76 1,75 1,74 1,71 1,70 1,64 1,60 1,57 1,53
28 2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84 1,81 1,79 1,77 1,75 1,74 1,73 1,70 1,69 1,63 1,59 1,56 1,52
29 2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83 1,80 1,78 1,76 1,75 1,73 1,72 1,69 1,68 1,62 1,58 1,55 1,51
30 2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,79 1,77 1,75 1,74 1,72 1,71 1,69 1,67 1,61 1,57 1,54 1,50
40 2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,74 1,71 1,70 1,68 1,66 1,65 1,62 1,61 1,54 1,51 1,47 1,42
60 2,79 2,39 2,18 2,04 1,95 1,87 1,82 1,77 1,74 1,71 1,68 1,66 1,64 1,62 1,60 1,59 1,56 1,54 1,48 1,44 1,40 1,35
120 2,75 2,35 2,13 1,99 1,90 1,82 1,77 1,72 1,68 1,65 1,63 1,60 1,58 1,56 1,55 1,53 1,50 1,48 1,41 1,37 1,32 1,26

g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,42 19,43 19,43 19,44 19,45 19,46 19,47 19,48 19,49
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,71 8,70 8,69 8,67 8,66 8,62 8,59 8,57 8,55
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,87 5,86 5,84 5,82 5,80 5,75 5,72 5,69 5,66
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,64 4,62 4,60 4,58 4,56 4,50 4,46 4,43 4,40
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,96 3,94 3,92 3,90 3,87 3,81 3,77 3,74 3,70
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,53 3,51 3,49 3,47 3,44 3,38 3,34 3,30 3,27
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,24 3,22 3,20 3,17 3,15 3,08 3,04 3,01 2,97
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,03 3,01 2,99 2,96 2,94 2,86 2,83 2,79 2,75
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,86 2,85 2,83 2,80 2,77 2,70 2,66 2,62 2,58
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,74 2,72 2,70 2,67 2,65 2,57 2,53 2,49 2,45
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,64 2,62 2,60 2,57 2,54 2,47 2,43 2,38 2,34
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,55 2,53 2,51 2,48 2,46 2,38 2,34 2,30 2,25
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,48 2,46 2,44 2,41 2,39 2,31 2,27 2,22 2,18
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,42 2,40 2,38 2,35 2,33 2,25 2,20 2,16 2,11
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,37 2,35 2,33 2,30 2,28 2,19 2,15 2,11 2,06
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,33 2,31 2,29 2,26 2,23 2,15 2,10 2,06 2,01
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,29 2,27 2,25 2,22 2,19 2,11 2,06 2,02 1,97
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,26 2,23 2,21 2,18 2,16 2,07 2,03 1,98 1,93
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,22 2,20 2,18 2,15 2,12 2,04 1,99 1,95 1,90
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,20 2,18 2,16 2,12 2,10 2,01 1,96 1,92 1,87
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,17 2,15 2,13 2,10 2,07 1,98 1,94 1,89 1,84
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,15 2,13 2,11 2,08 2,05 1,96 1,91 1,86 1,81
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,13 2,11 2,09 2,05 2,03 1,94 1,89 1,84 1,79
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,11 2,09 2,07 2,04 2,01 1,92 1,87 1,82 1,77
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,09 2,07 2,05 2,02 1,99 1,90 1,85 1,80 1,75
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,08 2,06 2,04 2,00 1,97 1,88 1,84 1,79 1,73
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,06 2,04 2,02 1,99 1,96 1,87 1,82 1,77 1,71
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,05 2,03 2,01 1,97 1,94 1,85 1,81 1,75 1,70
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,04 2,01 1,99 1,96 1,93 1,84 1,79 1,74 1,68
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,95 1,92 1,90 1,87 1,84 1,74 1,69 1,64 1,58
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,86 1,84 1,82 1,78 1,75 1,65 1,59 1,53 1,47
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,78 1,75 1,73 1,69 1,66 1,55 1,50 1,43 1,35
Distribuição F de Snedecor a 2,5% (p = 0,025)

g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,43 39,44 39,44 39,45 39,46 39,47 39,48 39,49
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,28 14,25 14,23 14,20 14,17 14,08 14,04 13,99 13,95
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,68 8,66 8,63 8,59 8,56 8,46 8,41 8,36 8,31
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,46 6,43 6,40 6,36 6,33 6,23 6,18 6,12 6,07
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,30 5,27 5,24 5,20 5,17 5,07 5,01 4,96 4,90
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,60 4,57 4,54 4,50 4,47 4,36 4,31 4,25 4,20
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,13 4,10 4,08 4,03 4,00 3,89 3,84 3,78 3,73
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,80 3,77 3,74 3,70 3,67 3,56 3,51 3,45 3,39
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,55 3,52 3,50 3,45 3,42 3,31 3,26 3,20 3,14
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,36 3,33 3,30 3,26 3,23 3,12 3,06 3,00 2,94
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,21 3,18 3,15 3,11 3,07 2,96 2,91 2,85 2,79
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,08 3,05 3,03 2,98 2,95 2,84 2,78 2,72 2,66
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,98 2,95 2,92 2,88 2,84 2,73 2,67 2,61 2,55
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,89 2,86 2,84 2,79 2,76 2,64 2,59 2,52 2,46
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,82 2,79 2,76 2,72 2,68 2,57 2,51 2,45 2,38
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,75 2,72 2,70 2,65 2,62 2,50 2,44 2,38 2,32
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,70 2,67 2,64 2,60 2,56 2,44 2,38 2,32 2,26
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,65 2,62 2,59 2,55 2,51 2,39 2,33 2,27 2,20
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,60 2,57 2,55 2,50 2,46 2,35 2,29 2,22 2,16
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,56 2,53 2,51 2,46 2,42 2,31 2,25 2,18 2,11
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,53 2,50 2,47 2,43 2,39 2,27 2,21 2,14 2,08
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,50 2,47 2,44 2,39 2,36 2,24 2,18 2,11 2,04
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,47 2,44 2,41 2,36 2,33 2,21 2,15 2,08 2,01
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,44 2,41 2,38 2,34 2,30 2,18 2,12 2,05 1,98
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,42 2,39 2,36 2,31 2,28 2,16 2,09 2,03 1,95
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,39 2,36 2,34 2,29 2,25 2,13 2,07 2,00 1,93
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,37 2,34 2,32 2,27 2,23 2,11 2,05 1,98 1,91
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,36 2,32 2,30 2,25 2,21 2,09 2,03 1,96 1,89
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,34 2,31 2,28 2,23 2,20 2,07 2,01 1,94 1,87
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,21 2,18 2,15 2,11 2,07 1,94 1,88 1,80 1,72
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,09 2,06 2,03 1,98 1,94 1,82 1,74 1,67 1,58
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,98 1,94 1,92 1,87 1,82 1,69 1,61 1,53 1,43
g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,42 99,43 99,43 99,44 99,44 99,45 99,47 99,47 99,48 99,49
g1/g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40 60 120
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,05 26,92 26,87 26,83 26,75 26,69 26,50 26,41 26,32 26,22
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,25 14,20 14,15 14,08 14,02 13,84 13,75 13,65 13,56
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,77 9,72 9,68 9,61 9,55 9,38 9,29 9,20 9,11
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,60 7,56 7,52 7,45 7,40 7,23 7,14 7,06 6,97
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,36 6,31 6,28 6,21 6,16 5,99 5,91 5,82 5,74
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,56 5,52 5,48 5,41 5,36 5,20 5,12 5,03 4,95
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 5,01 4,96 4,92 4,86 4,81 4,65 4,57 4,48 4,40
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,60 4,56 4,52 4,46 4,41 4,25 4,17 4,08 4,00
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,29 4,25 4,21 4,15 4,10 3,94 3,86 3,78 3,69
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,05 4,01 3,97 3,91 3,86 3,70 3,62 3,54 3,45
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,86 3,82 3,78 3,72 3,66 3,51 3,43 3,34 3,25
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,70 3,66 3,62 3,56 3,51 3,35 3,27 3,18 3,09
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,56 3,52 3,49 3,42 3,37 3,21 3,13 3,05 2,96
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,45 3,41 3,37 3,31 3,26 3,10 3,02 2,93 2,84
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,35 3,31 3,27 3,21 3,16 3,00 2,92 2,83 2,75
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,27 3,23 3,19 3,13 3,08 2,92 2,84 2,75 2,66
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,19 3,15 3,12 3,05 3,00 2,84 2,76 2,67 2,58
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,13 3,09 3,05 2,99 2,94 2,78 2,69 2,61 2,52
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,07 3,03 2,99 2,93 2,88 2,72 2,64 2,55 2,46
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 3,02 2,98 2,94 2,88 2,83 2,67 2,58 2,50 2,40
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,97 2,93 2,89 2,83 2,78 2,62 2,54 2,45 2,35
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,93 2,89 2,85 2,79 2,74 2,58 2,49 2,40 2,31
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,89 2,85 2,81 2,75 2,70 2,54 2,45 2,36 2,27
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,86 2,81 2,78 2,72 2,66 2,50 2,42 2,33 2,23
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,82 2,78 2,75 2,68 2,63 2,47 2,38 2,29 2,20
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,79 2,75 2,72 2,65 2,60 2,44 2,35 2,26 2,17
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,77 2,73 2,69 2,63 2,57 2,41 2,33 2,23 2,14
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,74 2,70 2,66 2,60 2,55 2,39 2,30 2,21 2,11
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,56 2,52 2,48 2,42 2,37 2,20 2,11 2,02 1,92
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,39 2,35 2,31 2,25 2,20 2,03 1,94 1,84 1,73
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,23 2,19 2,15 2,09 2,03 1,86 1,76 1,66 1,53
Distribuição F de Snedecor a 0,5% (p = 0,005)
g1\g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40
2 198,50 199,00 199,17 199,25 199,30 199,33 199,36 199,37 199,39 199,40 199,42 199,43 199,43 199,44 199,44 199,45 199,47 199,47 1
g1\g2 1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 30 40
3 55,55 49,80 47,47 46,19 45,39 44,84 44,43 44,13 43,88 43,69 43,39 43,17 43,08 43,01 42,88 42,78 42,47 42,31
4 31,33 26,28 24,26 23,15 22,46 21,97 21,62 21,35 21,14 20,97 20,70 20,51 20,44 20,37 20,26 20,17 19,89 19,75
5 22,78 18,31 16,53 15,56 14,94 14,51 14,20 13,96 13,77 13,62 13,38 13,21 13,15 13,09 12,98 12,90 12,66 12,53
6 18,63 14,54 12,92 12,03 11,46 11,07 10,79 10,57 10,39 10,25 10,03 9,88 9,81 9,76 9,66 9,59 9,36 9,24
7 16,24 12,40 10,88 10,05 9,52 9,16 8,89 8,68 8,51 8,38 8,18 8,03 7,97 7,91 7,83 7,75 7,53 7,42
8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 7,01 6,87 6,81 6,76 6,68 6,61 6,40 6,29
9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,23 6,09 6,03 5,98 5,90 5,83 5,62 5,52
10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,66 5,53 5,47 5,42 5,34 5,27 5,07 4,97
11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,24 5,10 5,05 5,00 4,92 4,86 4,65 4,55
12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,91 4,77 4,72 4,67 4,59 4,53 4,33 4,23
13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,64 4,51 4,46 4,41 4,33 4,27 4,07 3,97
14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,43 4,30 4,25 4,20 4,12 4,06 3,86 3,76
15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,25 4,12 4,07 4,02 3,95 3,88 3,69 3,58
16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 4,10 3,97 3,92 3,87 3,80 3,73 3,54 3,44
17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 3,97 3,84 3,79 3,75 3,67 3,61 3,41 3,31
18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,86 3,73 3,68 3,64 3,56 3,50 3,30 3,20
19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,76 3,64 3,59 3,54 3,46 3,40 3,21 3,11
20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,68 3,55 3,50 3,46 3,38 3,32 3,12 3,02
21 9,83 6,89 5,73 5,09 4,68 4,39 4,18 4,01 3,88 3,77 3,60 3,48 3,43 3,38 3,31 3,24 3,05 2,95
22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81 3,70 3,54 3,41 3,36 3,31 3,24 3,18 2,98 2,88
23 9,63 6,73 5,58 4,95 4,54 4,26 4,05 3,88 3,75 3,64 3,47 3,35 3,30 3,25 3,18 3,12 2,92 2,82
24 9,55 6,66 5,52 4,89 4,49 4,20 3,99 3,83 3,69 3,59 3,42 3,30 3,25 3,20 3,12 3,06 2,87 2,77
25 9,48 6,60 5,46 4,84 4,43 4,15 3,94 3,78 3,64 3,54 3,37 3,25 3,20 3,15 3,08 3,01 2,82 2,72
26 9,41 6,54 5,41 4,79 4,38 4,10 3,89 3,73 3,60 3,49 3,33 3,20 3,15 3,11 3,03 2,97 2,77 2,67
27 9,34 6,49 5,36 4,74 4,34 4,06 3,85 3,69 3,56 3,45 3,28 3,16 3,11 3,07 2,99 2,93 2,73 2,63
28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52 3,41 3,25 3,12 3,07 3,03 2,95 2,89 2,69 2,59
29 9,23 6,40 5,28 4,66 4,26 3,98 3,77 3,61 3,48 3,38 3,21 3,09 3,04 2,99 2,92 2,86 2,66 2,56
30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,18 3,06 3,01 2,96 2,89 2,82 2,63 2,52
40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 2,95 2,83 2,78 2,74 2,66 2,60 2,40 2,30
60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,74 2,62 2,57 2,53 2,45 2,39 2,19 2,08
120 8,18 5,54 4,50 3,92 3,55 3,28 3,09 2,93 2,81 2,71 2,54 2,42 2,37 2,33 2,25 2,19 1,98 1,87
1 Sabemos que a variância do estimador reduz conforme aumenta o número de observações da amostra (n).
Assim, propomos menos tolerância ao erro quando temos amostras muito grandes.
2 Isso porque a estatística t será a fração entre duas variáveis aleatórias, sendo que o numerador tem distribuição
normal padrão e o denominador tem distribuição qui-quadrada com (n – k – 1) graus de liberdade.
3 Baseada em Wooldridge (2015).
4 O termo converge para as médias verdadeiras e é, portanto, não degenerado.
5 Vale reforçar que o VC dependerá das hipóteses assumidas. Se valem as Hipóteses 5.1 a 5.6 (para o modelo de
regressão linear múltipla) e se n for pequeno, usamos os valores críticos da distribuição t-Student. Se valem as
hipóteses de Gauss-Markov e temos uma amostra grande, usamos os valores críticos da normal padrão.
6 Utilizamos o valor crítico do lado da desigualdade da hipótese alternativa.
7 Uma crítica comum ao uso desses dados refere-se ao fato de os indivíduos reportarem se possuem ou não
esgoto canalizado. Muitas vezes, os indivíduos desconhecem o destino do esgoto de seus domicílios.
8 O modelo restrito inclui as variáveis explicativas de xq+1 a xk e o modelo irrestrito inclui todas as k variáveis
explicativas.
9 Note que a fórmula do R-quadrado não é adequada para testar modelos restritos e irrestritos que possuem
diferentes variáveis independentes.
10 Essa variável foi estimada a partir dos alunos que fizeram a Prova Brasil.
8
HETEROCEDASTICIDADE E
AUTOCORRELAÇÃO
N
este capítulo trataremos das formas alternativas de
estimar tanto os parâmetros quanto a variância dos
estimadores quando há a quebra da Hipótese 5.5 (erros
homocedásticos ou não correlacionados entre as
observações). Sabemos que a quebra da Hipótese 5.5 não implica
viés do estimador de MQO, quando valem ainda as Hipóteses 5.1 a
5.4, mas o estimador da variância do erro que derivamos está
errado e, como consequência, a variância do estimador será
viesada e inconsistente. A estimativa da variância do estimador é
usada para a construção de testes de hipóteses sobre os
parâmetros (t e F) e construção de Intervalos de Confiança, logo se
a estimativa é viesada ou inconsistente, teremos estatísticas de
teste erradas, que não convergirão para uma distribuição conhecida.
Nesse sentido, é útil que se use estimadores alternativos ou formas
alternativas de contornar a inviabilidade da Hipótese 5.5. Vamos
verificar, inicialmente, como podemos lidar com a
heterocedasticidade e, posteriormente, como resolveremos o
problema de correlação entre os erros para dados em cross-section.
De maneira geral, há duas formas de se lidar com a quebra da
Hipótese 5.5:
1. podemos manter a estimação por MQO e apenas corrigir o
estimador da variância (seja utilizando o estimador robusto,
seja realizando testes usando o procedimento de bootstrap);
ou
2. podemos encontrar um estimador alternativo ao MQO, que
seja consistente e tenha variância dos erros homocedástica e
sem correlação entre erros nas observações.
As próximas seções detalham cada uma dessas formas.

8.1 CORREÇÃO DO ESTIMADOR DA VARIÂNCIA
Nesta seção consideramos que as quatro primeiras hipóteses da
regressão simples ou múltipla são válidas. Assim, vimos que os
estimadores por MQO serão não viesados. No entanto, com a
invalidez da quinta hipótese (que considera homocedasticidade e
inexistência de autocorrelação), vamos propor novos estimadores
para a variância dos estimadores de MQO. Isto porque basta corrigir
a variância usando os procedimentos que veremos, e manter os
estimadores de MQO, para que possamos fazer inferência sobre os
parâmetros do modelo.

Mantendo as quatro primeiras hipóteses, mas supondo erros
heterocedásticos (e inexistência de autocorrelação entre os erros),
podemos escrever a variância do estimador de regressão linear
simples da seguinte forma
Em que
Ou, em termos matriciais para a regressão linear múltipla
Tal que
Quando vale a quarta hipótese (média condicional zero dos
erros), sabemos que
Com base na fórmula da variância dos erros e na fórmula da
variância do estimador sem impor homocedasticidade, Halbert
White1 sugeriu o uso da relação entre os resíduos ao quadrado de
cada observação ( ) para entender a dispersão dos erros do
modelo para essas observações ( ). Assim, ele propôs o
seguinte estimador para a variância de da regressão linear
simples:
Ou, em termos matriciais, o seguinte estimador para a matriz de

variância-covariância de
O autor mostrou que esse estimador para a variância é

consistente, podendo, portanto, ser usado para fazer inferência.2
Este estimador da variância é robusto à heterocedasticidade de
qualquer natureza (daí o nome “estimador robusto”). Com esse
estimador da variância, podemos computar a estatística t como
antes:
QUADRO 8.1
Estimação robusta da variância: Efeito das características
dos veículos sobre os preços
No trabalho de Silva (2015), vimos como os preços dos veículos se
relacionam com as suas características no Brasil. Usando uma
amostra de dados da tabela da Fundação Instituto de Pesquisas
Econômicas (FIPE) para janeiro de 2014 (veiculos1.xls),
estimamos o modelo hedônico usando algumas características. A
estimação por MQO do modelo anterior gerou os seguintes
resultados (reportamos os erros-padrão sob homocedasticidade em
parênteses e os erros-padrão de White em colchetes):
Neste exemplo, embora a conclusão sobre a significância individual

das variáveis seja inalterada a 5%, notamos que os erros-padrão
corrigidos são maiores para três dos quatro estimadores (número de
cavalos a vapor, presença de ar-condicionado e para motores
funcionando com etanol e gasolina).
Os testes F também podem ser realizados utilizando a matriz de

variância-covariância robusta de . Os softwares estatísticos, em
geral, apresentam a possibilidade de recalcular a variância dos
estimadores usando a ideia de White.

Em geral, observamos autocorrelação entre as mesmas unidades
de observação ordenadas no tempo (séries temporais) ou entre
unidades de observação relacionadas no espaço (cortes
transversais). Este livro não trata das correções e testes para dados
em séries de tempo. Assim, vamos estudar a natureza de
autocorrelação no espaço, comum no campo de Economia Regional
e Economia Espacial, em que a unidade de estudo é uma localidade
(bairro, município, estado, países, ou mesmo a localização
geográfica de uma unidade de estudo: indivíduo, família, firma).
Na regressão linear simples, sabemos que a variância do
estimador de inclinação, sob as Hipóteses 4.1 a 4.4, é
Sob a hipótese de inexistência de correlação entre as
observações (i e j, para i ≠ j), (x1 – ) ui não teria correlação com (xj
– ) uj , assim o erro-padrão usual de MQO seria válido. Assim,
quando inexiste a correlação, a variância da soma dos termos pode
ser expressa pela soma das variâncias de cada termo.3 No entanto,
se há a correlação entre as observações, precisamos levá-la em
conta, ou seja, contabilizar as covariâncias entre as observações.
No caso de dados em séries temporais, essa correlação se reduz
conforme as observações se distanciem no tempo. No caso de
dados regionais, essa correlação também se reduz conforme as
observações estejam mais distantes no espaço (ou seja, há um
limite de abrangência nesta correlação). Assim, o estimador robusto,
chamado de estimador HAC (da sigla em inglês “heteroskedasticity
and autocorrelation consistent”),4 considera tais covariâncias entre
as observações (por meio de W ), mas limita o alcance da
correlação usando o parâmetro “d”
Em que:
Note que o primeiro termo à esquerda da igualdade é uma

medida da variância de cada observação i, já o segundo termo
considera a correlação entre as observações i e j. Esta correlação é
limitada em c, cujo valor máximo é d. Ou seja, d é a quantidade de
correlação entre as observações que permitimos para este
estimador. O estimador HAC é robusto tanto para
heterocedasticidade quanto para correlação entre as observações.
Os softwares estatísticos apresentam a possibilidade de corrigir a
variância dos estimadores usando esse procedimento.

Vimos no Capítulo 7 que precisamos conhecer a distribuição de
probabilidade exata do estimador sob a hipótese nula (para tal,
supomos a Hipótese 5.6 sobre a distribuição dos erros), ou
conhecer a distribuição de probabilidade assintótica do estimador
(para grandes amostras) para realizarmos os testes sobre os
parâmetros da regressão múltipla. Para estes dois casos,
conhecemos as distribuições das estatísticas do teste (tanto para a
estatística t, que converge para uma distribuição t-Student, quanto
para a estatística F, que converge para uma distribuição F-Sndecor)
e os p-valores de cada valor da estatística.
Outra forma de fazer inferência é por meio de simulações. Uma
destas simulações é a que conhecemos por procedimento de
bootstrap.5 Este procedimento utiliza-se de um dos resultados do
Teorema Fundamental da Estatística, que diz que a distribuição
empírica de realizações de uma variável aleatória (numa amostra,
por exemplo) converge para a verdadeira distribuição de
probabilidades da variável.6 Assim, simulamos várias amostras
independentes a partir da nossa amostra original (procedimento
chamado de resampling) e as estatísticas de teste com base nestas
amostras reamostradas (bootstrap tests) convergem para a
distribuição verdadeira da estatística (sem impor hipóteses sobre
essa distribuição). Essa é a ideia por trás do procedimento de
bootstrap.7
Em linhas gerais, o procedimento envolve as seguintes etapas,
supondo as Hipóteses 5.1 a 5.4:
1. Construa diversas amostras de tamanho n (B amostras: n1, …,
nB) com reposição a partir da amostra original. (Veja Figura 8.1
para ilustração da reamostragem)
FIGURA 8.1
Esquema de reamostragem do procedimento de bootstrap.
2. Para cada nova amostra (nj), calcule a estatística de interesse

(o estimador para o parâmetro desejado, , ou a estatística
do teste, tnj).8
3. Para construir o Intervalo de Confiança de 95% dessa

estatítistica, compute o percentil 2,5% e 97,5% da distribuição
de ( ) ou ( ).
Alguns procedimentos de bootstrap levam a estimativas

consistentes e inferência válida assintoticamente, supondo apenas
as Hipóteses 5.1 a 5.4 válidas.
8.2 TESTES PARA DETECÇÃO DE HETEROCEDASTICIDADE E
AUTOCORRELAÇÃO
Um dos testes existentes para detectar o problema de
heterocedasticidade é o teste Breusch-Pagan.9 Veremos a intuição
e implementação deste teste. Suponha que, para o modelo a seguir,
valham as Hipóteses 5.1 a 5.4:
Para investigar se há heterocedasticidade na amostra, podemos

testar as seguintes hipóteses:
Sob H0, temos que Var [u] = σ2 = E [u2] e E [u2|x] = σ2, ou, em
outras palavras, u2 não se relaciona com x (ou com funções de x).
Dessa forma, todas as variáveis explicativas do seguinte modelo
deveriam ser irrelevantes sob H0 (δ1 = 0, …, δK = 0):
Como desconhecemos u, usaremos os resíduos da primeira

regressão estimada por MQO (podemos usar os resíduos, pois os
estimadores de MQO continuam não viesados, logo temos bons
resíduos) de modo que
O modelo anterior possui propriedades estatísticas para
realizarmos um teste F conjunto para as seguintes hipóteses:
Assim, a estatística do teste é
Uma variação desse teste, o teste de White,10 considera os

termos cruzados e polinomiais de x na regressão auxiliar dos
resíduos. O Quadro 8.2 mostra o exemplo da aplicação deste teste
usando os dados de preços de veículos da Fipe.
QUADRO 8.2
Teste de detecção de heterocedasticidade
Vamos realizar o teste Breusch-Pagan para verificar a existência de
heterocedasticidade do modelo estimado para entender a
valorização das características dos veículos no Brasil. Assim,
partindo da estimação por MQO realizada no Quadro 8.1, salvamos
os resíduos de MQO e estimamos a equação dos resíduos ao
quadrado contra as variáveis explicativas do modelo. Os resultados
desta estimação podem ser visualizados a seguir:
A estatística F4,221 da regressão é igual a 10,33 e é maior que o

valor crítico a 5%. Logo, concluímos que há heterocedasticidade no
modelo.

Para testar autocorrelação dos erros, um dos testes existentes é o
teste de Durbin-Watson.11 A ideia desse teste é usar os resíduos do
modelo estimado por MQO para verificar a relação entre eles na
amostra. Os autores aplicaram o teste para modelos de regressão e
encontraram os valores críticos da distribuição do teste d com base
em erros autocorrelacionados (valor crítico inferior: dL; valor crítico
superior: dS) . As hipóteses do teste e a sua estatística são:
Note que a estatística do teste pode ser escrita por 2 (1 – r) , em

que r é o estimador da autocorrelação (ou seja, a autocorrelação
amostral), ρ. Note que d assume valores no intervalo [0,4]. Se d for
menor que dL, ou maior que dS, temos evidências estatísticas para
dizer que há autocorrelação.12 Os valores críticos do teste estão nos
trabalhos originais dos autores.13
8.3 ESTIMADORES ALTERNATIVOS AO MQO
Podemos, ao invés de apenas corrigir o estimador da variância para
, propor um estimador alternativo ao de MQO que reestabeleça as
Hipóteses de Gauss-Markov. Esse estimador é conhecido por
Mínimos Quadrados Generalizados (MQG), ou em inglês GLS
(Generalized Least Squares). O estimador MQG é mais eficiente
que MQO quando a forma da heterocedasticidade é corretamente
especificada.
Para ilustrar o mecanismo do novo estimador, suponha o
seguinte modelo:
Neste modelo, a função h ( X) determina a forma funcional da

heterocedasticidade. Se temos uma amostra aleatória, escrevemos
para todo i da amostra
Podemos transformar os erros do modelo dividindo os mesmos

. Vejamos como ficaria a variância deste novo termo:
Note que a variância do termo transformado é igual a

uma constante para todo i. Portanto, para eliminar o termo hi de
heterocedasticidade do modelo, basta dividirmos o modelo original
por .
Fica claro, então, que
A estimação por MQO do modelo transformado (*) produz os

estimadores que chamamos de MQG (GLS). Ou seja
Note que o estimador MQO é o caso especial do MQG em que hi

= 1 ∀i.
Desta forma, obtemos um novo modelo que é linear nos
parâmetros, é homocedástico e temos . Assim, se a
equação original satisfizer as Hipóteses 5.1 a 5.4 e soubermos que
Var [ui|X] = h (xi), o modelo transformado estimado por MQO
satisfará as hipóteses de Gauss-Markov.
Os estimadores por MQG serão diferentes dos estimados por
MQO no modelo original. No entanto, a interpretação do MQG é a
mesma. A leitura dos erros-padrão também é igual e ainda valem os
testes de hipóteses t ou F anteriores, mas MQG é mais eficiente que
MQO. O R2 perde a interpretação usual, mas pode ser usado para
construir o teste F.
QUADRO 8.3
Correção da heterocedasticidade de dados agregados
Suponha que temos o seguinte modelo populacional para indivíduos
i (cujas hipóteses de Gauss Markov sejam válidas)
yi = β0 + β1 x1i + ...+ βk xki +ui
No entanto, apenas observamos dados agregados das cidades j, em

que os indivíduos da população residem:
yj = β0 + β1 x1j + ...+ βk xkj +uj
Neste caso, cada unidade de observação j pode ser interpretada

como um indivíduo representativo daquela cidade. Assim, se no
modelo para o indivíduo as Hipóteses 5.1 a 5.5 são válidas, no
modelo agregado para cidade, teremos erros heterocedásticos. Isto
porque quando temos dados agregados é como se observássemos
médias amostrais de cada local (por exemplo, para a cidade j, temos
em que nj é o número de observações na região j).
Sabemos que as médias amostrais são boas previsoras das
variáveis individuais, mas elas fazem com que se perca a
variabilidade dos dados individuais. A variância da média amostral,
se temos homocedasticidade para os dados individuais, V (ui|xi) =
σ2 ∀ i, será . Assim, os dados agregados por região serão
heterocedásticos e a natureza da heterocedasticidade dependerá do
tamanho da população de cada região o (pesoj = 1/nj).

Utilizamos o estimador MQG quando conhecemos a função que
define o padrão da heterocedasticidade, ou seja, quando
conhecemos a natureza da heterocedasticidade (como nos casos de
amostra de dados agregados, ou amostragem complexas). Outro
caso que podemos verificar na prática é a existência da
heterocedasticidade, mas sem que se conheça perfeitamente o
formato da mesma. Nestes casos, podemos recorrer aos
estimadores de Mínimos Quadrados Generalizado Factíveis
(MQGF). O método consiste em obter estimativas para hi para
depois transformar o modelo e tornar os erros do modelo
transformado em homocedásticos.
Isso porque podemos estimar a relação entre a variância dos
erros e as variáveis explicativas do modelo impondo uma forma
funcional positiva para modelar a variância. Ou seja, para o modelo
Podemos escrever a forma funcional da variância dos erros

variando com as covariadas do modelo (se valem as Hipóteses 5.1
a 5.4)
Como estamos modelando E [u2|x1, …, xK], podemos supor um

termo de erro v tal que E [ln (v)|x1, …, xK] = 0. Assim,
Log-linearizando o modelo anterior, temos
em que
Assumindo que ln(u2) satisfaz as quatro primeiras hipóteses de
Gauss-Markov, δj pode ser estimado por MQO. Assim podemos
estimar a função , para, posteriormente, criarmos os
pesos .
O Estimador MQGF não tem propriedades tão boas quanto as do
MQG, mas é um estimador consistente e assintoticamente mais
eficiente que o MQO.14
É preciso atenção para que os mesmos pesos sejam dados para
as regressões nos modelos restrito e irrestrito (para fazer um teste
conjunto, F). MQO e MQGF geram estimadores diferentes por conta
de erros amostrais. Se os estimadores foram muito diferentes, pode
haver problema de especificação do modelo principal.
E se ou hi estiverem erradas? De imediato, temos que Var
[y|x1, …, xk] ≠ σ2 h(X). Se E [u|x1, …, xk] = 0 ainda for válida,
sabemos que qualquer função de x também é não correlacionado
com u. Isso implica que continua consistente. No entanto, os
erros-padrão continuarão errados, o que implica que os testes são
invalidados.
Exemplo de estimador MQGF: Modelo de Variável Dependente Binária

(MPL)
Vimos que, quando estimamos o Modelo de Probabilidade Linear,
feríamos a Hipótese 5.5, pois o modelo
Implicava
Desta forma, podemos estimar hi como

É importante perceber que yi pode ser negativo ou maior que 1.
Se isso ocorrer, não podemos estimar β por MQGF (já que haveria
alguma observação para a qual < 0). Neste caso, poderíamos
manter a estimação por MQO e recalcular a variância robusta deste
estimador.

Seja um modelo de regressão linear simples em que valha a
seguinte relação entre y e x:
Suponha que haja uma relação entre os choques (termo de erro)

das regiões i e j (que são vizinhas). Para exemplificar, imagine que
estamos analisando as vendas de sorvetes na praia (y), em que os
sorveteiros estejam espalhados linearmente ao longo da praia.
Choques que ocorram na região j da praia (uj: o carrinho de sorvete
da região j tombou e os sorvetes estragaram), vão afetar os
sorveteiros vizinhos i. Assim, vamos supor:
Se estimarmos β1 por MQO, obteremos um estimador não

viesado (pois ainda valem as quatro primeiras hipóteses do modelo
de regressão simples), mas ele não será o estimador mais eficiente,
pois
Para corrigir o problema da variância, vamos transformar o
modelo, de forma análoga ao que fizemos usando a hi na presença
de heterocedasticidade. Agora, para fazer essa correção, usamos a
ideia da diferenciação temporal, mas agora entre as observações i e
j. Na cross-section, fazemos:
Essa técnica é conhecida como Transformação de Prais-Wintsen

ou Processo de Cochrane-Orcutt.15 Usamos as variáveis
transformadas para resgatar a hipótese de inexistência de
autocorrelação entre os erros
Os estimadores do modelo transformado anteriormente por MQO

também são chamados de estimadores MQG. Note que é preciso
conhecer como se dá a autocorrelação entre as variáveis (ρ).
Quando desconhecemos essa relação, podemos estimá-la usando
os resíduos da regressão principal (estimada por MQO):
Usando , fazemos a transformação de Cochrane-Orcutt
A estimação do modelo transformado por MQO, gera os

estimadores MQGF. Assim como no caso de heterocedasticidade,
as boas propriedades destes estimadores serão assintóticas
(consistência e eficiência).
Agora, vamos generalizar os estimadores encontrados para
correção de heterocedasticidade e autocorrelação usando álgebra
matricial. Suponhamos o modelo linear
Sabemos que MQO é não viesado sob as Hipóteses 5.1 a 5.4,

mas a variância é incorreta. Se a matriz Σ é positiva semidefinida e
simétrica, podemos escrever Σ = CDC' e decompor:16
Pré-multiplicamos o modelo por P, para obtermos o modelo

transformado:
Em que U* é homocedástico
Logo, a estimação por MQO do modelo transformado gera os

estimadores de MQG:
MQG difere do MQO porque este usa Σ–1 = IN. Além disso, MQG
é não viesado e mais eficiente que MQO, já que Var [ GLS] = σ2 ( X*'
X*)–1 é menor do que a variância do estimador de MQO quando a
hipótese 5.5 não é válida. Por conta disso, podemos fazer testes
sobre os parâmetros do modelo usando o novo estimador.
É importante notar que esta forma geral por matrizes permite que
façamos a correção tanto do problema de heterocedasticidade
quanto da autocorrelação dos erros.
8.4 EXERCÍCIOS
1. Você acha possível haver erros heterocedásticos nos casos a

seguir? Justifique intuitivamente.
(i) Regressão de erros de digitação contra horas de prática de
digitação.
(ii) Regressão de despesas contra rendimentos.
(iii) Regressão de gastos do governo estadual contra tamanho
da população do estado.
2. Sobre a autocorrelação dos erros do modelo:

a) Defina formalmente. Discuta razões para a presença de
autocorrelação nos erros em casos empíricos.
b) De modo geral, autocorrelação afeta viés/consistência? Há
exceções? Os estimadores de Gauss-Markov continuam
BLUE?
3. Considere o seguinte modelo de regressão simples:
Suponha que esse modelo satisfaça todas as hipóteses de

Gauss-Markov, exceto a de homocedasticidade do termo de
erro. Sejam os estimadores de mínimos quadrados
ordinários deste modelo. Suponha que
Em que σ2 é uma constante e os números ki recebem o nome

de pesos. Mostre que
Interprete esse resultado, comparando-o com o caso
homocedástico.
4. Considere o modelo de regressão linear sem intercepto
Em que
Mostre que
5. Considere o modelo dado pelas equações
Em que os vi são termos de erro independentes e

identicamente distribuídos.
a) Mostre que o modelo de regressão dado pela primeira
equação possui termo de erro com média condicional nula
e variância eventualmente heterocedástica, dependendo
dos valores dos parâmetros.
b) Qual condição deve ser imposta sob os parâmetros para
que o modelo da primeira equação seja homocedástico?
6. Considere o modelo na forma Y = Xβ + u
a) Seja o estimador de MQO. Em formato matricial, sob
heterocedasticidade, mostre que Var ( |X) = ( X'X)–1 X' E (
uu') X ( X'X)–1. Explique o que é E (uu’). Como deve ser E
(uu’) para que os erros sejam heterocedásticos?
b) Considerando as seguintes observações, calcule Var ( |X).
c) Analisando E(uu’), além da heterocedasticidade, o que

mais podemos dizer sobre os erros?
7. Considere o seguinte modelo: Y = Xβ + u , com E(u|x) = 0.

Sabe-se que Var(u|X) = σ2Ω, em que
a) O que podemos afirmar sobre os erros do modelo? Qual

método você usaria para estimar β de forma mais
eficiente? Justifique.
b) Mostre como chegar ao estimador do método que você
considera correto a partir do estimador de MQO na forma
matricial. Encontre .
c) Encontre a forma matricial para calcular Var ( |X) a partir do
item (b). Calcule Var ( |X).
8. Os dados do arquivo aluguel-rio.xls contêm dados municipais

da média dos aluguéis, média do rendimento domiciliar per
capita e população do último Censo (realizado em 2010) para
todos os municípios do estado do Rio de Janeiro. Responda os
itens a seguir.
Estime a regressão do aluguel médio contra a média do
a) rendimento domiciliar per capita e população. Estime em
seguida a mesma regressão com todas as variáveis na
forma logarítmica. Há grandes diferenças entre os dois
modelos quanto ao sinal e significância das variáveis?
b) Refaça as regressões do item (a) com os erros robustos à
heterocedasticidade. Houve muita mudança entre os
modelos com e sem erro-padrão robusto?
c) Calcule o teste de Breusch-Pagan usando as regressões
apresentadas no capítulo. Compare os resultados. Há
evidências de heterocedasticidade?
d) Calcule o teste de White usando as regressões para os
dois modelos e seguindo os seguintes passos:
(i) Faça a regressão do item (a), guarde o valor predito de y e
y ao quadrado, e do resíduo ao quadrado.
(ii) Faça a regressão do resíduo ao quadrado contra os
valores preditos de y e y ao quadrado.
(iii) Verifique a estatísitica F do modelo para as conclusões.
Compare-os . Há evidências de heterocedasticidade?
e) Compare os resultados dos dois testes. Os resultados
mudam ao usar o modelo na forma logarítimica?
9. Os dados do arquivo pnscigs.xls contêm dados sobre o hábito

de fumar dos brasileiros maiores de 18 anos. Seja fuma uma
variável dummy que assume valor 1 se o indivíduo fuma:
a) Estime a probabilidade de um indivíduo fumar a partir de
sua idade, e das variáveis dummy para gênero, etnia e
alfabetização. Obtenha também a regressão com os erros
robustos à heterocedasticidade. Compare-os.
b) Obtenha o valor predito da probabilidade para o modelo
com os erros-padrão usuais e cheque se há probabilidades
maiores que 1 e menores que 0. Se houver, corrija da
seguinte forma: = 0,001 se ≤ 0 e = 0,999 se >1.
c) Estime Var (yi|X) e, em seguida, estime o modelo por
Mínimos Quadrados Generalizados Factíveis.
d) Os resultados de MQO e MQGF deram muito diferentes?
10. (Anpec 2007) Julgue as afirmativas:

(1) Heterocedasticidade ocorre quando o erro aleatório em um
modelo de regressão é correlacionado com uma das
variáveis explicativas.
(2) Quando o erro aleatório em um modelo de regressão é
correlacionado com alguma variável explicativa, os
estimadores de Mínimos Quadrados Ordinários não são
consistentes.
(3) Na presença de heterocedasticidade, estimadores de
Mínimos Quadrados Ordinários são ineficientes.
(4) Os testes t e F usuais não são válidos na presença de
heterocedasticidade.
(5) Na presença de heterocedasticidade, estimadores de
Mínimos Quadrados Ordinários são não viesados, mas são
inconsistentes.
11. (Anpec 2011) Considere a regressão
em que y, X e ε são vetores de dimensão nx1 e β é um

escalar. Adicionalmente, suponha que 𝔼 ( ε|X) = 0 e que
Compute a variância, condicional a X, do estimador de
Mínimos Quadrados Ordinários de β.
12. (Anpec 2010) Considere a regressão y = Xβ + ε. Suponha que

tenhamos uma amostra de tamanho 4 e que:
Compute a estimativa de β.
1 Ver White (1980).

2 A forma generalizada (usando o teorema de FWL) do estimador da
variância de seria: . Nesta expressão, é o SQR da

regressão de xj contra as outras variáveis independentes.
3 Lembre-se que, para duas variáveis aleatórias A e B: Var (A ± B) = Var
(A) + Var (B) ± 2.Cov (A, B).
4 Este estimador foi desenvolvido por Newey e West (1987).
5 Esse procedimento foi proposto pela primeira vez por Efron (1987).
6 Veja mais detalhes sobre o uso do método de bootstrap em economia em
MacKinnon (2006).
7 Há diversas variações desse procedimento, a depender das hipóteses do
modelo assumidas. Ver Mackinnon (2006) para mais detalhes.
8 Há vários tipos de procedimento bootstrap para estimar os betas. Por
exemplo, é possível reamostrar os resíduos (clássico), ou reamostrar as
realizações da amostra (pairwise).
9 Ver Bresch e Pagan (1979).
10 "Ver White (1980).
11 Ver Durbin e Watson (1950; 1951).
12 Note que há uma região do teste que é inconclusiva.

13 Ver Durbin e Watson (1950; 1951).
14 Na presença de heterocedasticidade, outra forma de se obter é regredir
ln (u2) sobre e 2. Isso não é recomendável porque podemos fazer teste

de heterocedasticidade usando essa função também, porém as hipóteses
nulas são mais restritivas (u e x devem ser independentes).
15 Ver Cochrane e Orcutt (1949) e Prais e Winsten (1954).
16 Veja mais detalhes sobre a demonstração de matrizes em Gentle (1998).

9
ENDOGENEIDADE E VARIÁVEIS
INSTRUMENTAIS
O viés no estimador de Mínimos Quadrados Ordinários, o que

chamamos também de endogeneidade da variável explicativa sobre
a qual medimos o efeito sobre y, pode ter várias naturezas. Entre as
principais razões para a invalidez da Hipótese 5.4, destacamos:
1. Problemas de especificação: A forma funcional da relação
entre y e x está errada. Assim, partes não explicadas de y são
relacionadas a funções de x.
2. Omissão de variáveis relevantes correlacionadas com as
demais variáveis explicativas incluídas no modelo: Quando
isso ocorre, a variável omitida é incorporada ao erro do modelo
estimado, que por sua vez será correlacionado com as demais
explicativas.
3. Erro de medida da variável explicativa: Quando alguma
variável explicativa for medida com um erro não aleatório, ou
seja, correlacionado com covariadas.
4. Problema de simultaneidade: Quando o sentido da
causalidade entre y e x não é claro, dizemos que há
simultaneidade na determinação das variáveis. Nestes casos,
a variável x também será endogenamente determinada e,
portanto, isso levará a viés quando MQO é usado para estimar
o efeito de x em y.
Recentemente, tem-se discutido o problema de endogeneidade

com uma motivação de heterogeneidade não observada. O exemplo
clássico é na avaliação do impacto de políticas, programas, ou
qualquer outra intervenção. Quando a participação no programa, por
exemplo, é escolhida pelo participante (ou por um gestor), não
estamos pensando no problema como uma simultaneidade entre as
variáveis de resposta (y) e a participação na política (x), mas sim
que a variável x faz parte de uma escolha dos indivíduos e parte dos
motivos dessa escolha (não observados pelo pesquisador) também
influenciam y (ou seja, estão dentro dos demais fatores que
explicam y e não estão considerados no modelo). Esse problema
pode ser visto como um problema de variável omitida, uma vez que
esses fatores podem ser não observados.
Em séries de tempo, pode haver endogeneidade quando
utilizamos defasagens da própria variável dependente (yt–1, por
exemplo) como variável explicativa no modelo. Não entraremos
nessa discussão neste livro.
9.1 OMISSÃO DE VARIÁVEIS RELEVANTES
Vimos que ao omitir uma variável importante do modelo podemos
ter viés nos estimadores de MQO dos demais parâmetros do
modelo apenas se a variável excluída for correlacionada com as
demais variáveis explicativas do modelo. Esse caso ocorre quando
não observamos a variável importante, como, por exemplo, a
variável habilidade no modelo de retorno da educação sobre
salários, ou quando o modelo está mal especificado (esquecemos
de incluir a renda na equação da demanda, por exemplo).
De forma geral, suponha o seguinte modelo verdadeiro que
satisfaz as Hipóteses 5.1 a 5.4:
Neste modelo, estamos interessados no efeito de x1 em y (ou

seja, β1), mas suponha que não observamos x2. Assim, o modelo
estimado por MQO é uma regressão simples
Para verificar se o é não viesado, tiramos a esperança

condicional do estimador após a substituição de yi pelo modelo
verdadeiro:
Note que é viesado se houver correlação entre a variável

explicativa de interesse x1 e a variável explicativa não observada x2.
Neste caso, veremos duas possíveis soluções para corrigir o
problema do viés do estimador de MQO:
(i) encontrar uma variável que se aproxime à variável não
observada e incluí-la no modelo (essa variável é chamada de
variável proxy); ou
(ii) encontrar uma variável que elimine a correlação da
covariada com a variável omitida (essa variável é chamada de
variável instrumental).
Estas soluções são bastante diferentes. Veremos como

trataremos o problema de endogeneidade gerado pela variável
omitida utilizando ambas as soluções.

Variáveis proxy são variáveis que observamos em nossa amostra e
que se aproximam da variável não observada importante para o
modelo. Seja o modelo que vimos com duas variáveis explicativas,
sendo que x2 é a variável não observada:
Podemos propor uma variável proxy ( ), correlacionada à

variável omitida não observada (x2), mas que a mede com um erro
(de forma não perfeita).
Podemos, então, substituir x2 por . Como as variáveis não são

iguais, devemos verificar o que acontece com os parâmetros do
modelo de β1 e β2 na presença da variável proxy. Substituindo x2 do
modelo pela expressão com , temos
Analisando a esperança condicional de v, temos
Assim, caso as condições E [ε|x1, x2] = 0 e E [u|x1, x2] = 0 se

verifiquem, teremos bons estimadores para β1. Em outras palavras,
será uma boa proxy para x2 quando u for independente (ou não
correlacionado) de x1, x2, e quando ε for independente (ou não
correlacionado) de x1 e x2. A ideia por trás do uso da proxy é que x2
torna-se irrelevante quando x1 e são incluídos no modelo.
Note que se a variável proxy for também correlacionada com as
demais variáveis (no caso, apenas x1), podemos ter um estimador
viesado para β1.
QUADRO 9.1
Medida de habilidade para regressão de salários
O trabalho de Neves Junior et al. (2017) investiga a relação entre
capital humano dos indivíduos e os seus salários para o Brasil. A
literatura indica que quanto maior a qualificação do trabalhador,
maiores serão os salários pagos. Entretanto, ainda persistem
lacunas no que diz respeito à presença de heterogeneidades
referentes às diferenças de magnitude do prêmio salarial para
trabalhadores com diferentes perfis de capital humano.
A literatura econômica aponta outros aspectos que são
potencialmente relacionados com essa heterogeneidade, como por
exemplo, as habilidades individuais. Recentemente, alguns estudos
têm utilizado a ocupação do trabalhador como proxy para o nível de
habilidades, focando mais nas atividades que o indivíduo
desempenha do que o que ele estuda.1 Com esse arcabouço, fica
evidente que educação e habilidades não são sinônimos, e que o
uso de novas métricas pode lançar insights importantes sobre o
problema.
É possível compreender a educação como parte de um processo que

determina um conjunto multidimensional de habilidades do indivíduo.
Dessa forma, analisar a importância do capital humano através de uma
perspectiva baseada das habilidades possibilita identificar diferenças
que não são capturadas pelo nível educacional.
Os dados utilizados para analisar a relação entre prêmio salarial e
habilidades são provenientes da Relação Anual de Informações Sociais
(RAIS) e da base desenvolvida por Maciente (2013). Os dados de
Maciente (2013), que derivam do Occupational Information Network
(ONET), US Department of Labor, consistem em um levantamento
ocupacional que identifica a intensidade, para cada ocupação, de um
conjunto mais amplo de habilidades e competências técnicas e
cognitivas. Neves Junior et al. (2017) calcularam para cada trabalhador
a intensidade das habilidades cognitivas, sociais e motoras envolvidas
em sua atividade.1
Com base nos dados desse estudo, estimamos o seguinte modelo:
ln (sal ) = β0 + β1 educ2 + β2 educ3 + λ1 habmot + λ2 habcog + λ3 habsoc + u
Em que: ln (sal ) representa o logaritmo do salário-hora; educ2 e educ3

são variáveis dummy para o grau de instrução formal do trabalhador,
Ensino Médio e Ensino Superior, respectivamente; e habmot, habcog e
habsoc representam as medidas de habilidade dos trabalhadores,
calculadas por Neves Junior et al. (2017).
Os estimadores de MQO, , são potencialmente viesados quando
omitimos as variáveis de habilidade, caso acreditamos que há relação
entre anos de educação e as medidas de habilidade dos indivíduos. Os
resultados comparados do modelo com as variáveis omitidas e com a
inclusão de variáveis proxy são:
Note que os estimadores de MQO para as variáveis dummy de

educação diminuem quando incluímos as variáveis proxy para
habilidade, reduzindo o viés positivo que a omissão dessa variável gera
no estimador. As variáveis de habilidade também apresentam
estimadores positivos, conforme esperado, exceto para a habilidade
social. Neste caso, não temos motivos para acreditar que a variável
proxy meça a variável verdadeira com um erro que seja sistemático.

simples
No problema de variável omitida podemos, ao invés de procurar
uma variável substituta àquela omitida (proxy), encontrar uma
variável que elimine a correlação da covariada de interesse com a
variável omitida. Essa nova variável é chamada de variável
instrumental, ou instrumento. Para entendermos o uso de variáveis
instrumentais, suponha o modelo verdadeiro com duas variáveis
explicativas:
Novamente, considere que não observamos x2. Neste caso, se

estamos interessados no efeito de x1 em y e x1 é correlacionado
com a variável não observada x2, dizemos que x1 é endógeno na
seguinte regressão:
Isto porque Cov (x1, u) ≠ 0. Uma boa variável instrumental, a

qual identificaremos por z, deve satisfazer as seguintes condições:
Se essas condições são aceitas, dizemos que z é variável

instrumental de x1 (z é exógeno para y). Note que z não tem efeito
sobre y, apenas sobre x1, mas a correlação de z com x1 faz com
que a relação de x1 com os outros fatores não observados que
afetam y seja eliminada.
Não é possível testarmos a condição (1), por desconhecermos u,
mas a condição (2) pode ser verificada pela regressão de x1 contra
z (chamamos de condição de identificação).
Se a H0: θ1 = 0 for rejeitada, dizemos que há relação entre as

variáveis. Quanto mais correlacionada for z com x1, mais forte o
instrumento. Nesse sentido, Stock e Yogo propuseram um teste para
verificar se o instrumento é forte ou fraco com base no valor da
estatística t ou F sobre a significância da variável instrumental para
explicar a variável explicativa instrumentada (Stock e Watson, 2003).
A ideia do estimador de variáveis instrumentais (VI) vem da
transformação do modelo a partir das correlações do modelo com a
variável z. Seja o modelo:
Aplicando a covariância de todos os termos do modelo com a

variável instrumental z, e considerando as condições (1) e (2) como
válidas, teremos:
Assim, o parâmetro verdadeiro pode ser escrito em termos das

covariâncias populacionais:
Se aplicarmos a lógica do estimador pelo Método dos Momentos,
usamos as covariâncias amostrais (contrapartidas amostrais) para
estimar o parâmetro populacional anterior. Assim, temos os
seguintes estimadores de Variáveis Instrumentais:
Note que, no nosso exemplo, se z = x1, o estimador de VI é

equivalente ao estimador de regressão simples por MQO.
Até o momento, assumimos quatro hipóteses para o modelo de
variáveis instrumentais:
(1) Linearidade do modelo nos parâmetros: y = β0 + β1 x1 + u;
(2) Obtenção de uma amostra aleatória: {(x1i, zi, yi), ∀ i = 1, …
,};
(3) Existência de correlação entre a variável instrumental (z) e
a variável explicativa endógena (x1): Cov (x1, z) ≠ 0; e
(4) Inexistência de correlação entre a variável instrumental e
os demais fatores não observados do modelo: Cov (u, z) = 0
(ou na versão de independência mais forte entre as variáveis:
E(u | z, x1) = 0).
Agora, para realizarmos testes de hipóteses usando esse

estimador, precisamos adicionar mais uma condição sobre a
homocedasticidade dos erros, condicionais à variável instrumental:
Ou seja, a variância dos erros, condicional à variável exógena

(independente de u), é constante. Assim, conseguimos derivar a
variância do estimado de VI para a regressão simples:
Pela fórmula da variância por regressão simples, podemos

observar que se a correlação entre x1 e z for baixa (indicação de
instrumento fraco), a variância do estimador de Variáveis
Instrumentais será muito alta. Além da variância alta, a baixa Cov
(x1, z) pode causar viés assintótico:
Mesmo se Corr (z, u) for próxima a zero, se Corr (z, x1) for muito
pequena também, podemos ter ter um viés assintótico
(inconsistência) grande. Já o viés assintótico do estimador de MQO
pode ser escrito por:
Comparando os dois estimadores, temos que o estimador de VI

é preferível ao de MQO quando:
Note que não podemos usar o R2 da regressão de variáveis

instrumentais, pois SQT ≠ SQE + SQR (isto porque Cov ( , y) ≠ 0).
Idealmente, computa-se o R2 a partir do quadrado da correlação
entre o e y.2
múltipla
Suponha que a equação que se deseja estimar seja uma regressão
múltipla sendo que existem razões para se acreditar que uma das
variáveis explicativas seja correlacionada com o erro
(continuaremos chamando essa variável de x1) por omissão de
outra variável relevante (por exemplo, x2) correlacionada com x1
(motivo que estudamos até o momento):
Essa equação, que chamamos de equação estrutural, possui

uma variável endógena (x1) e uma variável exógena (z1).
Poderíamos considerar, também, um vetor z de variáveis exógenas,
sem prejuízo da análise. Note que E [u] = 0, pois a equação
estrutural tem intercepto, e que u é correlacionado com x1. Assim,
observaremos MQO viesados e inconsistentes.
Suponha agora que exista uma terceira variável, z2, não
correlacionada com u, mas fortemente correlacionada com x1. Neste
caso, podemos usá-la como instrumento para a variável x1. Isso
porque ela não explica diretamente y (por isso é não correlacionada
com u e, portanto, exógena para y), mas indiretamente por meio de
sua correlação com x1. No diagrama de Venn, a relação ficaria:
FIGURA 9.1
Representação da variação entre y, x1 e z2.
Neste caso, temos que z1 e z2 são não correlacionadas com u.

Podemos, então, estimar os betas a partir do método dos
momentos:
As contrapartidas amostrais dos momentos anteriores, supondo

a existência de uma amostra aleatória {(x1i, z1i, z2i, yi ); ∀ i = 1, … ,
n}:
Podemos resolver esse sistema definindo-o matricialmente.
Usando
Note que a matriz Z inclui todas as variáveis exógenas do

modelo (exógena da equação estrutural, z1, e a variável
instrumental, z2). Podemos redefinir as equações de momento
amostral da seguinte forma:
E, portanto, resolver para o estimador
Em que
Como det ( Z' X) ≠ 0 e Z' U = 0, temos a existência do estimador

de variáveis instrumentais.
Mais ainda, temos que o estimador de Variáveis Instrumentais é
consistente para o parâmetro verdadeiro (o estimador tem boas
propriedades para grandes amostras).
Lembre-se de que é importante verificar se (Corr(z2, x1) ≠ 0).

Podemos testar essa condição utilizando a seguinte equação
reduzida
Ou em termos matriciais (sendo X1 o vetor nX1 de observações
de x1).
A condição de identificação pode ser testada por meio de π2 (π2

≠ 0). Ou seja, mesmo eliminando o efeito de z1, x1 e z2 são
correlacionadas. Caso contrário, a condição de momento não terá
solução e não podemos usar o estimador de variáveis instrumentais.

A observação de mais de uma variável instrumental (z2 e z3) para
uma variável endógena (x1) melhora a eficiência do estimador de
variáveis instrumentais. Neste caso, podemos definir as equações
do modelo da seguinte forma:
Equação Estrutural
Equação Reduzida
Note que z2 e z3 não aparecem na equação estrutural, o que

chamamos de “restrições de exclusão”. Como z1, z2 e z3 são não
correlacionados com u, qualquer combinação linear delas também
não será. Assim, a melhor combinação é dada pela equação
reduzida supondo:
Assim, será a melhor variável instrumental para x1
A condição de identificação será dada por π2 ≠ 0, ou π3 ≠ 0.

Podemos, portanto, realizar um teste F conjunto sobre a
significância dos dois parâmetros. A ideia é, então, considerar a
parte de x1 que é não correlacionada com u para estimar β1, usando
ao invés de x1, e estimar a nova equação por MQO. Resumindo
os estágios da análise, temos:
As equações de momento amostral para a análise em dois

estágios seriam:
Em termos matriciais,
em que
É importante evitar fazer esse procedimento manualmente, pois
o erro-padrão do estimador no segundo estágio não será calculado
corretamente, o que inviabiliza a realização de testes de hipóteses.
Isso porque o resíduo da regressão correto deve ser calculado
sobre x1, e não sobre 1 (ou seja, o resídio correto é:
).
Note que o estimador de variáveis instrumentais é equivalente ao
estimador de mínimos quadrados de dois estágios quando temos
apenas uma variável instrumental para cada variável endógena. O
MQ2E é consistente e tem distribuição normal assintótica. Para
demonstrar a consistência desse estimador, precisamos assumir as

seguintes hipóteses:
1. Corr (zj, u1) = 0,∀ j = 1, ⋯, K;
2. Pelo menos uma variável exógena z é excluída da equação
estrutural e parcialmente correlacionada com x1;
Para realizar testes assintóticos, devemos incluir a seguinte

hipótese:
3. Var (u| z) = σ2 (ou, em termos matriciais: Var ( U│Z) = σ2 I).
Sob essas hipóteses, podemos derivar a variância assintótica do

estimador de MQ2E usando matrizes e, também, a formulação por
FWL.
ou
Em que: σ2 = Var (u| z), e da regressão de 1
sobre as variáveis z incluídas na equação estrutural (todas as
exógenas, menos as variáveis instrumentais).
Observando a variância do estimador de MQ2E por FWL, temos
duas principais razões para ser maior que a :
1. : 1 tem menos variação que x1
2. Na regressão de 1 contra z1 a zK – 1 o R2 é maior do que o da
regressão de contra x1 a z1 a zK – 1;
Como Var ( MQ2E) > Var ( MQO), vale verificar a necessidade de

se usar o estimador MQ2E. Um teste bastante utilizado para
testarmos entre os métodos de MQO e MQ2E é o teste de
Hausman.

O Teste de Hausman3 propõe a comparação estatística entre os
resultados de MQO e MQ2E basicamente entre os estimadores e
suas variâncias. Para tal, é importante considerarmos o mesmo
modelo (mesmo vetor de β’s) para estimá-lo por ambos os métodos.
Suponha o modelo em que há suspeita que x1 seja uma variável
endógena
Podemos testar as seguintes hipóteses:

Note que o estimador de MQ2E é consistente para o parâmetro
verdadeiro em ambas as hipóteses e que o estimador de MQO é
apenas consistente sob H0. No entanto, vimos que a variância do
estimador de MQ2E é maior que a variância do estimador de MQO,
logo sob H0 o estimador de MQO é mais eficiente que o estimador
de MQ2E.
A estatística do teste de Hausman pode ser assim descrita:
em que V (.) é a variância assintótica dos estimadores e K

representa o número de variáveis explicativas na equação
estrutural. Se H0 for rejeitada, MQ2E é consistente e MQO é
inconsistente. Neste caso, como o estimador de MQ2E é
assintoticamente eficiente, esse deve ser o estimador usado na
estimação por apresentar propriedades desejáveis

Podemos verificar, também, a exogeneidade dos instrumentos
quando temos mais de uma variável instrumental por variável
endógena. Esse teste é chamado de teste de sobreidentificação e a
ideia dele é testar a hipótese de que a variável instrumental
adicional é exógena. Para tal, suponha
Sendo x1 a variável explicativa endógena. Suponha também que

observemos dois instrumentos exógenos: z3 e z4. Em linhas gerais,
o teste propõe que estimemos a equação estrutural por MQ2E ou VI
apenas usando z3 como instrumento (assumimos que z3 seja
exógena ao modelo) e, a partir dos resultados dessa regressão,
testemos se a Cov (z4, ) = 0. Se houver correlação, z4 é
considerada uma variável instrumental não válida. Podemos repetir
o mesmo procedimento assumindo z4 como exógena e testando a
correlação da equação estrutural estimada por MQ2E com z3. Vale
ressaltar que devemos calcular os resíduos usando o valor
verdadeiro de x1 ou seja:
Para testar a correlação entre a(s) variável(is) instrumental(is) e

os resíduos, podemos regredir i sobre todas as exógenas
instrumentais e computar o R*2 dessa regressão. É possível mostrar
que a seguinte estatística de teste (a qual é chamada de estatística
LM4) converge para uma distribuição chi-quadrada:
Em que m denota a diferença entre o número de variáveis

instrumentais excluídas do modelo estimado inicialmente e o
número de variáveis instrumentais endógenas. Este teste é
conhecido como “Teste de Sargan”.5
QUADRO 9.2
Efeito da poluição do ar sobre internações por doenças
respiratórias em São Paulo
Há evidências na literatura de que a poluição do ar impacta a saúde,
principalmente de indivíduos mais vulneráveis (por exemplo,
crianças e idosos). No entanto, a endogeneidade da exposição à
poluição surge como um problema para mensurar seus efeitos na
saúde. Isso porque os indivíduos tomam decisões para contornar os
efeitos nocivos da poluição com o objetivo de maximizar bem-estar.7
Nesse contexto, podemos usar uma variável instrumental para a
poluição do ar, de forma a eliminar esta endogeneidade. Uma das
variáveis recomendadas pela literatura é o vento. Isto porque o
vento é a variável meteorológica que mais influencia a distribuição e
transporte dos poluidores no ar (e potencialmente não
correlacionada com outros fatores, que não a poluição do ar, que
influenciam a saúde dos indivíduos).8 Por ser uma variável exógena
e altamente correlacionada com a poluição do ar, o vento pode ser
usado, a princípio, como instrumento para a poluição na estimação
de seus impactos na saúde. A ideia é de que vento mais forte deixa
o ar mais limpo, reduzindo a poluição. Utilizando dados da
Companhia Ambiental do Estado de São Paulo (CETESB) para o
nível de óxidos de nitrogênio (NOx), em partes por bilhão, na Região
Metropolitana de São Paulo, Guidetti e Pereda (2017) estimam a
equação reduzida para verificar se realmente há correlação entre a
medida de vento e a poluição do ar:9
NOxt = β0 + β1 ventot + ut
em que t denota o dia de observação das variáveis. A CETESB

mede, também, a velocidade do vento (em m/s) e a direção do vento
(em graus) usadas para construir a variável de vento. Com os dados
do DATASUS, é possível encontrar os indivíduos internados por
doenças respiratórias bem como seu local de residência. À título de
ilustração do problema, serão usados apenas os dados para a
estação de Capão Redondo (região do distrito de Capão Redondo,
no sudoeste do município de São Paulo) de janeiro a junho de 2013.
Os resultados encontrados para o primeiro estágio foram os
seguintes:
= 41,24 – 8,79 ventot

(2,19) (1,041)
N = 177
Para verificar se o vento é um instrumento relevante, podemos fazer

alguns testes. O teste de instrumento fraco verifica a hipótese nula
de instrumento fracamente correlacionado com a variável endógena.
A estatística calculada (estatística F de significância do parâmetro
de inclinação da equação reduzida) segue uma F1,175, retornou o
valor de 71,4, rejeitando a hipótese nula de instrumento fraco.
Concluímos, assim, que o vento é um instrumento bastante
correlacionado com o nível de NOx.
Investigando os dados mais a fundo, foi encontrado que o vento do
dia anterior também tem influência na poluição de hoje, embora bem
menos que o vento de hoje. Se o incluirmos como instrumento,
temos seguinte resultado para o primeiro estágio:
= 43,48 – 7,97 ventot – 2,01 ventot–1
(2,484) (1,146) (1,15)

N = 175
Por termos dois instrumentos, podemos fazer um teste de
sobreidentificação, isto é, testar a hipótese nula de ortogonalidade
entre o erro e o vetor dos instrumentos. Esse teste é conhecido
como teste de Sargan, que só pode ser realizado em modelos
sobreidentificados por ser impossível testar ortogonalidade entre um
único regressor e o erro (é 0 por construção). Para o modelo
anterior, esse teste retornou um p-valor de 0,41, que é maior que os
níveis de significância comumente utilizados. Assim, não rejeitamos
H0 e concluímos que o modelo está sobreidentificado, ou que os
instrumentos são exógenos.

Um caso prático bastante comum é a existência de diversas
variáveis endógenas na equação estrutural (identificaremos por x as
variáveis endógenas e z as variáveis exógenas):
Para estimarmos a equação estrutural por MQ2E, precisamos de

pelo menos tantas variáveis instrumentais (às quais chamaremos de
variáveis exógenas excluídas da equação estrutural) quantas forem
as variáveis endógenas. Podemos enunciar as hipóteses
necessárias para se atingir um efeito causal da seguinte forma:
Condição de ordem para identificação: Ao menos J variáveis
exógenas excluídas para J variáveis explicativas endógenas da
equação estrutural;
Condição de classificação: πj ≠ 0 na equação reduzida de cada

variável endógena j.
Neste contexto também não podemos usar o R2 do modelo

estrutural, que pode ser negativo, para realizar testes nos modelos
com variáveis instrumentais. Diversos testes estão disponíveis e
implementados nos softwares estatísticos.
9.2 ERRO DE MEDIDA NAS VARIÁVEIS EXPLICATIVAS
Veremos agora outro problema empírico que pode levar à
endogeneidade das variáveis explicativas, o chamado erro de
medida. O erro de medida ocorre quando alguma das variáveis do
modelo, seja variável dependente ou qualquer uma das variáveis
independentes, é medida com erro. A medição com erro pode
acontecer por vários motivos, desde a desatenção do pesquisador
em anotar as respostas (ou em fazer as perguntas) até a não
resposta correta proposital dos respondentes (o que pode ocorrer,
por exemplo quando as pessoas são perguntadas sobre sua renda).
Veremos que é importante entender os motivos pelos quais a
variável foi medida com erro, ou seja, entender o comportamento
desse erro, para analisar as consequências para as propriedades do
estimador de MQO.
Suponha o modelo verdadeiro:
Em que y e x2 são variáveis observadas sem erro, mas x1 é uma

variável com um erro de medição. Seja x3 = x1 + e uma medida para
x1, sendo que e é o erro de medida. Se Corr (x3, e) ≠ 0, teremos
MQO inconsistentes e viesados. Isso porque o erro de medida e é
incorporado ao erro do modelo:
Como vimos nas hipóteses importantes para o não viés dos

estimadores de MQO, se E [ε|x3, x2] ≠ 0, estes estimadores serão
viesados.
Note que se E [u|x1, x2, x3] = 0, mas E [e|x3, x2] ≠ 0,
precisaremos de uma variável instrumental para x3 correlacionada
com x1, mas não correlacionada com u e com e.
9.3 PROBLEMA DE SIMULTANEIDADE
O primeiro uso de variáveis instrumentais é atribuído a Philip Wright
(1928), quando o pesquisador estava interessado em analisar o
efeito de impostos de importação sobre o mercado de óleo vegetal.
Para tal, precisava estimar tanto a oferta quanto a demanda pelo
óleo para encontrar as elasticidades-preço de cada curva ( ,
respectivamente). Vimos que um modelo simples usado para
estimar a elasticidade-preço da demanda constante seria:
Note que alguns dos fatores não observados contidos em ui

seriam: renda dos consumidores; características dos consumidores;
preço de bens substitutos e complementares; entre outros.
Por conta da relação entre a quantidade ofertada e a quantidade
demandada (p e q são determinados conjuntamente pelo equilíbrio
no mercado), ln (pi) é correlacionado com o erro da equação.
Suponha que estejamos analisando três diferentes períodos de
tempo. A Figura 9.2 (diagrama à esquerda) mostra os pontos
observados nestes períodos.
FIGURA 9.2
Equilíbrio de mercado competitivo e problema de identificação das curvas de
oferta e demanda para três períodos (esquerda) e para sete períodos (direita).
Os pontos (P1, Q1), (P2, Q2) e (P3, Q3) representam os
equilíbrios de mercado, nos períodos t1, t1 e t3, respectivamente.
Todos os pontos são determinados por deslocamentos tanto da
curva de oferta (variação no custo de produção, por exemplo)
quanto da curva de demanda (variação na renda, por exemplo). A
ideia de Wright foi encontrar as variáveis que deslocam uma das
curvas, mas mantêm a outra constante. Desta forma, seria possível
determinar cada uma das curvas separadamente. A Figura 9.3
ilustra a identificação da curva de demanda a partir da ideia
proposta por Wright:
FIGURA 9.3
Identificação da curva de demanda. A partir do deslocamento da curva de
oferta.
Note que ao encontrar uma variável que desloque apenas a
curva de oferta (z1), podemos identificar pontos na curva de
demanda, ou seja, conseguimos estimar a curva de demanda. Os
deslocadores da curva de oferta, neste caso, são chamados de
variáveis instrumentais para o preço na curva de demanda. As
condições para que a variável seja um bom instrumento e,
consequentemente, permita-nos estimar a curva de demanda são:
Em termos formais, podemos descrever um modelo geral básico
de equações simultâneas da seguinte forma:
Suponha que estamos interessados apenas em estimar a

equação definida em (I), mas y1 e y2 são determinados
simultaneamente. As variáveis z1 e z2 são exógenas aos modelos,
ou seja, são não correlacionadas com u1 e u2.
Substituindo (I) em (II), podemos escrever a variável endógena
(y2) apenas como função das variáveis exógenas:
Se (1 – α1 β1) ≠ 0, ou α1 β1 ≠ 1, podemos reescrever essa

equação da seguinte forma (equação esta que chamamos de forma
reduzida):
λ0, λ0, λ0 e ϵ são combinações dos parâmetros verdadeiros. Note

que Corr (z1, ϵ) = 0 e Corv (z2, ϵ) = 0, pois eles são também não
correlacionados com u1 e u2. Com relação à variável endógena na
primeira equação (y2), Cov (y2, u1) ≠ 0 por conta do viés de
simultaneidade. O motivo da endogeneidade, portanto, vem da
correlação entre ϵ e u1 (veja que ϵ é uma combinação linear de u1
sempre que α1 ≠ 0). Assim, se u1 e u2 forem não correlacionados,
podemos calcular a covariância entre y2 e u1:
Assim, o sinal esperado do viés será o mesmo sinal desta

covariância.
A estimação do modelo se dá pelo método de variáveis
instrumentais (se tivermos apenas um instrumento para a variável
endógena), ou por Mínimos Quadrados de Dois Estágios, se
tivermos duas ou mais variáveis instrumentais para a variável
endógena (deslocadores da outra equação).
De forma geral, temos:
Tal que
A restrição de exclusão exige que os vetores z1 e z2 precisam ter
ao menos uma variável diferente para que possamos identificar o
sistema. Outra condição importante, que vimos algebricamente, é
que α11 α22 ≠ 1.
Condição de Identificação (necessária e suficiente): Desta

forma, dizemos que a equação y1 será identificada, se e
somente se a equação de y2 contiver uma variável exógena
excluída da primeira com coeficiente diferente de 0.
Podemos verificar essa condição por meio de um teste t ou
F.
A condição necessária e suficiente para a identificação da

segunda equação é análoga.
Neste capítulo estudamos dois métodos que nos permitem estimar
equações com variáveis explicativas endógenas. Os motivos da
endogeneidade vistos são vários, tanto oriundos de um problema de
variável omitida e erro de medida, quanto problemas de causalidade
reversa, ou equações simultâneas. Os métodos vistos são os de
variáveis instrumentais e de mínimos quadrados de dois estágios.
Em ambos os métodos, precisamos observar variáveis exógenas
(instrumentos) correlacionadas com as variáveis explicativas
endógenas do modelo em questão, mas não correlacionadas com o
erro. Vale fazer duas ressalvas: i) estes estimadores terão boas
propriedades assintóticas contanto que a correlação entre a variável
endógena e o instrumento sejam altas o suficiente; ii) a variância
destes estimadores é maior do que a variância dos estimadores de
MQO, logo devem ser usados sempre para buscar estimadores
consistentes na presença de endogeneidade.
9.5 EXERCÍCIOS
1. Quais as principais fontes de endogeneidade? Explique as

diversas maneiras de resolvê-la.
2. Usando os dados da PNS 2013, foi estimada a seguinte

regressão simples para explicar o peso, em kg, de indivíduos
entre 18 e 60 anos a partir da quantidade de vezes na semana
que comem doces:
a) Interprete o coeficiente de doces.

b) Você acha que há problema de endogeneidade no modelo?
Explique.
c) Dê alguma sugestão para melhorar o modelo.
3. Suponha que estamos tentando entender como os indivíduos

escolhem quantas quilocalorias consumir diariamente em função
da porcentagem de gordura corporal e atividade física praticada:
Em que ‘calorias’ representa as quilocalorias ingeridas em um

dia, ‘gordura’ é o percentual de gordura corporal e ‘exercícios’
são as horas de exercício praticados por semana. No entanto,
os dados disponíveis são traziam a porcentagem de gordura
dos indivíduos. Uma saída encontrada foi usar o Índice de
Massa Corporal (IMC) como variável independente do modelo.
Sabe-se também que
Com essas informações, responda:
a) Qual é a relação entre as variáveis gordura e IMC.
b) Escreva o modelo estimado e faça sua equivalência com o
modelo verdadeiro.
c) É necessária alguma hipótese adicional para que o modelo
seja válido?
4. Suponha o modelo a seguir, em que a variável dependente é

uma nota de 0 a 10 a respeito da saúde do indivíduo (10: saúde
ótima; 0: saúde péssima) e cigs é a quantidade de cigarros
fumados por dia:
a) A especificação desse modelo é adequada? Justifique.

Qual é a variância de 1?
Suponha que o governo decida aumentar exogenamente
os impostos incidentes sobre o cigarro.
b) Como você usaria essa informação para melhorar seu
modelo? Quais as hipóteses necessárias? Qual seria a
variância do novo estimador de cigs?
c) Faça uma comparação entre o modelo original e o novo
modelo. Qual modelo tem o coeficiente mais confiável? Em
qual modelo cigs tem uma variância menor? Explique.
5. Considere o seguinte modelo de regressão simples:

Considere que são válidas três das quatro primeiras hipóteses
de Gauss-Markov, exceto a hipótese de exogeneidade. Isso é,
cov (x, u) ≠ 0.
a) Calcule a inconsistência dos estimadores da regressão.
Considere agora que você tem outra variável z, que não é
correlacionada com o termo de erro, isto é, cov (z, u) = 0.
Você ainda está interessado em estudar a relação entre x e
y e usa o seguinte estimador: .
b) Mostre que plim ( 1) = β1 e plim( 0) = β0.
c) Que outra condição você precisou impor para garantir que
os novos estimadores são consistentes além de cov (z, u)
= 0.
6. Considere o modelo
E suponha que exista uma variável instrumental (zi) para xi

que é binária.
Mostre que o estimador de IV de 1 pode ser escrito como
Em que 1 e 1 são as médias amostrais de yi e xi na parte da

amostra em que zi = 1, e 0 e 0 são as médias amostrais de yi
e xi na parte da amostra em que zi = 0. Interprete o resultado
encontrado.
7. (Anpec 2014) Considere o modelo de regressão linear simples

no qual é uma amostra aleatória, Cov (εi, Xi) ≠ 0, Cov
[Xi] > 0, , . Temos um vetor de variáveis
aleatórias Zi com dimensão r x 1, com r ≥ 1, tal que Cov (εi, Zi)
= 0. Além disso, Var [εi|Xi] = σ2.
Baseando-se nas informações dadas, julgue as seguintes
afirmativas:
(0) O estimador de Mínimos Quadrados Ordinários para β1
será consistente, mas ineficiente;
(1) Se r = 1, podemos identificar o parâmetro populacional β1
como
(2) Se r ≥ 1, o estimador de Mínimos Quadrados em dois

estágios será um estimador consistente;
(3) Se r ≥ 1, o estimador de Mínimos Quadrados em dois
estágios será um estimador não viesado e eficiente;
(4) Se r = 1, o estimador de variável instrumental para βVI1
será
8. (Anpec 2003) Considere o modelo de equações simultâneas:

em que é a quantidade demandada, , a quantidade
ofertada, Pi é o preço, e u1i e u2i são termos aleatórios. É
correto afirmar que:
(0) O estimador de Mínimos Quadrados Ordinários aplicado a
cada uma das equações é consistente e não tendencioso.
(1) No modelo apresentado, a equação de demanda é
identificada, mas a equação de oferta não é.
(2) Se a equação de demanda for definida por = α1 + β1Pi +
γ1Y1 + u1i, em que Y1 é a renda, a equação de oferta será
identificada.
(3) A equação de demanda será identificada se for definida por
= α1 + β1Pi + γ1Y1 + + u1i.
(4) A variável renda, empregada nos itens anteriores, é uma
“variável instrumental”.
9. (Anpec 2011) Considere o seguinte modelo de equações

simultâneas:
Em que
(0) O estimador de mínimos quadrados ordinários de θ1 na
equação (1) é consistente.
(1) Os estimadores de mínimos quadrados ordinários de β1 e
β2 na equação (2) são não viesados.
(2) A equação (1) é exatamente identificada e a equação (2) é
sobreidentificada.
(3) Se σ12 = 0, tanto a equação (1) quanto a equação (2) são
exatamente identificadas.
(4) Se σ12 = 0, os estimadores de mínimos quadrados
ordinários de β1 e β2 na equação (2) são consistentes.
10. A base de dados centrooeste96.xls traz algumas informações

da PNAD de 1996 para indivíduos da região Centro-oeste do
Brasil. Considere o seguinte modelo verdadeiro:
Em que lrenda é o logaritmo natural da renda, educ são os

anos de educação, sexo assume 1 se o indivíduo for mulher (0
caso contrário), branco assume 1 se o indivíduo for branco (0
caso contrário), exp denota os anos de experiência, exp2 os
anos de experiência ao quadrado e aptidi é a aptidão do
indivíduo. Além disso, aptidi é uma variável não observável.
Assuma que os erros são homocedásticos e que cov (aptidi,
educi) ≠ 0.
a) Estime o seguinte modelo por MQO:
em que ui = vi + γaptidi.
A estimativa de β1 será enviesada? Por quê?
b) Que hipótese sobre a relação entre os instrumentos e aptidi
é necessária para que implementemos um modelo de dois
estágios utilizando como instrumento a educação do pai,
educp, e a educação da mãe, educm? E que hipóteses
devemos fazer sobre a relação entre educp e educm com
educ para que tenhamos um bom instrumento? Teste essa
hipótese.
c) Estime o modelo de 2 estágios passo a passo: (i) rode um
MQO de educ contra os instrumentos e as variáveis
exógenas e salve o valor previsto de educ. (ii) Rode um
MQO do modelo do item a, substituindo educ pelo valor
previsto de educ obtido no passo anterior.
d) Estime o modelo de 2 estágios diretamente. Os
coeficientes estimados são iguais? Caso negativo, por que
isso ocorre?
Faça o Teste de Hausman (endogeneidade de uma única
variável explicativa). Qual é a sua interpretação sobre o
resultado.
e) Implemente o teste de Hausman passo a passo: (i) Rode
um MQO de educ contra os instrumentos e as variáveis
exógenas e salve o resíduo da regressão. (ii) Rode um
MQO do modelo do item a, incluindo o resíduo estimado
como regressor.
APÊNDICE 9.A
NORMALIDADE ASSINTÓTICA DO
ESTIMADOR DE VARIÁVEIS INSTRUMENTAIS
PARA A REGRESSÃO SIMPLES
Seja o estimador de variáveis instrumentais da regressão linear

simples entre y e x.
Podemos transformar o modelo da seguinte forma:
Vamos verificar, agora, a convergência dos termos (A) e (B).
(A) Convergência em probabilidade
Assim, a distribuição de dependerá do limite de

distribuição de (B):
sendo que
Dado que E (wi) = 0 e (pela hipótese de

homocedasticidade), temos que
Note que
Portanto, aplicando o TLC a W temos:
Reunindo os resultados encontrados, temos

Ou
1 Dada a extensa lista de variáveis associadas para cada ocupação, Neves

Junior et al. (2017) implementaram uma categorização das habilidades
constituída pelas dimensões cognitiva, social e motora por meio da
técnica de Análise de Fator Comum, obtendo, ao final do procedimento,
um único vetor de variáveis para cada dimensão.
2 R2 = [Corr (yi, i )]2, em que é o valor previsto de y, usando-se para a
previsão um estimador, no caso usando-se o estimador de VI para β.
3 Ver Hausman (1978). Para uma discussão mais detalhada com
exemplos, ver também Hayashi (2000).
4 A abreviação LM vem do inglês ‘Lagrange Multiplier’ sendo este teste
resultante de uma otimização com restrições. Veja Wooldridge (2015)
para mais detalhes.
5 Ver Hayashi (2000).
6 Veja Guidetti e Pereda (2017).
7 Ver Neidell (2004).
8 Ver Seaman (2000) e Allen et al. (2013).
10
MÉTODOS PARA DADOS EM PAINEL
C
om a melhoria constante da capacidade de
armazenamento de dados temos, cada vez mais, grandes
massas de dados disponíveis. A possibilidade de obter
dados sobre empresas, regiões e indivíduos ao longo do
tempo traz oportunidades para a identificação dos efeitos modelos
econômicos. Veremos neste capítulo as vantagens de estimar
modelos com dados ao longo do tempo.
10.1 DADOS EM CORTES TRANSVERSAIS AGRUPADOS
Vimos no Capítulo 3 que as bases de dados em cortes transversais
agrupados (pooled cross-sections) consistem na combinação de
duas ou mais amostras aleatórias (com diferentes unidades de
observação, i) em instantes diferentes do tempo. Neste caso, não
observamos as mesmas unidades no tempo, mas sim diversas
amostras aleatórias de uma mesma população ao longo do tempo –
tais amostras aleatórias são consideradas um agrupamento
independente de cortes transversais no tempo.
Há diversas vantagens em se usar esse tipo de base de dados.
Uma delas é o fato de o tamanho da amostra aumentar: o tamanho
total da amostra passa a ser N1 + ⋯ + NT, ou seja, a soma do total
de observações em cada período de tempo (suponha que temos T
períodos de tempo disponíveis). Assim, melhoramos a precisão das
estimativas (temos a redução da variância do estimador) e, portanto,
a inferência do nosso modelo. Outra vantagem importante é a
viabilização de análises de impacto ao longo do tempo. Suponha
que uma política pública seja implementada em um período t*, tal
que 1< t* ≤ T. Assim, dependendo das demais informações da
amostra, temos chances de poder avaliar o antes e depois da
política usando um estimador de diferenças em diferenças.
No entanto, há também alguns cuidados que precisamos ter ao
trabalhar com diversas amostras ao longo do tempo. Isso porque a
distribuição da população pode ser diferente no tempo. Uma forma
simplificada de corrigir esse problema seria usar interceptos
diferentes para cada período de tempo t (ou seja, incluir variáveis
dummy para cada período: chamamos os efeitos medidos por essas
variáveis dummy de efeitos fixos no tempo), ou inclinações
diferentes para os períodos de tempo t (efeitos das variáveis
explicativas mudam ao longo do tempo). Além da inclusão de
variáveis dummy temporais (e seus cruzamentos com as demais
variáveis explicativas), a matriz de variância-covariância dos erros,
V( u), normalmente não será homocedástica. Neste caso, podemos
usar o estimador robusto para a variância (ou estimador por
bootstrap), ou estimar o modelo por FGLS.
Entretanto, a própria mudança no tempo pode ser o problema a
ser pesquisado: Como a fertilidade das mulheres varia no tempo?
Será que o retorno da educação no Brasil mudou ao longo do
tempo? Nestes casos, utilizamos o cruzamento destas variáveis
com variáveis dummy para os períodos. Mas o que acontece se
utilizamos todas as x1, ⋯ , xk variáveis explicativas cruzadas com as
dummies de tempo? Como vimos no Capítulo 6, usar todas as
interações gera estimadores equivalentes aos das estimações de
equações diferentes para cada período. Neste caso, podemos
utilizar o teste de Chow para verificar se há diferença de efeitos no
tempo (Chow, 1960). Seja o modelo para uma amostra de dados
com dois períodos de tempo (1 e 2).
em que Dt representa a dummy para o período t e βj,(t) representam

os coeficientes da variável xj para o período t.
Como vimos, para testar o efeito das variáveis no tempo,
utilizamos o cruzamento destas variáveis com variáveis dummy para
os períodos (ou utilizamos equações diferentes para cada período).
Neste caso, testamos as seguintes hipóteses:
Tal que SQR1 e SQR2 as somas dos quadrados dos resíduos

dos modelos:
Sabemos que o SQR do modelo irrestrito será:
Já o modelo restrito é descrito pela não diferenciação temporal

dos efeitos:
A estatística do teste de Chow, sob as Hipóteses 5.1 a 5.51 do

modelo de regressão linear múltipla, será,
Em que n* é o total de observações para todos os períodos de

tempo. Generalizando a estatística de teste para T períodos, temos:
Outra forma de calcular o teste de Chow para dois ou mais

períodos de tempo é testar a significância conjunta dos termos de
interação. Essa forma de testar as diferenças permite fazermos
todos os testes possíveis. No entanto, se observamos dados de
muitos períodos de tempo, separar as equações pode ser mais
prático – embora seja mais difícil supor a hipótese de
homocedasticidade dos erros do modelo. Na presença de
heterocedasticidade, podemos gerar as interações e testar os
coeficientes conjuntamente na equação agrupada, considerando os
estimadores robustos da variância (ou pelo procedimento de
bootstrap).2

Em geral, o governo oferece incentivos para determinados
treinamentos de mão de obra. Estes incentivos são usados para que
os agentes econômicos tomem decisões no sentido que os policy
makers julgam ser mais adequadas para aumentar o bem-estar
destes agentes, sob foco de algum tipo de intervenção econômica
ou social. Quando temos dados de cortes transversais antes e
depois da implementação de uma política pública (ou qualquer outro
tipo de intervenção), uma possibilidade é analisar o efeito desta
política usando o método de diferenças em diferenças (DD), que é
bastante consagrado na literatura de avaliação de impacto. Para
aplicar o método DD, precisamos checar algumas hipóteses, além
de obter dados de dois grupos de observações:
1. Grupo de controle: indivíduos/empresas/locais não afetados
pela intervenção (chamaremos a intervenção de ‘tratamento’,
como convencionado pela literatura).
2. Grupo de tratamento: indivíduos/empresas/locais afetados
pela intervenção ou tratamento.
Sob algumas condições, podemos chamar esses dados como

advindos de experimentos naturais. Note que experimentos naturais
não são experimentos aleatórios verdadeiros, pois em experimentos
aleatórios os grupos de controle e tratamento são escolhidos
aleatoriamente. Além disso, para aplicar o método DD, precisamos
observar os dados dos dois grupos para, ao menos, dois períodos
de tempo (ao menos um antes do tratamento e ao menos um depois
do tratamento):
1. Período t: antes do tratamento
2. Período t + 1: após o tratamento
Em resumo, precisamos de quatro grupos de dados/amostras:
1. Grupo de controle antes do tratamento (t)
2. Grupo de tratamento antes do tratamento (t)
3. Grupo de controle após o tratamento (t + 1)
4. Grupo de tratamento após o tratamento (t + 1)
A Tabela 10.1 apresenta um exemplo da organização dos dados

necessária para a aplicação deste método para uma intervenção
iniciada em 1991 com N1 observações no ano de 1990 e N2
observações em 1991.
TABELA 10.1 Exemplo de matriz de dados necessária para aplicação do método DID
Identificador do pós- Identificador do

Unidade tratamento tratamento
(i) Período T Y (D) X1 ... XK
1 1990 0 100 0 1 ... 0
2 1990 0 90 1 2 ... 1
... ... ... ... ... ... ... ...
N1 1990 1 105 0 1 ... 0
N1 + 1 1991 1 98 0 2 ... 0
N2 + 1 1991 1 110 1 1 ... 1
... ... ... ... ... ... ... ...
N1 + N2 1991 1 120 0 1 ... 1
Considerando a forma como definimos os identificadores de

tratamento e de período na Tabela 10.1, a equação de interesse a
ser estimada pode ser definida da seguinte forma:
A partir desta equação podemos verificar que o efeito da política
é dado pelo parâmetro τ, que é fruto de duas diferenças (daí o nome
do método: diferenças em diferenças): a primeira se refere à
diferença das médias da variável dependente no período anterior e
posterior à intervenção para os indivíduos tratados (E (y│X, T = 1, D
= 1) – E (y│X, T = 0, D = 1); e a segunda se refere à diferença das
médias da variável dependente no período anterior e posterior à
intervenção para os indivíduos do grupo de controle (E (y│X, T = 1,
D = 0) – E (y│X, T = 0, D = 0). É possível mostrar que, se vale a
hipótese de exogeneidade para o modelo anterior,
Substituindo as esperanças condicionais (supondo E (u│ X, T, D)

= 0), temos:
Veja que só conseguimos eliminar o termo β1 com a

diferenciação dos dois grupos no tempo. Esse termo é considerado
o efeito fixo de tempo, ou seja, mede choques temporais que afetam
y dos dois grupos. A estimação do τ utilizando dados da amostra
será
é o estimador do impacto do tratamento sobre o grupo de

tratamento. A Figura 10.1 ilustra o efeito encontrado pelo método de
DD:
FIGURA 10.1
Ilustração da identificação do estimador para τ pelo método DD.
* Trajetória do tratado caso não tivesse recebido o tratamento.
QUADRO 10.1
Impacto da construção do metrô em São Paulo
Poderíamos utilizar dados sobre os preços dos imóveis da cidade de
São Paulo, ao longo do tempo, para verificar a potencial valorização
de uma política urbana, como a inauguração de uma estação do
metrô. O grande problema é que observamos preços de imóveis
diferentes ao longo dos meses. Neste sentido, poderíamos propor
uma análise de dados de cortes transversais agrupadas para
realizar essa análise. Note que é necessário observar os preços de
transação (do Zap imóveis, ou da EMBRAESP, para a cidade de
São Paulo) e as características dos imóveis, além da localização
dos mesmos. Os imóveis tratados seriam as casas próximas à
estação de metrô e os imóveis do grupo de controle seriam imóveis
parecidos, mas não impactados pela estação.
10.2 DADOS EM PAINEL
Dados em painel consistem em uma coleção de dados para uma
mesma unidade de observação ao longo do tempo. Este tipo de
base de dados possui diversas vantagens para a estimação de
modelos econômicos. Dados em painel são facilmente obtidos para
regiões (distritos, municípios, estados, países). Já no caso de
painéis de indivíduos, empresas, famílias, por exemplo, obter dados
ao longo do tempo tem custo mais elevado. No entanto, várias
instituições brasileiras vêm se dedicando a coletar dados em painel,
como o IBGE (que iniciou a coleta de dados em painel para a
PNAD, conhecida por PNAD Contínua, em substituição à Pesquisa
Mensal de Emprego, PME), a FIPE (que coleta a Pesquisa de
Orçamentos Familiares da Região Metropolitana de São Paulo no
formato de painel de domicílios), entre outras.
Na notação utilizada neste livro, os dados em painel consistem
em acompanhar o mesmo i para períodos t diferentes. Podemos ter
um painel balanceado, quando não perdemos nenhuma observação,
ou seja, a amostra total tem N x T observações, ou não
balanceados, quando temos a perda observações no tempo por
alguns motivos (atrito, ou em inglês: attrition).
No caso dos painéis desbalanceados, precisamos entender os
motivos da perda de dados. Se os motivos foram aleatórios
(exemplo: perda de formulários/questionários) não existem
consequências para a causalidade do modelo. No entanto, se os
motivos foram não aleatórios (exemplo: empresas que faliram,
indivíduos que perderam emprego) podem haver consequências
relevantes para a estimação do modelo. Neste último caso, teremos
que lidar com o problema de seleção amostral (tópico do Capítulo
11).
No caso de dados em painel, identificaremos as variáveis por yit,
xit, com i = 1, ⋯ , N e t = 1, ⋯ , T. A maior vantagem do uso de
dados em painel é a possibilidade de expurgar alguns fatores não
observados do termo de erro (εit), tais como:
1. Choques agregados não observados, que influenciam todos os
i’s em determinado período de tempo, identificados por meio
da inclusão de variáveis dummy para os períodos (λt, para t =
1, ⋯ , T).
2. Os fatores não observados dos indivíduos (efeitos
heterogêneos dos indivíduos/firmas/regiões, constantes no
tempo), identificados por meio da inclusão de variáveis dummy
para as observações (αi, para i = 1, ⋯ , N).
Veja a seguir a comparação de um modelo de regressão linear

múltipla com e sem esses efeitos:
Modelo de regressão linear múltipla: yit = β0 + β1 x1it + ⋯ + βK xKit
+ εit
Modelo de regressão linear múltipla com efeitos fixos (de tempo
e de indivíduos): yit = β0 + β1 x1it + ⋯ + βK xKit + αi + λt + uit
No modelo que inclui as variáveis dummy de tempo e de corte
transversal, a interpretação do intercepto muda:
• Intercepto no período 1: β0 + λ1
• Intercepto no período 2: β0 + λ2
• Intercepto no período 1 para a observação 1: β0 + λ1 + α1
• Intercepto no período 2 para a observação 1: β0 + λ2 + α1
O parâmetro αi capta os fatores não observados e constantes no

tempo e que afetam yit, αi é chamado de efeito fixo não observado,
ou efeito específico, ou heterogeneidade específica, ou
heterogeneidade não observada. O uit, termo de erro individual,
inclui, portanto, fatores não observados que mudam ao longo do
tempo.
Sem a inclusão dos termos αi e λt no modelo, como no caso do
modelo de regressão linear múltipla, o estimador de MQO só geraria
estimadores consistentes se αi fosse não correlacionada com xit's.
Veremos nas próximas subseções como estimaremos os
prâmetros a partir de hipóteses sobre o comportamento de αi e Xit.

A estimação por primeiras diferenças permite lidar com os αi’s do
modelo quando os mesmos forem correlacionados com as demais
variáveis do modelo. Para verificar como faríamos esta estimação,
precisamos escrever a equação em dois períodos subsequentes (t e
t – 1)
Se tirarmos a diferença temporal, temos a equação nas primeiras

diferenças:
Note que β0 e αi são descartados pela diferenciação temporal. O

novo intercepto do modelo é dado por δ0 = λt – λt – 1 (mudança de
intercepto do período t para t – 1). Veremos quais modificações nas
hipóteses do modelo de regressão múltipla são necessárias para
garantir que o estimador de MQO, aplicado sobre essa equação,
seja BLUE. Podemos reescrever as Hipóteses 5.3 e 5.4 da seguinte
forma.
Hipótese 5.3’ (modificada). ∆xit deve ter alguma variação em i.
A Hipótese 5.3’ modificada mostra que qualquer característica

que não varia no tempo ou cuja variação seja linear para todas as
observações, não pode ser incluída no modelo (exemplos: idade;
gênero). Isso porque essa característica é expurgada do modelo,
quando calculamos a primeira diferença.).
Hipótese 5.4’ (modificada). E [∆uit |∆ xit] = 0, ocorre se E [∆uit |

xi1, …, xiT] = 0 ∀ t = 1, … T.
A Hipótese 5.4’ modificada também é chamada de exogeneidade

estrita, pois supõe que os erros sejam não correlacionados com as
variáveis explicativas em quaisquer períodos de tempo da amostra
(note que, neste caso, não podemos considerar uma defasagem
temporal de y como variável explicativa, ou seja, xit não pode ser yit
– 1, pois a Hipótese 5.4’ não seria atendida).
Se valem as Hipóteses 5.3’ e 5.4’, em adição às demais
hipóteses do modelo de regressão linear, temos que o estimador de
MQO sobre o modelo na primeira diferença será não viesado, MQO
= PD (estimador de primeiras diferenças).
Note que a diferenciação temporal pode reduzir a variação nas
variáveis explicativas, o que aumenta a variância dos estimadores.
Além disso, pode aumentar ainda mais a variância do estimador por
conta da diminuição do tamanho total da amostra para estimar de
NxT para Nx (T – 1) observações (perdemos N observações do
primeiro período de análise).
Com relação à hipótese de homocedasticidade e inexistência de
autocorrelação, devemos atentar para os seguintes pontos:
• Para T > 2, devemos assumir que os ∆uit são não
correlacionados ao longo do tempo, sendo essa uma hipótese
mais fraca do que assumir que os uit são não
autocorrelacionados.
• Se uit forem não correlacionados ao longo de t, temos que ∆uit
e ∆uit+1 serão autocorrelacionados3 invalidando a hipótese de
homocedasticidade. Quando isso ocorre, recorremos aos
métodos tradicionais para tratar a heteocedasticidade (uso de
estimador robusto de White ou HAC).

Há vários métodos para lidar com a inclusão dos αi’s no modelo.
Esses métodos se diferenciam por conta das hipóteses com relação
a αi (basicamente das hipóteses sobre a correlação entre αi e os
xit's). Veremos agora uma alternativa ao método de primeiras
diferenças: a transformação within, cujo objetivo é eliminar os efeitos
fixos (que são não observados) para estimar o modelo. Seja o
seguinte modelo (vamos excluir as variáveis dummy de tempo, sem
perda de generalidade):
Podemos calcular a média das observações para cada indivíduo

(média ao longo do tempo, como por; exemplo: ). A
equação da média temporal das observações é chamada de
equação between:
Se subtrairmos a equação original da equação between,

estamos calculando o desvio com relação à média temporal. A
equação que representa esses desvios é chamada de equação
within:
Ou
Note que o efeito fixo não observado é eliminado na
transformação within. Vamos verificar sob as hipóteses do modelo
de regressão linear a estimação por MQO do modelo anterior gerará
estimadores com propriedades desejáveis.
Hipótese 5.1*. O modelo é linear nos parâmetros yit = β1 xit1 + ⋯

+ βK xitK + αi + uit, ∀i e com t = 1, ⋯ , T onde βj são parâmetros a
serem estimados.
Hipótese 5.2*. Temos uma amostra aleatória na cross-section
(i).
Hipótese 5.3*. Cada variável explicativa muda ao longo do
tempo (para ao menos algum i) e não há relações lineares
perfeitas entre as variáveis explicativas.
Hipótese 5.4*. E [uit| xit, αi] = 0 ∀t. O valor esperado do erro,
dadas x em todos os períodos de tempo e o efeito não
observado (αi), é zero.
Sob as Hipóteses 5.1* a 5.4*, o estimador de MQO da equação

within, chamado de estimador de efeitos fixos ( EF), será não
viesado e consistente (para T fixo e n → ∞).
Para derivarmos a variância desses estimadores, precisamos
acrescentar duas novas hipóteses:
Hipótese 5.5*. Var (uit|xi, αi) = Var (uit) = ∀ t = 1, ⋯ , T.
Hipótese 5.6*. Os erros do modelo são não correlacionados

(condicionais a todas as variáveis explicativas e αi): Cov (uit,
uis|xit, αi) = 0 ∀ t ≠ s.
Note que a Hipótese 5.6* é diferente daquela imposta para o

estimador de primeiras diferenças. Agora, sob as Hipóteses 5.1* a
5.6*, o estimador EF é BLUE.
Por fim, para encontrarmos a distribuição desses estimadores e,
posteriormente, realizar testes de hipóteses sobre os parâmetros
verdadeiros do modelo, adicionamos a Hipótese 5.7*.
Hipótese 5.7*. uit|xit, αi ~ N (0, ).
Sob as Hipóteses 5.1* a 5.7*, é possível derivar a distribuição

normal dos estimadores de efeitos fixos EF ~ N (β, V( EF ) e,
consequentemente, as estatísticas t e F possuem distribuições
exatas, permitindo que testemos hipóteses sobre os parâmetros
verdadeiros.
Note que o estimador de efeitos fixos permite correlações entre
αi e xit, portanto, qualquer variável constante no tempo é excluída (
it = 0) ∀ i e t. Alguns exemplos de variáveis invariantes no tempo
são: gênero dos indivíduos, distância a algum equipamento público,
altura de indivíduos adultos etc.
No cálculo de 's e , precisamos calcular uma média amostral
por observação i. Assim, perdemos, N graus de liberdade. Portanto,
o total de graus de liberdade do método é N (T – 1) – K, uma vez
que só estimamos K parâmetros (intercepto é eliminado).
Vimos que as variáveis constantes no tempo não podem ser
incluídas no modelo de efeitos fixos, mas podem interagir com
variáveis que mudam ao longo do tempo. Note também que se
incluirmos as variáveis dummy de ano não podemos estimar o efeito
de qualquer variável cuja mudança no tempo seja constante (não
conseguimos distinguir, por exemplo, ∆idade do efeito agregado no
tempo). Isso porque a mudança no tempo da dummy é constante.
Sobre o R2 da regressão within, este será o montante da
variação temporal em yit que é explicada pela variação temporal nas
explicativas. Veja a seguir uma tabela explicativa sobre os possíveis
R2 que podemos obter quando temos dados em painel.
Tipo do R2 Regressão a que se refere O que mede

R2 overall
R2 between
R2 within
QUADRO 10.2
Retorno salarial de educação com fatores não observados
do indivíduo constantes no tempo
Vimos no Quadro 9.1 que podemos incluir as variáveis de habilidade
calculadas por Neves Junior et al. (2017) como variáveis proxy para
a verdadeira habilidade dos trabalhadores brasileiros no modelo de
retorno salarial do capital humano. Se observamos dados em painel,
outra forma de lidar com a variável omitida “habilidade’ seria a
inclusão de um efeito fixo no tempo. Neste caso, este efeito captará
a habilidade do indivíduo se acreditarmos que essas habilidades são
constantes no tempo.
Usando os dados do estudo de Neves Junior para 2013 e 2014,
podemos agora comparar o modelo com e sem os efeitos fixos:
Em que: ln(sal) representa o logaritmo do salário-hora; educ2 e

educ3 são variáveis dummy para o grau de instrução formal do
trabalhador, Ensino Médio e Ensino Superior, respectivamente;
d2013it é a variável dummy que representa choques agregados de
2013; e α1 são os efeitos dos indivíduos fixos no tempo. Os
resultados da estimação são:
Note novamente que os estimadores de MQO para as variáveis

dummy de educação diminuem quando incluímos os efeitos fixos,
apenas estimáveis com dados em painel. Esse resultado indica que
o modelo com variáveis omitidas gera estimadores com viés
positivo.
Os métodos de primeiras diferenças e da transformação within lidam
com os efeitos fixos a partir de estratégias de exclusão destes
parâmetros do modelo. No entanto, nosso interesse pode ser a
identificação (ou estimação) destes parâmetros. Para estimá-los, é
possível introduzir uma variável dummy para cada i, Di (o que pode
significar a inclusão de muitas variáveis explicativas conforme N
aumenta).
O estimador de MQO deste modelo é chamado de Estimador

Linear de Variáveis Dummy, DV ( VD) e gera resultados
equivalentes ao método de Efeitos Fixos (estimadores: EF), tanto
com relação ao estimador, quanto ao erro-padrão deste:
.
Para este modelo, em geral observa-se um R2 elevado, isto
porque as variáveis dummy, conjuntamente, para cada observação
têm um alto poder explicativo no modelo. As boas propriedades do
estimador de MQO são mantidas se forem válidas as hipóteses do
método within. Adicionalmente, podemos testar a significância
conjunta dos parâmetros individuais αi’s usando a estatística F (em
função dos R2).
Outra forma de calcular os αi’s seria a partir da equação between
(ou seja, utilizando as médias temporais):
Para i = 1, ⋯ , N. i é não viesado sob as Hipóteses 5.1* a 5.4*,

mas não consistente, pois quando N → ∞, também K → ∞. Note
que, em geral, o intercepto informado nas regressões de Efeitos
Fixos é a média dos interceptos individuais específicos α = E [αi].
Quando temos apenas dois períodos de tempo no painel, é possível
mostrar que ED = PD. Essa equivalência se dá com a inclusão de
uma variável dummy de tempo no modelo a ser estimado com
efeitos fixos (isso porque o intercepto do modelo em primeiras
diferenças é a dummy de tempo incluída no modelo sem a
diferenciação temporal). No entanto, quando T ≥ 3, os estimadores
serão diferentes, embora ambos sejam não viesados de acordo com
as Hipóteses 5.1* a 5.4*. Assim sendo, a escolha entre os métodos
dependerá da eficiência relativa de cada estimador, que é
determinada pela existência ou não de autocorrelação nos uit.
• Quando uit for não autocorrelacionado, EF será mais eficiente.
• Quando uit for autocorrelacionado, PD será mais eficiente.
• Se houver uma correlação pequena, não podemos comparar

facilmente os métodos.
Veremos como testar a autocorrelação dos erros do modelo.
Seja ηit = ∆uit (primeira diferença do erro), podemos propor o modelo
E testar a as seguintes hipóteses
Usamos o podemos estimar a equação a seguir usando dados

em cortes transversais agrupados:
Basta realizar um teste t (robusto para heterocedasticidade)
sobre o parâmetro ρ. Se for detectada autocorrelação, podemos
estimar o modelo por Primeiras Diferenças. Se não houver
correlação, o método de within será melhor.
Quando T ≥ 3 e há exogeneidade (mas não estrita), ou seja, E
[uit| xit, αi] = 0 apenas para o mesmo período t (isso ocorre quando,
por exemplo, incluímos a variável dependente defasada como
variável explicativa do modelo), o estimador de Efeitos Fixos EF
será mais consistente que PD. Isso porque o viés de EFdepende
de , que converge para zero conforme T cresce.

Observamos um painel desbalanceado quando há valores faltantes
(missing values) para algumas observações do painel. Neste caso,
usamos Ti observações (número de períodos de tempo para
observação i) para calcular a média no tempo de cada observação i.
Neste caso, o total de observações usado para estimação será
T1 + T2 + ⋯ + TN. Note que não é possível usar na estimação
observações que contenham apenas uma observação no tempo, (Ti
= 1), pois nesse caso teríamos .
Como vimos, é importante sempre analisar os motivos do não
balanceamento do painel para verificar se eles são aleatórios ou
não. Para tal, devemos nos fazer as seguintes perguntas:
1. A falta de observações pode gerar uma amostra não aleatória?
2. A razão de a observação i ter saído da amostra é
correlacionada com o erro?
Se a resposta para as perguntas acima for positiva, podemos ter

um problema de seleção amostral, o que gerará estimadores de
MQO inconsistentes. Veremos no Capítulo 11 como lidar com esse
problema.

A realização de análise de impacto de uma intervenção/tratamento
usando dados em painel parte das mesmas necessidades
levantadas na Seção 10.1.1, ou seja, precisamos observar os dados
dos dois grupos (controle e tratamento) para, ao menos, dois
períodos de tempo (ao menos um antes do tratamento e ao menos
um depois):
1. Grupo de controle antes do tratamento
2. Grupo de tratamento antes do tratamento
3. Grupo de controle após o tratamento
4. Grupo de tratamento após o tratamento
A grande vantagem de utilizarmos o método de diferenças em

diferenças para dados em painel é a inclusão de efeitos fixos de
cada observação em substituição à variável dummy que identifica os
indivíduos do grupo de tratamento da amostra. Assim, é possível
controlar a regressão pelos fatores não observados, constantes do
tempo, de cada observação, o que aumenta a chance de obtenção
de efeitos causais. Ainda assim, é importante verificar se, mesmo
controlando pelos efeitos fixos, as demais hipóteses do modelo de
regressão linear múltipla podem ser impostas.
A equação de interesse a ser estimada seria:
é o estimador o impacto do tratamento sobre y. Ele mede a

diferença entre a mudança média entre os dois períodos (antes e
após a intervenção).
QUADRO 10.2
Efeitos da redução da velocidade nas vias de São Paulo
A prefeitura do município de São Paulo determinou a redução da
velocidade de diversas vias da cidade a partir de 20 de julho de
2015. O objetivo da prefeitura foi reduzir o número de acidentes e
mortes no trânsito da cidade. A política, revogada pelo prefeito
seguinte, foi realizada progressivamente em diversas avenidas e
vias locais, atingindo as principais vias da cidade, incluindo as
marginais do Rio Pinheiros e do Rio Tietê.
Algumas cidades do mundo adotaram política parecida ao longo dos
últimos anos. Em Nova York,4 por exemplo, o limite na área urbana
passou para 40 km/h a partir de novembro de 2014 e, em Londres, a
máxima diminuiu para 32 km/h em importantes avenidas da capital
inglesa desde 2013.5 Paris e Roma também possuem limitações na
velocidade em áreas urbanas, que variam de 50 km/h em vias
expressas, até 30 km/h em áreas mais urbanizadas. As prefeituras
dessas cidades alegam diminuição no número geral de acidentes
nessas localidades.
Em 2016, a Companhia de Engenharia de Tráfego (CET), que
monitora o trânsito na cidade, reportou que o número de acidentes
fatais nas marginais caiu 52%, comparando o período de julho de
2014 a julho de 2015 com os 12 meses seguintes.6
Entretanto, a queda no número de mortes no trânsito das marginais
Tietê e Pinheiros coincide com a tendência de queda nos óbitos e
acidentes de trânsito em todo o estado de São Paulo.
FIGURA 10.2
Mortes no trânsito em São Paulo.
Fonte: http://www1.folha.uol.com.br/cotidiano/2016/03/1752627-numero-de-mortes-
no-transito-de-sao-paulo-tem-a-maior-queda-desde-1998.shtml.
Argumentos contrários à medida incluem a desconfiança em relação
ao governo municipal sobre uma possível motivação de aumento da
arrecadação com multas. Nesse sentido, o tema entrou também no
debate político das eleições municipais. Independentemente do
debate político, é relevante que os efeitos de políticas públicas
sejam rigorosamente mensurados para verificar se, de fato, as
variações observadas sejam causadas pelas intervenções. Isso é
essencial para que políticos justifiquem suas ações perante a
sociedade, sinalizando que conhecem os efeitos exatos das
medidas.
No entanto, como vimos ao longo deste livro, será que essa simples
comparação de estatística pode ser interpretada como causal? Não
podemos comparar o número de mortes no trânsito (ou as taxas de
acidentes) em São Paulo no tempo, devido à tendência observada
de redução de acidentes. Entre as potenciais variáveis que explicam
a taxa de acidentes no trânsito e que estão correlacionadas com o
período antes e depois da política: destacamos as comportamentais
(conscientização); outras políticas (lei seca, aumento de multas,
aumento da fiscalização); conjunturais (desemprego leva a menos
deslocamentos para trabalho); preços relativos (substituição dos
veículos individualizados por transportes coletivos); entre outras.
Uma forma de estimar o efeito pretendido sobre a taxa de redução
de acidentes seria comparar os acidentes nas vias das cidades
impactadas pela redução da velocidade, em vias semelhantes, mas
não impactadas pela política. Esse modelo pode ser expresso da
seguinte forma:
Em que i representam as vias e t o período de tempo de análise. O

modelo DD controla pelas especificidades de cada via (αi) e por
choques que tenham ocorrido em todas as vias da cidade (λt).
Estamos interessados na estimação do parâmetro τ, que pode ser
interpretado como causal (i.e. como o verdadeiro efeito da política)
caso a evolução da taxa de acidentes, na ausência da política, seja
igual em todas as vias da cidade (mesmo que ambas tenham
diferentes taxas de acidentes e características observadas, X,
diferentes), conforme a Figura 10.3 ilustra.
FIGURA 10.3
Ilustração da evolução temporal da taxa de acidentes entre as
vias impactadas e não impactadas.

Seja o modelo para dados em painel com k variáveis explicativas e
com efeitos fixos para os indivíduos da amostra:
O método de efeitos aleatórios é indicado quando αi é não

correlacionado com cada variável explicativa em todos os períodos
de tempo, ou seja,
Neste caso, sabemos que αi não levará a estimadores viesados

para os demais parâmetros. Portanto, podemos estimar utilizando o
máximo de observações que pudermos (como não precisamos
diferenciar o modelo no tempo, ou incluir tantas variáveis dummy
quantas observações tivermos, aumentamos os graus de liberdade
do modelo). No entanto, há a necessidade de corrigir a variância
dos estimadores de MQO.
Para verificarmos as implicações da estimação usando todas as
observações, na presença de efeitos fixos não correlacionados com
x, defina o erro composto (ηit)
Assim, podemos reescrever o modelo com dados em painel da

seguinte forma
Note que ηit é correlacionado no tempo
Assim, a autocorrelação existente no erro composto inviabiliza a

inferência e causa ineficiência do estimador de MQO do modelo.
Neste caso, é preciso propor um estimador generalizado (MQG). É
exatamente isso que faz o estimador de Efeitos Aleatórios. Este
estimador modela os efeitos fixos como aleatoriamente distribuídos
entre os cortes transversais (cross-sections), o que reduz o número
de parâmetros a estimar.
Para um painel com NT observações:
Se E (αi| x) ≠ 0, estimamos por Efeitos Fixos ou Primeiras
Diferenças.
Se E (αi| x) = 0, estimamos por Efeitos Aleatórios.
Vamos derivar algumas relações importantes do modelo de

efeitos aleatórios.
Suponha:
Assim, temos
Sejam erros homocedásticos (por hipótese), a matriz de

variância-covariância desses erros pode ser expressa da seguinte
forma:
Podemos escrever a matriz de variância-covariância dos erros
do modelo (η).
Em que:
Assim, precisamos reponderar o modelo por Ω para

reestabelecer a hipótese de homocedasticidade. O estimador de
MQG (ou de Efeitos Aleatórios, EA) será
Em que:
Em outras palavras:
Podemos reescrever o modelo de efeitos aleatórios para eliminar
a heterocedasticidade e, portanto, estimar o modelo transformado
por MQO:
Em que:
Esse procedimento é conhecido pelo termo em inglês “quasi-

demeaned”, ou seja, subtraímos uma fração da média no tempo (θ),
fração essa que depende de e de T.
Essa transformação permite a inclusão de variáveis constantes
no tempo, isto porque o método de Efeitos Aleatórios assume que αi
é não correlacionado com variáveis explicativas (sendo elas
constantes ou não).
O parâmetro θ é estimado da seguinte forma
No entanto, ainda precisamos encontrar os estimadores para

. Utilizamos os resíduos do modelo original estimado por MQO
(sobre os dados agrupados) para encontrar e os resíduos do
modelo de Efeitos Fixos para estimar . Além disso, com base nos
valores do parâmetro, podemos verificar qual método é mais
adequado:
Se θ = 0, podemos estimar o seguinte modelo por MQO:
Se θ = 1, podemos estimar o modelo utilizando a abordagem de
Efeitos Fixos:
Se 0 < θ < 1, podemos estimar o modelo utilizando a abordagem

de Efeitos Aleatórios:
O estimador EA será consistente quando N → ∞ e T fixo e

quando as seguintes hipóteses forem válidas:
Hipótese 5.1**. Modelo linear nos parâmetros .

Hipótese 5.2**. Amostra aleatória na cross-section (corte
transversal).
Hipótese 5.3**. ∄ relações lineares perfeitas entre as variáveis
explicativas.
Hipótese 5.4**. .
Hipótese 5.5**.
Por vezes é difícil saber se o modelo de EF é mais adequado

para se explicar o impacto de variáveis explicativas sobre a variável
dependente quando os dados são de painel. Para tomar uma
decisão sobre qual estrutura de geração dos dados é mais
adequada, ou qual leva a estimadores consistente e
assintoticamente eficientes, o teste de Hausman7 (cuja ideia similar
ao que vimos no Capítulo 9) compara as abordagens de Efeitos
Fixos e Efeitos Aleatórios. A ideia é testar se Cov (xit, αi) é igual ou
diferente de zero.
• Se Corr(αi, xjit) ≠ 0, temos que EA será inconsistente e EF
será consistente.
• Se Corr(xjit, αi) = 0, temos que EA será consistente e
assintoticamente eficiente e EF será consistente, mas
assintoticamente ineficiente.
Assim, o teste proposto compara a diferença estatística entre os

estimadores ( ):
H0: q = 0, EA = EA (ambos consistentes, mas EA eficiente)

H0: q ≠ 0, ou EF = EA (EA inconsistente, EF consistente)
A estatística do teste de Hausman é
QUADRO 10.3
Aplicação do teste de Hausman
No Quadro 10.1 estimamos o modelo de Efeitos Fixos para o painel
de indivíduos da RAIS. Temos motivos teóricos para crer que os
efeitos fixos, fatores não observados constantes no tempo, sejam
correlacionados com a variável de educação. Para testar essa
hipótese, poderíamos fazer o Teste de Hausman entre os dois
modelos. Os resultados das estimações usando o método de Efeitos
Fixos e Efeitos Aleatórios podem ser visualizados a seguir:
Efeitos Fixos:
Efeitos Aleatórios:
Notamos que os estimadores para os betas diferem em magnitude,
mas só podemos confirmar as diferenças ao aplicar o Teste de
Hausman que (pondera tais diferenças por suas variâncias). A
estatística do teste de Hausman para esse caso foi 84.624,88
(converge para uma distribuição ), bastante superior ao valor
crítico a 1%. Assim, rejeitamos a hipótese nula de que ambos são
consistentes, escolhendo o Método de Efeitos Fixos.
10.3 EXERCÍCIOS
1. Aponte as principais diferenças entre as hipóteses dos métodos

propostos para a estimação com dados em painel.
2. Mostre que, para T = 2, PD = EF.
3. Assuma o seguinte modelo:
em que y são os preços dos imóveis ao longo do tempo para

diversos bairros de uma cidade, e x a taxa de criminalidade.
Por que uma estimativa de MQO provavelmente traria
resultados enviesados? Como você estimaria esse modelo
para tratar variáveis omitidas invariantes no tempo? Suponha
que, nos anos observados da amostra, houve um boom
imobiliário generalizado na cidade. Como você controlaria
esse efeito?
4. Em um modelo estimado por efeitos fixos sobre o spread

bancário (sit), em função da alavancagem de cada banco (Ait), e
se o banco é multinacional ou não (mi), com uma amostra de 100
bancos de um país com dados anuais de 5 anos, o software
omitiu uma variável na estimação. Que variável foi essa? Por
que houve a omissão? Como deveria ser essa variável para que
ela pudesse ser incluída no modelo?
5. Em um modelo de Efeitos Aleatórios, defina o erro composto vit =

ai + uit, em que ai é não correlacionado com uit. Além disso, uit
possui variância constante e não apresenta correlação serial.
Defina nit = vit = – , em que .
a) Mostre que E [nit] = 0.
b) Mostre que Var (nit) = , t = 1, ..., T.
c) Mostre que, para t ≠ s, cov (nit, nis) = 0.
6. Usando os dados da Pnad de 2013 e 2014, estimou-se o

seguinte modelo para analisar como a fecundidade das mulheres
de 18 a 45 anos se comporta no tempo:
= 3,02 – 0,11 educ + 0,12 d14
(0,013) (0,001) (0, 008)
N = 101670 R2 = 0,1058
Em que d14 é uma dummy que indica se o ano é 2014.

a) Como você acredita que esses dados estejam dispostos?
Justifique.
b) Interprete os coeficientes.
c) De forma adicional, estimou-se o seguinte modelo
= 3 – 0,11 educ + 0,16 d14 – 0,005 educ d14
(0,018) (0,002) (0,026) (0,003)
N = 101670 R2 = 0,1058
Interprete os coeficientes.
d) Qual a diferença entre os dois modelos?
7. Suponha o seguinte modelo:

A base de dados possui informações para os últimos dois
Censos Demográficos (2000 e 2010) para cada município
brasileiro. Sendo:
Pit é a proporção de indivíduos abaixo da linha de pobreza
para o município i no ano t;
Rit é a renda real per capita do município i no ano t;
Git é o índice de desigualdade de Gini
Os resultados do modelo within são apresentados a seguir
(erros-padrão em parênteses).
Soma dos Quadrados dos Resíduos = 79,73 R-quadrado =

0,968
F(4289, 4284) = 30,04 p-valor da F = 0,000
Hausman = 67,87 p-valor da H = 0,000
a) Interprete todos os resultados exibidos (sinal, significância
dos parâmetros etc.).
b) Como você acha que os resultados mudariam se o Método
de Primeiras Diferenças fosse usado? Demonstre seus
argumentos.
c) Como você acha que os resultados mudariam se o Método
de Efeitos Aleatórios fosse empregado? Demonstre seus
argumentos.
d) Explique como você testaria as estimações anteriores em
relação a outros métodos de estimação (entre o MQO
Agrupado, Efeitos Aleatórios e Primeiras Diferenças).
8. No ano de 1991 foi inaugurada a linha verde do metrô de São
Paulo, com estações que iam da Consolação ao Paraíso. Em
1992, foram inauguradas as estações Clínicas e Ana Rosa,
também da linha verde. Os dados da EMBRAESP trazem um
pooled cross section dos imóveis inaugurados em São Paulo
para os anos entre 1985 e 2008. Com a base imóveis
investigaremos o impacto do metrô no preço por área útil dos
imóveis. Para isso, definiu-se como tratados todos os imóveis
lançados na região dessas estações, independentemente de
quando foram lançados. A variável ano_trat foi definida de forma
que todos os imóveis cujo ano de lançamento foi igual ou
superior a 1991 receberam valor 1, e 0 caso contrário.
a) Para simplificar a análise, restrinja os dados para os anos
entre 1985 e 1990 (anos pré-tratamento), e 1993 e 1994
(anos pós-tratamento).
b) Usando os dados da base imóveis.dta, estime o efeito do
metrô usando um modelo de diferenças em diferenças.
Interprete o coeficiente de interesse bem como as
diferenças.
9. Use a base cartola.xls para responder esta questão. Ela contém

dados do Cartola FC para o Campeonato Brasileiro de 2014 a
2016. Trata-se de um jogo fictício no qual as pessoas montam
seus times com jogadores de futebol da vida real. O
desempenho de cada jogador no Cartola FC é baseado no
desempenho nos jogos reais. Os dados de cada rodada estão
condensados na dimensão de tempo anual.
a) O painel em questão é balanceado ou desbalanceado? Por
quê? Quantos jogadores são observados em todos os 3
anos e quantos são observados em 2 anos e 1 ano? Quais
as possíveis consequências disso para as estimativas?
b ) Suponha que o objetivo seja encontrar os determinantes
do preço do jogador. Para isso, rodamos o seguinte
modelo:
Compare as estimativas de MQO agrupado, efeitos fixos e
efeitos aleatórios [Dica: você precisará criar as variáveis dummy
de ano].
c) Faça o teste de Hausman para painel. Interprete seu
resultado. Entre quais modelos este teste permite
escolher?
d) Com base nos seus resultados, qual modelo para painel
parece mais adequado?
10. O arquivo mg.xls traz um painel de municípios do estado de

Minas Gerais de 2001 a 2007. Usando esses dados, considere o
seguinte modelo que investiga a arrecadação dos municípios a
partir do PIB municipal, participação do setor de serviços na
economia e população:
Sendo i o município e t o ano. Neste exercício, trabalharemos

apenas com os anos de 2002, 2004 e 2007, logo, é necessário
restringir os dados a esses anos.
a) Suponha que ci represente o efeito fixo. O que essa
variável capta? Qual a diferença entre ci e uit?
b) Estime o modelo por MQO agrupado. Quando há viés de
heterogeneidade?
c) Qual o propósito de incluir a2004 e a2007?
d) Estime a equação de primeiras diferenças desse modelo.
Descreva as hipóteses associadas a este estimador,
aplicando-as ao caso.
e) Estime o modelo por efeitos fixos. Descreva as hipóteses,
aplicando-as ao caso.
f) Os coeficientes estimados e (d) e (e) são diferentes?
Comente.
11. Utilizando alguma base de dados em painel, sugira uma análise

de política pública, sob o contexto de avaliação de programas.
Ou seja, proponha a especificação de um modelo (e ressalte
como deve ser estimado) para avaliar efeitos de legislação,
mudanças de conduta política em diferentes governos ou
implantação de uma política pública específica.
1 Além de supor homocedasticidaade na cross-section, também é

necessário supô-la no tempo: .
2 Veja mais em Mackinnon (2006).
3 Note que se Corr (uit, uis) = 0, temos que Corr (∆uit, ∆uit–1) = – .
4 http://brasil.elpais.com/brasil/2016/09/27/politica/1475007474_676141.ht
ml. Sempre é bom lembrar que tal política tem por objetivo primeiro a
redução de acidentes, assim como o aumento de arrecadação com
multas. Nos Estados Unidos, em diversos estados, é proibido multa por
meio de dispositivos eletrônicos.
5 https://www.theguardian.com/cities/2015/may/29/do-20mph-speed-limits-
actually-work-london-brighton.
6 http://www1.folha.uol.com.br/cotidiano/2016/10/1822120-acidentes-fatais-
caem-52-nas-marginais-tiete-e-pinheiros-em-sp.shtml.
7 Ver Hausman (1978).
11
VARIÁVEIS DEPENDENTES
LIMITADAS
E
ste capítulo apresenta métodos para a estimativa de
modelos em que a variável de interesse é limitada. Outras
estratégias de estimação podem ser utilizadas uma vez que
conhecemos a natureza do processo gerador da variável
de interesse.
11.1 MODELOS DE VARIÁVEL DEPENDENTE BINÁRIA
No Capítulo 6 discutimos o modelo de probabilidade linear para a
estimação por MQO de um modelo de regressão linear em que a
variável y é binária (variável dummy). Modelos cuja variável
dependente é binária são chamados de modelos de escolha
discreta, pois basicamente buscam entender o que leva os
indivíduos, firmas, governos a adotarem uma ação em detrimento de
outra. As aplicações mais comuns destes modelos são para
entender a participação na força de trabalho (y = 1 refere-se aos
trabalhadores empregados e y = 0 se refere às pessoas que não
participam do mercado de trabalho), analisar os determinantes da
pobreza (y = 1 refere-se às famílias/indivíduos que estão abaixo da
linha de pobreza e y = 0 se refere às famílias/indivíduos que estão
acima da linha de pobreza), estudar a decisão de consumo de um
bem complexo (como habitação, carro etc.), verificar como pessoas
escolhem modal de transporte, entre outros.
Vimos que quando a variável dependente é binária (y), temos
que
Podemos propor um modelo linear nos parâmetros para

descrever a relação entre y e um vetor x de variáveis explicativas:
Se vale a Hipótese 5.4 de exogeneidade dos x, (E (u|x1, ..., xk) =

0), e sabendo que y tem uma distribuição Bernoulli, temos
Assim,
Note que a probabilidade de sucesso, condicional aos x’s, é a

própria esperança condicional de y e é uma função linear de x1, …,
xK e dos parâmetros. Logo, a interpretação dos βj's será em termos
de variação na probabilidade marginal de y.
Podemos escrever u em função dos resultados de y, para

facilitar a derivação dos resultados importantes da regressão:
Assim, a variância dos erros pode ser escrita da seguinte forma:
Vimos que a estimação por MQO gera estimadores não viesados

sob as quatro primeiras hipóteses do modelo de regressão múltipla.
No entanto, os erros são naturalmente heterocedásticos. É possível
corrigir esse problema reestimando o modelo usando o método
MQG, ou reestimando a variância por White ou bootstrapping. Além
disso, como o MPL não impõe restrições aos valores das
probabilidades,1 não há garantia que seja um valor entre
0 e 1.
No entanto, estes problemas também podem ser superados se
usarmos modelos de escolha binária com formas funcionais não
lineares impondo que seja um valor entre 0 e 1, da
seguinte forma:
Em que G(.) é uma função distribuição de probabilidade

acumulada tal que 0 ≤ G (Z) ≤ 1 ∀ Z ∈ R.
Existem várias funções G(.) não lineares que restringem essa
probabilidade ao intervalo [0,1]. As duas funções de distribuição de
probabilidade mais utilizadas são:2
1. Função de distribuição de probabilidade logística:
. É uma função crescente e o seu uso vai
levar ao modelo que chamamos de “Logit”.
2. Função distribuição de probabilidade da Normal Padronizada
. O seu uso leva ao modelo “Probit”.

Note que ambas, como são funções distribuição de
probabilidade acumuladas, têm limites entre 0 e 1 (Figura
11.1).
FIGURA 11.1
Função de distribuição de probabilidade acumulada: Normal e Logística.
Podemos derivar os modelos Probit e Logit usando uma variável
dependente auxiliar, chamada de variável latente (denotaremos
essa variável por y*). A ideia é que essa variável possa assumir
valores não restritos e que a transformemos para gerar resultados
dentro de um intervalo restrito (no nosso caso, no intervalo de
valores possíveis de uma probabilidade).
Inicialmente, modelamos a probabilidade de um indivíduo tomar
uma decisão de forma linear
Os betas medem efeitos marginais de x sobre a variável latente

y*. Podemos exemplificar essa variável por meio da ideia de
benefício líquido. Imagine que ela representa o benefício líquido de
se tomar uma decisão (adquirir um carro, ou andar de transporte
público, ou de participar do mercado de trabalho). Não observamos
esse benefício, mas observamos o resultado (compra efetivada, ou
uso de transporte público, ou participação no mercado de trabalho).
Logo, se o benefício líquido for positivo ou nulo para o indivíduo i,
teremos yi = 1, e se ele for negativo, teremos yi = 0:
Portanto, podemos escrever y em função da variável latente

(usando uma função indicadora):
Utilizando a variável latente, reescrevemos as probabilidades da

seguinte forma:
Ou seja, G ( xβ) é equivalente a P (y = 1| x). Note que u também

tem distribuição logística ou normal padronizada, logo é simétrica
em torno de zero: 1 – G (–Z) = G (Z) ∀ Z ∈ R. A variável latente é
considerada apenas um instrumento de análise na modelagem da
decisão.
Os efeitos parciais (marginais) serão:
em que
Como g (Z) é uma função densidade de probabilidade (sempre

positiva), o sinal do efeito marginal dependerá do sinal de βj. Outra
questão importante é que o tamanho do efeito depende de valores
das variáveis explicativas, pois elas influenciam o valor de g ( xβ).
Em geral, utilizam-se valores de referência da amostra para
computar os efeitos marginais (média amostra, mediana da amostra
ou qualquer outro valor que seja consistente com valores possíveis
para a população).
A interpretação dos efeitos se dá em pontos percentuais. Veja o
Quadro 11.1 com um exemplo.
QUADRO 11.1
Consumo de cigarro no Brasil
Se estamos interessados em entender o comportamento de
consumo de cigarro no Brasil, podemos fazê-lo usando dados da
PNS de 2013 para estimar um modelo em que a variável
dependente é binária (e igual a um para os indivíduos que fumam) e
as variáveis independentes são as características dos indivíduos. A
Tabela 11.1 apresenta os resultados das estimações dos modelos
MPL, Probit e Logit, considerando o seguinte modelo:
TABELA 11.1
Efeitos marginais e erros-padrão estimados: MPL; Logit; e Probit
(1) (2) (3)

y = I (Indivíduo
Fuma) MPL Logit Probit
alfabetizado –0.119*** –0.117*** –0.118***

(0.00505) (0.00620) (0.00630)
branco –0.0190*** –0.0189*** –0.0192***
(0.00294) (0.02860) (0.02900)
idade 0.0108*** 0.0121*** 0.0119***
(0.000443) (0.00050) (0.00048)
idade2 – – –
0.000112*** 0.000126*** 0.000124***
(4.55e-06) (0.00001) (0.00001)
Erros-padrão em parênteses
*** p<0.01, ** p<0.05, * p<0.1
Para comparar os resultados, a Tabela 11.1 mostra os efeitos

marginais do probit e logit (na média de idade da amostra = 43
anos). Os resultados dos efeitos marginais são expressos em
termos de probabilidades marginais. Indivíduos alfabetizados, por
exemplo, são menos propensos a fumar do que indivíduos
analfabetos (efeito marginal negativo). Esse comportamento foi
observado para os três modelos e foi estatisticamente significante a
1%.
Note que muitas das variáveis explicativas que utilizamos para
entender o consumo de cigarro no Brasil são também binárias. Na
Tabela 11.1 calculamos o efeito marginal dessas variáveis a partir da
variação da função de distribuição do modelo em relação a essa
variável. Para o modelo logit, calculamos:
Se uma variável explicativa xj for binária (ou discreta), o efeito

marginal não tem uma interpretação direta. Neste caso, podemos
reescrever o efeito parcial na variação ∆x1 = 1 da seguinte forma
(considerando as demais variáveis fixas):
Estimação por Máxima Verossimilhança para Modelos Probit/Logit
No caso dos modelos de escolha binária (Logit e Probit), a
densidade condicional é determinada por dois valores:
Supondo que temos uma amostra aleatória {(x1i, …, xki, yi),∀ i =

1, … , n}, podemos escrever resumidamente, para cada i, a
probabilidade de observar yi condicional a xi:
A função verossimilhança será, portanto, o produtório em i das

densidades individuais. Isto porque a nossa amostra é aleatória, por
hipótese, o que gera uma sequência de variáveis aleatórias
independentes e identicamente distribuídas:
Podemos fazer uma transformação monotônica usando o

logaritmo neperiano (sem alterar o resultado da maximização).
Assim, temos a seguinte função log-verossimilhança a ser
maximizada:3
Os estimadores de máxima verossimilhança dos modelos de
escolha discreta, Probit ( probit) ou Logit ( logit), serão o resultado da
maximização da função anterior, substituindo a respectiva função
G(.) do modelo (normal padronizada ou logística, respectivamente):
Os estimadores de máxima verossimilhança são obtidos por

solução numérica iterativa e terão boas propriedades assintóticas
(serão consistentes, assintoticamente normais e assintoticamente
eficientes).
Sobre a escolha entre probit e logit, os resultados são similares
para amostras com poucos valores extremos (outliers). A função
logística tem um desempenho um pouco melhor para amostras com
mais valores extremos.4
O estimador encontrado para o Modelo de Probabilidade Linear,
estimado por MQO, embora tenha interpretação direta (ou seja, não
é preciso calcular os efeitos marginais, pois eles são dados pelos
próprios betas da regressão), não captura as não linearidades do
modelo verdadeiro de escolha discreta.5 Os métodos Probit e Logit
capturam tal não linearidade, mas não é possível interpretar os
estimadores diretamente da regressão. Reescrevendo o efeito
marginal da variável xj (contínua) sobre y com os estimadores de
máxima verossimilhança encontrados, temos:
O vetor de variáveis x* indica os valores da amostra para os

quais pretendemos calcular o efeito marginal (média da amostra,
mediana, quintis etc.). Lembre-se que o cálculo do efeito marginal é
diferente para variáveis explicativas discretas (por exemplo, Xk).
Como os efeitos marginais são funções não lineares dos

estimadores, temos que os erros-padrões são calculados com base
em uma aproximação linear (método delta).
Devido às boas propriedades assintóticas dos estimadores,
podemos usar uma grande variedade de testes para testar
hipóteses sobre os parâmetros: teste t, para hipóteses individuais; e
testes Multiplicador de Lagrange (LM, na sigla em inglês), Wald e
Razão de Verossimilhança (LR, na sigla em inglês),6 para hipóteses
conjuntas. Todos estes testes serão válidos para amostras
grandes.7
Devido à não linearidade do modelo, não podemos usar a
medida de R2 usual para explicar o ajuste do modelo estimado aos
dados da amostra. Entretanto, podemos calcular uma medida
denominada por pseudo-R2 (desenvolvida por McFadden8)
comparando os valores da função log-verossimilhança entre o
modelo completo (lnLIR = ln [L ( β│ xi, yi) ] ) e o modelo só com o
intercepto ((lnLR = ln [L (β0│yi) ] ):
Lembre-se que a função log-verossimilhança é sempre negativa,

por conta do logaritmo. Assim, |lnLIR | ≤ | lnLR |. Se o vetor de
covariadas x = x1, ⋯ , xK for irrelevante para o modelo, = 1 e,
portanto, pseudoR2 = 0. Se lnLIR for o máximo possível, lnLIR = 0, a
medida de pseudoR2 é igual a 1.
Essa medida de R2 é comparável ao R2 do MPL (podemos
também calcular que seria uma medida de ajustamento
tanto para o modelo logit como para o modelo probit).
QUADRO 11.1
Consumo de cigarro no Brasil (continuação)
A Tabela 11.1 apresentou as estimativas do modelo que busca
entender os determinantes do comportamento tabagista para o
Brasil. O MPL foi estimado por MQO, e os modelos Probit e Logit
foram estimados por Máxima Verossimilhança. Podemos
acrescentar à tabela os resultados do R2 e pseudo-R2-estimados.
Note que o coeficiente de ajustamento foi bastante similar para os
três modelos.
TABELA 11.2
Efeitos marginais e erros-padrão estimados por MQO e MV
(1) (2) (3)

Y = I (Indivíduo
Fuma) MPL Logit Probit
alfabetizado –0,119*** –0,117*** –0,118***
(0,00505) (0,00620) (0,00630)
branco –0,0190*** –0,0189*** –0,0192***
(0,00294) (0,02860) (0,02900)
idade 0,0108*** 0,0121*** 0,0119***
(0,000443) (0,00050) (0,00048)
idade2 – – –
0,000112*** 0,000126*** 0,000124***
(4,55e-06) (0,00001) (0,00001)
R2 (pseudo R2) 0,0203 0,0241 0,0239
Erros-padrão em parênteses
*** p<0,01, ** p<0,05, * p<0,1
11.2 MODELOS DE VARIÁVEL DEPENDENTE EM PROPORÇÃO
Muitos modelos caracterizam-se pela variável dependente como
uma proporção. Como exemplo, temos modelos que buscam
entender os fatores que determinam a participação de mercado
(market share) das empresas, ou quando o nosso interesse é
explicar os determinantes de índices conhecidos. Nestes casos, não
podemos usar a abordagem de variável discreta, pois a variável
dependente, apesar de limitada entre 0 e 1, não é mais discreta e,
portanto, assume infinitos valores dentro deste intervalo.
Supondo uma amostra de i observações, a variável dependente
observada é uma proporção Pi. Nestes casos, podemos modelar a
probabilidade por meio de uma função logística:
Note que é possível transformar a função anterior de forma a

linearizar o modelo nos betas:
O termo é conhecido por “odds ratio” em favor do evento
que se mede na proporção, ou seja, se estamos medindo a
participação no mercado de trabalho de determinada região, a razão
será a probabilidade de participação de seus trabalhadores sobre a
probabilidade de não participação no mercado. Note que o logaritmo
neperiano deste termo, considerando uma função logística, torna o
modelo linear nos parâmetros. Esse modelo também é conhecido
por “Regressão Beta”.
Para o intervalo de P entre 0 e 1, temos que varia de – ∞
a + ∞, eliminando as restrições de valores que temos com as
proporções.
Assim, podemos estimar o seguinte modelo:
Este modelo será naturalmente heterocedástico, logo podemos

estimar por MQG ou por MQO e reestimar o estimador da variância
por White. Podemos, também, estimar o modelo por máxima
verossimilhança, uma vez que conhecemos a natureza da geração
de y. Estes modelos geram estimadores com boas propriedades
assintóticas.
Note que, novamente, os efeitos marginais não são diretamente
medidos pelos betas. Estamos, em geral, interessados em medir o
efeito das variáveis explicativas sobre as proporções. Seja:
Para encontrar o efeito marginal da variável xj sobre P,

derivamos a equação anterior em xj:
Assim, precisamos avaliar em valores de x. Como fizemos no
modelo logit e probit, podemos usar valores de referência da
amostra, como a média, mediana quantis, entre outros.
QUADRO 11.2
Efeito dos gastos com campanha eleitoral sobre o
percentual de votos
Usando dados sobre a eleição para vereadores no município de São
Paulo em 2012, tentamos entender como a participação de votos
conquistados por partido se relacionam com os gastos totais da
campanha (soma dos gastos para todos os candidatos que
concorreram pelo partido) em milhões de reais. Estimando o modelo
linear por MQO obtemos:
Estimando o modelo utilizando a função logística, chegamos nos

Conforme vimos, a interpretação dos coeficientes da segunda
equação não é direta. Faremos a interpretação dos resultados para
o partido com gasto médio em campanha que é de
aproximadamente R$ 3.661.000 ou R$ 3,661 milhões. Aplicando os
valores à formula do efeito marginal, chegamos à conclusão que o
aumento em um milhão reais na campanha do partido com gasto
médio aumenta seu share nos votos em 0,0432 ou em 4,32 pontos
percentuais, enquanto o resultado da primeira equação aponta para
um aumento de apenas 0,66 pontos percentuais.
11.3 MODELOS DE VARIÁVEL DEPENDENTE CENSURADA
Outros modelos observados em análises empíricas possuem
variáveis dependentes com características de variáveis contínuas e
discretas. Um exemplo seria equações de demanda com solução de
canto, ou seja, parte da população decide consumir positivamente o
bem (y > 0) e uma grande parcela da população decide não adquirir
o bem (y = 0). Neste caso, a distribuição de probabilidades da
variável y, condicional a x, não é inerentemente contínua. Para
entender a distribuição de y|x, precisamos analisar tanto E (y|x),
quanto a P (y = 0|x). Quando y ≥ 0, E (y|x) pode não ser linear em X,
assim não podemos aplicar o logaritmo neperiano, uma vez que ln
(0) é indefinido. Além disso, Var (y|x) será heterocedástica. Assim,
precisamos analisar:
O modelo que usamos nestes casos, é o modelo tobit. Podemos

definir a variável dependente da seguinte forma (veja um exemplo
para a distribuição normal na Figura 11.2):
Em geral, o modelo linear (considerando y contínua) é uma boa

aproximação, mas pode gerar valores previstos negativos ( ).
Para escrever o modelo, novamente vamos considerar uma variável
dependente latente contínua (y*) tal que:
FIGURA 11.2
Distribuição de probabilidades da variável dependente para uma f(.) da
distribuição normal.
Podemos supor que tanto y* |x1, … , xk quanto u|x tenham uma
distribuição contínua conhecida (como a distribuição normal, por
exemplo). Assim, o y observado será uma função da variável
latente:
A ideia é que suavizemos o y, permitindo resultados negativos,

mas que esses resultados negativos em conjunto representem a
decisão acumulada no 0. A Figura 10.3 ilustra a relação entre a
função de distribuição de y e de y*.
FIGURA 11.3
Distribuição de probabilidades de y e y* para uma f(.) da distribuição normal.
Supondo uma distribuição normal para u|x, com média 0 e
variância σ2 (logo, terá uma distribuição normal padronizada):
Se observamos uma amostra aleatória {(x1i, ⋯ , xKi, yi); ∀ i = 1,

… n}:
Portanto, podemos escrever a função de log-verossimilhança

para cada i:
A função de log-verossimilhança de toda a amostra será o
somatório em i das funções individuais:
Os estimadores de máxima verossimilhança são resultado da

maximização da função anterior nos parâmetros β0, β1, … , βk, σ2.
Note que
Em que9
Portanto,
Em que é chamada de razão inversa de Mills (razão entre a

função densidade probabilidade da normal padronizada e da função
densidade acumulada da mesma distribuição). Logo, é um termo
positivo. Perceba que quando estimamos o modelo ignorando a
censura dos dados, estamos omitindo o termo , que por
definição é correlacionado com as variáveis explicativas, gerando,
portanto, viés nos estimadores de MQO.
Podemos escrever, agora, a esperança condicional de y:
Como a esperança anterior é não linear, tanto nos betas quanto

nas variáveis explicativas, os efeitos marginais do modelo não serão
dados diretamente pelos betas.10 Vamos calcular primeiramente o
efeito marginais sobre a população com y > 0:
O termo em colchetes é chamado de fator de ajuste, pois é

possível demonstrar que esse fator assume valores no intervalo
entre 0 e 1. Portanto, ele não afeta o sinal deste efeito, mas sim a
magnitude do mesmo. Novamente, precisamos avaliar esse efeito
marginal em valores de x (vimos que, em geral, avaliamos em
valores de referência da amostra, como a média ou mediana).
O efeito marginal do modelo completo ficaria, portanto:
Para o efeito marginal completo, também temos um fator de
ajuste, dado por , com valores entre 0 e 1. Note que quando P
(y > 0) → 1, o ajuste pouco importa. Isso significa que quando o
problema de censura é baixo, o modelo linear é uma boa
aproximação.
Assim como nos modelos logit e probit, o efeito marginal de
variáveis explicativas discretas (suponha uma xk binária qualquer)
deve ser computado de forma diferente. A comparação será mais
complicada para os modelos tobit.
Seja
QUADRO 11.3
Impacto de um imposto sobre bebidas açucaradas
Na literatura médica, o alto consumo de açucar está associado ao
aumento da obesidade, doenças cardíacas e desenvolvimento de
diabetes tipo 2.11 Países como Chile, Equador, Colômbia, Taiwan e
Tailândia têm discutido formas de regular e diminuir o consumo de
bebidas açucaradas (refrigerantes e sucos adoçados) por meio de
instrumentos econômicos – como impostos.
Para identificar o impacto de um aumento no imposto sobre o
consumo de bebidas açucaradas são necessários dados de
pesquisas orçamentárias. É comum encontrarmos nesses dados
domicílios que reportam despesas nulas com esse produto – isto é,
que não realizaram aquisições de bebidas açucaradas no período
da pesquisa. Esse tipo de comportamento caracteriza uma censura:
a variável dependente – no caso, o consumo de bebidas açucaradas
– assume valor zero para um número razoável de observações e é
uma variável aleatória contínua para valores estritamente positivos
de consumo.
Vimos que na presença de censura, o estimador de Mínimos
Quadrados Ordinários (MQO) do impacto analisado é viesado e
inconsistente. Nesse caso, o modelo linear mais utilizado é o de
Tobit, cujas decisões de dispêndio e do quanto é gasto pelas
famílias são estimadas em uma mesma etapa. No modelo Tobit,
cria-se uma variável latente y* (não observada) conforme mostrado
a seguir:
Em que a variável P representa o preço das bebidas açucaradas, M

representa a renda dos domicílios e X o conjunto de variáveis
controle – educação, idade, gênero, dentre outras.
Em uma regressão não censurada, o efeito de interesse é
identificado pelo parâmetro β1, usado para calcular a elasticidade-
preço da demanda por bebidas açucaradas. Tal parâmetro mostra a
redução esperada12 no consumo de bebidas açucaradas em
decorrência de variações no preço do produto – tal como um
aumento da alíquota do imposto incidente sobre o produto.
Utilizando dados da Pesquisa de Orçamentos Familiares – POF
(IBGE) de 2008/09, Pereda et al. (2017), estimaram o modelo
descrito anteriormente, obtendo os seguintes resultados:
Contudo, no modelo Tobit, a estimativa de β1 mede o efeito do preço

sobre y*, e não sobre y, nesse caso, a estimativa anterior indica que
o aumento de 10% sobre o preço das bebidas açucaradas leva a
uma redução de 0,9% no consumo desse tipo de bebida para
aquelas famílias cujo consumo é positivo, e tal efeito é
estatisticamente significante a 1% (estatística t = 8). Analisando o
efeito do aumento do imposto sobre toda a amostra – isto é,
incluindo também as famílias cujo consumo é observado de bebidas
açucaradas é nulo – o coeficiente estimado é 0,3% e
estatisticamente significativo a 1% (estatística t = 9).
Assim como nos modelos probit e logit, não podemos interpretar
a medida de R2 usual do modelo. Assim, para ter uma medida do
coeficiente de ajustamento da regressão, basta calcularmos a
correlação ao quadrado do y verdadeiro com o y previsto pelo
modelo ( , avaliado em um valor de referência da amostra, x*), tal
que
Assim, podemos escrever o pseudo-R2:
Entre as limitações do modelo Tobit, podemos destacar o fato de

que supomos apenas um mecanismo de escolha entre y = 0 e y > 0
e o valor de y. No entanto, podemos separar a decisão de participar
do mercado (y = 0, y > 0) que estamos estudando da decisão de
quanto consumir (y, tal que y > 0). Um dos modelos que separa
essa decisão é o chamado modelo de seleção de Heckman, que
veremos na próxima seção.
11.4 MODELO DE SELEÇÃO AMOSTRAL
O procedimento proposto por Heckman (1979) busca corrigir
problemas de viés de seleção. Viés de seleção ocorre quando a
amostra que se pretende analisar é não aleatória da população
(dizemos que a amostra é selecionada). Neste caso, precisamos
entender como se dá a seleção da amostra, ou seja, os motivos
pelos quais não observamos parte da amostra. O exemplo clássico
de aplicação do Modelo de Heckman é o modelo que explica o
retorno salarial de mulheres, pois só observamos os salários das
mulheres que estão na força de trabalho (isso não significa que o
salário potencial daquelas que não estão na força de trabalho seja
zero). Neste exemplo, precisamos entender dois comportamentos
para analisar o problema: a decisão das mulheres de trabalharem
ou não (quais variáveis determinam essa escolha); e os
determinantes salariais a partir da informação daquelas que
decidiram trabalhar.
Neste sentido, o procedimento de Heckman propõe a estimação
do modelo em dois estágios:
1. Estimação da equação de seleção: Estimação de um modelo
probit ou logit para explicar o problema de seleção. A partir
deste modelo, obtemos informações importantes para tratar a
equação estrutural:
Em que y2 é uma função indicadora que assume valor 1,

quando observamos os dados para y1, e valor 0, quando não
observamos y1; z denota a matriz das k variáveis que explicam
o problema de seleção da amostra; β é o vetor dos parâmetros
do modelo; e u é o termo aleatório do modelo.
2. Estimação da equação estrutural: Estimação por mínimos
quadrados da equação estrutural com a correção proposta por
Heckman.
Em que y1 é a variável dependente de interesse, apenas

observada para a amostra selecionada, x é a matriz de
variáveis que explicam y1.
Para estimar este modelo, é preciso supor as seguintes
hipóteses:
(i) (z1i, … zki, y2i) são observados para todas as
observações da amostra i.
(ii) y1i só é observada quando y2i > 1.
(iii) (εi, ui) são independentes de zi com média zero.
(iv) u ~ N (0,1).
(v) E (εi│ui ) = θ1 ui, ou seja, o vetor de termos aleatórios
segue uma distribuição normal bivariada com a covariância
entre os termos igual a θ1.
Pelas hipóteses (i) e (ii), podemos perceber a natureza da
seleção da amostra. A hipótese (iii) assegura a exogeneidade das
variáveis z1, … zk. A hipótese (iv), que é mais restritiva,13 se faz
necessária para derivar a esperança condicional dada a amostra
selecionada. Portanto, a esperança condicional da variável
dependente seria:
Podemos analisar dois casos distintos:

Caso 1: Se θ1 = 0, os termos aleatórios são não correlacionados, ou
seja, E ( y1│ z, u) = xα. Isto significa que não existe problema de
seleção amostral e a equação pode ser consistentemente estimada
por MQO usando a amostra selecionada.
Caso 2: Se θ1 ≠ 0, pela lei das expectativas iteradas. Temos:
Como f ( z, y2) = E ( ε│ z, y2 = 1), segue que f ( z, y2) = E ( ε│ u

> – zβ) = λ ( zβ), em que λ ( zβ) é a razão inversa de Mills, dada por
λ (.) = ϕ (.)/Φ (.). Portanto, podemos reescrever
Essa equação mostra que a estimação por MQO de uma

amostra selecionada omite a razão inversa de Mills, levando a
estimativas inconsistentes de α. Como Heckman (1979) observou, o
problema de amostra selecionada pode ser visto como um problema
de variável relevante omitida.
Uma vez especificado o modelo, é preciso estimar o vetor de
parâmetros β da equação de seleção para que seja possível estimar
a nova variável, , a ser incluída na equação estrutural. Como
o termo aleatório da equação de seleção segue uma distribuição
normal, estima-se esta equação, que é um modelo probit, por
máxima verossimilhança, para calcular os valores das funções de
probabilidade (densidade e acumulada) da normal e inserir os
valores projetados na equação estrutural, na forma de . Assim, a
equação estrutural pode ser consistentemente estimada por MQO.
Note que, embora haja a inclusão do previsor para a razão
inversa de Mills no modelo, a estimação por MQO da equação
estrutural modificada mantém a interpretação dos α’s como efeitos
marginais.
Vimos neste capítulo como estimar os modelos econométricos
quando a variável dependente possui uma distribuição conhecida.
Para estes casos, tratamos de três modelos específicos: i) quando a
variável dependente é binária (portanto, tem distribuição Bernoulli);
ii) quando a variável dependente é uma proporção (neste caso,
podemos transformar o modelo de forma a estimar um modelo não
limitado); e iii) quando a variável dependente é censurada em algum
ponto (portanto tem distribuição contínua em parte do domínio, e
distribuição discreta no ponto da censura). Em todos esses casos,
teremos modelos não lineares nos parâmetros. Entretanto, como
conhecemos a natureza da distribuição dos dados (ou supomos,
como no caso do Tobit), podemos estimá-los usando o método de
máxima verossimilhança. Assim, temos que as propriedades
assintóticas dos estimadores serão boas e, portanto, poderemos
realizar inferência estatística a partir dos estimadores de MV. Por
fim, estudamos o modelo de seleção de Heckman, utilizado quando
observamos uma amostra selecionada para o nosso problema de
estudo. Nesse caso, precisamos entender os motivos que levaram à
seleção para, então, corrigir a equação estrutural e estimar
consistentemente o modelo de interesse.
11.6 EXERCÍCIOS
1. Sobre o Modelo de Probabilidade Linear y = β0 + β1 x1 + ⋯ + βk

xk + u, em que y é uma variável binária assumindo somente os
valores 0 e 1, julgue os itens a seguir.
a) A probabilidade de sucesso P (y = 1 | X) é igual à
esperança condicional de y, (E (Y|X)), sendo, assim, a
probabilidade de resposta linear nos parâmetros.
b) βj pode ser interpretado como a mudança em y devido ao
aumento de uma unidade em xj, mantendo os demais
fatores fixos.
c) O Modelo de Probabilidade Linear será homocedástico.
d) Uma das limitações do MPL é que as probabilidades
previstas pelo modelo podem estar abaixo de zero ou
acima de 1.
2. Com relação aos modelos logit e probit de respostas binárias,

julgue os itens a seguir:
a) Eles evitam as limitações do MPL ao proporem modelos
em que a probabilidade de resposta é função não linear
dos parâmetros e assume valores apenas no intervalo de
zero a um.
b) Utilizamos o método de Mínimos Quadrados Ordinários na
estimação desses tipos de modelo de resposta binária.
c) Os efeitos relativos de duas variáveis explicativas
contínuas sempre irão depender dos valores em que
estamos avaliando essas variáveis.
3. Mostre qual é a função log-verossimilhança no modelo Logit.

Obtenha as condições de primeira ordem para o modelo com
constante e k variáveis explicativas.
4. Explique qual a lógica do Pseudo R2 ou McFadden R2 = 1 –

no modelo Probit.
5. Seja P (y = 1│x, c) = ϕ ( xβ + γc), em que x é 1xK com xi ≡ 1 e c

é uma variável explicativa. No modelo de variável latente, temos
Em que y = 1[y* ≥ 0] e u|x, c ~ Normal(0,1).

Suponha que x e c sejam independentes e c ~ Normal(0, τ2).
Suponha também que x e c também são independentes de u.
a. Escreva y* ignorando c nas estimativas dos β. Qual será o
novo termo de erro?
b. Encontre a variância do termo de erro obtido em a. Qual é
a distribuição de probabilidades desse erro?
c. Encontre P (y = 1│x) usando a nova distribuição do erro.
d. Qual é o efeito de ignorar a variável c nas estimativas dos
betas e nos efeitos parciais?
6. Suponha o modelo de Tobit Y = Xβ + u. Seja x1 = log (z1), sendo

esse o único lugar que z1 aparece em x.
a) Mostre que:
Em que β1 é o coeficiente em log (z1).

b) Se , mostre que:
Em que β1 é o coeficiente em z1 e β2 é o coeficiente em .
7. Uma universidade possui um sistema de vestibular da seguinte

maneira: alunos que obtêm notas na prova abaixo de 100 são
automaticamente reprovados. Alunos que conseguem uma nota
maior que 100 são elegíveis para continuar no processo e
posteriormente serem selecionados a partir de critérios diversos.
A universidade armazena sua base de dados da seguinte forma:
Suponha que a comissão esteja interessada na relação entre a

nota obtida no exame e as características do aluno. O
economista propõe o seguinte modelo:
Onde y1 é a nota observada do aluno i e xi é o vetor de

características do aluno i. O economista, então, estima a
equação anterior por MQO usando apenas os valores de 100
ou mais.
a) Qual o problema de se estimar a regressão proposta?
b) E se utilizarmos também os valores de y0 na regressão,
ainda assim existiria algum problema?
8. Com os dados do Censo Demográfico de 2010 tentamos explicar

a proporção de domicílios que possuem computador com
internet em casa a partir da renda média domiciliar (em mil reais)
dos municípios do estado do Rio Grande do Sul. O modelo foi
estimado usando tanto a proporção (Modelo I) quanto a
proporção modelada por logit (Modelo II) como variável
dependente. As equações a seguir mostram os resultados,
lembrando que os coeficientes da equação em que se modela a
proporção por não são diretamente interpretáveis.
Suponha que o governo dê R$ 1.000,00 para todos os

domicílios do estado. Qual seria o impacto da ação do governo
na proporção de domicílios que possuem computador com
internet para os municípios com renda média R$ 2.000,00?
Compare as conclusões das duas estimações.
9. Usando os dados pnscigs.xls, veremos se há grandes

diferenças entre os resultados de um modelo de probabilidade
linear e um modelo Probit para a probabilidade de um indivíduo
fumar.
a) Faça a regressão da variável dummy que indica se o
indivíduo fuma ou não contra sua idade, e variáveis dummy
que indicam se é alfabetizado, se é mulher e se é branco.
O que você conclui sobre o efeito da idade sobre consumo
de cigarro?
b) Verifique se algum valor predito da variável dependente
ficou abaixo de 0 ou acima de 1. Qual a probabilidade de
um homem, branco, analfabeto com 35 anos ser fumante?
c) Estime o mesmo modelo usando um Probit. Guarde os
valores preditos da probabilidade. Qual a probabilidade de
um homem, branco, analfabeto com 35 anos ser fumante?
d) Compare as probabilidades preditas dos dois modelos
(valores máximos e mínimos). Em média, os resultados
diferiram muito?
10. A base de dados vereadorsp.csv traz informações sobre a

eleição de 2012 para vereador no município de São Paulo.
Usando esses dados:
a) Verifique qual a porcentagem de eleitos (seja por quociente
partidário ou por média). Crie uma variável que aponte
quem foi eleito.
b) Estime de forma manual um modelo de probabilidade linear
em que a variável dependente é a variável dummy que
indica que se o candidato foi eleito ou não, e a variável
explicativa os gastos em campanha, medidos em mil reais.
Confira se os resultados se mantêm ao fazer as
estimações de forma direta.
Agora estimaremos um Logit:
c) Qual a função log verossimilhança? Construa essa função
com os dados disponíveis. Maximize a função e encontre
os parâmetros (você pode usar o Excel ou um software
estatístico).
d) Estime por comando direto do software. Os resultados são
os mesmos?
e) Calcule o efeito marginal dos gastos para um candidato
com gasto igual a média. Compare os efeitos marginais
dos dois modelos.
11. Usando o arquivo pnscigs.xls, analisaremos agora os

resultados de um modelo linear e um modelo Tobit para a
quantidade de cigarros fumados ao dia.
a) Faça a regressão do número de cigarros fumados ao dia
contra idade e variáveis dummy que indicam se é
alfabetizado, se é mulher e se é branco. Guarde o valor
predito de cigsdia. Interprete os coeficientes.
b) Tabule a variável cigsdia e veja se o modelo Tobit se
adequa ao caso. Se sim, escreva o modelo da variável
latente.
c) Estime o mesmo modelo por Tobit. Calcule os valores
preditos para a variável observada. Calcule, em média, a
diferença de cigarros fumados ao dia entre homens e
mulheres.
d) Compare os resultados dos dois modelos.
1 As propriedades das probabilidades são: i) a probabilidade de um evento

vazio é nula; ii) a probabilidade do espaço amostral (conjunto de todos os
resultados possíveis de um experimento) é 1; e iii) o valor da
probabilidade está sempre no intervalo fechado [0,1].
2 Podemos usar outras formas funcionais para a função de distribuição
acumulada, como a distribuição Weibull, em que P (y = 1| x) = exp (–exp
(xβ)).
3 Veja uma revisão sobre o método de máxima verossimilhança no
Capítulo 1.
4 A forma funcional da logística é, também, mais tratável do que a forma
funcional da distribuição normal.
5 Um truque rápido para compararmos os coeficientes estimados do logit e
do probit consiste em multiplicar os coeficientes do Probit por 1,6 =
ou multiplicar os coeficientes do Logit por 0,625 = . Isto porque no
probit a G (0) = 0,4 e no logit a G (0) = 0,25. Para comparar os
coeficientes do logit e probit com o MPL, basta dividir o coeficiente do
Logit por 4 e o coeficiente do Probit por 2,5.
6 Baseado na diferença entre a log-verossimilhança do modelo sob H0
(modelo restrito) e a log-verossimilhança do modelo irrestrito.
7 O teste LR não pode ser usado para comparar os modelos probit e logit,
pois neste caso a estatística de teste não converge para uma distribuição
χ2. Só podemos usá-lo para testar especificações dentro da mesma
estimação.
8 Ver McFadden (1974).
9 Se z ~ N (0, 1) e ∀ c constante,
10 Para a derivação desse termo, ver Wooldridge (2015).
11 Ver Malik et al. (2010; 2013).
12 No caso de bens normais.
13 Apesar de ser restritiva, supor que a variância dos erros é 1, é razoável,

uma vez que y2i é uma variável binária.
12
AVALIAÇÃO DE IMPACTO: TÓPICOS

AVANÇADOS
A ideia deste capítulo é retomar a busca por causalidade usando

uma forma alternativa ao modelo linear de apresentar o problema: o
Modelo de Resultados Potenciais. Nele, vamos discutir o problema
fundamental da inferência causal, que é o que chamamos até o
momento de efeito causal (ou a identificação) do modelo. Este
formato é bastante utilizado na literatura de avaliação de impacto de
políticas. Esses modelos originaram-se, por exemplo, na literatura
de estatística para avaliar o efeito de intervenções ou tratamentos
médicos.
Avaliar o impacto de políticas, ou de qualquer intervenção, é
importante para entender se as mesmas estão alcançando seus
objetivos, ou para decidir entre quais políticas (dentre aquelas que
estão sob avaliação) se deve investir. Em geral, o objetivo é analisar
se o impacto potencial da política (o impacto ideal desenhado pelos
formuladores) é igual ao impacto efetivo, pós-implementação.
Outra questão interessante sobre a avaliação de políticas é o
entendimento dos seus diferentes efeitos no tempo e entre grupos
de indivíduos: Será que os efeitos de curto, médio e longo prazos
são diferentes? Ou será que o efeito da política é diferente para
homens e mulheres?
Vimos ao longo do livro a importância de se estabelecer uma
relação causal entre a variável de interesse, ou a dimensão da
política em análise (y), e a variável explicativa, ou que descreve a
política em questão (w):
Neste capítulo, vamos descrever análise a partir da
implementação da política de forma simples, usando uma variável
dummy: às observações impactadas, as quais chamaremos de
tratadas, atribuiremos o valor 1; e às observações não impactadas,
chamadas de não tratadas ou controle, atribuiremos o valor 0.1
Nesse tipo de modelo, o uso de experimentos em economia pode
facilitar a obtenção de causalidade. No entanto, como podemos
buscar causalidade usando dados quasi-experimentais (observados,
ou experimentos naturais)? Vimos algumas estratégias ao longo do
livro, mas vamos introduzir outras abordagens neste capítulo.
12.1 EFEITO CAUSAL E MECANISMO DE SELEÇÃO
Como vimos no Capítulo 2, é importante distinguirmos os conceitos
de correlação entre as variáveis (simples associação estatística
entre elas) da causalidade entre elas (resultado de uma
ação/tratamento aplicada a uma unidade). Para apresentar a
definição de casualidade nesta nova abordagem, vamos associar a
cada unidade observada um resultado potencial para cada situação:
yi (w = 1) é o resultado que será obtido se o indivíduo participar da
política; e yi (w = 0) é o resultado que será obtido se o indivíduo não
participar da política.2 Assim, o efeito causal do tratamento é dado
pela diferença entre os resultados potenciais: realizado (observado)
e não realizado (não observado).
Efeito Causal. Define-se efeito causal de um tratamento para

um indivíduo i em um dado instante de tempo por
ou
Em que:
w = 1 denota o tratamento e w = 0 o controle; e
y (w) denota o resultado potencial do tratamento ou do controle.
Não é possível encontrarmos o efeito causal para cada indivíduo

por conta do “Problema Fundamental de Inferência Causal”, ou seja,
o efeito causal depende dos dois resultados potenciais, mas um
nunca será observado (é um valor faltante, ou missing). Isto porque
nunca observamos o mesmo indivíduo, no mesmo instante do
tempo, nas situações de tratado e controle (ou ele é tratado, ou não
é). A solução consiste em buscar um estimador para o resultado não
observado (esse estimador será o que chamamos de contrafactual).
Podemos fazer isso de algumas formas usando dados
experimentais ou dados observados.
Sabemos que dados provenientes de experimentos geram,
naturalmente, uma exogeneidade da variável da política, pois as
unidades que receberão o tratamento são selecionadas
aleatoriamente (como em um sorteio) sendo, portanto, não
correlacionadas com outros fatores que determinam y. Assim, é
possível comparar o resultado dos indivíduos de ambos os grupos
(tratamento e controle) e concluir sobre o efeito da intervenção.
Na impossibilidade de implementação de um experimento,
usamos dados observados. Neste caso, podemos estimar o
contrafactual a depender da forma como os dados estão
estruturados:
• Usando indivíduos com características observadas

parecidas. Quando a seleção para o tratamento (ou escolha
dos beneficiários da política) ocorre por características
observadas, dizemos que há “seleção nas observáveis”. Neste
caso, podemos usar a análise de regressão ou o método de
propensity score matching para estimar.
• Comparar indivíduos em diferentes instantes de tempo.
Quando a seleção para o tratamento ocorre por características
observadas e não observadas (mas constantes no tempo),
veremos que os métodos de diferenças em diferenças e de
controle sintético podem ser utilizados. O método de controle
sintético ainda é aplicável quando essas características não
observadas variarem no tempo, mas ele terá outras limitações,
como veremos neste capítulo.
• Utilizando alguma variação exógena que influencie o
tratamento. Podemos explorar a relação entre o tratamento e
algum acontecimento exógeno, que influencie o tratamento,
para derivar bons estimadores. Os procedimentos mais
utilizados nestes casos são os métodos de variáveis
instrumentais (ou MQ2E), ou a estimação por regressão
descontínua (RDD).
A escolha do método é decorrente do entendimento dos motivos

que levaram os indivíduos a serem tratados ou não tratados, ou
seja, o que chamamos de mecanismos de seleção para o
tratamento, e do tipo de dados disponível.
O mecanismo de seleção, ou participação da política, é o
processo que determina quais unidades recebem ou não o
tratamento. Podemos descrevê-lo usando uma probabilidade. Em
experimentos aleatórios, o mecanismo é conhecido e controlado
pelo pesquisador (ele seleciona, de preferência aleatoriamente,
aqueles que serão tratados e não tratados), então o efeito causal é
direto e é possível comparar grupos tratados com controle. Em
estudos observacionais, o mecanismo não é conhecido ou
controlado (a forma funcional da probabilidade é desconhecida e
depende do formulador de política pública). Nesse caso, precisamos
entender as propriedades dos mecanismos de seleção para propor
o método de estimação do efeito causal da política.
Mecanismo de Seleção Regular: Um mecanismo de seleção é

dito regular se for:
12.1. Individualístico: a observação i só depende de suas
variáveis explicativas ou covariadas (xi), ou seja, não é
influenciada pelo que acontece com as demais unidades da
amostra (xj ∀ j ≠ i).
12.2. Probabilístico: todas as observações têm probabilidade
não nula de serem tratadas.
12.3. Inconfundível: a participação na política não depende do
resultado potencial (uma vez que controlamos pelas
características observadas denotadas por x).
Os experimentos aleatórios satisfazem diretamente as Hipóteses
12.1 a 12.3. Se não for possível realizar um experimento aleatório,
mas as hipóteses ainda assim forem satisfeitas, dizemos que há
seleção em variáveis observáveis (x) e, portanto, podemos usar
essas variáveis para explicar a seleção para o tratamento3 via
análise de regressão (como fizemos ao longo do livro) ou por meio
da análise de propensity score matching. A ideia é, que condicional
a x, é possível reestabelecer as hipóteses anteriores.
Um mecanismo de seleção é irregular se alguma das Hipóteses
de 12.1 a 12.3 não for válida. Em geral, a hipótese mais difícil de ser
assumida é a 12.3, pois há dificuldades práticas em observar todas
as variáveis que explicam a participação no tratamento (é preciso
entender todos os motivos dos formuladores de política, ou dos
indivíduos, ao decidirem os critérios, além das questões práticas
que podem influenciar quem recebe ou não o tratamento). Em
outras palavras, podem existir outros fatores não observados para a
escolha de w que também estejam correlacionados com y. No caso
de mecanismos irregulares, podemos usar regressão descontínua,
variáveis instrumentais, diferenças em diferenças, ou controle
sintético, a depender da estrutura e disponibilidade de dados.
Veremos a diferença entre os métodos, mas antes vamos discutir as
formas de calcular os efeitos dos impactos pretendidos.
12.2 TIPOS DE EFEITOS DE TRATAMENTO
Estabelecido o problema de não se observar os dois resultados
potenciais dos indivíduos, precisamos definir como vamos comparar
os contrafactuais (como vamos encontrar o resultado do tratado,
caso não fosse tratado, ou a trajetória do controle, caso fosse
tratado). Estas comparações serão estimativas do efeito exato da
intervenção, que vimos que pode ser escrito para a unidade i no
período de tempo t por:
Uma forma de encontrar um estimador para esse efeito é

calculando uma média. Sendo esse o primeiro cálculo que veremos:
Efeito Médio do Tratamento (Average Treatment Effect em

inglês, ou ATE). O ATE busca medir o efeito médio para toda a
população. Como só observamos y (1) para as unidades
tratadas (unidades em que w = 1) e y (0) para as unidades não
tratadas (unidades em que w = 0), passamos o operador
esperança condicional à observação de w:
Um estimador, com base no método dos momentos, proposto

para esse efeito é:
Efeito Médio do Tratamento sobre os Tratados (Average
Treatment Effect on Treated em inglês, ATT). O ATT busca medir
o efeito médio apenas sobre as observações tratadas. Isso
porque, em geral, ao se avaliar uma política, o interesse recai
sobre encontrar o efeito sobre os beneficiários (participantes).
Seu estimador pelo método dos momentos é
Efeito Médio do Tratamento sobre os não Tratados (Average

Treatment Effects on Untreated em inglês, ATUT). O ATUT
busca medir o efeito médio apenas sobre os indivíduos do grupo
de controle. Esses dados podem ajudar na discussão sobre a
extensão do programa a quem não participou dele (possível
contágio, ou externalidade).
Seu estimador usando dados da amostra pode ser escrito por
Há relação entre esses efeitos e o viés de seleção. O viés de

seleção é a diferença média entre os dois grupos quando nenhum
recebe tratamento (viés de heterogeneidade pré-tratamento). Em
outras palavras, o viés dado pelo fato de os indivíduos já serem
diferentes antes do tratamento. Dentre os tipos de viés de seleção,
podemos citar os seguintes exemplos:
• Autosseleção: quando os indivíduos se autosselecionam para

participar do tratamento (exemplo: os trabalhadores mais
produtivos escolhem participar do treinamento da empresa).
• Seleção Burocrática: quando os indivíduos são selecionados
por alguma instituição para participar do tratamento (exemplo:
os trabalhadores menos produtivos são escolhidos para
participar do treinamento da empresa).
• Seleção Geográfica: quando os indivíduos são selecionados
por conta da sua localização geográfica (exemplo: uma política
estadual que afeta apenas os residentes do estado).
• Atrito: quando há perda de dados ao longo da análise por
motivos não aleatórios (exemplo: em uma análise de
determinantes da produtividade das firmas, algumas empresas
saem da amostra por terem decretado falência).
Nosso objetivo é encontrar efeitos do tratamento que eliminem o

viés de seleção. Se o mecanismo de seleção for regular, podemos
usar as variáveis observadas x para eliminar o viés, ou seja, isso
fará com que o viés condicional em x desapareça:
Isso significa que não existem características não observáveis

que determinam tratamento. Como consequência, temos
Dizer que o viés de seleção, condicional a x, é zero significa
assumir que as diferenças entre os grupos de tratamento e controle
desaparecem para os indivíduos com o mesmo conjunto de
características observadas (mesmos valores para todos os x’s).
12.3 SELEÇÃO EM OBSERVÁVEIS: ANÁLISE DE REGRESSÃO
Se o viés de seleção é eliminado quando condicionamos a x, há um
vetor de variáveis x que prevê o mecanismo de seleção para o
tratamento tal que, ajustando pelas diferenças nessas variáveis,
temos estimadores válidos para o efeito causal. As hipóteses de não
confundibilidade, de linearidade do modelo nos parâmetros e da
distribuição condicional de y| x justificam a regressão linear.
Assim, vamos discutir brevemente o uso do método de
regressão para estimar o impacto de uma política (w) sobre y.
Podemos escrever o modelo econométrico da seguinte forma (sem
e com um vetor de covariadas, respectivamente):
ou
Vimos que a hipótese importante para a identificação dos efeitos

causais é a média condicional zero, E (εi |w) = 0 ou E (εi│w, x) = 0.
Se vale a última hipótese de exogeneidade, e não a primeira, temos
que a presença de x é o único motivo para que ε e w sejam não
correlacionados. Se observarmos essa hipótese, junto com as
demais hipóteses de regressão linear múltipla, sabemos que
podemos estimar essa equação por MQO e obter estimadores com
propriedades desejáveis.
Uma crítica à regressão linear é que ela é uma aproximação
razoável localmente, mas não o é globalmente. Quando há muita
diferença nas variáveis observadas entre os grupos (problema esse
chamado de falta de suporte comum), há problemas na
extrapolação na regressão linear. Um exemplo de falta de suporte
comum são os programas de transferência de renda, em que
recebem a transferência indivíduos de baixa renda, ou seja,
podemos não observar indivíduos com mesma renda para poder
comparar o efeito da política. Para avaliar se usamos a análise de
regressão neste caso, a regra de bolso é que quando o grupo de
tratamento tem um determinado X com mais de ½σX de diferença
(em que σX é o desvio-padrão da variável), o método de regressão
pode não remover viés associado a diferenças das covariadas.4
Uma alternativa ao método de regressão é a análise usando
Propensity Score. Este método pode eliminar o viés de seleção que
surge de um grupo de comparação inadequado (exemplo: indivíduos
não tratados podem ter comportamento diferente daquele que
indivíduos tratados teriam caso não fossem tratados).
12.4 ANÁLISE USANDO PROPENSITY SCORE
Um dos estimadores utilizados quando há seleção em
características observáveis é calculado por meio da análise de
Propensity Score Matching. A ideia é comparar
unidades/observações tratadas e não tratadas que possuem as
mesmas características (x), ou seja, que tenham as características
balanceadas. No entanto, há um problema de dimensionalidade em
fazer essa comparação. Por exemplo, suponha que fôssemos
comparar indivíduos e que tivéssemos 20 variáveis binárias que os
caracterizam. Portanto, teremos 220 = 1.048.576 possibilidades de
grupos possíveis com o mesmo X. Para eliminar o problema de
dimensionalidade das variáveis explicativas ao compará-las,
estimamos o Propensity Score. O Propensity Score (PS) é
estimador da probabilidade de seleção ao tratamento condicional a
um vetor de covariadas, P (w = 1│x), estimado usando modelos
Probit ou Logit. Note que o p (x) resume todas as informações do
vetor x de cada observação (vetor de covariadas pertence ao ℜK e
o PS, ou p (X), pertence aos ℜ).
A hipótese de identificação deste método apoia-se no fato de o
mecanismo de seleção para o tratamento ser determinado por
variáveis observáveis. Em outras palavras, não há nada de
sistemático que faça com que um indivíduo seja tratado ou não.
Após condicionar a x, sobra apenas uma aleatoriedade.
As etapas de análise do método de Propensity Score Matching
(PSM) podem ser assim resumidas:
1. Procurar as melhores variáveis/covariadas que estão

causando a falta de balanceamento entre grupos de
tratamento e controle (i.e. variáveis que afetam a seleção para
o tratamento). A falta de balanceamento pode ser verificada
por testes bivariados.
2. Estimar o PS usando um modelo de escolha discreta: logit ou
probit.5 O PS vai representar um vetor de covariadas (P (w =
1│x) = p (x)). A ideia é que pares de participantes dos grupos
de tratamento e controle, que compartilham o mesmo p (x),
são considerados comparáveis.
3. Pareamento (matching) usando o valor do p (x) dos tratados e
não tratados, ou seja, encontrar pares de observações
tratadas e não tratadas com mesmo valor de p (x).
4. Análise pós-pareamento: (i) cálculo do ATE e ATT; e ( ii ) teste

do sucesso do balanceamento.
Rosenbaum (2002) mostrou que indivíduos com mesmo p ( x)

possuem a mesma distribuição em x (ou seja, são pares
homogêneos). Assim, se a seleção para o tratamento e as
covariadas são condicionalmente independentes dado p ( x),
podemos escrever a diferença esperada entre resultados
observados do tratamento e do controle da seguinte forma
Há outras abordagens para fazer a análise usando o PS, mas

vamos focar em apenas no pareamento, que consiste na
comparação de y para tratados e não tratados com mesmo p ( x).
Isso implica que a média é não viesada para τ.

Antes do tratamento, devemos fazer o teste bivariado das
covariadas usando os grupos de tratamento e de controle. Se o
teste rejeita H0, i.e., se há diferença entre as covariadas dos grupos,
é preciso incluí-las no PS. Após o pareamento (matching), também
realizamos o teste bivariado entre os pares. Se não rejeitamos H0,
se não há diferenças entre os grupos, o propensity score explica as
diferenças observadas. Caso contrário, deve-se reestruturar o PS.
Para testar as diferenças entre os grupos, podemos usar uma
variedade de testes de duas populações (bivariados). Os mais
utilizados são os testes de diferença de médias, ou variâncias, o
teste Wilcoxon-Mann-Whitney Rank-Sum (que compara a soma do
rank das variáveis de grupo de controle e do tratamento em uma
sequência única) e o teste de Kolmogorov-Smirnov (este teste
compara as distribuições de amostras aleatórias independentes).6

Para estimar o propensity score, escrevemos a probabilidade
condicional de receber tratamento:
Como conhecemos a natureza da distribuição da variável

dependente (tem uma distribuição Bernoulli), podemos estimar os
β’s por Máxima Verossimilhança. É importante sempre fazer o
diagnóstico usual (verificar multicolinearidade, ajuste do modelo,
análise de sensibilidade), mas isso não é suficiente para responder
se representa o verdadeiro propensity score. Um bom modelo é
condição necessária, mas insuficiente, para um bom PS. O melhor
PS é aquele cujas variáveis incluídas tem respaldo teórico e que
propõe um bom balanceamento entre os dois grupos nas
covariadas.7,8

Uma vez estimado o p (X), pareiam-se os grupos de tratamento e
controle (matching das unidades para obtenção de contrafactual9).
Podemos usar vários critérios para parear as observações:
• Menor distância: Ordenamos aleatoriamente os participantes
e calculamos a distância10 entre o primeiro tratado e todos os
controles. A unidade j com a menor distância de i é escolhida
como par de i. Este procedimento é repetido até que pares
para todos os i sejam encontrados.
• Vizinho mais próximo: Sejam pi e pj os PS e I1 e I0 os
conjuntos das unidades tratadas e não tratadas,
respectivamente. Uma vizinhança contém um participante não
tratado j ∈ I0 como par de i ∈ I1 se a diferença absoluta dos PS
é a menor entre todos os possíveis pareamentos de i com
unidades não tratadas. Uma vez encontrado o par de i, este é
retirado de I0 (matching sem reposição). Para cada i há um j
(1-1 matching).
• Matching com threshold: O método de vizinho mais próximo
pode gerar vizinhos distantes, pois não há limite para a
distância entre os elementos a serem pareados. Assim,
podemos definir uma tolerância (threshold) ε > 0 para calibrar
o modelo tal que j é par de i somente se |Pi – Pj | < ε.11
• Vizinho mais próximo com threshold e distância

Mahalanobis: Consiste na combinação das técnicas
anteriores:
1. Ordena-se aleatoriamente os tratados e seleciona-se um
primeiro tratado i.
2. Verifica-se os indivíduos não tratados dentro do
threshold.
3. Calcula-se as distâncias Mahalanobis entre esses
participantes e o tratado com base em um número
(pequeno) de covariadas.
4. Escolhe-se j de modo a minimizar dij.
5. As unidades pareadas são removidas da base.
6. Retoma-se a análise até que todas as unidades tratadas
tenham encontrado seus pares.
Logo após o pareamento é importante checar se há balanceamento
das variáveis x na amostra pareada. Para tal, aplicamos os testes
de comparação de populações sobre a amostra pareada, sendo
uma amostra a dos indivíduos tratados e a outra dos indivíduos não
tratados que foram pareados (teste de média, teste Wilcoxon-Mann-
Whitney, ou teste Kolmogorov-Smirnov).
Verificado o balanceamento do pareamento, podemos estimar o
ATE e ATT. Vimos que o ATE será a média ponderada da diferença
de médias entre tratados e controle em todos os conjuntos
pareados. O ATT é a média ponderada da diferença de médias
entre tratados e controle apenas sobre a amostra de tratados.
Usamos apenas a amostra pareada para fazer esse cálculo. Veja
Abadie e Imbens (2006, 2008) para a discussão sobre inferência
dos efeitos calculados.
Mesmo após o pareamento, alguns valores de covariadas podem
ser observados apenas em um dos grupos. Isso é comum quando
temos poucos tratados e muitos controles, ou vice-versa. Nestes
casos, podemos selecionar uma subamostra de controles potenciais
(ou tratamentos potenciais) com base na informação pré-tratamento.
Busca-se uma subamostra que tenha maior sobreposição (overlap)
entre os grupos (excluindo unidades por trimming).12 A seguir,
veremos alguns métodos alternativos ao PSM e à análise de
regressão, principalmente quando há outros fatores (não
observados) que afetam a seleção para o tratamento.
QUADRO 12.1
Efeitos do vale alimentação e refeição sobre o consumo
de alimentos
O trabalho de Palialol e Pereda (2017) testa se famílias cujos
membros recebem vale alimentação, vale refeição ou similares
(chamados genericamente na literatura de in-kind transfers) tendem
a consumir mais alimentos do que consumiriam se recebessem a
mesma quantia em dinheiro (o que seria uma medida de distorção
dos vales). A distribuição de vales pode fazer sentido se a distorção
de consumo for direcionada a alimentos que contribuam para a
qualidade nutricional da família. Assim, esta pergunta de pesquisa é
importante para motivar políticas públicas voltadas à alimentação de
qualidade dos trabalhadores.
Para estimar o efeito desejado, idealmente deveríamos observar a
quantidade de alimentos consumidos pela mesma família na
situação em que ela recebe o benefício e na situação em que ela
não recebe (ou que recebe o valor em dinheiro). Observar esses
dois resultados é impossível por definição, pois uma vez que se
observa a família recebendo o benefício não se pode observá-la não
recebendo (no mesmo período de tempo), caracterizando um
problema de contrafactual.
Utilizando a mesma base de dados do artigo original, os autores
compararam a quantidade de alimentos (em kg) consumidos por
famílias que recebiam o benefício e famílias que não o recebiam. A
comparação foi feita utilizando Propensity Score Matching (PSM)
entre famílias que possuíam características observáveis similares,
por exemplo, famílias de mesmo tamanho vivendo em regiões
metropolitanas, com renda per capita similar cujos chefes possuem
mesmo nível educacional. Os resultados obtidos foram os seguintes:
Para checar o balanceamento após o pareamento, os autores

fizeram o teste de média entre as famílias pareadas, tratadas e não
tratadas:
TABELA 12.1
Teste de média sobre amostra pareada
Média Média dos

dos controles (após Diferença Estatística
Variável tratados matching) de médias t
Renda per capita 1212,300 1032,700 179,6 1,060
Número de pessoas 3,909 4,018 –0,110 –0,580
Anos de educação 8,457 9,012 –0,555 –1,170

do chefe da família
Emprego no setor 0,476 0,427 0,049 0,890

privado
Residência na 0,476 0,433 0,043 0,770

Região
Metropolitana
Ou seja, conclui-se que o efeito do vale sobre o consumo não foi
estatisticamente significativo.
12.5 MÉTODO DE DIFERENÇAS EM DIFERENÇAS (DD)
Apesar de termos introduzido o método de DD no Capítulo 10,
vamos agora colocar esse método no contexto de avaliação de
impacto. O DD parte da hipótese de que o tratamento e controle são
diferentes desde sempre (tanto em variáveis observadas quanto em
variáveis não observadas invariantes no tempo, os chamados
efeitos fixos). Para tal, são necessários dados em painel (ou cortes
transversais agrupados), pois ambos possuem dados antes e depois
da intervenção para os dois grupos (formando quatro grupos de
observações) em que apenas um grupo recebe tratamento no
segundo período.
A hipótese de identificação, que permite a construção de
contrafactuais das unidades tratadas no período pré-tratamento, é:
Hipótese de (tendências paralelas). Os fatores não

observados evoluem de maneira similar para tratamento e
controle ao longo do tempo (dados os observados).
Vimos que, para este método, precisamos de uma amostra

aleatória de N indivíduos em que cada indivíduo i pertence a um
grupo wi ∈ {0,1}, respectivamente, grupos de controle e tratamento,
e é observado no instante ti ∈ {0,1}, respectivamente, antes e depois
da intervenção. Além disso, para yi (0), temos:
em que β é o componente de tempo comum aos grupos, γ é o efeito

específico do grupo (invariante no tempo) e εi representa os fatores
não observados. Inicialmente, ignoramos a presença de covariadas
x, sem perda de generalidade. Assume-se que εi ⊥ (wi, ti), ou seja,
os fatores não observados são independentes do grupo e têm a
mesma distribuição no tempo, e que E (εi) = 0.
Para yi (1), temos a adição do efeito do tratamento (τ)
A equação de yi (0) é combinada com a equação de yi (1) de

modo que
e, portanto,
A diferença entre os períodos se presta a remover o viés

associado à tendência no tempo comum (não relacionada à
intervenção). A partir da regressão dos resultados observados.
A estimação por MQO gera o seguinte estimador para o efeito do

tratamento:
Tal que
A dupla diferenciação remove o viés da comparação que pode
ser resultado das diferenças permanentes entre os grupos e
também da comparação ao longo do tempo. Dessa forma, DD é o
ganho médio do tratamento no tempo subtraído do ganho médio do
controle no tempo.
Para fazer inferência, a amostra deve ser suficiente para cada
um dos quatro grupos. Note que é possível adicionarmos diversas
covariadas para controlar mudanças de composição (etnia, gênero
etc.). É possível, também, incluir diversos períodos de tempo e
grupos múltiplos.
QUADRO 12.2
Efeitos da Lei Antifumo sobre as internações por asma no
Brasil
Diversos municípios e estados brasileiros introduziram leis de
proibição de fumar em locais coletivos fechados ou parcialmente
abertos a partir de 2008, popularmente conhecidas como Leis
Antifumo. Antes disso, vigorava, no Brasil, a permissão da criação
de fumódromos nesses ambientes, o que foi vedado com as
restrições introduzidas. O objetivo da política é reduzir a exposição
dos indivíduos à fumaça do cigarro, pois há evidências de que isso
aumenta a incidência de diversas doenças respiratórias e
cardíacas.13
No Brasil, os estados que adotaram leis antifumo em 2009 são
Roraima, Amazonas, Paraíba, São Paulo, Rio de Janeiro e Paraná.
Os municípios de Belém/PA e de Salvador/BA também introduziram
leis próprias em 2009. Steffens e Pereda (2017), analisam o efeito
da política sobre a saúde dos indivíduos por meio da comparação
das taxas de internações anuais por asma no Sistema Único de
Saúde nos locais que introduziram as restrições com unidades que
tenham trajetórias semelhantes de internação antes de 2009, mas
não impactadas pela política. Para isolar o efeito sobre o fumo
passivo, podemos limitar as observações para internações em
indivíduos com até 18 anos, uma vez que o consumo de cigarro é
proibido para esse grupo etário. Esse modelo pode ser expresso da
seguinte forma:
O modelo DD com dados em painel permite a estimação dos efeitos
heterogêneos de uma política ao longo dos anos de sua adoção
(sendo t* o número de anos de adoção). O modelo anterior controla
para os efeitos fixos de município (αm) e por choques agregados no
tempo que tenham ocorrido em todos os municípios brasileiros no
período analisado (Dt). Estamos interessados na estimação dos
parâmetros , isso é, o efeito de t* anos de exposição à lei
antifumo em cada região brasileira (Sul, Sudeste, Centro-Oeste,
Nordeste e Norte). As autoras estimaram esse modelo usando
dados de internação por asma no período entre 2009 e 2014 (em
que as unidades de observação são os municípios brasileiros).
Na região Sul do Brasil, o efeito estimado foi de uma redução de
cerca de 20% da taxa de internações por asma entre pessoas de
até 18 anos nos municípios que adotaram Lei Antifumo, mas apenas
dois anos após a adoção.
FIGURA 12.1
Evolução temporal dos efeitos estimados da Lei Antifumo para a
região Sul.
FIGURA 12.2
Evolução temporal dos efeitos estimados da Lei Antifumo para a
Região Sudeste.
Nos indivíduos de até 18 anos residentes nos municípios tratados
das regiões Sudeste e Norte, por outro lado, os efeitos estimados
foram de aumento na taxa de internações por asma para anos de
exposição à lei antifumo. Os efeitos são estatisticamente
significantes a 1%. Para os indivíduos de até 18 anos residentes nos
municípios tratados da região Nordeste, foram encontrados efeitos
significativos a 5% de redução na taxa de internação por asma para
1, 2, 3 e 4 anos de exposição à lei. Na região Centro-Oeste, não
houve nenhuma unidade tratada em 2009.14
12.6 MÉTODO DE CONTROLE SINTÉTICO14
O método do Controle Sintético nasceu na análise de políticas
agregadas, ou seja, para quando temos unidades de medida
agregadas e apenas uma unidade tratada na amostra (e muitas
unidades de controle).15 Neste modelo, ao contrário do diferenças
em diferenças, as variáveis não observadas (que podem se
relacionar com X) podem variar no corte transversal (cross-section)
e no tempo. Esse modelo é utilizado para avaliar o impacto de uma
política agregada (nível nacional ou estadual), por exemplo).
O método surgiu no estudo de Abadie e Gardeazabal (2003),
cujo objetivo era investigar o efeito do terrorismo do grupo ETA, no
País Basco, sobre crescimento econômico da região. Para avaliar
este impacto, os autores usam uma combinação de regiões da
Espanha para construir um contrafactual (controle sintético) que se
assemelhe às características relevantes do País Basco no período
anterior às ações do ETA (anos 1960). A ideia é que a evolução
econômica do controle sintético seria semelhante à evolução
econômica do País Basco sem terrorismo.
As vantagens iniciais da proposta dos autores são:
1. Podemos observar apenas uma unidade tratada.
2. Dados agregados são mais fáceis de se obter do que
microdados.
3. O método aparece como uma extensão ao método DD para
dados em painel.
4. Há redução da discricionariedade na escolha do grupo de
controle, pois eles propõem um mecanismo explícito, em
forma sistemática, para a escolha do contrafactual.
Assim, considere J + 1 unidades observadas em T períodos. A

primeira unidade é aquela que sofre a intervenção, então os
potenciais controles (que os autores chamaram de donor pool) é o
conjuntos das unidades de 2 a J. A intervenção ocorre a partir de T0,
tal que 1 ≤ T0 ≤ T, e seus efeitos podem se propagar de T0 + 1 a T.
Sejam os resultados observados para a região i no período t
sem intervenção e sejam os resultados da unidade i nos períodos
t posteriores à exposição de i à intervenção. A intervenção não afeta
Y antes da sua implementação e os Y não tratados não são
impactados pela intervenção em nenhum período.16
Sejam o efeito da intervenção na unidade i em t e Dit
um indicador se a unidade foi exposta à intervenção. Os resultados
observados são, então,
e queremos estimar . Note que não observamos , o que

chamamos de Problema Fundamental da Inferência Causal.
O método propõe que a equação de seja dada pelo modelo de
fatores, que é mais flexível que o DD e permite que os efeitos fixos
variem no tempo.17 Assim, a estimação consiste em encontrar um
vetor de pesos para o grupo de controle que replique a trajetória do
grupo de tratamento caso não houvesse o tratamento. Esse vetor de
pesos é definido por:
em que wj ≥ 0 ∀ j, e tal que . Cada W representa um

controle sintético (média ponderada das regiões).18 Os autores
mostram que existe um vetor W ótimo, W*, encontrado utilizando os
dados pré-tratamento que replica a trajetória da unidade tratada.
Assim,
Tal que plim (α1t) = 0, para T0→∞. Assim, encontramos o vetor
ótimo usando dados anteriores ao tratamento e projetamos os
dados do grupo de controle, usando esse vetor ótimo de controles,
para o período pós-tratamento. Quanto mais períodos pré-
tratamento são observados, melhor é o ajuste.
Apenas unidades parecidas nos determinantes observados e
não observados de Y devem produzir trajetórias similares às de Y
em instantes posteriores a T0. Portanto, a diferença entre as
trajetórias em t > T0 é o efeito da intervenção.
Comparação: Controle sintético vs Diferenças em

diferenças
O modelo de fatores, base do modelo de CS, generaliza o DD. No
DD tradicional, os efeitos fixos não variam no tempo,19 ou seja,
permite fatores não observados (confounders), mas restringe a
efeitos constantes no tempo. No modelo de fatores, permite-se que
os efeitos fixos variem no tempo. A diferença temporal não elimina
esses fatores, mas o controle sintético sim. O controle sintético pode
gerar estimativas mais úteis do que DD em alguns contextos.
A implementação reside na escolha de W*. Encontra-se o vetor
W que minimiza a distância entre a média ponderada dos Y,
tratados e do controle, no período pré-tratamento.
Com relação à inferência, as técnicas de inferência para grandes
amostras não são adequadas porque as amostras costumam ser
pequenas. O mais usual são testes com placebos (testes de
falsificação). A pergunta é se o efeito estimado é grande relativo ao
efeito estimado para uma unidade aleatoriamente. A distribuição da
estatística do teste é computada usando permutações aleatórias das
unidades amostrais sem intervenção ou dos períodos sem
intervenção. Aplica-se o método a qualquer outro controle. A
hipótese nula é de que o efeito é nulo.
QUADRO 10.5
Efeito da reunificação alemã no crescimento da Alemanha
ocidental
Abadie et al. (2015) avaliaram o impacto econômico na Alemanha
Ocidental da reunificação (ocorrida em outubro de 1990, após 45
anos de separação). O donor pool foi composto de países da
OCDE. O período analisado é de 1960 a 2003 (30 anos de dados
pré-intervenção). Os dados agregados disponíveis formaram um
painel de 16 países com dados anuais: Alemanha, Áustria, Austrália,
Dinamarca, Espanha, Estados Unidos, França, Grécia, Holanda,
Itália, Japão, Nova Zelândia, Noruega, Portugal, Reino Unido e
Suécia. Os dados coletados foram PIB real per capita (PPP em
dólares de 2002), inflação, participação da indústria na economia,
taxa de investimento, escolaridade média da população e índice de
abertura comercial.
A estimativa do alfa, a partir de 1992, foi de uma queda de 8% no
PIB real per capita da Alemanha Ocidental. Os testes de
sensibilidade do resultado a mudanças dos países escolhidos no
grupo de controle e mostram que o resultado encontrado é robusto.
Para aplicar o método de controle sintético deve-se atentar aos

seguintes pontos:
• As unidades de controle afetadas pela intervenção, ou por
eventos de natureza similar, devem ser excluídas do donor
pool.
• As unidades de controle que sofreram choques grandes na
variável dependente durante o período também devem ser
excluídas (caso acreditemos que os choques afetem a unidade
tratada durante a intervenção).
• Restringir o donor pool para características similares às da
unidade tratada melhora as propriedades do estimador.
• Ter número suficiente de períodos pré-intervenção (T0) é
importante para a consistência do estimador do efeito.
12.7 MÉTODO DE VARIÁVEIS INSTRUMENTAIS
O método de variáveis instrumentais é aplicado quando as variáveis
x não eliminam o viés de seleção do modelo e observamos uma
variável exógena z, que afeta a participação na
intervenção/tratamento, mas que não esteja correlacionada com o
resultado potencial (y). Quando tanto w (variável indicadora do
tratamento) e z são variáveis binárias, podemos escrever o
estimador do efeito do tratamento na forma de um estimador Wald.20
De qualquer forma, as hipóteses para identificação do modelo
usando variáveis instrumentais são as mesmas que vimos no
Capítulo 9, ou seja:
• z deve ser correlacionada com a variável explicativa de
interesse wi;
• z não deve ser correlacionada com outros determinantes de y

(outros fatores não observados que explicam y), essa
condição é chamada de restrição de exclusão, pois z pode ser
excluída da regressão.
Assim, o estimador de variáveis instrumentais pode ser escrito

por
Ou seja, o efeito do tratamento é a razão entre a regressão da

equação reduzida e a equação do primeiro estágio. A grande
questão é sempre como encontrar bons instrumentos. Ajuda a
entender o contexto institucional e o processo que determina o
tratamento.
Veremos o caso em que temos variáveis de tratamento e
instrumentais binárias. Esse exemplo é comum quando o
comprometimento com a participação do tratamento não é perfeito.
Imagine que, para receber determinada política, os indivíduos
beneficiários são selecionados com base em um sorteio. Dizemos
que o comprometimento não é perfeito (partial compliance) quando
parte das observações sorteadas para receber o tratamento (z = 1)
o recebe (w = 1) e a outra parte não o recebe efetivamente (w = 0).
Assim, pode haver relação entre o recebimento do tratamento (w =
1) e a variável de resposta (y) e, portanto, o efeito do tratamento
para os que o receberam é viesado. Por conta disso, podemos usar
o próprio resultado do sorteio como a variável instrumental que
induz a participação no tratamento (são correlacionadas). Neste
caso, a variável instrumental também é binária (z = 1 com
probabilidade p) e podemos escrever os momentos populacionais
da seguinte forma:
Como as variáveis são binárias, temos quatro grupos possíveis

de interação entre ambas:
(1) Indivíduos sorteados que participam do tratamento (z = 1 e
w = 1)
(2) Indivíduos sorteados que não participam do tratamento (z =
1 e w = 0)
(3) Indivíduos não sorteados que participam do tratamento (z =
0 e w = 1)
(4) Indivíduos não sorteados que não participam do tratamento
(z = 0 e w = 0)
O estimador de variáveis instrumentais, neste caso, restringe a

análise apenas aos indivíduos que são influenciados pela variável
instrumental, ou seja, pelo sorteio (no nosso exemplo, os grupos (1)
e (4)). Portanto:
Esse estimador é chamado de LATE (do inglês: Local Average
Treatment Effect). Esse efeito é conhecido por ser local, pois
considera o efeito sobre os indivíduos que foram influenciados pelo
instrumento para alcançar a causalidade do efeito.
12.8 REGRESSÃO DESCONTÍNUA
O método de Regressão Descontínua explora regras arbitrárias que
podem determinar o recebimento do tratamento, gerando
experimentos naturais. Foi desenvolvido primeiramente no estudo
de Thistlethwaite e Campbell (1960) para medir o efeito do
recebimento de um certificado de menção honrosa (distribuído com
base nas notas, X) sobre o desempenho escolar futuro (Y). No caso
de estudo dos autores, se o aluno obtivesse nota acima de uma
nota de corte (x0), ele recebe o certificado (w = 1), caso contrário
não (w = 0). A ideia é que os alunos imediatamente acima e os
alunos imediatamente abaixo da nota de corte (cutoff) são
comparáveis, embora um receba e o outro não o benefício. Para
que essa comparação gere efeitos não viesados, precisamos
garantir a seguinte hipótese de identificação:
Hipótese de Identificação. Os indivíduos não controlam x,

portanto a variação ao redor do cutoff é aleatória (indivíduos tem a
mesma probabilidade de x t.q. w = 1 ou 0).
Se vale a hipótese de identificação apresentada, temos que o

tratamento será localmente aleatório (observações logo abaixo de
um ponto de corte são um bom controle para observações logo
acima deste ponto de corte). A variação aleatória é consequência da
descontinuidade próxima ao corte (cutoff).
A ideia do estudo original é que não existem outras razões, que
não o prêmio por mérito, para que y seja descontínuo em x0. Assim,
o salto em y no ponto x0 é o efeito causal do recebimento do
certificado.
Note que no método de variáveis instrumentais, o instrumento é
aleatório por hipótese (o que não é testável e, em geral, difícil de
justificar). Já no método de RDD, a aleatoriedade é consequência
do controle impreciso do procedimento de alocação do tratamento
(por isso a chamamos de regra arbitrária). Checamos o
balanceamento testando a diferença entre as demais variáveis
explicativas logo acima e logo abaixo do ponto de corte (cutoff).
O procedimento tem dois tipos de análises que podem ser
realizadas: fuzzy; e sharp. Aqui vamos apresentar apenas o caso
sharp. Mais detalhes sobre RDD no estudo de Lee e Lemieux
(2010).
Sharp RD
A análise sharp é usada quando tratamento é função descontínua
de x. Neste caso, que é o que vimos no exemplo anterior, definimos
w da seguinte forma:
em que x0 é o ponto de corte (cutoff/threshold). De forma

simplificada, indivíduos abaixo do ponto de corte não recebem o
tratamento, enquanto os que estão acima recebem (Veja Figura
12.3). A ideia é que saltos na relação de Y com relação a X podem
ser interpretados como evidência do tratamento (identificação local),
ou seja, esse salto (discreto) será a fonte de variação exógena.
Identificamos o ATE na vizinhança da descontinuidade.
Se considerarmos que a relação entre y e x é linear, podemos

supor um modelo linear (Figura 12.4 ):
Em que τ é o efeito causal de interesse. wi não é só

correlacionado com xi, mas é também uma função do mesmo. Os
efeitos causais são identificados ao distinguir a função não linear e
descontínua I (xi ≥ x0) da função linear em x. Sabemos que o
problema central na estimação de está em que Cov [ui, wi] ≠ 0.
Mesmo adicionando covariadas à regressão (as covariadas devem
ter distribuição contínua no ponto de corte), MQO permanece
inconsistente. Isso ocorre, pois a seleção ao tratamento depende de
variáveis observáveis.
FIGURA 12.3
Representação da descontinuidade do tratamento em x0 (Sharp RD).
FIGURA 12.4
Representação do efeito estimado a partir de um modelo linear.
Pode acontecer de a relação entre y e x ser não linear: E (Y0i|xi)
= f (xi). Neste caso, podemos construir estimativas RD a partir do
modelo
em que f (xi) é contínua na vizinhança de x0. É possível modelar f

(xi) por um polinômio de ordem p:
em que . Em ambos os modelos, estimamos o efeito causal

na vizinhança de x0. O cruzamento de w com x permite que os
parâmetros das regressões para cada lado do cutoff sejam
diferentes. Em outras palavras, é como estimarmos duas regressões
(uma para cada lado do cutoff), como mostra a Figura 12.5.
FIGURA 12.5
Representação do efeito estimado a partir de um modelo não linear.
Olhamos para os dados na vizinhança da descontinuidade (não
importa a forma funcional de E (Y0i|xi)):
tal que
Devemos nos preocupar quando temos vizinhanças pequenas,

com poucas observações, o que pode prejudicar a análise. Além
disso, a média amostral é viesada para a esperança condicional da
fronteira. Nesse caso, uma solução seria usar um estimador MQG
com maior peso próximo ao ponto de corte,21 ou utilizar a versão
não paramétrica.
Vimos neste capítulo que, na avaliação de impacto de políticas, não
é possível encontrar o efeito causal exato para cada indivíduo por
conta do “Problema Fundamental de Inferência Causal”. Isto porque
nunca observamos o mesmo indivíduo, no mesmo instante do
tempo, nas situações de tratado e controle. Assim, o objetivo deste
capítulo é apresentar estimadores adequados para vários tipos de
situações.
Quando a seleção para o tratamento ocorre com base em
características observadas, podemos usar a análise de regressão
ou o método de propensity score matching para estimar o efeito. O
primeiro método pode gerar problema de extrapolação quando há
pouca sobreposição entre as características dos grupos tratados e
controle.
Quando obtemos dados em painel, podemos nos utilizar das
vantagens destes dados para corrigir o problema de seleção em
características observadas ou em não observadas, mas constantes
no tempo. Nesse caso o método de diferenças em diferenças é mais
adequado. O método de controle sintético relaxa algumas hipóteses
do método de diferenças em diferenças, mas só tem aplicabilidade
para dados agregados em que observamos apenas uma unidade
tratada.
Outra possibilidade seria utilizarmos alguma variação exógena
que influencie o tratamento. Quando observamos esses dados,
temos o que chamamos de experimentos naturais. Podemos
explorar a relação entre a seleção para o tratamento e algum
acontecimento exógeno que influencie o tratamento para derivar
bons estimadores. Os procedimentos mais utilizados nesses casos
são os métodos de variáveis instrumentais, ou a estimação por
regressão descontínua (RDD).
12.10 EXERCÍCIOS
1. O programa “Minha Casa Minha Vida” do Governo Federal tem

como objetivo proporcionar moradias para família em situação de
vulnerabilidade social. De forma simplificada, a família deve se
inscrever no programa, desde que cumpra alguns critérios de
renda, e então são realizados sorteios para determinar quais
famílias serão contempladas. Suponha que você queira avaliar
os efeitos desse programa no percentual da renda que famílias
com dois filhos investem em educação. Considere que há dados
para renda, gastos familiares, número de filhos na família e
quantas pessoas moram no domicílio, disponíveis para todos os
que se inscreveram (sorteados ou não) no ano seguinte à
entrega das moradias.
a) Por qual mecanismo o programa influenciaria o percentual
da renda gasto em educação?
b) Como você avaliaria esse programa? Com base na
descrição do programa dada, proponha um método. Quais
seriam os grupos de controle e tratamento?
c) Escreva o parâmetro de interesse em termos de resultados
potenciais e regressão. Como esse parâmetro se
classifica?
Suponha que nem todos os sorteados tenham comparecido
para dar continuidade aos procedimentos do programa e
adquirir uma moradia nova.
d) Isso inviabilizaria o método proposto anteriormente? E se
as pessoas não sorteadas conseguissem financiamento de
outra forma para comprar a casa própria? Nesse caso,
poderíamos dividir os indivíduos em quantos grupos?
Explique.
e) Proponha uma solução para o problema anterior,
explicando como o método proposto soluciona o problema.
Escreva, ainda, o novo estimador.
2. Em novembro de 2015, o rompimento da barragem de Fundão,

com rejeitos de mineração. causou um dos maiores impactos
ambientais do Brasil, além dos impactos socioeconômicos nas
regiões afetadas. Essa barragem ficava localizada a cerca de 35
km do centro da cidade de Mariana em Minas Gerais. A lama
contaminada com os rejeitos de mineração chegou ao Rio Doce,
atingindo diversos municípios em Minas Gerais e Espírito Santo.
Suponha que você queira avaliar o impacto do rompimento da
barragem nas economias das regiões atingidas, a partir de
dados anuais sobre características e renda de domicílios de
todos os estados de 2000 a 2017.
a) Qual o tratamento nesse caso? Qual metodologia se
adequa melhor a essa avaliação de impacto? Justifique
b) Determine os grupos de tratamento e controle e unidade de
observação.
c) Escreva a regressão a ser estimada, apontando o
parâmetro de interesse.
Suponha, agora, que você queira analisar o impacto em
nível de estado, supondo que apenas o estado de Minas
Gerais tenha sido atingido.
d) Qual metodologia você usaria? Escreva a equação a ser
estimada, determinando os grupos de tratamento e controle
e a unidade de observação.
3. Usando os dados de uma pequena amostra da Pesquisa Mensal

de Emprego (PME), considere a seguinte situação hipotética: o
Governo Federal ofereceu gratuitamente um curso de
qualificação profissional de três dias no fim de agosto de 2015
para todas as regiões metropolitanas do país, sendo a
participação no curso opcional e disponível para empregados e
desempregados. Com o arquivo qualificação.xls, que consiste
em um painel de indivíduos para agosto e setembro de 2015,
investigaremos se esse curso teve impacto no salário de quem
participou.
a) Apenas com estatísticas descritivas, houve um aumento ou
diminuição do nível de emprego após o curso?
b) Defina qual foi o tratamento nesse caso. Qual é o grupo de
controle e tratamento?
c) Estime o impacto do curso de qualificação usando o
método de diferenças em diferenças. O resultado foi
positivo?
d) Qual a hipótese de identificação do método de diferenças
em diferenças? Você acha que ela está sendo satisfeita
nesse caso?
e) Você conseguiria propor outro método ou uma combinação
de métodos que o ajudasse a avaliar melhor o curso de
qualificação? De quais outras variáveis, além das
disponíveis na base de dados, você precisaria? Explique.
4. No ano de 1991 foi inaugurada a linha verde do metrô de São

Paulo, com estações que iam da Consolação ao Paraíso. Em
1992, foram inauguradas as estações Clínicas e Ana Rosa,
também da linha verde. Os dados da EMBRAESP trazem um
pooled cross section dos imóveis inaugurados em São Paulo
para os anos entre 1985 e 2008. Com a base imóveis.xls,
investigaremos o impacto do metrô no preço por área útil dos
imóveis. Para isso, definiu-se como tratados todos os imóveis
lançados na região dessas estações, independentemente de
quando foram lançados. A variável ano_trat foi definida de forma
que todos os imóveis, cujo ano de lançamento foi igual ou
superior a 1991, receberam valor 1, e 0 caso contrário.
a) Para simplificar a análise, restrinja os dados para os anos
entre 1985 e 1990 (anos pré-tratamento), e 1993 e 1994
(anos pós-tratamento).
b) Usando os dados da base imóveis.xls, estime o efeito do
metrô usando um modelo de diferenças em diferenças.
Interprete o coeficiente de interesse bem como as
diferenças.
c) Qual hipótese está sendo assumida nesse modelo?
d) O fato de as pessoas saberem antes de 1991 que as
estações seriam inauguradas nos anos seguintes invalida o
modelo? Justifique.
e) Se alguma outra linha/estação de metrô tiver sido
inaugurada entre 1985 e 1991 em outra localidade de São
Paulo, o modelo estaria invalidado? Explique.
5. Em 2014, o Governo Federal trabalhou para incentivar

municípios com mais de 100.000 habitantes a participarem de
forma significante no programa Saúde da Família dando,
inclusive, suporte financeiro a esses municípios. A base de
dados saude_familia.xls traz dados do peso de nascimento
médio para municípios com população entre 90.000 e 110.000
obtidos pelo SINASC e Departamento de Atenção Básica. A fim
de tentar medir o impacto dos esforços do governo peso médio
de nascimento dos bebês, definiu-se como tratamento todos os
municípios com população acima de 100.000.
a) Faça o gráfico da relação entre peso e população. Verifique
se há alguma descontinuidade.
b) Quais as hipóteses da Regressão Descontínua? Você acha
que elas se aplicam nesse caso? Dê indícios.
c) Suponha que a relação entre peso e população é linear e
estime o impacto dos incentivos do governo permitindo que
a inclinação das retas, antes e após o ponto de corte,
sejam diferentes. Explicite o parâmetro de interesse.
6. O Programa Bolsa Família consiste num programa de
transferência direta de renda, sob condicionalidades, com o
objetivo de reduzir a pobreza no Brasil. O programa surgiu em
2003 ao ampliar e unificar diversos outros programas do
Governo Federal. As famílias alvo são aquelas que possuem
renda per capita de até R$170,00 (esse valor é frequentemente
ajustado) e que tenham gestantes e crianças ou adolescentes
entre 0 e 17 anos. As condicionalidades do programa se
resumem em manter as crianças nas escolas, o calendário de
vacinação em dia, e o acompanhamento de saúde das
gestantes. Suponha que você queira avaliar o impacto do
Programa Bolsa Família sobre a educação das crianças
pertencentes às famílias comtempladas.
a) Defina de forma precisa uma variável dependente que
reflita a educação das crianças (seja no curto, no médio ou
no longo prazo).
b) Encaixe o problema em cada método abordado no capítulo,
dizendo qual o parâmetro de interesse, quais as hipóteses
necessárias, qual a regressão a ser estimada e qual base
de dados você acredita que se encaixe melhor (dica: volte
ao Capítulo 3). Se achar que o método não aplica, explique
o porquê.
c) Qual dos métodos anteriores você acha que melhor
identifica o problema? Explique.
7. O Programa Ensino Médio Inovador (ProEMI) é uma iniciativa do

Governo Federal que visa promover educação em tempo integral
para as escolas públicas de ensino médio não profissionalizantes
do país.22 A participação das escolas no programa é de decisão
das secretarias de educação, com base em características das
escolas, embora não haja regra determinística. O Censo Escolar
aponta, desde 2012, se a escola participa ou não do ProEMI,
enquanto o ENEM contém notas e características sociais dos
alunos. Unindo as duas bases, construiu-se um painel de
escolas com os anos de 2012 e 2014, contendo a nota média da
escola no ENEM, nas quatro frentes avaliadas, e algumas
características médias dos alunos e das escolas, disponíveis na
base proemi.xls. O ano de 2012 é pré-tratamento e 2014 pós-
tratamento. A dummy de tratado indica as escolas que foram
tratadas. A fim de avaliar o impacto do programa no
desempenho médio das escolas no ENEM:
a) Defina o grupo de controle e grupo de tratamento.
b) Usando os dados pré-tratamento, verifique se há
evidências de que a escolha do programa foi aleatória.
Como você estimaria o efeito do tratamento nesse caso?
c) Suponha agora que você não tenha os dados para 2012 e
sabe que as escolas foram escolhidas com base em
algumas características. Qual método você usaria para
avaliar o programa?
d) Selecione 5 variáveis na base de dados que você julga
apropriadas para fazer o pareamento das escolas. Qual a
ideia de fazer pareamento nesse caso?
e) Quais as hipóteses do Propensity Score Maching? Aplique-
as ao caso.
f) Estime o impacto do programa por Propensity Score
Matching nas notas das quatro provas do ENEM. Quais
são as conclusões? Escolas participantes do programa
tiveram notas melhores? Interprete e tente justificar os
resultados.
1 É possível analisar políticas que tenham doses diferentes de usando uma

variável contínua, mas não apresentamos esses modelos neste livro.
2 Resultado potencialmente observado dada uma ação.
3 Ver Rosenbaum e Rubin (1983).
4 Ver Rubin (2006).
5 Rosenbaum e Rubin (1985) sugerem o uso do Logit.
6 Veja Degroot e Schervish (2011) para mais detalhes sobre os testes.
7 A especificação correta é crucial para estimar o PS e para identificar ATE
e ATT. A escolha das variáveis é fundamental porque pode mudar a
análise. Parte da literatura foca na relevância teórica das variáveis.
8 Sempre especifique o modelo com justificativas para as covariadas, pois
os resultados são sensíveis à especificação (Smith e Todd, 2005).
9 Casos que possuem probabilidade similar de serem selecionados para o
tratamento.
10 Distância euclidiana, ou a métrica de Mahalanobis, por exemplo.
11 Rosenbaum e Rubin (1985) sugerem ε ≤ 0,25 , sendo que

p p denota o
erro-padrão de .
12 Quando se calcula o efeito para uma subamostra, perde-se
representatividade da análise (diminui o que chamamos de validade
externa), mas ganha-se robustez/precisão nas estimativas (aumenta o
que chamamos de validade interna). Nesse sentido, há um trade-off entre
uma resposta crível para uma subpopulação e uma resposta controversa
para toda a amostra. A primeira opção costuma ser a mais atrativa. Neste
sentido, a ideia do procedimento de trimming é excluir unidades para as
quais p (Xi) é próximo de 0 ou 1. Considera-se, portanto, as observações
dentro do intervalo: α < p (Xi ) < 1 – α, o que melhora a habilidade em
estimar precisamente o efeito. O estudo de Crump et al. (2009) estima
que .
13 O estudo de Adda e Cornaglia (2010) verificou, para os Estados Unidos,
que a Lei Antifumo aumentou a exposição dos não fumantes à fumaça do
cigarro. Isso se explica porque, caso não haja redução do fumo por razão
da lei, o consumo de cigarro é deslocado para locais privados, o que
pode prejudicar a saúde dos indivíduos que convivem com fumantes.
14 Para os resultados completos, contatar as autoras.
15 Ver Abadie e Gardeazabal (2003) e Abadie et al. (2010; 2011; 2015).
16 Assume-se que não há efeitos antecipação e contaminação.
17 O modelo de fatores é dado pela equação: , em que δt

é um choque agregado no tempo não observado (comum entre as
unidades), Zi é o vetor de covariadas observadas (não afetadas pelo
tratamento), λt é um vetor de choques comuns não observados, μi é um
vetor de fatores específicos (efeitos fixos) e εit é o termo aleatório que
representa choques transitórios. A utilização de λt μi permite que efeitos
variem no tempo (mudanças temporárias) e configura numa
generalização do DD. λt μi representa as respostas heterogêneas para
múltiplos fatores não observados.
18 O resultado potencial de cada controle sintético é
. Substituindo o modelo de
fatores para a unidade 1 e subtraindo o resultado potencial do controle
sintético, temos que existe um vetor ótimo que replica a trajetória da
unidade tratada.
19 λ = λ, ∀ t.
t
20 Ver Angrist e Pischke (2008).
21 O cálculo do erro-padrão pode ser feito tal como proposto em Hahn, Todd
e van der Klaauw (2001).
22 O Programa Ensino Médio Inovador (ProEMI) foi lançado em 2009. Como
o Censo Escolar aponta apenas a partir de 2012 se a escola participa do
programa, considerou-se como tratado aqueles que não participavam do
programa em 2012 e participavam em 2013 e 2014, e como controle
aqueles que não participavam em nenhum dos anos.
REFERÊNCIAS
ABADIE A.; DIAMOND, A.; HAINMUELLER, J. (2015) Comparative

Politics and the Synthetic Control Method. American Journal of
Political Science, v. 59, n. 2, p. 495-510.
ABADIE A.; DIAMOND, A.; HAINMUELLER, Jens. (2011) SYNTH:
Stata Module to Implement Synthetic Control Methods for
Comparative Case Studies. Statistical Software Components,
Boston College Department of Economics.
ABADIE, A.; DIAMOND, A.; HAINMUELLER, J. (2010) Synthetic
control methods for comparative case studies: Estimating the effect
of California’s tobacco control program. Journal of the American
Statistical Association 105.490: 493-505.
ABADIE, A.; GARDEAZABAL, J. (2003) The Economic Costs of
Conflict: A Case Study of the Basque Country. American Economic
Review, v. 93, n. 1, p. 113-132.
ABADIE, A.; IMBENS, G.W. (2006). Large sample properties of
matching estimators for average treatment effects. Econometrica
74: 235-67.
ABADIE, A.; IMBENS, G.W. (2008). On the failure of the bootstrap
for matching estimators. Econometrica 76: 1537-57.
ADDA, J.; CORNAGLIA, F. (2010) The effect of bans and taxes on
passive smoking. American Economic Journal: Applied Economics,
v. 2, n. 1, p. 1-32.
ALLEN, R.W. et al. (2013) An assessment of air pollution and its
attributable mortality in ulaanbaatar, mongolia. Air Quality,
Atmosphere & Health, Springer, v. 6, n. 1, p. 137-50.
ANGRIST, J.D.; PISCHKE, J. (2009) Mostly Harmless Econometrics,
an Empiricist’s Companion. New Jersey: Princeton University
Press, 392 p.
BARROS, R.; FOX, L.; MENDONÇA, R. (1997) Female-Headed
Households, Poverty, and the Welfare of Children in Urban Brazil.
Washington: Policy Research Dissemination Center. 51 p.
BERTRAND, M.; DUFLO, E.; MULLAINATHAN, S. (2004) How Much
Should We Trust Differences-in-Differences Estimates?. The
Quarterly Journal of Economics, v. 119, n. 1, p. 249-275.
BREUSCH, T.S.; PAGAN, A.R. (1979) A Simple Test for
Heteroskedasticity and Random Coefficient
Variation. Econometrica. 47(5): 1287-1294.
BUVINIĆ, M.; GUPTA, G.R. (1997) Female-headed households and
female-maintained families: are they worth targeting to reduce
poverty in developing countries?. Economic development and
cultural change, v. 45, n. 2, p. 259-80.
CHIANG, A.C.; WAINWRIGHT, K. (2005) Fundamental methods of
mathematical economics. 4th ed. Nova York: McGraw-Hill, p. 314-
18.
CHOW, G.C. (1960) Tests of equality between sets of coefficients in
two linear regressions. Econometrica: Journal of the Econometric
Society, p. 591-605.
COCHRANE, D.; ORCUTT, G.H. (1949) Application of Least
Squares Regression to Relationships Containing Auto-correlated
Error Terms. Journal of the American Statistical Association, v. 44,
n. 245, p. 32-61.
CRUMP, R.K. et al. (2009) Dealing with limited overlap in estimation
of average treatment effects. Biometrika, v. 96, n. 1, p. 187-199.
DEGROOT, M.H.; SCHERVISH, M.J. (2011) Probability and
Statistics. 4a ed. Boston: Addison-Wesley.
DI TELLA, R.; MACCULLOCH, R.J.; OSWALD, A.J. (2006) The
macroeconomics of happiness. Review of Economics and
Statistics, v. 85, n. 4.
DI TELLA, R.; SCHARGRODSKY, E. (2004) Do Police Reduce
Crime? Estimates Using the Allocation of Police Forces After a
Terrorist Attack. American Economic Review, 94(1): 115-133.
DURBIN, J.; WATSON, G.S. (1950) Testing for Serial Correlation in
Least Squares Regression, I. Biometrika, 37(3-4): 409-28.
DURBIN, J.; WATSON, G.S. (1951) Testing for Serial Correlation in
Least Squares Regression, II. Biometrika, 38 (1-2): 159-79.
EFRON, B. (1987) Better bootstrap confidence intervals. Journal of
the American statistical Association, 82.397: 171-85.
FREY, B.S.; STUTZER, A. (2002) What can Economists Learn from
Happiness Research?. Journal of Economic Literature 40, 402-35.
GENTLE, J.E. (1998) Cholesky Factorization. §3.2.2 in Numerical
Linear Algebra for Applications in Statistics. Berlin: Springer-
Verlag, p. 93-95.
GOLDBERGER, A.S. (1991) A Course in Econometrics. Harvard
University Press.
GUIDETTI, B.M.; PEREDA, P.C. (2017) Air Pollution Consequences
in São Paulo: Evidence for Health. Working Paper.
HAHN, J.; TODD, P.; VAN DER KLAAUW, W. (2001) Identification
and estimation of treatment effects with a regression discontinuity
design. Econometrica, v. 69, n. 1, p. 201-209.
HALL, A.R. (2005) Generalized method of moments. Nova York:
Oxford University Press, p. 5-7.
HARTER, L.; ABDI, H. (2010) The Method of Least Squares. In:
SALKIND, N. Encyclopedia of Research Design. Thousand Oaks,
CA: SAGE Publications.
HARTER, W.L. (1972) The Method of Least Squares and Some
alternatives. In: PLACKET, R.L. Studies in the History of Probability
and Statistics. XXIX. The Discovery of the Method of Least
Squares. Biometrika, August, p. 249-51.
HAUSMAN, J. (1978) Specification Test in Econometrics.
Econometrica, 46, p. 319-39.
HAUSMAN, J.A. (1978) Specification Tests in Econometrics.
Econometrica, 46, p. 125-27
HAYASHI, F. (2000) Econometrics. New Jersey: Princeton University
Press.
HECKMAN, J. (1979) Sample Selection Bias as a Specification
Error. Econometrica, v. 47.
HECKMAN, J. (1996) Randomization as an Instrumental Variable.
The Review of Economics and Statistics, v. 78(2).
HECKMAN, J.J.; ICHIMURA, H.; TODD, P.E. (1997) Matching as an
econometric evaluation estimator: Evidence from evaluating a job
training programme. The Review of Economic Studies, v. 64, n. 4,
p. 605-654.
IMBENS, G.W.; WOOLDRIDGE, J.M. (2009) Recent Developments
in the Econometrics of Program Evaluation. In: Journal of
Economic Literature 47.1, p. 5-86.
LEE, D.S.; LEMIEUX, T. (2010) Regression discontinuity designs in
economics. Journal of Economic Literature 48.2: 281-355.
LEVITT, S.D.; LIST, J.A. (2009) Field experiments in economics: The
past, the present, and the future. European Economic Review,
53(1), 1-18.
LUNDGREN, E.G. (1976) Statistical Analysis Theory. 3rd ed. Nova
York: Macmillan.
MACIENTE, A.N. (2012) A mensuração das competências
cognitivas e técnicas das ocupações brasileiras. IPEA – Radar
Tecnologia, Produção e Comércio Exterior, n. 23, p. 17-25.
MACIENTE, A.N. (2016) A Composição do emprego sob a ótica das
competências e habilidades ocupacionais. Ipea. Disponível em:
http://repositorio.ipea.gov.br/handle/11058/6668
MACKINNON, J.G. (2006) Bootstrap methods in econometrics.
Economic Record, 82.s1: S2-S18.
MALIK, V.S.; PAN, A.; WILLETT, W.C.; HU, F.B. (2013) Sugar-
sweetened beverages and weight gain in children and adults: a
systematic review and meta-analysis. The American Journal of
Clinical Nutrition, 98(4), 1084-1102.
MALIK, V.S.; POPKIN, B.M.; BRAY, G.A.; DESPRES, J.-P.;
WILLETT, W.C.; HU, F.B. (2010) Sugar-sweetened beverages and
risk of metabolic syndrome and type 2 diabetes a metaanalysis.
Diabetes care 33 (11), 2477-83.
MCFADDEN, D. (1974) Conditional Logit Analysis of Qualitative
Choice. In: ZAREMBKA, P. Frontiers of Econometrics. Nova York:
Academic Press, p. 104-42.
MESSERLI, F.H. (2012) Chocolate consumption, cognitive function,
and Nobel laureates. The New England Journal of Medicine, v.
367, n. 16, p. 1562.
NEIDELL, M.J. (2004) Air pollution, health, and socio-economic
status: the effect of outdoor air quality on childhood asthma.
Journal of Health Economics. Elsevier, v. 23, n. 6, p. 1209-36.
NEVES JR., E.C.; AZZONI, C.R.; CHAGAS, A.L.S. (2017) Returns
to Skills and City Size: Evidence from Brazil. In: Regional Studies
Association Latin America Division Conference, São Paulo.
Urbanization in Latin America: Exclusion, Marginality and Conflit.
NEWEY, W.K.; WEST, K.D. (1987) A Simple, Positive Semi-definite,
Heteroskedasticity and Autocorrelation Consistent Covariance
Matrix. Econometrica, 55 (3): 703-08.
PAKES, A. (2003) A Reconsideration of Hedonic Price Indexes with
an Application to PCs. The American Economic Review 93.5:
1578-96.
PALIALOL, B.T.; PEREDA, P.C. (2017) In-kind transfers in Brazil:
household consumption and welfare effects. Working Paper.
PEREDA, P. (2016) Valuing the Impact of Subway Expansion on
Real Estate Property Prices: The Case of Sao Paulo. Working
Paper.
PEREDA, P.C.; MONTEIRO, C.A.; CHRISTOFOLETTI, M.A.;
CLARO, R.; DURAN, A.C. (2017) Effects of a Tax Increase on
Sugar-Sweetened Beverages. Working paper.
PLACKET, R.L. (1972) Studies in the History of Probability and
Statistics. XXIX: The discovery of the method of least squares.
Biometrika, Volume 59, Issue 2, 1 August, p. 239-251.
PRAIS, S.J.; WINSTEN, C.B. (1954) Trend Estimators and Serial
Correlation. Chicago: Cowles Commission discussion paper.
ROSENBAUM, P.R. (2002) Observational Studies. New York:
Springer-Verlag.
ROSENBAUM, P.R.; DONALD B.R. (1983) The central role of the
propensity score in observational studies for causal effects.
Biometrika, p. 41-55.
ROSENBAUM, P.R.; RUBIN, D.B. (1983) The central role of the
propensity score in observational studies for causal effects.
Biometrika, 70(1): 41-55.
ROSENBAUM, P.R.; RUBIN, D.B. (1985) Constructing a Control
Group Using Multivariate Matched Sampling Methods That
Incorporate the Propensity Score. The American Statiscian 39.1, p.
33-8.
RUBIN D.B. (2006) Matched Sampling for Causal Inference.
Cambridge: Cambridge University Press.
RUBIN, D.B. (2007). The design versus the analysis of observational
studies for causal effects: parallels with the design of randomized
trials. Statistics in Medicine, 26(1), 20-36.
SEAMAN, N.L. (2000) Meteorological modeling for air-quality
assessments. Atmospheric environment. Elsevier, v. 34, n. 12, p.
2231-59.
SEN, A. (2002) Desenvolvimento como liberdade. São Paulo:
Companhia das Letras.
SILVA, A.B.D.R. (2015) Estudo sobre a existência e significância de
valor das marcas no mercado de veículos leves brasileiro no
período de 2004 a 2014. Monografia orientada por Paula Carvalho
Pereda. FEA-USP, São Paulo.
SILVA, A.B.D.R. (2015) Estudo sobre a existência e significância de
valor das marcas no mercado de veículos leves brasileiro no
período de 2004 a 2014. Monografia orientada por Paula Carvalho
Pereda. FEA-USP, São Paulo.
SMITH, J.A.; TODD, P.E. (2005) Does matching overcome
LaLonde’s critique of nonexperimental estimators?. Journal of
Econometrics, 125, p. 305-53.
STEFFENS, C. Impactos da Lei Antifumo no Brasil. Working paper.
Mestrado em Economia. Paula Carvalho Pereda. Universidade de
São Paulo.
STEFFENS, C.; PEREDA, P.C. (2017) Cigarette Consumers
Behavior: Effects of Smoking Bans in Brazil. Working Paper.
STIGLER, S.M. (1986) The history of Statistics: The measurement of
uncertainty before 1900. Cambridge: Harvard University Press.
STOCK, J.H.; MARK W.W. (2003) Introduction to econometrics. Vol.
104. Boston: Addison Wesley.
STOCK, J.H.; WATSON, M.W. (2002) Introduction to Econometrics.
Boston: Addison Wesley, 696 p.
STOCK, J.H.; WATSON, M.W. (2003) Introduction to econometrics.
Boston: Addison Wesley.
STOLAR, L.B. (2014) Mulheres chefes de família, pobreza e saúde
infantil. Bacharelado em Economia. Orientadora: Paula Carvalho
Pereda. Universidade de São Paulo, São Paulo.
STUART, A.; ORD, J.K. (1987) Kendall’s Advanced Theory of
Statistics. Nova York: Oxford University Press, p. 78.
THISTLETHWAITE, D.L.; CAMPBELL, D.T. (1960) Regression-
Discontinuity Analysis: An Alternative to the Ex Post Facto
Experiment. Journal of Educational Psychology 51(6):309-17.
WHITE, H. (1980) A Heteroskedasticity-Conistent Covariance Matrix
Estimator and a Direct Test for Heterokesdasticity. Econometrica,
48, p. 817-38.
WOOLDRIDGE, J. (2012) Introductory Econometrics: A Modern
Approach (Upper Level Economics Titles). 5th ed. Cincinnati:
South-Western College Pub, p. 12.
WOOLDRIDGE, J. (2015) Econometric Analysis of cross-section and
panel dala. 6th ed. Cambridge: The MIT Press.
WOOLDRIDGE, J.M. (2015) Introductory econometrics: A modern
approach. Nelson Education, p. 103-4
YUNUS, M. (2001) O banqueiro dos pobres. São Paulo: Editora
Ática.
Valuation
Povoa, Alexandre
9788595151178
540 páginas
Compre agora e leia
Qual é o valor justo de uma ação? Valuation — Como Precificar

Ações é um guia que apresenta informações essenciais sobre os
princípios básicos, objetivos e subjetivos, para auxiliar na definição
do preço justo de um ativo no universo da bolsa de valores.
Alexandre Póvoa traça os diversos caminhos que os analistas de
investimentos e gestores de recursos percorrem para precificar
ativos e tomar decisão de compra ou venda de papéis. Além da
teoria, o autor oferece exemplos práticos para tornar o estudo ainda
mais real. Este livro atende, ainda, profissionais e investidores
experientes ao fornecer debates sobre temas polêmicos e detalhar a
Teoria de Valuation, totalmente adaptada à realidade do mercado de
capitais brasileiro.
Compre agora e leia

Fundamentos de Contabilidade para os
Negócios
Almeida, Jose
9788535272918
208 páginas
Compre agora e leia
A maioria dos livros do mercado procura ensinar o estudante de

contabilidade de um modo tradicional. A linguagem muitas vezes
não é simples, muito objetiva e para quem já possui conhecimentos
básicos ou nenhum torna-se uma restrição ao aprendizado. Apesar
desses livros serem amplamente utilizados em instituições de
ensino, poucos colocam a contabilidade e a gestão de negócios
interligadas.A informação contábil é gerada para auxiliar a tomada
de decisão, e não somente para apresentar demonstrações
financeiras. Alguns livros falham ao não levar ao leitor como a
contabilidade é utilizada na gestão das empresas, mais do que isso,
como ela está no cerne dos negócios.Com a convergência aos
padrões internacionais de contabilidade, o contador precisa
entender de negócios, finanças, economia e do funcionamento do
mercado. De maneira interligada, até para orientar seus clientes e
pensar em soluções para a toma da decisão. Desse modo, o
professor que utilizar este livro terá condição de preparar uma aula
mais dinâmica e interdisciplinar. Todo livro didático de contabilidade
traz exercícios para praticar, por isso, este livro apresentará
discussões que enriquecerão o conhecimento de conhecimento de
contabilidade e negócios (para alunos de graduação, pós e
profissionais) de maneira interligada, além de exercícios e pequenos
casos apresentados no final de cada capítulo para ajudar a fixar o
conteúdo.
Compre agora e leia
Teoria dos Jogos
Fiani, Ronaldo
9788535276664
376 páginas
Compre agora e leia
Teoria dos Jogos 4ª edição tem como objetivo difundir os

conhecimentos de jogos para todos aqueles que precisam entender
de estratégias para o melhor desempenho de duas atividades
profissionais. Assim, é preciso conhecer como a interação entre
indivíduos ou organizações, que agem estrategicamente de acordo
com os seus interesses, pode ser estudada objetivamente com
métodos matemáticos. Respostas aos exercícios propostos estão
disponíveis ao final de cada capítulo. - Nova abordagem do assunto.
- Quarta edição com exercícios resolvidos.
Compre agora e leia

Análise de séries temporais
Ferreira, Pedro Costa
9788535290882
264 páginas
Compre agora e leia
Este é um livro de análise de séries temporais utilizando o software

R. Ele é fruto da experiência adquirida pelos autores em empresas e
academicamente e mostra, de maneira aplicada, como desenvolver
diferentes modelos de séries temporais utilizando um dos softwares
mais usados pela academia e pelo mercado. Além de introduzir o R,
o livro aborda os principais modelos univariados, como Média
Móvel, Suavização Exponencial Simples, Suavização Exponencial
de Holt e Suavização Exponencial de Holt-Winters e (S)ARIMA e
multivariados, como Box & Jenkins com Função de Transferência,
modelos autorregressivos com defasagens distribuídas (ADL), VAR
e VECM e ainda, discute o problema da não estacionariedade e
aborda um dos principais programas de ajuste sazonal que é o X13-
ARIMA-SEATS. Com este livro o leitor fará uma viagem pelo "Mundo
das Séries de Tempo" e aprenderá os passos e os cuidados
necessários para uma boa modelagem e previsão
Compre agora e leia

Economia Brasileira Contemporânea
Giambiagi, Fabio
9788535238556
344 páginas
Compre agora e leia
Os diferentes regimes políticos, a construção de instituições, os

variados enfoques de políticas econômicas e sociais, as crises
geradas endogenamente ou importadas da economia mundial,
moldaram historicamente o que hoje constituem a economia e a
sociedade brasileiras. É esse processo histórico, desde o pós-
Guerra até o presente, que norteia a análise lúcida desenvolvida
neste livro.
Compre agora e leia

Econometria Aplicada - Paula Pereda

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Econometria Aplicada - Paula Pereda

Enviado por

Direitos autorais:

Formatos disponíveis

Table of Contents

PAULA CARVALHO PEREDA

Rua Quintana, 753 – 8o andar

Serviço de Atendimento ao Cliente

CIP-Brasil. Catalogação na Publicação

A ideia de escrever este livro surgiu de conversas entre os autores

1 Não estamos considerando os potenciais efeitos nocivos de alguns tipos

1 Da Estatística para a Econometria

2 Efeitos Causais em Economia

3 Tipos De Dados Secundários no Brasil

4 Modelo de Regressão Linear Simples

5 Modelo de Regressão Linear Múltipla

6 Especificações dos Modelos de Regressão

9 Endogeneidade e Variáveis Instrumentais

10 Métodos para Dados em Painel

11 Variáveis Dependentes Limitadas

12 Avaliação de Impacto: Tópicos Avançados

Variável aleatória. Uma variável aleatória (v.a.) é uma variável

Um dos exemplos mais conhecidos de variável aleatória é uma

Probabilidade e suas propriedades. Probabilidade é o ramo da

• , para variáveis aleatórias (X) contínuas

Assim, a Econometria é uma ferramenta para analisar a relação

Esperança matemática (Primeiro Momento da Distribuição).

Variância e desvio-padrão (Segundo Momento Centrado da

, para variáveis aleatórias (X) discretas; e

, para variáveis aleatórias (X) contínuas.

Covariância. Medida do grau de dependência linear entre duas

A covariância assume valores dentro do conjunto dos reais. Seu

Correlação. Medida da força e direção da dependência linear

O índice de correlação assume valores dentro do intervalo [–1, 1].

Voltemos, então, para nosso problema de interesse, que é

Indivíduo (i) Rendimento, em R$ por mês (Xi)

Se temos uma amostra aleatória com N observações: {X1, X2, ...,

Parâmetro. Característica de interesse da população (não é uma

Note que x– é uma estatística, pois é uma função de valores da

Estatística. Função de valores da amostra, f (X1, ... Nx). Note que

Estimador. É uma estatística (i.e., é uma função de valores da

Outros exemplos de estimadores:

2. Estimador da covariância populacional entre X e Y, σXY :

3. Estimador da correlação populacional entre X e Y, ρXY :

Propriedades de pequenas amostras

Propriedade de não viés. Um estimador é não viesado (ou não

Em palavras, a esperança do estimador (primeiro momento da

Propriedade da eficiência. Um estimador é eficiente se for não

Note que um estimador só será eficiente se, e somente se, ele

Propriedades de grandes amostras (assintóticas)

Propriedade da consistência. Seja N um estimador de θ em

que se refere ao seguinte limite:

A consistência é a única propriedade que se baseia na

Propriedade da eficiência assintótica. é um estimador

Propriedade da normalidade assintótica. Seja { 1, ... , n} uma

em que Φ(x) é a função densidade acumulada da distribuição

A normalidade assintótica do estimador deriva da aplicação do

1.2.3 Métodos de Estimação

Veremos neste livro três métodos bastante utilizados:

Todos estes métodos incorporam princípios refletidos nos

Método dos Momentos (MM)

Momento Populacional: E [X] = μ.

Assim, dizemos que MM é o estimador pelo Método dos

Como o método é bastante intuitivo, Pearson (1895) conseguiu

Método de Máxima Verossimilhança (MV)

Note que a função densidade de probabilidade da amostra

Os estimadores de Máxima Verossimilhança (MV) são os valores

Podemos, também, escrever o problema de maximização