Tópico 4 Greene Cap. 04 Virtual

(Greene, Cap.
04)
Professor Cleomar Gomes

Introdução
▪ Por que usar MQO se há outros candidatos para se estimar “β”?
▪ Escolha do estimador:
❖ Baseia-se nas propriedades estatísticas dos candidatos, tais como:
➢Viés
➢Consistência
➢Eficiência
➢Distribuição Amostral
▪ Vamos considerar as propriedades em amostras finitas do MQO,

como o viés, e estas são independentes do tamanho da amostra.
2
Introdução
▪ A análise supõe que os dados correspondam às hipóteses do modelo:
❖ A1. Linearidade
❖ A2. Posto completo
❖ A3. Exogeneidade das variáveis independentes
❖ A4. Homocedasticidade e não-autocorrelação
❖ A5. Geração exógena dos dados
❖ A6. Distribuição Normal
3
4.2. Motivação para o MQO
▪ Condições de Ortogonalidade da População:
❖ Seja X um vetor de variáveis independentes no modelo de regressão

populacional.
❖ Pela Hipótese A3 e pela Lei das Expectativas Iteradas:
▪ Assim:
Equação (4-1): relação da população
O lado direito não é uma função de

“y”. Assim, as expectativa é tomada
somente para “x”)
4
Condições de Ortogonalidade da População
▪ Lembre-se da equação do MQO:
▪ Basta dividir isso por “n” e escrevê-lo como um somatório:
Equação (4-2): relação da amostra
❖ Assumindo as condições da Lei dos Grandes Números, as somas dos lados

esquerdo e direito de (4-2) são estimadores de suas contrapartes em (4-1).
❖ Assim, com o uso do MQO podemos “imitar” na amostra as relações da

população.
5
6
Distribuição Amostral e Ausência de Viés
▪ Seja uma extração de 1.000 amostras aleatórias de 100 observações de
uma população.
▪ Análise da distribuição das inclinações:
❖ Média: se aproxima do "verdadeiro
valor“ de 0,5.
❖ Variância: variância substancial,
refletindo o fato de a inclinação da
regressão ser uma variável
aleatória.
▪ Conceito de ausência de viés:

❖ Relaciona com a tendência central
da distribuição dos valores obtidos
em amostras repetidas a partir da
população. 7
4.3.1. Estimação não viesada
▪ Hipóteses para a ausência de viés:

❖ Um estimador MQO é não-viesado para qualquer amostra.
❖ Para ver isso basta escrever:
❖ Tirando expectativas e iterando o processo:
❖ Pela Hipótese A3 de Exogeneidade, o 2º termo da equação acima é zero.
8
4.3.1. Estimação não viesada
▪ Assim:
▪ Interpretação deste resultado
❖ Para qualquer conjunto particular de observações, X, o estimador MQO

tem expectativa “β”.
❖ Portanto, quando se tira a média dos possíveis valores de X, fica claro

que a média incondicional também é “β”.
9
Conceitos: Ausência de Viés, Eficiência e Consistência
▪ Ausência de Viés
❖ Um estimador é não viesado se seu valor esperado é o verdadeiro valor do
parâmetro.
▪ Eficiência
❖ Um estimador é eficiente se possuir erro padrão inferior a outros estimadores
para um dado tamanho de amostra.
❖ Um estimador eficiente é também um estimador não viesado com variância

mínima (BLUE).
▪ Consistência
❖ Um estimador é consistente se converge para seu verdadeiro valor na medida
em que o tamanho da amostra aumenta. 10
11
Omissão e Inclusão de Variáveis
▪ Omissão de variáveis relevantes:
❖ Provoca subespecificação do modelo
❖ Gera viés nos estimadores de MQO.
▪ Inclusão de variáveis irrelevantes:
❖ Provoca superespecificação do modelo.
❖ Não afeta a inexistência de viés dos estimadores MQO.
❖ Mas tem efeitos indesejáveis sobre as variâncias dos estimadores de

MQO.
12
4.3.2. Viés causado pela omissão de variáveis relevantes
▪ Seja o seguinte modelo de regressão é:
▪ Existem inúmeros tipos de erros de especificação na construção de um

modelo de regressão. Por exemplo:
❖ Omissão de variáveis relevantes
❖ Inclusão de variáveis supérfluas (irrelevante).
▪ Suponha que um modelo corretamente especificado fosse:
❖ em que as 2 partes de X têm K1 e K2 colunas, respectivamente.
13
▪ Se regredirmos “y” em “X1” sem incluirmos “X2”, o estimador será:
▪ Tomando as expectativas, b1 não será viesado somente se 𝑋1′ 𝑋2 = 0 ou se

β2 = 0. Caso contrário b1 será viesado.
▪ Este resultado gera a fórmula variável omitida:
14
▪ Podemos ver a omissão de variáveis relevantes como equivalente à

imposição de uma restrição incorreta em (4-8).
▪ Em particular, omitindo X2 seria equivalente a estimar incorretamente (4-8)

sujeito à restrição de β2 = 0.
▪ E isso gera um estimador com viés.
▪ Omissão de variáveis relevantes

❖ Provoca subespecificação do modelo
❖ E gera viés nos estimadores de MQO.
15
Variáveis omitidas: como testar isso?
▪ Seja a regressão abaixo;
❖ Queremos testar se permanência no trabalho e experiência são importantes
(ou não) para o modelo.
16
17
▪ Hipótese Nula H0 :
as variáveis não são
importantes para a
equação.
▪ Como o p-valor é
menor que 5%,
rejeitamos H0 .
18
Curioso sobre o Likelihood Ratio?
▪ O teste LR é realizado estimando-se 2 modelos e comparando ambos os ajustes. A
exclusão de variáveis de um modelo quase sempre o tornará menos adequado, ou
seja, ele terá menor probabilidade de ser o escolhido.
▪ Mas é necessário testar se a diferença observada no ajuste do modelo é

estatisticamente significativa.
▪ O teste LR faz isso comparando as probabilidades logarítmicas dos 2 modelos.
▪ Se essa diferença for estatisticamente significativa, o modelo menos restritivo

(aquele com mais variáveis) é considerado o mais adequado.
https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faqhow-are-the-likelihood-ratio-wald-and-lagrange-multiplier-score-tests-different-andor-similar/
19
4.3.3. Inclusão de variáveis irrelevantes
▪ Suponha o modelo de regressão for corretamente dado por:
▪ Mas insistimos em estimar a Eq. (4-8):
❖ Ou seja, incluímos algumas variáveis extras.
❖ Então, surgirá algum problema.
▪ A inclusão das variáveis irrelevantes X2 na regressão é equivalente a não

impor β2 = 0 na estimação de (4-8).
▪ Mas (4-8) não é incorreta. Ela simplesmente não incorpora β2 = 0.

20
4.3.3. Inclusão de variáveis irrelevantes
▪ Portanto, não precisamos provar formalmente que o estimador MQO de β

em (4-8) é não viesado, mesmo com esta restrição. Isso já foi provado.
▪ Por exemplo:
❖ Se x2 for altamente correlacionada com x1, a inclusão incorreta de x2 na

regressão irá aumentar consideravelmente a variância do estimador de β1.
▪ Inclusão de variáveis irrelevantes

❖ Provoca superespecificação do modelo
❖ Não afeta a inexistência de viés dos estimadores MQO
❖ Mas tem efeitos indesejáveis sobre as variâncias dos estimadores de MQO.
21
Redundância: como testar isso?
▪ Seja a regressão abaixo:
❖ Queremos testar se permanência no trabalho e experiência são reduntantes
para o modelo.
22
23
▪ Hipótese Nula H0 :
as variáveis são
redundantes para a
equação
▪ Como o p-valor é
menor que 5%,
rejeitamos H0 .
24
Resumo: Direção do Viés
Corr(x1, x2) > 0 Corr(x1, x2) < 0
β2 > 0 Viés positivo Viés negativo

β2 < 0 Viés negativo Viés positivo
▪ A tabela acima resume a direção do viés.
▪ Mas o tamanho do viés também é muito importante.
▪ Um viés pequeno não precisa causar preocupação.
25
26
4.3.4. A variância do estimador MQO
መ também devemos
▪ Além das tendências centrais dos estimadores 𝛽,
ter uma medida de dispersão da distribuição amostral.
▪ Isso é dado pela variância dos estimadores de MQO:
❖ Homoscedasticidade: a variância do erro, condicionada às variáveis

explicativas, é constante:
Var(u|x1, x2,…, xk) = s2
❖ Heteroscedasticidade: quando a hipótese de variância constante é

violada.
Var(u|x1, x2,…, xk) = si2
27
▪ Lembre-se da Eq. (4-4):
▪ Repetindo (4-4):
❖ Podemos escrever onde “A” é
❖ Assim, “b” é uma função linear das perturbações que, por definição,
geram um estimador linear.
▪ Pela Hipótese A3, o valor esperado do 2º termo de (4-14) é zero.
28
▪ Portanto, independentemente da distribuição de “ε”, sob nossas

hipóteses, “b” é um estimador linear, não viesado de β.
▪ Pela Hipótese A4:
▪ Assim, a matriz de covariância condicional do estimador da

inclinação por MQO é:
29
4.3.5. O Teorema de Gauss-Markov
▪ Teorema 4.3: Teorema de Gauss-Markov:
❖ No modelo de regressão linear com matriz regressora “X”, o estimador

de MQO “b” é o estimador de β linear, não viesado e com variância
mínima, seja “X” estocástica ou não estocástica, desde que as outras
hipóteses do modelo sejam cumpridas.
▪ Note que o teorema não faz uso da Hipótese A6 (normalidade da

distribuição das perturbações).
▪ Apenas A1 a A4 são necessárias.
30
▪ Exemplo 4.3.5: Variância num Modelo de 2 Variáveis:

❖ Suponha que a matriz X contenha apenas uma constante (coluna de 1s)
e um único regressor “x”.
❖ O elemento inferior direito de é:
❖ Quanto maior a variação em x, menor a variância.
▪ O tamanho da variância é importante na prática:

❖ Uma variância maior significa um estimador menos preciso.
❖ Isso se traduz em intervalos de confiança maiores e testes de hipótese
menos acurados.
31
▪ Sob as hipóteses do MRL:

❖ A1. Linearidade
❖ A2. Posto completo
❖ A3. Exogeneidade das variáveis independentes
❖ A4. Homocedasticidade e não-autocorrelação
❖ A5. Geração exógena dos dados
▪ 𝛽መ0 , 𝛽መ1 , … , 𝛽መ𝑘 , são BLUE (Best Linear Unbiased Estimators): são os
melhores estimadores estimados não-viesados de 𝛽0 , 𝛽1 , … , 𝛽𝑘 .
❖ Isso é crucial em econometria, e deve ser verificado a cada
regressão, principalmente via Testes de Diagnóstico.
32
Testes de Diagnóstico
▪ Verificar os resíduos leva o nome de “testes de diagnósticos”, estamos verificando
se os erros são Gaussianos.
▪ Devemos sempre checar se a média é realmente zero e se os erros são
homoscedásticos.
33
4.3.7. Estimando a Variância do Estimador MQO
▪ Sob as Hipóteses de Gauss-Markov:
( )
Var ˆ j =
s2
(
SQT j 1 − R 2j )
❖ Onde SQT j =  (xij − x j ) : é a variação amostral total em xj ,
2
❖ 𝑅𝑗2 é o R2 da regressão xj sobre todas as outras variáveis independentes

(incluindo o intercepto)
▪ Pela equação acima, a variância de 𝛽መ𝑗 depende de 3 fatores:
❖ A variância do erro;
❖ A variação total amostral em xj (SQT);
❖ As relações lineares entre as variáveis independentes Rj2 .

34
Componentes da Variância
1. A variância do erro:
❖ Um 𝜎 2 implica em variâncias maiores do estimadores MQO.
❖ Mas s2 é uma característica da população. Ele não tem nada a ver com o
tamanho da amostra.
❖ Devemos obter um estimador não viesado de 𝜎 2 .
❖ Uma forma de reduzir a variância do erro é adicionar mais variáveis

explicativas à equação, ou seja, retirar fatores do termo de erro.
❖ Mas isso nem sempre é possível ou desejável.
35
2. A variação total amostral em xj:
❖ Quanto maior a soma dos quadrados totais (SQT), menor a variância dos
estimadores.
❖ Assim, precisamos ter tanta variação amostral quanto possível.
❖ A solução é aumentar o tamanho da amostra pois, assim, SQT aumenta

sem limites.
36
2. As relações lineares entre as variáveis independentes Rj2 :
❖ Aqui, Rj2 envolve somente as variáveis independentes.
❖ Rj2 : é a proporção total de xj que pode ser explicada pelas outras

variáveis independentes da equação.
❖ Se Rj2 = 1 podemos estar tendo um caso de combinação linear perfeita

entre algumas das variáveis, isto é, multicolinearidade.
37
▪ Para testar hipóteses sobre β será necessária uma estimativa da

amostra da matriz de covariância:
▪ Como σ2 é um valor esperado de 𝜀𝑖2 e “ei” é uma estimativa de “εi”,

um estimador natural de σ2 seria:
❖ Mas os resíduos do MQO são estimativas imperfeitas de suas

contrapartes da população:
38
Lembre-se do cap. 03
▪ Vetor dos resíduos dos mínimos quadrados resíduos:
▪ Voltando à Eq. (3-6):
▪ Inserindo (3-13) em (3-6) para “b” gera:
❖ A matriz “M” definida em (3-14) é fundamental na análise de regressão.
❖ Pode-se mostrar que “M” é simétrica (M = M’) e idempotente (M = M2).
❖ Por (3-13), “M” pode ser interpretada como uma matriz que produz o vetor
dos resíduos dos mínimos quadrados na regressão de “y” em “X”.
39
▪ Segue-se que
❖ Maneira de interpretar esse resultado: se “X” é regredida em “X”, o resultado

será um ajuste perfeito e os resíduos serão zero.
▪ Os resíduos dos mínimos quadrados são:

MX = 0
▪ Um estimador de σ2 será baseado na SQR
❖ Pode-se provar que de forma que o estimador natural

é viesado em direção a zero, apesar de o viés se tornar menor com o aumento da
amostra.
40
▪ Um estimador não viesado de σ2 será:
❖ Este estimador também será não viesado incondicionalmente.

❖ O erro padrão da regressão é “s”, que é a raiz quadrada de s2.
▪ Com s2, pode-se computar:
❖ A notação Est. Var [·] indica uma estimativa da amostra da variância amostral
de um estimador.
❖ A raiz quadrada do k-ésimo elemento diagonal desta matriz,
é o erro padrão do estimador bk.
41
4.3.8. A Hipótese da Normalidade
▪ A Hipótese A6 de Normalidade de “ε” é útil para a construção de

estatísticas que gerem intervalos de confiança.
▪ Voltando na Eq. (4-4):
❖ Em (4-4), “b” é uma função linear do vetor de perturbações “ε”
▪ Se supormos que “ε” tem distribuição normal, então:
❖ Isso especifica uma distribuição normal multivariada, de modo que cada

elemento de b|X é normalmente distribuído:
42
4.3.8. A Hipótese da Normalidade
▪ A distribuição de “b” está condicionada a X.
▪ A distribuição normal de “b” em amostras finitas é consequência das

hipóteses específicas de erros normalmente distribuídos.
▪ Sem esta hipótese, e sem alguma hipótese específica alternativa sobre a

distribuição de ε, não é possível fazer qualquer afirmação definitiva sobre a
exata distribuição de “b”, condicional ou de outra forma.
▪ Mais adiante, poderemos obter uma distribuição normal aproximada para

“b”, mesmo assumindo (ou não) erros distribuídos normalmente, e se os
regressores são estocásticos ou não.
43
Testando Normalidade dos Resíduos no Eviews
44
Testando Normalidade dos Resíduos no Eviews
▪ Teste de normalidade dos resíduos: Estatística Jarque-Bera.

▪ Se os resíduos são normalmente distribuídos, o histograma ter a forma de sino e a
Estatística Jarque-Bera não deve ser significativa.
▪ H0 de JB: erros normalmente distribuídos.
H0 = normalidade dos resíduos
45
4.4.1. Consistência do Estimador MQO de β
▪ A ausência de viés é um ponto de partida útil para se avaliar as virtudes de

um estimador.
▪ Ela assegura que o estimador não errará persistentemente a sua meta, seja
para cima ou para baixo.
▪ No entanto, como um guia para a estratégia de estimação, a questão do

viés possui deficiências.
❖ Salvo nos pontos discutidos neste capítulo, é relativamente raro se ter um
estimador sem viés. Em quase todos os casos, para além do modelo de
regressão múltipla, espera-se uma melhora do viés do estimador quanto mais
informações (dados) são coletadas. Assim, vamos precisar de mais
ferramentas para orientar a pesquisa econométrica.
46
Distribuição Amostral quando a amostra “n” aumenta
47
Consistência
▪ Sob o Teorema de Gauss-Markov, o MQO é BLUE
▪ Mas em outros casos não é possível encontrar estimadores não viesados.
▪ Neste caso, contentamos com estimadores consistentes, o que significa

que, quando n → ∞, a distribuição do estimador colapsa para o valor do
parâmetro.
48
Multicolinearidade
Ausência de Valores (Missing Values)
Erro de medida
49
4.7.1. Multicolinearidade
▪ Na regressão permite-se que as variáveis sejam correlacionadas, mas
não pode haver relações lineares exatas entre as variáveis
independentes.
▪ Exemplo de Colinearidade Perfeita:
❖ Incluir uma variável que é função linear exata de outras 2 já existentes

no modelo.
➢ Exemplo: gasto do candidato A, gasto do candidato B; gasto total da campanha
votoA = β0 + β1gastoA + β2gastoB + β3totalgasto + u
50
▪ Forma de reduzir a variância do erro:
❖ Adicionar mais variáveis explicativas à equação, ou seja, retirar fatores
do termo de erro.
❖ Mas isso nem sempre é possível ou desejável.
▪ Rj2 : é a proporção total de xj que pode ser explicada pelas outras

variáveis independentes da equação.
▪ Se Rj2 = 1 podemos estar tendo um caso de combinação linear

perfeita entre algumas das variáveis, isto é, multicolinearidade
51
▪ Mas o "problema" de multicolinearidade não é muito bem definido.
❖ Por exemplo, Rj2 = 0,9 significa que 90% da variação da amostra em xj
pode ser explicada pelas outras variáveis independentes no modelo.
❖ Significa que xj tem uma forte relação linear com as variáveis

independentes.
❖ Mas se isso se traduz em maior variância de 𝛽መ𝑗 vai depender dos

tamanhos de σ2 e SQT.
▪ Para inferência estatística, o que vale, em última instância é quão
grande é 𝛽መ𝑗 em relação ao seu desvio padrão.
52
4.7.1. Multicolinearidade: Variance Inflation Factor (VIF)
▪ Alguns pacotes econométricos já divulgam o VIF (Variance Inflation

Factor), 1/(1 - Rk2).
▪ VIF (Variance Inflation Factor):
❖ É um índice que mede o quanto a variância de um coeficiente estimado

foi inflada devido à colinearidade com os outros regressores.
❖ Quantifica a gravidade da multicolinearidade numa regressão por MQO.
❖ Uncentered VIF: razão entre a variação do coeficiente da equação

original dividida pela variação do coeficiente de uma equação com
apenas um regressor (sem constante).
❖ Centered VIF: idem com constante.

53
Variance Inflation Factor
54
4.7.4. Missing Values
▪ Numa base de dados é comum haver “buracos”, por várias razões:
❖ Talvez o mais frequente seja que, numa pesquisa de entrevistas, os
entrevistados podem simplesmente deixar de responder às perguntas.
▪ Em séries temporais:
❖ Dados podem faltar porque eles não existem na frequência necessária.
❖ Por exemplo, o modelo pode especificar relações mensais, mas algumas
variáveis são observadas apenas trimestralmente.
▪ Em dados de painel:
❖ Os “buracos” podem surgir por causa de “atritos” na pesquisa.
❖ Isto é comum quando indivíduos decidem não mais participar de uma
pesquisa. 55
4.7.4. Missing Values
▪ Há vários casos possíveis a considerar, dependendo do porque os
dados estão faltando.
▪ Eles podem estar simplesmente indisponíveis, por razões

desconhecidas para o analista.
▪ Outro caso comum são as “surveys”, com dados auto-reportados.
❖ Por exemplo, o pesquisa decide não informar sua renda.
▪ O caso intermediário é aquele em que há alguma informação sobre

os dados faltantes na base de dados completa.
▪ O que fazer? Interpolação, Chow & Lyn (1971), etc.

56
4.7.5. Erro de Medida
▪ Erro Sistemático:
❖ Também chamado de viés de medida, é um componente do erro que
permanece constante, ou que depende de alguma outra quantidade.
▪ Erro Aleatório:
❖ Está associado ao fato de que, quando uma medida é repetida, ela será
diferente do valor anterior.
❖ É aleatório porque o próximo valor medido não pode ser previsto a

partir dos valores anteriores.
57
▪ Erro de Medida na Variável Dependente:
❖ Seja o modelo para descrever a renda esperada:
➢ onde I* é a variável renda total.
❖ Suponha que o observado seja I, relativo à renda, mas relação entre I e

I* não é clara.
❖ Suponha que o erro de medida seja aditivo, então I = I* + w.
❖ Inserindo esta expressão para I em (4-55):
❖ Que nada mais é do que uma regressão.

58
▪ Suponha que “w” seja um erro homocedástico com média zero, não
correlacionado com “x”:
❖ Então, a única diferença entre os modelos (4-55) e (4-56) é que a

variância do erro em (4-56) é
▪ O custo do erro de medida fica concentrado na precisão do

estimador.
▪ A solução para o erro de medida é uma questão ambígua.
▪ O melhor é conseguir a variável.
▪ O “second best” seria uma variável proxy.

59
▪ Erro de Medida na Variável Independente:
❖ Considere-se uma regressão simples:
➢ onde “y” é a variável dependente perfeitamente medida
❖ O mesmo erro de medida ( I = I* + w ) agora se aplica à variável

independente.
❖ Inserindo I na equação e reorganizando:
❖ Como o regressor em (4-57) é correlacionado com o erro, a regressão

MQO é inconsistente.
60
▪ Equação (4-57) apenas se parece com (4-56).
▪ Mas este não é o caso pois:
▪ Sabe-se que:
❖ σ2 é a variação marginal de I*. O fator de escala é menor do que um,

então o estimador MQO é viesado em direção a zero.
❖ Quanto maior a variância de erro de medida, pior é o viés (isso é

chamado de atenuação dos mínimos quadrados)
61
▪ Agora, suponha que haja variáveis adicionais no modelo:
▪ Neste caso, existem as seguintes conclusões gerais:

1. O estimador MQO de β2 continua viesado em direção a zero.
2. Todos os elementos do estimador de β1 são viesados, em direções

desconhecidas, mesmo se as variáveis em “x” não são medidas com o
erro.
▪ As soluções para o "problema de erro de medida" vêm em 2 formas.

1. Uso de métodos dos momentos
2. Uso de variáveis instrumentais
62
4.7.6. Outliers
Gráfico de Dispersão com Reta de Regressão
Salários vs Educação
Salário (US$/hora)
25
20
15
10
5
y = 0,604x - 1,0312
R² = 0,1434
0
0 2 4 6 8 10 12 14 16 18 20
Educação (anos de estudo)
63
4.7.6. Outliers
Salários vs Educação
Salário (US$/hora)
25
20
15
10
5
y = 0,604x - 1,0312
R² = 0,1434
0
0 2 4 6 8 10 12 14 16 18 20
64
4.7.6. Outliers
Salários vs Educação com outliers
Salário (US$/hora)
120
100
outliers
80
60
40 y = 0,5612x + 0,8972
R² = 0,0148
20
0
0 2 4 6 8 10 12 14 16 18 20
65
Comparação de Modelos
Salários: Estatística Descritiva

sem outliers com outliers
média 6,40 7,80
variância 16,63 138,97
dp 4,08 11,79
▪ Modelo sem outliers:
▪ Modelo com outliers:
66

Tópico 4 Greene Cap. 04 Virtual

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tópico 4 Greene Cap. 04 Virtual

Enviado por

Direitos autorais:

Formatos disponíveis

(Greene, Cap.

Professor Cleomar Gomes

▪ Vamos considerar as propriedades em amostras finitas do MQO,

▪ A análise supõe que os dados correspondam às hipóteses do modelo:

❖ A2. Posto completo

❖ A3. Exogeneidade das variáveis independentes

❖ A4. Homocedasticidade e não-autocorrelação

❖ A5. Geração exógena dos dados

❖ A6. Distribuição Normal

▪ Condições de Ortogonalidade da População:

❖ Seja X um vetor de variáveis independentes no modelo de regressão

❖ Pela Hipótese A3 e pela Lei das Expectativas Iteradas:

Equação (4-1): relação da população

O lado direito não é uma função de

▪ Lembre-se da equação do MQO:

▪ Basta dividir isso por “n” e escrevê-lo como um somatório:

Equação (4-2): relação da amostra

❖ Assumindo as condições da Lei dos Grandes Números, as somas dos lados

❖ Assim, com o uso do MQO podemos “imitar” na amostra as relações da

▪ Conceito de ausência de viés:

▪ Hipóteses para a ausência de viés:

❖ Para ver isso basta escrever:

❖ Tirando expectativas e iterando o processo:

❖ Pela Hipótese A3 de Exogeneidade, o 2º termo da equação acima é zero.

▪ Interpretação deste resultado

❖ Para qualquer conjunto particular de observações, X, o estimador MQO

❖ Portanto, quando se tira a média dos possíveis valores de X, fica claro

❖ Um estimador eficiente é também um estimador não viesado com variância

▪ Omissão de variáveis relevantes:

❖ Provoca subespecificação do modelo

❖ Gera viés nos estimadores de MQO.

▪ Inclusão de variáveis irrelevantes:

❖ Provoca superespecificação do modelo.

❖ Não afeta a inexistência de viés dos estimadores MQO.

❖ Mas tem efeitos indesejáveis sobre as variâncias dos estimadores de

▪ Seja o seguinte modelo de regressão é:

▪ Existem inúmeros tipos de erros de especificação na construção de um

❖ Inclusão de variáveis supérfluas (irrelevante).

▪ Suponha que um modelo corretamente especificado fosse:

❖ em que as 2 partes de X têm K1 e K2 colunas, respectivamente.

▪ Se regredirmos “y” em “X1” sem incluirmos “X2”, o estimador será:

▪ Tomando as expectativas, b1 não será viesado somente se 𝑋1′ 𝑋2 = 0 ou se

▪ Este resultado gera a fórmula variável omitida:

▪ Podemos ver a omissão de variáveis ​relevantes como equivalente à

▪ Em particular, omitindo X2 seria equivalente a estimar incorretamente (4-8)

▪ E isso gera um estimador com viés.

▪ Omissão de variáveis relevantes

▪ Mas é necessário testar se a diferença observada no ajuste do modelo é

▪ O teste LR faz isso comparando as probabilidades logarítmicas dos 2 modelos.

▪ Se essa diferença for estatisticamente significativa, o modelo menos restritivo

▪ Suponha o modelo de regressão for corretamente dado por:

▪ Mas insistimos em estimar a Eq. (4-8):

❖ Ou seja, incluímos algumas variáveis ​extras.

❖ Então, surgirá algum problema.

▪ A inclusão das variáveis ​irrelevantes X2 na regressão é equivalente a não

▪ Mas (4-8) não é incorreta. Ela simplesmente não incorpora β2 = 0.

▪ Portanto, não precisamos provar formalmente que o estimador MQO de β

❖ Se x2 for altamente correlacionada com x1, a inclusão incorreta de x2 na

▪ Inclusão de variáveis irrelevantes

Corr(x1, x2) > 0 Corr(x1, x2) < 0

β2 > 0 Viés positivo Viés negativo

▪ A tabela acima resume a direção do viés.

▪ Mas o tamanho do viés também é muito importante.

▪ Podemos ver a omissão de variáveis relevantes como equivalente à

❖ Ou seja, incluímos algumas variáveis extras.

▪ A inclusão das variáveis irrelevantes X2 na regressão é equivalente a não