Slides - Capítulo 2 - Análise de Regressão Com Duas Variáveis

ECONOMETRIA
Prof. Victor Azambuja Gama

Nenhuma parte deste material poderá ser reproduzida para
fins comerciais. Este material foi desenvolvido com o propósito
de auxiliar as aulas da disciplina de Econometria do curso de
Ciências Econômicas da Universidade Estadual de Mato
Grosso do Sul (UEMS).
EMENTA
 Análise de Regressão (com duas variáveis, com regressão
múltipla);
 O modelo clássico de regressão linear e suas hipóteses básicas;
 Estimadores de mínimos quadrados ordinários e suas
propriedades;
 Intervalos de confiança e teste de hipóteses;
 Regressão com variável “dummy”;
 Regressão com variáveis binárias;
 Violação das hipóteses básicas do modelo clássico de regressão
linear: testes de diagnóstico e procedimentos de correção;

 Modelos auto-regressivos e de defasagens distribuídas;
 Modelos de equações simultâneas;
 Introdução a modelos de séries de tempo: Modelos
autoregressivos, de médias móveis e mistos;
 Tendência determinística e estocástica; raízes unitárias e
cointegração.
OBJETIVOS
 Demonstrar ao aluno as técnicas e métodos

econométricos básicos, capacitando-o a entender
e analisar trabalhos empíricos na área de
economia. Possibilitando a utilização deste
instrumental em análises econômicas e no próprio
trabalho de conclusão de curso.
REFERÊNCIA
GUJARATI, Damodar N.; PORTER, Dawn

C. Econometria Básica. 5 ed., Amgh Editora,
2011.
Capítulo 2 - Análise de regressão com
duas variáveis: algumas ideias básicas
2.1 Um exemplo hipotético
• População total: 60 famílias;
• Y = despesas de consumo semanais;
• X = renda disponível semanal;
• 60 famílias foram divididas em dez grupos com

aproximadamente o mesmo nível de renda ($80,
$100, $120, $140, $160, $180, $200, $220,
$240 e $260)
• Tabela 2.1: fornece a distribuição

condicional de Y para dados valores de X;
• Tabela 2.2: fornece a probabilidade

condicional de Y: p(Y|X);
• Média condicional (valor esperado):

E(Y|X=Xi)
• Tabela 2.1: fornece a distribuição condicional de Y

para dados valores de X;
• Ao todo, temos dez valores médios para as dez

subpopulações de Y;
• Chamamos esses valores médios de valores esperados

condicionais, pois dependem dos valores dados da variável
condicionante X;
• Simbolicamente, são denotados como E(Y|X), que se lê

como “valor esperado de Y dado o valor de X”
• Importante: valores esperados condicionais

E(Y|X) ≠ valores esperados incondicionais E(Y);
• Valores esperados incondicionais E(Y): são as

despesas de consumo semanais das 60 famílias da
população dividido por 60 ($ 7.272/60 = 121,20);
• É incondicional no sentido de que, para chegar a

esse total, desconsideramos a classe de renda
das várias famílias.
• Perguntas:
• Qual o valor esperado das despesas de consumo

semanais médias de uma família? R: $121,20 (a média
incondicional).
• Qual o valor esperado das despesas de consumo

semanais de uma família cuja renda mensal é de $
140? R: $101 (a média condicional).
• Esta, provavelmente, é a essência da análise de

regressão, como descobriremos ao longo do livro.
• Figura 2.1: mostra a linha (curva) de regressão

populacional;
• Os pontos pretos circulados mostram os valores médios

condicionais de Y para os diversos valores de X;
• Se unirmos os valores médios condicionais obteremos o

que é conhecido como linha de regressão populacional
(LRP) ou, de modo mais geral, a curva de regressão
populacional;
• Simplificando, é a regressão de Y contra X.

• Uma curva de regressão populacional “é apenas o local

geométrico das médias condicionais da variável
dependente para os valores fixados da(s) variável(is)
explanatória(s)”.
• Figura 2.2: fornece a curva de regressão populacional.

É a “curva que conecta as médias das subpopulações de Y
correspondentes aos valores dados do regressor X”.
• Essa figura mostra que, para cada X (isto é, nível de

renda), há uma população de valores de Y (despesas de
consumo semanais) que se espalham em torno da média
(condicional) desses valores de Y.
2.2 Conceito de função de regressão populacional (FRP)
• Função de esperança condicional (FEC) ou

função de regressão populacional (FRP):
𝐸 𝑌 𝑋𝑖 = f(𝑋𝑖 ) (2.2.1)
• Qual é a forma assumida pela função 𝑓(𝑋𝑖 )? R.:

Como primeira aproximação, ou hipótese de
trabalho, podemos supor que a FRP 𝐸 𝑌 𝑋𝑖 é uma
função linear de 𝑋𝑖 do tipo:
𝐸 𝑌 𝑋𝑖 = f 𝑋𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 (2.2.2)
2.2 Conceito de função de regressão populacional (FRP)
𝐸 𝑌 𝑋𝑖 = f 𝑋𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 (2.2.2)
• 𝛽1 e 𝛽2 são parâmetros desconhecidos, mas fixos,

chamados de coeficientes de regressão;
• 𝛽1 e 𝛽2 são também são conhecidos como intercepto e

coeficiente angular, respectivamente;
• Essa equação é conhecida como função linear de

regressão populacional;
• Algumas expressões alternativas usadas na literatura

são: modelo linear de regressão populacional ou regressão
linear populacional.
2.3 O significado do termo linear
• Linearidade nas variáveis: é o caso em que a

expectativa condicional de Y é uma função linear
de 𝑋𝑖 . Ex.: 𝐸 𝑌 𝑋𝑖 = f 𝑋𝑖 = 𝛽1 + 𝛽2 𝑋 2 não é uma
função linear;
• Linearidade nos parâmetros: a expectativa

condicional de Y, 𝐸 𝑌 𝑋𝑖 , é uma função linear
dos parâmetros, os 𝛽. Todavia, pode, ou não, ser
linear na variável X. Ex.: 𝐸 𝑌 𝑋𝑖 = f 𝑋𝑖 = 𝛽1 +
𝛽 22𝑋 não é linear nos parâmetros.
• Importante: de agora em diante, a expressão

regressão “linear” significará sempre uma
regressão linear nos parâmetros;
• Isso significa que os β′ s (isto é, os parâmetros)

são elevados apenas à primeira potência. Podem ou
não ser lineares nas variáveis explanatórias, os X.
• A Tabela 2.3 mostra isso esquematicamente.

2.4 Especificação estocástica da FRP
• O que podemos dizer sobre a relação entre as

despesas de consumo de uma família e um nível de
renda?
• Vemos na Figura 2.1 que para um nível de renda 𝑋𝑖

as despesas médias de consumo de uma família
agrupam-se em torno do consumo médio de todas as
famílias deste nível 𝑋𝑖 ;
• Isso significa que as despesas médias de consumo

ficam em torno de sua esperança condicional.
• Portanto, podemos expressar o desvio individual de

𝑌𝑖 em torno de seu valor esperado como a seguir:
𝑢𝑖 = 𝑌𝑖 − 𝐸(𝑌|𝑋𝑖 )
ou
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 (2.4.1)
• O desvio 𝑢𝑖 é uma variável aleatória não-observável

que assume valores positivos ou negativos;
• Tecnicamente, ui é conhecida como distúrbio

estocástico ou termo de erro estocástico.
• Como interpretamos a Equação 2.4.1? R: Podemos dizer

que a despesa de consumo de uma família individual, dado seu
nível de renda, pode ser expressa como a soma de dois
componentes:
a) 𝐸(𝑌|𝑋𝑖 ): componente sistemático ou determinístico;
b) 𝑢𝑖 : componente aleatório ou não-sistemático;
• Se supomos que 𝐸(𝑌|𝑋𝑖 ) é linear em 𝑋𝑖 , como na Equação

(2.2.2), a Equação (2.4.1) pode ser escrita da seguinte
maneira:
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 (2.4.2)
• Agora, se tomarmos o valor esperado de (2.4.1) nos dois

lados da equação, obtemos:
𝐸 𝑌 𝑋𝑖 = 𝐸[𝐸 𝑌 𝑋𝑖 ] + 𝐸(𝑢𝑖 |𝑋𝑖 )

𝐸 𝑌 𝑋𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝐸(𝑢𝑖 |𝑋𝑖 ) (2.4.4)
𝐸(𝑢𝑖 𝑋𝑖 = 0 (2.4.5)
• Considerando o fato de que o valor esperado de uma

constante é a própria constante. Considerando que 𝐸 𝑌 𝑋𝑖 =
𝐸 𝑌 𝑋𝑖 ;
• Conclusão: a suposição de que a linha de regressão passa

pelas médias condicionais de Y implica que os valores médios
condicionais de 𝑢𝑖 (condicionados a um dado X) sejam iguais a
zero.
2.5 O significado do termo “erro estocástico”
• Termo de erro 𝒖𝒊 : representa todas as variáveis omitidas no

modelo, mas que coletivamente afetam Y;
• Perguntas: (a) Por que não introduzir essas variáveis

explicitamente no modelo? (b) Por que não formular um modelo de
regressão com o máximo de variáveis possíveis?
• Há muitas razões:
1) Caráter vago da teoria;
2) Indisponibilidade de dados;
3) Variáveis essenciais versus variáveis periféricas/secundárias;
4) Caráter intrinsecamente aleatório do comportamento humano;
5) Variáveis proxy pouco adequadas;
6) Princípio da parcimônia;
7) Forma funcional errada.
2.6 A função de regressão amostral (FRA)
• Até agora, ao limitar nosso exame dos valores de Y

correspondentes aos X fixados para a população;
• Mas na maioria das situações práticas, o que temos é uma

amostra de valores de Y correspondentes a alguns X
fixados;
• Nossa tarefa agora é estimar a função de regressão com

base em informações amostrais;
• Imagine que a população da Tabela 2.1 seja desconhecida

e que a única informação que tenhamos seja uma amostra
selecionada aleatoriamente de valores de Y para os X
fixados, como na Tabela 2.4.
• Perguntas:
a) Com base na amostra da Tabela 2.4, é possível prever as
despesas médias de consumo semanais Y para a população como um
todo correspondentes aos X escolhidos?
b) Podemos estimar a FRP com base nos dados da amostra?
• Resposta: não seremos capazes de estimar “precisamente” a FRP

devido a variações amostrais.
• Para melhor entender, suponha que selecionemos outra amostra

aleatória da população da Tabela 2.1, como a que aparece na Tabela
2.5;
• Representando graficamente os dados das Tabelas 2.4 e 2.5,

obtemos o diagrama de dispersão apresentado na Figura 2.4.
• No diagrama, traçamos duas linhas de regressão amostral

para “ajustar” os pontos razoavelmente: 𝐹𝑅𝐴1 baseia-se na
primeira amostra e 𝐹𝑅𝐴2 , na segunda;
• Qual das duas linhas de regressão representa a linha de

regressão populacional “real”? R.: não há como ter certeza
absoluta;
•As linhas de regressão da Figura 2.4 são conhecidas como

linhas de regressão amostral;
• Elas representam a linha de regressão populacional, mas

devido às variações amostrais, elas são, no máximo,
aproximações da verdadeira regressão populacional;
• Tal como no caso da FRP subjacente à linha de

regressão populacional, podemos formular o conceito de
função de regressão amostral (FRA) para representar
a linha de regressão da amostra;
• A equação correspondente à (2.2.2) para a amostra

pode ser escrita como:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 (2.6.1)
em que 𝑌 lê-se “Y chapéu”;

𝑌𝑖 = estimador de 𝐸(𝑌|𝑋𝑖 );
𝛽1 = estimador de 𝛽1 ;
𝛽2 = estimador de 𝛽2 ;
• Podemos expressar a FRA na Equação 2.6.1 em sua forma

estocástica como a seguir:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 (2.6.2)
• Resumindo: verificamos que nosso objetivo primordial na

análise de regressão é estimar a FRP
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝑢𝑖 (2.4.2)
com base na FRA (2.6.2);
• Mas, devido a variações amostrais, nossas estimativas da FRP

com base na FRA são, na melhor das hipóteses, apenas uma
aproximação. Essa aproximação é apresentada graficamente na
Figura 2.5.
• Em termos da FRA, o 𝑌𝑖 observado pode ser expresso como:
𝑌𝑖 = 𝑌𝑖 + 𝑢𝑖 (2.6.3)
e em termos de FRP, como:
𝑌𝑖 = 𝐸 𝑌 𝑋𝑖 + 𝑢𝑖 (2.6.4)
• A pergunta crítica agora é: sabendo que a FRA não é mais do

que uma aproximação da FRP, podemos formular uma regra ou
um método que torne essa aproximação a mais próxima
possível?
• Resposta: Capítulo 3

Slides - Capítulo 2 - Análise de Regressão Com Duas Variáveis

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slides - Capítulo 2 - Análise de Regressão Com Duas Variáveis

Enviado por

Direitos autorais:

Formatos disponíveis

ECONOMETRIA

Prof. Victor Azambuja Gama

linear: testes de diagnóstico e procedimentos de correção;

 Demonstrar ao aluno as técnicas e métodos

GUJARATI, Damodar N.; PORTER, Dawn

• População total: 60 famílias;

• Y = despesas de consumo semanais;

• X = renda disponível semanal;

• 60 famílias foram divididas em dez grupos com

• Tabela 2.1: fornece a distribuição

• Tabela 2.2: fornece a probabilidade

• Média condicional (valor esperado):

• Tabela 2.1: fornece a distribuição condicional de Y

• Ao todo, temos dez valores médios para as dez

• Chamamos esses valores médios de valores esperados

• Simbolicamente, são denotados como E(Y|X), que se lê

• Importante: valores esperados condicionais

• Valores esperados incondicionais E(Y): são as

• É incondicional no sentido de que, para chegar a

• Qual o valor esperado das despesas de consumo

• Qual o valor esperado das despesas de consumo

• Esta, provavelmente, é a essência da análise de

• Figura 2.1: mostra a linha (curva) de regressão

• Os pontos pretos circulados mostram os valores médios

• Se unirmos os valores médios condicionais obteremos o

• Simplificando, é a regressão de Y contra X.

• Uma curva de regressão populacional “é apenas o local

• Figura 2.2: fornece a curva de regressão populacional.

• Essa figura mostra que, para cada X (isto é, nível de

• Função de esperança condicional (FEC) ou

• Qual é a forma assumida pela função 𝑓(𝑋𝑖 )? R.:

• 𝛽1 e 𝛽2 são parâmetros desconhecidos, mas fixos,

• 𝛽1 e 𝛽2 são também são conhecidos como intercepto e

• Essa equação é conhecida como função linear de

• Algumas expressões alternativas usadas na literatura

• Linearidade nas variáveis: é o caso em que a

• Linearidade nos parâmetros: a expectativa

• Importante: de agora em diante, a expressão

• Isso significa que os β′ s (isto é, os parâmetros)

• A Tabela 2.3 mostra isso esquematicamente.

• O que podemos dizer sobre a relação entre as

• Vemos na Figura 2.1 que para um nível de renda 𝑋𝑖

• Isso significa que as despesas médias de consumo

• Portanto, podemos expressar o desvio individual de

• O desvio 𝑢𝑖 é uma variável aleatória não-observável

• Tecnicamente, ui é conhecida como distúrbio

• Como interpretamos a Equação 2.4.1? R: Podemos dizer

a) 𝐸(𝑌|𝑋𝑖 ): componente sistemático ou determinístico;

b) 𝑢𝑖 : componente aleatório ou não-sistemático;

• Se supomos que 𝐸(𝑌|𝑋𝑖 ) é linear em 𝑋𝑖 , como na Equação

• Agora, se tomarmos o valor esperado de (2.4.1) nos dois

𝐸 𝑌 𝑋𝑖 = 𝐸[𝐸 𝑌 𝑋𝑖 ] + 𝐸(𝑢𝑖 |𝑋𝑖 )

• Considerando o fato de que o valor esperado de uma

• Conclusão: a suposição de que a linha de regressão passa

• Termo de erro 𝒖𝒊 : representa todas as variáveis omitidas no

• Perguntas: (a) Por que não introduzir essas variáveis

• Até agora, ao limitar nosso exame dos valores de Y

• Mas na maioria das situações práticas, o que temos é uma

• Nossa tarefa agora é estimar a função de regressão com

• Imagine que a população da Tabela 2.1 seja desconhecida

• Resposta: não seremos capazes de estimar “precisamente” a FRP

• Para melhor entender, suponha que selecionemos outra amostra

• Representando graficamente os dados das Tabelas 2.4 e 2.5,