Séries

10/23/2021 Econometria
Econometria de Séries Temporais
Agenda
1. Relembrando alguns pontos importantes
2. Regressão linear simples e múltipla
3. Séries temporais
Objetivos
Geral
Introduzir técnicas de séries temporais a partir de modelos univariados.
Específicos
Revisar pré-requisitos estatísticos para econometria de séries temporais.
Formalizar a modelagem ARIMA.
Sugestões de livros
Introdução à Econometria. Wooldridge (2010). 4ª edição. Capítulo 10.
Econometria Básica. Damodar Gujarati (2010). 5ª Edição. Capítulos 21 e 22.
Econometria de séries temporais. Rodrigo De Losso (2008). 1ª Edição. Capítulos 2 e 3.
Lembretes
Definição: Seja X uma v.a. discreta que assume valores X1 , X2 , … , Xn , com respectivas
probabilidades P (X1 ), P (X2 ), … , P (Xn ), definimos a esperança de X (ou valor médio):
E(X) = X1 P(X1 ) + X2 P(X2 ) + … + Xn P(Xn ) = ∑ Xn P(Xn )

i=1
Definição: Se X é uma v.a. contínua com função densidade f (x) , sua esperança será:
∞
E(X) = ∫ xf (x)dx
−∞
Uma definição importante, que usaremos para calcular a variância é:
2 +∞ 2
E(X ) = ∫ x f (x)dx
−∞
file:///home/lucas/Downloads/Econometria (3).html 1/26

Seja E(X), E(Y) e ∀α, β ∈ R:
E(αX) = αE(X)
E(X + α) = E(X) + α
E(X + Y) = E(X) + E(Y)
E(αX ± βY) = αE(X) ± βE(Y)
E(XY) = E(X) ⋅ E(Y) , se X,Y são independentes

E(XY) = E(X) ⋅ E(Y) + cov(X, Y)
Lembremos que a variância é definida em termos da média dos quadrados dos desvios em relação a média.
Podemos obter ainda uma outra relação para a variância: média dos quadrados menos o quadrado da
média.
2
Var(X) = E(X − E(X))
2 2
= E (X − 2XE(X) + (E(X)) )
2 2 2
= E(X ) − 2(E(X)) + (E(X))
2 2
= E(X ) − (E(X))
Propriedades:
∀α, β ∈ R :
Var(α) = 0
Var(X + α) = Var(X)
2
Var(αX) = α Var(X)
2
Var(αX + β) = α Var(X)
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)
Var(X − Y) = Var(X) + Var(Y) − 2Cov(X, Y)

2 2
Var(αX ± βY) = α Var(X) + β Var(Y) , se X e Y forem independetes
2 2
Var(αX ± βY) = α Var(X) + β Var(Y) ± 2αβCov(X, Y)
2 2 2
Var(XY) = E (X Y ) − (E(XY))
2 2
Var(aX + bY) = E [(aX + bY ) ] − [E(aX + bY )]
2 2 2 2 2
= E [a X + 2abXY + b Y ] − [E(aX) + E(bY )]
2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − [aE(X) + bE(Y )]
2 2 2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − [a [E(X)] + 2abE(X)E(Y ) + b
2 2 2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − a [E(X)] − 2abE(X)E(Y ) − b [
2 2 2 2 2 2
= a {E(X ) − [E(X)] } + b {E(Y ) − [E(Y )] } + 2ab {E(XY ) − E(X
2 2
= a Var(X) + b Var(Y) − 2abCov(X, Y)
Por definição, a covariância das variáveis X e Y é:

n
1 ¯¯¯
¯ ¯
¯¯¯
Cov(X, Y) = ∑ (Xi − X ) (Y i − Y )
n i=1
Outra forma de definir a covariância é expressando-a como a diferença entre a média dos produtos e o
produto da média:
n
1 ¯¯¯
¯¯¯¯
¯
Cov(X, Y) = ∑ Xi Y i − X Y
n i=1
Podemos expressar a covariância em termos do valor esperado das variáveis.
Cov(X, Y) = E [(X − E(X)) (Y − E(Y))]
Cov(X, Y) = E [(X − E(X)) (Y − E(Y))]
= E(X, Y) − 2E(X)E(Y) + E(X)E(Y)
= E(XY) − E(X)E(Y)
∴ Cov(X, Y) = E(XY) − E(X)E(Y)
Propriedades:
∀α, β, a, b, c, d ∈ R
Cov(X, X) = Var(X)
Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)
Cov(αX, Y) = Cov(X, αY) = αCov(X, Y)
Cov(α, X) = Cov(X, α) = 0
Cov(X + α, Y) = Cov(X, Y)
Cov(aX + b, cY + d) = acCov(X, Y)
A correlação entre duas variáveis aleatórias X e Y é definida como:
Cov(X, Y)
σ XY
Corr(X, Y) = −−−−−− −−−−−− =
√Var(X) √Var(Y) σX σY
Estimadores não viesados
^
E(θ ) = θ
A esperança do estimador deve ser o parâmetro populacional (estimador não viesado ou não tendencioso).
Se o estimador erra, em média, então é viesado:

^ ^
θ é viesado ⇔ E(θ ) = θ + viés
Vamos verificar se a média amostral é um estimador viesado da média populacional:
¯¯¯
¯
1 n
X1 + X2 + ⋯ + Xn
Sabemos que: X = ∑
i=1
Xi =
n n
¯
¯¯¯
X1 + X2 + ⋯ + Xn
E(X) = E ( )
¯
¯¯¯
1
E(X) = E (X1 + X2 + ⋯ + Xn )
1
¯
¯¯¯
E(X) = [E(X1 ) + E(X2 ) + ⋯ + E(Xn )]
¯
¯¯¯
1
E(X) = [μ + μ + ⋯ + μ]
¯
¯¯¯
1
E(X) = [nμ] = μ
A esperança da média amostral é sempre igual à média populacional (estimador não viesado da média
populacional).
Estimador eficiente
Estimador absolutamente eficiente ou eficiente se:
for não viesado;

entre os estimadores não viesados apresentar a menor variância.
Erro quadrático médio (EQM)
^ ^
EQM(θ ) = E(θ − θ)
2

2
^ ^ ^
EQM(θ ) = E(θ
2
− 2θθ + θ )
2
^ ^ ^ 2
EQM(θ ) = E(θ ) − 2E(θθ ) + E(θ )
2
^ ^ ^ 2
EQM(θ ) = E(θ ) − 2θE(θ ) + θ
Somando e subtraindo [E(θ^)] :
2 2 2
^ ^ ^ ^ ^ 2
EQM(θ ) = E(θ ) − [E(θ )] + [E(θ )] − 2θE(θ ) + θ
2
^ ^ ^
EQM(θ ) = Var(θ ) + [E(θ ) − θ]
2
^ ^ ^
EQM(θ ) = Var(θ ) + [viés(θ )]

O erro quadrático médio tem dois componentes: o estimador erra o valor do parâmetro em função de quanto
varia (variância) e também, quando for o caso, pelo fato de não acertar na média (ser viesado).
Exemplo
Determine qual dos estimadores da média a seguir é relativamente mais eficiente.
2X1 + 3X2
M1 =
X1 + X2
M3 =
3
2
EQM(M1 ) = Var(M1 ) + [viés (M1 )]
EQM(M1 ) = Var(M1 ) + 0
2
EQM(M1 ) = 0, 52σ
Estimador M3 :
X1 + X2
E(M3 ) = E ( )
1
E(M3 ) = E (X1 + X2 )
1
E(M3 ) = (μ + μ)
2
E(M3 ) = μ
M3 é um estimador viesado. Calculemos seu viés:
viés (M3 ) = E (M3 ) − μ
2
viés (M3 ) = μ − μ
1
viés (M3 ) = − μ
3
Variância:

X1 + X2
Var(M3 ) = Var ( )
1
Var(M3 ) = Var (X1 + X2 )
1
2 2
Var(M3 ) = (σ + σ )
2
2
Var(M3 ) = σ
Calculemos então o EQM do estimador M3 :
2
EQM(M3 ) = var(M3 ) + [viés (M3 )]
2
2 1
EQM(M3 ) = σ
2
+ [− μ]
9 3
2 1
2 2
EQM(M3 ) = σ + μ
9 9
Não podemos afirmar qual dos estimadores é relativamente mais eficiente, visto que não sabemos os
verdadeiros valores de σ e μ.
Se assumirmos μ = 0:
2
2
EQM(M3 ) = σ < EQM(M1 )
9
Neste caso, temos que M3 é relativamente mais eficiente que M1 .
Melhor estimador linear não viesado
Ou Best Linear Unbiased estimator (BLUE)
Um estimador que seja Melhor Estimador Linear não Viesado (MELiNV) tem:
ser não viesado;

ser linear;
entre os estimadores lineares e não viesados, apresentar a menor variância.
Um estimador será linear se for obtido por meio de uma combinação linear das observações da amostra:

~ n
X = ∑ ai Xi = a1 X1 + a2 X2 + ⋯ + an Xn
i=1
Cada ai é uma constante.
Propriedades assintóticas: estimadores assintoticamente não viesados
As propriedades anteriores se aplicam a qualquer tamanho de amostra e, em particular, a amostras

pequenas. Mas quando o tamanho da amostra cresce , ou tende ao infinito,também devemos definir
propriedades desejáveis (propriedades assintóticas).
1. Estimadores assintoticamente não viesados

Alguns estimadores, embora viesados, quando a amostra cresce, tem seu viés reduzido (o viés do
estimador vai desaparecendo à medida que o tamanho da amostra aumenta.
Se o estimador for não viesado, será assintoticamente não viesado. Porém, a recíproca não é
verdadeira.
^
lim n→∞ E(θ ) = θ
2. Estimadores consistentes
Um estimador será consistente se:
^
lim n→∞ E(θ ) = θ
^
lim n→∞ Var(θ ) = 0
Condição suficiente: se limn→∞ EQM(θ^) = 0, então θ^ é consistente.
Exercício: Verifique se o estimador M4 é não viesado e consistente.
1 1 n
M4 = X1 + ∑ Xi
i=1
2 2 (n − 1)
Verificando se M4 é viesado:

1 1 n
E(M4 ) = E [ X1 + ∑ Xi ]
i=1
2 2(n − 1)
1 1 n
E(M4 ) = E ( X1 ) + E [ ∑ Xi ]
i=1
2 2(n − 1)
1 1
E(M4 ) = E(X1 ) + E(X2 + X3 + ⋯ + Xn )
2 2(n − 1)
1 1
E(M4 ) = E(X1 ) + [E(X2 ) + E(X3 ) + ⋯ + E(Xn )]
2 2(n − 1)
1 1
E(M4 ) = μ + [μ + μ + ⋯ + μ]
2 2(n − 1)
1 1
E(M4 ) = μ + (n − 1)μ
2 2(n − 1)
1 1
E(M4 ) = μ + μ = μ
2 2
Vams calcular EQM(M4 ):
2
EQM(M4 ) = Var(M4 ) + [viés(M4 )]
EQM(M4 ) = Var(M4 )
1 1 n
EQM(M4 ) = Var ( X1 + ∑
i=1
Xi )
2 2(n − 1)
1 1 n
EQM(M4 ) = Var ( X1 ) + Var ( ∑
i=1
Xi )
2 2(n − 1)
1 1
EQM(M4 ) = Var(X1 ) + Var(X2 + X3 + ⋯ + Xn )
2
4 4(n − 1)
1 1
2 2 2 2
EQM(M4 ) = σ + (σ + σ + ⋯ + σ )
2
4 4(n − 1)
1 1
2 2
EQM(M4 ) = σ + (n − 1)σ
2
4 4(n − 1)
1 1
2 2
EQM(M4 ) = σ + σ
4 4(n − 1)

1 1
2 2
lim n→∞ EQM(M4 ) = lim n→∞ [ σ + σ ]
4 4(n − 1)
1 2
lim n→∞ EQM(M4 ) = σ
4
M4 não é consistente, mas é não viesado.
Estimadores de máxima verossimilhança (Leitura Complementar)
Esta seção baseia-se integralmente no Bussab.
O que seria uma amostra verossímil?
Seria uma amostra que fornecesse a melhor informação possível sobre um parâmetro de interesse da
população, desconhecido, e que desejamos estimar.
O princípio da verossimilhança afirma que devemos escolher aquele valor do parâmetro desconhecido
que maximiza a probabilidade de obter a amostra particular observada, ou seja, o valor que torna
aquela amostra a “mais provável”.
Obtemos então estimadores de máxima verossimilhança que, em geral, têm propriedades muito boas.
Definição (Bussab):
A função de verossimilhança é definida por:
L (θ; x 1 , … , x n ) = f (x 1 ; θ) … f (x n ; θ)
que deve ser encarada como uma função de θ . O estimador de máxima verossimilhança de θ é o valor
^
θ MV que maximiza a função L(θ; x i ) .
Outra notação:
′
Seja x = (x 1 , … , x n ) é o vetor contendo a amostra, podemos então denotar: L(θ|x) e a log-
verossimilhança por l(θ|x) .
O parâmetro θ pode ser um vetor: com uma média μ e variância σ 2 de uma
2
distribuição normal temos então θ = (μ, σ ) .
Exemplo: Seja X uma variável aleatória com distribuição normal (i.i.d.) com média e variância
desconhecidas. Para a amostra {x 1 , x 2 , … , x n } determinemos os estimadores de máxima
verossimilhança para a média e a variância.
A função de máxima verossimilhança terá a forma funcional de uma distribuição normal multivariada:
1 1 n
2 2
L(μ, σ ; x i ) = exp[− ∑ (x i − μ) ]
n i=1
2
(2πσ )
2 2 2σ

2 2
l(μ, σ ; x i ) ≡ ln[L(μ, σ ; x i )]
1 1 n 2
= ln{ exp[− ∑ (x i − μ) ]}
n i=1
2
(2πσ )
2
2
2σ
1 1 n 2
= ln[
n
] − ∑
i=1
(x i − μ)
2
(2πσ )
2
2
2σ
n
1 n 2
= − ln (2πσ )
2 2
− ∑
i=1
(x i − μ)
2
2σ

n
1 n 2
= − ln(2πσ ) −
2
∑
i=1
(x i − μ)
2 2
2σ

1 n 2
2 n 2
∴ l(μ, σ ; x i ) = −
2
ln(2πσ ) − ∑
i=1
(x i − μ)
2
2σ

Vamos aplicar a condição de primeira ordem:
2
∂ l(μ, σ ; x i )
= 0
∂μ
2
∂ l(μ, σ ; x i )
= 0
2
∂σ
∂l 1 n
= − × 2∑ ^) = 0
(x i − μ
i=1
2
∂μ 2σ
n
∑
i=1
^) = 0
(x i − μ
n n
∑
i=1
xi − ∑
i=1
^ = 0
μ
n
∑
i=1
^ = 0
x i − nμ
n
∑ xi
i=1
^ =
∴ μ
n
∂l n 1 1 n 2
= − + ∑
i=1
¯¯
(x i − x )
¯
= 0
2 2 2
∂σ 2 σ
^ ^
4σ

2 n 2
= 0
¯¯
¯
^
−nσ + ∑ (x i − x )
i=1
n 2
∑ (x i − ¯¯
¯
x)
2 i=1
^
σ =
n

O estimador de máxima verossimilhança da média de uma distribuição normal é a própria média amostral
¯¯¯
¯
X .O estimador de máxima verossimilhança da variância de uma distribuição normal é a própria variância
amostral S 2 , sendo um estimador viesado.
Propriedades úteis dos estimadores de máxima verossimilhança:
podem ser viesados, embora não sejam assintoticamente viesados;

são consistentes;
têm distribuição assintótica normal;
são assintoticamente eficientes.
Regressão Linear Simples
Introdução
y: representa o fenômeno/variável target que queremos analisar em função de uma variável explicativa
x (ou mesmo conjunto de variáveis explicativas) e um termo de perturbação u (ou termo de erro):
y = f (x) + u
Analisar a relação entre duas variáveis, embora seja algo limitado, esta técnica é o ponto de partida
para entender modelos mais complexos (visualização gráfica trivial). Então, buscamos explicar y
em termos de x ou ainda analisar como y varia com as variações em x .
Vamos focar inicialmente no problema que busca analisar a relação entre duas variáveis descrita por
um modelo de regressão linear simples:
y = β0 + β1 x + u
Note que: y é a variável dependente e x é a variável explicativa (que prova as variações em y).
Exemplos
salário(w) = β0 + β1 educação + u : o parâmetro β1 refere-se ao efeito do grau de escolaridade
do indivíduo no salário.
taxa_crime(e) = β0 + β1 quantidade_polícia + u : o parâmetro β1 refere-se a redução da
taxa de criminalidade em função de um aumento na quantidade de força polícial.
vendas(s) = β0 + β1 temperatura + u : para algum tipo de negócio o aumento da temperatura
pode ter um efeito positivo na quantidade de vendas.
Terminologia do modelo de regressão linear simples:
y x
Variável Dependente Variável Independente
Variável Explicada Variável Explicativa
Variável de Resposta Variáve de Controle
Variável Prevista Variável Previsora
Regressando Regressor
Ou ainda:

y = β0 + β1 X + u
   
target input termo de erro
coeficientes
A relação de causalidade é capturada por β1 (parâmetro de inclinação), que mensura o o efeito da variável
x sobre a variável y, desde que exista causalidade. Denotamos β0 como o parâmetro de intercepto.
O termo de erro u diz respeito a outros fatores que afetam y mas não estão explícitos na equação da
regressão. Então, a inclusão deste termo irá tornar a relação entre as variáveis estocástica.
Relação linear entre y e x: x altera a variável y linearmente. Uma implicação desta premissa seria que
independentemente do valor inicial de x teremos sempre o mesmo impacto de desta variável sobre y.
Lembre que a relação é linear nos parâmetros do modelo.
Considere um modelo populacional y = β0 + β1 x + u e uma amostra desta população

(x i , yi ), i = 1, … , n . Podemos mostrar que os estimadores de MQO são:
2
n 2 n ^ ^
min ^ ^ ∑ ^
u = ∑ (yi − β 0 − β 1 x i )
β 0 ,β 1 i=1 i i=1
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 0
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 0
^ ¯
¯¯ ^ ¯¯
¯
β0 = y − β1x
n
¯¯
¯ ¯
¯¯
cov(x, y) ∑ (x i − x ) (yi − y)
^ i=1
β1 = =
n 2
var(x) ¯¯
∑ (x i − x̄ )
i=1
n 2
Desde que: ∑ i=1 (x i ¯¯
¯
− x) > 0
É possível mostrar que:
^y
σ
^
^
β1 = ρ ( )
xy
^x
σ
^ ^
Se ρ
^
xy
> 0 ⇒ β1 > 0 eρ
^
xy
< 0 ⇒ β 1 < 0.
Modelo estimado:
^
^ = β ^
y 0
+ β1x

Resíduo do modelo:
^ i = yi − y
u ^
i
Assim o resíduo da regressão é definido como a diferença entre o valor yi (valor real) e o valor
previsto/ajustado y
^ . Se u
i
^ i > 0 ⇒ então a reta subestima yi ; por outro lado, se u^ i < 0 então a reta
superestima yi . O mundo ideal seria u i = 0, mas na prática teremos para a maior parte dos casos
^
^ i ≠ 0.
u
Propriedades Algébricas das Estatísticas de MQO
(1) A soma, e portanto a média amostral, dos resíduos de MQO é zero.
n
∑ î = 0
u
i=1
^ ^
As estimativas de MQO β 0
eβ 1
são escolhidas para fazer com que a soma dos resíduos seja zero. Isso
não diz nada sobre o resíduo de qualquer observação i em particular.
(2) A covariância amostra entre os regressores e os resíduos de MQO é zero.
n
∑ î = 0
xiu
i=1
(3) O ponto (x̄

¯¯ ¯ ¯
, ȳ) sempre está sobre a reta de regressão de MQO.
Grau de Ajuste da Regressão
Tentaremos explicar a partir de alguma mensuração o quão bem a variável explicativa ou independentem,
x , explica a variáve dependente y. Quão bem a reta de regressão se ajusta aos dados?
SQT (Soma dos Quadrados Total) : medida da variação amostral tota em yi (mensura quão
dispersos estão os valores de yi na amostra).
n
2
¯
¯¯
S QT = ∑ (yi − y )
i=1
SQE (Soma dos Quadrados Explicada) : medida de variação amostral em y

^ .
i
n
2
¯
¯¯
S QE = ∑ (y
î − y )
i=1
SQR (Soma dos Quadrados dos Resíduos) : medida de variação amostral em u

^ i.

n
2
î
S QR = ∑ u
i=1
A variação tota em y pode ser expressa como a soma da variação explicada e da variação não explicada:
S QT = S QE + S QR
Nossa medida de ajuste será então:
S QE S QR
2
R = = 1 −
S QT S QT
2
R é a razão entre a variação explicada e a variação total;
Sua interpretação é: fração da variação amostral em y que é explicada por x .
O R2 está entre 0 e 1 (se todos os pontos de dados estiverem sobre a mesma reta, MQO fornece um
ajuste perfeito aos dados e R2 = 1 );
Uma forma usual é multiplicar o R2 por 100 para obter uma interpretação em termos percentuais:
S QE
2
R = × 100
S QT
Neste caso, o R2 é a percentagem de variação amostral em y que é explicada por x .
Formas funcionais
Lembrete: o modelo é linear nos parâmetros β0 e β1 (não há restrições de como as variáveis x e y se

relacionam).
Modelo Variável Dependente Variável Independente Interpretação de β1
Nível-Nível y x Δy = β1 ΔX
β1
Nível-log y log(x) Δy = ( ) Δx
100
Log-Nível log(y) x %Δy = (100β1 ) Δx
Log-log log(y) log(x) %Δy = β1 %Δx
Em Econometria podemos interpretar o último caso em termos de elasticidade de y em relação a x .

Exemplo: se o gasto com marketing aumentar em 1%, as vendas terão uma variação positiva de 5%.
Podemos usar esta noção para mensurar o grau de sensibilidade da demanda de um determinado produto
em função de um conjunto de variáveis do nosso dataset.

Vamos encontrar os estimadores de MQO para uma regressão linear simples.
Para tanto precisamos encontrar estimadores que minimizam a soma do quadrado dos resíduos:
2
n 2 n ^ ^
min ^ ^ ∑ ^
u = ∑ (yi − β 0 − β 1 x i )
β0 ,β1 i=1 i i=1
Condições de primeira ordem:

n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 0
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 1
Da primeira condição:
n
^ ^
2∑ (yi − β 0 − β 1 x i ) (−1) = 0
i=1
n
−2 ∑ î = 0
u
i=1
n
∑ î = 0
u
i=1
Então:
n ^ ^
∑ (yi − β − β x i )
i=1 0 1
n n ^ n ^
∑ yi − ∑ β0 − ∑ β 1 xi = 0
i=1 i=1 i=1
n ^ ^ n
∑ yi − nβ 0 − β 1 ∑ xi = 0
i=1 i=1
n ^ ^ n
∑ yi = nβ 0 + β1 ∑ xi
i=1 i=1
^ n ^ n
nβ 0 = ∑ yi − β 1 ∑ xi
i=1 i=1
n n
∑ yi ∑ xi
^ i=1 ^ i=1
β0 = − β1
n n
^ ¯
¯¯ ^ ¯¯
¯
∴ β0 = y − β1x
Da segunda condição temos :

n
−2 ∑ ^ ixi = 0
u
i=1
n ^ ^
∑ (yi − β 0 − β 1 x i ) x i = 0
i=1
^ ^ ¯¯
Vamos substituir β 0
¯
¯¯ ¯
= y − β1x na equação anterior:
n ^ ¯¯ ^
¯
¯¯ ¯
∑ x i [yi − y + β 1 x − β 1 x i ] = 0
i=1
n ^ n
¯
¯¯ ¯¯
¯
∑ x i (yi − y) + β 1 ∑ (x i − x ) x i = 0
i=1 i=1

n ^ n
¯
¯¯ ¯¯
¯
∑ x i (yi − y) = β 1 ∑ (x i − x ) x i
i=1 i=1
Mas sabemos que:
n n 2
¯¯
¯ ¯¯
∑ x i (x i − x ) = ∑ (x i − x̄ )
i=1 i=1
n n
¯
¯¯ ¯¯
¯ ¯
¯¯
∑ x i (yi − y) = ∑ (x i − x ) (yi − y)
i=1 i=1
Então:
n
∑ (x i − ¯¯
¯ ¯
¯¯
x ) (yi − y)
^ i=1
β1 =
n 2
∑ (x i − ¯¯
¯
x)
i=1
Regressão linear múltipla
Na prática teremos mais de uma variável explicativa e podemos então generalizar para um modelo com K
variáveis explicativas e incorporar mais mais fatores que podem explicar y.
y = β0 + β1 x 1 + β2 x 2 + β3 x 3 + ⋯ + βK x k + u
Nota: β0 é o intercepto do modelo, β1 é o parâmetro associado a x 1 , β2 é o parâmetro associado a

variável x 2 , e assim sucessivamente.
Podemos usar notação matricial:
y = Xβ + u
Sendo que:
y1 β0 u0 1 x 11 … x 1k
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
⎢ y2 ⎥ ⎢ β1 ⎥ ⎢ u1 ⎥ ⎢1 x 21 … x 2k ⎥
y = ⎢ ⎥, β = ⎢ ⎥, u = ⎢ ⎥,
X = ⎢ ⎥
⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⋮ ⎥ ⎢ ⋮ ⎥ ⎢ ⋮ ⎥ ⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦
yn βk un 1 x n1 … x nk
Nosso problema de otimização e obtenção dos parâmetros consiste em:

′
^′ ^ ^
min u u^ = (y − Xβ ) (y − Xβ )
^
β
Que resolvendo obtemos:

′ ′
^ −1
∴ β = (X X) X y
Vamos proceder a demonstração.

′ ′
e e = (Y − Xβ) (Y − Xβ)
′ ′ ′ ′ ′ ′ ′
e e = Y Y − Y Xβ − β X Y + β X Xβ
′ ′ ′ ′ ′ ′
e e = Y Y − 2β X Y + β X Xβ
Condições de primeira ordem:

′ ′ ^
−2X Y + 2X Xβ = 0
′ ^ ′
2X Xβ = 2X Y
Agora iremos pré-multiplicar ambos os lados da equação por (X′ X)−1 :

′ −1 ′ ^ ′ −1 ′
(X X) X Xβ = (X X) X Y
′ ′
^ −1
∴ β = (X X) X y
Motivação
Dados de corte transversal(Cross-Sectional Data)
Amostra de indivíduos, consumidores, empresas, cidades, estados, países ou outras unidades, tomada em
um determinado ponto do tempo.
observação salário educação experiência feminino casado
1 1.533,6 3 2 1 0
2 10.000,1 10 5 0 1
3 3.330,93 3 3 1 0
4 20.350,3 12 8 1 1
. . . . . .
. . . . . .
. . . . . .
. . . . . .
55.347 1.987,33 5 3 0 0
Esta análise está ligada ao campo da microeconomia aplicada (economia do trabalho, economia da
educação, finanças públicas, economia urbana, demografia, economia da saúde, economia do crime, etc.)
Dados de Séries de Tempo (Time Series Data)
Observações de uma variável ou conjunto de variáveis em um recorte temporal.
Salário Mínimo, Desemprego e Dados relacionados para Porto Rico.

n ano minmed cobmed desemp pnb
1 1950 0,20 20,1 15,4 878,7
2 1951 0,21 20,7 16,0 925,0
3 1952 0,23 22,6 14,8 1.015,9
. . . . . .
. . . . . .
. . . . . .
37 1986 3,35 58,1 18,9 4.281,6
38 1987 3,35 58,2 16,8 4.496,7
Em que: minmed é o salário médio no ano, cobmed a taxa de cobertura média (percentual de trabalhadores
cobertos pela lei do salário mínimo), desemp a taxa de desemprego e pnb o produto nacional bruto.
Mais exemplos de séries temporais: preços de ações no tempo, inflação, PIB, quantidade de vendas de uma
empresa, etc. Podemos tentar explicar o comportamento da série com base no seu histórico.
Cortes Transversais Agrupados
Alguns conjuntos de dados têm tanto características de corte transversal quanto de séries de tempo.
Exemplo: podemos usar corte transversal agrupado para aumentar o tamanho da nossa amostra, para dois
anos. Poderia ser, por exemplo, analisar o efeito de uma mudança de política econômica (ou mesmo
mudança organizacional) e então poderíamos coletar dados antes e após esta mudança.
Cortes-Transversais Agrupados: dois anos de preços de moradias
observação ano preço_casa imposto tamanho(m2 ) quartos banheiros
1 1993 85,500 42 1600 3 2
2 1993 67,300 36 1440 3 2.5
3 1993 134,000 38 2000 4 2.5
. . . . . . .
. . . . . . .
. . . . . . .
250 1993 243,600 41 2600 4 3
251 1995 65,000 16 1250 2 1
252 1995 182,400 20 2200 4 2
253 1995 97,500 15 1540 3 2
. . . . . . .
. . . . . . .
. . . . . . .
520 1995 57,200 16 1100 2 1.5

Dados de Painel (Panel Data)
Um conjunto de dados de painel consiste em uma série de tempo para cada membro do corte transversal do
conjunto de dados. A mesma unidade em corte transversal (família ou empresa) terá observações no tempo.
Exemplo: histórico de salário, educação e emprego para um conjunto de indivíduos para um período de dez
anos.
Conjunto de Dados em Painel sobre Estatísticas de Crime nas Cidades para Dois Anos
observação cidade ano assassinatos população desemprego polícia
1 1 1986 5 350.000 8,7 440
2 1 1990 8 359.200 7,2 471
3 2 1986 2 64.300 5,4 75
4 2 1990 1 65.100 5,5 75
. . . . . . .
. . . . . . .
. . . . . . .
297 149 1986 10 260.700 9,6 286
298 149 1990 6 245.000 9,8 334
299 150 1986 25 543.000 4,3 520
300 150 1990 32 546.200 5,2 493
O que é uma série temporal?

Uma definição intuitiva seria definir séries temporais como um conjunto de variáveis aleatórias
ordenadas no tempo.
Gujarati (2000) define uma série temporal como: “é um conjunto de observações dos valores que uma
variável assume em diferentes momentos”. Diferentemente de um banco de dados em corte transversal,
aqui cada observação da série de tempo foi obtida em um momento diferente no tempo.
Exemplos: Exportação mensal, Taxa de Inflação Mensal, PIB anual, dentre várias outras variáveis
econômicas.
As séries temporais podem ser classificadas em estacionárias ou não estacionárias.
As séries temporais podem ainda ser classificadas em estocásticas ou determinísticas.
Dentre disto, iremos apresentar alguns dos modelos que o econometrista dispõe para analisar tais
dados.

Conceitos básicos
Séries de tempo geralmente possuem autocorrelação. A correlação entre yt e yt−j é diferente de zero.
Vamos definir algumas notações:
Média: E(Yt ) = μ
2
Variância: Var(Yt ) = σ
Autocovariância: γ k = E [(Y t − μ) (Y t−k − μt−k ])] = cov(Yt , Yt−k )
γ(k)
Autocorrelação: ρ(k) =
γ(0)
Estacionariedade
Uma série será estacionária se (estacionariedade fraca):
E(Yt ) = μ, ∀t
2
Var(Yt ) = σ , ∀t
cov(Xt , Xt−j ) = E[(Yt − μ)(Yt−j − μ)] = γ j
Ambos independem de t e são finitos.
Na prática poderemos ter séries não estacionárias. Mas podemos obter uma série estacionária a partir da
diferenciação.
Diferenciação: operação que permite transformar uma série não estacionária em uma série estacionária.
Ordem de integração: número de vezes (d) que precisamos diferenciar uma série para que ela se torne
estacionária.
Ordem de integração
Seja yt uma série não estacionária. Mas se fizermos Δyt teremos uma série estacionária. Neste caso,
diremos que yt é integrada de ordem 1 e denotaremos simplesmente que yt é I (1) .
Δyt = yt − yt−1
Se yt é uma série não estacionária, mas Δ2 yt é estacionária, então diremos que yt é integrada de ordem
2, yt é I (2) .
2
Δ yt = Δ (Δyt )
= Δ (yt − yt−1 )
= Δyt − Δyt−1
= (yt − yt−1 ) − (yt−1 − yt−2 )
= yt − 2yt−1 + yt−2
Modelos

Processo de Ruído Branco (White Noise )
∞
Uma sequência {ϵ t }t=−∞ de variáveis aleatórias será um ruído branco se:
E(ϵ t ) = 0, ∀t ;
2 2
= σ , ∀t ;
2
Var(ϵ t ) = E(ϵ ) − 0
t
cov(ϵ t , ϵ t−j ) = E(ϵ t ϵ t−j ) = 0
Então, uma sequência {ϵ t } será um ruído branco se cada valor nela tiver média zero, variância constante e
autocorrelação nula.
Passeio Aleatório Random Walk
T
Seja {yt } t=1 um processo yt = yt−1 + ϵ t , sendo ϵ t um ruído branco.
Este é um processo não estacionário como veremos a seguir. Recursivamente temos que:
yt = yt−1 + ϵ t
yt = (yt−2 + ϵ t−1 ) + ϵ t
yt = (yt−3 + ϵ t−2 ) + ϵ t−1 + ϵ t
yt = (yt−4 + ϵ t−3 ) + ϵ t−2 + ϵ t−1 + ϵ t
yt = y0 + ∑ ϵ i
i=1
Para y0 = 0 vamos mostrar que E(yt ) = 0 e Var(yt ) = tσ

2
. Então o processo não é estacionário.
t t
E(y t ) = E (y 0 + ∑ ϵi ) = ∑ E(ϵ i ) = 0
i=1 i=1
t t 2
Var(y t ) = Var(y 0 + ∑ ϵi ) = ∑ Var(ϵ i ) = tσ
i=1 i=1

Processo Aleatório Random Walk com Drift

Uma passeio aleatório com deslocamento pode ser definido por yt = δ + yt−1 + ϵ t .Recursivamente
temos que:
yt = δ + yt−1 + ϵ t
yt = δ + (δ + yt−2 + ϵ t−1 ) + ϵ t
yt = 2δ + (δ + yt−3 + ϵ t−2 ) + ϵ t−1 + ϵ t
yt = tδ + y0 + ∑ ϵ i
i=1
Vamos calcular E(yt ) e Var(yt ) , sendo y0 = 0.
t t
E(y t ) = E (tδ + y0 + ∑ ϵ i ) = tδ + ∑ E(ϵ i ) = tδ
i=1 i=1
t t t t
Var(y t ) = Var(tδ + y 0 + ∑ ϵi ) = ∑ Var(ϵ i ) = Var(∑ ϵi ) = ∑ Var(ϵ i ) = tσ
i=1 i=1 i=1 i=1

Média móvel
Vamos considerar o processo estocástico definido por:
yt = μ + ϵ t + θϵ t−1
Sendo e t ruído branco.
Neste caso, temos que a nossa variável yt depende do erro ϵ t e ϵ t−1 . Este processo será denominado de
média móveis de ordem 1. Usaremos a notação M A(1).
Se o o processo dependesse de ϵ t−2 , então teríamos um M A(2), e assim sucessivamente.
Vamos verificar se o processo é estacionário.
Seja: yt = μ + ϵ t + θϵ t−1 , vamos calcular E(yt ), Var(yt ) e Cov(yt , yt−1 ) .
E(y t ) = E(μ + ϵ t + θϵ t−1 )
= μ + E(ϵ t ) + θE(ϵ t−1 )
= μ
2
Var(y t ) = E(y t − μ)
2
= E(μ + ϵ t + θϵ t−1 − μ)
2
= E(ϵ t + θϵ t−1 )
2 2 2
= E(ϵ + 2ϵ t θϵ t−1 + θ ϵ )
t t−1
2 2 2
= σ + 0 + θ σ
2 2
= (1 + θ ) σ
E [(y t − μ) (y t−1 − μ)] = [(ϵ t + θϵ t−1 ) (ϵ t−1 + θϵ t−2 )]
2 2
= E (ϵ t ϵ t−1 + θϵ t ϵ t−2 + θϵ + θ ϵ t−1 ϵ t−2 )
t−1
2
= σ θ
Vamos verificar se as autocovariâncias são nulas:
E [(y t − μ) (y t−j − μ)] = E [(ϵ t + θϵ t−1 ) (ϵ t−j + θϵ t−j−1 )]
2
= E [ϵ t ϵ t−j + θϵ t ϵt − j − 1 + θϵ t−1 ϵ t−j + θ ϵ t−1 ϵ t−j−1 , ], j > 1
= 0
Verificamos que a esperança é finita e constante para cada t , a variância é finita e a autocovariância não
depende de t . As autocovariâncias não são funções de t . Assim, temos um processo fracamente
estacionário.
A autocorrelação existe para a primeira defasagem sendo dada por:

2
θσ θ
ρ1 = =
2 2 2
(1 + θ ) σ 1 + θ
Processo MA (q)
Vamos generalizar o modelo de média móvel com q defasagens.

yt = μ + ϵ t + θ 1 ϵ t−1 + ⋯ + θ q ϵ t−q

Em que ϵ t , ϵ t−1 , … , ϵ t−q são os ruídos brancos e θi os parâmetros do modelo.
Vamos calcular E(yt ) e Var(yt ) .

q
E(y t ) = E(μ + ϵ t + θ 1 ϵ t−1 + ⋯ + θ q ϵ t−q ) = μ + ∑ θ j E(ϵ t−j ) = μ
j=0
Var(y t ) = Var(μ + ϵ t + θ 1 ϵ t−1 + ⋯ + θ q ϵ t−q )
= Var(ϵ t ) + Var(θ 1 ϵ t ) + ⋯ + Var(θ q ϵ t−q )
2 2
= Var(ϵ t ) + θ Var(ϵ t ) + ⋯ + θ q Var(ϵ t−q )
1
2 2 2 2 2
= σ + θ σ + ⋯ + θq σ
1
2 2 2
= σ (1 + θ + ⋯ + θq )
1
Lembre que a covariância do ruído branco de t e t − 1 é nula.
Vamos calcular a covariância:

q q
γ j = E (∑ θ i ϵ t−1 ∑ θ i ϵ t−i−j )
i=0 i=0
2 2 2 2
= E [θ j ϵ + θ j+1 θ 1 ϵ + θ j+2 θ 2 ϵ + ⋯ + θ q θ q−j ϵ ]
t−j t−j−1 t−j−2 t−q
Para j = 1, 2, … , q temos que:
2
γ j = E [θ j + θ j+1 θ 1 + θ j+2 θ 2 + ⋯ + θ q θ q−j ] σ
Para j > q não haverá ϵ ′s em datas comuns, assim temos que:
γj = 0
Modelo autorregressivo

Considere o processo autorregressivo AR (p) a seguir:

p
yt = c + ϕ1 yt−1 + ϕ2 yt−2 + ⋯ + ϕp yt−p + ϵ t = c + ∑ ϕj yt−j + ϵ t
j=1
Sendo ϵ t ruído branco e ϕj , j = 1, … , p ,parâmetros do modelo.
Condição necessária para estacionariedade é:
E(y t ) = E(y t−1 ) = ⋯ = E(y t−p ) = μ
Vamos calcular E(yt ):

E(y t ) = E (ϕ1 yt−1 + ⋯ + ϕp yt−p + c + ϵ t )
E(y t ) = E(ϕ1 y t−1 ) + ⋯ + E(ϕp y t−p ) + c + E(ϵ t )
E(y t ) = ϕ1 E(y t−1 ) + ⋯ + ϕp E(y t−p ) + c
μ = ϕ1 μ + ⋯ + ϕp μ + c
c
μ =
1 − (ϕ1 + ⋯ + ϕp )
Vamos considerar agora o seguinte processo estocástico:

yt = c + ϕ1 yt−1 + ϵ t
2
Em que ϵ é ruído branco (RB ∼ N (0, σ ) ) e |ϕ1 | < 1.
yt = ϕ1 yt−1 + c + ϵ t
E(y t ) = E (ϕ1 yt−1 + c + ϵ t )
E(y t ) = ϕ1 E(y t−1 ) + c + E(ϵ t )

c
μ =
1 − ϕ1
Var(y t ) = Var(ϕ1 y t−1 + c + ϵ t )
2
= ϕ Var(y t−1 ) + Var(ϵ t )
1
2
σ
=
2
1 − ϕ
1
Considere o processo autorregressivo:

yt = c + ϕ1 yt−1 + ϕ2 yt−2 + ϵ t
Sob estacionariedade temos que: E(yt ) = E(y t−1 ).
E(y t ) = E (c + ϕ1 yt−1 + ϕ2 yt−2 + ϵ t )
E(y t ) = c + ϕ1 E(y t−1 ) + ϕ2 E(y t−2 ) + E(ϵ t )

c
μ = ≡ E(y t )
1 − ϕ1 − ϕ2
Processo autorregressivo de médias móveis

O processo autorregressivo de médias móveis é uma combinação dos processos definidos anteriormente.
yt = c + ϕ1 yt−1 + ϕ2 yt−2 + ⋯ + ϕp yt−p + ϵ t + θ 1 ϵ t−1 + ⋯ + θ q ϵ t−q
Notação: ARMA(p, q)
Vamos calcular E(yt ):

p
E(y t ) = c + ∑ ϕi E(y t−i )
i=1
c
E(y t ) ≡ μ =
p
1 − ∑ ϕi
i=1
Vamos definir um processo ARM A(1, 1) :

yt = c + ϕ1 yt−1 + ϵ t + θ 1 ϵ t−1
ϕ1 < 1 é uma condição necessária e suficiente para a estacionariedade.
Neste caso temos que:

c
E(y t ) =
1 − ϕ1
Modelo ARIMA
O modelo autorregressivo integrado de média móvel parte da premissa de que a série não seja estacionária
e desta forma precisa ser diferenciada.
Notação: ARIMA(p, d, q)
Em que:
p: número de termos autorregressivos;
q: ordem do modelo de média móvel
d: grau de diferenciação (número de vezes que diferenciamos a série)

Séries

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Séries

Enviado por

Direitos autorais:

Formatos disponíveis

10/23/2021 Econometria

Econometria de Séries Temporais

Introduzir técnicas de séries temporais a partir de modelos univariados.

Revisar pré-requisitos estatísticos para econometria de séries temporais.

Formalizar a modelagem ARIMA.

E(X) = X1 P(X1 ) + X2 P(X2 ) + … + Xn P(Xn ) = ∑ Xn P(Xn )

Uma definição importante, que usaremos para calcular a variância é:

file:///home/lucas/Downloads/Econometria (3).html 1/26

Seja E(X), E(Y) e ∀α, β ∈ R:

E(X + Y) = E(X) + E(Y)

E(αX ± βY) = αE(X) ± βE(Y)

E(XY) = E(X) ⋅ E(Y) , se X,Y são independentes

Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y)

Var(X − Y) = Var(X) + Var(Y) − 2Cov(X, Y)

Por definição, a covariância das variáveis X e Y é:

file:///home/lucas/Downloads/Econometria (3).html 2/26

Podemos expressar a covariância em termos do valor esperado das variáveis.

Cov(X, Y) = E [(X − E(X)) (Y − E(Y))]

Cov(X, Y) = E [(X − E(X)) (Y − E(Y))]

= E(X, Y) − 2E(X)E(Y) + E(X)E(Y)

∴ Cov(X, Y) = E(XY) − E(X)E(Y)

Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z)

Cov(αX, Y) = Cov(X, αY) = αCov(X, Y)

A correlação entre duas variáveis aleatórias X e Y é definida como:

Estimadores não viesados

Se o estimador erra, em média, então é viesado:

file:///home/lucas/Downloads/Econometria (3).html 3/26

Vamos verificar se a média amostral é um estimador viesado da média populacional:

Estimador absolutamente eficiente ou eficiente se:

for não viesado;

Erro quadrático médio (EQM)

Somando e subtraindo [E(θ^)] :

file:///home/lucas/Downloads/Econometria (3).html 4/26

Determine qual dos estimadores da média a seguir é relativamente mais eficiente.

M3 é um estimador viesado. Calculemos seu viés:

viés (M3 ) = E (M3 ) − μ

file:///home/lucas/Downloads/Econometria (3).html 5/26

Calculemos então o EQM do estimador M3 :

Neste caso, temos que M3 é relativamente mais eficiente que M1 .

Melhor estimador linear não viesado

Ou Best Linear Unbiased estimator (BLUE)

ser não viesado;

file:///home/lucas/Downloads/Econometria (3).html 6/26

Cada ai é uma constante.

Propriedades assintóticas: estimadores assintoticamente não viesados

As propriedades anteriores se aplicam a qualquer tamanho de amostra e, em particular, a amostras

1. Estimadores assintoticamente não viesados

Condição suficiente: se limn→∞ EQM(θ^) = 0, então θ^ é consistente.

Exercício: Verifique se o estimador M4 é não viesado e consistente.

file:///home/lucas/Downloads/Econometria (3).html 7/26

Vams calcular EQM(M4 ):

file:///home/lucas/Downloads/Econometria (3).html 8/26

M4 não é consistente, mas é não viesado.

Estimadores de máxima verossimilhança (Leitura Complementar)

Esta seção baseia-se integralmente no Bussab.

O que seria uma amostra verossímil?

A função de verossimilhança é definida por:

file:///home/lucas/Downloads/Econometria (3).html 9/26

Vamos aplicar a condição de primeira ordem:

file:///home/lucas/Downloads/Econometria (3).html 10/26

Propriedades úteis dos estimadores de máxima verossimilhança:

podem ser viesados, embora não sejam assintoticamente viesados;

Regressão Linear Simples