Escolar Documentos
Profissional Documentos
Cultura Documentos
Agenda
1. Relembrando alguns pontos importantes
2. Regressão linear simples e múltipla
3. Séries temporais
Objetivos
Geral
Específicos
Sugestões de livros
Introdução à Econometria. Wooldridge (2010). 4ª edição. Capítulo 10.
Econometria Básica. Damodar Gujarati (2010). 5ª Edição. Capítulos 21 e 22.
Econometria de séries temporais. Rodrigo De Losso (2008). 1ª Edição. Capítulos 2 e 3.
Lembretes
Definição: Seja X uma v.a. discreta que assume valores X1 , X2 , … , Xn , com respectivas
probabilidades P (X1 ), P (X2 ), … , P (Xn ), definimos a esperança de X (ou valor médio):
Definição: Se X é uma v.a. contínua com função densidade f (x) , sua esperança será:
∞
E(X) = ∫ xf (x)dx
−∞
2 +∞ 2
E(X ) = ∫ x f (x)dx
−∞
E(αX) = αE(X)
E(X + α) = E(X) + α
Lembremos que a variância é definida em termos da média dos quadrados dos desvios em relação a média.
Podemos obter ainda uma outra relação para a variância: média dos quadrados menos o quadrado da
média.
2
Var(X) = E(X − E(X))
2 2
= E (X − 2XE(X) + (E(X)) )
2 2 2
= E(X ) − 2(E(X)) + (E(X))
2 2
= E(X ) − (E(X))
Propriedades:
∀α, β ∈ R :
Var(α) = 0
Var(X + α) = Var(X)
2
Var(αX) = α Var(X)
2
Var(αX + β) = α Var(X)
2 2
Var(aX + bY) = E [(aX + bY ) ] − [E(aX + bY )]
2 2 2 2 2
= E [a X + 2abXY + b Y ] − [E(aX) + E(bY )]
2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − [aE(X) + bE(Y )]
2 2 2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − [a [E(X)] + 2abE(X)E(Y ) + b
2 2 2 2 2 2 2
= a E(X ) + 2abE(XY ) + b E(Y ) − a [E(X)] − 2abE(X)E(Y ) − b [
2 2 2 2 2 2
= a {E(X ) − [E(X)] } + b {E(Y ) − [E(Y )] } + 2ab {E(XY ) − E(X
2 2
= a Var(X) + b Var(Y) − 2abCov(X, Y)
n
1 ¯¯¯
¯ ¯
¯¯¯
Cov(X, Y) = ∑ (Xi − X ) (Y i − Y )
n i=1
Outra forma de definir a covariância é expressando-a como a diferença entre a média dos produtos e o
produto da média:
n
1 ¯¯¯
¯¯¯¯
¯
Cov(X, Y) = ∑ Xi Y i − X Y
n i=1
= E(XY) − E(X)E(Y)
Propriedades:
∀α, β, a, b, c, d ∈ R
Cov(X, X) = Var(X)
Cov(α, X) = Cov(X, α) = 0
Cov(X + α, Y) = Cov(X, Y)
Cov(aX + b, cY + d) = acCov(X, Y)
Cov(X, Y)
σ XY
Corr(X, Y) = −−−−−− −−−−−− =
√Var(X) √Var(Y) σX σY
^
E(θ ) = θ
A esperança do estimador deve ser o parâmetro populacional (estimador não viesado ou não tendencioso).
^ ^
θ é viesado ⇔ E(θ ) = θ + viés
¯¯¯
¯
1 n
X1 + X2 + ⋯ + Xn
Sabemos que: X = ∑
i=1
Xi =
n n
¯
¯¯¯
X1 + X2 + ⋯ + Xn
E(X) = E ( )
¯
¯¯¯
1
E(X) = E (X1 + X2 + ⋯ + Xn )
1
¯
¯¯¯
E(X) = [E(X1 ) + E(X2 ) + ⋯ + E(Xn )]
¯
¯¯¯
1
E(X) = [μ + μ + ⋯ + μ]
¯
¯¯¯
1
E(X) = [nμ] = μ
A esperança da média amostral é sempre igual à média populacional (estimador não viesado da média
populacional).
Estimador eficiente
^ ^
EQM(θ ) = E(θ − θ)
2
2
^ ^ ^
EQM(θ ) = E(θ
2
− 2θθ + θ )
2
^ ^ ^ 2
EQM(θ ) = E(θ ) − 2E(θθ ) + E(θ )
2
^ ^ ^ 2
EQM(θ ) = E(θ ) − 2θE(θ ) + θ
2 2 2
^ ^ ^ ^ ^ 2
EQM(θ ) = E(θ ) − [E(θ )] + [E(θ )] − 2θE(θ ) + θ
2
^ ^ ^
EQM(θ ) = Var(θ ) + [E(θ ) − θ]
2
^ ^ ^
EQM(θ ) = Var(θ ) + [viés(θ )]
O erro quadrático médio tem dois componentes: o estimador erra o valor do parâmetro em função de quanto
varia (variância) e também, quando for o caso, pelo fato de não acertar na média (ser viesado).
Exemplo
2X1 + 3X2
M1 =
X1 + X2
M3 =
3
2
EQM(M1 ) = Var(M1 ) + [viés (M1 )]
EQM(M1 ) = Var(M1 ) + 0
2
EQM(M1 ) = 0, 52σ
Estimador M3 :
X1 + X2
E(M3 ) = E ( )
1
E(M3 ) = E (X1 + X2 )
1
E(M3 ) = (μ + μ)
2
E(M3 ) = μ
2
viés (M3 ) = μ − μ
1
viés (M3 ) = − μ
3
Variância:
X1 + X2
Var(M3 ) = Var ( )
1
Var(M3 ) = Var (X1 + X2 )
1
2 2
Var(M3 ) = (σ + σ )
2
2
Var(M3 ) = σ
2
EQM(M3 ) = var(M3 ) + [viés (M3 )]
2
2 1
EQM(M3 ) = σ
2
+ [− μ]
9 3
2 1
2 2
EQM(M3 ) = σ + μ
9 9
Não podemos afirmar qual dos estimadores é relativamente mais eficiente, visto que não sabemos os
verdadeiros valores de σ e μ.
Se assumirmos μ = 0:
2
2
EQM(M3 ) = σ < EQM(M1 )
9
Um estimador que seja Melhor Estimador Linear não Viesado (MELiNV) tem:
Um estimador será linear se for obtido por meio de uma combinação linear das observações da amostra:
~ n
X = ∑ ai Xi = a1 X1 + a2 X2 + ⋯ + an Xn
i=1
2. Estimadores consistentes
Um estimador será consistente se:
^
lim n→∞ E(θ ) = θ
^
lim n→∞ Var(θ ) = 0
1 1 n
M4 = X1 + ∑ Xi
i=1
2 2 (n − 1)
Verificando se M4 é viesado:
1 1 n
E(M4 ) = E [ X1 + ∑ Xi ]
i=1
2 2(n − 1)
1 1 n
E(M4 ) = E ( X1 ) + E [ ∑ Xi ]
i=1
2 2(n − 1)
1 1
E(M4 ) = E(X1 ) + E(X2 + X3 + ⋯ + Xn )
2 2(n − 1)
1 1
E(M4 ) = E(X1 ) + [E(X2 ) + E(X3 ) + ⋯ + E(Xn )]
2 2(n − 1)
1 1
E(M4 ) = μ + [μ + μ + ⋯ + μ]
2 2(n − 1)
1 1
E(M4 ) = μ + (n − 1)μ
2 2(n − 1)
1 1
E(M4 ) = μ + μ = μ
2 2
2
EQM(M4 ) = Var(M4 ) + [viés(M4 )]
EQM(M4 ) = Var(M4 )
1 1 n
EQM(M4 ) = Var ( X1 + ∑
i=1
Xi )
2 2(n − 1)
1 1 n
EQM(M4 ) = Var ( X1 ) + Var ( ∑
i=1
Xi )
2 2(n − 1)
1 1
EQM(M4 ) = Var(X1 ) + Var(X2 + X3 + ⋯ + Xn )
2
4 4(n − 1)
1 1
2 2 2 2
EQM(M4 ) = σ + (σ + σ + ⋯ + σ )
2
4 4(n − 1)
1 1
2 2
EQM(M4 ) = σ + (n − 1)σ
2
4 4(n − 1)
1 1
2 2
EQM(M4 ) = σ + σ
4 4(n − 1)
1 1
2 2
lim n→∞ EQM(M4 ) = lim n→∞ [ σ + σ ]
4 4(n − 1)
1 2
lim n→∞ EQM(M4 ) = σ
4
Seria uma amostra que fornecesse a melhor informação possível sobre um parâmetro de interesse da
população, desconhecido, e que desejamos estimar.
O princípio da verossimilhança afirma que devemos escolher aquele valor do parâmetro desconhecido
que maximiza a probabilidade de obter a amostra particular observada, ou seja, o valor que torna
aquela amostra a “mais provável”.
Obtemos então estimadores de máxima verossimilhança que, em geral, têm propriedades muito boas.
Definição (Bussab):
L (θ; x 1 , … , x n ) = f (x 1 ; θ) … f (x n ; θ)
que deve ser encarada como uma função de θ . O estimador de máxima verossimilhança de θ é o valor
^
θ MV que maximiza a função L(θ; x i ) .
Outra notação:
′
Seja x = (x 1 , … , x n ) é o vetor contendo a amostra, podemos então denotar: L(θ|x) e a log-
verossimilhança por l(θ|x) .
O parâmetro θ pode ser um vetor: com uma média μ e variância σ 2 de uma
2
distribuição normal temos então θ = (μ, σ ) .
Exemplo: Seja X uma variável aleatória com distribuição normal (i.i.d.) com média e variância
desconhecidas. Para a amostra {x 1 , x 2 , … , x n } determinemos os estimadores de máxima
verossimilhança para a média e a variância.
A função de máxima verossimilhança terá a forma funcional de uma distribuição normal multivariada:
1 1 n
2 2
L(μ, σ ; x i ) = exp[− ∑ (x i − μ) ]
n i=1
2
(2πσ )
2 2 2σ
2 2
l(μ, σ ; x i ) ≡ ln[L(μ, σ ; x i )]
1 1 n 2
= ln{ exp[− ∑ (x i − μ) ]}
n i=1
2
(2πσ )
2
2
2σ
1 1 n 2
= ln[
n
] − ∑
i=1
(x i − μ)
2
(2πσ )
2
2
2σ
n
1 n 2
= − ln (2πσ )
2 2
− ∑
i=1
(x i − μ)
2
2σ
n
1 n 2
= − ln(2πσ ) −
2
∑
i=1
(x i − μ)
2 2
2σ
1 n 2
2 n 2
∴ l(μ, σ ; x i ) = −
2
ln(2πσ ) − ∑
i=1
(x i − μ)
2
2σ
2
∂ l(μ, σ ; x i )
= 0
∂μ
2
∂ l(μ, σ ; x i )
= 0
2
∂σ
∂l 1 n
= − × 2∑ ^) = 0
(x i − μ
i=1
2
∂μ 2σ
n
∑
i=1
^) = 0
(x i − μ
n n
∑
i=1
xi − ∑
i=1
^ = 0
μ
n
∑
i=1
^ = 0
x i − nμ
n
∑ xi
i=1
^ =
∴ μ
n
∂l n 1 1 n 2
= − + ∑
i=1
¯¯
(x i − x )
¯
= 0
2 2 2
∂σ 2 σ
^ ^
4σ
2 n 2
= 0
¯¯
¯
^
−nσ + ∑ (x i − x )
i=1
n 2
∑ (x i − ¯¯
¯
x)
2 i=1
^
σ =
n
O estimador de máxima verossimilhança da média de uma distribuição normal é a própria média amostral
¯¯¯
¯
X .O estimador de máxima verossimilhança da variância de uma distribuição normal é a própria variância
amostral S 2 , sendo um estimador viesado.
Introdução
y: representa o fenômeno/variável target que queremos analisar em função de uma variável explicativa
x (ou mesmo conjunto de variáveis explicativas) e um termo de perturbação u (ou termo de erro):
y = f (x) + u
Analisar a relação entre duas variáveis, embora seja algo limitado, esta técnica é o ponto de partida
para entender modelos mais complexos (visualização gráfica trivial). Então, buscamos explicar y
em termos de x ou ainda analisar como y varia com as variações em x .
Vamos focar inicialmente no problema que busca analisar a relação entre duas variáveis descrita por
um modelo de regressão linear simples:
y = β0 + β1 x + u
Note que: y é a variável dependente e x é a variável explicativa (que prova as variações em y).
Exemplos
do indivíduo no salário.
y x
Regressando Regressor
Ou ainda:
y = β0 + β1 X + u
target input termo de erro
coeficientes
A relação de causalidade é capturada por β1 (parâmetro de inclinação), que mensura o o efeito da variável
x sobre a variável y, desde que exista causalidade. Denotamos β0 como o parâmetro de intercepto.
O termo de erro u diz respeito a outros fatores que afetam y mas não estão explícitos na equação da
regressão. Então, a inclusão deste termo irá tornar a relação entre as variáveis estocástica.
Relação linear entre y e x: x altera a variável y linearmente. Uma implicação desta premissa seria que
independentemente do valor inicial de x teremos sempre o mesmo impacto de desta variável sobre y.
2
n 2 n ^ ^
min ^ ^ ∑ ^
u = ∑ (yi − β 0 − β 1 x i )
β 0 ,β 1 i=1 i i=1
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 0
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 0
^ ¯
¯¯ ^ ¯¯
¯
β0 = y − β1x
n
¯¯
¯ ¯
¯¯
cov(x, y) ∑ (x i − x ) (yi − y)
^ i=1
β1 = =
n 2
var(x) ¯¯
∑ (x i − x̄ )
i=1
n 2
Desde que: ∑ i=1 (x i ¯¯
¯
− x) > 0
^y
σ
^
^
β1 = ρ ( )
xy
^x
σ
^ ^
Se ρ
^
xy
> 0 ⇒ β1 > 0 eρ
^
xy
< 0 ⇒ β 1 < 0.
Modelo estimado:
^
^ = β ^
y 0
+ β1x
Resíduo do modelo:
^ i = yi − y
u ^
i
Assim o resíduo da regressão é definido como a diferença entre o valor yi (valor real) e o valor
previsto/ajustado y
^ . Se u
i
^ i > 0 ⇒ então a reta subestima yi ; por outro lado, se u^ i < 0 então a reta
superestima yi . O mundo ideal seria u i = 0, mas na prática teremos para a maior parte dos casos
^
^ i ≠ 0.
u
n
∑ ^i = 0
u
i=1
^ ^
As estimativas de MQO β 0
eβ 1
são escolhidas para fazer com que a soma dos resíduos seja zero. Isso
não diz nada sobre o resíduo de qualquer observação i em particular.
n
∑ ^i = 0
xiu
i=1
Tentaremos explicar a partir de alguma mensuração o quão bem a variável explicativa ou independentem,
x , explica a variáve dependente y. Quão bem a reta de regressão se ajusta aos dados?
SQT (Soma dos Quadrados Total) : medida da variação amostral tota em yi (mensura quão
dispersos estão os valores de yi na amostra).
n
2
¯
¯¯
S QT = ∑ (yi − y )
i=1
n
2
¯
¯¯
S QE = ∑ (y
^i − y )
i=1
n
2
^i
S QR = ∑ u
i=1
A variação tota em y pode ser expressa como a soma da variação explicada e da variação não explicada:
S QT = S QE + S QR
S QE S QR
2
R = = 1 −
S QT S QT
2
R é a razão entre a variação explicada e a variação total;
Sua interpretação é: fração da variação amostral em y que é explicada por x .
O R2 está entre 0 e 1 (se todos os pontos de dados estiverem sobre a mesma reta, MQO fornece um
ajuste perfeito aos dados e R2 = 1 );
Uma forma usual é multiplicar o R2 por 100 para obter uma interpretação em termos percentuais:
S QE
2
R = × 100
S QT
Formas funcionais
Nível-Nível y x Δy = β1 ΔX
β1
Nível-log y log(x) Δy = ( ) Δx
100
Para tanto precisamos encontrar estimadores que minimizam a soma do quadrado dos resíduos:
2
n 2 n ^ ^
min ^ ^ ∑ ^
u = ∑ (yi − β 0 − β 1 x i )
β0 ,β1 i=1 i i=1
n 2
∂ ∑ ^
u
i=1 i
= 0
^
∂β 1
Da primeira condição:
n
^ ^
2∑ (yi − β 0 − β 1 x i ) (−1) = 0
i=1
n
−2 ∑ ^i = 0
u
i=1
n
∑ ^i = 0
u
i=1
Então:
n ^ ^
∑ (yi − β − β x i )
i=1 0 1
n n ^ n ^
∑ yi − ∑ β0 − ∑ β 1 xi = 0
i=1 i=1 i=1
n ^ ^ n
∑ yi − nβ 0 − β 1 ∑ xi = 0
i=1 i=1
n ^ ^ n
∑ yi = nβ 0 + β1 ∑ xi
i=1 i=1
^ n ^ n
nβ 0 = ∑ yi − β 1 ∑ xi
i=1 i=1
n n
∑ yi ∑ xi
^ i=1 ^ i=1
β0 = − β1
n n
^ ¯
¯¯ ^ ¯¯
¯
∴ β0 = y − β1x
n ^ ^
∑ (yi − β 0 − β 1 x i ) x i = 0
i=1
^ ^ ¯¯
Vamos substituir β 0
¯
¯¯ ¯
= y − β1x na equação anterior:
n ^ ¯¯ ^
¯
¯¯ ¯
∑ x i [yi − y + β 1 x − β 1 x i ] = 0
i=1
n ^ n
¯
¯¯ ¯¯
¯
∑ x i (yi − y) + β 1 ∑ (x i − x ) x i = 0
i=1 i=1
n n 2
¯¯
¯ ¯¯
∑ x i (x i − x ) = ∑ (x i − x̄ )
i=1 i=1
n n
¯
¯¯ ¯¯
¯ ¯
¯¯
∑ x i (yi − y) = ∑ (x i − x ) (yi − y)
i=1 i=1
Então:
n
∑ (x i − ¯¯
¯ ¯
¯¯
x ) (yi − y)
^ i=1
β1 =
n 2
∑ (x i − ¯¯
¯
x)
i=1
Na prática teremos mais de uma variável explicativa e podemos então generalizar para um modelo com K
variáveis explicativas e incorporar mais mais fatores que podem explicar y.
y = β0 + β1 x 1 + β2 x 2 + β3 x 3 + ⋯ + βK x k + u
y = Xβ + u
Sendo que:
y1 β0 u0 1 x 11 … x 1k
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤
⎢ y2 ⎥ ⎢ β1 ⎥ ⎢ u1 ⎥ ⎢1 x 21 … x 2k ⎥
y = ⎢ ⎥, β = ⎢ ⎥, u = ⎢ ⎥,
X = ⎢ ⎥
⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⋮ ⎥ ⎢ ⋮ ⎥ ⎢ ⋮ ⎥ ⎢ ⋮ ⋮ ⋱ ⋮ ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦
yn βk un 1 x n1 … x nk
′ ′
e e = (Y − Xβ) (Y − Xβ)
′ ′ ′ ′ ′ ′ ′
e e = Y Y − Y Xβ − β X Y + β X Xβ
′ ′ ′ ′ ′ ′
e e = Y Y − 2β X Y + β X Xβ
Motivação
Amostra de indivíduos, consumidores, empresas, cidades, estados, países ou outras unidades, tomada em
um determinado ponto do tempo.
1 1.533,6 3 2 1 0
2 10.000,1 10 5 0 1
3 3.330,93 3 3 1 0
4 20.350,3 12 8 1 1
. . . . . .
. . . . . .
. . . . . .
. . . . . .
55.347 1.987,33 5 3 0 0
Esta análise está ligada ao campo da microeconomia aplicada (economia do trabalho, economia da
educação, finanças públicas, economia urbana, demografia, economia da saúde, economia do crime, etc.)
. . . . . .
. . . . . .
. . . . . .
Em que: minmed é o salário médio no ano, cobmed a taxa de cobertura média (percentual de trabalhadores
cobertos pela lei do salário mínimo), desemp a taxa de desemprego e pnb o produto nacional bruto.
Mais exemplos de séries temporais: preços de ações no tempo, inflação, PIB, quantidade de vendas de uma
empresa, etc. Podemos tentar explicar o comportamento da série com base no seu histórico.
Alguns conjuntos de dados têm tanto características de corte transversal quanto de séries de tempo.
Exemplo: podemos usar corte transversal agrupado para aumentar o tamanho da nossa amostra, para dois
anos. Poderia ser, por exemplo, analisar o efeito de uma mudança de política econômica (ou mesmo
mudança organizacional) e então poderíamos coletar dados antes e após esta mudança.
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Um conjunto de dados de painel consiste em uma série de tempo para cada membro do corte transversal do
conjunto de dados. A mesma unidade em corte transversal (família ou empresa) terá observações no tempo.
Exemplo: histórico de salário, educação e emprego para um conjunto de indivíduos para um período de dez
anos.
Conjunto de Dados em Painel sobre Estatísticas de Crime nas Cidades para Dois Anos
. . . . . . .
. . . . . . .
. . . . . . .
Conceitos básicos
Séries de tempo geralmente possuem autocorrelação. A correlação entre yt e yt−j é diferente de zero.
Vamos definir algumas notações:
Média: E(Yt ) = μ
2
Variância: Var(Yt ) = σ
γ(k)
Autocorrelação: ρ(k) =
γ(0)
Estacionariedade
Uma série será estacionária se (estacionariedade fraca):
E(Yt ) = μ, ∀t
2
Var(Yt ) = σ , ∀t
Na prática poderemos ter séries não estacionárias. Mas podemos obter uma série estacionária a partir da
diferenciação.
Diferenciação: operação que permite transformar uma série não estacionária em uma série estacionária.
Ordem de integração: número de vezes (d) que precisamos diferenciar uma série para que ela se torne
estacionária.
Ordem de integração
Seja yt uma série não estacionária. Mas se fizermos Δyt teremos uma série estacionária. Neste caso,
diremos que yt é integrada de ordem 1 e denotaremos simplesmente que yt é I (1) .
Δyt = yt − yt−1
Se yt é uma série não estacionária, mas Δ2 yt é estacionária, então diremos que yt é integrada de ordem
2, yt é I (2) .
2
Δ yt = Δ (Δyt )
= Δ (yt − yt−1 )
= Δyt − Δyt−1
= yt − 2yt−1 + yt−2
Modelos
∞
Uma sequência {ϵ t }t=−∞ de variáveis aleatórias será um ruído branco se:
E(ϵ t ) = 0, ∀t ;
2 2
= σ , ∀t ;
2
Var(ϵ t ) = E(ϵ ) − 0
t
Então, uma sequência {ϵ t } será um ruído branco se cada valor nela tiver média zero, variância constante e
autocorrelação nula.
T
Seja {yt } t=1 um processo yt = yt−1 + ϵ t , sendo ϵ t um ruído branco.
Este é um processo não estacionário como veremos a seguir. Recursivamente temos que:
yt = yt−1 + ϵ t
yt = (yt−2 + ϵ t−1 ) + ϵ t
yt = y0 + ∑ ϵ i
i=1
t t
E(y t ) = E (y 0 + ∑ ϵi ) = ∑ E(ϵ i ) = 0
i=1 i=1
t t 2
Var(y t ) = Var(y 0 + ∑ ϵi ) = ∑ Var(ϵ i ) = tσ
i=1 i=1
temos que:
yt = δ + yt−1 + ϵ t
yt = δ + (δ + yt−2 + ϵ t−1 ) + ϵ t
yt = tδ + y0 + ∑ ϵ i
i=1
t t
E(y t ) = E (tδ + y0 + ∑ ϵ i ) = tδ + ∑ E(ϵ i ) = tδ
i=1 i=1
t t t t
Var(y t ) = Var(tδ + y 0 + ∑ ϵi ) = ∑ Var(ϵ i ) = Var(∑ ϵi ) = ∑ Var(ϵ i ) = tσ
i=1 i=1 i=1 i=1
Média móvel
Vamos considerar o processo estocástico definido por:
yt = μ + ϵ t + θϵ t−1
Neste caso, temos que a nossa variável yt depende do erro ϵ t e ϵ t−1 . Este processo será denominado de
média móveis de ordem 1. Usaremos a notação M A(1).
= μ
2
Var(y t ) = E(y t − μ)
2
= E(μ + ϵ t + θϵ t−1 − μ)
2
= E(ϵ t + θϵ t−1 )
2 2 2
= E(ϵ + 2ϵ t θϵ t−1 + θ ϵ )
t t−1
2 2 2
= σ + 0 + θ σ
2 2
= (1 + θ ) σ
2 2
= E (ϵ t ϵ t−1 + θϵ t ϵ t−2 + θϵ + θ ϵ t−1 ϵ t−2 )
t−1
2
= σ θ
2
= E [ϵ t ϵ t−j + θϵ t ϵt − j − 1 + θϵ t−1 ϵ t−j + θ ϵ t−1 ϵ t−j−1 , ], j > 1
= 0
Verificamos que a esperança é finita e constante para cada t , a variância é finita e a autocovariância não
depende de t . As autocovariâncias não são funções de t . Assim, temos um processo fracamente
estacionário.
Processo MA (q)
2 2
= Var(ϵ t ) + θ Var(ϵ t ) + ⋯ + θ q Var(ϵ t−q )
1
2 2 2 2 2
= σ + θ σ + ⋯ + θq σ
1
2 2 2
= σ (1 + θ + ⋯ + θq )
1
γ j = E (∑ θ i ϵ t−1 ∑ θ i ϵ t−i−j )
i=0 i=0
2 2 2 2
= E [θ j ϵ + θ j+1 θ 1 ϵ + θ j+2 θ 2 ϵ + ⋯ + θ q θ q−j ϵ ]
t−j t−j−1 t−j−2 t−q
2
γ j = E [θ j + θ j+1 θ 1 + θ j+2 θ 2 + ⋯ + θ q θ q−j ] σ
γj = 0
Modelo autorregressivo
j=1
μ = ϕ1 μ + ⋯ + ϕp μ + c
c
μ =
1 − (ϕ1 + ⋯ + ϕp )
2
Em que ϵ é ruído branco (RB ∼ N (0, σ ) ) e |ϕ1 | < 1.
yt = ϕ1 yt−1 + c + ϵ t
2
= ϕ Var(y t−1 ) + Var(ϵ t )
1
2
σ
=
2
1 − ϕ
1
O processo autorregressivo de médias móveis é uma combinação dos processos definidos anteriormente.
yt = c + ϕ1 yt−1 + ϕ2 yt−2 + ⋯ + ϕp yt−p + ϵ t + θ 1 ϵ t−1 + ⋯ + θ q ϵ t−q
Notação: ARMA(p, q)
c
E(y t ) ≡ μ =
p
1 − ∑ ϕi
i=1
Modelo ARIMA
O modelo autorregressivo integrado de média móvel parte da premissa de que a série não seja estacionária
e desta forma precisa ser diferenciada.
Notação: ARIMA(p, d, q)
Em que: