Modelos ARIMA

06/06/2023, 12:29 Modelos ARIMA
Análise de Séries Temporais

Última atualização: 16 de novembro de 2022.
Capítulo III. Modelos ARIMA

A regressão clássica é frequentemente insuficiente para explicar toda a dinâmica interessante de uma série
temporal. Por exemplo, a função de autocorrelação dos resíduos da regressão linear simples que se ajusta ao
preço dos dados do frango, ver Exemplo II.4, revela uma estrutura adicional nos dados que a regressão não
capturou. Em vez disso, a introdução de correlação que pode ser gerada através de relações lineares
defasadas leva a propor os modelos autoregressivos (AR) e os modelos de média móvel autorregressivos
(ARMA), apresentados em Whittle (1951).
A adição de modelos não estacionários à mistura leva ao modelo de média móvel integrado autorregressivo
(ARIMA), popularizado no trabalho de referência de Box e Jenkins (1970). O método Box-Jenkins para
identificar os modelos ARIMA é apresentado aqui, juntamente com técnicas de estimação e previsão de
parâmetros para esses modelos. Uma justificativa teórica parcial do uso de modelos ARMA é discutida no
Apêndice B.4.
Capítulo III. Modelos ARIMA

1. Modelos autorregressivos de médias móveis
2. Equações em diferenças
3. Autocorrelação e autocorrelação parcial
4. Previsão
5. Estimação
6. Modelos integrados para dados não estacionários
7. Diagnóstico de resíduos para modelos ARIMA
8. Regressão com erros autocorrelacionados
9. Modelos ARIMA sazonais multiplicativos
10. Exercícios
III.1 Modelos autorregressivos de médias móveis
O modelo de regressão clássico no Capítulo II foi desenvolvido para o caso estático, ou seja, apenas
permitimos que a variável dependente seja influenciada pelos valores atuais das variáveis
independentes. No caso de séries temporais, é desejável permitir que a variável dependente seja
influenciada pelos valores passados das variáveis independentes e, possivelmente, pelos seus próprios
valores passados. Se o presente puder ser modelado de maneira plausível em termos apenas dos
valores passados dos insumos independentes, teremos a perspectiva sedutora de que a previsão será
possível.
Introdução aos modelos autoregressivos
Os modelos autorregressivos baseiam-se na ideia de que o valor atual da série Xt , pode ser explicado
como uma função de p valores passados, Xt−1 , Xt−2 , ⋯ , Xt−p , onde p determina o número de etapas
no passado necessárias para prever o valor atual. Como um caso típico, lembremos do Exemplo I.10, no
qual os dados foram gerados usando o modelo
X t = X t−1 − 0.90X t−2 + Wt ,
onde Wt é um ruído branco gaussiano com σW = 1.

2
Agora assumimos que o valor atual é uma função linear particular de valores passados. A regularidade
que persiste na figura do Exemplo I.9 dá uma indicação de que a previsão para tal modelo pode ser uma
possibilidade distinta, digamos, através de alguma versão como
leg.ufpr.br/~lucambio/STemporais/STemporaisIII.html 1/91
06/06/2023, 12:29 Modelos ARIMA
n
X̂ n+1
= X n − 0.90X n−1 ,
onde a quantidade no lado esquerdo indica a previsão no próximo período n + 1 com base nos dados
observados, X1 , X2 , ⋯ , Xn . Vamos tornar essa noção mais precisa em nossa discussão sobre previsão.
A medida em que pode ser possível prever uma série de dados reais a partir de seus próprios valores
passados pode ser avaliada examinando-se a função de autocorrelação e as matrizes do gráfico de
dispersão discutidas na Parte II. Por exemplo, a matriz de dispersão defasada do Índice de Oscilação
Meridional (SOI), mostrado na Figura II.8, fornece uma indicação distinta de que as defasagens 1 e 2,
por exemplo, estão linearmente associadas ao valor atual. O ACF mostrado na Figura II.16 mostra
valores positivos relativamente grandes nas defasagens 1, 2, 12, 24 e 36 e grandes valores negativos
em 18, 30 e 42. Notamos também a possível relaç&ailde;o entre as séries de SOI e Recrutamento
indicadas na matriz de dispersão mostrada na Figura II.9. Vamos indicar em seções posteriores sobre a
função de transferência e modelagem do vetor AR como lidar com a dependência de valores obtidos por
outras séries.
A discussão anterior motiva a seguinte definição.
Definição III.1. Modelo autorregressivo de ordem p.
Dizemos que {X t } satisfaz um modelo autorregressivo de ordem p ou simplesmente AR(p) se
X t = ϕ1 X t−1 + ϕ2 X t−2 + ⋯ + ϕp X t−p + Wt ,
onde Xt é estacionário, Wt ∼ N (0, σ W )

2
é um ruído branco e ϕ1 , ϕ2 , ⋯ , ϕp são constantes tais que
ϕp ≠ 0 .
A esperança de Xt satisfazendo um modelo autorregressivo é zero. Caso seja E(X t ) = μ ≠ 0 podemos

substituir Xt por Xt − μ e temos
X t − μ = ϕ1 (X t−1 − μ) + ϕ2 (X t−2 − μ) + ⋯ + ϕp (X t−p − μ) + Wt
ou escrevemos
X t = α + ϕ1 X t−1 + ϕ2 X t−2 + ⋯ + ϕp X t−p + Wt ,
sendo α = μ(1 − ϕ1 − ϕ2 − ⋯ − ϕp ) .
Notamos que o modelo acima é semelhante ao modelo de regressão da Seção II.1. Algumas dificuldades
técnicas, entretanto, se desenvolvem na aplicação desse modelo porque os regressores
X t−1 , X t−2 , ⋯ , X t−p , são componentes aleatórios, enquanto Zt foi considerado fixo. Uma forma útil
segue usando o operador de retardo B para escrever o modelo AR(p) como
2 p
(1 − ϕ1 B − ϕ2 B − ⋯ − ϕ p B )X t = W t
ou ainda de forma mais concisa como ϕ(B)X t = Wt .
As propriedades de ϕ(B) são importantes na resolução da equação acima para Xt . Isso leva à seguinte
definição.
Definição III.2. Operador autorregressivo de ordem p.
Definimos o operador autorregressivo de ordem p como
2 p
ϕ(B) = (1 − ϕ1 B − ϕ2 B − ⋯ − ϕp B )⋅
Exemplo III.1. Modelo AR(1) .
Iniciamos a investigação de modelos de AR considerando o modelo de primeira ordem, AR(1) ,

dado por X = ϕX t + W . Iterando para trás k vezes, conseguimos
t−1 t
06/06/2023, 12:29 Modelos ARIMA
Xt = ϕXt−1 + Wt = ϕ(ϕXt−2 + Wt−1 ) + Wt
2
= ϕ Xt−2 + ϕWt−1 + Wt
= ⋮
k−1
k j
= ϕ Xt−k + ∑ ϕ Wt−j ⋅
j=0
Este método sugere que, continuando a iterar para trás e, desde que, |ϕ| < 1 e supt Var(X t ) < ∞ ,
podemos representar o modelo AR(1) como um processo linear da forma

∞
j
X t = ∑ ϕ Wt−j ⋅
j=0
Observe que
k−1
2
j 2 2
lim E(X t − ∑ ϕ Wt−j ) = lim ϕ E(X ) = 0,
t−k
k→∞ k→∞
j=0
de maneira que a expressão acima existe no sentido de média quadrádita, ver Anexo A para a definição.
∞
A representação Xt = ∑
j=0
j
ϕ Wt−j é chamada de solução estacionária do modelo. De fato, por
simples substituição,
∞ ∞
j k
∑ ϕ Wt−j = ϕ∑ ϕ Wt−i−k + Wt ⋅
j=0 k=0
 
Xt X t−1
O modelo AR(1) definido acima é estacionário com média

∞
j
E(X t ) = ∑ ϕ E(Wt−j ) = 0
j=0
e função de autocovariância
∞ ∞
j k
γ (h) = Cov(X t+h , X t ) = E (( ∑ ϕ Wt+h−j )( ∑ ϕ Wt−k ))
j=0 k=0
h h+1
= E ((Wt+h + ⋯ + ϕ Wt + ϕ Wt−1 + ⋯ )(Wt + ϕWt−1 + ⋯ ))
∞ ∞ 2 h
σW ϕ
2 h+j j 2 h 2j
= σW ∑ ϕ ϕ = σW ϕ ∑ϕ = , h ≥ 0⋅
2
1 − ϕ
j=0 j=0
Recordemos que γ (h) = γ (−h), então vamos exibir apenas a função de autocovariância para h ≥ 0.
Assim, obtemos que o ACF de um modelo AR(1) é da forma
γ (h) h
ρ(h) = = ϕ , h ≥ 0,
γ (0)
e ρ(h) satisfaz a recursão
ρ(h) = ϕρ(h − 1), h = 1, 2, ⋯ ⋅
Discutiremos o ACF de um modelo geral AR(p) na Seção III.3.
Exemplo III.2. O caminho da amostra de um processo AR(1) .
A figura abaixo mostra um gráfico no tempo de dois processos AR(1), um com ϕ = 0.9 e um com
ϕ = −0.9 ; em ambos os casos, σ = 1. No primeiro caso, ρ(h) = 0.9 , para , então as
2 h
W
h ≥ 0
observações próximas no tempo estão positivamente correlacionadas entre si. Esse resultado
significa que as observações em pontos de tempo contíguos tenderão a estar próximas em valor
umas às outras; este fato aparece no topo da figura abaixo como um caminho amostral muito
suave para Xt .
06/06/2023, 12:29 Modelos ARIMA
Agora, compare isso com o caso em que ϕ = −0.9 , de modo que ρ(h) = (−0.9)
h
, para h ≥ 0 . Esse
resultado significa que as observações em pontos de tempo contíguos são negativamente
correlacionadas, mas observações em dois pontos de tempo distintos estão positivamente
correlacionados. Este fato aparece na parte inferior da figura abaixo, onde, por exemplo, se
uma observação X , é positiva, a próxima observação X
t é tipicamente negativa, e a próxima t+1
observação, X é tipicamente positiva. Assim, neste caso, o caminho da amostra é muito

t+2
instável.
O seguinte código R pode ser usado para obter a figura acima:
> par(mfrow=c(2,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0))
> plot(arima.sim(list(order=c(1,0,0), ar=.9), n=100), ylab="x", xlab="Tempo",
main=(expression(AR(1)~~~phi==+.9)))
> plot(arima.sim(list(order=c(1,0,0), ar=-.9), n=100), ylab="x", xlab="Tempo",
main=(expression(AR(1)~~~phi==-.9)))
Exemplo III.3. Modelos AR Explosivos e Causalidade.
No Exemplo I.18, descobriu-se que a caminhada aleatória X = X t t−1 + Wt não é estacionária.

Podemos nos perguntar se existe um processo estacionário AR(1) com |ϕ| > 1 . Tais processos são
chamados de explosivos porque os valores da série temporal rapidamente se tornam grandes em
j k−1
magnitude. Claramente, porque |ϕ| aumenta sem limite quando j → ∞ , ∑
j=0
j
ϕ Wt−j não irá
convergir em média quadrada quando k → ∞ , então a intuição usada para obter que
∞
Xt = ∑
j=0
ϕ
j
Wt−j não funcionará diretamente. Podemos, no entanto, modificar esse argumento
para obter um modelo estacionário da seguinte forma. Escreva Xt+1 = ϕXt + Wt+1 , nesse caso,
1 1 1 1 1 1
Xt = Xt+1 − Wt+1 = ( Xt+2 − Wt+2 ) − Wt+1
ϕ ϕ ϕ ϕ ϕ ϕ
⋮ ⋮
k−1
1 1
= Xt+k − ∑ Wt+j ,
k j
ϕ ϕ
j=1
−1
por iterar passos k para a frente. Porque |ϕ| < 1 , este resultado sugere o modelo dependente
estacionário futuro AR(1)
∞
1
Xt = −∑ Wt+j ⋅
j
ϕ
j=1
06/06/2023, 12:29 Modelos ARIMA
O leitor pode verificar que este modelo é estacionário e da forma AR(1) com X t = ϕX t−1 + Wt .
Infelizmente, esse modelo é inútil porque requer que saibamos o futuro para podermos prever o futuro.
Quando um processo não depende do futuro, como o AR(1) quando |ϕ| < 1, diremos que o processo é
causal. No caso explosivo deste exemplo, o processo é estacionário, mas também depende do futuro e
não é causal.
Exemplo III.4. Toda explosão tem uma causa.
Excluir modelos explosivos da consideração não é um problema porque os modelos têm

contrapartes causais. Por exemplo, se
Xt = ϕXt−1 + Wt , com |ϕ| > 1,
e Wt ∼ N (0, σW )
2
, independentes igualmente distribuídos. Então utilizando o modelo
∞
Xt = − ∑
j=1
ϕ
−j
Wt+j {X t } é um processo Gaussiano estacionário não causal com E(Xt ) = 0 e
∞ ∞
1 1
γ (h) = Cov(Xt+h , Xt ) = Cov (− ∑ Wt+h+j − ∑ Wt+k )
X
ϕ k
ϕ
j=1 k=1
2
σW
= ⋅
2 h −2
ϕ ϕ (1 − ϕ )
Assim, o processo causal definido por
1
Yt = Y t−1 + V t ,
ϕ
onde V t ∼ N (0, σW ϕ
2 −2
) é estocasticamente igual ao processo Xt , ou seja, todas as
distribuições finitas dos processos são as mesmas. Por exemplo, se Xt = 2Xt−1 + Wt com
2
σW = 1 , então Yt =
1
2
Y t−1 + V t com σV
2
= 1/4 é um processo causal equivalente, ver o Exercício
III.3. Este conceito generaliza para ordens superiores, mas é mais fácil de mostrar usando
técnicas na Parte IV; veja o Exemplo IV.8.
A técnica de iterar para obter uma idéia da solução estacionária de modelos AR funciona bem quando
p = 1, mas não para ordens maiores. Uma técnica geral é a dos coeficientes correspondentes.
Considere o modelo AR(1) na forma de operador
ϕ(B)X t = Wt ,
onde ϕ(B) = 1 − ϕB e |ϕ| < 1. Também podemos escrever, utilizando o operador de forma
∞
X t = ∑ ψj Wt−j = ψ(B)Wt ,
j=0
∞
onde ψ(B) = ∑
j=0
ψj B
j
e ψj = ϕ
j
. Suponha que não soubéssemos que ψj = ϕ
j
. Substituindo, temos
que
ϕ(B)ψ(B)Wt = Wt ⋅
Os coeficientes de B no lado esquerdo e direito devem ser iguais, o que significa
2 j
(1 − ϕB)(1 + ψ1 B + ψ2 B + ⋯ + ψj B + ⋯ ) = 1⋅
Reorganizando os coeficientes acima, temos
2 j
1 + (ψ1 − ϕ)B + (ψ2 − ψ1 ϕ)B + ⋯ + (ψj − ψj−1 ϕ)B + ⋯ = 1,
vemos que para cada j = 1, 2, ⋯, o coeficiente de Bj à esquerda deve ser zero porque é zero à direita.
O coeficiente de B à esquerda é de ψ1 − ϕ, e igualando isso a zero, ψ1 − ϕ = 0, leva a ψ1 = ϕ.
Continuando, o coeficiente de B
2
é ψ2 − ψ1 ϕ, então ψ2 = ϕ
2
. Em geral,
ψj = ψj−1 ϕ,
com ψ0 = 1 , o qual nos leve à solução ψj = ϕ

j
.
06/06/2023, 12:29 Modelos ARIMA
Outra maneira de pensar sobre as operações que acabamos de realizar é considerar o modelo AR(1) na
forma de operador, ϕ(B)Xt = Wt . Agora multiplique ambos os lados por ϕ
−1
(B) , assumindo que o
operador inverso exista, para obter
−1 −1
ϕ (B)ϕ(B)X t = ϕ (B)Wt ,
ou
−1
Xt = ϕ (B)Wt ⋅
Nós já sabemos que
−1 2 2 j j
ϕ (B) = 1 + ϕB + ϕ B + ⋯ + ϕ B + ⋯,
isto é, ϕ
−1
(B) = ψ(B) acima. Assim, notamos que trabalhar com operadores é como trabalhar com
polinômios. Isto é, considere o polinômio ϕ(z) = 1 − ϕz , onde z é um número complexo e |ϕ| < 1.
Então
1
−1 2 2 j j
ϕ (z) = = 1 + ϕz + ϕ z + ⋯ + ϕ z + ⋯, |z| ≤ 1,
1 − ϕz
e os coeficientes de Bj em ϕ−1 (B) são os mesmos que os coeficientes de z j em ϕ−1 (z). Em outras
palavras, podemos tratar o operador de retrocesso B, como um número complexo z. Esses resultados
serão generalizados em nossa discussão sobre os modelos ARMA. Os polinômios correspondentes aos
operadores serão úteis para explorar as propriedades gerais dos modelos ARMA.
Introdução aos modelos de médias móveis
Como uma alternativa à representação autorregressiva na qual os Xt no lado esquerdo da equação são
combinados linearmente, o modelo de médias móveis de ordem q , abreviado como M A(q), assume o
ruído branco Wt do lado direito da equação definidora seja combinado linearmente para formar os dados
observados.
Definição III.3. O modelo de médias móveis de ordem q ou M A(q).
O modelo de médias móveis de ordem q ou M A(q) é definido como
X t = Wt + θ1 Wt−1 + θ2 Wt−2 + ⋯ + θq Wt−q ,
onde Wt ∼ N (0, σ W )
2
independentes e θ1 , θ2 , ⋯ , θq , θq ≠ 0 são parâmetros.
Em alguns textos e pacotes define-se o modelo M A(q) com coeficientes negativos; isso é,
X t = Wt − θ1 Wt−1 − θ2 Wt−2 − ⋯ − θq Wt−q ⋅
O sistema é o mesmo que o da média móvel infinita definida como o processo linear
∞
j=0
onde ψ0 = 1 , ψj = θj , para j = 1, ⋯ , q e ψj = 0 para outros valores. Podemos também escrever o

processo M A(q) na forma equivalente
X t = θ(B)Wt ,
utilizando a seguinte definição.
Definição III.4. O operador de médias móveis.
O operador de médias móveis é definido como
2 q
θ(B) = 1 + θ1 B + θ2 B + ⋯ + θq B ⋅
Ao contrário do processo autoregressivo, o processo de médias móveis é estacionário para quaisquer

valores dos parâmetros θ1 , ⋯ , θq ; detalhes desse resultado são fornecidos na Seção III.3.
06/06/2023, 12:29 Modelos ARIMA
Exemplo III.5. O processo M A(1) .
Consideremos o modelo M A(1) Xt = Wt + θWt−1 . Então E(Xt ) = 0 ,

2 2
⎧ (1 + θ )σW ,
⎪
quando h = 0
2
γ(h) = ⎨ θσW , quando h = 1 ,
⎩
⎪
0, quando h > 1
e o ACF é
⎧ θ
, quando h = 1
ρ(h) = ⎨ 1 + θ2 ⋅
⎩
0, quando h > 1
Observemos que |ρ(1)| ≤ 1/2 para todos os valores de θ. Além disso, Xt está correlacionado com
X , mas não com X , X , ⋯. Compare isso com o caso do modelo
t−1 t−2 t−3 AR(1) no qual a correlação
entre Xt e Xt−k nunca é zero. Quando θ = 0.9 , por exemplo, Xt e Xt−1 estão positivamente
correlacionados e ρ(1) = 0.497. Quando θ = −0.9, X e X são correlacionados negativamente e
t t−1
ρ(1) = −0.497 . A figura abaixo mostra um gráfico de tempo destes dois processos com σ = 1.
2
W
Perceba que a série para qual θ = 0.9 é mais suave que a série para a qual θ = −0.9 .
Modelos M A(1) simulados: θ = 0.9 (superior); θ = −0.9 (inferior).
O seguinte código R pode ser usado para obter a figura acima:
> par(mfrow = c(2,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0))

> plot(arima.sim(list(order=c(0,0,1), ma=.9), n=100), ylab="x", xlab="Tempo",
main=(expression(MA(1)~~~theta==+.9)))
> plot(arima.sim(list(order=c(0,0,1), ma=-.9), n=100), ylab="x", xlab="Tempo",
main=(expression(MA(1)~~~theta==-.9)))
Exemplo III.6. Não unicidade dos modelos MA e da invertibilidade.
Usando o Exemplo III.5, notamos que para um modelo M A(1), ρ(h) é o mesmo para θ e 1/θ ; tente
5 e 15, por exemplo. Além disso, o par σ = 1 e θ W
2
= 5 produzem a mesma função de
autocovariância que o par 2
σW = 25 e θ = 1/5 ,
06/06/2023, 12:29 Modelos ARIMA
⎧ 26,
⎪
para h = 0,
γ(h) = ⎨ 5, pata h = 1, ⋅
⎩
⎪
0, para h > 1⋅
Portanto, o processo M A(1)
1
Xt = Wt + Wt−1 , Wt ∼ N (0, 25)
5
independentes e
Y t = V t + 5V t−1 , V t ∼ N (0, 1),
independentes são os mesmos por causa da normalidade, ou seja, todas as distribuições finitas
são as mesmas. Somente podemos observar as séries temporais, X ou Y , e não o ruído, W ou t t t
V , então não podemos distinguir entre os modelos. Por isso, teremos que escolher apenas um
t
deles. Por conveniência, imitando o critério de causalidade para modelos de AR, escolheremos o
modelo com uma representação AR infinita. Tal processo é chamado de processo inversível.
Para descobrir qual modelo é invertível, podemos inverter os papéis de Xt e Wt , isso porque
estamos imitando o caso AR e escrever o modelo M A(1) como Wt = −θWt−1 + Xt .
∞
Se |θ| < 1 , então Wt = ∑
j=0
j
(−θ) Xt−j , que é a representação AR infinita desejada do modelo.
Assim, dada uma escolha, escolheremos o modelo com 2
σW = 25 e θ = 1/5 porque é invertível.
No caso AR, o polinômio, θ(z) correspondente aos operadores de médias móveis, θ(B) será útil na
exploração das propriedades gerais dos processos de MA. Por exemplo, podemos escrever o modelo
M A(1) como X t = θ(B)Wt , onde θ(B) = 1 + θB. Se |θ| < 1 , então podemos escrever o modelo
como π(B)X t = Wt , onde π(B) = θ

−1
(B).
Seja θ(z) = 1 + θz, para |z| ≤ 1, então

∞
1
−1 j j
π(z) = θ (z) = = ∑(−θ) z
1 + θz
j=0
∞
e determinamos que π(B) = ∑
j=0
(−θ) B
j j
.
Modelos autorregressivos de médias móveis
Prosseguimos agora com o desenvolvimento do modelo geral de médias móveis autoregressivos e o

modelo de médias móveis autorregressivos mistos (ARMA), modelos para séries temporais estacionárias.
Definição III.5. Modelo ARM A(p, q) .
A série temporal {X t : t = 0, ±1, ±2, ⋯} é ARM A(p, q) se é estacionária e
X t = ϕ1 X t−1 + ⋯ + ϕp X t−p + Wt + θ1 Wt−1 + ⋯ + θq Wt−q ,
onde ϕp ≠ 0 , θq ≠ 0 e σW > 0.
2
Os parâmetros p e q são chamados ordens autorregressivas e de
médias móveis, respectivamente. Se Xt tiver uma média μ diferente de zero, definimos
α = μ(1 − ϕ1 − ⋯ − ϕp ) e escrevemos o modelo como
X t = α + ϕ1 X t−1 + ⋯ + ϕp X t−p + Wt + θ1 Wt−1 + ⋯ + θq Wt−q ,
onde Wt ∼ N (0, σ W )
2
independentes.
Como observado anteriormente, quando q = 0, o modelo é chamado de modelo autorregressivo de

ordem ou AR(p), e quando p = 0, o modelo é chamado de modelo de médias móveis de ordem q ou
p
M A(q). Para auxiliar na investigação de modelos ARMA, será útil escrevê-los usando o operador AR e o
operador MA. Em particular, o modelo ARM A(p, q) pode então ser escrito de forma concisa
ϕ(B)X t = θ(B)Wt ⋅
06/06/2023, 12:29 Modelos ARIMA
A forma concisa do modelo aponta para um problema potencial em que podemos complicar
desnecessariamente o modelo multiplicando ambos os lados por outro operador, digamos
η(B)ϕ(B)X t = η(B)θ(B)Wt ,
sem mudar a dinâmica. Considere o seguinte exemplo.
Exemplo III.7. Redundância de parâmetros.
Considere o processo de ruído branco Xt = Wt . Multiplicando ambos os lados pela equação

η(B) = 1 − 0.5B , então o modelo torna-se (1 − 0.5B)Xt = (1 − 0.5B)Wt ou
Xt = 0.5Xt−1 − 0.5Wt−1 + Wt ,
que se parece com um modelo ARM A(1, 1) . Claro, Xt ainda é ruído branco; nada mudou a esse
respeito, ou seja, X = W é a solução para o modelo acima, mas ocultamos o fato de que
t t Xt é
ruído branco por causa da redundância de parâmetros ou parametrização excessiva.
A consideração da redundância de parâmetros será crucial quando discutirmos a estimativa para

modelos gerais ARMA. Como este exemplo aponta, podemos ajustar um modelo ARM A(1, 1) para
dados de ruído branco e descobrir que as estimativas dos parâmetros são significativos. Se não
estivéssemos cientes da redundância de parâmetros, poderíamos afirmar que os dados estão
correlacionados quando na verdade não são. Embora ainda não tenhamos discutido a estimação,
apresentamos a seguinte demonstração do problema. Geramos 150 amostras normais independentes
identicamente distribuídas e depois ajustamos um ARM A(1, 1) aos dados. Note que ˆ
ϕ = −0.96 e
ˆ
θ = 0.95 e ambos são significativos.
Abaixo está o código R , note que a estimativa chamada intercept é realmente a estimativa da
média.
> set.seed(8675309)
> x = rnorm(150, mean=5) # gerando iid N(5,1)s
> arima(x, order=c(1,0,1)) # estimação
Call:
arima(x = x, order = c(1, 0, 1))
Coefficients:
ar1 ma1 intercept
-0.9595 0.9527 5.0462
s.e. 0.1688 0.1750 0.0727
sigma^2 estimated as 0.7986: log likelihood = -195.98, aic = 399.96
Assim, esquecendo a estimativa da média, o modelo ajustado parece
(1 + 0.96B)Xt = (1 + 0.96B)Wt ,
que devemos reconhecer como um modelo super-parametrizado.
Os exemplos III.3, III.6 e III.7 apontam para um número de problemas possíveis com a definição geral
de modelos ARM A(p, q) . Para resumir, vimos os seguintes problemas:
(a) modelos redundantes de parâmetros,

(b) modelos estacionários AR que dependem do futuro e
(c) modelos MA que não são exclusivos.
Para superar esses problemas, vamos exigir algumas restrições adicionais nos parâmetros do modelo.
Primeiro, fazemos as seguintes definições.
Definição III.6. Polinômios AR e MA.
06/06/2023, 12:29 Modelos ARIMA
Os polinômios AR e MA são definidos como
p
ϕ(z) = 1 − ϕ1 z − ⋯ − ϕp z , ϕp ≠ 0,
q
θ(z) = 1 + θ1 z + ⋯ + θq z , θq ≠ 0,
respectivamente, onde z é um número complexo.
Para resolver o primeiro problema, iremos nos referir a um modelo ARM A(p, q) para significar que ele
está em sua forma mais simples. Ou seja, além da definição original também exigiremos que ϕ(z) e
θ(z) não tenham fatores comuns. Assim, o processo, X t = 0.5X t−1 − 0.5Wt−1 + Wt , discutido no
Exemplo III.7 não é referido como um processo ARM A(1, 1) porque, em sua forma reduzida, Xt é
ruído branco.
Para abordar o problema dos modelos dependentes do futuro, introduzimos formalmente o conceito de
causalidade.
Definição III.7. Modelo ARM A(p, q) causal.
Um modelo ARM A(p, q) é considerado causal, se a série temporal {X t : t = 0, ±1, ±2, ⋯} pode
ser escrito como um processo linear unilateral:
∞
j=0
∞ ∞
onde ψ(B) = ∑
j=0
ψj B
j
e ∑
j=0
|ψj | < ∞, escolhemos ψ0 = 1 .
No Exemplo III.3, o processo AR(1), Xt = ϕXt−1 + Wt é causal apenas quando |ϕ| < 1.
Equivalentemente, o processo é causal apenas quando a raiz de ϕ(z) = 1 − ϕz é maior que um em
valor absoluto. Ou seja, a raiz z0 de ϕ(z) é z0 = 1/ϕ , porque ϕ(z0 ) = 0 e |z0 | > 1 porque |ϕ| < 1. Em
geral, temos a seguinte propriedade.
Teorema III.1. Causalidade de um processo ARM A(p, q) .
Um modelo ARM A(p, q) é causal se, e somente se, ϕ(z) ≠ 0 para |z| ≤ 1. Os coeficientes do
processo linear na Definição III.7 podem ser determinados resolvendo-se
∞
θ(z)
j
ψ(z) = ∑ ψj z = , |z| ≤ 1⋅
ϕ(z)
j=0
Demonstração Seção B.2 ▉
Outra maneira de expressar o Teorema III.1 é que um processo ARMA é causal apenas quando as raízes
de ϕ(z) estão fora do círculo unitário; isto é, ϕ(z) = 0 somente quando |z| > 1. Finalmente, para
resolver o problema de unicidade discutido no Exemplo III.6, escolhemos o modelo que permite uma
representação autorregressiva infinita.
Definição III.8. Modelo ARM A(p, q) invertível.
Um modelo ARM A(p, q) é dito invertível se a série temporal {X t : t = 0, ±1, ±2, ⋯} pode ser
escrita como
∞
π(B)X t = ∑ πj X t−j = Wt ,
j=0
∞ ∞
onde π(B) = ∑
j=0
πj B
j
e ∑
j=0
|πj | < ∞ , escolhemos π0 = 1.
Analogamente ao Teorema III.1, temos a seguinte propriedade.
06/06/2023, 12:29 Modelos ARIMA
Teorema III.2. Invertibilidade de um processo ARM A(p, q) .
Um modelo ARM A(p, q) é invertível se, e somente se, θ(z) ≠ 0 para |z| ≤ 1. Os coeficientes πj de
π(B) dados na Definição III.8 podem ser determinados resolvendo-se
∞
ϕ(z)
j
π(z) = ∑ πj z = , |z| ≤ 1⋅
θ(z)
j=0
Demonstração Similar à demonstração do Teorema III.1 ▉
Outra maneira de expressar o Teorema III.2 é que um processo ARMA é invertível somente quando as
raízes de θ(z) estão fora do círculo unitário; isto é, θ(z) = 0 somente quando |z| > 1.
Os exemplos a seguir ilustram esses conceitos.
Exemplo III.8. Redundância de parâmetros, causalidade, invertibilidade.
Considere o processo
Xt = 0.4Xt−1 + 0.45Xt−2 + Wt + Wt−1 + 0.25Wt−2 ,
ou, na forma de operador
2 2
(1 − 0.4B − 0.45B )Xt = (1 + B + 0.25B )Wt ⋅
Primeiramente, Xt parece ser um processo ARM A(2, 2) . Mas observe que
2
ϕ(B) = 1 − 0.4B − 0.45B = (1 + 0.5B)(1 − 0.9B)
2 2
θ(B) = (1 + B + 0.25B ) = (1 + 0.5B) ,
tem um fator comum que pode ser cancelado.
Após o cancelamento, os operadores são ϕ(B) = (1 − 0.9B) e θ(B) = (1 + 0.5B) , portanto o modelo
é um ARM A(1, 1) , (1 − 0.9B)Xt = (1 + 0.5B)Wt ou
Xt = 0.9Xt−1 + 0.5Wt−1 + Wt ⋅
O modelo é causal porque ϕ(z) = (1 − 0.9z) = 0 quando z = 10/9 , que está fora do círculo unitário. O
modelo também é invertível porque a raiz de θ(z) = (1 + 0.5z) é z = −2 ; que está fora do círculo
unitário.
Para escrever o modelo como um processo linear, podemos obter os pesos ψ usando o enunciado no
Teorema III.1, ϕ(z)ψ(z) = θ(z), ou
2 j
(1 − 0.9z)(1 + ψ1 z + ψ2 z + ⋯ + ψj z + ⋯) = 1 + 0.5z⋅
Reorganizando, ficamos
2 j
1 + (ψ1 − 0.9)z + (ψ2 − 0.9ψ1 )z + ⋯ + (ψj − 0.9ψj−1 )z + ⋯ = 1 + 0.5z⋅
Combinando os coeficientes de z nos lados esquerdo e direito, obtemos ψ1 − 0.9 = 0.5 e

ψj − 0.9ψt−1 = 0 para j > 1. Portanto, ψj = 1.4(0.9)
j−1
para j ≥ 1 e podemos escrever
∞
j−1
X t = Wt + 1.4 ∑ 0.9 Wt−j ⋅
j=1
Os valores de ψj podem ser calculados em R da seguinte forma:
06/06/2023, 12:29 Modelos ARIMA
> ARMAtoMA(ar = .9, ma = .5, 10) # primeiros 10 pesos-psi

[1] 1.4000000 1.2600000 1.1340000 1.0206000 0.9185400 0.8266860 0.7440174
[8] 0.6696157 0.6026541 0.5423887
A representação invertível usando o Teorema III.1 é obtida através da correspondência dos coeficientes
em θ(z)π(z) = ϕ(z) ,
2 3
(1 + 0.5z)(1 + π1 z + π2 z + π3 z + ⋯) = 1 − 09.z⋅
Neste caso, os π -pesos são dados por πj = (−1) 1.4(0.5)

j j−1
, para j ≥ 1 e daí, porque
∞
Wt = ∑ πj X t−j , também podemos escrever
j=0
j−1
X t = 1.4 ∑(−0.5) X t−j + Wt ⋅
j=1
Os valores dos πj podem ser calculados em R como segue, revertendo os papéis de Wt e Xt , ou seja,
escrevendo o modelo como Wt = −0.5Wt−1 + X t − 0.9X t−1 :
> ARMAtoMA(ar = -.5, ma = -.9, 10) # primeiros 10 pesos-pi

[1] -1.400000000 0.700000000 -0.350000000 0.175000000 -0.087500000 0.043750000 -0.021875000
[8] 0.010937500 -0.005468750 0.002734375
Exemplo III.9. Condições causais para o processo AR(2) .
Para o modelo AR(1) , (1 − ϕB)Xt = Wt , ser causal, a raiz de ϕ(z) = 1 − ϕz deve ficar fora do
círculo unitário. Nesse caso, ϕ(z) = 0 quando z = 1/ϕ , por isso é fácil ir a partir do
requisito causal na raiz, |1/ϕ| > 1, a um requisito no parâmetro, |ϕ| < 1. Não é tão fácil
estabelecer essa relação para modelos de ordem superior.
Por exemplo, o modelo AR(2), é causal quando as duas raízes de ϕ(z) = 1 − ϕ z − ϕ z ficam 1 2
2
fora do círculo unitário. Usando a fórmula quadrática, este requisito pode ser escrito como
−−−−−−−
∣ 2 ∣
ϕ1 ± √ϕ + 4ϕ2
∣ 1 ∣
∣ ∣ > 1⋅
∣ −2ϕ2 ∣
∣ ∣
As raizes de ϕ(z) podem ser reais e distintas, reais e iguais ou um par conjugado complexo. Se
denotarmos essas raízes por z e z , podemos escrever ϕ(z) = (1 − z z)(1 − z z), observe que
1 2
−1
1
−1
ϕ(z1 ) = ϕ(z2 ) = 0 .
O modelo pode ser escrito em forma de operador como (1 − z

1
−1
B)(1 − z
2
B)X = W . A partir
−1
t t
dessa representação, segue-se que ϕ = (z + z ) e ϕ 1 1

−1 −1
2 2 = −(z1 z2 )
−1
. Essa relação e o fato de
que |z | > 1 e
1 |z2 | > 1 podem ser usados para estabelecer a seguinte condição equivalente para
causalidade:
ϕ1 + ϕ2 < 1, ϕ2 − ϕ1 < 1 e |ϕ2 | < 1⋅
Essa condição de causalidade especifica uma região triangular no espaço paramétrico.
III.2 Equações em diferenças
O estudo do comportamento dos processos ARMA e seus ACFs é bastante aprimorado por um
conhecimento básico de equações de diferenças, simplesmente porque são equações de diferença.
Vamos dar um breve e heurístico relato do tópico, juntamente com alguns exemplos da utilidade da
teoria. Para detalhes, o leitor é referido a Mickens (1990).
Suponhamos que a sequência de números u0 , u1 , u2 , ⋯ sejam tais que
06/06/2023, 12:29 Modelos ARIMA
u n − αu n−1 = 0, α ≠ 0, n = 1, 2, ⋯ ⋅
Por exemplo, recordemos que a função ACF de um processo AR(1) é uma sequência ρ(h) satisfazendo
ρ(h) − ϕρ(h − 1) = 0, h = 1, 2, ⋯ ⋅
A equação u n − αu n−1 = 0, α ≠ 0, n = 1, 2, ⋯ representa uma equação de diferença homogênea de

ordem 1. Para resolver a equação, escrevemos:
u1 = αu 0
2
u2 = αu 1 = α u 0
⋯ ⋯
n
un = αu n−1 = α u0 ⋅
Dada uma condição inicial u0 = c, podemos resolver estas equações, ou seja, un = α

n
c.
Na notação do operador, podemos escrever como (1 − αB)u n = 0 . O polinômio associado é

α(z) = 1 − αz e a raíz, digamos z0 deste polinômio é z0 = 1/α , isto é α(z0 ) = 0 . Sabemos que a
solução, com a condição inicial u0 = c, é
c
n
un = α c = ⋅
n
z
0
Ou seja, a solução para a equação de diferença depende apenas da condição inicial e do inverso da raiz
para o polinômio associado α(z).
Agora suponha que a sequência satisfaça
u n − α1 u n−1 − α2 u n−2 = 0, α2 ≠ 0, n = 2, 3, ⋯ ⋅
Esta equação é uma equação de diferença homogênea de ordem 2. O polinômio correspondente é
2
α(z) = 1 − α1 z − α2 z ,
que tem duas raízes z1 e z2 ; isto é, α(z1 ) = α(z2 ) = 0 . Vamos considerar dois casos. Primeiro suponha
z1 ≠ z2 . Então a solução geral é
c1 c2
un = + ,
n n
z z
1 2
onde c1 e c2 dependem das condições iniciais. A alegação de que é uma solução pode ser verificada por
substituição direta:
−n −n −(n−1) −(n−1) −(n−2) −(n−2)

c1 z + c2 z − α 1 (c 1 z + c2 z ) − α 2 (c 1 z + c2 z ) =
1 2 1 2 1 2
  
un un−1 un−2
−n 2 −n 2
= c1 z (1 − α1 z1 − α2 z ) + c 2 z (1 − α1 z2 − α2 z )
1 1 2 2
−n −n
= c1 z α(z1 ) + c 2 z α(z2 ) = 0⋅
1 2
Dadas duas condições iniciais u0 e u1 , podemos resolver para c1 e c2 :
−1 −1
u 0 = c1 + c2 e u 1 = c1 z + c2 z ,
1 2
onde z1 e z2 pode ser resolvido em termos de α1 e α2 usando a fórmula quadrática, por exemplo.
Quando as raízes são iguais, z1 = z2 = z0 , uma solução geral é
c1 + c2 n
un = ⋅
n
z
0
Esta alegação também pode ser verificada por substituição direta:
−n −(n−1) −n−2
z (c 1 + c 2 n) − α1 (z (c 1 + c 2 (n − 1))) − α2 (z (c 1 + c 2 (n − 2))) =
0 0 0

 
un
un−1 un−2
−n 2 −n+1
= z (c 1 + c 2 n)(1 − α1 z0 − α2 z ) + c 2 z (α1 + 2α2 z0 )
0 0 0
−n+1
= c2 z (α1 + 2α2 z0 )⋅
0
Para mostrar que α1 + 2α2 z0 = 0, escrevemos 1 − α1 z − α2 z

2
= (1 − z
−1
0
z)
2
e tomando derivados
em relação a z em ambos os lados da equação para obter α 1 + 2α 2 z = 2z
−1
0
(1 − z
0
−1
z). Portanto,
06/06/2023, 12:29 Modelos ARIMA
z0 ) , como queriamos demonstrar. Finalmente, dadas duas condições iniciais

−1 −1
α1 + 2α2 z0 = 2z (1 − z
0 0
u0 e u1 , podemos resolver para c1 e c2 :
c1 + c2
u 0 = c1 e u1 = ⋅
z0
Também pode ser mostrado que essas soluções são únicas.
Para resumir estes resultados, no caso de raízes distintas, a solução para a equação em diferenças
homogênea de grau dois é
1 1
un = × (um polinômio em n de grau m 1 − 1) + × (um polinômio em n de grau m 2 − 1),
n n
z z
1 2
onde m1 é a multiplicidade da raiz z1 e m2 é a multiplicidade da raiz z2 . Neste exemplo, é claro,

m1 = m2 = 1 , e chamamos os polinômios de grau zero c1 e c2 , respectivamente. No caso da raiz
repetida, a solução foi
1
un = × (um polinômio em n de grau m 0 − 1),
n
z0
onde m0 é a multiplicidade da raiz z0 , isto é, m0 = 2. Neste caso, escrevemos o polinômio de grau um

como c1 + c2 n . Em ambos os casos, resolvemos para c1 e c2 dadas duas condições iniciais, u 0 e u 1 .
Estes resultados generalizam para a equação em diferença homogênea de ordem p:
u n − α1 u n−1 − ⋯ − αp u n−p = 0, αp ≠ 0, n = p, p + 1, ⋯ ⋅
O polinômio associado é α(z) = 1 − α1 z − ⋯ − αp z

p
. Suponha que α(z) tem raízes distintas, z1 com
multiplicidade m1 , z2 com multiplicidade m2 , ⋯ e zr com multiplicidade mr , tal que
m1 + m2 + ⋯ + mr = p. A solução geral para a equação em diferença é
1 1 1
un = P1 (n) + P2 (n) + ⋯ + Pr (n),
n n n
z z zr
1 2
onde Pj (n) , para j = 1, ⋯ , r é um polinômio em n, de grau mj − 1 . Dadas as p condições iniciais

u 0 , ⋯ , u p−1 , podemos resolver para o Pj explicitamente.
Exemplo III.10. O ACF do processo AR(2) .
Suponhamos que X = ϕ t 1 Xt−1 + ϕ2 Xt−2 + Wt seja um processo AR(2) causal. Multiplicando cada
lado do modelo por X t−h para h > 0 e tomado esperança obtemos
E(Xt Xt−h ) = ϕ1 E(Xt−1 Xt−h ) + ϕ2 E(Xt−2 Xt−h ) + E(Wt Xt−h )⋅
O resultado é
γ(h) = ϕ1 γ(h − 1) + ϕ2 γ(h − 2), h = 1, 2, ⋯ ⋅
Para encontrarmos o resultado acima utilizamos o fato de que E(Xt ) = 0 e que para h > 0 ,
∞
E(Wt Xt−h ) = E(Wt ∑ ϕj Wt−h−j ) = 0⋅
j=0
Obtemos assim
ρ(h) − ϕ1 ρ(h − 1) − ϕ2 ρ(h − 2) = 0, h = 1, 2, ⋅⋅
As condições iniciais são ρ(0) = 1 e ρ(−1) = ϕ1 /(1 − ϕ2 ) , as quais obtemos avaliando a

expressão acima para h = 1 e notando que ρ(1) = ρ(−1) .
Utilizando os resultados para a equação em diferença homogênea de ordem dois, sejam z e z as 1 2
raízes do polinômio associado, ϕ(z) = 1 − ϕ z − ϕ z . Como o modelo é causal, sabemos que as1 2
2
raízes estão fora do círculo unitário |z | > 1 e |z | > 1. Agora, considere a solução para três
1 2
casos:
(i) Quando z1 e z2 são reais distintos, então-estacioná
c1 c2
ρ(h) = + ,
h h
z z
1 2
06/06/2023, 12:29 Modelos ARIMA
assim ρ(h) → 0 exponencialmente rápido quando h → ∞ .
(ii) Quando z1 = z2 = z0 sejam reais e iguais, então
c1 + c2 h
ρ(h) = ,
h
z
0
assim ρ(h) → 0 exponencialmente rápido quando h → ∞ .

(iii) Quando z = z são um de complexos conjugados, então
1
¯
¯¯
2 c2 = c1
¯¯
porque ρ(h) é uma
função real e
¯¯
c1 c1
ρ(h) = + ⋅
h h
z ¯
¯¯
z1
1
Escrevendo c e z em coordenadas polares, por exemplo, z = |z |e , onde θ é o ângulo cuja

1 1 1 1
iθ
tangente é a razão entre a parte imaginária e a parte real de z , às vezes chamada de 1
, o intervalo de
arg(z1 ) θ é [−π, π] . Então, usando o fato de que e
iα
+ e
−iα
, a
= 2 cos(α)
solução tem a forma
a
ρ(h) = cos(hθ + b),
h
|z1 |
onde a e b são determinados pelas condições iniciais. Mais uma vez, ρ(h) amortece a zero
exponencialmente rápido quando h → ∞ , mas o faz de forma sinusoidal. A implicação desse
resultado é mostrada no próximo exemplo.
Exemplo III.11. O processo AR(2) com raízes complexas.
A figura abaixo mostra n = 144 observações do modelo AR(2)
Xt = 1.5Xt−1 − 0.75Xt−2 + Wt ,
com 2
σW = 1 e com raízes complexas escolhidas para que o processo exiba um comportamento
pseudocíclico à taxa de um ciclo a cada 12 pontos de tempo. O polinômio autoregressivo para
–
este modelo é ϕ(z) = 1 − 1.5z + 0.75z . As raízes de ϕ(z)
2
são 1 ± i/√3 e
–
(1/√3) = 2π/12 radianos por unidade de tempo. Para converter o ângulo em ciclos por
−1
θ = tan
unidade de tempo, divida por 2 para obter 1/12 ciclos por unidade de tempo.
Modelo AR(2) simulado, n = 144 com ϕ1 = 1.5 e ϕ2 = −0.75 .
> set.seed(8675309)
> ar2 = arima.sim(list(order=c(2,0,0), ar=c(1.5,-.75)), n = 144)
> plot(ar2, axes=FALSE, xlab="Tempo", ylab="AR(2)")
> axis(2); axis(1, at=seq(0,144,by=12)); box()
> abline(v=seq(0,144,by=12), col = "lightgray", lty = "dotted")
06/06/2023, 12:29 Modelos ARIMA
> abline(h=c(-5,0,5), col = "lightgray", lty = "dotted")
Para calcular as raízes do polinômio e resolver para arg em R:
> z = c(1,-1.5,.75) # coeficientes do polinômio

> (a = polyroot(z)[1]) # imprimir uma raíz = 1 + i/sqrt(3)
[1] 1+0.57735i
> arg = Arg(a)/(2*pi) # arg em ciclos/pt
> 1/arg # o pseudo período
[1] 12
O ACF para este modelo é:
Exemplo III.12. Os ψ -pesos para um modelo ARMA.
Para o modelo causal ARM A(p, q), ϕ(B)X = θ(B)W , onde os zeros de
t t ϕ(B) estão fora do
círculo unitário, lembre-se de que podemos escrever
∞
Xt = ∑ ψj Wt−j ,
j=0
sendo que os ψ -pesos são determinados pela Propriedade III.1
Para o modelo M A(p) puro, ψ0 = 1 , ψj = θj , quando j = 1, 2, ⋯ , q e ψj = 0 , caso contrário. Para

o caso geral de modelos ARM A(p, q), a tarefa de resolver para os ψ -pesos é muito mais
complicada, como foi demonstrado no Exemplo III.8. O uso da teoria das equações em diferença
homogêneas pode ajudar aqui. Para resolver para os ψ -pesos em geral, devemos combinar os
coeficientes em ϕ(z)ψ(z) = θ(z):
2 2 2
(1 − ϕz − ϕ2 z − ⋯)(ψ0 + ψ1 z + ψ2 z + ⋯) = (1 + θ1 z + θ2 z + ⋯)⋅
Os primeiros valores são
ψ1 = 1
ψ1 − ϕ1 ψ0 = θ1
ψ2 − ϕ1 ψ2 − ϕ2 ψ1 − ϕ3 ψ0 = θ2
ψ3 − ϕ1 ψ2 − ϕ2 ψ1 − ϕ3 ψ0 = θ3
⋮ ⋮
onde assumimos ϕj = 0 , para j > p e θj = 0 caso j > p . Os ψ -pesos satisfazem as equações em

diferença homogêneas dadas por
06/06/2023, 12:29 Modelos ARIMA
p
ψj − ∑ ϕk ψj−k = 0, j ≥ max{p, q + 1},
k=1
com condições iniciais
ψj − ∑ ϕk ψj−k = θk , 0 ≤ j < max{p, q + 1}⋅
k=1
A solução geral depende das raízes do polinômio AR , ϕ(z) = 1 − ϕ1 z − ⋯ − ϕp z

p
. A solução
específica dependerá, claro, das condições iniciais.
Considere o processo ARMA dado acima X = 0.9X + 0.5W + W . Devido a max{p, q + 1} = 2,

t t−1 t−1 t
temos que ψ = 1 e ψ = 0.9 + 0.5 = 1.4. Pelo resultado das equações em diferença homogêneas
0 1
para j = 2, 3, ⋯ , os ψ -pesos satisfazem ψ − 0.9ψ = 0 . A solução geral é ψ = c0.9 . Para

j j−1 j
j
encontrar a solução específica, usamos a condição inicial ψ = 1.4, de manerira que 1.4 = 0.9c 1
ou c = 1.4/0.9. Finalmente, ψ = 1.4(0.9)

j para j ≥ 1 , como vimos no Exemplo III.8.
j−1
Para ver, por exemplo, os primeiros 50 ψ -pesos em R, use:
> ARMAtoMA(ar=.9, ma=.5, 50) # para uma lista

[1] 1.400000000 1.260000000 1.134000000 1.020600000 0.918540000 0.826686000 0.744017400 0.669615660
[9] 0.602654094 0.542388685 0.488149816 0.439334835 0.395401351 0.355861216 0.320275094 0.288247585
[17] 0.259422826 0.233480544 0.210132489 0.189119240 0.170207316 0.153186585 0.137867926 0.124081134
[25] 0.111673020 0.100505718 0.090455146 0.081409632 0.073268669 0.065941802 0.059347622 0.053412859
[33] 0.048071573 0.043264416 0.038937975 0.035044177 0.031539759 0.028385783 0.025547205 0.022992485
[41] 0.020693236 0.018623913 0.016761521 0.015085369 0.013576832 0.012219149 0.010997234 0.009897511
[49] 0.008907760 0.008016984
> plot(ARMAtoMA(ar=.9, ma=.5, 50), type="l", xlab="Índice") # para um gráfico
III.3 Autocorrelação e autocorrelação parcial
Começamos exibindo o ACF de um processo M A(q), X t = θ(B)Wt , onde

θ(B) = 1 + θ1 B + ⋯ + θq B
q
. Porque Xté uma combinação linear finita de termos de ruído branco, o
processo é estacionário com média
q
E(X t ) = ∑ θj E(Wt−j ) = 0,
j=0
onde escrevemos θ0 = 1 e com função de autocovariância
06/06/2023, 12:29 Modelos ARIMA
q q
γ (h) = Cov(X t+h , X t ) = Cov (∑ θj Wt+h−j , ∑ θk Wt−k )
j=0 k=0
q−h
⎧
⎪
⎪ 2
σ W ∑ θj θj+h , quando 0 ≤ h ≤ q
= ⎨ ⋅
j=0
⎪
⎩
⎪
0, quando h > q
Lembrando que γ (h) = γ (−h) , por isso somente exibiremos os valores para h ≥ 0. Observe que γ (q)
não pode ser zero porque θq ≠ 0 . O corte de γ (h) após q lags é a assinatura do modelo M A(q).
Dividindo a expressão acima por γ (0) produz o ACF de um M A(q):
q−h
⎧
⎪
⎪
⎪
⎪ ∑ θj θj+h
⎪
j=0
ρ(h) = ⎨
, quando 1 ≤ h ≤ q
2 2
⎪
⎪ 1 + θ + ⋯ + θq
⎪
⎪
1
⎩
⎪
0, quando h > q
Para um modelo ARM A(p, q) causal, ϕ(B)X t = θ(B)Wt , onde os zeros de ϕ(z) estão fora do círculo
unitário, escrevamos
∞
X t = ∑ ψj Wt−j ⋅
j=0
Segue-se imediatamente que E(X t ) = 0 e a função de autocovariância de Xt é

∞
2
γ (h) = Cov(X t+h , X t ) = σ W ∑ ψj ψj+h , h ≥ 0⋅
j=0
Poderíamos então utilizar equações acima para resolver os pesos. Por sua vez, poderíamos resolver por
γ (h) e o ACF ρ(h) = γ (h)/γ (0) . Como no Exemplo III.10, também é possível obter uma equação em
diferença homogênea diretamente em termos de γ (h). Primeiro, escrevemos
p q
γ (h) = Cov(X t+h , X t ) = Cov (∑ ϕj X t+h−j + ∑ θj Wt+h−j , X t )
j=1 j=0
p q
2
= ∑ ϕj γ (h − j) + σ W ∑ θj ψj−h , h ≥ 0,
j=1 j=k
onde usamos o fato de que, para h ≥ 0,
2
Cov(Wt+h−j , X t ) = Cov(Wt+h−j , ∑ ψk Wt−k ) = ψj−h σ W ⋅
k=0
Assim, podemos escrever a equação homogênea geral para o ACF de um processo ARM A causal:
γ (h) − ϕ1 γ (h − 1) − ⋯ − ϕp γ (h − p) = 0, h ≥ max{p, q + 1},
p q
2
γ (h) − ∑ ϕj γ (h − j) = σ W ∑ θj ψj−h , 0 ≤ h < max{p, q + 1}
j=1 j=h
Dividindo por γ (0) nos permitirá resolver para o ACF, ρ(h) = γ (h)/γ (0) .
Exemplo III.13. O ACF para um modelo AR(p) .
No Exemplo III.10 consideramos o caso p = 2 . Numa situação geral, segue que
ρ(h) − ϕ1 ρ(h − 1) − ⋯ − ϕp ρ(h − p) = 0, h ≥ p⋅
Sejam z1 , ⋯ , zr as raízes de ϕ(z), cada com multiplicidade m1 , ⋯ , mr , respectivamente, onde

m1 + ⋯ + mr = p . Então, a solução geral é
1 1 1
ρ(h) = P 1 (h) + P 2 (h) + ⋯ + P r (h), h ≥ p,
h h h
z z zr
1 2
06/06/2023, 12:29 Modelos ARIMA
onde P j (h) é um polinômio em h de grau mj − 1 .
Lembre-se que, para um modelo causal, todas as raízes estão fora do círculo unitário, |z | > 1, i
i = 1, ⋯ , r . Se todas as raízes são reais, então ρ(h) amortece exponencialmente rápido a zero
quando h → ∞ . Se algumas das raízes são complexas, então elas estarão em pares conjugados e
ρ(h) irá amortecer, de uma maneira sinusoidal, exponencialmente rápido a zero quando h → ∞ .
No caso de raízes complexas, a série temporal parecerá ser de natureza cíclica. Isso, é claro,
também é verdadeiro para modelos ARMA nos quais a parte AR possui raízes complexas.
Exemplo III.14. O ACF para um modelo ARM A(1, 1) .
Consideremos o processo ARM A(1, 1) dado por X = ϕX + θW + W , onde |ϕ| < 1. Com base
t t−1 t−1 t
na equação homogênea geral para o ACF de um processo ARMA causal, a função de autocovariância
satisfaz
γ(h) − ϕγ(h − 1) = 0, h = 2, 3, ⋯ ,
e segue que, a solução geral é
h
γ(h) = cϕ , h = 1, 2, ⋯ ,
2 2 2
γ(0) = ϕγ(1) + σW (1 + θϕ + θ ) e γ(1) = ϕγ(0) + σW θ⋅
Resolvendo para γ(0) e γ(1) , obtemos que:
2
1 + 2θϕ + θ (1 + θϕ)(ϕ + θ)
2 2
γ(0) = σW e γ(1) = σW ⋅
2 2
1 − ϕ 1 − ϕ
Resolvendo para c , temos γ(1) = cϕ ou c = γ(1)/ϕ . Portanto, a solução específica para h ≥ 1 é
γ(1) (1 + θϕ)(ϕ + θ)
h 2 h−1
γ(h) = ϕ = σW ϕ ⋅
2
ϕ 1 − ϕ
Finalmente, dividindo por γ(0) produz o ACF
(1 + θϕ)(ϕ + θ)
h−1
ρ(h) = ϕ , h ≥ 1⋅
2
1 + 2θϕ + θ
Observe que o padrão geral de ρ(h) versus h acima não é diferente do de um AR(1). Portanto, é
improvável que possamos diferenciar entre um ARM A(1, 1) e um AR(1) baseado somente em um
ACF estimado a partir de uma amostra. Essa consideração nos levará à função de autocorrelação
parcial.
A função de autocorrelação parcial (PACF)
Vimos que para modelos M A(q), o ACF será zero para defasagens maiores que q. Além disso, porque
θq ≠ 0 , o ACF não será zero no atraso ou lag q. Assim, o ACF fornece uma quantidade considerável de
informações sobre a ordem da dependência quando o processo é de médias móveis. Se o processo, no
entanto, é ARMA ou AR, o ACF sozinho nos diz pouco sobre as ordens de dependência. Assim, vale a
pena buscar uma função que se comportará como o ACF dos modelos MA, mas para os modelos AR, a
saber, a função de autocorrelação parcial (PACF).
Lembre-se que se X, Y e Z forem variáveis aleatórias, então a correlação parcial entre X e Y , dada
por Z , é obtida pela regressão de X em Z para obter X̂ , regredindo Y em Z para obter ˆ
Y e então
calculando
ρ ˆ)⋅
= Corr(X − X̂ , Y − Y
XY |Z
A idéia é que ρ
XY |Z
mede a correlação entre X e Y com o efeito linear de Z removido ou parcialmente
excluído. Se as variáveis são multivariadas normais, então esta definição coincide com
06/06/2023, 12:29 Modelos ARIMA
ρ = Corr(X, Y |Z )⋅
XY |Z
Para motivar a ideia para séries temporais, considere um modelo causal AR(1), X t = ϕX t−1 + Wt .
Então,
γ (2) = Cov(X t , X t−2 ) = Cov(ϕX t−1 + Wt , X t−2 )

X
2 2
= Cov(ϕ X t−2 + ϕWt−1 + Wt , X t−2 ) = ϕ γ (0)⋅
X
Este resultado é decorrente da causalidade, pois Xt−2 envolve {Wt−2 , Wt−3 , ⋯} que são todos não
correlacionados com Wt e Wt−1 . A correlação entre Xt e Wt−1 não é zero, como seria para um
M A(1) , porque Xt é dependente de Xt−2 através de Xt−1 . Suponha que quebremos essa cadeia de
dependência removendo ou retirando o efeito de Xt−1 . Ou seja, consideramos a correlação entre
X t − ϕX t−1 e X t−2 − ϕX t−1 , porque é a correlação entre X t e X t−2 com a dependência linear
removida de cada um em X t−1 . Desta forma, quebramos a cadeia de dependência entre Xt e X t−2 . De
fato,
cov(X t − ϕX t−1 , X t−2 − ϕX t−1 ) = Cov(Wt , X t−2 − ϕX t−1 ) = 0⋅
Assim, a ferramenta que precisamos é a autocorrelação parcial, que é a correlação entre Xs e Xt com o
efeito linear de tudo no meio removido.
Para definir formalmente o PACF para séries temporais estacionárias de média zero, seja X̂ t+h , para
h ≥ 2, denote a regressão de X t+h em {X t+h−1 , X t+h−2 , ⋯ , X t+1 } , que escrevemos como
X̂ t+h = β1 X t+h−1 + β2 X t+h−2 + ⋯ + βh−1 X t+1 ⋅
O termo regressão aqui se refere à regressão no sentido da população. Isso é, X̂ t+h

é a combinação
linear de {Xt+h−1 , Xt+h−2 , ⋯ , Xt+1 } que minimiza o erro quadrático médio
h−1
2
E(X t+h − ∑ αj X t+j ) ⋅
j=1
Observe que nenhum termo de intercepto é necessário porque a média de Xt é zero, caso contrário,
substitua Xt por X t μXnesta discussão. Além disso, se X̂ t
denota a regressão de Xt em
{X t+h−1 , X t+h−2 , ⋯ , X t+1 } então
X̂ t = β1 X t+1 + β2 X t+2 + ⋯ + βh−1 X t+h−1 ⋅
Por causa da estacionariedade, os coeficientes, β1 , ⋯ , βh−1 são os mesmos nos modelos de regressão
acima. Vamos explicar este resultado na próxima seção, mas será evidente a partir dos exemplos.
Definição III.9. A função de autocorrelação parcial (PACF).
A função de autocorrelação parcial (PACF) de um processo estacionário, Xt , denotada por ϕh,h , para
h = 1, 2, ⋯ é
ϕ1,1 = Corr(X t+1 , X t ) = ρ(1)
ϕh,h = Corr(X t+h − X̂ t+h , X t − X̂ t ), h ≥ 2⋅
A razão para usar um subscrito duplo ficará evidente na próxima seção. O PACF ϕh,h é a correlação
entre Xt+h e Xt com a dependência linear de {Xt+1 , ⋯ , Xt+h−1 } em cada, removido. Se o processo
X t é gaussiano, então ϕh,h = Corr(X t+h , X t |X t+1 , ⋯ , X t+h−1 ), isto é, ϕh,h é o coeficiente de
correlação entre X t+h e Xt na distribuição bivariada de (X t+h , X t ) condicional em

{X t+1 , ⋯ , X t+h−1 }.
Exemplo III.15. A PACF para um modelo AR(1) .
Considere a PACF do processo AR(1) dado por X = ϕX + W , com |ϕ| t t−1 t < 1. Por definição,
ϕ = ρ(1) = ϕ .
1,1 Para calcular ϕ , considere a regressão de X
2,2 t+2 em X , digamost+1
ˆ
X t+2 = βXt+1 . Escolhemos β minimizando
2 2
ˆ 2
E(Xt+2 − X t+2 ) = E(Xt+2 − βXt+1 ) = γ(0) − 2βγ(1) + β γ(0)⋅
06/06/2023, 12:29 Modelos ARIMA
Tomando derivadas em relação a β e definindo o resultado igual a zero, temos
β = γ(1)/γ(0) = ρ(1) = ϕ . Em seguida, considere a regressão de Xt em X , digamos
t+1
ˆ
X t = βXt+1 . Escolhemos β minimizando
2 2 2
ˆ )
E(Xt − X = E(Xt − βXt+1 ) = γ(0) − 2βγ(1) + β γ(0)⋅
t
Esta é a mesma equação de antes, então β = ϕ . Consequentemente,
ˆ ˆ
ϕ2,2 = Corr(Xt+2 − X t+2 , Xt − X t ) = Corr(Xt+2 − ϕXt+1 , Xt − ϕXt+1 )
= Corr(Wt+2 , Xt − ϕXt+1 ) = 0,
por causalidade. Portanto, ϕ2,2 = 0 . No próximo exemplo, veremos que neste caso, ϕh,h = 0 para
todo h > 1 .
Exemplo III.16. O PACF para um modelo AR(p) .
p
Este modelo implica que Xt+h = ∑
j=1
ϕj Xt+h−j + Wt+h , onde as raízes de ϕ(z) estão fora do
círculo unitário. Quando h > p , a regressão de Xt+h em {Xt+1 , ⋯ , Xt+h−1 } , é
p
ˆ
X t+h = ∑ ϕj Xt+h−j ⋅
j=1
Ainda não provamos este resultado, mas vamos provar isso na próxima seção. Assim, quando
h > p ,
ˆ ˆ ˆ
ϕh,h = Corr(Xt+h − X t+h , Xt − X t ) = Corr(Wt+h , Xt − X t ) = 0,
porque, pela causalidade, X − Xˆ

depende somente de {W
t t ,W , ⋯} . Quando h ≤ p , ϕ t+h−1 t+h−2 h,h
é não zero e ϕ , ⋯ , ϕ 1,1 não são necessariamente zero. Veremos mais tarde que, de fato,
p−1,p−1
ϕp,p= ϕ . Mostramos na figura abaixo as funções ACFe PACF para o modelo AR(2) presente no
p
Exemplo III.11.
Para reproduzir a figura em R, use os seguintes comandos:
> ACF = ARMAacf(ar=c(1.5,-.75), ma=0, 24)[-1]

> PACF = ARMAacf(ar=c(1.5,-.75), ma=0, 24, pacf=TRUE)
> par(mfrow=c(1,2))
> plot(ACF, type="h", xlab="lag", ylim=c(-.8,1)); abline(h=0)
> plot(PACF, type="h", xlab="lag", ylim=c(-.8,1)); abline(h=0)
06/06/2023, 12:29 Modelos ARIMA
Exemplo III.17. A PACF para um modelo M A(q) invertível.
Para um modelo M A(q) invertível, escrevemos

∞
Xt = − ∑ ϕj Xt−j + Wt ⋅
j=1
Além disso, não existe representação finita. A partir deste resultado, deve ficar claro que o
PACF nunca será cortado, como no caso do AR(p) .
Para um M A(1), Xt = Wt + θWt−1 , com |θ| < 1 , cálculos semelhantes ao Exemplo III.15
produzirão
2
θ
ϕ2,2 = − ⋅
2 4
1 + θ + θ
Para o M A(1) em geral, podemos mostrar que
h 2
(−θ) (1 − θ )
ϕh,h = − , h ≥ 1⋅
2(h+1)
1 − θ
Na próxima seção, discutiremos métodos de cálculo da função de autocorrelação parcial (PACF). A

função de autocorrelação parcial (PACF) para modelos MA se comporta de maneira semelhante ao ACF
para modelos AR. Além disso, o PACF para modelos de AR comporta-se muito como o ACF para os
modelos MA. Como um modelo ARMA invertível tem uma representação AR infinita, o PACF não será
cortado. Podemos resumir esses resultados na tabela a seguir.
Tabela III.1. Comportamento do ACF e PACF para

modelos ARM A
AR(p) M A(q) ARM A(p, q)
AC F Caudas fora Corta fora Caudas fora

depois lag q
P AC F Corta fora Caudas fora Caudas fora

depois lag p
Exemplo III.18. Análise preliminar da série de Recrutamento.
Consideramos o problema de modelagem da série Recrutamento mostrada no Exemplo I.5. Há 453

meses de Recrutamento observado variando ao longo dos anos 1950 a 1987. O ACF e o PACF
amostrais, mostrados na figura abaixo, são consistentes com o comportamento de um AR(2). O
ACF tem ciclos correspondendo aproximadamente a um período de 12 meses e o PACF tem valores
grandes para h = 1, 2 e, em seguida, é essencialmente zero para atrasos ou lag de ordem
superior. Com base na Tabela III.1, esses resultados sugerem que um modelo autorregressivo de
segunda ordem, ou seja, p = 2 pode fornecer um bom ajuste. Embora discutiremos a estimação em
detalhes na Seção III.5, executamos uma regressão usando os trios de dados
{(X; Z1 , Z2 ) : (X3 ; X2 , X1 ), (X4 ; X3 , X2 ), ⋯ , (X453 ; X452 , X451 )} para ajustar um modelo da forma
Xt = ϕ0 + ϕ1 Xt−1 + ϕ2 Xt−2 + Wt ,
para t = 3, 4, ⋯ , 453 . As estimativas e os erros padrão (entre parênteses) são ˆ

ϕ 0 = 6.74(1.11) ,
, e .
2
ˆ ˆ
ϕ 1 = 1.35(0.04) ϕ 2 = −0.46(0.04) σ̂ = 89.72
W
> library(astsa)
> acf2(rec, 48) # produzindo valores e um gráfico
ACF PACF
[1,] 0.92 0.92
[2,] 0.78 -0.44
06/06/2023, 12:29 Modelos ARIMA
[3,] 0.63 -0.05
[4,] 0.48 -0.02
[5,] 0.36 0.07
[6,] 0.26 -0.03
[7,] 0.18 -0.03
[8,] 0.13 0.04
[9,] 0.09 0.05
[10,] 0.07 -0.02
[11,] 0.06 -0.05
[12,] 0.02 -0.14
[13,] -0.04 -0.15
[14,] -0.12 -0.05
[15,] -0.19 0.05
[16,] -0.24 0.01
[17,] -0.27 0.01
[18,] -0.27 0.02
[19,] -0.24 0.09
[20,] -0.19 0.11
[21,] -0.11 0.03
[22,] -0.03 -0.03
[23,] 0.03 -0.01
[24,] 0.06 -0.07
[25,] 0.06 -0.12
[26,] 0.02 -0.03
[27,] -0.02 0.05
[28,] -0.06 -0.08
[29,] -0.09 -0.04
[30,] -0.12 -0.03
[31,] -0.13 0.06
[32,] -0.11 0.05
[33,] -0.05 0.15
[34,] 0.02 0.09
[35,] 0.08 -0.04
[36,] 0.12 -0.10
[37,] 0.10 -0.09
[38,] 0.06 -0.02
[39,] 0.01 0.05
[40,] -0.02 0.08
[41,] -0.03 -0.02
[42,] -0.03 -0.01
[43,] -0.02 -0.02
[44,] 0.01 0.05
[45,] 0.06 0.01
[46,] 0.12 0.05
[47,] 0.17 0.08
[48,] 0.20 -0.04
> (regr = ar.ols(rec, order=2, demean=FALSE, intercept=TRUE))
Call:
ar.ols(x = rec, order.max = 2, demean = FALSE, intercept = TRUE)
Coefficients:
1 2
1.3541 -0.4632
Intercept: 6.737 (1.111)
Order selected 2 sigma^2 estimated as 89.72

> regr$asy.se.coef # erros padrão das estimativas
$x.mean
[1] 1.110599
$ar
06/06/2023, 12:29 Modelos ARIMA
[1] 0.04178901 0.04187942
III.4 Previsão
Na previsão, o objetivo é prever valores futuros de uma série temporal Xn+m , m = 1, 2, ⋯ com base
nos dados coletados até o presente, X1:n = {X1 , X2 , ⋯ , Xn }. Ao longo desta seção, assumiremos que
X t é estacionário e os parâmetros do modelo são conhecidos. O problema de previsão quando os
parâmetros do modelo são desconhecidos será discutido na próxima seção. O preditor de erro
quadrático médio mínimo de Xn+m é
n
X n+m = E(X n+m | X 1:n ),
porque a esperança condicional minimiza o erro quadrático médio
2
E(X n+m − g(X 1:n )) ,
onde g(⋅) é uma função das observações X 1:n .
Primeiro, vamos restringir a atenção aos preditores que sejam funções lineares dos dados, ou seja,
preditores da forma
n
X n+m = α0 + ∑ αk X k ,
k=1
onde α0 , α1 , ⋯ , αn são números reais. Notamos que os α 's dependem de n e m, mas por enquanto
abandonamos a dependência da notação. Por exemplo, se n = m = 1, então X
1
2
é a previsão linear de
um passo à frente de X2 dado X1 . Em termos da expressão acima, X
1
2
= α0 + α1 X 1 . Mas se n = 2,
X
2
3
é a previsão linear de um passo à frente de X3 dado X1 e X2 , ou seja, X
2
3
= α0 + α1 X 1 + α2 X 2
e, em geral, os α 's em X
1
2
e X
2
3
são diferentes.
Os preditores lineares que minimizam o erro quadrático médio são chamados de melhores preditores
lineares (BLPs). Como veremos, a previsão linear depende apenas dos momentos de segunda ordem do
processo, que são fáceis de estimar a partir dos dados. Grande parte do material desta seção é
aprimorada pelo material teórico apresentado no Apêndice B. Por exemplo, o Teorema B.3 afirma que,
se o processo for Gaussiano, os preditores de erro quadrático médio mínimo e os melhores preditores
lineares serão os mesmos. A seguinte propriedade, baseada no Teorema da Projeção, Teorema B.1, é
um resultado chave.
Teorema III.3. Melhor previsão linear para processos estacionários.
06/06/2023, 12:29 Modelos ARIMA
n
Dados os dados X1 , X2 , ⋯ , Xn , o melhor preditor linear X n+m = α0 + ∑ αk X k ,

n
de X n+m para
k=1
m ≥ 1, é encontrado resolvendo
n
E((X n+m − X n+m )X k ) = 0, k = 0, 1, ⋯ , n,
onde X0 = 1 , para α0 , α1 , ⋯ , αn .
Demonstração Apêndice B ▉
As equações especificadas no Teorema III.3 são chamadas de equações de predição e são usadas para
resolver os coeficientes {α0 , α1 , ⋯ , αn } . Os resultados do Teorema III.3 também podem ser obtidos
n
através de mínimos quadrados; isto é, minimizando Q = E(X n+m − ∑
k=0
αk X k )
2
com respeito aos
α 's, resolvendo ∂ Q/∂ αj = 0 para αj , j = 0, 1, ⋯ , n . Isso leva ao resultado no Teorema III.3.
Se E(X t ) = μ, a primeira equação (k=0) na Proposição III.3 implica que
n
E(X n+m ) = E(X n+m ) = μ⋅
Então, tomando esperança, temos
n n
μ = α0 + ∑ αk μ ou α0 = μ(1 − ∑ αk )⋅
k=1 k=1
Assim, a forma do BLP é
n
X n+m = μ + ∑ αk (X k − μ)⋅
k=1
Assim, até discutirmos a estimação, não há perda de generalidade ao considerar o caso que μ = 0, em
cujo caso, α0 = 0.
Primeiro, considere a previsão de um passo à frente. Isto é, dado {X1 , ⋯ , Xt }, desejamos prever o
valor da série temporal no próximo ponto de tempo, Xn+1 . O BLP de Xn+1 é da forma
n
X = ϕn,1 X n + ϕn,2 X n−1 + ⋯ + ϕn,n X 1 ,
n+1
onde agora mostramos a dependência dos coeficientes em n; nesse caso αk no preditor linear é
ϕn,n+1−k na expressão acima, para k = 1, ⋯ , n. Utilizando o Teorema III.3, os coeficientes
{ϕn,1 , ϕn,2 , ⋯ , ϕn,n } satisfazem
E ((X n+1 − ∑ ϕn,j X n+1−j )X n+1−k ) = 0, k = 1, ⋯ , n,
j=1
ou
n
∑ ϕn,j γ (k − j) = γ (k), k = 1, 2 ⋯ , n⋅
j=1
As equações de predição acima podem ser escritas em notação matricial como
Γ n ϕn = γn ,
onde Γ n = {γ (k − j)}
n
j,k=1
é uma matriz n × n, ϕn = (ϕn,1 , ⋯ , ϕn,n )
⊤
é um vetor n × 1 e
γn = (γ (1), ⋯ , γ (n))
⊤
é um vetor n × 1.
A mariz Γn é definida não negativa. Se Γn é singular, existem muita soluções mas, pelo Teorema de
projeção (Teorema B.1), Xn+1
n
é única. Se Γn é não singular, os elementos de ϕn são únicos e dados
por
−1
ϕn = Γn γn ⋅
Para os modelos ARM A, o fato de σ 2 > 0 e limh→∞ γ (h) = 0 é o suficiente para garantir que Γn
W
seja definido positivo. Às vezes é conveniente escrever a previsão de um passo à frente na notação
vetorial
n ⊤
X n+m = ϕn X,
06/06/2023, 12:29 Modelos ARIMA
onde X = (X n , X n−1 , ⋯ , X 1 )
⊤
.
O erro médio de previsão quadrado de um passo à frente é
2
n n ⊤ −1
P = E(X n+1 − X ) = γ (0) − γn Γ n γn ⋅
n+1 n+1
Para verifiarmos a expressão acima, vemos que
2 2 2
n ⊤ ⊤ −1
E(X n+1 − X ) = E(X n+1 − ϕn X) = E(X n+1 − γn Γ n X)
n+1
2 ⊤ −1 ⊤ −1 ⊤ −1
= E(X − 2γn Γ n XX n+1 + γn Γ n XX Γn γn )
n+1
⊤ −1 ⊤ −1 −1
= γ (0) − 2γn Γ n γn + γn Γ n Γ n Γ n γn
⊤ −1
= γ (0) − γn Γ n γn ⋅
Exemplo III.19. Previsão para o modelo AR(2) .
Suponhamos o processo AR(2) causal, Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + Wt e uma observação Xt . Então,

usando ϕn = Γn
−1
γn , a previsão um passo à frente de X2 baseada em X1 é
γ(1)
1
X = ϕ1,1 X1 = X1 = ρ(1)X1 ⋅
2
γ(0)
Agora, suponha que queremos a previsão de X3 com um passo à frente com base em duas
observações X e X ,
1 ou seja, 2 X
2
3
= ϕ2,1 X2 + ϕ2,2 X1 . Poderíamos usar que
n
∑ ϕ γ(k − j) = γ(k), para k = 1, 2 ⋯ , n ,
n,j
j=1
ψ2,1 γ(0) + ϕ2,2 γ(1) = γ(1)
ϕ2,1 γ(1) + ϕ2,2 γ(0) = γ(2),
para resolver por ϕ2,1 e ϕ2,2 ou utilizando a forma matricial e resolver
−1
ϕ2,1 γ(0) γ(1) γ(1)
( ) = ( ) ( ),
ϕ2,2 γ(1) γ(0) γ(2)
mas, deve ser aparente do modelo que X 2

3
= ϕ 1 X2 + ϕ 2 X1 . Devido a que ϕ 1 X2 + ϕ 2 X1 satisfaz as
equações de predição no Teorema III.3,
E ((X3 − (ϕ1 X2 + ϕ2 X1 ))X1 ) = E(W3 X1 ) = 0,
E ((X3 − (ϕ1 X2 + ϕ2 X1 ))X2 ) = E(W3 X2 ) = 0,
segue-se que, de fato, X = ϕ X + ϕ X e pela unicidade dos coeficientes, neste caso,

2
3 1 2 2 1
ϕ2,1= ϕ e ϕ = ϕ . Continuando desta forma, verificamos que, para n ≥ 2,

1 2,2 2
n
X = ϕ1 Xn + ϕ2 Xn−1 ⋅
n+1
Isto é, ϕn,1 = ϕ1 , ϕn,2 = ϕ2 e ϕn;j = 0 , para j = 3, 4, ⋯ , n .
A partir do Exemplo III.19, deve ficar claro que, se a série temporal é um processo causal AR(p),
então, para n ≥ p,
n
X = ϕ1 X n + ϕ2 X n−1 + ⋯ + ϕp X n−p+1 ⋅
n+1
Para os modelos ARMA em geral, as equações de predição não serão tão simples quanto o caso AR puro.
Além disso, para n grande, o uso de sistemas de equações é proibitivo porque requer a inversão de uma
matriz grande. Existem, no entanto, soluções iterativas que não exigem nenhuma inversão de matrizes.
Em particular, mencionamos a solução recursiva devido a Levinson (1947) e Durbin (1960).
Teorema III.4. Algoritmo de Durbin-Levinson.
2
As equações e podem ser resolvidas
−1 n n ⊤ −1
ϕn = Γ n γn P = E(X n+1 − X ) = γ (0) − γn Γ n γn
n+1 n+1
iterativamente como segue:
0
ϕ0,0 = 0, P = γ (0)⋅
1
06/06/2023, 12:29 Modelos ARIMA
Para n ≥ 1,
n−1
ρ(n) − ∑ ϕn−1,k ρ(n − k)
k=1
n n−1 2
ϕn,n = , P = Pn (1 − ϕn,n ),
n+1
n−1
1 − ∑ ϕn−1,k ρ(k)
k=1
onde, para n ≥ 2
ϕn,k = ϕn−1,k − ϕn,n ϕn−1,n−k , k = 1, 2, ⋯ , n − 1⋅
Demonstração Exercício ▉
Exemplo III.20. Utilizando o algoritmo de Durbin-Levinson.
Para usar o algoritmo, começamos com ϕ0,0 = 0 , P

0
1
= γ(0) . Então, para n = 1
1 2
ϕ1,1 = ρ(1), P = γ(0)(1 − ϕ )⋅
2 1,1
Para n = 2 ,
ρ(2) − ϕ1,1 ρ(1)

ϕ2,2 = , ϕ2,1 = ϕ1,1 − ϕ2,2 ϕ1,1 ,
1 − ϕ1,1 ρ(1)
2 1 2 2 2
P = P (1 − ϕ ) = γ(0)(1 − ϕ )(1 − ϕ )⋅
3 2 2,2 1,1 2,2
Para n = 3 ,
ρ(3) − ϕ2,1 ρ(2) − ϕ2,2 ρ(1)

ϕ3,3 = , ϕ3,2 = ϕ2,2 − ϕ3,3 ϕ2,1 , ϕ3,1 = ϕ2,1 − ϕ3,3 ϕ2,2 ,
1 − ϕ2,1 ρ(1) − ϕ2,2 ρ(2)
3 2 2 2 2 2
P = P (1 − ϕ ) = γ(0)(1 − ϕ )(1 − ϕ )(1 − ϕ )
4 3 3,3 1,1 2,2 3,3
e assim por diante. Observe que, em geral, o erro padrão da previsão de um passo à frente é a
raiz quadrada de
n
n 2
P = γ(0) ∏ (1 − ϕ )⋅
n+1 j,j
j=1
Uma consequência importante do algoritmo de Durbin-Levinson é o resultado segue.
Teorema III.5. Solução iterativa para o PACF.
O PACF de um processo estacionário Xt , pode ser obtido iterativamente via o Teorema III.4 como
ϕn,n , para n = 1, 2, ⋯ .
Demonstração Teorema III.4 ▉
Usando o Teorema III.5 e colocando n = p, segue que para um modelo AR(p),
p
X = ϕp,1 X p + ϕp,2 X p−1 + ⋯ + ϕp,p X 1
p+1
= ϕ1 X p + ϕ2 X p−1 + ⋯ + ϕp X 1 ⋅
O resultado acima mostra que, para um modelo AR(p), o coeficiente de autocorrelação parcial na
defasagem p, ϕp,p , também é o último coeficiente no modelo, ϕp , como foi reivindicado no Exemplo
III.16.
06/06/2023, 12:29 Modelos ARIMA
Exemplo III.21. O PACF de um modelo AR(2) .
Utilizaremos o resultado do Exemplo III.20 e do Teorema III.5 para calcular os três primeiros
valores ϕ1,1 , ϕ2,2 e ϕ3,3 do PACF. Lembremos do Exemplo III.10 e
ρ(h) − ϕ1 ρ(h − 1) − ϕ2 ρ(h − 2) = 0 para h ≥ 1 . Quando h = 1, 2, 3, temos que ρ(1) = ϕ1 /(1 − ϕ2 ) ,
ρ(2) = ϕ1 ρ(1) + ϕ2 , ρ(3) − ϕ1 ρ(2) − ϕ2 ρ(1) = 0. Portanto,
ϕ1
ϕ1,1 = ρ(1) = ,
1 − ϕ2
2 2
ϕ1 ϕ1
(ϕ 1 ( ) + ϕ2 ) − ( )
2
ρ(2) − ρ(1) 1 − ϕ2 1 − ϕ2
ϕ2,2 = = = ϕ2 ,
2 2
1 − ρ(1) ϕ1
1 − ( )
1 − ϕ2
ϕ2,1 = ρ(1)(1 − ϕ2 ) = ϕ1 ,
ρ(3) − ϕ1 ρ(2) − ϕ2 ρ(1)

ϕ3,3 = = 0⋅
1 − ϕ1 ρ(1) − ϕ2 ρ(2)
Observe que, como mostrado, ϕ2,2 = ϕ2 para um modelo AR(2) .
Até agora, nos concentramos na previsão de um passo à frente, mas o Teorema III.3 nos permite
calcular o melhor preditor linear de X n+m para qualquer m ≥ 1. Fornecidos os dados {X 1 , ⋯ , X n }, o
preditor m -passos-à-frente é
(m) (m) (m)

n
X n+m = ϕ Xn + ϕ X n + ⋯ + ϕn,n X 1 ,
n,1 n,2
(m) (m) (m)

onde {ϕ
n,1
,ϕ
n,2
, ⋯ , ⋯ , ϕn,n } satisfaz as equações de predição
n
(m)
∑ϕ E(X n+1−j X n+1−k ) = E(X n+m X n+1−k ), k = 1, ⋯ , n,
n,j
j=1
ou
n
(m)
∑ϕ γ (k − j) = γ (m + k − 1), k = 1, ⋯ , n⋅
n,j
j=1
As equações de predição podem ser novamente escritas em notação matricial como
(m) (m)
Γ n ϕn = γn ,
(m) (m) (m) (m)

onde γn = (γ (m), ⋯ , γ (m + n − 1))
⊤
e ϕn = (ϕ
n,1
, ⋯ , ϕn,n )
⊤
são vetores n × 1. O erro médio
de predição m passos à frente é
2 (m)⊤ (m)
n n −1
Pn+m = E(X n+m − X n+m ) = γ (0) − γn Γn γn ⋅
Outro algoritmo útil para calcular previsões foi dado por Brockwell e Davis (1991). Esse algoritmo segue
diretamente da aplicação do teorema da projeção (Teorema B.1) às inovações, , para
t−1
Xt − X
t
t = 1, ⋯ , n , usando o fato de que as inovaçõesXt e não são correlacionadas para

t−1 s−1
− X Xs − Xs
t
s ≠ t. Apresentamos o caso em que Xt é uma série temporal estacionária de média zero.
Teorema III.6. O algoritmo de inovações.
Os preditores de um passo à frente X

t
t+1
e seus erros quadráticos médios P
t
t+1
, podem ser
calculados iterativamente como
0 0
X = 0, P = γ (0),
1 1
t t−j
X = ∑ θt,j (X t+1−j − X ), t = 1, 2, ⋯
t+1 t+1−j
j=1
06/06/2023, 12:29 Modelos ARIMA
t−1
t 2 j
P = γ (0) − ∑ θ P , t = 1, 2, ⋯ ,
t+1 t,t−j j+1
j=0
onde, para j = 0, 1, ⋯ , t − 1,
j−1
k
γ (t − j) − ∑ θj,j−k θt,t−k P
k+1
k=0
θt,t−j = ⋅
j
P
j+1
Demonstração Brockwell e Davis (1991, Capítulo 5) ▉
Dados X1 , ⋯ , Xn , o algoritmo de inovações pode ser calculado sucessivamente para t = 1, então

t = 2 e assim por diante, caso em que o cálculo de X
n
n+1
e P
n
n+1
é feito na etapa final t = n. O preditor
de m passos à frente e seu erro quadrático médio baseado no algoritmo de inovações são dados por
n+m−1
n n+m−j−1
X n+m = ∑ θn+m−1,j (X n+m−j − X )
n+m−j
j=m
n+m−1
n 2 n+m−j−1
Pn+m = γ (0) − ∑ θ P ,
n+m−1,j n+m−j
j=m
onde os θn+m−1,j são obtidos por iteração continuada.
Exemplo III.22. Predição para o M A(1) .
O algoritmo de inovações presta-se bem à previsão de processos médios móveis. Considere um

modelo M A(1), X = W + θW . Lembre-se de que, γ(0) = (1 + θ )σ , γ(1) = θσ
t t t−1 e γ(h) = 0, 2 2
W W
2
para h ≥ 0 . Então, usando a Proposição III.6, temos
2
θσW
θn,1 = ,
n−1
Pn
θn,j = 0, j = 2, ⋯ , n,
0 2 2
P = (1 + θ )σW ,
1
n 2 2
P = (1 + θ − θθn,1 )σW ⋅
n+1
Finalmente, o preditor um passo à frente é
n−1 2
θ(Xn − Xn )σW
n
X = ⋅
n+1 n−1
Pn
Previsão de processos ARMA
As equações gerais de predição fornecem pouca informação sobre previsão para modelos ARMA em
geral. Existem várias maneiras diferentes de expressar essas previsões e cada uma delas ajuda a
entender a estrutura especial da predição do ARMA.
Ao longo do tempo, assumimos que Xt é um processo causal e inversível ARM A(p, q),
ϕ(B)X t = θ(B)Wt , onde Wt ∼ N (0, σ independentes. No caso de média não zero E(Xt ) = μt ,
2
W
)
simplesmente substitua Xt com Xt − μt no modelo. Primeiro, consideramos dois tipos de previsões.

Escrevemos Xn+m
n
para significar o preditor de erro quadrático médio mínimo de Xn+m com base nos
dados {X n , ⋯ , X 1 }, isto é,
n
X n+m = E(X n+m |X n , ⋯ , X 1 )⋅
06/06/2023, 12:29 Modelos ARIMA
Para modelos ARMA, é mais fácil calcular o preditor de Xn+m assumindo que temos a história completa
do processo {Xn , Xn−1 , ⋯ , X1 , X0 , X−1 , ⋯}. Vamos denotar o preditor de Xn+m com base no
passado infinito como
n
X̃ n+m
= E(X n+m | X n , X n−1 , ⋯ , X 1 , X 0 , X −1 , ⋯)⋅
n n
Em geral, n
X n+m e X̃ n+m
não são iguais, mas a ideia aqui é que, para grandes amostras, X̃ n+m
proporcionará uma boa aproximação para X n+m .

n
Agora, vamoes escrever X n+m em suas formas causal

∞
X n+m = ∑ ψj Wn+m−j , ψ0 = 1,
j=0
e invertível
∞
Wn+m = ∑ πj X n+m−j , π0 = 1⋅
j=0
Então, tomando esperança condicionais na forma causal, temos

∞ ∞
X̃ n+m = ∑ ψj W̃ n+m−j = ∑ ψj Wn+m−j ,
j=0 j=m
porque, por causalidade e invertibilidade,
0, t > n
W̃ j = E(Wt |X n , X n−1 , ⋯ , X 0 , X −1 , ⋯) = { ⋅
Wt , t ≤ n
Da mesma forma, tendo esperanças condicionais na forma invertível, temos

∞
0 = X̃ n+m
+ ∑ πj X̃ n+m−j
,
j=1
ou
m−1 ∞
X̃ n+m
= − ∑ πj X̃ n+m−j
− ∑ πj X n+m−j ,
j=1 j=m
usando o fato E(Xt |Xn , Xn−1 , ⋯ , X0 , X−1 , ⋯) = Xt , para t ≤ n . A previsão é realizada

recursivamente usando a expressão anterior, começando com o preditor de um passo à frente, m = 1 , e
∞
continuando para m = 2, 3, ⋯ . Utilizando a expressão que X̃ n+m = ∑ ψj Wn+m−j , , podemos

j=m
escrever
m−1
X n+m − X̃ n+m = ∑ ψj Wn+m−j ,
j=0
então o erro de predição quadrático médio pode ser escrito como
m−1
2
n 2 2
Pn+m = E(X n+m − X̃ n+m ) = σW ∑ ψ ⋅
j
j=0
Além disso, notamos que, para um tamanho de amostra fixo n, os erros de previsão são
correlacionados. Isto é,
m−1
2
E((X n+m − X̃ n+m )(X n+m+k − X̃ n+m+k )) = σ W ∑ ψj ψj+k ⋅
j=0
Exemplo III.23. Previsões de longo alcance.
Considere prever o processo ARMA com a média μX . Substituindo Xn+m por Xn+m − μX e
considerando a esperança condicional, deduzimos que a previsão m -passos à frente pode ser
escrita como
06/06/2023, 12:29 Modelos ARIMA
∞
X̃ n+m = μX + ∑ ψj Wn+m−j ⋅
j=m
Observando que os ψ -pesos diminuem exponencialmente rápido, é claro que X̃ → μ

n+m X
exponencialmente rápido, no sentido quadrado médio, quando m → ∞ . Além disso, o erro

quadrático médio de predição
∞
n 2 2 2
P n+m → σW ∑ ψ = γ (0) = σW ,
j X
j=0
exponencialmente rápido quando m → ∞ .
Deve ficar claro que as previsões do ARMA se ajustam rapidamente à média com um erro de
previsão constante à medida que o horizonte de previsão, m, cresce. Esse efeito pode ser
visto na figura do Exemplo III.25, onde a série Recrutamento está prevista para 24 meses.
Quando n é pequeno, as equações gerais de predição podem ser usadas facilmente. Quando n é grande,
usaríamos
m−1 ∞
X̃ n+m = − ∑ πj X̃ n+m−j − ∑ πj X n+m−j ,
j=1 j=m
truncando, porque não observamos X 0 , X −1 , X −2 , ⋯ e somente os dados X1 , X2 , ⋯ , Xn estáo

∞
disponíveis. Nesse caso, podemos truncar definindo ∑
j=n+m
πj X n+m−j = 0. O preditor truncado é
então escrito como
m−1 n+m−1
n n
X̃ n+m
= − ∑ πj X̃ n+m−j
− ∑ πj X n+m−j ,
j=1 j=m
que também é calculado recursivamente, m = 1, 2, ⋯ . O erro quadrático médio de predição, neste

caso, é aproximado.
Para modelos AR(p), e quando n > p, produzimos o preditor exato X n+m

n
de X n+m , e não há
n
necessidade de aproximações. Ou seja, para n > p, X̃ n+m
= X̃ n+m = X n+m .
n
Também, neste caso, o
2
erro de predição de um passo à frente é E(X n+1 − X
n
n+1
) = σW
2
. Para modelos M A(q) ou
ARM A(p, q) puros, a previsão truncada tem uma forma razoavelmente boa.
Teorema III.7. Previsão truncada para modelos ARMA.
Para modelos ARM A(p, q) , os preditores truncados para m = 1, 2, ⋯ são

n n n n n
X̃ = ϕ1 X̃ + ⋯ + ϕp X̃ + θ1 W̃ + ⋯ + θq W̃ ,
t+1 n+m−1 n+m−p n+m−1 n+m−q
n n
onde X̃ t
= Xt , para 1 ≤ t ≤ n e X̃ t
= 0 para t ≤ 0. Os erros de previsãão truncados são dados
n
por W̃ t
= 0 para t ≤ 0 ou t > n e
n n n n
W̃ t
= ϕ(B) X̃ t
− θ1 W̃ t−1
− ⋯ − θq W̃ t−q
,
para 1 ≤ t ≤ n.
Demonstração Brockwell e Davis (1991, Capítulo 5) ▉
Exemplo III.24. Previsões de uma série ARM A(1, 1) .
Dados dados X1 , ⋯ , Xn , para fins de previsão, escrevamos o modelo como
Xn+1 = ϕXn + Wn+1 + θWn ⋅
Então, a previsão truncada de um passo à frente é
06/06/2023, 12:29 Modelos ARIMA
n n
X̃ n+1
= ϕXn + 0 + θW̃ n
⋅
Para m ≥ 2 , temos
n n
X̃ n+m
= ϕ X̃ n+m−1
,
que pode ser calculado recursivamente, m = 2, 3, ⋯ .

n
Para calcular W̃ , que é necessário para inicializar as previsões sucessivas, o modelo pode
n
ser escrito como W = X − ϕX − θW

t para t = 1, ⋯ , n. Para previsão truncada, assumimos
t t−1 t−1
n
W̃ 0
= 0, X0 = 0 e, em seguida, iterar os erros para frente no tempo
n n
W̃ t
= Xt − ϕXt−1 − θW̃ t−1
, t = 1, ⋯ , n⋅
A variância da previsão aproximada é calculada usando os ψ -pesos determinados como no Exemplo

III.12. Em particular, os ψ -pesos satisfazem ψj = (ϕ + θ)ϕ
j−1
, para j ≥ 1 . Este resultado dá
m−1 2 2(m−1)
(ϕ + θ) (1 − ϕ )
n 2 2 2(j−1) 2
P n+m = σW (1 + (ϕ + θ) ∑ ϕ ) = σW (1 + )⋅
2
j=1
1 − ϕ
Para avaliar a precisão das previsões, os intervalos de previsão são normalmente calculados junto com
as previsões. Em geral, os intervalos de previsão com probabilidade de cobertura 1 − α, são da forma
−−−−−
n n
X n+m ± c α/2 √Pn+m ,
onde c α/2 é escolhido para obter o grau de confiança desejado. Por exemplo, se o processo for
gaussiano, escolher c α/2 = 2 produz um intervalo de previsão de aproximadamente 95% para X n+m .
Se o interesse é envolver os intervalos de previsão para o longo de um período de tempo, então ele
deve ser convenientemente ajustado, por exemplo, usando a desigualdade de Bonferroni (ver Johnson
and Wichern, 1992, Capítulo 5).
Exemplo III.25. Previsões da série de Recrutamento.
Usando as estimativas dos parâmetros como os valores reais dos parâmetros, a figura abaixo
mostra o resultado da previsão da série de Recrutamentos fornecida no Exemplo III.18 em um
horizonte de 24 meses, m = 1, 2, ⋯ , 24 . As previsões reais são calculadas como
n n n
Xn+m = 6.74 + 1.35X − 0.46X ,
n+m−1 n+m−2
para n = 453 e m = 1, 2, ⋯ , 12 . Recordemos que X

s
t
= Xt quando t ≤ s . Os erros de previsão
m−1 2
n
P n+m são calculados usando n
P n+m = σW ∑
2
j=0
ψ
2
j
. Encontramos que σ̂ W = 89.72 e do Exemplo
III.12, temos que
ψj = 1.35ψj−1 − 0.46ψj−2
para j ≥ 2 , onde j ≥ 2 sendo ψ0 = 1 e ψ1 = 1.35 . Portanto, para n = 453 ,
n
P = 89.72,
n+1
n 2
P = 89.72(1 + 1.35 ),
n+2
3 2 2 2
P = 89.72(1 + 1.35 + (1.35 − 0.46 )),
n+3
e assim por diante.
Observe como a previsão se estabiliza rapidamente e os intervalos de previsão são amplos,

embora neste caso os limites de previsão sejam baseados apenas em um erro padrão; isto é,
−−−−−
X
n
n+m
± √P . n
n+m
Para reproduzir a análise e a figura, use os seguintes comandos:
> regr = ar.ols(rec, order=2, demean=FALSE, intercept=TRUE)

> fore = predict(regr, n.ahead=24)
> par(mfrow = c(1,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0), pch=19)
> ts.plot(rec, fore$pred, col=1:2, xlim=c(1980,1990), lwd=2, ylab="Recrutamento", xlab="Tempo")
06/06/2023, 12:29 Modelos ARIMA
> U = fore$pred+fore$se; L = fore$pred-fore$se
> xx = c(time(U), rev(time(U))); yy = c(L, rev(U))
> polygon(xx, yy, border = 8, col = gray(.6, alpha = .2))
> lines(fore$pred, type="p", col=2)
Completamos esta seção com uma breve discussão sobre previsão reversa (backcasting). Na previsão
reversa, queremos prever X 1−m , para m = 1, 2, ⋯ , com base nos dados {X 1 , ⋯ , X n }. Escreva a
previsão reversa como
n
n
X = ∑ αj X j ⋅
1−m
j=1
De maneira anâloga, as equações de previção reversa, assumindo μX = 0 , são

n
∑ αj E(X j X k ) = E(X 1−m X k ), k = 1, ⋯ , n,
j=1
ou
n
∑ αj γ (k − j) = γ (m + k − 1), k = 1, ⋯ , n⋅
j=1
(m)
Essas equações são precisamente as equações de previção para a previsão direta. Isto é αj = ϕ
n,j
,
(m)
para j = 1, ⋯ , n, onde ϕ
n,j
foram dadas anteriormente. Finalmente, os backcasts são dados por
n (m) (m)
X = ϕ X 1 + ⋯ + ϕn,n X n , m = 1, 2, ⋯ ⋅
1−m n,1
Exemplo III.26. Previsão reversa no modelo ARM A(1, 1) .
Considere um processo ARM A(1, 1), X = ϕX + θW + W . Vamos chamar isso de modelo de

t t−1 t−1 t
encaminhamento. Acabamos de ver que a melhor previsão linear para trás no tempo é a mesma que
a melhor previsão linear para frente no tempo para modelos estacionários. Assumindo que os
modelos são gaussianos, também temos que o erro quadrático médio mínimo da previsão para trás
no tempo é a mesma do modelo anterior para modelos ARMA. Lembremos que no caso gaussiano
estacionário, (a) a distribuição de {X , X , ⋯ , X } é a mesma que (b) a distribuição de
n+1 n 1
. Na previsão usamos (a) para obter

{X 0 , X 1 , ⋯ , X n } , em backcasting ou
E(Xn+1 |Xn , ⋯ , X1 )
previsão reversa usamos (b) para obter E(X |X , ⋯ , X 0 1 n) . Porque (a) e (b) são os mesmos, os
dois problemas são equivalentes.
06/06/2023, 12:29 Modelos ARIMA
Assim, o processo pode ser gerado de forma equivalente pelo modelo backward ou de
encaminhamento,
Xt = ϕXt+1 + θV t+1 + V t ,
onde {V t } é um processo de ruído branco gaussiano com variância 2

σW. Podemos escrever
∞
Xt = ∑
j=0
ψ V
j , onde ψ = 1. Isto significa que X
t+j 0 são não t correlacionados com
{V −1 , V t−2 , ⋯} , em analogia ao modelo para a frente.
Dados dados {X 1 , ⋯ , X n } , truncado Vn

n
= E(V n |X1 , ⋯ , Xn ) para zero e depois iterar para trás.
n
Ou seja, coloque ˜
V n
= 0 como uma aproximação inicial e, em seguida, gere os erros para trás
n n
˜
V ˜
= Xt − ϕXt+1 − θV , t = n − 1, n − 2, ⋯ , 1⋅
t t+1
Então
n n n n
X̃ ˜ + V
= ϕX 1 + θV ˜ ˜ ,
= ϕX 1 + θV
0 1 0 1
n
porque ˜
V t
= 0 para t ≤ 0 . Continuando, os backcasts gerais truncados são dados por
n n
X̃ 1−m
= ϕ X̃ 2−m
, m = 2, 3, ⋯ ⋅
Para fazer backcast de dados em R, basta inverter os dados, ajustar o modelo e prever. A
seguir, fizemos backcast de um processo ARM A(1, 1) simulado; veja a figura abaixo.
> set.seed(90210)
> x = arima.sim(list(order = c(1,0,1), ar =.9, ma=.5), n = 100)
> xr = rev(x) # xr is the reversed data
> pxr = predict(arima(xr, order=c(1,0,1)), 10) # prever os dados invertidos
> pxrp = rev(pxr$pred) # reordene os preditores (para plotagem)
> pxrse = rev(pxr$se) # reordenar os error padrão
> nx = ts(c(pxrp, x), start=-9) # anexãndo os backcasts aos dados
> plot(nx, ylab=expression(X[~t]), main='Previsão reversa', xlab="Tempo")
> U = nx[1:10] + pxrse; L = nx[1:10] - pxrse
> xx = c(-9:0, 0:-9); yy = c(L, rev(U))
> polygon(xx, yy, border = 8, col = gray(0.6, alpha = 0.2))
> lines(-9:0, nx[1:10], col=2, type='o')
III.5 Estimação
06/06/2023, 12:29 Modelos ARIMA
Ao longo desta seção, assumimos que temos n observações, X1 , ⋯ , Xn , a partir de um processo

ARM A(p, q) gaussiano causal e invertível, no qual, inicialmente, os parâmetros de ordem p e q são
conhecidos. Nosso objetivo é estimar os parâmetros, ϕ1 , ⋯ , ϕp , θ1 , ⋯ , θq e σW

2
. Discutiremos o
problema de determinar p e q mais adiante nesta seção.
Começamos com o método dos estimadores de momentos. A ideia por trás desses estimadores é a de
igualar os momentos da população aos momentos da amostra e depois resolver os parâmetros em
termos dos momentos da amostra. Vemos imediatamente que, se E(Xt ) = μ, então o método de
¯¯¯¯
estimador de momentos é a média amostral X . Assim, enquanto se discute o método dos momentos,
assumimos μ = 0. Embora o método dos momentos possa produzir bons estimadores, eles podem levar
a estimadores sub-ótimos. Primeiro, consideramos o caso em que o método leva a estimadores ótimos
(eficientes), isto é, modelos AR(p),
X t = ϕ1 X t−1 + ⋯ + ϕp X t−p + Wt ,
onde as primeiras p + 1 equações homogêneas gerais levam à seguinte definição.
Definição III.10. Equações de Yule-Walker.
As equações de Yule-Walker são dadas por
γ (h) = ϕ1 γ (h − 1) + ⋯ + ϕp γ (h − p), h = 1, 2, ⋯ , p,
2
σW = γ (0) − ϕ1 γ (1) − ⋯ − ϕp γ (p)⋅
Em notação matricial, as equações de Yule-Walker são
2 ⊤
Γ p ϕ = γp , σW = γ (0) − ϕ γp ,
p
onde Γ p = {γ (k − j)}
j,k=1
é uma matriz p × p, ϕ = (ϕ 1 , ⋯ , ϕ p )
⊤
é um vetor p × 1 e
γp = (γ (1), ⋯ , γ (p))
⊤
é um veotr p × 1. Usando o método dos momentos, substituímos γ (h) por γ̂ (h)
e resolvemos
−1 −1
2 ⊤
ϕ̂ = Γ̂ p γ̂ p , σ̂ W = γ̂ (0) − γ̂ p Γ̂ p γ̂ p ⋅
Esses estimadores são tipicamente chamados de estimadores Yule-Walker. Para fins de cálculo, às vezes
é mais conveniente trabalhar com a ACF amostral. Ao fatorar γ̂ (0) na expressão acima, podemos
escrever os estimadores de Yule-Walker como
−1 −1
2 ⊤
ϕ̂ = R̂ ρ̂ p , σ̂ W = γ̂ (0)(1 − ρ̂ p R̂p ρ̂ p ),
onde é uma matriz p × p , ϕ̂ é um vetor

p ⊤
R̂p = {ρ̂ (k − j)} p
= (ρ̂ (1), ⋯ , ρ̂ (p) p × 1
j,k=1
Para os modelos AR(p), se o tamanho da amostra for grande, os estimadores de Yule-Walker são
aproximadamente normalmente distribuídos e está próximo ao valor real de . Declaramos esses
2 2
σ̂ W σW
resultados no Teorema III.8.
Teorema III.8. Resultados em amostras grandes para os estimadores de Yule-Walker.
O comportamento assintótico, ou seja, para n → ∞, dos estimadores de Yule-Walker no caso de

processos causais AR(p) é o seguinte:
D P
−
− 2 −1 2 2
√n (ϕ̂ − ϕ) ⟶ N (0, σ W Γ p ), σ̃
W
⟶ σW ⋅
O algoritmo de Durbin-Levinson pode ser usado para calcular ϕ̂ sem inverter Γ̂ p ou R̂p , substituindo
γ (h) por γ̂ (h) no algoritmo. Ao executar o algoritmo, calcularemos iterativamente o vetor h × 1,
ϕ̂ h = (ϕ̂ h,1 , ⋯ , ϕ̂ h,h )

⊤
, para h = 1, 2, ⋯. Assim, além de obter as previsões desejadas, o algoritmo de
Durbin-Levinson produz ϕ̂ h,h , o PACF amostral.
06/06/2023, 12:29 Modelos ARIMA
Teorema III.9. Distribuição em amostras grandes do PACF.
Para o processos causal AR(p), assintóticamente, ou seja, para n → ∞, temos o seguinte:
D
−
−
√n ϕ̂ h,h ⟶ N (0, 1) h > p⋅
Exemplo III.27. Estimadores de Yule-Walker para o processo AR(2) .
No Exemplo III.11 mostramos n = 144 dados simulados obtidos do modelo AR(2)
Xt = 1.5Xt−1 − 0.75Xt−2 + Wt ,
onde W ∼ t N (0, 1) independentes. Para esses dados, γ̂ (0) = 8.903 , ρ̂ (1) = 0.849 e ρ̂ (2) = 0.519 .
Portanto
−1
ˆ
ϕ1 1 0.849 0.849 1.463
ˆ
ϕ = ( ) = ( ) ( ) = ( )
ˆ 0.849 1 0.519 −0.723
ϕ2
2 1.463
σ̂ = 8.903 (1 − (0.849 , 0.519) ( )) = 1.187⋅
W
−0.723
Pela Proposição III.8, a matriz de variância e covariância assintótica de ˆ

ϕ é
−1 2
1 1.187 1 0.949 0.058 −0.003
× ( ) = ( ),
2
144 8.903 0.849 1 −0.003 0.589
e pode ser usado para obter regiões de confiança ou fazer inferências sobre ϕ
ˆ
e seus
componentes. Por exemplo, um intervalo de confiança de aproximadamente 95% para ϕ é 2
−0.723 ± 2(0.058) ou −0.838, −0.608 , que contém o valor real de ϕ = −0.75. 2
Para esses dados, as três primeiras autocorrelações parciais amostrais são:

ˆ
ϕ 1,1 = ρ̂ (1) = 0.849 , ˆ ˆ
ϕ 2,2 = ϕ 2 = −0.721 e ˆ
ϕ 3,3 = −0.085 . De acordo com a Proposição III.9, o
−−−
erro padrão assintótico de ˆ
ϕ 3,3 é 1/√144 = 0.083 e o valor observado −0.085 , é apenas um
desvio padrão de ϕ3,3 = 0 .
Exemplo III.28. Estimadores de Yule-Walker para a série de Recrutamento.
No Exemplo III.18, ajustamos um modelo AR(2) à série de Recrutamento usando mínimos quadrados
ordinários (OLS). Para os modelos AR, os estimadores obtidos via OLS e Yule-Walker são quase
idênticos; veremos isso quando discutirmos a estimação de soma condicional de quadrados.
Abaixo estão os resultados da adaptação do mesmo modelo usando estimativa de Yule-Walker em R,

que são quase idênticos aos valores obtidos no Exemplo III.18.
> rec.yw = ar.yw(rec, order=2)

> rec.yw$x.mean # = 62.26 (média estimada)
[1] 62.26278
> rec.yw$ar # = 1.33, -.44 (estimativas de coeficiente)
[1] 1.3315874 -0.4445447
> sqrt(diag(rec.yw$asy.var.coef)) # = .04, .04 (erros padrão)
[1] 0.04222637 0.04222637
> rec.yw$var.pred # = 94.80 (estimativa da variância do erro)
[1] 94.79912
06/06/2023, 12:29 Modelos ARIMA
Para obter as previsões de 24 meses à frente e seus erros padrão e, em seguida, plotar os
resultados como no Exemplo III.25, use os comandos R:

> rec.pr = predict(rec.yw, n.ahead=24)
> ts.plot(rec, rec.pr$pred, col=1:2, xlab="Tempo")
> lines(rec.pr$pred + rec.pr$se, col=4, lty=2, lwd=2)
> lines(rec.pr$pred - rec.pr$se, col=4, lty=2, lwd=2)
No caso dos modelos AR(p), os estimadores Yule-Walker são ótimos no sentido de que a distribuição
assintótica é a melhor distribuição normal assintótica. Isso porque, dadas as condições iniciais, os
modelos AR(p) são modelos lineares e os estimadores Yule-Walker são essencialmente estimadores de
mínimos quadrados. Se usarmos o método dos momentos para os modelos MA ou ARMA, não obteremos
estimadores ótimos porque tais processos não são lineares nos parâmetros.
Exemplo III.29. Estimadores obtidos pelo método dos momentos para o modelo M A(1) .
Considere a série temporal
Xt = Wt + θWt−1 ,
onde |θ| < 1 . O modelo pode ser escrito como

∞
j
Xt = ∑(−θ) Xt−j + Wt ,
j=1
que não é linear em θ. As duas primeiras autocovariâncias populacionais são 2

γ(0) = σW (1 + θ )
2
e
γ(1) = σ θ , então o estimador de θ é encontrado resolvendo:
2
W
ˆ
γ̂ (1) θ
ρ̂ (1) = = ⋅
2
γ̂ (0) ˆ
1 + θ
Existem duas soluções, então escolheríamos a invertível. Se |ρ̂ (1)| <

1
2
, as soluções são reais,
caso contrário, soluções reais não existem. Mesmo que |ρ(1)| <
1
2
para um M A(1) invertível,
pode acontecer que |ρ̂ (1)| ≥
1
2
porque é um estimador. Por exemplo, a seguinte simulação em R
produz um valor de ρ̂ (1) = 0.507 quando o valor verdadeiro é 2
ρ(1) = 0.9/(1 + 0.9 ) = 0.497 .
> set.seed(2)
06/06/2023, 12:29 Modelos ARIMA
> ma1 = arima.sim(list(order = c(0,0,1), ma = 0.9), n = 50)
> acf(ma1, plot=FALSE)[1] # = 0.507 (lag 1 ACF amostral)
Autocorrelations of series ‘ma1’, by lag
1
0.507
Quando |ρ̂ (1)| <

1
2
, o estimador invertível é
−−−−−−−−
2
1 − √1 − 4ρ̂ (1)
ˆ
θ = ⋅
2ρ̂ (1)
O resultado a continuação segue do Teorema A.7 e do método delta. Veja a demonstração do

Teorema A.7 para detalhes sobre o método delta,
2 4 6 8
1 + θ + 4θ + θ + θ
ˆ
θ ∼ N (θ, ), quando n → ∞⋅
2 2
n(1 + θ )
Significa que θˆ é assintoticamente normal e isso é definido na Definição A.5. O estimador de

máxima verossimilhança de θ, que discutiremos a seguir, neste caso, tem uma variância
assintótica de (1 − θ )/n. Quando n = 5, por exemplo, a razão entre a variância assintótica do
2
estimador do métodos de momentos e o estimador de máxima verossimilhança é de aproximadamente

3.5. Ou seja, para grandes amostras, a variância do estimador do método de momentos é cerca de
3.5 vezes maior que a variância do estimador de máxima verossimilhança quando θ = 0.5 .
Estimação de máxima verossimilhança e dos mínimos quadrados
Para fixar ideia, vamos focar no modelo causal AR(1). Seja
X t = μ + ϕ(X t−1 − μ) + Wt ,
onde |ϕ| < 1 e Wt ∼ N (0, σ W )

2
independentes. Dados os dados X1 , X2 , ⋯ , Xn . A função de
verossimilhança é
2 2
L(μ, ϕ, σ W ) = f (X 1 , X 2 , ⋯ , X n ; μ, ϕ, σ W ),
ou seja, a função de densidade ou de probabilidade conjunta. No caso do modelo AR(1), podemos

escrever a verossimilhança como
2
L(μ, ϕ, σ W ) = f (X 1 )f (X 2 |X 1 ) ⋯ f (X n |X n−1 ),
onde deixamos de escrever os parâmetros nas densidades, f (⋅) , para facilitar a notação. Dado que
X t |X t−1 ∼ N (μ + ϕ(X t−1 − μ), σ ), temos
2
W
f (X t |X t−1 ) = fW ((X t − μ) − ϕ(X t−1 − μ)),
onde fW (⋅) é a função de densidade de Wt , isto é, a densidade normal com média zero e variáncia σW
2
.
Podemos então escrever a verossimilhança como
2
L(μ, ϕ, σ W ) = f (X 1 ) ∏ fW ((X t − μ) − ϕ(X t−1 − μ))⋅
t=2
Para encontrarmos f (X 1 ) , podemos usar a representação causal

∞
j
X 1 = μ + ∑ ϕ W1−j ,
j=0
para ver que X1 é normal, com média μ e variância σ W /(1 − ϕ ) .

2 2
Finalmente, para um AR(1), a
verossimilhança é
06/06/2023, 12:29 Modelos ARIMA
−−−−−
√1 − ϕ2 S (μ, ϕ)
2
L(μ, ϕ, σ W ) = n
exp(− ),
2
2 2 2σ W
(2πσ W )
onde
n
2
2 2
S (μ, ϕ) = (1 − ϕ )(X 1 − μ) ∑ ((X t − μ) − ϕ(X t−1 − μ)) ⋅
t=2
Tipicamente, S (μ, ϕ) é chamado a soma de quadrados incondicional. Poderíamos também ter

considerado a estimação e o uso de mínimos quadrados incondicionais, isto é, estimar minimizando
S (μ, ϕ).
Tomando a derivada parcial do log (L(μ, ϕ, σ W ))

2
com respeito a σW
2
e definindo o resultado igual a zero,
obtemos o resultado típico normal que, para quaisquer valores dados de μ e ϕ no espaço de
parâmetros, σ 2 = n−1 S (μ, ϕ)
W
maximiza a verossimilhança. Assim, a estimativa da máxima
verossimilhança de σ 2 é W
2
1
σ̂ W = S (μ̂, ϕ̂ ),
n
sendo que μ̂ e ϕ̂ são os estimadores de máxima verossimilhança de μ e ϕ, respectivamente. Se

substituirmos n, na expressão acima, por n − 2, obteríamos o estimador de mínimos quadrados
incondicionais de σ 2 . W
Se em tomamos logaritmo, substituímos por e ignoramos constantes, e são os

2 2 2
L(μ, ϕ, σ W ) σW σ̂ W μ̂ ϕ̂
valores que minimizam a função critério
1 1
2
ℓ(μ, ϕ) = log( S (μ, ϕ)) − log(1 − ϕ ),
n n
2
isto é, ℓ(μ, ϕ) ≈ −2 log (L(μ, ϕ, σ̂ W )) . A função critério é às vezes chamada de perfilada ou
verossimilhança concentrada.
Fica claro que a função de verossimilhança é complicada nos parâmetros, a minimização de ℓ(μ, ϕ) ou
S (μ, ϕ) é realizada numericamente. No caso dos modelos AR, temos a vantagem de, condicionalmente
aos valores iniciais, serem modelos lineares. Ou seja, podemos descartar o termo na verossimilhança
que causa a não-linearidade. Condicionado em X1 , a verossimilhança condicional torna-se
n
2
L(μ, ϕ, σ W ) = ∏ fW ((X t − μ) − ϕ(X t−1 − μ))
t=2
1 Sc (μ, ϕ)
= exp(− ),
n−1 2
2 2σ W
(2πσ W ) 2
onde a soma de quadrados condicional é
n
2
Sc (μ, ϕ) = ∑ ((X t − μ) − ϕ(X t−1 − μ)) ⋅
t=2
O estimador de máxima verossimilhança condicional de σW

2
é
2
Sc (μ̂, ϕ̂ )
σ̂ = ,
W
n − 1
e μ̂ e ϕ̂ são os valores que minimizam a soma de quadrados condicional, Sc (μ, ϕ) . Escrevendo

α = μ(1 − ϕ), a soma de quadrados condicional pode ser escrita como
n
2
Sc (μ, ϕ) = ∑ (X t − (α + ϕX t−1 )) ⋅
t=2
O problema agora é a regressão linear exposto na Seção II.1. Seguindo os resultados da estimação por
¯¯¯¯ ¯¯¯¯
mínimos quadrados, temos α̂ = X (2) − ϕ̂ X (1) , onde
n−1
¯¯¯¯
1
X (1) = ∑ Xt
n − 1
t=1
06/06/2023, 12:29 Modelos ARIMA
n
¯¯¯¯
1
X (2) = ∑ Xt
n − 1
t=2
e os estimadores condicionais são então
¯¯¯¯ ¯¯¯¯
X (2) − ϕ̂ X (1)
μ̂ =
1 − ϕ̂
n
¯¯¯¯ ¯¯¯¯
∑ (X t − X (2) )(X t−1 − X (1) )
t=2
ϕ̂ = ⋅
n
¯¯¯¯ 2
∑ (X t−1 − X (1) )
t=2
Das expressões acima, vemos que μ̂ ≈ X e ϕ̂ ≈ ρ̂ (1) . Ou seja, os estimadores de Yule-Walker e os

¯¯¯¯
estimadores de mínimos quadrados condicionais são aproximadamente os mesmos. A única diferença é

a inclusão ou exclusão de termos envolvendo os terminais, X1 e Xn . Podemos também ajustar os
estimadores de σ 2 para ser equivalente ao estimador de mínimos quadrados, isto é, dividir
W
Sc (μ̂, ϕ̂ ) por
n − 3 em vez de n − 1.
Para os modelos AR(p) gerais, a estimação por máxima verossimilhança, os mínimos quadrados
incondicionais e os mínimos quadrados condicionais seguem analogamente ao exemplo AR(1). Para
modelos ARM A gerais, é difícil escrever a verossimilhança como uma função explícita dos parâmetros.
Em vez disso, é vantajoso escrever a verossimilhança em termos das inovações ou erros de previsão em
um passo à frente, Xt − X
t−1
t
. Isso também será útil no Capítulo VI quando estudarmos modelos de
espaço de estados.
Para um modelo ARM A(p, q) normal, seja β = (μ, ϕ1 , ⋯ , ϕp , θ1 , ⋯ , θq )

⊤
o vetor de dimensão
p + q + 1 dos parâmetros do modelo. A verossimilhança pode ser escrita como
2
L(β, σ W ) = ∏ f (X t |X t−1 , ⋯ , X 1 )⋅
t=1
A distribuição condicional de dado é gaussiana com média e variância .

t−1 t−1
Xt X t−1 , ⋯ , X 1 X P
t t
Lembre-se de que
t−1
t−1 2
P = γ (0) ∏ (1 − ϕ )⋅
t j,j
j=1
Para modelos ARMA, γ (0) = σ W ∑ ψ

2 2
j
,caso no qual podemos escrever
j=0
∞ t−1
t−1 2 2 2 2
P = σ W (( ∑ ψ )( ∏ (1 − ϕ ))) = σ W rt ,
t j j,j
j=0 j=1
onde rt é o termo entre as chaves. Note que os termos rt são apenas funções dos parâmetros de
regressão e que podem ser computados recursivamente como
2
rt+1 = (1 − ϕ )rt ,
t,t
com condição inicial r1 = ∑ ψ

2
j
.
j=0
A verossimilhança dos dados pode agora ser escrita como
1 1 S (β)
2
L(β, σ W ) = n −−−−−−−−−−−−−−− exp(− ),
2
2 2 √r1 (β)r2 (β) ⋯ rn (β) 2σ W
(2πσ W )
onde
2
t−1
(X t − X (β))
t
S (β) = ∑ n ⋅
rt (β)
t=1
06/06/2023, 12:29 Modelos ARIMA
Ambos, e são funções somente de e tornamos esse fato explícito na função de

t−1
X rt β
t
verossimilhança dos dados anterior. Dados valores para β e σ 2 , a verossimilhança pode ser avaliada W
usando as técnicas da Seção III.4. Como no exemplo do AR(1), temos
2
1
ˆ
σ̂ W = S (β ),
n
onde ˆ
β é o valor de β que minimiza a verossimilhança concentrada ou perfilada
n
S (β) 1
ℓ(β) = log( ) + ∑ log (rt (β))⋅
n n
t=1
Para o modelo AR(1) discutido anteriormente, lembre-se que
0 t−1
X = μ e X = μ + ϕ(X t−1 − μ),
1 t
para t = 2, ⋯ , n⋅ . Também, usando o fato de que \phi_{1,1} = \phi\) e ϕh,h = 0 para h > 1, temos
∞ 2
1 1 − ϕ
2j
r1 = ∑ ϕ = , r2 = = 1
2 2
1 − ϕ 1 − ϕ
j=0
e, em geral, rt = 1 para t = 2, ⋯ , n .
Os mínimos quadrados incondicionais seriam realizados minimizando S (β) em relação a β. A estimativa

de mínimos quadrados condicionais envolveria a minimização da mesmo expressão em relação a β, mas
onde, para aliviar a carga computacional, as previsões e seus erros são obtidos pelo condicionamento
nos valores iniciais dos dados. Em geral, as rotinas de otimização numérica são usadas para obter as
estimativas reais e seus erros padrão.
Exemplo III.30. Os algoritmos de Newton–Raphson e de escore.
Duas rotinas comuns de otimização numérica para realizar a estimação de máxima verossimilhança
são Newton–Raphson e escore. Vamos dar um breve relato das ideias matemáticas aqui. A
implementação real desses algoritmos é muito mais complicada do que nossa discussão pode
implicar. Para detalhes, o leitor é encaminhado para, por exemplo, Press et al. (1993).
Seja ℓ(β) a função de critério dos k parâmetros β = (β , ⋯ , β ) que queremos minimizar em 1 k
relação a β. Por exemplo, considere alguma das funções de verossimilhança dadas acima.
Suponha que ℓ(β ˆ
) é o extremo que estamos interessados em encontrar e ˆ
β é encontrado
resolvendo ∂ ℓ(β)/∂ β = 0 , para j = 1, ⋯ , k .
j
Seja ℓ
(1)
(β) o vetor k × 1 de derivadas parciais
⊤
∂β ∂β
(1)
ℓ (β) = ( ,⋯, ) ⋅
∂ β1 ∂ βk
Observe que, ℓ (β ˆ
) = 0, o vetor
(1)
k × 1 de zeros. Seja ℓ
(2)
(β) a matriz k × k das derivadas
parciais de segundo ordem
k
2
∂ ℓ (β)
(2)
ℓ (β) = (− ) ,
∂ βi ∂ βj
i,j=1
e assuma que ℓ
(2)
(β) não seja singular. Seja β(0) um estimador inicial suficientemente bom de
β . Então, usando a expansão de Taylor, temos a seguinte aproximação:
0 = ℓ
(1) ˆ) ≈
(β
(1)
(β(0) ) − ℓ
(2) ˆ −
(β(0) )(β
ℓ β(0) )⋅
Configurando o lado direito igual a zero e resolvendo por ˆ

β , chame a solução de β(1) , obtemos
−1
(2) (1)
β(1) = β(0) + (ℓ (β(0) )) ℓ (β(0) )⋅
O algoritmo de Newton–Raphson procede iterando esse resultado, substituindo β(0) por β(1) para
obter β(2) , e assim por diante, até a convergência. Sob um conjunto de condições apropriadas,
a sequência de estimadores, β(1) , β(2) , ⋯ converge para ˆ
β , a estimativa de máxima
verossimilhança de β .
06/06/2023, 12:29 Modelos ARIMA
Para a estimação por máxima verossimilhança, a função de critério usada é ℓ(β) dada acima;
ℓ
(1)
é chamado vetor escore e ℓ (β) é chamado de hessiano. No método de escore,
(β)
(2)
substituímos ℓ (β) por E(ℓ (β)), a matriz de informação. Sob condições apropriadas, o
(2) (2)
inverso da matriz de informação é a matriz de variâncias e covariâncias assintótica do

estimador β
ˆ . Isso às vezes é aproximado pelo inverso do hessiano em ˆ . Se as derivadas são
β
difíceis de obter é possível usar estimação de quase máxima verossimilhança, onde técnicas
numéricas são usadas para aproximar as derivadas.
Exemplo III.31. Estimação por máxima verossimilhança para a série de Recrutamento.
Até agora, ajustamos um modelo AR(2) à série Recrutamento usando mínimos quadrados ordinários
(Exemplo III.18) e usando os estimadores de Yule-Walker (Exemplo III.28). A seguir, uma sessão
R usada para ajustar um modelo AR(2) via estimação de máxima verossimilhança à série de
Recrutamento; estes resultados podem ser comparados com os resultados do Exemplo 3.18 e do
Exemplo III.28.
> rec.mle = ar.mle(rec, order=2)

> rec.mle$x.mean # 62.26
[1] 62.26153
> rec.mle$ar # 1.35, -0.46
[1] 1.3512809 -0.4612736
> sqrt(diag(rec.mle$asy.var.coef)) # 0.04, 0.04
[1] 0.04099159 0.04099159
> rec.mle$var.pred # 89.34
[1] 89.33597
Discutimos agora os mínimos quadrados para os modelos ARM A(p, q) via Gauss–Newton. Para
detalhes gerais e completos do procedimento de Gauss-Newton, o leitor é referido ao livro de Fuller
(1996). Como antes, escreva β = (ϕ1 , ⋯ , ϕp , θ1 , ⋯ , θq )
⊤
e para facilitar a discussão, vamos colocar
μ = 0. Escrevemos o modelo em termos de erros
p q
Wt = X t − ∑ ϕj X t=j − ∑ θk Wt−k (β),
j=1 k=1
enfatizando a dependência dos erros nos parâmetros.
Para os mínimos quadrados condicionais, aproximamos a soma dos quadrados residual pelo
condicionamento em X1 , ⋯ , Xp , se p > 0 e Wp = Wp−1 = Wp−2 = ⋯ + W1−q = 0 se q > 0 , neste
caso, dado β podemos avaliar a expressão acima para t = p + 1, p + 2, ⋯ , n. Usando este argumento
de condicionamento, a soma do erro dos quadrados condicional é
n
2
Sc (β) = ∑ W (β)⋅
t
t=p+1
Minimizar Sc (β) com respeito a β produz as estimativas de mínimos quadrados condicionais. Se q = 0 ,

o problema é a regressão linear e nenhuma técnica iterativa é necessária para minimizar o
Sc (ϕ1 , ⋯ , ϕp ) . Se q > 0, o problema se torna regressão não-linear e teremos que confiar na
otimização numérica.
Quando n é grande, o condicionamento em alguns valores iniciais terá pouca influência nas estimativas
finais dos parâmetros. No caso de amostras pequenas a moderadas, pode-se desejar confiar em
mínimos quadrados incondicionais. O problema dos mínimos quadrados incondicionais é escolher
minimizar a soma incondicional de quadrados, que genericamente denotamos por S (β) nesta seção. A
soma incondicional de quadrados pode ser escrita de várias maneiras e uma forma útil no caso de
modelos ARM A(p, q) são derivados em Box et al. (1994). Eles mostraram que a soma incondicional de
quadrados pode ser escrita como
06/06/2023, 12:29 Modelos ARIMA
n
2
S (β) = ∑ W̃ t
(β),
t=−∞
2 2
onde W̃ t (β) = E(Wt |X1 , ⋯ , Xn ). Quando t ≤ 0, o W̃ t (β) é obtido por backcasting ou previsão
reversa. Como uma questão prática, nos aproximamos do S (β) começando a soma em t = −M + 1,
−M
2
onde M é escolhido grande o suficiente para garantir ∑ W̃ t
(β) ≈ 0. No caso da estimação de
t=−∞
mínimos quadrados incondicionais, uma técnica de otimização numérica é necessária mesmo quando
q = 0.
(0) (0) (0) (0)

Para empregar Gauss-Newton, vamos escolher β(0) = (ϕ1 , ⋯ , ϕp ,θ
1
, ⋯ , θq )
⊤
como uma
estimativa inicial de β. Por exemplo, poderíamos obter β(0) pelo método dos momentos. A primeira
ordem da expansão de Taylor de Wt (β) é
⊤
Wt (β) ≈ Wt (β(0) ) − (β − β(0) ) zt (β(0) ),
onse
∂ Wt (β) ∂ Wt (β) ∣
⊤
z (β(0) ) = (− ,⋯,− )∣ , t = 1, ⋯ , n⋅
t
∂ β1 ∂ βp+q ∣
β=β(0)
A aproximação linear de Sc (β) é
n
2
⊤
Q(β) = ∑ (Wt (β(0) ) − (β − β(0) ) zt (β(0) ))
t=p+1
e esta é a quantidade que vamos minimizar. Para quadrados mínimos incondicionais aproximados
iniciaríamos a soma em t = −M + 1, para um grande valor de M e trabalharíamos com os valores
para trás.
Usando os resultados dos mínimos quadrados ordinários (Seção II.1), sabemos
−1
n n
1 1
(β ˆ
⊤
− β(0) ) = ( ∑ zt (β(0) )z (β(0) )) ( ∑ zt (β(0) )Wt (β(0) )) ,
t
n n
t=p+1 t=p+1
minimiza Q(β). Da expressão acima escrevemos a estimativa de um passo de Gauss-Newton como
β(1) = β(0) + Δ(β(0) ),
sendo que Δ(β(0) ) denota o lado direito de − β(0) ) .

(β ˆ A estimativa de Gauss-Newton é realizada
substituindo β(0) por β(1) . Este processo é repetido calculando, na iteração j = 2, 3, ⋯ ,
β(j) = β(j−1) + Δ(β(j−1) ),
até a convergência.
Exemplo III.32. Gauss-Newton para um modelo M A(1) .
Considere o processo M A(1) invertível Xt = Wt + θWt−1 . Escrevamos os erros truncados como
Wt (θ) = Xt − θWt−1 (θ), t = 1, ⋯ , n,
onde condicionamos W0 (θ) = 0 . Tomando derivados e mudando o sinal,
∂ Wt (θ) ∂ Wt−1 (θ)

− = Wt−1 (θ) + θ , t = 1, ⋯ , n,
∂θ ∂θ
onde ∂ W0 (θ)/∂ θ = 0 . Também podemos escrever a expressão acima como
zt (θ) = Wt−1 (θ) − θzt−1 (θ), t = 1, ⋯ , n,
sendo que zt (θ) = −∂ Wt (θ)/∂ θ e z0 (θ) = 0 .
Seja θ(0) ser uma estimativa inicial de , por exemplo, a estimativa dada no Exemplo III.29.
θ
Então, o procedimento de Gauss-Newton para mínimos quadrados condicionais é dado por
06/06/2023, 12:29 Modelos ARIMA
n
∑ zt (θ(j) )Wt (θ(j) )
t=1
θ(j+1) = θ(j) + , j = 0, 1, 2, ⋯ ,
n
2
∑ z (θ(j) )
t
t=1
sendo que os valores acima são calculados recursivamente. Os cálculos são interrompidos quando
|θ(j+1) − θ(j) | ou |Q(θ(j+1) ) − Q(θ(j) )| são menores que alguns valores predefinidos.
Exemplo III.33. Ajuste da série Variedades Glaciais Paleoclimáticas.
Considere a série de variedades glaciais de Massachusetts em n = 634 anos, conforme analisado

no Exemplo II.7, onde foi argumentado que um modelo de médias móveis de primeira ordem poderia
se encaixar nas séries logaritmicamente transformadas e diferenciadas, digamos,
Xt
∇ log(Xt ) = log(Xt ) − log(Xt−1 ) = log ( ),
Xt−1
que pode ser interpretado como sendo aproximadamente a variação percentual na espessura.
O ACF e PACF amostrais, mostrados na figura abaixo, confirmam a tendência de ∇ log(Xt ) de se

comportar como um processo de médias móveis de primeira ordem, pois o ACF tem apenas um pico
significativo no lag um e o PACF diminui exponencialmente. Usando a Tabela III.1, esse
comportamento amostral se encaixa muito bem com o M A(1) .
> x = diff(log(varve))
> par(mfrow = c(2,1), mar=c(3,3,1,1), mgp=c(1.6,.6,0))
> acf(x)
> grid()
> pacf(x)
> grid()
> acf(x, lag.max = 12, plot = FALSE)
Autocorrelations of series ‘x’, by lag
0 1 2 3 4 5 6 7 8 9 10 11 12
1.000 -0.397 -0.044 -0.064 0.009 -0.003 0.035 -0.043 0.041 0.010 -0.054 0.063 -0.060
Como ρ̂ (1) = −0.397 , nossa estimativa inicial é θ(0) = −0.495 . Os resultados de onze iterações
do procedimento de Gauss-Newton, começando com θ(0) , são mostrados abaixo. A estimativa final
06/06/2023, 12:29 Modelos ARIMA
é ˆ
θ = θ(11) = −0.773 ; valores intermediários e o valor correspondente da soma de quadrados
condicional Sc (θ) , também são exibidos.
2
A estimativa final da variância do erro é σ̂
W
= 148.980/(n − 2) = 148.980/632 = 0.236 com 632
graus de liberdade, um é perdido na diferenciação. O valor da soma de quadradasdas derivadas
n
na convergência é ∑
t=1
2
z (θ(11) ) = 368.741
t
e, consequentemente, o erro padrão estimado de ˆ
θ é
−−−−−−−−− −−
√0.236/368.741 = 0.025 , isto leva-nos a um valor t de −0.773/0.025 = −30.92 com 632 graus de
liberdade.
O código a seguir foi usado neste exemplo.
> # Avaliar Sc no Grid

> c(0) -> w -> z
> c() -> Sc -> Sz -> Szw
> num = length(x)
> th = seq(-.3,-.94,-.01)
> for (p in 1:length(th)){
for (i in 2:num){ w[i] = x[i]-th[p]*w[i-1] }
Sc[p] = sum(w^2) }
> plot(th, Sc, type="l", ylab=expression(S[c](theta)), xlab=expression(theta), lwd=2)
> par(mfrow = c(1,1), mar=c(3,3,1,1), mgp=c(1.6,.6,0))
> plot(th, Sc, type="l", ylab=expression(S[c](theta)), xlab=expression(theta), lwd=2)
> # Estimação Gauss-Newton
> r = acf(x, lag=1, plot=FALSE)$acf[-1]
> rstart = (1-sqrt(1-4*(r^2)))/(2*r) # from (3.105)
> c(0) -> w -> z
> c() -> Sc -> Sz -> Szw -> para
> niter = 12
> para[1] = rstart
> for (p in 1:niter){
for (i in 2:num){ w[i] = x[i]-para[p]*w[i-1]
z[i] = w[i-1]-para[p]*z[i-1] }
Sc[p] = sum(w^2)
Sz[p] = sum(z^2)
Szw[p] = sum(z*w)
para[p+1] = para[p] + Szw[p]/Sz[p] }
> round(cbind(iteration=0:(niter-1), thetahat=para[1:niter] , Sc , Sz ), 3)
iteration thetahat Sc Sz
[1,] 0 -0.495 158.739 171.240
[2,] 1 -0.668 150.747 235.266
[3,] 2 -0.733 149.264 300.562
[4,] 3 -0.756 149.031 336.823
[5,] 4 -0.766 148.990 354.173
[6,] 5 -0.769 148.982 362.167
[7,] 6 -0.771 148.980 365.801
[8,] 7 -0.772 148.980 367.446
[9,] 8 -0.772 148.980 368.188
[10,] 9 -0.772 148.980 368.522
[11,] 10 -0.773 148.980 368.673
[12,] 11 -0.773 148.980 368.741
> abline(v = para[1:12], lty=2)
> points(para[1:12], Sc[1:12], pch=16)
> grid()
Soma de quadrados condicional versus valores do

parâmetro de médias móveis para o Exemplo III.33.
Linhas verticais indicam os valores do parâmetro
obtido via Gauss–Newton; veja a tabela para os
valores reais.
06/06/2023, 12:29 Modelos ARIMA
A figura acima mostra a soma de quadrados condicional S (θ) como função de θ, assim como c
indica os valores em cada passo do algoritmo de Gauss-Newton. Observe que o procedimento de

Gauss-Newton dá passos largos em direção ao mínimo inicialmente e, em seguida, executa etapas
muito pequenas à medida que se aproxima do valor de minimização. Quando há apenas um
parâmetro, como neste caso, seria fácil avaliar o Sc (θ) em uma grade de pontos e, em seguida,
escolher o valor apropriado de θ da pesquisa da grade. Seria difícil, no entanto, realizar
buscas em grade quando há muitos parâmetros.
No caso geral dos modelos causais e invertíveis ARM A(p, q) , a estimação por máxima
verossimilhança, a estimação por mínimos quadrados condicionais e incondicionais e a estimação de
Yule-Walker no caso de modelos AR levam a estimadores ótimos. A prova desse resultado geral pode ser
encontrada em vários textos sobre análise de séries temporais teóricos, por exemplo, Brockwell and
Davis (1991) ou Hannan (1970). Vamos denotar os parâmetros do modelo ARMA por
β = (ϕ1 , ⋯ , ϕp , θ1 , ⋯ , θq )
⊤
.
Teorema III.10. Distribuição em amostras grandes dos estimadores do processo ARMA.
Sob condições apropriadas, para processos ARMA causais e invertíveis, os estimadores de máxima
verossimilhança, mínimos quadrados incondicionais e mínimos quadrados condicionais, cada um
iniciado pelo método de momentos, todos fornecem estimadores ótimos de σ 2 e β, no sentido de que W
2
σ̂
W
é consistente e a distribuição assintótica de ˆ
β é a melhor distribuição normal assintótica. Em
particular, quando n → ∞
D
−
− ˆ 2 −1
√n (β − β) ⟶ N (0, σ W Γ p,q )⋅
A matriz de variâncias e covariâncias assintótica do estimador β

ˆ
é o inverso da matriz de informação.
Em particular, a matriz Γp,q de dimensão (p + q) × (p + q), tem a forma
Γ ϕ,ϕ Γ ϕ,θ
Γ p,q = ( )⋅
Γ θ,ϕ Γ θ,θ
O elemento (i, j) da matriz Γ ϕ,ϕ , para i, j = 1, ⋯ , p, é γ

X
(i − j) para o processo AR(p),
ϕ(B)X t = Wt . Similarmente, o elemento (i, j) da matriz Γ θ,θ , para i, j = 1, ⋯ , q , é igual a

γY (i − j) para o processo AR(q) , θ(B)Y t = Wt . A matriz p × p,
Γ ϕ,θ = {γXY (i − j) : i = 1, ⋯ , p; j = 1, … , q}, isto é, o elemento (i, j) desta matriz é a

covariância cruzada entre os dois processos dados por ϕ(B)X t = Wt e θ(B)Y t = Wt . Finalmente,
Γ θ,ϕ = Γ
⊤
ϕ,θ
é uma matriz de dimensão q × p.
Demonstração Uma discussão adicional sobre este Teorema, incluindo uma demonstração para o caso
específico de estimadores de mínimos quadrados para processos AR(p), pode ser encontrada na Seção
06/06/2023, 12:29 Modelos ARIMA
B.3 ▉
Exemplo III.34. Algumas distribuições assintóticas específicas.
A seguir estão alguns casos específicos do Teorema III.10.
2
σW
AR(1) : γ
X
(0) =
2
, assim σW Γ
2 −1
1,0
= 1 − ϕ
2
. Então, quando n → ∞ ,
1 − ϕ
2
1 − ϕ
ˆ
ϕ ∼ N (ϕ, )⋅
n
AR(2) : Pode-se verificar que
2
1 − ϕ2 σW
γ (0) = ( ) ,
X
2 2
1 + ϕ2 (1 − ϕ2 ) − ϕ
1
e que γ
X
(1) = ϕ1 γ
X
(0) + ϕ2 γ
X
(1) . A partir desses fatos, podemos calcular −1
Γ
2,0
. Em
particular, temos
ˆ 2
ϕ1 ϕ1 1 1 − ϕ −ϕ1 (1 + ϕ2 )
2
( ) ∼ N (( ), ( )) ,
2
ˆ ϕ2 n −ϕ1 (1 + ϕ2 ) 1 − ϕ
ϕ2 2
quando n → ∞ .
M A(1) : Neste caso escrevemos θ(B)Y t = Wt ou Y t + θY t−1 = Wt . Então, análogo ao caso
2
σW
AR(1) temos que, γ
Y
(0) =
2
, deste modo 2
σW Γ
−1
1,0
= 1 − θ
2
. Portanto,
1 − θ
2
1 − θ
ˆ
θ ∼ N (θ, ),
n
quando n → ∞ .
M A(2) : Escrevendo Y t + θ1 Y t−1 + θ2 Y t−2 = Wt , então, análogo ao caso AR(2) , temos
ˆ 1 − θ
2
−θ1 (1 + θ2 )
θ1 θ1 1 2
( ) ∼ N (( ), ( )) ,
ˆ 2
θ2 n −θ1 (1 + θ2 ) 1 − θ
θ2 2
quando n → ∞ .
ARM A(1, 1) : Para calcular Γϕ,θ , devemos encontrar γ
XY
(0) , onde Xt − ϕXt−1 = Wt e
Y t + θY t−1 = Wt . Temos então
2
γ (0) = Cov(Xt , Y t ) = Cov(ϕXt−1 + Wt , −θY t−1 + Wt ) = −ϕθγ (0) + σW ⋅
XY XY
2
σW
Resolvendo, encontramos γ
XY
(0) = . Então
1 + ϕθ
−1
⎛ 1 ⎞
⎛ 1 ⎞
ˆ 1 + ϕθ
ϕ ⎜ ϕ 1 ⎜ 1 − ϕ2 ⎟
⎟
( ) ∼ N ⎜( ), ⎜ ⎟
⎟,
⎜ ⎟
ˆ ⎜ θ n⎜ 1 1 ⎟ ⎟
θ
⎝ ⎝ 2
⎠ ⎠
1 + ϕθ 1 − θ
quando n → ∞ .
Exemplo III.35. Overfitting.
O comportamento assintótico dos estimadores de parâmetros nos dá uma visão adicional sobre o
problema de adaptar os modelos ARMA aos dados. Por exemplo, suponha que uma série temporal
segue um processo AR(1) e decidimos ajustar um AR(2) aos dados. Algum problema ocorre ao
fazer isso? Em termos mais gerais, por que não simplesmente ajustar modelos de AR de ordem
maior para garantir que capturemos a dinâmica do processo? Afinal, se o processo for realmente
um AR(1) os outros parâmetros autoregressivos não serão significativos.
06/06/2023, 12:29 Modelos ARIMA
A resposta é que, se formos demais, obteremos estimativas dos parâmetros menos eficientes ou,
de outra maneira, menos precisas. Por exemplo,se ajustarmos um modelo AR(1) a um processo
AR(1) , para grande n ,
1
ˆ 2
Var(ϕ 1 ) ≈ (1 − ϕ )⋅
1
n
Mas, se ajustarmos um AR(2) ao processo AR(1) , para n grande,
1 1
ˆ 2
Var(ϕ 1 ) ≈ (1 − ϕ ) = ,
2
n n
porque ϕ2 = 0 . Assim, a variância de ϕ1 foi inflada, tornando o estimador menos preciso.
Queremos mencionar, no entanto, que o overfitting pode ser usado como uma ferramenta de
diagnóstico. Por exemplo, se ajustarmos um modelo AR(2) aos dados e estivermos satisfeitos
com esse modelo, adicionar mais um parâmetro e ajustar um AR(3) deve levar aproximadamente ao
mesmo modelo que no ajuste AR(2). Discutiremos os diagnósticos do modelo em mais detalhes na
Seção III.7.
O leitor pode querer saber, por exemplo, por que as distribuições assintóticas de ϕ̂ de um AR(1) e θˆ de
um M A(1) são da mesma forma. É possível explicar este resultado inesperado usando heuristicamente
a intuição da regressão linear. Ou seja, para o modelo de regressão normal apresentado na Seção II.1,
sem termo de intercepto X t = βzt + Wt , sabemos que ˆ
β é normalmente distribuído com mádia β e
2 2
nσ W σW
−
− ˆ
Var(√n (β − β)) = = ⋅
n n
1
2 2
∑z ∑z
t t
n
t=1 t=1
Para o modelo causal AR(1) dado por X t = ϕX t−1 + Wt , a intuição da regressão nos diz para esperar
−
−
que, para n grande, √n (ϕ̂ − ϕ) é aproximadamente normal com média zero e com variância dada por
2
σW
⋅
n
1
2
∑X
t−1
n
t=2
Agora, é a variância amostral de Xt , lembremos que a média de é zero, assim quando

1 n 2
∑ X Xt
n t=2 t−1
2
σW
n se torna grande, esperamos que ele se aproxime a Var(X t ) = γ (0) = . Assim, a variância de
2
1 − ϕ
−
−
√n (ϕ̂ − ϕ), em amostras grandes, é
2 2
σW 1 − ϕ
2 2
= σW ( ) = 1 − ϕ ,
2
γX (0) σW
isto é, o resultado no Exemplo III.34 para o caso AR(1) procede.
No caso de um M A(1) , podemos usar a discussão do Exemplo III.32 para escrever um modelo de
regressão aproximado para o M A(1) . Ou seja, considere a aproximação no Exemplo III.32, como o
modelo de regressão
ˆ ˆ
zt (θ ) = −θzt−1 (θ ) + Wt−1 ,
onde agora, ˆ
zt−1 (θ ) como definido no Exemplo III.32, desempenha o papel do regressor. Continuando
−
− ˆ
com a analogia, esperaríamos a distribuição assintótica de √n (θ − θ) ser normal, com média zero e
variáncia aproximada
2
σW
⋅
n
1
2 ˆ
∑z (θ )
t−1
n
t=2
n
Como no caso AR(1),
ˆ
é a variância amostral de ˆ
então, para grande, deve ser
1 2
∑ z (θ ) zt (θ ) n
n t=2 t−1
que Var(zt (θ)) = γZ (0). Mas, note que zt (θ), pode ser aproximado como um processo AR(1) com
parâmetro −θ. Deste modo
06/06/2023, 12:29 Modelos ARIMA
2 2
σW 1 − (−θ)
2 2
= σW ( ) = 1 − θ ⋅
2
γZ (0) σW
Finalmente, as distribuições assintóticas dos estimadores dos parâmetros AR e os estimadores dos

parâmetros MA são da mesma forma, porque no caso MA, os regressores são os processos diferenciais
zt (θ) que têm estrutura AR e é essa estrutura que determina a variância assintótica dos estimadores.
Para um relato rigoroso dessa abordagem para o caso geral, ver Fuller (1996).
No Exemplo III.33, o erro padrão estimado de θˆ é 0.025. Nesse exemplo, usamos resultados de
regressão para estimar o erro padrão como a raiz quadrada de
−1
2 n 2
σ̂ W 1 σ̂ W
( ˆ 2
∑ z (θ )) = ,
t n
n n
t=1 ˆ 2
∑ zt (θ )
t=1
2 n
onde n = 632 , σ̂
W
= 0.236 , ∑
t=1
2
zt (θ̂ ) = 368.74 e θ̂ = −0.773. Utilizando o resultado acerca do
comportamento da distribuição assintótica específicas para os modelos M A(1) no Exemplo III.34,
poderíamos também ter calculado esse valor usando a aproximação assintótica, como a raiz quadrada
de (1 − (−0.773) )/632 ,
2
que também é 0.025.
Se n é pequeno ou se os parâmetros estão próximos dos limites, as aproximações assintóticas podem

ser bastante fracas. O bootstrap pode ser útil neste caso; para um amplo tratamento do bootstrap, ver
Efron and Tibshirani (1994). Discutimos o caso de um modelo AR(1) aqui e deixamos a discussão geral
para o Capítulo VI. Por enquanto, damos um exemplo simples do bootstrap para um processo AR(1).
Exemplo III.36. Bootstrapping um AR(1) .
Consideramos um modelo AR(1) com um coeficiente de regressão próximo ao limite de causalidade

e um processo de erro que é simétrico, mas não normal. Especificamente, considere o modelo
causal
Xt = μ + ϕ(Xt−1 − μ) + Wt ,
onde μ = 50, ϕ = 0.95 e Wt são variáveis aleatórias independentes com distribuição

exponencial dupla ou Laplace, cm média zero e parâmetro de escala . A função de densidade
β = 2
de Wt é dada por
1 |w|
f (w) = exp ( − ), −∞ < w < ∞⋅
2β β
Neste exemplo, E(Wt ) = 0 e Var(Wt ) = 2β

2
= 8 . A figura abaixo mostra n = 100 observações
simuladas deste processo. Essa percepção particular é interessante; os dados parecem que foram
gerados a partir de um processo não-estacionário com três níveis médios diferentes. De fato,
os dados foram gerados a partir de um modelo causal bem comportado, embora não normal. Para
mostrar as vantagens do bootstrap, agiremos como se não soubéssemos a distribuição real dos
erros. Os dados da figura foram gerados da seguinte forma.
> set.seed(101010)
> e = rexp(150, rate=.5); u = runif(150,-1,1); de = e*sign(u)
> dex = 50 + arima.sim(n=100, list(ar=.95), innov=de, n.start=50)
> par(mfrow = c(1,1), mar=c(3,3,1,1), mgp=c(1.6,.6,0), pch=19)
> plot.ts(dex, type='o', ylab=expression(X[~t]), xlab="Tempo")
Cem observações geradas a partir do modelo.
06/06/2023, 12:29 Modelos ARIMA
2
Usando esses dados, obtivemos as estimativas de Yule-Walker μ̂ = 45.25 , ˆ
ϕ = 0.96 e σ̂ W = 7.88 ,
como segue:
> fit = ar.yw(dex, order=1)

> round(cbind(fit$x.mean, fit$ar, fit$var.pred), 2)
[,1] [,2] [,3]
[1,] 45.25 0.96 7.88
Para avaliar a distribuição em amostras finitas de ϕ ˆ

quando n = 100, simulamos 1000
realizações deste processo AR(1) e estimamos os parâmetros via Yule-Walker. A densidade
amostral finita da estimativa de Yule-Walker, baseada nas 1000 simulações repetidas é mostrada
na figura abaixo. Com base na Proposição III.10, diríamos que ϕ̂ é aproximadamente normal com
média ϕ , que supostamente não sabemos, e a variância (1 − ϕ )/100, que seria aproximada por2
2
(1 − 0.96 )/100 = 0.03
2
; essa distribuição é sobreposta na figura abaixo. Claramente, a
distribuição amostral não está próxima da normalidade para este tamanho de amostra.
O código R para executar a simulação é o seguinte. Usamos os resultados no final do exemplo:
> set.seed(111)
> phi.yw = rep(NA, 1000)
> for (i in 1:1000){
e = rexp(150, rate=.5); u = runif(150,-1,1); de = e*sign(u)
x = 50 + arima.sim(n=100,list(ar=.95), innov=de, n.start=50)
phi.yw[i] = ar.yw(x, order=1)$ar }
A simulação anterior exigia conhecimento total do modelo, dos valores dos parâmetros e da
distribuição do ruído. É claro que, em uma situação de amostragem, não teríamos as informações
necessárias para fazer a simulação anterior e, consequentemente, não conseguiríamos gerar uma
figura como a abaixo. O bootstrap, no entanto, nos dá uma maneira de atacar o problema.
Para simplificar a discussão e a notação, condicionamos X1 ao longo do exemplo. Nesse caso,

os preditores de um passo à frente têm uma forma simples,
t−1
X = μ + ϕ(Xt−1 − μ), t = 2, ⋯ , 100⋅
t
Consequentemente, as inovações, ϵt = Xt − X
t−1
t
, são dadas por
ϵt = (Xt − μ) − ϕ(Xt−1 − μ), t = 2, ⋯ , 100,
cada um com erro P t−1

= E(ϵ ) = E(W ) = σ
t
2
t
para t = 2, cdots, 100. Podemos usar a expressão
t
2 2
W
anterior para escrever o modelo em termos de inovações,
t−1
Xt = X + ϵt = μ + ϕ(Xt−1 − μ) + ϵt , t = 2, ⋯ , 100⋅
t
06/06/2023, 12:29 Modelos ARIMA
Para realizar a simulação bootstrap, substituímos os parâmetros com suas estimativas na
expressão acima, ou seja, μ̂ = 45.25 e ϕˆ
= 0.96, e denotamos as inovações amostrais resultantes
como { ϵ̂ , ⋯ , ϵ̂ }. Para obter uma amostra bootstrap, primeiro faça uma amostragem aleatória,
2 100
com substituição, n = 99 valores do conjunto de inovações amostrais; chame os valores

amostrados ∗ ∗
{ ϵ̂ 2 , ⋯ , ϵ̂ 100 } . Agora, gere um conjunto de dados inicializado sequencialmente,
definindo
∗ ∗ ∗
X = 45.25 + 0.96(X − 45.25) + ϵ , t = 2, ⋯ , 100,
t t−1 t
com X
∗
!
fixo como X1 . Em seguida, estime os parâmetros como se os dados fossem X
∗
t
. Chame
estas estimativas μ̂(1) , ˆ
ϕ (1) e 2
σW (1) . Repita este processo um número grande B , de vezes,
gerando uma coleção de estimativas de parâmetros bootstrap, {μ̂(b), ϕ
ˆ
(b), σ (b) : b = 1, ⋯ , B}.
2
W
Podemos, então, aproximar a distribuição em amostras finitas de um estimador a partir dos

valores dos parâmetros bootstrap. Por exemplo, podemos aproximar a distribuição de ˆ
ϕ − ϕ pela
distribuição empírica de ˆ ˆ
ϕ (b) − ϕ , para b = 1, ⋯ , B .
A figura abaixo mostra o histograma da amostra bootstrap de 500 estimativas bootstrap dos
dados mostrados na figura acima. Note que a distribuição bootstrap de ˆ
ϕ é próxima da
distribuição de ˆ
ϕ mostrada na figura abaixo. O código a seguir foi usado para executar o
bootstrap.
> set.seed(666) # para reproduzir as amostras

> fit = ar.yw(dex, order=1) # pressupõe que os dados foram retidos
> m = fit$x.mean # estimativa da média
> phi = fit$ar # estimativa de phi
> nboot = 500 # número de aostras bootstrap
> resids = fit$resid[-1] # as 99 inovações
> x.star = dex # initializando x*
> phi.star.yw = rep(NA, nboot)
> # Bootstrap
> for (i in 1:nboot) {
resid.star = sample(resids, replace=TRUE)
for (t in 1:99){ x.star[t+1] = m + phi*(x.star[t]-m) + resid.star[t] }
phi.star.yw[i] = ar.yw(x.star, order=1)$ar
}
> # Gráfico
> culer = rgb(.5,.7,1,.5)
> hist(phi.star.yw, 15, main="", prob=TRUE, xlim=c(.65,1.05), ylim=c(0,14),
+ col=culer, xlab=expression(hat(phi)), ylab="Densidade")
> lines(density(phi.yw, bw=.02), lwd=2) # da simulação anterior
> u = seq(.75, 1.1, by=.001) # aproximação normal
> lines(u, dnorm(u, mean=.96, sd=.03), lty=2, lwd=2)
> legend(.65, 14, legend=c('verdadeira distribuição', 'distribuição bootstrap',
'aproximação normal'), bty='n', lty=c(1,0,2), lwd=c(2,0,2),
col=1, pch=c(NA,22,NA), pt.bg=c(NA,culer,NA), pt.cex=2.5)
> box()
Densidade estimada em amostra finita da estimativa de Yule-Walker (linha

sólida) e a correspondente densidade normal assintótica (linha tracejada).
Histograma de bootstrap de ˆ
ϕ baseado em 500 amostras bootstrapped.
06/06/2023, 12:29 Modelos ARIMA
III.6 Modelos integrados para dados não estacionários
No Capítulo I e no Capítulo II vimos que se Xt é um passeio aleatório, Xt = Xt−1 + Wt , então por

diferenciação de Xt , achamos que ∇Xt = Wt é estacionário. Em muitas situações, séries temporais
podem ser consideradas como sendo compostas por dois componentes, um componente de tendência
não estacionário e um componente estacionário de média zero. Por exemplo, na Seção II.1,
consideramos o modelo
X t = μt + Y t ,
onde μt = β0 + β1 t e Yt é estacionário. Diferenciar esse processo levará a um processo estacionário:
∇X t = X t − X t−1 = β1 + Y t − Y t−1 = β1 + ∇Y t ⋅
Outro modelo que leva à primeira diferenciação é o caso em que μt no modelo X t = μt + Y t é

estocástico e varia lentamente de acordo com um passeio aleatório. Isto é,
μt = μt−1 + Vt
sendo Vt estacionário. Neste caso,
∇X t = V t + ∇Y t ,
é estacionário. Se no modelo acima é um polinômio de k -ésima ordem, , então a série

j
μt μt = ∑ βj t
j=0
diferenciada ∇k Xt é estacionária. Os modelos de tendência estocástica também podem levar a uma

diferenciação de ordem superior. Por exemplo, suponha
μt = μt−1 + Vt e Vt = Vt−1 + ϵt ,
onde ϵt é estacionária. Então, ∇X t = V t + ∇Y t não é estacionária, mas
2 2
∇ X t = ϵt + ∇ Y t ,
é estacionária.
O modelo ARMA integrado ou ARIMA é uma ampliação da classe de modelos ARMA para incluir a
diferenciação.
Definição III.11. Modelo ARIMA.
O processo Xt é dito ser ARI M A(p, d, q) se
d d
∇ X t = (1 − B) X t ,
é ARM A(p, q) . Em geral, vamos escrever o modelo como
06/06/2023, 12:29 Modelos ARIMA
d
ϕ(B)(1 − B) X t = θ(B)Wt ⋅
Se E(∇ X t ) = μ,
d
escrevemos o modelo como
d
ϕ(B)(1 − B) X t = δ + θ(B)Wt ,
onde δ = μ(1 − ϕ1 − ⋯ − ϕp ).
Por causa da não-estacionariedade, deve-se ter cuidado ao derivar previsões. Por uma questão de
completude, discutimos brevemente essa questão aqui, mas enfatizamos o fato de que os aspectos
teóricos e computacionais do problema são mais bem tratados por meio de modelos de espaço de
estados. Discutimos os detalhes teóricos no Capítulo VI. Para obter informações sobre o aspectos
computacionais baseados em espaço de estados em R, veja os arquivos de ajuda ARIMA,
> ?arima
> ?predict.Arima
os scripts sarima e sarima.for apresentados aqui são basicamente invólucros para esses scripts.
Deve ficar claro que, como Yt = ∇d Xt é ARMA, podemos usar os métodos da Seção III.4 para obter
previsões de Yt , que, por sua vez, levam a previsões para Xt . Por exemplo, se d = 1, dadas as
previsões Yn+m
n
para m = 1, 2, ⋯ ,, temos Yn+m
n
= X
n
n+m
− X
n
n+m−1
, de modo que
n n n
X n+m = Y n+m + X ,
n+m−1
com condição inicial X

n
n+1
= Y
n
n+1
+ Xn , notando que Xn = Xn .
n
É um pouco mais difícil obter os erros de previsão Pn+m ,

n
mas para grandes n, a aproximação usada na
Seção III.4, funciona bem. Ou seja, o erro de previsão do quadrado médio pode ser aproximado por
m−1
n 2 ∗2
Pn+m = σW ∑ ψ ,
j
j=0
sendo ψ
∗2
j
o coeficiente de z
j
em
θ(z)
∗
ψ (z) = ⋅
ϕ(z)(1 − z)d
Para entender melhor os modelos integrados, examinamos as propriedades de alguns casos simples. O
Exercício III.29 abrange o caso ARI M A(1, 1, 0).
Exemplo III.37. Passeio aleatório com tendência.
Para fixar ideias, começamos considerando o passeio aleatório com modelo de tendência
apresentado primeiro no Exemplo I.11, ou seja,
Xt = δ + Xt−1 + Wt ,
para t = 1, 2, ⋯ e X0 = 0 . Tecnicamente, o modelo não é ARIMA, mas podemos incluí-lo

trivialmente como um modelo ARI M A(0, 1, 0) . Dados X1 , ⋯ , Xn , a previsão de um passo à frente
é dada por
n
X = E(Xn=1 | Xn , ⋯ , X1 ) = E(δ + Xn + Wn+1 | Xn , ⋯ , X1 ) = δ + Xn ⋅
n+1
A previsão de dois passos é dada por X

n
n+2
= δ + X
n
n+1
= 2δ + Xn e, consequentemente, a
previsão de m -passos à frente, para m = 1, 2, ⋯ é
n
Xn+m = mδ + Xn ⋅
06/06/2023, 12:29 Modelos ARIMA
n
Para obter os erros de previsão, é conveniente lembrar que Xn = nδ + ∑ Wj , nesse caso,

j=1
podemos escrever
n+m n+m
Xn+m = (n + m)δ + ∑ Wj = mδ + Xn + ∑ Xj ⋅
j=1 j=n+1
A partir disso, segue-se que o erro de predição de m passos à frente é dado por
2
n+m
2
n n 2
P n+m = E(Xn+m − Xn+m ) = E( ∑ Wj ) = mσW ⋅
j=n+1
Assim, ao contrário do caso estacionário (ver Exemplo III.23), à medida que o horizonte de
previsão cresce, os erros de previsão, aumentam sem limite e as previsões seguem uma linha
reta com declive que emana de Xn . Notamos que
m−1
n 2 ∗2
P n+m = σW ∑ ψ
j
j=0
∞
1
é exato neste caso porque ∗
ψ (z) = = ∑z
j
, para |z| < 1 , de modo que ψ
∗
j
= 1 para todo j.
1 − z
j=0
Os valores Wt são gaussianos, portanto, a estimação é direta porque os dados diferenciados

, são variáveis normais independentes e identicamente distribuídas com média δ e
Y t = ∇X t
variância σ . Consequentemente, as estimativas ótimas de δ e σ

2
W
são a média e variância 2
W
amostrais de Yt , respectivamente.
Exemplo III.38. I M A(1, 1) e EWMA.
O modelo ARI M A(0, 1, 1) ou I M A(1, 1) é de interesse porque muitas séries temporais econômicas
podem ser modeladas com sucesso dessa maneira. Além disso, o modelo leva a um método de
previsão frequentemente usado e abusado, chamado de médias móveis exponencialmente ponderadas
ou EWMA (Exponentially Weighted Moving Averages). Vamos escrever o modelo como
Xt = Xt−1 + Wt − λWt−1 ,
com |λ| < 1, para t = 1, 2, ⋯ e X = 0, porque este modelo é mais fácil de se trabalhar aqui e
0
leva à representação padrão para EWMA. Poderíamos ter incluído um termo de tendência como foi
feito no exemplo anterior, mas por uma questão de simplicidade, deixamos fora da discussão.
Escrevendo
Y t = Wt − λWt−1 ,
podemos escrever Xt = Xt−1 + Y t . Devido a que |λ| < 1 , Yt tem uma representação invertível,
∞
j
Y t = ∑ λ Y t−j + Wt
j=1
e substituindo Y t = Xt − Xt−1 , podemos escrever

∞
j
Xt = ∑(1 − λ)λ Xt−j + Wt ,
j=1
como uma aproximação para t grande, coloque Xt = 0 para t ≤ 0 . A verificação da expressão

acima é deixada para o leitor no Exercício III.28. Usando a aproximação acima, temos que o
preditor aproximado de um passo à frente, usando a notação da Seção III.4, é
∞
j
X̃ n+1 = ∑(1 − λ)λ Xn+1−j
j=1
∞ j−1
= (1 − λ)Xn + λ ∑ (1 − λ)λ Xn−j = (1 − λ)Xn + λ X̃ n⋅
j=1
Do resultado anterior vemos que a nova previsão é uma combinação linear da previsão antiga e
da nova observação. Com base nesse resultado e no fato de que apenas observamos X , ⋯ , X e 1 n
consequentemente Y1, ⋯ , Yn , porque Y t = Xt − Xt−1 com X0 = 0 , as previsões truncadas são
06/06/2023, 12:29 Modelos ARIMA
n n−1
X̃ n+1
= (1 − λ)Xn + λ X̃ n
, n ≥ 1,
0
com X̃ 1
= X1 como valor inicial.
O erro quadrático médio da previsão pode ser aproximado usando observando que
∞
∗
1 − λz j
ψ (z) = = 1 + (1 − λ) ∑ z ,
1 − z
j=1
para |z| < 1 . Consequentemente, para n grande, leva a
n 2 2
P n+m ≈ σW (1 + (m − 1)(1 − λ) )⋅
No EWMA, o parâmetro 1 − λ é freqüentemente chamado de parâmetro de suavização e é restrito a ser

entre zero e um. Valores maiores levam a previsões mais suaves.
Este método de previsão é popular porque é fácil de usar, precisamos apenas reter o valor da previsão
anterior e a observação atual para prever o próximo período de tempo. Infelizmente, como sugerido
anteriormente, o método é frequentemente abusado porque alguns analistas não verificam se as
observações seguem um processo I M A(1, 1) e muitas vezes arbitrariamente escolher valores de λ. A
seguir, mostramos como gerar 100 observações de um modelo I M A(1, 1) com λ = −θ = 0.8 e depois
calcular e exibir o EWMA ajustado sobreposto aos dados. Isso é feito usando o comando Holt-Winters em
R, veja o arquivo de ajuda ?HoltWinters para detalhes:
> set.seed(666)
> x = arima.sim(list(order = c(0,1,1), ma = -0.8), n = 100)
> # α abaixo é 1 − λ . Parâmetro de suavização: alfa: 0.1663072
> (x.ima = HoltWinters(x, beta=FALSE, gamma=FALSE))
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = x, beta = FALSE, gamma = FALSE)
Smoothing parameters:
alpha: 0.1663072
beta : FALSE
gamma: FALSE
Coefficients:
[,1]
a -2.241533
> plot(x.ima, xlab="Tempo")
06/06/2023, 12:29 Modelos ARIMA
III.7 Diagnóstico de resíduos para modelos ARIMA
Existem algumas etapas básicas para ajustar modelos ARIMA a dados de séries temporais. Essas etapas
envolvem:
plotando os dados,
possivelmente transformando os dados,
identificar as ordens de dependência do modelo,
estimação dos parâmetros,
diagnósticos e
escolha do modelo.
Primeiro, como em qualquer análise de dados, devemos construir um gráfico de tempo dos dados e
inspecionar o gráfico em busca de quaisquer anomalias. Se, por exemplo, a variabilidade nos dados
aumenta com o tempo, será necessário transformar os dados para estabilizar a variância. Nesses casos,
a classe de transformações de potência Box-Cox, poderia ser empregada. Além disso, pode-se sugerir
uma transformação apropriada.
Por exemplo, vimos vários exemplos em que os dados se comportam como X t = (1 + pt )X t−1 , onde pt
é uma pequena alteração percentual do período t − 1 para t, que pode ser negativo. Se pt é um
processo relativamente estável, então ∇ log(Xt ) ≈ pt será relativamente estável. Frequentemente,
é chamado retorno ou taxa de crescimento. Essa ideia geral foi usada no Exemplo III.33 e
∇ log(X t )
vamos usá-la novamente no Exemplo III.39.
Depois de transformar adequadamente os dados, o próximo passo é identificar os valores preliminares

da ordem autoregressiva p, a ordem de diferenciação d e a ordem de médias móveis q . Um gráfico de
tempo dos dados geralmente sugere se alguma diferenciação seja necessária. Se a diferenciação for
solicitada, fazendo a diferença dos dados uma vez d = 1, e inspecione o gráfico de tempo de ∇Xt . Se a
diferenciação adicional for necessária, tente novamente a diferenciação e inspecione um gráfico de
tempo de ∇2 Xt . Tenha cuidado para não superdiferenciar porque isso pode introduzir dependência onde
não existe. Por exemplo, ∇Xt = Wt é serialmente não correlacionada, mas ∇Xt = Wt − Wt−1 é
M A(1) .
Além dos gráficos de tempo, o ACF amostral pode ajudar a indicar se a diferenciação é necessária. Como
o polinômio ϕ(z)(1 − z)d tem uma raiz unitária, o ACF amostral ρ̂ (h), não decairá a zero rápido quando
h aumenta. Assim, um decaimento lento em ρ̂ (h) é uma indicação de que a diferenciação pode ser
necessária.
Quando os valores preliminares de d foram estabelecidos, o próximo passo é olhar para o ACF e o PACF
amostrais de ∇d Xt para quaisquer valores de d que tenham sido escolhidos. Usando a Tabela III.1
como guia, os valores preliminares de p e q são escolhidos. Observe que não é possível que tanto o ACF
quanto o PACF sejam cortados. Como estamos lidando com estimativas, nem sempre ficará claro se o
ACF ou o PACF amostral está diminuindo ou cortando. Além disso, dois modelos aparentemente
diferentes podem ser muito semelhantes. Com isso em mente, não devemos nos preocupar em ser tão
precisos neste estágio do ajuste do modelo. Neste ponto, alguns valores preliminares de p, d e q devem
estar à mão, e podemos começar a estimar os parâmetros.
Exemplo III.39. Análise de dados do PIB.
Neste exemplo, consideramos a análise do PIB trimestral dos EUA do primeiro trimestre de 1947
ao terceiro trimestre de 2002, n = 223 observações. Os dados são o Produto Interno Bruto real
dos EUA em bilhões de dólares de 1996 encadeados e foram ajustados sazonalmente. Os dados
foram obtidos do Federal Reserve Bank of St. Louis. A figura abaixo mostra um gráfico dos
dados, digamos, Y . Como a tendência forte tende a obscurecer outros efeitos é difícil ver
t
qualquer outra variabilidade nos dados, exceto por grandes quedas periódicas na economia.
PIB trimestral dos EUA de 1947 (1) a 2002 (3).
06/06/2023, 12:29 Modelos ARIMA
O código R para construirmos a figura acima e o ACF e PACF é o seguinte:

> plot(gnp, xlab="Tempo", ylab="Bilhões de Dólares", main="PIB trimestral dos Estados Unidos")
> grid()
> acf2(gnp, 50)
ACF PACF
[1,] 0.99 0.99
[2,] 0.97 0.00
[3,] 0.96 -0.02
[4,] 0.94 0.00
[5,] 0.93 0.00
[6,] 0.91 -0.02
[7,] 0.90 -0.02
[8,] 0.88 -0.02
[9,] 0.87 -0.01
[10,] 0.85 -0.02
[11,] 0.83 0.00
[12,] 0.82 -0.01
[13,] 0.80 0.01
[14,] 0.79 0.00
[15,] 0.77 0.00
[16,] 0.76 0.00
[17,] 0.74 0.01
[18,] 0.73 0.00
[19,] 0.72 -0.01
[20,] 0.70 0.00
[21,] 0.69 -0.01
[22,] 0.68 -0.01
[23,] 0.66 0.00
[24,] 0.65 0.00
[25,] 0.64 0.00
[26,] 0.62 -0.01
[27,] 0.61 0.00
[28,] 0.60 -0.01
[29,] 0.59 -0.01
[30,] 0.57 -0.01
[31,] 0.56 -0.01
[32,] 0.55 -0.01
[33,] 0.54 0.00
[34,] 0.52 -0.01
[35,] 0.51 0.00
[36,] 0.50 0.00
[37,] 0.49 0.00
[38,] 0.48 -0.01
06/06/2023, 12:29 Modelos ARIMA
[39,] 0.47 -0.01
[40,] 0.45 -0.01
[41,] 0.44 0.00
[42,] 0.43 -0.01
[43,] 0.42 -0.01
[44,] 0.41 -0.01
[45,] 0.40 -0.01
[46,] 0.38 -0.01
[47,] 0.37 -0.01
[48,] 0.36 -0.02
[49,] 0.35 -0.02
[50,] 0.33 -0.01
ACF e PACF amostrais dos dados do PIB. O lag ou atraso é em termos de anos.
Quando são apresentados relatórios do PIB e indicadores econômicos similares, geralmente é na

taxa de crescimento ou variação percentual e não nos valores reais ou ajustados que presta-se
interesse. A taxa de crescimento, digamos, X = ∇ log(Y ) é plotada na figura embaixo e parece
t t
ser um processo estável.
Taxa de crescimento trimestral do PIB norte-americano. A linha horizontal

exibe o crescimento médio do processo, que é próximo de 1%.
> gnpgr = diff(log(gnp)) # taxa de crescimento

06/06/2023, 12:29 Modelos ARIMA
> plot(gnpgr, xlab="Tempo", ylab=expression(paste(nabla,log,"(",Y[t],")")))
> grid()
> abline(h=mean(gnpgr), lwd=2, col="darkblue")
> text(1975, 0.04, "Taxa de crescimento do PIB ", col="darkred")
A funções ACF e PACF amostrais da taxa de crescimento trimestral estão representadas na figura
abaixo. Inspecionando as ACF e PACFa mostrais, podemos sentir que o ACF está cortando no lag
ou atraso 2 e o PACF está diminuindo. Isto sugeriria que a taxa de crescimento do PIB segue um
processo M A(2) ou que o logartimo do PIB segue um modelo ARI M A(0, 1, 2) . Em vez de focar em
um modelo, também sugeriremos que parece que o ACF está diminuindo e o PACF está cortando na
defasagem 1. Isso sugere um modelo AR(1) para a taxa de crescimento ou ARI M A(1, 1, 0) para
logartimo do PIB. Como uma análise preliminar, vamos encaixar ambos os modelos.
ACF e PACF amostrais da taxa de crescimento trimestral do PIB. O lag ou

atraso é em termos de anos.
> acf2(gnpgr, 24)

ACF PACF
[1,] 0.35 0.35
[2,] 0.19 0.08
[3,] -0.01 -0.11
[4,] -0.12 -0.12
[5,] -0.17 -0.09
[6,] -0.11 0.01
[7,] -0.09 -0.03
[8,] -0.04 -0.02
[9,] 0.04 0.05
[10,] 0.05 0.01
[11,] 0.03 -0.03
[12,] -0.12 -0.17
[13,] -0.13 -0.06
[14,] -0.10 0.02
[15,] -0.11 -0.06
[16,] 0.05 0.10
[17,] 0.07 0.00
[18,] 0.10 0.02
[19,] 0.06 -0.04
[20,] 0.07 0.01
[21,] -0.09 -0.11
[22,] -0.05 0.03
[23,] -0.10 -0.03
06/06/2023, 12:29 Modelos ARIMA
[24,] -0.05 0.00
Usando a estimação por máxima verossimilhança para ajustar o modelo M A(2) para a taxa de
crescimento X , o modelo estimado é
t
ˆ ˆ ˆ ˆ
X t = 0.008(0.001) + 0.303(0.065) W t−1 + 0.204(0.064) W t−2 + W t ,
onde σ̂ = 0.0094 com 219 graus de liberdade. Os valores entre parênteses correspondem aos
W
erros padrão estimados. Todos os coeficientes de regressão são significativos, incluindo a

constante.
> sarima(gnpgr, 0, 0, 2) # MA(2)

initial value -4.591629
iter 2 value -4.661095
final value -4.662243
converged
converged
$fit
Call:
stats::arima(x = xdata, order = c(p, d, q), seasonal = list(order = c(P, D,
Q), period = S), xreg = xmean, include.mean = FALSE, transform.pars = trans,
fixed = fixed, optim.control = list(trace = trc, REPORT = 1, reltol = tol))
Coefficients:
ma1 ma2 xmean
0.3028 0.2035 0.0083
s.e. 0.0654 0.0644 0.0010
sigma^2 estimated as 8.919e-05: log likelihood = 719.96, aic = -1431.93
$degrees_of_freedom
[1] 219
$ttable
Estimate SE t.value p.value
ma1 0.3028 0.0654 4.6272 0.0000
ma2 0.2035 0.0644 3.1594 0.0018
xmean 0.0083 0.0010 8.7178 0.0000
$AIC
[1] -6.450133
$AICc
[1] -6.449637
$BIC
[1] -6.388823
Resíduos do modelo M A(2) .
06/06/2023, 12:29 Modelos ARIMA
Fazemos uma nota especial disso porque, como padrão, alguns pacotes computacionais não ajustam
uma constante em um modelo diferenciado. Ou seja, esses pacotes assumem, por padrão, que não
há desvio. Neste exemplo, não incluir uma constante leva a conclusões erradas sobre a natureza
da economia dos EUA. A não inclusão de uma constante assume que a taxa de crescimento média
trimestral é zero, enquanto a taxa de crescimento trimestral média do PIB dos EUA é de cerca
de 1%, o que pode ser visto facilmente na figura da taxa de crescimento. Deixamos para o
leitor investigar o que acontece quando a constante não é incluída.
O modelo AR(1) estimado é
ˆ ˆ ˆ
X t = 0.008(0.001) (1 − 0.347) + 0.347(0.063) X t−1 + W t ,
onde σ̂
W
= 0.0095 com 220 graus de liberdade, observe que a constante na expressão acima é
0.008(1-0.347)=0.005.
> sarima(gnpgr, 1, 0, 0) # AR(1)

converged
converged
$fit
Call:
06/06/2023, 12:29 Modelos ARIMA
Q), period = S), xreg = xmean, include.mean = FALSE, transform.pars = trans,
fixed = fixed, optim.control = list(trace = trc, REPORT = 1, reltol = tol))
Coefficients:
ar1 xmean
0.3467 0.0083
s.e. 0.0627 0.0010
sigma^2 estimated as 9.03e-05: log likelihood = 718.61, aic = -1431.22
$degrees_of_freedom
[1] 220
$ttable
ar1 0.3467 0.0627 5.5255 0
xmean 0.0083 0.0010 8.5398 0
$AIC
[1] -6.44694
$AICc
[1] -6.446693
$BIC
[1] -6.400958
Resíduos do modelo AR(1) .
Discutiremos os diagnósticos a seguir, mas assumindo que ambos os modelos se encaixam bem,
como vamos reconciliar as diferenças aparentes dos modelos estimados. De fato, os modelos
ajustados são quase os mesmos. Para mostrar isso, considere um modelo AR(1) sem um termo
constante; isto é,
Xt = 0.35Xt−1 + Wt ,
06/06/2023, 12:29 Modelos ARIMA
e escrevê-lo em sua forma causal
∞
Xt = ∑ ψj Wt−j ,
j=0
onde lembramos que ψ = 0.35 . Portanto,

j
j
ψ0 = 0 , ψ = 0.350, ψ = 0.123,
1 2 ψ3 = 0.043, ψ4 = 0.015 ,
ψ = 0.005, ψ = 0.002, ψ = 0.001, ψ =
5 6 7 8 0 e assim por diante. Portanto,
Xt ≈ 0.35Wt−1 + 0.12Wt−2 + Wt ,
que é semelhante ao modelo M A(2) .
O próximo passo no ajuste do modelo é o diagnóstico. Esta investigação inclui a análise dos resíduos,
bem como comparações de modelos. Mais uma vez, o primeiro passo envolve um gráfico de tempo das
t−1
inovações ou resíduos X t − X̂ t
ou das inovações padronizadas
t−1
X t − X̂ t
ϵt = ,
−−−−
t−1
ˆ
√P
t
t−1 t−1
onde X̂ t é a previsão de Xt com um passo à frente com base no modelo ajustado e Pˆt é a
variância estimada do erro de um passo à frente. Se o modelo se encaixa bem, os resíduos padronizados
devem se comportar como uma sequência independente e identicamente distribuída com média zero e
variância um. O gráfico de tempo deve ser inspecionado para quaisquer desvios óbvios desta suposição.
A menos que a série temporal seja gaussiana, não é suficiente que os resíduos sejam não
correlacionados. Por exemplo, é possível, no caso não gaussiano, ter um processo não correlacionado
para o qual os valores contíguos no tempo sejam altamente dependentes. Como exemplo, mencionamos
a família de modelos GARCH que serão discutidos no Capítulo V.
A investigação da normalidade marginal pode ser realizada visualmente, observando-se um histograma

dos resíduos. Além disso, um gráfico de probabilidade normal ou um gráfico Q-Q pode ajudar a
identificar desvios da normalidade. Veja Johnson e Wichern (1992) para detalhes deste teste, bem como
testes adicionais para normalidade multivariada.
Existem vários testes de aleatoriedade, por exemplo, o teste de execução, que pode ser aplicado aos
resíduos. Poderíamos também inspecionar as autocorrelações amostrais dos resíduos, digamos, ρ̂ ϵ (h),
para quaisquer padrões ou valores grandes. Lembre-se de que, para uma sequência de ruído branco, as
autocorrelações amostrais são aproximadamente independentes e normalmente distribuídas com média
zero e variância 1/n. Portanto, uma boa verificação na estrutura de correlação dos resíduos é traçar
−
−
ρ̂ ϵ (h) versus versus h juntamente com os limites de erro de ±2/√n . Os resíduos de um ajuste de
modelo, no entanto, não terão exatamente as propriedades de uma sequência de ruído branco e a
variância de ρ̂ ϵ (h) pode ser muito menor que 1/n. Detalhes podem ser encontrados em Box e Pierce
(1970) e McLeod (1978). Esta parte dos diagnósticos pode ser vista como uma inspeção visual de ρ̂ ϵ (h)
com a principal preocupação sendo a detecção de desvios óbvios da suposição de independência.
Além de mostrar o ρ̂ ϵ (h), podemos realizar um teste geral que leva em consideração as magnitudes de
ρ̂ ϵ (h) como um grupo. Por exemplo, pode ser o caso de, individualmente, cada ρ̂ ϵ (h) ser pequeno em
magnitude, digamos, cada um é ligeiramente menor que 2/√− −

n em magnitude, mas, coletivamente, os
valores são grandes. A estatística Q de Ljung-Box-Pierce dada por
H
ρ̂ ϵ (h)
Q = n(n + 2) ∑ ,
n − h
h=1
pode ser usada para realizar tal teste. O valor H na expressão acima é escolhido arbitrariamente,
tipicamente, H = 20. Sob a hipótese nula de adequação do modelo, assintoticamente, Q ∼ χ
2
H −p−q
.
Assim, rejeitaríamos a hipótese nula no nível α se o valor de Q exceder o valor do quantil 1 − α da
distribuição χ
2
H −p−q
. Detalhes podem ser encontrados em Box e Pierce (1970), Ljung e Box (1978) e
Davies et al. (1977). A ideia básica é que se é ruído branco, então por Proposição I.2, para
2
Wt nρ̂ W (h)
h = 1, ⋯ , H , são variáveis aleatórias assintoticamente independentes com distribuição . Isso

2
χ
1
significa que
H
2
n ∑ ρ̂ W (h),
h=1
06/06/2023, 12:29 Modelos ARIMA
é aproximadamente uma variável aleatória com distribuição χ

2
H
. Como o teste envolve o ACF dos
resíduos de um ajuste de modelo, há uma perda de p + q graus de liberdade; os outros valores na
expressão da estatística Q são usados para ajustar a estatística para melhor corresponder à distribuição
qui-quadrada assintoticamente.
Exemplo III.40. Diagnósticos para o exemplo da taxa de crescimento do PIB.
Vamos nos concentrar no ajuste M A(2) do Exemplo III.39; a análise dos resíduos do modelo
AR(1) é semelhante. A figura mostra um gráfico dos resíduos padronizados, o ACF dos resíduos,
um boxplot dos resíduos padronizados e os p-valores associados à estatística-Q nas defasagens
H = 3 até H = 20 , com H − 2 graus de liberdade.
Resíduos do modelo M A(2) .
A inspeção do gráfico de tempo dos resíduos padronizados na figura acima não mostra padrões
óbvios. Observe que pode haver outliers, com alguns valores excedendo 3 desvios padrão em
magnitude. O ACF dos resíduos padronizados não mostra nenhum desvio aparente das premissas do
modelo e a estatística Q nunca é significativa nas defasagens mostradas. O gráfico Q-Q normal
dos resíduos mostra que a suposição de normalidade é razoável, com exceção dos possíveis
outliers.
O modelo parece se encaixar bem. Os diagnósticos mostrados na figura acima são um subproduto
do comando sarima do exemplo anterior, Exemplo III.39. O script tsdiag está disponível no R
para executar diagnósticos para um objeto ARIMA, no entanto, o script possui erros e não é
recomendável usá-lo.
Exemplo III.41. Diagnósticos para o exemplo das Variedades Glaciais Paleoclimáticas.
No Exemplo III.33, ajustamos um modelo ARI M A(0, 1, 1) aos logaritmos dos dados das variedades
glaciais Paleoclimáticasvariante e parece haver uma pequena quantidade de autocorrelação nos
resíduos e os testes-Q são todos significativos; veja a figura abaixo.
Resíduos do modelo ARI M A(0, 1, 1) .
06/06/2023, 12:29 Modelos ARIMA
> sarima(log(varve), 0, 1, 1, no.constant=TRUE) # ARIMA(0,1,1)

converged
converged
$fit
Call:
Q), period = S), include.mean = !no.constant, transform.pars = trans, fixed = fixed,
optim.control = list(trace = trc, REPORT = 1, reltol = tol))
Coefficients:
ma1
-0.7705
s.e. 0.0341
$degrees_of_freedom
[1] 632
$ttable
ma1 -0.7705 0.0341 -22.6161 0
$AIC
[1] 1.398792
06/06/2023, 12:29 Modelos ARIMA
$AICc
[1] 1.398802
$BIC
[1] 1.412853
Para retificar este problema, ajustamos um ARI M A(1, 1, 1) aos dados das variedades glaciais
registradas e obteve as estimativas
ˆ 2
ˆ
ϕ = 0.23(0.05) , θ = −0.89(0.03) , σ̂ W = 0.23⋅
Portanto, o termo AR é significativo. Os p-valores da estatística Q para este modelo também

são exibidos na figura abaixo e parece que esse modelo se ajusta bem aos dados.
Resíduos do modelo ARI M A(1, 1, 1) .
Como dito anteriormente, os diagnósticos são subprodutos das execuções individuais do sarima.
Notamos que não ajustamos uma constante em nenhum modelo porque não há desvio aparente na
série. Este fato pode ser verificado observando que a constante não é significativa quando o
comando no.constant = TRUE é removido no código:
> sarima(log(varve), 1, 1, 1, no.constant=TRUE) # ARIMA(1,1,1)

iter 10 value -0.737381
iter 11 value -0.737469
iter 12 value -0.737473
iter 13 value -0.737473
iter 14 value -0.737473
iter 14 value -0.737473
iter 14 value -0.737473
converged
06/06/2023, 12:29 Modelos ARIMA
converged
$fit
Call:
Coefficients:
ar1 ma1
0.2330 -0.8858
s.e. 0.0518 0.0292
$degrees_of_freedom
[1] 631
$ttable
ar1 0.2330 0.0518 4.4994 0
ma1 -0.8858 0.0292 -30.3861 0
$AIC
[1] 1.37263
$AICc
[1] 1.372661
$BIC
[1] 1.393723
No Exemplo III.39, temos dois modelos concorrentes, um AR(1) e um M A(2) sobre a taxa de
crescimento do PIB, que parecem se encaixar bem nos dados. Além disso, podemos também considerar
que um AR(2) ou um M A(3) podem ser melhores para a previsão. Talvez combinar os dois modelos,
isto é, ajustar um ARM A(1, 2) na taxa de crescimento do PIB, seria o melhor. Como mencionado
anteriormente, temos que nos preocupar com o overfitting do modelo; isso porque nem sempre é o caso
que mais é melhor. O overfitting leva a estimadores menos precisos e a adição de mais parâmetros pode
adequar melhor os dados, mas também pode levar a previsões ruins. Esse resultado é ilustrado no
exemplo a seguir.
Exemplo III.42. Um problema com overfitting.
A figura mostra a população dos EUA por censo oficial a cada dez anos, de 1910 a 1990, como
pontos. Se usarmos essas nove observações para prever a população futura, podemos usar um
polinômio de oito graus para que o ajuste às nove observações seja perfeito. O modelo neste
caso é
2 8
Xt = β0 + β1 t + β2 t + ⋯ + β8 t + Wt ⋅
A linha ajustada, que é plotada na figura, passa pelas nove observações. O modelo prevê que a
população dos Estados Unidos crescerá pouco no ano 2000 e irá diminiuir fortemente sendo em
2020 a população similar à população de 1960 enquanto a população projetada para 2020 deve ser
333.546.000.
06/06/2023, 12:29 Modelos ARIMA
O código R para gerar os resultados da figura acima são os seguintes:
> pop = c(0.9241, 1.0646,1.2308,1.3212,1.5227,1.8067,2.0505,2.2722,2.4962)

> anos = c(1910,1920,1930,1940,1950,1960,1970,1980,1990)
> plot(c(pop,NA,NA,NA) ~ c(anos,2000,2010,2020), ylab=expression(paste("População ",x10^8)),xlab="")
> grid()
> adj = lm(pop ~ anos+I(anos^2)+I(anos^3)+I(anos^4)+I(anos^5)+I(anos^6)+I(anos^7)+I(anos^8))
> lines(c(anos,2000,2010,2020),c(fitted(adj),predict(adj,
newdata = data.frame(anos = c(2000,2010,2020)))))
A etapa final do ajuste do modelo é a escolha do modelo ou a seleção do modelo. Ou seja, devemos
decidir qual modelo iremos reter para previsão. As técnicas mais populares, AIC, AICc e BIC, foram
descritas na Seção II.1 no contexto de modelos de regressão.
Exemplo III.43. Escolha do modelo para a série do PIB dos EUA.
Retornando à análise dos dados do PIB dos EUA apresentados no Exemplo III.39 e no Exemplo
III.40, lembremos que dois modelos, um AR(1) e um M A(2), se ajustam bem à taxa de
crescimento do PIB. Para escolher o modelo final, comparamos o AIC, o AICc e o BIC para ambos
os modelos. Esses valores são um subproduto das execuções do comando sarima exibidas no final
do Exemplo III.39 mas, por conveniência, exibimos novamente aqui lembrando que os dados da
taxa de crescimento estão no objeto gnpgr:
> # AR(1)
> sarima(gnpgr, 1, 0, 0, details = FALSE)$AIC
[1] -6.44694
> sarima(gnpgr, 1, 0, 0, details = FALSE)$AICc
[1] -6.446693
> sarima(gnpgr, 1, 0, 0, details = FALSE)$BIC
[1] -6.400958
> # MA(2)
> sarima(gnpgr, 0, 0, 2, details = FALSE)$AIC
[1] -6.450133
> sarima(gnpgr, 0, 0, 2, details = FALSE)$AICc
[1] -6.449637
> sarima(gnpgr, 0, 0, 2, details = FALSE)$BIC
06/06/2023, 12:29 Modelos ARIMA
[1] -6.388823
O AIC e o AICc preferem o ajuste M A(2) , enquanto o BIC prefere o modelo AR(1) mais simples.
Geralmente, o BIC selecionará um modelo de ordem menor que o AIC ou AICc. Em ambos os casos,
não é irracional manter o AR(1) porque os modelos autorregressivos puros são mais fáceis de
trabalhar.
III.8 Regressão com erros autocorrelacionados
Na Seção II.1, cobrimos o modelo de regressão clássico com erros não correlacionados Wt . Nesta
seção, discutimos as modificações que podem ser consideradas quando os erros são correlacionados. Ou
seja, considere o modelo de regressão
r
Y t = ∑ βj zt,j + X t ,
j=1
onde Xt é um processo com alguma função de covariância γX (s, t) . Em mínimos quadrados ordinários,
a suposição é que Xt é ruído branco gaussiano, em que γ (s, t) = 0 para s ≠ t e γ (t, t) = σ 2 , X X
independente de t. Se este não for o caso, então os mínimos quadrados ponderados devem ser usados.
Escrevendo o modelo em notação vetorial, Y = Zβ, onde Y = (Y 1 , ⋯ , Y n )

⊤
e X = (X 1 , ⋯ , X n )
⊤
são vetores n × 1, β = (β1 , ⋯ , βr ) é ⊤

r × 1 e Z = (Z1 |Z2 | ⋯ |zn )
⊤
é uma matriz n × r matriz
composta das variáveis de entrada. Seja Γ = {γ
X
(s, t)} , então
−1/2 −1/2 −1/2

Γ Y = Γ Zβ + Γ X,
para que possamos escrever o modelo como
∗ ∗
Y = Z β + δ,
onde Y
∗
= Γ
−1/2
Y , Z
∗
= Γ
−1/2
Z e δ = Γ
−1/2
X. Consequentemente, a matriz de covariância de δ éa
identidade e o modelo está na forma de modelo linear clássico. Segue-se que a estimativa ponderada de
β é
−1
ˆ ∗⊤ ∗ ∗⊤ ∗ ⊤ −1 −1 ⊤ −1
βW = (Z Z ) Z Y = (Z Γ Z) Z Γ Y
e a matriz de variâncias e covariâncias do estimador é
ˆ ⊤ −1 −1
Var(β W ) = (Z Γ Z) ⋅
Se Xt é ruído branco, então Γ = σI e estes resultados reduzem-se aos resultados usuais de mínimos
quadrados.
No caso de séries temporais, muitas vezes é possível assumir uma estrutura de covariância estacionária
para o processo de erro Xt que corresponde a um processo linear e tentar encontrar uma representação
ARMA para Xt . Por exemplo, se tivermos um erro AR(p) puro,
ϕ(B)X t = Wt ,
e ϕ(B) = 1 − ϕ1 B − ⋯ − ϕp B
p
é a transformação linear que, quando aplicada ao processo de erro,
produz o ruído branco Wt . Multiplicando a equação de regressão através da transformação ϕ(B),
produz
r
ϕ(B)Y t = ∑ βj ϕ(B)zt,j + ϕ(B)X t

  
j=1
∗ ∗
Y z Wt
t t,j
e estamos de volta ao modelo de regressão linear onde as observações foram transformadas de modo
que Y
∗
t
= ϕ(B)Y t seja a variável dependente, z
t,j
∗
= ϕ(B)zt,j para j = 1, ⋯ , r, são as variáveis
independentes, mas os β são os mesmos que no modelo original. Por exemplo, se p = 1, então
= Y t − ϕY t−1 e z = zt,j − ϕZt−1,j .
∗ ∗
Y
t t,j
No caso de AR, podemos configurar o problema dos quadrados mínimos para minimizar a soma dos
quadrados dos erros
06/06/2023, 12:29 Modelos ARIMA
2
n n r
2
S (ϕ, β) ´ = ∑ W = ∑ (ϕ(B)Y t − ∑ βj ϕ(B)Zt,j ) ,
t
t=1 t=1 j=1
com relação a todos os parâmetros ϕ = (ϕ 1 , ⋯ , ϕ p ) e β = (β1 , ⋯ , βr ). Naturalmente, a otimização é

realizada usando métodos numéricos.
Se o processo de erro é ARM A(p, q) , ou seja, ϕ(B)X t = θ(B)Wt , então na discussão acima,
transformamos por π(B)Xt = Wt , onde π(B) = θ(B)
−1
ϕ(B) . Neste caso, a soma dos quadrados dos
erros também depende de θ = (θ1 , ⋯ , θq ) :
2
n n r
2
S (ϕ, θ, β) ´ = ∑ W = ∑ (π(B)Y t − ∑ βj π(B)Zt,j ) ,
t
t=1 t=1 j=1
Neste ponto, o principal problema é que normalmente não conhecemos o comportamento do ruído Xt
antes da análise. Uma maneira fácil de resolver esse problema foi apresentada pela primeira vez em
Cochrane e Orcutt (1949) e com o advento da computação barata é modernizado abaixo:
(i) Primeiro, execute uma regressão ordinária de Yt em zt,1 , ⋯ , ztr agindo como se os erros não
fossem correlacionados. Guarde os resíduos,
r
ˆ
X̂ t = Y t − ∑ β j zt,j ⋅
j=1
(ii) Identifique modelo ARMA para os resíduos X̂ t .

(iii) Executar os mínimos quadrados ponderados ou MLE no modelo de regressão com erros
autocorrelacionados usando o modelo especificado na etapa (ii).
(iv) Inspecione os resíduos Ŵ t , verificando são um ruído branco e ajuste o modelo, se necessário.
Exemplo III.44. Mortalidade, Temperatura e Poluição.
Consideramos as análises apresentadas no Exemplo II.2, relacionando a temperatura média

ajustada T e os níveis de partículas
t Pt com a mortalidade cardiovascular Mt . Consideramos o
modelo de regressão
2
Mt = β1 + β2 t + β3 T t + β4 T + β5 P t + Xt ,
t
onde, por enquanto, assumimos que X é ruído branco. O ACF e o PACF amostrais dos resíduos do
t
ajuste de mínimos quadrados ordinários são mostrados na figura abaixo e os resultados sugerem
um modelo AR(2) para os resíduos.
Nossa próxima etapa é ajustar o modelo de erro correlacionado mostrado acima, mas onde Xt é
AR(2) ,
Xt = ϕ1 Xt−1 + ϕ2 Xt−2 + Wt ,
06/06/2023, 12:29 Modelos ARIMA
e Wt é um ruído branco. O modelo pode ser ajustado usando a função sarima da seguinte forma:
> trend = time(cmort); temp = tempr - mean(tempr); temp2 = temp^2

> summary(fit <- lm(cmort~trend + temp + temp2 + part, na.action=NULL))
Call:
lm(formula = cmort ~ trend + temp + temp2 + part, na.action = NULL)
Residuals:
Min 1Q Median 3Q Max
-19.0760 -4.2153 -0.4878 3.7435 29.2448
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.831e+03 1.996e+02 14.19 < 2e-16 ***
trend -1.396e+00 1.010e-01 -13.82 < 2e-16 ***
temp -4.725e-01 3.162e-02 -14.94 < 2e-16 ***
temp2 2.259e-02 2.827e-03 7.99 9.26e-15 ***
part 2.554e-01 1.886e-02 13.54 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 6.385 on 503 degrees of freedom

Multiple R-squared: 0.5954, Adjusted R-squared: 0.5922
F-statistic: 185 on 4 and 503 DF, p-value: < 2.2e-16
> acf2(resid(fit), 52) # implies AR2

ACF PACF
[1,] 0.34 0.34
[2,] 0.44 0.36
[3,] 0.28 0.08
[4,] 0.28 0.06
[5,] 0.16 -0.05
[6,] 0.12 -0.05
[7,] 0.07 -0.02
[8,] 0.01 -0.05
[9,] 0.03 0.02
[10,] -0.05 -0.06
[11,] -0.02 0.00
[12,] 0.00 0.06
[13,] -0.04 -0.02
[14,] -0.02 0.00
[15,] 0.01 0.04
[16,] -0.05 -0.08
[17,] -0.01 0.00
[18,] -0.03 -0.01
[19,] -0.06 -0.06
[20,] -0.03 0.03
[21,] -0.03 0.02
[22,] -0.05 -0.03
[23,] 0.00 0.05
[24,] -0.02 -0.01
[25,] -0.01 0.00
[26,] -0.05 -0.06
[27,] 0.03 0.06
[28,] -0.11 -0.11
[29,] -0.02 0.00
[30,] -0.10 -0.05
[31,] -0.02 0.05
[32,] -0.09 -0.04
[33,] -0.03 0.04
[34,] -0.10 -0.06
[35,] -0.08 -0.06
[36,] -0.10 -0.05
06/06/2023, 12:29 Modelos ARIMA
[37,] -0.07 0.03
[38,] -0.07 -0.02
[39,] -0.05 0.02
[40,] -0.05 -0.01
[41,] -0.04 0.00
[42,] -0.03 0.00
[43,] -0.04 -0.01
[44,] 0.05 0.08
[45,] 0.00 -0.01
[46,] 0.04 -0.01
[47,] 0.08 0.08
[48,] 0.07 -0.01
[49,] 0.06 -0.01
[50,] 0.05 -0.03
[51,] 0.07 0.03
[52,] 0.02 -0.04
> sarima(cmort, 2,0,0, xreg=cbind(trend,temp,temp2,part))
initial value 1.849900
iter 2 value 1.733730
final value 1.628608
converged
initial value 1.630401
06/06/2023, 12:29 Modelos ARIMA
final value 1.630346
converged
$fit
Call:
Q), period = S), xreg = xreg, transform.pars = trans, fixed = fixed,
Coefficients:
ar1 ar2 intercept trend temp temp2 part
0.3848 0.4326 3075.1482 -1.5165 -0.0190 0.0154 0.1545
s.e. 0.0436 0.0400 834.7157 0.4226 0.0495 0.0020 0.0272
$degrees_of_freedom
[1] 501
$ttable
ar1 0.3848 0.0436 8.8329 0.0000
ar2 0.4326 0.0400 10.8062 0.0000
intercept 3075.1482 834.7157 3.6841 0.0003
trend -1.5165 0.4226 -3.5882 0.0004
temp -0.0190 0.0495 -0.3837 0.7014
temp2 0.0154 0.0020 7.6117 0.0000
part 0.1545 0.0272 5.6803 0.0000
$AIC
[1] 6.130066
$AICc
[1] 6.130507
$BIC
[1] 6.196687
06/06/2023, 12:29 Modelos ARIMA
A saída de análise dos resíduos do sarima não mostra nenhum problema óbvio de afastamento dos
resíduos de um ruído branco.
Exemplo III.45. Regressão com variáveis defasadas.
No Exemplo II.29 ajustamos o modelo
Rt = β0 + β1 St−6 + β2 Dt−6 + β3 Dt−6 St−6 + Wt ,
onde R é o Recrutamento, S é SOI e D é uma variável fictícia que é 0 se S < 0 e 1 caso

t t t t
contrário. No entanto, a análise dos resíduos indica que os resíduos não são ruído branco. O
ACF e o PACF amostrais dos resíduos indicam que um modelo AR(2) pode ser apropriado, o que é
semelhante aos resultados do Exemplo III.44.
> dummy = ifelse(soi<0, 0, 1)

> fish = ts.intersect(rec, soiL6=lag(soi,-6), dL6=lag(dummy,-6), dframe=TRUE)
> summary(fit <- lm(rec ~soiL6*dL6, data=fish, na.action=NULL))
Call:
lm(formula = rec ~ soiL6 * dL6, data = fish, na.action = NULL)
Residuals:
Min 1Q Median 3Q Max
-63.291 -15.821 2.224 15.791 61.788
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 74.479 2.865 25.998 < 2e-16 ***
soiL6 -15.358 7.401 -2.075 0.0386 *
dL6 -1.139 3.711 -0.307 0.7590
soiL6:dL6 -51.244 9.523 -5.381 1.2e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 21.84 on 443 degrees of freedom

Multiple R-squared: 0.4024, Adjusted R-squared: 0.3984
F-statistic: 99.43 on 3 and 443 DF, p-value: < 2.2e-16
> attach(fish)
The following objects are masked from fish (pos = 3):
dL6, rec, soiL6
The following object is masked from package:astsa:
rec

> plot(resid(fit))
> acf2(resid(fit)) # indica AR(2)
ACF PACF
[1,] 0.69 0.69
[2,] 0.62 0.26
[3,] 0.49 -0.01
[4,] 0.37 -0.08
[5,] 0.24 -0.12
[6,] 0.15 -0.04
[7,] 0.08 0.01
[8,] 0.00 -0.05
[9,] -0.03 0.01
[10,] -0.10 -0.07
[11,] -0.13 -0.05
06/06/2023, 12:29 Modelos ARIMA
[12,] -0.16 -0.02
[13,] -0.17 -0.01
[14,] -0.23 -0.12
[15,] -0.24 -0.04
[16,] -0.23 0.02
[17,] -0.23 -0.02
[18,] -0.22 0.00
[19,] -0.17 0.03
[20,] -0.09 0.12
[21,] -0.05 0.02
[22,] 0.01 -0.01
[23,] 0.05 0.01
[24,] 0.06 -0.04
[25,] 0.09 0.00
[26,] 0.07 -0.04
[27,] 0.10 0.06
[28,] 0.06 -0.09
[29,] 0.02 -0.10
[30,] -0.02 -0.05
[31,] -0.02 0.04
[32,] -0.02 0.04
[33,] -0.03 -0.01
[34,] -0.02 0.03
[35,] 0.00 0.04
[36,] 0.01 0.01
[37,] -0.01 -0.04
[38,] -0.04 -0.07
[39,] -0.07 -0.04
[40,] -0.05 0.06
[41,] -0.06 0.01
[42,] -0.03 0.06
[43,] -0.02 -0.02
[44,] 0.01 0.00
[45,] 0.04 0.03
[46,] 0.04 -0.04
[47,] 0.08 0.04
[48,] 0.08 -0.01
> intract = soiL6*dL6 # termo de intercepto

> sarima(rec,2,0,0, xreg = cbind(soiL6, dL6, intract), details = FALSE)$ttable
ar1 1.3624 0.0440 30.9303 0.0000
ar2 -0.4703 0.0444 -10.5902 0.0000
06/06/2023, 12:29 Modelos ARIMA
intercept 64.8028 4.1121 15.7590 0.0000
soiL6 8.6671 2.2205 3.9033 0.0001
dL6 -2.5945 0.9535 -2.7209 0.0068
intract -10.3092 2.8311 -3.6415 0.0003
III.9 Modelos ARIMA sazonais multiplicativos
Nesta seção, introduzimos várias modificações feitas no modelo ARIMA para considerar o
comportamento sazonal e não-estacionário. Muitas vezes, a dependência do passado tende a ocorrer
mais fortemente em múltiplos de alguns lag s sazonais subjacentes. Por exemplo, com dados
econômicos mensais, há um forte componente anual ocorrendo em lags que são múltiplos de s = 12,
devido às fortes conexões de todas as atividades ao ano civil. Os dados obtidos trimestralmente exibirão
o período anual repetitivo em s = 4 trimestres. Fenômenos naturais como a temperatura também têm
componentes fortes correspondentes às estações do ano. Assim, a variabilidade natural de muitos
processos físicos, biológicos e econômicos tende a combinar com as flutuações sazonais. Por causa
disso, é apropriado introduzir polinômios autorregressivos de médias móveis que se identifiquem com as
defasagens sazonais. O modelo resultante de médias móveis autorregressivo puro resultante, digamos,
ARM A(P , Q), então assume a forma
s s
Φ P (B )X t = Θ Q (B )W t ,
onde os operadores
s 2s Ps
ΦP = 1 − Φ1 B − Φ2 B − ⋯ − ΦP B
s 2s Qs
ΘQ = 1 + Θ1 B + Θ2 B + ⋯ + ΘQ B ,
são o operador autoregressivo sazonal e o operador de médias móveis sazonal das ordens P e Q,
respectivamente, com o período sazonal s.
Analogamente às propriedades dos modelos de ARMA não sazonais, o ARM A(P , Q)s puro e sazonal é
causal apenas quando as raízes de Φ P (z )
s
se situam fora do círculo unitário, e é invertível somente
quando as raízes de s
Θ Q (z ) estão fora do círculo unitário.
Exemplo III.46. Uma série AR sazonal.
Uma série autorregressiva sazonal de primeira ordem que pode ser executada ao longo de meses
pode ser escrita como
12
(1 − ΦB )X t = Wt
06/06/2023, 12:29 Modelos ARIMA
ou
Xt = ΦXt−12 + Wt ⋅
Este modelo exibe a série Xt em termos de atrasos passados no múltiplo do período sazonal
anual s = 12 meses. Fica claro, a partir da forma acima, que a estimação e previsão para tal
processo envolve apenas modificações diretas do caso de defasagem unitária já tratado. Em
particular, a condição causal requer |Φ| < 1 .
Simulamos 3 anos de dados do modelo com Φ = 0.9, e exibimos o ACF teórico e o PACF do modelo.
Veja a figura.
Dados gerados a partir de um AR(1) sazonal, s = 12 e o ACF verdadeiro e PACF do modelo

Xt = 0.9Xt−12 + Wt .
> set.seed(666)
> phi = c(rep(0,11),.9)
> sAR = arima.sim(list(order=c(12,0,0), ar=phi), n=37)
> sAR = ts(sAR, freq=12)
> layout(matrix(c(1,1,2, 1,1,3), nc=2))
> par(mar=c(3,3,2,1), mgp=c(1.6,.6,0))
> plot(sAR, axes=FALSE, main='sazonal AR(1)', xlab="Anos", type='c')
> grid()
> Months = c("J","F","M","A","M","J","J","A","S","O","N","D")
> points(sAR, pch=Months, cex=1.25, font=4, col=1:4)
> axis(1, 1:4); abline(v=1:4, lty=2, col=gray(.7))
> axis(2); box()
> ACF = ARMAacf(ar=phi, ma=0, 100)
> PACF = ARMAacf(ar=phi, ma=0, 100, pacf=TRUE)
> plot(ACF,type="h", xlab="LAG", ylim=c(-.1,1)); abline(h=0)
> plot(PACF, type="h", xlab="LAG", ylim=c(-.1,1)); abline(h=0)
Para o modelo de MA sazonal de primeira ordem, s = 12 , Xt = Wt + ΘWt−12 podemos verificar

que
2
γ(0) = (1 + Θ )σ ,
2
γ(±12) = Θσ
2
e γ(h) = 0, á
caso contr rio⋅
06/06/2023, 12:29 Modelos ARIMA
Assim, a única correlação não nula, além do desfasamento zero, é
Θ
ρ(±12) = ⋅
2
1 + Θ
Para o modelo de AR sazonal de primeira ordem, s = 12 , usando as técnicas do AR(1) não

sazonal, temos
2 2 k
σ σ Φ
γ(0) = , γ(±12k) = , k = 1, 2, ⋯ e γ(h) = 0, á
caso contr rio⋅
2 2
1 − Φ 1 − Φ
Neste caso, as únicas correlações não nulas são ρ(±12k) = Φ

k
, k = 0, 1, 2, ⋯ .
Estes resultados podem ser verificados usando o resultado geral que γ(h) = Φ (h − 12)
γ
, para
h ≥ 1 . Por exemplo, quando h = 1 , γ(1) = Φ (11)
γ
, mas quando h = 11 , temos γ(11) = Φ (1)
γ
, o que
implica que γ(1) = γ(11) = 0 . Além desses resultados, o PACF tem as extensões análogas de
modelos não sazonais a sazonais. Esses resultados são demonstrados na figura acima.
Como critério inicial de diagnóstico, podemos usar as propriedades das séries autorregressivas sazonais
e de médias móveis sazonais listadas na Tabela abaixo.
Tabela III.3. Comportamento do ACF e PACF para modelos SARMA puros
AR(P )s M A(Q)s ARM A(P , Q)s
AC F
∗
Cauda em retardos ks Corta depois Cauda em retardos
k = 1, 2, ⋯ lag Qs lags ks
P AC F
∗
Corta depois Cauda em retardos ks Cauda em retardos
lag Ps k = 1, 2, ⋯ lags ks
*Os valores em atrasos não sazonais h ≠ ks, para k = 1, 2, ⋯, são zero.
Como critério inicial de diagnóstico, podemos usar as propriedades das séries autorregressivas sazonais
e de médias móveis sazonais listadas na Tabela III.3. Essas propriedades podem ser consideradas como
generalizações das propriedades para modelos não sazonais que foram apresentadas na Tabela III.1.
Em geral, podemos combinar os operadores sazonais e não sazonais em um modelo de média móvel
autorregressivo sazonal multiplicativo, denotado por ARM A(p, q) × (P , Q)s e escrever
s s
Φ P (B )ϕ(B)X t = Θ Q (B )θ(B)Wt ,
como o modelo geral. Embora as propriedades de diagnóstico na Tabela III.3 não sejam estritamente
verdadeiras para o modelo global misto, o comportamento do ACF e do PACF tende a mostrar padrões
aproximados da forma indicada. De fato, para modelos mistos, tendemos a ver uma mistura dos fatos
listados na Tabela III.1 e na Tabela III.3. Na adaptação de tais modelos, a focalização nos componentes
de média regressiva e média móvel sazonal geralmente leva a resultados mais satisfatórios.
Exemplo III.47. Um modelo sazonal misto.
Considere o modelo ARM A(0, 1) × (1, 0)12
Xt = ΦXt−12 + Wt + θWt−1 ,
onde |Φ| < 1 e |θ| < 1 . Então, devido à que Xt−12 , Wt e Wt−1 são não correlacionados e Xt é
estacionário, 2
γ(0) = Φ γ(0) + σW + θ σW
2 2 2
ou
2
1 + θ
2
γ(0) = σW ⋅
2
1 − Φ
Além disso, multiplicando o modelo por Xt−h , h > 0 e tomando esperança, temos
γ(1) = Φ (11) + θσW
γ
2
e γ(h) = Φ (h − 12)
γ
, para h ≥ 2 . Assim, o ACF para este modelo é
h
ρ(12h) = Φ , h = 1, 2, ⋯
θ
h
ρ(12h − 1) = ρ(12h + 1) = Φ , h = 0, 1, 2, ⋯ ,
2
1 + θ
ρ(h) = 0, caso contr rio á

06/06/2023, 12:29 Modelos ARIMA
O ACF e o PACF para este modelo, com Φ = 0.8 e θ = −0.5, são mostrados na figura. Esse tipo de
relação de correlação, embora idealizado aqui, é tipicamente visto com dados sazonais.
Para reproduzir a figura em R, use os seguintes comandos:
> phi = c(rep(0,11),.8)

> ACF = ARMAacf(ar=phi, ma=-.5, 50)[-1] # [-1] removes 0 lag
> PACF = ARMAacf(ar=phi, ma=-.5, 50, pacf=TRUE)
> par(mfrow=c(1,2),mar=c(3,3,2,1), mgp=c(1.6,.6,0))
> plot(ACF, type="h", xlab="LAG", ylim=c(-.4,.8)); abline(h=0)
> plot(PACF, type="h", xlab="LAG", ylim=c(-.4,.8)); abline(h=0)
A persistência sazonal ocorre quando o processo é quase periódico na temporada. Por exemplo, com
temperaturas médias mensais ao longo dos anos, cada janeiro seria aproximadamente o mesmo, cada
fevereiro seria aproximadamente o mesmo e assim por diante. Nesse caso, podemos pensar na
temperatura média mensal Xt como sendo modelada como
X t = St + Wt ,
onde St é um componente sazonal que varia um pouco de um ano para o outro, de acordo com um
passeio aleatório,
St = St−12 + Vt ⋅
Neste modelo, Wt e Vt são processos de ruído branco não correlacionados. A tendência dos dados para
seguir este tipo de modelo será exibida em uma amostra de ACF que é grande e decai muito lentamente
nas defasagens h = 12k , para k = 1, 2, ⋯. Se subtrairmos o efeito de anos sucessivos um do outro,
descobriremos que
12
(1 − B )X t = X t − X t−12 = Vt + Wt − Wt−12 ⋅
Este modelo é um M A(1)12 estacionário e o seu ACF terá um pico apenas na defasagem 12. Em geral,
a diferenciação sazonal pode ser indicada quando o ACF decai lentamente em múltiplos de algumas
estações, mas é insignificante entre os períodos. Então, uma diferença sazonal da ordem D é definida
como
D s D
∇s X t = (1 − B ) Xt ,
onde D = 1, 2, ⋯ assume valores inteiros positivos. Normalmente, D = 1 é suficiente para obter

estacionariedade sazonal. Incorporar essas ideias em um modelo geral leva à seguinte definição.
Definição III.12. Modelo SARIMA.
06/06/2023, 12:29 Modelos ARIMA
A modelo multiplicativo sazonal autoregressivo integrado de médias móveis ou modelo SARIMA é

dado por
s D d s
Φ P (B )ϕ(B)∇s ∇ X t = δ + Θ Q (B )θ(B)Wt ,
onde Wt é o processo habitual de ruído branco gaussiano. O modelo geral é denotado como
ARI M A(p, d, q) × (P , D, Q)s . As componentes autorregressiva e de médias móveis são
representadas pelos polinômios ϕ(B) e θ(B) de ordem p e q , respectivamente, e as componentes
autorregressiva e de médias móveis sazonal por Φ (Bs ) e Θ (Bs de ordem P e Q assim como as
P Q
componentes das diferenças ordinárias e sazonal por ∇

d
= (1 − B)
d
e ∇s
D s
= (1 − B )
D
.
Exemplo III.48. Um modelo SARIMA.
Considere o modelo a seguir, que geralmente fornece uma representação razoável para séries
temporais sazonais e não-estacionárias. Exibimos as equações do modelo, denotadas por
ARI M A(0, 1, 1) × (0, 1, 1)12 na notação acima, onde as flutuações sazonais ocorrem a cada 12
meses. Então, com δ = 0 , o modelo na Definição III.12 torna-se
12
∇12 ∇Xt = Θ(B )θ(B)Wt ,
ou
12 12
(1 − B )(1 − B)Xt = (1 + ΘB )(1 + θB)Wt ⋅
Expandir ambos os lados da expressão acime leva à representação
12 13 12 13
(1 − B − B + B )X t = (1 + θB + ΘB + ΘθB )Wt ,
ou na forma de equações de diferença
Xt = Xt−1 + Xt−12 − Xt−13 + Wt + θWt−1 + ΘWt−12 + ΘθW‘t−13 ⋅
Note que a natureza multiplicativa do modelo implica que o coeficiente de Wt−13 é o produto
dos coeficientes de W e Wt−1 t−12 , em vez de um parâmetro livre. A suposição do modelo
multiplicativo parece funcionar bem com muitos conjuntos de dados de séries temporais
sazonais, reduzindo o número de parâmetros que devem ser estimados.
Selecionar o modelo apropriado para um dado conjunto de dados de todos aqueles representados pela
expressão geral na Definição III.12 é uma tarefa difícil e geralmente pensamos primeiro em termos de
encontrar operadores de diferenças que produzam uma série aproximadamente estacionária e então em
termos de encontrar um conjunto autorregressivo de médias móveis simples ou ARMA sazonal
multiplicativo para se ajustar à série residual resultante. As operações de diferenciação são aplicadas
primeiro e, em seguida, os resíduos são construídos a partir de uma série de comprimentos reduzidos.
Em seguida, o ACF e o PACF desses resíduos são avaliados. Os picos que aparecem nessas funções
podem ser eliminados com o ajuste de um componente autorregressivo ou de médias móveis de acordo
com as propriedades gerais apresentadas na Tabela III.1 e na Tabela III.3. Ao considerar se o modelo é
satisfatório, as técnicas de diagnóstico discutidas na Seção III.7 ainda se aplicam.
Exemplo III.49. Passageiros aéreos.
Consideramos o conjunto de dados R AirPassengers, que são os totais mensais de passageiros de

linhas aéreas internacionais entre 1949 a 1960, retirados do livro de Box & Jenkins (1970).
Vários gráficos dos dados e dados transformados são mostrados nas figuras a seguir e foram
obtidos da forma apresentada.
06/06/2023, 12:29 Modelos ARIMA
Conjunto de dados R AirPassengers, que são os totais mensais dos passageiros aéreos
internacionais x e os dados transformados: lx = log(xt ) , dlx = ∇ log(x ) e ddlx = ∇ ∇ log(x ).
t 12 t
> x = AirPassengers
> lx = log(x); dlx = diff(lx); ddlx = diff(dlx, 12)
> par(mfrow=c(1,1), mar=c(1,1,1,1), mgp=c(1.6,0.8,0))
> plot.ts(cbind(x,lx,dlx,ddlx), main="", xlab="Tempo")
> grid()
> # abaixo o interesse é mostrar a componente sazonal
> par(mfrow=c(2,1), mar=c(3,3,2,1), mgp=c(1.6,.6,0))
> monthplot(dlx)
> grid()
> monthplot(ddlx)
> grid()
Observe que x é a série original, que mostra tendência mais variação crescente. O logaritmo
dos dados estão registrados em lx e a transformação estabiliza a variação. O logaritmo dos
dados são então diferenciados para remover a tendência e são armazenados em dlx . É claro que
ainda há persistência nas estações, ou seja, dlx ≈ dlx t, de modo que uma diferença de
t−12
décima segunda ordem seja aplicada e armazenada em ddlx . Os dados transformados parecem estar
estacionários e agora estamos prontos para estimar o modelo.
As funções ACF e PACF amostrais de ddlx , ou seja, de ∇12 ∇ log(xt ) são mostradas na figura a
seguir. O código R é:
06/06/2023, 12:29 Modelos ARIMA
> acf2(ddlx,50)
ACF PACF
[1,] -0.34 -0.34
[2,] 0.11 -0.01
[3,] -0.20 -0.19
[4,] 0.02 -0.13
[5,] 0.06 0.03
[6,] 0.03 0.03
[7,] -0.06 -0.06
[8,] 0.00 -0.02
[9,] 0.18 0.23
[10,] -0.08 0.04
[11,] 0.06 0.05
[12,] -0.39 -0.34
[13,] 0.15 -0.11
[14,] -0.06 -0.08
[15,] 0.15 -0.02
[16,] -0.14 -0.14
[17,] 0.07 0.03
[18,] 0.02 0.11
[19,] -0.01 -0.01
[20,] -0.12 -0.17
[21,] 0.04 0.13
[22,] -0.09 -0.07
[23,] 0.22 0.14
[24,] -0.02 -0.07
[25,] -0.10 -0.10
[26,] 0.05 -0.01
[27,] -0.03 0.04
[28,] 0.05 -0.09
[29,] -0.02 0.05
[30,] -0.05 0.00
[31,] -0.05 -0.10
[32,] 0.20 -0.02
[33,] -0.12 0.01
[34,] 0.08 -0.02
[35,] -0.15 0.02
[36,] -0.01 -0.16
[37,] 0.05 -0.03
[38,] 0.03 0.01
[39,] -0.02 0.05
[40,] -0.03 -0.08
[41,] -0.07 -0.17
[42,] 0.10 0.07
[43,] -0.09 -0.10
[44,] 0.03 -0.06
[45,] -0.04 -0.03
[46,] -0.04 -0.12
[47,] 0.11 -0.01
[48,] -0.05 -0.05
[49,] 0.11 0.09
[50,] -0.02 0.13
06/06/2023, 12:29 Modelos ARIMA
Componente sazonal: parece que nas estações do ano o ACF está cortando um atraso ou lag de
1s , s = 12 , enquanto o PACF está diminuindo nos intervalos 1s, 2s, 3s, 4s, ⋯ . Estes resultados
implicam um modelo S M A(1) , P = 0 , Q = 1 , na estação s = 12 .
Componente não sazonal: inspecionando a amostra ACF e PACF nos desfasamentos inferiores,
parece que ambos estão diminuindo. Isso sugere um modelo ARM A(1, 1) dentro das estações
p = q = 1 .
Assim, primeiro tentamos um modelo ARI M A(1, 1, 1) × (0, 1, 1)12 no logaritmo dos dados.
> modelo = sarima(lx, 1,1,1, 0,1,1,12, details = FALSE)

> modelo$fit
Call:
Coefficients:
ar1 ma1 sma1
0.1960 -0.5784 -0.5643
s.e. 0.2475 0.2132 0.0747
sigma^2 estimated as 0.001341: log likelihood = 244.95, aic = -481.9

> modelo$ttable
ar1 0.1960 0.2475 0.7921 0.4298
ma1 -0.5784 0.2132 -2.7127 0.0076
sma1 -0.5643 0.0747 -7.5544 0.0000
No entanto, o parâmetro AR não é significativo, então devemos tentar eliminar um parâmetro da

parte dentro das estações. Neste caso, tentamos ambos os modelos ARI M A(0, 1, 1) × (0, 1, 1) e 12
ARI M A(1, 1, 0) × (0, 1, 1)12 .
> modelo1 = sarima(lx, 0,1,1, 0,1,1,12, details = FALSE)

> modelo2 = sarima(lx, 1,1,0, 0,1,1,12, details = FALSE)
> modelos = matrix(c(modelo[[4]],modelo[[5]],modelo[[6]],
modelo1[[4]],modelo1[[5]],modelo1[[6]],
modelo2[[4]],modelo2[[5]],modelo2[[6]]), ncol=3, byrow=TRUE)
> colnames(modelos) = c("AIC","AICc","BIC")
> rownames(modelos) = c("modelo","modelo1","modelo2")
> modelos = as.table(modelos)
06/06/2023, 12:29 Modelos ARIMA
> modelos
AIC AICc BIC
modelo -3.393658 -3.392434 -3.312667
modelo1 -3.404219 -3.403611 -3.343475
modelo2 -3.390772 -3.390164 -3.330028
> sarima(lx, 0,1,1, 0,1,1,12)
Todos os critérios de informação preferem o modelo ARI M A(0, 1, 1) × (0, 1, 1)12 , que é o modelo
ajustado no objeto modelo1. Os diagnósticos dos resíduos são mostrados na figura abaixo e, com
exceção de um ou dois outliers, o modelo parece se encaixar bem.
Análise dos resíduos do modelo ARI M A(0, 1, 1) × (0, 1, 1)12 aplicado ao conjunto de dados de
passageiros aéreos registados.
Finalmente, projetamos os dados registrados em doze meses e os resultados são mostrados na

figura abaixo.
> sarima.for(lx, 12, 0,1,1, 0,1,1,12)

$pred
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov
1961 6.110186 6.053775 6.171715 6.199300 6.232556 6.368779 6.507294 6.502906 6.324698 6.209008 6.063487
Dec
1961 6.168025
$se
Jan Feb Mar Apr May Jun Jul Aug Sep
1961 0.03671562 0.04278291 0.04809072 0.05286830 0.05724856 0.06131670 0.06513124 0.06873441 0.07215787
Oct Nov Dec
1961 0.07542612 0.07855851 0.08157070
06/06/2023, 12:29 Modelos ARIMA
III.10 Exercícios
1. Para um modelo M A(1) , X t = Wt + θWt−1 , mostrar que |ρX (1)| ≤ 1/2 para qualquer número
θ. Para quais valores de θ, ρX (1) não atinge seu máximo e mínimo?
2. Sejam {Wt : t = 0, 1, ⋯} um processo de ruído branco com variância 2

σW e seja |ϕ| < 1 uma
constante. Considere o processo X 0 = W0 e
X t = ϕX t−1 + Wt , t = 1, 2, ⋯ ⋅
Podemos usar este método para simular um processo AR(1) a partir do ruído branco simulado.
t
(a) Mostre que Xt = ∑
j=0
j
ϕ Wt−j para qualquer t = 1, 2, ⋯.
(b) Encontre E(X t ).
(c) Mostre que, para t = 0, 1, ⋯
2
σW
2(t+1)
Var(X t ) = (1 − ϕ )⋅
2
1 − ϕ
(d) Mostre que, para h ≥ 0, Cov(X t+h , X t ) = ϕ Var(X t ) .

h
(e) É Xt estacionário?
(f) Argumente que, quando t → ∞ , o processo se torna estacionário, então, em certo
sentido, Xt é assintoticamente estacionário.
(g) Comente como poderiamos usar esses resultados para simular n observações de um
modelo estacionário Gaussiano AR(1) a partir de valores de independentes identicamente
distribuídos N (0, 1) simulados.
−−−−−
(h) Agora suponha que X 0 = W0 √1 − ϕ .
2
Este é um processo estacionário?
3. Verifique os cálculos feitos no Exemplo III.4 da seguinte forma:

(a) Seja Xt = ϕXt−1 + Wt , onde |ϕ| > 1 e Wt ∼ N (0, σ 2 W
) independentes. Mostre que
E(X t ) = 0 e γX (h) = σ W ϕ
2 −2
ϕ
−h
/(1 − ϕ
−2
), para h ≥ 0.
(b) Seja Yt = ϕ−1 Yt−1 + Vt onde Vt ∼ N (0, σ 2 ϕ−2 ) e ϕ e σ são como na parte (a).
W W
Verifique se a função de média e de autocovariância de Yt são as mesmas de Xt .
4. Identifique os seguintes modelos como modelos ARM A(p, q) , atente para a redundância de
parâmetros e determine se eles são causais e ou invertíveis:
(a) X t = 0.80X t−1 − 0.15X t−2 + Wt − 0.30Wt−1 .
(b) X t = X t−1 − 0.50X t−2 + Wt − Wt−1 .
5. Mostre que um modelo AR(2) é causal se, e somente se, as condições mostrados no Exemplo
III.9 forem válidas, ou seja, mostre que um modelo AR(2) é causal se, e somente se,
ϕ1 + ϕ2 < 1 , ϕ2 − ϕ1 < 1 e |ϕ 2 | < 1 .
06/06/2023, 12:29 Modelos ARIMA
6. Para o modelo AR(2) dado por X t = −0.9X t−2 + Wt , encontre as raízes do polinômio
autoregressivo e, em seguida, trace o ACF, ρ(h) .
7. Para as séries AR(2) mostradas abaixo, use os resultados do Exemplo III.10 para determinar
um conjunto de equações em diferença que podem ser usadas para encontrar o ACF ρ(h),
h = 0, 1, ⋯; resolva para encontrar as constantes no ACF usando as condições iniciais. Em
seguida, plote os valores do ACF para o lag ou atraso 10, use o ARMAacf como uma verificação
das suas respostas.
(a) X t + 1.60X t−1 + 0.64X t−2 = Wt
(b) X t − 0.40X t−1 − 0.45X t−2 = Wt
(c) X t − 1.20X t−1 + 0.85X t−2 = Wt
8. Verifique os cálculos para a função de autocorrelação de um processo ARM A(1, 1) dado no

Exemplo III.14. Compare a forma com o ACF para o ARM A(1, 0) e o ARM A(0, 1). Plote os
ACFs das três séries no mesmo gráfico para ϕ = 0.6 e θ = 0.9 e comente as capacidades de
diagnóstico do ACF neste caso.
9. Gere n = 100 observações de cada um dos três modelos discutidos no Exercício III.8. Calcule o
ACF amostral para cada modelo e compare-a com os valores teóricos. Calcule o PACF amostral
para cada uma das séries geradas e compare as ACF e PACF amostrais com os resultados gerais
apresentados na Tabela III.1.
10. Seja Xt um processo que represente a série de mortalidade cardiovascular cmort discutida no
Exemplo II.2.
(a) Ajuste um modelo AR(2) à Xt usando regressão linear como no Exemplo III.18.
(b) Assumindo que o modelo ajustado em (a) seja o modelo verdadeiro, encontre as
previsões ao longo de um horizonte de quatro semanas, n
X n+m para m = 1, 2, 3, 4 e os
intervalos de previsão de 95% correspondentes.
11. Considere a série M A(1)
X t = Wt + θWt−1 ,
onde Wt é um ruído branco com variáncia 2

σW .
(a) Encontre o mínimo do erro quadrático médio da previsão de um passo à frente com base
no passado infinito e determine o erro quadrático médio dessa previsão.
n
(b) Seja X̃ n+1
a previsão truncada de um passo à frente como dada na Proposição III.7.
Mostre que
n 2
2 2+2n
E((X n+1 − X̃ n+1
) ) = σ (1 + θ )⋅
Compare o resultado com (a) e indique o quão bem a aproximação finita funciona neste
caso.
12. No contexto da equação Γ n ϕn = γn , mostre que γ (0) > 0 e γ (h) → 0, quando h → ∞, então
Γ n é definida positiva.
13. Suponha que Xt seja estacionário com média zero e lembre a Definição III.9 do PACF. Isto é,
h−1 h−1
ϵt = X t − ∑ a i X t−i e δt−h = X t−h − ∑ b j X t−j ,
i=1 j=1
sejam os dois resíduos onde {a 1 , ⋯ , a h−1 } e {b 1 , ⋯ , b h−1 } foram escolhidos para minimizar os
erros quadráticos médios
2 2
E(ϵ ) e E(δ )⋅
t t−h
O PACF no atraso ou lag h foi definido como a correlação cruzada entre ϵt e δt−h , ou seja,
E(ϵt δt−h )
ϕh,h = ⋅
−−−−−−−−−−−
2 2
√E(ϵ )E(δ )
t t−h
Seja Rh uma matriz h × h com elementos ρ(i − j) para i, j = 1, ⋯ , h e seja

⊤
ρh = (ρ(1), ρ(2), ⋯ , ρ(h)) o vetor de atrasos ou lag autocorrelacionados
06/06/2023, 12:29 Modelos ARIMA
⊤
ρ(h) = Corr(X t+h , X t ). Seja ρ̃ h = (ρ(h), ρ(h − 1), ⋯ , ρ(1)) o vetor reverso. Mais ainda,
seja X
h
t
o melhor preditor linear de Xt dados {X t−1 , ⋯ , X t−h }:
h
X = αh,1 X t−1 + ⋯ + αh,h X t−h ,
t
como descrito no Teorema III.3. Prove que
⊤ −1
ρ(h) − ρ̃ R ρh
h−1 h−1
ϕh,h = = αh,h ⋅
⊤ −1
1 − ρ̃ R ρ̃ h−1
h−1 h−1
Em particular, este resultado prova o Teorema III.4.

Sugestão: divida o sistema equações de predição Γ n ϕn = γn por γ (0) e escreva a equação
matricial na forma particionada como
Rh−1 ρ̃ h−1 α1 ρh−1

( )( ) = ( ),
⊤
ρ̃ ρ(0) αh,h ρ(h)
h−1
⊤
onde o vetor h × 1 de coeficientes α = (αh,1 , ⋯ , αh,h ) é paticionado como (α
⊤
1
, αh,h )
⊤
.
14. Suponha que desejamos encontrar uma função de predição g(x) que minimize
2
M SE = E((Y − g(x)) ),
onde X e Y são variáveis aleatórias com função densidade conjunta f (x, y) .
(a) Mostre que o MSE é minimizado pela escolha g(x) = E(Y |X) .
2
Sugestão: E(E((Y − g(X)) | X)) .
(b) Aplique o resultado acima ao modelo Y = X

2
+ z, onde X e z são variáveis aleatórias
independentes com média zero e variância um. Mostre que M S E = 1.
(c) Suponha que restringimos nossas escolhas para a função g(x) para funções lineares da
forma
g(X) = a + bX,
e determine a e b que minimizem M S E . Mostre que a = 1, b = E(XY ) / E(X

2
) e
M S E = 3. O que você interpreta isso quer dizer?
15. Para um modelo AR(1), determine a forma geral da previsão m passos à frente X
t
t+m
e mostre
que
2m
2 1 − ϕ
t 2
E((X t+m − X ) ) = σW ⋅
t+m 2
1 − ϕ
16. Considere o modelo ARM A(1, 1) discutido no Exemplo III.8, isto é,

X t = 0.9X t−1 + 0.5Wt−1 + Wt . Mostre que a previsão truncada definido como
m−1 n+m−1
n n
X̃ n+m
= − ∑ πj X̃ n+m−j
− ∑ πj X n+m−j ,
j=1 j=m
que também é calculado recursivamente, m = 1, 2, ⋯ é equivalente à previsão truncada usando

a fórmula recursiva mostrada na Proposição III.7.
17. Verifique que para k ≥ 1
m−1
2
E((X n+m − X̃ n+m )(X n+m+k − X̃ n+m+k )) = σ W ∑ ψj ψj+k ⋅
j=0
Significa que, para um tamanho de amostra fixo, os erros de previsão do modelo ARMA estão
correlacionados.
18. Ajustar um modelo AR(2) para a série de mortalidade cardiovascular cmort discutida no
Exemplo II.2. usando regressão linear e usando Yule-Walker.
(a) Compare as estimativas dos parâmetros obtidos pelos dois métodos.
(b) Compare os erros padrão estimados das estimativas dos coeficientes obtidos por
regressão linear com suas aproximações assintóticas correspondentes, como dado no
Teorema III.10.
06/06/2023, 12:29 Modelos ARIMA
19. Suponha que X1 , ⋯ , Xn são observações de um processo AR(1) com μ = 0.
(a) Mostrar os backcasts ou previsão reversa podem ser escritos como X

n
t
= ϕ
1−t
X1 , para
t ≤ 1.
(b) Por sua vez, mostre que, para t ≤ 1, os erros da previsão reversa são
n n 1−t 2
W̃ t (ϕ) = X − ϕX = ϕ (1 − ϕ )X 1 ⋅
t t−1
(c) Use o resultado de (b) para mostrar .

2 2 2
∑ W̃ t (ϕ) = (1 − ϕ )X
1
t=−∞
(d) Use o resultado de (c) para verificar se a soma de quadrados incondicional, S (ϕ), pode
1
ser escrita como ∑
t=−∞
W̃ t (ϕ)
2
.
(e) Encontre Xt
t−1
e rt para 1 ≤ t ≤ n e mostre que
n
1 2
t−1
S (ϕ) = ∑ (X t − X ) ⋅
t
rt
t=1
20. Repita o seguinte exercício numérico três vezes. Gere n = 500 observações do modelo ARMA
dado por
X t = 0.9X t−1 + Wt − 0.9Wt−1 ,
com Wt ∼ N (0, 1) independentes. Plote os dados simulados, calcule o ACF e o PACF amostrais
dos dados simulados e ajuste um modelo ARM A(1, 1) aos dados. O que aconteceu e como
você explica os resultados?
21. Gere 10 realizações de comprimento n = 200 cada de um processo ARM A(1, 1) com ϕ = 0.9 ,
θ = 0.5 e σ 2 = 1 . Encontre os MLEs dos três parâmetros em cada caso e compare os

estimadores com os valores verdadeiros.
22. Gere n = 50 observações de um modelo Gaussian AR(1) com ϕ = 0.99 e σ 2 = 1 . Usando uma W
técnica de estimação de sua escolha, compare a distribuição assintótica aproximada de sua

estimativa, a que você usaria para inferência, com os resultados de um experimento de
Bootstrap, use B = 200.
23. Usando o Exemplo III.32 como seu guia, desenvolva o procedimento de Gauss-Newton para
estimar o parâmetro autoregressivo ϕ, a partir do modelo AR(1), Xt = ϕXt−1 + Wt , dados
X1 , ⋯ , Xn . Este procedimento produz o estimador incondicional ou condicional?
Dica: Escreva o modelo como Wt = X t − ϕX t−1 ; sua solução deve funcionar como um
procedimento não-recursivo.
24. Considere a série estacionária gerada por
X t = α + ϕX t−1 + Wt + θWt−1 ,
onde E(X t ) = μ, |θ| < 1 , |ϕ| < 1 e Wt são variáveis aleatórias independentes com média zero
e variância σ
2
W
.
(a) Determine a média como uma função do modelo acima. Encontre a autocovariância e o
ACF do processo Xt e mostre que o processo é fracamente estacionário. O processo é
estritamente estacionário?
(b) Prove que a distribuição limite quando n → ∞ da média da amostral,
n
¯¯¯¯
1
X = ∑ Xt ,
n
t=1
é normal e encontre sua média e variância em termos de α , ϕ, θ e σW

2
.
25. Um problema de interesse na análise de séries temporais geofísicas envolve um modelo simples
para dados observados contendo um sinal e uma versão refletida do sinal com fator de
amplificação desconhecido a e atraso de tempo desconhecido δ . Por exemplo, a profundidade de
um terremoto é proporcional ao tempo de atraso δ para a onda P e sua forma refletida pP em
um registro sísmico. Suponha que o sinal, digamos st , seja ruído branco Gaussiano com
variância σs
2
e considere o modelo gerador
X t = st + ast−δ ⋅
06/06/2023, 12:29 Modelos ARIMA
(a) Prove que o processo Xt é estacionário. Se |a| < 1 , mostre que

∞
j
st = ∑(−a) X t−δj
j=0
é a média quadrada convergente a uma representação para o sinal st , para

t = 1, ±1, ±2, ⋯.
(b) Se o atraso de tempo δ for assumido como sendo conhecido, sugira um método
computacional aproximado para estimar os parâmetros a e 2
σs usando a máxima
verossimilhança e o método de Gauss-Newton.
(c) Se o atraso de tempo δ for assumido como sendo desconhecido, especifiqu como
poderíamos estimar os parâmetros incluindo δ . Gere n = 500 pontos da série com a = 0.9,
2
σW = 1 e δ = 5. Estime o atraso de tempo inteiro δ pesquisando sobre δ = 3, 4, ⋯ , 7 .
26. Previsão com parâmetros estimados: Seja X1 , X2 , ⋯ , Xn uma amostra de tamanho n de

um processo causal AR(1), X t = ϕX t−1 + Wt . Seja ϕ̂ o estimador Yule-Walker de ϕ.
(a) Mostre que ϕ̂ − ϕ = OP (n−1/2 ). Veja o Apêndice A para a definição de OP (⋅).

(b) Seja Xn+1
n
a previsão de um passo à frente de Xn+1 dados X1 , ⋯ , Xn , baseado no
n
parâmetro conhecido ϕ e seja X̂ n+1
a previsão de um passo à frente quando o parâmetro
n
for substituído por ϕ̂ . Mostrar que X
n
n+1
− X̂ n+1
= OP (n
−1/2
)
27. Suponha
q
Y t = β0 + β1 t + ⋯ + βq t + Xt , βq ≠ 0,
onde Xt é estacionário. Primeiro, mostre que k

∇ Xt é estacionário para qualquer k = 1, 2, ⋯ e
então mostre que k
∇ Yt não é estacionário para k < q, mas é estacionário para k ≥ q.
28. Verifique se o modelo I M A(1, 1), X t = X t−1 + Wt − λWt−1 com |λ| < 1 para t = 1, 2, ⋯ e
X0 = 0 , como apresentado do Exemplo III.38, pode ser invertido e escrito como
∞
j−1
X t = ∑(1 − λ)λ X t−j + Wt ⋅
j=1
29. Para um modelo ARI M A(1, 1, 0) com tendência
(1 − ϕB)(1 − B)X t = δ + Wt ,
seja Y t = (1 − B)X t = ∇X t .
(a) Observando que Yt é AR(1), mostre que, para j ≥ 1,
n j−1 j
Y = δ(1 + ϕ + ⋯ + ϕ ) + ϕ Yn ⋅
n+j
(b) Use a parte (a) para mostrar que, para m = 1, 2, ⋯ ,
m m
δ ϕ(1 − ϕ ) ϕ(1 − ϕ )
n
X n+m = X n + (m − ) + (X n − Zn−1 ) ⋅
1 − ϕ 1 − ϕ 1 − ϕ
Dica: De (a),
j
1 − ϕ
n n j
X − X = δ + ϕ (X n − X n−1 )⋅
n+j n+j−1
1 − ϕ
Agora somamos ambos os lados ao longo de j de 1 para m.

m−1
(c) Use que n
Pn+m = σ W ∑
2
j=0
ψ
∗2
j
, onde ψ
∗
j
são os coeficientes de z
j
em
∗
ψ (z) = θ(z)/ϕ(z)(1 − z)
d
, para encontrar Pn+m
n
mostrando primeiro que ψ
∗
0
= 1,
ψ
∗
1
= (1 + ϕ) e ψ
∗
j
− (1 + ϕ)ψ
∗
j−1
+ ϕψ
∗
j−2
= 0 quando j ≥ 2, neste caso
)/(1 − ϕ) , para j ≥ 1.
∗ j+1
ψ = (1 − ϕ
j
30. Para o logaritmo dos dados das variedades glaciais paleoclimáticas, chamemos Xt , apresentados
t
no Exemplo III.33, use as primeiras 100 observações e calcule o EWMA, X̃ t+1
, dado no Exemplo
III.38 para t = 1, ⋯ , 100, usando λ = 0.25, 0.50 e λ = 0.75 e grafique os EWMA's e os dados
sobrepostos uns aos outros. Comente os resultados.
06/06/2023, 12:29 Modelos ARIMA
31. No Exemplo III.40, apresentamos os diagnósticos para o M A(2) ajustado à série de taxas de
crescimento do PIB. Usando esse exemplo como guia, conclua o diagnóstico para o ajuste do
AR(1).
32. Os preços do petróleo bruto em dólares por barril são guardados em oil. Ajuste um modelo
ARI M A(p, d, q) para a taxa de crescimento realizando todos os diagnósticos necessários.
Comente.
33. Ajuste um modelo ARI M A(p, d, q) para os dados da temperatura global em globtemp
realizando todos os diagnósticos necessários. Depois de decidir sobre um modelo apropriado,
faça uma previsão com limites de confiança para os próximos 10 anos. Comente.
34. Ajuste um modelo ARI M A(p, d, q) para a série de dióxido de enxofre so2, realizando todos os
diagnósticos necessários. Depois de decidir sobre um modelo apropriado, faça uma previsão dos
dados para o futuro com quatro períodos de tempo à frente, cerca de um mês, e calcule os
intervalos de previsão de 95% para cada uma das quatro previsões. Comente. O dióxido de
enxofre é um dos poluentes monitorados no estudo de mortalidade descrito no Exemplo II.2.
35. Consideremos que St representa os dados de vendas mensais em sales, n = 150 e seja Lt o
principal indicador em lead.
(a) Ajustar um modelo ARIMA para St , os dados de vendas mensais. Discuta seu modelo
passo-a-passo, apresentando seu (A) exame inicial dos dados, (B) transformações, se
necessário, (C) identificação inicial das ordens de dependência e grau de diferenciação, (D)
estimativas dos parâmetros, (E) diagnósticos dos resíduos e escolha do modelo.
(b) Use os gráficos CCF e lag entre ∇St e ∇L t para argumentar que uma regressão de
∇St em ∇L t é razoável. Observe que, em lag2.plot(), a primeira série nomeada é aquela
que fica defasada.
(c) Ajuste o modelo de regressão ∇St = β0 + β1 ∇Lt−3 + Xt , onde Xt é um processo
ARMA. Explique como você decidiu o seu modelo para Xt . Discuta seus resultados. Veja o
Exemplo III.45 para ajudar na codificação deste problema.
36. Um dos notáveis desenvolvimentos tecnológicos na indústria de computadores tem sido a

capacidade de armazenar informações densamente em um disco rígido. Além disso, o custo de
armazenamento diminuiu constantemente, causando problemas de excesso de dados, em vez de
big datas. O conjunto de dados para esta tarefa é o cpg, que consiste no preço mediano anual
de varejo por GB de discos rígidos, digamos Ct , de uma amostra de fabricantes de 1980 a 2008.
(a) Mostre gráficamente Ct e descreva o que você vê.
(b) Argumente que a curva Ct versus t se comporta como Ct ≈ αeβt ajustando uma
regressão linear de log(Ct ) em t e então plotando a linha ajustada para compará-la aos
dados registrados. Comente.
(c) Inspecione os resíduos do ajuste de regressão linear e comente.
(d) Ajuste a regressão novamente, mas agora usando o fato de que os erros são
autocorrelacionados. Comente.
37. Refaça o Exercício 2 da Seção II.1, sem assumir que o termo de erro é ruído branco.
38. Considere o modelo ARIMA
X t = Wt + ΘWt−2 ⋅
(a) Identifique o modelo usando a notação ARI M A(p, d, q) × (P , D, Q)s .

(b) Mostre que a série é invertível para |Θ| < 1 e encontre os coeficientes na representação
∞
Wt = ∑ πk X t−k ⋅
k=0
(c) Desenvolva equações para a previsão m passos à frente X̃ n+m e sua variância baseada
no passado infinito Xn , Xn−1 , ⋯ .
39. Trace o ACF do sazonal do modelo ARI M A(0, 1) × (1, 0)12 com Φ = 0.8 e θ = 0.5 .
40. Ajuste um modelo sazonal ARIMA de sua escolha aos dados de preço de frango em chicken. Use
o modelo estimado para prever os próximos 12 meses.
41. Ajuste um modelo sazonal ARIMA de sua escolha para os dados de desemprego em unemp. Use
o modelo estimado para prever os próximos 12 meses.
06/06/2023, 12:29 Modelos ARIMA
42. Ajuste um modelo sazonal ARIMA de sua escolha para os dados de desemprego em
UnempRate. Use o modelo estimado para prever os próximos 12 meses.
43. Ajuste um modelo sazonal ARIMA de sua escolha para a série de nascidos vivos dos EUA birth.
Use o modelo estimado para prever os próximos 12 meses.
44. Ajustar um modelo sazonal ARIMA apropriado à série de lucros Johnson & Johnson jj
transformada em logaritmo do Exemplo I.1. Use o modelo estimado para prever os próximos 4
trimestres.
45. Suponha que X t = ∑ ϕj X t−j + Wt onde ϕp ≠ 0 e Wt é um ruído branco de tal modo que Wt
j=1
não está correlacionado com {Xk : k < t}. Use o Teorema da Projeção, Teorema B.1, para
mostrar que, para n > p, o melhor preditor linear de Xn+1 em ¯sp
¯¯¯¯
{X k : k ≤ n} é
X̂ n+1 = ∑ ϕj X n+1−j ⋅
j=1
46. Considere a série X t = Wt − Wt−1 , onde Wt é um processo de ruído branco com média zero e
variância σW
2
. Suponha que consideremos o problema de prever Xn+1 baseado em apenas
X 1 , ⋯ , X n . Use o Teorema da Projeção para responder às perguntas abaixo.
n
1
(a) Mostrar que o melhor preditor linear é X
n
n+1
= − ∑ kX k .
n + 1
k=1
2 n + 2
(b) Prove que o erro quadrático médio é E(X n+1 − X
n
n+1
) =
2
σW .
n + 1

Modelos ARIMA

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelos ARIMA

Enviado por

Direitos autorais:

Formatos disponíveis

06/06/2023, 12:29 Modelos ARIMA

Análise de Séries Temporais

Capítulo III. Modelos ARIMA

Capítulo III. Modelos ARIMA

III.1 Modelos autorregressivos de médias móveis

Introdução aos modelos autoregressivos

X t = X t−1 − 0.90X t−2 + Wt ,

onde Wt é um ruído branco gaussiano com σW = 1.

A discussão anterior motiva a seguinte definição.

Definição III.1. Modelo autorregressivo de ordem p.

Dizemos que {X t } satisfaz um modelo autorregressivo de ordem p ou simplesmente AR(p) se

X t = ϕ1 X t−1 + ϕ2 X t−2 + ⋯ + ϕp X t−p + Wt ,

onde Xt é estacionário, Wt ∼ N (0, σ W )

A esperança de Xt satisfazendo um modelo autorregressivo é zero. Caso seja E(X t ) = μ ≠ 0 podemos

X t − μ = ϕ1 (X t−1 − μ) + ϕ2 (X t−2 − μ) + ⋯ + ϕp (X t−p − μ) + Wt

X t = α + ϕ1 X t−1 + ϕ2 X t−2 + ⋯ + ϕp X t−p + Wt ,

ou ainda de forma mais concisa como ϕ(B)X t = Wt .

Definição III.2. Operador autorregressivo de ordem p.

Definimos o operador autorregressivo de ordem p como

Exemplo III.1. Modelo AR(1) .

Iniciamos a investigação de modelos de AR considerando o modelo de primeira ordem, AR(1) ,

podemos representar o modelo AR(1) como um processo linear da forma

O modelo AR(1) definido acima é estacionário com média

Assim, obtemos que o ACF de um modelo AR(1) é da forma

e ρ(h) satisfaz a recursão

ρ(h) = ϕρ(h − 1), h = 1, 2, ⋯ ⋅

Discutiremos o ACF de um modelo geral AR(p) na Seção III.3.

Exemplo III.2. O caminho da amostra de um processo AR(1) .

observação, X é tipicamente positiva. Assim, neste caso, o caminho da amostra é muito

O seguinte código R pode ser usado para obter a figura acima:

Exemplo III.3. Modelos AR Explosivos e Causalidade.

No Exemplo I.18, descobriu-se que a caminhada aleatória X = X t t−1 + Wt não é estacionária.

Exemplo III.4. Toda explosão tem uma causa.

Excluir modelos explosivos da consideração não é um problema porque os modelos têm

Xt = ϕXt−1 + Wt , com |ϕ| > 1,

Assim, o processo causal definido por

Os coeficientes de B no lado esquerdo e direito devem ser iguais, o que significa

Reorganizando os coeficientes acima, temos

com ψ0 = 1 , o qual nos leve à solução ψj = ϕ

Nós já sabemos que

Introdução aos modelos de médias móveis

Definição III.3. O modelo de médias móveis de ordem q ou M A(q).

O modelo de médias móveis de ordem q ou M A(q) é definido como

X t = Wt + θ1 Wt−1 + θ2 Wt−2 + ⋯ + θq Wt−q ,

X t = Wt − θ1 Wt−1 − θ2 Wt−2 − ⋯ − θq Wt−q ⋅

onde ψ0 = 1 , ψj = θj , para j = 1, ⋯ , q e ψj = 0 para outros valores. Podemos também escrever o

utilizando a seguinte definição.

Definição III.4. O operador de médias móveis.

O operador de médias móveis é definido como

Ao contrário do processo autoregressivo, o processo de médias móveis é estacionário para quaisquer

Exemplo III.5. O processo M A(1) .

Consideremos o modelo M A(1) Xt = Wt + θWt−1 . Então E(Xt ) = 0 ,

Modelos M A(1) simulados: θ = 0.9 (superior); θ = −0.9 (inferior).

O seguinte código R pode ser usado para obter a figura acima:

> par(mfrow = c(2,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0))

Exemplo III.6. Não unicidade dos modelos MA e da invertibilidade.

Portanto, o processo M A(1)

Y t = V t + 5V t−1 , V t ∼ N (0, 1),

como π(B)X t = Wt , onde π(B) = θ

Seja θ(z) = 1 + θz, para |z| ≤ 1, então

Modelos autorregressivos de médias móveis

Prosseguimos agora com o desenvolvimento do modelo geral de médias móveis autoregressivos e o

Definição III.5. Modelo ARM A(p, q) .

A série temporal {X t : t = 0, ±1, ±2, ⋯} é ARM A(p, q) se é estacionária e