Escolar Documentos
Profissional Documentos
Cultura Documentos
A metodologia tem uma grande classe de modelos escolha e uma abordagem sistemtica para identificar
a correta forma de modelar. Existem testes estatsticos para verificar a validade do modelo e medidas
estatsticas de incerteza das previses. Em contraste, os modelos de previso tradicionais oferecem um
nmero limitado de modelos em relao ao comportamento complexo de muitas sries temporais, com
pouca coisa na forma de orientaes e testes estatsticos, para verificar a validade do modelo selecionado.
(Isso voc aprendeu no texto Mtodos Bsicos de Previso de Sries Temporais no Excel).
Modelo Bsico: Com uma srie estacionria no lugar, um modelo bsico pode agora ser identificado.
Existem trs modelos bsicos, AR (autoregressivos), MA (moving average) e um combinado ARMA em
adio ao RD (diferenciao regular) especificado anteriormente, os quais se combinam para fornecer as
ferramentas disponveis. Quando a diferenciao regular (RD) for aplicada junto com ao AR e MA, eles
so referidos como ARIMA, com o I indicando integrado e referindo-se ao procedimento de
diferenciao.
Em alguns casos temos uma escolha de modelagem, digamos, a sada de um grande nmero de
processos ou de sadas agregadas, deixando o modelo univariado como a nica abordagem
possvel por causa da magnitude completa do problema.
Deve ser difcil encontrar variveis que estejam relacionadas varivel que est sendo projetada,
deixando o modelo univariado como o nico meio de previso.
Bertolo
Pgina 1
IMESCatanduva
A presena de grandes resduos num modelo univariado deve corresponder aos eventos anormais
greves, etc.
O estudo dos modelos univariados pode dar informao til sobre ciclos de tendncias de longo
prazo, efeitos sazonais, etc., nos dados.
Alguma forma de anlise univariada deve ser um pr-requisito necessrio anlise multivariada
se regresses esprias e problemas relacionados devam ser evitados.
Embora os modelos univariados funcionem bem no curto prazo, provavelmente os mtodos multivariados
fazem uma apresentao de melhor qualidade ao levar mais termos, se as variveis relacionadas varivel
que est sendo projetada flutuarem de vrias maneiras, e de formas diferentes aos seus comportamentos
no passado.
Box e Jenkins desenvolveram procedimentos para esta modelagem multivariada. Entretanto, na prtica,
mesmo sua abordagem univariada, algumas vezes, no to bem entendida quanto o mtodo de regresso
clssico. O objetivo deste texto descrever o bsico dos modelos univariados de Box- Jenkins em termos
simples e no especializados.
O Modelo Matemtico
Os modelos ARMA podem ser descritos por uma srie de equaes. As equaes so de certa forma mais
simples se as series temporais primeiro forem reduzidas mdia zero, subtraindo delas a mdia amostral.
Portanto, trabalharemos com a srie ajustada mdia
yajustada(t) = y(t) -
(1)
Onde y(t) a srie temporal original, sua media amostral, e yajustada(t) a srie ajustada mdia2. Um
subconjunto dos modelos ARMA so aqueles chamados de autoregressivos, ou modelos AR. Um modelo
AR expressa uma srie temporal como uma funo linear dos seus valores passados. A ordem do modelo
AR diz quantos valores atrasados (lags) no passado so includos. O modelo AR mais simples o autoregressivo de primeira ordem, ou modelo AR(1),
y(t) = a(1)*y(t-1) + e(t)
(2)
onde y(t) a srie ajustada media no perodo t, y(t-1) o valor do perodo anterior na srie , a(t) o
coeficiente auto-regressivo de lag-1, e e(t) o rudo. O rudo tambm conhecido por vrios outros
nomes: erro, choque aleatrio e resduo. Os resduos e(t) so assumidos serem aleatrios no tempo (no
auto-correlacionados), e normalmente distribudos. Podemos ver que o modelo AR(1) tem a forma de um
modelo de regresso em que y(t) regredido ao seu valor anterior. Desta forma, a(t) anlogo ao
coeficiente de regresso, e e(t) ao resduo de regresso. O nome auto-regressivo se refere regresso em
si mesmo (auto).
Os modelos regressivos de ordem superior incluem mais termos de defasagens em y(t) como preditores.
Por exemplo, o modelo auto-regressivo de segunda ordem, AR(2), dado por
y(t) = a(1)*y(t-1) + a(2)*y(t-2)
(3)
onde: a(1) , a(2), so os coeficientes auto-regressivos sobre as defasagens 1 e 2. O modelo autoregressivo de ordem p-sima, AR(p) inclui os termos de defasagens dos perodos t 1 at t-p .
O modelo mdia mvel (moving average) (MA) uma forma do modelo ARMA em que a srie temporal
tomada como uma mdia mvel (pesos desiguais) de uma srie de choques aleatrios e(t). A mdia
mvel de primeira ordem, ou modelo MA(1), dada por
y(t) = e(t) + c(1)*e(t-1)
2
(4)
Bertolo
Pgina 2
IMESCatanduva
onde e(t), e(t-1), so os resduos no perodo t e t-1, e c(1) o coeficiente de mdia mvel de primeira
ordem. Como com os modelos AR, modelos MA de ordem superiores incluem termos de defasagens mais
altos. Por exemplo, o modelo de media mvel de segunda ordem, MA(2),
y(t) = e(t) + c(1)*e(t-1) + c(2)*e(t-2)
(5)
A letra q usada para a ordem do modelo de mdia mvel. O modelo de mdia mvel de segunda ordem
MA(q), com q = 2.
Temos visto que o modelo auto-regressivo inclui termos de defasagens na sua prpria srie, e que o
modelo de mdia mvel inclui termos de defasagens nos rudos ou resduos.
Por incluir ambos os tipos de termos de defasagens, chegamos ao que chamado de mdia mvel autoregressiva, ou modelos ARMA.
A ordem do modelo ARMA est includa nos parnteses como: ARMA(p,q), onde p a ordem autoregressiva e q a ordem de mdia mvel. O mais simples, e mais frequentemente usado modelo ARMA
o modelo ARMA(1,1):
y(t) = d + a(1)*y(t-1) + e(t) c(1)*e(t-1)
(6)
O processo de mdia mvel autoregressivo geral com AR de ordem p e MA de ordem q pode ser escrito
como
y(t) = d+ a(1)*y(t-1) + a(2)*y(t-2) + + a(p)*y(t-p) e(t) c(1)*e(t-1) c(2)*e(t-2) -- c(p)*e(t-p)
(7)
O parmetro d ser explicado mais tarde.
Modelagem ARIMA
O propsito da modelagem ARIMA estabelecer uma relao entre o valor presente de uma srie
temporal e seus valores passados de modo que as previses possam ser feitas somente com base nos
valores passados.
Sries Temporais Estacionrias: A primeira exigncia para a modelagem ARIMA que a srie temporal
de dados a ser modelada tenha estacionariedade ou possa ser transformada nela. Podemos definir que
uma srie temporal estacionria se tiver uma mdia constante e no tiver tendncia no decorrer do
tempo. Um grfico dos dados geralmente o bastante para ver se os mesmos so estacionrios. Na
prtica, poucas sries temporais podem ser encontradas nesta condio, mas sempre que os dados
puderem ser transformados numa srie estacionria, um modelo ARIMA pode ser desenvolvido.
(Explicarei adiante este conceito com mais detalhes).
Enfatizamos novamente que, para projetar uma srie temporal usando esta abordagem de previso,
precisamos saber se a srie temporal estacionria. Se no for, para produzir previses aceitveis e
acuradas, precisamos determinar a classe e a ordem do modelo, i., se ele um modelo AR, MA ou
ARMA e quantos coeficientes AR e MA (p e q) so apropriados. A anlise das funes de autocorrelao (ACF) e auto-correlao parcial (PACF) fornece pista para todas estas questes. Ambas as
exigncias acima sero calculadas e implementadas em duas planilhas-exemplos no Excel posteriormente.
Os passos gerais para a modelagem ARIMA esto mostrados no diagrama abaixo:
Bertolo
Pgina 3
IMESCatanduva
Bertolo
Pgina 4
IMESCatanduva
A modelagem Box-Jenkins ou ARIMA de uma srie temporal estacionria envolve os quarto principais
passos seguintes:
A) Identificao do modelo
B) Estimativa do modelo
C) Diagnstico de Verificao
D) Previso
Os quatro passos so semelhantes queles exigidos para a regresso linear, exceto o Passo A ser um
pouco mais envolvido. Box-Jenkins usa um procedimento estatstico para identificar um modelo, que
pode ser complicado. Os outros trs passos so muito simples. Vamos primeiro discutir a mecnica do
Passo A, identificao do modelo, a qual ser feita em grande detalhe. Depois ento usaremos um
exemplo para ilustrar o processo de modelagem por completo.
A) IDENTIFICAO DO MODELO
ARIMA significa Autoregressive Integrated - Moving Average. A letra "I" (Integrado) indica que a
modelagem da srie temporal a transformar numa srie estacionria. ARIMA representa trs tipos
diferentes de modelos: Ele pode ser um modelo AR (autoregressivo), ou um modelo MA (moving
average), ou um modelo ARMA que inclua ambos os termos AR e MA. Note que tivemos de tirar o "I"
do ARIMA por simplicidade.
Vamos brevemente definir estas trs formas de modelos novamente.
Modelo AR:
Um modelo AR se parece com uma modelo de regresso linear, exceto que num modelo de regresso a
varivel dependente e suas variveis independentes so diferentes, enquanto no modelo AR as variveis
independentes so simplesmente os valores defasados no tempo da varivel dependente, por isso autoregressivo. Um modelo AR pode incluir diferentes nmeros de termos auto-regressivos.
Se um modelo AR incluir somente um termo auto-regressivo, ele um modelo AR (1); podemos tambm
ter AR (2), AR (3), etc. Um modelo AR pode ser linear ou no linear. O que se segue, so uns poucos
exemplos:
AR(1)
y(t) = d + a(1)* y(t-1) + e(t)
(8)
(9)
AR(3)
Um modelo MA uma media mvel ponderada, de nmero fixo, de erros de previses, produzidas no
passado, por isso chamado mdia mvel. Diferentemente da media mvel tradicional, os pesos numa
MA no so iguais e no somam 1. Numa mdia mvel tradicional, o peso atribudo a cada um dos n
valores a ser feita a mdia, iguala-se a 1/n; os n pesos so iguais e somam 1. Numa MA, o nmero de
termos para o modelo e o peso de cada termo so estatisticamente determinados pelo padro dos dados; os
pesos no so iguais e no somam 1. Geralmente, numa MA o valor mais recente carrega um peso maior
que os valores atrasados mais distantes. Para uma srie temporal estacionria, pode-se usar sua mdia ou
valor passado imediato como uma previso para o prximo perodo futuro. Cada previso produzir um
Bertolo
Pgina 5
IMESCatanduva
erro de previso. Se os erros assim produzidos no passado exibirem qualquer padro, podemos
desenvolver um modelo MA. Note que estes erros de previso no so valores observados; eles so
valores gerados. Todos os modelos MA, tal como MA(1), MA(2), MA(3), so no lineares. O que segue
so uns poucos exemplos:
MA(1)
(10)
(11)
MA(2)
Modelo ARMA:
Um modelo ARMA requer ambos os temos: AR e MA. Dada uma srie temporal estacionria, devemos
primeiro identificar uma forma apropriada de modelo. um AR, ou um MA ou um ARMA? Quantos
termos ns precisamos no modelo identificado? Para responder estas questes podemos usar dois
mtodos:
1) Podemos usar um modo subjetivo calculando a funo autocorrelao (ACF) e a funo
autocorrelao parcial (PACF) da srie.
2) Ou usar mtodos objetivos de identificao do melhor modelo ARMA para os dados em mos.
(ARIMA Automatizado)
(12)
Bertolo
Pgina 6
IMESCatanduva
No se intimide com esta frmula. facilmente implementada numa planilha usando uma funo Excel.
Podemos simplificar este procedimento usando alguma das muitas frmulas embutidas do Excel. A
frmula acima essencialmente nos diz que o coeficiente de correlao para alguma k-defasagem
calculada como a covarincia entre a srie original e a srie removida k defasagens, dividido pela
varincia da srie original.
O Excel contm ambas as funes covarincia e varincia, e elas so: =VAR(intervalo), e,
=COVAR(intervalo, intervalo). A planilha (acf) contm os detalhes de como estas duas funes podem ser
usadas para calcular os coeficientes de autocorrelao:
Da frmula (mostramos somente os primeiros sete valores e clculos) fica claro que a parte da varincia
fcil, isto , apenas o intervalo $C$2:$C$52 no nosso caso. A covarincia apenas um pouco mais difcil
para calcular. Os intervalos so:
$C$2:C51;C3:$C$52
$C$2:C50;C4:$C$52
$C$2:C49;C5:$C$52
$C$2:C48;C6:$C$52, etc.
Isto significa que se copiarmos para as clulas abaixo, C51 tornar-se- C52, depois C53, etc. Para evitar
este problema, podemos copiar a frmula para baixo na coluna, mas precisamos manualmente mudar C51
progressivamente numa sequncia descendente. Vamos l, com voc. Os valores ACF so calculados na
coluna D.
PACF
O grfico PACF um grfico dos coeficientes de correlao parciais entre a srie e as defasagens dela
prpria. Uma autocorrelao parcial quantia de correlao entre uma varivel e uma defasagem dela
prpria que no explicado pelas correlaes em todas as defasagens de ordem inferior. A autocorrelao
de uma srie temporal Y na defasagem 1 o coeficiente de correlao entre Y(t) e Y(t-1), o qual
presumivelmente tambm a correlao entre Y(t-1) e Y(t-2). Mas se Y(t) est correlacionado com Y(t-1),
e Y(t-1) est igualmente correlacionado com Y(t-2), ento devemos tambm esperar encontrar correlao
entre Y(t) e Y(t-2). (De fato, a quantia de correlao que devemos esperar na defasagem 2 precisamente
o quadrado da correlao na defasagem 1). Assim, a correlao na defasagem 1 propaga-se para a
Bertolo
Pgina 7
IMESCatanduva
(13)
Figura 2.1
Podemos ver que o clculo da PACF um pouco mais difcil e complexo. Felizmente, escrevi uma macro
para simplificar os seus clculos. Para usar esta macro, voc precisa carregar o nn_Solver no seu Excel.
Eu mostrarei a voc os passos de como fazer isto com um exemplo mais tarde. (ver Apndice A sobre
como carregar nn_Solver).
ii) Como usar o par de funes ACF e PACF para identificar um modelo apropriado?
Um grfico de pares nos fornecer uma boa indicao de qual tipo de modelo queremos tomar em
considerao. O grfico de um par de ACF e PACF chamado de correlograma. A Figura 2.2 mostra
trs pares de correlogramas ACF e PACF.
Bertolo
Pgina 8
IMESCatanduva
Figura 2.2
Na modelagem, se o correlograma atual se parecer com um destes trs correlogramas tericos, em que o
ACF diminui rapidamente e o PACF tem somente um grande pico, escolheremos um modelo AR(1) para
os dados. O 1 nos parnteses indica que o modelo AR precisa somente um termo autoregressivo, e o
modelo um AR de ordem 1. Note que os padres ACF em 2a e 3a so os mesmos, mas o pico PACF
maior em 2b ocorre na defasagem 1, enquanto que em 3b, ele ocorre na defasagem 4. Embora ambos
correlogramas sugiram um modelo AR(1) para os dados, os padres 2a e 2b indicam que um termo
autoregressivo no modelo de defasagem 1; mas o 3a e o 3b indicam que um termo autoregressivo no
modelo de defasagem 4.
Suponha que na Figura 2.2, ACF e PACF troquem seus padres, isto , os padres do PACF se parecero
com aqueles da ACF e os padres do ACF se parecero com aqueles da PACF tendo somente uma estaca
larga, ento escolheremos um modelo MA(1). Suponha que o PACF em cada par parea o mesmo que o
ACF, e ento tentaremos um ARMA(1,1).
At agora descrevemos os modelos AR, MA e ARMA mais simples. Os modelos de ordem superior
podem ser assim identificados, claro, com diferentes padres de correlogramas.
Embora o catlogo acima no seja exaustivo, ele nos d uma ideia razovel do que esperar quando se
decidir sobre os modelos mais bsicos. Infelizmente, o catlogo comportamental acima, das funes de
autocorrelao e autocorrelao parcial, somente terico. Na prtica, as autocorrelaes e
Bertolo
Pgina 9
IMESCatanduva
autocorrelaes parciais somente seguem vagamente estes padres, que o que torna esta abordagem
subjetiva de previso muito difcil. Em adio a isso, as sries temporais da vida real podem ser tratadas
exatamente como uma amostra dos processos subjacentes. Portanto, as autocorrelaes e autocorrelaes
parciais que so calculadas so apenas estimativas dos valores reais, sujeitos aos erros de amostragem.
As autocorrelaes e autocorrelaes parciais tambm fazem um importante papel na deciso se uma
srie temporal estacionria, para que classe de modelos ela pertence e quantos coeficientes so
caracterizados por ela. A questo que ainda est aberta como calcular os coeficientes a e c que
constituem um modelo particular.
Antes de continuarmos com como estimar a e c, retornaremos questo de diferenciao e
estacionariedade como prometido antes. Em geral devemos ser cautelosos onde a diferenciao est
envolvida, a qual influenciar a classe do modelo. Ser errado assumir que quando se garante que se a
srie no estacionria, ela dever simplesmente ser diferenciada. Muita diferenciao pode levar-nos a
acreditar que a srie temporal pertena a uma classe completamente diferente, que apenas um dos
problemas.
Regras para diferenciao
Como, ento, sabemos se temos exagerado e diferenciado demais a srie? Uma das regras bsicas : se a
primeira autocorrelao da srie diferenciada for negativa e mais que -0,5, a srie provavelmente foi
diferenciada demais. Outra regra bsica: se a varincia para o nvel superior de diferenciao crescer,
devemos retornar ao nvel anterior de diferenciao. Um dos princpios bsicos que o nvel de
diferenciao corresponda ao grau uma tendncia polinomial que pode ser usada para ajustar a srie
temporal real.
A noo completa de diferenciao est relacionada ao conceito da assim chamada raiz unitria. Raiz
unitria significa que um coeficiente AR(1) ou um MA(1) seja igual a um (unidade). Para modelos de
ordem superior, isto significa que a soma de todos os coeficientes seja igual a um. Se isto acontecer temos
um problema. Se um modelo AR(1) tiver uma raiz unitria, ento este coeficiente AR dever ser
eliminado e o nvel de diferenciao dever ser aumentado. Para modelos AR(p) superiores, o nmero de
coeficientes AR tem que ser reduzido e o nvel de diferenciao aumentado. Para modelos MA mostrando
raiz unitria, um coeficiente MA dever tambm ser removido, mas o nvel de diferenciao tem que ser
diminudo. Algumas vezes no pegamos razes unitrias anteriores suficientes, e produzimos previses,
que concentram muitos erros. Isto tambm uma consequncia das razes unitrias, que significa que a
reduo nos coeficientes AR ou MA seja necessria.
Outra questo que precisamos responder : qual o significado de d, como calcul-lo e quando o
inclumos num modelo?
Essencialmente, d nos modelos ARMA faz o mesmo papel que o intercepto na regresso linear. Nosso
modelo aqui chamado um modelo ARMA com um nvel, onde d representa este nvel inicial do modelo
(um intercepto). Algumas vezes ele tambm referido como parmetro de tendncia, ou uma constante.
Se quisermos calcular este parmetro tendncia, precisamos comear com a frmula para o valor esperado
de um processo AR, isto , o valor mdio. A mdia de qualquer processo AR(p) calculada como:
(17)
A qual, para AR(2), conduz:
(18)
Desta frmula, o nvel d (ou componente de tendncia) para o processo AR(2) calculado como:
d = Z* [1 a(1) a(2)]
(19)
Bertolo
Pgina 10
IMESCatanduva
(20)
Agora sabemos o que e como calcul-lo, a parte aberta da questo ainda : quando o inclumos no nosso
modelo?
O conjunto de regras pode ser resumido como segue:
Se uma srie temporal no estacionria na sua forma original e tivemos que diferenci-la para
torna-la estacionria, ento a constante no geralmente necessria.
Sries temporais diferenciadas mais do que duas vezes no precisam de uma constante
Se a srie temporal original for estacionria com mdia zero, no necessria uma constante.
Se a srie original for estacionria, mas com uma mdia significativamente grande (que
efetivamente significa
), a constante necessria
o
Se o modelo no tiver uma componente AR (i., ele for um modelo MA ou IMA), ento a
constante igual ao valor mdio da srie.
(15)
Entrar com isso na clula E5. No se preocupe com os smbolos matemticos acima. Eles podem ser
facilmente implementados numa planilha Excel. (ver Figura 2.3 abaixo). O resultado no zero (ver
clula E5) e do grfico podemos ver que a srie temporal parece no estacionria, i., ela est com
tendncia para cima. Ento precisamos antes processar a srie temporal que est sendo diferenciada. A
diferenciao de uma defasagem, i., y(t) = y(t) y(t-1), aplicada. Os valores em C2:C100 so os
valores de diferenciao de uma defasagem5.
4
5
Erro padro
Foram feitas as diferenas sobre os valores originais y(t).
Bertolo
Pgina 11
IMESCatanduva
Vendas Dirias
14,00
12,00
10,00
8,00
6,00
4,00
2,00
0,00
13
19
25
31
37
43
49
55
61
67
73
79
85
91
97
Figura 2.3
H outra abordagem comum para transformaes, que evita diferenciao. Em finanas, por exemplo,
frequentemente estamos mais interessados nos retornos, i., se vendermos as aes hoje (yt), quanto
ganharemos quando comparado com quando as comparamos (yt-1). Matematicamente isto
simplesmente:
. Mesmo se os valores das aes estiverem pulando descontroladamente, a srie de
tais retornos calculados geralmente ser estacionria. A expresso matemtica acima conhecida ser
aproximadamente igual a log (yt)-log(yt-1), que frequentemente usada para se calcular retornos. Esta
expresso pode tambm ser usada para transformar uma srie temporal para uma forma estacionria.
Algumas sries estacionrias no so estritamente estacionrias e embora tenham uma mdia constante,
suas varincias no so constantes (lembre-se da ideia da homocedasticidade?). A transformao log
sugerida aqui sabida reduzir a heterocedasticidade.
Aps uma srie estacionria for colocada no lugar, um modelo bsico pode agora ser identificado.
Existem trs modelos bsicos, AR (autoregressivo), MA (mdia mvel) e, um combinado, ARMA, em
adio aos RD (regular diferenciao) especificados anteriormente se combinam para fornecer as
ferramentas disponveis. Quando a diferenciao regular for aplicada junto com AR e MA, eles so
referidos como ARIMA, com o I indicando integrado e se referindo ao procedimento de diferenciao.
Tenha em mente que estamos usando o mtodo (1) para identificar o modelo. At agora tenho 3
componentes que so importantes para ns entendermos para identificar o modelo:
A ACF e PACF
Dados estacionrios
Diferenciao
Vamos usar um exemplo de planilha para mostrar como calcular a ACF e PACF primeiro e depois ento
demonstrar o que acabamos de discutir, i., usar ACF e PACF para determinar os parmetros p e q como
no ARMA(p,q).
Bertolo
Pgina 12
IMESCatanduva
2
0
1
6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96
-2
-4
-6
Figura 2.4
Agora precisamos calcular o ACF e o PACF. Embora, mostrei a voc como os calcular manualmente (ver
planilha (acf) e planilha (pacf)), , ainda, muito tedioso, especialmente quando voc calcula o PACF.
Felizmente, voc pode usar o suplemento Resolve_Previso escrito por mim para calcular a ACF e a
PACF automaticamente, como tambm os seus respectivos correlogramas. Carregue o Resolve_Previso
no seu Excel. (ver Apndice sobre como carregar o Resolve_Previso).
1. Selecione ACF-PACF no menu Resolve_Previso (ver Figura 2.4a)
Figura 2.4a
Entre com a referncia que voc quer calcular no Intervalo de Dados. No nosso caso, entramos com
C2:C100. (ver Figura 2.4b abaixo). O intervalo de dados no pode comear com linha 1 como C1, A1,
B1 e assim por diante. O Resolve_Previsao dar um erro. Sempre entre com os dados que voc quer
calcular iniciando na linha 2 como C2, A2, B2 e assim por diante numa planilha.
Bertolo
Pgina 13
IMESCatanduva
Figura 2.4b
2. Depois ento clique no boto Calcular. O ACF, PACF e o Erro Padro sero calculados. (ver
Figura 2.4c)
Construa os grficos abaixo usando os dados calculados. (ver Fig. 2.5 e Fig. 2.6). A funo
autocorrelao e a funo autocorrelao parcial para os dados das receitas de vendas diferenciadas so
dados na Fig. 2.5 e Fig. 2.6.
Bertolo
Pgina 14
IMESCatanduva
ACF
0,6
0,4
0,2
0
-0,2
11 13 15 17 19 21 23 25 27 29 31 33
-0,4
-0,6
-0,8
-1
AC
Srie3
Srie2
Figura 2.5
PACF
0,4
0,2
0
-0,2
11 13 15 17 19 21 23 25 27 29 31 33
-0,4
-0,6
-0,8
-1
PACF
Srie2
Srie3
Figura 2.6
Isto pode ser feito usando tambm o suplemento Resolve_Previsao apenas clicando no item de menu
BoxJenkins. Ir aparecer a janela:
Entre com o intervalo de clulas com os dados na combobox, marque a caixa de verificao para primeira
diferenciao e adote o nmero de lags como 20 na caixa de texto. Clique OK e aparecer uma nova pasta
com os resultados e grficos. Interessante, no!
Bertolo
Pgina 15
IMESCatanduva
A funo auto-correlao parcial na Fig. 2.6 mostra dois coeficientes como significativamente no zero,
implicando que isto um modelo ARMA(p,q). A funo autocorrelao confirma esta suposio como
mostra o padro usualmente associado com um modelo ARMA(p,q). Dado que temos que diferenciar a
srie temporal original, o modelo que usaremos, portanto, ARIMA(2,1,1) ou ARMA(2,1)
B) ESTIMAO DO MODELO
A equao para este modelo :
y(t) = d + a(1)*y(t-1) + a(2)*y(t-2) e(t) c(1)*e(t-1)
(16)
Vamos implementar esta frmula numa planilha para otimizar os coeficientes, ajustar o modelo e produzir
previses. Abra a planilha (Vendas Dirias(2)). Os valores das vendas diferenciadas com 1 defasagem (yt
tt-1) so entrados na coluna A. Na coluna B esto os resduos. Na coluna C est a frmula completa.
Pressione CTRL + ~, para ver a frmula na sua planilha Excel. (ver Figura 2.7 abaixo):
Podemos atribuir valores iniciais a a(1) = a(2) = c(1) = 0,1 e verificar se precisamos calcular d. A Figura
2.8 abaixo fornece um gabarito (template) para isso, e alguns outros clculos, que explicaremos mais
abaixo.
Bertolo
Pgina 16
IMESCatanduva
Os valores iniciais de a(1), a(2) e c(1) esto definidos nas clulas F2, F3 e F4. As clulas E5 e E6 contm
a mdia e o desvio padro da srie temporal7. Desde que temos aplicado a diferenciao srie temporal,
o valor d no necessrio e entra-se com 0 na clula E8. Mostrarei para voc outro exemplo onde
calcularemos o d mais tarde quando usarmos o mtodo (2).
Nosso conjunto de dados de receitas de venda era originalmente no estacionrio e teve que ser
diferenciado antes que a modelagem pudesse ser aplicada. Esta a razo pela omisso da constante d em
primeiro lugar. Assim definimos d como 0 neste exemplo. (Ver Fig. 2.8 acima).
Da frmula 2.16 podemos facilmente extrair e(t), que :
e(t) = y(t) [d + a(1)*y(t-1) + a(2)*y(t-2) c(1)*e(t-1)]
A frmula acima mostra como calcular e(1). Mas precisamos conhecer e(0), que no conhecemos. A
conveno atribuir zeros para todos os valores desconhecidos de e(0). Na Figura 2.7 acima, podemos
ver zero na clula B2 e B3, que so as primeiras clulas necessrias para realizar este clculo. Como o
modelo um ARMA(2,1), atribumos 0 tambm para B3.
Agora temos todos os erros e(t), dado apenas os valores iniciais de a(1), a(2) e c(1), podemos calcular a
assim chamada soma condicional dos quadrados dos resduos (SSE), que condicional nos valores de
a(1) e c(1). A frmula para SSE :
A clula F10 nos d o valor de SSE = 377,07 inicialmente, que foi obtido usando a funo Excel
=SOMAQUAD(B2:B100). Esta clula instrumental para estimar o valor timo de a(1), a(2) e c(1), que
esperamos conduzir melhor previso possvel. Para chegar a isto, usaremos o Solver do Excel. Nosso
objetivo minimizar o SSE (i., o valor da clula F10), mudando os valores de F2:F4, i., os valores de
a(1), a(2) e c(1). Como antes, precisamos definir a regio admissvel que garantir que o nosso modelo
seja estacionrio e invertvel. Para processos, ARIMA(2,1,1), isto : -1 < a(1) < 1 e -1 < c(1) < 1, ou,
|a(1)| < 1 e |c(1)| < 1. As clulas F12 at F15 definem estas condies.
Antes de mostrarmos como usar o Solver, precisamos entender mais um ponto sobre os coeficientes de
AR(p), a(1), a(2), etc. Um processo que gerado usando estes coeficientes tem que ser estacionrio. Em
outras palavras, certos valores de a(1), a(2), etc., no necessariamente geraro um processo estacionrio.
Para satisfazer esta condio estrita de estacionariedade, precisamos definir a regio admissvel para
estes coeficientes.
No caso de AR(1), esta regio admissvel definida como:
-1 < a(1) < 1 (ou, |a(1)| < 1).
Podemos ver que nossas estimativas iniciais de a(1), a(2), c(1) na Figura 2.8 satisfazem todas estas
condies de estacionariedade. Estes parmetros so entrados na clula F12 at a F15. Uma ltima coisa
antes de mostrar como usar o Solver para calcular os coeficientes.
Agora que entendemos modelagem (no mnimo para esta classe de modelos), devemos estabelecer se os
valores estimados dos coeficientes do modelo so verdadeiramente aqueles melhores disponveis.
Tradicionalmente esta questo envolve clculos complicados e muito complexos, que garantem que o
7
Bertolo
Pgina 17
IMESCatanduva
mximo dos estimadores mais provveis seja selecionado. Felizmente com ajuda do Solver do Excel,
muitas destas operaes no so necessrias. Vamos faz-las...
Nosso objetivo minimizar o valor SSE na clula F10.
A clula F10 nos d o valor de SSE = 377,07 inicialmente, que foi obtido usando a funo =
SOMAQUAD(B2:B100) do Excel.
Esta clula, juntamente com as clulas F12 at F15 o instrumental para se estimar o valor timo de a(1),
a(2) e c(1), que esperamos conduzir melhor previso possvel. Para chegar a isto, usaremos o Solver do
Excel. Nosso objetivo minimizar SSE (i., o valor da clula F10), mudando os valores de F2:F4, i., os
valores de a(1), a(2) e c(1). Como antes, precisamos definir a regio admissvel que garantir que o
nosso modelo seja estacionrio e invertvel. Para processos ARIMA(2,1,1), isto : -1 < a(1) < 1 e -1 <
c(1) <1, ou, |a(1)| < 1 e |c(1)| < 1. As clulas F12 at F15 definem estas condies.
Depois de invocar Solver no grupo de ferramentas Anlise na guia Dados, uma caixa de dilogo aparece
como mostrado na Figura 2.9 abaixo, onde entraremos com todos os parmetros nesta caixa de dilogo.
Figura 2.10
a. Defina a Clula Alvo: F10 (o SSE)
b. Mudando as Clulas: F2:F4 (a(1), a(2), c(1))
c. Os vnculos como mostrados na clula F12:F15
Bertolo
Pgina 18
IMESCatanduva
Bertolo
Pgina 19
IMESCatanduva
(18)
em vez de
y(t) = d + a(1)*y(t-1) + a(2)*y(t-2) e(t) c(1)*e(t-1)
Voc pode ver que eu abandonei o e(t) da nossa frmula quando os calculamos na coluna B para derivar
os valores na Coluna C. A coluna C, na Figura 2.15, mostra os valores para y(t) e a Figura 2.14 mostra a
frmula usada para produzir a Figura 2.15.
Bertolo
Pgina 20
IMESCatanduva
Figura 2.14
Figura 2.15
Bertolo
Pgina 21
IMESCatanduva
Real Vs Previsto
6
13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
-2
y(t)
-4
-6
Figura 2.16
Resduos/Erros
5
4
3
2
1
0
-1 1
9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
-2
-3
-4
-5
Figura 2.17
Quo aproximadamente os valores ajustados esto se casando com os da srie temporal original pode ser
visto na Figura 2.16 acima. Erros de previso da coluna B so mostrados na Figura 2.17 acima e eles
parecem distribudos aleatoriamente, como esperado. Antes de aprontarmos para a previso, precisamos
fazer um diagnstico verificando primeiro.
C) DIAGNSTICO DE VERIFICAO
Como saber que produzimos um modelo razovel e que nosso modelo realmente reflete a srie temporal
real? Isto uma parte do processo que Box e Jenkins se referem como diagnstico de verificao. Usarei
dois mtodos para conduzir o diagnstico.
Como esperamos, os erros de previso so completamente aleatrios, o primeiro passo plot-los, como
fizemos na Figura 2.17 acima por exemplo. Um dos requisitos que a mdia residual dever ser zero, ou
prxima zero. Para estabelecer que este ocaso, precisamos estimar o erro padro do erro mdio. Isto
calculado como:
Bertolo
Pgina 22
IMESCatanduva
(19)
(20)
(21)
Podemos tomar um exemplo da Coluna B para a qual os erros e(t) so calculados e mostrados nela. Como
estimar o erro residual padro SEe (erro padro), est mostrado abaixo na Figura 2.18 e a frmula est
dada na Figura 2.19 abaixo:
Figura 2.18
Bertolo
Pgina 23
IMESCatanduva
Figura 2.19
A clula E20 contm uma breve declarao SE avaliando se a mdia , calculada em E17, maior que o
erro padro vezes 1,96. No nosso modelo, isso no acontece e, ento, temos mdia zero, a qual passa no
teste.
Outro teste que muito popular o teste de Durbin-Watson, o qual usado no contexto de verificao
da validade dos modelos ARIMA.
A estatstica Durbin-Watson um teste estatstico usado para detectar a presena de autocorrelao nos
resduos de uma anlise de regresso. assim chamado depois de James Durbin e Geoffrey Watson. Se et
o resduo associado com a observao no tempo t, ento o teste estatstico :
(22)
Como w na clula E26 aproximadamente igual a 2(1 r), onde r a autocorrelao amostral dos
resduos, w = 2 indica nenhuma autocorrelao. O valor de w sempre cai entre 0 e 4. Se a estatstica de
Durbin-Watson for substancialmente menor que 2, h evidncia de correlao serial positiva. Como um
princpio bsico grosseiro, se Durbin-Watson for menor que 1,0, dever ser causa para alarme. Valores
pequenos de w indicam que os termos de erros sucessivos so, na mdia, prximos em valor um do outro,
ou positivamente correlacionado. Se w > 2 os termos de erros sucessivos so, na mdia, muito diferentes
em valor um do outro, i., negativamente correlacionados. Em regresses, isto pode implicar uma sub
estimao do nvel de significncia estatstica.
Figura 2.20
Bertolo
Pgina 24
IMESCatanduva
No nosso modelo temos 1,90449 na clula E26 o qual est muito prximo de 2, o que indica: nenhuma
autocorrelao. Ver Figura 2.20 acima. Podemos agora seguir com a previso.
D) PREVISO
Agora estamos prontos para produzir previses reais, i., aquelas que vo adiante no futuro. A equao
pode ser aplicada um passo adiante para estimar (t) do observado y(t-1). Uma previso k-passos
adiante pode tambm ser feita pela aplicao recorrente da equao. Numa aplicao recorrente, o y
observado no tempo 1 usado para gerar o estimado no tempo 2. Esta estimativa ento substituda
com y(t-1) para obter o estimado no tempo 3, e assim por diante. A previso k-passos adiante
eventualmente converge a zero quando o horizonte de previso, k, aumentar. V clula A101:A105.
Faremos a previso de acordo com a frmula abaixo: ARIMA(2,1,1) ou ARMA(2,1). A frmula
y(t) = -0,537871274*y(t-1) + 0,058098633*y(t-2) 0,614100745*e(t-1)
Figura 2.21
Bertolo
Pgina 25
IMESCatanduva
Figura 2.22
A Figura 2.21 mostra a planilha contendo os nmeros bsicos e a Figura 2.22 mostra todos os clculos.
Valores Previstos
4
3
2
1
0
10
11
12
13
14
15
16
17
18
-1
-2
-3
Real
Previsto
-4
Figura 2.23
Como j explicamos, uma vez tendo executado os valores reais, os valores reais de y(t) so trocados pelos
seus valores ajustados (iniciando em C102). Isto inevitavelmente degrada as previses, e explicamos
como modelos diferentes se comportam. Como podemos ver, nossa previso para a clula C102 e C103
na Figura 2.21 muito boa (como sabemos os valores reais, os colocamos nas clulas A101:A105).
Infelizmente nossa previso para a clula C104 comea a ser significativamente diferente do valor real
conhecido na clula A104. Isto implica que para muitas sries temporais, o mtodo de Box-Jenkins um
bom ajuste, mas somente para previses de curto prazo.
Para resumir, nesta seo no somente foi mostrado o processo completo de identificao do modelo,
ajustando-os e fazendo previso, mas tambm apresentamos uma maneira muito gil de faz-la.
Vinculamos os valores dos coeficientes ARMA diretamente com a soma dos quadrados dos resduos, a
Bertolo
Pgina 26
19
IMESCatanduva
qual se tornou um valor alvo no Solver, e que num nico passo produziu valores timos para estes
coeficientes.
i)
i)
SOMARPRODUTO()
ii)
DESLOC()
SOMARPRODUTO()
Baseado na planilha Excel acima, voc poder entrar com a seguinte frmula:
=SOMARPRODUTO(A1:B2;D1:E2)
Bertolo
Pgina 27
IMESCatanduva
DESLOC()
A funo DESLOC() retorna uma clula ou intervalo de clulas que um nmero especificado de linhas
e/ou colunas de uma clula de referncia. Neste tutorial explicaremos as aplicaes mais comuns de
DESLOC() e os erros que so cometidos quando se usa esta funo no MS-EXCEL.
A sintaxe para DESLOC() :
DESLOC(clula de referncia; linhas; colunas; [altura]; [largura])
Os componentes entre colchetes podem ser omitidos na frmula.
Como funciona a funo DESLOC do Excel?
A funo DESLOC() retorna uma clula ou intervalo de clulas que for especificado no nmero de linhas
e/ou colunas da clula de referncia. Para descries especficas de cada componente, por gentileza ver o
arquivo Ajuda do Excel.
Se algum componente, linhas, colunas, altura ou largura, for deixado em branco, o Excel
assumir seu valor como zero. Por exemplo, se a frmula for escrita como DESLOC(C38;;1;; ), o Excel
interpretar isto como DESLOC(C38;0;1;0;0). Isto pode tambm ser escrito como DESLOC(C38;;1),
desde que altura e largura podem ser omitidos.
Note que se altura e largura forem includos na frmula, eles no podem ser iguais zero ou resultar
um erro #REF!. Os exemplos abaixo ilustram a funo.
Exemplo 1 de DESLOC()
DESLOC(D10;1;2) dar o valor em F11 ou 7, i., o Excel retorna o valor da clula 1 linha abaixo e 2
colunas direita de D10.
Exemplo 2 de DESLOC()
DESLOC(G12;-2;-2) dar o valor em E10 ou 2, i., o Excel retorna o valor da clula 2 linhas acima e duas
colunas para a esquerda de G12.
Exemplo 3 de DESLOC()
Bertolo
Pgina 28
IMESCatanduva
DESLOC(F12;;;-2;-3) retornar o intervalo de 2 linhas por trs colunas, D11:F12. Note que a clula de
Exemplo 4 de DESLOC()
DESLOC(D10;1;1;2;3) retornar o intervalo de 2 linhas por trs colunas, E11:G12, i., o Excel primeiro
calcula DESLOC(D10;1;1) que E11 (1 linha abaixo e 1 coluna direita da clula de referncia D10),
depois ento aplica a frmula DESLOC(E11;;;2;3).
Bertolo
Pgina 29
IMESCatanduva
No se preocupe com as frmulas acima. Elas so facilmente implementadas numa planilha Excel. Deixeme mostrar-lhe como construir esta identificao de modelo automatizada com um exemplo de planilha.
Abra a planilha (Trabalho(2)). Os dados so da produo diria de eletricidade num pas em
desenvolvimento: milhes de quilowatts por dia so entrados no intervalo de clulas A2:A501.
Produo Diria de Eletricidade
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
1
28
55
82 109 136 163 190 217 244 271 298 325 352 379 406 433 460 487
Do grfico podemos ver que os dados so estacionrios. Entretanto, podemos confirmar isto com o teste
de mdia zero. Na clula I28 confirme que os dados tm uma mdia zero.
A equao geral para o ARMA(p,q) :
y(t) = d + a(1)*y(t-1) + a(2)*y(t-2)+ ... + a(p)*y(t-p) + e(t) c(1)*e(t-1) c(2)*e(t-2) - ... c(p)*e(t-p)
Os parmetros para p e q so entrados nas clulas L1 e M1, respectivamente.
Os coeficientes para p so entrados em L2:L11 e os coeficientes para q so entrados em M2:M11.
Note que coloquei o mximo ARMA(10,10). O modelo pode ter qualquer p e qualquer q. Para usar o AIC,
BIC para identificar um modelo ARMA(p,q) automaticamente precisamos definir os limites superiores,
p e q para a ordem AR e MA, respectivamente. No nosso caso os limites superiores, p e q 10. Os
valores nas clulas L2:M11 so os coeficientes correspondentes.
Por exemplo, se o modelo um ARMA(3,2), a clula em L1 mostrar um 3 e M1 ser um 2. Os
coeficientes correspondentes so as clulas L9, L10, L11 para o AR e clulas M10, M11 para o MA. (ver
os nmeros em azul na Figura 2.24 abaixo).
Bertolo
Pgina 30
IMESCatanduva
Figura 2.24
Os coeficientes so como segue:
a(1) = L11, a(2) = L10, a(3) = L9
c(1) = M11, c(2) = M10
Ou se for um ARMA(2,1), ento a clula em L1 mostrar um 2 e M1 ser um 1. Os coeficientes
correspondentes so as clulas L10:L11 para o AR e clula M11 para o MA. (ver os nmeros em azul na
Figura 2.25 abaixo):
Figura 2.25
A funo INT do Excel foi usada para remover todas as casas decimais deixando somente o nmero
inteiro. Remover casas decimais, ou a parte fracionria de um nmero necessrio para usar o Solver do
Excel para nossa modelagem.
A clula L12 est relacionada L1 quando L1 for um nmero inteiro ou inteiro de L12. Precisamos entrar
com a funo INT() na clula L1 pois o Solver do Excel retornar um erro se L1 no for um inteiro. O
mesmo vale para M1 e M12. Eles esto relacionados pela mesma razo.
Como prometido anteriormente, incluirei o clculo de d neste exemplo. A frmula para d entrar na
clula I5. (Voc pode se referir em como d derivado olhando a pgina 35 acima).
Para o entendimento mais fcil, a equao geral acima desdobrada em 3 partes:
i.
Pgina 31
IMESCatanduva
iii.
Figura 2.26
Como voc pode ver, a frmula inicia com uma funo SE. A razo que esta clula ser calculada se o p
na clula L1 for maior que ou igual a 1. De outra forma o valor ser zero.
Uma declarao SE usada no Excel para fazer certas aes somente se alguma coisa for verdadeira. Por
exemplo, voc poderia querer imprimir a mensagem Estamos perdendo dinheiro se as vendas totais
para este ms ficarem abaixo de certa quantia. Por outro lado, voc apenas ir querer imprimir Estamos
fazendo dinheiro! Assim, a clula B3 significa
=SE(p <= 1;ento calcule; caso contrrio o valor da clula = 0) em termos no profissionais.
Por exemplo $L$1 = 3 (i., p = 3) ento os primeiros 3 dados da srie no so calculados, i.., os valores
em y(t-1) na clula A4, y(t-2) na clula A3 e y(t-3) na clula A2 so usados para calcular y(t) na clula B5
(ver Figura 2.27 abaixo).
Figura 2.27
Usando p = 3 isto
SOMARPRODUTO(DESLOC($L$12;-1;0):DESLOC($L$12;-$L$1;0);DESLOC(A3;-$L$1;0):DESLOC(A3;-1;0)), ser:
Bertolo
Pgina 32
IMESCatanduva
Agora podemos ver como usei as funes SOMARPRODUTO() e DESLOC() para configurar a frmula
geral AR(p).
iii.
A frmula acima implica que para calcular e(t-1), por exemplo, precisamos conhecer e(t), o qual no
conhecemos. A conveno atribuir zeros a todos os valores desconhecidos de e(t). Assim, entramos com
zero na clula C2, que a primeira clula necessria para realizar este clculo.
A frmula como esta para a segunda linha na clula C3 (ver Figura 2.28 abaixo)
=SE($M$1 <= 1;SOMARPRODUTO(DESLOC($M$12;-1;0):DESLOC($M$12;-$M$1;0);DESLOC(D3;-$M$1;0):DESLOC(D3;-1;0));0)
Figura 2.28
Novamente uma funo SE est em uso. Temos q = 2 na clula M1, assim as clulas C2 e C3 = 0.
Usando q = 2, a frmula (clculo parte de C4):
SOMARPRODUTO(DESLOC($M$12;-1;0):DESLOC($M$12;-$M$1;0);DESLOC(D3;-$M$1;0):DESLOC(D3;-1;0)),
ser:
c(1)*e(t-1) c(2)*e(t-2) M11*D3 M10*D2
Se q = 3, ento a frmula (o clculo parte de C5):
c(1)*e(t-1) c(2)*e(t-2) - c(3)*e(t-3) M11*D4 M10*D3 M9*D2
etc...
Como para os resduos ou erros e(t), estes so entrados na coluna D. (ver Figura 2.29 abaixo)
Figura 2.29
Bertolo
Pgina 33
IMESCatanduva
D = 15
Coluna D = e(t)
onde,
k = nmero de coeficientes estimados (1 + p + q + P + Q)
rss = soma dos quadrados residuais
n = Nmero de observaes
Assumindo que haja um modelo ARMA verdadeiro para a srie temporal, o BIC e HQC tm as melhores
propriedades tericas. O BIC fortemente consistente enquanto o AIC usualmente resultar num modelo
sobre parametrizado; isto fcil de verificar que para n maior que sete o BIC impem uma penalidade
maior para parmetros adicionais do que faz o AIC.
Assim, na prtica, usar o critrio de seleo objetivo de modelo envolve estimar um intervalo de modelos
e aquele um com o critrio de informao mais baixo selecionado. Estas duas frmulas so entradas nas
clulas I11 para o AIC e I12 para o BIC (ver Figura 2.30 abaixo):
Bertolo
Pgina 34
IMESCatanduva
Figura 2.30
Precisamos tambm definir a regio admissvel que garantir que nosso modelo seja estacionrio e
invertvel. Os coeficientes do modelo AR devem estar dentro de uma regio permitida para garantir a
estacionariedade e h tambm uma regio permitida para os coeficientes do modelo MA que garanta a
invertibilidade. Cada modelo MA estacionrio por definio, mas invertvel somente se certas
condies forem satisfeitas. A propsito, modelos AR so invertveis para todos os valores dos
coeficientes, mas somente estacionrios se os coeficientes estiverem numa regio admissvel particular.
Na Figura 2.30 acima a regio admissvel que garante estacionariedade dada na clula I20 e a regio
admissvel garantindo a invertibilidade dada na clula I21. Quando tivermos um modelo generalizado
para ARIMA automtico, as frmulas para garantir a estacionariedade e a invertibilidade so:
Agora a vez de usar o Solver do Excel para o nosso modelo ARIMA(p,q) Automatizado
Abra a planilha (Trabalho(3)). A planilha (Trabalho(3)) apenas uma cpia da planilha (Trabalho(2)).
Para usar o Solver, clique no boto em Arquivo > Opes, para aparecer a seguinte janela:
Bertolo
Pgina 35
IMESCatanduva
Figura 2.31
Verifique se na caixa Gerenciar aparece Suplementos do Excel, depois ento pressione o boto Ir...
Selecione a caixa SOLVER se esta estiver desmarcada nos Suplementos disponveis.
Figura 2.32
Depois de selecionar o suplemento Solver e clicar no boto OK, o Excel leva um momento para cham-lo
e o adiciona no grupo de ferramentas de Anlise da guia Dados.
Depois de executar o Solver, voc ser apresentado aos parmetros do Solver na caixa de dilogo abaixo:
Bertolo
Pgina 36
IMESCatanduva
Figura 2.33
Vamos revisar cada parte desta caixa de dilogo, uma de cada vez.
Definir Objetivo: onde voc indica a funo objetivo (ou meta) a ser otimizada. Esta clula deve conter
uma frmula que depende de uma ou de outras clulas (incluindo aquela ltima clula variando). Voc
pode ou digitar no endereo de clulas ou clicar na clula desejada. Aqui entramos com a clula I11.
No nosso modelo ARIMA, a funo objetivo minimizar o AIC na clula I11. Ver Figura 2.34 abaixo
Para: lhe dar a opo de tratamento da Clula Alvo em trs modos alternativos. Max (o default) diz ao
Excel para maximizar a Clula Alvo e Min, minimiz-la, enquanto Valor de: usada se voc quiser
atingir certo valor particular na Clula Alvo escolhendo um valor particular da varivel endgena.
Aqui, selecionamos Min pois queremos minimizar o AIC. (Voc pode tambm tentar I12 o BIC).
Para valor inicial, usei p e q = 5. Os coeficientes =0,1 (ver Fig. 2.34 abaixo).
Bertolo
Pgina 37
IMESCatanduva
Figura 2.34
Alterando Clulas Variveis: permite-lhe indicar quais clulas so as clulas ajustveis (i.., variveis
endgenas). Como na caixa Definir Objetivo:, voc deve digitar um endereo de clula ou clicar numa
clula da planilha. O Excel manipula problemas de otimizao multi-varivel permitindo-lhe incluir
clulas adicionais na caixa Alterando Clulas Variveis. Cada varivel escolhida no contgua separada
por ponto e vrgula. Se voc usar a tcnica do mouse (clicando nas clulas), a separao de ponto e
vrgula automtica.
Aqui, as clulas que precisam ser mudadas so aquelas dos parmetros p e q e seus coeficientes. No
modelo, os parmetros p e q e seus coeficientes esto contidos no Intervalo L2:M12 e L2:M11
respectivamente. Ento entramos com, L12:M12;L2:M11. Ver Figura 2.35 abaixo:
Bertolo
Pgina 38
IMESCatanduva
Figura 2.35
Sujeito s Restries: usado para impor vnculos nas variveis endgenas. Recorreremos a esta
importante parte do Solver quando fizermos os problemas de Otimizao de Vnculos. Teremos uns
poucos vnculos que precisam ser entrados como mostrado na Figura 2.35 acima.
Clique no boto Adicionar para adicionar estas restries.
Figura 2.36
Estas restries so:
a. I20:I21 1
: As Regies Permissveis
b. I20:I21 -1
Bertolo
Pgina 39
IMESCatanduva
:opeoq
d. L12:M12 1
e. L12:M12 = nmero inteiro
f. L2:M11 1
: os coeficientes
g. L2:M11 -1
Aps isto selecione as Opes. Isto lhe permitir ajustar as maneiras nas quais o Solver abordar a
soluo (ver Figura 2.37)
Figura 2.37
Como voc pode ver, uma srie de escolhas est includa na caixa de dilogo Opes do Solver que
direcionam a busca do Solver pela soluo tima e a durao da busca. Estas opes podem ser mudadas
se o Solver estiver tendo dificuldade de encontrar a soluo tima. Abaixando a Preciso, o Nvel de
Nmero Inteiro Ideal (%), etc., diminui a velocidade do algoritmo mas deve capacitar o Solver a
encontrar uma soluo.
Para um modelo ARIMA, voc pode definir:
i.
ii.
Iteraes: 1000
Bertolo
Pgina 40
IMESCatanduva
iv.
Selecione Todos os Mtodos como o mtodo de procura. Isto prova ser muito efetivo na minimizao
do AIC.
Clicando OK retorne caixa de dilogo Parmetros do Solver.
Resolver: obviamente o boto que voc tem de clicar para fazer o Solver, do Excel, encontrar uma
soluo. Esta a ltima coisa que voc deve fazer na caixa de dilogo de Parmetros do Solver. Ento,
clique Resolver para iniciar o treinamento.
Figura 2.39
Quando o Solver iniciar a otimizao, voc ver a Soluo Tentativa no canto esquerdo inferior de sua
planilha. Ver Figura 2.39 acima.
Uma mensagem aparecer depois que o Solver tiver convergido (ver Figura 2.40). Nesse caso, o Excel
relata que: Solver has converged to the current solution. All constraints are satisfied. Esta uma boa
notcia.
Bertolo
Pgina 41
IMESCatanduva
Algumas vezes, a soluo no satisfatria e o Solver se torna incapaz de encontrar a soluo de uma s
vez. Por exemplo deve ter falhado o teste estacionrio como indicado na clula I9, i., nenhuma mdia
zero. Se este for o caso ento voc, deve mudar os parmetros iniciais de p e q e os coeficientes e
executar o Solver novamente. Siga os passos discutidos acima. Da minha experincia, geralmente voc ir
precisar executar o Solver umas poucas vezes antes de chegar soluo satisfatria.
A m notcia uma mensagem como, Solver could not find a solution. Se isto acontecer, voc deve
diagnosticar, debugar, e por outro lado pensar sobre o que esteve errado e como poderia ser fixado. As
duas fixaes mais rpidas so tentar diferentes parmetros iniciais p e q e seus coeficientes.
Na caixa de dilogo Resultados do Solver, voc elegeu se o Excel escrever a soluo que ele encontrou
nas Clulas Objetivo (i., Manter a Soluo do Solver) ou se deixar a planilha somente e NO escrever
o valor da soluo nas Clulas Objetivo (i., Restore Original Values). Quando o Excel relatar uma
execuo bem sucedida, voc dever geralmente querer Manter a Soluo do Solver. No lado direito da
caixa de dilogo Resultados do Solver, o Excel apresenta uma srie de relatrios. Os relatrios Resposta,
Sensibilidade e Limites so planilhas adicionais inseridas na pasta corrente. Elas contm os diagnsticos e
outras informaes e dever ser selecionada se o Solver estiver problemas ao encontrar uma soluo.
Figura 2.41
Minha primeira execuo do Solver do Excel veio a ter a soluo acima. AIC = -6,236111282 na clula
I11. Como indicado na Figura 2.41 acima, temos um modelo ARMA(1,1). Os coeficientes esto nas
clulas L11 e M11. Ele passou todos os testes como voc pode ver nas clulas I9 e H18 na Figura 2.41.
(Note: Dependendo dos dados que voc tiver, algumas vezes voc ir precisar executar o Solver umas
poucas vezes antes de voc chegar a uma soluo satisfatria).
Bertolo
Pgina 42
IMESCatanduva
Como sabemos que produzimos um modelo razovel e que nosso modelo realmente reflete a srie
temporal real? Esta uma parte do processo que Box e Jenkins se referem como diagnstico de
verificao. Usarei dois mtodos para conduzir o diagnstico. Como esperamos que os erros de previso
sejam completamente aleatrios, o primeiro passo plot-los, como fora feito na Figura 2.42 abaixo, por
exemplo. Este diagrama dos resduos indica aleatoriedade. Mas queremos garantir isto e precisamos fazer
os clculos
Resduos/Erros
4,00
3,00
2,00
1,00
0,00
1
24 47 70 93 116 139 162 185 208 231 254 277 300 323 346 369 392 415 438 461 484
-1,00
-2,00
Srie1
-3,00
-4,00
Figura 2.42
Uma das exigncias que a mdia residual dever ser zero, ou prxima de zero. Para estabelecer que este
o caso, precisamos estimar o erro padro do erro mdio. Isto calculado como:
na clula I7, onde e o desvio padro residual, o erro mdio, n o nmero de erros e
o erro
padro do erro mdio. Se a mdia residual for maior que 1,96 erros padres ( ), ento podemos dizer
que ela significativamente no zero:
na clula I9.
Como estimar o erro residual padro SEe (erro padro) est mostrado abaixo na Figura 2.43 e as frmulas
esto dadas na Figura 2.44 abaixo.
Bertolo
Pgina 43
IMESCatanduva
Figura 2.43
Bertolo
Pgina 44
IMESCatanduva
A clula I9 contm uma breve declarao SE avaliando se a mdia calculada em I6 maior que o erro
padro vezes 1,96. No nosso modelo tivemos mdia zero a qual passou no teste.
Outro teste que bem popular o teste de Durbin-Watson, que usado no contexto de verificao de
validade do modelo ARIMA. A estatstica Durbin-Watson um teste estatstico usado para detectar a
presena de autocorrelao nos resduos de uma anlise de regresso. Foi assim chamado aps James
Durbin e Geofrey Watson.
Se et o resduo associado com a observao no tempo t, ento a estatstica do teste
A clula H16 contm a parte superior da frmula acima e H17 contm a parte inferior. Como w na clula
H18 aproximadamente igual a 2(1 - r), onde r a autocorrelao amostral dos resduos, w = 2 indica
nenhuma correlao. O valor de w sempre fica entre 0 e 4. Se a estatstica de Durbin-Watson for
essencialmente menor que 2, h evidncia de correlao serial positiva. Como um princpio bsico
grosseiro, se Durbin-Watson for menor que 1,0, haver motivo de alarme. Pequenos valores de w indicam
que os sucessivos termos de erros so, em mdia, prximos em valor um do outro, ou positivamente
correlacionado. Se w > 2, os sucessivos termos de erro so, em mdia, muito diferentes em valor uns dos
outros, i.., negativamente correlacionados. Em regresses, isto pode implicar uma sub-estimao do
nvel de significncia estatstica.
No nosso modelo temos 1,96812 na clula H18 o qual est muito prximo de 2 e que indica nenhuma
correlao. Ver Figura 2.43 acima. Podemos agora seguir com a previso.
E) PREVISO
Agora estamos prontos para produzir previses reais, i., aquela que entram no futuro. A equao pode
ser aplicada um passo frente para obter a estimativa de y(t) do y(t-1) observado. Uma previso k
passos frente pode tambm ser feita pela aplicao recorrente da equao. Na aplicao recorrente, o y
observado no tempo 1 usado para gerar o y estimado no tempo 2. Esta estimativa ento substituda em
y(t-1) para obter o y estimado no tempo 3, e assim por diante. As previses k passos adiante
eventualmente convergem a zero quando o horizonte de previso, k, cresce. Na planilha Trabalho(3) v
clula A502:A507.
Projetaremos conforme a frmula seguinte: ARIMA(1,0,1) ou ARMA(1,1)
Usamos a frmula:
y(t) = 1,30335 + 0,73951*y(t-1) 0,32419*e(t-1)
Figura 2.45
Bertolo
Pgina 45
IMESCatanduva
Figura 2.46
A Figura 2.45 mostra a planilha contendo os valores de previso e a Figura 2.46 mostra todos os clculos
e frmulas.
Real vs Previsto
5,60
5,40
5,20
5,00
4,80
4,60
Real
4,40
Previsto
4,20
1
Figura 2.47
Como j explicamos, uma vez tendo executado os valores reais, os valores reais de y(t) trocados pelos
seus valores ajustados (comeando de E503). Isto inevitavelmente degrada a previso, e explicamos como
diferentes modelos se comportam. Como podemos ver, nossa previso para a clula E502 e E505 na
Figura 2.45 muito boa (como conhecemos os valores reais, os colocamos nas clulas A502:A507 para
comparar).Infelizmente nossa previso para a clula E506 comea a ser significativamente diferente dos
valores reais conhecidos na clula A506. Isto implica que para muitas sries o mtodo ARIMA um bom
ajuste, mas somente para previses de curto prazo.
Voc pode no ter um modelo to ideal. Ele levou-me a cerca de 10 execues do Solver Excel sobre o
modelo antes de apresentar estes resultados. Mudando o p, q e seus valores iniciais dos coeficientes e
depois ento executando o Solver at voc chegar a uma soluo satisfatria. Ele leva um pouco mais de
teste e execues.
Outra maneira que voc pode fazer uso do modelo usar o Solver do Excel para otimizar os coeficientes
somente. Voc entra com o p e o q manualmente e usa o Solver para otimizar o coeficiente. Deixe-me
dar-lhe um exemplo. Abra a planilha Trabalho(4). Entre com 2 em ambas as clulas L12 e M12. (ver
Figura 2.48 abaixo). Ento estamos usando um modelo ARMA(2,2). Invoque o Solver do Excel e entre
com os parmetros como mostrados na Figura 2.49 abaixo:
Bertolo
Pgina 46
IMESCatanduva
Figura 2.48
Bertolo
Pgina 47
IMESCatanduva
Figura 2.49
Assim as Clulas variveis agora so somente L10:M11. A L12:M12 que so o p e o q no est l pois
temos fixadas estas clulas com 2 como num ARMA(2,2). (Voc pode tambm experimentar diferentes
valores de p e q).
Aps isto apenas otimize os coeficientes na clula L10:M11 com o Solver at voc obter uma soluo
satisfatria. Faa o teste e a previso como a que foi mostrada acima. Chamei isto de uma modelagem
ARIMA semi-automatizada. O resultado que tivemos, foi: a(1) = 0,160689, a(2) = 0,455254, c(1) = 0,27953, c(2) = 0,27179. Ver o resultado na Figura 2.50 abaixo.
A frmula :
y(t) = 1,9216479 + 0,16069*y(t-1) + 0,455255*y(t-2) (-0,27953*e(t-1)) 0,271794*e(t-2)
Bertolo
Pgina 48
IMESCatanduva
Figura 2.50
Para resumir, nesta seo ns no somente mostramos o processo todo de identificao de modelos
automaticamente, ajustando-os e fazendo previses, mas tambm apresentamos uma maneira muito mais
rpida de fazer isto. Vinculamos os valores dos coeficientes ARMA diretamente com o AIC, que se
tornou o valor alvo no Solver, e que em poucos passos simples produziu valores timos para estes p, q e
seus coeficientes.
Pgina 49
IMESCatanduva
Para uma srie temporal com um padro de 112 meses, a diferenciao sazonal executada como segue:
A frmula de diferenciao exige que numa srie temporal sazonal, precisamos encontrar diferenas entre
dois meses comparveis, melhor do que entre dois meses sucessivos como faz mais sentido. Neste
exemplo, 12 o nmero de meses. Se atribuirmos a letra s para a sazonalidade, ento a diferenciao
sazonal em geral descrita como:
w(t) = y(t) y(t-s)
Como na diferenciao ordinria, algumas vezes um segundo nvel de diferenciao necessrio. Isto
feito como:
w(t) = w(t) w(t-s)
Se substituirmos w(t) = w(t) w(t-s), mas w(t) = y(t) y(t-s), obtemos:
w(t) = [y(t) y(t-s)] [y(t-1) y(t-s-1)] = y(t) y(t-1) y(t-s) + y(t-s-1)
Por exemplo, para s = 12, d:
w(t) = y(1) y(t-1) y(t-12) + y(t-13)
A frmula acima mostra que: y(t) = y(t-1) + y(t-12) y(t-13), i., neste caso a observao corrente igual
observao anterior, mais aquela de doze perodos atrs, menos aquela que o precede! Parece raro mas
se a reescrevermos diferentemente ela far um pouco de sentido:
y(t) y(t-12) = y(t-1) y(t-13)
Assim estamos dizendo que estas diferenas sazonais peridicas so as mesmas que as diferenas
sazonais observadas no perodo anterior, que so mais lgicas.
Podemos fazer uma interessante digresso aqui e perguntar-nos como sero as diferenas sazonais do
prximo perodo. razovel assumir que elas serro alguma coisa como: yt+1 yt-11 = yt yt-12, o que
muito interessante porque podemos ver acima, que yt yt-12 = yt-1 yt-13. Essencialmente estamos dizendo
que yt+1 yt-11 = yt-1 yt-13. Isto significa que yt+1 yt-11 = yt yt-12? Sim, isto significa que a origem da
previso determinar todas as diferenas sazonais futuras.
Vamos retornar modelagem de sries temporais sazonais. As explicaes acima implicaram que numa
ordem para ajustar uma srie temporal com um modelo ARIMA, no suficiente apenas ter um modelo
de ordem (p,d,q). Precisamos tambm uma ordem sazonal (P,D,Q), que ser combinado com estes
coeficientes no sazonais (p,d,q). A frmula geral
ARIMA(p,d,q)(P,D,Q)
Como combinamos os dois? Podemos usar por exemplo, um SARIMA(1,1,1)(1,1,1)4, i., um modelo
com s = 4. Este modelo descrito como:
(1 1B)(1 1B4)(1 B)(1 B4)yt = (1 1B)(1 1B4) et
Onde e so os coeficientes ARMA ordinrios, e so os coeficientes ARMA sazonais e B o
operador de retardo. Se desatarmos a equao acima, obtemos:
Bertolo
Pgina 50
IMESCatanduva
Bertolo
Pgina 51
IMESCatanduva
CONCLUSES
O modelo ARIMA oferece um boa tcnica para prever a magnitude de qualquer varivel. Sua fora est
no fato de que o mtodo adequado para quaisquer sries temporais com qualquer padro de variao e
no requer que o planejador escolha a priori o valor de qualquer parmetro.
Os modelos ARIMA fornecem tambm ferramentas teis para as partes interessadas para serem usadas
como ponto de referncia ao desempenho de outros modelos de previso como redes neurais, regresso de
kernel e assim por diante. Entretanto, por favor tenha em mente que a impreciso de previso aumenta
quanto mais longe a previso estiver dos dados usados, o que consistente com a expectativa dos
modelos ARIMA. preciso muita prtica e experincia. Felizmente com todos os exemplos apresentados
neste Captulo podemos acelerar e encurtar a sua curva de aprendizagem
Bertolo
Pgina 52