ARTIGO AST Jonas Ferreira

Uso da metodologia box Jenkins para previsão da
quantidade de clientes mensais em uma agencia da caixa

econômica federal
Da Silva, Jonas Ferreira
Universidade Federal de Pernambuco, jonas.ferreirasilva@ufpe.br
Resumo: Infelizmente, mesmo vivendo no século XXII ainda é possível se deparar

com filas em todo o lugar e um desses locais são as caixas econômicas federais, onde
um simples problema pode ser levado horas para resolver.
Com isso em mente foi levantado dados sobre os tempos e quantidades de atendimento
nos anos de 2019 e 2020, afim de entender o porquê de tanta demora nos atendimentos,
após essa coleta, os dados foram tratados, então foi retirado tudo aquela que não fazia
sentido para o modelo, e então foi aplicado a metodologia box Jenkins para encontrar
os melhores modelos de previsão para os dados informados pelo estabelecimento.
Palavras chave: dados, ARIMA, modelo.
Box Jenkins Method Applied to forecast a monthly

federal savings bank demand of Clients
Abstract: unfortunately, even living in the XXII century yet still possible to find
queues all over the place, and one of them is at federal savings bank, where a simple
problem could take hours to be solved.
With this in mind, data was collected on the waiting times and quantities of attendance
in the years 2019 and 2020, in order to understand why there was so much delay in the
attendance, after this collection the data were processed, so everything that did not
make sense to the model was removed. Then the Box-Jenkins methodology was
applied to find the best forecast models for the data reported by the establishment.
Sumário
1 Introdução………………………………………………………………………... 3
2 Referencial Teórico………………………………………………………………. 4
3 dados…………………………………………………………………………….... 5
4 Procedimento metodológico…………………………………………………….... 7
4.1 modelos ARIMA.................................................................................................... 7
4.1.1 Processo Autorregressivo.................................................................................... 8
4.1.2 Processo de média móvel (MA).......................................................................... 8
4.1.3 Processo autorregressivo de médias móveis (ARMA)........................................ 9
4.1.4 Processo autorregressivo de médias móveis (ARIMA)....................................... 9
5 resultados e analises……………………………………………………………... 10
5.1 caixas………………………………………………………………………….... 10
5.1.1 caixa até 20min……………………………………………………………...... 14
5.1.2 caixa mais que 20min……………………………………………………....... 16
5.2 FGTS………………………………………………………………………....... 19
5.2.1 FGTS até 20min…………………………………………………………....... 21
5.2.2 FGTS mais que 20min……………………………………………………..... 24
5.3 Expresso……………………………………………………………………...... 26
5.3.1 Expresso até 20min………………………………………………………...... 28
5.3.2 Expresso mais que 20min…………………………………………………..... 30
6 Conclusão……………………………………………………………………....... 34
7 Referência……………………………………………………………………….. 34
Apêndice A – Rotinas no R...................................................................................... 35
Apêndice B – Tabela dos dados................................................................................ 41
1. Introdução
Filas estão sempre presente na sociedade, seja para conseguir ingresso em um cinema,
compra um cachorro quente e também resolver problemas em bancos e caixas
econômicas federais. A caixa Econômica Federal, também conhecida como Caixa
Federal ou somente Caixa, é uma instituição financeira brasileira, sob a forma de
empresa pública, com patrimônio próprio e autonomia administrativa [1].
Os serviços oferecidos pela instituição sempre ajudaram a população, principalmente
os mais pobres, vale destacar o auxilio Brasil, fgts dentre outros. Além de prêmios de
apostas, o que é uma das fontes de renda de tais agencias.
Desta forma, temas como gestão da capacidade produtiva são de grande relevância,
pois, o planejamento das operações de acordo com o processo ou conceito do serviço,
pode garantir que as metas de qualidade estabelecidas sejam atendidas de maneira que
o cliente receba o que está esperando [2].
Normalmente ocorre de pessoas precisarem resolver determinados tipos de problemas,
como abertura de conta, seguros, pagamento de contas e saque do fgts.
Segundo informações do g1globo [3] tiveram grandes filas em todos os estados do
brasil para o saque do fgts, vale destacar que apenas os nascidos em janeiro se
encaixam nessa matéria, ou seja, mesmo para uma que apenas uma pequena parte da
população necessite ir à caixa, não há como garantir que o lead time, isto é, o tempo
entre a chegada e a saída do estabelecimento será pequeno, justamente pelo fato de que
na maioria das vezes a instituição não está pronta para suprir a demanda. Então, se a
agência tivesse informações sobre o quanto de pessoas que poderia passar por lá em
um determinado período de tempo, seria muito mais fácil de encontrar uma solução
para que não haja grandes aglomerações em filas.
Então a ideia desse artigo é justamente resolver esse problema, ou seja, será criado um
modelo de previsão baseado em séries temporais que seja capaz de mostrar a
quantidade mensal de pessoas que resolverão certos tipos de problemas na agência,
para que assim seja possível encontrar maneiras para atender a demanda.
Falar um pouco sobre series temporais e finalizar com a ideia de um modelo de
previsão, falar sobre holt winters, SES e etc.
Uma Série Temporal é uma sequência de valores observados ao longo do
tempo, em intervalos iguais [4]. Um dos principais objetivos do estudo de Séries
Temporais é criar modelos que demonstrem o comportamento do fenômeno estudado
e, a partir daí, gerar previsões. Modelos de previsão são aplicados em diversas áreas
da Engenharia, Economia, Ciências Médicas, dentre outros, servindo como base para
o planejamento, permitindo avaliar antecipadamente a demanda, projetar capacidade
e necessidade de recursos, além de outras atividades.
2. Referencial Teórico
O primeiro trabalho sobre modelos ARIMA foi publicado em 1970, box e Gwilym
Kenking popularizaram o ARIMA (modelo autorregressivo integrado com médias
móveis) no livro texto, time series analysis: Forecasting and control (Box and
Jenkins, 1970).
Modelos ARIMA inicialmente geraram muito entusiasmo na comunidade acadêmica,
muito devido a seus fundamentos teóricos. Se suas premissas são atendidas, eles
normalmente fornecem ótimas previsões, isso significa que os erros do modelo não
contêm informações que poderiam melhora as previsões. Metodologistas chamam
esse fenômeno de ruido branco. Isso não se aplica, no entanto, que os modelos
ARIMA são necessariamente superiores as outras opções de previsão, especialmente
se os dados não estão em conformidade com as premissas necessárias.
Existem vários trabalhos relacionados a modelos de previsão utilizando a metodogia
arima, o primeiro artigo é referente a um estudo de caso em uma indústria
eletroeletrônica [5]. Para esse caso foi seguido os seguintes procedimentos, coleta,
organização dos modelos de previsão; Validação e formulação dos modelos de
previsão; Avaliação do modelo e geração da previsão; Análise e comparação dos
resultados. A ideia é que após o tratamento dos dados seja possível utilizar a
metodologia box-jenkins, então depois de alcançar as premissas do modelo, foi
definido alguns parâmetros para o modelo ARIMA e comparado os resultados com
modelos de suavização exponencial simples e holt winters. Para definir qual o
melhor modelo utilizou-se de erros de previsão, o primeiro foi o MAE, conhecido
como desvio absoluto médio que mede a acurácia da previsão pela média das
magnitudes dos erros de previsão, o MAE é mais utilizado quando se pretende medir
o erro da previsão na mesma unidade que a série original. Também foi utilizado o
erro absoluto médio percentual (MAEP) que é calculado encontrado o erro absoluto
em cada período, e então calculado a média desses erros absolutos percentuais. Ele
Fornece uma indicação de quão grandes os erros de previsão estão na comparação
com os valores atuais da série. O último erro de previsão usado foi o da estatística U
de theil’s que avalia o desempenho das previsões pelos métodos formais contra os
valores da previsão ingênua. A previsão ingênua é a estimativa do futuro sendo igual
a estimativa do valor atual. Após definido os parâmetros de previsão de cada
ferramenta de previsão e utilizando esses erros de previsão apresentados como um
ranking, ficou definido que o modelo arima seria uma melhor escolha para prever a
demanda de eletroeletrônicos e o SES a pior escolha. Isso demonstra o fato de que se
os dados estiverem bem comportados, os modelos ARIMA os explicarão muito bem.
O segundo artigo trata da aplicação o do modelo Box-Jenkins na previsão da
produção de automóveis [6]. Primeiramente foram recolhidos os dados da produção
de automóveis no período entre jan/2007 a jun/2018 e então foi plotado em forma de
series temporais, daí deu início a análise dos correlogramas para encontrar os
melhores parâmetros para o modelo ARMA, e após essa análise foi testado se o
modelo é estacionário, o que de fato aconteceu, ou seja, não é necessário a utilização
do modelo ARIMA. E então foi utilizado um teste conhecido como Kruskal-Wallis
para entender se há sazonalidade nos dados, e o teste provou que sim. Logo já foi
possível encontrar todos os elementos para modelar o problema, após encontrar o
modelo ideal ele foi testado e passou no teste de autocorrelação e também de
normalidade dos resíduos, e por fim foi plotado as suas previsões. E então foi
concluído que de fato o modelo arima mostrou uma ótima opção para a previsão da
produção, já que não apresentou tendência nos dados, ou seja, eles eram aleatórios, o
que de fato acontece na vida real, já que a demanda no setor de comprar,
principalmente de automóveis varia muito ao passar dos meses.
Tais artigos mostraram que se usado corretamente, respeitando os pressupostos e
fazendo o diagnóstico dos dados de maneira coerente é possível encontrar ótimas
previsões com o método de box-jenkins.
3. Dados
Os dados foram tirados de uma agência da caixa econômica federal, e foram separados
em algumas categorias, para esse presente trabalho serão discutidas 3 delas, Caixa, fgts
e expresso, além disso também foi encontrado o tempo de espera na fila para cada um
desses grupos, os dados foram distribuídos mensalmente nos dados de 2019 e 2020.
Porém em 2020 aconteceu a pandemia, então nem todos os dados puderam ser usado,
já que nesse tempo houve lockdown, então as pessoas não puderam ir à agencia para
resolver determinados problemas que eram muito comuns, logo uma parte parte dos
dados ficou inutilizável, mas será apresentado ambas das estatísticas descritivas nessas
sessões, considerando todos os meses dos dois anos, mas na parte da analise apenas
dados uteis serão utilizados para não atrapalhar na previsão.
Essa previsão será dividida em duas partes, a primeira envolve a previsão para os
grupos em geral, ou seja, considerando a quantidade total de clientes mensal que
resolveram tais problemas e a segunda etapa é definida para tentar prever um pouco
do comportamento da fila, ou seja, dado que não há alteração no número de atendentes,
quantas pessoas mensalmente esperarão na fila por menos e por mais que 20 min.
Abaixo é apresentado as estatísticas descritivas.
2019
Grupo/estatí mi 1° medi Méd 3° ma sd
stica n Qu ana ia Qu x
Caixa 36 41 4661 466 469 59 641.6
58 91 0 2 53 2
Expresso 69 36 4136 386 458 64 1442.
3 88 7 8 21 08
Fgts 35 22 3148 281 336 46 1048.
8 37 0 5 06 52
Caixa até 20 16 33 3854 360 443 46 978.7
14 02 5 0 34 6
Expresso até 16 53 812.5 829. 106 16 404.5
20 3 3 1 1 25 7
Fgts até 20 86 87 952 985. 124 13 360.8
8 2 5.0 77 8
Caixa mais 20 67 771.5 105 110 31 814.5
que 20 1 4 4.8 1 04 8
Expresso 53 25 3078 303 381 56 1306.
mais que 20 0 08 8 1 15 77
Fgts mais 27 13 1776 182 216 37 822.5
que 20 2 99 5 3 28 4
2020
Grupo/estatí m 1° medi Méd 3° max sd
stica in Qu ana ia Qu
Caixa 9 11 1821 232 353 431 1321.
9 51 5 8 4 93
5
Expresso 6 31 4634 461 616 812 2414.
5 60 1 1 8 01
7
Fgts 1 18. 77 119 219 385 1557.
5 4.7 9 0 63
Caixa até 20 2 24 691.5 123 232 309 1204.
4 7 7 0 09
Expresso 7. 44. 177.5 368. 425. 143 495.8
até 20 0 0 4 2 0.0 7
Fgts até 20 0 0 7 449. 974. 119 566.2
4 5 0 5
Caixa mais 3 67 951 108 136 206 593.3
que 20 7 5.2 8.2 0.5 8 8
3
Expresso 5 25 4114 424 565 812 2490.
mais que 20 5 59 2 8 1 23
2
Fgts mais 1 15 77 745. 122 266 1027.
que 20 3 4.5 0 03
Apresentado as estatísticas é possível entender a grande variação entre os anos, é só
observar por exemplo o range entre os dados, ou seja, a diferença entre o menor e o
maior e então fica claro o problema, já que existem valores 0, por exemplo e em um
contexto normal é impossível não aparecer ninguém em um intervalo de um mês, logo
esses dados são descartados na análise da previsão.
Abaixo é apresentado o box plot e histograma para mostrar um comportamento gráfico
desses dados
Box Plot
2019
2020
Histograma
2019
2020
4. Proceder Metodológico
O trabalho foi conduzido seguindo uma série de etapas, primeiro foi preciso realizar
um tratamento dos dados, de modo que ficassem na forma de series temporais, ou seja
variassem no tempo, após isso foi necessário avaliar o comportamento desses dados,
utilizando de estatística descritiva para alcançar esse objetivo. A terceira etapa foi a
partir da análise dos correlogramas, encontrar quais modelos poderão ser considerados
para a fase seguinte, encontrado esses modelos, pode-se partir para a próxima etapa,
que considerando o critério de akaike (AIC) com ele é possível definir quais são de
fato os melhores parâmetros que explicam os dados, o objetivo é encontrar um
conjunto de parâmetros que minimizem o AIC. Mesmo após encontrar o modelo com
o menor valor de AIC, não é suficiente para inferir que o mesmo explica bem os dados,
daí vem a segunda parte dessa etapa que é avaliar se o conjunto de dados segue alguma
sazonalidade, ou seja se em algum ponto do tempo o gráfico começa a repetir
características mostradas no passado, após toda essa análise e encontrado o valor da
sazonalidade que de fato explique a variação dos dados, pode-se partir para a ultima
etapa que é a de diagnostico, nesse parte é onde deve-se testar se de fato o modelo
explica bem os dados, ou seja testa-se os resíduos que são deixados pelo representante
do modelo, deve-se avaliar o correlograma desses resíduos, para definir que há
correlação entre os dados, também avaliar se esses resíduos seguem uma distribuição
normal, isso pode ser feito através da analise do qqplot, que basicamente traz os dados
para um intervalo entre -1.5-1.5 e plot uma reta normal à esses dados, se eles estiverem
todos extremamente próximos e diretamente em cima da reta, pode-se inferir que eles
seguem uma distribuição normal, uma outra opção é utilizar um teste conhecido como
teste de Shapiro, basicamente esses teste considera duas hipóteses, a hipótese nula é
que os dados seguem uma distribuição normal e a alternativa é que não seguem uma
distribuição normal, para esse caso a ideia é não rejeitar a hipótese nula, ou seja
encontrar o valor de p grande o suficiente e quando isso acontece, não há evidências
suficientes que comprovem que os dados não seguem uma normal. Se o modelo
escolhido segue todas essas etapas, ou seja tem o menor critério de AIC, a melhor
sazonalidade e a melhor destruição dos resíduos, então ele será escolhido para prever
o futuro da distribuição.
4.1 Modelos Arima
Para encontrar os melhores parâmetros que representem o conjunto de dados foi
escolhido os modelos arima, a publicação por Box e Jenkins de Time series analysis:
forecasting and control conduziu a uma nova geração de ferramentas de previsão.
Popularmente conhecida como metodologia Box-Jenkins (BJ), mas tecnicamente
como metogologia ARIMA, a ênfase desses métodos não está na construção do
modelo uniequacionais ou de equações simultâneas, mas na análise probabilística, ou
estocástica, das propriedades da própria série temporal. Ao contrario dos modelos de
regressão, no qual 𝑌𝑡 é explicado pelos regressores 𝑘, 𝑋1 , 𝑋2 , … , 𝑋𝑘 , os modelos do tipo
ARIMA permitem que 𝑌𝑡 seja explicado pelos valores passados, ou defasados, do
próprio Y e dos termos de erro estocástico.
Esses modelos consideram três processos, são eles o autorregressivo, de médias
moveis e a quantidade de diferenças necessário para que os dados sejam estacionários,
essas diferenças não obtidas da seguinte forma 𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1, e isso será feito para
todos os dados até que os mesmos sejam estacionários.
4.1.1 Processo Autorregresivo
Se 𝑌𝑡 é modelado como
(𝑌𝑡 − 𝛿) = 𝛼1 (𝑌𝑡−1 − 𝛿) + 𝑢𝑡 (I)
Em que 𝛿 é a média de Y e 𝑢𝑡 é um erro aleatório não correlacionado com média zero𝛼2 (𝑌𝑡−2 −
e variância constante 𝜎 2 (trata-se de um ruido branco), então 𝑌𝑡 segue um processo𝛿)
autorregressivo estocástico de primeira ordem ou AR(1). Nesse caso o valor de Y
no período t depende do seu valor no período anterior e de um termo aleatório; os
valores de Y são expressos como desvios com base em um valor médio. Em outras
palavras, esse modelo informa que o valor previsto de Y no período t é simplesmente
alguma proporção (=𝛼1 ) mais um choque aleatório ou perturbação no período t;
novamente os valores de Y são expressos em torno dos seus valores médios.
Mas se Y segue o seguinte modelo
(𝑌𝑡 − 𝛿) = 𝛼1 (𝑌𝑡−1 − 𝛿) + 𝑢𝑡 + 𝛼2 (𝑌𝑡−2 − 𝛿) + 𝑢𝑡
(II)
Então, 𝑌𝑡 segue um processo autorregressivo de segunda ordem, ou AR(2). O valor
𝛼 (𝑌 −
de Y no período t depende do valor nos dois períodos prévios, os valores de Y sendo 2 𝑡−2
𝛿)
expressos em torno dos seus valores médios 𝛿.
Em geral,
(𝑌𝑡 − 𝛿) = 𝛼1 (𝑌𝑡−1 − 𝛿) + 𝑢𝑡 + 𝛼2 (𝑌𝑡−2 − 𝛿) + ⋯ + 𝛼𝑝 (𝑌𝑡−𝑝 − 𝛿) + 𝑢𝑡
(III)
𝛼2 (𝑌𝑡−2 −
𝛿)
Nesse caso 𝑌𝑡 é um processo autorregressivo de ordem p-ésima, ou AR(p).
4.1.2 Processo de média móvel (MA)
Como já foi citado anteriormente o processo AR não é o único mecanismo que pode
ter gerado Y, supondo que Y é modelado como a seguir
𝑌𝑡 = 𝜇 + 𝛽0 𝑢𝑡 + 𝛽1 𝑢𝑡−1 (IV)
Em que 𝜇 é uma constante e u, como antes é um termo de erro estocástico de ruido 𝛼2 (𝑌𝑡−2 −
branco. Nesse caso Y no período t é igual a uma constante mais uma média móvel dos 𝛿)
termos de erro atuais e passados. Portanto, pode-se dizer que Y segue um processo de
média móvel de primeira ordem, ou um MA(1).
Mas se Y segue a expressão
𝑌𝑡 = 𝜇 + 𝛽0 𝑢𝑡 + 𝛽1 𝑢𝑡−1 + 𝛽2 𝑢𝑡−2
(V)
Então é um processo MA(2). De forma mais geral,
𝛼2 (𝑌𝑡−2 −
𝑌𝑡 = 𝜇 + 𝛽0 𝑢𝑡 + 𝛽1 𝑢𝑡−1 + 𝛽2 𝑢𝑡−2 + ⋯ + 𝛽𝑞 𝑢𝑡−𝑞 𝛿)
(VI)
É um processo MA(q). Resumindo, um processo de média móvel é apenas uma 𝛼 (𝑌 −
2 𝑡−2
combinação linear de termos de erro de ruído branco. 𝛿)
4.1.3 Processo autorregressivo de médias móveis (ARMA)
Pode acontecer de Y possuir características tanto de AR quanto de MA e seja, portanto,
ARMA. Então, 𝑌𝑡 segue um processo ARMA(1,1) e pode ser escrito como
𝑌𝑡 = 𝜃 + 𝛼1 𝑌𝑡−1 + 𝛽0 𝑢𝑡 + 𝛽1 𝑢𝑡−1
(VII)
Portanto há um termo autorregressivo e um termo de média móvel. Na equação VII 𝜃
𝛼2 (𝑌𝑡−2 −
representa um termo constante.
𝛿)
Em geral, em um processo ARMA(p,q), haverá termos autorregressivos p e termos de
média móvel q.
4.1.4 Processo autorregressivo de médias móveis (ARIMA)
Se for preciso diferenciar uma série temporal d vezes para torna-la estacionaria e aplica
o modelo ARMA(p,q), pode-se dizer que a série temporal é ARIMA(p,d,q), ou seja,
ela é uma série temporal autorregressiva integrada de médias móveis, em que p
denota os números dos termos autorregressivos, d o número de vezes que a série deve
ser diferenciada antes de tornar-se estacionária e q o número de termos de média
móvel. Uma série temporal ARIMA(2,1,2) deve ser diferenciada uma vez (d=1) antes
de torna-la estacionaria, e a série temporal estacionária (de primeira diferença) pode
ser modelada como um processo ARMA(2,2), pois possui dois termos AR e dois MA.
Claro, se d=0, uma série é estacionária para ARMA(p,q). Um processo ARIMA(p,0,0)
por exemplo, significa um processo AR(p) puramente estacionário; um ARIMA(0,0,q)
significa um processo MA(q) puramente estacionário. Dados os valores de q,d e q é
possível dizer qual processo está sendo modelado.
Foi mencionado anteriormente que o termo u é um ruido branco, em termos do arima
essa caraterística pode ser descrita como ARIMA(0,0,0), ou seja é um processo
estacionário e que não tem parâmetros Autorregressivos e nem de médias móveis.
Um ponto importante a ser observado é que, ao utilizar-se a metodologia Box-Jenkins,
deve-se ter tanto uma série temporal estacionária quanto um série temporal que seja
estacionária depois de uma ou mais diferenciações. A razão para admitir a
estacionariedade pode ser explicado pelo fato do objetivo do método ser identificar e
estimar um modelo estatístico que possa ser interpretado como tendo sigo gerado pelos
dados amostrais. Se esse modelo estimado for utilizado para a previsão, deve-se
admitir que suas características são constantes ao longo do período, e, particularmente,
ao longo de períodos futuros. A simples razão para requerer os dados estacionários é
que qualquer modelo que seja inferido com base nesses dados pode ser interpretado
como estacionário ou estável e, portando, fornecer uma base válida para a previsão.
5. Resultado e Analises
Utilizando os conceitos apresentados anteriormente será possível encontrar previsões
coerentes para os dados.
5.1 Caixas
O primeiro grupo a ser analisado será o da caixa, como já foi mencionado a
metodologia arima que exige que o conjunto de dados ou suas diferenças seja
estacionário, então esse teste será feito primariamente.
(VIII)
No teste de Dickey-Fuller duas hipóteses são consideradas, a hipótese nula é de que

os dados não são estacionários e a alternativa é que são estacionários, então para p-
valores maiores que 0,05 (que foi o valor máximo definido pelo autor) não há
evidencias suficiente para inferir que os dados são estacionários, logo como
mostrado na figura VIII os dados não são estacionários, portanto, no ARIMA a
primeira diferença será considerada.
A próxima etapa será realizar a análise dos correlogramas
(IX)
Observando o gráfico IX alguns modelos podem ser considerados, são eles (1,1,1),
(1,1,0) e (0,1,1), porém isso não é preciso o suficiente, pois os dados defendem de
outro fator que é a sazonalidade, mais uma vez deve-se analisar o gráfico para
encontrar esse parâmetro. Esse gráfico está representado na figura X.
(X)
A partir dessa análise, é possível definir que a melhor frequência para essa
sazonalidade será a de 6 períodos.
Para a parte sazonal dois modelos foram testados, (1,1,1) e (0,1,0). A tabela desses
modelos é apresentada abaixo.
Modelo ARIMA Sazonalidade AIC
M1 (1,1,1) (0,1,0) 169.01
M2 (1,1,1) (1,1,1) 169.41
M3 (0,1,1) (0,1,0) 167.88
M4 (1,0,0) (0,1,0) 167.88
Auto.arima (0,1,0) none 251.06
(tabela 1: tabela dos modelos fonte: autor)
Considerando os valores do AIC para tentar encontrar a melhor escolha não é
possível analisando simplesmente esse parâmetro, já que os valores de M3 e M4 são
iguais, logo deve-se encontrar outra variável que são a soma dos erros conhecida
como sigma ao quadrado, para M3 esse valor é de 935767.4 e o do modelo M4 é de
936023.5 como M3 apresenta o menor valor, ele será o modelo escolhido.
Agora que foi encontrado os melhores parâmetros para a explicação dos dados é
preciso testar se eles são de fatos bons o suficiente e, para isso é necessário utilizar
da etapa de diagnósticos, onde será realizado uma análise sobre os resíduos do
modelo, esses plots são encontrados no gráfico XI.
(XI)
No plot XI será analisado duas coisas, a primeira é se todos os dados estão dentro do
intervalo em azul, o que de fato acontece significando que eles não estão
autocorrelacionados, isso pode ser confirmado por meio do teste de Ljung-box.
(XII)
No teste de Dickey – Fuller apresentado anteriormente a ideia era rejeitar a hipótese

nula, ou seja encontrar o valor de p baixo o suficiente, para esse teste o objetivo é
diferente, ou seja a ideia é encontrar um p-value alto o suficiente para que não se
tenha todas as evidencias para comprovarem que os dados estão autocorrelacionados,
que é o que acontece no teste mostrado na figura XII comprovando a analise do
correlograma.
O segundo parâmetro a ser analisado é a distribuição dos resíduos, basicamente a
ideia é que ela siga uma distribuição normal, que é mostrado no histograma
apresento na figura XI e ao analisa-lo, parece de fato que eles seguem essa
distribuição, porém há duas formas de comprovar tal hipótese, a primeira já
mencionada nesse artigo é o qqplot que traz os valores para um intervalo entre -1.5 e
3 para plotar uma reta normal aos dados, se eles estão encima da reta, significa que
seguem uma distribuição normal, caso contrário não seguem.
(XIII)
Analisando esse plot na figura XIII parece de fato que todos estão próximos o
suficiente da reta para confirmar a hipótese, porém existe um teste para ter a certeza
final e ele é conhecido como teste de Shapiro-wilk, ele se comporta da mesma
maneira que o anterior, ou seja a ideia é encontrar um valor de p alto o suficiente
para não rejeitar a hipótese nula.
(XIV)
Como é mostrado na figura XIV os resíduos de fato seguem uma distribuição

normal.
Após todas essas informações, pode-se concluir que de fato o modelo escolhido
explica bem os dados, e então é possível encontrar os valores que de fato importam
para esse artigo que são as previsões, que podem ser encontradas na tabela abaixo.
N_caixa Previsão
1 3951
2 3847
3 3392
4 2803
5 1821
6 2761
7 3184
8 3080
9 2625
10 2036
11 1054
12 1994
(tabela 2: tabela da previsão fonte: (autor))
E, por último será plotado o gráfico dessa previsão, juntamente com o gráfico dos
resíduos.
(XV)
5.1.1 Quantidade de pessoas que esperarão na fila por menos de 20 min (caixa)
Utilizando a tabela de dados também é possível encontrar parâmetros que consigam
prever como a fila se comportará no futuro, então será criado um modelo para prever
quantas pessoas esperarão na fila por menos e 20 min nos próximos meses.
Os passos serão os mesmos apresentados na sessão 5.1.
Primeiramente será testado se o conjunto de dados é estacionário.
Para esse conjunto, o teste mostrar que é de fato estacionário, logo não terá diferença
na parte do ARIMA e um modelo ARMA poderá ser utilizado.
A segunda etapa é analisar os correlogramas, que podem ser visualizados na tabela
abaixo.
(XVI)
A analise é bem parecida a mostrada na primeira parte, porém agora não será
considerado a primeira diferença, então será testado (0,0,1), (1,0,0) e (1,0,1).
Porém para explicar melhor os dados é necessário atribuir componentes de
sazonalidade.
(XVII)
O gráfico da figura XVII é extremamente parecido ao apresentado na sessão 5.1,

então a sazonalidade também será de 6 períodos. Porém no correlograma, dois
parâmetros podem ser considerados, (0,1,4) e (0,1,0).
M1 (0,0,1) (0,1,0) 180.26
M2 (1,0,1) (0,1,4) 185.26
M3 (1,0,0) (0,1,4) 181.67
M4 (0,1,0) (0,1,0) 160.28
Pelo critério de AIC o modelo M4 passará para a etapa de diagnóstico. Foi escolhido
uma passeio aleatório, já que não há como encontrar um modelo sem as primeiras
diferenças que respeite todos os pressupostos do diagnóstico.
Na parte dos lags, estão todos dentro da região de aceitação, significa que os resíduos
não estão correlacionados, olhando para o histograma não é possível afirmar se eles
seguem uma normal, então o qqplot e o teste de Shapiro serão usados.
Há alguns outliers que aparentemente são pontos alavancagem ruins, ou seja, esses
puxam a reta para uma direção diferente dos demais dados, mas que como pode ser
visto pelo teste de Shapiro, não interferem na distribuição e de fato os resíduos segue
uma normal.
Abaixo pode ser encontrado a tabela contendo as previsões do modelo
n prev
1 1112
2 2161
3 2492
4 2588
5 1713
6 1079
7 610
8 1659
9 1990
10 2086
11 1211
12 577
5.1.2 Quantidade de pessoas que esperarão na fila por mais de 20 min (caixa)
Para finalizar a analise dos caixas é necessário prever também quantas pessoas terão
que esperar na fila por mais que 20 min.
Mais uma vez será testado se a série é dita estacionária
O p-value é baixo, mas não o suficiente para deixar de rejeitar a hipótese nula, logo a
série é dita não estacionaria, ou seja, não há evidencias suficientes para comprovar a
hipótese alternativa. Logo é preciso aplicar as primeiras diferenças.
Próxima etapa é analisar os correlogramas
(XVIII)
Para a parte arima, os modelos selecionados terão os mesmos paramêtros, ou seja

(0,1,1);(1,1,0);(1,1,1) e (0,1,0).
Próxima etapa é encontrar os componentes de sazonalidade e sua frequência.
(XIX)
Dessa vez o gráfico é bastante diferente do apresentado anteriormente e a frequência

agora será considerada de 13 períodos, porém dados que esses dados se originam do
original apresentado no inicio da sessão, a frequência de 6 períodos também será
testada. Já para a parte dos parâmetros, dados o correlograma da figura XIX serão
testados apenas 3, (1,1,0);(0,1,0) e (0,1,1).
modelo ARIMA Sazonalidade período AIC
M1 (0,1,0) (0,1,0) 13 51.09
M2 (0,1,0) (0,1,1) 13 53.09
M3 (0,1,1) (0,1,0) 13 53.07
M4 (1,1,0) (0,1,1) 6 160.85
M5 (0,1,0) (1,1,0) 6 161.19
M6 (0,1,0) (0,1,0) 6 159.4
Auto.arima (0,0,1) none none 269.98
Analisando a tabela acima, fica bem claro que o modelo que será o usado é o M1, já
que apresenta o menor valor de AIC.
Para testar de M1 de fato explica os dados, é preciso analisar os seus resíduos abaixo
é apresentado essa análise.
(XX)
Na parte do correlograma todos os lags estão dentro da zona em azul, o que significa
que eles não estão correlacionado e isso é um ponto importante para mostrar que o
modelo escolhido consegue explicar bem a base original.
Pelo histograma apresentado na figura XX é impossível dizer se os resíduos seguem
uma distribuição normal, então mais uma vez será usado o qqplot e o teste de
Shapiro.
(XXI)
Pelo qqplot da pra perceber que os dados estão bem aderentes à reta e isso é um bom
indicativo que eles seguem uma distribuição normal, o que é confirmado pelo teste
de Shapiro. Agora que foi definido que M1 é um bom modelo para os dados as
previsões podem ser apresentadas.
n Previsão
1 2108
2 2544
3 2491
4 2297
5 2667
6 2733
7 3842
8 4850
9 3697
10 2911
11 2226
12 2119
(XXII)
5.2 FGTS
O segundo grupo a ser analisado será o do FGTS, primeiramente um teste de
estacionariedade é feito.
O conjunto não é estacionário, então deve-se aplicar as primeiras diferenças.

Partindo para a análise dos correlogramas para a parte ARIMA.
(XXIII)
Para esse caso os modelos considerados serão, (0,1,0), (1,1,1), (1,1,2), (0,1,2),
(0,1,1,) e (1,1,0).
Já para a parte da sazonalidade
(XXIV)
O período da sazonalidade será de 9 e dados o correlograma apenas o conjunto

(0,1,0) será testado, já que não há lags fora da zona em azul.
M1 (0,1,0) (0,1,0) 81.0252
M2 (1,1,1) (0,1,0) 83.7655
M3 (1,1,0) (0,1,0) 82.9552
M4 (0,1,1) (0,1,0) 82.1
O menor AIC pertence ao modelo M1, logo será ele o escolhido para a parte do
diagnóstico. O plot dos resíduos é encontrado na figura abaixo.
(XXV)
Todos os lags estão dentro da zona estatisticamente aceitável, logo não estão
autocorrelacionados, mas mais uma vez não é possível a partir do histograma afirmar
que eles seguem uma distribuição normal, logo o qqplot e o Shapiro serão usados.
Como pode ser visto no qqplot, há 3 pontos de alavancagem, porém estão na mesma
direção dos outros pontos, logo são pontos de alavancagem bons e como pode ser
visto no teste de Shapiro, não interferem na normalidade dos resíduos.
Logo, o modelo explica bem os dados e suas previsões podem ser encontradas na
tabela abaixo.
n Previsão
1 2304
2 1845
3 1738
4 2500
5 3172
6 4413
7 3657
8 2161
9 1851
10 2111
11 1652
12 1545
(XXVI)
5.2.1 quantidade de pessoas que esperam na fila por menos de 20 min (fgts)
Avaliando a estacionariedade desse próximo conjunto de dados.
Os dados são claramente não estacionários, então mais uma vez será considerado a
primeira diferença no modelo ARMA, tornando-o em um ARIMA.
Analise dos correlogramas
(XXVII)
Para esse caso, apenas o conjunto (0,1,0) faz sentido, ou seja, é um passeio aleatório.
Avaliando a sazonalidade.
(XXVIII)
O período da sazonalidade será de 12, e o modelo do mesmo jeito que a parte do
arima será o (0,1,0), porém para motivo de comparação o modelo (0,1,1) para a parte
sazonal também será testado, a tabela pode ser encontrada abaixo.
modelo ARIMA Sazonalidade AIC
M1 (0,1,0) (0,1,0) 30.6
M2 (0,1,0) (1,1,0) 21.13
Pelo componente de AIC o melhor modelo é o M1, portanto o próximo passo é o
diagnóstico dos parâmetros escolhidos.
(XXVIII)
Pelo correlograma percebe-se que não há correlação entre os dados, mas a parte da
distribuição normal não é possível afirmar nada apenas olhando pelo histograma.
Então o qqnorm é necessário.
(XXIX)
Existem 3 outliers no gráfico XXIX, porém são pontos de alavancagem bons, já que
estão na mesma direção dos dados e por conta disso não atrapalham sua distribuição
e como pode ser comprovado pelo teste de Shapiro, os erros seguem uma
distribuição normal, o que torna M1 um modelo que pode ser usado.
Abaixo é encontrado a tabela das previsões
n Previsão
1 1223
2 1235
3 701
4 908
5 800
6 474
7 815
8 1240
9 741
10 1053
11 732
12 943
(XXX)
5.2.2 Quantidade de pessoas que esperam na fila por mais de 20 min (fgts)
Verificando se o conjunto é estacionário
Pelo teste de Dickey-Fuller o conjunto é dito não estacionário.

Então deverá ser adicionado um componente de diferença de primeira ordem ao
ARMA.
Analisando os correlogramas
(XXXI)
Observando a figura XXXI, os modelos considerados serão, (0,1,0), (1,1,0) e (0,1,1).

Analise da sazonalidade
(XXXII)
O período será de 9 e para os componentes, a única é escolha é (0,1,0)

Na tabela abaixo é possível encontrar os modelos selecionados.
M1 (1,1,0) (0,1,0) 82.67
M2 (0,1,1) (0,1,0) 81.98
M3 (0,1,0) (0,1,0) 80.81
Pelo critério de Akaike o M3 é o selecionado para explicar melhor os dados.
Diagnóstico
(XXXIII)
Pelo correlograma os resíduos não estão autocorrelacionados, porém para descobrir

se seguem uma distribuição normal é necessário olhar para o qqnorm abaixo
(XXXIV)
Mais uma vez, são encontrados 3 outliers, mais que não tendenciam a reta normal,
logo eles seguem uma distribuição normal.
A seguir pode ser encontrado a previsão para os dados.
n Previsão
1 1017
2 666
3 885
4 1306
5 1553
6 3293
7 2225
8 1050
9 529
10 582
11 231
12 450
(XXXV)
5.3 Expresso
Teste de estacionariedade
Os dados não são estacionários.
(XXXVI)
Para esse caso, vários modelos podem ser considerado, mas os principais são: (0,1,0),
(0,1,3), (0,1,1) e (1,1,1).
Análise da sazonalidade
(XXXVII)
O período de sazonalidade será de 12, já para os parâmetros será testado apenas

(0,1,0), pois se trata de um passeio aleatório.
Tabela contendo os modelos selecionados.
modelo ARIMA Sazonalidade AIC
M1 (0,1,1) (0,1,0) 91.78
M2 (0,1,0) (0,1,0) 89.8
M3 (0,1,3) (0,1,0) 93.65
M4 (1,1,1) (0,1,0) 93.4
Pelo critério do menor AIC, o M2 apresenta os melhores parâmetros para explicar os
dados.
Diagnóstico
(XXXVIII)
Os resíduos não estão correlacionados, já que no correlograma todos estão dentro da

zona em azul, no gráfico de linhas há 4 pontos que não estão comportados, mas de
resto está ok e para avaliar a suposição de que os erros seguem uma normal é
necessário plot o gráfico qq.
(XXXIX)
Como é possível notar, os pontos não estão encima da reta, mas estão próximos o
suficiente o que é um indicativo de que de fato os erros seguem uma normal e para
confirmar isso é mostrado mais uma vez o teste de Shapiro confirmando assim a
hipótese.
Portanto tendo a confirmação de que o modelo é fato bom o suficiente para explicar
bem os dados, pode-se partir para a previsão cuja tabela pode ser encontrada abaixo.
n Previsão
1 5011
2 4943
3 5259
4 4470
5 5624
6 5918
7 5346
8 4342
9 4462
10 7031
11 6622
12 6467
(XL)
5.3.1 Número de pessoas que esperarão na fila por menos de 20 min (Expresso)
Para o ultimo grupo também será apresentado um modelo de previsão capaz de
mostrar, quantas pessoas em média esperarão na fila por menos que 20 min.
Analise de estacionariedade
(XLI)
O conjunto não é estacionário.

(XLII)
A partir do correlograma pode-se definir os modelos a serem testados para a parte

ARIMA, são eles: (0,1,0), (1,1,0), (1,1,1), (0,1,1) e (0,1,2).
Analise da sazonalidade
(XLIII)
Como é possivel perceber, o correlograma para a parte sazonal apresenta o mesmo

comportamento que para a parte ARIMA, logo os mesmos parâmetros serão testados.
Tabela contendo os modelos
M1 (0,1,1) (0,1,1) 86.5
M2 (1,1,0) (0,1,2) 89.05
M3 (1,1,1) (0,1,1) 88
M5 (0,1,0) (0,1,2) 87.07
Pelo critério do menor AIC, o modelo M1 é o escolhido para a etapa de
diagnóstico
Diagnóstico do modelo
(XLIV)
O correlograma da figura XLIV apresenta um lag fora da zona permitida, o que

poderia indicar uma correlação entre os resíduos, quando isso acontece é possível
utilizar um teste de hipótese para confirmar se de fato há correlação, esse teste é
chamado de Ljong-Box, a hipótese nula é de que não há correlação entre os dados, e
a hipótese alternativa é de que há, ou seja, a ideia é encontrar o p-value alto o
suficiente para que não haja evidencias que possam comprovar a autocorrelação, esse
teste é encontrado na figura XLV.
(XLV)
Como o p valor é alto, então não há correlação e é possível passar para a próxima
etapa que é testar se os resíduos seguem uma distribuição norma, já que não é
possível afirmar isso pelo histrograma da figura XLIV. Logo o qqplot será utilizado e
para confirmar, usa-se o teste de Shapiro.
(XLVI)
Existe um outlier no gráfico acima, que pode ser considerado um ponto alavancagem
ruim, já que não segue a direção dos dados, mas que como pode ser visto pelo teste
da figura XLVI não interfere na distribuição, portanto M1 é um bom modelo e agora
pode ser apresentado as previsões.
n Prev
1 577
2 1546
3 961
4 726
5 1199
6 1084
7 345
8 199
9 1250
10 1351
11 171
12 350
(XLVII)
5.3.2 Número de pessoas que esperarão na fila por mais de 20 min (Expresso)
Por último será feito uma previsão par informar quantas pessoas terão que esperar na
fila por mais que 20 min.
Análise de estacionariedade
(XLVIII)
Pelo teste apresentado na figura XLVII, o conjunto é dito não estacionário, então
deve-se aplicar a primeira diferença no modelo ARMA tornando-o um ARIMA, a
próxima etapa é analisar os correlogramas.
(XLIX)
A figura XLIX mostra que os dados se comportam como um passeio aleatório, ou

seja o parâmetro será testado apenas o (0,1,0) para a parte do ARIMA.
No passo seguinte será testado o comportamento desses dados, ou seja, a
sazonalidade.
(L)
Para a parte sazonal também será considerado apenas um passeio aleatório para
explicar o conjunto, já o período será considerado de 12.
Tabela do modelo
M1 (0,1,0) (0,1,0) 89.18
Tendo o selecionado o melhor modelo (M1), então pode-se passar para a próxima
etapa que é a de diagnósticos, onde testará se de fato M1 é um bom explicador para
os dados.
(LI)
Na parte do correlograma há um lag que não está dentro da zona, ou seja isso pode
ser um indicio de que há correlação entre os resíduos, mais uma vez utilizando o
teste de Ljung-box para testar tal hipótese, percebe-se que não há correlação, então o
modelo ainda é um bom candidato, esse teste pode ser visto na figura LII.
(LII)
O ultima teste será o da distribuição dos resíduos, a hipótese é de que eles seguem
uma normal , pelo correlograma da figura LI não é possível confirmar tal afirmação,
então será usado o qqplot e o teste de Shapiro, que podem ser encontrados na figura
LIII.
(LIII)
Mais uma vez o gráfico apresenta um outlier que pode ser um ponto de alavancagem
ruim, mas que não atrapalha na distribuição dos dados, como pode ser confirmado
pelo teste de Shapiro. Agora que o modelo passou por todos os testes, poderá ser
apresentado suas previsões.
n Prev
1 4999
2 3764
3 4957
4 3974
5 5379
6 5495
7 4870
8 4012
9 3081
10 5549
11 6320
12 5986
Abaixo é apresentado uma tabela que resume todos os períodos de sazonalidade

escolhidos para os conjuntos de dados.
Modelo Período
Caixa 6
Expresso 12
fgts 9
Caixa até 20 6
Caixa mais que 13
20
Expresso até 20 12
Expresso mais 12
que 20
Fgts até 20 12
Fgts mais que 9
20
6. Conclusão
O estudo de caso apresentado, mostrou diversos modelos de previsão baseados na
metodologia box Jenkins, onde foi possível encontrar bons resultados acerca dos
dados fornecidos por uma agencia da caixa econômica federal, todos os modelos
seguiram métodos necessários para que não haja erros exorbitantes quando se é
comparado com os originais, isto é, passaram pela etapa de diagnóstico e todos se
mostraram bons o suficiente para a explicação dos dados.
Dito isso o objetivo do artigo foi alcançado, ou seja, foi possível mostrar quanto será
a demanda de clientes para a instituição para que assim eles procurem maneiras de
suprir tal demanda.
O estudo de caso apresenta limitações nos dados, isto é, não havia tantos para
entender suficientemente bem o real comportamento dos clientes, já que vários
elementos acerca do ano de 2020 foram retirados devido à pandemia.
Por fim, recomenda-se pesquisas futuras sobre a metodologia ARIMA, já que como
foi demostrado é um modelo de fácil entendimento, fácil aplicação e devido as suas
etapas é também muito confiável, também é recomendado o uso de variáveis
exógenas, em outras palavras são variáveis que estão fora do modelo, mas que tem
relação com ele e, assim é possível encontrar melhores regressores para o modelo
final, sempre utilizando critério de AIC para determinar se não variáveis boas ou não
para o modelo.
7. Referências
https://pt.wikipedia.org/wiki/Caixa_Econ%C3%B4mica_Federal [1]
https://www.researchgate.net/publication/215915806_Marketing_as_promise_manag
ement_Regaining_customer_management_for_marketing [2]
https://g1.globo.com/economia/noticia/2022/04/20/agencias-da-caixa-tem-longas-
filas-no-primeiro-dia-de-saque-do-fgts.ghtml [3]
https://impa.br/wp-content/uploads/2017/04/13_CBM_81_02.pdf [4]
http://www.abepro.org.br/biblioteca/TN_STO_226_318_29030.pdf [5]
https://idonline.emnuvens.com.br/id/article/download/1382/2050 [6]
BOX, G. E.; JENKINS, G. M.; REINSEL, G. C.; LJUNG, G. M. Time series analysis: forecasting
and control. John Wiley & Sons, 2015.
GUJARATI, D. N. Econometria Básica, 5. Ed. Rio de Janeiro Elsevier, 2006.
Apêndice A
Apêndice B
2019
2020

ARTIGO AST Jonas Ferreira

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ARTIGO AST Jonas Ferreira

Enviado por

Direitos autorais:

Formatos disponíveis

Uso da metodologia box Jenkins para previsão da

quantidade de clientes mensais em uma agencia da caixa

Da Silva, Jonas Ferreira

Universidade Federal de Pernambuco, jonas.ferreirasilva@ufpe.br

Resumo: Infelizmente, mesmo vivendo no século XXII ainda é possível se deparar

Box Jenkins Method Applied to forecast a monthly

No teste de Dickey-Fuller duas hipóteses são consideradas, a hipótese nula é de que

No teste de Dickey – Fuller apresentado anteriormente a ideia era rejeitar a hipótese

Como é mostrado na figura XIV os resíduos de fato seguem uma distribuição

O gráfico da figura XVII é extremamente parecido ao apresentado na sessão 5.1,

Para a parte arima, os modelos selecionados terão os mesmos paramêtros, ou seja

Dessa vez o gráfico é bastante diferente do apresentado anteriormente e a frequência

O conjunto não é estacionário, então deve-se aplicar as primeiras diferenças.

O período da sazonalidade será de 9 e dados o correlograma apenas o conjunto

Pelo teste de Dickey-Fuller o conjunto é dito não estacionário.

Observando a figura XXXI, os modelos considerados serão, (0,1,0), (1,1,0) e (0,1,1).

O período será de 9 e para os componentes, a única é escolha é (0,1,0)

Pelo correlograma os resíduos não estão autocorrelacionados, porém para descobrir

O período de sazonalidade será de 12, já para os parâmetros será testado apenas

Os resíduos não estão correlacionados, já que no correlograma todos estão dentro da

O conjunto não é estacionário.

A partir do correlograma pode-se definir os modelos a serem testados para a parte

Como é possivel perceber, o correlograma para a parte sazonal apresenta o mesmo

O correlograma da figura XLIV apresenta um lag fora da zona permitida, o que

A figura XLIX mostra que os dados se comportam como um passeio aleatório, ou

Abaixo é apresentado uma tabela que resume todos os períodos de sazonalidade

Você também pode gostar