Escolar Documentos
Profissional Documentos
Cultura Documentos
ESPECIALIZAÇÃO EM ESTATÍSTICA
LISTA DE TABELAS
1. INTRODUÇÃO............................................................................................................ 9
1.1 Objetivo .............................................................................................................................................. 9
2. METODOLOGIA ...................................................................................................... 10
2.1 Séries Temporais .............................................................................................................................. 10
2.1.1 Conceitos .................................................................................................................................... 10
Em um mercado competitivo como o atual, em que além de concorrer com outras lojas
físicas, uma empresa também concorre com empreendimentos virtuais, ter um planejamento
a longo prazo é essencial para a sustentabilidade da empresa.
Portanto, para empresas que atuam nesse segmento sobreviverem de forma saudável,
e em um ambiente contendo todas essas variáveis, a previsão das vendas é uma das
ferramentas que a empresa pode usar para tal fim e para tomar decisões.
1.1 Objetivo
2.1.1 Conceitos
∑nt=1 Yt
Média: E(𝑌𝑡 ) = µ =
n
∑nt=1(Yt − µ)(Yt−k − µ)
Covariância: Cov (𝑌𝑡 , 𝑌𝑡−𝑘 ) = γk =
n
Para realizar previsões, é importante que a série temporal seja estacionária, pois caso
contrário, entenderemos seu comportamento apenas nos dados amostrais, tornando difícil a
extrapolação que é necessária para predizer o futuro 𝑌𝑡+𝑘 .
Na prática é muito comum encontrar séries temporais não estacionárias, por exemplo,
os valores diários de uma ação na bolsa de valores. Esses processos são denominados de
modelo de passeio aleatório.
Uma série temporal não estacionária, pode ser transformada em estacionária tomando
suas primeiras diferenças conforme se verifica a seguir:
(𝑌𝑡 − 𝑌𝑡−1 ) = ΔY,
O passeio aleatório pode ser classificado em dois tipos: o passeio aleatório sem
deslocamento e com deslocamento (ATHANASOPOULOS; HYNDMAN, 2018).
O passeio aleatório sem deslocamento (FIG. 1a) pode ser representado da seguinte
forma:
𝑌𝑡 = 𝑌𝑡−1 + ɛ𝑡 ,
ou seja, o valor de Y no instante atual t é igual ao seu valor no instante t-1 mais um choque
aleatório. Esse é um processo de memória infinita, pois ao se iniciar no instante zero t0,
todos seus valores futuros dependerão de todos os valores passados. Essa propriedade
pode ser representada da seguinte forma:
𝑌1 = 𝑌0 + ɛ1
𝑌2 = 𝑌1 + ɛ2 = 𝑌0 + ɛ1 + ɛ2
𝑌3 = 𝑌2 + ɛ3 = 𝑌0 + ɛ1 + ɛ2 + ɛ3
ou seja
𝑛
𝐸(𝑌𝑡 ) = 𝐸 ( 𝑌0 + ∑ ɛ𝑡 ) .
𝑡 =1
Já o passeio aleatório com deslocamento (FIG. 1b) possui uma constante δ que
representa um parâmetro de deslocamento que irá direcionar a série para cima caso
positivo ou para baixo caso tenha sinal negativo. É possível representar o passeio aleatório
com deslocamento através da seguinte equação:
𝑌𝑡 = δ + 𝑌𝑡−1 + ɛ𝑡 .
(a) (b)
Figura 1 - Passeio aleatório sem deslocamento e passeio aleatório com deslocamento
2.1.3 Tendência
A tendência é uma direção oculta da série temporal. Na prática, as tendências que são
encontradas com maior frequência são:
A Figura 2, por se tratar de uma reta, pode ser representada pela seguinte equação de
primeiro grau:
𝑌 = β0 + β1 𝑋 + ε𝑡 ,
𝑌 = β0 + β1 𝑋1 + ⋯ + β𝑚 𝑋 𝑚 + ε𝑡 ,
onde m representa o grau do polinômio. Para o gráfico apresentado na FIG. 3, por se tratar de
uma parábola podemos modelar a equação como uma tendência quadrática, ou seja, um
polinômio de segundo grau.
Figura 4 - Tendência Exponencial
𝑌 = β0 eβ1𝑋 + ε𝑡 ,
2.1.4 Sazonalidade
A Regressão Linear permite gerar um modelo matemático através de uma reta que
explique a relação linear entre variáveis, no caso mais simples, teremos a relação entre
uma variável explicativa X e uma variável resposta Y. O modelo estatístico de Regressão
Linear com duas variáveis pode ser representado pela seguinte equação (Montgomery e
Runger 2003):
𝑌 = β0 + β1 𝑋𝑡 + ε𝑡 ,
Regressão Linear Simples é onde tem-se uma variável explicativa X contra uma
variável resposta Y, ou seja, tenta-se explicar um fenômeno através de uma variável,
porém na prática, a maior parte dos fenômenos são explicados por mais de uma variável
X.
A regressão linear múltipla pode ter p coeficientes angulares β.
𝑌 = 𝑋β + ɛ,
Para o exemplo hipotético citado, será usada a seguinte equação para descrever as
vendas:
𝑛 𝑛
𝑖=1 𝑖=1
O i-ésimo erro (ou resíduo) é a subtração do valor de Y pelo seu valor predito pela
equação.
ε𝑖 = 𝑌𝑖 − (β̂0 + β̂𝑝 𝑋𝑖 )
β = (𝑋 𝑇 X)−1 𝑋 𝑇 y,
2.2.4 O Coeficiente R2
𝑛 𝑛 𝑛
Que significa:
Variabilidade Total de Y = Variabilidade de Y explicada por X + Variabilidade de Y
devido ao erro. Ou seja:
Soma dos Quadrados Total = Soma dos Quadrados da Regressão + Soma dos Quadrados
Residual.
2
∑𝑛𝑖=1(ŷ𝑖 − ȳ)2 ∑𝑛𝑖=1(𝑦𝑖 − ŷ𝑖 )2
𝑅 = 𝑛 =1− 𝑛 .
∑𝑖=1(𝑦𝑖 − ȳ)2 ∑𝑖=1(𝑦𝑖 − ȳ)2
Portando, para um modelo de regressão com um R2 de 0,90, pode se dizer que 90%
da variabilidade de Y está sendo explicada pelas variáveis X do modelo.
2.3.1 Introdução
Este método é adequado para previsão de dados sem tendência clara ou padrão
sazonal (Athanasopoulos e Hyndman 2018). O método de Suavização Exponencial
Simples, possui uma constante α suavizadora que dá maiores pesos às observações mais
atuais. A constante α pondera o nível da série, que é uma estimativa suavizada do valor
dos dados no final de cada período, e pode ser representada pela equação:
𝑌𝑡 = 𝐿𝑡 + 𝑇𝑡 ,
𝑌𝑡 = 𝐿𝑡 + 𝑇𝑡 + 𝐹𝑡 ,
𝐹𝑡 = 𝐷(𝑌𝑡 − 𝐿𝑡 ) + (1 − 𝐷)𝐹𝑡−𝑠 , 0 ≤ 𝐷 ≤ 1
𝐿𝑡 = 𝐴(𝑌𝑡 − 𝐹𝑡−𝑠 ) + (1 − 𝐴)(𝐿𝑡−1 + 𝑇𝑡−1 ), 0 ≤ 𝐴 ≤ 1
2.4 Arima
2.4.1 Conceitos
O termo auto regressão indica que é uma regressão da variável contra si mesma
em diferentes instantes temporais, portanto fica claro que a série temporal precisa ter
dependência com ela mesma em instantes diferentes do tempo. O modelo autoregressão de
ordem p, pode ser representado pela equação:
𝑌𝑡 = 𝛷𝑌𝑡−1 + ɛ𝑡
𝑌𝑡 = 𝛷1 𝑌𝑡−1 + ⋯ + 𝛷𝑝 𝑌𝑡−𝑝 + ɛ𝑡 ,
2.4.3 Processo de Médias Móveis
𝑌𝑡 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1 ,
O modelo Arima é adequado para séries temporais Yt, que depende da série temporal
defasada no tempo até o instante t-p, que pode necessitar de d diferenciações e com uma
combinação de um ruído branco ɛt defasado até o instante (t-q).
Após a etapa 3, caso o modelo não possua características adequadas, voltar a Etapa 1 e definir
um novo modelo, porém, caso na Etapa 3 o modelo esteja bem ajustado, prosseguir para a
próxima etapa.
Etapa 4. Realizar predições para valores futuros da série e avaliar seu desempenho preditivo.
Os modelos Arima também são capazes de modelar uma ampla gama de dados
sazonais. Um modelo Arima sazonal é formado pela inclusão de termos sazonais adicionais
nos modelos Arima. O modelo Arima Sazonal, ou Sarima, é escrito da seguinte forma: Arima
(p,d,q) (P,D,Q), onde (p,d,q) é a ordem da parte não sazonal, (P,D,Q) é a ordem da parte
sazonal. A parte sazonal do modelo consiste em termos que são semelhantes aos componentes
não sazonais do modelo, mas envolvem retrocessos do período sazonal.
𝑛 𝑛
Onde 𝑔(𝑥) = (𝑥1 𝑤𝑖1 + 𝑥2 𝑤𝑖2 + ⋯ + 𝑥𝑗 𝑤𝑖𝑝 ) sendo x as variáveis explicativas e w os pesos
do p-ésimo neurônio artificial.
2.5.2 Conceitos
Redes neurais artificiais, são métodos de previsão que utilizam modelos matemáticos
baseados em estrutura cerebral (Braga et al. 2007). Eles permitem relacionamentos não-
lineares complexos entre a variável resposta e seus preditores. Uma rede neural pode ser
pensada como uma rede de “neurônios” organizados em camadas. Os preditores (ou entradas)
formam a camada inferior e as previsões (ou saídas) formam a camada superior. Também
pode haver camadas intermediárias contendo "neurônios ocultos".
As redes mais simples (FIG. 5) não contêm camadas ocultas e são equivalentes a
regressões lineares. A figura abaixo mostra a versão da rede neural de uma regressão linear
com n preditores.
XX1
1
w1
XX2 w2
Y
2
∑ Y
wn b
Xn
X
Figura 5 – Rede Neural com um neurônio artificial
n
𝑓(𝑥) = ∑ 𝑥𝑖 𝑤𝑖
𝑖=1
Para problemas mais complexos, pode-se utilizar a Rede Neural Artificial com mais de um
neurônio na camada oculta sendo a saída uma combinação linear de cada observação com
todos os pesos. A representação matemática para uma Rede Neural Artificial com mais de um
neurônio artificial na camada oculta, em notação matricial pode ser dada da seguinte forma:
𝑓(𝑥) = 𝑓(𝑋, 𝑊) = 𝑊 ∗ 𝑋,
ou seja
𝑛
𝑊 ∗ 𝑋 = 𝑋𝑇 𝑊 = ∑ 𝑥𝑖 𝑤𝑖 ,
𝑖=0
é o produto entre os vetores w e x, dessa forma, cada neurônio vai ter uma saída que será uma
função linear genérica de x parametrizada pelos pesos w.
2.5.3 Gradiente Descendente
onde W(s) e w(s+1) representam os valores dos pesos nos instantes s e s+1, Δw(s) é o ajuste
aplicado aos pesos
As métricas para avaliar a capacidade preditiva de cada modelo utilizadas foram o erro
médio absoluto em percentual MAPE (mean absolute percentual error) e o erro médio
absoluto MAE (mean absolut error).
O MAE traz a informação em valor absoluto, pra um modelo que apresenta o MAE de
250, significa que o modelo erra em média R$ 250,00 nas previsões. Seu cálculo é feito da
seguinte forma.
𝑛
(| 𝑦𝑖 − ŷ𝑖 |)/|𝑦𝑖 |
𝑀𝐴𝑃𝐸 = ∑
𝑛
𝑖=1
𝑛
(𝑦𝑖 − ŷ𝑖 )2
𝑅𝑀𝑆𝐸 = √∑
𝑛
𝑖=1
3. PREVISÃO DE VENDAS
3.1 Vendas Mensais
É possível observar que as vendas apresentam tendência de queda, para melhor visualizar, é
útil analisar o boxplot das vendas em cada ano (Fig. 9).
Figura 9 – Boxplot das vendas mensais agrupadas por ano
Pelo gráfico sequencial (Fig. 7), é possível perceber uma tendência decrescente nas
vendas, hipótese que pode ser reiterada pela análise do boxplot das vendas de cada ano (Fig.
9). As medianas estão desalinhadas sugerindo a tendência decrescente em relação ao aumento
do tempo.
Figura 10 – Boxplot das vendas mensais o período de 2013 a 2017 agrupadas por mês
Para construção do modelo Arima, foi utilizado análise das ACF e PACF e testes de
hipóteses. O gráfico de ACF e PACF é apresentado na Figura 12:
Figura 13 - Gráfico da série temporal, ACF e PACF após uma diferenciação sazonal
Para o treinamento da Rede Neural Artificial, dentre as diversas arquiteturas que foram
testadas, o modelo mais parcimonioso e que apresentou melhor resultado foi utilizando como
variáveis preditoras a própria série temporal com defasagens de 1 até 7, e uma defasagem
sazonal de lag 12, e na camada oculta dois neurônios artificiais.
Os gráficos das previsões na base de treino e na base de teste estão apresentados na Figura
18:
Para as vendas diárias, os dados são os mesmos que para os modelos de previsões de
vendas mensais, porém sem a agregação por mês.
Os dados de treino compreendem o período de 07/01/2013 até 31/07/2018, sendo que
08/2018 foi separado para teste.
A Figura 19 traz a representação gráfica da série temporal diária, a variabilidade é
muito maior e os padrões sazonais não estão claros como na série temporal mensal.
Os dados diários apresentam uma variabilidade maior em relação aos dados mensais
pois durante o processo de agregação, parte da variabilidade ficou escondida no acumulado
do mês.
O histograma (Fig. 20) se distribui em torno do seu valor médio, porém com bastantes outliers
a partir de R$ 2.000,00.
O boxplot das vendas sugere que nas segundas, terças e quartas, há uma tendência
decrescente nas vendas. Na quinta as vendas voltam a subir atingindo o maior pico na sexta e
apresentam queda sábado em relação a sexta.
Figura 25 - Série temporal, ACF e PACF após uma diferenciação não sazonal
Entre os diversos modelos Sarima ajustados, o que foi mais parcimonioso e apresentou
melhor capacidade preditiva foi o Sarima (1,1,1) (1,0,1).
No diagnóstico dos resíduos (Fig. 26), os mesmos não apresentaram comportamento
de ruído branco gaussiano e apresentou autocorrelações significativas.
3.3 Resultados
Nas previsões diárias, a Rede Neural Artificial foi o modelo que apresentou menores
erros de previsões na base de treino, e também foi o que apresentou os menores erros de
previsões na base de teste, comprovando assim sua capacidade de extrapolar períodos
temporais que não estão contidos nos dados de treino.
4. CONCLUSÃO
Para a série temporal mensal, onde os padrões de sazonalidade e a tendência são mais
claros, e o objetivo era prever seis meses de vendas no futuro, com exceção da Rede Neural,
a Regressão Linear, Arima e a Suavização Exponencial apresentaram ótimas previsões para
meses futuros fora da base de treino, o MAPE obtido nos dados de teste foi de 6,30%, 5,84%
e 5,80% respectivamente, e a Rede Neural Artificial foi que apresentou o pior MAPE nos
dados de teste 9,16%.
Para a série temporal diária, onde a variabilidade é muito maior, e o objetivo era prever
30 dias de vendas no futuro, os modelos matemáticos se comportaram diferente em relação
aos dados mensais.
A Rede Neural Artificial foi o modelo que apresentou o menor MAPE nos dados de
teste, que foi de 23,83%, e a Regressão Linear, Arima e Suavização Exponencial apresentaram
MAPE nos dados de teste de 35,97%, 50,28% e 49,84% respectivamente.
Apesar de que o fato de identificar uma boa arquitetura para a Rede Neural não ser
algo simples, identificar a melhor ordem de p, d e q para um modelo Arima bem como
identificar as constantes suavizadoras otimizadas para usar na Suavização Exponencial
também não é algo simples. Portanto, em relação a complexidade de modelagem, a Rede
Neural Artificial não foi tão mais complexa de se modelar em relação aos outros dois modelos
citados.
Box, G. E., Jenkins, G. M., & Reinsel. (2008). Time Series Analysis: Forecasting and Control.
Hoboken, New Jersey: John Wiley & Sons, Inc.
Braga, A. d., Carvalho, A. P., & Ludermir, T. B. (2007). Redes Neurais Artificiais Teoria e
Aplicações. Rio de Janeiro: LTC - Livros Técnicos e Científicos Editora.
Hanck, H., Arnold, M., Gerber, A., & Schmelzer, M. (19 de 12 de 2018). Introduction to
Econometrics with R. Essen, German.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2009). An introduction to Statistical
Learning. New York: Springer.
Morettin, P. A., & Toloi, C. M. (2006). Análise de Séries Temporais. São Paulo: Editora
Edgard Blucher Ltda.
Porter, D. C., & Gujarati, D. N. (2011). Econometria Básica. Porto Alegre: AMGH Editora
Ltda.
Smailes, J., & McGrane, A. (2012). Estatística Apicada à Administração. São Paulo: Editora
Atlas S.A.