Tccmaironchavesvfinal 200629025941

UNIVERSIDADE FEDERAL DE MINAS GERAIS
ESPECIALIZAÇÃO EM ESTATÍSTICA
MÁIRON CÉSAR SIMÕES CHAVES
O USO DE APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE

VENDAS
BELO HORIZONTE, 2019

MÁIRON CÉSAR SIMÕES CHAVES
O USO DE APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE

VENDAS
ORIENTADOR: PROF. DR. MARCOS PRATES

RESUMO
O presente estudo apresentará modelos de previsões de vendas do departamento de Pesca e

Camping de uma loja de varejo situada no interior de Minas Gerais. O estudo possui dois
objetivos: o primeiro é fazer a previsão de vendas seis meses no futuro para melhor
planejamento por parte da empresa e também determinar um modelo para realizar as previsões
trinta dias no futuro para um acompanhamento imediato das vendas. Para isso, os seguintes
modelos foram testados: Regressão Linear, Arima, Suavização Exponencial e Redes Neurais
Artificias. Através de medidas da acurácia dos modelos nas previsões In-Sample e Out-of-
Sample, foi possível identificar que para as previsões mensais, os modelos Regressão Linear,
Arima e Suavização Exponencial fizeram excelentes previsões com acurácia similar, a Rede
Neural Artificial não apresentou um bom desempenho. Porém para as previsões diárias, a
Regressão Linear, Arima e a Suavização Exponencial não apresentaram uma acurácia
satisfatória na previsão, já a Rede Neural Artificial apresentou uma ótima capacidade
preditiva.
Palavras Chave: Previsão de Vendas, Varejo, Aprendizagem de Máquina, Séries

Temporais, Redes Neurais Artificiais
Lista de Figuras
FIGURA 1 – Passeio aleatório sem deslocamento e passeio aleatório com deslocamento......10

FIGURA 2 - Tendência Linear.................................................................................................11
FIGURA 3 - Tendência Polinomial..........................................................................................11
FIGURA 4 - Tendência Exponencial........................................................................................12
FIGURA 5 – Rede Neural com um neurônio artificial.............................................................21
FIGURA 6 - Histórico de Vendas Mensais de jan/2013 a dez/2017........................................23
FIGURA 7 – Histograma das vendas mensais em reais...........................................................24
FIGURA 8 – Gráfico QQ Plot das vendas mensais .................................................................24
FIGURA 9 – Boxplot das vendas mensais agrupadas por ano ................................................25
FIGURA 10 – Boxplot das vendas mensais o período de 2013 a 2017 agrupadas por mês ....26
FIGURA 11 – Valores previstos vs observados – Regressão Linear.......................................26
FIGURA 12 – Autocorrelação ACF e autocorrelação parcial PACF das vendas diárias.........26
FIGURA 13 - Gráfico da série temporal, autocorrelação ACF e autocorrelação parcial PACF
após uma diferenciação sazonal................................................................................................27
FIGURA 14 - Diagnóstico dos resíduos do Arima (0,0,0) (0,1,0) com drift............................27
FIGURA 15 – Valores ajustados vs observados - Arima (0,0,0) (0,1,0) com drift..................28
FIGURA 16 – Valores previstos vs observados – Suavização Exponencial............................28
FIGURA 17 – Arquitetura da Rede Neural Artificial utilizada................................................29
FIGURA 18 – Valores previstos vs observados – Rede Neural Artificial................................29
FIGURA 19 - Histórico de Vendas diárias de jan/2013 a jul/2017..........................................30
FIGURA 20 - Histograma de Vendas Diárias..........................................................................31
FIGURA 21 - Gráfico QQ Plot das vendas diárias...................................................................31
FIGURA 22 - Boxplot das vendas por dia da semana..............................................................32
FIGURA 23 - Valores ajustados vs observados – Regressão Linear........................................32
FIGURA 24 - Autocorrelação e autocorrelação parcial das vendas diárias..............................33
FIGURA 25 - Série temporal, ACF e PACF após uma diferenciação não sazonal..................33
FIGURA 26 - Diagnóstico dos resíduos do Arima (1,1,1) (1,0,1) ...........................................34
FIGURA 27 – Valores previstos vs observados - Arima (1,1,1) (1,0,1) .................................34
FIGURA 28 – Valores previstos vs observados – Suavização Exponencial............................35
FIGURA 29 – Arquitetura da Rede Neural Artificial utilizada................................................35
Figura 30 – Valores previstos vs observados – Rede Neural....................................................36
LISTA DE TABELAS
TABELA 1 - Padrões teóricos das Acf e Pacf ......................................................................19

TABELA 2 – Estatísticas descritivas das vendas mensais ....................................................23
TABELA 3 – Estatísticas descritivas das vendas diárias ......................................................30
TABELA 4 – Resumo dos modelos de previsão para os dados mensais ..............................36
TABELA 5 – Resumo dos modelos de previsão para os dados diários ................................37
SUMÁRIO
1. INTRODUÇÃO............................................................................................................ 9
1.1 Objetivo .............................................................................................................................................. 9
2. METODOLOGIA ...................................................................................................... 10
2.1 Séries Temporais .............................................................................................................................. 10
2.1.1 Conceitos .................................................................................................................................... 10
2.1.2 Processos Estocásticos Estacionários ........................................................................................ 10
2.1.3 Tendência .............................................................................................................................. 12
2.1.4 Sazonalidade ......................................................................................................................... 13
2.2 Regressão Linear .......................................................................................................................... 13

2.2.1 Conceitos Iniciais .................................................................................................................. 13
2.2.2 Regressão Linear Simples e Múltipla ...................................................................................... 14
2.2.3 Mínimos Quadrados Ordinários ............................................................................................. 15
2.2.4 O Coeficiente R2.................................................................................................................... 15
2.3 Suavização Exponencial .............................................................................................................. 16

2.3.1 Introdução ............................................................................................................................. 16
2.3.2 Suavização Exponencial para Séries Localmente Constantes ............................................... 16
2.3.3 Suavização Exponencial para Séries com Tendência............................................................ 17
2.3.4 Suavização Exponencial para Séries com Tendência e Sazonalidade...................................... 17

2.4 Arima............................................................................................................................................ 18
2.4.1 Conceitos ................................................................................................................................. 18
2.4.2 Processo Autoregressivo ........................................................................................................ 18
2.4.3 Processo de Médias Móveis .................................................................................................. 19
2.4.4 Processo Autoregressivo Integrado de Médias Móveis.......................................................... 19
2.4.5 Identificação do modelo Arima ................................................................................................ 19
2.4.6 Modelo Arima considerando sazonalidade, o modelo Sarima .............................................. 20
2.5 Redes Neurais Artificiais ............................................................................................................ 21

2.5.1 Aprendizagem de Máquina Supervisionada ............................................................................ 21
2.5.2 Conceitos .................................................................................................................................... 22
2.5.3 Gradiente Descendente............................................................................................................ 23
2.6 Medidas de acurácia ......................................................................................................................... 23

3. Previsão De Vendas................................................................................................... 24
3.1 Vendas Mensais ............................................................................................................................... 24
3.1.1 Análise Exploratória e apresentação dos dados ......................................................................... 24
3.1.2 – Apresentação dos modelos ...................................................................................................... 26
3.2 Vendas Diárias ................................................................................................................................. 31

3.2.1 Análise Exploratória................................................................................................................... 31
3.2.2 Apresentação dos modelos ......................................................................................................... 33
3.3 Resultados ........................................................................................................................................ 37

4. CONCLUSÃO............................................................................................................ 38
5. BIBLIOGRAFIA ........................................................................................................ 40
1. Introdução
Em um mercado competitivo como o atual, em que além de concorrer com outras lojas
físicas, uma empresa também concorre com empreendimentos virtuais, ter um planejamento
a longo prazo é essencial para a sustentabilidade da empresa.
Se tratando do segmento de pesca, o mercado está sujeito a sazonalidades, como o

período de defeso que na maior parte do Brasil começa em primeiro de novembro e se estende
até vinte e oito de fevereiro. Nesse período a pesca esportiva e comercial fica proibida para
garantir a reprodução dos peixes. Os pescadores profissionais recebem subsídio do governo
para se manterem, entretanto, empresas que trabalham com artigos para pesca não, portanto,
devem se planejar para manter a lucratividade. O segmento de Camping, também está sujeito
a sazonalidade. Citam-se o aumento de vendas em épocas como o natal ou férias escolares e
podendo ter queda significativa nos demais períodos.
Portanto, para empresas que atuam nesse segmento sobreviverem de forma saudável,
e em um ambiente contendo todas essas variáveis, a previsão das vendas é uma das
ferramentas que a empresa pode usar para tal fim e para tomar decisões.
1.1 Objetivo
Entre os modelos de previsões de vendas apresentados neste estudo, serão comparadas

técnicas tradicionais de séries temporais como modelo Arima, Suavização Exponencial,
Regressão Linear com a técnica de aprendizagem de máquina Rede Neural Artificial. Na
prática, esses modelos deverão prever as vendas seis meses no futuro com os dados em
granularidade mensal e prever 30 dias no futuro com os dados de vendas diárias. Os dados de
séries temporais por dia apresentam maior variabilidade em relação aos dados agregados por
mês, o que faz ser interessante o uso de técnicas diferentes das séries temporais tradicionais.
2. Metodologia
2.1 Séries Temporais
2.1.1 Conceitos
Uma série temporal é um processo estocástico que evolui no tempo, conforme é um

conjunto de valores observados de uma determinada variável aleatória coletados ao longo do
tempo, geralmente em intervalos equidistantes (MORETTIN; TOLOI, 2006).
Como exemplo de séries temporais e seus períodos, podemos considerar o Produto
Interno Bruto (PIB) coletado trimestralmente, as vendas de uma empresa ao longo dos meses,
a produção de uma indústria hora a hora, etc.
2.1.2 Processos Estocásticos Estacionários
Um processo estocástico será considerado estacionário quando sua média e variância

forem constantes ao longo de seus instantes temporais e sua autocovariância depender apenas
do intervalo entre os dois períodos (GUJARATI; PORTER, 2008). Essas propriedades podem
ser representadas da seguinte maneira:
∑nt=1 Yt
Média: E(𝑌𝑡 ) = µ =
n
Variância: var(𝑌𝑡 ) = ơ2 = E(𝑌𝑡 − µ)2
∑nt=1(Yt − µ)(Yt−k − µ)
Covariância: Cov (𝑌𝑡 , 𝑌𝑡−𝑘 ) = γk =
n
Em que γk é a covariância da série temporal com ela mesma defasada no instante k,

sendo assim é intuitivo perceber que para k = 0, termos a variância da série temporal.
Para realizar previsões, é importante que a série temporal seja estacionária, pois caso
contrário, entenderemos seu comportamento apenas nos dados amostrais, tornando difícil a
extrapolação que é necessária para predizer o futuro 𝑌𝑡+𝑘 .
Na prática é muito comum encontrar séries temporais não estacionárias, por exemplo,
os valores diários de uma ação na bolsa de valores. Esses processos são denominados de
modelo de passeio aleatório.
Uma série temporal não estacionária, pode ser transformada em estacionária tomando
suas primeiras diferenças conforme se verifica a seguir:
(𝑌𝑡 − 𝑌𝑡−1 ) = ΔY,
O passeio aleatório pode ser classificado em dois tipos: o passeio aleatório sem
deslocamento e com deslocamento (ATHANASOPOULOS; HYNDMAN, 2018).
O passeio aleatório sem deslocamento (FIG. 1a) pode ser representado da seguinte
forma:
𝑌𝑡 = 𝑌𝑡−1 + ɛ𝑡 ,
ou seja, o valor de Y no instante atual t é igual ao seu valor no instante t-1 mais um choque
aleatório. Esse é um processo de memória infinita, pois ao se iniciar no instante zero t0,
todos seus valores futuros dependerão de todos os valores passados. Essa propriedade
pode ser representada da seguinte forma:
𝑌1 = 𝑌0 + ɛ1
𝑌2 = 𝑌1 + ɛ2 = 𝑌0 + ɛ1 + ɛ2
𝑌3 = 𝑌2 + ɛ3 = 𝑌0 + ɛ1 + ɛ2 + ɛ3
ou seja
𝑛
𝐸(𝑌𝑡 ) = 𝐸 ( 𝑌0 + ∑ ɛ𝑡 ) .
𝑡 =1
Já o passeio aleatório com deslocamento (FIG. 1b) possui uma constante δ que
representa um parâmetro de deslocamento que irá direcionar a série para cima caso
positivo ou para baixo caso tenha sinal negativo. É possível representar o passeio aleatório
com deslocamento através da seguinte equação:
𝑌𝑡 = δ + 𝑌𝑡−1 + ɛ𝑡 .
(a) (b)
Figura 1 - Passeio aleatório sem deslocamento e passeio aleatório com deslocamento
2.1.3 Tendência
A tendência é uma direção oculta da série temporal. Na prática, as tendências que são
encontradas com maior frequência são:
Figura 2 – Tendência linear
A Figura 2, por se tratar de uma reta, pode ser representada pela seguinte equação de
primeiro grau:
𝑌 = β0 + β1 𝑋 + ε𝑡 ,
em que β0 é o coeficiente linear, ou seja, é onde a reta intersecta o eixo Y, β1 é o coeficiente

angular, representa a inclinação da reta, X é uma variável aleatória e ε o erro.
Figura 3 – Tendência polinomial
A tendência polinomial apresentada na Figura 3 pode ser representada pela equação:
𝑌 = β0 + β1 𝑋1 + ⋯ + β𝑚 𝑋 𝑚 + ε𝑡 ,
onde m representa o grau do polinômio. Para o gráfico apresentado na FIG. 3, por se tratar de
uma parábola podemos modelar a equação como uma tendência quadrática, ou seja, um
polinômio de segundo grau.
Figura 4 - Tendência Exponencial
Na tendência exponencial apresentada na Figura 4 o coeficiente angular e a variável

X aparecem em forma de potência:
𝑌 = β0 eβ1𝑋 + ε𝑡 ,
para estimar o coeficiente de intersecção 𝛽0 da equação da tendência exponencial deve-se

transformar as observações Yi em lnYi, estimar a intersecção e posteriormente tomar o
exponencial do valor encontrado, para inclinação β1 deve-se estimar sobre o lnYi.
2.1.4 Sazonalidade
A sazonalidade é um fenômeno que ocorre regularmente dentre um determinado

período, pode ser de subida ou de queda, por exemplo, em uma série temporal mensal,
todo mês de dezembro as vendas apresentarem grandes picos devido ao natal.
No mundo empresarial, podemos definir a sazonalidade como todo e qualquer

fator externo que possa influenciar nos resultados, seja de forma positiva ou negativa.
2.2 Regressão Linear

2.2.1 Conceitos Iniciais
A Regressão Linear permite gerar um modelo matemático através de uma reta que
explique a relação linear entre variáveis, no caso mais simples, teremos a relação entre
uma variável explicativa X e uma variável resposta Y. O modelo estatístico de Regressão
Linear com duas variáveis pode ser representado pela seguinte equação (Montgomery e
Runger 2003):
𝑌 = β0 + β1 𝑋𝑡 + ε𝑡 ,
onde β0 é o termo de intercepto, em outras palavras, é o valor de Y quando X = 0, β1 é a

inclinação da reta, representa a mudança média prevista em y resultante do aumento de
uma unidade em X, ε é um termo erro aleatório com média µ zero e variância ơ2 constante.
2.2.2 Regressão Linear Simples e Múltipla
Regressão Linear Simples é onde tem-se uma variável explicativa X contra uma
variável resposta Y, ou seja, tenta-se explicar um fenômeno através de uma variável,
porém na prática, a maior parte dos fenômenos são explicados por mais de uma variável
X.
A regressão linear múltipla pode ter p coeficientes angulares β.
Os coeficientes angulares β que compõem a equação da regressão, fazem com que

a reta passe pelas médias das amostras de Y e X (Gujarati e Porter 2008), em notação
matricial pode ser representada por:
𝑌 = 𝑋β + ɛ,
onde Y é um vetor n x1 contendo os valores de Y da amostra, X é uma matriz n x k sendo

n igual ao número de observações e k igual ao número de variáveis explicativas, β é um
vetor k x 1 de parâmetros desconhecidos, ɛ = vetor n x 1 dos n termos de ɛ, e a primeira
coluna assume o valor 1 para todas observações representando o coeficiente linear β0.
𝑦1 1 𝑋21 𝑋31 ⋯ 𝑋𝑘1 β1 ɛ1

𝑦2 = 1 𝑋22 𝑋32 ⋯ 𝑋𝑘2 β2 ɛ1
⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮
𝑦𝑛 1 𝑋2𝑛 𝑋3𝑛 ⋯ 𝑋𝑘𝑛 β𝑘 ɛ𝑘
Utilizando um exemplo hipotético, pode-se querer explicar Y = Volume de Vendas

Diário em kg de um determinado produto através das variáveis explicativas X1 = Preço
Praticado do Produto no dia, X2 = Preço Praticado de um produto substituto no dia, e X3=
se o produto em questão estava em promoção ou não.
Para o exemplo hipotético citado, será usada a seguinte equação para descrever as
vendas:
Y = 6,80 + (- 0,73*Preço Praticado) + (0,61*Preço Produto Substituto) +

(1,16*Promoção)
Uma consideração importante é que para incluir a variável Promoção no modelo,

a mesma deve ser introduzida como variável binária, ou seja, assume o valor 1 quando o
produto estiver em promoção e assume o valor 0 caso contrário.
Interpretando a equação temos que:

• β1 = -0,73 = Mantendo as demais variáveis constantes, para cada aumento unitário
no Preço Praticado, o Volume de Vendas cairá em média 0,73 kg;
• β2 = 0,61 = Mantendo as demais variáveis constantes, para cada aumento unitário
no Preço do Produto Substituto, o Volume de Vendas aumentará em média 0,61
kg;
• β3 = 1,16 = Mantendo as demais variáveis constantes, no dia que o produto está
em promoção, vende em média 1,16 kg a mais em relação à quando não está em
promoção;
2.2.3 Mínimos Quadrados Ordinários
Os coeficientes angulares da Regressão Linear podem ser estimados através do

método dos Mínimos Quadrados Ordinários. Esse método tem como objetivo minimizar
a SQE (soma dos quadrados dos erros).
𝑛 𝑛
𝑆𝑄𝐸 = 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 ∑(ε𝑖 ) = ∑[𝑦𝑖 − (β̂0 + β̂𝑝 𝑥𝑖 )]2

2
𝑖=1 𝑖=1
O i-ésimo erro (ou resíduo) é a subtração do valor de Y pelo seu valor predito pela
equação.
ε𝑖 = 𝑌𝑖 − (β̂0 + β̂𝑝 𝑋𝑖 )
A estimação para o vetor de parâmetros desconhecidos β em notação matricial

fica:
β = (𝑋 𝑇 X)−1 𝑋 𝑇 y,
onde (XTX)-1 é a matriz inversa do produto entre as matrizes k x k transposta e a matriz k

x k, sendo k o número de variáveis explicativas, y é o vetor n x 1 contendo os valores de
Y da amostra.
2.2.4 O Coeficiente R2
As fontes da variabilidade de Y podem ser decompostas em duas fontes

Montgomery e Runger (2003), a SQR (Soma dos Quadrados da Regressão) e SQE (Soma
dos Quadrados dos Erros).
𝑛 𝑛 𝑛
∑(𝑦𝑖 − ȳ) = ∑(ŷ𝑖 − ȳ) + ∑(𝑦𝑖 − ŷ𝑖 )2

2 2
𝑖=1 𝑖=1 𝑖=1
Que significa:
Variabilidade Total de Y = Variabilidade de Y explicada por X + Variabilidade de Y
devido ao erro. Ou seja:
Soma dos Quadrados Total = Soma dos Quadrados da Regressão + Soma dos Quadrados
Residual.
Onde ȳ é a média amostra de y e ŷ é o valor de y estimado pela regressão.
Uma das maneiras de verificar o quanto da variabilidade de Y o modelo de regressão

ajustado explica, é através do coeficiente de determinação R2.
O R2 assume valores de 0 até 1 e pode ser calculado da seguinte forma:
2
∑𝑛𝑖=1(ŷ𝑖 − ȳ)2 ∑𝑛𝑖=1(𝑦𝑖 − ŷ𝑖 )2
𝑅 = 𝑛 =1− 𝑛 .
∑𝑖=1(𝑦𝑖 − ȳ)2 ∑𝑖=1(𝑦𝑖 − ȳ)2
Portando, para um modelo de regressão com um R2 de 0,90, pode se dizer que 90%
da variabilidade de Y está sendo explicada pelas variáveis X do modelo.
2.3 Suavização Exponencial
2.3.1 Introdução
Para Morettin e Toloi (2006) os métodos de séries temporais em sua maioria,

baseiam-se na ideia de que valores passados da série temporal contém padrões que possam
explicar seu comportamento e fazer predições futuras, portanto, as predições produzidas
usando métodos de suavização exponencial são médias ponderadas de observações
passadas, com os pesos decaindo exponencialmente à medida que as observações
envelhecem. Em outras palavras, quanto mais recente a observação, maior o peso
associado.
2.3.2 Suavização Exponencial para Séries Localmente Constantes
Este método é adequado para previsão de dados sem tendência clara ou padrão
sazonal (Athanasopoulos e Hyndman 2018). O método de Suavização Exponencial
Simples, possui uma constante α suavizadora que dá maiores pesos às observações mais
atuais. A constante α pondera o nível da série, que é uma estimativa suavizada do valor
dos dados no final de cada período, e pode ser representada pela equação:
𝑌𝑡+1 = α𝑌𝑡 + 𝐴(1 − α)𝑌𝑡−1 , 0 ≤ α ≤ 1

2.3.3 Suavização Exponencial para Séries com Tendência
A Suavização Exponencial pressupõe que os dados flutuem em torno de uma

média razoavelmente estável (sem tendência ou padrão consistente de crescimento ou
declínio). Se os dados contiverem uma tendência, o modelo Suavização Exponencial
ajustada para Tendência deverá ser usado.
A suavização exponencial ajustada para tendência funciona de maneira muito

semelhante à suavização simples, exceto pelo fato de que dois componentes devem ser
atualizados a cada período: nível A e tendência C. A tendência é uma estimativa suavizada
do crescimento médio no final de cada período.
A série temporal com tendência pode ser descrita pela equação:
𝑌𝑡 = 𝐿𝑡 + 𝑇𝑡 ,
onde L representa o nível da série e T a tendência. Substituindo em T temos:
𝐿𝑡 = 𝐴𝑌𝑡 + (1 − 𝐴)(𝑌𝑡−1 + 𝑇𝑡−1 ), 0 ≤ A ≤ 1
𝑇𝑡 = 𝐶(𝑌𝑡 − 𝑌𝑡−1 ) + (1 − 𝐶)𝑇𝑡−1 , 0 ≤ C ≤ 1
2.3.4 Suavização Exponencial para Séries com Tendência e Sazonalidade
Holt (1957) e Winters (1960) estenderam o método de Suavização Exponencial

para capturar a sazonalidade. O método sazonal de Holt-Winters compreende três
constantes suavizadoras A, C e D, que representam a suavização da série temporal em seu
nível, tendência e sazonalidade respectivamente.
A Suavização Exponencial para série temporal com tendência e sazonalidade pode
ser representada pela seguinte equação:
𝑌𝑡 = 𝐿𝑡 + 𝑇𝑡 + 𝐹𝑡 ,
onde L representa o nível da série, T representa a tendência e F representa a sazonalidade.
Considerando uma série com sazonalidade aditiva, isto é, a variabilidade da

componente sazonal permanece a mesma ao longo do tempo, podemos substituir na
equação da seguinte forma:
𝐹𝑡 = 𝐷(𝑌𝑡 − 𝐿𝑡 ) + (1 − 𝐷)𝐹𝑡−𝑠 , 0 ≤ 𝐷 ≤ 1
𝐿𝑡 = 𝐴(𝑌𝑡 − 𝐹𝑡−𝑠 ) + (1 − 𝐴)(𝐿𝑡−1 + 𝑇𝑡−1 ), 0 ≤ 𝐴 ≤ 1
𝑇𝑡 = 𝐶(𝐿𝑡 − 𝐿𝑡−1 ) + (1 − 𝐶)𝑇𝑡−1 , 0 ≤ 𝐶 ≤ 1
2.4 Arima
2.4.1 Conceitos
Os modelos Arima, também conhecidos como abordagem Box e Jenkins (1970)

fornecem outra abordagem para a previsão de séries temporais. Os modelos de Suavização
Exponencial e Arima são as duas abordagens amplamente utilizadas para a previsão de
séries temporais e fornecem abordagens complementares para o problema. Enquanto os
modelos de suavização exponencial são baseados em uma descrição da tendência e
sazonalidade dos dados, os modelos Arima visam descrever as autocorrelações nos dados.
2.4.2 Processo Autoregressivo
O termo auto regressão indica que é uma regressão da variável contra si mesma
em diferentes instantes temporais, portanto fica claro que a série temporal precisa ter
dependência com ela mesma em instantes diferentes do tempo. O modelo autoregressão de
ordem p, pode ser representado pela equação:
𝑌𝑡 = 𝛷𝑌𝑡−1 + ɛ𝑡
onde Φ é um parâmetro de defasagem da série temporal com ela mesma no instante t, ɛt é um

termo de erro independente e identicamente distribuídos, também chamado de ruído branco
Gaussiano.
Dessa maneira, Yt depende apenas de Yt-1 e do ruído no instante t, esse processo é
chamado de modelo autoregressivo de ordem 1, ou AR(1).
Um processo autoregressivo de ordem p pode ser representado da seguinte forma:
𝑌𝑡 = 𝛷1 𝑌𝑡−1 + ⋯ + 𝛷𝑝 𝑌𝑡−𝑝 + ɛ𝑡 ,
2.4.3 Processo de Médias Móveis
Em vez de usar valores anteriores da variável de previsão em uma regressão, um

modelo de média móvel usa erros de previsões anteriores. Um modelo de Médias Móveis de
ordem 1, ou MA(1) pode ser representado pela equação:
𝑌𝑡 = 𝑎𝑡 − 𝜃1 𝑎𝑡−1 ,
onde, os parâmetros desconhecidos θ seguem as condições, θ1+ θ2 < 1, -1 < θ2 < 1,

at é um processo ruído branco com média E( at ) = 0 e variância constante Var( at ) = ơ2.
2.4.4 Processo Autoregressivo Integrado de Médias Móveis
Os processos autoregressivos AR de ordem p e médias móveis MA de ordem q, são

adequados para séries estacionárias, entretanto como já foi citado, caso a série temporal não
seja estacionária, uma quantidade d de diferenças deve ser realizada. Esse processo é chamado
de Arima, que é um acrônimo para Autoregressivo Integrado de Médias Móveis.
Um processo Arima de ordem (p,d,q) significa que:
p = Ordem da parte autoregressiva;

d = Ordem da diferenciação envolvida;
q = Ordem da parte média móvel;
O modelo Arima é adequado para séries temporais Yt, que depende da série temporal
defasada no tempo até o instante t-p, que pode necessitar de d diferenciações e com uma
combinação de um ruído branco ɛt defasado até o instante (t-q).
2.4.5 Identificação do modelo Arima
Para identificar um primeiro modelo Arima aos dados amostrais, o conhecimento da

análise da função de autocorrelação e autocorrelação parcial deve ficar claro. A função de
autocorrelação (Acf) mede a dependência entre os valores da série temporal no instante t até
o instante t+j. A função de autocorrelação parcial (Pacf), é o coeficiente de correlação entre
os valores da série temporal separados k períodos, dessa forma elimina a dependência
produzida pelos valores intermediários. Os coeficientes de correlação parcial podem ser
estimados pelo método dos Mínimos Quadrados Ordinários.
Tabela 1 - Padrões teóricos das Acf e Pacf
Tipo de Modelo Padrão Típico de Acf Padrão Típico de Pacf
AR(p) Declina exponencialmente ou Picos significativos até p
com padrão de onda senóide defasagens
amortecida, ou ambos
MA (q) Correlações significativas até q Declina exponencialmente
defasagem
ARMA(p,q) Queda Exponencial Queda Exponecial
Fonte: Gujarati e Porter (2008)
Para definir a ordem de p, d e q do modelo Arima, a metodologia Box-Jenkins faz a seguinte

proposta de processo interativo:
Etapa 1. Através da análise da função de autocorrelação e autocorrelação parcial, propor o

primeiro modelo Arima de ordem (p,d,q)
Etapa 2. Estimar os parâmetros para gerar a equação que descreve a série temporal
Etapa 3. Realizar diagnóstico do modelo escolhido, os resíduos devem ser um ruído branco
Gaussiano.
Após a etapa 3, caso o modelo não possua características adequadas, voltar a Etapa 1 e definir
um novo modelo, porém, caso na Etapa 3 o modelo esteja bem ajustado, prosseguir para a
próxima etapa.
Etapa 4. Realizar predições para valores futuros da série e avaliar seu desempenho preditivo.
2.4.6 Modelo Arima considerando sazonalidade, o modelo Sarima
Os modelos Arima também são capazes de modelar uma ampla gama de dados
sazonais. Um modelo Arima sazonal é formado pela inclusão de termos sazonais adicionais
nos modelos Arima. O modelo Arima Sazonal, ou Sarima, é escrito da seguinte forma: Arima
(p,d,q) (P,D,Q), onde (p,d,q) é a ordem da parte não sazonal, (P,D,Q) é a ordem da parte
sazonal. A parte sazonal do modelo consiste em termos que são semelhantes aos componentes
não sazonais do modelo, mas envolvem retrocessos do período sazonal.
Para identificação das partes sazonais do modelo, a função de autocorrelação e

autocorrelação parcial também são úteis. Para um Sarima (0,0,0) (0,0,1), ou seja, um modelo
de médias móveis sazonais, para uma série temporal mensal, pode apresentar uma
autocorrelação significativa na décima segunda defasagem, mas sem outros picos
significativos, além de decaimento exponencial nas defasagens sazonais nas
autocorrelações parciais, ou seja, no lag 12, 24, 36.... Para um Sarima (0,0,0) (1,0,0), ou
seja, um modelo autoregressivo sazonal, considerando uma série temporal mensal, o
comportamento teórico das funções de autocorrelações é um decaimento exponencial nas
defasagens sazonais da função de autocorrelação e um único pico significativo no lag
sazonal 12 na função de autocorrelação parcial.
Uma forma mais genérica de apresentar o modelo Sarima é apresentada abaixo:
𝛷𝑝 (𝐵)𝛷𝑃 (𝐵 𝑆 )(1 − 𝐵)𝑑 (1 − 𝐵 𝑆 )𝐷 𝑌𝑡 = Θ𝑄 (𝐵 𝑆 )Θ𝑞 (𝐵)ɛ𝑡 ,
onde Φp (B) é o polinômio autoregressivo de ordem p, ΦP (BS) é o polinômio autoregressivo

sazonal de ordem P, (1-B)d (1-Bs)D representa a diferenciação não sazonal de ordem d e
sazonal de ordem D, ΘQ (Bs) é o polinômio de médias móveis sazonais de ordem Q, Θq (B) é
o polinômio de médias móveis de ordem q, at é um ruído branco com média zero E ( at ) = 0
e variância constante var( at ) = ơ2.
2.5 Redes Neurais Artificiais
2.5.1 Aprendizagem de Máquina Supervisionada
O processo de aprendizagem supervisionada recebe esse nome pois é necessário

fornecer um histórico dos dados contendo as variáveis preditoras X e a variável resposta Y.
A partir do histórico dos dados, ou conjunto de treinamento, a rede neural irá iniciar o processo
de aprendizagem com um vetor aleatório de pesos w, após a combinação linear do primeiro
vetor de pesos com as variáveis explicativas X, é comparada a saída obtida pela soma
ponderada das variáveis com os pesos com o valor original de Y, para posteriormente fazer o
ajuste dos pesos para que cada etapa do treinamento os valores das somas ponderadas se
aproximem o máximo possível do vetor de Y original.
Os pesos w são selecionados na estrutura da rede neural usando um “algoritmo de

aprendizado” que minimiza uma “função custo”, como a soma dos quadrados dos erros, que
no caso mais simples, em uma Rede Neural com pode ser representada por:
𝑛 𝑛
𝑆𝑄𝐸 = 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 ∑(ε𝑖 )2 = ∑[𝑦𝑖 − (𝑔1 (𝑥). 𝑔2 (𝑥) … 𝑔𝑘 (𝑥)]2 ,

𝑖=1 𝑖=1
Onde 𝑔(𝑥) = (𝑥1 𝑤𝑖1 + 𝑥2 𝑤𝑖2 + ⋯ + 𝑥𝑗 𝑤𝑖𝑝 ) sendo x as variáveis explicativas e w os pesos
do p-ésimo neurônio artificial.
2.5.2 Conceitos
Redes neurais artificiais, são métodos de previsão que utilizam modelos matemáticos
baseados em estrutura cerebral (Braga et al. 2007). Eles permitem relacionamentos não-
lineares complexos entre a variável resposta e seus preditores. Uma rede neural pode ser
pensada como uma rede de “neurônios” organizados em camadas. Os preditores (ou entradas)
formam a camada inferior e as previsões (ou saídas) formam a camada superior. Também
pode haver camadas intermediárias contendo "neurônios ocultos".
As redes mais simples (FIG. 5) não contêm camadas ocultas e são equivalentes a
regressões lineares. A figura abaixo mostra a versão da rede neural de uma regressão linear
com n preditores.
XX1
1
w1
XX2 w2
Y
2
∑ Y
wn b
Xn
X
Figura 5 – Rede Neural com um neurônio artificial
n
O valor de Y é resultado de uma combinação linear das entradas X e dos pesos W.
𝑓(𝑥) = ∑ 𝑥𝑖 𝑤𝑖
𝑖=1
Para problemas mais complexos, pode-se utilizar a Rede Neural Artificial com mais de um
neurônio na camada oculta sendo a saída uma combinação linear de cada observação com
todos os pesos. A representação matemática para uma Rede Neural Artificial com mais de um
neurônio artificial na camada oculta, em notação matricial pode ser dada da seguinte forma:
𝑓(𝑥) = 𝑓(𝑋, 𝑊) = 𝑊 ∗ 𝑋,
ou seja
𝑛
𝑊 ∗ 𝑋 = 𝑋𝑇 𝑊 = ∑ 𝑥𝑖 𝑤𝑖 ,
𝑖=0
é o produto entre os vetores w e x, dessa forma, cada neurônio vai ter uma saída que será uma
função linear genérica de x parametrizada pelos pesos w.
2.5.3 Gradiente Descendente
Conforme Braga et al. (2007) o Gradiente Descendente, é um método de otimização

numérica que pode ser usado para o encontrar o ponto mínimo de uma função. O processo de
atualização dos pesos w de uma rede neural pode usar esse método, onde a partir do vetor
aleatório de w no início do processo do aprendizado, o método do gradiente descendente pode
ser aplicado para minimizar a soma dos quadrados dos erros SQE. O processo de ajustes dos
pesos pode ser descrito pela equação:
𝑤(𝑠 + 1) = 𝑤(𝑠) + ∆𝑤(𝑠)
onde W(s) e w(s+1) representam os valores dos pesos nos instantes s e s+1, Δw(s) é o ajuste
aplicado aos pesos
2.6 Medidas de acurácia
As métricas para avaliar a capacidade preditiva de cada modelo utilizadas foram o erro
médio absoluto em percentual MAPE (mean absolute percentual error) e o erro médio
absoluto MAE (mean absolut error).
O MAPE traz uma interpretação percentual, ou seja, se um modelo apresentar o MAPE

de 5% para suas previsões, quer dizer que o modelo apresenta uma taxa de erro médio de 5%.
O MAPE é dado por:
(| 𝑦𝑖 − ŷ𝑖 |) / |𝑦𝑖 |
𝑀𝐴𝑃𝐸 = ∑𝑛𝑖=1 𝑛
O MAE traz a informação em valor absoluto, pra um modelo que apresenta o MAE de
250, significa que o modelo erra em média R$ 250,00 nas previsões. Seu cálculo é feito da
seguinte forma.
𝑛
(| 𝑦𝑖 − ŷ𝑖 |)/|𝑦𝑖 |
𝑀𝐴𝑃𝐸 = ∑
𝑛
𝑖=1
𝑛
(𝑦𝑖 − ŷ𝑖 )2
𝑅𝑀𝑆𝐸 = √∑
𝑛
𝑖=1
3. PREVISÃO DE VENDAS
3.1 Vendas Mensais
3.1.1 Análise Exploratória e apresentação dos dados
Os dados utilizados para este trabalho, são referentes ao o histórico de vendas do

departamento de pesca e camping compreendendo o período de 02/01/2013 a 03/09/2018. O
primeiro objetivo é fazer previsões seis meses no futuro, portanto as vendas foram agrupadas
por mês.
Figura 6 - Histórico de Vendas Mensais de jan/2013 a dez/2017
As estatísticas descritivas da série são:
Tabela 2 – Estatísticas descritivas das vendas mensais

Mínimo R$ 13.341,00
1º Quartil R$ 17.063,00
Mediana R$ 19.022,00
Média R$ 19.297,00
3º Quartil R$ 20.915,00
Máximo R$ 27.979,00
Fonte: Dados da pesquisa
Durante todo o período amostral, as vendas em reais se situam entre R$ 13.341,00 e

R$ 27.979,00 que se referem aos valores de mínimo e máximo respectivamente. O valor
mediano é R$ 19.022,00, ou seja, 50% das vendas mensais estão abaixo ou acima desse valor.
Figura 7 – Histograma das vendas mensais em reais
As vendas aparentam se distribuir normalmente em torno de seu valor médio, pelo

gráfico de normalidade e ao p valor de 0,31 do teste de normalidade Shapiro Wilk, não há
evidências para rejeitar a hipótese nula de que os dados seguem uma distribuição normal.
Figura 8 – Gráfico QQ Plot das vendas mensais em reais
A Figura 8 apresenta o QQ Plot, pode-se observar que os dados se distribuem em torno da

reta, reforçando a hipótese de normalidade dos dados.
É possível observar que as vendas apresentam tendência de queda, para melhor visualizar, é
útil analisar o boxplot das vendas em cada ano (Fig. 9).
Figura 9 – Boxplot das vendas mensais agrupadas por ano
Pelo gráfico sequencial (Fig. 7), é possível perceber uma tendência decrescente nas
vendas, hipótese que pode ser reiterada pela análise do boxplot das vendas de cada ano (Fig.
9). As medianas estão desalinhadas sugerindo a tendência decrescente em relação ao aumento
do tempo.
Figura 10 – Boxplot das vendas mensais o período de 2013 a 2017 agrupadas por mês
O boxplot referente ao mês de dezembro apresenta maior valor e baixa variabilidade,

indicando que as vendas aos meses de dezembro além de maiores, se concentram em valores
aproximados. Para o mês de janeiro é perceptível uma grande variabilidade nas vendas.
3.1.2 – Apresentação dos modelos

Para assegurar que o modelo não ajustou demasiadamente nos dados da amostra, o
histórico de vendas foi separado em duas partes. O período de jan/2013 até dez/2017 foi
utilizado para treino, ou ajuste dos modelos, e o período de jan/2018 a ago/2018 foi separado
do conjunto de treino para servir como base de teste.
Para o modelo de Regressão Linear, como variáveis explicativas, foram utilizadas a

tendência linear e dummies para cada mês. A equação obtida foi:
Vendas = 23144.2 + (-94.31 * Tendência) + (-1920.69 * Fev) + (635.29 * Mar) + (-633.01 *

Abr) + (-1277.12 * Mai) + (-4279.32 * Jun) + (-3315.96 * Jul) + (-1831.66 * Ago) + (-257.75
* Set) + (803.71 * Out) + (-3752.61 * Nov) + (4178.66 * Dez)
Os resultados estão apresentados na Figura 11:
Figura 11 – Valores previstos vs observados – Regressão Linear
O modelo apresentou um R2 de 62%, significa que o modelo conseguir explicar 62%

da variação das vendas mensais. A regressão linear apresentou MAPE de 7,64% e MAE de
R$1.465,8 na base de treino, e na base de teste apresentou MAPE de 6,3% e MAE de
R$1.031,56 comprovando assim uma boa capacidade preditiva.
Para construção do modelo Arima, foi utilizado análise das ACF e PACF e testes de
hipóteses. O gráfico de ACF e PACF é apresentado na Figura 12:
Figura 12 – Autocorrelação ACF e autocorrelação parcial PACF

Para testar formalmente a hipótese de estacionariedade da série, foi utilizado o teste
Dickey-Fuller aumentado e o teste Osborn-Chui-Smith-Birchenhall para estacionariedade
sazonal. Os resultados dos testes foram que a série não é estacionária sazonalmente, e para
corrigir isso foi realizada uma diferenciação sazonal, que está apresentada na Figura 13.
Figura 13 - Gráfico da série temporal, ACF e PACF após uma diferenciação sazonal
As funções de ACF e PACF (Fig.13) não apresentaram nenhuma correlação

significativa, dessa forma a série apresentou comportamento de um ruído branco. Portanto, o
modelo que melhor se ajustou aos dados foi Arima (0,0,0) (0,1,0) com uma constante (drift).
A análise de resíduos do Arima (Fig. 14) atende os pressupostos de ruído branco gaussiano
com ausência de autocorrelação.
A capacidade preditiva do Arima (0,0,0) (0,1,0) com drift é apresentada na Figura 15:
Figura 15 – Valores previstos vs observados - Arima (0,0,0) (0,1,0)

com drift
O Arima apresentou uma boa capacidade de generalização, apresentando um MAPE
de 8,06% e MAE de R$1.498,98 na base de treino e na base de teste, apresentou MAPE de
5,84%, que em valor monetário representa um MAE de R$ 932,46. Vale observar que não há
valores para as primeiras 12 observações na base de treino, isso é devido a diferenciação
sazonal realizada nos dados.
No modelo de suavização exponencial, para a estimação das três constantes

suavizadoras, foi utilizado um algoritmo de otimização numérica, cujo a função objetivo é
minimizar o erro médio quadrático da série temporal. Os valores estimados pelo algoritmo
foram, 0,012 para o nível, 0,0001 para tendência e 0,0002 para sazonalidade.
As previsões obtidas pelo modelo estão apresentadas na Figura 16:
Figura 16 – Valores previstos vs observados – Suavização Exponencial

A Suavização Exponencial apresentou uma boa capacidade preditiva, apresentando
MAPE de 7,9% e MAE de R$1.517,29 na base de treinamento, e na base de teste apresentou
MAPE de 5,8%, e o MAE de R$927,98.
Para o treinamento da Rede Neural Artificial, dentre as diversas arquiteturas que foram
testadas, o modelo mais parcimonioso e que apresentou melhor resultado foi utilizando como
variáveis preditoras a própria série temporal com defasagens de 1 até 7, e uma defasagem
sazonal de lag 12, e na camada oculta dois neurônios artificiais.
Figura 17 – Arquitetura da Rede Neural Artificial utilizada
Os gráficos das previsões na base de treino e na base de teste estão apresentados na Figura
18:
Figura 18 – Valores previstos vs observados – Rede Neural Artificial

A Rede Neural Artificial foi o modelo que apresentou melhor MAPE e MAE na base
de treino, 5,8% e R$1.090,49 respectivamente, porém na base de teste a rede neural foi o
modelo que apresentou o pior desempenho com um MAPE de 9,16% e MAE de R$1.559,61.
A Rede Neural Artificial super ajustou na base de treino e não conseguiu capturar variações
suficientes nos dados para fazer boas previsões para períodos que extrapolem os contidos nos
dados de treinamento.
3.2 Vendas Diárias
3.2.1 Análise Exploratória
Para as vendas diárias, os dados são os mesmos que para os modelos de previsões de
vendas mensais, porém sem a agregação por mês.
Os dados de treino compreendem o período de 07/01/2013 até 31/07/2018, sendo que
08/2018 foi separado para teste.
A Figura 19 traz a representação gráfica da série temporal diária, a variabilidade é
muito maior e os padrões sazonais não estão claros como na série temporal mensal.
Figura 19 - Histórico de Vendas diárias de jan/2013 a jul/2017
Os dados diários apresentam uma variabilidade maior em relação aos dados mensais
pois durante o processo de agregação, parte da variabilidade ficou escondida no acumulado
do mês.
As estatísticas descritivas da série são:
Tabela 3 – Estatísticas descritivas das vendas diárias

Mínimo R$ 97,80
1º Quartil R$ 513,80
Mediana R$ 700,90
Média R$ 751,00
3º Quartil R$ 925,30
Máximo R$ 3483,2
Durante todo o período amostral, as vendas em reais variam entre R$ 97,80 e R$

3483,20 que se referem aos valores de mínimo e máximo respectivamente. O valor mediano
é R$ 700,00, ou seja, 50% das vendas mensais estão abaixo ou acima desse valor.
Figura 20 - Histograma de Vendas Diárias
O histograma (Fig. 20) se distribui em torno do seu valor médio, porém com bastantes outliers
a partir de R$ 2.000,00.
Figura 21 - Gráfico QQ Plot das vendas diárias

Através do gráfico QQ Plot (Fig. 21), fica nítida a presença dos outliers impactando
na normalidade dos dados. A hipótese de normalidade foi testada formalmente através do teste
Shapiro Wilk, e ao p valor ≅ 0, há evidências para rejeitar a hipótese de normalidade dos
dados.
Seg Ter Qua Quin Sex Sab
Figura 22 - Boxplot das vendas por dia da semana
O boxplot das vendas sugere que nas segundas, terças e quartas, há uma tendência
decrescente nas vendas. Na quinta as vendas voltam a subir atingindo o maior pico na sexta e
apresentam queda sábado em relação a sexta.
3.2.2 Apresentação dos modelos
Para modelar a regressão linear, como variáveis preditoras (explicativas) foram

utilizadas dummies para os meses, dummies para dias da semana, dummy para outliers e a
tendência linear. Foi considerado outlier vendas que estão acima do limite superior (3º Quartil
+ 1.5 IQR). O R2 obtido foi de 40,23%, ou seja, o modelo consegue explicar 40,23% da
variação das vendas diárias.
A regressão linear apresentou o MAPE de 35,55% na base de treino, em valores
monetários significa que ela errou em média R$209,14 nas previsões. Na base de teste o
MAPE foi de 35,97% e o MAE de R$ 230,72, o modelo não conseguiu capturar a variação do
outlier na primeira observação.
Para ajuste do modelo Arima, foi feita análise da função de autocorrelação e
autocorrelação parcial que estão apresentados na Figura 24.
Figura 24 - Autocorrelação e autocorrelação parcial das vendas
A Figura 25 apresenta a série temporal após uma diferenciação sazonal.
Figura 25 - Série temporal, ACF e PACF após uma diferenciação não sazonal
Entre os diversos modelos Sarima ajustados, o que foi mais parcimonioso e apresentou
melhor capacidade preditiva foi o Sarima (1,1,1) (1,0,1).
No diagnóstico dos resíduos (Fig. 26), os mesmos não apresentaram comportamento
de ruído branco gaussiano e apresentou autocorrelações significativas.
Figura 26 - Diagnóstico dos resíduos do Arima
A capacidade preditiva do Arima é apresentada na Figura 27:
Figura 27 – Valores previstos vs observados - Arima

(1,1,1) (1,0,1)
O MAPE e MAE obtidos foram de 32,15% e R$ 239,05 respectivamente, o Arima não
conseguiu capturar a variação da primeira observação na base de teste, obtendo MAPE de
50,28% e MAE de R$ 285,95.
Para o modelo de suavização exponencial, os valores estimados para as constantes

obtidos pelo algoritmo foram, 0,0787 para o nível, e 0,0005 para sazonalidade. As previsões
obtidas pelo modelo serão apresentadas na Figura 28:
Figura 28– Valores previstos vs observados – Suavização Exponencial
O modelo apresentou MAPE 32,47% na base de treino e MAE de R$ 241,28. Na base

de teste obteve MAPE de 49,84% e MAE de R$ 293,49, não capturou a forte variação na
primeira observação e capturou muito pouco das variações sazonais dos dias da semana.
Para o treinamento da Rede Neural Artificial, dentre as diversas arquiteturas testadas,

o modelo mais parcimonioso e que apresentou melhor resultado, foi utilizando como variáveis
preditoras a própria série temporal com defasagens de 1 até 5, e uma defasagem sazonal de
lag 6, e na camada oculta quatro neurônios artificiais (Fig. 29).
Figura 29 – Arquitetura da Rede Neural Artificial utilizada

O desempenho das previsões da rede neural é apresentado na Figura 30
Figura 30 – Valores previstos vs observados – Rede Neural

Artificial
A Rede Neural Artificial apresentou MAPE de 19,84% e MAE de R$ 127,20 na base
de treino e MAPE de 23,83% e MAE de R$ 159,42 na base de teste. O modelo conseguiu
capturar bem a variabilidade da primeira observação da base de teste bem como acompanhar
bem as variações sazonais dos dias da semana.
3.3 Resultados
Na Tabela 4 são apresentados de forma consolidada os resultados para as previsões

mensais.
Tabela 4 – Resumo dos modelos de previsão para os dados mensais

Base de Treino Base de Teste
Modelo Estatístico MAPE MAE MAPE MAE
Regressão Linear 7,64% R$ 1.465,80 6,30% R$ 1.031,56
Arima 8,06% R$ 1.498,98 5,84% R$ 932,46
Suavização Exponencial 7,90% R$ 1.517,29 5,80% R$ 927,98
Rede Neural Artificial 5,86% R$ 1.090,49 9,16% R$ 1.559,61
Dos quatro modelos matemáticos utilizados, a Rede Neural Artificial apresentou os

menores erros de previsões na base de treino, porém os maiores erros na base de teste, sinal
de que mesmo tomando todos os cuidados configurando a arquitetura da Rede, ela apresentou
super ajuste na base de treino e fraca capacidade de predizer períodos futuros.
Os outros três modelos, Regressão Linear, Arima e Suavização Exponencial,
apresentaram boa capacidade preditiva tanto na base de treino quanto na base de teste, sendo
a Suavização Exponencial o que apresentou o menor MAPE na base de teste.
Na Tabela 5 são apresentados de forma consolidada os resultados para as previsões

diárias.
Tabela 5 – Resumo dos modelos de previsão para os dados diários

Base de Treino Base de Teste
Modelo Estatístico MAPE MAE MAPE MAE
Regressão Linear 26,61% R$ 209,72 35,97% R$ 230,72
Arima 33,63% R$ 239,05 50,28% R$ 285,95
Suavização Exponencial 32,47% R$ 241,28 49,84% R$ 293,49
Rede Neural Artificial 19,84% R$ 127,20 23,83% R$ 159,42
Nas previsões diárias, a Rede Neural Artificial foi o modelo que apresentou menores
erros de previsões na base de treino, e também foi o que apresentou os menores erros de
previsões na base de teste, comprovando assim sua capacidade de extrapolar períodos
temporais que não estão contidos nos dados de treino.
Os outros três modelos estatísticos, Regressão Linear, Arima e Suavização

Exponencial não apresentaram capacidade preditiva satisfatória nos dados diários, não se
ajustaram bem aos dados de treino e consequentemente não apresentaram capacidade de
prever períodos temporais fora dos dados de treino.
4. CONCLUSÃO
Os resultados mostraram como diferentes modelos matemáticos podem apresentar

performances diferentes quando os dados mudam a granularidade.
Para a série temporal mensal, onde os padrões de sazonalidade e a tendência são mais
claros, e o objetivo era prever seis meses de vendas no futuro, com exceção da Rede Neural,
a Regressão Linear, Arima e a Suavização Exponencial apresentaram ótimas previsões para
meses futuros fora da base de treino, o MAPE obtido nos dados de teste foi de 6,30%, 5,84%
e 5,80% respectivamente, e a Rede Neural Artificial foi que apresentou o pior MAPE nos
dados de teste 9,16%.
Para a série temporal diária, onde a variabilidade é muito maior, e o objetivo era prever
30 dias de vendas no futuro, os modelos matemáticos se comportaram diferente em relação
aos dados mensais.
A Rede Neural Artificial foi o modelo que apresentou o menor MAPE nos dados de
teste, que foi de 23,83%, e a Regressão Linear, Arima e Suavização Exponencial apresentaram
MAPE nos dados de teste de 35,97%, 50,28% e 49,84% respectivamente.
Com os resultados dos experimentos, conclui-se que a Rede Neural Artificial

trabalhou melhor quando houve maior quantidade de dados para seu treinamento e que
dependendo da arquitetura configurada pelo pesquisador, pode se super ajustar facilmente a
base de treino, obtendo um excelente MAPE porém perdendo a capacidade de extrapolação
para os períodos temporais futuros que não estão na base de treino.
Apesar de que o fato de identificar uma boa arquitetura para a Rede Neural não ser
algo simples, identificar a melhor ordem de p, d e q para um modelo Arima bem como
identificar as constantes suavizadoras otimizadas para usar na Suavização Exponencial
também não é algo simples. Portanto, em relação a complexidade de modelagem, a Rede
Neural Artificial não foi tão mais complexa de se modelar em relação aos outros dois modelos
citados.
Para experimentos futuros, poderão ser testado outros modelos matemáticos de

aprendizagem de máquina, como Random Forest e Gradient Boosting Machine, que possuem
o processo de treinamento bastante diferente da Rede Neural Artificial e são bons candidatos
a apresentarem boa capacidade preditiva.
5. BIBLIOGRAFIA
Box, G. E., Jenkins, G. M., & Reinsel. (2008). Time Series Analysis: Forecasting and Control.
Hoboken, New Jersey: John Wiley & Sons, Inc.
Braga, A. d., Carvalho, A. P., & Ludermir, T. B. (2007). Redes Neurais Artificiais Teoria e
Aplicações. Rio de Janeiro: LTC - Livros Técnicos e Científicos Editora.
Hanck, H., Arnold, M., Gerber, A., & Schmelzer, M. (19 de 12 de 2018). Introduction to
Econometrics with R. Essen, German.
Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and Practice.

Melbourne, Australia, Australia: OTexts.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2009). An introduction to Statistical
Learning. New York: Springer.
Montgomery, D. C., & Runger, G. C. (2003). Estatística Aplicada e Probabilidade para

Engenheiros. Rio de Janeiro: LTC.
Morettin, P. A., & Toloi, C. M. (2006). Análise de Séries Temporais. São Paulo: Editora
Edgard Blucher Ltda.
Porter, D. C., & Gujarati, D. N. (2011). Econometria Básica. Porto Alegre: AMGH Editora
Ltda.
Smailes, J., & McGrane, A. (2012). Estatística Apicada à Administração. São Paulo: Editora
Atlas S.A.

Tccmaironchavesvfinal 200629025941

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tccmaironchavesvfinal 200629025941

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE MINAS GERAIS

MÁIRON CÉSAR SIMÕES CHAVES

O USO DE APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE

BELO HORIZONTE, 2019

O USO DE APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE

ORIENTADOR: PROF. DR. MARCOS PRATES

O presente estudo apresentará modelos de previsões de vendas do departamento de Pesca e

Palavras Chave: Previsão de Vendas, Varejo, Aprendizagem de Máquina, Séries

FIGURA 1 – Passeio aleatório sem deslocamento e passeio aleatório com deslocamento......10

TABELA 1 - Padrões teóricos das Acf e Pacf ......................................................................19

2.1.2 Processos Estocásticos Estacionários ........................................................................................ 10

2.1.3 Tendência .............................................................................................................................. 12

2.1.4 Sazonalidade ......................................................................................................................... 13

2.2 Regressão Linear .......................................................................................................................... 13

2.2.2 Regressão Linear Simples e Múltipla ...................................................................................... 14

2.2.3 Mínimos Quadrados Ordinários ............................................................................................. 15

2.2.4 O Coeficiente R2.................................................................................................................... 15

2.3 Suavização Exponencial .............................................................................................................. 16

2.3.2 Suavização Exponencial para Séries Localmente Constantes ............................................... 16

2.3.3 Suavização Exponencial para Séries com Tendência............................................................ 17

2.3.4 Suavização Exponencial para Séries com Tendência e Sazonalidade...................................... 17

2.4.2 Processo Autoregressivo ........................................................................................................ 18

2.4.3 Processo de Médias Móveis .................................................................................................. 19

2.4.4 Processo Autoregressivo Integrado de Médias Móveis.......................................................... 19

2.4.5 Identificação do modelo Arima ................................................................................................ 19

2.4.6 Modelo Arima considerando sazonalidade, o modelo Sarima .............................................. 20

2.5 Redes Neurais Artificiais ............................................................................................................ 21

2.5.2 Conceitos .................................................................................................................................... 22

2.5.3 Gradiente Descendente............................................................................................................ 23

2.6 Medidas de acurácia ......................................................................................................................... 23

3.1.2 – Apresentação dos modelos ...................................................................................................... 26

3.2 Vendas Diárias ................................................................................................................................. 31

3.2.2 Apresentação dos modelos ......................................................................................................... 33

3.3 Resultados ........................................................................................................................................ 37

Se tratando do segmento de pesca, o mercado está sujeito a sazonalidades, como o

Entre os modelos de previsões de vendas apresentados neste estudo, serão comparadas

2.1 Séries Temporais

Uma série temporal é um processo estocástico que evolui no tempo, conforme é um

2.1.2 Processos Estocásticos Estacionários

Um processo estocástico será considerado estacionário quando sua média e variância

Variância: var(𝑌𝑡 ) = ơ2 = E(𝑌𝑡 − µ)2

Em que γk é a covariância da série temporal com ela mesma defasada no instante k,

Figura 2 – Tendência linear

em que β0 é o coeficiente linear, ou seja, é onde a reta intersecta o eixo Y, β1 é o coeficiente

Figura 3 – Tendência polinomial

A tendência polinomial apresentada na Figura 3 pode ser representada pela equação:

Na tendência exponencial apresentada na Figura 4 o coeficiente angular e a variável

para estimar o coeficiente de intersecção 𝛽0 da equação da tendência exponencial deve-se

A sazonalidade é um fenômeno que ocorre regularmente dentre um determinado

No mundo empresarial, podemos definir a sazonalidade como todo e qualquer

2.2 Regressão Linear

onde β0 é o termo de intercepto, em outras palavras, é o valor de Y quando X = 0, β1 é a

Os coeficientes angulares β que compõem a equação da regressão, fazem com que

onde Y é um vetor n x1 contendo os valores de Y da amostra, X é uma matriz n x k sendo

𝑦1 1 𝑋21 𝑋31 ⋯ 𝑋𝑘1 β1 ɛ1

Utilizando um exemplo hipotético, pode-se querer explicar Y = Volume de Vendas

Y = 6,80 + (- 0,73*Preço Praticado) + (0,61*Preço Produto Substituto) +

Uma consideração importante é que para incluir a variável Promoção no modelo,

Interpretando a equação temos que:

2.2.3 Mínimos Quadrados Ordinários

Os coeficientes angulares da Regressão Linear podem ser estimados através do

𝑆𝑄𝐸 = 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 ∑(ε𝑖 ) = ∑[𝑦𝑖 − (β̂0 + β̂𝑝 𝑥𝑖 )]2

A estimação para o vetor de parâmetros desconhecidos β em notação matricial

Y = 6,80 + (- 0,73Preço Praticado) + (0,61Preço Produto Substituto) +