Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumário:
1. Introdução
1.1 Previsões de longo, médio e curto prazo
1.2 Métodos qualitativos e quantitativos
1.3 Etapas de um processo de previsão
2. Regressão linear
2.1 Regressão linear simples
2.2 Qualidade do ajuste
2.3 Regressão linear múltipla
3. Séries temporais
3.1 Padrões regulares e irregulares
3.2 Demanda independente e dependente
3.3 Previsão e medidas de erros de previsão
9. Exercícios
1. Introdução
Previsão (forecasting) basicamente é o processo de prever eventos futuros; é uma tentativa de
determinar a priori os valores futuros mais prováveis de uma variável (aleatória) de interesse,
conforme comentado no Capítulo 1. Problemas de previsão são importantes em diversas áreas,
incluindo negócios, indústria, governo, economia, ciências do ambiente, medicina, ciências
sociais, política e finanças.
Estas previsões em geral são realizadas em conjunto com as áreas comerciais de vendas e de
marketing das empresas que, assim com as áreas de produção e logística, também têm grande
interesse em boas previsões de demanda. Alguns exemplos de problemas de produção e
logística que dependem destas previsões são: localização e dimensionamento de facilidades e
instalações (e.g., plantas, centros de distribuição e armazéns), controle de estoques e seus
posicionamentos na rede, planejamento agregado da produção e logística, dimensionamento
de lotes de produção e sequenciamento desses lotes numa linha de produção, programação de
transportes (e.g., programação de embarques e roteirização de veículos), alocação de recursos
ao longo da cadeia de suprimentos (e.g., alocação da frota de veículos na rede), etc.
Além da demanda dos clientes, outros exemplos de variáveis de interesse para produção,
logística e marketing, são: leadtimes e prazos de entrega, preços e disponibilidades de
matérias-primas, custos de mão de obra, necessidades de capacidade, cargas de trabalho,
fluxos de caixa, taxas de juros, etc. Empresas têm se beneficiado ao fazerem boas previsões
dos valores futuros destas variáveis, mas também têm pagado altos preços ao fazerem
Embora o material deste capítulo se aplique para previsão de qualquer uma destas variáveis de
interesse em produção e logística, a ênfase é na previsão da demanda de um produto ou
serviço. No caso de atividades de produção, o foco da previsão quando utilizada para apoiar
decisões no planejamento e controle da produção em geral é na natureza temporal da demanda
(i.e., qual a demanda em cada período). Mas nas atividades logísticas, que fazem a ligação
entre os centros de produção e os mercados, em geral separados pela distância e pelo tempo, a
previsão de demanda também deve abranger a natureza espacial da demanda (i.e., qual a
demanda em cada região). Neste caso, duas possíveis abordagens podem ser aplicadas para
prever a distribuição espacial da demanda: de cima para baixo (top-down) ou de baixo para
cima (bottom-up). Na primeira, inicialmente a demanda total é prevista (previsão agregada) e
depois desagregada para cada região, enquanto que na segunda, a demanda de cada região é
prevista (previsão desagregada) e depois agregada, se necessário.
O termo previsão (forecasting) refere-se à estimativa “objetiva”, que envolve analisar dados
passados (quando disponíveis) e projetá-los no futuro usando principalmente modelos
matemáticos e estatísticos. Supõe-se que o comportamento passado das variáveis seja
relevante para prever os valores futuros destas e de outras variáveis. A partir de um conjunto
de dados históricos disponíveis, fazem-se inferências sobre os valores futuros das variáveis.
(i) Estimativas da equipe de vendas e de especialistas: estas estimativas são combinadas por
região geográfica, família de produtos, entre outros. Elas exploram a experiência e a
proximidade dos vendedores junto aos clientes. Especialistas também podem ser consultados
para se chegar a um consenso quando não há dados históricos suficientes (e.g., vendas futuras
de novos produtos).
(ii) Pesquisas de mercado (opinião): surveys, entrevistas, questionários, etc., são aplicados
junto aos clientes e as informações obtidas são compiladas e analisadas. Em geral consomem
bastante tempo e recursos, e requerem cuidados estatísticos com os procedimentos de
amostragem envolvidos.
(iii) Método Delphi: assim chamado por causa do antigo oráculo grego que supostamente
tinha o poder de prever o futuro, talvez seja o método qualitativo mais formal e mais bem
conhecido. Utiliza um grupo de especialistas que, numa primeira fase, é separado fisicamente
para evitar que opiniões individuais ou de formadores de opinião influenciem a opinião de
todo grupo. Cada especialista responde um questionário contendo uma série de questões e
retorna as informações para um coordenador, que depois compila e distribui novamente estas
informações para o grupo, para que cada um revise e reavalie suas previsões com base nas
previsões dos outros. Depois de várias iterações, espera-se que as previsões dos especialistas
convirjam para um consenso, embora isso não seja um requisito do método.
Em muitos casos estes métodos podem ser úteis para prever boa parte da demanda. Para isso,
a demanda precisa mostrar certo grau de regularidade; por exemplo, quando os padrões da
demanda se mantêm quase os mesmos no futuro, ou quando eles dependem fortemente de
valores passados de outras variáveis. Nestes casos diz-se que a demanda é regular. Padrões
com tendências, ciclos e variações sazonais podem estar presentes e ajudar no processo de
previsão.
1
Alguns autores dividem as abordagens quantitativas de previsão em: (i) métodos baseados em regressão
(métodos causais), (ii) métodos de suavização heurísticos e (iii) modelos de séries temporais genéricos; veja, por
exemplo, Montgomery et al. (2008).
emanas
Figura 1 – Exemplo de uma série temporal (Montgomery et al., 2008, p.6)
em que 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑇 são as demandas do produto nos períodos anteriores 𝑡 − 1, 𝑡 − 2,
… , 𝑡 − 𝑇. Devido a modelos serem representações simplificadas da realidade, o termo de erro
ou desvio 𝜀 é incluído na função 𝑓 para representar variações aleatórias na demanda 𝑦𝑡 que
não são consideradas apenas pelas variáveis 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑇 , em 𝑓. Métodos de séries
temporais tentam separar e reduzir o componente de desvio 𝜀 da função 𝑓, para que o modelo
possa ser utilizado para previsão.
Estes métodos são mais comumente usados para aplicações de curto a médio prazo, por
exemplo, em planejamento, programação e controle de operações dos próximos capítulos
deste livro. Podem ser aplicados tanto em séries temporais estacionárias quanto não
estacionárias (com tendência, sazonalidade, etc.), a serem discutidas na Seção 4, Seção 5 e
Seção 6. Alguns exemplos são: métodos de média móvel, técnicas de suavização exponencial,
regressão linear, decomposição de séries temporais, métodos Bayesianos e métodos baseados
nos modelos de Box-Jenkins.
(ii) Métodos causais: também chamados de métodos explanatórios, usam dados de outras
fontes além das séries temporais, ligando outras variáveis. Estes métodos admitem que a
variável a ser prevista exibe uma relação explanatória com uma ou mais variáveis, e tentam
descrever relações causais (ou explanatórias) entre as variáveis. Por exemplo, se o nível de
serviço ao cliente está diretamente relacionado com as vendas dos produtos, então diz-se que
o nível de serviço “causa” (ou “explica”) vendas.
𝑦 = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , 𝜀)
em que, como modelos não são exatos, o termo de desvio 𝜀 representa mudanças aleatórias na
demanda 𝑦 que não são levadas em conta pelas variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , da função 𝑓. Métodos
causais tentam reduzir o componente de desvio aleatório 𝜀 da função 𝑓, para que o modelo
possa ser utilizado para previsão. Note que, diferente dos métodos de séries temporais, os
métodos causais não são necessariamente dependentes do tempo (por exemplo, se os dados de
todas as variáveis 𝑥1 , 𝑥2 , . .., 𝑥𝑚 , referem-se ao mesmo período de tempo).
Estes métodos são mais comumente usados para previsões de médio a longo prazo, mas
também podem ser aplicados para previsão de curto prazo em certos casos. Alguns exemplos
são métodos baseados em regressão (linear e não linear, simples e múltipla) e modelos
econométricos, métodos de entrada e saída, análises de ciclo de vida de produtos, simulação
computacional e redes neurais. Embora também seja possível combinar métodos de séries
temporais com métodos causais, isto não será discutido neste capítulo.2
Conforme alguns surveys realizados nos EUA e Europa, os métodos quantitativos mais
utilizados para previsões de curto e médio prazo são: média móvel, regressão linear,
suavização exponencial, decomposição da série temporal e métodos baseados nos modelos de
Box-Jenkins.3
Nosso enfoque neste capítulo é nos métodos de previsão quantitativos para apoiar decisões
principalmente de curto e médio prazo. Conforme apontado por vários autores, algumas
observações importantes sobre estes métodos são:4
Quanto mais longo o horizonte de tempo, em geral menor a precisão da previsão: por
exemplo, prever a demanda de um serviço logístico para a semana seguinte pode ser mais
preciso do que para algumas semanas adiante. Isto porque quanto maior o horizonte de tempo,
maior é a probabilidade de eventos inesperados.
Uma boa previsão é mais do que um simples número: em geral não é suficiente apenas
estimar a demanda média (estimativa pontual), mas também determinar quanto incerta é a sua
previsão. Em geral esta estimativa pontual não coincide com a observação futura, e por isso
precisa-se ter um bom conhecimento da magnitude dos erros de previsão. Consequentemente,
também é necessário estimar a extensão da variabilidade da demanda (por meio de intervalos
de previsão) e as medidas de erros da previsão.
2
Para mais detalhes de como combinar métodos de series temporais e métodos causais, veja, por exemplo,
Makridakis et al. (1998).
3
Veja, por exemplo, a discussão em Ghiani et al. (2004).
4
Veja, por exemplo, Makridakis et al. (1998), Montgomery et al. (2008) e Nahmias (2009).
Isto pode ser explicado pelo seguinte argumento. Suponha que as demandas de n produtos são
representadas pelas variáveis aleatórias independentes e identicamente distribuídas
𝑥1 , 𝑥2 , … , 𝑥𝑛 , com cada demanda 𝑥𝑖 com média 𝐸(𝑥𝑖 ) = 𝑥̄ e variância 𝑉(𝑥𝑖 ) = 𝜎𝑥2 . Note que a
demanda agregada (soma destas variáveis aleatórias):
𝑦 = 𝑥1 + 𝑥2 +. . . +𝑥𝑛
tem média 𝐸[𝑦] = 𝑦̄ = 𝑛𝑥̄ e variância 𝑉[𝑦] = 𝜎𝑦2 = 𝑛𝜎𝑥2 . Portanto, o coeficiente de variação
da demanda agregada 𝑦 (i.e., a razão entre o desvio padrão e a média de 𝑦), que indica a
dispersão relativa de 𝑦 em relação à sua média, é:
𝜎𝑦 √𝑛𝜎𝑥2 1 𝜎𝑥
= =
𝑦̄ 𝑛𝑥̄ √𝑛 𝑥̄
ou seja, bem menor (i.e., 1/√𝑛) do que o coeficiente de variação de cada produto 𝜎𝑥 /𝑥̄ . Em
outras palavras, quanto maior o número de clientes e produtos envolvidos, menor é o efeito
das forças aleatórias e maior é a precisão e confiabilidade das previsões.
Previsões não devem ser usadas sem considerar informação presente: por exemplo, os dados
históricos de vendas de um produto não levam em conta as promoções de vendas que a
empresa (ou a empresa concorrente) está planejando para este produto. Nestes casos, estas
informações devem ser consideradas de alguma forma junto com as previsões geradas pelo
método quantitativo, para alterar apropriadamente as estimativas de vendas do produto, ou
mesmo até substituí-las.
Previsões manuais também devem ser consideradas em outras situações, como, por exemplo,
mudanças nos preços dos produtos, alterações na legislação e novos produtos competindo no
mercado.
5
Exemplos destas técnicas estão apresentados em Nahmias (2009).
A resposta desta pergunta não é óbvia. Em alguns casos, medir a quantidade agregada é mais
preciso (e menos dispendioso) do que medir as quantidades desagregadas, e a abordagem de
cima para baixo pode ser preferível. Em outros casos, as quantidades desagregadas são mais
fáceis de serem obtidas e estão sujeitas a menores erros de medição, o que favorece a
abordagem de baixo para cima.
(i) Definição do problema de previsão: envolve definir, entre outros, as variáveis de interesse
e o horizonte de previsão. Esta é uma etapa importante porque se as variáveis de interesse não
forem identificadas corretamente, as etapas seguintes serão afetadas. Em geral o horizonte de
previsão é dividido em um número finito de períodos e todos os períodos têm a mesma
duração (e.g., períodos diários, semanais, mensais, anuais, etc.). Nos casos de previsão de
demanda de múltiplos produtos (ou famílias de produtos) e múltiplas regiões, envolve também
decidir o nível de agregação das previsões.
(ii) Coleta de dados: consiste em obter dados históricos relevantes para as variáveis de
interesse, incluindo também, no caso de métodos causais, informações e dados históricos para
as variáveis causais destes métodos.
(iii) Análise de dados: é uma etapa intermediária importante para auxiliar na seleção do
método de previsão. Envolve a compilação de estatísticas dos dados históricos (e.g., médias,
desvios padrões, valores mínimos e máximos, etc.) e construção de gráficos para investigar
visualmente possíveis padrões das séries temporais, como tendências, sazonalidade, ciclos
(não necessariamente sazonais, tais como ciclos econômicos), etc. Podem envolver
transformações matemáticas dos dados (e.g., por meio do cálculo de logaritmos e raízes
quadradas dos valores originais, para estabilizar as variações dos dados) e ajustes dos dados
devido aos efeitos de calendário e mudanças na população e inflação (para corrigir variações
do número de dias em cada mês). Note, por exemplo, que a diferença de dias entre janeiro e
fevereiro (de um ano não bissexto) pode ter um efeito importante nos dados: (31 − 28)⁄30 =
10%.
6
Veja, por exemplo, Makridakis et al. (1998) e Montgomery et al. (2008).
O restante deste capítulo está separado em três partes. Na Parte I, apresenta-se resumidamente
métodos causais baseados em regressão linear. Na Parte II, apresenta-se diversos métodos
baseados em séries temporais. Na Parte III, discute-se outros métodos de previsão que
também podem ser vistos como métodos de séries temporais e métodos causais, e também se
apresenta algumas técnicas de validação e monitoramento dos métodos.
Uma vantagem dos métodos causais é suas habilidades para antecipar variações no padrão da
variável dependente (e.g., da demanda). Por outro lado, uma desvantagem destes métodos é a
dificuldade para se identificar as variáveis causais mais relevantes.
2. Regressão linear
Métodos causais utilizam principalmente técnicas de regressão, em geral, regressão linear.
Sejam:
7
Alguns autores preferem fazer distinções entre correlação e relação de causa-efeito - duas variáveis x e y podem
estar altamente correlacionadas positivamente, embora um aumento no valor de x não necessariamente “cause”
um aumento no valor de y; veja, por exemplo, Makridakis et al. (1998).
𝑦 = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , 𝜀)
em que o termo de desvio 𝜀 representa mudanças aleatórias na demanda y que não são levadas
em conta pelas variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , da função 𝑓. Em geral 𝜀 é considerado como um erro
estatístico (também chamado de flutuação ou ruído aleatório), suposto com média 𝐸[𝜀] = 0 e
variância constante 𝑉[𝜀] = 𝜎𝜀2 . Nos casos em que a função f é linear, esta também é chamada
de modelo econométrico:8
𝑦 = 𝑤0 + 𝑤1 𝑥1 + 𝑤2 𝑥2 +. . . +𝑤𝑚 𝑥𝑚 + 𝜀 (1)
onde 𝑤0 , 𝑤1 , . . . , 𝑤𝑚 são constantes (pesos) a serem estimadas, em geral por regressão linear e
pelo critério dos mínimos quadrados9, conforme discutido a seguir.
𝑦 = 𝑎 + 𝑏𝑥 + 𝜀 (2)
Note que 𝜀 é o desvio aleatório entre a variável dependente y e a reta 𝑎 + 𝑏𝑥 em (2), em que a
é o intercepto e b é a inclinação da reta.
Por conveniência, admita que dispõe-se de dados observados das variáveis x e y nos últimos T
períodos, diga-se os pares: (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ).10 Sejam 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 os desvios
correspondentes entre cada valor observado da variável dependente 𝑦𝑡 e cada valor da reta
𝑎 + 𝑏𝑥𝑡 nos períodos 𝑡 = 1, 2, . . . , 𝑇, ou seja:
𝜀𝑡 = 𝑦𝑡 − (𝑎 + 𝑏𝑥𝑡 ), com 𝑡 = 1, 2, . . . , 𝑇
8
Em geral, modelos econométricos envolvem as previsões de várias variáveis dependentes relacionadas com
diversas variáveis causais (explanatórias), e, em alguns casos, deseja-se fazer previsões também de algumas das
variáveis causais. Tais modelos resultam em sistemas de equações lineares, ao invés de uma única equação linear
conforme (1), que devem ser resolvidos simultaneamente por envolverem variáveis interdependentes.
9
Esta abordagem baseada em mínimos quadrados foi desenvolvida por Gauss há cerca de dois séculos e é uma
das mais utilizadas na estatística clássica.
10
Por conveniência, admite-se que os dados das variáveis x e y foram observados nos últimos T períodos.
Conforme mencionado anteriormente, os métodos causais não são necessariamente dependentes de séries
temporais e pode-se ter situações em que todos os T dados observados das variáveis x e y independem do tempo
(por exemplo, 𝑥𝑡 e 𝑦𝑡 referem-se, respectivamente, às temperaturas de diferentes regiões e às demandas de
sorvetes destas diferentes regiões 𝑡 = 1, 2, … , 𝑇, ao invés de diferentes períodos).
( +
1 2 3
Figura 2 – Desvios aleatórios entre valores das observações e da reta
Deseja-se determinar os valores de 𝑎̂ e 𝑏̂ que minimizam 𝑔(𝑎, 𝑏), ou seja, que melhor ajustam
a reta 𝑎 + 𝑏𝑥 em (2), baseados nos dados observados 𝑥1 , 𝑥2 , . . . , 𝑥𝑇 da variável independente x
e nos dados observados 𝑦1 , 𝑦2 , . . . , 𝑦𝑇 da variável dependente y. Note que 𝑎̂ e 𝑏̂ denotam as
estimativas dos parâmetros (desconhecidos) a e b da reta em (2), respectivamente.
cuja solução, após alguma manipulação algébrica11, resulta no melhor ajuste da reta 𝑎 + 𝑏𝑥
em (2), dado por:
𝑎̂ = 𝑦̄ − 𝑏̂𝑥̄ (3a)
𝑇 ∑𝑇𝑡=1 𝑥𝑡 𝑦𝑡 − ∑𝑇𝑡=1 𝑥𝑡 ∑𝑇𝑡=1 𝑦𝑡
̂
𝑏= (3b)
𝑇 ∑𝑇𝑡=1 𝑥𝑡2 − (∑𝑇𝑡=1 𝑥𝑡 )2
11
Veja, por exemplo, Nahmias (2009).
Pode ser mostrado que a solução (3) corresponde à mínima soma dos desvios quadráticos (em
função da análise das derivadas segundas da função g).12 Portanto, o modelo de previsão (com
base nas T observações) é:
𝑦̂ = 𝑎̂ + 𝑏̂𝑥 (4)
onde 𝑦̂ é a estimativa de y para um dado valor de x. Pode ser interpretado como o valor
esperado de y em (2), ou seja, 𝐸[𝑦] = 𝐸[𝑎 + 𝑏𝑥 + 𝜀] = 𝑎̂ + 𝑏̂𝑥 = 𝑦̂, dado que foi admitido
que 𝐸[𝜀] = 0. Note que esta estimativa é resultado da simples aplicação do critério de
mínimos quadrados sobre as T observações (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ).
Para avaliar a precisão deste método de previsão, define-se o erro de previsão (também
chamado de resíduo) do modelo (4) como:
Exemplo 1:13 Um corretor de imóveis está tentando prever sua receita no ano. Em anos
anteriores, ele observou que sua receita é aproximadamente proporcional ao número de casas
vendidas no seu território. Além disso, ele também observou que existe uma relação direta
entre o número de casas vendidas e as taxas de juros para financiamento de casas.
m simples modelo causal para este caso pode ser: taxa de juros “causa” venda de casas.
Pode-se defini-lo como a reta em (2), em que y é número de casas vendidas no ano (variável
dependente), e x é a taxa de juros no ano (variável independente).
Considere que o corretor dispõe de T dados passados (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ), e que ao
substituir estes dados nas expressões de regressão linear para 𝑎̂ e 𝑏̂ definidas em (3), o
corretor obteve: 𝑎̂ = 386 e 𝑏̂ = −1878.
Então, se a taxa de juros no ano corrente for 10% (i.e., 𝑥 = 0,10), a estimativa de y em (4)
resulta em:
Considere que neste ano corrente, o corretor venderá 210 casas, isto é, o valor observado de y
será 210. Logo, o erro de previsão do modelo dado por (5) será:
12
Veja, por exemplo, Makridakis et al. (1998) e Montgomery et al. (2008).
13
Este exemplo foi inspirado num exemplo em Ballou (2004).
Convém observar que o modelo 𝑦 = 𝑎 + 𝑏𝑥 é linear na variável x, isto é, dados valores para
os parâmetros a e b, diga-se 𝑎 = 1 e 𝑏 = 2, então y é uma função linear de x: 𝑦 = 1 + 2𝑥. Por
outro lado, o modelo 𝑦 = 𝑎 + 𝑏𝑥 2 não é linear na variável x (no caso, é quadrático). No
entanto, modelos não lineares nas variáveis também podem ser tratados por regressão linear,
aplicando-se o mesmo critério de mínimos quadrados conforme acima – isso está discutido na
Seção 7.2.
Por exemplo, considere que se deseja determinar os parâmetros a e b do modelo não linear:
𝑦 = 𝑎𝑏 𝑥
para ajustá-lo aos dados passados observados. Aplicando-se o logaritmo nos dois lados desta
expressão, obtém-se:
𝑦 = 𝑎𝑥 𝑏
A análise de regressão linear pode ser facilmente realizada por meio de planilhas eletrônicas
(e.g., Excel e outras) ou pacotes estatísticos, como Minitab, SAS, SPSS, R, Statistica, etc.
∑ 𝑒𝑡 = ∑(𝑦𝑡 − 𝑦̂𝑡 )
𝑡=1 𝑡=1
𝑆𝑆𝑇 = ∑(𝑦𝑡 − 𝑦̄ )2
𝑡=1
𝑇
𝑆𝑆𝑅 = ∑(𝑦̂𝑡 − 𝑦̄ )2
𝑡=1
𝑇 𝑇
Pode ser mostrado que, para uma previsão baseada em regressão linear ajustada por quadrados
mínimos, tem-se que (veja Exercício 2 da lista no final deste capítulo):14
Note que se todas as observações 𝑦𝑡 estiverem sobre a reta de regressão linear (4), então o
ajuste da reta é perfeito e a soma dos quadrados dos erros de previsão é 𝑆𝑆𝐸 = 0. Logo, para
ter-se um bom ajuste, SSE deve ser pequeno; consequentemente, SSR deve ser próximo de
SST. O coeficiente de determinação R2 é definido como:
2
𝑆𝑆𝑅 ∑𝑇𝑡=1(𝑦̂𝑡 − 𝑦̄ )2
𝑅 = = (6)
𝑆𝑆𝑇 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̄ )2
Assim, valores de 𝑟𝑥𝑦 próximos de +1 indicam uma forte relação linear positiva entre x e y,
valores de 𝑟𝑥𝑦 próximos de -1 indicam uma forte relação linear negativa entre x e y, e valores
de 𝑟𝑥𝑦 próximos de 0 indicam uma fraca relação linear entre x e y. A Figura 3 ilustra gráficos
entre x e y com diferentes valores de coeficientes de correlação 𝑟𝑥𝑦 .
15
Outra maneira de computar rxy é pela razão da covariância de x e y e do produto dos desvios padrões de x e y;
veja, por exemplo, Makridakis et al. (1998).
orrelação , orrelação ,
orrelação , orrelação ,
orrelação , orrelação ,
orrelação , orrelação ,
𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 +. . . +𝑏𝑚 𝑥𝑚 + 𝜀 (7)
Um exemplo poderia ser a previsão do consumo y de uma bebida num determinado período e
numa determinada região, em função de certas condições meteorológicas, como índice da
temperatura 𝑥1 , índice pluviométrico 𝑥2 , nebulosidade de céu ou quantidade de luz 𝑥3 , etc.,
para auxiliar nas decisões de estocagem nesta região.
O mesmo raciocínio desenvolvido para regressão linear simples na Seção 2.1 pode ser aqui
estendido para regressão linear múltipla. Admita que dispõe-se de dados observados das
variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 e y nos últimos T períodos, diga-se: (𝑥11 , 𝑥21 , . . . , 𝑥𝑚1 ; 𝑦1 ),
(𝑥12 , 𝑥22 , . . . , 𝑥𝑚2 ; 𝑦2 ) , ..., (𝑥1𝑇 , 𝑥2𝑇 , . . . , 𝑥𝑚𝑇 ; 𝑦𝑇 ).
Seja a função:
𝑇 𝑇 𝑚 2
cuja solução resulta no melhor ajuste do modelo (7) (i.e., mínima soma dos desvios
quadráticos). Estas equações são chamadas de equações normais de mínimos quadrados. Após
alguma manipulação algébrica16, elas podem ser escritas em forma matricial como:
1 1 ... 1 𝑎̂ 𝑦1
𝑥 𝑥12 . . . 𝑥1𝑇 ̂
𝑏 𝑦2
em que: 𝑋 = [ 11 ] 𝐴̂ = [ 1 ] 𝑌=[ ⋮ ]
⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑚1 𝑥𝑚2 . . . 𝑥𝑚𝑇 ̂
𝑏𝑚 𝑦𝑇
Exemplo 3:17 Para se estimar a viscosidade de um polímero (variável dependente y), pode-se
relacioná-la com 𝑚 = 2 variáveis causais (explanatórias): a temperatura de reação (variável
independente x1) e a taxa de alimentação do catalisador (variável independente x2). O modelo
de previsão (9) utilizando regressão linear múltipla é definido por:
16
Isso é feito escrevendo a soma dos mínimos quadrados como (𝑌 − 𝑋′𝐴̂)(𝑌′ − 𝐴̂′𝑋) e derivando essa expressão
com relação à 𝐴̂ para obter (𝑋𝑋′)𝐴̂ = 𝑋𝑌; veja, por exemplo, Johnson e Montgomery (1974) e Montgomery et
al. (2008).
17
Este exemplo foi inspirado num exemplo apresentado em Montgomery (2005, p.378).
onde 𝑎̂, 𝑏̂1 , 𝑏̂2 são as estimativas dos parâmetros 𝑎, 𝑏1 , 𝑏2 . Com base em 𝑇 = 16 observações
passadas (𝑥11 , 𝑥21 ; 𝑦1 ), (𝑥12 , 𝑥22 ; 𝑦2 ), ..., (𝑥1𝑇 , 𝑥2𝑇 ; 𝑦𝑇 ) destas variáveis, a matriz transposta
𝑋′ com dimensão 𝑇 = 16 por 𝑚 + 1 = 3 e o vetor 𝑌 com dimensão 𝑇 = 16 por 1 resultaram
em:
1 𝑥11 𝑥21
1 𝑥12 𝑥22 1 80 8 𝑦1 2256
1 𝑥13 𝑥23 1 93 9 𝑦2 2340
1 𝑥14 𝑥24 1 100 10 𝑦3 2426
1 𝑥15 𝑥25 1 82 12 𝑦4 2293
1 𝑥16 𝑥26 1 90 11 𝑦5 2330
1 99 8 𝑦6 2368
1 𝑥17 𝑥27
1 81 8 𝑦7 2250
1 𝑥18 𝑥28 𝑦8
𝑋′ = 1 1 96 10 = 2409
𝑥19 𝑥29 = 1 94 12
𝑌=
𝑦9 2364
1 𝑥1,10 𝑥2,10 1 93 11 𝑦10 2379
1 𝑥1,11 𝑥2,11 1 97 13 𝑦11 2440
1 𝑥1,12 𝑥2,12 1 95 11 𝑦12 2364
1 𝑥1,13 𝑥2,13 1 100 8 𝑦13 2404
1 85 12 𝑦14 2317
1 𝑥1,14 𝑥2,14 𝑦15 2309
1 86 9
1 𝑥1,15 𝑥2,15 [1 [𝑦16 ] [2328]
87 12 ]
[1 𝑥1,16 𝑥2,16 ]
Fazendo-se o produto das matrizes 𝑋 (com dimensão 3 por 16) e 𝑋′ (com dimensão 16 por 3),
e o produto da matriz 𝑋 (com dimensão 3 por 16) pelo vetor 𝑌 (com dimensão 16 por 1),
obtém-se:
e resolvendo-se o sistema linear (8) com esses valores de 𝑋𝑋 ′ e 𝑋𝑌, obtém-se o vetor de
parâmetros:
𝑎̂ 1566,08
̂
𝐴̂ = [𝑏1 ] = [ 7,62 ]
𝑏̂2 8,58
Exemplo 4:18 Um fabricante de roupas precisa decidir sobre compras e programação logística
de roupas com base em previsões de vendas. A variável dependente é a estimativa de vendas
na estação (em unidades monetárias) (y), e as variáveis independentes são: o tempo (em anos)
18
Este exemplo foi inspirado no exemplo apresentado em Ballou (2004, p.257).
Com base em T dados passados disponíveis (𝑥11 , 𝑥21 , 𝑥31 ; 𝑦1 ), (𝑥12 , 𝑥22 , 𝑥32 ; 𝑦2 ), ...,
(𝑥1𝑇 , 𝑥2𝑇 , 𝑥3𝑇 ; 𝑦𝑇 ), a equação de regressão linear múltipla (9) resultou em:
isto é, com 𝑎̂ = −3016, 𝑏̂1 = 1211, 𝑏̂2 = 5,75 e 𝑏̂3 = 109 obtidos da solução do sistema
linear (8). Este modelo explicou 99% (i.e., 𝑅 2 = 0,99 em (6)) da variação total na demanda.
Nos casos em que o modelo (7) envolve muitas variáveis causais, existem técnicas que
ajudam a selecionar o subconjunto mais relevante destas variáveis, baseadas na análise da
inclusão destas variáveis uma a uma, ou na comparação das possíveis combinações destas
variáveis.19
podem ser transformados em modelos lineares, aplicando-se o logaritmo nos dois lados destas
expressões, similarmente ao que foi feito para regressão linear simples na Seção 2.1. Os
modelos transformados ficam, respectivamente:
Assim como regressão linear simples, a análise de regressão linear múltipla também pode ser
realizada com auxílio de pacotes estatísticos, como Minitab, SAS, SPSS, R, Statistica, etc.
Outros exemplos de métodos causais são os métodos baseados em redes neurais, discutidos
brevemente na Seção 7.5.
19
Veja, por exemplo, Montgomery et al. (2008).
3. Séries temporais
Uma série temporal é uma sequência de observações tomadas em pontos discretos de tempo
(em geral igualmente espaçados). Por exemplo, a sequência 𝑦1 , 𝑦2 , 𝑦3 , …, das demandas de um
produto, tomadas nos períodos de tempo 𝑡 = 1, 𝑡 = 2, 𝑡 = 3, …, respectivamente, é uma série
temporal, conforme ilustrado na Figura 1. A ideia é que informação pode ser inferida do
padrão das observações passadas e usada para prever os valores futuros da variável.
(i) Tendência (linear ou não linear): padrão com crescimento ou decrescimento ao longo do
tempo, por exemplo, devido a mudanças na população ou ao estágio em que o produto se
encontra em seu ciclo de vida.20 O caso constante é aquele com crescimento ou decrescimento
nulo (também chamado horizontal). As duas séries temporais superiores da Figura 4 ilustram
padrões sem e com tendência linear de crescimento.
(ii) Sazonalidade: o padrão repete-se periodicamente em intervalos fixos (e.g., ano, mês,
semana, dia), por exemplo, o consumo de sorvete pode ser maior no verão e menor no
inverno, enquanto que o consumo de eletricidade ou gás pode ter um comportamento oposto
em regiões com invernos rigorosos. Padrões sazonais também são chamados de periódicos,
embora eles não se repitam exatamente sobre cada período. Pode-se também ter padrões
combinando sazonalidade e tendência (sazonalidade com tendência). A série temporal inferior
da Figura 4 ilustra um padrão com sazonalidade e tendência de crescimento.
20
Veja, por exemplo, a figura ilustrativa de ciclo de vida de produto contendo estágios de introdução,
crescimento, maturidade e declínio em Ballou (2004).
0
tend ncia
0
tend ncia e sa onalidade
0
Figura 4 - Padrões de demanda regulares: constante, tendência e sazonalidade
Note nestes padrões regulares de séries temporais da Figura 4 que flutuações aleatórias 𝜀
(também chamadas de ruídos) estão presentes, que são os desvios inexplicados dos dados com
relação a cada padrão básico. Desde que estas flutuações aleatórias correspondam a uma
pequena parte da variação total (por exemplo, se o desvio padrão 𝜎𝜀 destas flutuações
aleatórias é bem menor do que o valor esperado 𝐸[𝑦] da série temporal), os métodos de
previsão baseados em séries temporais costumam dar bons resultados. Frequentemente este é
o caso em que existem muitos clientes que compram individualmente pequenas frações do
volume total das vendas.
Outros padrões de demanda podem ser observados nos dados da série temporal como, por
exemplo, função impulso (impulse function), função degrau (step function), introdução de um
novo produto, e produto em declínio (Figura 5).21
21
Veja, por exemplo, Montgomery et al. (1974).
Padrões irregulares (lumpy): nos padrões irregulares existem tantas flutuações aleatórias nos
padrões de demanda que tornam qualquer previsão pouco confiável. Estes são tipicamente os
casos em que pedidos raros e grandes de clientes dominam os padrões de demanda, ou quando
a demanda de cada produto é muito baixa e incerta. Um exemplo de padrão de demanda
irregular ou incomum está ilustrado na Figura 6. Nestes casos, o desvio padrão 𝜎𝜀 das
flutuações aleatórias chega a ser da ordem de grandeza da média da série temporal 𝐸[𝑦]. Um
dos procedimentos para testar se o padrão de demanda é irregular é estimar o desvio padrão
das diferenças entre os dados observados e as previsões feitas por algum método de previsão
adotado, e verificar se o desvio padrão destes erros de previsão tem valor próximo ou maior
que a média da série temporal 𝐸[𝑦].22
demanda irregular
22
Veja, por exemplo, Hax e Candea (1984).
Demanda esporádica: nos casos de produtos com baixos níveis de demanda e com frequentes
períodos sem uso, também chamados itens de movimentação lenta (slow-moving items), os
padrões de demanda tendem a ser irregulares. Nestes padrões, pode haver vários períodos
consecutivos sem demanda, seguidos por um ou mais períodos com vendas de vários
tamanhos. Existem alguns métodos de previsão baseados em séries temporais e suavização
exponencial para estes casos com demanda esporádica, conforme discutido na Seção 7.1.
Note que, diferente do lado direito de (1), (2) ou (7) dos métodos causais, o lado direito da
expressão acima envolve 𝑇 valores anteriores da variável de interesse y, e que esses valores
podem estar correlacionados (veja Seção 7.3).
𝑦̂𝑇,𝑇+𝜏 como a previsão feita no período T para o valor da demanda no período 𝑇 + 𝜏 (com
𝜏 = 1,2, . ..), também chamada previsão múltiplos-períodos-adiante (multiple-step-
ahead forecasting)
𝑦̂𝑇,𝑇+1 = ∑ 𝑤
̂ 𝑡 𝑦𝑡 = 𝑤
̂1 𝑦1 + 𝑤
̂ 2 𝑦2 +. . . +𝑤
̂ 𝑇 𝑦𝑇
𝑡=1
Este erro é computado a posteriori, ou seja, após a observação 𝑦𝑇 ser conhecida no período T.
Note que o valor de 𝑦𝑇 é estimado por 𝑦̂𝑇−𝜏,𝑇 no período 𝑇 − 𝜏, com base apenas nas
observações passadas 𝑦1 , 𝑦2 , … , 𝑦𝑇−𝜏 . Por simplicidade, se 𝜏 = 1, denota-se o erro de previsão
23
Alguns autores preferem definir o erro de previsão (10) como a diferença entre a previsão e a observação:
𝑒𝑇−𝜏,𝑇 = 𝑦̂𝑇−𝜏,𝑇 − 𝑦𝑇 .
Conforme mencionado na Seção 2.2, deseja-se que estes erros sejam próximos de 0 e que não
sejam tendenciosos (i.e., não tenham tendência para mais ou para menos do valor da
observação). Pode-se identificar isso representando visualmente esses erros numa figura e
verificando se a soma 𝑒1 + 𝑒2 +. . . +𝑒𝑇 deles é próxima de 0.
Outras medidas de precisão do método de previsão são o erro ou desvio absoluto médio (MAD
– mean absolute deviation), o erro ou desvio percentual absoluto médio (MADP – mean
absolute percentage deviation) e o erro quadrático médio (MSE – mean squared error):24
∑𝑇
𝑡=1 |𝑒𝑡 |
Erro absoluto médio: 𝑀𝐴𝐷 = (11)
𝑇
∑𝑇
𝑡=1 |𝑒𝑡 |/𝑦𝑡
Erro percentual absoluto médio: 𝑀𝐴𝐷𝑃 = 100 (12)
𝑇
∑𝑇
𝑡=1 𝑒𝑡
2
Erro quadrático médio: 𝑀𝑆𝐸 = (13)
𝑇
O MAD é uma estatística que tem a vantagem de ser mais interpretável e mais fácil de ser
explicada para não especialistas, enquanto o MSE tem a vantagem de ser mais fácil de ser
manuseado matematicamente em procedimentos estatísticos (por não envolver a função
módulo). Note que o desvio padrão do erro de previsão é 𝜎𝑒 = √𝑀𝑆𝐸, também estimado por
1,25𝑀𝐴𝐷 (com os erros 𝑒𝑡 supostos normalmente distribuídos com média 0).
Uma observação importante é que as fórmulas de erros acima medem o quanto um método de
previsão se ajusta aos dados passados observados. Um método bem ajustado aos dados
passados (i.e., com pequenos erros de ajuste – fitting errors) não necessariamente resulta num
método que produz boas previsões futuras (i.e., com pequenos erros de previsão – forecasting
errors). Por exemplo, é possível obter valores de MADP e MSE em (12) e (13) bem pequenos
ao se ajustar métodos mais elaborados e complexos aos dados passados (e.g., métodos
baseados em modelos de polinômios de ordens superiores). Isso não implica que esses
métodos fornecerão previsões futuras mais precisas do que outros métodos mais simples, que
tenham resultado em maiores valores de MADP ou MSE na fase de ajuste.
24
Alguns autores denotam o MAD em (11) por MAE, e definem o MAD como a média dos desvios absolutos
entre os valores das observações e o valor médio das observações (Makridakis et al., 1998). Autores também
sugerem, ao invés de T, a utilização dos denominadores T-1, T-1 e T-2 nas três fórmulas de erro (11)-(13),
respectivamente, considerando-se que se tratam de estimativas amostrais (Ghiani et al., 2004).
𝑦𝑡 = 𝑎 + 𝜀𝑡 , com 𝑡 = 1, 2, 3, … (14)
A demanda de muitos produtos e serviços logísticos pode ser representada pelo modelo
constante, especialmente produtos que estejam no estágio de maturidade dos seus ciclos de
vida26 e que sejam usados regularmente. Nestes casos, se não se espera um padrão de
tendência (de crescimento ou decrescimento) ou um padrão sazonal da série temporal, em
geral é razoável admitir o modelo constante (14).
A seguir apresenta-se dois simples métodos de previsão para o modelo (14) (séries temporais
estacionárias):
• Média móvel
• Suavização exponencial
Note que como se está supondo que a série temporal é estacionária, as previsões feitas no
período T para os valores da demanda em 𝜏 = 1, 2, . .., períodos adiante de T são todas a
mesma (i.e., 𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 para qualquer ). Note também que os pesos associados às N últimas
1
observações da série temporal são iguais a 𝑁 (os pesos das demais observações são nulos).
Ao se escolher um valor grande para N, a previsão em (15) fica mais conservadora, o que é
apropriado para processos relativamente estáveis na prática (em que o parâmetro a está
variando lentamente e os desvios aleatórios 𝜀𝑡 são maiores). Desta maneira, se está filtrando
os efeitos dos desvios aleatórios.27 Por outro lado, um valor de N pequeno implica numa
previsão em (15) mais reativa, o que é apropriado para processos menos estáveis na prática
(em que o parâmetro a está mudando mais rapidamente e os desvios aleatórios 𝜀𝑡 são
pequenos).
O valor de N a ser escolhido pode ser aquele que minimiza os erros de previsão (por exemplo,
o MAD em (11) ou o MSE em (13) da Seção 3) nos dados passados 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Isto pode
ser feito, por exemplo, por meio de uma planilha eletrônica (e.g., Excel ou outra), variando-se
os valores de 𝑁 = 1, 2, … , 𝑇 em (15) e escolhendo-se o que resultar no menor erro, ou por
algum método de tentativa e erro.
Convém observar que a média móvel tem variabilidade menor do que estes dados passados.
De fato, como a variância de cada demanda individual é (dado que 𝑉[𝑎] = 0):
então a variância da média móvel é (dado que os desvios 𝜀𝑖 são supostos independentes):
𝑇
∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡 1 1 2
𝜎𝜀2
𝑉[𝑦̂𝑇,𝑇+𝜏 ] = 𝑉[𝑎̂ 𝑇 ] = 𝑉 [ ]= 2 ∑ 𝑉[𝑦𝑡 ] = 𝑁𝜎 =
𝑁 𝑁 𝑁2 𝜀 𝑁
𝑡=𝑇−𝑁+1
ou seja, N vezes menor do que a variância de cada demanda individual 𝑦𝑡 . Portanto, nos casos
de processos relativamente estáveis, isso reforça o uso de valores grandes para N.
Uma vantagem da média móvel (15) é que ela é facilmente atualizada de período a período: a
observação mais antiga 𝑦𝑇−𝑁 é substituída pela observação mais recente 𝑦𝑇 (daí o nome
média móvel). Uma desvantagem da média móvel é que ela dá o mesmo peso tanto para as
primeiras quanto para as últimas das N observações.
Em seguida, usando a média móvel 𝑦̂𝑇,𝑇+1 em (15) no período 𝑇 = 4 para prever a demanda
no período 𝑇 + 1 = 5, obtém-se:
e assim por diante, para prever as demandas nos períodos 6, 7, 8, respectivamente, obtém-se
os valores da Tabela 1 (veja Exercício 3 da lista no final deste capítulo). Note que a cada nova
observação, a média móvel das últimas 𝑁 = 3 observações é recomputada. Desta maneira, o
horizonte de previsão é rolante porque a cada nova observação da demanda, o horizonte pula
um período para frente.
Observe na Tabela 1 que 𝑀𝐴𝐷 = 58 (conforme (11)) e 𝑀𝑆𝐸 = 4198 (conforme (13)). Logo,
o desvio padrão do erro de previsão é √𝑀𝑆𝐸 = 65 (ou aproximadamente 1,25𝑀𝐴𝐷 = 72). A
Figura 7 compara os valores observados da demanda com os valores previstos da média
móvel com 𝑁 = 3.
, 1,
350
300
250
200 demanda
150 média m vel ( )
100
50
0 1 2 3 4 5 6 7 8
Figura 7 – Comparação entre observações de demanda e média móvel (𝑁 = 3)
, 1,
350
300
demanda
250
200 média m vel ( )
150 média m vel ( )
100
50
0 1 2 3 4 5 6 7 8
Figura 8 – Comparação entre observações de demanda e médias móveis (𝑁 = 3 e 𝑁 = 6)
Convém observar que a estimativa 𝑎̂ 𝑇 da média móvel em (15) pode ser vista como resultado
da aplicação do critério de mínimos quadrados sobre somente as N observações mais recentes
da série temporal. De fato, ao considerar na Seção 2.1 que a reta em (2) é 𝑦 = 𝑎 (i.e.,
constante) e levar em conta apenas as últimas N observações (do total de T observações),
obtém-se a seguinte função dos desvios quadráticos:
𝑇 𝑇
∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡
𝑎̂ 𝑇 =
𝑁
Note na expressão (16) que à medida que se cresce , o método fica mais reativo (i.e.,
responde mais rapidamente a eventuais mudanças que estejam de fato ocorrendo no processo
na prática), porque dá mais peso à observação mais recente (𝑦𝑇 ). Por outro lado, valores
pequenos de deixam o método mais conservador contra efeitos do desvio aleatório (𝜀𝑇 ),
dando maior peso à projeção dos dados históricos (𝑎̂ 𝑇−1).
Em geral, os valores de usados na prática variam de 0,01 a 0,3. Embora admita-se que 0 <
< 1, os valores limites 𝛼 = 0 e 𝛼 = 1 também são possíveis de serem usados. Neste caso, 𝛼 =
0 significa que a última previsão (i.e., 𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇−1) não é atualizada, enquanto 𝛼 = 1
significa que a previsão é a observação mais recente (𝑦̂𝑇,𝑇+𝜏 = 𝑦𝑇 ).
Note que:
ou seja, a estimativa para 𝑎̂ 𝑇 é igual a estimativa do período anterior, 𝑎̂ 𝑇−1, menos uma fração
do erro de previsão, 𝛼𝑒𝑇 . Esta fração é positiva se a demanda foi superestimada, ou negativa
se foi subestimada.
Substituindo sucessivamente 𝑎̂ 𝑇−2 = 𝛼𝑦𝑇−2 + (1 − 𝛼)𝑎̂ 𝑇−3 , 𝑎̂ 𝑇−3 = 𝛼𝑦𝑇−3 + (1 − 𝛼)𝑎̂ 𝑇−4 ,
..., nesta expressão, obtém-se:
𝑇
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + 𝛼(1 − 𝛼)𝑦𝑇−1 + 𝛼(1 − 𝛼) 𝑦𝑇−2 + 𝛼(1 − 𝛼) 𝑦𝑇−3 +. . . = ∑ 𝛼(1 − 𝛼)𝑡 𝑦𝑇−𝑡
2 3
𝑡=0
com os termos 𝛼(1 − 𝛼)𝑡 desta série decrescendo do presente para o passado. Note que 𝛼(1 −
𝛼)𝑡 , 𝑡 = 0, 1, . . . , 𝑇, são os pesos associados às T observações passadas. Ou seja, menores
pesos vão sendo dados para observações mais antigas, e estes pesos decaem suavemente com
decréscimo exponencial com fator de (1 − 𝛼) (daí o nome de suavização exponencial). Para
0 < 𝛼 < 1, a soma de todos estes pesos da série infinita (i.e., no limite de T tendendo a
infinito) é igual a 1:
∞ ∞
1
∑ 𝛼(1 − 𝛼)𝑡 = 𝛼 ∑(1 − 𝛼)𝑡 = 𝛼 =1
1 − (1 − 𝛼)
𝑡=0 𝑡=0
1
dado que a série geométrica ∑∞ 𝑡
𝑡=0(1 − 𝛼) com razão (1 − 𝛼) < 1 converge para .
1−(1−𝛼)
1
Lembre-se da Seção 4.1 que, na média móvel em (15), todos os pesos são iguais a 𝑁 para as
últimas N observações (e iguais a 0 para as demais observações), o que também totaliza 1.
Quanto maior o valor de na expressão (16), mais peso é dado às observações mais recentes.
Por exemplo, substituindo 𝛼 = 0,2 na expressão acima, as três observações mais recentes têm
49% do peso total (20%, 16% e 13%). Se 𝛼 = 0,5, então elas têm 88% do peso (50%, 25% e
13%).
Valores de 𝛼 = 0,1 ou 𝛼 = 0,2 são em geral recomendados para diversas aplicações. Outro
procedimento para a escolha de é usar a história passada e testar diversos valores de , para
determinar qual o valor que minimiza os erros de previsão (por exemplo, o MAD ou o MSE)
nos dados 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Isto pode ser feito, por exemplo, por meio de uma planilha eletrônica
(e.g., Excel ou outra), variando-se os valores de de 0,05 a 0,5 com incrementos de 0,01 ou
0,05, ou utilizando um algoritmo de otimização não-linear. Se o valor obtido for maior que
0,5, então tendência e/ou sazonalidade provavelmente estão presentes na série temporal, e o
método pode não ser adequado.
e assim por diante, para os períodos 4, 5, ..., 8 (veja Exercício 4 da lista no final deste
capítulo). Conforme o Exemplo 5, o horizonte de previsão é rolante porque, a cada nova
observação da demanda, o horizonte pula um período para frente. A Tabela 2 apresenta os
valores e erros obtidos (comparados com o da média móvel com 𝑁 = 3 - coluna MA(3)).
Note que o MAD (conforme (11)) da suavização exponencial (com 𝛼 = 0,1) considerando os
períodos 4, 5, ..., 8, é 49, ou seja, menor do que o MAD da média móvel (com 𝑁 = 3), igual a
58. Portanto, neste exemplo, a previsão da suavização exponencial (16) foi mais precisa do
que a média móvel (15). A Figura 9 compara os valores observados da demanda com os
valores previstos da média móvel (𝑁 = 3) e suavização exponencial (𝛼 = 0,1).
■
, 1,
350
300
250
200 demanda
150 média m vel ( )
100 suavi ação exponencial ( , )
50
0 1 2 3 4 5 6 7 8
Figura 9 – Comparação entre observações de demanda, média móvel (𝑁 = 3) e suavização
exponencial (𝛼 = 0,1)
, 1,
350
300 demanda
250 média m vel ( )
200 suavi ação exponencial ( , )
150 suavi ação exponencial ( , )
100
50
0 1 2 3 4 5 6 7 8
Figura 10 – Comparação entre observações de demanda, média móvel (𝑁 = 3) e suavizações
exponenciais (𝛼 = 0,1 e 𝛼 = 0,4)
No final da Seção 4.1, mostrou-se que a média móvel (15) pode ser vista como resultado da
aplicação do critério de mínimos quadrados sobre as últimas N observações da série temporal.
A estimativa 𝑎̂ 𝑇 da suavização exponencial (16) também pode ser vista como resultado da
aplicação do critério de mínimos quadrados, mas sobre todas as T observações da série
temporal, atribuindo-se pesos com decréscimo exponencial para as observações mais antigas.
Para mostrar isso, basta considerar-se na Seção 2.1 que a reta em (2) é 𝑦 = 𝑎 (i.e., constante,
ao invés de 𝑎 + 𝑏𝑥) e que cada observação t (do total de T observações) tem peso (1 − 𝛼)𝑇−𝑡 ,
o que resulta na função de desvios quadráticos:
𝑇 𝑇
28
Veja, por exemplo, Johnson e Montgomery (1974).
Note na Figura 10 que a média móvel (15) com 𝑁 = 3 e a suavização exponencial (16) com
𝛼 = 0,1 resultam em previsões bem diferentes. Isto sugere que estes valores de N e não são
consistentes. Por outro lado, 𝛼 = 0,4 parece ser mais consistente com 𝑁 = 3.
Uma maneira de determinar valores consistentes para N e é igualando as idades médias dos
dados usados nas previsões. Note que na previsão da média móvel (15) para o período t:
∑𝑇−1
𝑡=𝑇−𝑁 𝑦𝑡 𝑦𝑇−1 + 𝑦𝑇−2 +. . . +𝑦𝑇−𝑁
𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 = =
𝑁 𝑁
𝑁
dado que a soma da progressão aritmética ∑𝑁 𝑡=1 𝑡 resulta em (1 + 𝑁) 2 . Na previsão da
suavização exponencial (16) para o período t:
∞
𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 = ∑ 𝛼(1 − 𝛼)𝑡 𝑦𝑇−𝑡−1 = 𝛼𝑦𝑇−1 + 𝛼(1 − 𝛼)𝑦𝑇−2 + 𝛼(1 − 𝛼)2 𝑦𝑇−3 +. ..
𝑡=0
29 1
Note que esse resultado coincide com o valor esperado de uma variável aleatória 𝑡 com distribuição
𝛼
1
geométrica com parâmetro 𝛼. Para uma demonstração de que essa série infinita converge para , veja, por
𝛼
exemplo, Ross (1993).
2 2−𝛼
𝛼= , 𝑁=
𝑁+1 𝛼
Uma vantagem da suavização exponencial (16) sobre a média móvel (15) é que a suavização
exponencial necessita armazenar apenas a última observação 𝑦𝑇 (as demais estão
representadas em 𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 ), enquanto que a média móvel necessita armazenar todas as
últimas N observações 𝑦𝑇 , 𝑦𝑇−1 , … , 𝑦𝑇−𝑁+1 . Além disso, a suavização exponencial não
necessita que a média das últimas N observações seja recalculada a cada nova observação.31
Devido a estas vantagens e à boa precisão das previsões, a suavização exponencial tem sido
bem utilizada na prática do planejamento e controle da produção e logística.
Métodos de suavização exponencial também podem ser aplicados para fazer previsões da
distribuição de probabilidade de uma variável aleatória, ao invés de apenas seus valores
esperados, ou medidas de dispersão em torno desses valores esperados (e.g., MAD em (11) e
MSE em (13)). Admite-se que a distribuição de probabilidade é estacionária, ou está mudando
pouco com o tempo. A estimativa desta distribuição pode ser útil para calcular probabilidades
de ocorrências de diferentes eventos, por exemplo, a probabilidade da demanda do próximo
período ser menor do que um certo valor, diga-se, menor do que 36 unidades do produto, ou
mesmo ocorrer dentro de um certo intervalo, diga-se, entre 26 e 36 unidades do produto.
30
Para mais detalhes deste resultado, veja, por exemplo, Nahmias (2009).
31
No caso de se estar interessado apenas na média móvel 𝑦̂𝑇,𝑇+1 para o próximo período (ao invés da média
móvel 𝑦̂𝑇,𝑇+𝜏 para 𝜏 ≥ 1), ela pode ser reescrita de maneira que apenas a diferença entre a demanda mais recente
𝑦𝑇 e a demanda mais antiga 𝑦𝑇−𝑁 precise ser recalculada em cada período (veja, por exemplo, Nahmias, 2009).
1 2 1
0 1 2 1 1
Figura 11 – Intervalos das n classes com ocorrência da demanda no k-ésimo intervalo
onde é a constante de suavização. Como se está supondo que a série temporal é estacionária
(ou está mudando pouco com o tempo), as previsões feitas no período T para 𝜏 = 1, 2, . ..,
períodos adiante de T são todas a mesma.
Para estimar a probabilidade da demanda do próximo período ser menor do que um certo
valor, diga-se 𝜃, seja 𝐺(𝜃) = 𝑃(𝑦𝑡 ≤ 𝜃) a distribuição acumulada da demanda 𝑦𝑡 , e 𝐺̂𝑇 (𝜃) a
estimativa de 𝐺(𝜃) após observar a demanda no período T. A partir dos valores de 𝐺̂𝑇 (𝑌𝑘 ) =
∑𝑘𝑗=1 𝑝̂𝑗𝑇 , em que 𝑝̂𝑗𝑇 é computado em (17) para cada classe j, pode-se usar interpolação linear
para obter o valor aproximado de 𝜃𝑝 tal que 𝐺̂𝑇 (𝜃𝑝 ) = 𝑝. A Figura 12 ilustra essa situação -
note na figura que p pode ser calculado por:
( 1) ( )
1
Figura 12 – 𝜃𝑝 e 𝐺̂𝑇 (𝜃𝑝 ) = 𝑝 dentro da classe k
Como a demanda no período T pertence à classe 𝑘 = 4 (i.e., maior que 30 e menor que 40),
segue que 𝜇 𝑇 = (0, 0, 0, 1, 0). Usando a suavização exponencial em (17) com 𝛼 = 0,1, obtém-
se as estimativas de 𝑝̂𝑘𝑇 e 𝐺̂𝑇 (𝑌𝑘 ) para cada classe k dadas conforme as duas últimas colunas
da Tabela 3, ilustradas na Figura 13.
, 0,81 0,955
1,0
0,8 ( )
0,6
0,4
0,2
0 10 20 30 40 50
Figura 13 – Distribuições de probabilidade 𝑝̂ 𝑘𝑇 e 𝐺̂𝑇 (𝑌𝑘 )
(0,955−0,9)30+(0,9−0,810)40
𝜃0,9 = = 36,2
0,955−0,810
32
Para mais detalhes destes métodos, incluindo estimativas da variância de 𝑝̂𝑘𝑇 , veja, por exemplo, Johnson e
Montgomery (1974) e Hax e Candea (1984).
Na Seção 8 adiante discute-se como gerar intervalos de previsão (i.e., intervalos de confiança
com diferentes probabilidades de conter a demanda do próximo período) e a utilização de
diagramas de controle (com limites de controle definidos por intervalos de confiança) para
monitorar o desempenho do método de previsão.
Controle adaptativo: existem técnicas para ir-se ajustando automaticamente os valores das
constantes de suavização (dos métodos de suavização exponencial simples) ao longo do
tempo, baseadas nas medidas dos erros de previsão dos períodos anteriores. No entanto, existe
pouca evidência de que estes métodos de controle adaptativo, que alteram dinamicamente os
valores das constantes de suavização, sejam mais vantajosos do que os métodos de suavização
convencionais para previsão em séries temporais. Em função disso, estes métodos não serão
discutidos neste capítulo.33
𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, 3, … (19)
em que as variáveis aleatórias (demandas) são representadas pela reta 𝑎 + 𝑏𝑡, mais o desvio
aleatório 𝜀𝑡 em cada período t (suposto independente e identicamente distribuído com média 0
e variância 𝜎𝜀2 ). Conforme antes, admite-se que não se pode prever os desvios aleatórios. Note
que 𝑦𝑡 em (19) não depende explicitamente de 𝑦𝑡−1 , 𝑦𝑡−2 , 𝑦𝑡−3 , …, mas dos parâmetros 𝑎 e 𝑏,
que vão ser estimados usando-se informação das observações anteriores da demanda.
No início do ciclo de vida dos produtos existe um estágio de crescimento e no final do ciclo,
um estágio de decrescimento da demanda.34 Durante estes estágios, é natural admitir que a
demanda segue um modelo de tendência linear positiva (no caso de crescimento) ou negativa
(no caso de decrescimento).
33
Para mais detalhes destes métodos, veja, por exemplo, Johnson e Montgomery (1974) e Makridakis et al.
(1998).
34
Para mais detalhes dos estágios de crescimento e declínio do ciclo de vida de um produto, veja, por exemplo,
Ballou (2004).
cuja solução, após alguma manipulação algébrica35, resulta no melhor ajuste da reta (mínimo
desvio quadrático), dado por (veja Exercício 8 da lista no final deste capítulo):
𝑇+1
𝑎̂ = 𝑦̄ − 𝑏̂ (21a)
2
𝑇 𝑇(𝑇 + 1) 𝑇
𝑇 ∑𝑡=1 𝑡𝑦𝑡 − ∑𝑡=1 𝑦𝑡
𝑏̂ = 2 (21b)
𝑇 2 (𝑇 + 1)(2𝑇 + 1) 𝑇 2 (𝑇 + 1)2
−
6 4
onde: 𝑦̄ = ∑𝑇𝑡=1 𝑦𝑡 /𝑇
35
Veja, por exemplo, Nahmias (2009).
onde, conforme antes, 𝑦̂𝑇,𝑇+𝜏 denota a previsão para o período 𝑇 + 𝜏 feita no período T. Note
que as estimativas 𝑎̂ 𝑇 e 𝑏̂𝑇 dos parâmetros a e b de (19) dependem de T e, portanto, são
recalculadas a cada nova observação. Note também que essas estimativas não são
tendenciosas conforme discussão na Seção 7.2.
A reta de regressão linear (22) que resulta no melhor ajuste aos dados (mínimo desvio
quadrático) é dada por:
A Figura 14 ilustra os valores observados da demanda com os previstos pela reta de regressão
linear (22). Por exemplo, para 𝜏 = 3, obtém-se 𝑦̂5,8 = 200,2.
, 1,
350
300
250
200 demanda
150 reta
100
50
0 1 2 3 4 5 6 7 8
Figura 14 – Comparação das observações da demanda com reta de regressão
O método de regressão linear (22) pode ser facilmente modificado para considerar que, ao
invés da variável independente t assumir os valores 1, 2, ..., T, ela assume apenas os valores
𝑇 − 𝑁 + 1, 𝑇 − 𝑁 + 2, ..., 𝑇 − 1, 𝑇. Desta maneira, o método passa a ser baseado apenas nas
últimas N observações 𝑦𝑇−𝑁+1 , 𝑦𝑇−𝑁+2 , … , 𝑦𝑇−1 , 𝑦𝑇 , como a média móvel (15) da Seção 4.1.
As estimativas para os parâmetros a e b passam a ser definidas por:
𝑁−1
𝑎̂ = 𝑦̄ − 𝑏̂ (23a)
2
𝑁(𝑁 − 1) 𝑁−1
𝑁 ∑𝑁−1
𝑡=0 𝑡𝑦𝑇−𝑡 − ∑𝑡=0 𝑦𝑇−𝑡
𝑏̂ = 2 (23b)
𝑁 2 (𝑁 − 1)(2𝑁 − 1) 𝑁 2 (𝑁 − 1)2
−
6 4
onde: 𝑦̄ = ∑𝑁−1
𝑡=0 𝑦𝑇−𝑡 /𝑁
Note que esta modificação (23) pode ser vista como uma extensão do método de média móvel
para o caso com tendência linear na série temporal (alguns autores chamam esta extensão de
linha móvel – moving lines). Alternativamente, também pode-se utilizar as expressões
genéricas de 𝑎̂ e 𝑏̂ em (3) apresentadas na Seção 2.1 para tratar este caso, substituindo
apropriadamente T por N, e considerando que a variável independente é 𝑥 = 𝑡.
Note que 𝑎̂ 𝑇 em (24a) é uma combinação convexa entre a última demanda (𝑦𝑇 ) e a demanda
prevista em 𝑇 − 1 para T (𝑦̂𝑇−1,𝑇 ), ou seja:
36
Este método foi proposto em Holt (1957).
Em geral, utiliza-se 𝛽 ≤ 𝛼 para dar mais estabilidade para a estimativa da inclinação. O valor
previsto em T para 𝑇 + 𝜏 (𝑦̂𝑇,𝑇+𝜏 ) é o valor da reta em (25): 𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏. Valores de iguais a
0,1 ou 0,2 são comumente utilizados, enquanto é um valor em geral menor ou igual a 0,1,
por exemplo, igual a 0,05.
Para iniciar o método de Holt, são necessárias estimativas iniciais de 𝑎̂0 e 𝑏̂0 em (24a) e (24b).
O valor de 𝑎̂0 pode ser igual à última observação e de 𝑏̂0 , igual à tendência dos últimos
períodos. Também pode-se utilizar a expressão (21) de regressão linear conforme Seção 5.1
sobre os T dados passados, para melhor estimar estes parâmetros.
Exemplo 9: Considere novamente os dados do Exemplo 8, com estimativas iniciais 𝑎̂0 = 200
e 𝑏̂0 = 10. Utilizando valores de e iguais a 0,1 em (24a) e (24b), obtém-se:
Período 𝑇 = 1:
Período 𝑇 = 2:
e assim por diante, para cada período 3, 4, ..., 8 (veja Exercício 10 da lista no final deste
capítulo). A Tabela 4 apresenta os valores obtidos para todos os períodos.
Note que, para este exemplo, o MAD do método de Holt com 𝛼 = 0,1 e 𝛽 = 0,1 considerando
os períodos 4, 5, ..., 8, é 46,4, ou seja, menor do que o MAD da média móvel (com 𝑁 = 3),
igual a 58, e menor do que o MAD da suavização exponencial (com 𝛼 = 0,1), igual a 49
(Tabela 2). A Figura 15 compara os valores observados da demanda com os valores previstos
da média móvel (𝑁 = 3), suavização exponencial simples (𝛼 = 0,1) e método de Holt (𝛼 =
0,1 e 𝛽 = 0,1).
, 1,
350
300 demanda
250 média m vel ( )
200 suavi ação exponencial ( , )
150
olt ( , , )
100
50
0 1 2 3 4 5 6 7 8
Figura 15 – Comparação das observações da demanda com média móvel (𝑁 = 3), suavização
exponencial simples (𝛼 = 0,1) e método de Holt (𝛼 = 0,1 e 𝛽 = 0,1)
No caso de se desejar prever mais de um período adiante de T, basta usar a expressão 𝑦̂𝑇,𝑇+𝜏 .
Por exemplo, a previsão no período 𝑇 = 2 para 𝜏 = 3 períodos adiante é:
Veja também o Exercício 11 e o Exercício 12 da lista no final deste capítulo. Uma vantagem
do método de Holt (25) em relação à regressão linear (22) é que ele é bem mais fácil para
atualizar as previsões, à medida que novas observações vão sendo realizadas.
[1] [1]
𝑦̃𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̃𝑇−1 (suavização exponencial simples)
[2] [1] [2]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
[1]
Note que 𝑦̃𝑇 é uma suavização exponencial simples das demandas 𝑦1 , 𝑦2 , … , 𝑦𝑇 igual a (16),
[2] [1] [1] [1]
enquanto que 𝑦̃𝑇 , por sua vez, é uma suavização exponencial simples de 𝑦̃1 , 𝑦̃2 , ..., 𝑦̃𝑇 .
Note também que, assim como discutido no final da Seção 4.2, tomando-se a primeira
[1]
suavização exponencial simples para 𝑦̃𝑇 :
[2]
Similarmente, tomando-se agora a segunda suavização exponencial simples para 𝑦̃𝑇 :
𝑇−1
[2] [1] [2] [1] [1]
𝐸 [𝑦̃𝑇 ] = 𝐸 [𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1 ] = ⋯ = 𝐸 [𝛼 ∑(1 − 𝛼)𝑡 𝑦̃𝑇−𝑡 + (1 − 𝛼)𝑇 𝑦̃0 ]
𝑡=0
𝑡 [1]
que, no limite de T tendendo a infinito, resulta em 𝐸 [𝛼 ∑∞ ̃𝑇−𝑡 ] = 𝛼 ∑∞
𝑡=0(1 − 𝛼) 𝑦 𝑡=0(1 −
[1] [1] 1−𝛼
𝛼)𝑡 𝐸 [𝑦̃𝑇−𝑡 ]. Dado que 𝐸 [𝑦̃𝑇−𝑡 ] = 𝑎 + 𝑏(𝑇 − 𝑡) − 𝑏, segue que:
𝛼
ou seja, uma estimativa não tendenciosa para 𝑎 + 𝑏𝑇 em (19). Além disso, note que:
𝛼 [1] [2] 𝛼 [1] [2]
𝐸 [𝑦̃𝑇 − 𝑦̃𝑇 ] = (𝐸 [𝑦̃𝑇 ] − 𝐸 [𝑦̃𝑇 ])
1−𝛼 1−𝛼
𝛼 [1] [1] 1−𝛼
= (𝐸 [𝑦̃𝑇 ] − (𝐸 [𝑦̃𝑇 ] − 𝑏)) = 𝑏
1−𝛼 𝛼
Veja o Exercício 13 da lista no final deste capítulo. Convém observar que o método de
suavização exponencial dupla (ou de segunda ordem) pode ser estendido para tratar séries
temporais bem mais gerais que (19), por exemplo, com tendências não lineares (de
crescimento ou decrescimento) descritas por um polinômio de grau n:
𝑡2 𝑡3 𝑡𝑛
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 + 𝑏3 + ⋯ + 𝑏𝑛 + 𝜀𝑡 , com 𝑡 = 1, 2, …
2! 3! 𝑛!
[1] [1]
𝑦̃𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̃𝑇−1 (suavização exponencial simples)
[2] [1] [2]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
[3] [2] [3]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
...
[1] [2]
Note que 𝑦̃𝑇 é uma suavização exponencial simples de 𝑦1 , 𝑦2 , … , 𝑦𝑇 ; 𝑦̃𝑇 é uma suavização
[1] [1] [1] [3] [2]
exponencial simples de 𝑦̃1 , 𝑦̃2 , ..., 𝑦̃𝑇 ; 𝑦̃𝑇 é uma suavização exponencial simples de 𝑦̃1 ,
[2] [2]
𝑦̃2 , ..., 𝑦̃𝑇 ; e assim por diante. No entanto, os cálculos para derivar este método de previsão
tornam-se bem complicados e, em geral, outros métodos são preferíveis para o caso de séries
temporais polinomiais (por exemplo, os métodos genéricos de suavização exponencial
discutidos na seção 7.2 ou os métodos baseados nos modelos de Box-Jenkins discutidos na
Seção 7.3).37
Série sazonal: aquela com padrão que repete a cada N períodos (comprimento de um ciclo
sazonal ou estação).
Note que o ciclo sazonal não precisa ser de um ano - a sazonalidade pode ser mensal, semanal,
diária, etc. A série temporal com tendência e sazonalidade pode ser definida por um modelo
aditivo:
𝑁
Ambos os modelos (27) e (28) fazem uso de fatores (ou índices) sazonais 𝑐𝑡 em cada período
t. No modelo aditivo (27), estes fatores representam o quanto (em média) a demanda em cada
período t do ciclo sazonal aumenta ou diminui. Se o ciclo sazonal é composto de N períodos
(e.g., 12 meses), admite-se que a soma dos fatores sazonais para os N períodos consecutivos
do período t é igual a zero (i.e., ∑𝑁 𝜏=1 𝑐𝑡+𝜏 = 0). Por exemplo, 𝑐𝑡+3 = 5 (𝑐𝑡+3 = −5) indica
que a demanda no terceiro período do ciclo sazonal a partir do período t aumenta (diminui)
em média 5 unidades. Assim, a demanda no período t é definida pela reta 𝑎 + 𝑏𝑡 mais o fator
sazonal 𝑐𝑡 , mais o desvio aleatório 𝜀𝑡 .
37
Para mais detalhes destes métodos de suavização exponencial de ordem superior, o leitor pode consultar, por
exemplo, Johnson e Montgomery (1974) e Montgomery et al. (2008).
Muitos produtos têm padrão de demanda com variação sazonal. Por exemplo, as vendas de
sorvetes e bebidas são bem maiores no verão do que no inverno. Admite-se que os valores de
alta (picos) e os valores de baixa (vales) dos padrões de demanda têm motivos conhecidos e
ocorrem no mesmo período (e.g., mês) em todos os ciclos sazonais (anos), e também que a
variação sazonal é maior que os desvios aleatórios. Note que um modelo sazonal é
representativo somente se a demanda segue essencialmente o mesmo padrão, ano após ano.
Obviamente, o modelo constante (14) da Seção 4 pode ser visto como um caso particular do
modelo com tendência linear (19) da Seção 5, que, por sua vez, pode ser visto como um caso
particular dos modelos (27) e (28) com tendência e sazonalidade, o que pode sugerir que usar
um modelo mais geral é sempre mais vantajoso do que um modelo mais particular. No
entanto, como um modelo mais geral envolve mais parâmetros a serem estimados, se os
desvios aleatórios forem grandes na série, pode ser mais difícil obter boas estimativas destes
parâmetros, o que pode tornar mais eficiente usar modelos mais simples com poucos
parâmetros.
𝑇𝑡 = 𝑎 + 𝑏𝑡
𝑆𝑡 = 𝑦𝑡 − 𝑇𝑡
e no modelo multiplicativo (28), pela razão entre a demanda observada e a linha de tendência
no período t:
𝑆𝑡 = 𝑦𝑡 /𝑇𝑡
O modelo de decomposição da série temporal na forma aditiva (com base nas T observações)
é dado por:
𝑦̂𝑇,𝑇+𝜏 = 𝑇̂𝑇+𝜏 + 𝑆̂𝑇+𝜏−𝑁 = [𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏)] + 𝑦𝑇+𝜏−𝑁 − [𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏 − 𝑁)],
com 𝜏 = 1, 2, . . . , 𝑁 (29)
onde, conforme antes, 𝑦̂𝑇,𝑇+𝜏 denota a previsão para o período 𝑇 + 𝜏 feita no período T (veja
Exercício 14 da lista do final deste capítulo).
38
Este método foi proposto em Winters (1960).
onde 𝑎̂ 𝑇 pode ser interpretado como a estimativa da reta “desa onali ada” (i.e., com as
flutuações sazonais eliminadas) em T (𝑎 𝑇 ), 𝑏̂𝑇 é a estimativa da inclinação da reta
desazonalizada em T (𝑏𝑇 ), 𝑐̂𝑇 é a estimativa do fator sazonal da reta em T (𝑐𝑇 ), e N é o número
de períodos do ciclo sazonal (conforme antes).
Note que, similarmente a (24a) do método de Holt da Seção 5.2, 𝑎̂ 𝑇 em (31a) é uma
combinação convexa entre a última demanda dessazonalizada (𝑦𝑇 /𝑐̂𝑇−𝑁 ) e a demanda
dessazonalizada prevista em 𝑇 − 1 para t (𝑦̂𝑇−1,𝑇 /𝑐̂𝑇−𝑁 ), ou seja:
Além disso, similarmente a (24b) do método de Holt, 𝑏̂𝑇 em (31b) também é uma combinação
convexa entre a última inclinação (𝑎̂ 𝑇 − 𝑎̂ 𝑇−1 ) e a inclinação prevista em 𝑇 − 1 para T (𝑏̂𝑇−1 ).
E a estimativa 𝑐̂𝑇 também é uma combinação convexa entre a última estimativa do fator
sazonal (𝑦𝑇 /𝑎̂ 𝑇 ) e o fator sazonal previsto em 𝑇 − 𝑁 para T (𝑐̂𝑇−𝑁 ). O valor previsto em T
para 𝑇 + 𝜏 (𝑦̂𝑇,𝑇+𝜏 ) é o valor da reta sazonalizada (32): (𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏)𝑐̂𝑇+𝜏−𝑁 .
Em geral, na prática, utiliza-se os valores de , e entre 0,1 e 0,2, para dar mais estabilidade
às estimativas. Pode-se também escolher estes valores tais que minimizem os erros de
previsão dos dados passados (e.g., o MSE ou MADP).
Note que dentro do ciclo sazonal com N períodos, a soma dos fatores sazonais 𝑐1 , 𝑐2 , … , 𝑐𝑁
deve ser igual a 𝑁. Caso isso não seja satisfeito para os valores obtidos das estimativas 𝑐̂1, 𝑐̂2 ,
..., 𝑐̂𝑁 , eles devem ser corrigidos (i.e., normalizados) pela seguinte expressão:
𝑐̂𝑡
𝑐̂𝑡 norm = 𝑁 𝑁, para 𝑡 = 1, 2, … , 𝑁 (33)
∑𝑖=1 𝑐̂𝑖
Para iniciar o método de Winters, são necessárias boas estimativas dos parâmetros iniciais 𝑎̂0 ,
𝑏̂0 e 𝑐̂1−𝑁 , 𝑐̂2−𝑁 , . . . , 𝑐̂0 em (31a), (31b) e (31c). Para isso, são necessários dados de pelo menos
dois ciclos sazonais de dados passados (veja exemplo a seguir). No caso de se dispor de dados
de apenas um ciclo sazonal, os parâmetros 𝑎̂0 e 𝑏̂0 podem ser estimados por regressão linear
conforme (21) na Seção 5.1 (similarmente ao método de Holt), e cada parâmetro 𝑐̂𝑡−𝑁 pela
razão:
𝑥𝑡−𝑁
𝑁 𝑁
∑𝑡=1 𝑥𝑡−𝑁
Exemplo 10: Suponha que as últimas 8 demandas trimestrais de um certo produto foram: 𝑦1 =
10, 𝑦2 = 20, 𝑦3 = 26, 𝑦4 = 17, 𝑦5 = 12, 𝑦6 = 23, 𝑦7 = 30, 𝑦8 = 22. A Figura 16 ilustra
estas demandas; note que o gráfico sugere dois ciclos sazonais, cada um com 𝑁 = 4 períodos.
51 2. Previsão de demanda – Reinaldo Morabito
35
30
25 demanda
20
15
10
5
0 1 2 3 4 5 6 7 8
Figura 16 – Observações da demanda
12+23+30+22
Demanda média do segundo ciclo sazonal: = 21,75
4
Os valores de 𝑎̂−3 , 𝑎̂−2 , 𝑎̂−1 , 𝑎̂0 dependem de 𝑏̂0 e são obtidos por meio da reta do segundo
ciclo sazonal, dada por:
Note que o termo (𝑁 − 1)/2 acima corresponde ao meio do segundo ciclo sazonal, ou seja,
igual a 1,5 (veja Figura 16). Em particular, o valor da série em 𝑡 = 0 é:
Os valores de 𝑐̂−3 , 𝑐̂−2 , 𝑐̂−1 , 𝑐̂0 dependem de 𝑎̂−3 , 𝑎̂−2 , 𝑎̂−1 , 𝑎̂0 e são obtidos por:
A Tabela 5 apresenta todos estes valores. A coluna 𝑐̂𝑡 norm corresponde aos valores de 𝑐̂𝑡
normalizados conforme (33) (i.e., corrigidos tais que a soma seja igual a 𝑁 = 4, para que a
média seja 1).
, 1,
35
30
25
20 demanda
15 reta
10
5
0 1 2 3 4 5 6 7 8
Figura 17 – Comparação das observações da demanda e reta obtida
Período 𝑇 = 0:
Período 𝑇 = 1:
Modelo aditivo: convém observar que o modelo de Winters pode ser facilmente adaptado para
tratar o modelo aditivo (27). As três suavizações exponenciais simples passam a ser dadas por:
Apenas a primeira e a terceira destas expressões, (34a) e (34c), sofrem pequenas alterações
em relação à (31a) e (31c), mas a interpretação do significado delas continua similar a (31a) e
(31c). O valor da demanda previsto no período T para o período 𝑇 + 𝜏 é:
Note agora que dentro do ciclo sazonal com N períodos, a soma dos fatores sazonais
𝑐1 , 𝑐2 , … , 𝑐𝑁 deve ser igual a 0 (e não igual a N, conforme antes – compare (27) e (28)). As
estimativas dos parâmetros iniciais 𝑎̂0 , 𝑏̂0 e 𝑐̂1−𝑁 , 𝑐̂2−𝑁 , . . . , 𝑐̂0 podem ser feitas de maneira
similar a antes (veja Exercício 16 da lista no final deste capítulo).
Nestes casos, alguns autores sugerem utilizar a suavização exponencial simples (16) da Seção
4.3, mas com valores da constante de suavização bem pequenos, por exemplo, 𝛼 = 0,01 ou
𝛼 = 0,05. A idéia é evitar que as previsões decresçam muito nos períodos sem demanda, e
que cresçam muito nos períodos com demanda. Desta maneira, as previsões ficam
relativamente estáveis ao longo dos períodos. Obviamente, uma desvantagem desta
abordagem é que as previsões reagem lentamente a mudanças reais no padrão da demanda.
Note que ao se utilizar valores pequenos de α, a previsão inicial 𝑦̂0,1 em (16) tem impacto
importante sobre vários períodos subsequentes. Desta maneira, esta previsão inicial deve ser a
média de vários períodos anteriores (diga-se, a média de um ano de observações). Devido às
grandes flutuações aleatórias presentes em padrões irregulares de produtos com demandas
intermitentes, não faz muito sentido usar suavizações exponenciais duplas ou triplas como
(25), (26) ou (32), para tentar capturar tendência ou sazonalidade nos padrões.
Alternativamente, pode-se utilizar um simples procedimento para tratar estes casos, em que as
previsões de demanda são atualizadas somente nos períodos com demanda positiva (i.e., não
são atualizadas nos períodos com demanda nula). Nestes períodos, atualiza-se as previsões da
demanda positiva e do número de períodos (i.e., o intervalo de tempo) entre dois períodos
com demanda positiva. Estas medidas são atualizadas utilizando-se suavizações exponenciais
simples. Este procedimento resulta em previsões menos tendenciosas e com menores
variâncias do que utilizar a suavização exponencial simples acima.
40
Este método foi proposto em Croston (1972); para mais detalhes do método, veja também Hax e Candea
(1984) e Axsater (2006).
𝑑̂ 𝑇
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 = , com 𝜏 = 1, 2, . ..
𝑘̂𝑇
𝑡2 𝑡3
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 + 𝑏3 + 𝜀𝑡
2! 3!
pode ser usado para representar um padrão com tendência não linear, enquanto o modelo
(também com 𝑚 = 3):
2𝜋 2𝜋
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 𝑠𝑒𝑛 𝑡 + 𝑏3 𝑐𝑜𝑠 𝑡 + 𝜀𝑡
12 12
pode ser usado para representar tendência linear e sazonalidade, em que os termos com
funções seno e cosseno deste modelo procuram descrever um padrão sazonal com 12
períodos.
1 1 ... 1 𝑎̂ 𝑦1
𝑓1 (1) 𝑓1 (2) . . . 𝑓1 (𝑇) ̂1
𝑏 𝑦2
em que: 𝑋=[ ] 𝐴̂ = [ ] 𝑌=[ ⋮ ]
⋮ ⋮ ⋮ ⋮ ⋮
𝑓𝑚 (1) 𝑓𝑚 (2) . . . 𝑓𝑚 (𝑇) ̂
𝑏𝑚 𝑦𝑇
que, assim como o sistema (8) da Seção 2.3, pode ser resolvido pelos métodos tradicionais de
solução de sistemas lineares (disponíveis em diversos aplicativos computacionais).
dado que 𝑌 = 𝑋′𝐴 + 𝜖, o termo (𝑋𝑋′)−1 (𝑋𝑋′) corresponde à matriz identidade, 𝐸[𝐴] = 𝐴, e
𝐸[𝜖] corresponde ao vetor nulo.
Similarmente ao modelo (9) da Seção 2.3, o modelo de previsão (com base nas T observações
aplicadas em (35)) é:
(1 − 𝛼)𝑇−1 0 ... 0
𝑊= 0 (1 − 𝛼)𝑇−2 ... 0
⋮ ⋮ ⋮ ⋮
[ 0 0 ... (1 − 𝛼)0 ]
que também pode ser resolvido pelos métodos tradicionais de solução de sistemas lineares.
Este sistema é similar ao anterior, exceto pelos termos 𝑊 (note que se 𝑊 for igual à matriz
identidade, então (36) corretamente se reduz a (35), com todas as 𝑇 observações passadas com
mesmo peso). O modelo de previsão (com base nas T observações aplicadas em (36)) também
é:
44
Este exemplo foi inspirado num exemplo em Makridakis et al. (1998).
0 10 20 30
Figura 18 - Série temporal com 𝑇 = 36 valores
1 = 0,103 1,0
2 = 0,099
3 = 0,043 0,5
4 = 0,031
5 = 0,183
0,0
6 = 0,025
7 = 0,275
8 = 0,004 0.5
9 = 0,011
10 = 0,152 1,0
2 4 6 8 10
Na fase (i), o modelo de previsão mais apropriado é escolhido por um conjunto de técnicas,
com base nas observações passadas e na avaliação dos padrões de variação da função de
autocorrelação e também da função de autocorrelação parcial, entre outras (esses padrões não
serão aqui discutidos em detalhes). Para o caso de uma série temporal não sazonal, uma classe
genérica de modelos de previsão é a de modelos ARIMA (AutoRegressive Integrated Moving
Average).
60 2. Previsão de demanda – Reinaldo Morabito
A notação ARIMA(𝑝, 𝑑, 𝑞) corresponde a um modelo com: (i) ordem p da parte
autorregressiva do modelo. Esta denominação é porque esta parte do modelo envolve uma
equação de regressão nas últimas p observações da própria variável 𝑦𝑡 . (ii) Grau d de
diferenciação da série temporal; por exemplo, no caso de uma série estacionária, usa-se 𝑑 =
0, e no caso de uma série com tendência linear, 𝑑 = 1. (iii) Ordem q da parte de média móvel
do modelo. Não confundir com o método de média móvel das últimas N observações da série
descrito na Seção 4.1 – aqui a denominação é porque esta parte do modelo é definida como
uma média ponderada móvel dos últimos q desvios aleatórios 𝜀𝑡 da série.
Por exemplo, o modelo ARIMA(𝑝, 0, 𝑞) (i.e., para uma série estacionária) é definido por:
Note que o modelo é descrito em termos das p observações passadas 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑝 e dos
q desvios aleatórios passados 𝜀𝑡−1 , 𝜀𝑡−2 , … , 𝜀𝑡−𝑞 , além de 𝜀𝑡 . Obviamente, as sucessivas
observações da série são consideradas dependentes neste modelo porque 𝑦𝑡 é uma
combinação linear das observações anteriores e dos desvios anteriores.
1
0
0
0
0
0
0
0
0
0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Uma simples técnica para converter um processo não estacionário com padrão de tendência
linear em um processo estacionário é substituir cada 𝑦𝑡 do processo original por 𝑦′𝑡 = 𝑦𝑡 −
𝑦𝑡−1 . Note que isto corresponde a aplicar um grau de diferenciação na série temporal (i.e.,
𝑑 = 1). Desta maneira, se 𝑦𝑡 tem padrão com tendência linear no processo original, 𝑦′𝑡 =
𝑦𝑡 − 𝑦𝑡−1 terá padrão estacionário no processo convertido. Similarmente, caso a série original
tenha um padrão com crescimento ou decrescimento quadrático, pode-se aplicar mais um grau
de diferenciação na série, i.e., substituir cada 𝑦𝑡 do processo original por 𝑦"𝑡 = 𝑦′𝑡 − 𝑦′𝑡−1 =
(𝑦𝑡 − 𝑦𝑡−1 ) − (𝑦𝑡−1 − 𝑦𝑡−2 ), para convertê-la num processo estacionário (neste caso, temos
que 𝑑 = 2).
ou, simplesmente:
Pode ser mostrado que outros modelos das seções anteriores também podem ser vistos como
equivalentes à certos casos particulares de modelos ARIMA. Por exemplo, a suavização
exponencial simples em (16) da Seção 4.2 pode ser vista como equivalente a um modelo
ARIMA(0,1,1) com parâmetros 𝑎 = 0, 𝑐1 = (1 − 𝛼) e os demais parâmetros 𝑏1 , … , 𝑏𝑝 e
𝑐2 , … , 𝑐𝑞 nulos, e o método de Holt em (25) da Seção 5.2 como equivalente a um modelo
ARIMA(0,2,2) com parâmetros 𝑎 = 0, 𝑐1 = (2 − 𝛼 − 𝛼𝛽) e 𝑐2 = (𝛼 − 1), e os demais
parâmetros nulos.45 Na prática, em geral se utiliza modelos ARIMA com valores de p e q
iguais a 0, 1 ou 2.
45
Para mais detalhes disso, veja, por exemplo, Makridakis et al. (1998) e Ghiani et al. (2004).
Na fase (ii), os parâmetros de modelo de previsão escolhido na fase (i) são estimados, por
exemplo, os parâmetros do modelo ARIMA(𝑝, 0, 𝑞) em (37): 𝑎, 𝑏1 , … , 𝑏𝑝 e 𝑐1 , … , 𝑐𝑞 . Isto
pode ser feito aplicando-se o método dos mínimos quadrados (conforme seções anteriores), ou
métodos de máximas verossimilhanças.47
𝑦𝑡 = 𝑎 + 𝑏1 𝑦𝑡−1 + 𝑏2 𝑦𝑡−2 + 𝜀𝑡
Para se obter estimativas 𝑎̂, 𝑏̂1 e 𝑏̂2 de mínimos quadrados dos parâmetros 𝑎, 𝑏1 e 𝑏2 deste
modelo AR(2), pode-se recorrer a um sistema de regressão linear múltipla similar ao sistema
linear (8) da Seção 2.3, ou ao sistema linear (35) da Seção 7.2.
Na fase (iii), uma função de autocorrelação do erro é utilizada para verificar a adequação do
método e seus parâmetros definidos na fase (ii). Os erros de previsão (resíduos) devem ser
normalmente distribuídos, com média próxima de 0. Caso o método não seja adequado, o
procedimento é repetido desconsiderando-se o método de previsão escolhido anteriormente no
passo (i).48
Modelos de Box-Jenkins podem ser vistos como funções que transformam a série temporal
num processo de ruído branco, em que a sequência dos erros de previsão (resíduos)
𝑒1 , 𝑒2 , 𝑒3 , … são independentes.
Exemplo 12:49 Dispõe-se das últimas 𝑇 = 300 observações das vendas de um produto. Após
aplicar as fases (i), (ii) e (ii), obteve-se um modelo ARIMA(2,1,0) definido conforme em
(38), com parâmetros estimados 𝑎̂ = 0, 𝑏̂1 = 0,93 e 𝑏̂2 = −0,17. A Figura 21 apresenta a
função de autocorrelação dos resíduos (erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 , 𝑡 = 1, 2, … , 300)
46
Veja, por exemplo, Makridakis et al. (1998).
47
Para mais detalhes de métodos de máximas verossimilhanças, veja, por exemplo, Kalbfleisch (1985).
48
Para mais detalhes das fases (i), (ii) e (iii) dos métodos baseados em modelos de Box-Jenkins, veja, por
exemplo, Box e Jenkins (1970), Makridakis et al. (1998) e Box et al. (2008).
49
Este exemplo foi inspirado num exemplo em Johnson e Montgomery (1974, p.472).
1,0
0,5
0,0
5 10 15
0,5
1,0
Figura 21 – Função de autocorrelação dos erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 (resíduos)
Considere que as observações nos últimos três períodos foram: 𝑦298 = 175956, 𝑦299 =
176560 e 𝑦300 = 177197. A previsão de vendas para o próximo período 𝑇 + 1 é:
Exemplo 13:50 No Exemplo 12, o modelo ARIMA(2,1,0) obtido não inclui a parte de média
móvel (i.e., 𝑞 = 0) e, portanto, não depende dos desvios aleatórios passados. Considere agora
outro exemplo de série temporal com 𝑇 = 76 observações da demanda de outro produto.
Após aplicar a fase (i), obteve-se um modelo ARIMA(1,1,1) definido por:
ou simplesmente:
que depende do desvio aleatório anterior 𝜀𝑡−1 . Os parâmetros estimados deste modelo na fase
(ii) resultaram em: 𝑎̂ = 15, 𝑏̂1 = 0,24 e 𝑐̂1 = −0,70. A função de autocorrelação dos resíduos
(erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 , 𝑡 = 1, 2, … , 76) na fase (iii) indicou que os resíduos não
50
Este exemplo foi inspirado num exemplo em Nahmias 2009, p.99).
Considere que as duas últimas observações desta série temporal foram: 𝑦75 = 56,74 e 𝑦76 =
62,44. Com base nestas 𝑇 = 76 observações, a previsão de vendas para o próximo período
𝑇 + 1 = 77 é:
lembrando que 𝐸[𝜀77 ] = 0 e que 𝜀76 é estimado pelo erro de previsão 𝑒76 = 𝑦76 − 𝑦̂75,76 . No
entanto, como o período 𝑇 + 1 = 77 foi o primeiro período de previsão do modelo, não se
tem o valor 𝑦̂75,76 previsto anteriormente pelo modelo no período 𝑇 − 1 = 75 para o período
𝑇 = 76; portanto, não se tem o erro de previsão 𝑒76 . Por simplicidade, considera-se que 𝑒76 =
0. Logo, 𝑦̂76,77 = 15 + 62,44 + 0,24(62,44 − 56,74) = 78,81.
Considere agora que o valor observado no período 𝑇 + 1 = 77 foi 𝑦77 = 70; logo, o erro de
previsão neste período foi: 𝑒77 = 𝑦77 − 𝑦̂76,77 = 70 − 78,81 = −8,81. Com base nestas 𝑇 =
77 observações, as previsões de vendas para os dois próximos períodos 𝑇 + 1 = 78 e 𝑇 +
2 = 79 são, respectivamente (lembrando que 𝐸[𝜀78 ] = 𝐸[𝜀79 ] = 0):
Existem diversos pacotes estatísticos que incluem modelos de Box-Jenkins, tais como
Minitab, SAS, Statistica, etc., o que auxilia na aplicação e análise destes modelos.
𝑦𝑡 = 𝑎 + 𝜀𝑡 , com 𝑡 = 1, 2, …
Dado que 𝜀𝑡 ∼ 𝑁(0, 𝜎𝜀2 ), segue que 𝑦𝑡 = 𝑎 + 𝜀𝑡 é normalmente distribuído com média 𝑎 e
variância 𝜎𝜀2 , i.e., 𝑦𝑡 ∼ 𝑁(𝑎, 𝜎𝜀2 ).
Na ausência de informação histórica (i.e., 𝑇 = 0), neste método considera-se que o parâmetro
desconhecido 𝑎 seja uma variável aleatória e o conhecimento subjetivo de 𝑎 é descrito por
𝑓(𝑎), uma função densidade de probabilidade “a priori” de 𝑎, subjetiva, por exemplo,
sugerida por um especialista antes de quaisquer observações de 𝑦𝑡 . Em geral, considera-se que
𝑎 seja normalmente distribuído com média 𝐸[𝑎] = 𝑎0 e variância 𝑉[𝑎] = 𝜎02 , i.e., 𝑎 ∼
𝑁(𝑎0 , 𝜎02 ). Se o especialista está razoavelmente confiante sobre seu conhecimento e intuição
do valor de 𝑎, então a distribuição a priori 𝑓(𝑎) tem variância 𝜎02 pequena; caso contrário, se
ele está bem incerto sobre 𝑎, o valor escolhido de 𝜎02 é maior.
𝑓(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎)𝑓(𝑎)
𝑓(𝑎|𝑦1 , 𝑦2 , . . . , 𝑦𝑇 ) =
∫𝑎 𝑓(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎)𝑓(𝑎)𝑑𝑎
Pode ser mostrado (após alguma manipulação algébrica) que essa densidade a posteriori
𝑓(𝑎|𝑦̄ ) também tem distribuição normal, dada por: 51
51
Veja, por exemplo, Johnson e Montgomery (1974).
𝜎𝜀2
𝜎02 𝑇
𝑎̂ 𝑇 = 𝐸[𝑎|𝑦̄ ] = ∫𝑎𝑓(𝑎|𝑦̄ ) 𝑑𝑎 = 𝜇 = 𝑦̄ + 𝑎0
𝜎2 𝜎2
𝑎 𝜎02 + 𝑇𝜀 𝜎02 + 𝑇𝜀
𝜎2 𝑇 𝑇 𝑇 𝜎2 𝑇 𝜎02
Definindo-se 𝑈 = 𝜎𝜀2 , segue que: = 𝜎2 = (𝜎2 2
0
= 𝜎2 +𝜎 2𝑇 = 𝜎 2 . Similarmente,
0 𝑈+𝑇 𝜀 +𝑇 𝜀 +𝜎0 𝑇) 𝜀 0 𝜎02 + 𝜀
𝜎2
0
2
𝜎0 𝑇
𝜎2𝜀
𝑈 𝑇
= 𝜎2
. Logo, 𝑎̂ 𝑇 pode ser reescrito como:
𝑈+𝑇 𝜎02 + 𝜀
𝑇
𝑇 𝑈
𝑎̂ 𝑇 = 𝑦̄ 𝑇 + 𝑎
𝑈+𝑇 𝑈+𝑇 0
𝑦1 +𝑦2 +...+𝑦𝑇
em que 𝑦̄ 𝑇 = . Note na expressão acima que 𝑎̂ 𝑇 é a média ponderada de 𝑦̄ 𝑇 e 𝑎0 . À
𝑇
𝑇
medida que 𝑇 cresce, mais peso é dado para as observações reais 𝑦̄ 𝑇 , uma vez que 𝑈+𝑇 cresce,
𝑇
e menos peso é dado para o palpite subjetivo 𝑎0 , uma vez que 𝑈+𝑇 decresce.
O estimador de Bayes 𝑎̂ 𝑇 ainda pode ser reescrito de maneira recursiva, como uma
combinação convexa de 𝑦𝑇 e 𝑎̂ 𝑇−1:
1 𝑇 𝑦1 + 𝑦2 +. . . +𝑦𝑇−1 𝑈
𝑎̂ 𝑇 = 𝑦𝑇 + ( )+ 𝑎 =
𝑈+𝑇 𝑈+𝑇 𝑇 𝑈+𝑇 0
1 𝑇−1 𝑈
= 𝑦𝑇 + 𝑦̄ 𝑇−1 + 𝑎 =
𝑈+𝑇 𝑈+𝑇 𝑈+𝑇 0
1 𝑈+𝑇−1 𝑇−1 𝑈
= 𝑦𝑇 + ( 𝑦̄ 𝑇−1 + 𝑎 )=
𝑈+𝑇 𝑈+𝑇 𝑈+𝑇−1 𝑈+𝑇−1 0
1 1
= 𝑦𝑇 + (1 − ) 𝑎̂ =
𝑈+𝑇 𝑈 + 𝑇 𝑇−1
= 𝛼 𝑇 𝑦𝑇 + (1 − 𝛼 𝑇 )𝑎̂ 𝑇−1
1
onde 𝛼𝑇 = 𝑈+𝑇. Portanto, o modelo de previsão para os próximos 𝜏 períodos a partir do
período 𝑇 é:
em que 𝑎̂0 = 𝑎0 . Note que 𝑎̂ 𝑇 e 𝛼 𝑇 são recalculados a cada nova observação. Diferentemente
−1
𝜎2
dos métodos de suavização exponencial anteriores deste capítulo, 𝛼 𝑇 = (𝜎𝜀2 + 𝑇) varia com
0
𝑇.
Suponha que a demanda observada no primeiro período (𝑇 = 1) tenha sido 𝑦1 = 56. Logo,
4 −1
𝛼1 = (9 + 1) = 0,31 e a previsão da demanda para o próximo período (𝜏 = 1) é:
Suponha ainda que a demanda observada no segundo período (𝑇 = 2) tenha sido 𝑦2 = 58.
4 −1
Logo, 𝛼2 = (9 + 2) = 0,23 e a previsão da demanda para o próximo período (𝜏 = 1) é:
e assim por diante, até que dados suficientes tenham sido acumulados para se adotar outro
método mais econômico de previsão, por exemplo, fixando 𝛼 num método de suavização
exponencial simples. ■
Métodos baseados em inferência Bayesiana também podem ser aplicados para modelos mais
gerais, por exemplo, uma série temporal com tendência definida por:
𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, …
nível de
saída
... nível de
entrada
1 2 +1
nível de
saída
... nível
escondido
... nível de
entrada
1 2 +1
Figura 22 – Representação do modelo ARIMA(𝑝, 0,0) em uma rede neural
Métodos de entrada e saída (input-output): são métodos de análise que se preocupam com os
fluxos de bens e serviços interindústrias ou interdepartamentos. Eles mostram quais fluxos
devem ocorrer para se obter certas saídas (por exemplo, a utilização de matrizes de Leontief
aplicadas para previsão de demanda de transporte urbano inter-regiões).54
53
Para mais detalhes, veja, por exemplo, Makridakis et al. (1998).
54
Para mais detalhes destes métodos de entrada e saída, veja, por exemplo, Ballou (2004).
Por exemplo, se três anos de dados históricos estão disponíveis, pode-se usar os dois
primeiros anos para otimizar os parâmetros do modelo e, então, simular a previsão de
demanda de cada mês do terceiro ano para verificar como a escolha dos parâmetros do modelo
reage aos dados observados deste terceiro ano.
Selecionar o método com a melhor aderência aos dados históricos (por exemplo, aos dados
dos dois primeiros anos) não necessariamente resulta em um método que produz as melhores
previsões para os dados futuros. Em geral, a melhor abordagem é selecionar o método que
resulta no menor desvio padrão (ou MSE ou outra medida de dispersão) dos erros de previsão
do próximo período, quando o modelo é aplicado aos dados que não foram usados no
processo de ajuste do método (por exemplo, os dados do terceiro ano).
Um método de previsão não pode ser tendencioso, ou seja, os erros de previsão devem flutuar
em torno de zero. A média destes erros deve ser nula e a variância destes erros deve ser
constante. Uma simples maneira de verificar a aderência das previsões aos dados observados
é plotar os erros de previsão ao longo do tempo num gráfico. As observações devem oscilar
em torno das previsões, e a magnitude destas oscilações deve se manter aproximadamente
constante ao longo do tempo.
Para se avaliar a qualidade das previsões, além do erro absoluto médio (MAD) e do erro
quadrático médio (MSE) descritos em (11) e (13) na Seção 3, pode-se também usar o erro
percentual absoluto médio (MADP) descrito em (12), e aplicá-lo para as observações
passadas. De forma geral,
• se 𝑀𝐴𝐷𝑃 ≤ 10%, a qualidade da previsão é considerada muito boa;
• se 10% < 𝑀𝐴𝐷𝑃 ≤ 20%, a qualidade da previsão é boa;
• se 20% < 𝑀𝐴𝐷𝑃 ≤ 30%, a qualidade da previsão é moderada;
• se 𝑀𝐴𝐷𝑃 > 30%, a qualidade da previsão é pobre.
Alguns autores têm observado que métodos do tipo suavização exponencial resultam em MAD
variando de 10% a 15% para a previsão do próximo período (i.e., 𝜏 = 1). Ao considerar mais
55
Para alguns exemplos, veja Ballou (2004) e Nahmias (2009).
𝐸𝑡
𝑅𝑡 = | |
𝑀𝐴𝐷𝑡
onde 𝐸𝑡 e 𝑀𝐴𝐷𝑡 são as suavizações exponenciais (simples) dos erros e dos erros absolutos de
previsão, respectivamente, dadas por:
Se a previsão não for tendenciosa, 𝐸𝑡 em (39a) deve ser pequeno em relação ao 𝑀𝐴𝐷𝑡 em
(39b). Logo, um valor grande da razão 𝑅𝑡 indica que o método de previsão não é apropriado.
Alguns autores consideram que se 𝑅𝑡 > 0,5 (para 𝛽 = 0,1), os erros 𝑒𝑡 não são aleatórios
flutuando em torno de zero; logo, o método de previsão não é mais apropriado e deve ser
modificado ou substituído.
O 𝑀𝐴𝐷𝑡 em (39b) pode ser usado para estimar o desvio-padrão do erro de previsão et,
aproximado por:
em que MSE é o erro quadrático médio descrito em (13) na Seção 3, aplicado para as
observações passadas.
56
Veja, por exemplo, as discussões em Ghiani et al. (2004) e Montgomery et al. (2008).
𝑦̂𝑇,𝑇+1 ± 𝑧√𝑀𝑆𝐸
Com base nestes dados, neste método e usando 𝑧 = 1,645, obtém-se o seguinte intervalo de
previsão para o valor de 𝑦9 :
Para calcular intervalos de previsão no período T para o período 𝑇 + 𝜏 (com 𝜏 = 1,2, . ..), a
fórmula de MSE em (13) tem que ser estendida para considerar os quadrados dos erros de
previsão 𝑒𝑡−𝜏,𝑡 em (10), computados em cada período passado 𝑡 − 𝜏 para cada período passado
t:
∑𝑇𝑡=𝜏 𝑒𝑡−𝜏,𝑡
2 ∑𝑇𝑡=𝜏(𝑦𝑡 − 𝑦̂𝑡−𝜏,𝑡 )2
𝑀𝑆𝐸𝜏 = =
𝑇−𝜏+1 𝑇−𝜏+1
Note que MSE1 coincide com a fórmula em (13). O intervalo de previsão calculado no período
presente T para o período futuro 𝑇 + 𝜏 é dado por:
𝑦̂𝑇,𝑇+𝜏 ± 𝑧√𝑀𝑆𝐸𝜏
57
Este exemplo foi inspirado num exemplo em Makridakis et al. (1998, p.44).
A parte superior da Figura 23 ilustra um diagrama de controle construído para esse exemplo,
1
onde 𝑒̅ = ∑𝑇𝑡=1 𝑒𝑡 corresponde à média dos erros das T observações da Tabela 7 (poderia
𝑇
também ser uma meta para esse erro médio, ou simplesmente 0). As linhas LCL e UCL (lower
and upper control limits) dessa figura correspondem aos limites inferior e superior de
controle, calculados considerando-se três desvios padrões dos erros para baixo e para cima (as
estimativas dos desvios padrões dos erros, 𝜎̂𝑒 , podem utilizar as expressões apresentadas
anteriormente, como (40a) ou (40b), ou outras alternativas propostas na literatura).
7,5
5,0
,
2,5
0,0
5 10 15 20 25 30 35 40 45 50
observação
Figura 23 - Diagrama de controle dos erros médios de previsão (parte superior) e do intervalo
móvel dos erros (parte inferior) (Montgomery et al, 2008, p.62)
■
Note que se os erros de previsão têm uma tendência de crescimento (ou decrescimento), isto
indica que a precisão do método de previsão está cada vez menor. Além disso, se o padrão dos
erros de previsão é periódico, isto sugere que deve existir um efeito sazonal que não está
sendo capturado pelo método de previsão.
Estimativas para o desvio padrão dos erros de previsão também são úteis para a previsão da
demanda nos próximos τ períodos (na presença de correlação) e para o cálculo de estoques de
segurança, mas esses casos não serão aqui estudados.59
Métodos de previsão complexos não são necessariamente mais precisos do que métodos mais
simples: existem estudos empíricos que mostram que, em diversos casos, a precisão das
previsões futuras obtidas por métodos mais simples (e.g., média móvel, suavização
exponencial e regressão linear) é, em média, tão boa quanto a obtida por métodos mais
complexos e sofisticados estatisticamente, isto é, métodos que requerem a estimação de um
maior número de parâmetros a partir dos dados disponíveis (métodos genéricos de regressão
linear e suavização exponencial, métodos baseados nos modelos de Box-Jenkins e métodos
baseados em inferência Bayesiana).60
59
Para mais detalhes dos diagramas de controle, veja, por exemplo, Montgomery et al. (2008) e Nahmias (2009).
60
Para exames mais detalhados destes estudos, veja, por exemplo, Makridakis et al. (1998), Montgomery et al.
(2008) e Nahmias (2009).
100
90
80 regressão linear
70
60
demanda
50
40
30
20
média m vel
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
observaç es tempo
Figura 24 – Previsões de média móvel e regressão linear simples (Nahmias, 2009, p.107)
A figura ilustra os valores correspondentes de 𝑦̂5,5+𝜏 para 𝜏 = 1, 2, . . . , 10, obtidos pelos dois
métodos. Note que, apesar do método de média móvel ser mais simples do que o método de
regressão linear, seus erros de previsão neste exemplo são bem menores do que os de
regressão linear à medida que 𝜏 cresce, devido à aparente tendência de crescimento das
primeiras 𝑇 = 5 observações da demanda, que foi capturada pela regressão linear.
■
Previsões combinadas de diferentes métodos são, em média, mais precisas do que as previsões
individuais de cada método: existe evidência baseada em estudos empíricos de que a
combinação das previsões obtidas por diferentes métodos resulta, em média, em uma previsão
mais precisa do que a previsão obtida por cada método combinado, em termos dos erros de
previsão. Um único método pode ser incapaz de capturar o padrão subjacente dos dados
históricos, enquanto vários métodos podem capturar diferentes aspectos deste padrão.
[1] [2]
Por exemplo, as previsões de dois métodos, diga-se 𝑦̂𝑇,𝑇+𝜏 e 𝑦̂𝑇,𝑇+𝜏 , podem ser combinadas
𝑐 [1] [2]
linearmente como: 𝑦̂𝑇,𝑇+𝜏 = 𝛼𝑦̂𝑇,𝑇+𝜏 + (1 − 𝛼)𝑦̂𝑇,𝑇+𝜏 , com 0 < 𝛼 < 1. Além disso, a
incerteza das previsões combinadas, em média, também é menor do que a de cada método
combinado.62 Talvez o mais recomendado seja fazer previsões usando diferentes métodos, por
exemplo, um método qualitativo e métodos quantitativos, tanto causais quanto de séries
temporais.
61
Este exemplo foi inspirado num exemplo apresentado em Nahmias (2009).
62
Para uma discussão detalhada de como combinar métodos de previsão, veja, por exemplo, Makridakis et al.
(1998).
Exercício 1:63 Em geral, a relação entre preços e vendas é negativa, ou seja, à medida que o
preço aumenta, as vendas diminuem, e vice-versa. A Tabela 8 abaixo apresenta dados
agregados de vendas de um produto (em toneladas) e seus preços (em $ por tonelada) em
diferentes períodos de tempo.
(i) Ilustre num gráfico a variação de vendas por preço e aplique o método de regressão linear
em (3a)-(3b) para determinar o modelo de previsão (4) para este exemplo com base em todas
essas 𝑇 = 25 observações. (ii) Compute 𝑆𝑆𝑇, 𝑆𝑆𝑅, 𝑆𝑆𝐸 e o coeficiente de determinação 𝑅 2
em (6). (iii) Compute também o coeficiente de correlação linear 𝑟𝑥𝑦 e analise os resultados
obtidos para essas medidas.
Exercício 2:64 Revisite a Seção 2.2 e mostre que, para uma previsão baseada em regressão
linear ajustada por quadrados mínimos, tem-se que: 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸, onde: 𝑆𝑆𝑇 =
∑𝑇𝑡=1(𝑦𝑡 − 𝑦̄ )2 , 𝑆𝑆𝑅 = ∑𝑇𝑡=1(𝑦̂𝑡 − 𝑦̄ )2, e 𝑆𝑆𝐸 = ∑𝑇𝑡=1 𝑒𝑡2 = ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2.
Exercício 3: (i) Revisite o Exemplo 5 e compute todos os dados da Tabela 1. (ii) Compute
também as médias móveis 𝑦̂𝑇,𝑇+1 em (15) agora com 𝑁 = 6 a partir do período 𝑇 = 6, calcule
as medidas de erro MAD e MSE, e mostre que as previsões ficam menos reativas se
comparadas com as previsões com 𝑁 = 3 e 𝑁 = 6, conforme ilustrado na Figura 8. (iii)
Determine o valor de N que minimiza o MAD.
Exercício 4: (i) Revisite o Exemplo 6 e compute todos os dados da Tabela 2. (ii) Compute
também as suavizações exponenciais em (16) agora com 𝛼 = 0,4, calcule as medidas de erro
MAD e MSE, e mostre que as previsões ficam mais reativas se comparadas com as previsões
com 𝛼 = 0,1, conforme ilustrado na Figura 10. (iii) Determine o valor de que minimiza o
MAD.
Exercício 5:65 Revisite o final da Seção 4.2 e mostre que derivando-se 𝑔(𝑎) e igualando-a a
zero, obtém-se a fórmula recursiva de suavização exponencial definida em (16): 𝑎̂ 𝑇 = 𝛼𝑦𝑇 +
(1 − 𝛼)𝑎̂ 𝑇−1 .
63
Este exercício foi inspirado num exemplo apresentado em Makridakis et al. (1998, p.192).
64
Veja, por exemplo, Winston (1994) e Makridakis et al. (1998).
65
Veja, por exemplo, Johnson e Montgomery (1974).
Exercício 8: Revisite a Seção 5.1 e mostre que derivando-se 𝑔(𝑎) em (20) em relação aos
coeficientes a e b e igualando-se a zero, obtém-se o melhor ajuste da reta (mínimo desvio
quadrático) dado por 𝑎̂ e 𝑏̂ em (21a) e (21b).
Exercício 9: (i) Revisite o Exemplo 8 e compute os valores de 𝑎̂5 e 𝑏̂5 usando (21a) e (21b) e
os valores ilustrados na Figura 14 usando a reta de regressão linear (22) para 𝑇 = 5. (ii)
Compute também os valores de 𝑎̂6 e 𝑏̂6 usando (21a) e (21b) e os novos valores obtidos para a
Figura 14 usando a reta de regressão linear (22) para 𝑇 = 6. (iii) Além disso, compute 𝑆𝑆𝑇,
𝑆𝑆𝑅, 𝑆𝑆𝐸 e o coeficiente de determinação 𝑅 2 em (6) (note que a variável independente
(causal) 𝑥 corresponde aos períodos de tempo 𝑡 = 1, 2, … , 𝑇). (iv) Compute também o
coeficiente de correlação linear 𝑟𝑥𝑦 e análise os resultados obtidos para essas medidas.
Exercício 11:66 Considere que a previsão da demanda de um certo item para o próximo
período era igual a 100 (i.e., 𝑦̂0,1 = 𝑎̂1 = 100). No entanto, as demandas deste item flutuaram
ao longo dos próximos 𝑡 = 1, 2, … ,5 períodos, por exemplo, foram iguais a 72, 170, 67, 95 e
130, respectivamente. (i) Aplique o método de suavização exponencial simples em (16) com
𝛼 = 0,2 para estimar a demanda de cada um destes próximos 5 períodos após a observação de
cada demanda realizada (i.e., determine 𝑦̂1,2, 𝑦̂2,3 , ..., 𝑦̂5,6 ). (ii) Aplique também a suavização
exponencial do método de Holt em (24a)-(24b) com 𝛼 = 0,2 e 𝛽 = 0,1 para estimar a
demanda de cada um destes próximos 5 períodos após a observação de cada demanda
realizada (i.e., determine 𝑦̂1,2, 𝑦̂2,3 , ..., 𝑦̂5,6 ). Para isso, suponha que 𝑦̂0,1 = 𝑎̂1 = 100 e 𝑏̂1 =
0. (iii) Compare os erros de previsão dos dois métodos.
Exercício 12: (i) Usando os dados observados para os períodos 𝑡 = 1, 2, … , 5 do Exercício 11,
aplique o método de regressão linear em (21a)-(21b) para estimar as demandas dos próximos
três períodos 𝑡 = 6, 7, 8 a partir do período 𝑇 = 5 (i.e., determine 𝑦̂5,6 , 𝑦̂5,7 e 𝑦̂5,8 ). (ii)
Compare as previsões obtidas com as previsões do método de Holt do Exercício 11.
Exercício 13: (i) Refaça o Exemplo 9 para a regressão linear (22) e para o método de Holt
(25) (com diferentes valores de e ) e para a suavização exponencial dupla (26) (com
diferentes valores de ). (ii) Calcule as medidas de erro MAD e MSE e compare as previsões
dos três métodos.
Exercício 14: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters) e resolva agora
pelo método de decomposição da série temporal usando as expressões (29) e (30). (ii)
Compare as previsões obtidas com as do Exemplo 10 e também os erros de previsão MAD e
MSE.
66
Este exercício foi inspirado num exemplo apresentado em Axsater (2006, p.15).
Exercício 16: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters com modelo
multiplicativo definido por (31a), (31b) e (31c)) e resolva agora pelo método de Winters com
modelo aditivo definido por (34a), (34b) e (34c). (ii) Compare as previsões obtidas com as do
Exemplo 10 e também os erros de previsão MAD e MSE.
Exercício 17: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters) e resolva agora
aplicando um método genérico de regressão linear conforme modelo (35) ou de suavização
exponencial conforme modelo (36) da Seção 7.2. Utilize várias funções matemáticas para
ajustar a curva hipotética à série temporal do Exemplo 10, por exemplo, incluindo funções
harmônicas (senos, cossenos, etc.) para tentar capturar a sazonalidade da série temporal. (ii)
Compare as previsões obtidas com as do Exemplo 10 e também os erros de previsão MAD e
MSE.
Exercício 18: Considere os dados de demanda e as previsões de demanda obtidas pelo método
de Holt no Exercício 11. (i) Aplique as suavizações exponenciais simples para os erros 𝐸𝑡 e os
erros absolutos de previsão 𝑀𝐴𝐷𝑡 em (39a) e (39b) com 𝛽 = 0,1 para todos os 𝑡 = 1, 2, … , 5
períodos, para estimar esses erros em cada um desses períodos. (ii) Compute também os
intervalos de previsão usando (40a) ou (40b) com diferentes probabilidades (e.g., 68%, 90%,
95%, 99%) de conter o valor da demanda.
Exercício 19: Considere os dados observados e as previsões de demanda obtidas pelo método
de previsão do Exemplo 15. (i) Compute os erros 𝐸𝑡 e os erros absolutos de previsão 𝑀𝐴𝐷𝑡
conforme (39a) e (39b) para todos os períodos 𝑡 = 1, 2, … , 8, e aplique o teste de
monitoramento de sinal definido razão 𝑅𝑡 . (ii) Compute também os intervalos dos erros de
previsão (intervalos de confiança) para diferentes probabilidades (níveis de significância). (iii)
Além disso, compute os intervalos de previsão usando (40a) ou (40b) com diferentes
probabilidades de conter o valor da demanda. (iv) Calcule também intervalos de previsão no
período 𝑇 = 8 para períodos 𝑇 + 𝜏 (com 𝜏 = 1, 2, . ..) usando a fórmula estendida de 𝑀𝑆𝐸𝜏 .