Cap 2 - Previsao

Previsão de demanda
Sumário:
1. Introdução
1.1 Previsões de longo, médio e curto prazo
1.2 Métodos qualitativos e quantitativos
1.3 Etapas de um processo de previsão
Parte I – Métodos causais
2. Regressão linear
2.1 Regressão linear simples
2.2 Qualidade do ajuste
2.3 Regressão linear múltipla
Parte II – Métodos de séries temporais
3. Séries temporais
3.1 Padrões regulares e irregulares
3.2 Demanda independente e dependente
3.3 Previsão e medidas de erros de previsão
4. Métodos de séries temporais estacionárias

4.1 Média móvel
4.2 Suavização exponencial
4.3 Comparação de média móvel e suavização exponencial
4.4 Suavização exponencial para estimar distribuição de probabilidade
5. Métodos de séries temporais com tendência

5.1 Regressão linear
5.2 Método de Holt
5.3 Suavização exponencial dupla e de ordem superior
6. Métodos de séries temporais com tendência e sazonalidade

6.1 Decomposição da série temporal
6.2 Método de Winters
Parte III – Outros métodos e validação e monitoramento dos métodos
7. Outros métodos de séries temporais e causais

7.1 Suavização exponencial para demanda esporádica
1 2. Previsão de demanda – Reinaldo Morabito

7.2 Métodos genéricos de regressão linear, média móvel e suavização
exponencial
7.3 Métodos baseados em modelos de Box-Jenkins
7.4 Métodos baseados em inferência Bayesiana
7.5 Redes neurais e outros métodos causais
8. Validação e monitoramento dos métodos de previsão

8.1 Monitoramento de sinal e intervalos de previsão
8.2 Diagramas de controle
8.3 Considerações finais
9. Exercícios
1. Introdução
Previsão (forecasting) basicamente é o processo de prever eventos futuros; é uma tentativa de
determinar a priori os valores futuros mais prováveis de uma variável (aleatória) de interesse,
conforme comentado no Capítulo 1. Problemas de previsão são importantes em diversas áreas,
incluindo negócios, indústria, governo, economia, ciências do ambiente, medicina, ciências
sociais, política e finanças.
Nos contextos de produção, logística, serviços e cadeias de suprimento, muitas decisões em

projeto e configuração da rede de produção e logística, gestão e controle de estoques,
planejamento da produção e logística, programação da produção e logística, planejamento de
transportes e outros serviços, entre outros, dependem de boas previsões dos valores futuros de
diversas variáveis, em que a demanda de produtos e serviços é o principal exemplo. Para
serem eficientes, o planejamento, a programação e o controle das atividades de produção e
logística dependem de estimativas precisas dos volumes de produtos e serviços, a serem
produzidos e processados ao longo da cadeia de suprimentos.
Estas previsões em geral são realizadas em conjunto com as áreas comerciais de vendas e de
marketing das empresas que, assim com as áreas de produção e logística, também têm grande
interesse em boas previsões de demanda. Alguns exemplos de problemas de produção e
logística que dependem destas previsões são: localização e dimensionamento de facilidades e
instalações (e.g., plantas, centros de distribuição e armazéns), controle de estoques e seus
posicionamentos na rede, planejamento agregado da produção e logística, dimensionamento
de lotes de produção e sequenciamento desses lotes numa linha de produção, programação de
transportes (e.g., programação de embarques e roteirização de veículos), alocação de recursos
ao longo da cadeia de suprimentos (e.g., alocação da frota de veículos na rede), etc.
Além da demanda dos clientes, outros exemplos de variáveis de interesse para produção,
logística e marketing, são: leadtimes e prazos de entrega, preços e disponibilidades de
matérias-primas, custos de mão de obra, necessidades de capacidade, cargas de trabalho,
fluxos de caixa, taxas de juros, etc. Empresas têm se beneficiado ao fazerem boas previsões
dos valores futuros destas variáveis, mas também têm pagado altos preços ao fazerem

previsões ruins. Obviamente, nem todos os eventos podem ser bem previstos com razoável
precisão.
Embora o material deste capítulo se aplique para previsão de qualquer uma destas variáveis de
interesse em produção e logística, a ênfase é na previsão da demanda de um produto ou
serviço. No caso de atividades de produção, o foco da previsão quando utilizada para apoiar
decisões no planejamento e controle da produção em geral é na natureza temporal da demanda
(i.e., qual a demanda em cada período). Mas nas atividades logísticas, que fazem a ligação
entre os centros de produção e os mercados, em geral separados pela distância e pelo tempo, a
previsão de demanda também deve abranger a natureza espacial da demanda (i.e., qual a
demanda em cada região). Neste caso, duas possíveis abordagens podem ser aplicadas para
prever a distribuição espacial da demanda: de cima para baixo (top-down) ou de baixo para
cima (bottom-up). Na primeira, inicialmente a demanda total é prevista (previsão agregada) e
depois desagregada para cada região, enquanto que na segunda, a demanda de cada região é
prevista (previsão desagregada) e depois agregada, se necessário.
1.1 Previsões de longo, médio e curto prazo

Nos sistemas de produção e logística é usual separar a previsão em função do horizonte de
tempo em que as decisões são revisadas: longo prazo, médio prazo e curto prazo, conforme
discutido na Seção 2.2 do Capítulo 1.
Previsão de longo prazo: na previsão de longo prazo (também chamada de estratégica), o

horizonte de tempo é tipicamente de vários anos e o nível de agregação de informações na
análise em geral é alto. A previsão estratégica é utilizada para auxiliar decisões de, por
exemplo, qual será a estratégia de produção e logística e da cadeia de suprimentos da empresa,
qual o projeto e a configuração dos sistemas de produção e da rede logística, quais produtos
novos serão colocados no mercado e quais produtos existentes serão retirados, etc.
Obviamente as incertezas nestas previsões são grandes e envolvem, entre outros,

considerações de mudanças políticas e econômicas, avanços de tecnologia e obsolescência de
produtos, necessidades de capacidade (com construção de novas instalações, ou redução de
existentes), padrões de vendas de longo prazo e tendências de crescimento.
Previsão de médio prazo: na previsão de médio prazo (também chamada de tática), o

horizonte de tempo é tipicamente de vários meses a um ano. A ideia é estimar os padrões de
vendas para famílias de produtos e serviços. Exemplos de decisões apoiadas pela previsão
tática são: definição dos planos agregados de produção e dos planos de distribuição,
subcontratação de produção e posicionamento de estoques nos depósitos da rede, necessidades
e disponibilidades de mão de obra e outros recursos, alocação de veículos na rede, etc.
Exemplos destas decisões táticas aparecem nos Capítulos 3, 4 e 5.
Previsão de curto prazo: na previsão de curto prazo (também chamada de operacional), o

horizonte de tempo é tipicamente de dias ou poucas semanas, podendo chegar a apenas um dia
ou algumas horas, dependendo do caso. A previsão operacional preocupa-se em estimar
principalmente vendas de curto prazo de produtos. É necessária para o controle de estoques e
para a programação de produção e distribuição derivados de sistemas de planejamento de
necessidades de materiais e recursos (como sistemas MRP). Auxilia também na programação
de mão de obra e dos turnos de trabalho e horas extras. Exemplos destas decisões operacionais
aparecem nos Capítulos 3, 6 e 7.

Em particular, no contexto de controle de estoques existem duas razões principais para se
fazer previsão de demanda. Primeiro, em geral, existe um leadtime entre o instante do pedido
do cliente e o instante em que o pedido é entregue ao cliente. Segundo, devido a certos custos
do pedido, frequentemente é necessário pedir em lotes, ao invés de unidade por unidade.
Métodos de previsão são particularmente importantes em sistemas make-to-stock, em que
níveis de estoque devem ser definidos em cada centro de estocagem da rede.
1.2 Métodos qualitativos e quantitativos

É comum na literatura a separação das abordagens de previsão em métodos qualitativos e
quantitativos. De fato, alguns autores preferem chamar de predição (prediction) a estimativa
“subjetiva”, baseada em abordagens qualitativas para antecipar os efeitos de fatores
qualitativos nos padrões de demanda, como mudanças na política e economia, avanços de
tecnologia, introdução de novos produtos e serviços no mercado, etc.
O termo previsão (forecasting) refere-se à estimativa “objetiva”, que envolve analisar dados
passados (quando disponíveis) e projetá-los no futuro usando principalmente modelos
matemáticos e estatísticos. Supõe-se que o comportamento passado das variáveis seja
relevante para prever os valores futuros destas e de outras variáveis. A partir de um conjunto
de dados históricos disponíveis, fazem-se inferências sobre os valores futuros das variáveis.
Métodos de previsão qualitativos ou subjetivos (predição): estes métodos são baseados

essencialmente no julgamento e conhecimento acumulado, intuição, pesquisas de mercado e
técnicas comparativas, para produzir estimativas quantitativas sobre o futuro. Em geral eles
são utilizados para previsão de médio a longo prazo, principalmente quando há falta de dados
históricos relevantes para a previsão. Alguns exemplos são:
(i) Estimativas da equipe de vendas e de especialistas: estas estimativas são combinadas por
região geográfica, família de produtos, entre outros. Elas exploram a experiência e a
proximidade dos vendedores junto aos clientes. Especialistas também podem ser consultados
para se chegar a um consenso quando não há dados históricos suficientes (e.g., vendas futuras
de novos produtos).
(ii) Pesquisas de mercado (opinião): surveys, entrevistas, questionários, etc., são aplicados
junto aos clientes e as informações obtidas são compiladas e analisadas. Em geral consomem
bastante tempo e recursos, e requerem cuidados estatísticos com os procedimentos de
amostragem envolvidos.
(iii) Método Delphi: assim chamado por causa do antigo oráculo grego que supostamente
tinha o poder de prever o futuro, talvez seja o método qualitativo mais formal e mais bem
conhecido. Utiliza um grupo de especialistas que, numa primeira fase, é separado fisicamente
para evitar que opiniões individuais ou de formadores de opinião influenciem a opinião de
todo grupo. Cada especialista responde um questionário contendo uma série de questões e
retorna as informações para um coordenador, que depois compila e distribui novamente estas
informações para o grupo, para que cada um revise e reavalie suas previsões com base nas
previsões dos outros. Depois de várias iterações, espera-se que as previsões dos especialistas
convirjam para um consenso, embora isso não seja um requisito do método.

Convém salientar que existem algumas preocupações com métodos de previsão qualitativos
baseados essencialmente no julgamento humano. Por exemplo, eventos recentes costumam
dominar as previsões, ao invés de uma ponderação mais cuidadosa entre a experiência passada
e recente, o que pode prejudicar as previsões. Também é comum um certo otimismo ao prever
demandas de produtos, principalmente quando as pessoas envolvidas nas previsões são
executivos ou gerentes interessados nas vendas e no sucesso destes produtos. Julgamentos
humanos também frequentemente cometem erros ao correlacionarem variáveis de interesse,
por exemplo, considerar fatores que interferem nas demandas de produtos. Estes julgamentos
também costumam subestimar a variabilidade das suas previsões – eles raramente consideram
incertezas de uma maneira mais formal e, como resultado, frequentemente subestimam as
magnitudes e os efeitos das incertezas.
Métodos de previsão quantitativos ou objetivos: nestes métodos a previsão é derivada da

análise dos dados históricos. Devido a estes dados passados em muitos casos exibirem inércia
e não mudarem rapidamente de maneira substancial, os métodos matemáticos e estatísticos
podem ser úteis para fazer previsões, principalmente de curto a médio prazo.
Em muitos casos estes métodos podem ser úteis para prever boa parte da demanda. Para isso,
a demanda precisa mostrar certo grau de regularidade; por exemplo, quando os padrões da
demanda se mantêm quase os mesmos no futuro, ou quando eles dependem fortemente de
valores passados de outras variáveis. Nestes casos diz-se que a demanda é regular. Padrões
com tendências, ciclos e variações sazonais podem estar presentes e ajudar no processo de
previsão.
Para os propósitos deste capítulo, separa-se os métodos quantitativos em duas classes

importantes, métodos de séries temporais e métodos causais:1
(i) Métodos de séries temporais: também chamados de métodos de projeção histórica ou

descritivos, admitem que o futuro é uma réplica do passado, pelo menos em grande parte. Em
outras palavras, estes métodos admitem que alguns aspectos dos padrões passados observados
dos valores de uma variável aleatória de interesse vão continuar no futuro. Baseiam-se na
extrapolação da série temporal (ou série de tempo), que pode ser definida como uma
sequência cronológica de observações dos valores da variável aleatória de interesse. A Figura
1 ilustra uma série temporal. Admite-se que essa série de dados disponíveis tem natureza
discreta, isto é, as informações são conhecidas apenas em certos pontos no tempo; diga-se, as
observações de demanda de um produto em cada semana ou em cada mês.
1
Alguns autores dividem as abordagens quantitativas de previsão em: (i) métodos baseados em regressão
(métodos causais), (ii) métodos de suavização heurísticos e (iii) modelos de séries temporais genéricos; veja, por
exemplo, Montgomery et al. (2008).

nidades, em mil ares
emanas
Figura 1 – Exemplo de uma série temporal (Montgomery et al., 2008, p.6)
Considere, por exemplo, que 𝑦𝑡 é a demanda de um produto no período t. Os métodos de

séries temporais são baseados no modelo geral:
𝑦𝑡 = 𝑓(𝑦𝑡−1 , 𝑦𝑡−2 , . . . , 𝑦𝑡−𝑇 , 𝜀)
em que 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑇 são as demandas do produto nos períodos anteriores 𝑡 − 1, 𝑡 − 2,
… , 𝑡 − 𝑇. Devido a modelos serem representações simplificadas da realidade, o termo de erro
ou desvio 𝜀 é incluído na função 𝑓 para representar variações aleatórias na demanda 𝑦𝑡 que
não são consideradas apenas pelas variáveis 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑇 , em 𝑓. Métodos de séries
temporais tentam separar e reduzir o componente de desvio 𝜀 da função 𝑓, para que o modelo
possa ser utilizado para previsão.
Estes métodos são mais comumente usados para aplicações de curto a médio prazo, por
exemplo, em planejamento, programação e controle de operações dos próximos capítulos
deste livro. Podem ser aplicados tanto em séries temporais estacionárias quanto não
estacionárias (com tendência, sazonalidade, etc.), a serem discutidas na Seção 4, Seção 5 e
Seção 6. Alguns exemplos são: métodos de média móvel, técnicas de suavização exponencial,
regressão linear, decomposição de séries temporais, métodos Bayesianos e métodos baseados
nos modelos de Box-Jenkins.
(ii) Métodos causais: também chamados de métodos explanatórios, usam dados de outras
fontes além das séries temporais, ligando outras variáveis. Estes métodos admitem que a
variável a ser prevista exibe uma relação explanatória com uma ou mais variáveis, e tentam
descrever relações causais (ou explanatórias) entre as variáveis. Por exemplo, se o nível de
serviço ao cliente está diretamente relacionado com as vendas dos produtos, então diz-se que
o nível de serviço “causa” (ou “explica”) vendas.

Considere, por exemplo, que y é a demanda de um produto e que 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , são variáveis
que se acredita estarem relacionadas com a variável 𝑦. Os métodos causais são baseados no
modelo geral:
𝑦 = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , 𝜀)
em que, como modelos não são exatos, o termo de desvio 𝜀 representa mudanças aleatórias na
demanda 𝑦 que não são levadas em conta pelas variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , da função 𝑓. Métodos
causais tentam reduzir o componente de desvio aleatório 𝜀 da função 𝑓, para que o modelo
possa ser utilizado para previsão. Note que, diferente dos métodos de séries temporais, os
métodos causais não são necessariamente dependentes do tempo (por exemplo, se os dados de
todas as variáveis 𝑥1 , 𝑥2 , . .., 𝑥𝑚 , referem-se ao mesmo período de tempo).
Estes métodos são mais comumente usados para previsões de médio a longo prazo, mas
também podem ser aplicados para previsão de curto prazo em certos casos. Alguns exemplos
são métodos baseados em regressão (linear e não linear, simples e múltipla) e modelos
econométricos, métodos de entrada e saída, análises de ciclo de vida de produtos, simulação
computacional e redes neurais. Embora também seja possível combinar métodos de séries
temporais com métodos causais, isto não será discutido neste capítulo.2
Conforme alguns surveys realizados nos EUA e Europa, os métodos quantitativos mais
utilizados para previsões de curto e médio prazo são: média móvel, regressão linear,
suavização exponencial, decomposição da série temporal e métodos baseados nos modelos de
Box-Jenkins.3
Nosso enfoque neste capítulo é nos métodos de previsão quantitativos para apoiar decisões
principalmente de curto e médio prazo. Conforme apontado por vários autores, algumas
observações importantes sobre estes métodos são:4
Quanto mais longo o horizonte de tempo, em geral menor a precisão da previsão: por
exemplo, prever a demanda de um serviço logístico para a semana seguinte pode ser mais
preciso do que para algumas semanas adiante. Isto porque quanto maior o horizonte de tempo,
maior é a probabilidade de eventos inesperados.
Outro aspecto importante é a definição do horizonte de previsão, ou seja, o número de

períodos futuros para os quais previsões precisam ser fornecidas. Nos casos em que as
previsões são revisadas em cada período do horizonte de previsão, então tem-se uma
abordagem de previsão com horizonte móvel ou rolante.
Uma boa previsão é mais do que um simples número: em geral não é suficiente apenas
estimar a demanda média (estimativa pontual), mas também determinar quanto incerta é a sua
previsão. Em geral esta estimativa pontual não coincide com a observação futura, e por isso
precisa-se ter um bom conhecimento da magnitude dos erros de previsão. Consequentemente,
também é necessário estimar a extensão da variabilidade da demanda (por meio de intervalos
de previsão) e as medidas de erros da previsão.
2
Para mais detalhes de como combinar métodos de series temporais e métodos causais, veja, por exemplo,
Makridakis et al. (1998).
3
Veja, por exemplo, a discussão em Ghiani et al. (2004).
4
Veja, por exemplo, Makridakis et al. (1998), Montgomery et al. (2008) e Nahmias (2009).

Previsões agregadas geralmente são mais precisas do que previsões desagregadas: por
exemplo, é mais preciso prever a demanda de uma família de produtos do que a demanda
individual de cada produto da família (agregação por família de produtos); é mais preciso
prever a demanda semestral de um produto do que suas demandas em cada mês deste semestre
(agregação temporal); é mais preciso prever a demanda de uma região do que a demanda de
cada sub-região que a compõe (agregação espacial).
Isto pode ser explicado pelo seguinte argumento. Suponha que as demandas de n produtos são
representadas pelas variáveis aleatórias independentes e identicamente distribuídas
𝑥1 , 𝑥2 , … , 𝑥𝑛 , com cada demanda 𝑥𝑖 com média 𝐸(𝑥𝑖 ) = 𝑥̄ e variância 𝑉(𝑥𝑖 ) = 𝜎𝑥2 . Note que a
demanda agregada (soma destas variáveis aleatórias):
𝑦 = 𝑥1 + 𝑥2 +. . . +𝑥𝑛
tem média 𝐸[𝑦] = 𝑦̄ = 𝑛𝑥̄ e variância 𝑉[𝑦] = 𝜎𝑦2 = 𝑛𝜎𝑥2 . Portanto, o coeficiente de variação
da demanda agregada 𝑦 (i.e., a razão entre o desvio padrão e a média de 𝑦), que indica a
dispersão relativa de 𝑦 em relação à sua média, é:
𝜎𝑦 √𝑛𝜎𝑥2 1 𝜎𝑥
= =
𝑦̄ 𝑛𝑥̄ √𝑛 𝑥̄
ou seja, bem menor (i.e., 1/√𝑛) do que o coeficiente de variação de cada produto 𝜎𝑥 /𝑥̄ . Em
outras palavras, quanto maior o número de clientes e produtos envolvidos, menor é o efeito
das forças aleatórias e maior é a precisão e confiabilidade das previsões.
Previsões não devem ser usadas sem considerar informação presente: por exemplo, os dados
históricos de vendas de um produto não levam em conta as promoções de vendas que a
empresa (ou a empresa concorrente) está planejando para este produto. Nestes casos, estas
informações devem ser consideradas de alguma forma junto com as previsões geradas pelo
método quantitativo, para alterar apropriadamente as estimativas de vendas do produto, ou
mesmo até substituí-las.
Previsões manuais também devem ser consideradas em outras situações, como, por exemplo,
mudanças nos preços dos produtos, alterações na legislação e novos produtos competindo no
mercado.
Previsões de demanda versus previsões de vendas do produto: um aspecto prático importante

é que em geral é difícil medir a demanda de um produto, uma vez que comumente apenas as
vendas do produto são registradas. Se ao invés do histórico da demanda, for usado o histórico
de vendas para a previsão da demanda, erros consideráveis podem ser incorridos nas situações
em que uma parte relativamente grande da demanda total é perdida devido às faltas no
atendimento dos pedidos.
Em outras palavras, o objetivo é prever a demanda, mas em geral observam-se apenas as

vendas (ou seja, sem as vendas perdidas). Desta maneira, a média e variância amostrais das
vendas em geral subestimam as verdadeiras média e variância da demanda. Existem algumas
técnicas que podem ser úteis, como a amostra censurada (censored sample), que explora o
fato de que se conhece os valores da demanda em apenas parte da amostra (veja Seção 8.3
adiante); nas outras partes conhece-se apenas um limitante superior da demanda.5
5
Exemplos destas técnicas estão apresentados em Nahmias (2009).

Previsões de cima para baixo (top-down) não são necessariamente mais precisas do que
previsões de baixo para cima (bottom-up): suponha que se deseja prever a demanda de uma
região e também a demanda de cada sub-região que compõe esta região. É melhor prever a
demanda agregada da região e depois desagregá-la por sub-região, por meio de índices que
refletem a proporção de cada sub-região do total (cima para baixo), ou prever a demanda
(desagregada) de cada sub-região e depois agregá-las (i.e., somá-las) para obter a demanda da
região (baixo para cima)?
A resposta desta pergunta não é óbvia. Em alguns casos, medir a quantidade agregada é mais
preciso (e menos dispendioso) do que medir as quantidades desagregadas, e a abordagem de
cima para baixo pode ser preferível. Em outros casos, as quantidades desagregadas são mais
fáceis de serem obtidas e estão sujeitas a menores erros de medição, o que favorece a
abordagem de baixo para cima.
1.3 Etapas de um processo de previsão

Processos de previsão baseados em métodos quantitativos em geral envolvem as seguintes
etapas:6
(i) Definição do problema de previsão: envolve definir, entre outros, as variáveis de interesse
e o horizonte de previsão. Esta é uma etapa importante porque se as variáveis de interesse não
forem identificadas corretamente, as etapas seguintes serão afetadas. Em geral o horizonte de
previsão é dividido em um número finito de períodos e todos os períodos têm a mesma
duração (e.g., períodos diários, semanais, mensais, anuais, etc.). Nos casos de previsão de
demanda de múltiplos produtos (ou famílias de produtos) e múltiplas regiões, envolve também
decidir o nível de agregação das previsões.
(ii) Coleta de dados: consiste em obter dados históricos relevantes para as variáveis de
interesse, incluindo também, no caso de métodos causais, informações e dados históricos para
as variáveis causais destes métodos.
(iii) Análise de dados: é uma etapa intermediária importante para auxiliar na seleção do
método de previsão. Envolve a compilação de estatísticas dos dados históricos (e.g., médias,
desvios padrões, valores mínimos e máximos, etc.) e construção de gráficos para investigar
visualmente possíveis padrões das séries temporais, como tendências, sazonalidade, ciclos
(não necessariamente sazonais, tais como ciclos econômicos), etc. Podem envolver
transformações matemáticas dos dados (e.g., por meio do cálculo de logaritmos e raízes
quadradas dos valores originais, para estabilizar as variações dos dados) e ajustes dos dados
devido aos efeitos de calendário e mudanças na população e inflação (para corrigir variações
do número de dias em cada mês). Note, por exemplo, que a diferença de dias entre janeiro e
fevereiro (de um ano não bissexto) pode ter um efeito importante nos dados: (31 − 28)⁄30 =
10%.
(iv) Seleção do método: consiste em escolher um ou mais métodos de previsão e estimar os

seus parâmetros (desconhecidos), com base nos dados históricos e em geral aplicando o
critério de mínimos quadrados (discutido a partir da Seção 2). A seleção do método deve ser
sempre precedida por análises dos dados e visualização de gráficos.
6
Veja, por exemplo, Makridakis et al. (1998) e Montgomery et al. (2008).

(v) Validação do método: envolve uma avaliação do método escolhido para determinar se ele
trata satisfatoriamente o problema de previsão. Uma técnica comumente utilizada nesta fase é
separar os dados históricos em dois segmentos – um segmento de ajuste e outro de previsão. O
método é ajustado com base nos dados do segmento de ajuste e então é aplicado para prever
os dados do segmento de previsão, como se eles fossem desconhecidos, para se avaliar a
qualidade (e os erros) das previsões obtidas pelo método.
(vi) Implantação do método: consiste em implantar o método de previsão para o usuário.

Nesta fase, é importante garantir que as informações necessárias para utilização do método
estarão disponíveis e que o usuário saiba como utilizar adequadamente o método para gerar
previsões.
(vii) Monitoramento do desempenho do método: envolve uma avaliação do desempenho do

método ao longo da sua utilização, por meio do monitoramento dos erros de previsão
(discutido na Seção 8). Diagramas de controle dos erros de previsão podem ser usados nesta
fase, para auxiliar neste monitoramento.
O restante deste capítulo está separado em três partes. Na Parte I, apresenta-se resumidamente
métodos causais baseados em regressão linear. Na Parte II, apresenta-se diversos métodos
baseados em séries temporais. Na Parte III, discute-se outros métodos de previsão que
também podem ser vistos como métodos de séries temporais e métodos causais, e também se
apresenta algumas técnicas de validação e monitoramento dos métodos.
Parte I – Métodos causais

Métodos causais tentam prever os valores futuros de uma variável (chamada variável
dependente ou de resposta), usando dados passados para estimar a relação entre a variável
dependente e uma ou mais variáveis independentes (também chamadas variáveis causais ou
explanatórias ou preditoras).
Exemplos de variáveis dependentes e independentes são vendas de um produto e preço do

produto (i.e., o preço do produto “causa” vendas do produto), empréstimos de din eiro e taxa
de juros (a taxa de juros “causa” empréstimos de din eiro), demandas de peças de reposição e
número e idade dos equipamentos que utilizam estas peças (a quantidade de equipamentos e
seus tempos de uso “causam” necessidade destas peças de reposição), vendas de sorvetes e
condições meteorológicas, tais como temperatura e dias ensolarados (a temperatura e a luz
“causam” vendas de sorvetes), etc.7
Uma vantagem dos métodos causais é suas habilidades para antecipar variações no padrão da
variável dependente (e.g., da demanda). Por outro lado, uma desvantagem destes métodos é a
dificuldade para se identificar as variáveis causais mais relevantes.
2. Regressão linear
Métodos causais utilizam principalmente técnicas de regressão, em geral, regressão linear.
Sejam:
7
Alguns autores preferem fazer distinções entre correlação e relação de causa-efeito - duas variáveis x e y podem
estar altamente correlacionadas positivamente, embora um aumento no valor de x não necessariamente “cause”
um aumento no valor de y; veja, por exemplo, Makridakis et al. (1998).

𝑦 a variável dependente (e.g., a demanda)
𝑥1 , 𝑥2 , . . . , 𝑥𝑚 as 𝑚 variáveis independentes (causais) que se acredita estarem relacionadas
com y.
Conforme mencionado anteriormente, métodos causais baseiam-se na função:
𝑦 = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , 𝜀)
em que o termo de desvio 𝜀 representa mudanças aleatórias na demanda y que não são levadas
em conta pelas variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , da função 𝑓. Em geral 𝜀 é considerado como um erro
estatístico (também chamado de flutuação ou ruído aleatório), suposto com média 𝐸[𝜀] = 0 e
variância constante 𝑉[𝜀] = 𝜎𝜀2 . Nos casos em que a função f é linear, esta também é chamada
de modelo econométrico:8
𝑦 = 𝑤0 + 𝑤1 𝑥1 + 𝑤2 𝑥2 +. . . +𝑤𝑚 𝑥𝑚 + 𝜀 (1)
onde 𝑤0 , 𝑤1 , . . . , 𝑤𝑚 são constantes (pesos) a serem estimadas, em geral por regressão linear e
pelo critério dos mínimos quadrados9, conforme discutido a seguir.
2.1 Regressão linear simples

Considere o modelo (1) simplificado para o caso de apenas uma variável independente (i.e.,
𝑚 = 1, 𝑤0 = 𝑎, 𝑤1 = 𝑏, 𝑥1 = 𝑥), dado por:
𝑦 = 𝑎 + 𝑏𝑥 + 𝜀 (2)
Note que 𝜀 é o desvio aleatório entre a variável dependente y e a reta 𝑎 + 𝑏𝑥 em (2), em que a
é o intercepto e b é a inclinação da reta.
Por conveniência, admita que dispõe-se de dados observados das variáveis x e y nos últimos T
períodos, diga-se os pares: (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ).10 Sejam 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 os desvios
correspondentes entre cada valor observado da variável dependente 𝑦𝑡 e cada valor da reta
𝑎 + 𝑏𝑥𝑡 nos períodos 𝑡 = 1, 2, . . . , 𝑇, ou seja:
𝜀𝑡 = 𝑦𝑡 − (𝑎 + 𝑏𝑥𝑡 ), com 𝑡 = 1, 2, . . . , 𝑇
Admite-se que 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 são independentes e identicamente distribuídos com média

𝐸[𝜀𝑡 ] = 0 e variância constante 𝑉[𝜀𝑡 ] = 𝜎𝜀2 . A Figura 2 ilustra estes desvios para uma reta
8
Em geral, modelos econométricos envolvem as previsões de várias variáveis dependentes relacionadas com
diversas variáveis causais (explanatórias), e, em alguns casos, deseja-se fazer previsões também de algumas das
variáveis causais. Tais modelos resultam em sistemas de equações lineares, ao invés de uma única equação linear
conforme (1), que devem ser resolvidos simultaneamente por envolverem variáveis interdependentes.
9
Esta abordagem baseada em mínimos quadrados foi desenvolvida por Gauss há cerca de dois séculos e é uma
das mais utilizadas na estatística clássica.
10
Por conveniência, admite-se que os dados das variáveis x e y foram observados nos últimos T períodos.
Conforme mencionado anteriormente, os métodos causais não são necessariamente dependentes de séries
temporais e pode-se ter situações em que todos os T dados observados das variáveis x e y independem do tempo
(por exemplo, 𝑥𝑡 e 𝑦𝑡 referem-se, respectivamente, às temperaturas de diferentes regiões e às demandas de
sorvetes destas diferentes regiões 𝑡 = 1, 2, … , 𝑇, ao invés de diferentes períodos).

hipotética 𝑎 + 𝑏𝑥 (desvios verticais entre cada observação e a reta da figura). Define-se a
soma dos quadrados destes desvios 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 pela função:
𝑇 𝑇
𝑔(𝑎, 𝑏) = ∑ 𝜀𝑡2 = ∑[𝑦𝑡 − (𝑎 + 𝑏𝑥𝑡 )]2

𝑡=1 𝑡=1
( +
1 2 3
Figura 2 – Desvios aleatórios entre valores das observações e da reta
Deseja-se determinar os valores de 𝑎̂ e 𝑏̂ que minimizam 𝑔(𝑎, 𝑏), ou seja, que melhor ajustam
a reta 𝑎 + 𝑏𝑥 em (2), baseados nos dados observados 𝑥1 , 𝑥2 , . . . , 𝑥𝑇 da variável independente x
e nos dados observados 𝑦1 , 𝑦2 , . . . , 𝑦𝑇 da variável dependente y. Note que 𝑎̂ e 𝑏̂ denotam as
estimativas dos parâmetros (desconhecidos) a e b da reta em (2), respectivamente.
Derivando-se 𝑔(𝑎, 𝑏) em relação a a e b e igualando-se a zero, obtém-se o seguinte sistema de

duas equações (lineares nas incógnitas 𝑎̂ e 𝑏̂):
𝑇
𝜕𝑔
= −2 ∑[𝑦𝑡 − (𝑎̂ + 𝑏̂ 𝑥𝑡 )] = 0
𝜕𝑎
𝑡=1
𝑇
𝜕𝑔
= −2 ∑ 𝑥𝑡 [𝑦𝑡 − (𝑎̂ + 𝑏̂𝑥𝑡 )] = 0
𝜕𝑏
𝑡=1
cuja solução, após alguma manipulação algébrica11, resulta no melhor ajuste da reta 𝑎 + 𝑏𝑥
em (2), dado por:
𝑎̂ = 𝑦̄ − 𝑏̂𝑥̄ (3a)
𝑇 ∑𝑇𝑡=1 𝑥𝑡 𝑦𝑡 − ∑𝑇𝑡=1 𝑥𝑡 ∑𝑇𝑡=1 𝑦𝑡
̂
𝑏= (3b)
𝑇 ∑𝑇𝑡=1 𝑥𝑡2 − (∑𝑇𝑡=1 𝑥𝑡 )2
11
Veja, por exemplo, Nahmias (2009).

onde 𝑥̄ = ∑𝑇𝑡=1 𝑥𝑡 /𝑇 e 𝑦̄ = ∑𝑇𝑡=1 𝑦𝑡 /𝑇
Pode ser mostrado que a solução (3) corresponde à mínima soma dos desvios quadráticos (em
função da análise das derivadas segundas da função g).12 Portanto, o modelo de previsão (com
base nas T observações) é:
𝑦̂ = 𝑎̂ + 𝑏̂𝑥 (4)
onde 𝑦̂ é a estimativa de y para um dado valor de x. Pode ser interpretado como o valor
esperado de y em (2), ou seja, 𝐸[𝑦] = 𝐸[𝑎 + 𝑏𝑥 + 𝜀] = 𝑎̂ + 𝑏̂𝑥 = 𝑦̂, dado que foi admitido
que 𝐸[𝜀] = 0. Note que esta estimativa é resultado da simples aplicação do critério de
mínimos quadrados sobre as T observações (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ).
Para avaliar a precisão deste método de previsão, define-se o erro de previsão (também
chamado de resíduo) do modelo (4) como:
𝑒 = 𝑦 − 𝑦̂ = 𝑦 − (𝑎̂ + 𝑏̂𝑥) (5)
ou seja, é a diferença entre o valor real observado y e o valor previsto 𝑦̂ da variável

dependente, que não pode ser explicada pela reta de regressão. Note que este erro é
computado a posteriori, ou seja, após a observação y ser conhecida, e com base nos valores
estimados 𝑎̂ e 𝑏̂ dos parâmetros desconhecidos a e b da reta.
Exemplo 1:13 Um corretor de imóveis está tentando prever sua receita no ano. Em anos
anteriores, ele observou que sua receita é aproximadamente proporcional ao número de casas
vendidas no seu território. Além disso, ele também observou que existe uma relação direta
entre o número de casas vendidas e as taxas de juros para financiamento de casas.
m simples modelo causal para este caso pode ser: taxa de juros “causa” venda de casas.
Pode-se defini-lo como a reta em (2), em que y é número de casas vendidas no ano (variável
dependente), e x é a taxa de juros no ano (variável independente).
Considere que o corretor dispõe de T dados passados (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), ..., (𝑥𝑇 , 𝑦𝑇 ), e que ao
substituir estes dados nas expressões de regressão linear para 𝑎̂ e 𝑏̂ definidas em (3), o
corretor obteve: 𝑎̂ = 386 e 𝑏̂ = −1878.
Então, se a taxa de juros no ano corrente for 10% (i.e., 𝑥 = 0,10), a estimativa de y em (4)
resulta em:
𝑦̂ = 386 + (−1878)(0,10) = 198 casas vendidas no ano.
Considere que neste ano corrente, o corretor venderá 210 casas, isto é, o valor observado de y
será 210. Logo, o erro de previsão do modelo dado por (5) será:
𝑒 = 𝑦 − 𝑦̂ = 210 − 198 = 12 casas vendidas no ano. ■
12
Veja, por exemplo, Makridakis et al. (1998) e Montgomery et al. (2008).
13
Este exemplo foi inspirado num exemplo em Ballou (2004).

Veja também Exercício 1 da lista no final deste capítulo sobre relação negativa entre preços e
vendas de um produto, ou seja, que à medida que o preço do produto aumenta, em geral suas
vendas diminuem, e vice-versa.
Convém observar que o modelo 𝑦 = 𝑎 + 𝑏𝑥 é linear na variável x, isto é, dados valores para
os parâmetros a e b, diga-se 𝑎 = 1 e 𝑏 = 2, então y é uma função linear de x: 𝑦 = 1 + 2𝑥. Por
outro lado, o modelo 𝑦 = 𝑎 + 𝑏𝑥 2 não é linear na variável x (no caso, é quadrático). No
entanto, modelos não lineares nas variáveis também podem ser tratados por regressão linear,
aplicando-se o mesmo critério de mínimos quadrados conforme acima – isso está discutido na
Seção 7.2.
Outra observação é que o modelo 𝑦 = 𝑎 + 𝑏𝑥 é linear nos parâmetros a e b, isto é, dado um

valor para a variável x, diga-se 𝑥 = 3, então y é uma função linear de a e b: 𝑦 = 𝑎 + 3𝑏. Por
outro lado, o modelo 𝑦 = 𝑎𝑏 𝑥 é não linear nos parâmetros a e b. Em geral, modelos não
lineares nos parâmetros, diferentemente de modelos não lineares nas variáveis, não podem ser
tratados por regressão linear (no caso, pode-se utilizar regressão não linear, que envolve
dificuldades adicionais e que não será estudada aqui). Porém, em alguns casos eles podem ser
transformados em modelos lineares.
Por exemplo, considere que se deseja determinar os parâmetros a e b do modelo não linear:
𝑦 = 𝑎𝑏 𝑥
para ajustá-lo aos dados passados observados. Aplicando-se o logaritmo nos dois lados desta
expressão, obtém-se:
𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + (𝑙𝑜𝑔 𝑏)𝑥
ou seja, um modelo linear 𝑦′ = 𝑎′ + 𝑏′𝑥, em que 𝑦′ = 𝑙𝑜𝑔 𝑦, 𝑎′ = 𝑙𝑜𝑔 𝑎 e 𝑏′ = 𝑙𝑜𝑔 𝑏, e pode-

se usar as expressões de regressão linear simples em (3) para estimar os parâmetros 𝑎′ =
𝑙𝑜𝑔 𝑎 e 𝑏′ = 𝑙𝑜𝑔 𝑏 deste modelo.
Outro exemplo é o modelo não linear:
𝑦 = 𝑎𝑥 𝑏
Aplicando-se o logaritmo nos dois lados desta expressão, obtém-se:
𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + 𝑏(𝑙𝑜𝑔 𝑥)
ou seja, um modelo linear 𝑦′ = 𝑎′ + 𝑏𝑥′, em que 𝑦′ = 𝑙𝑜𝑔 𝑦, 𝑎′ = 𝑙𝑜𝑔 𝑎 e 𝑥′ = 𝑙𝑜𝑔 𝑥, e

também pode-se usar as expressões de regressão linear simples em (3) para estimar os
parâmetros 𝑎′ = 𝑙𝑜𝑔 𝑎 e b deste modelo.
A análise de regressão linear pode ser facilmente realizada por meio de planilhas eletrônicas
(e.g., Excel e outras) ou pacotes estatísticos, como Minitab, SAS, SPSS, R, Statistica, etc.
2.2 Qualidade do ajuste

Como determinar quão bom é o ajuste da reta de regressão linear (4) aos T dados observados?
A análise dos erros de previsão (resíduos), isto é, das diferenças entre cada observação yt e
cada estimativa 𝑦̂𝑡 = 𝑎̂ + 𝑏̂𝑥𝑡 , nos ajuda a responder esta questão. Deseja-se que estes
resíduos sejam próximos de 0 e que não sejam tendenciosos (i.e., não tenham tendência para
mais ou para menos do valor da observação). Pode-se identificar isso representando
visualmente esses resíduos numa figura e também verificando se a soma deles:
𝑇 𝑇
∑ 𝑒𝑡 = ∑(𝑦𝑡 − 𝑦̂𝑡 )
𝑡=1 𝑡=1
é próxima de 0. A identificação de observações com grandes resíduos (outliers) também nos

ajuda a encontrar observações bem diferentes das demais e que não se ajustam no padrão
linear.
Outra maneira de analisar a qualidade do ajuste é por meio do coeficiente de determinação.

Sejam as seguintes medidas de variação: a soma dos quadrados das diferenças entre cada
observação 𝑦𝑡 e a média 𝑦̄ das observações definida em (3) (SST – sum of squares total), a
soma dos quadrados das diferenças entre cada estimativa 𝑦̂𝑡 = 𝑎̂ + 𝑏̂𝑥𝑡 e a média 𝑦̄ (SSR –
sum of squares regression), e a soma dos quadrados dos erros de previsão et (SSE – sum of
squares error), ou seja:
𝑇
𝑆𝑆𝑇 = ∑(𝑦𝑡 − 𝑦̄ )2
𝑡=1
𝑇
𝑆𝑆𝑅 = ∑(𝑦̂𝑡 − 𝑦̄ )2
𝑡=1
𝑇 𝑇
𝑆𝑆𝐸 = ∑ 𝑒𝑡2 = ∑(𝑦𝑡 − 𝑦̂𝑡 )2

𝑡=1 𝑡=1
Pode ser mostrado que, para uma previsão baseada em regressão linear ajustada por quadrados
mínimos, tem-se que (veja Exercício 2 da lista no final deste capítulo):14
𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
Note que se todas as observações 𝑦𝑡 estiverem sobre a reta de regressão linear (4), então o
ajuste da reta é perfeito e a soma dos quadrados dos erros de previsão é 𝑆𝑆𝐸 = 0. Logo, para
ter-se um bom ajuste, SSE deve ser pequeno; consequentemente, SSR deve ser próximo de
SST. O coeficiente de determinação R2 é definido como:
2
𝑆𝑆𝑅 ∑𝑇𝑡=1(𝑦̂𝑡 − 𝑦̄ )2
𝑅 = = (6)
𝑆𝑆𝑇 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̄ )2
e representa a porcentagem de variação da variável dependente y explicada pela variável

independente x. Assim, valores de R2 próximos de 1 significam que o ajuste da reta é bom.
Outra medida da associação linear entre x e y é o coeficiente de correlação linear entre x e y,

definido por:15
14
Veja, por exemplo, Winston (1994) e Makridakis et al. (1998).

+√𝑅 2 se 𝑏̂ ≥ 0
𝑟𝑥𝑦 = {
−√𝑅 2 caso contrário
Assim, valores de 𝑟𝑥𝑦 próximos de +1 indicam uma forte relação linear positiva entre x e y,
valores de 𝑟𝑥𝑦 próximos de -1 indicam uma forte relação linear negativa entre x e y, e valores
de 𝑟𝑥𝑦 próximos de 0 indicam uma fraca relação linear entre x e y. A Figura 3 ilustra gráficos
entre x e y com diferentes valores de coeficientes de correlação 𝑟𝑥𝑦 .
15
Outra maneira de computar rxy é pela razão da covariância de x e y e do produto dos desvios padrões de x e y;
veja, por exemplo, Makridakis et al. (1998).

orrelação , orrelação ,
Figura 3 - Gráficos entre x e y com diferentes valores de coeficientes de correlação 𝑟𝑥𝑦

(Makridakis et al., 1998, p.195)

Exemplo 2: Considere o Exercício 1 da lista no final deste capítulo, com os dados detalhados
de preços e vendas de um produto. Usando as expressões anteriores, obtém-se: 𝑆𝑆𝑅 =
1357,2, 𝑆𝑆𝑇 = 1566,2 e, portanto, o coeficiente de determinação em (6) resulta em 𝑅 2 =
0,867. Ou seja, , % da variação da quantidade vendida do produto pode ser “explicada”
pela relação linear entre as vendas e as mudanças no preço do produto. O coeficiente de
correlação resulta em 𝑟𝑥𝑦 = −0,931, o que indica uma forte correlação negativa entre vendas
e preços.
■
Outras considerações sobre precisão, validação e monitoramento do método de previsão

como, por exemplo, estimativas de intervalos de previsão e diagramas de controle, estão
discutidas na Seção 8.
2.3 Regressão linear múltipla

O método de previsão da Seção 2.1 pode ser estendido para considerar mais de uma variável
independente, por meio de regressão linear múltipla. Considere novamente o modelo (1),
reescrito por conveniência de notação como (i.e., com 𝑤0 = 𝑎, 𝑤1 = 𝑏1 , 𝑤2 = 𝑏2 , ..., 𝑤𝑚 =
𝑏𝑚 ):
𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 +. . . +𝑏𝑚 𝑥𝑚 + 𝜀 (7)
Um exemplo poderia ser a previsão do consumo y de uma bebida num determinado período e
numa determinada região, em função de certas condições meteorológicas, como índice da
temperatura 𝑥1 , índice pluviométrico 𝑥2 , nebulosidade de céu ou quantidade de luz 𝑥3 , etc.,
para auxiliar nas decisões de estocagem nesta região.
O mesmo raciocínio desenvolvido para regressão linear simples na Seção 2.1 pode ser aqui
estendido para regressão linear múltipla. Admita que dispõe-se de dados observados das
variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 e y nos últimos T períodos, diga-se: (𝑥11 , 𝑥21 , . . . , 𝑥𝑚1 ; 𝑦1 ),
(𝑥12 , 𝑥22 , . . . , 𝑥𝑚2 ; 𝑦2 ) , ..., (𝑥1𝑇 , 𝑥2𝑇 , . . . , 𝑥𝑚𝑇 ; 𝑦𝑇 ).
Conforme antes, 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 denotam respectivamente os desvios aleatórios entre cada valor

observado da variável dependente 𝑦𝑡 e cada valor do plano 𝑎 + 𝑏1 𝑥1𝑡 + 𝑏2 𝑥2𝑡 +. . . +𝑏𝑚 𝑥𝑚𝑡
nos períodos 𝑡 = 1, 2, … , 𝑇, ou seja:
𝜀𝑡 = 𝑦𝑡 − (𝑎 + 𝑏1 𝑥1𝑡 + 𝑏2 𝑥2𝑡 + ⋯ + 𝑏𝑚 𝑥𝑚𝑡 ), com 𝑡 = 1, 2, … , 𝑇
Seja a função:
𝑇 𝑇 𝑚 2
𝑔(𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 ) = ∑ 𝜀𝑡2 = ∑ [𝑦𝑡 − (𝑎 + ∑ 𝑏𝑖 𝑥𝑖𝑡 )]

𝑡=1 𝑡=1 𝑖=1
definida como a soma dos quadrados dos desvios 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 . Deseja-se determinar os

valores de 𝑎̂, 𝑏̂1 , 𝑏̂2 , ..., 𝑏̂𝑚 (i.e., das estimativas dos parâmetros desconhecidos
𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 do modelo (7)), que minimizam 𝑔(𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 ).

Similarmente ao que foi feito na Seção 2.1, derivando-se 𝑔(𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 ) em relação a
𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 e igualando-se a zero, obtém-se um sistema de 𝑚 + 1 equações (lineares nas
incógnitas 𝑎̂, 𝑏̂1 , 𝑏̂2 , ..., 𝑏̂𝑚 ):
𝑇 𝑚
𝜕𝑔
= −2 ∑ [𝑦𝑡 − (𝑎̂ + ∑ 𝑏̂𝑖 𝑥𝑖𝑡 )] = 0
𝜕𝑎
𝑡=1 𝑖=1
𝑇 𝑚
𝜕𝑔
= −2 ∑ 𝑥𝑗𝑡 [𝑦𝑡 − (𝑎̂ + ∑ 𝑏̂𝑖 𝑥𝑖𝑡 )] = 0, 𝑗 = 1, 2, … , 𝑚
𝜕𝑏𝑗
𝑡=1 𝑖=1
cuja solução resulta no melhor ajuste do modelo (7) (i.e., mínima soma dos desvios
quadráticos). Estas equações são chamadas de equações normais de mínimos quadrados. Após
alguma manipulação algébrica16, elas podem ser escritas em forma matricial como:
(𝑋𝑋′)𝐴̂ = 𝑋𝑌 ou, 𝐴̂ = (𝑋𝑋′)−1 𝑋𝑌 (8)
1 1 ... 1 𝑎̂ 𝑦1
𝑥 𝑥12 . . . 𝑥1𝑇 ̂
𝑏 𝑦2
em que: 𝑋 = [ 11 ] 𝐴̂ = [ 1 ] 𝑌=[ ⋮ ]
⋮ ⋮ ⋮ ⋮ ⋮
𝑥𝑚1 𝑥𝑚2 . . . 𝑥𝑚𝑇 ̂
𝑏𝑚 𝑦𝑇
onde X é a matriz de observações das variáveis independentes 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 (com dimensão

𝑚 + 1 por T), 𝐴̂ é o vetor das estimativas dos parâmetros desconhecidos do modelo (com
dimensão 𝑚 + 1 por 1), Y é o vetor de observações da variável dependente y (com dimensão T
por 1), e 𝑋′ denota a matriz X transposta (com dimensão T por 𝑚 + 1). Este sistema com vetor
de incógnitas 𝐴̂ pode ser resolvido pelos métodos tradicionais de solução de sistemas lineares
(disponíveis em diversos aplicativos computacionais).
Portanto, o modelo de previsão (com base nas T observações) é:
𝑦̂ = 𝑎̂ + 𝑏̂1 𝑥1 + 𝑏̂2 𝑥2 +. . . +𝑏̂𝑚 𝑥𝑚 (9)
e o erro de previsão deste modelo é:
𝑒 = 𝑦 − 𝑦̂ = 𝑦 − (𝑎̂ + 𝑏̂1 𝑥1 + 𝑏̂2 𝑥2 +. . . +𝑏̂𝑚 𝑥𝑚 )
Similarmente à regressão linear simples, o coeficiente de determinação R2 definido em (6)

representa a porcentagem de variação da variável dependente y explicada pelas m variáveis
independentes 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 . Assim, valores de R2 próximos de 1 significam que o ajuste é
bom.
Exemplo 3:17 Para se estimar a viscosidade de um polímero (variável dependente y), pode-se
relacioná-la com 𝑚 = 2 variáveis causais (explanatórias): a temperatura de reação (variável
independente x1) e a taxa de alimentação do catalisador (variável independente x2). O modelo
de previsão (9) utilizando regressão linear múltipla é definido por:
16
Isso é feito escrevendo a soma dos mínimos quadrados como (𝑌 − 𝑋′𝐴̂)(𝑌′ − 𝐴̂′𝑋) e derivando essa expressão
com relação à 𝐴̂ para obter (𝑋𝑋′)𝐴̂ = 𝑋𝑌; veja, por exemplo, Johnson e Montgomery (1974) e Montgomery et
al. (2008).
17
Este exemplo foi inspirado num exemplo apresentado em Montgomery (2005, p.378).

𝑦̂ = 𝑎̂ + 𝑏̂1 𝑥1 + 𝑏̂2 𝑥2
onde 𝑎̂, 𝑏̂1 , 𝑏̂2 são as estimativas dos parâmetros 𝑎, 𝑏1 , 𝑏2 . Com base em 𝑇 = 16 observações
passadas (𝑥11 , 𝑥21 ; 𝑦1 ), (𝑥12 , 𝑥22 ; 𝑦2 ), ..., (𝑥1𝑇 , 𝑥2𝑇 ; 𝑦𝑇 ) destas variáveis, a matriz transposta
𝑋′ com dimensão 𝑇 = 16 por 𝑚 + 1 = 3 e o vetor 𝑌 com dimensão 𝑇 = 16 por 1 resultaram
em:
1 𝑥11 𝑥21
1 𝑥12 𝑥22 1 80 8 𝑦1 2256
1 𝑥13 𝑥23 1 93 9 𝑦2 2340
1 𝑥14 𝑥24 1 100 10 𝑦3 2426
1 𝑥15 𝑥25 1 82 12 𝑦4 2293
1 𝑥16 𝑥26 1 90 11 𝑦5 2330
1 99 8 𝑦6 2368
1 𝑥17 𝑥27
1 81 8 𝑦7 2250
1 𝑥18 𝑥28 𝑦8
𝑋′ = 1 1 96 10 = 2409
𝑥19 𝑥29 = 1 94 12
𝑌=
𝑦9 2364
1 𝑥1,10 𝑥2,10 1 93 11 𝑦10 2379
1 𝑥1,11 𝑥2,11 1 97 13 𝑦11 2440
1 𝑥1,12 𝑥2,12 1 95 11 𝑦12 2364
1 𝑥1,13 𝑥2,13 1 100 8 𝑦13 2404
1 85 12 𝑦14 2317
1 𝑥1,14 𝑥2,14 𝑦15 2309
1 86 9
1 𝑥1,15 𝑥2,15 [1 [𝑦16 ] [2328]
87 12 ]
[1 𝑥1,16 𝑥2,16 ]
Fazendo-se o produto das matrizes 𝑋 (com dimensão 3 por 16) e 𝑋′ (com dimensão 16 por 3),
e o produto da matriz 𝑋 (com dimensão 3 por 16) pelo vetor 𝑌 (com dimensão 16 por 1),
obtém-se:
16 1458 164 37577

𝑋𝑋 ′ = [1458 133560 14946] 𝑋𝑌 = [3429550]
164 14946 1726 385562
e resolvendo-se o sistema linear (8) com esses valores de 𝑋𝑋 ′ e 𝑋𝑌, obtém-se o vetor de
parâmetros:
𝑎̂ 1566,08
̂
𝐴̂ = [𝑏1 ] = [ 7,62 ]
𝑏̂2 8,58
Logo, a equação de regressão linear múltipla é:
𝑦̂ = 1566,08 + 7,62𝑥1 + 8,58𝑥2

■
Exemplo 4:18 Um fabricante de roupas precisa decidir sobre compras e programação logística
de roupas com base em previsões de vendas. A variável dependente é a estimativa de vendas
na estação (em unidades monetárias) (y), e as variáveis independentes são: o tempo (em anos)
18
Este exemplo foi inspirado no exemplo apresentado em Ballou (2004, p.257).

(x1), o número de contas de compras durante a estação (a partir de compras antecipadas) (x2),
e a mudança líquida mensal nas dívidas a prazo dos clientes (em percentuais) (x3).
Com base em T dados passados disponíveis (𝑥11 , 𝑥21 , 𝑥31 ; 𝑦1 ), (𝑥12 , 𝑥22 , 𝑥32 ; 𝑦2 ), ...,
(𝑥1𝑇 , 𝑥2𝑇 , 𝑥3𝑇 ; 𝑦𝑇 ), a equação de regressão linear múltipla (9) resultou em:
𝑦̂ = −3016 + 1211𝑥1 + 5,75𝑥2 + 109𝑥3
isto é, com 𝑎̂ = −3016, 𝑏̂1 = 1211, 𝑏̂2 = 5,75 e 𝑏̂3 = 109 obtidos da solução do sistema
linear (8). Este modelo explicou 99% (i.e., 𝑅 2 = 0,99 em (6)) da variação total na demanda.
Então, se 𝑥1 = 6 anos, 𝑥2 = 2732 contas, 𝑥3 = 8,63% na estação, a previsão resulta em

aproximadamente 𝑦̂ = 20900 vendas na estação. As vendas reais nesta estação foram de
20750, ou seja, houve um erro de previsão de 𝑒 = 20750 − 20900 = −150.
■
Nos casos em que o modelo (7) envolve muitas variáveis causais, existem técnicas que
ajudam a selecionar o subconjunto mais relevante destas variáveis, baseadas na análise da
inclusão destas variáveis uma a uma, ou na comparação das possíveis combinações destas
variáveis.19
Similarmente ao que foi discutido na Seção 2.1, se ao invés do modelo linear 𝑦 = 𝑎 + 𝑏1 𝑥1 +

𝑏2 𝑥2 +. . . +𝑏𝑚 𝑥𝑚 , tiver-se um modelo não linear nas variáveis 𝑥1 , 𝑥2 , . . . , 𝑥𝑚 , ele pode ser
tratado por regressão linear múltipla, conforme descrito na Seção 7.2. Por outro lado, se o
modelo for não linear nos parâmetros 𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 , em alguns casos ele pode ser
linearizado e tratado por regressão linear múltipla. Por exemplo, os modelos não lineares:
𝑥 𝑥 𝑥
𝑦 = 𝑎𝑏1 1 𝑏2 2 . . . 𝑏𝑚𝑚
ou
𝑏 𝑏 𝑏
𝑦 = 𝑎𝑥1 1 𝑥2 2 . . . 𝑥𝑚𝑚
podem ser transformados em modelos lineares, aplicando-se o logaritmo nos dois lados destas
expressões, similarmente ao que foi feito para regressão linear simples na Seção 2.1. Os
modelos transformados ficam, respectivamente:
𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + (𝑙𝑜𝑔 𝑏1 )𝑥1 + (𝑙𝑜𝑔 𝑏2 )𝑥2 +. . . +(𝑙𝑜𝑔 𝑏𝑚 )𝑥𝑚

e
𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + 𝑏1 (𝑙𝑜𝑔 𝑥1 ) + 𝑏2 (𝑙𝑜𝑔 𝑥2 )+. . . +𝑏𝑚 (𝑙𝑜𝑔 𝑥𝑚 )
Assim como regressão linear simples, a análise de regressão linear múltipla também pode ser
realizada com auxílio de pacotes estatísticos, como Minitab, SAS, SPSS, R, Statistica, etc.
Outros exemplos de métodos causais são os métodos baseados em redes neurais, discutidos
brevemente na Seção 7.5.
Parte II – Métodos de séries temporais
19
Veja, por exemplo, Montgomery et al. (2008).

Métodos baseados na projeção ou extrapolação de séries temporais são também chamados
métodos ingênuos porque não requerem outras informações além dos dados passados da
variável de interesse. Diferentes dos métodos causais ou explanatórios, estes métodos tratam o
sistema como uma caixa preta e não fazem tentativas para relacionar outras variáveis que
afetam o comportamento da variável de interesse. Supõe-se que os padrões e tendências dos
dados passados continuam presentes nos períodos futuros.
3. Séries temporais
Uma série temporal é uma sequência de observações tomadas em pontos discretos de tempo
(em geral igualmente espaçados). Por exemplo, a sequência 𝑦1 , 𝑦2 , 𝑦3 , …, das demandas de um
produto, tomadas nos períodos de tempo 𝑡 = 1, 𝑡 = 2, 𝑡 = 3, …, respectivamente, é uma série
temporal, conforme ilustrado na Figura 1. A ideia é que informação pode ser inferida do
padrão das observações passadas e usada para prever os valores futuros da variável.
3.1 Padrões regulares e irregulares

Padrões regulares: quando o padrão da demanda na série temporal é razoavelmente regular,
sua representação típica é a de um dos padrões (ou combinações deles) apresentados na Figura
4, tais como:
(i) Tendência (linear ou não linear): padrão com crescimento ou decrescimento ao longo do
tempo, por exemplo, devido a mudanças na população ou ao estágio em que o produto se
encontra em seu ciclo de vida.20 O caso constante é aquele com crescimento ou decrescimento
nulo (também chamado horizontal). As duas séries temporais superiores da Figura 4 ilustram
padrões sem e com tendência linear de crescimento.
(ii) Sazonalidade: o padrão repete-se periodicamente em intervalos fixos (e.g., ano, mês,
semana, dia), por exemplo, o consumo de sorvete pode ser maior no verão e menor no
inverno, enquanto que o consumo de eletricidade ou gás pode ter um comportamento oposto
em regiões com invernos rigorosos. Padrões sazonais também são chamados de periódicos,
embora eles não se repitam exatamente sobre cada período. Pode-se também ter padrões
combinando sazonalidade e tendência (sazonalidade com tendência). A série temporal inferior
da Figura 4 ilustra um padrão com sazonalidade e tendência de crescimento.
(iii) Ciclos: é um padrão similar ao da sazonalidade, exceto que o comprimento e a magnitude

do ciclo podem variar, isto é, os dados exibem altos e baixos que não estão em um intervalo
fixo, como nos padrões sazonais e outros ciclos (e.g., ciclos de negócios que dependem de
fatores macroeconômicos).
20
Veja, por exemplo, a figura ilustrativa de ciclo de vida de produto contendo estágios de introdução,
crescimento, maturidade e declínio em Ballou (2004).

constante
0
tend ncia
0
tend ncia e sa onalidade
0
Figura 4 - Padrões de demanda regulares: constante, tendência e sazonalidade
Note nestes padrões regulares de séries temporais da Figura 4 que flutuações aleatórias 𝜀
(também chamadas de ruídos) estão presentes, que são os desvios inexplicados dos dados com
relação a cada padrão básico. Desde que estas flutuações aleatórias correspondam a uma
pequena parte da variação total (por exemplo, se o desvio padrão 𝜎𝜀 destas flutuações
aleatórias é bem menor do que o valor esperado 𝐸[𝑦] da série temporal), os métodos de
previsão baseados em séries temporais costumam dar bons resultados. Frequentemente este é
o caso em que existem muitos clientes que compram individualmente pequenas frações do
volume total das vendas.
Outros padrões de demanda podem ser observados nos dados da série temporal como, por
exemplo, função impulso (impulse function), função degrau (step function), introdução de um
novo produto, e produto em declínio (Figura 5).21
21
Veja, por exemplo, Montgomery et al. (1974).

impulso degrau
novo produto declínio
Figura 5 – Outros padrões de demanda: função impulso, função degrau, introdução de um

novo produto, produto em declínio
Padrões irregulares (lumpy): nos padrões irregulares existem tantas flutuações aleatórias nos
padrões de demanda que tornam qualquer previsão pouco confiável. Estes são tipicamente os
casos em que pedidos raros e grandes de clientes dominam os padrões de demanda, ou quando
a demanda de cada produto é muito baixa e incerta. Um exemplo de padrão de demanda
irregular ou incomum está ilustrado na Figura 6. Nestes casos, o desvio padrão 𝜎𝜀 das
flutuações aleatórias chega a ser da ordem de grandeza da média da série temporal 𝐸[𝑦]. Um
dos procedimentos para testar se o padrão de demanda é irregular é estimar o desvio padrão
das diferenças entre os dados observados e as previsões feitas por algum método de previsão
adotado, e verificar se o desvio padrão destes erros de previsão tem valor próximo ou maior
que a média da série temporal 𝐸[𝑦].22
demanda irregular
22
Veja, por exemplo, Hax e Candea (1984).

Figura 6 - Padrão de demanda irregular
Em geral, os métodos de previsão baseados em séries temporais têm dificuldades para

fornecer boas previsões nos casos de padrões irregulares. Uma alternativa em sistemas com
esses padrões é sobrestimar a demanda (o que resultaria em maiores estoques de segurança),
ou ser mais flexível na produção e transporte dos pedidos, de maneira a responder mais
rapidamente aos pedidos (como explorado em certos sistemas make-to-order).
Demanda esporádica: nos casos de produtos com baixos níveis de demanda e com frequentes
períodos sem uso, também chamados itens de movimentação lenta (slow-moving items), os
padrões de demanda tendem a ser irregulares. Nestes padrões, pode haver vários períodos
consecutivos sem demanda, seguidos por um ou mais períodos com vendas de vários
tamanhos. Existem alguns métodos de previsão baseados em séries temporais e suavização
exponencial para estes casos com demanda esporádica, conforme discutido na Seção 7.1.
No caso de padrões regulares, diversos problemas de previsão (principalmente de curto e

médio prazo) podem se beneficiar destes métodos de séries temporais, tirando vantagens da
relativa estabilidade dos padrões sazonais e da inércia dos dados presentes em muitas séries
temporais de interesse.
3.2 Demanda independente e dependente

Demanda independente: nos métodos de previsão a seguir, em geral, admite-se que a demanda
de produto é independente, isto é, ela não é relacionada com a demanda de outros produtos.
Nestes casos, considera-se que a demanda é gerada por diversos clientes da empresa, muitos
deles demandando apenas uma pequena fração do volume total demandado.
Demanda dependente ou derivada: se, ao contrário, a demanda do produto é relacionada com

a demanda de outros produtos, ou se é derivada das necessidades especificadas em um
programa de produção ou logística, a demanda é chamada dependente. Este é o caso quando a
demanda de certos produtos (por exemplo, matérias-primas ou componentes) depende da
demanda de outros produtos (produtos finais).
Por exemplo, o número de pneus requisitados para o fornecedor de uma montadora de

veículos é um múltiplo do número de veículos programados para serem montados (por
exemplo, 5 pneus por veículo). É natural, portanto, prever primeiro a demanda (independente)
dos produtos finais, e a demanda (dependente) dos produtos que compõem os produtos finais
é então derivada, por exemplo, por meio de sistemas de planejamento de necessidades de
materiais e recursos, como sistemas MRP.
Quando a demanda é independente, os métodos de previsão baseados em séries temporais

podem funcionar bem. Por outro lado, demandas derivadas em geral são altamente
tendenciosas e não aleatórias.
3.3 Previsão e medidas de erros de previsão

Conforme mencionado anteriormente, os métodos de séries temporais são baseados no
modelo geral 𝑦𝑡 = 𝑓(𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑇 , 𝜀), por exemplo, num modelo linear nos parâmetros
(pesos) 𝑤𝑡−1 , 𝑤𝑡−2 , … , 𝑤𝑡−𝑇 :

𝑦𝑡 = 𝑤𝑡−1 𝑦𝑡−1 + 𝑤𝑡−2 𝑦𝑡−2 + ⋯ + 𝑤𝑡−𝑇 𝑦𝑡−𝑇 + 𝜀𝑡 , 𝑡 = 1, 2, 3, …
Note que, diferente do lado direito de (1), (2) ou (7) dos métodos causais, o lado direito da
expressão acima envolve 𝑇 valores anteriores da variável de interesse y, e que esses valores
podem estar correlacionados (veja Seção 7.3).
Por conveniência, considere que os valores observados (disponíveis) da demanda de um

produto nos períodos anteriores 1, 2, … , 𝑇 são denotados por 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Nos métodos de
previsão das seções adiante, define-se a notação:
𝑦̂𝑇,𝑇+𝜏 como a previsão feita no período T para o valor da demanda no período 𝑇 + 𝜏 (com
𝜏 = 1,2, . ..), também chamada previsão múltiplos-períodos-adiante (multiple-step-
ahead forecasting)
ou seja, é a previsão de 𝑦𝑇+𝜏 feita no período 𝑇 a partir das observações 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Se 𝜏 =

1, então se está no período 𝑇 prevendo a demanda para o próximo período 𝑇 + 1, chamada
previsão um-período-adiante (one-step-ahead forecasting). A maioria dos métodos de séries
temporais pode ser descrita como uma combinação linear das observações anteriores:
𝑇
𝑦̂𝑇,𝑇+1 = ∑ 𝑤
̂ 𝑡 𝑦𝑡 = 𝑤
̂1 𝑦1 + 𝑤
̂ 2 𝑦2 +. . . +𝑤
̂ 𝑇 𝑦𝑇
𝑡=1
para certos valores estimados 𝑤 ̂1 , 𝑤

̂2, … , 𝑤
̂ 𝑇 dos parâmetros desconhecidos 𝑤1 , 𝑤2 , … , 𝑤𝑇 .
Similarmente à Seção 2.1, 𝑦̂𝑇,𝑇+1 pode ser interpretado como o valor esperado 𝐸[𝑦𝑇+1 ]
quando se está no período 𝑇, dado que é admitido que 𝐸[𝜀𝑇+1 ] = 0.
Basicamente, os métodos apresentados adiante se diferenciam apenas pelas escolhas

particulares desses pesos aplicados aos dados passados. Em geral estas escolhas são feitas
com base nos dados observados de y, aplicando-se o critério de mínimos quadrados, conforme
discutido nas próximas seções. Tais métodos de previsão envolvem basicamente:
(i) estimação dos parâmetros desconhecidos da série,
(ii) computação da previsão projetando a série no futuro,
(iii) atualização das estimativas dos parâmetros à medida que novos dados (observações) se
tornam disponíveis.
Na Seção 2, definiu-se o erro de previsão (ou resíduo) e de um método causal como a

diferença entre a observação e a previsão usando o modelo com parâmetros estimados
(conforme (5)). De forma compatível à Seção 2, no texto que segue denota-se por 𝑒𝑇−𝜏,𝑇 o
erro da previsão feita no período 𝑇 − 𝜏 para o período T, definido como a diferença entre a
observação do período T e esta previsão:23
𝑒𝑇−𝜏,𝑇 = 𝑦𝑇 − 𝑦̂𝑇−𝜏,𝑇 (10)
Este erro é computado a posteriori, ou seja, após a observação 𝑦𝑇 ser conhecida no período T.
Note que o valor de 𝑦𝑇 é estimado por 𝑦̂𝑇−𝜏,𝑇 no período 𝑇 − 𝜏, com base apenas nas
observações passadas 𝑦1 , 𝑦2 , … , 𝑦𝑇−𝜏 . Por simplicidade, se 𝜏 = 1, denota-se o erro de previsão
23
Alguns autores preferem definir o erro de previsão (10) como a diferença entre a previsão e a observação:
𝑒𝑇−𝜏,𝑇 = 𝑦̂𝑇−𝜏,𝑇 − 𝑦𝑇 .

no período T meramente por 𝑒𝑇 = 𝑒𝑇−1,𝑇 . Logo, 𝑒1 , 𝑒2 , … , 𝑒𝑇 são os erros de previsão nos
períodos 1, 2, … , 𝑇, respectivamente (note que esta notação está compatível com a utilizada
em (5) na Seção 2.1).
Conforme mencionado na Seção 2.2, deseja-se que estes erros sejam próximos de 0 e que não
sejam tendenciosos (i.e., não tenham tendência para mais ou para menos do valor da
observação). Pode-se identificar isso representando visualmente esses erros numa figura e
verificando se a soma 𝑒1 + 𝑒2 +. . . +𝑒𝑇 deles é próxima de 0.
Outras medidas de precisão do método de previsão são o erro ou desvio absoluto médio (MAD
– mean absolute deviation), o erro ou desvio percentual absoluto médio (MADP – mean
absolute percentage deviation) e o erro quadrático médio (MSE – mean squared error):24
∑𝑇
𝑡=1 |𝑒𝑡 |
Erro absoluto médio: 𝑀𝐴𝐷 = (11)
𝑇
∑𝑇
𝑡=1 |𝑒𝑡 |/𝑦𝑡
Erro percentual absoluto médio: 𝑀𝐴𝐷𝑃 = 100 (12)
𝑇
∑𝑇
𝑡=1 𝑒𝑡
2
Erro quadrático médio: 𝑀𝑆𝐸 = (13)
𝑇
O MAD é uma estatística que tem a vantagem de ser mais interpretável e mais fácil de ser
explicada para não especialistas, enquanto o MSE tem a vantagem de ser mais fácil de ser
manuseado matematicamente em procedimentos estatísticos (por não envolver a função
módulo). Note que o desvio padrão do erro de previsão é 𝜎𝑒 = √𝑀𝑆𝐸, também estimado por
1,25𝑀𝐴𝐷 (com os erros 𝑒𝑡 supostos normalmente distribuídos com média 0).
Uma observação importante é que as fórmulas de erros acima medem o quanto um método de
previsão se ajusta aos dados passados observados. Um método bem ajustado aos dados
passados (i.e., com pequenos erros de ajuste – fitting errors) não necessariamente resulta num
método que produz boas previsões futuras (i.e., com pequenos erros de previsão – forecasting
errors). Por exemplo, é possível obter valores de MADP e MSE em (12) e (13) bem pequenos
ao se ajustar métodos mais elaborados e complexos aos dados passados (e.g., métodos
baseados em modelos de polinômios de ordens superiores). Isso não implica que esses
métodos fornecerão previsões futuras mais precisas do que outros métodos mais simples, que
tenham resultado em maiores valores de MADP ou MSE na fase de ajuste.
Uma maneira de contornar esta questão de sobreajuste (over-fitting) é utilizar a técnica de

separar os dados históricos em dois segmentos – um segmento de ajuste (ou conjunto de
inicialização) e outro de previsão (ou conjunto de teste) – conforme descrito na fase (v) –
validação do modelo (Seção 1.3). Num primeiro estágio, métodos de previsão são escolhidos
e seus parâmetros são estimados com base nos dados do segmento de ajuste, levando em conta
os valores dos erros de ajuste (e.g., os valores de MADP e MSE para os dados deste
segmento). Num segundo estágio, estes métodos são aplicados para prever os dados
(conhecidos) do segmento de previsão, e o método considerado mais preciso será aquele que
resultar nos menores erros de previsão (e.g., os valores de MADP e MSE para os dados deste
outro segmento; veja também a Seção 8 sobre validação e monitoramento dos métodos de
previsão).
24
Alguns autores denotam o MAD em (11) por MAE, e definem o MAD como a média dos desvios absolutos
entre os valores das observações e o valor médio das observações (Makridakis et al., 1998). Autores também
sugerem, ao invés de T, a utilização dos denominadores T-1, T-1 e T-2 nas três fórmulas de erro (11)-(13),
respectivamente, considerando-se que se tratam de estimativas amostrais (Ghiani et al., 2004).

4. Métodos de séries temporais estacionárias
Em uma série temporal estacionária25, as observações em cada período t (yt) podem ser
representadas por uma constante (a) mais um desvio aleatório (𝜀𝑡 ):
𝑦𝑡 = 𝑎 + 𝜀𝑡 , com 𝑡 = 1, 2, 3, … (14)
O parâmetro a é a média (estacionária) da série, e 𝜀𝑡 é o desvio (ou flutuação ou ruído)

aleatório no período 𝑡 = 1, 2, 3, …, suposto independente e identicamente distribuído com
média 𝐸[𝜀𝑡 ] = 0 e variância constante 𝑉[𝜀𝑡 ] = 𝜎𝜀2 (note que esta mesma suposição também
foi admitida para o desvio aleatório 𝜀 dos modelos da Seção 2). Neste padrão constante (ou
horizontal), os valores dos dados flutuam em torno da média constante a e a variância em
torno desta média permanece constante ao longo do tempo. Note que 𝑦𝑡 em (14) não depende
explicitamente de 𝑦𝑡−1 , 𝑦𝑡−2 , 𝑦𝑡−3 , …, mas do parâmetro 𝑎, que vai ser estimado usando-se
informação das observações anteriores da demanda (exemplos de métodos de previsão que
dependem explicitamente de 𝑦𝑡−1 , 𝑦𝑡−2 , 𝑦𝑡−3 , …, são discutidos na Seção 7.3).
Admite-se que não se pode prever os desvios aleatórios 𝜀1 , 𝜀2 , … , 𝜀𝑡 , e que as distribuições de

probabilidade das demandas 𝑦1 , 𝑦2 , … , 𝑦𝑡 são quase a mesma, existindo pequena dependência
entre estas variáveis. Se os desvios aleatórios (com média 0) forem grandes
(comparativamente a média da série), não há como evitar grandes erros de previsão, dado que
a melhor previsão do modelo (14) é a melhor estimativa para a constante desconhecida a.
A demanda de muitos produtos e serviços logísticos pode ser representada pelo modelo
constante, especialmente produtos que estejam no estágio de maturidade dos seus ciclos de
vida26 e que sejam usados regularmente. Nestes casos, se não se espera um padrão de
tendência (de crescimento ou decrescimento) ou um padrão sazonal da série temporal, em
geral é razoável admitir o modelo constante (14).
A seguir apresenta-se dois simples métodos de previsão para o modelo (14) (séries temporais
estacionárias):
• Média móvel
• Suavização exponencial
4.1 Média móvel

Um método de previsão bem simples e muito popular para séries temporais estacionárias é a
média móvel (mean average). Dado que se admite que os desvios aleatórios não podem ser
previstos, deseja-se simplesmente estimar a constante a do modelo (14).
Se o parâmetro a fosse completamente constante, a melhor estimativa seria a média aritmética

de todas as T observações 𝑦1 , 𝑦2 , … , 𝑦𝑇 da demanda. Porém, na prática, é esperado que o
parâmetro a sofra pequenas variações ao longo do tempo, o que significa que nosso foco deve
estar nas observações mais recentes da demanda.
Seja 𝑎̂ 𝑇 a estimativa do parâmetro a após observar a demanda 𝑦𝑇 no período T. A média

móvel de ordem N é simplesmente a média aritmética das N últimas observações:
25
Uma série temporal 𝑦1 , 𝑦2 , 𝑦3 , … , 𝑦𝑡 , … é estacionária se 𝑦𝑡 , 𝑦𝑡+1 , 𝑦𝑡+2 , … , 𝑦𝑡+𝑘 tem a mesma distribuição de
probabilidade conjunta de 𝑦𝑡+𝑚 , 𝑦𝑡+1+𝑚 , 𝑦𝑡+2+𝑚 , … , 𝑦𝑡+𝑘+𝑚 para quaisquer inteiros positivos t, k e m.
26
Para mais detalhes do estágio de maturidade do ciclo de vida de um produto, veja, por exemplo, Ballou (2004).

∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡 𝑦𝑇 + 𝑦𝑇−1 + ⋯ + 𝑦𝑇−𝑁+1
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 = = , com 𝜏 = 1, 2, … (15)
𝑁 𝑁
Note que como se está supondo que a série temporal é estacionária, as previsões feitas no
período T para os valores da demanda em 𝜏 = 1, 2, . .., períodos adiante de T são todas a
mesma (i.e., 𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 para qualquer ). Note também que os pesos associados às N últimas
1
observações da série temporal são iguais a 𝑁 (os pesos das demais observações são nulos).
Ao se escolher um valor grande para N, a previsão em (15) fica mais conservadora, o que é
apropriado para processos relativamente estáveis na prática (em que o parâmetro a está
variando lentamente e os desvios aleatórios 𝜀𝑡 são maiores). Desta maneira, se está filtrando
os efeitos dos desvios aleatórios.27 Por outro lado, um valor de N pequeno implica numa
previsão em (15) mais reativa, o que é apropriado para processos menos estáveis na prática
(em que o parâmetro a está mudando mais rapidamente e os desvios aleatórios 𝜀𝑡 são
pequenos).
O valor de N a ser escolhido pode ser aquele que minimiza os erros de previsão (por exemplo,
o MAD em (11) ou o MSE em (13) da Seção 3) nos dados passados 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Isto pode
ser feito, por exemplo, por meio de uma planilha eletrônica (e.g., Excel ou outra), variando-se
os valores de 𝑁 = 1, 2, … , 𝑇 em (15) e escolhendo-se o que resultar no menor erro, ou por
algum método de tentativa e erro.
Convém observar que a média móvel tem variabilidade menor do que estes dados passados.
De fato, como a variância de cada demanda individual é (dado que 𝑉[𝑎] = 0):
𝑉[𝑦𝑡 ] = 𝑉[𝑎 + 𝜀𝑡 ] = 𝑉[𝑎] + 𝑉[𝜀𝑡 ] = 𝜎𝜀2
então a variância da média móvel é (dado que os desvios 𝜀𝑖 são supostos independentes):
𝑇
∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡 1 1 2
𝜎𝜀2
𝑉[𝑦̂𝑇,𝑇+𝜏 ] = 𝑉[𝑎̂ 𝑇 ] = 𝑉 [ ]= 2 ∑ 𝑉[𝑦𝑡 ] = 𝑁𝜎 =
𝑁 𝑁 𝑁2 𝜀 𝑁
𝑡=𝑇−𝑁+1
ou seja, N vezes menor do que a variância de cada demanda individual 𝑦𝑡 . Portanto, nos casos
de processos relativamente estáveis, isso reforça o uso de valores grandes para N.
Uma vantagem da média móvel (15) é que ela é facilmente atualizada de período a período: a
observação mais antiga 𝑦𝑇−𝑁 é substituída pela observação mais recente 𝑦𝑇 (daí o nome
média móvel). Uma desvantagem da média móvel é que ela dá o mesmo peso tanto para as
primeiras quanto para as últimas das N observações.
Exemplo 5: As últimas 8 observações de demanda de um produto foram: 𝑦1 = 200, 𝑦2 =

250, 𝑦3 = 175, 𝑦4 = 186, 𝑦5 = 225, 𝑦6 = 285, 𝑦7 = 305, 𝑦8 = 190. Compute as médias
móveis com 𝑁 = 3 a partir das três primeiras observações (i.e., com 𝑇 = 3), junto com os
respectivos erros de previsão (eT), erro absoluto médio (MAD) e erro quadrático médio (MSE).
27
Existem outros filtros de desvios aleatórios mais efetivos que a média móvel, especialmente quando a série
temporal está contaminada de valores poucos usuais (outliers). Um exemplo é a mediana móvel que, ao invés da
média, computa a mediana (i.e., a observação do meio) das últimas N observações (veja, por exemplo,
Montgomery et al., 2008).

Usando a média móvel 𝑦̂𝑇,𝑇+1 em (15) no período 𝑇 = 3 para prever a demanda no período
𝑇 + 1 = 4, obtém-se:
𝑦̂3,4 = 𝑎̂3 = (200 + 250 + 175)/3 = 208
Em seguida, usando a média móvel 𝑦̂𝑇,𝑇+1 em (15) no período 𝑇 = 4 para prever a demanda
no período 𝑇 + 1 = 5, obtém-se:
𝑦̂4,5 = 𝑎̂4 = (250 + 175 + 186)/3 = 204
e assim por diante, para prever as demandas nos períodos 6, 7, 8, respectivamente, obtém-se
os valores da Tabela 1 (veja Exercício 3 da lista no final deste capítulo). Note que a cada nova
observação, a média móvel das últimas 𝑁 = 3 observações é recomputada. Desta maneira, o
horizonte de previsão é rolante porque a cada nova observação da demanda, o horizonte pula
um período para frente.
Tabela 1 – Valores do Exemplo 1

𝑡 𝑦𝑡 𝑦̂𝑡−1,𝑡 𝑒𝑡 |𝑒𝑡 | 𝑒𝑡2
1 200
2 250
3 175
4 186 208 -22 22 499
5 225 204 21 21 455
6 285 195 90 90 8040
7 305 232 73 73 5329
8 190 272 -82 82 6669
Médias 16 58 4198
Observe na Tabela 1 que 𝑀𝐴𝐷 = 58 (conforme (11)) e 𝑀𝑆𝐸 = 4198 (conforme (13)). Logo,
o desvio padrão do erro de previsão é √𝑀𝑆𝐸 = 65 (ou aproximadamente 1,25𝑀𝐴𝐷 = 72). A
Figura 7 compara os valores observados da demanda com os valores previstos da média
móvel com 𝑁 = 3.
, 1,
350
300
250
200 demanda
150 média m vel ( )
100
50
0 1 2 3 4 5 6 7 8
Figura 7 – Comparação entre observações de demanda e média móvel (𝑁 = 3)

A previsão da demanda feita no período T para  períodos adiante de T é simplesmente
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 . Por exemplo, a previsão feita no período 𝑇 = 3 para 𝜏 = 3 períodos adiante (ou
seja, no período 6) é 𝑦̂3,6 = 208, ou seja, igual a 𝑎̂3.
■
A Figura 8 compara os valores observados da demanda do Exemplo 5 com os valores

previstos da média móvel com 𝑁 = 3 (Figura 2) e da média móvel com 𝑁 = 6 a partir do
período 𝑇 = 6. Note que as previsões ficam menos reativas com o maior valor de N, conforme
esperado (veja Exercício 3 da lista no final deste capítulo).
, 1,
350
300
demanda
250
100
50
0 1 2 3 4 5 6 7 8
Figura 8 – Comparação entre observações de demanda e médias móveis (𝑁 = 3 e 𝑁 = 6)
Convém observar que a estimativa 𝑎̂ 𝑇 da média móvel em (15) pode ser vista como resultado
da aplicação do critério de mínimos quadrados sobre somente as N observações mais recentes
da série temporal. De fato, ao considerar na Seção 2.1 que a reta em (2) é 𝑦 = 𝑎 (i.e.,
constante) e levar em conta apenas as últimas N observações (do total de T observações),
obtém-se a seguinte função dos desvios quadráticos:
𝑇 𝑇
𝑔(𝑎) = ∑ 𝜀𝑡2 = ∑ (𝑦𝑡 − 𝑎)2

𝑡=𝑇−𝑁+1 𝑡=𝑇−𝑁+1
Derivando-se esta função e igualando-a a zero, obtém-se:

𝑇
𝜕𝑔
= −2 ∑ (𝑦𝑡 − 𝑎̂) = 0
𝜕𝑎
𝑡=𝑇−𝑁+1
que resulta (corretamente) na média móvel em (15):
∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡
𝑎̂ 𝑇 =
𝑁

Note que o subíndice T indica que esta estimativa de a depende de T; portanto, deve ser
recalculada a cada nova observação. Note também que esta estimativa 𝑎̂ 𝑇 não é viciada, i.e.,
não é tendenciosa e seu valor esperado coincide com o parâmetro desconhecido 𝑎, como seria
esperado (veja discussão da Seção 7.2):
𝑇
∑𝑇𝑡=𝑇−𝑁+1 𝑦𝑡 ∑𝑇𝑡=𝑇−𝑁+1(𝑎 + 𝜀𝑡 ) 1
𝐸[𝑎̂ 𝑇 ] = 𝐸 [ ] = 𝐸[ ]= ∑ (𝐸[𝑎] + 𝐸[𝜀𝑡 ]) = 𝑎
𝑁 𝑁 𝑁
𝑡=𝑇−𝑁+1
dado que 𝐸[𝑎] = 𝑎 e 𝐸[𝜀𝑡 ] = 0.
4.2 Suavização exponencial

Outro método de previsão bem popular para séries temporais estacionárias como em (14) é a
suavização exponencial (exponential smoothing, também conhecido como método de Brown).
Suavização pode ser vista como uma técnica para tentar separar, tanto quanto possível, o
“sinal” do “ruído” (i.e., do desvio aleat rio) de uma série temporal. No caso da série em (14),
o padrão do sinal é o nível constante a; a ideia da suavização é filtrar o desvio aleatório 𝑡
para estimar o sinal da série.
Conforme antes, seja 𝑎̂ 𝑇 a estimativa do parâmetro a após observar a última demanda 𝑦𝑇 no

período T. O valor previsto no período T para a demanda no período 𝑇 +  (𝑦̂𝑇,𝑇+𝜏 ) por este
método é uma combinação convexa do valor da demanda no período T (𝑦𝑇 ) e do valor
previsto no período 𝑇 − 1 para a demanda no período T (i.e., 𝑦̂𝑇−1,𝑇 ):
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̂𝑇−1,𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑎̂ 𝑇−1

com 0 < 𝛼 < 1,𝜏 = 1,2, . .. (16)
onde  é a constante de suavização que determina o peso relativo da última observação da

demanda 𝑦𝑇 em relação à última previsão 𝑎̂ 𝑇−1 . A expressão recursiva em (16) é chamada
suavização exponencial simples, ou de primeira ordem, por razões que ficarão mais evidentes
adiante. Como se está supondo que a série temporal é estacionária, as previsões da demanda
feitas no período T para 𝜏 = 1,2, . .., períodos adiante de T são todas a mesma (i.e., 𝑦̂𝑇,𝑇+𝜏 =
𝑎̂ 𝑇 para qualquer ).
Note na expressão (16) que à medida que se cresce , o método fica mais reativo (i.e.,
responde mais rapidamente a eventuais mudanças que estejam de fato ocorrendo no processo
na prática), porque dá mais peso à observação mais recente (𝑦𝑇 ). Por outro lado, valores
pequenos de  deixam o método mais conservador contra efeitos do desvio aleatório (𝜀𝑇 ),
dando maior peso à projeção dos dados históricos (𝑎̂ 𝑇−1).
Em geral, os valores de  usados na prática variam de 0,01 a 0,3. Embora admita-se que 0 < 
< 1, os valores limites 𝛼 = 0 e 𝛼 = 1 também são possíveis de serem usados. Neste caso, 𝛼 =
0 significa que a última previsão (i.e., 𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇−1) não é atualizada, enquanto 𝛼 = 1
significa que a previsão é a observação mais recente (𝑦̂𝑇,𝑇+𝜏 = 𝑦𝑇 ).
Note que:

𝑦̂𝑇,𝑇+1 = 𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑎̂ 𝑇−1 = 𝑎̂ 𝑇−1 + 𝛼(𝑦𝑇 − 𝑎̂ 𝑇−1 ) = 𝑎̂ 𝑇−1 − 𝛼(𝑎̂ 𝑇−1 − 𝑦𝑇 )
= 𝑎̂ 𝑇−1 − 𝛼𝑒𝑇
ou seja, a estimativa para 𝑎̂ 𝑇 é igual a estimativa do período anterior, 𝑎̂ 𝑇−1, menos uma fração
do erro de previsão, 𝛼𝑒𝑇 . Esta fração é positiva se a demanda foi superestimada, ou negativa
se foi subestimada.
Substituindo 𝑎̂ 𝑇−1 = 𝛼𝑦𝑇−1 + (1 − 𝛼)𝑎̂ 𝑇−2 na expressão acima, obtém-se:
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑎̂ 𝑇−1 = 𝛼𝑦𝑇 + (1 − 𝛼)[𝛼𝑦𝑇−1 + (1 − 𝛼)𝑎̂ 𝑇−2 ]

= 𝛼𝑦𝑇 + 𝛼(1 − 𝛼)𝑦𝑇−1 + (1 − 𝛼)2 𝑎̂ 𝑇−2
Substituindo sucessivamente 𝑎̂ 𝑇−2 = 𝛼𝑦𝑇−2 + (1 − 𝛼)𝑎̂ 𝑇−3 , 𝑎̂ 𝑇−3 = 𝛼𝑦𝑇−3 + (1 − 𝛼)𝑎̂ 𝑇−4 ,
..., nesta expressão, obtém-se:
𝑇
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + 𝛼(1 − 𝛼)𝑦𝑇−1 + 𝛼(1 − 𝛼) 𝑦𝑇−2 + 𝛼(1 − 𝛼) 𝑦𝑇−3 +. . . = ∑ 𝛼(1 − 𝛼)𝑡 𝑦𝑇−𝑡
2 3
𝑡=0
com os termos 𝛼(1 − 𝛼)𝑡 desta série decrescendo do presente para o passado. Note que 𝛼(1 −
𝛼)𝑡 , 𝑡 = 0, 1, . . . , 𝑇, são os pesos associados às T observações passadas. Ou seja, menores
pesos vão sendo dados para observações mais antigas, e estes pesos decaem suavemente com
decréscimo exponencial com fator de (1 − 𝛼) (daí o nome de suavização exponencial). Para
0 < 𝛼 < 1, a soma de todos estes pesos da série infinita (i.e., no limite de T tendendo a
infinito) é igual a 1:
∞ ∞
1
∑ 𝛼(1 − 𝛼)𝑡 = 𝛼 ∑(1 − 𝛼)𝑡 = 𝛼 =1
1 − (1 − 𝛼)
𝑡=0 𝑡=0
1
dado que a série geométrica ∑∞ 𝑡
𝑡=0(1 − 𝛼) com razão (1 − 𝛼) < 1 converge para .
1−(1−𝛼)
1
Lembre-se da Seção 4.1 que, na média móvel em (15), todos os pesos são iguais a 𝑁 para as
últimas N observações (e iguais a 0 para as demais observações), o que também totaliza 1.
Quanto maior o valor de  na expressão (16), mais peso é dado às observações mais recentes.
Por exemplo, substituindo 𝛼 = 0,2 na expressão acima, as três observações mais recentes têm
49% do peso total (20%, 16% e 13%). Se 𝛼 = 0,5, então elas têm 88% do peso (50%, 25% e
13%).
Valores de 𝛼 = 0,1 ou 𝛼 = 0,2 são em geral recomendados para diversas aplicações. Outro
procedimento para a escolha de  é usar a história passada e testar diversos valores de , para
determinar qual o valor que minimiza os erros de previsão (por exemplo, o MAD ou o MSE)
nos dados 𝑦1 , 𝑦2 , … , 𝑦𝑇 . Isto pode ser feito, por exemplo, por meio de uma planilha eletrônica
(e.g., Excel ou outra), variando-se os valores de  de 0,05 a 0,5 com incrementos de 0,01 ou
0,05, ou utilizando um algoritmo de otimização não-linear. Se o valor obtido for maior que
0,5, então tendência e/ou sazonalidade provavelmente estão presentes na série temporal, e o
método pode não ser adequado.

Exemplo 6: Aplicando a suavização exponencial (16) nos dados do Exemplo 5 com 𝛼 = 0,1 e
𝑦̂0,1 = 𝑎̂0 = 200 (i.e., a previsão inicial para o período 𝑡 = 1 igual à primeira observação),
obtém-se:
𝑦̂1,2 = 𝑎̂1 = 𝛼𝑦1 + (1 − 𝛼)𝑎̂0 = 0,1(200) + 0,9(200) = 200

𝑦̂2,3 = 𝑎̂2 = 𝛼𝑦2 + (1 − 𝛼)𝑎̂1 = 0,1(250) + 0,9(200) = 205
e assim por diante, para os períodos 4, 5, ..., 8 (veja Exercício 4 da lista no final deste
capítulo). Conforme o Exemplo 5, o horizonte de previsão é rolante porque, a cada nova
observação da demanda, o horizonte pula um período para frente. A Tabela 2 apresenta os
valores e erros obtidos (comparados com o da média móvel com 𝑁 = 3 - coluna MA(3)).

𝑡 𝑦𝑡 MA(3) |𝑒𝑡 | 𝑦̂𝑡−1,𝑡 |𝑒𝑡 |
1 200 200
2 250 200
3 175 205
4 186 208 22 202 16
5 225 204 21 200 25
6 285 195 90 203 82
7 305 232 73 211 94
8 190 272 82 220 30
MAD 58 49
Note que o MAD (conforme (11)) da suavização exponencial (com 𝛼 = 0,1) considerando os
períodos 4, 5, ..., 8, é 49, ou seja, menor do que o MAD da média móvel (com 𝑁 = 3), igual a
58. Portanto, neste exemplo, a previsão da suavização exponencial (16) foi mais precisa do
que a média móvel (15). A Figura 9 compara os valores observados da demanda com os
valores previstos da média móvel (𝑁 = 3) e suavização exponencial (𝛼 = 0,1).
■
, 1,
350
300
250
200 demanda
100 suavi ação exponencial ( , )
50
0 1 2 3 4 5 6 7 8
Figura 9 – Comparação entre observações de demanda, média móvel (𝑁 = 3) e suavização
exponencial (𝛼 = 0,1)
A Figura 10 compara os valores observados da demanda do Exemplo 6 com os valores

previstos da média móvel com 𝑁 = 3 e da suavização exponencial com 𝛼 = 0,1 (Figura 9) e
com a suavização exponencial com 𝛼 = 0,4. Note que as previsões ficam mais reativas com o
maior valor de 𝛼, conforme esperado (veja Exercício 4 da lista no final deste capítulo).
, 1,
350
300 demanda
100
50
0 1 2 3 4 5 6 7 8
Figura 10 – Comparação entre observações de demanda, média móvel (𝑁 = 3) e suavizações
exponenciais (𝛼 = 0,1 e 𝛼 = 0,4)
No final da Seção 4.1, mostrou-se que a média móvel (15) pode ser vista como resultado da
aplicação do critério de mínimos quadrados sobre as últimas N observações da série temporal.
A estimativa 𝑎̂ 𝑇 da suavização exponencial (16) também pode ser vista como resultado da
aplicação do critério de mínimos quadrados, mas sobre todas as T observações da série
temporal, atribuindo-se pesos com decréscimo exponencial para as observações mais antigas.
Para mostrar isso, basta considerar-se na Seção 2.1 que a reta em (2) é 𝑦 = 𝑎 (i.e., constante,
ao invés de 𝑎 + 𝑏𝑥) e que cada observação t (do total de T observações) tem peso (1 − 𝛼)𝑇−𝑡 ,
o que resulta na função de desvios quadráticos:
𝑇 𝑇
𝑔(𝑎) = ∑(1 − 𝛼)𝑇−𝑡 𝜀𝑡2 = ∑(1 − 𝛼)𝑇−𝑡 (𝑦𝑡 − 𝑎)2

𝑡=1 𝑡=1
Derivando-se esta função e igualando-a a zero, obtém-se:

𝑇
𝜕𝑔
= −2 ∑(1 − 𝛼)𝑇−𝑡 (𝑦𝑡 − 𝑎̂) = 0
𝜕𝑎
𝑡=1
que, após alguma manipulação algébrica28, resulta (corretamente) na fórmula recursiva de

suavização exponencial (16) (veja Exercício 5 da lista no final deste capítulo):
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑎̂ 𝑇−1
em que 𝑎̂ 𝑇 é definido conforme antes. Note que a estimativa 𝑎̂ 𝑇 não é tendenciosa:
28
Veja, por exemplo, Johnson e Montgomery (1974).

𝐸[𝑎̂ 𝑇 ] = 𝐸[𝛼𝑦𝑇 + (1 − 𝛼)𝑎̂ 𝑇−1 ] = 𝐸[𝛼𝑦𝑇 + (1 − 𝛼)(𝛼𝑦𝑇−1 + (1 − 𝛼)𝑎̂ 𝑇−2 )]
= 𝐸[𝛼𝑦𝑇 + (1 − 𝛼)(𝛼𝑦𝑇−1 + (1 − 𝛼)(𝛼𝑦𝑇−2 + (1 − 𝛼)𝑎̂ 𝑇−3 ))]
= 𝐸[𝛼𝑦𝑇 + 𝛼(1 − 𝛼)𝑦𝑇−1 + 𝛼(1 − 𝛼)2 𝑦𝑇−2 + 𝛼(1 − 𝛼)3 𝑦𝑇−3 + ⋯ ]
𝑇−1
= 𝐸 [𝛼 ∑(1 − 𝛼)𝑡 𝑦𝑇−𝑡 + (1 − 𝛼)𝑇 𝑦0 ]

𝑡=0
que, no limite de T tendendo a infinito, resulta em 𝐸[𝛼 ∑∞ 𝑡

𝑡=0(1 − 𝛼) 𝑦𝑇−𝑡 ] com (1 − 𝛼) < 1.
Dado que 𝑦𝑇−𝑡 = 𝑎 + 𝜀𝑇−𝑡 e 𝐸[𝜀𝑡 ] = 0, segue que:
∞ ∞
1
𝐸[𝑎̂ 𝑇 ] = 𝛼𝐸 [∑(1 − 𝛼) (𝑎 + 𝜀𝑇−𝑡 )] = 𝛼𝑎𝐸 [∑(1 − 𝛼)𝑡 ] = 𝛼𝑎
𝑡
=𝑎
1 − (1 − 𝛼)
𝑡=0 𝑡=0
4.3 Comparação de média móvel e suavização exponencial
Note na Figura 10 que a média móvel (15) com 𝑁 = 3 e a suavização exponencial (16) com
𝛼 = 0,1 resultam em previsões bem diferentes. Isto sugere que estes valores de N e  não são
consistentes. Por outro lado, 𝛼 = 0,4 parece ser mais consistente com 𝑁 = 3.
Uma maneira de determinar valores consistentes para N e  é igualando as idades médias dos
dados usados nas previsões. Note que na previsão da média móvel (15) para o período t:
∑𝑇−1
𝑡=𝑇−𝑁 𝑦𝑡 𝑦𝑇−1 + 𝑦𝑇−2 +. . . +𝑦𝑇−𝑁
𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 = =
𝑁 𝑁
a idade média resulta em:

𝑁
1 1 1 𝑁 𝑁+1
∑𝑡 = (1 + 2+. . . +𝑁) = [(1 + 𝑁) ] =
𝑁 𝑁 𝑁 2 2
𝑡=1
𝑁
dado que a soma da progressão aritmética ∑𝑁 𝑡=1 𝑡 resulta em (1 + 𝑁) 2 . Na previsão da
suavização exponencial (16) para o período t:
∞
𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 = ∑ 𝛼(1 − 𝛼)𝑡 𝑦𝑇−𝑡−1 = 𝛼𝑦𝑇−1 + 𝛼(1 − 𝛼)𝑦𝑇−2 + 𝛼(1 − 𝛼)2 𝑦𝑇−3 +. ..
𝑡=0
a idade média resulta em:29

∞
1
∑ 𝑡𝛼(1 − 𝛼)𝑡−1 =
𝛼
𝑡=1
29 1
Note que esse resultado coincide com o valor esperado de uma variável aleatória 𝑡 com distribuição
𝛼
1
geométrica com parâmetro 𝛼. Para uma demonstração de que essa série infinita converge para , veja, por
𝛼
exemplo, Ross (1993).

Igualando-se as duas idades médias da média móvel e da suavização exponencial, obtém-se
𝑁+1 1
= 𝛼 , ou seja,
2
2 2−𝛼
𝛼= , 𝑁=
𝑁+1 𝛼
Logo, 𝑁 = 3 é consistente com 𝛼 = 0,5 (veja Figura 10 com 𝛼 = 0,4), enquanto 𝑁 = 19 é

consistente com 𝛼 = 0,1. Usar valores consistentes não implica que as previsões obtidas pela
média móvel (15) e pela suavização exponencial (16) vão ser exatamente iguais. Implica
apenas que os dois métodos terão o mesmo nível de precisão (distribuição dos erros de
previsão). De fato, além dos valores esperados das previsões destes dois métodos serem iguais
para séries temporais estacionárias, i.e., 𝐸[𝑎̂ 𝑇 ] = 𝑎, conforme mostrado anteriormente, com
valores esperados do erro de previsão nulos, i.e., 𝐸[𝑒𝑇 ] = 0, também pode ser mostrado que a
𝑁+1
variância do erro de previsão do método de média móvel é 𝑉[𝑒𝑇 ] = 𝑁 𝜎𝜀2 , enquanto que a
variância do erro de previsão do método de suavização exponencial simples é 𝑉[𝑒𝑇 ] =
2 2
𝜎 2 . Ao igualar-se estas duas variâncias, obtém-se a relação acima, i.e., que 𝛼 = 𝑁+1 ou
2−𝛼 𝜀
2−𝛼 30
𝑁= .
𝛼
Uma vantagem da suavização exponencial (16) sobre a média móvel (15) é que a suavização
exponencial necessita armazenar apenas a última observação 𝑦𝑇 (as demais estão
representadas em 𝑦̂𝑇−1,𝑇 = 𝑎̂ 𝑇−1 ), enquanto que a média móvel necessita armazenar todas as
últimas N observações 𝑦𝑇 , 𝑦𝑇−1 , … , 𝑦𝑇−𝑁+1 . Além disso, a suavização exponencial não
necessita que a média das últimas N observações seja recalculada a cada nova observação.31
Devido a estas vantagens e à boa precisão das previsões, a suavização exponencial tem sido
bem utilizada na prática do planejamento e controle da produção e logística.
4.4 Suavização exponencial para estimar distribuição de probabilidade
Métodos de suavização exponencial também podem ser aplicados para fazer previsões da
distribuição de probabilidade de uma variável aleatória, ao invés de apenas seus valores
esperados, ou medidas de dispersão em torno desses valores esperados (e.g., MAD em (11) e
MSE em (13)). Admite-se que a distribuição de probabilidade é estacionária, ou está mudando
pouco com o tempo. A estimativa desta distribuição pode ser útil para calcular probabilidades
de ocorrências de diferentes eventos, por exemplo, a probabilidade da demanda do próximo
período ser menor do que um certo valor, diga-se, menor do que 36 unidades do produto, ou
mesmo ocorrer dentro de um certo intervalo, diga-se, entre 26 e 36 unidades do produto.
Definem-se n classes (intervalos disjuntos) [𝑌0 , 𝑌1 ], (𝑌1 , 𝑌2 ], … , (𝑌𝑘−1 , 𝑌𝑘 ], … , (𝑌𝑛−1 , 𝑌𝑛 ] a que

os possíveis valores da variável aleatória 𝑦𝑡 podem pertencer, onde 𝑌0 e 𝑌𝑛 são valores finitos
e n é um valor usualmente entre 10 e 20. Por exemplo, a Figura 11 ilustra o caso em que o
valor de 𝑦𝑡 ocorreu na k-ésima classe e, portanto, 𝑌𝑘−1 < 𝑦𝑡 ≤ 𝑌𝑘 .
30
Para mais detalhes deste resultado, veja, por exemplo, Nahmias (2009).
31
No caso de se estar interessado apenas na média móvel 𝑦̂𝑇,𝑇+1 para o próximo período (ao invés da média
móvel 𝑦̂𝑇,𝑇+𝜏 para 𝜏 ≥ 1), ela pode ser reescrita de maneira que apenas a diferença entre a demanda mais recente
𝑦𝑇 e a demanda mais antiga 𝑦𝑇−𝑁 precise ser recalculada em cada período (veja, por exemplo, Nahmias, 2009).

1
1 2 1
0 1 2 1 1
Figura 11 – Intervalos das n classes com ocorrência da demanda no k-ésimo intervalo
Seja 𝑝𝑘 = 𝑃(𝑌𝑘−1 < 𝑦𝑡 ≤ 𝑌𝑘 ) a probabilidade do valor de 𝑦𝑡 ocorrer na classe k, com

∑𝑛𝑘=1 𝑝𝑘 = 1. Define-se 𝑝̂ 𝑘𝑇 como a estimativa de 𝑝𝑘 após observar a última demanda 𝑦𝑇 no
período T. Sejam ainda o vetor 𝑝̂ 𝑇 = (𝑝̂1𝑇 , 𝑝̂ 2𝑇 , … , 𝑝̂ 𝑘−1,𝑇 , 𝑝̂𝑘𝑇 , 𝑝̂ 𝑘+1,𝑇 , … , 𝑝̂ 𝑛𝑇 ) das
probabilidades de todas as classes, e o vetor 𝜇 𝑇 = (0, 0, … , 0, 1, 0, … , 0) com todos os valores
nulos exceto o k-ésimo valor que é igual a 1 se a última observação no período T pertence à k-
ésima classe, i.e., se 𝑌𝑘−1 < 𝑦𝑇 ≤ 𝑌𝑘 .
Aplicando-se o método de suavização exponencial simples, a previsão no período T para a

distribuição de probabilidade da demanda dos próximos períodos 𝑇 + 𝜏 é uma combinação
convexa da observação no período T (i.e., do vetor 𝜇 𝑇 ) e da previsão para a distribuição de
probabilidade feita no período 𝑇 − 1 (i.e., do vetor 𝑝̂ 𝑇−1):
𝑝̂ 𝑇 = 𝛼𝜇 𝑇 + (1 − 𝛼)𝑝̂ 𝑇−1 (17)
onde  é a constante de suavização. Como se está supondo que a série temporal é estacionária
(ou está mudando pouco com o tempo), as previsões feitas no período T para 𝜏 = 1, 2, . ..,
períodos adiante de T são todas a mesma.
Para estimar a probabilidade da demanda do próximo período ser menor do que um certo
valor, diga-se 𝜃, seja 𝐺(𝜃) = 𝑃(𝑦𝑡 ≤ 𝜃) a distribuição acumulada da demanda 𝑦𝑡 , e 𝐺̂𝑇 (𝜃) a
estimativa de 𝐺(𝜃) após observar a demanda no período T. A partir dos valores de 𝐺̂𝑇 (𝑌𝑘 ) =
∑𝑘𝑗=1 𝑝̂𝑗𝑇 , em que 𝑝̂𝑗𝑇 é computado em (17) para cada classe j, pode-se usar interpolação linear
para obter o valor aproximado de 𝜃𝑝 tal que 𝐺̂𝑇 (𝜃𝑝 ) = 𝑝. A Figura 12 ilustra essa situação -
note na figura que p pode ser calculado por:
𝐺̂𝑇 (𝑌𝑘 ) − 𝐺̂𝑇 (𝑌𝑘−1 )

𝑝 = 𝐺̂𝑇 (𝑌𝑘−1 ) + (𝜃𝑝 − 𝑌𝑘−1 )
𝑌𝑘 − 𝑌𝑘−1
( 1) ( )
1
Figura 12 – 𝜃𝑝 e 𝐺̂𝑇 (𝜃𝑝 ) = 𝑝 dentro da classe k

Isolando-se 𝜃𝑝 nesta expressão, obtém-se (após alguma manipulação algébrica; veja Exercício
6 da lista no final deste capítulo): 32
[𝐺̂𝑇 (𝑌𝑘 ) − 𝑝]𝑌𝑘−1 + [𝑝 − 𝐺̂𝑇 (𝑌𝑘−1 )]𝑌𝑘

𝜃𝑝 = (18)
𝐺̂𝑇 (𝑌𝑘 ) − 𝐺̂𝑇 (𝑌𝑘−1 )
Exemplo 7: Considere um exemplo com apenas 𝑛 = 5 classes, definidas conforme as duas

primeiras colunas da Tabela 3, e que após 𝑇 − 1 observações dos valores da demanda de um
produto, as estimativas de 𝑝̂ 𝑘,𝑇−1 e 𝐺̂𝑇−1 (𝑌𝑘 ) para cada classe k são dadas conforme a terceira
e quarta colunas da tabela. Se a demanda do produto no período T foi 𝑦𝑇 = 34, determine 𝜃0,9
tal que 𝐺̂𝑇 (𝜃0,9 ) = 0,9, i.e., qual o valor tal que a probabilidade da demanda ser menor ou
igual a esse valor seja 90%.
Tabela 3 – Valores do Exemplo 7 para cada classe 𝑘 = 1, … ,5

k 𝑌𝑘 𝑝̂ 𝑘,𝑇−1 𝐺̂𝑇−1 (𝑌𝑘 ) 𝑝̂ 𝑘𝑇 𝐺̂𝑇 (𝑌𝑘 )
0 0 0 0
1 10 0,60 0,60 0,540 0,540
2 20 0,15 0,75 0,135 0,675
3 30 0,15 0,90 0,135 0,810
4 40 0,05 0,95 0,145 0,955
5 50 0,05 1,00 0,045 1,000
Como a demanda no período T pertence à classe 𝑘 = 4 (i.e., maior que 30 e menor que 40),
segue que 𝜇 𝑇 = (0, 0, 0, 1, 0). Usando a suavização exponencial em (17) com 𝛼 = 0,1, obtém-
se as estimativas de 𝑝̂𝑘𝑇 e 𝐺̂𝑇 (𝑌𝑘 ) para cada classe k dadas conforme as duas últimas colunas
da Tabela 3, ilustradas na Figura 13.
, 0,81 0,955
1,0
0,8 ( )
0,6
0,4
0,2
0 10 20 30 40 50
Figura 13 – Distribuições de probabilidade 𝑝̂ 𝑘𝑇 e 𝐺̂𝑇 (𝑌𝑘 )
Substituindo esses valores na expressão (18) com 𝑝 = 0,9 e 𝑘 = 4, obtém-se:
(0,955−0,9)30+(0,9−0,810)40
𝜃0,9 = = 36,2
0,955−0,810
32
Para mais detalhes destes métodos, incluindo estimativas da variância de 𝑝̂𝑘𝑇 , veja, por exemplo, Johnson e
Montgomery (1974) e Hax e Candea (1984).

Portanto, a probabilidade da demanda no próximo período ser menor ou igual a 36,2 é de
90%. Note que com a previsão da distribuição de probabilidade (empírica) da demanda, pode-
se estimar a probabilidade de outros eventos, por exemplo, a probabilidade de a demanda
ocorrer dentro de um intervalo qualquer. Veja Exercício 7 da lista no final deste capítulo.
■
Na Seção 8 adiante discute-se como gerar intervalos de previsão (i.e., intervalos de confiança
com diferentes probabilidades de conter a demanda do próximo período) e a utilização de
diagramas de controle (com limites de controle definidos por intervalos de confiança) para
monitorar o desempenho do método de previsão.
Controle adaptativo: existem técnicas para ir-se ajustando automaticamente os valores das
constantes de suavização (dos métodos de suavização exponencial simples) ao longo do
tempo, baseadas nas medidas dos erros de previsão dos períodos anteriores. No entanto, existe
pouca evidência de que estes métodos de controle adaptativo, que alteram dinamicamente os
valores das constantes de suavização, sejam mais vantajosos do que os métodos de suavização
convencionais para previsão em séries temporais. Em função disso, estes métodos não serão
discutidos neste capítulo.33
5. Métodos de séries temporais com tendência

Se o padrão da demanda tem uma tendência sistemática de crescimento (ou decrescimento), a
série temporal não é mais estacionária. Neste caso, é possível estender os métodos de séries
temporais estacionárias para considerar tendências. A série temporal com tendência linear é
definida por:
𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, 3, … (19)
em que as variáveis aleatórias (demandas) são representadas pela reta 𝑎 + 𝑏𝑡, mais o desvio
aleatório 𝜀𝑡 em cada período t (suposto independente e identicamente distribuído com média 0
e variância 𝜎𝜀2 ). Conforme antes, admite-se que não se pode prever os desvios aleatórios. Note
que 𝑦𝑡 em (19) não depende explicitamente de 𝑦𝑡−1 , 𝑦𝑡−2 , 𝑦𝑡−3 , …, mas dos parâmetros 𝑎 e 𝑏,
que vão ser estimados usando-se informação das observações anteriores da demanda.
O parâmetro a representa a demanda média no período 𝑡 = 0 e o parâmetro b representa a

tendência linear, que é o crescimento (ou decrescimento) sistemático por período, assumido
variando lentamente. Se os desvios aleatórios 𝜀𝑡 forem grandes, não há como evitar grandes
erros de previsão, dado que a melhor previsão do modelo (19) é a melhor estimativa para a
reta 𝑎 + 𝑏𝑡.
No início do ciclo de vida dos produtos existe um estágio de crescimento e no final do ciclo,
um estágio de decrescimento da demanda.34 Durante estes estágios, é natural admitir que a
demanda segue um modelo de tendência linear positiva (no caso de crescimento) ou negativa
(no caso de decrescimento).
33
Para mais detalhes destes métodos, veja, por exemplo, Johnson e Montgomery (1974) e Makridakis et al.
(1998).
34
Para mais detalhes dos estágios de crescimento e declínio do ciclo de vida de um produto, veja, por exemplo,
Ballou (2004).

A seguir, apresenta-se três métodos de séries temporais com tendência linear (crescimento ou
decrescimento):
• Regressão linear: método que ajusta uma reta aos dados.
• Método de Holt: pode ser visto como um tipo de suavização exponencial dupla.
• Suavização exponencial dupla (ou de segunda ordem).
5.1 Regressão linear

Considere que (19) é um modelo de regressão linear simples (compare com o modelo (2) da
Seção 2.1), em que t é a variável independente, representando o período de tempo, 𝑦𝑡 é a
variável dependente, representando a demanda de um produto no período t, e 𝜀𝑡 é o desvio
aleatório no período t. Considere ainda que dispõe-se de T observações (𝑡1 = 1, 𝑦1 ), (𝑡2 =
2, 𝑦2 ), ..., (𝑡𝑇 = 𝑇, 𝑦𝑇 ) destas variáveis t e 𝑦𝑡 . Note que este modelo pode ser visto como um
caso particular do modelo (2), em que a variável independente 𝑥 = 𝑡 assume valores
particulares 1, 2, ..., T.
Similarmente ao desenvolvimento na Seção 2.1, deseja-se ajustar a reta em (19): 𝑦𝑡 = 𝑎 + 𝑏𝑡

aos dados observados, de maneira a minimizar os desvios quadráticos 𝜀𝑡2 entre os valores
desta reta e as observações 𝑦1 , 𝑦2 , … , 𝑦𝑇 .
Aplicando-se o critério de mínimos quadrados, ou seja, escrevendo-se a soma dos quadrados

dos desvios como uma função dos coeficientes a e b da reta em (19), obtém-se:
𝑇 𝑇
𝑔(𝑎, 𝑏) = ∑ 𝜀𝑡2 = ∑[𝑦𝑡 − (𝑎 + 𝑏𝑡)]2 (20)

𝑡=1 𝑡=1
Deseja-se determinar os valores de 𝑎̂ e 𝑏̂ que minimizam a função 𝑔(𝑎, 𝑏). Derivando-se

𝑔(𝑎, 𝑏) em relação aos parâmetros a e b e igualando-se a zero, obtém-se o seguinte sistema de
equações (lineares nas incógnitas 𝑎̂ e 𝑏̂):
𝑇
𝜕𝑔
= −2 ∑[𝑦𝑡 − (𝑎̂ + 𝑏̂𝑡)] = 0
𝜕𝑎
𝑡=1
𝑇
𝜕𝑔
= −2 ∑ 𝑡[𝑦𝑡 − (𝑎̂ + 𝑏̂𝑡)] = 0
𝜕𝑏
𝑡=1
cuja solução, após alguma manipulação algébrica35, resulta no melhor ajuste da reta (mínimo
desvio quadrático), dado por (veja Exercício 8 da lista no final deste capítulo):
𝑇+1
𝑎̂ = 𝑦̄ − 𝑏̂ (21a)
2
𝑇 𝑇(𝑇 + 1) 𝑇
𝑇 ∑𝑡=1 𝑡𝑦𝑡 − ∑𝑡=1 𝑦𝑡
𝑏̂ = 2 (21b)
𝑇 2 (𝑇 + 1)(2𝑇 + 1) 𝑇 2 (𝑇 + 1)2
−
6 4
onde: 𝑦̄ = ∑𝑇𝑡=1 𝑦𝑡 /𝑇
35
Veja, por exemplo, Nahmias (2009).

Portanto, o modelo de previsão (com base nas T observações) é:
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏), com 𝜏 = 1, 2, … (22)
onde, conforme antes, 𝑦̂𝑇,𝑇+𝜏 denota a previsão para o período 𝑇 + 𝜏 feita no período T. Note
que as estimativas 𝑎̂ 𝑇 e 𝑏̂𝑇 dos parâmetros a e b de (19) dependem de T e, portanto, são
recalculadas a cada nova observação. Note também que essas estimativas não são
tendenciosas conforme discussão na Seção 7.2.
Exemplo 8: Considere novamente os dados do Exemplo 6. Suponha que se está no período

𝑇 = 5 e deseja-se ajustar uma reta (19) aos cinco primeiros dados. Substituindo-se os dados
nas expressões (21), obtém-se:
𝑏̂5 = −70/50 = −7/5, 𝑎̂5 = 211,4
A reta de regressão linear (22) que resulta no melhor ajuste aos dados (mínimo desvio
quadrático) é dada por:
𝑦̂5,5+𝜏 = 211.4 − (7/5)(5 + 𝜏) para 𝜏 = 1,2, . ..
A Figura 14 ilustra os valores observados da demanda com os previstos pela reta de regressão
linear (22). Por exemplo, para 𝜏 = 3, obtém-se 𝑦̂5,8 = 200,2.
, 1,
350
300
250
200 demanda
150 reta
100
50
0 1 2 3 4 5 6 7 8
Figura 14 – Comparação das observações da demanda com reta de regressão
Estas previsões de demanda são realizadas no período 𝑇 = 5. Após a observação da demanda

no período 𝑇 = 6 (i.e., 𝑦6 = 285), deve-se computar os valores de 𝑎̂6 e 𝑏̂6 em (21) usando
esta observação, para então realizar previsões para os períodos 7, 8, 9, ...., no período 𝑇 = 6.
E assim por diante (veja Exercício 9 da lista no final deste capítulo). O custo de recomputar as
estimativas de a e b a cada nova observação é uma desvantagem do método de regressão
linear. Pode-se também computar o coeficiente de determinação 𝑅 2 e o coeficiente de
correlação 𝑟𝑥𝑦 para se analisar melhor a qualidade do ajuste desta reta de regressão linear

(Exercício 9).
■
O método de regressão linear (22) pode ser facilmente modificado para considerar que, ao
invés da variável independente t assumir os valores 1, 2, ..., T, ela assume apenas os valores
𝑇 − 𝑁 + 1, 𝑇 − 𝑁 + 2, ..., 𝑇 − 1, 𝑇. Desta maneira, o método passa a ser baseado apenas nas
últimas N observações 𝑦𝑇−𝑁+1 , 𝑦𝑇−𝑁+2 , … , 𝑦𝑇−1 , 𝑦𝑇 , como a média móvel (15) da Seção 4.1.
As estimativas para os parâmetros a e b passam a ser definidas por:
𝑁−1
𝑎̂ = 𝑦̄ − 𝑏̂ (23a)
2
𝑁(𝑁 − 1) 𝑁−1
𝑁 ∑𝑁−1
𝑡=0 𝑡𝑦𝑇−𝑡 − ∑𝑡=0 𝑦𝑇−𝑡
𝑏̂ = 2 (23b)
𝑁 2 (𝑁 − 1)(2𝑁 − 1) 𝑁 2 (𝑁 − 1)2
−
6 4
onde: 𝑦̄ = ∑𝑁−1
𝑡=0 𝑦𝑇−𝑡 /𝑁
Note que esta modificação (23) pode ser vista como uma extensão do método de média móvel
para o caso com tendência linear na série temporal (alguns autores chamam esta extensão de
linha móvel – moving lines). Alternativamente, também pode-se utilizar as expressões
genéricas de 𝑎̂ e 𝑏̂ em (3) apresentadas na Seção 2.1 para tratar este caso, substituindo
apropriadamente T por N, e considerando que a variável independente é 𝑥 = 𝑡.
5.2 Método de Holt

O chamado método de Holt é uma extensão do método de suavização exponencial simples em
(16) na Seção 4.2, que pode ser utilizado em séries temporais como (19).36 Este método é
baseado nas duas suavizações exponenciais simples (24a) e (24b), e pode ser visto como um
tipo de suavização exponencial dupla utilizando duas constantes de suavização,  e  (com
0 < 𝛼 < 1 e 0 < 𝛽 < 1). Considerando que se tem T observações passadas, ele é definido
por:
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)(𝑎̂ 𝑇−1 + 𝑏̂𝑇−1 ) (24a)

𝑏̂𝑇 = 𝛽(𝑎̂ 𝑇 − 𝑎̂ 𝑇−1 ) + (1 − 𝛽)𝑏̂𝑇−1 (24b)
onde 𝑎̂ 𝑇 é a estimativa do valor da reta em (19) no último período T (𝑎 𝑇 ) e 𝑏̂𝑇 é a estimativa

da inclinação da reta em (19) no período T (𝑏𝑇 ). O valor da demanda previsto no período T
para o período 𝑇 + 𝜏 é:
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏, com 𝜏 = 1, 2, … (25)
Note que 𝑎̂ 𝑇 em (24a) é uma combinação convexa entre a última demanda (𝑦𝑇 ) e a demanda
prevista em 𝑇 − 1 para T (𝑦̂𝑇−1,𝑇 ), ou seja:
𝑎̂ 𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)(𝑎̂ 𝑇−1 + 𝑏̂𝑇−1 ) = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̂𝑇−1,𝑇
36
Este método foi proposto em Holt (1957).

Note também que 𝑏̂𝑇 em (24b) é uma combinação convexa entre a última inclinação (𝑎̂ 𝑇 −
𝑎̂ 𝑇−1) e a inclinação prevista em 𝑇 − 1 para T (𝑏̂𝑇−1 ).
Em geral, utiliza-se 𝛽 ≤ 𝛼 para dar mais estabilidade para a estimativa da inclinação. O valor
previsto em T para 𝑇 + 𝜏 (𝑦̂𝑇,𝑇+𝜏 ) é o valor da reta em (25): 𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏. Valores de  iguais a
0,1 ou 0,2 são comumente utilizados, enquanto  é um valor em geral menor ou igual a 0,1,
por exemplo, igual a 0,05.
Outro procedimento para a escolha de  e  é usar a história passada para determinar os

valores que minimizam os erros de previsão (e.g., o MSE). Recomenda-se que estes valores
não sejam maiores que 0,5; caso contrário, isso pode ser um indicativo de que outros métodos,
baseados em suavizações exponenciais de ordem superior (Seção 5.3) ou em modelos de Box-
Jenkins (Seção 7.3), possam ser mais apropriados.
Para iniciar o método de Holt, são necessárias estimativas iniciais de 𝑎̂0 e 𝑏̂0 em (24a) e (24b).
O valor de 𝑎̂0 pode ser igual à última observação e de 𝑏̂0 , igual à tendência dos últimos
períodos. Também pode-se utilizar a expressão (21) de regressão linear conforme Seção 5.1
sobre os T dados passados, para melhor estimar estes parâmetros.
Exemplo 9: Considere novamente os dados do Exemplo 8, com estimativas iniciais 𝑎̂0 = 200
e 𝑏̂0 = 10. Utilizando valores de  e  iguais a 0,1 em (24a) e (24b), obtém-se:
Período 𝑇 = 1:
𝑎̂1 = 𝛼𝑦1 + (1 − 𝛼)(𝑎̂0 + 𝑏̂0 ) = 0,1(200) + 0,9(200 + 10) = 209,0

𝑏̂1 = 𝛽(𝑎̂1 − 𝑎̂0 ) + (1 − 𝛽)𝑏̂0 = 0,1(209 − 200) + 0,9(10) = 9,9
A previsão (25) no período 𝑇 = 1 para o período 𝑇 + 1 = 2 é:
𝑥̂1,2 = 𝑎̂1 + 𝑏̂1 = 218,9
Período 𝑇 = 2:
𝑎̂2 = 𝛼𝑦2 + (1 − 𝛼)(𝑎̂1 + 𝑏̂1 ) = 0,1(250) + 0,9(209 + 9,9) = 222,0

𝑏̂2 = 𝛽(𝑎̂2 − 𝑎̂1 ) + (1 − 𝛽)𝑏̂1 = 0,1(222 − 209) + 0,9(9,9) = 10,2
A previsão (25) no período 𝑇 = 2 para o período 𝑇 + 1 = 3 é:
𝑥̂2,3 = 𝑎̂2 + 𝑏̂2 = 232,2
e assim por diante, para cada período 3, 4, ..., 8 (veja Exercício 10 da lista no final deste
capítulo). A Tabela 4 apresenta os valores obtidos para todos os períodos.

𝑡 𝑦𝑡 𝑎̂𝑡 𝑏̂𝑡 𝑦̂𝑡−1,𝑡 |𝑒𝑡 |
1 200 209,0 9,9 200,0
2 250 222,0 10,2 218,9
3 175 226,5 9,6 232,0
4 186 231,1 9,1 236,1 50,1
5 225 238,7 9,0 240,3 15,3
6 285 251,4 9,4 247,7 37,3
7 305 265,2 9,8 260,8 44,2
8 190 266,5 8,9 275,0 85,0
MAD 46,4
Note que, para este exemplo, o MAD do método de Holt com 𝛼 = 0,1 e 𝛽 = 0,1 considerando
os períodos 4, 5, ..., 8, é 46,4, ou seja, menor do que o MAD da média móvel (com 𝑁 = 3),
igual a 58, e menor do que o MAD da suavização exponencial (com 𝛼 = 0,1), igual a 49
(Tabela 2). A Figura 15 compara os valores observados da demanda com os valores previstos
da média móvel (𝑁 = 3), suavização exponencial simples (𝛼 = 0,1) e método de Holt (𝛼 =
0,1 e 𝛽 = 0,1).
, 1,
350
300 demanda
150
olt ( , , )
100
50
0 1 2 3 4 5 6 7 8
Figura 15 – Comparação das observações da demanda com média móvel (𝑁 = 3), suavização
exponencial simples (𝛼 = 0,1) e método de Holt (𝛼 = 0,1 e 𝛽 = 0,1)
No caso de se desejar prever mais de um período adiante de T, basta usar a expressão 𝑦̂𝑇,𝑇+𝜏 .
Por exemplo, a previsão no período 𝑇 = 2 para 𝜏 = 3 períodos adiante é:
𝑦̂2,5 = 𝑎̂2 + 𝑏̂2 𝜏 = 222 + 10,2(3) = 252,6 ■
Veja também o Exercício 11 e o Exercício 12 da lista no final deste capítulo. Uma vantagem
do método de Holt (25) em relação à regressão linear (22) é que ele é bem mais fácil para
atualizar as previsões, à medida que novas observações vão sendo realizadas.
5.3 Suavização exponencial dupla e de ordem superior

A suavização exponencial dupla (ou de segunda ordem) é uma outra extensão do método de
suavização exponencial simples (16) da Seção 4.2, que pode ser utilizada em séries temporais
com tendência linear como (19). Conforme mencionado antes, suavização é uma técnica para
tentar separar, tanto quanto possível, o “sinal” do “ruído” aleat rio da série temporal. No caso
da série em (19), o sinal é a reta 𝑎 + 𝑏𝑡 e a suavização tenta filtrar o desvio aleatório 𝜀𝑡 para
recuperar o sinal desta série.

A suavização exponencial dupla é diferente do método de Holt e utiliza apenas uma constante
de suavização  (com 0 < 𝛼 < 1). Não há evidência de que esse método forneça melhores
(ou piores) previsões do que o método de Holt.
Considerando que se tem T observações passadas, a suavização exponencial dupla é definida

por:
[1] [1]
𝑦̃𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̃𝑇−1 (suavização exponencial simples)
[2] [1] [2]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
[1]
Note que 𝑦̃𝑇 é uma suavização exponencial simples das demandas 𝑦1 , 𝑦2 , … , 𝑦𝑇 igual a (16),
[2] [1] [1] [1]
enquanto que 𝑦̃𝑇 , por sua vez, é uma suavização exponencial simples de 𝑦̃1 , 𝑦̃2 , ..., 𝑦̃𝑇 .
Note também que, assim como discutido no final da Seção 4.2, tomando-se a primeira
[1]
suavização exponencial simples para 𝑦̃𝑇 :
[1] [1] [1]

𝐸 [𝑦̃𝑇 ] = 𝐸 [𝛼𝑦𝑇 + (1 − 𝛼)𝑦̃𝑇−1 ] = 𝐸 [𝛼𝑦𝑇 + (1 − 𝛼)(𝛼𝑦𝑇−1 + (1 − 𝛼)𝑦̃𝑇−2 )]
[1]
= 𝐸 [𝛼𝑦𝑇 + (1 − 𝛼)(𝛼𝑦𝑇−1 + (1 − 𝛼)(𝛼𝑦𝑇−2 + (1 − 𝛼)𝑦̃𝑇−3 ))]
= 𝐸[𝛼𝑦𝑇 + 𝛼(1 − 𝛼)𝑦𝑇−1 + 𝛼(1 − 𝛼)2 𝑦𝑇−2 + 𝛼(1 − 𝛼)3 𝑦𝑇−3 + ⋯ ]
𝑇−1
= 𝐸 [𝛼 ∑(1 − 𝛼)𝑡 𝑦𝑇−𝑡 + (1 − 𝛼)𝑇 𝑦0 ]

𝑡=0
que, no limite de T tendendo a infinito, resulta em 𝐸[𝛼 ∑∞ 𝑡

𝑡=0(1 − 𝛼) 𝑦𝑇−𝑡 ]. Dado que 𝑦𝑇−𝑡 =
𝑎 + 𝑏(𝑇 − 𝑡) + 𝜀𝑇−𝑡 e 𝐸[𝜀𝑡 ] = 0, segue que:
∞
[1]
𝐸 [𝑦̃𝑇 ] = 𝐸 [𝛼 ∑(1 − 𝛼)𝑡 (𝑎 + 𝑏(𝑇 − 𝑡) + 𝜀𝑇−𝑡 )]
𝑡=0
∞ ∞ ∞
= 𝛼(𝑎 + 𝑏𝑇) ∑(1 − 𝛼) − 𝛼𝑏 ∑ 𝑡(1 − 𝛼) + 𝛼 ∑(1 − 𝛼)𝑡 𝐸[𝜀𝑇−𝑡 ]

𝑡 𝑡
𝑡=0 𝑡=0 𝑡=0

∞ ∞
= 𝛼(𝑎 + 𝑏𝑇) ∑(1 − 𝛼)𝑡 − 𝑏(1 − 𝛼) ∑ 𝑡𝛼(1 − 𝛼)𝑡−1

𝑡=0 𝑡=1
1 1 1−𝛼
= 𝛼(𝑎 + 𝑏𝑇) − 𝑏(1 − 𝛼) = 𝑎 + 𝑏𝑇 − 𝑏
1 − (1 − 𝛼) 𝛼 𝛼
1−𝛼
ou seja, esta estimativa tem uma tendência de − 𝑏.
𝛼
[2]
Similarmente, tomando-se agora a segunda suavização exponencial simples para 𝑦̃𝑇 :
𝑇−1
[2] [1] [2] [1] [1]
𝐸 [𝑦̃𝑇 ] = 𝐸 [𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1 ] = ⋯ = 𝐸 [𝛼 ∑(1 − 𝛼)𝑡 𝑦̃𝑇−𝑡 + (1 − 𝛼)𝑇 𝑦̃0 ]
𝑡=0
𝑡 [1]
que, no limite de T tendendo a infinito, resulta em 𝐸 [𝛼 ∑∞ ̃𝑇−𝑡 ] = 𝛼 ∑∞
𝑡=0(1 − 𝛼) 𝑦 𝑡=0(1 −
[1] [1] 1−𝛼
𝛼)𝑡 𝐸 [𝑦̃𝑇−𝑡 ]. Dado que 𝐸 [𝑦̃𝑇−𝑡 ] = 𝑎 + 𝑏(𝑇 − 𝑡) − 𝑏, segue que:
𝛼

∞
[2] 1−𝛼
𝐸 [𝑦̃𝑇 ] = 𝛼 ∑(1 − 𝛼)𝑡 (𝑎 + 𝑏(𝑇 − 𝑡) − 𝑏)
𝛼
𝑡=0
∞ ∞
1−𝛼
= 𝛼 (𝑎 + 𝑏𝑇 − 𝑏) ∑(1 − 𝛼)𝑡 − 𝛼𝑏 ∑ 𝑡(1 − 𝛼)𝑡
𝛼
𝑡=0 𝑡=0
∞
[1] 1 [1] 1−𝛼
= 𝛼𝐸 [𝑦̃𝑇 ] − 𝑏(1 − 𝛼) ∑ 𝑡𝛼(1 − 𝛼)𝑡−1 = 𝐸 [𝑦̃𝑇 ] − 𝑏
1 − (1 − 𝛼) 𝛼
𝑡=1
Combinando-se esses dois resultados, obtém-se que:
[1] [2] [1] [2] 1−𝛼

[1] [1]
𝐸 [2𝑦̃𝑇 − 𝑦̃𝑇 ] = 2𝐸 [𝑦̃𝑇 ] − 𝐸 [𝑦̃𝑇 ] = 2𝐸 [𝑦̃𝑇 ] − (𝐸 [𝑦̃𝑇 ] − 𝑏)
𝛼
[1] 1−𝛼 1−𝛼 1−𝛼
= 𝐸 [𝑦̃𝑇 ] + 𝑏 = (𝑎 + 𝑏𝑇 − 𝑏) + 𝑏 = 𝑎 + 𝑏𝑇
𝛼 𝛼 𝛼
ou seja, uma estimativa não tendenciosa para 𝑎 + 𝑏𝑇 em (19). Além disso, note que:
𝛼 [1] [2] 𝛼 [1] [2]
𝐸 [𝑦̃𝑇 − 𝑦̃𝑇 ] = (𝐸 [𝑦̃𝑇 ] − 𝐸 [𝑦̃𝑇 ])
1−𝛼 1−𝛼
𝛼 [1] [1] 1−𝛼
= (𝐸 [𝑦̃𝑇 ] − (𝐸 [𝑦̃𝑇 ] − 𝑏)) = 𝑏
1−𝛼 𝛼
ou seja, uma estimativa não tendenciosa para o parâmetro 𝑏 em (19).
Logo, o valor da demanda previsto no período T para o período 𝑇 + 𝜏 é:
[1] [2] 𝛼 [1] [2]

𝑦̂𝑇,𝑇+𝜏 = (2𝑦̃𝑇 − 𝑦̃𝑇 ) + (𝑦̃𝑇 − 𝑦̃𝑇 ) 𝜏, com 𝜏 = 1, 2, . .. (26)
1−𝛼
e as estimativas para os parâmetros a e b em (19) resultam em:
[1] [2] 𝛼 [1] [2]

𝑎̂ 𝑇 = 2𝑦̃𝑇 − 𝑦̃𝑇 − (𝑦̃ − 𝑦̃𝑇 )𝑇
1−𝛼 𝑇
𝛼 [1] [2]
𝑏̂𝑇 = (𝑦̃𝑇 − 𝑦̃𝑇 )
1−𝛼
Veja o Exercício 13 da lista no final deste capítulo. Convém observar que o método de
suavização exponencial dupla (ou de segunda ordem) pode ser estendido para tratar séries
temporais bem mais gerais que (19), por exemplo, com tendências não lineares (de
crescimento ou decrescimento) descritas por um polinômio de grau n:
𝑡2 𝑡3 𝑡𝑛
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 + 𝑏3 + ⋯ + 𝑏𝑛 + 𝜀𝑡 , com 𝑡 = 1, 2, …
2! 3! 𝑛!
Neste caso, o método envolve a seguinte suavização exponencial de ordem n:
[1] [1]
𝑦̃𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑦̃𝑇−1 (suavização exponencial simples)
[2] [1] [2]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
[3] [2] [3]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
...

[𝑛] [𝑛−1] [𝑛]
𝑦̃𝑇 = 𝛼𝑦̃𝑇 + (1 − 𝛼)𝑦̃𝑇−1
[1] [2]
Note que 𝑦̃𝑇 é uma suavização exponencial simples de 𝑦1 , 𝑦2 , … , 𝑦𝑇 ; 𝑦̃𝑇 é uma suavização
[1] [1] [1] [3] [2]
exponencial simples de 𝑦̃1 , 𝑦̃2 , ..., 𝑦̃𝑇 ; 𝑦̃𝑇 é uma suavização exponencial simples de 𝑦̃1 ,
[2] [2]
𝑦̃2 , ..., 𝑦̃𝑇 ; e assim por diante. No entanto, os cálculos para derivar este método de previsão
tornam-se bem complicados e, em geral, outros métodos são preferíveis para o caso de séries
temporais polinomiais (por exemplo, os métodos genéricos de suavização exponencial
discutidos na seção 7.2 ou os métodos baseados nos modelos de Box-Jenkins discutidos na
Seção 7.3).37
6. Métodos de séries temporais com tendência e sazonalidade

Se o padrão da demanda tem tendência sistemática de crescimento (ou decrescimento) e
sazonalidade, é possível estender os métodos de séries temporais com tendência linear da
Seção 5 para também considerar sazonalidade. Define-se:
Série sazonal: aquela com padrão que repete a cada N períodos (comprimento de um ciclo
sazonal ou estação).
Note que o ciclo sazonal não precisa ser de um ano - a sazonalidade pode ser mensal, semanal,
diária, etc. A série temporal com tendência e sazonalidade pode ser definida por um modelo
aditivo:
𝑁
𝑦𝑡 = (𝑎 + 𝑏𝑡) + 𝑐𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, … e com ∑ 𝑐𝑡+𝜏 = 0 (27)

𝜏=1
ou por um modelo multiplicativo:

𝑁
𝑦𝑡 = (𝑎 + 𝑏𝑡)𝑐𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, … e com ∑ 𝑐𝑡+𝜏 = 𝑁 (28)

𝜏=1
em que, conforme antes, o parâmetro a representa a demanda média no período 𝑡 = 0, o

parâmetro b representa a tendência, que é o crescimento (ou decrescimento) sistemático por
período, assumido variando lentamente, e o desvio aleatório 𝜀𝑡 é suposto independente e
identicamente distribuído com média 0 e variância 𝜎𝜀2 . Note em (27) e (28) que se 𝑏 = 0,
então o modelo sazonal é constante (i.e., não tem tendência).
Ambos os modelos (27) e (28) fazem uso de fatores (ou índices) sazonais 𝑐𝑡 em cada período
t. No modelo aditivo (27), estes fatores representam o quanto (em média) a demanda em cada
período t do ciclo sazonal aumenta ou diminui. Se o ciclo sazonal é composto de N períodos
(e.g., 12 meses), admite-se que a soma dos fatores sazonais para os N períodos consecutivos
do período t é igual a zero (i.e., ∑𝑁 𝜏=1 𝑐𝑡+𝜏 = 0). Por exemplo, 𝑐𝑡+3 = 5 (𝑐𝑡+3 = −5) indica
que a demanda no terceiro período do ciclo sazonal a partir do período t aumenta (diminui)
em média 5 unidades. Assim, a demanda no período t é definida pela reta 𝑎 + 𝑏𝑡 mais o fator
sazonal 𝑐𝑡 , mais o desvio aleatório 𝜀𝑡 .
37
Para mais detalhes destes métodos de suavização exponencial de ordem superior, o leitor pode consultar, por
exemplo, Johnson e Montgomery (1974) e Montgomery et al. (2008).

Por outro lado, no modelo multiplicativo (28), estes fatores sazonais representam o quanto
(em média) a demanda em cada período t está acima ou abaixo da demanda média do ciclo
sazonal. Se o ciclo sazonal é composto de N períodos (e.g., 12 meses), admite-se que a soma
dos fatores sazonais para os N períodos consecutivos do período t é igual ao comprimento N
do ciclo sazonal, ou seja, a média destes fatores sazonais é igual a 1 (i.e., ∑𝑁
𝜏=1 𝑐𝑡+𝜏 /𝑁 = 1).
Por exemplo, 𝑐𝑡+3 = 1,2 (𝑐𝑡+3 = 0,8) indica que a demanda no terceiro período do ciclo
sazonal a partir do período t é 20% maior (20% menor) do que a demanda média do ciclo
sazonal. Assim, a demanda no período t é representada pela reta 𝑎 + 𝑏𝑡 multiplicada pelo
fator sazonal 𝑐𝑡 , mais o desvio aleatório 𝜀𝑡 .
Diferente do modelo aditivo, no modelo multiplicativo admite-se que as variações sazonais

aumentam ou diminuem proporcionalmente com aumentos ou diminuições do nível da série
de demanda, o que é razoável em muitos casos, e por isso o modelo multiplicativo tem sido
mais utilizado na prática.
Muitos produtos têm padrão de demanda com variação sazonal. Por exemplo, as vendas de
sorvetes e bebidas são bem maiores no verão do que no inverno. Admite-se que os valores de
alta (picos) e os valores de baixa (vales) dos padrões de demanda têm motivos conhecidos e
ocorrem no mesmo período (e.g., mês) em todos os ciclos sazonais (anos), e também que a
variação sazonal é maior que os desvios aleatórios. Note que um modelo sazonal é
representativo somente se a demanda segue essencialmente o mesmo padrão, ano após ano.
Obviamente, o modelo constante (14) da Seção 4 pode ser visto como um caso particular do
modelo com tendência linear (19) da Seção 5, que, por sua vez, pode ser visto como um caso
particular dos modelos (27) e (28) com tendência e sazonalidade, o que pode sugerir que usar
um modelo mais geral é sempre mais vantajoso do que um modelo mais particular. No
entanto, como um modelo mais geral envolve mais parâmetros a serem estimados, se os
desvios aleatórios forem grandes na série, pode ser mais difícil obter boas estimativas destes
parâmetros, o que pode tornar mais eficiente usar modelos mais simples com poucos
parâmetros.
A seguir, apresenta-se dois métodos de séries temporais com tendência (crescimento ou

decrescimento) e sazonalidade, como (27) e (28):
• Decomposição da série temporal: decompõe a série em tendência e variação sazonal.
• Método de Winters: pode ser visto como um tipo de suavização exponencial tripla.
6.1 Decomposição da série temporal

A decomposição (clássica) da série temporal é um método simples que decompõe a série
temporal em algumas categorias, como tendência, sazonalidade e variação cíclica (e.g., um
ciclo não necessariamente sazonal). A seguir apresenta-se o método considerando somente as
duas primeiras categorias.
O componente de tendência 𝑇𝑡 (de crescimento ou decrescimento) do modelo no período t

representa a variação de longo prazo do nível da demanda, dada pela reta:
𝑇𝑡 = 𝑎 + 𝑏𝑡

Alternativamente, esta linha de tendência poderia ser representada por expressões mais
complexas (e.g., não lineares). Suponha que se dispõe de T observações passadas. A reta de
tendência 𝑇𝑇 pode ser estimada pelo método dos mínimos quadrados, similarmente ao que foi
feito na Seção 5.1 de regressão linear. Desta forma, as estimativas 𝑎̂ e 𝑏̂ para os parâmetros a
e b da reta são obtidas conforme expressões (22) apresentadas na Seção 5.1.
O componente de sazonalidade 𝑆𝑡 do modelo representa o fator sazonal 𝑐𝑡 no período t em

(27) ou (28). No modelo aditivo (27), este componente é dado pela diferença entre a demanda
observada e a linha de tendência no período t:
𝑆𝑡 = 𝑦𝑡 − 𝑇𝑡
e no modelo multiplicativo (28), pela razão entre a demanda observada e a linha de tendência
no período t:
𝑆𝑡 = 𝑦𝑡 /𝑇𝑡
No caso de se dispor de observações passadas de vários ciclos sazonais, alguns autores

sugerem que este componente deve ser estimado pela média de 𝑆𝑡 , 𝑆𝑡−𝑁 , 𝑆𝑡−2𝑁 , …, de todos os
ciclos, em que N é o número de períodos de cada ciclo. Por exemplo, se o período t
corresponde ao mês de janeiro de um ciclo anual, a ideia é estimar 𝑆𝑡 como a média dos
valores obtidos para janeiro em todos os ciclos passados.
O modelo de decomposição da série temporal na forma aditiva (com base nas T observações)
é dado por:
𝑦̂𝑇,𝑇+𝜏 = 𝑇̂𝑇+𝜏 + 𝑆̂𝑇+𝜏−𝑁 = [𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏)] + 𝑦𝑇+𝜏−𝑁 − [𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏 − 𝑁)],
com 𝜏 = 1, 2, . . . , 𝑁 (29)
e na forma multiplicativa (com base nas T observações) por:

𝑦𝑇+𝜏−𝑁
𝑦̂𝑇,𝑇+𝜏 = 𝑇̂𝑇+𝜏 𝑆̂𝑇+𝜏−𝑁 = [𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏)] ,
[𝑎̂ 𝑇 + 𝑏̂𝑇 (𝑇 + 𝜏 − 𝑁)]
com 𝜏 = 1, 2, . . . , 𝑁 (30)
onde, conforme antes, 𝑦̂𝑇,𝑇+𝜏 denota a previsão para o período 𝑇 + 𝜏 feita no período T (veja
Exercício 14 da lista do final deste capítulo).
6.2 Método de Winters

O método mais popular de séries temporais com tendência e sazonalidade é o método de
Winters.38 Este método é baseado em três suavizações exponenciais simples e pode ser visto
como um tipo de suavização exponencial tripla utilizando três constantes de suavização para
previsão de problemas sazonais (com ou sem tendência).
Modelo multiplicativo: inicialmente apresenta-se o método de Winters para o modelo

multiplicativo (28). Considerando que se tem T observações passadas, este método, que utiliza
três constantes de suavização ,  e  (0 < 𝛼, 𝛽, 𝛾 < 1), é dado por:
38
Este método foi proposto em Winters (1960).

𝑎̂ 𝑇 = 𝛼(𝑦𝑇 /𝑐̂𝑇−𝑁 ) + (1 − 𝛼)(𝑎̂ 𝑇−1 + 𝑏̂𝑇−1 ) (série "dessazonalizada") (31a)
𝑏̂𝑇 = 𝛽(𝑎̂ 𝑇 − 𝑎̂ 𝑇−1 ) + (1 − 𝛽)𝑏̂𝑇−1 (tendência) (31b)
𝑐̂𝑇 = 𝛾(𝑦𝑡 /𝑎̂ 𝑇 ) + (1 − 𝛾)𝑐̂𝑇−𝑁 (fatores sazonais) (31c)
O valor da demanda previsto no período T para o período T +  é:
𝑦̂𝑇,𝑇+𝜏 = (𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏)𝑐̂𝑇+𝜏−𝑁 , com 𝜏 = 1, 2, … , 𝑁 (32)
onde 𝑎̂ 𝑇 pode ser interpretado como a estimativa da reta “desa onali ada” (i.e., com as
flutuações sazonais eliminadas) em T (𝑎 𝑇 ), 𝑏̂𝑇 é a estimativa da inclinação da reta
desazonalizada em T (𝑏𝑇 ), 𝑐̂𝑇 é a estimativa do fator sazonal da reta em T (𝑐𝑇 ), e N é o número
de períodos do ciclo sazonal (conforme antes).
Note que, similarmente a (24a) do método de Holt da Seção 5.2, 𝑎̂ 𝑇 em (31a) é uma
combinação convexa entre a última demanda dessazonalizada (𝑦𝑇 /𝑐̂𝑇−𝑁 ) e a demanda
dessazonalizada prevista em 𝑇 − 1 para t (𝑦̂𝑇−1,𝑇 /𝑐̂𝑇−𝑁 ), ou seja:
𝑎̂ 𝑇 = 𝛼(𝑦𝑇 /𝑐̂𝑇−𝑁 ) + (1 − 𝛼)(𝑎̂ 𝑇−1 + 𝑏̂𝑇−1 ) = 𝛼(𝑦𝑇 /𝑐̂𝑇−𝑁 ) + (1 − 𝛼)(𝑦̂𝑇−1,𝑇 /𝑐̂𝑇−𝑁 )
Além disso, similarmente a (24b) do método de Holt, 𝑏̂𝑇 em (31b) também é uma combinação
convexa entre a última inclinação (𝑎̂ 𝑇 − 𝑎̂ 𝑇−1 ) e a inclinação prevista em 𝑇 − 1 para T (𝑏̂𝑇−1 ).
E a estimativa 𝑐̂𝑇 também é uma combinação convexa entre a última estimativa do fator
sazonal (𝑦𝑇 /𝑎̂ 𝑇 ) e o fator sazonal previsto em 𝑇 − 𝑁 para T (𝑐̂𝑇−𝑁 ). O valor previsto em T
para 𝑇 + 𝜏 (𝑦̂𝑇,𝑇+𝜏 ) é o valor da reta sazonalizada (32): (𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏)𝑐̂𝑇+𝜏−𝑁 .
Em geral, na prática, utiliza-se os valores de ,  e  entre 0,1 e 0,2, para dar mais estabilidade
às estimativas. Pode-se também escolher estes valores tais que minimizem os erros de
previsão dos dados passados (e.g., o MSE ou MADP).
Note que dentro do ciclo sazonal com N períodos, a soma dos fatores sazonais 𝑐1 , 𝑐2 , … , 𝑐𝑁
deve ser igual a 𝑁. Caso isso não seja satisfeito para os valores obtidos das estimativas 𝑐̂1, 𝑐̂2 ,
..., 𝑐̂𝑁 , eles devem ser corrigidos (i.e., normalizados) pela seguinte expressão:
𝑐̂𝑡
𝑐̂𝑡 norm = 𝑁 𝑁, para 𝑡 = 1, 2, … , 𝑁 (33)
∑𝑖=1 𝑐̂𝑖
Para iniciar o método de Winters, são necessárias boas estimativas dos parâmetros iniciais 𝑎̂0 ,
𝑏̂0 e 𝑐̂1−𝑁 , 𝑐̂2−𝑁 , . . . , 𝑐̂0 em (31a), (31b) e (31c). Para isso, são necessários dados de pelo menos
dois ciclos sazonais de dados passados (veja exemplo a seguir). No caso de se dispor de dados
de apenas um ciclo sazonal, os parâmetros 𝑎̂0 e 𝑏̂0 podem ser estimados por regressão linear
conforme (21) na Seção 5.1 (similarmente ao método de Holt), e cada parâmetro 𝑐̂𝑡−𝑁 pela
razão:
𝑥𝑡−𝑁
𝑁 𝑁
∑𝑡=1 𝑥𝑡−𝑁
Exemplo 10: Suponha que as últimas 8 demandas trimestrais de um certo produto foram: 𝑦1 =
10, 𝑦2 = 20, 𝑦3 = 26, 𝑦4 = 17, 𝑦5 = 12, 𝑦6 = 23, 𝑦7 = 30, 𝑦8 = 22. A Figura 16 ilustra
estas demandas; note que o gráfico sugere dois ciclos sazonais, cada um com 𝑁 = 4 períodos.
35
30
25 demanda
20
15
10
5
0 1 2 3 4 5 6 7 8
Figura 16 – Observações da demanda
A seguir, admite-se que 𝑡 = 0 é o período da última observação. Precisa-se estimar 𝑏̂0,

𝑎̂−3 , 𝑎̂−2 , 𝑎̂−1 , 𝑎̂0 e 𝑐̂−3 , 𝑐̂−2 , 𝑐̂−1 , 𝑐̂0 em (31a), (31b) e (31c). Estes parâmetros podem ser
estimados da seguinte maneira:
10+20+26+17
Demanda média do primeiro ciclo sazonal: = 18,25
4
12+23+30+22
Demanda média do segundo ciclo sazonal: = 21,75
4
Inclinação inicial da reta dessazonalizada: 𝑏̂0 = (21,75 − 18,25)/4 = 0,875
Os valores de 𝑎̂−3 , 𝑎̂−2 , 𝑎̂−1 , 𝑎̂0 dependem de 𝑏̂0 e são obtidos por meio da reta do segundo
ciclo sazonal, dada por:
𝑎̂𝑡 = 21,75 + 𝑏̂0 [(𝑁 − 1)/2 + 𝑡] 𝑡 = −3, −2, −1, 0
Note que o termo (𝑁 − 1)/2 acima corresponde ao meio do segundo ciclo sazonal, ou seja,
igual a 1,5 (veja Figura 16). Em particular, o valor da série em 𝑡 = 0 é:
𝑎̂0 = 21,75 + 𝑏̂0 [(𝑁 − 1)/2 + 𝑡] = 23,06
Os valores de 𝑐̂−3 , 𝑐̂−2 , 𝑐̂−1 , 𝑐̂0 dependem de 𝑎̂−3 , 𝑎̂−2 , 𝑎̂−1 , 𝑎̂0 e são obtidos por:
𝑐̂𝑡 = 𝑥𝑡 /𝑎̂𝑡 𝑡 = −3, −2, −1, 0
A Tabela 5 apresenta todos estes valores. A coluna 𝑐̂𝑡 norm corresponde aos valores de 𝑐̂𝑡
normalizados conforme (33) (i.e., corrigidos tais que a soma seja igual a 𝑁 = 4, para que a
média seja 1).

𝑡 𝑦𝑡 𝑎̂𝑡 𝑐̂𝑡 = 𝑦𝑡 /𝑎𝑡 𝑐̂𝑡 norm
-7 10

-6 20
-5 26
-4 17
-3 12 20,44 0,59 0,59
-2 23 21,31 1,08 1,09
-1 30 22,19 1,35 1,36
0 22 23,06 0,95 0,96
Total 3,97 4,00
A Figura 17 apresenta os valores observados da demanda e a reta obtida do segundo ciclo

sazonal.
, 1,
35
30
25
20 demanda
15 reta
10
5
0 1 2 3 4 5 6 7 8
Figura 17 – Comparação das observações da demanda e reta obtida
Período 𝑇 = 0:
Suponha que no período 𝑇 = 0 deseja-se prever as 4 demandas do próximo ciclo sazonal.

Logo, usando (32):
𝑦̂0,1 = (𝑎̂0 + 𝑏̂0 1)𝑐̂−3 = (23,06 + 0,875(1))0,59 = 14,1

𝑦̂0,2 = (𝑎̂0 + 𝑏̂0 2)𝑐̂−2 = (23,06 + 0,875(2))1,09 = 27,0
𝑦̂0,3 = (𝑎̂0 + 𝑏̂0 3)𝑐̂−1 = (23,06 + 0,875(3))1,36 = 34,9
𝑦̂0,4 = (𝑎̂0 + 𝑏̂0 4)𝑐̂0 = (23,06 + 0,875(4))0,96 = 25,5
Período 𝑇 = 1:
Agora suponha que no período 𝑇 = 1 observa-se a demanda 𝑦1 = 16 (erro 𝑒1 = 16 − 14,1 =

1,9). Considere 𝛼 = 0,2, 𝛽 = 0,1 e 𝛾 = 0,1 em (31a), (31b) e (31c) para atualizar as
previsões:
𝑎̂1 = 𝛼(𝑦1 /𝑐̂−3 ) + (1 − 𝛼)(𝑎̂0 + 𝑏̂0 ) = 0,2(16/0,59) + (1 − 0,2)(23,06 − 0,875) = 24,57

𝑏̂1 = 𝛽(𝑎̂1 − 𝑎̂0 ) + (1 − 𝛽)𝑏̂0 = 0,1(24,57 − 23,06) + (1 − 0,1)0,875 = 0,939
𝑐̂1 = 𝛾(𝑦1 /𝑎̂1 ) + (1 − 𝛾)𝑐̂−3 = 0,1(16/24,57) + (1 − 0,1)0,59 = 0,60
As previsões (32) no período 𝑇 = 1 para os próximos períodos são:

𝑦̂1,2 = (𝑎̂1 + 𝑏̂1 1)𝑐̂−2 = (24,57 + 0,939(1))1,09 = 27,8
𝑦̂1,3 = (𝑎̂1 + 𝑏̂1 2)𝑐̂−1 = (24,57 + 0,939(2))1,36 = 36,0
𝑦̂1,4 = (𝑎̂1 + 𝑏̂1 3)𝑐̂0 = (24,57 + 0,939(3))0,96 = 26,3
e assim por diante. Veja Exercício 15 da lista no final deste capítulo. ■
Modelo aditivo: convém observar que o modelo de Winters pode ser facilmente adaptado para
tratar o modelo aditivo (27). As três suavizações exponenciais simples passam a ser dadas por:
𝑎̂ 𝑇 = 𝛼(𝑦𝑇 − 𝑐̂𝑇−𝑁 ) + (1 − 𝛼)(𝑎̂ 𝑇−1 + 𝑏̂𝑇−1 ) (série "dessazonalizada") (34a)

𝑏̂𝑇 = 𝛽(𝑎̂ 𝑇 − 𝑎̂ 𝑇−1 ) + (1 − 𝛽)𝑏̂𝑇−1 (tendência) (34b)
𝑐̂𝑇 = 𝛾(𝑦𝑇 − 𝑎̂ 𝑇 ) + (1 − 𝛾)𝑐̂𝑇−𝑁 (fatores sazonais) (34c)
Apenas a primeira e a terceira destas expressões, (34a) e (34c), sofrem pequenas alterações
em relação à (31a) e (31c), mas a interpretação do significado delas continua similar a (31a) e
(31c). O valor da demanda previsto no período T para o período 𝑇 + 𝜏 é:
𝑦̂𝑇,𝑇+𝜏 = (𝑎̂ 𝑇 + 𝑏̂𝑇 𝜏) + 𝑐̂ 𝑇+𝜏−𝑁 , com 𝜏 = 1, 2, . . . , 𝑁
Note agora que dentro do ciclo sazonal com N períodos, a soma dos fatores sazonais
𝑐1 , 𝑐2 , … , 𝑐𝑁 deve ser igual a 0 (e não igual a N, conforme antes – compare (27) e (28)). As
estimativas dos parâmetros iniciais 𝑎̂0 , 𝑏̂0 e 𝑐̂1−𝑁 , 𝑐̂2−𝑁 , . . . , 𝑐̂0 podem ser feitas de maneira
similar a antes (veja Exercício 16 da lista no final deste capítulo).
Conforme mostrado na Seção 4, Seção 5 e Seção 6, pode-se ter diferentes métodos de

suavização exponencial, combinando aspectos de tendência e sazonalidade com modelos
aditivos e multiplicativos. Em 1969, Pegels apresentou uma classificação destes métodos,
combinando, em um eixo: (A) sem tendência, (B) com tendência aditiva, (C) com tendência
multiplicativa, e em outro eixo: (1) sem sazonalidade, (2) com sazonalidade aditiva, (3) com
sazonalidade multiplicativa. Desta maneira, o método de suavização simples (Seção 4.2) é
classificado como A-1, o método de Holt (Seção 5.2) é classificado como B-1, e os métodos
de Winters aditivo e multiplicativo são classificados como B-2 e B-3, respectivamente.39
Parte III – Outros métodos e validação e monitoramento dos métodos

Nesta parte, discute-se brevemente outros métodos de séries temporais e causais além dos
discutidos nas Partes I e II, que podem ser mais efetivos para previsão de demanda em certas
situações. Também se apresenta algumas técnicas para validação e monitoramento dos
métodos de previsão.
7. Outros métodos de séries temporais e causais

A seguir, discute-se outros métodos de séries temporais (suavização exponencial para
demanda esporádica, métodos genéricos de regressão linear, média móvel e suavização
39
Para mais detalhes desta classificação e das fórmulas recursivas dos métodos de suavização exponencial para
todas as classes de Pegels, veja, por exemplo, Makridakis et al. (1998).

exponencial, e métodos baseados nos modelos Box-Jenkins), além de métodos baseados em
inferência Bayesiana e método causais baseados em redes neurais.
7.1 Suavização exponencial para demanda esporádica

Outro método baseado em séries temporais é a suavização exponencial para demanda
esporádica envolvendo produtos com baixos níveis de demanda e com frequentes períodos
sem uso, ou seja, itens de movimentação lenta (slow-moving items). Em certos casos, a
demanda destes produtos é esporádica e tem um padrão irregular, por exemplo, se o produto é
raramente demandado pelos clientes (diga-se, poucas vezes por ano) e, nos períodos em que o
produto é demandado, a quantidade pedida é relativamente grande.
Nestes casos, alguns autores sugerem utilizar a suavização exponencial simples (16) da Seção
4.3, mas com valores da constante de suavização bem pequenos, por exemplo, 𝛼 = 0,01 ou
𝛼 = 0,05. A idéia é evitar que as previsões decresçam muito nos períodos sem demanda, e
que cresçam muito nos períodos com demanda. Desta maneira, as previsões ficam
relativamente estáveis ao longo dos períodos. Obviamente, uma desvantagem desta
abordagem é que as previsões reagem lentamente a mudanças reais no padrão da demanda.
Note que ao se utilizar valores pequenos de α, a previsão inicial 𝑦̂0,1 em (16) tem impacto
importante sobre vários períodos subsequentes. Desta maneira, esta previsão inicial deve ser a
média de vários períodos anteriores (diga-se, a média de um ano de observações). Devido às
grandes flutuações aleatórias presentes em padrões irregulares de produtos com demandas
intermitentes, não faz muito sentido usar suavizações exponenciais duplas ou triplas como
(25), (26) ou (32), para tentar capturar tendência ou sazonalidade nos padrões.
Alternativamente, pode-se utilizar um simples procedimento para tratar estes casos, em que as
previsões de demanda são atualizadas somente nos períodos com demanda positiva (i.e., não
são atualizadas nos períodos com demanda nula). Nestes períodos, atualiza-se as previsões da
demanda positiva e do número de períodos (i.e., o intervalo de tempo) entre dois períodos
com demanda positiva. Estas medidas são atualizadas utilizando-se suavizações exponenciais
simples. Este procedimento resulta em previsões menos tendenciosas e com menores
variâncias do que utilizar a suavização exponencial simples acima.
Considere que se dispõe de T observações passadas e, conforme antes, seja 𝑦𝑇 a demanda

(positiva ou nula) observada no período T. Denota-se por 𝑑̂ 𝑇 a estimativa da demanda positiva
feita no período T. Sejam ainda 𝑘𝑇 o número de períodos entre a última demanda positiva e o
período T, e 𝑘̂ 𝑇 a estimativa do número de períodos entre duas demandas positivas feita no
período T. O método é definido por:40
Se a demanda no período T é positiva (i.e., 𝑦𝑇 > 0), então:
𝑑̂𝑇 = 𝛼𝑦𝑇 + (1 − 𝛼)𝑑̂ 𝑇−1 , com 0 < 𝛼 < 1

𝑘̂𝑇 = 𝛽𝑘𝑇 + (1 − 𝛽)𝑘̂𝑇−1 , com 0 < 𝛽 < 1
Caso contrário, se 𝑦𝑇 = 0, então:

𝑑̂ 𝑇 = 𝑑̂ 𝑇−1
40
Este método foi proposto em Croston (1972); para mais detalhes do método, veja também Hax e Candea
(1984) e Axsater (2006).

𝑘̂𝑇 = 𝑘̂𝑇−1
A previsão da demanda (positiva ou nula), para os próximos τ períodos a partir do período T, é

dada por:
𝑑̂ 𝑇
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 = , com 𝜏 = 1, 2, . ..
𝑘̂𝑇
7.2 Métodos genéricos de regressão linear, média móvel e suavização

exponencial
Conforme discutido anteriormente, diversos métodos de séries temporais podem ser vistos
como resultados da aplicação do critério de mínimos quadrados, por exemplo, o método de
média móvel e o método de suavização exponencial simples para séries temporais
estacionárias da Seção 4, o método de regressão linear e a extensão do método de média
móvel para séries temporais com tendência da Seção 5.1, entre outros. A generalização da
aplicação do critério de mínimos quadrados para séries temporais com padrões mais gerais
permite explorar uma combinação de diversas funções matemáticas (além de retas ou
polinômios) dependentes do tempo t, procurando ajustar uma curva hipotética mais geral à
série temporal.
Estes métodos genéricos de séries temporais consistem em estimar os parâmetros

desconhecidos da curva (pelo critério de mínimos quadrados), e projetar os valores no futuro.
Assim como na média móvel da Seção 4.1, os métodos genéricos de média móvel computam
previsões atribuindo peso apenas às ultimas N observações, e assim como na suavização
exponencial simples na Seção 4.2, os métodos genéricos de suavização exponencial
computam previsões atribuindo maiores pesos às observações mais recentes.
Considere, por exemplo, uma série temporal definida pelo modelo:
𝑦𝑡 = 𝑎 + 𝑏1 𝑓1 (𝑡) + 𝑏2 𝑓2 (𝑡)+. . . +𝑏𝑚 𝑓𝑚 (𝑡) + 𝜀𝑡
em que 𝑓1 , 𝑓2 , … , 𝑓𝑚 são funções (lineares ou não lineares) de t e, conforme antes, 𝜀𝑡 é o

desvio aleatório no período t, suposto independente e identicamente distribuído com média 0 e
variância 𝜎𝜀2 . Por exemplo, o modelo (com 𝑚 = 3):
𝑡2 𝑡3
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 + 𝑏3 + 𝜀𝑡
2! 3!
pode ser usado para representar um padrão com tendência não linear, enquanto o modelo
(também com 𝑚 = 3):
2𝜋 2𝜋
𝑦𝑡 = 𝑎 + 𝑏1 𝑡 + 𝑏2 𝑠𝑒𝑛 𝑡 + 𝑏3 𝑐𝑜𝑠 𝑡 + 𝜀𝑡
12 12
pode ser usado para representar tendência linear e sazonalidade, em que os termos com
funções seno e cosseno deste modelo procuram descrever um padrão sazonal com 12
períodos.

Note que estes modelos são lineares nos parâmetros 𝑎, 𝑏1 , 𝑏2 , … , 𝑏𝑚 (embora as funções
𝑓1 , 𝑓2 , … , 𝑓𝑚 possam ser não lineares em t), e podem ser descritos pela regressão linear
múltipla (7) da Seção 2.3, em que 𝑥1 = 𝑓1 (𝑡), 𝑥2 = 𝑓2 (𝑡), ..., 𝑥𝑚 = 𝑓𝑚 (𝑡), ou seja, as
variáveis “causais” 𝑥1 , 𝑥2 , … , 𝑥𝑚 são diferentes funções de t. Note também que pode-se
facilmente computar os valores destas funções 𝑓1 (𝑡), 𝑓2 (𝑡), ..., 𝑓𝑚 (𝑡) para cada 𝑡 = 1, … , 𝑇.
Seguindo o mesmo desenvolvimento da Seção 2.3, baseado nas últimas T observações da

demanda 𝑦1 , 𝑦2 , … , 𝑦𝑇 (supõe-se que 𝑇 > 𝑚) e na aplicação do critério de mínimos
quadrados, onde X é a matriz de observações das funções 𝑓1 (𝑡), 𝑓2 (𝑡), ..., 𝑓𝑚 (𝑡) com
dimensão 𝑚 + 1 por T, 𝐴̂ é o vetor das estimativas dos parâmetros desconhecidos
𝑎, 𝑏1 , 𝑏2 , … , 𝑏𝑚 com dimensão 𝑚 + 1 por 1, Y é o vetor de observações da demanda com
dimensão T por 1, e 𝑋′ denota a matriz X transposta com dimensão T por 𝑚 + 1, chega-se no
sistema linear no vetor de incógnitas 𝐴̂:
(𝑋𝑋′)𝐴̂ = 𝑋𝑌 ou, 𝐴̂ = (𝑋𝑋′)−1 𝑋𝑌 (35)
1 1 ... 1 𝑎̂ 𝑦1
𝑓1 (1) 𝑓1 (2) . . . 𝑓1 (𝑇) ̂1
𝑏 𝑦2
em que: 𝑋=[ ] 𝐴̂ = [ ] 𝑌=[ ⋮ ]
⋮ ⋮ ⋮ ⋮ ⋮
𝑓𝑚 (1) 𝑓𝑚 (2) . . . 𝑓𝑚 (𝑇) ̂
𝑏𝑚 𝑦𝑇
que, assim como o sistema (8) da Seção 2.3, pode ser resolvido pelos métodos tradicionais de
solução de sistemas lineares (disponíveis em diversos aplicativos computacionais).
Sejam 𝐴′ = (𝑎, 𝑏1 , 𝑏2 , … , 𝑏𝑚 ) o vetor dos parâmetros desconhecidos com dimensão 1 por 𝑚 +

1 e 𝜖′ = (𝜀1 , 𝜀2 , … , 𝜀𝑇 ) o vetor dos desvios aleatórios com dimensão 1 por T, respectivamente
(𝐴 e 𝜖 denotam os vetores transpostos de 𝐴′ e 𝜖′). Note que as estimativas 𝐴̂ em (35) não são
viciadas (i.e., não são tendenciosas) porque seus valores esperados coincidem com 𝐴, isto é:
𝐸[𝐴̂] = 𝐸[(𝑋𝑋′)−1 𝑋𝑌] = (𝑋𝑋′)−1 𝑋𝐸[𝑌] = (𝑋𝑋′)−1 𝑋𝐸[𝑋′𝐴 + 𝜖]

= (𝑋𝑋′)−1 (𝑋𝑋 ′ )(𝐸[𝐴] + 𝐸[𝜖]) = 𝐴
dado que 𝑌 = 𝑋′𝐴 + 𝜖, o termo (𝑋𝑋′)−1 (𝑋𝑋′) corresponde à matriz identidade, 𝐸[𝐴] = 𝐴, e
𝐸[𝜖] corresponde ao vetor nulo.
Similarmente ao modelo (9) da Seção 2.3, o modelo de previsão (com base nas T observações
aplicadas em (35)) é:
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 + 𝑏̂1𝑇 𝑓1 (𝑇 + 𝜏) + 𝑏̂2𝑇 𝑓2 (𝑇 + 𝜏) + ⋯ + 𝑏̂𝑚𝑇 𝑓𝑚 (𝑇 + 𝜏), com 𝜏 = 1, 2, . ..
em que as estimativas 𝑎̂ 𝑇 , 𝑏̂1𝑇 , 𝑏̂2𝑇 , . . . , 𝑏̂𝑚𝑇 dos parâmetros 𝑎, 𝑏1 , 𝑏2 , . . . , 𝑏𝑚 dependem de T, e,

portanto, são recalculadas a cada nova observação usando (35).
Pode-se aplicar o desenvolvimento acima para generalizar métodos de média móvel

considerando apenas as N observações mais recentes (𝑁 < 𝑇), ao invés de todas as T
observações conforme acima. Neste caso, as últimas 𝑁 observações têm mesmo peso
enquanto as outras observações anteriores tem peso nulo.

Também pode-se aplicar o desenvolvimento acima para generalizar métodos de suavização
exponencial, com pesos decrescentes com a idade das observações passadas.41 Seja W uma
matriz diagonal (de dimensão T por T) de pesos com decréscimo exponencial dada por:
(1 − 𝛼)𝑇−1 0 ... 0
𝑊= 0 (1 − 𝛼)𝑇−2 ... 0
⋮ ⋮ ⋮ ⋮
[ 0 0 ... (1 − 𝛼)0 ]
em que α é a constante de suavização exponencial. Aplicando-se o critério de mínimos

quadrados nas últimas T observações da demanda 𝑦1 , 𝑦2 , … , 𝑦𝑇 (supõe-se que 𝑇 > 𝑚), obtém-
se o sistema linear em função do vetor de incógnitas 𝐴̂ = (𝑎̂, 𝑏̂1 , 𝑏̂2 , . . . , 𝑏̂𝑚 ):42
(𝑋𝑊𝑋′)𝐴̂ = 𝑋𝑊𝑌 ou, 𝐴̂ = (𝑋𝑊𝑋′)−1 𝑋𝑊𝑌 (36)
que também pode ser resolvido pelos métodos tradicionais de solução de sistemas lineares.
Este sistema é similar ao anterior, exceto pelos termos 𝑊 (note que se 𝑊 for igual à matriz
identidade, então (36) corretamente se reduz a (35), com todas as 𝑇 observações passadas com
mesmo peso). O modelo de previsão (com base nas T observações aplicadas em (36)) também
é:
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 + 𝑏̂1𝑇 𝑓1 (𝑇 + 𝜏) + 𝑏̂2𝑇 𝑓2 (𝑇 + 𝜏)+. . . +𝑏̂𝑚𝑇 𝑓𝑚 (𝑇 + 𝜏), com 𝜏 = 1, 2, . ..
Quando aplicado a uma série temporal com tendência linear 𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 , o modelo

acima gera previsões equivalentes às geradas pelo modelo de suavização exponencial dupla
descrito em (26) na Seção 5.3. Obviamente, a utilização destes modelos mais genéricos de
regressão linear, média móvel e suavização exponencial envolve dificuldades adicionais, com
a estimação de um maior número de parâmetros em (35) e (36), e um esforço computacional
bem maior do que os modelos apresentados nas seções anteriores. Porém, estes modelos
podem gerar previsões mais precisas do que os modelos das seções anteriores, dependendo do
padrão da série temporal (veja Exercício 17 da lista no final deste capítulo).
7.3 Métodos baseados em modelos de Box-Jenkins

Outros métodos de séries temporais são os baseados nos chamados modelos de Box-Jenkins43
que exploram possíveis dependências entre os valores da série temporal, período a período.
Os métodos anteriores da Seção 3, Seção 4, Seção 5, Seção 6, Seção 7.1 e Seção 7.2, baseados
em projeção da série temporal e no critério de mínimos quadrados, como os métodos de média
móvel e suavização exponencial, consideram que o modelo de previsão é uma função
constante (por exemplo, 𝑎 no modelo constante 𝑦𝑡 = 𝑎 + 𝜀𝑡 ) ou uma função determinística
dependente do tempo (por exemplo, 𝑎 + 𝑏𝑡 no modelo linear 𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 ), e adicionam
nesta função um desvio aleatório 𝜀𝑡 . Esse desvio é considerado uma variável aleatória
independente e identicamente distribuída com média nula e variância constante. Note nestes
modelos que se 𝜀1 , 𝜀2 , 𝜀3 , … são consideradas variáveis aleatórias independentes, então
𝑦1 , 𝑦2 , 𝑦3 , … também são variáveis aleatórias independentes.
41
Estes métodos também são chamados métodos de mínimos quadrados ponderados (ou com desconto); veja,
por exemplo, Montgomery et al. (2008).
42
Para mais detalhes de como este sistema é obtido, o leitor pode consultar, por exemplo, Johnson e
Montgomery (1974) e Montgomery et al. (2008).
43
Estes modelos foram inicialmente apresentados em Box e Jenkins (1970); veja também Box et al. (2008).

No entanto, sucessivas observações 𝑦1 , 𝑦2 , 𝑦3 , … em muitas séries temporais podem ser
altamente dependentes. Por exemplo, no caso de haver um cliente que faz grandes compras do
produto apenas em alguns períodos da série temporal, é esperado que as demandas em certos
períodos consecutivos da série sejam negativamente correlacionadas, uma vez que uma alta
demanda em um período da série pode ser um indicativo de que esse cliente fez sua compra e
se reabasteceu para este e os próximos períodos, implicando numa baixa demanda nos
próximos períodos da série. Além disso, é esperado que as demandas dos períodos em que o
cliente faz suas grandes compras estejam autocorrelacionadas.
Seja 𝑟𝑘 o coeficiente de autocorrelação que descreve as relações entre os valores da série

temporal espaçados de k períodos (i.e., com time-lag k), definido por:
𝑐𝑜𝑣(𝑦𝑡 , 𝑦𝑡−𝑘 ) ∑𝑇𝑡=𝑘+1(𝑦𝑡 − 𝑦̅)(𝑦𝑡−𝑘 − 𝑦̅)

𝑟𝑘 = = , 𝑘 = 0, 1, 2, …,
𝑉[𝑦] ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̅)2
em que 𝑟0 = 1, 𝑟1 indica o quanto valores sucessivos na série (time-lag 1) estão relacionados,

𝑟2 indica o quanto valores espaçados de dois períodos na série (time-lag 2) estão relacionados,
e assim por diante. Juntos, 𝑟1, 𝑟2 , … formam a chamada função de autocorrelação.
Exemplo 11:44 Considere uma série temporal estacionária do tipo 𝑦𝑡 = 𝑎 + 𝜀𝑡 , com 𝑡 =

1, 2, 3, …, conforme em (14) da Seção 4, onde a é uma constante e os desvios aleatórios 𝜀𝑡 são
independentes e identicamente distribuídos. Logo, a sequência de observações 𝑦1 , 𝑦2 , 𝑦3 , …
desta série é independente e essa série 𝑦𝑡 é conhecida na literatura por modelo de ruído branco
(white noise model). A Tabela 6 apresenta 36 gerações independentes de números aleatórios
uniformemente distribuídos entre 0 e 100. Portanto, espera-se que essa amostra tenha média
próxima de 50 e envolva uma sequência de 36 valores não correlacionados.
A Figura 18 ilustra o gráfico dessa série temporal com 𝑇 = 36 valores. Ao calcular-se os

coeficientes de autocorrelação para 𝑘 = 1, 2, … , 10, obtemos as medidas indicadas na Figura
19, junto com o gráfico correspondente da função de autocorrelação. Note que, conforme
esperado, todos os coeficientes de autocorrelação resultaram bem pequenos, próximos de 0,
indicando que as observações dessa série não estão autocorrelacionados entre todos esses
time-lags (existem testes estatísticos para se verificar isso que não serão aqui apresentados).
Caso contrário, se as observações sucessivas desta série fossem dependentes (e.g.,
autocorrelacionados com certos time-lags k), as grandezas (positivas ou negativas) das
autocorrelações poderiam ser medidas pela função de autocorrelação.
Tabela 6 – Amostra dos 36 valores gerados aleatoriamente entre 0 e 100

𝑡 𝑦𝑡 𝑡 𝑦𝑡 𝑡 𝑦𝑡 𝑡 𝑦𝑡
1 23 10 36 19 98 28 72
2 59 11 89 20 50 29 33
3 36 12 77 21 86 30 17
4 99 13 86 22 90 31 3
5 36 14 33 23 65 32 29
6 74 15 90 24 20 33 30
7 30 16 74 25 17 34 68
8 54 17 7 26 45 35 87
9 17 18 54 27 9 36 44
44
Este exemplo foi inspirado num exemplo em Makridakis et al. (1998).

00
0
0
0
0
0 10 20 30
Figura 18 - Série temporal com 𝑇 = 36 valores
1 = 0,103 1,0
2 = 0,099
3 = 0,043 0,5
4 = 0,031
5 = 0,183
0,0
6 = 0,025
7 = 0,275
8 = 0,004 0.5
9 = 0,011
10 = 0,152 1,0
2 4 6 8 10
Figura 19 – Valores de 𝑟𝑘 para 𝑘 = 1, 2, … , 10, e função de autocorrelação

■
Métodos baseados nos modelos de Box-Jenkins utilizam informações de autocorrelação entre

os valores da série temporal e podem ser vantajosos quando as observações sucessivas da
série são altamente correlacionadas. Porém, estes métodos envolvem dificuldades
computacionais maiores do que outros métodos de previsão. Para serem aplicados, eles
requerem uma grande quantidade de dados históricos disponíveis; por exemplo, pelo menos
50 observações para o caso de séries temporais estacionárias. Baseiam-se em três passos: (i)
identificação do modelo de previsão, (ii) estimação dos parâmetros, (iii) checagem
diagnóstica.
Fase (i): Identificação do modelo:
Na fase (i), o modelo de previsão mais apropriado é escolhido por um conjunto de técnicas,
com base nas observações passadas e na avaliação dos padrões de variação da função de
autocorrelação e também da função de autocorrelação parcial, entre outras (esses padrões não
serão aqui discutidos em detalhes). Para o caso de uma série temporal não sazonal, uma classe
genérica de modelos de previsão é a de modelos ARIMA (AutoRegressive Integrated Moving
Average).
A notação ARIMA(𝑝, 𝑑, 𝑞) corresponde a um modelo com: (i) ordem p da parte
autorregressiva do modelo. Esta denominação é porque esta parte do modelo envolve uma
equação de regressão nas últimas p observações da própria variável 𝑦𝑡 . (ii) Grau d de
diferenciação da série temporal; por exemplo, no caso de uma série estacionária, usa-se 𝑑 =
0, e no caso de uma série com tendência linear, 𝑑 = 1. (iii) Ordem q da parte de média móvel
do modelo. Não confundir com o método de média móvel das últimas N observações da série
descrito na Seção 4.1 – aqui a denominação é porque esta parte do modelo é definida como
uma média ponderada móvel dos últimos q desvios aleatórios 𝜀𝑡 da série.
Por exemplo, o modelo ARIMA(𝑝, 0, 𝑞) (i.e., para uma série estacionária) é definido por:
𝑦𝑡 = 𝑎 + 𝑏1 𝑦𝑡−1 + 𝑏2 𝑦𝑡−2 +. . . +𝑏𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 − 𝑐1 𝜀𝑡−1 − 𝑐2 𝜀𝑡−2 −. . . −𝑐𝑞 𝜀𝑡−𝑞 ,

com 𝑡 = 1, 2, … (37)
Note que o modelo é descrito em termos das p observações passadas 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑝 e dos
q desvios aleatórios passados 𝜀𝑡−1 , 𝜀𝑡−2 , … , 𝜀𝑡−𝑞 , além de 𝜀𝑡 . Obviamente, as sucessivas
observações da série são consideradas dependentes neste modelo porque 𝑦𝑡 é uma
combinação linear das observações anteriores e dos desvios anteriores.
Quando 𝑑 = 0, o modelo ARIMA(𝑝, 0, 𝑞) em (37) também é denotado simplesmente por

ARMA(𝑝, 𝑞). Quando 𝑞 = 0, o modelo ARIMA(𝑝, 0, 𝑞) se reduz a 𝑦𝑡 = 𝑎 + 𝑏1 𝑦𝑡−1 +
𝑏2 𝑦𝑡−2 +. . . +𝑏𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 e é chamado simplesmente de modelo autorregressivo AR(𝑝).
Quando 𝑝 = 0, ele se reduz a 𝑦𝑡 = 𝑎 + 𝜀𝑡 − 𝑐1 𝜀𝑡−1 − 𝑐2 𝜀𝑡−2 −. . . −𝑐𝑞 𝜀𝑡−𝑞 e é chamado
simplesmente de modelo de média móvel MA(𝑞). Ambos os modelos AR(𝑝) e MA(𝑞)
podem ser vistos como equações de regressão linear múltipla, em que as variáveis do lado
direito das equações são diferentes de variáveis explanatórias da equação (7) da Seção 2.3.
Por exemplo, no modelo AR(𝑝), as variáveis explanatórias seriam os p valores anteriores da
série temporal: 𝑥1 = 𝑦𝑡−1 , 𝑥2 = 𝑦𝑡−2,..., 𝑥𝑝 = 𝑦𝑡−𝑝 com 𝑚 = 𝑝 conforme (7). Note,
entretanto, que essas variáveis agora podem ser correlacionadas, diferentemente das
variáveis explanatórias dos modelos de regressão linear múltipla anteriores. Além disso,
o modelo de ruído branco do Exemplo 11, teoricamente com autocorrelação nula entre os
valores da série, é o caso particular do modelo ARIMA(0,0,0).
No caso de a série temporal ter padrão com tendência (crescimento ou decrescimento) ou

sazonalidade, ela não é estacionária. O padrão de variação (comportamento) da função de
autocorrelação pode ser utilizado para verificar isso, ou seja, se os valores desta função
decrescem rapidamente (dying-down quickly), ou se esses valores são truncados abruptamente
(cutoff) após poucos valores não nulos (i.e., tornam-se próximos de zero), então a série
temporal pode ser considerada estacionária (veja os exemplos da Figura 20). Caso contrário, a
série não pode ser considerada estacionária. Além disso, os padrões de variação da função de
autocorrelação e da função de autocorrelação parcial juntos podem ser utilizados para definir
o modelo. Por exemplo,
(a) se os valores da função de autocorrelação decrescem rapidamente e os valores da função
de autocorrelação parcial são truncados abruptamente após 𝑝, um modelo AR(𝑝) pode ser
apropriado.
(b) se os valores da função de autocorrelação são truncados abruptamente após 𝑞 e os valores
da função de autocorrelação parcial decrescem rapidamente, um modelo MA(𝑞) pode ser
apropriado.

(c) se os valores da função de autocorrelação decrescem rapidamente e os valores da função
de autocorrelação parcial também decrescem rapidamente, um modelo ARMA(𝑝, 𝑞) pode
ser apropriado.
1
1
0
0
0
0
0
0
0
0
0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Figura 20 – Exemplos de função de autocorrelação para um modelo MA(1) com valores de 𝑟𝑘

truncados abruptamente após 𝑘 = 1, e para um modelo ARMA(1, 4), com valores de 𝑟𝑘
decrescendo rapidamente
Uma simples técnica para converter um processo não estacionário com padrão de tendência
linear em um processo estacionário é substituir cada 𝑦𝑡 do processo original por 𝑦′𝑡 = 𝑦𝑡 −
𝑦𝑡−1 . Note que isto corresponde a aplicar um grau de diferenciação na série temporal (i.e.,
𝑑 = 1). Desta maneira, se 𝑦𝑡 tem padrão com tendência linear no processo original, 𝑦′𝑡 =
𝑦𝑡 − 𝑦𝑡−1 terá padrão estacionário no processo convertido. Similarmente, caso a série original
tenha um padrão com crescimento ou decrescimento quadrático, pode-se aplicar mais um grau
de diferenciação na série, i.e., substituir cada 𝑦𝑡 do processo original por 𝑦"𝑡 = 𝑦′𝑡 − 𝑦′𝑡−1 =
(𝑦𝑡 − 𝑦𝑡−1 ) − (𝑦𝑡−1 − 𝑦𝑡−2 ), para convertê-la num processo estacionário (neste caso, temos
que 𝑑 = 2).
Por exemplo, o modelo ARIMA(2,1,0) é definido por:
(𝑦𝑡 − 𝑦𝑡−1 ) = 𝑎 + 𝑏1 (𝑦𝑡−1 − 𝑦𝑡−2 ) + 𝑏2 (𝑦𝑡−2 − 𝑦𝑡−3 ) + 𝜀𝑡
ou, simplesmente:
𝑦𝑡 = 𝑎 + 𝑦𝑡−1 + 𝑏1 (𝑦𝑡−1 − 𝑦𝑡−2 ) + 𝑏2 (𝑦𝑡−2 − 𝑦𝑡−3 ) + 𝜀𝑡 (38)
Pode ser mostrado que outros modelos das seções anteriores também podem ser vistos como
equivalentes à certos casos particulares de modelos ARIMA. Por exemplo, a suavização
exponencial simples em (16) da Seção 4.2 pode ser vista como equivalente a um modelo
ARIMA(0,1,1) com parâmetros 𝑎 = 0, 𝑐1 = (1 − 𝛼) e os demais parâmetros 𝑏1 , … , 𝑏𝑝 e
𝑐2 , … , 𝑐𝑞 nulos, e o método de Holt em (25) da Seção 5.2 como equivalente a um modelo
ARIMA(0,2,2) com parâmetros 𝑎 = 0, 𝑐1 = (2 − 𝛼 − 𝛼𝛽) e 𝑐2 = (𝛼 − 1), e os demais
parâmetros nulos.45 Na prática, em geral se utiliza modelos ARIMA com valores de p e q
iguais a 0, 1 ou 2.
45
Para mais detalhes disso, veja, por exemplo, Makridakis et al. (1998) e Ghiani et al. (2004).

Também pode-se ter modelos ARIMA que consideram séries temporais com sazonalidade –
neste caso eles são chamados de ARIMA sazonais (Seasonal ARIMA, ou SARIMA). A
notação ARIMA(𝑝, 𝑑, 𝑞) é estendida para ARIMA(𝑝, 𝑑, 𝑞)(𝑃, 𝐷, 𝑄)𝑁 , em que os parâmetros
(𝑝, 𝑑, 𝑞) referem-se à parte não sazonal do modelo, e os parâmetros (𝑃, 𝐷, 𝑄)𝑁 referem-se à
parte sazonal (o subíndice N é o número de períodos do ciclo sazonal). Conforme visto na
Seção 6, sazonalidade é um padrão que se repete ao longo de intervalos de tempo de N
períodos; logo, para padrões sazonais com 𝑁 = 12 meses, o coeficiente de autocorrelação 𝑟12
resultará em valores altamente positivos, indicando existência de sazonalidade. O método
aditivo de Winters (Seção 6.2) é equivalente ao modelo ARIMA(0, 1, 𝑁 + 1)(0, 1, 0)𝑁 com
algumas restrições adicionais de parâmetros, enquanto o método multiplicativo de Winters
não tem modelo SARIMA equivalente.46
Fase (ii): Estimação dos parâmetros:
Na fase (ii), os parâmetros de modelo de previsão escolhido na fase (i) são estimados, por
exemplo, os parâmetros do modelo ARIMA(𝑝, 0, 𝑞) em (37): 𝑎, 𝑏1 , … , 𝑏𝑝 e 𝑐1 , … , 𝑐𝑞 . Isto
pode ser feito aplicando-se o método dos mínimos quadrados (conforme seções anteriores), ou
métodos de máximas verossimilhanças.47
Considere, por exemplo, que se dispõe de 𝑇 observações passadas 𝑦1 , 𝑦2 , … , 𝑦𝑇 de uma série

temporal estacionária. Após análise do comportamento dos padrões de variação das funções
de autocorrelação e autocorrelação parcial dessa série temporal, o seguinte modelo
autorregressivo AR(2) foi escolhido na fase (i) de identificação do modelo de previsão:
𝑦𝑡 = 𝑎 + 𝑏1 𝑦𝑡−1 + 𝑏2 𝑦𝑡−2 + 𝜀𝑡
Para se obter estimativas 𝑎̂, 𝑏̂1 e 𝑏̂2 de mínimos quadrados dos parâmetros 𝑎, 𝑏1 e 𝑏2 deste
modelo AR(2), pode-se recorrer a um sistema de regressão linear múltipla similar ao sistema
linear (8) da Seção 2.3, ou ao sistema linear (35) da Seção 7.2.
Fase (iii): Checagem diagnóstica:
Na fase (iii), uma função de autocorrelação do erro é utilizada para verificar a adequação do
método e seus parâmetros definidos na fase (ii). Os erros de previsão (resíduos) devem ser
normalmente distribuídos, com média próxima de 0. Caso o método não seja adequado, o
procedimento é repetido desconsiderando-se o método de previsão escolhido anteriormente no
passo (i).48
Modelos de Box-Jenkins podem ser vistos como funções que transformam a série temporal
num processo de ruído branco, em que a sequência dos erros de previsão (resíduos)
𝑒1 , 𝑒2 , 𝑒3 , … são independentes.
Exemplo 12:49 Dispõe-se das últimas 𝑇 = 300 observações das vendas de um produto. Após
aplicar as fases (i), (ii) e (ii), obteve-se um modelo ARIMA(2,1,0) definido conforme em
(38), com parâmetros estimados 𝑎̂ = 0, 𝑏̂1 = 0,93 e 𝑏̂2 = −0,17. A Figura 21 apresenta a
função de autocorrelação dos resíduos (erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 , 𝑡 = 1, 2, … , 300)
46
Veja, por exemplo, Makridakis et al. (1998).
47
Para mais detalhes de métodos de máximas verossimilhanças, veja, por exemplo, Kalbfleisch (1985).
48
Para mais detalhes das fases (i), (ii) e (iii) dos métodos baseados em modelos de Box-Jenkins, veja, por
exemplo, Box e Jenkins (1970), Makridakis et al. (1998) e Box et al. (2008).
49
Este exemplo foi inspirado num exemplo em Johnson e Montgomery (1974, p.472).

deste modelo, indicando que eles não são altamente autocorrelacionados para diferentes time-
lags 𝑘 = 1, 2, 3, …, o que mostra que este modelo ARIMA(2,1,0) transforma a série temporal
original num processo de ruído branco e é apropriado para fazer previsões.
1,0
0,5
0,0
5 10 15
0,5
1,0
Figura 21 – Função de autocorrelação dos erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 (resíduos)
Com base nestas 𝑇 = 300 observações, as previsões de vendas para os próximos 𝜏 =

1, 2, 3, … períodos é (usando (38) e lembrando que 𝐸[𝜀𝑇+1 ] = 𝐸[𝜀𝑇+2 ] = 𝐸[𝜀𝑇+3 ] = ⋯ = 0):
𝑦̂𝑇,𝑇+1 = 𝑦𝑇 + 0,93(𝑦𝑇 − 𝑦𝑇−1 ) − 0,17(𝑦𝑇−1 − 𝑦𝑇−2 )

𝑦̂𝑇,𝑇+2 = 𝑦̂𝑇,𝑇+1 + 0,93(𝑦̂𝑇,𝑇+1 − 𝑦𝑇 ) − 0,17(𝑦𝑇 − 𝑦𝑇−1 )
𝑦̂𝑇,𝑇+3 = 𝑦̂𝑇,𝑇+2 + 0,93(𝑦̂𝑇,𝑇+2 − 𝑦̂𝑇,𝑇+1 ) − 0,17(𝑦̂𝑇,𝑇+1 − 𝑦𝑇 )
𝑦̂𝑇,𝑇+𝜏 = 𝑦̂𝑇,𝑇+𝜏−1 + 0,93(𝑦̂𝑇,𝑇+𝜏−1 − 𝑦̂𝑇,𝑇+𝜏−2 ) − 0,17(𝑦̂𝑇,𝑇+𝜏−2 − 𝑦̂𝑇,𝑇+𝜏−3 ), 𝜏≥4
Considere que as observações nos últimos três períodos foram: 𝑦298 = 175956, 𝑦299 =
176560 e 𝑦300 = 177197. A previsão de vendas para o próximo período 𝑇 + 1 é:
𝑦̂300,301 = 177197 + 0,93(177197 − 176560) − 0,17(176560 − 175956) = 177695

■
Exemplo 13:50 No Exemplo 12, o modelo ARIMA(2,1,0) obtido não inclui a parte de média
móvel (i.e., 𝑞 = 0) e, portanto, não depende dos desvios aleatórios passados. Considere agora
outro exemplo de série temporal com 𝑇 = 76 observações da demanda de outro produto.
Após aplicar a fase (i), obteve-se um modelo ARIMA(1,1,1) definido por:
(𝑦𝑡 − 𝑦𝑡−1 ) = 𝑎 + 𝑏1 (𝑦𝑡−1 − 𝑦𝑡−2 ) + 𝜀𝑡 − 𝑐1 𝜀𝑡−1 , 𝑡 = 1, 2, 3, …
ou simplesmente:
𝑦𝑡 = 𝑎 + 𝑦𝑡−1 + 𝑏1 (𝑦𝑡−1 − 𝑦𝑡−2 ) + 𝜀𝑡 − 𝑐1 𝜀𝑡−1 , 𝑡 = 1, 2, 3, …
que depende do desvio aleatório anterior 𝜀𝑡−1 . Os parâmetros estimados deste modelo na fase
(ii) resultaram em: 𝑎̂ = 15, 𝑏̂1 = 0,24 e 𝑐̂1 = −0,70. A função de autocorrelação dos resíduos
(erros de previsão 𝑒𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 , 𝑡 = 1, 2, … , 76) na fase (iii) indicou que os resíduos não
50
Este exemplo foi inspirado num exemplo em Nahmias 2009, p.99).

são altamente autocorrelacionados para 𝑘 = 1, 2, 3, …, confirmando que este modelo
ARIMA(1,1,1) transforma a série temporal original num processo de ruído branco e é
apropriado para fazer previsões.
Considere que as duas últimas observações desta série temporal foram: 𝑦75 = 56,74 e 𝑦76 =
62,44. Com base nestas 𝑇 = 76 observações, a previsão de vendas para o próximo período
𝑇 + 1 = 77 é:
𝑦̂76,77 = 15 + 𝑦76 + 0,24(𝑦76 − 𝑦75 ) + 𝜀77 + 0,70𝜀76

= 15 + 62,44 + 0,24(62,44 − 56,74) + 0 + 0,70𝑒76
lembrando que 𝐸[𝜀77 ] = 0 e que 𝜀76 é estimado pelo erro de previsão 𝑒76 = 𝑦76 − 𝑦̂75,76 . No
entanto, como o período 𝑇 + 1 = 77 foi o primeiro período de previsão do modelo, não se
tem o valor 𝑦̂75,76 previsto anteriormente pelo modelo no período 𝑇 − 1 = 75 para o período
𝑇 = 76; portanto, não se tem o erro de previsão 𝑒76 . Por simplicidade, considera-se que 𝑒76 =
0. Logo, 𝑦̂76,77 = 15 + 62,44 + 0,24(62,44 − 56,74) = 78,81.
Considere agora que o valor observado no período 𝑇 + 1 = 77 foi 𝑦77 = 70; logo, o erro de
previsão neste período foi: 𝑒77 = 𝑦77 − 𝑦̂76,77 = 70 − 78,81 = −8,81. Com base nestas 𝑇 =
77 observações, as previsões de vendas para os dois próximos períodos 𝑇 + 1 = 78 e 𝑇 +
2 = 79 são, respectivamente (lembrando que 𝐸[𝜀78 ] = 𝐸[𝜀79 ] = 0):
𝑦̂77,78 = 15 + 𝑦77 + 0,24(𝑦77 − 𝑦76 ) + 𝜀78 + 0,70𝜀77

= 15 + 70 + 0,24(70 − 62,44) + 0 + 0,70(−8,81) = 80,65
𝑦̂77,79 = 15 + 𝑦̂77,78 + 0,24(𝑦̂77,78 − 𝑦77 ) + 𝜀79 + 0,70𝜀78
= 15 + 80,65 + 0,24(80,65 − 70) + 0 + 0,70(0) = 98,11
■
Existem diversos pacotes estatísticos que incluem modelos de Box-Jenkins, tais como
Minitab, SAS, Statistica, etc., o que auxilia na aplicação e análise destes modelos.
7.4 Métodos baseados em inferência Bayesiana

Métodos baseados em inferência Bayesiana também podem ser vistos como métodos de séries
temporais particularmente úteis quando não há informação histórica (observações passadas)
suficiente no início do processo de previsão (por exemplo, demandas futuras de um novo
produto). Consistem em começar com estimativas subjetivas iniciais dos parâmetros da série
temporal, e usar o teorema de Bayes para modificá-las na presença de novos dados
observados. Aplicando um método Bayesiano após um certo número de observações
suficientemente grande, ele pode então ser substituído por outro computacionalmente mais
econômico, por exemplo, um método de suavização exponencial.
Considere uma série temporal estacionária da demanda 𝑦𝑡 definida por:
𝑦𝑡 = 𝑎 + 𝜀𝑡 , com 𝑡 = 1, 2, …
em que 𝑎 é a média (estacionária) da série, e 𝜀𝑡 é o desvio (ou flutuação ou ruído) aleatório no

período t, suposto independente e identicamente distribuído. Suponha que a variável aleatória

𝜀𝑡 seja normalmente distribuída com média 𝐸[𝜀𝑡 ] = 0 e variância 𝑉[𝜀𝑡 ] = 𝜎𝜀2 , i.e., 𝜀𝑡 ∼
𝑁(0, 𝜎𝜀2 ).
Dado que 𝜀𝑡 ∼ 𝑁(0, 𝜎𝜀2 ), segue que 𝑦𝑡 = 𝑎 + 𝜀𝑡 é normalmente distribuído com média 𝑎 e
variância 𝜎𝜀2 , i.e., 𝑦𝑡 ∼ 𝑁(𝑎, 𝜎𝜀2 ).
Na ausência de informação histórica (i.e., 𝑇 = 0), neste método considera-se que o parâmetro
desconhecido 𝑎 seja uma variável aleatória e o conhecimento subjetivo de 𝑎 é descrito por
𝑓(𝑎), uma função densidade de probabilidade “a priori” de 𝑎, subjetiva, por exemplo,
sugerida por um especialista antes de quaisquer observações de 𝑦𝑡 . Em geral, considera-se que
𝑎 seja normalmente distribuído com média 𝐸[𝑎] = 𝑎0 e variância 𝑉[𝑎] = 𝜎02 , i.e., 𝑎 ∼
𝑁(𝑎0 , 𝜎02 ). Se o especialista está razoavelmente confiante sobre seu conhecimento e intuição
do valor de 𝑎, então a distribuição a priori 𝑓(𝑎) tem variância 𝜎02 pequena; caso contrário, se
ele está bem incerto sobre 𝑎, o valor escolhido de 𝜎02 é maior.
Assim que tiverem 𝑡 = 1, 2, … , 𝑇 observações de 𝑦𝑡 , seja 𝑓(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎) a função

densidade de probabilidade conjunta destas observações 𝑦1 , 𝑦2 , . . . , 𝑦𝑇 , dado 𝑎.
Usando o teorema de Bayes, tem-se que:
𝑓(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎)𝑓(𝑎)
𝑓(𝑎|𝑦1 , 𝑦2 , . . . , 𝑦𝑇 ) =
∫𝑎 𝑓(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎)𝑓(𝑎)𝑑𝑎
onde 𝑓(𝑎|𝑦1 , 𝑦2 , . . . , 𝑦𝑇 ) é a função densidade de probabilidade “a posteriori” do parâmetro

desconhecido 𝑎, dadas as observações 𝑦1 , 𝑦2 , . . . , 𝑦𝑇 , ou seja, à luz dos dados observados.
Por conveniência e na falta de observações iniciais, ao invés de considerar 𝑦1 , 𝑦2 , . . . , 𝑦𝑇 em

𝑦 +𝑦 +...+𝑦𝑇
(𝑦1 , 𝑦2 , . . . , 𝑦𝑇 |𝑎), considera-se a média 𝑦̄ = 1 2 das observações. Como cada 𝑦𝑡 ∼
𝑇
∑𝑇
𝑡=1 𝑦𝑡
𝑁(𝑎, 𝜎𝜀2 ), segue que (𝑦̄ |𝑎) = ( |𝑎) também tem distribuição normal com média
𝑇
∑𝑇
𝑡=1 𝑦𝑡 ∑𝑇
𝑡=1 𝐸[𝑦𝑡 ] ∑𝑇
𝑡=1 𝑦𝑡 ∑𝑇
𝑡=1 𝑉[𝑦𝑡 ] 𝜎𝜀2
𝐸[ |𝑎] = ( |𝑎) = 𝑎 e variância 𝑉[ |𝑎] = ( |𝑎) = , i.e.,
𝑇 𝑇 𝑇 𝑇 𝑇
𝜎𝜀2
(𝑦̄ |𝑎) ∼ 𝑁 (𝑎, ). Portanto, ambas, a densidade a priori 𝑓(𝑎) e a densidade conjunta 𝑓(𝑦̄ |𝑎)
𝑇
são distribuições normais.
Pode ser mostrado (após alguma manipulação algébrica) que essa densidade a posteriori
𝑓(𝑎|𝑦̄ ) também tem distribuição normal, dada por: 51
𝑓(𝑦̄ |𝑎)𝑓(𝑎) 1 −(𝑎−𝜇)2

𝑓(𝑎|𝑦̄ ) = +∞ = 𝑒 2𝜎2
∫−∞ 𝑓(𝑦̄ |𝑎)𝑓(𝑎) √2𝜋𝜎 2
2
𝜎𝜀2
𝜎0 𝑇
𝜇= 𝑦̄ + 𝑎
2 𝜎𝜀2 2 𝜎𝜀2 0
𝜎0 + 𝑇 𝜎0 + 𝑇
onde: −1
1 1
𝜎2 = [ 2 + 𝜎2 ]
𝜎0 𝜀
{ 𝑇
51

e, portanto, (𝑎|𝑦̄ ) é normalmente distribuída com média 𝜇 e variância 𝜎 2 conforme acima,
i.e., (𝑎|𝑦̄ ) ∼ 𝑁(𝜇, 𝜎 2 ).
O estimador de Bayes de 𝑎 com 𝑇 ≥ 1 observações, denotado por 𝑎̂ 𝑇 , é definido por:
𝜎𝜀2
𝜎02 𝑇
𝑎̂ 𝑇 = 𝐸[𝑎|𝑦̄ ] = ∫𝑎𝑓(𝑎|𝑦̄ ) 𝑑𝑎 = 𝜇 = 𝑦̄ + 𝑎0
𝜎2 𝜎2
𝑎 𝜎02 + 𝑇𝜀 𝜎02 + 𝑇𝜀
𝜎2 𝑇 𝑇 𝑇 𝜎2 𝑇 𝜎02
Definindo-se 𝑈 = 𝜎𝜀2 , segue que: = 𝜎2 = (𝜎2 2
0
= 𝜎2 +𝜎 2𝑇 = 𝜎 2 . Similarmente,
0 𝑈+𝑇 𝜀 +𝑇 𝜀 +𝜎0 𝑇) 𝜀 0 𝜎02 + 𝜀
𝜎2
0
2
𝜎0 𝑇
𝜎2𝜀
𝑈 𝑇
= 𝜎2
. Logo, 𝑎̂ 𝑇 pode ser reescrito como:
𝑈+𝑇 𝜎02 + 𝜀
𝑇
𝑇 𝑈
𝑎̂ 𝑇 = 𝑦̄ 𝑇 + 𝑎
𝑈+𝑇 𝑈+𝑇 0
𝑦1 +𝑦2 +...+𝑦𝑇
em que 𝑦̄ 𝑇 = . Note na expressão acima que 𝑎̂ 𝑇 é a média ponderada de 𝑦̄ 𝑇 e 𝑎0 . À
𝑇
𝑇
medida que 𝑇 cresce, mais peso é dado para as observações reais 𝑦̄ 𝑇 , uma vez que 𝑈+𝑇 cresce,
𝑇
e menos peso é dado para o palpite subjetivo 𝑎0 , uma vez que 𝑈+𝑇 decresce.
O estimador de Bayes 𝑎̂ 𝑇 ainda pode ser reescrito de maneira recursiva, como uma
combinação convexa de 𝑦𝑇 e 𝑎̂ 𝑇−1:
1 𝑇 𝑦1 + 𝑦2 +. . . +𝑦𝑇−1 𝑈
𝑎̂ 𝑇 = 𝑦𝑇 + ( )+ 𝑎 =
𝑈+𝑇 𝑈+𝑇 𝑇 𝑈+𝑇 0
1 𝑇−1 𝑈
= 𝑦𝑇 + 𝑦̄ 𝑇−1 + 𝑎 =
𝑈+𝑇 𝑈+𝑇 𝑈+𝑇 0
1 𝑈+𝑇−1 𝑇−1 𝑈
= 𝑦𝑇 + ( 𝑦̄ 𝑇−1 + 𝑎 )=
𝑈+𝑇 𝑈+𝑇 𝑈+𝑇−1 𝑈+𝑇−1 0
1 1
= 𝑦𝑇 + (1 − ) 𝑎̂ =
𝑈+𝑇 𝑈 + 𝑇 𝑇−1
= 𝛼 𝑇 𝑦𝑇 + (1 − 𝛼 𝑇 )𝑎̂ 𝑇−1
1
onde 𝛼𝑇 = 𝑈+𝑇. Portanto, o modelo de previsão para os próximos 𝜏 períodos a partir do
período 𝑇 é:
𝑦̂𝑇,𝑇+𝜏 = 𝑎̂ 𝑇 = 𝛼 𝑇 𝑦𝑇 + (1 − 𝛼 𝑇 )𝑎̂ 𝑇−1 , com 𝜏 = 1, 2, . ..
em que 𝑎̂0 = 𝑎0 . Note que 𝑎̂ 𝑇 e 𝛼 𝑇 são recalculados a cada nova observação. Diferentemente
−1
𝜎2
dos métodos de suavização exponencial anteriores deste capítulo, 𝛼 𝑇 = (𝜎𝜀2 + 𝑇) varia com
0
𝑇.
Após um certo número de observações suficientemente grande, o procedimento acima pode

ser substituído por outro computacionalmente mais econômico, por exemplo, pelo método de
suavização exponencial simples da Seção 4.2.

Exemplo 14: Considere que se deseja prever a demanda futura de um novo produto. Com
base no conhecimento subjetivo a priori de um especialista, suponha que 𝜀𝑡 ∼ 𝑁(0, 𝜎𝜀2 = 9) e
𝑎 ∼ 𝑁(𝑎0 = 50, 𝜎02 = 4). Como ainda não se tem nenhuma observação da demanda (i.e., 𝑇 =
0), segue que a previsão da demanda para o primeiro período é: 𝑦̂0,1 = 𝑎̂0 = 50.
Suponha que a demanda observada no primeiro período (𝑇 = 1) tenha sido 𝑦1 = 56. Logo,
4 −1
𝛼1 = (9 + 1) = 0,31 e a previsão da demanda para o próximo período (𝜏 = 1) é:
𝑦̂1,2 = 𝑎̂1 = 𝛼1 𝑦1 + (1 − 𝛼1 )𝑎̂0 = 0,31(56) + 0,69(50) ≅ 52
Suponha ainda que a demanda observada no segundo período (𝑇 = 2) tenha sido 𝑦2 = 58.
4 −1
Logo, 𝛼2 = (9 + 2) = 0,23 e a previsão da demanda para o próximo período (𝜏 = 1) é:
𝑦̂2,3 = 𝑎̂2 = 𝛼2 𝑦2 + (1 − 𝛼2 )𝑎̂1 = 0,23(58) + 0,77(52) ≅ 53
e assim por diante, até que dados suficientes tenham sido acumulados para se adotar outro
método mais econômico de previsão, por exemplo, fixando 𝛼 num método de suavização
exponencial simples. ■
Métodos baseados em inferência Bayesiana também podem ser aplicados para modelos mais
gerais, por exemplo, uma série temporal com tendência definida por:
𝑦𝑡 = 𝑎 + 𝑏𝑡 + 𝜀𝑡 , com 𝑡 = 1, 2, …
mas que não serão estudados aqui.52
7.5 Redes neurais e outros métodos causais

Redes neurais: estes métodos podem ser vistos como métodos causais e baseiam-se em redes
neurais artificiais compostas de um conjunto de sistemas não lineares elementares que
reproduzem (de maneira simplificada) o comportamento de neurônios biológicos. Estas redes
neurais podem ser vistas como modelos (não lineares) do tipo “caixa-preta” utili ados para
relacionar diversas variáveis causais (ou explanatórias) com uma ou mais variáveis de
resposta. Em previsão de demanda, é comum utilizar redes neurais de três níveis:
(i) nível de entrada (dados das observações passadas das variáveis explanatórias e da
variável de resposta),
(ii) nível “escondido” (conjunto de variáveis construídas no modelo “caixa-preta”),
(iii) nível de saída (dados das previsões da variável de resposta). A terminologia usual é
chamar o modelo de rede, os parâmetros do modelo de pesos, e a estimativa dos
parâmetros do modelo de treinamento da rede. Estes parâmetros são estimados por
meio da entrada de dados passados, para serem usados para se fazer previsões.
Por exemplo, a título de ilustração, a parte superior da Figura 22 representa o modelo

ARIMA(𝑝, 𝑑 = 0, 𝑞 = 0) em (37) em uma simples rede neural (a rigor, o modelo AR(𝑝)).
Note que o nível de entrada da rede corresponde às últimas p observações 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑝
em (37) e o nível de saída da rede corresponde à previsão 𝑦𝑡 em (37), obtida como uma
52
Para mais detalhes destes métodos, veja, por exemplo, Johnson e Montgomery (1974).

combinação linear das p entradas da rede, indicadas na figura pelos arcos ligando o nível de
entrada ao nível de saída. Os pesos destes arcos correspondem aos parâmetros 𝑏1 , 𝑏2 , … , 𝑏𝑝
em (37), que são estimados de maneira a minimizar alguma medida de erro de previsão (por
exemplo, o erro quadrático médio MSE em (13)).
nível de
saída
... nível de
entrada
1 2 +1
nível de
saída
... nível
escondido
... nível de
entrada
1 2 +1
Figura 22 – Representação do modelo ARIMA(𝑝, 0,0) em uma rede neural
Ao se incluir níveis intermediários na rede da parte superior da Figura 22 (nível escondido),

com unidades não lineares entre os níveis de entrada e saída, pode-se obter as saídas
(previsões) da rede como combinações não lineares das entradas (observações) da rede (parte
inferior da figura).53 Neste exemplo ilustrativo, 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦𝑡−𝑝 são observações passadas
da variável aleatória 𝑦𝑡 (demanda dependente), mas também poderiam ser observações
passadas de outras variáveis aleat rias (causais), que estariam “explicando” a demanda 𝑦𝑡 ,
como nos modelos causais da Parte I deste capítulo.
Em geral, os métodos de redes neurais requerem um número bem maior de observações do

que os demais métodos de previsão discutidos neste capítulo, mas também permitem que
modelos mais flexíveis e complicados sejam ajustados aos dados.
Outros métodos de previsão causais além de redes neurais são:

• Métodos de entrada e saída
• Simulação computacional
Métodos de entrada e saída (input-output): são métodos de análise que se preocupam com os
fluxos de bens e serviços interindústrias ou interdepartamentos. Eles mostram quais fluxos
devem ocorrer para se obter certas saídas (por exemplo, a utilização de matrizes de Leontief
aplicadas para previsão de demanda de transporte urbano inter-regiões).54
53
Para mais detalhes, veja, por exemplo, Makridakis et al. (1998).
54
Para mais detalhes destes métodos de entrada e saída, veja, por exemplo, Ballou (2004).

Simulação computacional: um modelo de simulação em um computador é uma representação
do problema reduzida a um programa computacional, projetado para “simular” (imitar) os
principais aspectos da dinâmica da situação real. Rodando-se o programa para diferentes
condições iniciais e diferentes cenários e analisando-se os resultados obtidos, tiram-se
conclusões sobre o problema. Modelos de simulação computacional podem ser utilizados para
simular o efeito de vendas de produtos finais ao longo do tempo, sob diversos requisitos. Por
exemplo, estes modelos podem ser usados para analisar as necessidades das políticas de
estoques e dos programas de produção ao longo de uma cadeia de suprimentos.55
8. Validação e monitoramento dos métodos de previsão

Conforme mencionado na Seção 1.3 e Seção 3.3, a validação do método de previsão envolve
uma avaliação do método escolhido para determinar se ele trata satisfatoriamente o problema
de previsão. Uma técnica comumente utilizada nesta fase é separar os dados históricos em
dois segmentos: um segmento de ajuste e outro de previsão. O método é ajustado com base
nos dados do segmento de ajuste e, então, é aplicado para prever os dados do segmento de
previsão, para se avaliar a qualidade das previsões obtidas pelo método.
Por exemplo, se três anos de dados históricos estão disponíveis, pode-se usar os dois
primeiros anos para otimizar os parâmetros do modelo e, então, simular a previsão de
demanda de cada mês do terceiro ano para verificar como a escolha dos parâmetros do modelo
reage aos dados observados deste terceiro ano.
Selecionar o método com a melhor aderência aos dados históricos (por exemplo, aos dados
dos dois primeiros anos) não necessariamente resulta em um método que produz as melhores
previsões para os dados futuros. Em geral, a melhor abordagem é selecionar o método que
resulta no menor desvio padrão (ou MSE ou outra medida de dispersão) dos erros de previsão
do próximo período, quando o modelo é aplicado aos dados que não foram usados no
processo de ajuste do método (por exemplo, os dados do terceiro ano).
Um método de previsão não pode ser tendencioso, ou seja, os erros de previsão devem flutuar
em torno de zero. A média destes erros deve ser nula e a variância destes erros deve ser
constante. Uma simples maneira de verificar a aderência das previsões aos dados observados
é plotar os erros de previsão ao longo do tempo num gráfico. As observações devem oscilar
em torno das previsões, e a magnitude destas oscilações deve se manter aproximadamente
constante ao longo do tempo.
Para se avaliar a qualidade das previsões, além do erro absoluto médio (MAD) e do erro
quadrático médio (MSE) descritos em (11) e (13) na Seção 3, pode-se também usar o erro
percentual absoluto médio (MADP) descrito em (12), e aplicá-lo para as observações
passadas. De forma geral,
• se 𝑀𝐴𝐷𝑃 ≤ 10%, a qualidade da previsão é considerada muito boa;
• se 10% < 𝑀𝐴𝐷𝑃 ≤ 20%, a qualidade da previsão é boa;
• se 20% < 𝑀𝐴𝐷𝑃 ≤ 30%, a qualidade da previsão é moderada;
• se 𝑀𝐴𝐷𝑃 > 30%, a qualidade da previsão é pobre.
Alguns autores têm observado que métodos do tipo suavização exponencial resultam em MAD
variando de 10% a 15% para a previsão do próximo período (i.e., 𝜏 = 1). Ao considerar mais
55
Para alguns exemplos, veja Ballou (2004) e Nahmias (2009).

períodos adiante, os erros de previsão aumentam. Por exemplo, o MAD varia tipicamente de
17% a 25% para a previsão de 𝜏 = 6 períodos adiante, e de 18% a 45% para a previsão de 𝜏 =
12 períodos adiante. Métodos mais sofisticados, como os baseados nos modelos ARIMA
(Seção 7.3), não necessariamente resultam em previsões muito melhores, com o MAD
variando em torno de 10%, 17% e 25% para as previsões do próximo período, de 6 períodos
adiante e de 12 períodos adiante, respectivamente. Métodos de regressão linear produzem
previsões com MAD tipicamente entre 12% e 18% para a previsão do próximo período, entre
17% e 20% para a previsão de 6 períodos adiante, e entre 20% e 25% para a previsão de 12
períodos adiante.56
Previsões devem ser monitoradas regularmente para verificar se o método de previsão

implementado continua sendo apropriado. O padrão da série temporal da demanda pode
mudar com o tempo, por exemplo, devido a mudanças no comportamento dos clientes ou a
entrada de novos produtos e clientes no mercado.
8.1 Monitoramento de sinal e intervalos de previsão

O monitoramento de sinal da série temporal (tracking signal) (lembre-se que na Seção 4.2 fez-
se referência ao “sinal” e “ruído” da série) também nos ajuda a verificar se o método de
previsão continua apropriado. Ele é definido pela razão:
𝐸𝑡
𝑅𝑡 = | |
𝑀𝐴𝐷𝑡
onde 𝐸𝑡 e 𝑀𝐴𝐷𝑡 são as suavizações exponenciais (simples) dos erros e dos erros absolutos de
previsão, respectivamente, dadas por:
𝐸𝑡 = 𝛽𝑒𝑡 + (1 − 𝛽)𝐸𝑡−1 (39a)

𝑀𝐴𝐷𝑡 = 𝛽|𝑒𝑡 | + (1 − 𝛽)𝑀𝐴𝐷𝑡−1 (39b)
Se a previsão não for tendenciosa, 𝐸𝑡 em (39a) deve ser pequeno em relação ao 𝑀𝐴𝐷𝑡 em
(39b). Logo, um valor grande da razão 𝑅𝑡 indica que o método de previsão não é apropriado.
Alguns autores consideram que se 𝑅𝑡 > 0,5 (para 𝛽 = 0,1), os erros 𝑒𝑡 não são aleatórios
flutuando em torno de zero; logo, o método de previsão não é mais apropriado e deve ser
modificado ou substituído.
O 𝑀𝐴𝐷𝑡 em (39b) pode ser usado para estimar o desvio-padrão do erro de previsão et,
aproximado por:
𝜎̂𝑒 = 1.25𝑀𝐴𝐷𝑡 (40a)
Outra estimativa para 𝜎̂𝑒 , computacionalmente mais custosa do que a anterior, é:
𝜎̂𝑒 = √𝑀𝑆𝐸 (40b)
em que MSE é o erro quadrático médio descrito em (13) na Seção 3, aplicado para as
observações passadas.
56
Veja, por exemplo, as discussões em Ghiani et al. (2004) e Montgomery et al. (2008).

As estimativas acima de 𝜎̂𝑒 podem ser utilizadas para construir intervalos de previsão
(intervalos de confiança). Se a distribuição do erro de previsão for uma normal com média
𝐸(𝑒𝑡 ) = 0 e desvio padrão 𝜎̂𝑒 , segue que, em média, cerca de 68% dos valores dos erros de
previsão devem estar dentro do intervalo [−1,25𝑀𝐴𝐷𝑡 , 1,25𝑀𝐴𝐷𝑡 ] usando (40a) (ou
[−√𝑀𝑆𝐸, √𝑀𝑆𝐸] usando (40b)), e cerca de 97,7% dentro do intervalo
[−2,5𝑀𝐴𝐷𝑡 , 2,5𝑀𝐴𝐷𝑡 ] (ou [−2√𝑀𝑆𝐸, 2√𝑀𝑆𝐸]), isto é, ±𝜎̂𝑒 e ±2𝜎̂𝑒 , respectivamente.
O intervalo de previsão calculado no período T para o período 𝑇 + 1 é dado por:
𝑦̂𝑇,𝑇+1 ± 𝑧√𝑀𝑆𝐸
em que z determina a largura e a probabilidade do intervalo de previsão. Por exemplo, 𝑧 =

1,000, 𝑧 = 1,645, 𝑧 = 1,960, 𝑧 = 2,000 e 𝑧 = 2,576 resultam, respectivamente, em
intervalos de previsão com probabilidades de 68%, 90%, 95%, 97,7% e 99% de conter o valor
da variável de interesse y no período 𝑇 + 1. Veja o Exercício 18 da lista no final deste
capítulo.
Exemplo 15:57 Considere que as últimas 𝑇 = 8 observações de produção de cerveja numa

certa região foram (𝑦𝑡 , 𝑡 = 1, 2, … , 8, respectivamente): 138, 136, 152, 127, 151, 130, 119 e
153, respectivamente. Nestes mesmos períodos, as previsões de produção usando um certo
método de previsão foram (𝑦̂𝑡−1,𝑡 , 𝑡 = 1, 2, … , 8, respectivamente): 150,25, 139,50, 157,25,
143,50, 138,00, 127,50, 138,25 e 141,50, respectivamente. O erro quadrático médio definido
em (13) para esses dados foi de 𝑀𝑆𝐸 = 142,52.
Se a previsão para a produção do próximo período 𝑇 + 1 = 9 usando este método de previsão

é 𝑦̂𝑇,𝑇+1 = 𝑦̂8,9 = 140,50, determine o intervalo de previsão com 90% de chance de conter o
valor da produção desse próximo período, 𝑦9 .
Com base nestes dados, neste método e usando 𝑧 = 1,645, obtém-se o seguinte intervalo de
previsão para o valor de 𝑦9 :
𝑦̂𝑇,𝑇+1 ± 𝑧√𝑀𝑆𝐸 = 140,50 ± 1,645√142,52 = [120,86, 160,01]
Veja também o Exercício 19 da lista no final deste capítulo.

■
Para calcular intervalos de previsão no período T para o período 𝑇 + 𝜏 (com 𝜏 = 1,2, . ..), a
fórmula de MSE em (13) tem que ser estendida para considerar os quadrados dos erros de
previsão 𝑒𝑡−𝜏,𝑡 em (10), computados em cada período passado 𝑡 − 𝜏 para cada período passado
t:
∑𝑇𝑡=𝜏 𝑒𝑡−𝜏,𝑡
2 ∑𝑇𝑡=𝜏(𝑦𝑡 − 𝑦̂𝑡−𝜏,𝑡 )2
𝑀𝑆𝐸𝜏 = =
𝑇−𝜏+1 𝑇−𝜏+1
Note que MSE1 coincide com a fórmula em (13). O intervalo de previsão calculado no período
presente T para o período futuro 𝑇 + 𝜏 é dado por:
𝑦̂𝑇,𝑇+𝜏 ± 𝑧√𝑀𝑆𝐸𝜏
57
Este exemplo foi inspirado num exemplo em Makridakis et al. (1998, p.44).

Antes de computar intervalos de previsão, os erros de previsão devem ser analisados para
verificar se a suposição de distribuição normal com média 𝐸(𝑒𝑡 ) = 0 e desvio padrão 𝜎̂𝑒 é
satisfeita. Em particular, métodos de suavização exponencial freqüentemente produzem erros
de previsão que são correlacionados, e o uso de intervalos de previsão nestes casos deve ser
feito com cautela.
8.2 Diagramas de controle

O uso de diagramas de controle (control charts) dos erros de previsão é uma maneira simples
e efetiva de monitorar o desempenho do método de previsão. O critério da seção anterior pode
ser aplicado para verificar se o método de previsão não é mais apropriado, por meio de
diagramas de controle, que representam os erros de previsão 𝑒𝑡 ao longo de tempo e os limites
de controle definidos pelos intervalos de confiança, conforme ilustrado no exemplo a seguir.
Exemplo 16:58 Considere que as demandas de um produto previstas por um método de

previsão para 𝑇 = 50 períodos resultaram nos 50 erros de previsão 𝑒𝑡 apresentados na Tabela
7 (lembrando da Seção 3.3 que 𝑒𝑡 denota o erro da previsão feita no período 𝑡 − 1 para o
período 𝑡, i.e., 𝑒𝑡 = 𝑒𝑡−1,𝑡 = 𝑦𝑡 − 𝑦̂𝑡−1,𝑡 ).
Tabela 7 – Erros de previsão 𝑒𝑡 para 𝑡 = 1, 2, … , 50 observações

𝑡 𝑒𝑡 𝑡 𝑒𝑡 𝑡 𝑒𝑡 𝑡 𝑒𝑡 𝑡 𝑒𝑡
1 -0,62 11 -0,49 21 2,90 31 -1,88 41 -3,98
2 -2,99 12 4,13 22 0,86 32 -4,46 42 -4,28
3 0,65 13 -3,39 23 5,80 33 -1,93 43 1,06
4 0,81 14 2,81 24 4,66 34 -2,86 44 0,18
5 -2,25 15 -1,59 25 3,99 35 0,23 45 3,56
6 -2,63 16 -2,69 26 -1,76 36 -1,82 46 -0,24
7 3,57 17 3,41 27 2,31 37 0,64 47 -2,98
8 0,11 18 4,35 28 -2,24 38 -1,55 48 2,47
9 0,59 19 -4,37 29 2,95 39 0,78 49 0,66
10 -0,63 20 2,79 30 6,30 40 2,84 50 0,32
A parte superior da Figura 23 ilustra um diagrama de controle construído para esse exemplo,
1
onde 𝑒̅ = ∑𝑇𝑡=1 𝑒𝑡 corresponde à média dos erros das T observações da Tabela 7 (poderia
𝑇
também ser uma meta para esse erro médio, ou simplesmente 0). As linhas LCL e UCL (lower
and upper control limits) dessa figura correspondem aos limites inferior e superior de
controle, calculados considerando-se três desvios padrões dos erros para baixo e para cima (as
estimativas dos desvios padrões dos erros, 𝜎̂𝑒 , podem utilizar as expressões apresentadas
anteriormente, como (40a) ou (40b), ou outras alternativas propostas na literatura).
Se os erros de previsão estão dentro da faixa ou intervalo de controle, como é o caso do

exemplo da figura, admite-se que o desempenho do modelo de previsão é satisfatório (i.e.,
está sob controle). Caso contrário, diz-se que o processo de previsão está fora de controle. A
parte inferior da Figura 23 ilustra a variação da faixa (cobertura) móvel (moving range) dos
erros baseada nas T observações, definida por ̅̅̅̅̅
𝑀𝑅 = ∑𝑇𝑡=2 |𝑒𝑡 − 𝑒𝑡−1 |/(𝑇 − 1), onde LCL foi
considerado nulo e UCL foi definido por 3,267𝑀𝑅 ̅̅̅̅̅. Veja Exercício 20 da lista no final deste
capítulo.
58
Este exemplo foi inspirado num exemplo apresentado em Montgomery et al. (2008, p.54).

valores individuais 10 ,
5
0 ,
5
,
10
5 10 15 20 25 30 35 40 45 50
observação
,
10,0
faixa m vel
7,5
5,0
,
2,5
0,0
5 10 15 20 25 30 35 40 45 50
observação
Figura 23 - Diagrama de controle dos erros médios de previsão (parte superior) e do intervalo
móvel dos erros (parte inferior) (Montgomery et al, 2008, p.62)
■
Note que se os erros de previsão têm uma tendência de crescimento (ou decrescimento), isto
indica que a precisão do método de previsão está cada vez menor. Além disso, se o padrão dos
erros de previsão é periódico, isto sugere que deve existir um efeito sazonal que não está
sendo capturado pelo método de previsão.
Estimativas para o desvio padrão dos erros de previsão também são úteis para a previsão da
demanda nos próximos τ períodos (na presença de correlação) e para o cálculo de estoques de
segurança, mas esses casos não serão aqui estudados.59
8.3 Considerações finais

Algumas observações finais sobre a adequação dos modelos são:
Métodos de previsão complexos não são necessariamente mais precisos do que métodos mais
simples: existem estudos empíricos que mostram que, em diversos casos, a precisão das
previsões futuras obtidas por métodos mais simples (e.g., média móvel, suavização
exponencial e regressão linear) é, em média, tão boa quanto a obtida por métodos mais
complexos e sofisticados estatisticamente, isto é, métodos que requerem a estimação de um
maior número de parâmetros a partir dos dados disponíveis (métodos genéricos de regressão
linear e suavização exponencial, métodos baseados nos modelos de Box-Jenkins e métodos
baseados em inferência Bayesiana).60
59
Para mais detalhes dos diagramas de controle, veja, por exemplo, Montgomery et al. (2008) e Nahmias (2009).
60
Para exames mais detalhados destes estudos, veja, por exemplo, Makridakis et al. (1998), Montgomery et al.
(2008) e Nahmias (2009).

Exemplo 17:61 A Figura 24 ilustra a aplicação do método de média móvel da Seção 4.1 e do
método de regressão linear simples da Seção 5.1, quando se dispõe de apenas 𝑇 = 5
observações da demanda de um produto: 7, 12, 9, 23, 27. Usando 𝑁 = 5, a média móvel em
(15) resulta em: 𝑦̂5,5+𝜏 = 15,6, enquanto a reta de regressão linear em (22) resulta em:
𝑦̂5,5+𝜏 = 0,3 + 5,1(5 + 𝜏). Suponha que se está interessado na previsão das próximas 10
demandas deste produto, com base nas 𝑇 = 5 primeiras observações.
100
90
80 regressão linear
70
60
demanda
50
40
30
20
média m vel
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
observaç es tempo
Figura 24 – Previsões de média móvel e regressão linear simples (Nahmias, 2009, p.107)
A figura ilustra os valores correspondentes de 𝑦̂5,5+𝜏 para 𝜏 = 1, 2, . . . , 10, obtidos pelos dois
métodos. Note que, apesar do método de média móvel ser mais simples do que o método de
regressão linear, seus erros de previsão neste exemplo são bem menores do que os de
regressão linear à medida que 𝜏 cresce, devido à aparente tendência de crescimento das
primeiras 𝑇 = 5 observações da demanda, que foi capturada pela regressão linear.
■
Previsões combinadas de diferentes métodos são, em média, mais precisas do que as previsões
individuais de cada método: existe evidência baseada em estudos empíricos de que a
combinação das previsões obtidas por diferentes métodos resulta, em média, em uma previsão
mais precisa do que a previsão obtida por cada método combinado, em termos dos erros de
previsão. Um único método pode ser incapaz de capturar o padrão subjacente dos dados
históricos, enquanto vários métodos podem capturar diferentes aspectos deste padrão.
[1] [2]
Por exemplo, as previsões de dois métodos, diga-se 𝑦̂𝑇,𝑇+𝜏 e 𝑦̂𝑇,𝑇+𝜏 , podem ser combinadas
𝑐 [1] [2]
linearmente como: 𝑦̂𝑇,𝑇+𝜏 = 𝛼𝑦̂𝑇,𝑇+𝜏 + (1 − 𝛼)𝑦̂𝑇,𝑇+𝜏 , com 0 < 𝛼 < 1. Além disso, a
incerteza das previsões combinadas, em média, também é menor do que a de cada método
combinado.62 Talvez o mais recomendado seja fazer previsões usando diferentes métodos, por
exemplo, um método qualitativo e métodos quantitativos, tanto causais quanto de séries
temporais.
61
Este exemplo foi inspirado num exemplo apresentado em Nahmias (2009).
62
Para uma discussão detalhada de como combinar métodos de previsão, veja, por exemplo, Makridakis et al.
(1998).

9. Exercícios
Exercício 1:63 Em geral, a relação entre preços e vendas é negativa, ou seja, à medida que o
preço aumenta, as vendas diminuem, e vice-versa. A Tabela 8 abaixo apresenta dados
agregados de vendas de um produto (em toneladas) e seus preços (em $ por tonelada) em
diferentes períodos de tempo.
Tabela 8 – Vendas (em toneladas) e preços (em $ por tonelada) do produto

𝑦𝑡 𝑥𝑡 𝑦𝑡 𝑥𝑡 𝑦𝑡 𝑥𝑡
10,44 792,32 16,81 713,54 30,38 518,01
11,40 868,00 18,21 685,18 33,07 513,24
11,08 801,09 19,42 677,31 33,81 577,41
11,70 715,87 20,18 644,59 33,19 569,17
12,74 723,36 21,40 619,71 35,15 516,75
14,01 748,32 23,63 645,83 27,45 612,18
15,11 765,37 24,96 641,95 13,96 831,04
15,26 755,32 26,58 611,97
15,55 749,41 27,57 587,82
(i) Ilustre num gráfico a variação de vendas por preço e aplique o método de regressão linear
em (3a)-(3b) para determinar o modelo de previsão (4) para este exemplo com base em todas
essas 𝑇 = 25 observações. (ii) Compute 𝑆𝑆𝑇, 𝑆𝑆𝑅, 𝑆𝑆𝐸 e o coeficiente de determinação 𝑅 2
em (6). (iii) Compute também o coeficiente de correlação linear 𝑟𝑥𝑦 e analise os resultados
obtidos para essas medidas.
Exercício 2:64 Revisite a Seção 2.2 e mostre que, para uma previsão baseada em regressão
linear ajustada por quadrados mínimos, tem-se que: 𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸, onde: 𝑆𝑆𝑇 =
∑𝑇𝑡=1(𝑦𝑡 − 𝑦̄ )2 , 𝑆𝑆𝑅 = ∑𝑇𝑡=1(𝑦̂𝑡 − 𝑦̄ )2, e 𝑆𝑆𝐸 = ∑𝑇𝑡=1 𝑒𝑡2 = ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̂𝑡 )2.
Exercício 3: (i) Revisite o Exemplo 5 e compute todos os dados da Tabela 1. (ii) Compute
também as médias móveis 𝑦̂𝑇,𝑇+1 em (15) agora com 𝑁 = 6 a partir do período 𝑇 = 6, calcule
as medidas de erro MAD e MSE, e mostre que as previsões ficam menos reativas se
comparadas com as previsões com 𝑁 = 3 e 𝑁 = 6, conforme ilustrado na Figura 8. (iii)
Determine o valor de N que minimiza o MAD.
Exercício 4: (i) Revisite o Exemplo 6 e compute todos os dados da Tabela 2. (ii) Compute
também as suavizações exponenciais em (16) agora com 𝛼 = 0,4, calcule as medidas de erro
MAD e MSE, e mostre que as previsões ficam mais reativas se comparadas com as previsões
com 𝛼 = 0,1, conforme ilustrado na Figura 10. (iii) Determine o valor de  que minimiza o
MAD.
Exercício 5:65 Revisite o final da Seção 4.2 e mostre que derivando-se 𝑔(𝑎) e igualando-a a
zero, obtém-se a fórmula recursiva de suavização exponencial definida em (16): 𝑎̂ 𝑇 = 𝛼𝑦𝑇 +
(1 − 𝛼)𝑎̂ 𝑇−1 .
63
Este exercício foi inspirado num exemplo apresentado em Makridakis et al. (1998, p.192).
64
Veja, por exemplo, Winston (1994) e Makridakis et al. (1998).
65

Exercício 6: Revisite a Seção 4.4 e mostre que isolando-se 𝜃𝑝 na expressão: 𝑝 = 𝐺̂𝑇 (𝑌𝑘−1 ) +
𝐺̂𝑇 (𝑌𝑘 )−𝐺̂𝑇 (𝑌𝑘−1 )
(𝜃𝑝 − 𝑌𝑘−1 ), obtém-se a expressão definida em (18).
𝑌𝑘 −𝑌𝑘−1
Exercício 7: Revisite o Exemplo 7 e compute a probabilidade da demanda no próximo período

estar entre 26 e 36,2.
Exercício 8: Revisite a Seção 5.1 e mostre que derivando-se 𝑔(𝑎) em (20) em relação aos
coeficientes a e b e igualando-se a zero, obtém-se o melhor ajuste da reta (mínimo desvio
quadrático) dado por 𝑎̂ e 𝑏̂ em (21a) e (21b).
Exercício 9: (i) Revisite o Exemplo 8 e compute os valores de 𝑎̂5 e 𝑏̂5 usando (21a) e (21b) e
os valores ilustrados na Figura 14 usando a reta de regressão linear (22) para 𝑇 = 5. (ii)
Compute também os valores de 𝑎̂6 e 𝑏̂6 usando (21a) e (21b) e os novos valores obtidos para a
Figura 14 usando a reta de regressão linear (22) para 𝑇 = 6. (iii) Além disso, compute 𝑆𝑆𝑇,
𝑆𝑆𝑅, 𝑆𝑆𝐸 e o coeficiente de determinação 𝑅 2 em (6) (note que a variável independente
(causal) 𝑥 corresponde aos períodos de tempo 𝑡 = 1, 2, … , 𝑇). (iv) Compute também o
coeficiente de correlação linear 𝑟𝑥𝑦 e análise os resultados obtidos para essas medidas.
Exercício 10: Revisite o Exemplo 9 e compute todos os dados da Tabela 4.
Exercício 11:66 Considere que a previsão da demanda de um certo item para o próximo
período era igual a 100 (i.e., 𝑦̂0,1 = 𝑎̂1 = 100). No entanto, as demandas deste item flutuaram
ao longo dos próximos 𝑡 = 1, 2, … ,5 períodos, por exemplo, foram iguais a 72, 170, 67, 95 e
130, respectivamente. (i) Aplique o método de suavização exponencial simples em (16) com
𝛼 = 0,2 para estimar a demanda de cada um destes próximos 5 períodos após a observação de
cada demanda realizada (i.e., determine 𝑦̂1,2, 𝑦̂2,3 , ..., 𝑦̂5,6 ). (ii) Aplique também a suavização
exponencial do método de Holt em (24a)-(24b) com 𝛼 = 0,2 e 𝛽 = 0,1 para estimar a
demanda de cada um destes próximos 5 períodos após a observação de cada demanda
realizada (i.e., determine 𝑦̂1,2, 𝑦̂2,3 , ..., 𝑦̂5,6 ). Para isso, suponha que 𝑦̂0,1 = 𝑎̂1 = 100 e 𝑏̂1 =
0. (iii) Compare os erros de previsão dos dois métodos.
Exercício 12: (i) Usando os dados observados para os períodos 𝑡 = 1, 2, … , 5 do Exercício 11,
aplique o método de regressão linear em (21a)-(21b) para estimar as demandas dos próximos
três períodos 𝑡 = 6, 7, 8 a partir do período 𝑇 = 5 (i.e., determine 𝑦̂5,6 , 𝑦̂5,7 e 𝑦̂5,8 ). (ii)
Compare as previsões obtidas com as previsões do método de Holt do Exercício 11.
Exercício 13: (i) Refaça o Exemplo 9 para a regressão linear (22) e para o método de Holt
(25) (com diferentes valores de  e ) e para a suavização exponencial dupla (26) (com
diferentes valores de ). (ii) Calcule as medidas de erro MAD e MSE e compare as previsões
dos três métodos.
Exercício 14: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters) e resolva agora
pelo método de decomposição da série temporal usando as expressões (29) e (30). (ii)
Compare as previsões obtidas com as do Exemplo 10 e também os erros de previsão MAD e
MSE.
66
Este exercício foi inspirado num exemplo apresentado em Axsater (2006, p.15).

Exercício 15: Revisite o Exemplo 10 e suponha que as demandas nos três próximos trimestres
do ciclo sazonal foram 𝑦2 = 33, 𝑦3 = 34 e 𝑦4 = 26. Compute as previsões em 𝑡 = 2, 𝑡 = 3 e
𝑡 = 4 para os próximos períodos, e analise os erros de previsão MAD e MSE.
Exercício 16: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters com modelo
multiplicativo definido por (31a), (31b) e (31c)) e resolva agora pelo método de Winters com
modelo aditivo definido por (34a), (34b) e (34c). (ii) Compare as previsões obtidas com as do
Exemplo 10 e também os erros de previsão MAD e MSE.
Exercício 17: (i) Revisite o Exemplo 10 (resolvido pelo método de Winters) e resolva agora
aplicando um método genérico de regressão linear conforme modelo (35) ou de suavização
exponencial conforme modelo (36) da Seção 7.2. Utilize várias funções matemáticas para
ajustar a curva hipotética à série temporal do Exemplo 10, por exemplo, incluindo funções
harmônicas (senos, cossenos, etc.) para tentar capturar a sazonalidade da série temporal. (ii)
Compare as previsões obtidas com as do Exemplo 10 e também os erros de previsão MAD e
MSE.
Exercício 18: Considere os dados de demanda e as previsões de demanda obtidas pelo método
de Holt no Exercício 11. (i) Aplique as suavizações exponenciais simples para os erros 𝐸𝑡 e os
erros absolutos de previsão 𝑀𝐴𝐷𝑡 em (39a) e (39b) com 𝛽 = 0,1 para todos os 𝑡 = 1, 2, … , 5
períodos, para estimar esses erros em cada um desses períodos. (ii) Compute também os
intervalos de previsão usando (40a) ou (40b) com diferentes probabilidades (e.g., 68%, 90%,
95%, 99%) de conter o valor da demanda.
Exercício 19: Considere os dados observados e as previsões de demanda obtidas pelo método
de previsão do Exemplo 15. (i) Compute os erros 𝐸𝑡 e os erros absolutos de previsão 𝑀𝐴𝐷𝑡
conforme (39a) e (39b) para todos os períodos 𝑡 = 1, 2, … , 8, e aplique o teste de
monitoramento de sinal definido razão 𝑅𝑡 . (ii) Compute também os intervalos dos erros de
previsão (intervalos de confiança) para diferentes probabilidades (níveis de significância). (iii)
Além disso, compute os intervalos de previsão usando (40a) ou (40b) com diferentes
probabilidades de conter o valor da demanda. (iv) Calcule também intervalos de previsão no
período 𝑇 = 8 para períodos 𝑇 + 𝜏 (com 𝜏 = 1, 2, . ..) usando a fórmula estendida de 𝑀𝑆𝐸𝜏 .
Exercício 20: Revisite o Exemplo 16 e construa os diagramas de controle apresentados na

Figura 23 usando os dados da Tabela 7.

Cap 2 - Previsao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cap 2 - Previsao

Enviado por

Direitos autorais:

Formatos disponíveis

Previsão de demanda

Parte I – Métodos causais

Parte II – Métodos de séries temporais

4. Métodos de séries temporais estacionárias

5. Métodos de séries temporais com tendência

6. Métodos de séries temporais com tendência e sazonalidade

Parte III – Outros métodos e validação e monitoramento dos métodos

7. Outros métodos de séries temporais e causais

1 2. Previsão de demanda – Reinaldo Morabito

8. Validação e monitoramento dos métodos de previsão

Nos contextos de produção, logística, serviços e cadeias de suprimento, muitas decisões em

2 2. Previsão de demanda – Reinaldo Morabito

1.1 Previsões de longo, médio e curto prazo

Previsão de longo prazo: na previsão de longo prazo (também chamada de estratégica), o

Obviamente as incertezas nestas previsões são grandes e envolvem, entre outros,

Previsão de médio prazo: na previsão de médio prazo (também chamada de tática), o

Previsão de curto prazo: na previsão de curto prazo (também chamada de operacional), o

3 2. Previsão de demanda – Reinaldo Morabito

1.2 Métodos qualitativos e quantitativos

Métodos de previsão qualitativos ou subjetivos (predição): estes métodos são baseados

4 2. Previsão de demanda – Reinaldo Morabito

Métodos de previsão quantitativos ou objetivos: nestes métodos a previsão é derivada da

Para os propósitos deste capítulo, separa-se os métodos quantitativos em duas classes

(i) Métodos de séries temporais: também chamados de métodos de projeção histórica ou

5 2. Previsão de demanda – Reinaldo Morabito

Considere, por exemplo, que 𝑦𝑡 é a demanda de um produto no período t. Os métodos de

𝑦𝑡 = 𝑓(𝑦𝑡−1 , 𝑦𝑡−2 , . . . , 𝑦𝑡−𝑇 , 𝜀)

6 2. Previsão de demanda – Reinaldo Morabito

Outro aspecto importante é a definição do horizonte de previsão, ou seja, o número de

7 2. Previsão de demanda – Reinaldo Morabito

Previsões de demanda versus previsões de vendas do produto: um aspecto prático importante

Em outras palavras, o objetivo é prever a demanda, mas em geral observam-se apenas as

8 2. Previsão de demanda – Reinaldo Morabito

1.3 Etapas de um processo de previsão

(iv) Seleção do método: consiste em escolher um ou mais métodos de previsão e estimar os

9 2. Previsão de demanda – Reinaldo Morabito

(vi) Implantação do método: consiste em implantar o método de previsão para o usuário.

(vii) Monitoramento do desempenho do método: envolve uma avaliação do desempenho do

Parte I – Métodos causais

Exemplos de variáveis dependentes e independentes são vendas de um produto e preço do

10 2. Previsão de demanda – Reinaldo Morabito

Conforme mencionado anteriormente, métodos causais baseiam-se na função:

2.1 Regressão linear simples

Admite-se que 𝜀1 , 𝜀2 , . . . , 𝜀𝑇 são independentes e identicamente distribuídos com média

11 2. Previsão de demanda – Reinaldo Morabito

𝑔(𝑎, 𝑏) = ∑ 𝜀𝑡2 = ∑[𝑦𝑡 − (𝑎 + 𝑏𝑥𝑡 )]2

Derivando-se 𝑔(𝑎, 𝑏) em relação a a e b e igualando-se a zero, obtém-se o seguinte sistema de

12 2. Previsão de demanda – Reinaldo Morabito

𝑒 = 𝑦 − 𝑦̂ = 𝑦 − (𝑎̂ + 𝑏̂𝑥) (5)

ou seja, é a diferença entre o valor real observado y e o valor previsto 𝑦̂ da variável

𝑦̂ = 386 + (−1878)(0,10) = 198 casas vendidas no ano.

𝑒 = 𝑦 − 𝑦̂ = 210 − 198 = 12 casas vendidas no ano. ■

13 2. Previsão de demanda – Reinaldo Morabito

Outra observação é que o modelo 𝑦 = 𝑎 + 𝑏𝑥 é linear nos parâmetros a e b, isto é, dado um

𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + (𝑙𝑜𝑔 𝑏)𝑥

ou seja, um modelo linear 𝑦′ = 𝑎′ + 𝑏′𝑥, em que 𝑦′ = 𝑙𝑜𝑔 𝑦, 𝑎′ = 𝑙𝑜𝑔 𝑎 e 𝑏′ = 𝑙𝑜𝑔 𝑏, e pode-

Outro exemplo é o modelo não linear:

Aplicando-se o logaritmo nos dois lados desta expressão, obtém-se:

𝑙𝑜𝑔 𝑦 = 𝑙𝑜𝑔 𝑎 + 𝑏(𝑙𝑜𝑔 𝑥)

ou seja, um modelo linear 𝑦′ = 𝑎′ + 𝑏𝑥′, em que 𝑦′ = 𝑙𝑜𝑔 𝑦, 𝑎′ = 𝑙𝑜𝑔 𝑎 e 𝑥′ = 𝑙𝑜𝑔 𝑥, e

2.2 Qualidade do ajuste

14 2. Previsão de demanda – Reinaldo Morabito

é próxima de 0. A identificação de observações com grandes resíduos (outliers) também nos