Você está na página 1de 154

MÉTODOS

QUANTITATIVOS EM
GESTÃO

Prof. Alceu Jobim


18/02/2013
Sumário
Introdução ..................................................................................................................................... 7
Probabilidade ................................................................................................................................ 7
Experimentos, Resultados e Conjuntos ..................................................................................... 8
Abordagens à Probabilidade ................................................................................................... 10
1) Abordagem Clássica .................................................................................................... 10
2) Abordagem da Frequência Relativa ............................................................................ 13
3) Abordagem Subjetiva .................................................................................................. 14
Relacionamentos entre Eventos ................................................................................................. 15
Intercessões, Uniões e Diagramas de Venn............................................................................. 17
Regras da Probabilidade ......................................................................................................... 19
Árvores de Probabilidade ....................................................................................................... 23
Técnicas de Contagem............................................................................................................. 25
Distribuições de Probabilidades .................................................................................................. 32
Distribuições Discretas e Contínuas de Probabilidades ........................................................... 34
Variáveis Aleatórias ..................................................................................................................... 34
O Valor Esperado de uma Variável Aleatória .............................................................................. 36
Tipos de Distribuições de Probabilidade ..................................................................................... 37
Distribuição Binomial .............................................................................................................. 38
Distribuição de Poisson ........................................................................................................... 42
Distribuição Exponencial ........................................................................................................ 44
Distribuição Normal................................................................................................................ 50
CAPÍTULO 2................................................................................................................................ 59
PREVISÕES ............................................................................................................................... 59
Relações Funcionais entre Variáveis ...................................................................................... 59
Relações entre várias variáveis .......................................................................................... 98
CAPÍTULO 3.............................................................................................................................. 126
SIMULAÇÕES.......................................................................................................................... 126
 SIMULAÇÃO COM O COMANDO ATINGIR META DO EXCEL ................................ 126
• SIMULAÇÃO COM A FERRAMENTA SOLVER DO EXCEL .................................................. 127
• SIMULAÇÃO COM O COMANDO TABELA DE DADOS DO EXCEL ..................................... 127
CAPÍTULO 4.............................................................................................................................. 127
SÉRIES TEMPORAIS ................................................................................................................ 127
Métodos de Previsão através de Modelos com Nenhuma Tendência ou Sazonalidade ... 135

1
Médias Móveis .................................................................................................................. 135
Amortecimento (Suavização) Exponencial ........................................................................ 137
Métodos de Previsão para Modelos com Tendência e Nenhuma Sazonalidade .................. 139
Média Móvel Dupla (MMD) .............................................................................................. 140
Modelo de Previsão por Alisamento Exponencial Duplo de Holt ...................................... 141
Métodos de Previsão para Séries Temporais Sujeitas a Fenômenos Sazonais e Nenhuma
Tendência .............................................................................................................................. 143
Modelo de Previsão com Sazonalidade Multiplicativa ...................................................... 145
Modelo de Previsão com Sazonalidade Aditiva................................................................. 146
Método de Previsão com Suavização Exponencial de Holt-Winters ........................................ 147
Modelo Sazonal Multiplicativo de Holt-Winters ....................................................................... 148
Modelo Sazonal Aditivo de Holt-Winters .................................................................................. 151
Conclusão .................................................................................................................................. 152
BIBLIOGRAFIA ............................................................................................................................ 153

2
APRESENTAÇÃO

O presente texto foi desenvolvido para a disciplina Métodos Quantitativos


do curso de mestrado em Gestão Financeira e Hospitalar da Faculdade de
Economia da Universidade Agostinho Neto. A gestão empresarial, em suas
várias áreas, tem-se beneficiado grandemente dos avanços de outras
áreas do conhecimento voltadas para a abordagem quantitativa de
problemas organizacionais, financeiros e econômicos, tais como a
Econometria, a Estatística, a Econometria de Séries Temporais, a Pesquisa
Operacional, etc. Assim, não se concebe hoje que um gestor (ou futuro
gestor) não domine algumas técnicas essenciais de tomada de decisão
com o uso de modelagem quantitativa.

O curso aqui desenvolvido é eminentemente prático, evitando-se


demonstrações tediosas e utilizando-se do instrumental informático à
disposição de qualquer gestor, tal como a planilha Excel.

Embora o conteúdo constante deste texto seja relativamente extenso,


vários outros assuntos importantes foram deixados de lado devido à
limitação da carga horária da disciplina. Entretanto, esperamos que o que
foi apresentado motive os alunos a se aprofundarem neste campo
bastante fértil da solução de problemas empresarias com o uso de
métodos lógicos.

Alceu Jobim

Luanda, 2013

3
INTRODUÇÃO
Gestores tomam decisões. É para isso que são treinados. É por isso que
são contratados, e é para isso que são remunerados. Algumas dessas
decisões são tomadas com base na intuição ou “sentimento”. Decidir
aumentar o preço do seu produto numa negociação com um cliente é o
resultado mais provável de uma análise intuitiva do comportamento deste
do que o de uma análise detalhada a partir de uma quantidade
considerável de dados. Por outro lado, decidir qual combinação de
máquinas, trabalho e empregados disponíveis que geram uma produção
total de menor custo é uma decisão que exige algumas das técnicas
quantitativas que serão introduzidas neste curso.

Gestores de sucesso usam abordagens quantitativas para tomar decisões


quando:

1. O problema é complexo.
2. O problema envolve muitas variáveis.
3. Existem dados que descrevem o ambiente de decisão;
4. Existem dados que descrevem o valor ou utilidade das diversas
alternativas possíveis.
5. As metas do decisor ou de sua organização podem ser descritas em
termos quantitativos.
6. Modelos quantitativos estão disponíveis para determinadas
situações.

O DESENVOLVIMENTO DA ABORDAGEM QUANTITATIVA À GESTÃO


EMPRESARIAL

A Engenharia Industrial nasceu quando o método científico foi aplicado a


problemas de gestão, mas a data exata em que isto aconteceu não é certa.
Exemplos individuais nos quais a essência do método científico é aplicado
aparece em escritos de milhares de anos atrás. O sogro de Moisés, Jetro,
escreveu sobre princípios organizacionais no Capítulo 18 do Livro do
Êxodo. Os antigos navios de Veneza eram recondicionados e recarregados
usando-se linhas de produção bastante engenhosas. Cada navio era
movido ao longo da linha de produção e um grupo de trabalhadores

4
especializados desempenhava operações específicas em cada estágio da
linha. Muito mais tarde, em 1832, Charles Babbage escreveu On the
Economy of Machinery and Manufacturers, mostrando muitas das
aplicações da engenharia industrial.

Em fins do século 19, Frederick Winslow Taylor converteu a engenharia


industrial numa profissão. Ele pode, justificadamente, ser considerado o
pai da Administração Científica. O seu estudo de tempos e movimentos é
um excelente exemplo da aplicação do método científico a problemas
administrativos, nomeadamente da produtividade dos homens em linhas
de produção e de outros materiais.

A mudança de interesse para além de problemas específicos de produção


em direção a uma abordagem mais ampla de aplicação de métodos
científicos a problemas de gestão é, na verdade, uma transferência de
ênfase da engenharia industrial à Ciência da Administração (CA)/Pesquisa
Operacional (PO), uma abordagem multidisciplinar à problemas
complexos. Pode ser dito que a CA/PO emergiu como um campo separado
quando (1) os engenheiros industriais tornaram-se interessados nas
operações gerais de uma empresa e (2) cientistas das ciências físicas e
sociais interessaram-se por problemas gerenciais.

Cientistas e engenheiros estiveram envolvidos com atividades militares


por pelo menos tanto tempo quanto a História é registrada. Um dos
exemplos mais conhecidos na história antiga ocorreu em 212 A.C., quando
a cidade de Siracusa empregou Arquimedes (então com 75 anos) para
elaborar meios de quebrar o cerco naval da cidade, que estava sob ataque
dos romanos.

Entretanto, foi ao longo da 2a Guerra Mundial que os métodos


quantitativos foram largamente empregados no desenvolvimento de
novos métodos de gestão da guerra. Alguns desses desenvolvimentos
foram:

1. No aperfeiçoamento de sistemas de radar.


2. Em armamentos antiartilharia.
3. Em ataques submarinos.
4. Em defesa civil.
5
5. Na especificação de tamanhos ótimos de comboios para transporte
de armamentos e alimentos.
6. Na condução de ataques de bombas na Alemanha nazista.

Com o fim da guerra, os métodos desenvolvidos passaram também a ser


utilizados em operações empresariais e públicas. Por exemplo, em 1947
George Dantzig desenvolveu o método simplex ao problema da
programação linear anteriormente formulado por Vassily Leontieff. Desde
essa época, essa solução tornou-se a abordagem padrão a uma variedade
enorme de problemas em empresas. Em 1958 o U.S. Navy´s Special
Project Office desenvolveu o método das Redes (Networks). Poucos anos
mais tarde, o Secretário de Defesa Robert McNamara liderou a utilização
das Redes na Administração Kennedy.

Em Finanças, os métodos quantitativos são largamente empregados em


áreas como:

1. Na construção de modelos de administração de caixa.


2. Alocação de capital entre várias alternativas de investimento.
3. Gestão de portfolio.
4. Previsão de longo prazo para necessidades de capital.
5. Modelos de Planejamento Financeiro.
6. Determinação de tempo ótimo para reposição de equipamentos.
7. Decisão de políticas mais efetivas de distribuição de dividendos.

Muito do material que se segue exige um conhecimento prático da Teoria


das Probabilidades. Por isso, desenvolvemos no próximo capítulo
conceitos úteis de probabilidade.

6
CAPÍTULO 1
TEORIA DAS PROBABILIDADES
(Revisão)
Introdução

Na nossa vida pessoal e profissional, mais frequentemente do que não,


temos de tomar decisões em condições de incerteza e com conhecimento
incompleto de todos os fatores envolvidos e das consequências da nossa
decisão. Por exemplo, investidores devem decidir-se por um dado
investimento baseado nas expectativas de retornos futuros; gerentes de
estoques devem decidir que nível de estoques manter sem conhecer com
certeza o nível futuro de vendas; decisões sobre o nível futuro de liquidez
(quantidade de moeda em circulação) a ser mantido no sistema
econômico são tomadas pelos bancos centrais baseadas em dados
amostrais do nível atual de atividade econômica; decisões sobre com
quem casar são baseadas na esperança de que o(a) parceiro(a) escolhido(a)
seja a pessoa ideal dentre várias outras possíveis.

Dessa forma, qualquer esforço no sentido de reduzir a incerteza no


processo de tomada de decisões certamente ajudará a diminuir muito a
possibilidade de erro envolvida. É o propósito desta parte de nosso estudo
ilustrar as formas pelas quais a possibilidade ou probabilidade de
ocorrência de eventos incertos possa ser medida. Melhorando a nossa
capacidade de julgar a ocorrência de eventos futuros, podemos minimizar
o risco e o perigo envolvidos no processo decisório.

Probabilidade

Probabilidade é a possibilidade numérica da ocorrência (ou não ocorrência)


de um evento incerto.

7
O desenvolvimento de uma teoria matemática da probabilidade começou
durante o século 17 quando o nobre francês Antoine Gombauld
(conhecido como Chevalier de Méré) levantou certas questões sobre jogos
de azar. Especificamente, ele estava intrigado sobre as possibilidades de
obter dois 6 pelo menos uma vez em 24 jogadas de um par de dados. de
Méré colocou a questão a um jovem matemático francês, Blaise Pascal,
que a resolveu. Subsequentemente, Pascal discutiu esta e outras questões
da mesma natureza levantadas por de Méré com outro famoso
matemático francês, Pierre de Fermat. No decurso de suas
correspondências, a teoria matemática da probabilidade nasceu.

A probabilidade de um evento é medida por valores entre 0 e 1 (ou 100%).


Quanto maior a probabilidade de ocorrência de um evento, mais próximo
de 1 (ou 100%) estará o valor de sua probabilidade. Assim, a probabilidade
de um evento certo é 1, e a probabilidade de um evento impossível é 0.
Isto pode ser escrito da seguinte forma:

P (evento certo) = 1

P (evento impossível) = 0

Dessa forma, a primeira propriedade da teoria das probabilidades afirma


que a probabilidade de ocorrência de certo evento Ei é um número entre 0
e 1, ou seja, 0  P (Ei)  1.

Experimentos, Resultados e Conjuntos

O processo que produz um evento é chamado experimento. Um


experimento é uma ação bem definida que leva a um único resultado bem
definido. Rolar um dado é um experimento bem definido. O resultado é
também bem definido, um número de 1 a 6. Um experimento também é
examinar um produto para determinar se ele atende a certas
especificações de manufatura. O resultado é: ou (1) ele apresenta defeito
ou (2) não apresenta defeito.

8
Um conjunto é uma coleção qualquer de objetos, seres ou coisas. Os
alunos de um colégio são um conjunto. Os sete dias da semana são um
conjunto, assim como as moléculas de ar num pneu Goodyear. Os objetos,
seres ou coisas de um conjunto são os seus membros ou elementos.
Existem 18 elementos no conjunto das províncias de Angola, e existem
infinitos elementos no conjunto de todos os números inteiros positivos.

O conjunto de todos os resultados possíveis de um experimento é


chamado de espaço amostral. O espaço amostral do experimento rolar um
dado é:

S = {1, 2, 3, 4, 5, 6}

O espaço amostral do experimento atirar uma moeda no ar é:

S = {Cara (Ca); Coroa (Co)}

No caso do experimento atirar uma moeda no ar, é certo que ou sai Cara
ou sai Coroa. Dado que a probabilidade de um evento certo é igual a 1,
então a probabilidade de Cara ou Coroa é igual a 1. Isto é:

P (Ca ou Co) = 1

Da mesma forma, no experimento rolar um dado, um dos seis números


ocorrerá. Não há outras possibilidades. Logo:

P (1 ou 2 ou...ou 6) = 1

9
Assim, a segunda propriedade das probabilidades afirma que se Ei é um
evento representativo de certo elemento de um espaço amostral, então:

 P (Ei) = 1.

Abordagens à Probabilidade

Historicamente, três abordagens foram desenvolvidas para quantificar a


ocorrência de eventos incertos: a abordagem clássica (ou a priori); a da
frequência relativa (ou a posteriori) e a abordagem subjetiva.

1) Abordagem Clássica

Por esta abordagem, a probabilidade de ocorrência de certo evento


E é definida como:

Número de maneiras em que o evento pode ocorrer

P (E) =
Número total de resultados possíveis

Esta abordagem é chamada clássica dado que foi a primeira a ser


desenvolvida e está diretamente ligada aos jogos em que a sorte (ou
o azar) desempenha papel preponderante, objeto inicial do
desenvolvimento da teoria das probabilidades, como visto acima. É
também chamada de a priori dado que não há necessidade de
coleta de dados experimentais para a determinação do valor da
probabilidade de certo evento. Este valor é inteiramente baseado
em pura lógica, uma vez conhecidos todos os resultados possíveis
de certo experimento e o número de maneiras que certo evento
nesse experimento pode ocorrer.

10
Assim, por exemplo, qual a probabilidade de ocorrer Cara no
lançamento de uma moeda?

Se esta moeda for honesta (ou justa), então os dois lados são
igualmente prováveis de ocorrerem. Como a moeda tem dois lados,
então o número total de resultados possíveis é igual a 2 (Cara e
Coroa). Como o lançamento é feito uma única vez, então Cara só
pode ocorrer uma única vez. Logo, utilizando a fórmula acima:

P (E = sair cara num único lançamento de uma moeda) =

Da mesma forma, qual a probabilidade de sair um 3 num único


lançamento de um dado honesto?

O número total de resultados possíveis de um dado é 6. Num único


lançamento, 3 só pode ocorrer uma vez, logo:

( )

É necessário que o significado dos resultados acima obtidos estejam


bem claros: embora a probabilidade de sair um 3 seja 1/6, isto não
significa que para cada seis jogadas de um dado, em uma delas saia
sempre um 3. Este 1/6 é, na verdade, um valor médio de longo
prazo, significando com isto que se um dado é jogado um número
muito grande de vezes (digamos 10.000 ou 100.000), em um-sexto
dessas vezes aparece um 3.

11
Qual a probabilidade de se tirar um ás num baralho honesto de 52
cartas?

Neste caso, o número total de resultados possíveis é 52. Como um


baralho tem 4 ases, a probabilidade de sair um ás numa única
retirada é:

P (E = um ás) = = 0,0769 ou 7,69%

52

Um exercício interessante

Craps é um jogo de azar jogado com 2 dados. A regra de pelo menos


uma das versões do jogo (existem muitas variantes) diz que você
ganha na primeira jogada se você rolar craps, isto é, tirar um 7 ou
um 11 na soma dos dois dados. Se você tirar qualquer outro número,
você tem que tirar este mesmo número outra vez (o qual é
chamado de sua marca ou ponto) antes de rolar um 7 ou um 11. Se
você rolar um 7 ou um 11 antes de rolar a sua marca, você perde.
Dado isto, responda:

a. Qual a probabilidade de ganhar o jogo na primeira rodada?


b. Se você tirar um 6, é mais provável ganhar ou perder o jogo?

O espaço amostral de todos os resultados possíveis é a soma dos


dois dados, tal como mostrado abaixo:

Resultados do dado 1

1 2 3 4 5 6
Resultados do 1 2 3 4 5 6 7
dado 2 2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12

12
a. Existem 36 resultados possíveis. Somente 8 desses resultados
somam 7 ou 11, no que resulta em ganho. Logo:

P (de vencer na primeira rodada) = 8/36 = 0,2222 = 22,22%

b. Se rolar um 6, a probabilidade de repeti-lo é:

P (6) = 5/36 = 0,1389 = 13,89%

É mais provável perder o jogo.

Embora a concepção clássica da probabilidade seja útil para resolver


problemas que envolvem jogos de azar, sérias dificuldades
aparecem quando tentamos utilizá-la para resolver outros tipos de
problemas, tais como: (a) qual a probabilidade de que um homem,
de certa nacionalidade, de determinada cor, com dada idade,
morrerá no próximo ano?; (b) qual a probabilidade de que um
consumidor, com certas características de consumo, vivendo em
certa área metropolitana, comprará o produto de dada empresa no
mês que vem?; (c) qual a probabilidade de que o processo de
produção utilizado por certa empresa produzirá um produto
defeituoso no próximo lote de produção?

Em nenhum desses casos é factível estabelecer um espaço amostral


de todos os resultados possíveis, cada um deles igualmente
prováveis de ocorrer. Na verdade, para estimarmos este tipo de
probabilidade, necessitamos de dados históricos de ocorrência.

2) Abordagem da Frequência Relativa

Esta abordagem usa dados históricos empiricamente observados.


Observa-se a frequência de ocorrência passada do evento e estima-
se a probabilidade de sua ocorrência com base nesses dados
históricos. Assim, a probabilidade de um evento baseada na sua
frequência relativa é determinada pela seguinte expressão:

13
Número de vezes em que o evento ocorreu no passado

P (E) =
Número total de observações

Por exemplo, assuma que durante o ano passado nasceram 50


crianças em certo hospital, sendo que 32 dos recém-nascidos foram
meninas. A direção do hospital resolve estimar a probabilidade de
que o próximo nascimento (ou qualquer amostra de nascimentos
aleatoriamente selecionada) seja menina. Utilizando então a
abordagem da frequência relativa, temos:

32
P (E = menina) = = 0,64 = 64%
50

Podemos também utilizar a frequência relativa para mostrar que a


probabilidade de sair cara no lançamento de uma moeda honesta
realmente tende para a probabilidade ½ ou 0,50, conforme afirma a
abordagem clássica. Usando o Excel, realizamos a simulação do
lançamento de uma moeda 1500 vezes.

Um problema comum com a abordagem da frequência relativa é


que nem sempre dispomos de um número suficiente de
observações para realizarmos estimativas de probabilidade de
eventos.

3) Abordagem Subjetiva

Em muitos casos, não dispomos de dados históricos suficientes nem


é possível estabelecer-se o espaço amostral com todos os
resultados possíveis de um experimento, e nem afirmar que estes
resultados sejam igualmente prováveis. Então, a única alternativa é
estimar probabilidades na base de nosso melhor julgamento. Esta
abordagem subjetiva requer a determinação de um valor de
probabilidade de certo evento na base da melhor evidência possível.
14
A abordagem subjetiva (ou ainda personalística) é uma concepção
relativamente recente. Sua aplicação a problemas estatísticos
ocorreu quase que inteiramente após a Segunda Guerra Mundial.

Probabilidades subjetivas são determinadas na base de todas as


evidências objetivas e subjetivas correntemente disponíveis e
devem refletir o grau de crença corrente do tomador de decisões.
Obviamente, pessoas diferentes chegarão a diferentes valores de
probabilidades para um mesmo evento devido a diferenças nas
percepções da realidade circundante, atitudes, valores, etc. Mais
ainda, estas probabilidades podem ser determinadas para eventos
que só ocorrerão uma única vez, em situações onde nem a
abordagem clássica nem a da frequência relativa são apropriadas.

Relacionamentos entre Eventos

Para compreender os princípios da probabilidade, precisamos também


compreender a maneira pela qual os eventos se relacionam entre si.

Dois eventos são ditos mutuamente exclusivos (ou excludentes) se a


ocorrência de um deles implica na não ocorrência do outro, ou seja, se um
ocorre, o outro não pode ocorrer. Se no lançamento de uma moeda uma
única vez, sair Cara, então não pode sair Coroa. Se no lançamento de um
dado, sai um 2, então a ocorrência dos outros 5 números está eliminada.
Se na retirada de uma carta de um baralho com 52 cartas, sair um 10,
quaisquer uma das outras 51 cartas não podem sair. Entretanto, se o
evento for sair um 2 ou um número par no lançamento de um dado uma
única vez, então esses dois eventos não são mutuamente exclusivos, uma
vez que 2 é um número par. Da mesma forma, se o evento for retirar um
10 ou uma carta de paus de um baralho de 52 cartas, estes também não
são eventos mutuamente exclusivos, dado que pode-se retirar um 10 de
paus num mesmo lance.

Eventos coletivamente exaustivos são aqueles que consistem de todos os


resultados possíveis de um experimento. Os eventos coletivamente
exaustivos de rolar um dado são 1, 2, 3, 4, 5 e 6. Os eventos coletivamente
exaustivos de um experimento constituem-se no seu espaço amostral.

15
A probabilidade combinada de eventos coletivamente exaustivos é igual a
1, uma vez que é certo que um desses eventos ocorrerá. Assim, a
probabilidade de sair um 1, ou um 2, ou um 3, ou um 4, ou um 5, ou um 6,
no lançamento de um dado é 1.

P (1 ou 2 ou 3 ou 4 ou 5) = 1

Dois eventos são ditos independentes quando a ocorrência de um deles


não influência a ocorrência (ou a não ocorrência) do outro. A ocorrência
do evento tirar um cinco de um baralho com 52 cartas em nada afeta a
probabilidade de chover amanhã. Logo, esses dois eventos são
independentes.

Agora, os resultados de tirar duas cartas de um mesmo baralho são


independentes? Depende de se a primeira carta é recolocada ou não no
baralho antes da segunda carta sair. Seja o primeiro evento retirar uma
rainha e o segundo evento retirar um ás.

Temos então que a probabilidade do primeiro evento é:

P (E = retirar uma rainha) = = 0,0769 = 7,69%


52

Se a carta retirada não for reposta no baralho antes da retirada da


segunda carta, então a probabilidade do segundo evento é:

P (E = retirar um ás) = = 0,0784 = 7,84%

51

16
Então podemos dizer que, quando fazemos retiradas em um conjunto
finito, como é o caso de um baralho de cartas, dois eventos são
independentes se e somente se a retirada é feita com reposição. Caso
contrário, os dois eventos são dependentes.

Eventos complementares são eventos tais que se um evento não ocorre, o


outro necessariamente ocorre. Se o evento A é saiu Coroa no lançamento
de um dado, então o seu complementar ~A é saiu Cara. Se o evento B é
saiu um número par no lançamento de um dado (2, 4, 6), o evento
complementar ~B é saiu um número ímpar (1, 3, 5). Se você não tira cara,
necessariamente tira coroa. Se não sai um número par no lançamento de
um dado, necessariamente sai um número ímpar.

Obviamente, como já deve ter notado, eventos complementares são


também coletivamente exaustivos, dado que se A não ocorre, então ~A
necessariamente ocorre. Assim:

P (A) + P (~A) = 1  P (A) = 1 – P (~A)

Intercessões, Uniões e Diagramas de Venn

Sejam dois conjuntos A e B, ambos com numerosos elementos. É bem


possível que alguns elementos de um dos conjuntos sejam também
elementos do outro. Estes elementos comuns a ambos os conjuntos A e B
são chamados intercessão de A e B e representados por A  B.

Podemos representar a intercessão de A e B graficamente, utilizando os


chamados Diagramas de Venn, desenvolvidos por John Venn (1834-1923),
um matemático inglês.

17
A B

AB

A união de A com B, representada por A  B, é o conjunto formado pelos


elementos que estão em A, em B, ou em ambos.

A B

AB

Exemplo

Dado um baralho de 52 cartas, seja A o conjunto de todas as cartas ouro e


B o conjunto de todas as cartas rei. Identifique A  B e A  B.

Os dois conjuntos estão representados pelos dois diagramas de Venn

18
Ouros Reis

A B

Rei de Ouro (A  B)

A  B consiste no conjunto de todas as cartas ouro (incluindo o rei) e de


todas as cartas rei (incluindo ouro).
A  B contém somente aqueles elementos comuns a ambos os conjuntos.
Neste caso, A  B é composto de um único elemento, o rei de ouro.

Regras da Probabilidade

A discussão anterior sobre intercessões e uniões nos leva ao cálculo das


probabilidades de eventos tais como P (A  B) e P (A  B). Há duas regras
básicas para o cálculo de eventos combinados:

 A Regra da Multiplicação é utilizada para determinar a


probabilidade conjunta de A e B, isto é, de A  B;
 A Regra da Adição é utilizada para determinar a probabilidade
conjunta de A ou B, isto é, de A  B.

Regra da Multiplicação

1. Se A e B são eventos independentes, então P (A  B) = P (A) *


P (B). Isto é, a probabilidade de A e B ocorrerem em conjunto é o
produto de suas probabilidades individuais.
2. Se A e B são eventos dependentes, então P (A  B) = P (A) *
P (B/A). Isto é, a probabilidade de A e B ocorrerem em conjunto
é o produto da probabilidade de A pela probabilidade de B, dado
que o evento A já ocorreu.
Este pré-requisito dado que A já ocorreu é baseado no princípio
da probabilidade condicional, que examinaremos adiante. A
notação B/A não significa divisão do evento B pelo evento A.
19
Significa que como os dois eventos não são independentes, a
ocorrência do primeiro afeta a probabilidade de ocorrência do
segundo, e que isto deve ser considerado quando do cálculo da
probabilidade de ocorrência conjunta.

Para entender o significado da probabilidade condicional, vejamos o

seguinte exemplo:

Uma carta é retirada de um baralho. A probabilidade de ela ser um


valete é:

P (Valete) = 4 / 52

Entretanto, se nos informassem de que a carta retirada era uma carta de


face (rei, dama, valete), então teríamos de rever essa probabilidade. A
pergunta agora é: “Qual é a probabilidade da carta retirada ser um valete,
dado que (ou na condição de que) é uma carta de face?”.

Fazendo valete = V e carta de face = F, a pergunta acima pode ser


mostrada como P (V/F). Dado que há 12 cartas de face num baralho, 4 das
quais valetes, então: P (V/F) = 4 / 12, que difere de P (Valete) = 4 / 52.

Em geral, a probabilidade condicional é calculada como:

P (A e B) P (A  B)

P (B/A) = =

P (A) P (A)

Se multiplicarmos ambos os termos da equação acima por P (A), obtemos


P (A  B) = P (A) * P (B/A), a regra da multiplicação para eventos
dependentes apresentada anteriormente.

Voltando às duas regras da multiplicação, vejamos o seguinte:

20
Considere a probabilidade de tirar um rei (R) de um baralho com 52 cartas,
e sair um 5 no lançamento de um dado. Estes são, obviamente, eventos
independentes, uma vez que o que é retirado do baralho não tem
nenhuma influência sobre o número que sai no dado. Então:

P (R  5) = P (R) * P (5) = 4/52 * 1/6 = 4/312 = 0,01282 = 1,282%

Duas cartas são retiradas de um baralho. A primeira é um ás (A); a


segunda, um rei (R). As retiradas são feitas sem reposição, o que significa
que a probabilidade da segunda retirada depende do que saiu na primeira
retirada. Então:

P (A  R) = P (A) * P (R/A)

= 4/52 * 4/51 = 0,603%

P (R/A) = 4/51 uma vez que, se um ás foi retirado na primeira, 4 das 51


restantes são reis. Se o ás fosse recolocado no baralho antes da segunda
retirada, então os dois eventos seriam independentes.

Exercício

Considere o seguinte caso. De 200 pessoas, 120 são homens e 80 são


mulheres. Dos 120 homens, 40 são acionistas de certa empresa, enquanto
das 80 mulheres, 20 são acionistas da mesma empresa. Assim, temos

120 homens, 40 dos quais acionistas.

80 mulheres, 20 das quais acionistas.

Determine a probabilidade de selecionar uma pessoa aleatoriamente que


seja um homem e que possua ações.

Resposta:
Fazendo H = homem, e A = ação, queremos P (H  A).

Agora, os eventos são independentes ou dependentes? Claramente, são


dependentes, uma vez que a probabilidade do segundo evento (possuir
ações) é afetada pela ocorrência do primeiro evento (ser homem ou ser
mulher, já que as proporções em que cada um possui ações são

21
diferentes). Logo: P (H  A) = P (H) * P (A/H) = 120/200 * 40/120 =
40/200 = 0,20 ou 20%
Falaremos mais sobre probabilidades condicionais quando estudarmos o
Teorema de Bayes, adiante.

Regra da Adição

Esta regra é usada quando queremos calcular a probabilidade de A ou B.


Se os dois eventos não são mutuamente exclusivos, então o cálculo a ser
utilizado é o seguinte:

P (A  B) = P (A) + P (B) – P (A  B)

Isto é, somamos as duas probabilidades individuais de cada evento e


depois subtraímos a probabilidade conjunta deles. Por quê? Porque os
dois eventos podem ocorrer juntos, logo quando somamos as
probabilidades individuais também estamos considerando a probabilidade
conjunta deles, e por isso, subtraímos esta a fim de evitar dupla contagem.

A
B

(A  B)

P (A) inclui P (A  B)

P (B) inclui também P (A  B)

Então, subtraímos P (A  B) para evitar dupla contagem.

22
Entretanto, se os eventos são mutuamente exclusivos, então sua
probabilidade conjunta é zero. Por definição, eles não podem ocorrer
juntos e P (A  B) = 0. Então, a expressão a ser utilizada é:

P (A  B) = P (A) + P (B)

Exemplo

Encontre a probabilidade de tirar um ás (A) ou uma carta de copas (C)


numa única retirada de um baralho com 52 cartas.

Nosso objetivo é encontrar P (A  C). Existem 13 cartas de copas e 4 ases


num baralho com 52 cartas, sendo que um ás é de copas. Logo, os eventos
não são mutuamente exclusivos, e, portanto:

P (A  C) = P (A) + P (C) – P (A  C)

= 4/52 + 13/52 – 1/52 = 16/52 = 30,77%

Agora, encontre a probabilidade de retirar uma carta de copas (C) ou uma


carta de espadas (E) numa única retirada.

Claramente, esses eventos são mutuamente exclusivos; então a expressão


a ser utilizada é

P (E  C) = P (E) + P (C) = 13/52 + 13/52 = 1/2 = 50%

Árvores de Probabilidade

Quando é necessário encontrar probabilidades de vários eventos

conjuntos, é útil construir uma árvore de probabilidades. Uma árvore de

23
probabilidades mostra todas as possibilidades associadas com todo um

conjunto de eventos específicos. Vejamos a seguinte ilustração:

Todas as grandes empresas mantêm departamentos de controle de

qualidade cuja principal função é assegurar que os seus produtos

atendam certas especificações. É responsabilidade dessas empresas

minimizar a produção de produtos defeituosos. Certa empresa tem uma

taxa de defeitos em seus produtos de 10%. Isto é, 10% das unidades

produzidas não atendem às especificações mínimas. Então P (D) = 0,10

e P (~D) = 0,90. Duas peças são selecionadas aleatoriamente da linha de

produção.

a) Qual a probabilidade da primeira ser defeituosa e a segunda não?


b) Qual a probabilidade das duas serem defeituosas?

Primeira peça é retirada Segunda peça é retirada Resultado Final

D1 (0,1) D2 (0,1) D1 * D2 = 0,01

~D2 (0,9) D1 * ~D2 = 0,09

~D2 (0,9) D2 (0,1) ~D2 * D2 = 0,09

~D2 (0,9) ~D2 * ~D2 = 0,81

Com base na árvore acima:

a) D1 * ~D2 = 0,1*0,9 = 0,09 = 9%


b) D1 * D2 = 0,1*0,1 = 0,01 = 1%

24
Técnicas de Contagem

As árvores de probabilidades são úteis quando o espaço amostral do


experimento é relativamente pequeno, como foi o caso do exemplo acima.
Quando o número total de eventos possíveis de determinado experimento
torna-se muito grande, a construção de árvores de probabilidades torna-
se um processo trabalhoso e pouco operacional, como por exemplo, no
seguinte experimento: lançamento de um dado três vezes seguidas.

 Cada lançamento de um dado tem seis resultados possíveis;


 Cada resultado dos seis resultados do segundo lançamento poderá
ser combinado com os seis resultados do primeiro lançamento
totalizando trinta e seis possíveis resultados;
 Cada resultado dos seis resultados do terceiro lançamento poderá
ser combinado com os trinta e seis resultados do segundo
lançamento totalizando duzentos e dezesseis possíveis resultados.

Portanto, uma maneira mais racional de obter-se o número total de


resultados possíveis (ou o espaço amostral) de um experimento a fim de
calcularem-se probabilidades, se faz necessário. O método adequado são
as chamadas técnicas de contagem.

Técnica de Contagem 1 – Arranjos

Sejam as duas séries ABC e ACB. Os elementos são os mesmos, apenas a


ordem em que aparecem é que difere. Nos Arranjos, a ordem em que os
elementos aparecem é importante. Dessa forma, no caso de Arranjos, ABC
e ACB são duas séries diferentes e, portanto, constituem diferentes
arrumações de elementos. A pergunta agora é: quantas arrumações (ou
arranjos) podemos fazer com a série ABC, considerando os três elementos
dessa série?

ABC BCA

ACB CAB

BAC CBA

25
Seis diferentes arranjos são obtidos simplesmente reordenando os
elementos. Podemos obter este total 6 utilizando o chamado princípio
multiplicativo: se a primeira de uma sequência de arrumações pode ser
feita de n1 maneiras, a segunda de n2 maneiras, e assim por diante para k
arrumações, então a sequência de k arrumações pode ser feita de
(n1)*(n2)*...*(nk) maneiras.

Se um dado é jogado 3 vezes, existem 6 * 6 * 6 = 216 sequências


diferentes.

Se uma moeda é jogada e uma carta é retirada aleatoriamente de um


baralho de 52 cartas, existem 2 x 52 = 104 sequências possíveis diferentes.

Aplicando o princípio multiplicativo ao nosso exemplo: qualquer uma das


3 letras pode ocupar a primeira posição, 2 das restantes pode ocupar a
segunda posição e somente uma pode ocupar a última posição, logo 3 * 2
*1 = 6. Assim, de um modo geral:

(n) * (n-1) *...* (2) *(1) = n!

onde n! é lido como n fatorial.

Assim, quando queremos arrumar n objetos tomados n a n de uma vez,


sendo a ordem em que estes objetos aparecem importante, utilizamos a
expressão:

An, n = n!

OBS: O Excel dispõe da função matemática FATORIAL (n), sendo n um


número inteiro e não negativo.

Técnica de Contagem 2 – Permutações

As permutações são um caso particular dos arranjos. Nas permutações, a


ordem em que os elementos n estão dispostos também importa, só que
agora os elementos são arranjados numa certa proporção r, com r  n. Por
exemplo, dispondo dos elementos ABC, quantas arrumações 2 a 2
podemos fazer?

A fórmula a ser utilizada (e aqui não demonstrada) é a seguinte:

26
n!
Pn , r 
n  r !

3!

Logo, P3, 2 = =6

(3 – 2)!

Note que quando r = n, Pn, r = An, n. Para verificar, resolva o exemplo das
letras ABC fazendo r = 3 utilizando a fórmula das permutações. Uma
observação: Por convenção, 0! = 1.

OBS: O Excel dispõe da função estatística PERMUTAR (n, r).

Exercícios

a) Dadas as primeiras cinco letras do alfabeto, quantas arrumações


desses elementos são possíveis tomando-os 3 a 3?
Resp: 60

b) Num concurso, existem 10 concorrentes. Três serão


selecionados. O primeiro lugar receberá USD 10.000; o segundo,
USD 5.000, e o terceiro, USD 2.500. Quantas arrumações são
possíveis de primeiro-segundo-terceiro lugares com esses 10
concorrentes?
Resp: 720

c) A um consumidor é perguntado sua preferência sobre 5 tipos de


cervejas. Quantos diferentes rankings podem resultar?
Resp: 120

Técnica de Contagem 3 – Combinações

No caso das Combinações, a ordem em que os elementos estão dispostos


não importa. Isto quer dizer que, seguindo o nosso exemplo anterior, as
séries ABC e ACB são iguais, e então apenas uma combinação é gerada. No
caso das combinações, em geral, o número de combinações dos n

27
elementos também difere da proporção r em que eles são tomados, isto é,
n  r.

Então, a pergunta agora é: quantas combinações são possíveis com as


letras ABC tomadas 2 a 2?

A resposta pode ser obtida com a seguinte fórmula (não demonstrada):

n!
C n ,r 
r!n  r !

3!

Logo, C3, 2 = =3

2! (3 – 2)!

OBS: O Excel dispõe da função matemática COMBINAR (n, r).

Exercícios

a) Quantos grupos de 5 estudantes podem ser formados de um


total de 7 estudantes na qual a ordem não importa?
Resp: 21

b) O presidente de certa empresa deve selecionar 4 de seus 6


diretores para formar um grupo de estudos sobre aquisições de
novos negócios. Quantas combinações diferentes dos diretores o
presidente pode fazer?
Resp: 15

c) Suponha agora, relativamente ao exercício b das permutações,


que três concorrentes sejam selecionados como vencedores, e a
cada um deles é dado o mesmo prêmio, sem distinção de
primeiro-segundo-terceiro lugares. Quantas combinações são
possíveis?
Resp: 120

28
Técnica de Contagem 4 – Arranjos de Escolha Múltipla (AEM)

Nas técnicas apresentadas anteriormente, a repetição (ou duplicação) de


elementos na série não foi considerada. Por exemplo, não fizemos algo
como AABC ou AABBC.

Nos arranjos de escolha múltipla a ordem também faz diferença.


Distingue-se das permutações pelo fato de que a duplicação é considerada.
Nos AEM, o mesmo elemento pode ser usado mais de uma vez.

O número de AEM de n elementos tomados r a r é:

Mn, r = nr

Para ilustrar, suponha que um pai deve escolher três universidades de

uma lista de 5 universidades diferentes nas quais seus três filhos irão

estudar. A ordem na qual essas universidades são escolhidas é importante

porque ela determina qual estudante vai para qual universidade. Também,

dado que dois ou mais filhos podem ir para a mesma escola, a duplicação

é permitida. Assim, o número de seleção das três escolas de um total de

cinco é:

M5, 3 = 53 = 125

Existem 125 diferentes arranjos nos quais os três filhos podem escolher

entre as 5 universidades.

29
OBS: O Excel dispõe da função matemática POTÊNCIA (núm; potência) que

pode ser utilizada para calcular AEM.

Exercícios

a) Um vendedor de carros tem três tipos de automóveis dos quais


dois clientes escolherão um. Quantas vendas diferentes o
vendedor pode fazer?
Resp: 9

b) Outro vendedor tem dois diferentes tipos de carros dos quais


três clientes farão a seleção. Quantas vendas diferentes o
vendedor pode fazer?
Resp: 8

Teorema de Bayes

Quando a temporada do Campeonato de Futebol Nacional brasileiro abre,


os torcedores do campeão do ano anterior acham que seu time tem
grandes chances de ganhar o título outra vez. Mas na medida em que a
temporada avança, alguns jogadores principais se machucam, a defesa
falha, e o time começa a perder jogos. Lá pelo final do campeonato, os
torcedores acham que devem alterar suas probabilidades anteriores (suas
probabilidades a priori) do time vencer.

No exemplo acima, as probabilidades foram alteradas após as pessoas


envolvidas (os torcedores) obterem informação adicional. Estas novas
probabilidades são conhecidas como probabilidades revistas ou
posteriores. Porque probabilidades podem ser revistas à medida que
novas informações tornam-se disponíveis, a teoria das probabilidades é de
grande valor para a tomada de decisão.

A origem do conceito de obter probabilidade posterior com informação


limitada é creditada ao Reverendo Thomas Bayes (1702-1761), e a fórmula
básica para probabilidade condicional sob condições de dependência
estatística é:

30
( )
( )
( )

conhecida com Teorema de Bayes.

Vejamos o seguinte exemplo:

Assuma que temos dois tipos de dados viesados numa urna. Num deles, o
número 2 aparece 30% das vezes [ou seja, P(2) = 0,3]. No outro, o 2 surge
em 60% das vezes [P(2) = 0,6]. Chamemos o primeiro tipo de dado de Tipo
1 e o segundo de Tipo 2. Um dado é retirado, rolado uma vez, e aparece
um 2. Qual é a probabilidade de que seja o dado do Tipo 1? Bem, como
existem 2 dados, poderíamos responder que a probabilidade é 0,5. Mas
façamos melhor. Veja a tabela abaixo:

Evento Elementar Probabilidade do P(2/evento P(2, evento)


evento elementar elementar)
Tipo 1 0,5 0,3 0,5*0,3 = 0,15
Tipo 2 0,5 0,6 0,5*0,6 = 0,30
1 P(2) = 0,45

A soma das probabilidades dos eventos elementares é igual a 1, porque


existem somente dois tipos de dados, e a probabilidade de cada tipo é 0,5.
Os dois tipos constituem uma lista mutuamente exclusiva e coletivamente
exaustiva.

A soma de P(2/evento elementar) não iguala a 1. Os valores 0,3 e 0,6


representam simplesmente as probabilidades condicionais de obter um 2,
dado o Tipo 1 e o Tipo 2, respectivamente.

A coluna 4 (a última da tabela) é a probabilidade conjunta de que o 2 e o


dado do Tipo 1 ocorram juntos (0,5*0,3 = 0,15), e a probabilidade
conjunta de que o 2 e o dado do Tipo 2 ocorram juntos (0,5*0,6 = 0,30). A
soma destas probabilidades conjuntas (0,45) é a probabilidade marginal
de se obter um 2. Note que em cada caso a probabilidade conjunta foi
obtida usando a fórmula:

P(AB) = P(A/B) * P(B)


31
Para encontrar a probabilidade de que o dado retirado seja o do Tipo 1,
usamos a fórmula da probabilidade condicional sob dependência
estatística:

( )
( )
( )

No caso do problema em questão:


( )
( )
( )

A probabilidade de ser do Tipo 2 é:

( )
( )
( )

Distribuições de Probabilidades
Suponha que estejamos interessados em apresentar, de uma maneira
organizada, o número de coroas que possam resultar quando jogamos
uma moeda duas vezes. Estes resultados são apresentados na tabela
abaixo:

1a Jogada 2a Jogada Número de coroas Probabilidade dos


em duas jogadas 4 possíveis
resultados
Coroa Coroa
Coroa Cara 1 0,5*0,5 = 0,25
Cara Cara 0 0,5*0,5 = 0,25
Cara Coroa 1 0,5*0,5 = 0,25
1,00

Começamos por notar na tabela acima qualquer resultado que não


contenha coroa. O único resultado que não contém coroa está na terceira
linha: Cara, Cara. A seguir, os resultados que apresentam uma única coroa
estão na segunda e quarta linhas. Finalmente, o resultado que contém
duas coroas está na primeira linha. Agora, rearranjamos estes resultados
32
de forma a enfatizar o número de coroas contidos em cada resultado. Isto
é feito na tabela a seguir:

Número de coroas Co Jogadas Probabilidade destes


resultados P(Ca)
0 (Ca, Ca) 0,25
1 (Co, Ca) + (Ca, Co) 0,50
2 (Co, Co) 0,25

A terceira coluna da tabela acima é denominada distribuição de


probabilidades porque fornece as probabilidades associadas com cada
resultado listado na segunda coluna se o experimento fosse repetido um
número muito grande de vezes.

A tabela acima pode ser reapresentada como abaixo:

Número de coroas Co Probabilidade destes resultados P(Ca)


0 0,25
1 0,50
2 0,25

e representada graficamente da seguinte forma:

0,50

0,25

0 1 2

Assim, uma distribuição de probabilidade é uma listagem de


probabilidades associadas com os possíveis resultados que poderiam
resultar se um experimento fosse realizado. Distribuições de
probabilidades podem ser baseadas em considerações teóricas (a jogada
de uma moeda, por exemplo) ou em afirmações subjetivas da

33
possibilidade de ocorrência de certos resultados (a noção pessoal de um
gestor financeiro sobre o nível das taxas de juros futuros de bonds).
Distribuições de probabilidade também podem ser baseadas na
experiência: os atuários de companhias de seguros determinam prêmios
para políticas de seguros de vida usando as taxas de mortalidade para
estabelecer probabilidades de falecimentos entre diferentes grupos.

Distribuições Discretas e Contínuas de Probabilidades


As distribuições de probabilidades podem ser classificadas em discretas ou
contínuas. As distribuições discretas ocorrem em intervalos limitados de
valores: um exemplo disto seria a afirmação de um gestor financeiro das
possíveis taxas de juros de bonds na próxima semana (10,5%; 10,62%;
10,75%; 10,85%). Da mesma forma, a probabilidade de que você nasceu
num dado mês do ano é também discreta (só há 12 valores possíveis).

Numa distribuição contínua a variável sob consideração pode assumir


qualquer valor dentro de um dado intervalo. Por exemplo, se estivermos
examinando a concentração de partículas de fumaça em chaminés de
plantas industriais e medirmos esta concentração usando partes de
partículas por milhões de partes de ar, esperaríamos um intervalo
contínuo de partes por milhão. Chamaríamos esta distribuição (partes por
milhão - ppm) de distribuição contínua. Na discussão sobre distribuições
contínuas, associamos probabilidades somente com intervalos, ao invés
de valores únicos da variável em discussão. Então, fazemos perguntas
como: qual a probabilidade de que a concentração de partículas fique
entre 15 e 30 ppm?

Variáveis Aleatórias
Uma variável aleatória (V.A.) é uma variável que assume diferentes
valores como resultado de um experimento aleatório. Uma V.A. tanto
pode ser discreta como contínua. Pode-se pensar numa V.A. como um
valor ou magnitude que muda de ocorrência para ocorrência numa
sequência previsível. Um vendedor de eletrodomésticos não tem como
saber, com certeza, quais serão as vendas de amanhã. Assim, as vendas de
amanhã é uma variável aleatória. Os valores de uma variável aleatória são
os valores numéricos correspondentes a cada resultado possível de um
experimento aleatório. No caso do vendedor, suponha que saibamos que

34
os dados passados de vendas indicam que os valores da V.A. “vendas
diárias” variem de 110 a 115. Neste caso, esta V.A. é uma variável
aleatória discreta.

O quadro a seguir ilustra o número de vezes que cada nível de venda


alcançou nos últimos 100 dias.

Se acreditarmos que os valores de vendas desses últimos 100 dias foram


típicos, podemos utilizar estes registros históricos para associar
probabilidades a cada possível valor de venda e assim criar uma
distribuição de probabilidade. Na terceira coluna da tabela, normalizamos
a distribuição. Normalizar significa simplesmente dividir cada dia na
coluna 2 pelo total de dias, 100 (assim, 0,01 = 1/100; 0,02 = 2/100, etc.). A
distribuição gráfica da tabela é feita abaixo:

35
Note que a distribuição de probabilidade para uma variável aleatória
fornece a probabilidade para cada valor possível e que estas
probabilidades tem que somar 1. Lembre-se também que tanto a tabela
quanto o gráfico nos dão informação sobre a ocorrência a longo prazo das
vendas diárias que esperaríamos ver se este experimento fosse repetido.

O Valor Esperado de uma Variável Aleatória


Valor Esperado ou Esperança Matemática é um conceito fundamental no
estudo das distribuições de probabilidade.

Para calcular o valor esperado de uma variável aleatória discreta,


multiplicamos cada valor dessa variável aleatória pela probabilidade de
ocorrência de cada valor e então somamos os produtos. A fórmula do
valor esperado de uma variável aleatória discreta é:

E =  x * P (x)

No caso do exemplo anterior das vendas diárias de eletrodomésticos, o


valor esperado dessas vendas é o apresentado na tabela abaixo:

36
O valor esperado das vendas diárias, 108,02, é a soma dos produtos de
cada ocorrência de vendas pela sua probabilidade de ocorrência. A
Administração da loja de eletrodomésticos poderia achar útil basear suas
decisões no valor esperado das vendas diárias porque o valor esperado é
uma média ponderada dos resultados esperados no futuro. O valor
esperado pondera cada resultado possível pela probabilidade associada
com este resultado. Desta maneira, a ocorrências mais comuns são dadas
mais pesos do que ocorrências menos comuns. Na medida em que as
condições se alterassem ao longo do tempo, a Administração recalcularia
o valor esperado das vendas diárias e então usaria este novo dado como
base para tomar decisões.

Tipos de Distribuições de Probabilidade


Existem diferentes tipos de distribuições de probabilidade, tanto discretas
quanto contínuas. Entretanto, as mais geralmente utilizadas em tomada
de decisão são as seguintes:

 Distribuição Binomial – esta distribuição descreve muitos processos


de interesse para a tomada de decisão;

37
 Distribuição de Poisson – é uma distribuição discreta
frequentemente utilizada para contar o número de ocorrências de
algum evento num dado período de tempo;
 Distribuição Exponencial – uma distribuição contínua
frequentemente utilizada para medir a extensão de tempo
necessária para desempenhar alguma atividade;
 Distribuição Normal - uma distribuição contínua utilizada para
descrever muitos fenômenos físicos, biológicos, econômicos,
financeiros, administrativos, etc.

Distribuição Binomial
A distribuição Binomial descreve dados discretos resultantes de um
experimento chamado de Processo de Bernoulli. O lançamento de uma
moeda honesta um número fixo de vezes é um processo de Bernoulli, e os
resultados de tais lançamentos podem ser representados por uma
distribuição binomial de probabilidade. O sucesso ou fracasso de alunos
licenciados numa entrevista para um emprego também pode ser descrito
por um processo de Bernoulli.

Podemos utilizar os resultados de um número fixo de lançamentos de uma


moeda honesta como um bom exemplo de um processo de Bernoulli. Este
processo é descrito como:

1. Cada lançamento tem somente dois resultados possíveis: cara ou


coroa.
2. A probabilidade de um sucesso num lançamento mantém-se fixa ao
longo do tempo. No caso da moeda justa, a probabilidade de cara
mantém-se em 0,5 para cada lançamento, não importando quantas
vezes a moeda seja lançada.
3. Os lançamentos são estatisticamente independentes; isto significa
que o resultado de um lançamento não afeta o resultado de um
outro qualquer.

No caso de um processo de Bernoulli, o símbolo p representa a


probabilidade de um sucesso; o símbolo q representa a probabilidade de
38
um fracasso (ou, q = 1 – p); o símbolo r representa um certo número de
sucessos; e o símbolo n representa o número total de tentativas. A
fórmula binomial é a seguinte:

( )

Vejamos alguns exemplos desta distribuição:

1) Uma amostra aleatória de 15 pessoas é obtida de uma população


em que 40% têm uma determinada posição política. Qual é a
probabilidade de exatamente 6 indivíduos na amostra terem essa
determinada posição política?

Neste exemplo, temos que:

n = 15
p = 0,4 q = 0,6
r=6
P(r = 6) =?

( )
( )

2) Estima-se que cerca de 30% dos frangos congelados contenham


suficiente número de bactérias salmonelas causadoras de doenças,
se forem assados inadequadamente. Um consumidor compra 12
frangos congelados. Qual é a probabilidade do consumidor ter 6
frangos contaminados?

n = 12

p = 0,3 q = 0,7

r=6

P(r = 6) =?

( )
( )

39
3) Uma cadeia de restaurantes classifica embarques de produtos
alimentícios. Um embarque de carne vem em caixas de 20 fatias. A
política da cadeia é classificar como “aceitável” se não mais do que
2 caixas estiverem estragadas. A cadeia assume que a probabilidade
de qualquer caixa estragada ser aleatoriamente selecionada é
independente de qualquer outra caixa.
Se um embarque de 20 caixas de carne é recebido, qual é a
probabilidade de que este embarque será aceito se a probabilidade
de que qualquer caixa estragada aleatoriamente escolhida é de 10%?

n = 20
p = 0,10 *10% das caixas são “sucessos” (estragadas)+  q = 0,7
r= 0, 1, 2

P(r  2) =?

Neste caso estamos interessados na probabilidade de no máximo 2


caixas estarem estragadas. Este evento será satisfeito se nenhuma
caixa, ou uma ou duas estiverem estragadas. A presença de ou no
problema revela a necessidade de adicionar as respectivas
probabilidades de cada um destes eventos. Este procedimento
envolve probabilidade binomial acumulada. Assim, de acordo com a
fórmula apresentada:

P(r = 0) = 0,12577

P(r = 1) = 0,27017

P(r = 2) = 0,28518

P(r  2) = 0,12577 + 0,27017 + 0,28518 = 0,676927 ou 67,69%

Ou seja, existem 67,69% de probabilidade de que 2 ou menos caixas


estarão estragadas se 20 caixas são examinadas e a probabilidade
de qualquer uma única caixa estar estragada é de 10%.

4) Considere agora o caso de a cadeia de restaurantes estar


interessada em determinar a probabilidade de 2 ou mais caixas de

40
carne estarem estragadas. Isto é, P(r  2). Nesta situação, é mais
fácil utilizar a lei dos complementos:

P (A) = 1 - P(Ā)

Veja que:

P (r  2) = 1 – [P (r = 0) + P (r = 1)]

P (r  2) = 1 – (0,12577 + 0,27017) = 1 – 0,391747 = 0,608253

Média e Variância de uma Distribuição Binomial

A média e a variância de uma distribuição binomial são dadas,


respectivamente, por:

 = n*p

 2 = n*p*(1-p)

Por exemplo, seja uma empresa que vende seus produtos por telefone.
Dados anteriores demonstram que a probabilidade de uma venda em
qualquer ligação é de p = 0,15. Se um vendedor fizer 15 chamadas num dia,
qual a média de vendas diárias que se poderia esperar?

 = 15*0,15 = 2,25 vendas por dia.

 2 = 15*0,15*(1-0,15) = 1,9125 vendas ao quadrado.

Repare que a variância eleva ao quadrado as unidades de medida originais.


Neste exemplo, teríamos 1,9125 vendas ao quadrado, o que não tem o
menor interesse prático. Por isso, é mais útil utilizarmos o desvio-padrão
() que é a raiz quadrada da variância:

41
√ ( )

Isto é, em 15 ligações teríamos, em média, 2,25 vendas diárias, com uma


dispersão, para menos ou para mais, de 1,38 vendas diárias.

Distribuição de Poisson
A distribuição de Poisson é frequentemente usada para descrever o
número de chegadas de clientes por hora, o número de acidentes
industriais em cada mês, o número de defeitos em conexões elétricas por
milha de fios numa estação de força, ou o número de máquinas que
quebraram e estão aguardando reparo. Em cada um desses casos, a
variável aleatória (clientes, acidentes, defeitos, máquinas) é medida por
unidade de tempo ou espaço (distância).

Duas hipóteses são para a aplicação da distribuição de Poisson:

1. A probabilidade de ocorrência do evento é constante para


quaisquer dois intervalos de tempo ou espaço.
2. A ocorrência do evento em qualquer intervalo é independente da
ocorrência em outro intervalo qualquer.

Dadas estas hipóteses, a função probabilidade de Poisson pode ser


expressa como:

( )

onde

x = número de vezes em que o evento ocorre

 = número médio de ocorrências por unidade de tempo ou espaço

e = 2,71828, base do sistema de logaritmos naturais.

42
Exemplos

1. Suponha que estejamos interessados na probabilidade de que


exatamente 5 clientes chegarão durante a próxima hora (ou em
qualquer outra hora) numa loja. Uma observação das 80 horas
anteriores mostrou que 800 clientes entraram na loja. Assim,  = 10
por hora. Logo:

( )
( )

2. Uma construtora obteve um contrato para manter as estradas de


determinada cidade. As estradas recentemente pavimentadas por
esta empresa revelou uma média de dois defeitos por km após
serem usadas por 1 ano. Qual é a probabilidade de 1 defeito em
qualquer km de estrada após o tráfico circular por 1 ano?

( )
( )

3. Um departamento de polícia recebe em média 5 solicitações por


hora. Qual a probabilidade de receber 2 solicitações numa hora
selecionada aleatoriamente?

( )
( )

Média e Variância de uma Distribuição Binomial

A média e a variância de uma distribuição de Poisson são:

média = variância = 

4. A experiência passada indica que um número médio de 6 clientes


por hora param para colocar gasolina numa bomba.

43
a. Qual é a probabilidade de 3 clientes pararem a qualquer hora?

b. Qual é a probabilidade de 3 clientes ou menos pararem em


qualquer hora?

c. Qual é o valor esperado, a média, e o desvio padrão para esta


distribuição?

Solução

( )
a. ( )

b. P (x  3) = P (x = 0) + P (x = 1) + P (x = 2) + P (x = 3) = 0,151204

c. A média e variância são iguais a  = 6. Logo, o desvio-padrão =

= √6 = 2,45 clientes.

Distribuição Exponencial

A distribuição de Poisson é uma distribuição discreta de probabilidade que


mede o número de ocorrências de algum evento ao longo do tempo ou
espaço. Descreve, por exemplo, o número de clientes que devem chegar
durante um dado período. A distribuição Exponencial é, em contraste,
uma distribuição contínua. Ela mede a passagem de tempo entre
ocorrências. Assim, enquanto a distribuição de Poisson descreve unidades
de taxas de chegada (pessoas, caminhões, chamadas telefônicas, etc.)
dentro de certo período, a distribuição exponencial estima o lapso de
tempo entre chegadas. A Exponencial pode medir o lapso de tempo como
(1) o tempo que passa entre duas chegadas sucessivas ou (2) o quanto de
tempo que leva para completar uma ação, tais como servir um
consumidor, carregar um caminhão, ou atender uma chamada telefônica.

Uma representação gráfica de uma distribuição Exponencial é feita abaixo:

44
f (x)

1 2 3 4 ...
X (unidades de tempo)

Veja que a função que descreve esta distribuição é decrescente, o que


mostra que quanto maior o valor da variável aleatória, tal como medida
em unidades de lapso de tempo, menor é a probabilidade dela ocorrer.
Metade de uma hora é mais provável de ocorrer do que uma hora, uma
vez que meia hora deve ser completada antes de uma hora inteira passar.

Se o processo de chegada é uma distribuição de Poisson, então o lapso de


tempo entre chegadas é exponencialmente distribuído. Seja  o número
médio de chegadas num dado período, e * a média de tempo entre
chegadas. Então,

Por exemplo, se uma média de quatro caminhões chega a cada hora numa
estação de carregamento ( = 4), então, em média, um caminhão chega a
cada quarto de hora. Isto é,

Baseado na relação entre distribuição de Poisson e Exponencial, é possível


determinar a probabilidade de que um específico período de tempo
passará dado o conhecimento da taxa média de chegada. A probabilidade

45
de que não mais do que t unidades de tempo passarão entre ocorrências
sucessivas é:

( )

sendo  a taxa média de ocorrência e e = 2,71828.

Exemplos

1. Caminhões estacionam numa estação de carregamento a uma taxa


média de 1,5 por hora. Qual é a probabilidade de que não mais do
que duas horas se passarão entre a chegada de dois caminhões
sucessivos?

Fazendo t = 2, temos
( )
( )

2. Uma empresa de táxi programa a chegada de seus carros ao


aeroporto local numa distribuição de Poisson com taxa média de
chegada de 12 táxis por hora. Você acabou de chegar ao aeroporto
e tem que ir ao cento da cidade fechar um negócio. Qual é a
probabilidade de que você terá que esperar não mais do que cinco
minutos para tomar um táxi?

Dado que  é expresso em termos de 12 por hora, ele deve ser


transformado em minutos para se conformar ao problema, que
especifica um período de tempo de cinco minutos. Assim,  = 12/60
= 0,2 por minuto.

( ) ( )( )

Existe uma probabilidade 63,21% de que um táxi chegará dentro de


5 minutos.

OBS: é sempre necessário assegurar-se de que a unidade de tempo


na qual  está expresso coincide com a unidade de tempo definida
no problema.
46
3. Uma das aplicações mais úteis e comuns da distribuição Exponencial
é em problemas de filas de espera. Filas de espera ocorrem em
muitos setores: clientes que esperam numa fila para serem
atendidos nos caixas de uma agência bancária; caminhões que
esperam para serem carregados numa estação; máquinas que
esperam para serem consertadas numa oficina; chamadas
telefônicas que esperam para entrar numa estação telefônica, etc.
Um negócio com problemas de fila de espera deve avalia-los e
melhorar seu desempenho.
Façamos  (a letra grega maiúscula lambda) ser a taxa média a qual
unidades chegam de algum serviço por unidade de tempo, e  o
número médio de unidades que podem ser servidas na mesma
unidade de tempo. Assim, podemos avaliar um sistema de filas na
base do seguinte critério:

em que P0 é a probabilidade de que não há unidades no sistema.


[ ]

em que Pn é a probabilidade de que n unidades estão no sistema.


em que L é o número médio de unidades no sistema (aquelas


esperando pelo serviço mais aquela recebendo o serviço).

47
em que W é o tempo médio que uma unidade gasta no sistema
esperando pelo serviço e recebendo aquele serviço (tempo de
espera mais o tempo de serviço).


( )

em que Lq é o número médio de unidades no sistema esperando


pelo serviço.


( )

em que Wq é o número médio despendido na fila esperando para o


serviço começar.

Repare que L difere de Lq já que este último não inclui a unidade


que está sendo correntemente recebendo serviço, mas conta
somente aquelas alinhadas esperando pelo serviço.

Seja o seguinte exemplo: Uma loja de conveniência, que se orgulha


de seu atendimento rápido, notou que durante certos periodos do
dia, tais como a hora do almoço e a partir das 17 horas, horário em
que as pessoas deixam o trabalho, grandes filas formavam-se na sua
caixa registradora. A Administração da loja preocupada que as
demoras no pagamento arranhassem a sua imagem de rapidez no
atendimento, ordenou uma pesquisa que revelou que durante
aqueles horários uma média de 72 clientes por hora entravam na
loja e que levava 35 segundos em média para atender um cliente na
fila. A loja queria saber o impacto que isto poderia causar em seu
negócio.

 = 72 / hora ou 1,2 por minuto

 = 60 / 35 = 1,7 por minuto

48
a. A probabilidade de que ninguém esteja na caixa registradora é:

b. A probabilidade de que alguém deve esperar é a probabilidade


de que existem duas ou mais pessoas na fila (se há somente uma
pessoa na fila, ela não está esperando pelo serviço, ela o está
recebendo).

P (n  2) = 1 – [P (n = 0) + P (n = 1)] = 0,2941

[ ] ( )

P (n  2) = 1 – (0,2941 + 0,2076) = 0,4983

c. A média de tempo despendido na espera no sistema (o momento


entre a chegada de um consumidor à caixa registradora com
suas compras e o tempo que ele deixa a loja) é:

d. O tempo médio gasto esperando pelo serviço (do período em que


um cliente chega à caixa registradora com suas compras ao
momento em que é atendido) é:

( )

Com base nos valores acima, a Administração da loja pode decidir,


por exemplo, se 2 minutos é muito tempo para esperar o
atendimento, ou que, como a probabilidade de não ter ninguém

49
sendo atendido é relativamente baixa, se realmente o serviço de
atendimento deve ser agilizado.

Distribuição Normal

A distribuição Normal é, talvez, a distribuição de probabilidade mais


importante de todas as distribuições já examinadas (e das que não
examinamos aqui) – em parte porque a distribuição Normal pode servir
como uma aproximação às demais distribuições, tal como a Binomial. Mas
a distribuição Normal prova ser de maior valor em sua habilidade de servir
como fundamento para análises estatísticas mais avançadas. Da vantagem
fornecida pela distribuição Normal torna-se possível desenvolver um nível
de inferência estatística que de outra maneira não poderia ser alcançado.

A distribuição Normal é uma distribuição contínua de probabilidade. É


usada para refletir a distribuição de variáveis tais como alturas, pesos,
distâncias, e outras medidas que são divisíveis infinitamente. Tais variáveis
contínuas são geralmente resultado de medidas.

A distribuição Normal é um arranjo único de valores em que, se os valores


são plotados num gráfico, a curva representativa assume uma forma
simétrica lembrando um sino, tal como mostrado abaixo:

f(X)

Média = Moda = Mediana X

Numa distribuição Normal três coisas importantes devem ser notadas:

a. A média, a moda e a mediana são iguais.

50
b. 50% das observações estão acima da média e 50% abaixo dela. Isto
significa que metade da área sob a curva está à esquerda da média,
e a outra metade à direita da média.
c. Se os dados são normalmente distribuídos, podemos utilizar a
chamada Regra Empírica da Distribuição Normal para tirar
conclusões sobre tais dados. Esta regra diz o seguinte: se incluirmos
todas as observações dentro de um desvio-padrão da média (isto é,
um desvio-padrão abaixo e um desvio-padrão acima da média)
abrangeremos 68,3% de todas as observações. Assim, não importa
qual é a média e qual o desvio-padrão, podemos estar certos de que
68,3% das observações estarão dentro de um desvio-padrão da
média. Naturalmente, se nos movermos mais do que um desvio-
padrão acima e abaixo da média, abrangeremos uma porcentagem
maior de observações. A Regra Empírica especifica que

68,3% das observações estão a  um desvio-padrão da média;


95,5% das observações estão a  dois desvios-padrão da média;
99,7% das observações estão a  três desvios-padrão da média;

Graficamente

51
em que s é o desvio-padrão.

Esta regra aplica-se tanto à populações quanto à amostras.

Como exemplo, admita, considerando o tempo em minutos, que


chamadas telefônicas cheguem a uma central. Grafando as
frequências em que as chamadas ocorrem, temos a forma
apresentada na figura abaixo:

Frequência

X (minutos)

0 5 10 15 20

As observações em cada um dos extremos da curva ocorrem com


relativa pouca frequência, mas as observações mais próximas do
centro da curva ocorrem com frequência crescente, até o pico de 10
minutos, chamado de observação modal. Numa distribuição Normal,
Média, Moda e Mediana são iguais. Como a média é de 10 minutos,
isto significa que metade das observações está abaixo de 10 e
metade está acima.

Admita que o desvio-padrão dessa distribuição seja de 2 minutos.


Assim, podemos estar certos de que:

68,3% das chamadas estarão contidas entre 8 e 12 minutos;

95,5% das chamadas estarão contidas entre 6 e 14 minutos;

99,7% das chamadas estarão contidas entre 4 e 16 minutos.

52
Assuma uma amostra de 1.000 chamadas. Assim, 997 das 1.000
levam entre 4 minutos e 16 minutos para entrar na central. Logo,
somente 3 de 1.000 chamadas levam menos de 4 minutos ou
mais do que 16 minutos para entrar.

Uma observação com mais de 3 desvios-padrão para cima e para


baixo da média, é uma raridade e ocorre em menos de 1% das
vezes se os dados são normalmente distribuídos.

A equação para a função de densidade normal é:

( )
( )
( )

Observando-se a função acima podemos concluir que existe um número


infinito de distribuições normais, cada uma com sua média e desvio-
padrão. Dado que não é possível examinar todas as possibilidades, é útil
converter todas essas distribuições numa forma padrão. Esta distribuição
normal padronizada é feita com a fórmula de conversão (ou fórmula-Z):

em que Z é o desvio normal e X é algum valor especificado para a variável


aleatória. Depois deste processo de conversão, a média da distribuição é
zero e o desvio-padrão é 1. Todas as distribuições normais podem ser
convertidas na forma padrão.

Para ilustrar o processo de conversão, suponha que uma companhia


telefônica descobriu que a média de mensagens telefônicas dura 150
segundos, com desvio-padrão de 15 segundos. Também descobriu que a
extensão das mensagens é uma variável normalmente distribuída. Esta
distribuição é mostrada graficamente a seguir:

53
X (segundos)
120 150 180

Z (valores)
-2 -1 0 1 2

A distribuição é centrada em 150 segundos e é simétrica em torno deste


ponto. Um segundo eixo aparece abaixo da distribuição. Este é escalonado
não em unidades de tempo, mas em unidades de Z. Ele expressa
distâncias ao longo do eixo em termos de valores de Z. Na escala Z a
distribuição é centrada no ponto médio zero, porque o numerador na
fórmula de conversão requer que seja subtraída a média 150.

Assuma que uma chamada telefônica particular leve 180 segundos. Isto
está a dois desvios-padrão acima da média de 150. Podemos medir esta
distância entre 150 e 180 segundos de duas maneiras. Podemos dizer que
este ponto de 180 segundos é (1) 30 segundos acima da média, ou que (2)
este ponto é 2 desvios-padrão acima da média. Em ambos os casos,
estamos na mesma situação. Ao expressar a distância em desvios-padrão,
estamos dizendo que o valor de Z é dois desvios-padrão. Isto é, Z = 2. O
valor Z é o número de desvios-padrão que um dado ponto (180 neste caso)
está acima ou abaixo da média. Usando a fórmula de conversão, temos:

De maneira semelhante, 120 segundos estão a dois desvios-padrão abaixo


da média. Assim:

54
Padronizando a distribuição desta maneira oferece certas vantagens.
Agora existe somente uma distribuição para usar ao invés de um número
infinito delas. Evidentemente esta vantagem hoje está bem reduzida, pois
com programas tais como o Excel, é possível usar-se tanto a distribuição
normal quanto a normal padronizada para calcularem-se probabilidades.
Vejamos:

As chamadas telefônicas são, em média, 150 segundos com desvio-padrão


de 15 segundos. Isto pode ser escrito como:

X N(150, 15)

Que significa que X é uma variável aleatória normalmente distribuída com


média de 150 e desvio-padrão de 15.

Se a companhia telefônica deseja determinar a área sob a curva entre 150


e 180 como mostrado na figura abaixo:

0,5

0,5
X (segundos)
150 180

Z (valores)
0 2

ela pode:

a) Utilizar a própria distribuição normal: P (150  X  180)

Neste caso, abra uma planilha do Excel e selecione a função


estatística DIST.NORM.N (o Excel utilizado foi o de 2010) e preencha
os argumentos conforme a figura seguinte:

55
A área sob a curva é igual a 1 ou 100%. Assim, a distribuição
acumulada até 180 é 0,97725. Subtraindo 1 de 0,97725 temos
0,0228, que corresponde à área acima de 180. Como metade da
curva (de 150 em diante) corresponde a 50% (0,5), subtraímos 0,5
de 0,0228. O valor, 0,4772, é a área desejada (entre 150 e 180). Veja
a figura abaixo:

0,5

0,0228
0,4772
0,5
X (segundos)
150 180

Z (valores)
0 2

b) Utilizar a distribuição normal padrão:

A equação de transformação nos dá Z = 2. No Excel, abra a função


estatística DIST.NORMP.N, e preencha-a conforme mostrado a
seguir:
56
O valor encontrado é o mesmo, 0,9772. A seguir, os cálculos são os
mesmos que os anteriores.

Agora que a companhia telefônica encontrou a área de 0,4772 sob a curva


normal entre os valores 150 e 180 segundos, ela chega a duas conclusões
ou interpretações:

1. Existem 47,72% de probabilidade de que qualquer mensagem


telefônica durará entre 150 e 180 segundos;
2. 47,72% de todas as mensagens ficarão entre 150 e 180 segundos.

Por outro lado, a probabilidade de qualquer chamada durar mais de 180


segundos, ou seja, P (X  180) = P (Z  2) é de 2,28%.

E qual é a probabilidade de qualquer chamada estar entre 125 e 150


segundos, isto é, P (125  X  150) = P (-1,67  Z  0)?

X (segundos)
125 150

Z (valores)
0 2

57
A área abaixo de 125 corresponde a uma probabilidade de 0,0478. A área
de 150 e abaixo corresponde a 0,5. Logo, a área entre 150 e 125
corresponde à diferença entre 0,5 e 0,0478, o que gera a probabilidade de
0,4522 ou 45,22%.

Qual a probabilidade de que qualquer chamada dure entre 145 e 155


segundos?

X (segundos)
145 150 155

Z (valores)
-0,33 0 0,33

P (145  X  155) = P (-0,33  Z  0,33) =?

A probabilidade acumulada até 145 é 0,369441. Como a área sob a curva à


esquerda de 150 corresponde a 0,5, subtraímos deste valor 0,369441, o
que dá 0,130559. Como a distribuição é simétrica, do lado direito temos a
mesma proporção, ou seja, 0,130559. Assim, somando estes dois valores
temos:

P (145  X  155) = P (-0,33  Z  0,33) = 0,130559 + 0,130559 = 0,2611

Logo, a probabilidade de que qualquer chamada aleatoriamente


selecionada dure entre 145 e 155 segundos é de 26,11%.

58
CAPÍTULO 2
PREVISÕES
Virtualmente todas as decisões administrativas dependem de previsões.
Os gestores estudam previsões de vendas, por exemplo, para tomar
decisões sobre necessidades de fundo de maneio, o tamanho da força de
trabalho, níveis de stocks, a programação da rotina de produção, a
localização das fábricas, o montante de propaganda e promoção de
vendas, a necessidade de alteração de preços, e muitos outros problemas.

Embora as previsões sejam criticamente importantes, elas nunca são tão


acuradas quanto os gestores gostariam. No entanto, decisões têm que ser
tomadas todos os dias, e têm que ser tomadas com as melhores
informações disponíveis, não com previsões perfeitas. A questão real em
previsão não é se a acurácia é perfeita, mas como fazer o melhor uso da
metodologia de previsão.

Numerosos métodos quantitativos de previsão têm sido desenvolvidos ao


longo do tempo. Os métodos discutidos neste texto foram escolhidos
porque deram bons resultados na prática.

Iniciamos com as chamadas Regressões.

Relações Funcionais entre Variáveis

Relações entre duas variáveis

Com frequência, em nossa vida profissional, desejamos conhecer


respostas para questões como as seguintes:

 Qual é o efeito de um aumento do déficit no orçamento público


sobre o nível das taxas de juro e da taxa de inflação?
 Há alguma relação entre o nível das taxas de juros e um índice da
Bolsa de Valores?
 Qual o efeito do déficit da balança comercial sobre o nível de
emprego?

59
 Qual a relação entre a quantidade de dinheiro na economia,
digamos M1, e o nível da atividade econômica?
 Se o Banco Central aumentar a taxa de desconto, isso causará uma
estagnação com inflação?
 Qual o efeito, sobre a distribuição de renda, das modificações na
legislação tributária?
 É melhor investir em títulos governamentais a longo prazo ou em
Letras do Banco Central a curto prazo?
 Aumentos em gastos com propaganda geram aumentos de venda?
 Aumentos na renda da população geram aumentos no consumo de
bens e serviços?

Respostas para estas e outras perguntas exigem que especifiquemos


relações funcionais entre variáveis. Neste item, estudaremos relações
funcionais entre duas variáveis (uma dependente e a outra independente).

Vejamos o seguinte exemplo (veja este exemplo e outros, na planilha


Excel Regressões Simples):

 Suponha que certo empresário esteja interessado em comercializar


determinado produto em certa cidade. Ele então recolhe dados
sobre os preços praticados no mercado para o tal produto, bem
como as quantidades vendidas ao longo dos últimos 12 meses
mediante inquéritos em estabelecimentos que já comercializam o
produto. Estas informações estão apresentadas na Tabela 1, a
seguir:

Meses Consumo (QD) Preços (P)

1 100 230

2 120 215

3 135 200

4 150 195

5 165 190

6 182 187

7 198 180

60
8 220 172

9 245 150

10 256 142

11 262 138

12 280 130

Tabela 1. Dados sobre preço e consumo de certa mercadoria.

Ele deseja agora saber se é possível representar os dados da Tabela


1 por uma relação matemática que lhe permita fazer previsões
sobre o consumo futuro do produto em função de variações em seu
preço. Os seguintes passos devem ser então efetuados:

 É preciso, inicialmente, definir quem é a variável dependente (ou


explicada) e quem é a variável independente (ou explicativa). A
teoria económica nos ensina que as quantidades demandadas de
certo bem ou serviço (QD) são uma função de seu preço (P). Em
termos matemáticos isto é uma relação do tipo

QD = f (P)

A relação acima é uma relação perfeitamente geral, e o que


queremos é, justamente, tentar especificar uma função que se
adeque aos dados obtidos na Tabela 1.

 Depois de definidas as variáveis dependente e independente, é


preciso fazer uma suposição do relacionamento entre elas. A
suposição mais simples é a de que elas se relacionam linearmente
de acordo com uma função do tipo

QD = 1 + 2P

ou seja, uma função linear, em que 1 e 2 são, respectivamente, o


coeficiente linear e angular da reta. A hipótese de linearidade é
uma hipótese inicial, de referência. Obviamente, teremos que
testá-la posteriormente.

Um teste adequado é o uso do chamado coeficiente de correlação.

61
Em teoria da probabilidade e estatística, correlação indica a força
e a direção do relacionamento linear entre duas variáveis. No uso
estatístico geral, correlação ou co-relação se refere a medida da
relação entre duas variáveis, embora correlação não implique
causalidade. Neste sentido geral, existem vários coeficientes
medindo o grau de correlação, adaptados à natureza dos dados.

Vários coeficientes são utilizados para situações diferentes. O mais


conhecido é o coeficiente de correlação de Pearson, o qual é
obtido dividindo a covariância de duas variáveis pelo produto de
seus desvios padrão. Apesar do nome, ela foi apresentada
inicialmente por Francis Galton.

A fórmula da correlação é a seguinte:


( )
√ ( ) ( )

A correlação tem as seguintes características:

 Os valores de rXY estão limitados entre – 1 e +1, isto é, a


correlação é uma medida padronizada;

 É um valor único para população ou amostra, tomando o


cuidado de utilizar dados coerentes;

 Da expressão de rXY pode-se obter a covariância das mesmas


variáveis, isto é:

XY = rXY*X *Y

As propriedades mais importantes da correlação são as seguintes:

 O coeficiente de correlação de uma variável com ela mesma é


igual a 1.

 XX  X2
rXX   1
 X *  X  X2

62
 A permutação das variáveis não altera o resultado do
coeficiente de correlação, se os mesmos pares de valores forem
mantidos:

rXY = rYX

 Se as variáveis X e Y forem estatisticamente independentes,


então o coeficiente de correlação destas variáveis é zero.

 Se o resultado do coeficiente de correlação das variáveis X e Y


for igual a zero, não se pode afirmar que as duas variáveis sejam
estatisticamente independentes. Para confirmar essa
independência deve-se verificar se todos os pares de valores de X e
Y cumprem a condição: P (X e Y) = P (X) *P (Y).

Dissemos acima que o coeficiente de correlação varia no intervalo


-1 a +1. Interpretemos agora esses valores.

a) rXY = +1. Correlação perfeita positiva.

Se duas variáveis, X e Y, crescem ou decrescem na mesma


proporção e na mesma direção, então elas estarão
perfeitamente correlacionadas de forma positiva, sendo seu
rXY = +1. Nesse caso, plotando os valores de X e Y num gráfico,
seus pares de valores estariam perfeitamente alinhados
ascendentemente. Veja a Figura 1:

Figura 1. Alinhamento perfeito ascendente, rXY = +1.

63
b) rXY = -1. Correlação perfeita negativa.

Se duas variáveis, X e Y, crescem ou decrescem na mesma


proporção, mas em direções opostas, então elas estarão
perfeitamente correlacionadas de forma negativa, sendo seu
rXY = -1. Nesse caso, plotando os valores de X e Y num gráfico,
seus pares de valores estariam perfeitamente alinhados
descendentemente. Veja a Figura 2:

Figura 2. Alinhamento perfeito ascendente, rXY = -1.

c) rXY = 0. Variáveis não correlacionadas.

Se não há relação entre duas variáveis X e Y então seu rXY = 0.


Isto significa que não há um padrão de formação entre os
pares das variáveis. Se esses pares forem colocados num
gráfico ver-se-á uma nuvem de pontos sem tendência
definida, tal como mostrado na Figura 3:

X
Figura 3. Inexistência de alinhamento, rXY = 0.

64
Três observações importantes se fazem necessárias sobre a
covariância e a correlação:

1) Tanto o coeficiente da covariância quanto o da correlação


medem o grau de dependência linear entre duas variáveis. É
importante fixar isto. Ao utilizarmos a covariância ou a
correlação, queremos medir quão bem duas variáveis podem
ser representadas por uma função linear. Tanto a covariância
quanto a correlação não têm valor nenhum para descrever
relações não lineares. Assim, o fato de rXY = 0 não significa
que duas variáveis X e Y não tenham relação nenhuma, mas
sim que não têm relação linear;

2) Covariância e Correlação não estabelecem uma relação de


causa e efeito entre duas variáveis. Assim se, por exemplo,
num estudo estatístico qualquer descobrirmos uma forte
correlação positiva entre o aumento da produção de ovos no
Lubango e o aumento das vendas do Jornal de Angola em
Luanda, não podemos afirmar que o aumento da produção de
ovos causa o aumento nas vendas do jornal ou vice-versa. As
causas devem ser procuradas em outros fatores, tais como,
digamos, o aumento da renda, que permite maior consumo
de ovos e de compra de jornal.

3) Na vida real, dificilmente encontraremos coeficientes de


correlação tais como os apresentados acima. Em geral,
podemos encontrar relações fortemente positivas, em que rXY
está próximo de +1, relações fracamente positivas, em que rXY
está próximo de +0, relações fortemente negativas, em que
rXY está próximo de -1, ou relações fracamente negativas, em
que rXY está próximo de -0.

Utilizando a função estatística Correl do Excel, obtemos um


coeficiente de correlação de -0,989, o que significa que há
uma correlação negativa muito forte entre preços e
quantidades demandadas, como seria de se esperar.

65
 A seguir, é útil representar graficamente QD e P para analisarmos,
visualmente, como as duas variáveis se distribuem
conjuntamente. O gráfico utilizado para isso é chamado de
diagrama de dispersão porque mostra como as duas variáveis
estão dispersas em relação uma à outra. O diagrama de dispersão
obtido no Excel para as duas variáveis em questão está mostrado
no Gráfico 1 a seguir:

Gráfico 1. Diagrama de Dispersão Preço x Consumo.

Notamos que à medida que os preços sobem, as quantidades


demandadas caem, e vice-versa. Isto está de acordo com a teoria
económica. Agora, de acordo com a nossa hipótese inicial de
linearidade, precisamos especificar uma função linear que melhor
se ajuste aos pontos do Gráfico 1. Existem várias possibilidades,
mas o método mais utilizado é aquele baseado no princípio dos
mínimos quadrados ordinários (MQO) desenvolvido pelo
matemático alemão Carl Friedich Gauss. Este método garante
que, dentre as infinitas retas que podem passar pelos pontos do
Gráfico 1, a encontrada por mínimos quadrados é a que melhor
se ajusta àqueles pontos. No Excel, clique em qualquer dos
pontos do Gráfico 1 e, a seguir, pressione o botão direito do
mouse. No sub-menu que se abrirá, selecione Adicionar linha de
tendência. Na caixa Formatar Linha de Tendência, escolha o Tipo
Linear (na verdade, este tipo já é automaticamente pré-
selecionado). Selecione também Exibir Equação no gráfico. O
resultado é a reta y = - 1,8748x + 525,36. Veja o Gráfico 3:

66
Gráfico 3. Reta de regressão dos dados da Tabela 1.

em que y = QD e x = P.

Várias observações, ainda que a nível introdutório, se fazem


necessárias antes que possamos utilizar a reta QD = -1,8748P +
525,36 para estimar quantidades demandadas futuras a partir de
variações no preço do produto:

Obs 1: Os coeficientes -1,8748 e 525,36 são, respectivamente, os


coeficientes angular e linear da reta. A sua interpretação é sabida
por qualquer um que tenha estudado álgebra a nível
intermediário - o coeficiente angular mede duas coisas em
relação ao comportamento da função:

 O coeficiente angular, em seu valor relativo, com o sinal de


mais ou de menos à sua frente, indica a inclinação da reta. Se
positivo, a reta é ascendente; se negativo, a reta é descendente.
No exemplo, como o sinal é negativo, vemos que a reta é
negativamente inclinada, o que, no caso, está de acordo com a
teoria da demanda do consumidor.

 O coeficiente angular, em seu valor absoluto, isto é, apenas o


valor 1,8748, mede a variação de y por unidade de variação de x.
Assim, se x = P varia de 1 unidade monetária, y = QD varia 1,8748
unidades. Como o sinal é negativo, dizemos que se o preço
aumentar $ 1, as quantidades demandadas do produto cairão

67
1,8748 unidades. Assim, existe uma relação inversa entre o preço
e a quantidade demandada do produto.

Por outro lado, o coeficiente linear mede o valor de y quando x é


zero. Assim, poderíamos interpretar o coeficiente linear de
525,36 como as quantidades que seriam consumidas do produto
se o seu preço fosse zero. Mas atenção! No presente contexto,
esta interpretação deve ser feita com muito cuidado. Veja a seção
A questão da previsão para entender o por que;

Obs 2: Embora possa parecer, a função linear obtida no Gráfico 3


não é uma relação matemática ou determinística ente P e QD. Ao
contrário, trata-se de uma relação estatística ou estocástica. Para
entender isso de forma simples, olhe para o Gráfico 3 novamente.
Embora a reta ali encontrada seja a que melhor se ajusta àquele
conjunto de pontos, nem todos os pontos estão sobre a reta.
Alguns estão acima, outros abaixo dela. Isto quer dizer que, se
usarmos a reta para fazer previsões, estaremos sujeitos a
cometer erros em nossas previsões. O método dos mínimos
quadrados ordinários visa, justamente, tornar esses erros os
menores possíveis. E por que não podemos ter uma função que
se ajuste perfeitamente aos dados? Porque, preços e quantidades,
assim como outras variáveis económicas e financeiras, são
variáveis aleatórias ou estocásticas. Isso quer dizer que, mesmo
que fixemos um determinado preço, não podemos ter a certeza,
a priori, de quais serão as quantidades demandadas. Isto porque,
vários outros fatores, que não apenas os preços influenciam o
comportamento da demanda, tais como a renda do consumidor,
o preço dos bens substitutos e complementares ao produto em
questão, hábitos de consumo, tamanho da família, propaganda,
condições climáticas, fatores políticos, religião, etc.

Portanto, o nosso modelo QD = 1 + 2 P, que é determinístico,


precisa ser reescrito para incorporar todos os outros fatores que
influenciam o consumo, que não apenas o preço do produto. Tal
modelo é representado por

QD = 1 + 2 P + i

68
em que i é o chamado termo de erro estocástico ou perturbação
estocástica e reúne todos os outros fatores que influenciam as
quantidades demandadas do produto e que fazem com que a
reta não se ajuste perfeitamente aos dados.

Obs 3: Devemos chamar a atenção ainda para o fato de que a


função demanda gerada no Gráfico 3 foi obtida com base numa
única amostra. Portanto, o que temos, é uma estimativa da
verdadeira relação entre preço e quantidades demandadas do
produto em questão. Assim, a função gerada no Gráfico 3 pode
ser genericamente representada da seguinte forma:

   
Y i  1   2 X i  u i

que é chamada de função de regressão amostral (FRA) e onde os


(Yi “chapéus”) são os valores estimados das quantidades
demandadas com base na FRA; os i , i = 1, 2, são, por sua vez, os
estimadores dos verdadeiros coeficientes ’s da função de
regressão que espelha a verdadeira relação entre preços e
quantidades demandadas do produto sob análise, relação esta

que é por nós desconhecida. Finalmente, os u i são os termos de
resíduos e podem ser considerados como as estimativas de i,
isto é, os erros que cometeríamos em nossas previsões mesmo
que dispuséssemos da verdadeira reta de regressão entre preços
e quantidades demandadas do produto, devido, como já vimos,
aos fatores que influenciam a demanda que não só o preço.

Então, de acordo com as considerações anteriores temos o


seguinte: Uma amostra foi recolhida do consumo e preços
praticados de certo produto durante certo período de tempo.
Com base nesta amostra, foi definida uma função de regressão

amostral = -1,8748 + 525,36 + u i . Queremos agora saber qual a
confiabilidade desta função para previsões. Para isso, precisamos
de instrumentos analíticos adicionais que serão expostos a seguir:

69
Análise da função demanda

O Excel dispõe da ferramenta Análise de Dados para o tipo de


análise que faremos a seguir. Entretanto, você só terá acesso a
essa ferramenta se já tiver selecionado, previamente, no menu
Opções e, dentro deste, Suplementos, os suplementos Analysis
ToolPack e Analysis ToolPack VBA.

Digite os dados da Tabela 1 numa folha do Excel. Depois, no


menu Dados, selecione Análise de Dados no bloco Análise.
Depois de abrir a caixa de diálogo Analisar dados, escolha
Regressão. Preencha os dados da caixa Regressão conforme
indicado na Figura 4:

Figura 4. Ferramenta de análise Regressão.

A seguir, pressione o botão OK da ferramenta. Os resultados


aparecem na Figura 5:

70
Figura 5. Resultados da ferramenta Regressão para os dados da Tabela 1.

71
A ferramenta Regressão realiza a análise de regressão tanto
simples (uma única variável independente, que é o nosso caso)
quanto múltipla (mais de uma variável independente1) de um
conjunto de dados. Embora não seja um pacote econométrico
completo, pois outros resultados importantes para análise não
estão disponíveis, ela ainda assim é útil para uma análise inicial e
acessível dos dados. A ferramenta apresenta os resultados em
formato de blocos, que passamos a analisar em seguida:

Bloco Estatística de Regressão

Nesse primeiro bloco, são apresentadas as estatísticas


fundamentais da regressão:

R múltiplo: é o coeficiente de correlação entre as duas variáveis.


O coeficiente de correlação (r) mede o grau de relacionamento
(dependência) linear entre as duas variáveis. r é um número que
varia entre -1 e +1, isto é, -1  r  +1. Quanto mais próximo de +1
estiver r, mais linearmente relacionadas de forma positiva
estarão as variáveis; quanto mais próximo de -1, mais
linearmente relacionadas de forma negativa elas estarão. Se as
duas variáveis forem estatisticamente independentes2 então r = 0.
Mas a recíproca não é verdadeira. Se r = 0, isto não significa que
as duas variáveis sejam independentes: elas podem ter outro tipo
de relacionamento que não o linear. No caso do exemplo, r = -
0,9890, indicando uma forte relação linear negativa entre QD e P.
O coeficiente de correlação também pode ser calculado
utilizando-se a função estatística CORREL do Excel.

Quadrado de R: ou r2, é o coeficiente de determinação da FRA.


Este coeficiente mede o grau de ajuste da reta de regressão ao
conjunto de dados. Ou, por outras palavras, quanto das variações
em QD são explicadas (ou determinadas) por P. O r2 é um
coeficiente que varia entre 0 e 1, isto é, 0  r2  1. Quanto mais

1
A ferramenta aceita até 16 variáveis independentes.
2
Duas variáveis são estatisticamente independentes se a seguinte relação for verdadeira: f (x, y) = f (x) *
f (y). Isto é, se o produto de sua função de probabilidade conjunta for igual ao produto de suas funções
de probabilidade individuais.

72
próximo de 1, melhor é o ajuste e, portanto, maior é a influência
da variável independente sobre a dependente. Se r2 = 0, então
não há nenhuma relação entre as duas variáveis, e a melhor
estimativa para qualquer valor de QD será o seu valor médio. No
exemplo, r2 = 0,9781, o que demonstra que, aproximadamente
97,81% das variações nas quantidades demandadas do produto
são devidas às variações de seu preço, e os restantes 2,19% são

devidos a outros fatores não considerados, os resíduos u i . Uma
forma simples de achar r2 é elevar ao quadrado o coeficiente de
correlação r.

Quadrado de R ajustado: ou r 2 , é o coeficiente de


determinação utilizado para regressões múltiplas.

Erro Padrão: é o erro padrão da estimativa (ep ou  ), ou seja, o
desvio-padrão dos valores QD observados em relação à reta de
regressão estimada. É uma medida da precisão de nossas
estimativas. O erro padrão da estimativa pode ser calculado pela
seguinte fórmula:
2
 

 Yi  Yi 
ep   
n2


em que Yi  Yi são os desvios dos valores observados em relação
aos estimados pela regressão, e n-2 são os chamados graus de
liberdade [o termo número de graus de liberdade significa o
número total de observações na amostra, ou seja, n, menos o
número de restrições independentes (lineares) impostas a elas.
Em resumo, é o número de observações independentes de um
total de n observações. Por exemplo, para que a soma dos
quadrados dos resíduos (SQR) possa ser calculada, deve-se
primeiro obter ̂ ̂ . Estas duas estimativas, portanto, impõem
duas restrições contra a SQR. Logo, há n – 2 e não n observações
independentes para calcular a SQR. Seguindo esta lógica, na
73
regressão de três variáveis, SQR terá n-3 gl, e o modelo de k
variáveis terá n – k gl. A regra é esta: gl= n- número dos
parâmetros estimados.] O erro padrão também pode ser
calculado com a função estatística EPADYX do Excel. Por exemplo,

se usarmos a regressão Q D = -1,8747549P + 525,362759 para
estimarmos o valor de QD para P = $ 230, digamos,

encontraremos Q D = -1,8747549*(230) + 525,362759 94,17.
Interpretamos esse resultado da seguinte maneira:

94,17 é a estimativa da média de QD que obteríamos se


fizéssemos P = $ 230 muitas vezes. Fazendo 94,17 ± ep = 94,17 ±
9,33 ou [88,84; 103,50], temos que aproximadamente 68,3%3 de
QD estarão no intervalo 88,84 e 103,50. Os restantes 31,7%
estarão fora desse intervalo.

Verifique o verdadeiro valor de QD para P = $ 230 na Tabela 1.

Bloco ANOVA (Analysis of Variance)

A ANOVA é utilizada para testar hipóteses relativas à médias


populacionais. No contexto da análise de regressão, ela mede o
“quantum” de variação o modelo apresenta. Sem entrar numa
discussão técnica que aqui não cabe, basta o leitor entender que
o objetivo desta análise é rejeitar ou aceitar a regressão como um
bom modelo de previsão. Isto pode ser feito das seguintes
maneiras:

i) Se dividirmos a média dos quadrados (MQ) da regressão


(38981,30926) pela média dos quadrados dos resíduos
(87,09407398) obtemos o rácio F ou F observado (447,5771). Esta
é uma medida da acurácia da regressão, porque mede a relação
entre o que é explicado e o que deixou de ser explicado pela
regressão. Vejamos o que isto significa:

3
Pela Regra Empírica da Distribuição Normal.

74
Y

Yi

( ̅) ̂ ̂

̂ (̂ ̅)

0 Xi X

O gráfico acima mostra a divisão da variação de Yi em duas


componentes:

∑( ̅ ) = variação total dos valores efetivos de Y em relação à


sua média da amostra. É chamada de soma dos quadrados totais
(SQT).

∑( ̂ ̅ ) = variação dos valores estimados de Y em relação à


sua média da amostra. É chamada de soma dos quadrados devido
à regressão ou explicada pela regressão, ou simplesmente soma
dos quadrados explicada (SQE).

∑(̂ ) = variação residual ou não explicada, também chamada


de soma dos resíduos (SQR).

Assim: SQT = SQE + SQR

Dividindo ambos os lados da equação por SQT, obtemos:

75
Então, r2 é definido como:

A tabela ANOVA dispõe as várias somas dos quadrados e seus gl´s


associados.

Definimos agora a razão F (ou F observado) como:

em que SMQ é a soma da média dos quadrados.

Quanto mais alto for esse rácio, melhor é o poder explanatório da


regressão. Para sabermos o que significa alto, precisamos de uma
medida de comparação. Tal é feito utilizando a função estatística
INV.F.CD do Excel, que é a função inversa da distribuição F.
Fixando um nível de significância () de 5% (já que trabalhamos
com um nível de confiança de 95%) preenchemos a INV.F. CD
conforme mostrado na Figura 6:

Figura 6. Função INV.F. CD do Excel.

76
Onde, no argumento Probabilidade, digitamos o nível de
significância desejado, no caso, 5% ou 0,05. No argumento
Graus_liberdade1, digitamos os graus de liberdade (gl) da
regressão, 1; e no argumento Graus_liberdade2, os graus de
liberdade dos resíduos, 10. Este F encontrado (4,9646) é chamado
de F crítico, e a regra de decisão é a seguinte:

Se F observado > F crítico, concluímos com 95% de confiança


que a variável explicativa preço (P) tem poder explanatório.

Como 447,5771 > 4,9646, aceitamos a regressão como um bom


modelo entre QD e P.

ii) Uma outra forma de concluirmos pela validade ou não da


regressão é utilizarmos o F de significância. Este F de significância
é o menor valor de significância (também chamado de p-value),
isto é, de probabilidade, à qual rejeitamos o F observado. O F de
significância é obtido com a função DIST. F. CD do Excel,
conforme Figura 7:

Figura7. Função estatística DIST. F. CD.

No argumento X, digitamos o valor do F observado, 447,5771. Os


demais argumentos são os mesmos da Figura 3. O resultado
1,23815E-09 (ou seja, nove zeros antes do primeiro dígito

77
significativo) coincide com o resultado obtido com a ferramenta
Regressão. A regra de decisão agora é:

Se o F de significância <  (nível de significância) aceitamos a


regressão.

Como 1,23815E-09 < 0,05, aceitamos a regressão como um bom


modelo.

Os blocos seguintes apresentam as informações:

 Os valores dos coeficientes linear e angular e seus respectivos


erros-padrão.

As fórmulas para obter os coeficientes angular e linear da reta de


regressão são as seguintes:

2 
 X  X Y  Y 
i i
e

1 Y  2 X

 X  X 
2
i

em que X e Y são, respectivamente, os valores médios de X e


Y.

As fórmulas dos erros-padrão dos coeficientes são:


    X  2 
ep  2   ep 1  
n X  X 
i

 X 
e
  X
2
  i
i


em que n é o número de observações e  é o erro-padrão da
estimativa, cuja fórmula já apresentamos anteriormente.

 Stat t (estatística t de Student) são os t observados dos


coeficientes. Para obter os valores apresentados na Figura 5,
basta dividir os valores dos coeficientes pelos seus respectivos
erros-padrão:

Stat t de 1 = 525, 3627597/ 15, 95104831 = 32, 93593932
78

Stat t de  2 = -1, 8747549/0, 088615682 = -21, 15601703
Esses valores são então confrontados com um t crítico para
aceitarmos ou rejeitamos a hipótese de que são estimadores
consistentes.

Para encontrar os t´s críticos podemos utilizar a função INV.T. BC,


que é a inversa da função distribuição t de Student. Esta função
está mostrada na Figura 8:

Figura 8. t´s críticos com a função INV.T.BC.

No argumento Probabilidade, digitamos o nível de significância 


= 0,05. No argumento Graus_liberdade digitamos 10 (que
corresponde a n-2, onde n é o número de observações). A
representação gráfica dos t´s críticos está mostrada na Figura 9:

AR
0,025 0,025

-2,2281 0 2,2281

Figura 9. Distribuição t de Student com os valores críticos.

Com base na Figura 9, a regra de decisão é a seguinte:

79
Rejeite os ´s se os seus t observados estiverem entre -2,2281 e
2,2281. Não os rejeite se os t observados estiverem fora do
intervalo.

Como ambos os t´s observados estão fora do intervalo,


concluímos que existe uma relação entre QD e P. Isto quer dizer
que, em 95 de 100 casos, os t´s observados estarão fora do
intervalo especificado.

Os p-values (valores p) que aparecem a seguir confirmam as


conclusões acima. Os p-values são os menores valores de
probabilidade aos quais aceitamos a hipótese de que os ´s são
não consistentes. Tais p-values podem ser obtidos com a função
DISTT do Excel. Como os p-values são virtualmente zero, não
rejeitamos a hipótese de consistência dos ´s. Repare que o p-
value do coeficiente angular tem o mesmo valor do F de
significância. Isto não é coincidência. Pode-se demonstrar
(embora não o faremos) que isso sempre ocorrerá quando se
trata de regressão simples.

Nas duas colunas seguintes, são apresentados os limites


inferiores e superiores, ao nível de confiança de 95%, do intervalo
em que deverão estar contidos os verdadeiros coeficientes da
reta de regressão. As fórmulas são as seguintes:


  
1  t / 2 * ep 1  = 525,362759 ± 2,2281*15,95104831 =
 

= 489,821  1  560,904
e


  
 2  t / 2 * ep  2  = -1,8747549 ± 2,2281*0,088615682 =
 

= -2,0722  2  -1,6773

80
No bloco Resultado Residual são dadas:

▪ O número de observações: 12

▪ Os valores previstos de QD com base na reta de regressão

▪ Os resíduos, isto é, a diferença entre os valores observados e os


estimados pela reta de regressão para cada valor QD

▪ Os resíduos padronizados para cada P

E, no bloco Resultado de Probabilidade, são ordenados os


valores de QD observados em função de seu percentil, numa
escala de 5 a 95% (valores aproximados). Por exemplo, a
quantidade 100 ocupa o percentil 4,2, enquanto a quantidade
280, o percentil 95,8.

A questão da previsão

Um dos principais objetivos da construção de um modelo de


regressão é utilizá-lo para fazer previsões. Porém, antes de fazê-lo,
devemos checar o nível de ajustamento do modelo:

 Primeiro, devemos observar se os sinais dos coeficientes da


reta de regressão estão de acordo com o que poderíamos esperar
de uma função demanda. Vimos no exemplo, que o sinal do

coeficiente angular (  2 ) é negativo, o que implica uma relação
inversa entre QD e P, o que está de acordo com a teoria do
consumidor.

 Segundo, precisamos identificar se a relação entre QD e P é


estatisticamente significante. Vimos isso de 3 maneiras: o F
observado é bem superior ao F crítico; o F de significância é muito
inferior ao  estabelecido de 5%, e os p-values das estatísticas t
de ambos os coeficientes são praticamente zero.

 Terceiro, precisamos saber quão bem o modelo explica a


variação nas quantidades demandadas. Isso pode ser informado
pelo r2. Como vimos, o r2  0,98, bastante alto, considerando que
este coeficiente tem um valor máximo de 1.
81
Portanto, temos um bom modelo para trabalharmos. Entretanto,
resta ainda uma última análise. Uma das hipóteses do modelo de

regressão linear é a de que os resíduos  i se distribuem
normalmente (isto é, seguem uma distribuição normal). A
verificação desta hipótese é importante porque os testes t e F
realizados anteriormente se baseiam nesta hipótese. Dentre os
inúmeros testes existentes, consideraremos um dos mais

conhecidos, o teste Jarque-Bera (JB), que utiliza os resíduos  i e
a distribuição qui-quadrado (2) com 2 graus de liberdade (gl).

A fórmula de JB é a seguinte:

 A2 C  32 
JB  n   
 6 24 

onde n é o número de observações, A é a assimetria e C é a


curtose da série4. Sob a hipótese nula (H0) de que os resíduos se
distribuem normalmente, a estatística JB segue a distribuição 2
com 2 gl. A regra é a seguinte:

▪ Se o p-value da 2 da série for baixo, rejeitamos a hipótese nula


de que os resíduos se distribuem normalmente.

▪ Se o p-value da 2 da série for alto, não rejeitamos a hipótese


nula de que os resíduos se distribuem normalmente.

Utilizando o pacote GRETL, obtemos para JB o valor de 0,184343.


O valor p para obter tal valor de 2, com 2 gl, é de 0,911949, um
valor bastante alto. Portanto, não há evidências para rejeitar H0.

Previsões por Ponto e por Intervalo

Uma vez verificado o ajuste do modelo, as estimativas ou


previsões podem dar-se por ponto ou por intervalo.

4
A distribuição normal tem assimetria zero e curtose 3. Na fórmula de JB, (C-3) é o excesso de curtose.

82
Estimativas por ponto

Numa estimativa por ponto simplesmente especificamos um


valor para a variável independente e a inserimos na reta de
regressão para encontrar o valor correspondente da variável
dependente. Por exemplo, suponha que queiramos estimar as
quantidades demandadas do produto para um preço de $ 185:

Q D = 525,362759 -1,8747549*185  178

Entretanto, como Q D é um estimador, provavelmente diferirá do
verdadeiro valor QD dado um preço de $ 185. Portanto, uma
estimativa mais útil é aquela por intervalo ou intervalar. Neste
caso, há dois tipos de estimativa intervalar:

Estimativa da média condicional

Neste tipo de previsão, estamos interessados em estimar a média


da população para todas as quantidades de QD e não apenas
daquelas referentes às 12 observações, quando P for fixado em
certo valor. Isto é, estamos interessados nas quantidades médias
demandadas em todos os meses em que o preço for de certo
valor.

Fixemos P0 = $ 185. A seguir, especifiquemos um intervalo de


confiança: 95%, por exemplo. Assim, o intervalo de confiança (IC)
para a média condicional é dado por:

IC QD / P = 185 = Q D ± t epQD

em que epQD é o erro padrão da média condicional e é dado pela


seguinte expressão:

83
epQD
1
 ep * 
P  P
0
2

 P
 P  n
2
n 2

onde ep é o erro padrão da estimativa (já calculado e igual a


9,3324); n é o número de observações (12, no caso); P é o preço
médio (aproximadamente 177,42);  P2  388.811 e
 P 2
 4.532.641 .

Portanto, com os dados acima, encontramos epQD  2,777. Como



Q D = 178 para P0 = 185, nosso intervalo de confiança é:

IC QD / P = 185 = 178 ± t2,777

Para um intervalo de confiança de 95% ( = 0,05) e n-2 = 10 graus


de liberdade, a tabela de estatísticas t5 fornece um t = 2,228.
Assim:

IC QD / P = 185 = 178 ± (2,228)*2,777 = 178 ± 6,1872

ou

172 < QD / P = 185 < 184

Assim, dado P0 = $ 185, em amostragem repetida, 95 entre 100


verdadeiras demandadas.

Se construirmos intervalos como o acima para cada P possível,


formaremos uma banda de confiança tal como a representada na
Figura 8:

5
Utilize a função INVT do Excel.

84
QD

525 Figura 8. Intervalos de confiança para

QD médio.

184

172

Q D =525,3627-1,8747


0 P  177,42 P=185

Repare que, na Figura 8, as bandas tornam-se mais largas nos


extremos. A razão disto é que a análise de regressão é baseada
no conceito de médias. Assim, quanto mais nos afastamos da

média P  177,42 menos acurada (ou precisa) tornam-se as
previsões e, portanto, para manter o IC de 95%, o intervalo deve
ampliar-se.

Estimativa para um único valor de QD

Uma estimativa diferente da anterior é quando queremos prever


a verdadeira quantidade QD para um dado valor P, sob a hipótese
de que este valor P só ocorrerá uma única vez.

Fixemos P0 = $ 185. A seguir, especifiquemos um intervalo de


confiança: 95%, por exemplo. Assim, o intervalo de confiança (IC)
para a média condicional é dado por:

IC QD / P = 185 = Q D ± t epQD i

85
em que epQD i é o erro padrão da média condicional e é dado pela
seguinte expressão:

epQD i
1
 ep * 1  
P  P
0
2

n  P 2

 P 2

n

Fazendo os cálculos, encontramos epQDi  9,7367. Como Q D = 178
para P0 = 185, nosso intervalo de confiança é:

IC QD i/ P = 185 = 178 ± t9, 7367.

Para um intervalo de confiança de 95% ( = 0,05) e n-2 = 10 graus


de liberdade, a tabela de estatísticas t fornece um t = 2,228.
Assim:

IC QD / P = 185 = 178 ± (2,228)*9,7367 = 178 ± 21,6934

ou

156 < QDi / P = 185 < 200

Assim, dado P0 = $ 185 em qualquer mês, 95 entre 100 intervalos


como o acima, incluirão a quantidade verdadeira demandada.

A Figura 9, a seguir, apresenta a banda para um único valor de QD


comparada com a banda da Figura 8. Repare que o intervalo de
confiança para a previsão de um único valor de QD é maior do que
o anterior. Isso ocorre porque estamos lidando com valores
menos previsíveis.

86
QD

525

200

184


Q D =525,3627-1,8747

172

156


0 P  177,42 185

 
Figura 9. Intervalos ou bandas de confiança para Q D médio e Q Di individual.

Duas últimas importantes observações devem ser feitas quanto


aos procedimentos estudados anteriormente sobre a análise de
regressão:

 Como observamos acima, devemos interpretar o coeficiente


linear da reta de regressão com cuidado. Embora o coeficiente
linear seja significante, não podemos afirmar que as
quantidades demandadas serão de 525,36 se o preço do
produto for zero, já que não incluímos zero em nossa amostra.
Portanto, é melhor interpretar o coeficiente linear como o
efeito que, em média, as outras variáveis que influenciam a

87
demanda, e que não estão consideradas no presente modelo,
exercem sobre as quantidades demandadas.

 Um modelo de regressão, tal como o desenvolvido


anteriormente, não deve ser usado para prever valores da
variável dependente a partir de valores da variável
independente que estejam fora dos limites observados na
amostra. Os valores de P, conforme apresentados na Tabela 1,
variam de $ 130 a $ 230. Portanto, isolamos nossas
observações sobre a relação entre QD e P neste intervalo. Não
temos idéia do que acontece entre essas variáveis fora do
intervalo $ 130-$230.

Algumas extensões do modelo de duas variáveis

Regressão pela origem

Há ocasiões em que a reta de regressão (da população) assume a seguinte


forma:
Yi = 2 Xi +i (Eq. 1)

Neste modelo, o coeficiente linear está ausente ou é nulo, daí o nome de


regressão pela origem. Vejamos o seguinte exemplo:
Na teoria das carteiras, a equação da reta característica, a partir da reta de
regressão é:

Onde:
Rj = retorno proporcionado pela ação j em cada ano do horizonte de
tempo estudado.
RF = taxa de juros de um título livre de risco.
RM = retorno da carteira de mercado (o índice da carteira teórica de uma
Bolsa de Valores).
Rj - RF ; RM – RF = são, respectivamente, o retorno adicional da ação j e do
mercado em relação ao retorno do título sem risco.

88
 = coeficiente angular da reta de regressão que identifica o risco
sistemático da ação j em relação ao mercado.
 = coeficiente linear da reta característica.

O parâmetro  indica o retorno esperado em excesso do ativo na hipótese


do retorno em excesso da carteira de mercado ser nulo (RM – RF =0).
Representa, assim, o prêmio pelo risco oferecido pelo ativo. Em equilíbrio
de mercado, a reta característica passa pela origem (validando assim, o
CAPM- Capital Asset Pricing Model).

Como estimamos modelos do tipo da Eq.1 e quais problemas eles


apresentam? Primeiro, estimamos a reta característica com base em
dados amostrais:

(Eq. 2)

Algumas características da Eq. 2 precisam ser destacadas:

 ∑ ̂ , que é sempre zero no modelo com o termo de intercepto


(modelo convencional) não precisa ser zero quando o termo estiver
ausente.
 r2 , o coeficiente de determinação, que nunca é negativo no modelo
convencional, pode ocasionalmente ser negativo no modelo sem o
intercepto. Esse resultado anômalo decorre do fato de o r2 no
modelo convencional supor, explicitamente, que o intercepto está
incluído no modelo. Portanto, o r2 calculado convencionalmente
pode não ser apropriado para modelos de regressão pela origem.
Para tais modelos, podemos calcular o chamado r2 bruto, definido
como:

Este coeficiente é chamado de bruto porque são somas de


quadrados e produtos cruzados não corrigidos pela média.

89
Embora esse r2 bruto satisfaça a relação 0 < r2 < 1, ele não pode ser
comparado diretamente ao r2 convencional.

 Por causa das características especiais desse modelo, é preciso


tomar muito cuidado ao usar o modelo de regressão com intercepto
zero. A menos que haja uma expectativa a priori bastante forte,
aconselha-se utilizar o modelo convencional com o intercepto. Isto
tem dupla vantagem. Primeira, se o termo de intercepto estiver
incluído no modelo, mas se revelar estatisticamente insignificante
(isto é, estatisticamente igual a zero), temos, para todos os fins
práticos, uma regressão pela origem. Segunda e mais importante, se
de fato houver um intercepto no modelo, mas insistirmos em ajustar
uma regressão pela origem estaremos cometendo um erro de
especificação, violando uma das hipóteses do Modelo Clássico de
Regressão Linear.

Veja exemplo no ficheiro Extensões do Modelo de Duas Variáveis


em Excel.

Formas Funcionais

1. O Significado do termo “Linear”


1.1. Linearidade nas Variáveis
O primeiro – e talvez mais “natural” – significado de linearidade é a de
que Y é uma função linear de X, como por exemplo, a equação a seguir:

Geometricamente, a curva de regressão neste caso é uma reta. Por esta

interpretação, uma regressão como não é uma função


linear, pois a variável X aparece com potência 2.

1.2. Linearidade nos Parâmetros


A segunda interpretação de linearidade é a de que Y é uma função
linear dos parâmetros, os  ´s; isso pode ou não ser linear na variável X.
90
Nesta interpretação, é um modelo de regressão linear,

mas, digamos, não é. Este último é um modelo de


regressão não linear nos parâmetros.
Estudaremos agora, alguns modelos de regressão que podem ser não
lineares nas variáveis, mas lineares nos parâmetros:

O Modelo Log-Linear

Considere o seguinte modelo, conhecido como modelo de regressão


exponencial:

que pode ser expresso alternativamente como:

Se escrevermos como:

em que  = ln 1, este modelo é linear nos parâmetros  e 2, linear


nos logaritmos, e pode ser estimado por MQO. Por causa dessa
linearidade, tais modelos são chamados de log-log ou log-linear.

Se as hipóteses do MCRLN são satisfeitas, os parâmetros da equação


anterior podem ser estimados pelo MQO, fazendo com que:

em que Yi* = ln Yi e Xi* = ln Xi .

Uma característica interessante do modelo log-log é que 2 mede a


elasticidade de Y em relação à X. Por exemplo, se a relação entre a

91
quantidade demandada de um bem e o seu preço for como a mostrada
no Gráfico 1:

Gráfico 1 Gráfico 2

QD QD

ln Y = ln1 - 2 ln
Xi

Preço Preço

a transformação em log-linear, como mostra o Gráfico 2, fornecerá a


estimativa da elasticidade-preço (- 2).

Duas características especiais do modelo log-linear podem ser


observadas:
O modelo supõe que o coeficiente de elasticidade 2 permaneça
sempre constante, daí o nome alternativo de modelo de elasticidade
constante. Ou seja, como mostra o Gráfico 2, a variação em ln Y por
mudança unitária em ln X permanece a mesma, não importa com qual
ln X medimos a elasticidade.
 Embora ̂ e ̂ sejam estimadores não enviesados de  e 2, 1
quando estimado como ̂ ( ̂), é ele próprio um estimador
enviesado. Na maioria dos problemas práticos, porém, o termo de
intercepto tem importância secundária e não precisamos nos preocupar
em obter sua estimativa não enviesada.
No modelo de duas variáveis, o meio mais simples de julgar se o modelo
log-linear se ajusta aos dados é fazer um diagrama de dispersão de ln Y i
e ln Xi e ver se os pontos formam aproximadamente uma reta, como no
Gráfico 2.

92
O Modelo Log-Lin

Economistas, homens de negócios e governos estão frequentemente


interessados em saber a taxa de crescimento de certas variáveis
econômicas, tais como população, PNB, oferta monetária, emprego,
produtividade, déficit comercial, etc.
Anteriormente, apresentamos dados sobre o PNB real para os EUA no
período 1970-2011. Suponha que queiramos calcular a taxa de
crescimento do PNB real nesse período. Sejam Yt =PNB real no instante
t e Y0 = valor inicial (isto é, em 1970) do PNB real. Lembrando da
famosa fórmula da capitalização a juros compostos:

Yt = Y0 (1 + r)t

em que r é a taxa composta (isto é, ao longo do tempo) de crescimento


de Y, calculamos agora o logaritmo natural daquela equação:

lnYt = lnY0 + t ln(1 + r) (Eq.3)


Sejam agora
1 = lnY0
2 = ln (1 + r)

Assim, reescrevendo a Eq. 3 e acrescentando o termo de perturbação,


obtemos:
lnYt = 1 + 2 t + i (Eq.4)

Este modelo é parecido com qualquer outro modelo de regressão linear,


já que os ´s são lineares. A única diferença é que a variável
dependente (ou regressando) é o logaritmo natural de Y e a variável
independente (ou regressor) é o tempo, que assumirá valores 1, 2, 3,…
etc.

Modelos como a Eq.4 são chamados de semilog, porque uma variável, o


regressando, aparece na forma logarítmica. Para fins descritivos, um

93
modelo no qual o regressando é logarítmico será chamado de modelo
log-lin.

No modelo da Eq. 4, o coeficiente 2 mede a variação proporcional


(ou relativa) constante em Y para uma dada variação absoluta no valor
do regressor, o tempo t, ou seja:

(Eq. 5)

Se multiplicarmos a variação relativa em Y por 100, a Eq.5 fornecerá


então a variação percentual, ou taxa de crescimento, em Y para uma
variação absoluta em X, o regressor.

Um modelo log-lin como a Eq.5 é particularmente útil em situações em


que a variável X é o tempo, já que nesse caso, o modelo descreve a taxa
de crescimento (se2 > 0) relativo constante, ou taxa de declínio (2 < 0),
na variável Y. Daí o motivo de modelos como a Eq. 4 serem chamados
de modelos de crescimento (constante).
Utilizando o Excel ou o GRETL, obtemos as seguintes estatísticas para o
PNB real dos EUA no periodo 1970-2011:

̂ 0,029441t + 8,353435 (Eq. 6)


ep = (0,000441) (0,010892)
r 2 = 0,9911
t = (66,71372) (766,9492)
p-value = (0,0000) (0,0000)

A interpretação desta regressão é a seguinte:

No período 1970-2011, o PNB real dos EUA aumentou a uma taxa de


2,944% ao ano. Como 8,3534 = ̂ , se calcularmos o antilog de 8,3534,
veremos que o antilog 8,3534 = 4244,95 (aproximadamente), ou seja,
no início de 1970, o PNB real estimado era de cerca de 4.245 bilhões de
dólares.

94
Taxa de crescimento instantâneo versus composta. O coeficiente de
inclinação 0,0294 fornece a taxa de crescimento instantânea (em um
ponto do tempo), e não a taxa de crescimento composta (ao longo de
um período). Mas esta última pode ser calculada facilmente: basta
calcular o antilog de 0,02975, subtrair 1 e depois multiplicar por 100.
Assim, no presente caso:

[antilog (0,0294) – 1]*100  2,99%.

ou seja, no período em análise, a taxa composta de aumento do PNB


real foi de cerca de 2,99% ao ano.

O modelo de tendência linear. Em vez de estimar o modelo da Eq. 4, os


econometristas estimam, às vezes, o seguinte modelo:

(Eq. 7)

Isto é, em vez de regredir o ln de Y sobre o tempo, eles calculam a


regressão de Y sobre o tempo. Tal modelo é chamado de tendência
linear e a variável tempo t é conhecida como variável de tendência. Por
tendência entende-se um movimento sustentado crescente ou
decrescente no comportamento de uma variável. Se o coeficiente de
inclinação da Eq. 7 for positivo, há uma tendência crescente em Y; se for
negativo, há uma tendência decrescente em Y.

Para os nossos dados do PNB real, os resultados baseados na Eq. 7 são


os seguintes:

̂ ( )
ep = (5,5366) (136,650)
r2 = 0,9793
t = (43,5462) (24,3494)
p-value = (0,0000) (0,0000)

Em contraste com a Eq. 6, a interpretação desta regressão é:

95
No período 1970-2011, o PNB real aumentou, em média, à taxa
absoluta (não relativa) de cerca de 241,098 bilhões de dólares. Assim,
nesse período, houve uma tendência crescente no PNB real.
A escolha entre o modelo de crescimento da Eq. 6 e o modelo linear da
Eq. 8 dependerá de estarmos interessados na variação relativa ou
absoluta do PNB real. Outra coisa importante: não podemos comparar
os valores r2 dos dois modelos, porque os regressandos são diferentes
nos dois modelos.
Uma advertência sobre os modelos log-lin e de tendência linear.
Embora estes modelos sejam utilizados com bastante frequência para
estimar a variação relativa na variável dependente ao longo do tempo,
seu uso rotineiro para este fim tem sido questionado por analistas de
séries temporais. O principal argumento deles é que tais modelos
podem ser adequados somente se uma série temporal for estacionária.
Grosso modo, uma série temporal é estacionária se o seu valor médio e
sua variância não se alterarem sistematicamente com o tempo.

O Modelo Lin-Log

Na folha 4 do ficheiro em Excel Extensões do Modelo de Duas Variáveis,


temos os dados do PNB real e da oferta monetária (conceito M2) dos
EUA para o período 1972-2011. Suponha que você esteja interessado
em verificar quanto o PNB aumentará (em valores absolutos) se a oferta
de moeda aumentar em, digamos, 1%.
Ao contrário do modelo anterior que acabamos de ver, no qual
estávamos interessados em achar o aumento percentual de Y para uma
variação absoluta unitária de X, queremos agora encontrar a variação
absoluta de Y para uma variação de 1% em X.

Um modelo capaz de cumprir este papel pode ser escrito como:

Yi = 1 + 2 ln Xi + i (Eq. 9)

Este tipo de modelo é chamado de lin-log. Como de hábito:

96
A segunda forma de expressar 2 resulta do fato de que uma variação
no ln de um número é uma variação relativa.
Assim:

(Eq. 10)

ou equivalentemente:
(Eq. 11)

Deste modo, se numa aplicação obtivermos 2 = 500, a variação


absoluta em Y é (0,01) *500, ou 5,0. Portanto, quando regressões como
a Eq. 9 forem estimadas por MQO, multiplique o valor do coeficiente
estimado ̂ por 0,01 ou, o que dá no mesmo, divida-o por 100.

Com base nos dados de PNB real e M2, obtemos os seguintes


resultados:
̂

ep = (171,0518) (1381,278)

t = (23,36949) ( -16,9702)
p-value = (0,0000) (0,0000)

Interpretado conforme acabamos de descrever, o 2 de


aproximadamente 3997 significa que, no período da amostra, um
aumento em M2 de 1% foi, em média, seguido por um aumento no PNB
de cerca de 39,97 bilhões de dólares.

Se você quiser calcular o coeficiente de elasticidade para modelos log-


lin ou lin-log, pode fazê-lo a partir da definição de coeficiente de
elasticidade dada anteriormente: (dY/dX)*(X/Y). Aliás, quando a forma
funcional de um modelo é conhecida, podemos calcular elasticidades
aplicando essa definição.

97
Relações entre várias variáveis

Vimos como uma única variável independente pode ser usada para prever
o valor de uma variável dependente. Entretanto, uma regressão simples
nos limita a uma única variável independente. Em inúmeros casos temos
que utilizar mais de uma variável independente para explicar o
comportamento de uma única variável dependente. Isto é precisamente o
que a regressão múltipla nos permite. Regressão Múltipla envolve o uso
de duas ou mais variáveis independentes. O modelo de regressão simples
foi expresso como:

O modelo de regressão múltipla é:

(Eq. 12)

Onde k é o número de variáveis independentes e os i são os coeficientes


das variáveis. Em ambos os modelos, i é o componente de erro aleatório
uma vez que nem todas as observações se ajustam à linha de regressão.
Desta maneira, a regressão múltipla é uma extensão lógica do modelo de
regressão simples.

Na planilha em Excel REGRESSÕES MÚLTIPLAS, Plan 1, certa companhia


de aviação desenvolveu um modelo de regressão simples para ajudá-la a
prever o número de passageiros que poderia esperar com base nos gastos
com propaganda de modo a planejar suas operações diárias. A regressão
era:

̂ ̂

O coeficiente angular da regressão de 1,0813 informa que para cada


$1000 de aumento na propaganda o número de passageiros aumentará
em 1080 usuários. O coeficiente de determinação r2 = 0,9377 mostra que
o modelo explica 94% das alterações no número de passageiros.

Entretanto, a companhia sentiu necessidade de expandir seu modelo de


modo a identificar outras variáveis que poderiam explicar também as
alterações no número de passageiros. Foram consideradas variáveis tais
como os preços de comboios e de autocarros, renda dos consumidores,

98
população, etc. Para simplificar a discussão, vamos supor que a
companhia inicie adicionando somente uma variável, a renda do
consumidor, que a companhia supõe poder melhorar o poder
explanatório da regressão. Seu modelo então passa a ser:

(Eq. 13)

onde

Y é o número de passageiros medido em 1000 unidades


X1 são os gastos em propaganda medidos em $1000
X2 é a renda nacional medida em $ trilhões

A regressão amostral é então:

̂ ̂ ̂ ̂ ̂ (Eq. 14)

Os coeficientes ´s são interpretados da seguinte forma: o valor de 1 é o


montante em que Y variará para cada unidade de mudança em X1 se X2
permanecer constante. Para cada unidade de variação em X2, Y mudará
em 2 unidades se X1 permanecer constante.

O modelo de regressão múltipla possui as mesmas hipóteses do modelo


de regressão simples, mais duas. A primeira hipótese requer que o
número de observações, n, exceda o número de variáveis independentes,
k, por pelo menos 2. Na regressão múltipla existem k + 1 parâmetros a
serem estimados: os coeficientes para as k variáveis independentes mais o
intercepto. Portanto, os graus de liberdade associados ao modelo são gl =
n – (k + 1). Se retivermos mesmo 1 grau de liberdade, n deve exceder k por
pelo menos 2, de modo que n – (k + 1) seja pelo menos 1.

A segunda hipótese envolve a relação entre as variáveis independentes.


Essa relação requer que nenhuma das variáveis independentes seja
linearmente relacionada com as demais. Por exemplo, se X1 = X2 + X3, ou
X1 = 0,5X2, então uma relação linear existiria entre duas ou mais variáveis
independentes e um problema sério surgiria. Este problema é chamado de
multicolinearidade. A multicolinearidade pode fazer com que os sinais
algébricos dos coeficientes sejam o oposto daqueles que seriam ditados
pela lógica, enquanto ao mesmo tempo aumentaria em muito os erros
padrão dos coeficientes.

99
Quando utilizamos um modelo de regressão simples, sua representação
gráfica é uma reta. No modelo de regressão múltipla, entretanto, isto não
é mais possível. Se três variáveis estão envolvidas (duas independentes e
uma dependente) um plano de regressão é usado. A presença de mais de
três variáveis requer um hiperplano.

A figura abaixo mostra um plano de regressão:

1
0

2 X1

X2

O modelo de regressão múltipla para a companhia aérea é o seguinte:

̂ (Eq. 15)

que é lido da seguinte forma: Se a propaganda é aumentada em 1 unidade


e a renda nacional permanece constante, o número de passageiros
aumenta em 0,84 unidades. Dado que ambas as variáveis são expressas
em unidades de 1.000, isto significa que se a empresa despender mais
(menos) $1.000 em propaganda, assumindo-se que a renda não mude, o
número de passageiros aumentará (decrescerá) em 840. Por outro lado, se
a renda nacional sobe (desce) em 1 unidade ($1 trilhão) e a propaganda
fica constante, os passageiros aumentarão (decrescerão) em 1,44
unidades, ou 1.440.

Avaliando o modelo como um todo

Dado o modelo da Eq. 15, a pergunta é: “Este modelo tem algum poder
explanatório?”. Isto pode ser respondido pela ANOVA. O procedimento
ANOVA testará se quaisquer das variáveis independentes têm relação com

100
a variável dependente. Se uma variável independente não estiver
relacionada com a variável Y, seu coeficiente deve ser estatisticamente
igual a zero. Isto é, se Xi não estiver relacionado com Y, então i = 0. A
ANOVA testa a hipótese nula de que todos os ´s são zero contra a
alternativa de que pelo menos um  não é zero. Assim:

H0: 1 = 2 = 3 =...= k = 0

H1: pelo menos um  não é zero

Se H0 não for rejeitado, então não existe relação linear entre Y e quaisquer
das variáveis independentes. Por outro lado, se H0 for rejeitado, então
pelo menos uma das variáveis independentes estará linearmente
relacionada a Y.

A tabela ANOVA da ferramenta Regressão do Excel apresenta os seguintes


resultados da regressão:

Para determinar se o modelo tem algum poder explanatório, testamos as


seguintes hipóteses:

H0: 1 = 2 = 0

H1: pelo menos um  não é zero

Dado que o F observado (ou razão F) é 81,81585/0,675135 = 121,1843772,


os graus de liberdade necessários para realizar um teste F são 2 (gl da
Regressão) e 12 (gl do Resíduo). Testando essas hipóteses a um nível de
5%, podemos utilizar a função estatística INV.F.CD, encontrando 3,8853,
conforme mostrado abaixo:

101
A regra de decisão é não rejeitar H0 se o F observado < 3,8853. Isto é
mostrado na figura abaixo:

f (F)

0,05
F
3,8853
121,18

Como, claramente, F observado = 121,18 > 3,885, rejeitamos a hipótese


nula de que 1 = 2 = 0. A companhia pode concluir com 95% de confiança
de que uma relação linear existe entre a variável dependente Passageiros
e pelo menos uma das variáveis independentes.

Testando os Coeficientes da Regressão

A companhia viu que pelo menos uma das variáveis independentes tem
alguma relação com o número de passageiros. O passo lógico seguinte é

102
testar cada coeficiente individualmente para determinar qual (ou quais) é
(são) significante (s).

O procedimento usa a distribuição t, dado que n < 30, e testa a hipótese:

H0: i = 0

H1: i  0

A estatística t é:

em que é o erro padrão de i.

O erro padrão é usado porque se outra amostra de n = 15 fosse tomada,


resultariam diferentes coeficientes devido ao erro amostral. Isto é, os
coeficientes variariam porque observações selecionadas aleatoriamente
na segunda amostra não seriam as mesmas retiradas na primeira amostra.
é usado para capturar a variação.

Testando os coeficientes da Propaganda e da Renda Nacional

Conforme mostrado na tabela ANOVA acima.

Dado que estamos trabalhando com um  = 5% e que o número de graus


de liberdade para o teste é n – k -1 = 15 – 2 – 1 = 12, os valores críticos de
t, utilizando a função INV.T.BC é 2,17881, conforme mostrado abaixo:

103
É um teste bicaudal porque o valor t pode ser significativamente grande
ou significativamente pequeno. Veja então a figura abaixo:

NÃO REJEITE
2,5% 2,5%

-2,1788 0 2,1788 5,917

Regra de Decisão: Não rejeite H0 se -2,1788 < t < 2,1788. Rejeite H0 se t < -
2,1788 ou t > 2,1788.

O valor do teste de 5,917 calculado da amostra está claramente na parte


superior da rejeição de H0. Assim, a empresa pode estar 95% confiante de
que a H0 para 1 = 0 deve ser rejeitada. A propaganda realmente serve
como um fator explanatório para o número de passageiros.

Este mesmo teste para significância também pode ser desenvolvido para
2, o coeficiente da Renda Nacional. De acordo com a tabela ANOVA a
Renda Nacional (RN) tem um valor-p (o valor p é o menor nível de
significância ao qual H0 seria rejeitado) de 0,07392 ou 7,392%. Assim, RN
deve ser significante a qualquer  acima de 7,39%. Testando a  = 5% e o t
crítico sendo  2,1788, a regra de decisão é:

104
Regra de Decisão: Não rejeite H0 se -2,1788 < t < 2,1788. Rejeite H0 se t < -
2,1788 ou t > 2,1788.

O valor t para a Renda Nacional conforme a tabela ANOVA é 1,9577, que


está na região de não rejeitar H0. Assim, a hipótese de que 2 = 0 não é
rejeitada e conclui-se que ao nível de 5% de significância a Renda Nacional
não tem poder explanatório.

Entretanto, se o teste é realizado ao nível de significância de 10%,


obtemos uma conclusão diferente, como vemos nas figuras abaixo:

 = 5%

NÃO REJEITE
2,5% 2,5%

-2,1788 0 1,9577 2,1788

 = 10%

NÃO REJEITE
5% 5%

-1,782 0 1,782

Onde o t crítico =  1,782 foi obtido com a função estatística INV.T. BC


com 10% de probabilidade (nível de significância) e graus de liberdade
igual a 12.

Assim, a regra de decisão com  = 10% é:

105
Regra de Decisão: Não rejeite H0 se -1,782 < t < 1,782. Rejeite H0 se t < -
1,782 ou t > 1,782.

Dado que t = 1,9577, a companhia rejeitará H0 ao nível de 10% de


significância e concluirá com 90% de confiança que a Renda Nacional tem
poder explanatório, ou seja, tem uma relação linear com o número de
passageiros.

O teste mostrou que a RN prova-se significante ao nível de 10% mas ao


nível de 5% H0 não pode ser rejeitado. Estes resultados correspondem a
um valor-p para a RN que mostra que a hipótese nula 2 = 0 pode ser
rejeitada a qualquer nível de significância acima de 7,39% (veja a tabela
ANOVA na linha da Renda Nacional).

Isto demonstra a necessidade de se escolher o valor de  antes da


realização do teste. Dado que diferentes valores para  resultam em
diferentes conclusões, a ética e a imparcialidade profissional requerem
que o valor de  seja determinado na base das consequências de erros do
Tipo I relativamente àqueles de um erro do Tipo II. Rejeitar a hipótese nula
quando ela é verdadeira é um erro do Tipo I. Aceitar a hipótese nula
quando ela é falsa é um erro do Tipo II.

Em suma, a companhia conclui que, com  = 5%, a propaganda mostra-se


uma variável explanatória significativa para o número de passageiros,
enquanto a renda nacional não. Com  = 10%, ambas as variáveis
mostram-se significativas.

O Coeficiente de Determinação Ajustado

Em regressão múltipla usamos o coeficiente de determinação ajustado


(CDA) preferencialmente ao coeficiente de determinação. Por quê?
Porque é possível que, por descuido ou má-fé, insira-se no modelo
variáveis independentes sem nenhum sentido ou relação lógica com o
problema em questão, simplesmente para inflar o r2. Por exemplo, a
companhia aérea poderia aumentar o r2 de seu modelo adicionando,
como variável independente, as toneladas de atum pescadas no Oceano
Pacífico no período da amostra. Ou o número de filhotes de jacarés
nascidos na Amazônia no mesmo período. Obviamente que pesca e
jacarés têm pouco ou nada a haver com o número de passageiros da
empresa. Embora, entretanto, até possa haver uma leve correlação

106
coincidente entre passageiros e atuns ou jacarés, tanto positiva quanto
negativa, o fato é que adicionando variáveis explanatórias “absurdas”,
podemos ilegitimamente aumentar r2. É por isso que é prática comum em
regressões e correlações múltiplas usar-se o CDA, simbolizado por ̅̅̅. Esta
estatística ajusta a medida do poder explanatório da regressão pelo
número de graus de liberdade. A regressão perde 1 grau de liberdade para
cada variável independente adicionada ao modelo porque cada variável
requer o cálculo de outro i e o ̅̅̅ penalizará a regressão por incorporar
uma variável que não adiciona poder explanatório suficiente. O valor de
̅̅̅ decrescerá. Em casos extremos, o CDA pode, na verdade, tornar-se
menor do que zero.

A fórmula do CDA é:

̅̅̅ ( ) ( )

No caso do nosso exemplo, o CDA conforme mostrado na tabela ANOVA é


0,94496 enquanto o r = 0,95282.

A presença de Multicolinearidade

Este problema aparece quando uma das variáveis independentes está


linearmente relacionada a uma ou mais das outras variáveis
independentes. Tal situação viola uma das condições da regressão
múltipla. Especificamente, multicolinearidade ocorre se existe uma alta
correlação entre duas variáveis independentes, Xi e Xj. Anteriormente,
discutimos o coeficiente de correlação r entre a variável dependente e
uma única variável independente. Se este mesmo conceito é aplicado a
duas variáveis independentes, Xi e Xj, em regressão múltipla, podemos
calcular o coeficiente de correlação rij. Se rij for alto, multicolinearidade
existe.

Mas o que é alto? Infelizmente, não há resposta para esta questão crítica.
Não há um ponto de corte no qual a correlação é julgada muito alta e a
multicolinearidade está presente. Multicolinearidade é um problema de
grau. Em qualquer modelo, alguma multicolinearidade sempre existe
entre duas variáveis independentes. Se a sua presença torna-se muito
pronunciada, o modelo é adversamente afetado. O que é considerado

107
muito alto é largamente uma questão de julgamento pelo analista ou
pesquisador.

Os problemas da Multicolinearidade

Um dos mais graves problemas de multicolinearidade surge justamente da


nossa inabilidade para separar os efeitos individuais de cada variável
independente sobre Y. Na presença de multicolinearidade, é impossível
destrinchar os efeitos de cada Xi. Suponha que no seguinte modelo

X1 e X2 mostrem um alto grau de correlação. Neste caso, o coeficiente 10


de X1 pode não representar o efeito real de X1 sobre Y. Os coeficientes da
regressão tornam-se não confiáveis e não podem servir como estimativas
das mudanças de Y dada uma alteração de uma unidade na variável
independente.

Mais ainda, os erros-padrão dos coeficientes tornam-se inflados. Se duas


ou mais amostras de mesmo tamanho forem retiradas da mesma
população, uma grande variação nos coeficientes seria encontrada. No
modelo especificado acima, ao invés de 10 como o coeficiente de X1, uma
segunda amostra geraria um coeficiente de 15 ou 20. Se ̂ varia dessa
maneira de uma amostra para outra, devemos questionar sua acurácia.

Multicolinearidade pode inclusive provocar inversão dos sinais dos


coeficientes, tornando-os opostos àqueles que seriam ditados pela lógica.
Por exemplo, se incluíssemos preço como uma das variáveis num modelo
de uma curva de demanda, poderíamos ver que o seu coeficiente assumiu
um sinal positivo. Isto implica que na medida em que o preço sobe, os
consumidores compram mais. Isto é uma violação óbvia da lógica da
Teoria do Consumidor.

Detectando Multicolinearidade

Talvez o caminho mais direto de testar multicolinearidade é produzir uma


matriz de correlação para todas as variáveis do modelo, conforme
mostrado a seguir na Figura 10, para o exemplo da companhia de aviação:

108
Figura 10. Matriz de Correlação entre Passageiros, Propaganda e Renda Nacional.

A matriz da Figura 10 foi obtida com a ferramenta Correlação do Excel. O


valor de r12 = 0,8698 entre Propaganda e Renda Nacional indica que estas
duas variáveis estão bastante relacionadas. Embora não exista nenhum
valor predeterminado para rij que sinalize multicolinearidade, um rij =
0,8698 é provavelmente alto o suficiente para indicar um problema
significativo.

Alguns dos problemas de adivinhação podem ser eliminados usando-se


um teste t para determinar se o nível de correlação entre Propaganda e
Renda Nacional difere significativamente de zero. Dado a relação
diferente de zero entre Propaganda e Renda Nacional (r = 0,8698) na
amostra, queremos testar a hipótese de que a correlação entre
Propaganda e Renda Nacional é zero ao nível da população. Assim:

H0: 12 =0

H1: 12  0

onde 12 é o coeficiente de correlação da população entre Propaganda e


Renda Nacional. Deste modo, o tOBSERVADO é:

√ √ ( )

Este tOBSERVADO de 6,36 é comparado com um tCRÍTICO, que pode ser obtido
com a função estatística do Excel INV.T. BC, conforme mostra a Figura 11:

109
Figura 11. Obtendo tCRÍTICO com INV.T. BC.

Onde no argumento Probabilidade digitamos 0,05, ou seja, o valor de  (o


nível de significância), uma vez que o intervalo de confiança é de 95%. No
argumento Graus_liberdade digitamos 13, já que gl = n -2 = 15 -2 = 13.

Regra de Decisão: Não rejeite H0 se -2,16 < tOBSERVADO < 2,16. Rejeite se
tOBSERVADO < -2,16 ou tOBSERVADO > 2,16.

Dado que tOBSERVADO = 6,36 > tCRÍTICO = 2,16, a empresa pode rejeitar a
hipótese nula de que não existe correlação entre Propaganda (X1) e Renda
Nacional (X2). Alguma multicolinearidade existe. Isto não significa que o
modelo está irremediavelmente perdido. De fato, muitos poucos modelos
estão totalmente livres de multicolinearidade. Como lidar com isso é o
que veremos mais adiante.

Outra maneira de detectar multicolinearidade é comparar os coeficientes


de determinação entre a variável dependente (Passageiros, no caso) e
cada uma das variáveis independentes. Se regredirmos Passageiros
apenas com Propaganda, encontramos um r2 = 0,9378, enquanto entre
Passageiros e Renda Nacional temos que r2 = 0,8152. Entretanto, juntas,
as duas variáveis independentes revelam um R2 de apenas 0,953. Se
tomadas separadamente, as duas variáveis independentes explicam
93,78% e 81,52% das mudanças em Y (Passageiros). Mas combinadas
explicam 95,3%. Aparentemente existe uma sobreposição nos seus
poderes explanatórios. Incluir a Renda Nacional adiciona pouco ao poder
explanatório da regressão. Muito da informação sobre passageiros já
fornecida pela propaganda está sendo meramente duplicada pela inclusão

110
da Renda Nacional. Isto é uma indicação de que a multicolinearidade deve
estar presente.

Uma terceira maneira de detectar multicolinearidade é usar o chamado


Fator de Inflação de Variação (FIV). O FIV associado com qualquer variável
X é encontrado regressando esta variável X com todas as outras variáveis
X do modelo. O R2 resultante é então usado para calcular o FIV dessa
variável X. O FIV para qualquer variável Xi representa a influência daquela
variável na multicolinearidade. Logo:

O FIV para qualquer variável independente é uma medida do grau de


multicolinearidade contribuído por aquela variável.

Dado que em nosso modelo existem somente duas variáveis


independentes, e regressando X1 (Propaganda) contra X2 (Renda Nacional)
ou X2 contra X1 fornece o mesmo coeficiente de correlação (r12 = 0,8698.
Veja Figura 10), o FIV para qualquer variável independente Xi é:

( )

Onde é o coeficiente de determinação obtido regressando Xi sobre


todas as outras variáveis independentes. Como já observado, a
multicolinearidade produz um incremento na variação, ou erro-padrão, do
coeficiente de regressão. O FIV mede o aumento na variação do
coeficiente da regressão sobre aquele que ocorreria se a
multicolinearidade não estivesse presente.

Para o modelo em questão o FIV é:

( )
( )

O mesmo FIV para X2 seria encontrado dado que há somente duas


variáveis independentes. Se uma variável independente é totalmente não
relacionada com qualquer outra variável independente, seu FIV é igual a 1.
A variação em 1 e 2 é, portanto, quatro vezes o que deveria ser caso não
houvesse multicolinearidade no modelo. Entretanto, em geral,
multicolinearidade não é considerado um problema significativo a menos

111
que o FIV de um único Xi meça pelo menos 10, ou a soma dos FIV´s para
todos os Xi seja pelo menos 10.

Outras indicações de multicolinearidade incluem grandes alterações nos


coeficientes ou seus sinais quando existe uma pequena mudança no
número de observações. Mais ainda, se a razão F é significante e os
valores t não, multicolinearidade pode estar presente. Se a adição ou
exclusão de uma variável produz grandes alterações nos coeficientes ou
seus sinais, multicolinearidade pode também estar presente.

Tratando a Multicolinearidade

O que pode ser feito para eliminar ou mitigar a influência da


multicolinearidade? Talvez a solução mais lógica seja eliminar a variável
que está “a mais”. Se X1 e X2 têm relação muito próxima, uma delas pode
ser simplesmente excluída do modelo. Afinal, devido à sobreposição, a
inclusão da segunda variável adiciona muito pouco à explicação do
comportamento de Y.

Em referência ao modelo que estamos exemplificando, a companhia aérea


deveria retirar a Renda Nacional dado que a correlação com Y é menor do
que com a Propaganda. Os testes t´s realizados acima também sugerem
que a Renda não é significante a um  = 5%.

Entretanto, simplesmente retirar uma das variáveis pode levar a um viés


de especificação, no qual a forma do modelo está em desacordo com seus
fundamentos teóricos. Multicolinearidade pode ser evitada, por exemplo,
se a renda for eliminada de uma expressão funcional para a demanda do
consumidor. Entretanto, a teoria econômica, assim como o senso comum,
diz-nos que a renda deveria ser incluída em qualquer tentativa de explicar
o consumo.

Se retirar uma variável levar a um viés de especificação, nós podemos com


frequência reduzir a multicolinearidade mudando a forma da variável.
Talvez dividindo os valores originais da variável “a mais” pela população
de forma a obter dados per capita prove-se benéfico. Isto poderia ter sido
feito com a Renda Nacional. Adicionalmente, dividindo certas medidas
monetárias por um índice de preços (tal como o IPC) e assim obtendo uma
medida em termos “reais” é também um método efetivo de eliminar a
multicolinearidade.

112
É também possível combinar duas ou mais variáveis. Isto poderia ser feito
com um modelo para a demanda do consumidor, no qual X1 = homens, X2
= mulheres, e X3 = população total. As variáveis X1 e X2 podem ser
adicionadas para formar X3. O modelo então consistiria de uma única
variável explanatória.

Variáveis Dummy e Análise Residual

Em muitas pesquisas podemos encontrar variáveis que são úteis para


explicar o valor de uma variável dependente. Por exemplo, anos de
educação, treinamento e experiência podem ser importantes na
determinação do nível de renda de uma pessoa. Estas variáveis podem ser
facilmente medidas numericamente e prontamente utilizadas para análise
estatística.

Entretanto, este não é o caso de muitas outras variáveis que também são
úteis na explicação de níveis de renda. Estudos têm mostrado que o sexo e
a localização geográfica também carregam poder explanatório
considerável. Uma mulher com o mesmo número de anos de educação e
treinamento de um homem não tem, em geral, o mesmo rendimento. Um
trabalhador no Bié pode não ganhar o mesmo que um trabalhador em
Luanda fazendo o mesmo serviço. Ambos, sexo e geografia, podem provar
serem altamente úteis como variáveis explanatórias no esforço de prever
o rendimento de alguém. Porém, nenhuma destas variáveis pode ser
expressa numericamente e, portanto, serem imediatamente incluídas
num modelo de regressão. Assim, temos que modificar a forma dessas
variáveis não numéricas para incluí-las num modelo econométrico e,
dessa forma, ganhar o poder explanatório adicional que possam oferecer.

Variáveis que não são expressas numa forma quantitativa direta são
chamadas de variáveis qualitativas ou variáveis Dummy. Como outra
ilustração, as vendas de uma firma podem depender da estação do ano.
Roupas de praia provavelmente venderão melhor no Verão do que no
Inverno, enquanto dar-se-ia o contrário com guarda-chuvas e casacos.
Este fator sazonal só pode ser capturado levando-se em conta a estação
do ano, uma variável que não pode ser medida numericamente. Se uma
pessoa é casada, solteira ou divorciada pode afetar suas despesas para
propósitos recreacionais, enquanto o lugar de residência (urbana,
suburbana, ou rural) provavelmente afetará suas despesas com
pagamento de impostos territoriais. Em todos estes casos, as variáveis que

113
queremos medir não podem ser prontamente expressas numericamente.
Devemos então, usar variáveis Dummy para obter uma descrição mais
completa do impacto dessas variáveis não numéricas.

Na planilha 3 do ficheiro em Excel Regressões Múltiplas temos o seguinte


exemplo: Uma cadeia de lojas de departamentos deseja estudar a relação
entre despesas médias de seus consumidores e aqueles variáveis que
sentem, podem explicar o nível dessas despesas. Em adição à escolha
lógica da renda como uma variável explanatória, os diretores sentem que
o sexo dos clientes também desempenha sua parte na explicação das
despesas. A Direção da rede coleta então, 15 observações (meses) para
três variáveis: despesas (em $), renda (em $), e sexo.

Mas como incluímos os dados sobre sexo no modelo? Não se pode


simplesmente especificar M ou F para masculino e feminino porque estas
letras não podem ser manipuladas matematicamente. A solução
encontrada é atribuir valores 0 e 1 para cada observação baseada no sexo.
Assim, podemos por 0 se a especificação for para masculino e 1 se a
observação for feminino. Ou o inverso é igualmente possível (isto é, 0 para
feminino e 1 para masculino).

A regressão obtida é:

(0,000) (0,010)

os valores-p estão nos parênteses.

O uso de uma variável Dummy para sexo produzirá, na verdade, duas


linhas de regressão: uma para sexo masculino e outra para sexo feminino.
Estas linhas têm a mesma inclinação, mas diferentes interceptos. Em
outras palavras, a equação dá duas linhas de regressão paralelas que se
iniciam em pontos diferentes no eixo vertical. Dado que 0 é para
masculino, a equação torna-se:

̂ ( )

para masculino. Veja a Figura 12:

114
Despesas

41,05 ̂

35,94 ̂

17,32

12,21

30 Renda

Figura 12. Duas linhas de regressão para consumidores.

Para mulheres, com o valor atribuído 1, a regressão é:

̂ ( )

Esta segunda regressão tem a mesma inclinação que a regressão


masculina, mas tem um intercepto de 17,32. Dado que S = 1 para
mulheres, o intercepto é determinado como 12,21 + 5,11 = 17,32.

Isto significa que para qualquer nível dado de renda, as consumidoras


dispenderão $5,11 a mais, em média, do que os homens. Suponha uma
renda R = 30 ($ 30.000). Assim, para mulheres:

̂ ( )
e para homens:

̂ ( )

A diferença de $5,11 ocorre porque o valor do código 0 para homens


cancela a variável Sexo, com coeficiente 5,11, enquanto o código 1 para
mulheres resulta na adição de 5,11 na regressão.

O valor-p de 0,010 diz-nos que o coeficiente de 5,11 para o Sexo é


significante ao nível de 1%. Entretanto, se o valor-p não fosse dado,

115
deveríamos testar a hipótese de que ele difere significantemente de zero.
Isto é:

H0: 2 = 0

H1: 2  0

Utilizando a função estatística INV.T. BC, para um  = 5% e gl = 12, temos


um t crítico  2,179.

Regra de Decisão: não rejeite H0 se -2,179 < t < 2,179. Rejeite se t < -2,179
ou t > 2,179.

O valor-p de 3,05 resulta numa rejeição de H0. Conclui-se ao nível de


confiança de 95% que existe uma diferença significativa entre despesas
entre homens e mulheres.

Análise Residual

Uma boa regressão exibe erros aleatórios que são normalmente


distribuídos com média zero (0) e variância constante 2. Se um exame
desses resíduos revelar condições contrárias, isto pode sugerir que
existem problemas inerentes ao modelo. A detecção de qualquer padrão
de correlação nos termos de erro pode significar que algumas das
assunções básicas do modelo podem estar sendo violadas. Vejamos:

Autocorrelação

Uma das propriedades básicas do modelo de regressão é que os erros são


não correlacionados. O erro numa previsão de que o modelo sofre num
ponto no tempo não está linearmente relacionado ao erro que o modelo
sofre em outro ponto no tempo. Idealmente, os erros deveriam aparecer
como mostrado na Figura 13:

116
+e

0 tempo

-e

Figura 13. Ausência de autocorrelação.

Na Figura 13 não há nenhum padrão detectável nos erros. Os termos de


erro parecem ser independentes não oferecem indicação de qualquer
relação entre eles.

A Figura 14 ilustra um padrão típico de autocorrelação. Há um padrão


distinto nos erros. Erros negativos sucessivos iniciam o padrão, seguidos
de erros positivos e assim sucessivamente (na prática, entretanto, não
podemos esperar padrões tão óbvios).

+e

0 tempo

-e

Figura 14. Presença de autocorrelação.

Na presença de autocorrelação, todas as hipóteses e intervalos de


confiança são menos confiáveis.

Como dito acima, detectar visualmente um padrão de autocorrelação nem


sempre é fácil. Precisamos de um método mais confiável, e encontramos
um baseado na estatística d de Durbin-Watson. A estatística d de DW é
usada para testar a hipótese de não autocorrelação:

117
H0: et, et-1 = 0 Sem autocorrelação
H1: et, et-1  0 Autocorrelação presente

e é calculada como:

∑( )
( )
∑( )

A ferramenta Regressão do Excel nos dá os seguintes resultados para os


erros (ou resíduos):

Obtemos agora os resíduos ao quadrado, (et)2, a diferença (et – et-1) e o


quadrado dessas diferenças, (et – et-1)2:

118
A estatística d dá sempre um valor entre zero (0) e quatro (4), isto é:

0 d4

Como regra geral, se d está próximo de 2, assume-se que a autocorrelação


não é um problema. Entretanto, é aconselhável determinar se o valor
encontrado para d usando a fórmula 17 é significante testando a hipótese
de que o coeficiente de correlação  = 0. Então:

Os valores críticos com os quais compararemos d = 2,18 são encontrados


usando-se dois valores: o número de variáveis independentes, k, e o
número de observações, n. No nosso exemplo, k = 2 (renda e sexo) e n =
15. Se  = 0,05, uma tabela de estatísticas de Durbin-Watson (o Excel não
possui uma tabela de estatísticas de DW. Você pode usar o GRETL ou um
livro de Estatística) nos dá limite inferior (dL) = 0,95 e limite superior (dU) =
1,54. Uma escala simples pode ser construída agora, com o na Figura 15:

119
O teste é O teste é
+AC inconclusivo Sem AC inconclusivo -AC

dL dU 2 4-dU 4-dL
0,95 1,54 2,46 3,05

Figura 15. Estatística de Durbin-Watson.

Se dU < d < 4 – dU, não há evidencia the autocorrelação e H0 não é


rejeitada.; d < dL evidencia AC positiva; d > 4 – dL indica AC negativa. As
duas regiões inconclusivas aparecem porque a distribuição de d depende
das características dos inter-relacionamentos entre as variáveis
independentes.

Calculamos d = 2,18. Portanto, H0 não deve ser rejeitada. Parece que a


correlação entre os erros não é um problema.

Como vimos os cálculos são bem tediosos. Eles podem ser simplificados
estimando o valo de d como:

d = 2(1-r) (Equação 18)

onde r é o coeficiente de correlação entre et e et-1.

Heteroscedasticidade

Em adição a qualquer ausência de correlação nos erros, outra propriedade


básica dos modelos de regressão é a homoscedasticidade.
Homoscedasticidade significa variação constante nos erros. A variação nos
erros experimentada quando X é igual a algum valor, digamos 10, é a
mesma quando X é igual a qualquer outro valor. Na Figura 16 (a), como
mostrada pelas duas curvas normais, a distribuição dos valores de Yi acima
e abaixo da linha de regressão é a mesma para X = 10 como para X = 11.
Assim, os erros que são representados pela diferença entre estes valores
de Yi e a linha de regressão são normalmente distribuídos. Isto indica a
presença de homoscedasticidade.

120
Y

10 11 X

Figura 16 (a). Distribuição de erros. Homoscedasticidade.

Se a variância nos erros não é a mesma para todos os valores de X, a


heteroscedasticidade ocorre. A Figura 16 (b) mostra que à medida que X
cresce, a variância nos termos de erro torna-se mais pronunciada. A curva
normal em X = 11 é mais aberta do que a curva em X = 10, indicando
grande dispersão nos erros.

10 11 X

Figura 16 (b). Distribuição de erros. Heteroscedasticidade.

A heteroscedasticidade é comum em dados do tipo cross-section. Dados


cross-section são dados de uma ou mais variáveis coletados no mesmo
ponto do tempo. Dados cross-section são usados, por exemplo, em
investigações sobre despesas de consumidores. Em tais estudos, os dados
são tipicamente coletados para consumo e renda através de níveis de
renda que englobam pobres, ricos e aqueles entre estes dois extremos.
121
Isto constitui-se num conjunto de dados cross-section porque tais dados
cortam por entre diferentes grupos de renda. Como se poderia esperar, os
ricos apresentam um modelo comportamental com respeito ao seu
padrão de consumo diferente do resto. Esta diferença causa a variação
nos termos de erro que evidencia heteroscedasticidade.

Na presença de heteroscedasticidade os coeficientes da regressão


tornam-se menos eficientes. Isto é, há um aumento na variância dos
valores ´s. O valor  obtido com uma amostra difere daquele obtido com
uma amostra diferente. Em tal caso, é difícil por muita fé nos coeficientes
da regressão.

A heteroscedasticidade pode ser frequentemente detectada plotando os


valores de ̂ contra os erros. Se qualquer padrão é apresentado, a
heteroscedasticidade provavelmente estará presente. A Figura 17 (a) e 17
(b) revela possíveis padrões frequentemente encontrados na presença de
heteroscedasticidade. A Figura 17 (c), entretanto, não sugere qualquer
padrão detectável; a heteroscedasticidade parece estar ausente.

+e

0 ̂

-e

Figura 17 (a)

+e

0 ̂

-e

Figura 17 (b)

122
+e

0 ̂

-e

Figura 17 (c)

Entretanto, não devemos confiar apenas na observação dos padrões dos


resíduos para identificar a presença ou não de heteroscedasticidade. É
muito mais útil (e científico) adotar um método mais confiável de análise,
tal como o Teste de White, desenvolvido em 1980 por Halbert White. Tal
método envolve quatro passos bem definidos:

1. Rode a regressão original e obtenha os termos de erro para cada


observação;
2. Eleve ao quadrado os termos de erro para obter e2 e regresse-os
sobre todas as variáveis independentes, sobre os quadrados de
todas as variáveis independentes, e sobre os produtos cruzados de
todas as variáveis independentes. Se existirem três variáveis
independentes X1, X2 e X3, devemos regredir e2 sobre X1, X2, X3, X12,
X22, X32, X1 X2, X1, X3 e X2 X3. Este modelo de regressão é chamado de
modelo auxiliar;
3. Compute nR2, onde n é o número de observações e R2 é o
coeficiente de determinação (não ajustado) da equação auxiliar;
4. Se nR2 > 2, k (distribuição Qui-Quadrado), rejeite a hipótese nula
de que as variâncias dos erros são iguais e assuma que a
heteroscedasticidade existe.

Certas precauções devem ser observadas no desenvolvimento do Passo 2.


Principalmente para nossos propósitos é o perigo envolvido se variáveis
dummies são usadas no modelo. Se Xi é uma variável Dummy, então Xi2
não deve ser incluída na equação auxiliar porque Xi é igual a Xi2 e
multicolinearidade perfeita existe. Em adição, o produto cruzado de duas
variáveis Dummy também é excluído, dado que é igual a zero.

Podemos utilizar o exemplo da Plan 3 do ficheiro Regressões Múltiplas


para testar a existência ou não de heteroscedasticidade. Note que X22 é
excluído dado que X2 é uma variável Dummy.
123
1. Rodando a regressão original e obtendo os termos de erro e os
termos de erro ao quadrado:

2. Rodamos e2 sobre X1 (renda), X2 (sexo), X12 e X1*X2:

124
A equação auxiliar é então:

e2 = -51,7966 + 4,8789X1 – 36,9278X2 - 0,081256X12 + 0,6794X1X2

3. Calculando nR2:

n = 15

R2 = 0,2151

Logo, nR2 = 15*0,2151 = 3,227

4. Utilizamos agora a função estatística INV.QUIQUA. CD, com


probabilidade () = 0,05 e graus de liberdade = 4. O resultado é
9,4877.

Como nR2 < 20,05, 4, isto é, 3,227 < 9,4877, não rejeitamos a hipótese
nula de que os termos de erro têm variâncias iguais, e concluímos
que a heteroscedasticidade não existe.

125
CAPÍTULO 3
SIMULAÇÕES
No contexto das ciências e tecnologias, simular é recriar comportamentos
de um sistema ou processo – o sistema simulado – através de um sistema
computadorizado – o simulador – numa forma adequada para estudo e
interação (exemplos: simuladores de vôo, pacientes virtuais para estudo
de medicina).

Todo o contexto empresarial é influenciado por várias forças (competição,


tendências de consumo, políticas econômicas, entre outras), o que torna o
processo de tomada de decisão bastante complexo. Numa organização, a
implementação de processos de melhoria sem um entendimento total do
impacto que as alterações irão causar, pode ter consequências
imprevisíveis. Daí a importância do uso de ferramentas, como a Simulação
Empresarial, que auxiliam os gestores a compreenderem os seus
processos de negócio e como é que as mudanças nesses processos se vão
refletir em toda a organização.

“A simulação é um processo de projetar um modelo computacional de um


sistema real e realizar experiências com este modelo com o propósito de
entender seu comportamento e/ou avaliar estratégias para sua operação”
Pegden (1990). A vantagem essencial das simulações e de outros
ambientes de aprendizagem sintéticos baseia-se na “capacidade de
aumentar, substituir, criar e/ou gerir a vivência que o indivíduo tem com o
mundo que o rodeia, ao providenciar conteúdo realístico e instrumentos
educacionais” (Cannon-Bowers e Bowers).

Nesta parte de nosso estudo, trataremos de alguns métodos de Simulação


utilizando o Excel.

 SIMULAÇÃO COM O COMANDO ATINGIR META DO EXCEL

No ficheiro em Excel Comando Atingir Meta apresentamos exemplos de


utilização deste comando.

126
• SIMULAÇÃO COM A FERRAMENTA SOLVER DO EXCEL
No ficheiro em Excel SOLVER – PROGRAMAÇÃO MATEMÁTICA,
apresentamos exemplos de utilização desta ferramenta.

• SIMULAÇÃO COM O COMANDO TABELA DE DADOS DO EXCEL


No ficheiro em Excel SOLVER – PROGRAMAÇÃO MATEMÁTICA,
apresentamos um exemplo de utilização deste comando.

CAPÍTULO 4
SÉRIES TEMPORAIS
Define-se série temporal como um conjunto de observações ordenadas no
tempo e que apresentam dependência serial (isto é, dependência entre
instantes de tempo). Uma notação usada para denotar uma série
temporal (dentre outras) é Z1, Z2, Z3,..., ZT, que indica uma série de
tamanho T. O instante T geralmente indica o último instante disponível.

De uma maneira um pouco mais formal dizemos que uma série temporal é
uma realização de um processo estocástico.

Em geral, ao estudarmos uma série temporal, estaremos interessados em


dois aspectos:

a) Análise e Modelagem da Série. Descrever a série, verificar suas


características mais relevantes e suas possíveis relações com outras
séries;
b) Previsão. A partir de valores passados da série (e talvez de outras
séries também), encontrar boas previsões (de curto prazo) de
valores futuros da série. A previsão da série no instante T+K será
denotada por ̂ . O número de instantes à frente para o qual é
feita a previsão (neste caso, K) é chamado horizonte de previsão.

A dependência serial entre os valores da série é um aspecto essencial, pois


nos permite gerar previsões de valores futuros da série. Essas previsões
seriam puro “chute” se não houvesse dependência serial. Também,
diferentes séries possuem diferentes “graus” de previsibilidade; por
exemplo, é frequentemente mais fácil prever uma série de temperaturas

127
médias mensais do que a taxa mensal de inflação. Logo, não se pode
garantir que a previsão encontrada por este ou aquele método será
sempre “boa”, tudo depende das características da série que está sendo
estudada! No entanto, um aspecto deve ser levado em conta ao fazermos
previsões de séries temporais: o nível de incerteza aumenta com o
horizonte de previsão – quanto mais longe futuro, maior é a incerteza
associada à previsão. Isto é intuitivamente razoável, pois é sempre mais
difícil prever o futuro distante, e a nossa previsão estará cercada de
incertezas.

Uma medida do “acerto” das nossas previsões é o erro de previsão k-


passos à frente, definido como:

O erro de previsão k passos à frente no instante k (onde k é um inteiro


maior ou igual a 1) é definido como a diferença entre o valor real da série
no instante t e a previsão feita k instantes antes, isto é:

( ) ̂( )

Um caso particular importante é o erro de previsão um passo à frente,


dado por:

( ) ̂( )

Um bom modelo de previsão produz previsões com erro pequeno, e assim


é interessante acompanhar quantidades como a soma do quadrado dos
erros de previsão, ou a soma dos valores absolutos dos erros de previsão.

O que queremos ao modelar uma série temporal?

 Capturar “toda” a estrutura de dependência existente na série;


 Logo, nos resíduos não deve “sobrar” estrutura, pois ela já foi
capturada pelo modelo. Nota: o resíduo é apenas a diferença entre
o valor real e o ajustado por um modelo qualquer.
 Em particular, se o modelo é bom, os resíduos não devem
apresentar correlação serial (isto é, correlação entre os resíduos em
diferentes instantes de tempo);
 Explicar o comportamento da série com o menor número de
parâmetros.

128
Por onde começar

Em geral, a primeira coisa que fazemos ao estudar série temporal é


construir um gráfico para mostrar a sua evolução ao longo do tempo. Este
procedimento simples costuma ser bastante esclarecedor, e nos permite
identificar como evolui a tendência da série, se existe ou não sazonalidade,
se ocorrem observações aberrantes, etc.

Podemos fazer uma distinção básica entre duas grandes classes de modelos:

 Modelos Univariados. A série temporal é explicada (prevista) apenas


pelos seus valores passados;
 Modelos Multivariados ou Causais. A série temporal é explicada
(prevista) pelos seus valores passados e também pelos valores
passados de outras variáveis.

Neste texto consideraremos apenas modelos univariados

Alguns modelos univariados

1) Ingênuo (naive)

A previsão de ZT+1 (valor da série no instante T+1) é apenas a última


observação. É claro que não é preciso um software para ajustar isso e,
em alguns casos, é o único “método” disponível. Um exemplo
clássico é a previsão do preço de uma ação – geralmente a melhor
previsão para o preço de amanhã é o preço de hoje, o que
certamente é frustrante.

2) Médias Móveis de tamanho n

A cada instante, a previsão é apenas a média das últimas n


observações. Um dos problemas com este método é a escolha de n, o
tamanho da janela a ser utilizado. Quanto maior o valor de n, mais
“suave” é a previsão. Ao contrário, se n é pequeno, a previsão tende
a ser meio “nervosa”, isto é, oscila muito. Uma característica
importante do método de médias móveis é: todas as observações
utilizadas para o cálculo têm o mesmo peso 1/n. Mas, na prática, é
razoável supor que as observações mais recentes sejam mais
relevantes para a previsão dos próximos valores da série e, portanto,

129
deveriam receber um peso maior do que as observações mais antigas.
Esta idéia de ponderar as observações de acordo com as suas “idades”
leva aos diversos métodos de amortecimento exponencial.

3) Amortecimento Exponencial (Exponential Smoothing)

Existem inúmeras variações destes métodos para séries sazonais e


não sazonais. A idéia geral é parecida com a do método das médias
móveis, mas os pesos das observações decrescem à medida que as
observações estão mais longe no passado. A taxa de decréscimo dos
pesos é determinada por uma ou mais constantes de amortecimento.
A maior dificuldade na aplicação é escolher a(s) constante(s) de
amortecimento, mas alguns softwares já ajustam os modelos de
amortecimento automaticamente com constantes de amortecimento
otimizadas.

Na prática, os métodos de amortecimento são os métodos mais


usados no dia a dia das empresas, o que em parte é explicado pela
sua facilidade de implementação e capacidade de gerar boas
previsões.

4) Modelos ARIMA de Box e Jenkins

São modelos mais sofisticados, que usam as correlações entre as


observações em diversos instantes. A idéia por trás dos modelos
ARIMA envolve filtros lineares e algum conhecimento de Teoria dos
Sistemas é útil. A identificação da estrutura do modelo é um pouco
complicada, mas alguns softwares já identificam automaticamente a
estrutura do modelo ARIMA, evitando o passo mais complicado da
análise. Como casos particulares dos modelos ARIMA temos os
processos AR (Autoregressivo) e MA (Médias Móveis ou Moving
Average) – modelos ARMA.

Os modelos ARIMA costumam apresentar melhores resultados que


os métodos de amortecimento quando a série é relativamente
longa e “bem comportada”.
Se a série é muito irregular, os resultados são, geralmente,
inferiores aos obtidos por métodos de amortecimento.

130
Existem também modelos ARIMA multivariados, geralmente
chamados de modelos de função de transferência, mas eles não
serão estudados aqui.

5) Decomposição de Série Temporal

A maneira tradicional de analisar uma série temporal é através da


sua decomposição nas componentes: tendência, sazonalidade,
ciclicidade e aleatoriedade.

A tendência de uma série temporal indica o seu comportamento a


longo prazo, isto é, se ela sobe, desce ou permanece estável, e qual
a velocidade destas mudanças. Nos casos mais comuns,
trabalhamos com tendência constante, linear ou quadrática,
conforme mostrado abaixo:

Zt
t

t
Tendência Constante.

Zt Zt
t tt

t t

Tendência Linear Crescente. Tendência Linear Decrescente.

131
Zt
t

t
Tendência Quadrática.

A sazonalidade indica a repetição de um padrão na série dentro do


período de 1 ano (isto quer dizer que dados anuais não captam
possíveis sazonalidades na série. Os dados têm que ser diários,
mensais, trimestrais ou semestrais). Por exemplo, séries de
consumo de sorvetes ou refrigerantes nos periodos de verão,
consumo de energia elétrica também nos periodos quentes do ano,
vendas de casacos e botas nos periodos frios, são claramente séries
com sazonalidade.

Por exemplo, a série abaixo apresenta sazonalidade nos meses de


Novembro e Dezembro quando as vendas sobem mais do que nos
demais periodos do ano:

Vendas

J F M A M J J A S O N D J F M A M J JA S O N D J F
Meses
Série com sazonalidade.

132
A ciclicidade (ou ciclos) indicam padrões que se repetem na série
superiores a 1 ano. Por exemplo, ciclos relacionados à atividade
econômica e ciclos meteorológicos.

A tabela abaixo lista os oito modelos clássicos de série temporal,


separados por sazonalidade e tendência. Por exemplo, se a variável de
dados não possuir tendência ou sazonalidade, um modelo de Média
Móvel Simples ou de Suavização Exponencial Simples seria suficiente. No
entanto, se existir sazonalidade, mas nenhuma tendência discernível
estiver presente, um modelo Sazonal Aditivo ou Sazonal Multiplicativo
seria melhor, e assim por diante.

Não Sazonalidade Com Sazonalidade


Média Móvel Simples Sazonal Aditivo
Sem Tendência Suavização Exponencial Sazonal Multiplicativo
Simples
Média Móvel Dupla Aditivo de Holt-Winter
Com Tendência Suavização Exponencial Multiplicativo de Holt-
Dupla Winter
Os oito métodos clássicos de série temporal.

O que se pretende sempre é testar cada um destes métodos clássicos e


classificá-los de acordo com o erro.

O método com o erro mais baixo é o melhor método.

Existem dois tipos de métodos sazonais: aditivo e multiplicativo. A


sazonalidade aditiva tem um padrão estacionário de amplitude, e a
sazonalidade multiplicativa tem um padrão de amplitude crescendo ou
decrescendo no decorrer do tempo.

As Figuras abaixo mostram as diferentes curvas de sazonalidades:

133
(a)
(b)

(c) (d)

Da esquerda para a direita:

(a) Sazonalidade aditiva sem tendência


(b) Sazonalidade Aditiva com tendência
(c) Sazonalidade Multiplicativa sem tendência
(d) Sazonalidade Multiplicativa com tendência

Existem duas técnicas principais de previsão de séries temporais:

1. Suavização de Não Sazonalidade que estima uma tendência ou não


removendo dados extremos e reduzindo a aleatoriedade dos dados.

2. Suavização de Sazonalidade que combina a suavização dos dados com


um ajustamento para o comportamento sazonal.

A previsão é que os valores futuros serão constantes. Isto porque o


modelo não possui tendência e assume-se que a oscilação de curto prazo
é apenas ruído.

Aqui a série temporal possui aleatoriedade, mas não possui sazonalidade.

134
Métodos de Previsão através de Modelos com Nenhuma
Tendência ou Sazonalidade

Médias Móveis

Média Móvel Simples (ou Aritmética, ou Não Ponderada)

A média móvel é uma técnica usada para analisar dados em um intervalo


de tempo. É aplicada nas finanças e principalmente na análise técnica de
ações. O principal objetivo da média móvel simples é fornecer o valor
médio de uma variável dentro de um determinado período. Assim, para
cada valor incluído no cálculo da média, o valor mais antigo é excluído. Na
média móvel simples (MMS), cada dado utilizado no cálculo da média terá
o mesmo peso. Por exemplo, uma média móvel da cotação de fechamento
de 10 dias de determinada ação, calculada para a data x, será:

MMS = [Fech(x) + Fech(x-1) + Fech(x-2) + … + Fech(x-9)] ÷ 10

Em outras palavras, a média móvel simples é calculada adicionando-se os


preços (geralmente os preços de fechamento) para um número de
períodos (horas, dias, semanas, etc.) e dividindo-se esse valor pelo
número de períodos.

FÓRMULA DA MMS

( )

onde

Pt+1 = previsão para o período t + 1

Xt = séries de dados para t periodos

N = número de periodos

Veja um exemplo na planilha Excel Médias Móveis.

A MMS é útil em séries que não apresentam tendência ou sazonalidade.

135
Média Móvel Ponderada

A média ponderada é qualquer média que multiplica fatores para fornecer


diferentes pesos para diferentes dados. Na análise técnica de ações, a
média móvel ponderada (MMP) representa, especificamente, o valor de
pesos que diminuem aritmeticamente. Assim, em um dia x, a MMP do
último dia tem peso x, do penúltimo dia tem peso x-1 e assim
sucessivamente até o dia 0.

A média móvel ponderada é utilizada para "solucionar" o problema de


igualdade de pesos. Este indicador é calculado através da soma de todos
os dados de uma série dividida por certo período de tempo e os
multiplicando pela soma dos valores (pesos) de cada período. Por exemplo,
para uma média ponderada de cinco dias, o valor de hoje será
multiplicado por cinco, o de ontem por quatro e assim por diante até que
o primeiro dia na escala do período seja alcançado. Esses valores são
então somados e divididos pela soma dos multiplicadores.

A média móvel ponderada é calculada através da definição do fator peso n


para cada dia em uma média móvel de d dias. Dessa forma, em uma
média móvel pesada de d dias, o último dia terá peso n, o penúltimo terá
peso n-1, e assim sucessivamente. Considerando isso, tem-se que a média
móvel ponderada para o dia d será:

MMPd = npd + (n-1)pd-1 + ... + 2pd-n+2 + pd-n+1 ÷ n + (n-1) +...+ 2 + 1

FÓRMULA DA MMP

(Equação 2)

Onde

i, i=1, 2,...,n são os pesos

Veja um exemplo na planilha Excel Médias Móveis.

Média Móvel Exponencial

Uma Média Móvel Exponencial (MME) é similar a uma Média Móvel


Simples. Uma MME é calculada aplicando uma pequena porcentagem do
136
valor atual ao valor anterior. Aplicando maior peso ao valor atual, a média
móvel exponencial reduz o atraso ao aplicar mais peso aos valores mais
recentes em relação aos dados anteriores. Portando irá reagir mais
rapidamente à alteração de preços ou valores que uma média móvel
simples.

FÓRMULA DA MME

Pt+1 = c*(valor corrente) + (1-c)*MMEPeríodo anterior (Equação 3)


onde

c = é a chamada constante de amortecimento

A fórmula para calcular c é:

Amortecimento (Suavização) Exponencial


Amortecimento Exponencial Simples

Muito usado nos dias de hoje é o modelo de suavização exponencial


simples por ser extremamente simples e possuir fácil capacidade de
ajustes em relação à acurácia obtida com esse método. Enquanto na
média móvel simples as observações passadas são ponderadas igualmente
(1/N), a suavização exponencial atribui pesos decrescendo
exponencialmente quando a observação ficar mais velha. Em outras
palavras, nas observações recentes são dados relativamente mais peso na
previsão do que nas observações mais antigas.

Caso a série temporal em estudo mantenha-se constante sobre um nível


médio, uma suavização exponencial simples pode ser usada para a
previsão de valores futuros dessa série. A representação matemática
desse modelo é dada por:

̂ ( )̂ (Equação 3)

137
Onde ̂ é a previsão para o tempo t+1, feita no período atual t;  é a
constante de suavização, assumindo valores entre zero e 1; yt é o valor
observado (real) na série temporal para o tempo t; e ̂ é o valor da
previsão feita para o tempo t.

Uma forma de medir a acurácia da previsão é calculando o erro gerado


pela mesma, ou seja:

̂ (Equação 4)

O valor da constante de suavização  é arbitrário. Pode-se determinar o


melhor valor para esta através de métodos iterativos para minimizar
alguma medida de qualidade da previsão como, por exemplo, a média do
quadrado dos erros, EQM ou o a sua raiz quadrada, RMSE. Desta maneira,
seleciona-se, inicialmente, um valor aleatório para a constante, a partir do
qual previsões são geradas. Comparam-se os valores previstos com os
reais, e calcula-se a média do quadrado das diferenças entre os mesmos; o
parâmetro que minimiza essa média é utilizado no modelo final. A
magnitude da constante  determina a velocidade de resposta do modelo
frente a mudanças valores da série. Valores baixos para a constante 
fazem com que o modelo demore a reagir às mudanças no
comportamento da série. Com valores altos de , o modelo responde
rapidamente.

Os modelos de suavização exponencial simples requerem uma estimativa


inicial para ̂ . Quando dados históricos estão disponíveis, pode-se usar
uma média simples das N observações mais recentes como ̂ ; caso
contrário, pode-se utilizar a observação mais recente, ou fazer uma
estimativa subjetiva.

Uma medida de eficiência deste método pode ser obtida sob a


consideração que o processo é completamente estável, assim que Y1,
Y2,..., são variáveis aleatórias independentes e identicamente distribuídas
(IID) 6 com variância 2. Portanto, segue que (para t grande):

[̂ ] (Equação 5)
( )⁄

6
Duas variáveis aleatórias são independentes se P (AB) = P(A* B)* P(B) = P(A)*P(B) .

138
Assim que a variância é estatisticamente equivalente para a média móvel
com (2 - ) / = 19. Em termos de variância, o Método de Suavização
Exponencial com este valor de  é equivalente ao Método da Média
Móvel que utiliza 19 observações. Entretanto, se uma mudança no
processo ocorre, a Suavização Exponencial irá reagir mais rapidamente
com melhor ajuste do que o Método da Média Móvel.

Uma desvantagem deste Método está na dificuldade em escolher um


valor apropriado para . O Método de Suavização Exponencial pode ser
visto como um processo de filtragem com um filtro estatístico cujas
entradas são os dados “puros” a partir de um processo estocástico e a
saída são estimativas suavizadas de uma média que varia com o tempo.

Uma maneira de iniciar o processo recursivo é utilizar ̂ ̂

Vamos agora reescrever o problema da produção de leite do tio João.


Usemos uma suavização exponencial simples com  = 0,3. Veja a planilha
Suavização Exponencial.
.
Como pudemos ver naquele exemplo, o método de Suavização
Exponencial Simples é um pouco mais complicado para se construir e dá-
nos um resultado melhor.

A suavização exponencial é útil quando não há tendência. Entretanto, se


os dados tiverem tendência, precisamos usar o método de Suavização
Exponencial Dupla que será discutido abaixo.
.

Métodos de Previsão para Modelos com Tendência e


Nenhuma Sazonalidade

A representação matemática para o processo (que gera a série temporal)


com valor constante, tendência e flutuações aleatórias pode ser dada por:

(Equação 6)

Com t = 1, 2,..., e onde:

Xt é uma variável aleatória observada no tempo t;


a é a tendência do modelo;
139
 é o valor constante do modelo;
t é o erro aleatório ocorrido no tempo t (geralmente assumido ter valor
esperado igual a zero e variância constante).

Média Móvel Dupla (MMD)


Aqui a técnica de média móvel simples é aplicada duas vezes, uma nos
dados originais e depois nos dados resultantes desta primeira aplicação.

Define-se a média móvel dupla de tamanho k como:


[ ] [ ] [ ]
[ ]
(Equação 7)

[ ]
Onde é a média móvel (simples) de tamanho p calculada usando
todas as observações até o instante T(inclusive).

Por que usar médias móveis duplas?

Se os dados exibem uma tendência linear, o uso de médias móveis simples


para a previsão dos valores da série induz a erros sistemáticos, pois a
média móvel simples segue a tendência com certo atraso, e este efeito é
amplificado quando tentamos prever valores futuros. O método de
médias móveis duplas procura diminuir este efeito sistemático.

A previsão é realizada por meio de uma reta inclinada, isto é, há uma


expectativa de que o valor da variável será sempre crescente de modo a
ser compatível com a tendência nos dados históricos.

Os dados possuem aleatoriedade e tendência de crescimento, mas veja


que não há sazonalidade. Atribui a todos os valores passados o mesmo
peso na previsão. Veja que em previsões o analista deve se preocupar com
a tendência.

O modelo matemático para a previsão de k períodos com média móvel é:


[ ] [ ] [ ] [ ]
̂ ( ) (Equação 8)

140
[ ]
é a média móvel (simples) de tamanho k calculada usando as k
observações anteriores ao instante t (inclusive);

[ ]
é a média móvel(dupla) de tamanho k calculada usando as k médias
[ ]
móveis simples anteriores ao instante t (inclusive).
p é o período usado no cálculo da média móvel;

k é o número de períodos de previsão variando de 1 até h (horizonte de


previsão).

Modelo de Previsão por Alisamento Exponencial Duplo de Holt


Quando uma determinada série apresenta aleatoriedade e uma tendência
linear de crescimento (ou decrescimento), o modelo de suavização
exponencial dupla de Holt pode ser usado de maneira satisfatória para a
previsão, caso os outros componentes da série possam ser desprezados.
Este modelo emprega duas constantes de suavização,  e  (com valores
entre 0 e 1), sendo representado por três equações):

( )( ) ( )

( ) ( ) ( )

̂ ( )

onde:

Et é a componente de nível;

Tt é a componente de tendência;

h é o horizonte de previsão;

k = 1, 2,..., h;

̂ é a previsão;

, com valores no intervalo 0<<1, é a constante de suavização da


componente de nível Lt;
, com valores no intervalo 0<<1, é a constante de suavização da
componente tendência Tt;
141
Na equação 9, pode-se perceber que o valor de nível Et é a média
ponderada do próprio valor da série yt e de Et-1 e Tt-1 (nível e tendência
previstos no tempo t-1, respectivamente). Para uma série isenta de erro
aleatório, a quantidade (Et-1 + Tt-1) é exatamente o valor de Et, uma vez que
a variação de tempo entre t e t-1 é obviamente 1. Assim, a expressão (9)
pode ser entendida como:

( ) ( )

Onde:

( ) ( )

Em (10), a parcela Et – Et-1 é a derivada discreta que representa, portanto,


a tendência. Para o restante, o raciocínio é análogo ao realizado para a
expressão (9).

Considerando que a primeira amostra da série temporal é para t = 1, os


valores L1 e T1 são funções de L0 e T0. Como não existe amostra da série
para t = 0, faz-se necessário inicializar L1 e T1. Há várias maneiras de se
inicializar estas variáveis, dentre as quais:

E1 = y1 (Equação 14)

T1 = y2 – y1 (Equação 15)

Ou

( )

( ) ( ) ( )
( )

OBS:- Uma vez que a componente de tendência em uma série é


representada apenas por um coeficiente (coeficiente angular da reta) as
formas apresentadas em (15), (16), (17) para inicializar T1 são possíveis
representações para a derivada discreta da série calculada em t = 1.

142
O modelo é muito usado para modelagem de produtos na fase de
divulgação quando começa a ser aceito pelo público consumidor.

As equações (9) e (10) fazem uma estimativa do nível e da inclinação da


série temporal, respectivamente.

Já a equação (11), calcula a previsão da série para os próximos k períodos.

Assim como na suavização exponencial simples, o método de Holt requer


valores iniciais, neste caso, E0 e T0. Uma alternativa para estes cálculos
iniciais é igualar E0 ao último valor observado na série temporal e calcular
uma média da declividade nas últimas observações para T0. Outra forma
de cálculo é a regressão linear simples aplicada aos dados da série
temporal, onde se obtém o valor da declividade da série temporal e de E0
em sua origem.

As constantes de suavização  e  no modelo de Holt podem ser


determinadas de maneira análoga à obtenção de  na suavização
exponencial simples, ou seja, através da utilização de um método iterativo
que encontre a combinação de  e  que minimize o EQM.

Veja exemplo na planilha AEDH.

Como você viu no exemplo da planilha AEDH, o método de suavização


exponencial dupla é um pouco mais complicado de se construir e deverá
dar-nos resultados melhores. O que acontece se os dados mostrarem
sazonalidade? Neste caso a suavização exponencial dupla não funcionará.

Precisamos usar o método da Suavização Exponencial Tripla que será


discutido a seguir.

Métodos de Previsão para Séries Temporais Sujeitas a Fenômenos


Sazonais e Nenhuma Tendência

É bastante comum existir padrões sazonais com valores maiores em dados


instantes de tempo de que em outros em uma série temporal. Por
exemplo, este fenômeno ocorre para o volume de vendas de panetones
(bolo-rei) entre outros produtos típicos de festas natalinas na época do
Natal, assim como roupas de lã para o período de inverno, bronzeadores e
bonés no período do verão, etc.

143
Este fenômeno viola a consideração de que o processo que gera a série é
por uma componente de valor constante ou com tendência e outra
componente de flutuação aleatória, cujos métodos anteriores de previsão
(média móvel simples, suavização exponencial simples, média móvel dupla,
suavização exponencial dupla de Holt) não podem ser utilizados para
previsão.

Uma maneira de realizar previsões com padrões sazonais é corrigir a série


temporal do efeito da sazonalidade e, depois então, utilizar os métodos de
previsão de média móvel simples ou suavização exponencial simples (para
modelos de séries de valor constante [sem tendência] e sazonalidade),
como veremos nas próximas duas seções, ou ainda o método de previsão
com suavização exponencial dupla de Holt (para modelos de séries com
tendência e sazonalidade), como veremos mais a frente.

Considerando que o processo que gera a série temporal não tenha


tendência, mas tenha sazonalidade, o modelo será dado por:

Xt =  + St + t ( )

Onde: t = 1, 2,...

Xt é uma variável aleatória observada no tempo t;


 é o valor constante do modelo;
St é a componente sazonal no tempo t;
t é o erro aleatório ocorrido no tempo t (geralmente assumido ter valor
esperado igual a zero e variância constante).

Previsão com Correção à Priori da Sazonalidade

O procedimento pode ser resumido como:

1. Corrigir a série temporal do efeito da sazonalidade através da divisão


(ou subtração) dos valores da série temporal pelos seus respectivos
fatores sazonais.

2. Realizar a previsão através dos métodos Método de Previsão de Média


Móvel Simples ou Suavização Exponencial Simples.

3. Multiplicar (ou adicionar) a previsão pelos fatores sazonais


incorporando a sazonalidade.
144
Quando o efeito da sazonalidade é retirado e incorporado à série por meio
de divisão e multiplicação, respectivamente, dos valores da série temporal
pelos fatores sazonais, o método é denominado multiplicativo.

Quando o efeito da sazonalidade é retirado e incorporado à série por meio


de subtração e adição, respectivamente, dos valores da série temporal
pelos fatores sazonais, o método é denominado aditivo.

Modelo de Previsão com Sazonalidade Multiplicativa

O uso deste modelo deve ser para dados que possuam sazonalidade
crescente ou decrescente, mas não possuam tendência de crescimento ou
decrescimento.

O gráfico acima é típico de dados de sazonalidade multiplicativa e sem


tendência, mostrando o ajuste e a linha de previsão.

Este método utiliza a seguinte expressão:

( ) ( )

( ) ( )

̂ ( )

Onde:

Lt é a componente de nível da série no tempo t;


St é a componente de sazonalidade no tempo t;

145
s é o período sazonal ou duração da sazonalidade
h é o horizonte de previsão;
k = 1, 2,..., h, isto é, o número de períodos da previsão;

̂ é a previsão;

 com valores no intervalo 0<<1, é a constante de suavização da


componente de nível Lt;

 com valores no intervalo 0<<1, é a constante de suavização da


componente de sazonalidade St.

As constantes de suavização  e  devem ser estimadas a partir dos dados.

Modelo de Previsão com Sazonalidade Aditiva

Este modelo pode ser usado quando ocorre sazonalidade, mas onde não
se verifica a presença de tendência. Além disso, a amplitude da
sazonalidade é aproximadamente constante ao longo do tempo.

O modelo pode ser usado para realizar a previsão de diversas variáveis tais
como a venda de sorvetes, brinquedos, preços de commodities, etc.

O gráfico acima é típico de dados de sazonalidade aditiva e sem tendência,


mostrando o ajuste e a linha de previsão.

Este método utiliza as seguintes expressões:

( ) ( ) ( )

( ) ( ) ( )

146
̂ ( )

Onde:

Lt é a componente de nível da série no tempo t;

St é a componente de sazonalidade no tempo t;

s é o período sazonal ou duração da sazonalidade;

h é o horizonte de previsão;

k = 1, 2,..., h, isto é, o número de períodos da previsão;

̂ é a previsão;

 com valores no intervalo 0<<1, é a constante de suavização da


componente de nível Lt;
 com valores no intervalo 0<<1, é a constante de suavização da
componente de sazonalidade St.

As constantes de suavização  e  devem ser estimadas a partir dos dados.

Método de Previsão com Suavização Exponencial de Holt-Winters

Os modelos de Holt-Winters são muito utilizados quando da existência de


uma série temporal que apresente, além da tendência, um componente
de sazonalidade. Uma série com esse componente é caracterizada pela
ocorrência de padrões cíclicos de variação, que se repetem em intervalos
relativamente constantes de tempo. São muito observados (esses padrões
cíclicos) em indústrias do ramo alimentício, de vestuário, cosmético, entre
outros.
.
Os modelos de Holt-Winters também são classificados em dois grupos:
aditivo e multiplicativo. No modelo aditivo, a amplitude da variação
sazonal é constante ao longo do tempo; ou seja, a diferença entre o maior
e menor valor de demanda dentro das estações permanece relativamente
constante no tempo. No modelo multiplicativo, a amplitude da variação
sazonal aumenta ou diminui como função do tempo.

147
Considerando que o modelo do processo que gera a série temporal seja
dado por:

Xt =  + at + St + t (Equação 25)

Onde: t = 1, 2,...

Xt é uma variável aleatória observada no tempo t;

a é a tendência do modelo;

 é o valor constante do modelo;

St é a componente sazonal no tempo t;

t é o erro aleatório ocorrido no tempo t (geralmente assumido ter valor


esperado igual a zero e variância constante).

Modelo Sazonal Multiplicativo de Holt-Winters

O modelo multiplicativo de Holt-Winters se ajusta, de maneira mais


adequada, a séries com tendência e sazonalidade multiplicativa, ou seja,
àquelas em que a amplitude da variação sazonal aumenta com o
acréscimo no nível médio da série temporal. Vide figura abaixo:

Este método utiliza a seguinte expressão:

( )( ) ( )
( ) ( ) ( )

148
( ) ( )
̂ ( ) ( ) ( )
onde:

Lt é a componente de nível;
Tt é a componente de tendência;
St é a componente de sazonalidade;
s é o período sazonal;
h é o horizonte de previsão;
k = 1, 2,..., h;
mod(n,m) é o resto da divisão de n por m;
̂ é a previsão;
 com valores no intervalo 0<<1, é a constante de suavização da
componente de nível Lt;
 com valores no intervalo 0<<1, é a constante de suavização da
componente tendência Tt;
 com valores no intervalo 0<<1, é a constante de suavização da
componente de sazonalidade St

Na equação (26), pode-se perceber que os valores da série (xt) são


divididos pelos fatores sazonais, da mesma forma anterior em
̂
para corrigir os valores da série dos efeitos da sazonalidade, as demais
parcelas da expressão são análogas as da expressão de Holt:

( )( ) ( )

A expressão (27) é igual à expressão (10) no método de Holt:

( ) ( ) ( )

Em (29) a sazonalidade é incorporada à série através da multiplicação da


soma dos valores previstos para as componentes de Nível (Lt) e Tendência
(Tt) pela componente sazonal St-s+k.

O método multiplicativo de Winters, como os demais modelos descritos


anteriormente, funciona através da aplicação recursiva de suas equações
aos dados da série. Dessa forma, tal aplicação deve iniciar em algum
período no passado, onde os valores de Lt, Tt e St devem ser estimados.

149
Uma maneira simples de se fazer essa estimativa é através da inicialização
do nível e da tendência no mesmo período m:

 O nível é determinado através da média de primeira estação:

( ) ( )

 Para se inicializar a tendência, é recomendado o uso de duas


estações completas, ou seja, 2s períodos:

( ) ( )

 Por último, os índices sazonais iniciais podem ser determinados


através da razão entre as primeiras observações com a média do
primeiro ano:

( )

Nas expressões acima, ̂ é a previsão para o período t+k, ,  e  são


constantes de suavização, cujos valores encontram-se entre 0 e 1, e yt é a
mais recente observação. Nelas, temos:

 Lt representa uma estimativa do nível da série no tempo t,


 Tt, uma estimativa da declividade da série no mesmo período t e,
 St, o componente de sazonalidade também no período t.

A sazonalidade, ou seja, o número de subperíodos por ano é representado


por s. A escolha dos valores para as constantes de suavização ,  e  é
condicionada a algum critério que, na maioria das vezes, consiste no
mesmo citado anteriormente: a minimização pelo uso de um algoritmo de
otimização não linear, do erro quadrático médio (EQM) atribuído ao
desempenho do modelo usando a ferramenta Solver do Excel.

Vamos começar a construir o modelo. Vá ao ficheiro em Excel AEDH,


planilha 3.

Fizemos uma grande melhora após a otimização com o Solver do Excel.

150
Se no mês 36 vendermos 80 varas de pescar, como você faria para prever
a venda no mês 37? Para prever, simplesmente preencha a fórmula da
célula G39 na célula G40 ou entre com a fórmula =(D39+E39)*F28.

Aqui o resultado é 38,56 varas ou arredondando 39.

Se você quiser prever k períodos adiante, use a seguinte lógica:

̂ ( )

Neste exemplo queremos prever as vendas no mês 44, i.é., 8 meses


adiante, então entramos com =(D39+8*E39)*F35 como você pode ver na
célula G47. O resultado é 328,86, ou arredondando 329 varas de pescar.

E1 = D39 T1= E39 st+k-c = F35 k = 8 c = 12

Como você pode ver neste exemplo, o método da suavização exponencial


tripla é um pouco mais complicado de se construir e nos dará resultados
muito bons.

Modelo Sazonal Aditivo de Holt-Winters

Para séries que possuem tendência e sazonalidade aditiva, o modelo que


apresenta maior capacidade de explicação é o aditivo de Winters. Ou seja,
ele é utilizado nas séries onde o efeito sazonal não é função do nível
médio corrente da série temporal e pode ser adicionado ou subtraído de
uma previsão que dependa apenas de nível e tendência. Veja figura abaixo:

151
O algoritmo de previsão do modelo sazonal aditivo de Holt-Winters é
baseado nas seguintes expressões:

( ) ( )( ) ( )

( ) ( ) ( )

( ) ( ) ( )

̂ ( )

Estas equações são parecidas com aquelas a que se refere ao modelo


multiplicativo de Holt-Winters. A diferença nos dois modelos é o fato das
outras equações, agora, apresentarem os índices de sazonalidade
somados e subtraídos, ao invés de multiplicados e divididos.

As inicializações de Ls e Ts são idênticas às do modelo multiplicativo. Os


valores iniciais para os índices sazonais são determinados através das
seguintes expressões:

S1 = x1 – Ls; S2 = x2 – Ls;...; Ss = xs - Ls

Conclusão

A média móvel é comumente usada com dados de séries temporais para


suavizar flutuações de curto prazo e destacar tendências ou ciclos de
longo prazo. O corte entre curto prazo e longo prazo depende da
aplicação, e os parâmetros da média móvel serão definidos
apropriadamente. Por exemplo, é frequentemente usado em análise
técnica de dados financeiros, como preços de ações, retornos ou volumes
transacionados. É usado também em economia para examinar o produto
interno bruto, empregos e outras séries temporais macroeconômicas.

A suavização exponencial tem-se provado através dos anos como muito


útil em muitas situações de previsão. Ela foi sugerida primeiramente por
C.C.Holt em 1957 e tinha a intenção de ser usada para séries temporais
não sazonais e que não mostrassem tendência. Mais tarde ele ofereceu
um procedimento (1958) que manipula tendências. Winters (1965)
152
generalizou o método para incluir sazonalidade, daí o nome “Método de
Holt-Winters” ou Suavização Exponencial Tripla.

Todos estes métodos de previsão são muito básicos, mas muito úteis. Os
métodos de previsão de séries temporais podem ser mais avançados do
que estes considerados nos nossos exemplos acima. Eles são baseados nos
modelos Auto Regressive Integrated Moving Average (ARIMA) (também
conhecido como técnica de Box-Jenkins). Essencialmente estes assumem
que as séries temporais foram geradas por um processo probabilístico
com valores futuros relacionados aos valores passados, como também aos
erros de previsão passados. Para aplicar os modelos ARIMA a série
temporal precisa ser estacionária. Uma série temporal estacionária é
aquela uma cujas propriedades estatísticas tais como média, variância e
autocorrelação são constantes no decorrer do tempo.

BIBLIOGRAFIA

EHLERS, R.S. Análise de Séries Temporais. Disponível em:


< http://www2.icmc.usp.br/~ehlers/>. Acesso em 22 de dez 2012.

MAKRIDAKIS, S.; WHEELWRIGHT, S.; HYNDMAN, R. Forecasting: Methods


and Applications. 3. Ed., New York: John Wiley & Sons, 1998.

MORETTIN, P.A.; TOLOI, C.M.C. Análise de Séries Temporais. São Paulo:


Editora Edgard Blucher Ltda., 2004.

TSAY, R.S. Analysis of Financial Times Series: Financial Econometrics. New


York: John Wiley & Sons, 2002.

153

Você também pode gostar