Você está na página 1de 61

Texto Didático

Tendências e Raízes Unitárias*

Rogério Silva de Mattos


Universidade Federal de Juiz de Fora
Departamento de Economia
rogerio.mattos@ufjf.edu.br

Maio, 2018

Copyright© Rogério Silva de Mattos

* Este texto foi produzido para suporte ao ensino de econometria de séries temporais. O
autor vem lecionando esta matéria ao longo dos últimos sete anos, na disciplina
Econometria III do curso de graduação em economia da Universidade Federal de Juiz de
Fora. O texto foi feito com o objetivo de contribuir para um melhor entendimento da
matéria não só por alunos de graduação em economia, mas por todos aqueles interessados
no assunto. Devido ao seu caráter introdutório, o texto evita abordar a teoria assintótica
que é típica da teoria estatística subjacente à moderna econometria de séries temporais. A
grande motivação para escrever o documento veio da escassez de bons textos introdutórios,
tanto em português como em outras línguas, que apresentem os conceitos de forma clara e
ao mesmo tempo com boa dose de precisão. Quaisquer comentários são bem vindos.
Sumário

1. Introdução ............................................................................................................................. 1
2. Tendência Determinística ...................................................................................................... 2
3. Tendência Estocástica ........................................................................................................... 5
4. Processo Estacionário............................................................................................................ 8
5. Processo Integrado .............................................................................................................. 10
6. Raíz Unitária ....................................................................................................................... 12
7. Decomposição de Beveridge & Nelson............................................................................... 14
8. Diferença Estacionária ........................................................................................................ 15
9. Média e Variância .............................................................................................................. 17
10. Passeio Aleatório ............................................................................................................... 18
11. Memória e Choques .......................................................................................................... 19
12. Os Quatro Processos.......................................................................................................... 20
13. Testes de Raiz Unitária ..................................................................................................... 21
13.1 Representação Geral .................................................................................................... 21
13.2 Teste de Dickey-Fuller ................................................................................................ 24
13.3 Teste de Phillips–Perron.............................................................................................. 36
13.4 Teste DF–GLS............................................................................................................. 40
13.5 Teste Ponto-Ótimo de ERS ......................................................................................... 45
13.6 Teste ADF com Sazonalidade ..................................................................................... 49
14. Comentários Finais............................................................................................................ 54
Apêndice 1: Decomposição de Beveridge e Nelson ............................................................... 55
Apêndice 2: Relações entre Conceitos .................................................................................... 57
Referências .............................................................................................................................. 58

Copyright© Rogério Silva de Mattos ii


1. Introdução

Uma boa e adequada compreensão dos métodos da Econometria de Séries


Temporais (EST) pode ser obtida a partir das noções de tendência. Em estatística, o
termo “tendência” há muito tempo é visto como um padrão de crescimento ou
decrescimento persistente no comportamento de uma série temporal 1 a longo prazo.
Atualmente, no âmbito da moderna EST, o conceito de tendência também tem a ver
com padrões especiais de não-estacionariedade do mecanismo real que gera uma série
temporal. Há duas noções básicas de tendência que estudaremos aqui: a tendência
determinística e a tendência estocástica2. Inicialmente, visando um bom entendimento
da primeira, usaremos a noção mais antiga de tendência, ao passo que, para entender a
segunda, precisaremos do conceito de não-estacionariedade em processos estocásticos.
As noções de tendência determinística e estocástica são muito importantes na
forma que os econometristas descrevem modernamente a não estacionariedade das
séries econômicas. O conceito central usado para isso é o de processo integrado e, em
particular, sua representação através de modelos lineares do tipo ARIMA(p,d,q). Dessa
última, vem o conceito de processos com raízes unitárias. O uso de processos integrados
em EST é motivado pelo fato de que suas realizações revelam comportamentos
semelhantes aos de muitas séries econômicas, inclusive no que respeita à presença típica
de tendências. Veremos que, dependo da forma como se usa a representação de
processo integrado, os dois tipos de tendência, determinística e estocástica, se
manifestam isoladamente ou em conjunto. Em particular, a presença da tendência
estocástica confere a uma série econômica um padrão de reação permanente a choques
exógenos que tem grande relevância para a análise de políticas econômicas. Assim, ser
capaz de distinguir nos dados temporais essas duas formas de tendência adquire
importância praticamente equivalente à verificação de não estacionariedade.
Essa verificação, por outro lado, também é fundamental como o primeiro estágio
da construção de modelos econométricos de ST. Ela é feita através dos chamados testes
de raíz unitária. Assim, além de discutir o conceito de tendência, este documento
também apresenta uma síntese de alguns testes de raíz unitária muito usados em EST.
Antes de apresentar os testes, faz–se uma breve discussão sobre a estrutura de teste
proposta inicialmente por Dickey e Fuller (1979 e 1981) e que depois veio a ser seguida
pela maioria dos econometristas, embora não todos, que desenvolveram testes de raíz
unitária. Feito isso, são então apresentados os testes de Dickey–Fuller aumentado, de
Phillips–Perron e os dois procedimentos de Elliot et all (1995; testes DF–GLS e Ponto
Ótimo). Todos esses testes são apresentados para análise de séries sem sazonalidade,
mas, ao final, o procedimento do teste ADF para séries com sazonalidade é abordado.
O texto pressupõe que o leitor possua noções de modelos clássicos de
decomposição de séries temporais (em componentes de tendência, ciclo e sazonalidade)

1
O termo “tendência”, na sua versão em inglês trend, aparece pela primeira vez no estudo de Hooker
(1901), que propôs uma forma de modelar os movimentos seculares de uma série temporal através de
médias móveis.
2
De ambas essas noções, derivam ainda outras interpretações do componente de tendência de uma série
temporal. Uma discussão instrutiva a esse respeito é feita por Phillips (2010).

Copyright© Rogério Silva de Mattos 1


e de modelos de regressão linear múltipla. Além disso, é importante que possua também
conhecimentos sobre a metodologia de Box e Jenkins para construção de modelos
ARIMA, uma vez que a moderna EST está bastante desenvolvida sobre conceitos
típicos dessa metodologia.

2. Tendência Determinística

Considere que Yt representa uma variável econômica qualquer, como o PIB ou o


nível de emprego. Agora, assuma que esta variável é gerada por um processo
estocástico simples, como segue:

Yt  TDt  ut
(1)
TDt  a  bt

onde a e b são constantes reais, t é a variável tempo e ut é um processo estocástico


estacionário com média nula. O componente de Yt dado por TDt = a+bt é chamado
usualmente de tendência determinística. Essa forma de denominar esse componente
decorre de dois aspectos. O primeiro é que, visualmente, no plano cartesiano t×Y, a
expressão TDt = a+bt representa uma linha reta que, quando b ≠ 0, possui uma
inclinação que pode ser positiva ou negativa. Neste caso, a inclinação indica que uma
parte de Yt cresce ou decresce persistentemente no tempo, daí representar uma
tendência. Será uma tendência de crescimento ou positiva se b > 0, e de decrescimento
ou negativa se b < 0. Observe as figuras 1.a) e 1.b).

a) Linear Positiva b) Linear Negativa

Copyright© Rogério Silva de Mattos 2


c) Quadrática Explosiva d) Quadrática Amortecida

Figura 1. Tipos de Tendência Determinística

O segundo aspecto decorre de que a tendência assim caracterizada, segundo uma


relação matemática exata, expressa um padrão fixo e previsível. Ou seja, um padrão
“determinístico”, porque esta palavra se refere a algo que se pode determinar ou prever
com certeza. De fato, TDt = a+bt significa que uma parte de Yt sofre um acréscimo fixo
e previsível de b unidades a cada período de tempo, isto é:

TDt  (a bt) (a b(t 1))  b (2)

Juntando, então, a noção de persistência com a de padrão fixo e previsível, a expressão


TDt = a+bt representa um tendência determinística embutida na evolução temporal de
Yt. Além desses aspecto, essa expressão caracteriza um padrão linear, isto é, a tendência
determinística é uma função afim de t que, visualmente, corresponde a uma reta. Por
esse motivo, diz-se que ela representa uma tendência determinística linear.
Vale ressaltar, no entanto, que é possível falar-se de outros padrões de tendência
determinística. Suponha que, ao invés de (1), a seríe Yt evoluísse no tempo segundo:

Yt  TDt  ut
TDt  a  bt ct2

onde c é também uma constante real. Agora, a parte de Yt correspondente à TDt também
é um padrão determinístico de crescimento no tempo. A cada período, uma parte de Yt
cresce ou decresce em TDt = b+ct unidades, portanto, segundo um padrão previsível
também. Porém, esse crescimento se dá de forma variável, isto é, que depende de t.
Agora, a tendência determinística é uma função não–linear de t e sua visualização no
plano t×Y não é mais de uma linha reta, mas de uma linha em curva. Note também que
essa curva representará um padrão de crescimento explosivo, se c > 0, ou amortecido,
se c < 0. Observe as figuras 1.c) e 1.d). No caso aqui considerado, TDt = a+bt+ct2
representa uma tendência determinística quadrática (portanto, não-linear). É fácil
imaginar ainda vários outros padrões não lineares que podem ser representados, como
tendência determinística cúbica, tendência determinística exponencial, etc.

Copyright© Rogério Silva de Mattos 3


O modelo (1) para Yt é usualmente chamado na literatura de EST de tendência
estacionária. Esse nome vem do fato de que Yt possui uma parte representada pela
tendência determinística linear TDt = a+bt e outra parte representada pelo processo
estocástico estacionário ut. Assim, Yt representa um tipo de processo que oscila
aleatoriamente de forma estacionária em torno de uma tendência determinística linear. É
importante distinguir aqui essas duas partes da tendência estacionária. Usaremos as
figuras 2.a) e 2.b) como ilustração.
A figura 2.a) mostra um exemplo de série temporal que segue um processo
estocástico puramente estacionário. Esta série foi simulada artificialmente segundo um
processo AR(1), caracterizado como Yt = 0,6Yt–1 + t, onde t é um ruído branco normal.
Note que a série não apresenta qualquer tendência, isto é, qualquer padrão de
crescimento ou decrescimento persistente no tempo. Parece apenas que a série fica
oscilando em torno de uma constante próxima de zero ao longo do tempo.
Observe agora a figura 2.b). Ela mostra um exemplo de série temporal que segue
uma tendência estacionária propriamente dita. Repare que, nitidamente, a série parece
oscilar aleatoriamente em torno de um padrão de crescimento persistente que se
assemelha a uma tendência determinística linear, no caso crescente. De fato, esta série
foi simulada artificialmente segundo o modelo (1), onde TDt  2 0,15t e
ut  0,6ut1 t . Ou seja, a série foi simulada como a soma de uma tendência
determinística linear mais um processo estocástico estacionário, portanto exatamente
como a tendência estacionária do modelo (1).
4
40
3

2
30
1

0
20
-1

-2 10

-3

-4 0
25 50 75 100 125 150 175 200 25 50 75 100 125 150 175 200

a) Processo Estacionário b) Tendência Estacionária


Yt  0,6Yt1 t Yt  2  0,15t  ut
ut  0,6ut 1   t
Figura 2. Processos estacionário e tendência estacionária. Dados simulados.

Naturalmente, a noção de tendência estacionária pode ser estendida ao modelo


em que Yt representa um processo estocástico que oscila de forma estacionária em torno
de uma tendência determinística quadrática. No entanto, ao longo deste texto, quando
falarmos de tendência estacionária, estaremos pensando usualmente naquele tipo
representado pelo modelo (1), que embute uma tendência determinística linear.
Há ainda dois aspectos interessantes a observar sobre a tendência determinística
linear do modelo (1). Neste texto, em geral estaremos assumindo que o instante t = 0
corresponde a um momento inicial em que o valor do processo estocástico é conhecido.
Assim, a constante a corresponde ao valor inicial da tendência determinística, de modo
que podemos dizer TD0  a . Isso é importante porque podemos entender a tendência
determinística linear de um modo um pouco diferente. Observe que ela pode ser escrita
alternativamente como:

Copyright© Rogério Silva de Mattos 4


TDt  TD0  b
b 
  b  TD0  bt

 (3)
t vezes
Ou seja, a tendência determinística linear é tal que, a cada instante de tempo a partir de
t = 1, um choque determinístico de magnitude b é aplicado sobre TD0 . O efeito de
cada choque persiste na dinâmica temporal de TDt de modo que os efeitos dos choques
vão se acumulando. Em um dado instante t, o termo bt corresponde à acumulação
desses choques determinísticos adicionados t vezes ao valor inicial TD0 .
Chamares aqui o termo bt de núcleo da tendência determinística linear.
Faremos assim porque na expressão TDt  a bt é ele que faz a tendência
determinística linear ser o que é. Se não houvesse ele, isto é, se fosse b = 0, então seria
simplesmente TDt  a , mas neste caso não teríamos tendência alguma. Por outro lado, se
o termo constante é que fosse nulo, isto é a = 0, a tendência determinística seria igual
ao seu núcleo:

TDt  bt

Neste caso, o valor inicial seria nulo, isto é, TD0 a  0 , mas continuaríamos tendo
uma tendência determinística linear.
Finalmente, vale observar que a representação de processo tipo tendência
estacionária para Yt em (1) fornece um princípio para remoção da tendência de uma
série temporal. Conhecido em inglês como detrending, este procedimento já foi muito
usado por estatísticos e econometristas interessados em estudar ciclos embutidos no
comportamento de séries econômicas. De acordo com o modelo em (1), remover a
tendência de Yt é simplesmente computar:

ut Yt TDt Yt a bt

Na prática, esse procedimento é implementado estimando-se antes os parâmetros a e b,


o que é feito normalmente usandose o método dos mínimos quadrados ordinários.
Computa-se uˆt  Yt  aˆ  bˆt , isto é, uma estimativa de Yt com a tendência removida e
então analisa-se para identificação de padrões cíclicos e/ou sazonais. O estudo de ciclos
é um tópico fascinante da análise de séries temporais, mas não iremos nos deter sobre
ele neste texto.

3. Tendência Estocástica

Há outro conceito muito importante em EST que é o de tendência estocástica.


Em geral, os econometristas entendem tendência estocástica como um crescimento
persistente no tempo que é aleatório, e não fixo como a constante b no caso da tendência
determinística linear em (1)-(2). Se designarmos a tendência estocástica por TEt, isso
significa que:

TEt  t (4)

Copyright© Rogério Silva de Mattos 5


onde εt é uma variável aleatória. Em particular, os econometristas costumam assumir
que εt é um processo estocástico estacionário com média nula, variância constante e
descorrelatado no tempo3. Repare que, se reescrevermos a expressão (4) de outra forma,
subtraindo TEt 1 de ambos os lados da equação, obtemos:

TEt  TEt 1  t (5)

Essa nova expressão (5) é que representa efetivamente a tendência estocástica porque
caracteriza a evolução no tempo para a variável em nível TEt . A figura 3.a) ilustra o
comportamento dinâmico de uma tendência estocástica através de uma série temporal
simulada segundo (5).

25 80

70
20
60
15
50

10 40

5 30

20
0
10
-5
0

-10 -10
25 50 75 100 125 150 175 200 25 50 75 100 125 150 175 200

a) Tendência Estocástica b) Tendência Geral


TEt  TEt1 t TGt TDt TEt
TDt  0,25t
Figura 3. Tendência estocástica e tendência geral. Dados simulados. Em ambos os
gráficos, Y0 = 0 e t é um ruído branco.

Os econometrias costumam chamar o termo de erro  t de choque exógeno ou choque


aleatório. Assim como fizemos no caso da tendência determinística linear, podemos
trabalhar mais a expressão (5) e verificar que a tendência estocástica também pode ser
vista como uma acumulação de incrementos, ou melhor, de choques. Assumindo que o
valor inicial TE0 é conhecido (assim como fizemos com TD0 ) e realizando
substituições sucessivas da expressão (5) dentro dela mesma:

t
TEt  TE0  1   2    t  TE0   j (6)
j 1

Ou seja, a tendência estocástica no período t corresponde ao valor inicial TE0 mais a


acumulação de todos os erros ou choques passados até t. Aqui, chamaremos o termo
tj1 j de núcleo da tendência estocástica porque ele é que a caracteriza enquanto tal.
3
O termo “tendência estocástica” é bastante usado na literatura de EST, mas nunca é definido de um
modo explícito. Por isso, acontece de diferentes autores conceituálo de diferentes maneiras. Por
exemplo, Box e Jenkins (1970, p.92) definem “tendência estocástica” de modo genérico como E(∆dYt)=,
onde  é uma constante não nula. Atualmente, parece haver certa unanimidade entre a maioria dos autores
de que tendência estocástica seria a definição que estamos usando aqui nas expressões (4) ou (5).

Copyright© Rogério Silva de Mattos 6


Se o valor inicial for nulo, isto é, TE0  0, então a tendência estocástica se torna idêntica
ao seu núcleo:

t
TEt   j (7)
j 1

Agora, considere uma variável Yt que segue um processo estocástico simples


composto por uma tendência estocástica mais um erro, isto é:

Yt  TEt  ut
(8)
TEt  TEt1  t

onde ut é um erro aleatório com média nula e variância constante. Esse tipo de processo
estocástico veremos muitas vezes ao longo deste texto. Se quisermos remover a
tendência estocástica de Yt, procedemos de modo análogo ao que fizemos no caso da
tendência determinística, isto é:

ut  Yt TEt (9)

Basta, portanto, subtrair a tendência estocástica da variável Yt. Outro tipo de processo
estocástico que veremos também várias vezes embute ambas as formas de tendência:

Yt  TDt  TEt  ut
TD  a  bt (10)
TEt  TEt 1  t

Este caso também é de grande interesse porque muitas séries econômicas aparentam ter
esse comportamento, isto é, parecem apresentar um padrão de persistência que resulta
de um acréscimo fixo, como em (2), somado a um acréscimo aleatório, como em (4).
Este tipo de padrão dá origem à chamada tendência geral:

TGt TDt TEt (11)

A figura 3.b) ilustra esse padrão de tendência geral. Ele engloba ambas as formas de
tendência determinística e estocástica juntas. O processo para Yt em (10), portanto, é
composto por uma tendência geral mais um erro estacionário. Note aqui que, para
remover a tendência deste tipo de processo, não basta subtrair TDt de ambos os lados,
porque permaneceria a tendência estocástica TEt. A remoção completa da tendência
envolveria expurgála da tendência geral, isto é:

ut  Yt TGt

A tendência estocástica tal como definida acima segue um tipo particular de


processo estocástico não estacionário conhecido como processo integrado de ordem um.
Esse conceito de processo integrado possui um papel central na moderna EST. No
intuito de compreender bem seu significado, vamos a seguir introduzir alguns conceitos

Copyright© Rogério Silva de Mattos 7


relevantes associados às noções de estacionariedade e não-estacionariedade de um
processo estocástico.

4. Processo Estacionário

Seja Yt um processo estocástico com as seguintes características:

E(Yt )   (12)
Var(Yt )   2 (13)
Cov(Yt ,Yts )  s (14)

Onde , 2 e s (s = 1,2,...) são constantes reais. Isso significa que Yt apresenta média e
variâncias constantes no tempo e autocovariâncias que dependem apenas da distância s
entre os períodos t e t – s. Ou seja, nem a média, nem a variância, nem as
autocovariâncias do processo Yt dependem do tempo t. Assim caracterizado, Yt é um
processo estacionário fraco. A propriedade “estacionariedade fraca” é uma forma
restrita do conceito mais amplo de “estacionariedade”. Na prática, os econometristas de
ST costumam trabalhar com essa forma “fraca” porque ela é mais operacional e atende
satisfatoriamente à caracterização de processos estocásticos para séries temporais. Por
isso, é esse conceito de estacionariedade que usaremos daqui em diante. Isso quer dizer
que sempre que nos referirmos a um processo estocástico como estacionário, será no
sentido “fraco” tal como caracterizado pelas condições (12), (13) e (14).
Dado esse esclarecimento, um tipo de processo estacionário muito conhecido é o
chamado processo ruído branco. Ele é muito usado em estatística e econometria para
representar os erros em modelos de regressão. Supondo que t seja um processo ruído
branco, isso significa que ele atende às características (12), (13) e (14) porque
apresenta:

 média nula: E(t )  0


 variância constante: Var(t )  2
 autocorrelação nula: Cov(t ,ts )  0 s 1,2,

Essas características do processo ruído branco estabelecem um tipo de variável


“puramente” aleatória evoluindo no tempo, porém de forma estacionária segundo a
caracterização dada pelas condições (12), (13) e (14). Repare que é um processo desse
tipo que usamos para caracterizar o termo de erro da tendência estocástica apresentada
na expressão (5).
Outro tipo de processo estacionário muito conhecido é o chamado modelo
ARMA(p,q), proposto por Box e Jenkins (1970) para se construir modelos estatísticos
de séries temporais. A sigla refere-se a “AutoRegressive Moving Average”, porque a
representação matemática é dada por:

Yt  1Yt 1   pYt  p    t 1t 1  qt q (15)


AR MA

onde , 1,..., p, 1,..., q são parâmetros. A parte indicada como AR é a parte
autorregressiva, onde se caracteriza a relação de Yt com seus valores passados até um

Copyright© Rogério Silva de Mattos 8


lag máximo p. De forma análoga, o termo indicado por MA é a parte média móvel dos
erros presente e passados, onde se caracteriza a relação de Yt com os esses erros até um
lag máximo q. Assume-se que esses erros seguem um processo ruído branco. Esse tipo
de modelo fez muito sucesso entre economistas e econometristas e é usado até hoje para
modelagem e previsão de várias séries econômicas.
O modelo ARMA(p,q) em (15) não necessariamente respeita as características
(12), (13) e (14) para que Yt seja estacionário. Por exemplo, se o parâmetro
autorregressivo 1 for maior do que um, com os demais parâmetros autorregressivos
2,3,...,p assumindo valores no intervalo (1,1), Yt apresentará um comportamento
explosivo. Então, sob que condições o modelo ARMA(p,q) é um processo estacionário
para Yt? Para estabelecer isso com precisão, Box e Jenkins usaram uma representação
mais compacta do modelo ARMA(p,q), como segue:

(B)Yt  (B)t (16)

onde:

 B é o operador de defasagens (i.e., Bm zt  zt m ),


 (B) 11B p Bp é o polinômio autorregresivo ou AR,
  (B) 11B q Bq é o polinômio média móvel ou MA.

O que garante que o modelo ARMA(p,q) de fato represente um processo estacionário é


que o polinômio AR possua suas raízes fora do círculo unitário. É a chamada condição
de estacionariedade. O polinômio MA pode ter suas raízes em qualquer região do
plano complexo que isso não afeta a estacionariedade de Yt, segundo o modelo
ARMA(p,q). É, portanto, no polinômio AR que está ncrustada a condição de
estacionariedade.
No entanto, Box e Jenkins trabalham o tempo todo com a hipótese de que
também o polinômio MA possui raízes fora do círculo unitário e chamam essa
propriedade de invertibilidade. Fazem assim para garantir uma conveniência
matemática, qual seja, a de que a razão entre ambos os polinômios AR e MA resulte
num outro polinômio que, apesar de possuir infinitos termos, é convergente (isto é, a
razão é um número real). Isso garante que possamos escrever o modelo ARMA(p,q) de
duas formas alternativas:

 (B)
Yt  a   (17)
(B) t
(B)
t  Y  a
 (B) t
(18)

onde a   / (1) . Resumindo, o importante é que os modelos ARMA(p,q) usados por


Box e Jenkins, e que formam a base para a moderna EST, são estacionários e
invertíveis. Esse tipo de processo vai ser importante em uma das definições de processo
integrado que apresentaremos a seguir.

Copyright© Rogério Silva de Mattos 9


5. Processo Integrado

Quando um processo estocástico viola pelo menos uma das condições (12), (13)
ou (14), ele apresenta a propriedade de ser não-estacionário. Portanto, a expressão
“não-estacionariedade” refere-se à violação da propriedade de uma série ou processo
estocástico ser estacionário. Se apenas a média de um processo estocástico variar com o
tempo, isto é, se acontecer E(Yt )  t com as demais condições (13) e (14) mantidas,
isso é suficiente para fazê-lo não-estacionário. Um exemplo seria quando a média de Yt
é uma tendência determinística linear, isto é: t = a+bt. De outra forma, se apenas a
variância estiver variando com o tempo, por exemplo segundo Var(Yt) = ct2 (com c
constante e positiva), então Yt seria também não estacionário. Neste caso, Yt apresentaria
um padrão heterocedástico. Em suma, basta que apenas uma das condições (12), (13) e
(14) seja violada para termos Yt seguindo um processo não estacionário.
Na verdade, existem muitos padrões de nãoestacionariedade. Por exemplo,
alguns processos estocásticos podem gerar séries explosivas que crescem
indefinidamente para + ou decrescem para . Outros geram séries que oscilam entre
um valor positivo e outro negativo, com amplitude crescente. Podem também embutir
padrões diferentes de tendência que se misturam com um ciclo de modo aditivo ou
multiplicativo. Neste texto, quando falarmos de processo nãoestacionário, vamos nos
limitar a um tipo particular conhecido como processo integrado. Dada a centralidade
que esse tipo de processo estocástico tem na moderna teoria de EST, é conveniente
precisarmos seu conceito. A seguir, apresentamos duas definições que aparecem na
literatura de EST, iniciando com uma que é mais geral ou ampla:

Processo Integrado (definição ampla): Um processo estocástico nãoestacionário para


uma variável 𝑌𝑡 é chamado processo integrado de ordem d, ou I(d), se é preciso
diferenciálo ao menos d vezes para se tornar um processo estacionário.

Segue desta definição ampla que se Yt seguir um processo não–estacionário


integrado de ordem 2, ou I(2), Yt seguirá também um processo não–estacionário e
somente 2Yt é que seguirá um processo estacionário. Ou seja, precisamos diferenciar
Yt, em ao menos duas vezes para obtermos um processo estacionário. Por sua vez, Yt
seguirá um processo integrado de ordem um, ou I(1), porque basta diferenciar uma vez,
para obtermos um processo estacionário. Segue ainda da definição que um processo
estacionário não precisa ser diferenciado, logo é um processo não–integrado. Usa–se a
terminologia processo integrado de ordem zero ou I(0) para representar um processo
estacionário.
O caso mais usual de processo integrado é o de ordem um, ou I(1). Ele nos
permite caracterizar o mecanismo gerador de muitas séries econômicas. Embora já
exista uma significativa literatura econométrica sobre processos I(2), falaremos neste
texto somente de processos I(1). Um aspecto importante de um processo I(1) é que ele
pode ser escrito como:

t
Yt  Zi (19)
i 

Copyright© Rogério Silva de Mattos 10


onde Yt é um processo I(1) e Zt é um processo I(0). Ou seja, um processo I(1) é a soma
ou acumulação dinâmica de valores para um processo I(0). Isso nos permite entender
por que o termo “integrado” é usado. Ele é emprestado da área de cálculo em
matemática, onde uma integral representa uma “soma” de valores de uma função e a
operação inversa, a derivada, uma “diferença”. De fato, veja que Yt , tal como definido
em (19), atende à definição de processo integrado de ordem (1), ou I(1), porque sua
primeira diferença:

t t 1
Yt  Yt  Yt 1  Zi  Zi  Zt (20)
i  i 

segue um processo I(0). Observe que os fatos em (19) e (20) continuam valendo se
considerarmos um período inicial arbitrário t = 0 em que Z0  a e a é uma constante
conhecida. Neste caso, basta trocar o símbolo “–” por a nas expressões (19) e (20).
O conceito de processo integrado de ordem d, ou I(d), vem da representação de
processos estocásticos como modelos lineares da classe ARIMA(p,d,q). De fato, o
parâmetro d de um modelo ARIMA(p,d,q) representa o número de vezes que se tem de
diferenciar o processo estocástico até ele se tornar estacionário. Por esse motivo, um
adequado entendimento dos conceitos e técnicas da moderna EST fica facilitado se
pensarmos processos integrados I(d) e modelos ARIMA(p,d,q) como sinônimos4. Isto
nos leva aqui a apresentar outra definição de processo integrado, apresentada por Engle
e Granger (1987), que é mais restrita do que a anterior:

Processo integrado (definição restrita de Engle e Granger (1987)): Um processo


estocástico nãoestacionário sem termos determinísticos para uma variável 𝑌𝑡 é
chamado processo integrado de ordem d, ou I(d), se é preciso diferenciálo ao menos d
vezes para se tornar um processo estacionário do tipo ARMA(p,q) invertível.

Note que esta definição é mais restrita porque exige que o processo estacionário I(0) que
resulta após diferenciarmos Yt por d vezes seja um modelo ARMA(p,q) estacionário e
também invertível, tal como explicamos anteriormente. Mais ainda, também exige que o
modelo ARIMA(p,d,q) para 𝑌𝑡 não possua termos determinísticos. Por exemplo,
considere os três processos estocásticos ARIMA(0,1,1) a seguir:

Yt  t 2t1
Yt 1t 0,5t 1
Yt  t 0,5t 1

Esses três processos são estacionários para ∆Yt e não estacionários para Yt. Apesar de os
três serem estacionários para ∆Yt, somente o terceiro se enquadra na definição restrita de
processo integrado. Note que o primeiro não atende à condição de invertibilidade
porque o polinômio média móvel é igual a (1 2B) e, portanto, possui uma raiz B = 1/2
que fica dentro do círculo unitário. O segundo atende essa condição, mas apresenta uma
constante igual a 1, logo possui um termo determinístico. Só o terceiro se enquadra na
definição restrita, porque não tem constante (isto é, ela é igual a zero) e é invertível.
4
O leitor deve ser avisado, porém, que há processos estocásticos não estacionários mais gerais,
representados de forma não paramétrica, que podem ser caracterizados como integrados. A este respeito,
pode ser visto o trabalho de Stock (1994), mas avisamos desde já que tratase de texto avançado.

Copyright© Rogério Silva de Mattos 11


Muitos livrostexto e parte da literatura em geral sobre EST usa a definição
ampla. No restante deste documento, iremos seguir a definição restrita. Preferimos fazer
assim porque ela nos leva a apresentar a teoria de EST com menos inconsistências. Ela
nos permite identificar um processo integrado I(d) com um modelo ARIMA(p,d,q) tal
como na expressão (16), mas assumindo que a constante é nula ( = 0) e que o
polinômio média móvel é invertível. Mais ainda, a definição restrita implica uma
associação íntima entre processo integrado e a presença de raízes unitárias na parte AR
do modelo ARIMA(p,d,q). Este é o assunto da próxima seção.

6. Raíz Unitária

Vamos considerar agora o caso particular de um processo integrado escrito


como um modelo ARIMA(p,1,q) da seguinte forma:

(B)Yt (B)t (21)

onde (B) é o polinômio autorregressivo de grau p e (B) o polinômio médias móveis


de grau q, ambos definidos no operador de defasagens B, e t é um processo estacionário
de tipo ruído branco. Repare que estamos omitindo a constante do lado direito de (21),
ou seja, estamos assumindo que ela é nula. Vamos assumir que ambos os polinômios
(B) e (B) são tais que apresentam raízes fora do círculo unitário, logo o processo em
(21) respeita as condições de estacionariedade (para Yt ) e de invertibilidade.
Assim, o processo para a variável em nível Yt é não estacionário do tipo I(1), no
sentido de que precisa ser diferenciado uma vez para se tornar estacionário. Além disso,
ele admite uma representação ARMA(p,q) invertível e assim atende a definição restrita
de processo integrado que estamos usando. O termo em primeira diferença Yt do lado
esquerdo de (21) é, portanto, estacionário ou I(0). Uma outra forma de expressar tudo
isso é dizer que o processo para Yt possui uma raiz unitária. Este termo vem do fato
que o polinômio autorregressivo (B) multiplica  = (1-B), constituindo assim o
polinômio expandido (B) = (B)(1-B), de grau p + 1. Claramente, esse polinômio
possui uma raiz unitária dada por B = 1. Por essa razão, em EST o processo para Yt em
(21) é chamado de processo de raiz unitária. Note que se refere a um processo com
apenas uma raiz unitária no polinômio autorregressivo expandido, ou na parte AR, e
sem nenhuma raiz unitária no polinômio MA, ou na parte MA 5 . Observe que,
obviamente, ele representa um processo sem raiz unitária para a variável em primeiras
diferenças Yt.
Perceba agora que, uma vez que o polinômio autorregressivo (B) atende às
condições de estacionariedade, podemos invertê-lo e re-escrever (21) como:

 (B)
Yt   . (22)
(B) t

5
Estaremos chamando aqui de processo de raiz unitária (no singular) ao processo com uma única raiz
unitária na parte AR, tal como descrito em (21). Neste caso, ele equivale a um processo I(1) segundo
nossa definição definição de processo integrado. Quando houver mais de uma raiz unitária na parte AR,
estaremos chamando de processo de raízes unitárias, isto é, no plural. Observe também que a expressão
“raiz unitária” ao longo deste documento sempre dirá respeito à parte AR, a menos que especificado de
outra forma.

Copyright© Rogério Silva de Mattos 12


O termo no lado direito de (22) representa um processo estocástico estacionário, ou I(0),
e do tipo ARMA(p,q) invertível devido às hipóteses que estamos adotando. Visando
facilitar a exposição, vamos denominar esse termo como ut e re-escrever (22) de uma
forma ainda mais simples:

Yt  ut (23)

Observe que a expressão (23) na verdade representa um processo com uma raiz unitária
para Yt, porque foi desenvolvido a partir do modelo ARIMA(p,1,q) da equação (10).
Veja também que ela representa um processo estacionário ou I(0) para Yt (porque ut é
I(0)) e um processo não estacionário ou I(1) para Yt. Somando Yt-1 a ambos os lados de
(23), obtemos:

Yt  Yt1  ut (24)

A expressão (24), e não a expressão (23), é a forma mais usual de se representar um


processo integrado de ordem um ou I(1). Daqui para a frente, estaremos às vezes
chamando o processo I(1) em (24), que não apresenta constante ou nenhum termo
determinístico, de processo de raiz unitária. A figura 5.a) ilustra este tipo de processo,
apresentando uma série simulada segundo a expressão (24) com os erros seguindo um
processo MA(1), isto é, ut  t 0,5t1 .
Assumindo que o processo para Yt começa em t = 0 com um valor conhecido Y0
e realizando substituições sucessivas da expressão (24) dentro dela mesma:

𝑌𝑡 = (𝑌𝑡−2 + 𝑢𝑡−1 ) + 𝑢𝑡
. = (𝑌𝑡−3 + 𝑢𝑡−2 ) + 𝑢𝑡−1 +𝑢𝑡
= ⋮

chegamos a:

𝑌𝑡 = 𝑌0 + 𝑢1 + 𝑢2 + ⋯ + 𝑢𝑡−1 +𝑢𝑡 = 𝑌0 + ∑𝑡𝑖=1 𝑢𝑖 (25)

Assim, um processo I(1) ou de raiz unitária também pode ser visto como a acumulação
de erros ou choques que seguem um processo estacionário ou I(0). Ele está representado
pelo termo ti1ui no lado direito de (28). De fato, como assumimos que Y0 é uma
constante dada, este termo é um processo I(1). Mas, a expressão (25) também nos
chama a atenção para outro aspecto. Os choques passados ut-1, ut-2,... repercutem sobre o
valor atual de Yt de forma persistente, isto é, sem decair de importância ao longo do
tempo. Ou seja, em processos I(1) ou de raiz unitária, os choques passados possuem
efeitos persistentes sobre Yt, caracterizando tais processos como de tipo memória longa
e contrastando com processos estacionários, que são do tipo memória curta. Falaremos
sobre esses conceitos de memória de processos em mais detalhe na seção 13.
É importante enfatizar aqui que um processo integrado, segundo a definição
restrita que estamos usando, está intimamente ligado à presença de raízes unitárias. Por
exemplo, o processo para Yt da equação (24) é I(1) devido à presença de uma raiz
unitária na parte AR do modelo ARIMA(p,1,q) da equação (21). Assim, sempre que
falarmos de processo integrado, estaremos falando de um processo não estacionário do
tipo ARIMA(p,d,q), isto é, que possui d raízes unitárias na parte AR. Observe também

Copyright© Rogério Silva de Mattos 13


que seria possível um modelo ARIMA(p,d,q) possuir raízes unitárias na parte MA, mas
neste caso ele seria nãoinvertível. Daqui em diante, a menos que indicado de outra
forma, quando falarmos em raízes unitárias estaremos nos referindo à parte AR porque a
parte MA estaremos assumindo sempre que não possui raízes unitárias.

7. Decomposição de Beveridge & Nelson

A figura 4.a) mostra um exemplo simulado de um processo de raiz unitária do


tipo ARIMA(0,1,1) sem constante como descrito nas expressões (21)-(25). Note que a
série se comporta de modo diferente de uma série estacionária. Ela não apresenta um
padrão de retornar para uma média constante. Ao contrário, mostra um padrão de
evolução sem destino, entrelaçando fases distintas de crescimento ou decrescimento
persistentes.
Além disso, note que a expressão (24) é muito parecida com a expressão (5) para
a tendência estocástica. A diferença entre ambas e que merece ser destacada é que:

 ut é um processo ARMA(p,q) estacionário e invertível,


 εt é um processo ruído branco.

Ou seja, a diferença está na maneira como se caracterizam os erros. Em ambas as


expressões, o erro é um processo I(0). Só que, no processo de raiz unitária ou I(1), o
erro é um processo ARMA(p,q) e, na tendência estocástica, o erro é um processo ruído
branco. Em outras palavras, a tendência estocástica é um caso particular de um processo
de raiz unitária ou I(1) em que o erro é um ruído branco.
No entanto, embora o processo de raiz unitária representado na expressão (24),
com erro I(0) do tipo ARMA(p,q), não seja idêntico à uma tendência estocástica,
Beveridge e Nelson (1981) mostraram que na verdade ele embute uma tendência
estocástica. Esses autores mostraram que todo modelo ARIMA(p,1,q) pode ser
decomposto em um componente de tendência estocástica mais um termo I(0). Este fato
é conhecido na literatura de EST como decomposição de Beveridge-Nelson (BN). Nós
falamos disso em mais detalhe no Apêndice 1, mas vale a pena aqui pelo menos
expressar formalmente essa idéia dizendo que o processo de raiz unitária na expressão
(24) pode ser transformado em:

Yt TEt  wt (26)

onde TEt representa uma tendência estocástica e wt é um processo ARMA(p,q),


portanto estacionário. Assim, a mensagem implícita da decomposição BN é que:

 todo processo com uma raiz unitária pode ser decomposto em uma tendência
estocástica mais um processo estacionário.

Esse aspecto vai ser muito importante nas próximas seções deste documento e será
fundamental para um correto entendimento de como se aplicam os testes de raíz
unitária.

Copyright© Rogério Silva de Mattos 14


50 100

40 80

30 60

20 40

10 20

0 0

-10 -20
25 50 75 100 125 150 175 200 25 50 75 100 125 150 175 200

a) ARIMA(0,1,1): Yt  Yt1 t 0,5t1 b) ARIMA(0,1,1) com constante:


Yt Yt1 0,5t 0,5t1
4 4

3 3

2 2

1 1

0 0

-1 -1

-2 -2

-3 -3

-4 -4
25 50 75 100 125 150 175 200 25 50 75 100 125 150 175 200

c) ARIMA(0,1,1): Yt  t 0,5t1 d) ARIMA(0,1,1) com constante:


Yt  0,5  t  0,5t1
Figura 4. Processos com raíz unitária (i.e., que embutem tendência estocástica) e
primeiras diferenças. Dados simulados. Em ambos os gráficos Y0 = 0 e t é um ruído
branco.

8. Diferença Estacionária

Voltando ao processo integrado ou de raiz unitária descrito nas expressões (21)-


(25), note que ele representa uma forma de não estacionariedade puramente estocástica.
Isso é importante porque significa que não há uma tendência determinística envolvida,
apenas um mecanismo puramente estocástico que imprime ao processo Yt um padrão
não-estacionário. Vejamos agora o que acontece se admitirmos que o processo
ARIMA(p,1,q) em (21) possui uma constante  ≠ 0 do lado direito:

(B)Yt   (B)t

Podemos seguir os mesmos passos de antes e desenvolver uma nova versão da


expressão (24):

Yt  a ut (27)

Onde a   / (1) é uma constante não nula e, como antes, ut é um processo


ARMA(p,q). Subtraindo Yt-1 de ambos os lados de (27):

Yt  a Yt1  ut (28)

Copyright© Rogério Silva de Mattos 15


Seguindo os mesmos passos que antes e realizando substituições sucessivas da
expressão (28) dentro dela mesma:

Yt  a  (a  Yt 2  ut 1 )  ut
 a  a  (a  Yt 3  ut 2 )  ut 1  ut

chegamos a:

t
Yt  Y0  at  ui (29)
i1

A expressão (28) mostra que a simples presença de uma constante não nula num
processo ARIMA(p,1,q) introduz mudanças importantes. Primeiro, aparece uma
tendência determinística linear, devido à presença do termo at, junto com um processo
de raiz unitária (sem constante), representado pelo termo ti1ui . Segundo, de acordo
com a decomposição BN, este último termo pode ser decomposto em uma tendência
estocástica mais um processo estacionário, como vimos na expressão (26). Desse
segundo aspecto, decorre que o processo em (29) consiste de:

 tendência determinística linear + tendência estocástica + termo I(0).

A importância deste fato, e por isso o destacamos acima, é que um processo de raiz
unitária puro como em (24) embute apenas tendência estocástica, mas a mera adição de
uma constante não nula em sua representação, como em (28), faz com que ele apresente
dois tipos de tendência: uma determinística e outra estocástica. A figura 4.b) mostra um
exemplo de série desse tipo, isto é, que embute tendências determinística e estocástica
juntas. Esta série foi simulada artificialmente como um processo ARIMA(0,1,1) com
constante, segundo a equação Yt  0,5 Yt 1  t  0,5t 1.
Note que, pela definição restrita de processo integrado, apenas o processo de raiz
unitária em (24) pode ser chamado de I(1). Porém, tanto este processo quanto aquele
apresentado em (28) se tornam estacionários se forem diferenciados, como nas
expressões (23) e (27), respectivamente. Reiteramos que o processo na expressão (24) é
o que chamamos aqui de processo de raiz unitária. Agora, observe que o processo na
expressão (28), ao ser reescrito de outra forma na expressão (29), é a soma de uma
tendência determinística linear mais um processo de raiz unitária (sem constante como
em (24)) ou I(1). Ao longo deste texto, vamos trabalhar com a noção de que ele é um
processo não estacionário que embute um processo de raíz unitária ou I(1), mas não se
identifica exatamente com o último.
Por esse motivo, estaremos usando um nome diferente de “raiz unitária” ou
“I(1)” para designar o processo da expressão (28). Vamos chamá-lo aqui de diferença
estacionária, uma denominação introduzida por Nelson e Plosser (1982) e que vem
sendo usada recorrentemente na literatura de EST. Ele recebe este nome porque, assim
como um processo I(1), se torna estacionário ao ser diferenciado uma vez (isto é, a
diferenciação elimina conjuntamente as tendências determinística e estocástica). As
figuras 4.c) e 4.d) ilustram essa característica, pois mostram as primeiras diferenças das
séries nas figuras 4.a) e 4.b), respectivamente. Note que para as duas séries geradas por

Copyright© Rogério Silva de Mattos 16


modelos ARIMA(0,1,1) sem e com constante, suas primeiras diferenças são séries
estacionárias (mas só a segunda é um processo de tipo diferença estacionária).
É interessante aqui comparar o processo de diferença estacionária segundo (28)
com aquele que chamamos anteriormente de tendência estacionária e que foi
representado na expressão (1). Note que ambos têm em comum o fato de que embutem
uma tendência determinística. De fato, a tendência estacionária, como vimos, é uma
tendência determinística mais um processo estocástico estacionário e está ilustrada na
figura 2.b). O processo de diferença estacionária, por sua vez, é uma tendência
determinística mais um processo I(1) - ou melhor, se considerarmos a decomposição
BN, uma tendência determinística mais uma tendência estocástica mais um processo
estacionário - e está ilustrado na figura 4.b). Note que a tendência determinística, que é
comum a ambos os processos, desempenha papéis diferentes em cada um. Na tendência
estacionária, ela funciona como uma espécie de “atrator” da série temporal. Ou seja, é
como se ela atraísse a série para andar junto com ela. Já no caso da diferença
estacionária, é como se a tendência determinística “empurrasse” persistentemente o
processo I(1) para cima. Como vimos antes, este último não é “atraído” para qualquer
lugar justamente porque é não-estacionário.
Quando temos, de forma geral, um processo ARIMA(p,d,q):

(B)dYt    (B)t (30)

então, de forma análoga, o polinômio expandido (B)d = (B)(1-B) d é tal que possui d
raízes unitárias. Neste caso, podemos seguir os mesmos passos de antes e escrever:

dYt  a  ut (31)

onde, novamente, a   / (1) e ut  ((B) /(B))t . Isso significa que podemos ter
padrões mais complexos de tendência estocástica e de tendência determinística. Por
exemplo, no caso d = 2 e deixamos como exercício para o leitor verificar que o processo
para Yt embute uma tendência determinística quadrática mais um processo I(2). Esse
caso forma uma área ativa de pesquisa atualmente na moderna EST. Dado o caráter
introdutório deste texto, iremos nos restringir aos casos em que d = 1 e isso já cobre um
amplo espectro de aplicações em séries econômicas.

9. Média e Variância

Considere o processo de raiz unitária representado segundo a expressão (24). É


fácil ver que E(ut )  0 . Agora, considere o mesmo processo representado segundo
(25). Lembrando que se assume que o valor inicial Y0 é conhecido, segue que:

E(Yt )  Y0 (32)
t 1
Var(Yt )   u2t  2(t  j) u, j (33)
j 1

Onde  u2  Var(ut ) e u, j  Cov(ut , ut  j ) . Ou seja, um processo de raiz unitária possui


média constante mas uma variância que é função do tempo t, o que faz dele um
processo não estacionário porque viola a condição (6).

Copyright© Rogério Silva de Mattos 17


Considere, agora, o processo diferença estacionária da expressão (17) reescrito
conforme (18). Neste caso:

E(Yt )  Y0  at (34)
t 1
Var(Yt )   u2t  2(t  j) u, j (35)
j 1

Ou seja, assim como a variância, a média também é uma função do tempo, no caso
linear. Portanto, a diferença estacionária com constante também é não estacionária
porque também viola as condições (12) e (13).

10. Passeio Aleatório

Um caso particular de processo de raiz unitária é dado quando  (B) / (B)  1.


Observe que, neste caso, a expressão (13) pode ser re–escrita da seguinte forma:

Yt  Yt1 t (36)

onde agora o termo de erro é dado apenas por  t , que, lembramos, assumimos que é um
ruído branco normal. A equação (36), assim, é um caso particular de um processo não-
estacionário com uma raiz unitária e que é muito conhecido na literatura de EST como
passeio aleatório.
Por ser um processo estocástico com uma raiz unitária, o passeio aleatório puro
em (33) é idêntico a uma tendência estocástica. Além disso, ele é I(1), de modo que a
primeira diferença de Yt será um processo estacionário, isto é, sem raízes unitárias ou
I(0):

Yt  t (37)

De forma análoga, é possível re–escrevermos a expressão (28) como:

Yt  a Yt1 t (38)

Quando a  0, o processo em (27) é chamado de passeio aleatório com deslocamento


(ou drift, em inglês). Este processo também possui uma raiz unitária e,
consequentemente, embute uma tendência estocástica. No entanto, a constante a sendo
não nula introduz adicionalmente na representação em (38) uma tendência
determinística, de modo que ela pode ser reescrita como:

t
Yt  Y0  at  i (28)
i1

Dado que Y0 é conhecido, então o termo Y0+at no lado direito de (39) é uma tendência
determinística. Por sua vez, o termo ti1 i corresponde a um processo I(1), proveniente
da acumulação de “t” valores passados de um processo I(0) dado por  t . Se
diferenciarmos Yt na expressão (36), veremos que ele também se torna estacionário:

Copyright© Rogério Silva de Mattos 18


Yt  a  t (40)

Fica claro, portanto, que o passeio aleatório puro é um caso particular de um


processo de raiz unitária ou I(1) e o passeio aleatório com deslocamento um caso
particular de um processo diferença estacionária.
O leitor já deve ter percebido que há uma vasta gama de conceitos que foram
introduzidos até aqui. Alguns são sinônimos um do outro, como processo I(1) e
processo de raiz unitária6. Outros são pequenas particularidades de um conceito mais
geral. Esta rica terminologia da EST tende a confundir o iniciante e com frequência
atrapalha o entendimento da matéria. No intuito de ajudar a memorizar as
especificidades dos vários conceitos, apresentamos um diagrama no apêndice 2. Neste
diagrama, procuramos estabelecer usando setas as relações entre os conceitos.

11. Memória e Choques

A importância do conceito de memória em processos estocásticos integrados


pode ficar mais clara através das figuras 4.a) e 4.b). Na figura 4.a), temos uma série
simulada segundo um processo estacionário ARMA(1,1). Na representação do processo,
incluímos uma variável independente CQt que representa um choque dado na série no
período t = 75. Esta variável é binária, valendo 15 em t = 75 e 0 nos demais períodos de
tempo. Observe que inicialmente a série oscila em torno de sua média, igual a 0. No
momento do choque, ela dá um salto discrepante para cima e poucos períodos depois
volta a oscilar em torno de sua média 0. Essa característica apresentada pela série da
figura 4.a) resulta do fato que o processo estocástico que a gera é estacionário. Esse tipo
de processo possui memória curta, isto é, se um choque é dado a ele, pouco depois ele
“esquece” esse choque. Dizse, neste caso, que o choque é transiente, porque tem
efeito temporário e dura pouco.
Na figura 4.b), temos também um série simulada, porém agora segundo um
processo não estacionário do tipo ARIMA(0,1,1). Aqui também, incluímos na
representação deste processo uma variável CQt representando um choque em t = 75 e
definida da mesma maneira que antes. Observe que, agora, a reação ao choque
apresentada pela série é diferente. Ela também dá um salto no momento do choque, mas
agora ela não volta logo depois a oscilar no mesmo patamar que antes do choque. Essa
característica da série da figura 4.b) resulta do fato que o processo é não estacionário, no
caso um processo integrado ou I(1). Esse tipo de processo possui memória longa, isto é,
se um choque é dado a ele, seu efeito persiste indefinidamente, ou seja, ele “não
esquece” o efeito do choque. Dizse, neste caso, que o choque é persistente, porque
repercute indefinidamente.

6
São sinônimos quando o processo de raiz unitário diz respeito à raiz unitária presente apenas na parte
AR.

Copyright© Rogério Silva de Mattos 19


15.0 40

12.5
30
10.0

7.5 20
5.0

2.5 10

0.0
0
-2.5

-5.0 -10
25 50 75 100 125 150 175 200 25 50 75 100 125 150 175 200

a) ARMA(1,1): b) ARIMA(0,1,1)
Yt  0,7Yt1 CQt t 0,5t1 Yt  Yt1 CQt t 0,5t1
Memória Curta Memória Longa

Figura 4. Tipos de memória em processos estocásticos. Dados simulados. A variável


CQt, representa um choque, valendo 15 em t = 70 e 0 nos demais períodos.

Essas características de memória curta ou memória longa para processos


estocásticos teve bastante relevância para o desenvolvimento da teoria macroeconomica
nos anos 1980 e 1990. Em um artigo de grande repercussão, Nelson e Plosser (1982)
verificaram que 13 séries macroeconômicas americanas apresentavam memória longa,
inclusive a série de PNB. Isso levouos a concluir que choques de política econômica
podiam não ser neutros, como defendido por vários macroeconomistas. Esta constatação
provocou tanto macroeconomistas como econometristas a tentar explicar os resultados
de Nelson e Plosser e dois tipos de resposta importantes aconteceram. Primeiro, dentro
da teoria macroeconômica, isso motivou o desenvolvimento da teoria dos ciclos reais de
negócio (Kidland e Prescott, 1982). Segundo, dentro da EST, isso motivou o
desenvolvimento de uma vasta literatura sobre testes de raiz unitária. Não iremos
discorrer sobre os efeitos na teria macroeconômica, por fugir aos objetivos deste texto
focado em conceitos de EST. No entanto, abordaremos mais à frente em detalhe, ainda
que num nível introdutório, alguns importantes testes de raiz unitária.

12. Os Quatro Processos

Em resumo, tendência estocástica é uma característica típica de um processo I(1) ou


com uma raíz unitária, tal como representado pelos modelos ARIMA(p,1,q). Ela pode
vir ou não acompanhada de uma tendência determinística linear, dependendo da
constante na representação ARIMA(p,1,q) ser nula, como na expressão (24), ou não
nula, como na expressão (28). No primeiro caso, temos um processo I(1) ou de raiz
unitária. No segundo, temos uma diferença estacionária. Podemos, então, sintetizar tudo
o que foi dito acima sobre processos estocásticos para representar séries temporais em
quatro casos:

 Processo estacionário: Yt  a  Yt 1  ut ( |  | 1)


 Processo I(1): Yt  Yt1 ut
 Tendência estacionária: Yt  a  bt  ut
 Diferença estacionária: Yt  a Yt1  ut

Copyright© Rogério Silva de Mattos 20


Do ponto de vista das possibilidades de tendências, os quatro casos acima devem
ser interpretados da seguinte forma:

 O processo estacionário não possui qualquer tipo de tendência.


 O processo I(1) possui apenas tendência estocástica.
 O processo tendência estacionária possui apenas tendência determinística
linear.
 O processo diferença estacionária possui tendência determinística linear e
tendência estocástica.

Para uma melhor referência, essas situações estão esquematizadas no quadro 1.

13. Testes de Raiz Unitária

A discussão sobre os tipos de tendências que fizemos na seção anterior fornece


um importante alicerce para entendermos vários aspectos da EST. Um desses aspectos
diz respeito aos procedimentos para verificar se uma série temporal é ou não
estacionária. Esses procedimentos são conhecidos como testes de raiz unitária. Eles
recebem essa denominação porque são voltados para verificar se o processo gerador da
série apresenta ou não uma raiz unitária na parte AR. Ou seja, se é ou não um processo
integrado. Veremos esses testes logo a seguir, mas é válido desde já apontar que, apesar
disso, eles também podem ser vistos sob outros ângulos interessantes.
Primeiro, eles também são procedimentos para se detectar a presença ou não de
tendências estocásticas no processo gerador das séries. Segundo, como no processo de
diferença estacionária a tendência estocástica vem acompanhada de uma tendência
determinística, os testes normalmente usam uma representação geral de processo
estocástico que permite abarcar as quatro possibilidades apresentadas na seção anterior.
Ao testar restrições particulares impostas à esta representação geral, mais do que
verificar a presença ou não de uma raiz unitária (ou de uma tendência estocástica) no
processo gerador de uma série temporal, os testes de raiz unitária permitem também
distinguir qual dentro os quatro tipos de processos estocásticos considerados na seção
anterior está gerando a série7. Inicialmente, vamos desenvolver essa representação geral
para só depois apresentar os testes de raiz unitária propriamente ditos.

13.1 Representação Geral

Considere o seguinte processo estocástico:

Yt  TDt  Zt
(41)
TDt  0 1t

7
Um erro que desavisados costumam cometer é pensar que um teste de raíz unitária sempre verifica se a
série é ou não estacionária. Como veremos, isso vai depender da opção escolhida para usar o teste. A
opção mais geral considera tanto na hipótese nula como na alternativa séries nãoestacionárias porque
ambas admitem a presença de uma tendência determinística. A forma mais precisa de se encarar um teste
de raiz unitária é como um procedimento para se verificar se há ou não um processo I(1) embutido no
mecanismo gerador da série.

Copyright© Rogério Silva de Mattos 21


onde 0 e 1 são constantes reais. Zt é um processo autorregressivo do tipo:

Zt  Zt1 ut (42)

onde ut é um processo estacionário I(0) com média nula. Note aqui que o processo
estocástico para Yt em (41) representa a soma de uma tendência determinística linear
mais um processo AR(1) para Zt. Este pode ser estacionário se |  | < 1 ou não
estacionário no sentido de possuir uma raiz unitária se  = 1. No último caso, Zt embute
uma tendência estocástica mais um termo estacionário, segundo a decomposição BN
de que falamos em (26). Vamos descartar outras possibilidades, em que   1
ou  >1. Assim, em princípio, a equação (41) pode representar um processo tendência
estacionária (Zt estacionário) ou um processo diferença estacionária (Zt segue um
processo I(1)), mas ainda há outras possibilidades como veremos a seguir. Para isso,
vamos re-escrever a expressão (41) como segue:

Zt  Yt 0 1t (43)

Substituindo (43) em (42) e fazendo algumas manipulações algébricas, chegamos a:

Yt 0 (1 ) 1 1(1 )t  Yt1 ut (44)

Fazendo8:

a 0 (1 ) 1 (45)


b 1(1 ) (46)

Podemos re–escrever (44) como:

Yt  a bt Yt1 ut (47)

A equação9 (47) é uma representação geral para os quatro processos que analisamos
antes. Impondo restrições nos valores dos parâmetros 0, 1 e , note que é possível
usarmos esta equação para caracterizar os quatro tipos de processos estocásticos que
vimos antes. Por exemplo, observe que:

8
A expressão (44) aparece inicialmente no livro de Fuller(1976), mas não aparece explicitamente nos
artigos de Dickey e Fuller (1979, 1981). No entanto, em um artigo de divulgação, Dickey et al (1986)
deixam claro que é nesta expressão que se baseia o teste DF.
9
Muitos livros–texto de EST não apresentam a relação entre as expressões (44) e (47), isto é, que a
primeira restringe a segunda. Normalmente, apresentam só a expressão (47). A consequência disso é que
a formulação (44) admite apenas a presença de uma tendência determinística linear, porque não pode
acontecer b  0 com  = 1. Se isso fosse possível, haveria uma tendência determinística quadrática junto
com a tendência estocástica. Assim, a expressão (44) admite apenas os quatro tipos de processos
estocásticos considerados até aqui. Além disso, a expressão (47), se apresentada de forma independente
sem as restrições dadas pela expressão (44), cria dificuldades para uma interpretação adequada da
estrutura do teste DF (ver, por exemplo, as críticas de Schmidt e Phillips, 1992). Isso tudo é muito
importante para um adequado entendimento das opções disponíveis nos testes de raízes unitária baseados
no procedimento de Dickey e Fuller. Cuidaremos de apontar todos esses aspectos ao falarmos dos testes
de raiz unitária mais adiante.

Copyright© Rogério Silva de Mattos 22


 a = 0 se  = 1;
 a = 0 se 0 = 1 = 0;
 b = 0 se 1 = 0;
 b = 0 se  = 1.

Assim, a equação (47) pode caracterizar as seguintes possibilidades:

 Processo estacionário: 1  0,|  |1Yt  a  Yt1 ut


 Processo I(1): 1  0,  1 Yt  Yt1  ut
 Tendência estacionária: |  |1Yt  a bt Yt1 ut 10
 Diferença estacionária:  1 Yt  a Yt1  ut

Essas possibilidades estão todas reunidas e sintetizadas no quadro 1. O leitor deve


ficar atento a esse quadro e retornar de vez em quando a ele sempre que tiver dúvidas
daqui para frente. O bom entendimento dos quatro processos estocásticos listados
acima, de suas representações particulares e em termos da representação geral, assim
como de suas relações particulares com os dois tipos de tendência, determinística e
estocástica, é muito importante para uma boa análise de EST.

Quadro 1. Processos estocásticos e tipos de tendências

Tipo de Restrições da
Processo Representação
Tendência Representação
Estocástico Particular
Embutida Geral*

Processo
Sem tendências Yt  a  Yt1  ut 1  0,|  |1
Estacionário

Tendência
Processo I(1) Yt  Yt1  ut 1  0,  1
Estocástica

Tendência Tendência
Yt  a  bt Yt1  ut |  | 1
Estacionária Determinística
Tendência
Diferença Estocástica e
Yt  a Yt1  ut  1
Estacionária Tendência
Determinística
* A representação geral é dada pela equação (47) do texto, com as prédefinições dos parâmetros a e b
dadas pelas expressões (45) e (46).

10
O leitor deve ser alertado aqui que, nesta representação da tendência estacionária segundo a expressão
(47), o componente de tendência determinística a+bt é diferente de 0+1t e o termo restante Yt1+ut não
é estacionário (porque, embutindo uma tendência deterministica, Yt1 é não estacionário). Mas a
representação completa para Yt representa de fato uma tendência estacionária se lembrarmos que (47) foi
desenvolvida a partir de (41) e, portanto, a e b estão restringidos segundo as expressões (45) e (46).

Copyright© Rogério Silva de Mattos 23


13.2 Teste de Dickey-Fuller

O teste de Dickey-Fuller (DF) é o mais antigo e famoso método formal para


verificar se uma série temporal é ou não estacionária. Ele foi introduzido em uma versão
básica pelos trabalhos de Fuller (1976), Dickey(1976) e Dickey e Fuller (1979).
Posteriormente, foi objeto de uma generalização no trabalho de Dickey e Fuller (1981).
A versão generalizada é conhecida como teste de Dickey-Fuller Aumentado,
abreviadamente ADF, e constitui a modalidade deste teste que passou a ser usada desde
então. Nesta subseção, vamos primeiro falar em detalhe do teste DF, em que se assume
que na equação de teste o termo de erro segue um processo ruído branco. Ao final,
falaremos de sua versão generalizada, em que o termo de erro segue um processo I(0)
autocorrelacionado.
O desenvolvimento do teste DF foi motivado pela necessidade de verificar se
uma série precisa ser diferenciada para se tornar estacionária. Essa verificação é a
primeira etapa da metodologia proposta por Box Jenkins (1970) para construção de
modelos ARIMA para séries temporais. Esses autores recomendaram que, se o gráfico
da série temporal indicar que ela é não estacionária, então devemos diferenciála até
apresentar um padrão estacionário. Apesar da sofisticação da metodologia de Box
Jenkins, esse procedimento é limitado porque baseiase simplesmente numa análise
gráfica. A preocupação de DF foi propor um método estatístico formal para testar a
hipótese de não estacionariedade da série e, assim, terse uma indicação mais precisa
sobre se é preciso diferenciála ou não.
Veremos aqui que o teste de Dickey Fuller serve para isso, mas ele também
possui importantes versatilidades que permitem diferentes aplicações dependendo de
como interpretamos suas hipóteses nula e alternativa. Por exemplo, como dissemos no
início da seção anterior, ele também serve como um teste para a presença de uma
tendência estocástica, que pode ou não estar adicionada de uma tendência
determinística. Em última instância, ele serve para distinguir qual dentro os quatro tipos
de processos estocásticos considerados no quadro 1 deve estar gerando uma série
temporal. Essa forma de ver o teste tende a torná-lo mais intuitivo e facilita sua
compreensão.
No entanto, antes de apresentarmos o teste propriamente dito, é importante
chamar a atenção para alguns aspectos que tendem a confundir aqueles que estudam
pela primeira vez o teste DF:

 primeiro, DF propuseram na verdade mais de um método para testar a não


estacionariedade de uma série. Por exemplo, desenvolveram testes baseados na
razão t e em outras estatísticas, como F e de DurbinWatson. O procedimento
mais usado atualmente é baseado na razão t e será apenas este que veremos
aqui;
 segundo, a equação de teste inicialmente deixava dúvidas conceituais na
interpretação dos parâmetros e essas dúvidas só foram esclarecidas num
trabalho posterior, de Dickey et al (1986). Nós já falamos disso, quando
apresentamos o desenvolvimento da equação geral para os quatro processos
considerados antes;
 terceiro, as hipóteses do teste devem ser interpretadas como se fosse um teste
unilateral, mas nosso interesse envolve apenas uma parte da hipótese
alternativa. Este último aspecto veremos com cuidado logo adiante.

Copyright© Rogério Silva de Mattos 24


Por essas razões, o leitor desavisado poderá ficar confuso ao tentar entender e aplicar o
teste DF. Buscaremos aqui contribuir para minimizar potenciais confusões.
Nesse sentido, o primeiro aspecto a destacar sobre o teste DF é que ele procura
verificar se uma série é estacionária ou não testando se ela possui uma raiz unitária. A
maneira como fazemos isso é assumir que o modelo que gera a série é o mesmo da
equação (47). Para simplificar o entendimento desse ponto, consideremos uma versão
mais simples dessa equação, em que 0 1  0, o que implica a  b  0:

Yt  Yt1 ut (48)

Observe que, para este modelo, o processo estocástico será:

 estacionário se |  | 1 ou
 não estacionário se |  | 1.

Entretanto, o procedimento do teste DF usa como enunciado:

H0 :  1
H1 :  1

O leitor pode perceber que este enunciado caracteriza um teste unilateral. Uma forma
imediata de testar a hipótese nula seria regredir a equação (36a), por exemplo usando
MQO, e computar a razão t ̂ . Então, comparandose o valor desta razão com um valor
crítico t ( ) , associado a um nível de significância α, decidiríamos não rejeitar H0 se
tˆ  t( ) ou rejeitar H0 se tˆ  t ( ) . Veremos que é mais ou menos isso que está
envolvido, mas não poderemos usar um valor crítico associado a uma distribuição t de
Student.
Agora, vejamos com cuidado o enunciado do teste DF apresentado acima. A
hipótese nula diz que a série é não estacionária, no sentido de que possui uma raiz
unitária. De fato, vimos antes que, se   1, então Yt segue um processo de raiz unitária.
Porém, note que, teoricamente, há outras possibilidades para a série ser não
estacionária: por exemplo, se   1 . O enunciado do teste descarta esta possibilidade
porque, neste caso, Yt seguiria um processo explosivo que cresce ou decresce
indefinidamente. Mas, a hipótese nula como definida acima considera uma
possibilidade específica de que a série possui uma raiz unitária (e apenas uma). Por
sua vez, a hipótese alternativa diz que a série é estacionária, se |  | 1 , ou não
estacionária, se   1. Portanto, é preciso cuidado aqui porque a alternativa admite
duas possibilidades conflitantes: a série pode ser estacionária ou não sob essa hipótese.
Mas, note que as possibilidades da série ser não estacionária sob H1 são: a) se   1, a
série vai apresentar um ciclo muito curto, com oscilações da série entre o positivo e
negativo e com amplitude errática; b) se   1, a série vai exibir o mesmo ciclo curto
mas com amplitude explosiva.
Vemos, portanto, que o enunciado acima tanto na hipótese nula quanto na
alternativa admite várias formas de não estacionariedade. Porém, é exatamente esse o
enunciado do teste DF. Apesar disso, o teste DF nos permite chegar à conclusão de que
uma série é não estacionária, no sentido de possuir uma ou mais raízes unitárias, ou

Copyright© Rogério Silva de Mattos 25


estacionária. Na prática, fica mais fácil entendermos o procedimento do teste DF se
imaginarmos um enunciado que é um pouco diferente:

H0 :  1
H1* :|  |1

A diferença está na hipótese alternativa. Pusemos a estrela nela, isto é, em H1* , para
destacar que esta é a hipótese alternativa de interesse. O enunciado reescrito desta
forma, nos coloca exatamente na situação que nos interessa mais. Testaremos a hipótese
nula de que a série possui uma raiz unitária, contra a alternativa de interesse de que a
série não possui raiz unitária, mas é estacionária. Assim, o leitor deve atentar para o
fato de que, no material que apresentamos a seguir, pensaremos sempre desta forma.
O teste DF está disponível em três opções, e cada versão se baseia na estimação
por MQO de uma variante de (47) para cômputo das estatísticas de teste. Nas três
opções, o procedimento é o mesmo e, como dissemos, pode ser melhor pensado como
H0 e H1*. Se H0 for verdadeira, então o processo estocástico gerador da série possui uma
raiz unitária e embute uma tendência estocástica. No entanto, se H0 for falsa, então o
processo é estacionário sem qualquer tendência (opções 1 e 2) ou é uma tendência
estacionária (versão 3).
O teste DF, no entanto, não usa diretamente a equação (47). Subtraindo Yt-1 de
ambos os lados dessa equação, obtemos:

Yt  a btYt1 ut (49)

onde  =  - 1 e a e b continuam definidos como em (45) e (46). Na versão original e


mais simples do teste, Dickey e Fuller (1979) assumem que o termo de erro ut é um
processo ruído branco normalmente distribuído. Na versão aumentada (ADF), Dickey e
Fuller (1981) assumem que ele segue um processo AR(p). A equação (49), com as
mesmas restrições dadas pela equação (44), é que é usada no teste DF para cômputo
das estatísticas de teste. Embora seja apenas uma representação alternativa do processo
gerador de Yt na equação (44), a equação (46) também é chamada na literatura de
equação de teste. É importante observar que, conforme a equação (49), as hipóteses
nula e de interesse do teste passam a ser escritas como:

H0:  = 0 (há uma raiz unitária)


H1*: 2 <  < 0 (não há raiz unitária)

O teste é aplicado estimando-se por MQO a equação (49) e computando-se a razão t


para o parâmetro :

ˆ
 ˆ  (50)
sˆ

Onde ̂ é o estimador de MQO de  e s̂ o erro–padrão de ̂ . A razão em (50) é


denominada de estatística- porque segue uma distribuição de probabilidade diferente
da usual t de Student sob a hipótese nula de que   0 . A distribuição da estatística- é
conhecida como distribuição de Dickey e Fuller e seus valores críticos para diferentes

Copyright© Rogério Silva de Mattos 26


níveis de significância foram tabuladas em Fuller (1976, 1995), Dickey e Fuller (1981)
e em outros trabalhos, como McKinnon (1996). É interessante observar que as quatro
possibilidades de processos estocásticos consideradas na seção anterior passam a ser,
segundo a equação (49):

 Processo estacionário: 1  0,2    0 Yt  a  Yt 1 ut


 Processo I(1): 1  0,   0 Yt ut
 Tendência estacionária:  2    0 Yt  a bt Yt 1 ut
 Diferença estacionária:  0 Yt  b  ut

Essas diversas possibilidades podem ser tratadas no âmbito das três opções em que o
teste de Dickey Fuller está disponível. Apresentaremos a seguir essas três opções e
atentamos para que é muito importante saber quando se usa cada uma delas. Elas
diferem na maneira como se restringe para a presença ou não do intercepto a e do termo
de tendência bt na equação de teste. Usar a versão inadequada pode enviesar a
conclusão obtida com o teste ou então perder-se desnecessariamente poder do mesmo.

13.2.1 Opção 1: Sem intercepto e sem termo de tendência

Esta é a opção mais simples do teste DF. Ela assume 0 1  0 , o que, de
acordo com as expressões (45) e (46), faz com que a = b = 0 na equação (49). Isso
equivale a dizer que esta opção não considera a constante e nem o termo de tendência na
equação de teste. Assim, a hipótese H0:  = 0 significa que a série segue um processo
não estacionário com uma raiz unitária mas sem constante Yt  ut . Ou seja, um
processo I(1). A hipótese H1, por sua vez, assume que o processo é Yt  Yt1 ut com
-2 <  < 0. Note que isso equivale a um processo estacionário sem constante
Yt  Yt 1 ut (i.e., com |  | < 1). Ou seja, um processo I(0). Do ponto de vista das
tendências, H0:  = 0 significa que o processo que gera a série embute uma tendência
estocástica, enquanto H1 significa que o processo não tem qualquer tendência. Em
suma, temos:

H0 :   0 Yt  ut Uma raíz unitária ou I(1); tendência


estocástica;

H1* : 2    0 Yt  Yt1  ut Sem raiz unitária ou I(0); processo


estacionário sem tendência alguma

A equação de teste é estimada por MQO sem o intercepto a e sem o termo de tendência
bt, isto é:

Yt  ˆYt1  uˆt (51)

e então computa-se a estatística de teste, que nesta opção é chamada simplesmente de


estatística- (tau):

Copyright© Rogério Silva de Mattos 27


ˆ
 (52)
sˆ

Uma tabulação de valores críticos para diferentes níveis de significância para a


estatística- está disponível em MacKinnon(1996). Se o valor de  for menor do que o
valor crítico tabulado ao nível de significância escolhido, rejeita-se a hipótese nula de
presença de uma raíz unitária (ou de não estacionariedade).

13.2.2 Oção 2: Só com intercepto

Esta segunda opção é muito parecida com a primeira. Ela assume apenas 1  0 ,
o que, de acordo com as expressões (45) e (46), faz com que a 0 (1 ) e apenas
b  0 na equação (49). Logo, esta opção considera a possibilidade de uma constante
não nula (mas ainda sem o termo de tendência determinística) na equação de teste.
Segue então que a hipótese H0:  = 0 (ou   1) continua significando que o processo
gerador da série é Yt  ut , logo com uma raiz unitária e sem constante. Ou seja,
constinua sendo um processo I(1). O que muda é que a hipótese H1 agora é
Yt  a Yt1 ut com  2    0 , o que equivale a um processo estacionário com
constanteYt  a  Yt 1 ut (com |  | 1). Note que não há qualquer incoerência aqui.
A hipótese H0 :   0 (ou   1) implica a 0(1 )  0 , mas H1 : 2    0 não. A
interpretação de H1 continua a mesma: a série segue um processo I(0).
Em outras palavras, a comparação entre H0 e H1 nesta segunda versão é
essencialmente a mesma que a da opção 1, sendo no entanto mais geral porque admite
na hipótese alternativa que o processo estacionário possua constante não nula. Do ponto
de vista das tendências, também continua a mesma interpretação da opção 1. H0 assume
que o processo que gera a série é do tipo I(1) com tendência estocástica apenas e H1 que
o processo não tem qualquer tendência. Em suma, temos:

H0 :   0 Yt  ut Uma raiz unitária ou I(1); tendência


estocástica;

H1* : 2    0 Yt  a  Yt1 ut Sem raiz unitária ou I(0); processo


estacionário sem tendência alguma

Novamente, a equação de teste é estimada por MQO, mas agora com o


intercepto a e ainda sem o termo de tendência bt, isto é:

Yt  aˆ  ˆYt1  uˆt (53)

Computa-se então a estatística de teste, que nesta segunda opção passa a ser chamada de
estatística- (tau-mi):

Copyright© Rogério Silva de Mattos 28


ˆ
  (54)
sˆ

Aqui também, uma tabulação de valores críticos para diferentes níveis de significância
para a estatística-u está disponível em McKinnon(1996). Se o valor de u for menor do
que o valor crítico tabulado ao nível de significância escolhido, rejeita-se a hipótese
nula de presença de uma raíz unitária (ou de não estacionariedade). Na prática, esta
segunda opção é preferível à primeira, devido à constante ser não nula na hipótese
alternativa de interesse. É a que deve ser usada, a menos que se trabalhe com poucas
observações ou se tenha forte convicção de que a constante na hipótese alternativa é
nula (situação muito rara na prática).

13.2.3 Opção 3: com intercepto e termo de tendência

Esta terceira opção é diferente das duas anteriores porque admite a presença de
uma tendência determinística linear no processo para Yt. Ela assume que 0 ≠ 0 e 1 ≠ 0,
de modo que, de acordo com as expressões (45) e (46) , a 0(1 ) 1 e b 1(1 ) .
Isso equivale a dizer que a equação de teste possui uma constante e um termo de
tendência. Então, a hipótese H0 :   0 (ou  = 1) implica a 1  0 mas b  0 , de
forma que o processo gerador da série é Yt  a  ut , ou seja, processo de diferença
estacionária. Lembre que tal processo é a soma de uma tendência determinística mais
um processo I(1). Por sua vez, a alternativa de interesse H1* : 2    0 (ou |  | < 1)
implica a  0 e b  0 , de modo que o processo gerador da série é
Yt  a btYt1 ut com  2    0, o que equivale a um processo sem raiz unitária
do tipo tendência estacionária Yt  a  bt Yt 1  ut (com |  | 1). Vimos antes que este
processo é a soma de uma tendência determinística mais um processo I(0).
É importante observar aqui um aspecto que frequentemente é negligenciado
pelos usuários do teste DF. Note que, nesta opção, tanto H0 quando H1 assumem que a
série segue um processo nãoestacionário, porque ambas consideram a presença de uma
tendência determinística. Portanto, aqui o teste DF não verifica se a série é estacionária
ou não. Ele verifica se o processo que gera a série embute um processo I(1), como diz
H0, ou não, como diz H1. Além disso, do ponto de vista das tendências, H0 significa que
o processo que gera a série é composto de uma tendência determinística linear mais uma
tendência estocástica, como vimos na expressão (29), e H1* que o processo é composto
de uma tendência determinística linear mais um processo estacionário. Em suma, temos:

H0 :   0 Yt  a  ut Contém um processo de raíz


unitária ou I(1); tendência
determinística linear mais tendência
estocástica; diferença estacionária.
H1* : 2    0 Yt  a btYt1 ut Sem processo de raiz unitária;
tendência determinística linear mais
erro estacionário ou I(0); Tendência
estacionária.

Copyright© Rogério Silva de Mattos 29


A equação de teste é estimada segundo a hipótese alternativa H1:

Yt  aˆ  bˆt  ˆYt1  uˆt (55)

Computa-se então a estatística de teste, que nesta terceira opção passa a ser chamada de
estatística- (tau-tau):

ˆ
  (56)
sˆ

Aqui também, uma tabulação de valores críticos para diferentes níveis de significância
para a estatística- está disponível em MacKinnon (1996). A decisão de rejeitar ou não
rejeitar H0 é tomada de forma análoga, pela comparação de  com o valor crítico
tabulado ao nível de significância escolhido. Esta opção é a que deve ser usada sempre
que o gráfico da série indicar que ela possui uma tendência determinística. Se houver
dúvida quanto a isso ao se examinar o gráfico da série, também devese usar esta
terceira opção. Mesmo que não exista uma tendência determinística no processo gerador
da série, isto não traz problemas porque esta terceira opção engloba as duas anteriores.
O risco de se incorrer em erro surge quando se usa a primeira ou a segunda
opções, mas deveriase usar a terceira. Isto acontece quando há uma tendência
determinística no processo gerador da série, mas isso é ignorado pelo usuário. Como
dissemos acima, este é um erro cometido frequentemente. Neste caso, o uso da opção
incorreta pode levar a se concluir que uma série é gerada por um processo de raíz
unitária ou I(1) quando na verdade ela segue um processo de tendência estacionária.
Este erro traz duas importantes consequências: primeiro, ao induzir à conclusão errônea
de que a série possui memória longa, mas na verdade tem memória curta. Segundo, ao
induzir à conclusão também errônea de que a série pode ser cointegrada com outras
séries, quando isso não é possível porque um processo de tendência estacionária não
embute um processo integrado.

13.2.4 Teste Aumentado de Dickey-Fuller

A versão aumentada do teste DF, que chamamos antes de teste ADF, difere
apenas por considerar a existência de alguma estrutura de autocorrelação para os erros
da equação de teste. Se essa estrutura não for considerada, há perda de eficiência do
estimador de MQO para  e, o que é mais sério, as estatísticas ,  e  ficam
enviesadas. Na prática, isso é considerado usando uma versão aumentada da equação de
teste em que se permite termos defasados de Yt como variáveis adicionais no lado
direito da expressão (49):
p
Yt  a  bt  Yt 1  j Yt  j  t (57)
j 1

onde  j (j = 1,...,p) são parâmetros e t é um processo ruído branco. O objetivo desse


procedimento é eliminar uma possível existência de autocorrelação serial no termo de
erro ut. Assim, ao invés de estimar as equações (51), (53) e (55) de cada uma das três
opções do teste DF, estima-se as seguintes equações:

Copyright© Rogério Silva de Mattos 30


p
Opção 1: Yt  ˆYt 1  ˆ j Yt  j  uˆt (58)
j 1
p
Opção 2: Yt  aˆ  ˆYt 1  ˆ j Yt  j  uˆt (59)
j 1
p
Opção 3: Yt  aˆ  bˆt  ˆYt 1  ˆ j Yt  j  uˆt (60)
j 1

Nas três opções, aplica-se o mesmo procedimento de testar H0 :  = 0. E em cada uma


delas, H0 continua tendo as mesmas interpretações. Um problema novo que aparece,
porém, com esta versão aumentada é a necessidade de se determinar com antecedência o
lag máximo p dos termos defasados de Yt. Isto é feito estimando-se várias vezes a
equação de teste com números diferentes de termos defasados, isto é, para o valor de p.
Escolhese o valor de p que minimiza alguma estatística de critério de informação,
como a de Schwarz, por exemplo. Uma vez escolhido o lag máximo, implementa-se o
teste ADF propriamente dito.

13.2.5 Passos de implementação do teste ADF

1. Escolha da opção (1, 2, ou 3) do teste: examine o gráfico da série para verificar a


presença ou ausência aparente de uma tendência determinística. Se parecer não
haver uma tendência determinística, escolha a opção 1 (sem intercepto nem termo
de tendência determinística) ou a opção 2 (só intercepto), que assumem na hipótese
H0 que o processo de raiz unitária possui uma tendência estocástica apenas. No caso
de haver forte evidencia visual de uma tendência determinística na evolução da
série, escolha a opção 3 (intercepto mais termo de tendência). Havendo dúvida,
escolha a opção 3, porque é a mais geral e engloba as demais.
2. Lag máximo da equação de teste: uma vez escolhida a opção do teste, pode-se
determinar qual a especificação da equação de teste que será estimada. Isso envolve
antes determinar o lag máximo p dos termos defasados da variável dependente Yt
que serão usados na estimação da equação de teste. Para tanto, proceda da seguinte
forma: Estime a equação de teste sem nenhum termo defasado de Yt e registre o
critério de informação (Schwarz, por exemplo). Repita a estimação da equação de
teste com um termo defasado Yt1 e novamente registre o critério de informação.
Compare os dois critérios de informação: se o da última equação estimada for maior
do que o da anterior, pare e use a equação anterior para implementar o teste; se for
menor, continue. Estime então a equação de teste agora com dois termos defasados,
Yt1 e Yt2 , e proceda à mesma comparação dos critérios de informação da equação
atual e da anterior. Pare ou então continue sucessivamente até o momento em que o
critério de Schwarz da equação atual aumentar em relação ao da equação anterior.
Isso significa que o valor de p da penúltima equação é o lag máximo.
3. Estatística de teste: Tendo determinado o lag máximo p, estime em definitivo a
equação de teste e compute a estatística–tau correspondente.
4. Decisão Final: Compare a estatística tau calculada com o valor crítico tabulado
segundo o nível de significância escolhido. O valor crítico pode ser encontrado, por
exemplo, na tabela apresentada por Mckinnon (1996). Se a estatística tau for maior
ou igual ao valor crítico, não rejeite H0, isto é, considere que a série é não
estacionária e possui uma raiz unitária. Se a estatística tau for menor, rejeite H0 e

Copyright© Rogério Silva de Mattos 31


conclua que a série não possui raiz unitária. Refine sua interpretação em termos da
presença/ausência de tendências determinística e estocástica em função da opção do
teste que você escolheu.
5. Reaplicando o teste: Se H0 não for rejeitada no passo 4, significa que o processo
gerador da série possui uma raiz unitária. Em princípio, isso significa que seu
processo gerador é, ou embute, um processo I(1). É possível, no entanto, que o
processo gerador da série possua mais raízes unitárias e assim seja, ou possua, um
processo integrado de ordem maior. Para verificar isso, diferencie a série uma vez e
repita todos os procedimentos anteriores do teste ADF para a série diferenciada. Se
H0 for rejeitada, é porque a série diferenciada não tem raiz unitária e, portanto, a
série original é I(1). De outro modo, se H0 não for rejeitada é porque a série
diferenciada possui uma raiz unitária. Neste caso, diferencie novamente a série e
aplique de novo o teste ADF. Proceda dessa maneira iterativamente até chegar a um
grau de diferenciação da série em que H0 é finalmente rejeitada. Isso significa que,
para esse grau de diferenciação, o processo que gera a série não possui raiz unitária
(i.e, é estacionário ou do tipo tendência estacionária)11.

A seguir, apresentamos um conjunto de exemplos de aplicação do teste de


Dickey–Fueller na sua versão aumentada. Os exemplos usam as séries simuladas pelo
autor deste texto e que estão distribuídas pelas figuras 2, 3 e 4. Para facilitar a
apresentação e comparação desses exemplos, os resultados do teste ADF para cada série
analisada estão apresentados de forma agrupada na tabela 1. Por ora, há uma vantagem
de vermos esses exemplos com séries simuladas porque nesses casos conhecemos a
priori os processos estocásticos que geraram as séries. Isso nos permite entender mais
claramente como o teste ADF funciona. O leitor deve lembrar, porém, que na aplicação
do teste a séries reais só teremos os dados observados das séries e, portanto, seus
respectivos processos estocásticos geradores serão sempre desconhecidos. Mais adiante,
veremos um exemplo do teste ADF com uma série real.

Exemplo 1: Séries simuladas sem raiz unitária

Neste primeiro exemplo, aplicamos os passos do teste ADF delineados acima


para as duas séries da figura 2. Iniciaremos analisando a série da figura 2.a). O gráfico
desta série sugere que a mesma segue um processo estacionário, porque ela parece
oscilar em torno de uma média fixa. Diante disso, a opção do teste ADF a ser usada
deveria ser a 1 (sem constante) ou a 2 (com constante). Nós sabemos que, por ser uma
série simulada, ela foi gerada por um processo estacionário sem constante (indicado
logo abaixo da figura 2.a)), o que poderia nos levar aqui a escolher a opção 1. Porém, na
prática, não sabemos qual o processo estocástico que gerou uma série, normalmente
temos apenas os dados da mesma e o gráfico desses dados, como a figura 2.a). Por isso,
é mais adequado escolhermos a opção 2, pois esta assume na hipótese alternativa H1 a
presença de uma constante no processo estacionário gerador da série, inclusive uma
constante nula.
O resultado do teste ADF está apresentado na primeira linha, logo abaixo dos
títulos, da tabela 1. Repare que na primeira coluna a tabela indica a série testada (i.e., da
figura correspondente) e, no caso da série da figura 2.a) , fez–se o teste apenas para a

11
Há um outro procedimento na literatura para se determinar a ordem de integração, ou o número de
raízes unitárias, de uma série temporal, proposto por Dickey e Pantula (1987). Esse procedimento é mais
rigoroso para isso do que o teste ADF, mas optamos por não abordálo aqui devido ao caráter
introdutório deste texto.

Copyright© Rogério Silva de Mattos 32


variável em nível Yt. Na segunda coluna, a tabela reporta a opção do teste escolhida (no
caso, como dissemos, usamos a opção 2 que admite uma constante na equação de teste),
e na terceira coluna o lag–máximo, que corresponde ao número de lags da variável
dependente incluídos na equação de teste como variáveis explicativas. Lembre que a
determinação desse número de lags tem de ser feita antes de se aplicar o teste
propriamente dito, estimando–se diferentes opções da equação de teste (com diferentes
lags) e escolhendo aquela que minimiza o critério de Schwarz 12. Na quarta coluna, é
apresentada a estatística–tau associada e, nas três colunas seguintes, os valores críticos
para os níveis de significância de 1%, 5% e 10%, respectivamente. A tabela ainda
apresenta, na última coluna, o valor de prova associado ao valor da estatística–tau
calculado segundo um procedimento aproximado proposto por MacKinnon (1996).

Tabela 1. Teste ADF de raiz unitária para séries simuladas

Série Var. Teste Aumentado de DickeyFuller


Opção Lag-Máx Tau 1% 5% 10% V. Prova
Fig. 2a Yt cte 0 -7.65 -3.46 -2.88 -2.57 0.00
Fig. 2b Yt cte 3 -0.14 -3.46 -2.88 -2.57 0.94
Fig. 2b Yt cte+tend 0 -7.94 -4.01 -3.43 -3.14 0.00
Fig. 3a Yt cte 0 -1.46 -3.46 -2.88 -2.57 0.55
Fig. 3b Yt cte+tend 0 -1.95 -4.00 -3.43 -3.14 0.63
Fig. 4a Yt cte 2 -1.21 -3.46 -2.88 -2.57 0.67
Fig. 4c Yt cte 1 -8.80 -3.46 -2.88 -2.57 0.00
Fig. 4b Yt cte+tend 1 -2.33 -4.01 -3.43 -3.14 0.41
Fig. 4d Yt cte 0 -8.54 -3.46 -2.88 -2.57 0.00
Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews 7.0.
Notas: Var. = variável; cte = com constante; tend = com termo de tendência; Lag–Máx = defasagem
máxima da variável dependente na equação de teste. Tau = estatística–, u ou , dependendo da
versão utilizada. O cálculo dos valores de prova foram feitos por procedimento descrito em
McKinnon(1996).

Para a série da figura 2.a), repare que o valor da estatística tau foi de –7,65. Ele
se situa à esquerda de qualquer um dos valores críticos apresentados, mesmo o de 1%
que corresponde ao valor mais negativo dos três. Segundo a regra de decisão do teste
ADF, devemos rejeitar a hipótese nula H0, que assume a presença de uma raiz unitária.
Logo, concluímos que a série não apresenta raiz unitária. Dizendo de outra forma,
concluímos que a série não apresenta tendência estocástica. Pela característica visual do
gráfico da série, na prática, acabamos concluindo que ela não apresenta tendência
alguma, ou seja, que ela é um processo estacionário. Se usássemos a regra de decisão
pelo valor de prova, chegaríamos à mesma conclusão, porque este encontra–se abaixo
de 0,01, valor associado a um nível de significância de 1%.

12
O software Eviews 7.0 realiza a busca do lag–máximo automaticamente, podendo o usuário determinar
qual estatística de critério de informação deve ser usada, entre Akaike, Schwarz, Hannan Quinn e suas
respectivas versões modificiadas.

Copyright© Rogério Silva de Mattos 33


Passemos, agora, à série da figura 2.b). Observando o gráfico desta série, vemos
que, nitidamente, ela apresenta um crescimento persistente sugerindo a presença de uma
tendência determinística linear. Neste caso, devemos usar então a opção 3 do teste ADF,
que considera uma constante mais uma tendência determinística linear na equação de
teste. Lembre que, nesta opção, a hipótese nula de raiz unitária é sinônimo de considerar
que a série embute uma tendência estocástica junto com uma tendência determinística
linear, ou seja, um processo diferença estacionária com deslocamento. E a hipótese
alternativa de ausência de raiz unitária é sinônimo de considerar que há só uma
tendência determinística acrescida de um processo estacionário, ou seja, um processo
tendência estacionária.
No entanto, observe na tabela 1 que fazemos o teste ADF duas vezes para esta
série da figura 2.b). Na primeira vez, usamos a opção incorreta, que é permitir só uma
constante na equação de teste, ou seja, a opção 2. Fizemos assim propositalmente para o
leitor perceber o tipo de erro que se pode incorrer quando se usa uma opção inadequada
do teste ADF. Na aplicação usando a opção 2 (só com constante), repare que a
estatística tau associada apresenta o valor –0,14. Considerando os valores críticos
reportados, a hipótese nula de presença de raiz unitária não é rejeitada nem mesmo a 5%
de significância. O valor de prova de 0,94, bem elevado, indica, da mesma forma, não
rejeição da hipótese nula. Ou seja, o teste admite que há uma tendência estocástica no
comportamento da série. No entanto, o gráfico da série sugere fortemente um processo
tendência estacionária (sabemos, inclusive, que a série foi gerada assim), que é um
processo estocástico com tendência determinística apenas. A inconsistência do resultado
do teste ADF aqui, usando–se a opção inadequada, se deve a que o teste possivelmente
está confundindo a tendência determinística presente na série com uma tendência
estocástica. Isso acontece porque a opção 2 do teste ADF não consegue identificar a
presença de uma tendência determinística, seja na hipótese nula ou na alternativa.
Agora, quando aplicamos novamente o teste ADF à mesma série da figura 2.b)
mas usando a opção 3 (constante mais termo de tendência), a estatística tau é de –7,94.
Este valor é menor (está mais à esquerda na linha dos números reais) do que o valor
crítico de 1%. Logo, neste caso, devemos rejeitar a hipótese nula de presença de raiz
unitária. Concluímos, então, que o processo estocástico que gerou a série é do tipo
tendência estacionária, o que significa que ele não apresenta tendência estocástica, só
tendência determinística (mais um processo estacionário). Assim, usando a opção 3, o
resultado fica mais consistente com o gráfico da série (e ainda com o fato de que
sabemos que a série foi simulada segundo um processo tendência estacionária).

Exemplo 2: Séries simuladas com raiz unitária

A série da figura 3.a) representa uma tendência estocástica, que é um caso particular de
um processo de raiz unitária ou I(1). A série da figura 3.b) representa uma tendência
geral, dada pela soma de uma tendência determinística mais uma tendência estocástica,
e é um caso particular de um processo de diferença estacionária. O gráfico da figura 3.a)
sugere que a série não é estacionária e que não parece ter uma tendência determinística
linear. Aplicamos então o teste ADF com a opção 2. A estatística–tau obtida é –1,46,
nos levando a não rejeitar a hipótese nula de raiz unitária nem mesmo a 10% de
significância. Por sua vez, o gráfico 3.b) sugere que a série possui uma tendência
determinística. Então, aplicamos o teste ADF com a opção 3. A estatística–tau obtida
foi de –1,95, nos levando a decidir pela nãorejeição da hipótese nula de raiz unitária
mesmo a 10% de significância.

Copyright© Rogério Silva de Mattos 34


As séries das figuras 4.a) e 4.b) foram ambas geradas como processos que
embutem raízes unitárias: a primeira como um processo de raiz unitária ou I(1) e a
segunda como um processo de diferença estacionária. O gráfico da figura 4.a) sugere
fortemente que a série não é estacionária, mas não indica, pelo menos de um modo
nítido, a presença de uma tendência determinística linear. Assim, aplicamos o teste ADF
para essa série usando a opção 2, só com constante, na equação de teste. O resultado,
apresentado na quarta linha da tabela 1 mostra uma estatística–tau no valor de –1,21.
Este valor está à direita do valor crítico de 10% de significância, levando, portanto, à
não rejeição da hipótese nula de raiz unitária. Indica, assim, a presença de uma
tendência estocástica sem tendência determinística. Mais uma vez, o teste ADF com a
opção adequada nos leva a concluir corretamente, em consonância com o modo como a
série foi gerada.
O teste ADF foi desenhado para detectar a presença de uma raiz unitária, mas a
série pode possuir outras raízes unitárias. Ou seja, o teste ADF aplicado à uma série não
permite detectar a ordem de integração da mesma. Para verificar isso, é preciso
diferenciar a série e repetir o teste ADF. Na linha seguinte da tabela 1, apresentamos o
resultado do teste para a série da figura 4.c), a qual consiste da primeira diferença da
série da figura 4.a). O gráfico da figura 4.c) indica fortemente que a série é estacionária,
portanto sem tendência alguma, e assim o teste foi aplicado usando–se a opção 2. O
valor da estatística–tau neste caso é de –8,8, situando–se à esquerda do valor crítico de
1%. Logo, rejeitamos a hipótese nula de raiz unitária. Com o gráfico e o teste indicando
ausência de tendências, não é necessário diferenciar–se mais uma vez a série. Podemos
parar aqui e concluir que a série original da figura 4.a) é um processo I(1).
A série da figura 4.b) foi gerada como uma diferença estacionária, logo como
uma tendência estocástica mais uma tendência determinística linear. Por isso, o gráfico
da série sugere nitidamente a presença de uma tendência determinística. Neste caso,
usamos a opção 3 para aplicar o teste ADF. O resultado é uma estatística–tau de –2,33,
logo à direita do nível de significância de 10%, nos levando à não–rejeição da hipótese
nula de raiz unitária. Consoante, portanto, com um processo com tendência estocástica
mais tendência determinística linear.
Novamente, o teste ADF não indica o grau de integração da série, apenas que a
mesma possui uma raiz unitária. Para verificar se há mais raízes unitárias, deve–se
diferenciar a série e repetir o teste. O gráfico da figura 4.d) mostra a série da figura 4.b)
diferenciada. Nítidamente, o gráfico sugere uma série estacionária, portanto aplicamos o
teste ADF com a opção 2. O resultado é uma estatística–tau de –8,54, situada à esquerda
do nível de significância de 1%, que nos indica a rejeição da hipótese nula de raiz
unitária. Com a rejeição da hipótese nula sob a opção 2 do teste ADF, somos levados a
concluir que a série é um processo estacionário sem tendência alguma e que não é
necessário diferenciar–se mais uma vez a série. Concluímos, então, que a série da figura
4.b) segue um processo I(1).

Exemplo 3: Exportações brasileiras (índice de quantum)

Agora, apresentamos a aplicação do teste ADF para uma série real. A figura 6.a)
apresenta a série anual do índice de quantum das exportações brasileiras no período que
vai de 1950 a 2007, compondo um total de 58 observações. É nítido o comportamento
fortemente ascendente da série a ponto de esta aparentar um comportamento explosivo.

Copyright© Rogério Silva de Mattos 35


Ao invés de trabalharmos diretamente com esta série13, optamos por trabalhar com sua
versão em log neperiano, a qual é muito usada em estudos econométricos voltados para
estimação de elasticidades das exportações. A série em log está apresentada na figura
6.b). Ela manifesta um comportamento ascendente que aparenta ser produzido por uma
tendência determinística linear. Diante disso, o uso do teste ADF servirá para detectar se
a série possui adicionalmente uma tendência estocástica (diferença estacionária) ou
somente a tendência determinística linear mais um erro estacionário (tendência
estacionária).

120 4.8

4.4
100
4.0

80 3.6

3.2
60
2.8

40 2.4

2.0
20
1.6

0 1.2
50 55 60 65 70 75 80 85 90 95 00 05 50 55 60 65 70 75 80 85 90 95 00 05

a) Dados brutos Log neperiano

Figura 6 – Índice de quantum (base 2005=100) das exportações brasileiras 1950–2007.


Fonte: Série elaborada pelo IPEA com dados da Funcex (1973–2007) e do IBGE (1950–
1972).

O teste ADF foi aplicado sob a opção 3 de intercepto mais termo de tendência,
que é a adequada nesse caso. A busca pelo lag–máximo dos termos defasados da
variável dependente, a serem usados como variáveis explicativas na estimação da
equação de teste, indicou que nenhum lag seria preciso. O resultado obtido foi uma
estatística tau–tau de –3,727, que se localiza entre o valor crítico de –4,124,
correspondente a 1% de nível de significância, e o valor crítico de –3,489,
correspondente a 5%. Assim, rejeitamos a hipótese nula a 5% e concluímos que a série
segue um processo do tipo tendência estacionária. Neste caso, não se faz necessário
testar para a primeira diferença da série.

13.3 Teste de Phillips–Perron

Phillips(1987) e Phillips e Perron (1988) propuseram outro teste de raiz unitária


que generaliza o teste ADF para uma ampla classe de modelos em que os erros ut na
equação (49) são autocorrelacionados e heterogeneamente distribuídos. Ele é conhecido

13
Este comportamento explosivo da série original poderia decorrer da presença de mais de uma raiz
unitária: por exemplo, série poderia seguir um processo I(2). No entanto, o que ocorre de fato é um
aumento muito intenso da variância da série. O uso da série em log, neste caso, permite aproximar melhor
o comportamento de um processo diferença estacionária ou I(1), que no entanto acabou sendo rejeitado
no teste ADF em favor de uma tendência estacionária.

Copyright© Rogério Silva de Mattos 36


como teste de Phillips–Perron ou, abreviadamente, teste PP. Essencialmente, o
procedimento do teste PP é o mesmo que o do teste ADF e envolve a estimação da
equação (49) para cômputo das estatísticas de teste, introduzindo apenas uma
modificação nas últimas. Neste sentido, ele permite as mesmas três opções em que
testa–se H0 :   0 (uma raiz unitária) contra a alternativa H1 : 2    0 (sem raiz
unitária). Na primeira opção, considera–se um modelo para Yt sem constante (i.e.,
constante nula), logo Yt  Yt1  ut ; na segunda, considera–se a possibilidade de uma
constante não nula, logo Yt  a  Yt1  ut e na terceira admite–se também um termo
de tendência Yt  a btYt1 ut . Nos três casos, tanto a hipótese nula quanto a
alternativa são interpretadas da mesma maneira que antes no que concerne à presença
ou ausência de tendências determinística e estocástica, conforme descrito em detalhe na
seção 4.2.
Para permitir situações mais abrangentes para o termo de erro e também
desenvolver uma teoria assintótica de teste conveniente, o teste PP difere do teste ADF
em dois aspectos principais. O primeiro é que as fórmulas das estatísticas de teste em
cada situação são diferentes das fórmulas da estatística–tau do teste ADF. As expressões
para as estatísticas do teste PP são:
T (ˆTl2 s2 )sˆ
Opção 1: Z ( )  s   (61)
ˆTl 2ˆTls

T (ˆTl2 s2)sˆ
Opção 2: Z(u )  s u  (62)
ˆTl 2ˆTls

T (ˆTl2 s2)sˆ
Opção 3: Z ( )  s   (63)
ˆTl 2ˆTls

De forma análoga ao teste ADF, essas estatísticas são obtidas a partir da estimação por
MQO das equações de teste correspondentes a cada opção, mas sem os termos
defasados na variável dependente. Isto é, a partir da estimação de expressões como
(51), (52) e (54), respectivamente. Assim, no lado direito das expressões (61), (62) e
(63), as estatísticas ,  e  foram obtidas como em (52), (54) e (56). O termo s̂ é o
erro–padrão do estimador de MQO ̂ para  . O termo s2 é a variância residual da
regressão de teste e corresponde a um estimador consistente da variância do erro ut sob
a hipótese de que este segue um processo ruído branco.
O termo ˆTl2
é um estimador consistente da variância do erro ut sob a hipótese de que
este é estacionário fraco mas admitindo condições mais genéricas de autocorrelação e
heterogeneidade do processo estocástico que gera esses erros. Este termo é o único
componente que não é calculado diretamente das equações de teste estimadas e o
aspecto mais complexo das expressões (40), (50) e (51) envolve justamente o seu
cômputo. Phillips e Perron se baseiam no fato de que a variância assintótica neste caso
é dada por:

Tl2  2  fu (0)

Copyright© Rogério Silva de Mattos 37


Onde fu (0) é o valor do espectro de potência do erro ut na frequência zero14. Dado
este fato, os autores sugerem o uso de procedimentos disponíveis na literatura de análise
de séries temporais para estimação consistente do espetro de potência e recomendam,
para os três casos, que se use a seguinte expressão:

1 T l T

̂Tl2   uˆt2  2wsl uˆt uˆt s  (64)
T  t 1 s 1 t s 1 

Onde ût são os resíduos da regressão correspondente a cada opção. O termo wsl,
s = 1,...,l, referese a um conjunto de pesos que constitui a janela de defasagem (lag
window) usada para suavizar as estimativas do espectro. Phillips e Perron apontam que
há vários tipos de janelas (métodos para determinar os pesos) que podem ser usadas,
como as janelas triangular (ou de Bartlett), de Parzen e de Newey West. Nos softwares
computacionais, usualmente são dadas opções ao usuário de escolher a janela de
defasagem para estimação do espectro.

Note que cada estatística Z também é uma função da estatística–tau


correspondente. O procedimento que Phillips e Perron seguiram para obter as
estatísticas–Z das expressões (61), (62) e (63) consiste de uma correção não–
paramétrica das correspondentes estatísticas–tau e isso nos leva ao segundo aspecto
diferente. Como já foi dito, uma vantagem do teste PP é que as estatísticas de teste
foram desenvolvidas assumindo–se uma estrutura mais geral para os processos com raiz
unitária representados no âmbito das equações de teste. Assim, o teste PP admite que Yt
possa seguir uma classe mais ampla de processos estocásticos não estacionários
incluindo modelos ARIMA apresentando erros autocorrelacionados e distribuídos de
forma heterogênea. É por esse motivo (de que as estatísticas–Z já incorporam essas
possibilidades inclusive a autocorrelação dos erros) que a equação de teste pode ser
estimada sem os termos defasados em Yt , o que era necessário antes no caso do teste
ADF.
Há, no entanto, um aspecto comum a ambos os testes ADF e PP que é muito
vantajoso em termos práticos. Embora as estatísticas–Z de Phillips e Perron sejam
diferentes das correspondentes estatísticas–tau de Dickey e Fuller, elas apresentam a
mesma distribuição limite sob a hipótese nula de raiz unitária. Assim, o teste PP pode
ser aplicado de forma muito similar e até mesmo mais simples do que o teste ADF.
Podem ser seguidos os mesmos passos da seção 4.2.5, mas sem a necessidade de se
determinar um lag máximo para a equação de teste. Para cada opção do teste, estima-se
a equação de teste sem defasagens da variável dependente e simplesmente calcula–se a
estatística–Z correspondente, segundo as expressões (61), (62) e (63). No momento de
se decidir pela rejeição ou não da hipótese nula de raiz unitária, usa–se os mesmos
valores críticos da distribuição de Dickey e Fuller.
A tabela 2 apresenta os resultados da aplicação do teste PP para as mesmas
séries simuladas dos exemplos 1 e 2. Esta tabela está organizada de modo muito
parecido com a tabela 1 para facilitar a comparação dos resultados. A única diferença
entre ambas é que a tabela 2 não inclui a coluna de lag–máximo (pelas razões

14
Não cabe neste texto introdutório entramos em maiores detalhes sobre estimação de espectros de
potência. Recomendamos ao leitor interessado o livro de Chatfeld (1995), onde há uma boa exposição
introdutória sobre o assunto.

Copyright© Rogério Silva de Mattos 38


explicadas no parágrafo acima) e há uma coluna com o título “Est–Z”, contendo os
números obtidos para as estatísticas–Z do teste PP, no lugar da coluna com o título
“Tau”, contendo as estatísticas–tau do teste ADF, que havia na tabela 1. A tabela 2
também apresenta uma última coluna contendo os valores de prova associados às
estatísticas–Z e que também foram calculados com base no mesmo método descrito em
MacKinnon(1996).
Os resultados do teste PP aplicado às séries simuladas são muito similares aos do
teste ADF e levam às mesmas decisões no que concerne à rejeitar/não–rejeitar H0.
Observe os resultados para as séries das figuras 2.a) e 2.b), que foram simuladas
segundo um processo sem raiz unitária. O teste PP rejeita a nula de raiz unitária nos dois
casos, mas desde, obviamente, que a opção correta tenha sido escolhida. Assim, quando
se usa a opção 2 com constante na equação de teste, o teste PP rejeita a 1% de
significância a presença de raiz unitária na série da figura 2.a). O mesmo acontece
quando se usa a opção 3, com constante mais tendência determinística linear, para a
série da figura 2.b). Note que, no caso desta última série, o teste PP não rejeita a nula
nem mesmo a 10% de significância se usamos a opção 2 (incorreta).
No caso das séries das figuras 3.a), 3.b), 4.a) e 4.b), que foram simuladas
segundo processos com raiz unitária, o teste PP não rejeita a hipótese nula de raiz
unitária em todos os casos, nem mesmo a 10% de significância. As estatísticas–Z ficam
acima do valor crítico respectivo nesses casos, mas, novamente, salientamos que isso
acontece porque foram usadas as opções corretas do teste. No caso das figuras 3.a) e
4.a), que não possuem tendência determinística, usou–se a opção 2 do teste PP. No caso
das séries das figuras 3.b) e 4.b), que embutem uma tendência determinística, foi usada
a opção 3. Por último, observe que o teste PP rejeita a nula para as séries diferenciadas
dessas quatro figuras, isto é, que estão plotadas nas figuras 4.c) e 4.d), respectivamente.
Usando a opção 2 para todas essas séries, a hipótese nula de raiz unitária é rejeitada até
mesmo a 1% de significância. Consequentemente, para todas essas séries das figuras 3 e
4, valem as interpretações feitas antes sobre a presença ou não de termos de tendência
determinística linear e/ou estocástica.
O teste PP também corrobora as conclusões do teste ADF no caso da série real
da figura 6.b) e que corresponde ao log neperiano do índice de quantum das exportações
brasileiras. O valor da estatística–z, calculada segundo a opção 3 do teste, é de –3,91 e
situa–se entre o valor crítico de 1% e o de 5% de significância, replicando assim o
mesmo resultado do teste ADF. Portanto, também pelo teste PP, podemos decidir pela
rejeição da hipótese nula de raiz unitária a 5% de significância, concluindo que a série
representativa do quantum das exportações brasileiras (em log) foi gerada por um
processo do tipo tendência estacionária.

Copyright© Rogério Silva de Mattos 39


Tabela 2. Teste de raiz unitária de Phillips–Perron para séries simuladas

Série Var. Teste de Phillips–Perron


Opção Est–Z 1% 5% 10% V. Prova
Fig. 2a Yt cte –7,72 -3,46 -2,88 -2,57 0,00
Fig. 2b Yt cte –0,34 -3,46 -2,88 -2,57 0,92
Fig, 2b Yt cte+tend –7,94 -4,01 -3,43 -3,14 0,00
Fig. 3a Yt cte –1,56 -3,46 -2,88 -2,57 0,50
Fig. 3b Yt cte+tend –2,06 -4,00 -3,43 -3,14 0,57
Fig. 4a Yt cte –1,19 -3,46 -2,88 -2,57 0,68
Fig. 4c Yt cte –8,71 -3,46 -2,88 -2,57 0,00
Fig. 4b Yt cte+tend –2,00 -4,01 -3,43 -3,14 0,60
Fig. 4d Yt cte –8,66 -3,46 -2,88 -2,57 0,00
Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews 7.0.
Notas: cte = com constante, tend = com termo de tendência. Est–Z = estatística Z() ou Z(),
dependendo da opção utilizada (no cálculo dessas estatísticas foi usado o método de Bartlett
para estimação do espectro de potência com janela de defasagem de Newey–West). O cálculo
dos valores de prova foram feitos por procedimento descrito em McKinnon(1996).

13.4 Teste DF–GLS

Um importante critério pelo qual estatísticos e econometristas avaliam a


qualidade de um procedimento de teste estatístico de hipótese é o conceito de poder. O
poder de um teste refere–se à probabilidade de rejeitar H0 para um dado valor do
parâmetro de interesse. Por exemplo, quando testamos H0 :  1 , o poder do teste
refere–se a probabilidade de rejeitar H0 dado que o verdadeiro valor de  é um número
qualquer *  R. Se esse número * for diferente de 1, o poder do teste neste caso é a
probabilidade de rejeitar H0 :  1 dado que H0 é falsa. Nem sempre é possível
estabelecer com precisão o poder de um teste estatístico, mas quando é possível temos
uma base importante de comparação desse teste com outros feitos para testar a mesma
H0. O teste que apresentar maior poder, sob as mesmas condições, é considerado o
melhor, pois nos leva com mais segurança à decidir corretamente pela rejeição de H0
quando ela for falsa. Um problema dos testes ADF e PP é o baixo poder que os mesmos
apresentam e em particular quando o processo gerador da série é estacionário (portanto
quando H0 é falsa) mas está próximo de apresentar uma raiz unitária. Isso acontece
quando o parâmetro  é menor do que 1 mas está próximo de 1, ou, de forma
equivalente, quando o parâmetro  é menor do que 0 mas está próximo de 0. Nessa
situação, o processo gerador da série é dito quase–integrado (near integrated) e os testes
ADF e PP apresentam baixa probabilidade de rejeitar H0.
No trabalho de Elliot et all (1996), os pesquisadores Elliot, Rottemberg e Stock
(doravante chamados de ERS) introduzem dois testes de raiz unitária que apresentam
vantagens significativas em termos de poder se comparados aos testes ADF e PP.

Copyright© Rogério Silva de Mattos 40


Ambas as abordagens seguem a mesma estrutura do teste ADF, onde se assume a
hipótese nula de raiz unitária no âmbito da equação de teste (45) e de acordo com as
mesmas três opções. A primeira abordagem de ERS é baseada no uso das estatísticas de
Dickey–Fuller, porém calculadas de um modo diferente que envolve um procedimento
intermediário de estimação por mínimos quadrados generalizados (em inglês
generalized least squares – GLS). Por esse motivo, o procedimento desta primeira
abordagem é chamado de teste DF–GLS. A segunda abordagem é baseada na teoria de
testes ótimos em inferência estatística e sobre ela falaremos mais adiante na seção 4.5.

Processo para Yt

ERS assumem que o processo gerador da série é dado por:

Yt  dt  ut (65)
ut  ut1 vt (66)

onde Yt é a variável de interesse, dt é um termo determinístico, ut é um termo aleatório


que segue um processo AR(1) e vt é um processo I(0) com média nula. ERS assumem
na primeira abordagem que vt é normalmente distribuído e segue uma estrtura AR(p). O
termo determinístico admite três possibilidades:

Opção 1: dt  0 (67)
Opção 2: dt 0 (68)
Opção 3: dt 0 1t (69)

Onde 0 e 1 são constantes e t é a variável tempo. O objetivo de ERS é testar a


hipótese nula H0 :  1, correspondente à presença de uma raiz unitária em Yt, contra a
alternativa H0 :|  |1, correspondente a Yt estacionário. Note que embora  apareça
somente na equação (54) para ut , o modelo para Yt representado pelas equações (65)–
(69) é o mesmo que foi usado nos testes ADF e PP e que corresponde à equação (57).
Para ver isso, perceba que o processo para Yt descrito nas expressões (65) e (66) é o
mesmo usado para caracterizar Yt e Zt nas equações (41) e (42), que deram origem à
representação geral da equação (44). Se procedermos de forma análoga agora, isto é, se
fizermos algumas manipulações algébricas, como resolver a equação (65) para ut e
depois substituir na equação (66), obteremos, para cada opção, as seguintes
representações do processo para Yt :

Opção 1: Yt  Yt 1  vt (70)


Opção 2: Yt 0(1 )  Yt 1  vt (71)
Opção 3: Yt 0(1 ) 1 1(1 )t  Yt 1  vt (72)

Ou seja, obtemos em cada opção um caso particular da equação (44) correspondente à


representação geral de processos com raiz unitária para Yt. Fica claro nas expressões
(70)–(72) que o processo para Yt apresentará uma raiz unitária se   1 e nenhuma raiz

Copyright© Rogério Silva de Mattos 41


unitária se |  | 1 . Indo um pouco mais além, se subtrairmos Yt 1 de cada uma das
expressões, obtemos:

Opção 1: Yt  Yt1 vt (73)


Opção 2: Yt  a  Yt 1  vt (74)
Opção 3: Yt  a btYt 1 vt (75)

Onde    1 , a 0 (1 ) , a 0 (1 ) 1 e b 1 (1 ) . Portanto, o


objetivo de ERS é equivalente a testar a hipótese nula H0: :   0 contra a alternativa
H0: : 2    0 nas três opções. Isso deixa claro que o teste DF–GLS usa a mesma
estrutura do teste ADF, na medida em que admite que o processo estocástico para Yt
descrito em (65)–(66) equivale à expressão (57) de forma que a equação de teste:

 na opção 1, não possua constante nem termo de tendência;


 na opção 2, possua só constante;
 na opção 3, possua constante mais um termo de tendência determinística linear.

Assim, cada opção do teste DF–GLS também permite interpretar as hipóteses nula e
alternativa da mesma forma no que concerne à presença/ausência de tendências
determinísticas e estocásticas. Veja o quadro 1.
Porém, de forma diferente, o teste DF–GLS considera no lugar da variável Yt
uma transformação da mesma que é livre das influências dos termos determinísticos
representados pela constante e o termo de tendência. Ao fazerem isso, na prática ERS
não alteram o procedimento do teste ADF para a opção 1 (sem constante e sem
tendência determinística linear), mas só para as opções 2 e 3. Assim, é importante
observar que é apenas sobre as duas últimas opções que incide o procedimento
alternativo proposto por ERS segundo o teste DF–GLS. Em ultima instância, esse
procedimento alternativo vai implicar num modo diferente de construção da estatística
de teste nessas duas últimas opções.

Estatística do teste DF–GLS

No intuito de construir a variável Yt transformada e obter as estatísticas de


testes em cada opção, ERS seguem um conjunto de passos descritos a seguir. O
primeiro passo envolve computar por MQG, ao invés de MQO, uma das seguintes
regressões para a primeira equação do processo considerado para Yt:

Opção 2: Yt* ˆ 0*  vˆt (76)


Opção 3: Yt* ˆ0* ˆ1t*  vˆt (77)

 Y t 1  1 t 1
Onde: Yt*   1 ; t*   e ˆ0* ˆ0 (1   )
Yt Yt t 1 t   (t 1) t  1

O procedimento adotado aqui é do tipo MQG porque regride–se a diferença


generalizada de Yt, representada pela variável Yt*, contra uma constante (opção 2) ou

Copyright© Rogério Silva de Mattos 42


contra uma constante mais a diferença generalizada da variável t (opção 3), representada
por t*. O objetivo de realizar uma das regressões acima consiste em obter estimativas
eficientes de  0 e  1 . Na presença de erros autorregressivos de ordem 1, conforme a
equação (66), o estimador de MQO deixa de ser eficiente e neste caso pe vantajoso usar
o estimador de MQG 15 . No caso de se usar a opção 1 do teste, em que dt  0 ,
obviamente não é necessário estimar qualquer parâmetro e portanto não se aplica
regredir a primeira equação por MQG. Há um detalhe importante, porém, na estimação
por MQG feita em (76) e (77) que é o fato de que algum valor precisa ser assumido para
 , uma vez que é um parâmetro desconhecido. ERS assumem um valor  que é
determinado segundo a expressão:

c
 1 (78)
T
onde c é uma constante pré-fixada. O valor desta constante é negativo e é escolhido de
forma que  seja um valor menor mas não muito distante de 1 (daí ERS chamarem o
termo  de “alternativa local ao ponto”, no caso, ao ponto   1) e vai ficando cada
vez mais próximo de 1 quanto maior for o tamanho T da série. ERS mostram que usar
os valores c  7 para a opção 2 e c  13,5 para a opção 3 promove máxima
vantagem em termos de poder do teste. Em suma, os valores de  são determinados de
acordo com:

7
Opção 2:  1 (79)
T
13,5
Opção 3:   1 (80)
T

O segundo passo envolve usar os parâmetros ˆ 0 ˆ 0* (1  )1 e ˆ1 estimados
por MQG para “expurgar” de Yt os efeitos do termo determinístico dt . Isso é feito
computando–se:

Opção 2: Yt d  Yt ̂ 0 (81)


Opção 3: Yt  Yt ˆ0 ˆ1t
d
(82)

O último passo consiste de substituir Yt d no lugar de Yt na equação de teste, isto é:


p
Yt d  Yt d1   j Yt d t (83)
j 1

Para então estimá–la por MQO e computar a razão:

Opção 2: t  ˆ sˆ (84)

15
O leitor pode encontrar boas explicações sobre o método de MQG (GLS) , por exemplo, em Johnston e
Dinardo (1997).

Copyright© Rogério Silva de Mattos 43


Opção 3: t  ˆ sˆ (85)

Onde ̂ representa o estimador de MQO para  e s̂ o erro–padrão de ̂ . Note que não
se coloca na equação (83) nem o termo constante e nem o termo de tendência (i.e., tal
como esses aparecem no modelo (57)). Faz–se assim porque os efeitos desses termos
(dada a opção do teste escolhida) já foram removidos pelo procedimento de cômputo de
Yt d , como descrito acima. Note também que, em decorrência disso, t  e t possuírão
valores diferentes de   ou  porque foram construídas por procedimentos diferentes.
ERS apontam que, na opção 2 só com constante, a estatística t  possui a mesma
distribuição limite que   , isto é, a distribuição de Dickey-Fuller. No entanto, na opção
3 com constante e tendência determinística linear, a distribuição limite é diferente. Os
autores usam procedimentos de Monte Carlo e tabulam os valores críticos neste caso
(ver a tabela 1 do apêndice, reproduzida do artigo de Elliot e al, 1996).
A tabela 3 apresenta os resultados da aplicação do teste DF–GLS nas mesmas
séries simuladas das figuras 2, 3 e 4. Esta tabela está organizada da mesma forma que a
tabela 1 para o teste ADF, o que permite uma comparação fácil entre os resultados de
ambos os testes e também com os do teste PP. Nesse sentido, fica fácil perceber que as
conclusões obtidas em termos de rejeitar/não rejeitar a hipótese de raiz unitária no caso
do teste DF–GLS são as mesmas que as dos testes ADF e PP. Isso era esperado, dado
que os procedimentos usam uma mesma estrutura de teste com a mesma finalidade
(testar a presença de uma raiz unitária) e as séries foram simuladas de forma bem
comportada.
No entanto, vale tecer algumas observações quanto aos números na tabela 3. O
procedimento do teste DF–GLS, assim como o teste ADF, também envolve determinar
antes um lag–máximo para a estatística de teste. Os valores de lag–máximo da tabela 3
em geral são os mesmos obtidos no teste ADF. Em geral, os valores da estatística–tau
são mais próximos de zero se comparados aos correspondentes do teste ADF na tabela
1. Isso também vale para os valores críticos de 1%, 5% e 10%. Esse aspecto se justifica
por razões técnicas que fogem ao escopo deste texto e que decorrem da preocupação de
ERS em construir uma opção alternativa do teste ADF que apresentasse maior poder.
Não são apresentados na tabela 3 os valores de prova, porque o software utilizado para
produzir a tabela 3 não os computa. Mesmo assim, mantivemos a coluna de valor de
prova nessa tabela para salientar essa diferença em relação aos procedimentos
anteriores.

Copyright© Rogério Silva de Mattos 44


Tabela 3. Teste de raiz unitária DF–GLS para séries simuladas

Série Var. Teste DF–GLS


Opção Lag-Máx Tau 1% 5% 10% V. Prova
Fig. 2a Yt cte 0 -7.62 -2.58 -1.94 -1.62 –
Fig. 2b Yt cte 3 -2.71 -2.58 -1.94 -1.62 –
Fig. 2b Yt cte+tend 0 -7.96 -3.46 -2.93 -2.64 –
Fig. 3a Yt cte 0 -0.98 -2.58 -1.94 -1.62 –
Fig. 3b Yt cte+tend 0 -1.28 -3.46 -2.93 -2.64 –
Fig. 4a Yt cte 2 -0.26 -2.58 -1.94 -1.62 –
Fig. 4c Yt cte 1 -4.74 -2.58 -1.94 -1.62 –
Fig. 4b Yt cte+tend 1 -2.23 -3.46 -2.93 -2.64 –
Fig. 4d Yt cte 0 -7.50 -2.58 -1.94 -1.62 –
Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews 7.0.
Notas: Var. = variável; cte = com constante; tend = com termo de tendência; Lag–Máx = defasagem
máxima da variável dependente na equação de teste. Tau = estatística–, u ou , dependendo da
opção utilizada.

13.5 Teste Ponto-Ótimo de ERS

No mesmo paper em que apresentam o teste DF–GLS, ERS propõem outro


procedimento para testar a presença de uma raiz unitária. Conhecido como teste ponto–
ótimo de ERS, esse outro procedimento segue usando a estrutura de três opções do
teste ADF, como fizeram os outros testes que vimos até aqui, mas tem a vantagem de
apresentar poder ainda maior do que o DF-GLS, inclusive sob circunstâncias em que a
serie testada é estacionária mas tem raiz próxima de um. Chamaremos este segundo
procedimento de teste ERS–PO e vejamos como ele funciona.
Inicialmente, ERS continuam assumindo que o processo gerador de Yt é dado por
(53)–(54) e segundo as três opções para o termo determinístico dt apresentadas em (55)–
(57). Assim, o teste ERS–PO vai continuar usando mesma a estrutura do teste ADF, de
forma que, em cada opção, as hipóteses nula e alternativa também são interpretadas da
mesma forma no que concerne à presença/ausência de tendências determinísticas e
estocásticas. Isso torna a aplicação do teste ERS–PO bem fácil, embora como dissemos
no caso do teste DF–GLS, aqui também há aspectos mais complexos, em particular na
construção da estatística de teste, cujo desenvolvimento de uma intuição adequada foge
ao nível pretendido para este texto. Por isso, nos limitaremos a seguir a apresentar os
passos essenciais envolvidos na contrução da estatística do teste ERS–PO. Ao final da
seção, um passo-a-passo de implementação do teste será apresentado.

Copyright© Rogério Silva de Mattos 45


Estatística do Teste ERS–PO

A principal diferença do procedimento de ERS–PO em relação aos anteriores


reside na forma de computar a estatística de teste. O primeiro passo é o mesmo que no
caso do teste DF-GLS, isto é, envolve computar por MQG uma das seguintes regressões
para a primeira equação do processo considerado para Yt, como em (64) e (65). No
entanto, o objetivo agora é diferente e consiste em obter duas sequências de resíduos v̂t ,
uma sob a hipótese    e outra sob   1. No caso de se usar a opção 1 do teste, em
que dt  0 , obviamente não é necessário estimar qualquer parâmetro e portanto não se
aplica regredir a primeira equação por MQG. No entanto, neste caso pode-se computar
os resíduos como vˆt  Yt  Yt 1 e vˆt  Yt Yt1 . O valor de  é determinado
previamente ao cômputo das regressões, segundo as expressões (67) e (68):
Num segundo passo, ERS computam a seguinte estatística:

Opção 1: PT 
S( )  S(1)] (86)
ˆ 2
Opção 2: P,T 
S()  S(1)] (87)
ˆ 2
Opção 3: P ,T 
S()  S(1)] (88)
ˆ 2

Onde S (  ) e S(1) representam a soma dos quadrados dos resíduos v̂t de acordo com a
opção escolhida do teste e segundo cada hipótese    e   1, respectivamente. A
fim de facilitar a comparação com as estatísticas dos outros testes apresentados
anteriormente, pusemos os subscritos  e  nas opções 2 e 3 de PT .
O termo ̂ que aparece no denominador das três estatísticas demanda outro
2

conjunto de procedimentos para ser calculado. Esse termo representa algum estimador
consistente da variância de longo prazo de vt , a qual também chamamos anteriormente
de “valor do espectro de potência na frequência zero”16, quando estudamos o teste PP.
ERS sugerem dois modos de se calcular ̂ : o primeiro é adequado quando se tem
2

conhecimento de uma estrutura AR(p) para vt:

ˆ2
ˆ AR
2
 p
(89)
1   aˆi
i 1

Onde ˆ2 é a variância residual e âi ( i  0,1,, p ) as estimativas de MQO dos


parâmetros da regressão:

yt  a0 yt1  a1yt1  a2yt2  apyt p t (90)

16
Por esse motivo, esses estimadores são também chamados de estimadores espectrais.

Copyright© Rogério Silva de Mattos 46


Onde t é um termo de erro sem correlação serial.
O segundo modo de calcular ̂ é adequado para hipóteses mais gerais para a
2

estrutura de vt (como modelos ARMA(p,q) ou mesmo GARCH) e consiste de uma soma


ponderada de autocovariâncias (que ERS chamam simplesmente de “soma de
covariâncias” - SC):

1 lT
T m
ˆSC
2
 K(m/ lT )ˆ(m) (91)
lT

1 T |m|
ˆ(m)  eˆt eˆt |m| m  lT ,,0,, lT (92)
T t1

onde K(,) é a janela de defasagem de Parzen (que representa os pesos da soma) e ˆ(m)
é a autocovariância amostral de lag m dos resíduos êt . O termo lT determina a “largura
de banda” da soma, isto é, o número de defasagens incluídas no cômputo de K(,).
Observe, porém, que o cálculo da covariância amostral ˆ(m) usa resíduos diferentes
dos resíduos v̂t , por isso são definidos com a letra “e” . Os resíduos êt são obtidos a
partir da estimação por MQO de uma das seguintes regressões:

Opção 1: Yt  ˆYt 1  eˆt (93)


Opção 2: Yt ˆ0  ˆYt 1  eˆt (94)
Opção 3: Yt ˆ0 ˆ1t  ˆYt 1  eˆt (95)

Note que essas regressões diferem ligeiramente das que foram usadas para gerar os
resíduos v̂t porque agora coloca-se o termo defasado Yt 1 como mais uma explicativa
nas equações e essas são estimadas por MQO ao invés de MQG. Portanto, não se faz
uso aqui das hipóteses    e   1 , ao invés disso deixa-se o método estimar
livremente um valor de  através do cômputo de ̂ .
Isso resume os procedimentos para cômputo da estatística de teste, segundo uma
das opções: PT , P ,T ou P ,T . Nos três casos, a estatística assume sempre valores
positivos e ERS mostram que, sob a condição de  fixo e |  | 1 (ou seja, ut
estacionário) , elas convergem em probabilidade para 0 quando T tende a infinito.
Quanto maior o valor, mais evidência a favor da hipótese nula de raiz unitária. Quanto
menor, mais evidência a favor da hipótese alternativa de ausência de raiz unitária. A
decisão de se rejeitar ou não a hipótese nula de raiz unitária é feita pela comparação
com o valor crítico pT  p ,T ( ) , no caso das opções 1 e 2, ou pT  p ,T ( ) , no caso da
opção 3, onde  é o nível de significância escolhido. Se PT  pT , rejeita-se H0; do
contrário, não rejeita-se.

Copyright© Rogério Silva de Mattos 47


Passo a passo do teste ERS

Em termos práticos, o teste de ERS aplica-se de forma bem semelhante aos


testes de raiz unitária apresentados anteriormente, sendo importante no entanto atentar
para seus detalhes específicos. Os passos para implementação do teste são descritos a
seguir:

1. Análisar o gráfico da série e escolher a opção do teste (o que envolve também


determinar o valor de c  7 ou c  13,5 );
2. Computar a estatística de teste:
a. Executar a regressão correspondente por MQG, segundo (76) ou (77),
para obter sequências de resíduos v̂t sob hipóteses    e  1;
b. Calcular S (  ) e S(1) ;
c. Escolher o método para computar ̂ :
2

i. Se escolher 
ˆAR
2
, então determinar um valor de p, estimar por
MQO a equação (90) para computar ˆ2 e âi ( i  0,1,, p ) e na
sequência computar ˆAR
2
, segundo (89);
ii. Se escolher ˆ S2C , regredir por MQO uma das equações (93), (94)
ou (95); depois escolher o lag máximo lT e usar junto com êt
para computar ˆ S2C , segundo (91) e (92);
d. Computar a estatística: PT , P ,T ou P ,T ;
3. Aplicar regra de decisão: Se PT  pT , rejeita-se H0; do contrário, não rejeita-se.

A tabela 4 apresenta os resultados da aplicação do teste ERS–PO às séries simuladas.


Esta tabela está organizada como a tabela 2 do teste PP, isto é, sem a coluna de lag–
máximo e sem a coluna de valor de prova. Todos os resultados para a estatística PT
foram calculados assumindo–se a fórmula (95) de cálculo do denominador pela método
das somas de covariâncias com a janela de Parzen e com a seleção da largura de banda
pelo método de Newey–West (1987). Neste caso, o teste ERS–PO, assim como o teste
PP, não prescinde do cômputo de um lag–máximo para a equação de teste, que no caso
consiste de uma das expressões (73)–(75). O software utilizado não computa os valores
de prova para este teste.
Para todas as séries, o teste ERS–PO leva às mesmas conclusões no que
concerne à rejeição ou aceitação de H0 que os testes anteriores. Esse resultado era
naturalmente esperado, dado que as séries foram simuladas de maneira “bem
comportada” segundo padrões desejados. Repare que os valores das estatísticas de teste
reportadas são todos positivos, devido às características específicas da estatística de
teste desenvolvida por ERS para o teste ponto–ótimo. Valores muito próximos de zero
lervaram à rejeição da hipótese de uma raiz unitária e valores altos à não rejeição. foram
usadas apenas as opções 2 (constante) e 3 (constante+tendência) do teste, dependendo
da característica da séries de parecer não embutir ou embutir uma tendência
determinística, respectivamente. Os valores críticos reportados de 1%, 5% e 10% são
próprios para as estatísticas porque a estatística de teste P ,T segue uma distribuição
diferente da de Dickey–Fuller.

Copyright© Rogério Silva de Mattos 48


Tabela 4: Teste ponto–ótimo de Elliot, Rotemberg e Stock

Série Variável Teste ponto–ótimo de ERS


Opção PT 1% 5% 10%
Fig. 2a Yt cte 0,50 1,91 3,17 4,33
Fig. 2b Yt cte 513,13 1,91 3,17 4,33
Fig. 2b Yt cte+tend 1,30 4,05 5,66 6,90
Fig. 3a Yt cte 12,25 1,91 3,17 4,33
Fig. 3b Yt cte+tend 23,14 4,05 5,66 6,90
Fig. 4a Yt cte 48,53 1,91 3,17 4,33
Fig. 4c ∆Yt cte 0,51 1,91 3,17 4,33
Fig. 4b Yt cte+tend 11,67 4,05 5,66 6,90
Fig. 4d ∆Yt cte 0,43 1,91 3,17 4,33
Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews
7.0. Notas: cte = com constante, tend = com termo de tendência. PT = estatística de teste
utilizada, podendo PT ou PT, dependendo da opção utilizada. O método de estimação
da variância de longo–prazo foi a fórmula do espectro de potência na frequência zero
suavizado com a Janela de Parzen. A largura de banda da janela seguiu o método de
Newey–West.

A aplicação do teste ERS–PO à série também nos leva à mesma conclusão que
os testes anteriores, isto é, que a mesma apresenta uma raiz unitária acompanhada de
uma tendência determinística. O valor obtido para a estatística PT foi 37,62, situando–
se à direita dos valores críticos 4,22 (1% de sig.), 5,71 (5% de sig.) e 6,77 (10% de sig.).

13.6 Teste ADF com Sazonalidade

Nesta sub-seção, voltamos a falar do teste ADF. Com muita frequência, os dados
para nossas séries econômicas de interesse estão disponíveis em forma intra-anual, quer
dizer, mensal, bimestral, trimestral, quadrimestral ou semestral. Nesses casos, é natural
que as séries econômicas apresentem sazonalidade. É preciso então que esse aspecto
seja incorporado num procedimento de teste de raiz unitária para que ele possa detectar
adequadamente a presença ou ausência da raiz unitária e o tipo de processo estocástico
que está gerando a série. No caso do teste ADF, é possível usá-lo de forma bem fácil
quando as séries econômicas de interesse apresentarem sazonalidade. O procedimento
do teste continua basicamente o mesmo, sendo preciso apenas introduzir variáveis
dummies sazonais na equação de teste aumentada (57) para modelar o componente de
sazonalidade. Dickey e Miller (1986) mostraram que esse procedimento não afeta a
distribuição limite das estatísticas-tau e, consequentemente, elas podem ser usadas da
mesma maneira que antes, assim como as tabelas de valores críticos para as mesmas.
Considere a equação geral de teste aumentada da expressão (57) re-escrita como
segue:
S 1 p
Yt  a  bt  cs Dst  Yt1   j Yt j  ut (96)
s1 j 1

Copyright© Rogério Silva de Mattos 49


Onde Dst representa a dummy sazonal do período s (mês, bimestre, etc.), valendo,
portanto, 1 nesse período e 0 nos demais. O termo S (em maiúsculas) representa o
comprimento do ciclo sazonal (12 meses, 6 bimestres, etc.). Todos os demais termos
que entram na expressão (58) continuam definidos como antes. Observe que, embora
possamos definir um total de S variáveis dummy, sempre colocamos uma a menos na
equação de regressão a ser estimada para evitar o problema de colinearidade perfeita
com a constante da equação.
Alguns autores, como Enders (....) e Johansen (....), recomendam que se use
variáveis dummy sazonais centradas no lugar das variáveis dummy usuais. Isso é útil
para que, além das estatísticas de teste preservarem suas distribuições limite, as
estimativas dos demais coeficientes da equação (96) - isto é, a, b e j (j = 1,...,p) -
também não sejam afetadas pela presença das dummies sazonais. Para isso, devemos
redefnir as variáveis dummy da dequação (96) como:

1 1/ S t  s
DCst   s = 1,...,S (97)
 1/ S t  s

Agora, DCst representa a variável dummy sazonal centrada do período sazonal s. Assim,
uma vez incorporadas as variáveis dummy sazonais (centradas), podemos seguir os
mesmos procedimentos descritos antes para implementar o teste ADF. Continuamos
tendo três opções para o teste, onde em cada opção continuamos testando H0 :   0
(uma raiz unitária) contra a alternativa H1 : 2    0 (sem raiz unitária) e estimando
por MQO a equação de teste de acordo com:

S 1 p
Opção 1: Yt  cˆs DCst  ˆYt 1  ˆj Yt  j  uˆt (98)
s 1 j 1
S 1 p
Opção 2: Yt  aˆ  cˆs DCst  ˆYt 1  ˆj Yt  j  uˆt (99)
s 1 j 1
S 1 p
Opção 3: Yt  aˆ  bˆt  cˆs DCst  ˆYt1  ˆj Yt j  uˆt
s1 j 1
(100)

Nas três opções, continuamos computando a estatística de teste como:


ˆ
tˆ 
sˆ
Onde ̂ e s̂ são computados de acordo com a equação de teste respectiva. A fim de
proporcionar uma melhor intuição do procedimento, vejamos um exemplo.

Exemplo 4. Comércio de Bens de Consumo na Região Metropolitana de São Paulo

Copyright© Rogério Silva de Mattos 50


180 60

160 40

140 20

120 0

100 -20

80 -40

60 -60

40 -80
90 91 92 93 94 95 96 97 98 99 00 01 02 03 90 91 92 93 94 95 96 97 98 99 00 01 02 03

a) Nível b) Primeiras Diferenças

Figura 7. Série Mensal de Comércio de Bens de Consumo na Região Metropolitana de


São Paulo, Janeiro de 1990 a Dezembro de 2013. Índice de Faturamento Real (Base
média de 1998=100) .Fonte: Federação de Comércio de São Paulo.

A figura 7.a) mostra o gráfico de uma série de dados mensais correspondente ao


faturamento real do comércio de bens de consumo na Região Metropolitana de São
Paulo. É nítido pelo gráfico a presença de um padrão sazonal com picos bem salientes
nos meses de dezembro de cada ano e vales nos meses de janeiro ou fevereiro. É nítido
também um padrão de crescimento persistente da média da série no longo prazo. Para
ajudar a visualizar o comportamento no tempo das variações sazonais, a figura 7.b)
mostra o gráfico da série em primeiras diferenças. É possível perceber nesse segundo
gráfico, que as oscilações sazonais se mantém relativamente estáveis, apresentando
apenas um suave aumento de amplitude sazonal nos anos mais para o fim, em particular
2000 e 2001. Diante disso, optamos por trabalhar com a série bruta, sem transformação
logarítimica por exemplo. Devido ao padrão crescente exibido pela média da série no
longo prazo, optamos pela opção 3 do teste ADF e computamos por MQO a equação
(100) considerando 11 variáveis dummy (uma para cada mês do ano, começando com
janeiro, mas sem a correspondente para o mês de dezembro). Como os dados são
mensais, segue que S = 12 e isso nos leva a definir as variáveis dummy sazonais
centradas como:

1  (1/12) t  s
DCst  
 1/12 t  s

Os resultados estão apresentados na tabela 4, onde denominamos a variável Yt pela sigla


CBC.

Copyright© Rogério Silva de Mattos 51


Tabela 4. Equação de Teste com Variáveis Dummy Sazonais
Variável Dependente: Comércio de Bens de Consumo (∆CBC) RMSP
Variável Explicat. Coef. Erro-padrão Razão-t Prob.
C 5,63 2,44 2,31 0,02
t 0,04 0,02 2,18 0,03
DC1 -68,04 3,52 -19,35 0,00
DC2 -50,99 4,17 -12,24 0,00
DC3 -37,63 4,34 -8,67 0,00
DC4 -36,98 1,99 -18,60 0,00
DC5 -31,94 1,90 -16,80 0,00
DC6 -42,44 1,93 -21,95 0,00
DC7 -36,61 1,93 -18,98 0,00
DC8 -34,36 2,01 -17,05 0,00
DC9 -38,20 1,90 -20,15 0,00
DC10 -34,60 1,88 -18,45 0,00
DC11 -37,16 1,92 -19,33 0,00
CBC(-1) -0,10 0,04 -2,31 0,02
∆(CBC(-1)) -0,32 0,08 -3,90 0,00
∆(CBC(-2)) -0,12 0,08 -1,57 0,12
R2 0,93
R2-ajustado 0,93
SIC 6,43
Estatíst. ADF  -2,31
Valor crítico 1 % -4,02
Valor crítico 5 % -3,44
Valor crítico 10% -3,14

Antes de computarmos a equação apresentada na tabela 4, tivemos que


determinar o lag máximo dos termos defasados da variável dependente, que no caso foi
o lag 2. Esse procedimento envolveu estimar a equação algumas vezes, começando sem
qualquer lag e aumentando progressivamente o número de lags na equação até
minimizar o critério de informação de Schwarz (SIC na tabela 4). Agora, observe que a
variável CBC(-1), correspondente a Yt-1, está destacada em negrito. A razão t calculada
para essa variável é de -2,31. Na parte inferior da tabela 4, esse valor é copiado no item
referente à estatística ADF. Logo abaixo, vêm os valores críticos associados ao tamanho
de amostra usado, de T = 165 observações. O valor de  = -2,31 portanto, situa-se à
direita do valor crítico de 10%, correspondente a -3,14. Decidimos, então, pela não
rejeição da hipótese nula e admitimos que a série apresenta uma raiz unitária. Como a
opção do teste foi a opção 3, concluímos ainda que a série apresenta uma tendência
estocástica mais uma tendência determinística, quando controlamos para as influências
do component sazonal.
Neste caso, é interessante verificar se a série apresenta mais alguma raiz unitária,
o que permitirá determinar a ordem de integração da mesma. A tabela 5 apresenta
resultados para a aplicação do teste ADF considerando sazonalidade para a primeira
diferença da série de faturamento mensal de bens de consumo na RMSP. Optamos pela
opção 2 aqui porque o gráfico da série apresentado na figura 6.b) sugere a ausência de
uma tendência determinística linear na série em primeiras diferenças. Repare também

Copyright© Rogério Silva de Mattos 52


que temos de adaptar a equação de teste em (96) para refletir o fato de que agora
estamos examinando a série em primeiras diferenças, escrevendo:
S 1 p
Opção 2: 2Yt  aˆ  cˆ
s1
s1 DCst  ˆYt1  ˆj 2Yt j  uˆt
j 1

Ou seja, na equação (99) consideramos  Yt como variável dependente no lado


2

esquerdo e Yt1 como variável explicativa no lado direito. Novamente, apresentamos


em negrito a razão-t, no valor de -11,99, para a variável explicativa D(CBC(-1)),
correspondente à Yt1 na expressão (99). Na parte inferior da tabela, este valor é
copiado para o lado direito da estatística ADF (tau-mi). Este valor situa-se à esquerda
do valor crítico de 1%, o que nos leva à decidir pela rejeição da hipótese nula de raiz
unitária. Assim, quando controlamos para a presença de sazonalidade e consoante com o
gráfico da figura 6.b), concluímos que a série em primeiras diferença não apresenta
tendência alguma e constitui um processo estacionário; e mais, concluímos também que
a série em nível é I(1).

Tabela 5. Equação de teste para a primeira Diferença do Comércio de


Bens de Consumo (2CBC) da RMSP com variáveis dummy sazonais

Variável Explicat. Coef. Erro-padrão Razão-t Prob.

C 0,41 0,39 1,06 0,29


DC1 -69,83 3,47 -20,14 0,00
DC2 -51,69 4,20 -12,30 0,00
DC3 -38,10 4,38 -8,69 0,00
DC4 -36,46 2,00 -18,27 0,00
DC5 -31,44 1,91 -16,48 0,00
DC6 -42,33 1,95 -21,67 0,00
DC7 -36,31 1,95 -18,66 0,00
DC8 -34,15 2,03 -16,78 0,00
DC9 -37,99 1,91 -19,84 0,00
DC10 -34,45 1,90 -18,18 0,00
DC11 -37,18 1,94 -19,13 0,00
∆(CBC(-1)) -1,53 0,13 -11,99 0,00
∆2(CBC(-1)) 0,15 0,08 1,96 0,05
R2 0,98
R2-ajustado 0,97
SIC 6,40
Estatíst. ADF  -11,99
Valor crítico 1 % -3,47
Valor crítico 5 % -2,88
Valor crítico 10% -2,58

Copyright© Rogério Silva de Mattos 53


14. Comentários Finais

Este texto foi produzido com o propósito didático de introduzir de forma mais
clara e precisa alguns tópicos que são centrais no entendimento da moderna EST. Esses
tópicos dizem respeito às noções de processo integrado e de raíz unitária, assim como
aos procedimentos de teste de raiz unitária baseados na estrutura de Dickey e Fuller.
Trabalhamos numa das abordagens disponíveis para esse teste, isto é, baseada no uso da
razão t (aqui chamada de estatística ). Apresentamos uma formulação em que alguns de
seus detalhes são ignorados em outros textos didáticos, inclusive alguns livros texto.
Esses aspectos ignorados podem implicar em interpretações e aplicações incorretas do
procedimento de Dickey Fuller, como a confusão entre tendência determinística e
processo de raiz unitária e as consequências nefastas de se ignorar a presença de
sazonalidade.
Atualmente, há uma variedade de outros testes de raíz unitária disponíveis. Esses
outros procedimentos de teste são adequados seja como alternativas aos quatro
procedimentos de teste que apresentamos aqui, seja como procedimentos para situações
específicas apresentadas pelas séries. No último caso, por exemplo, são muito usados
atualmente os testes de raiz unitária na presença de quebra estrutural da série. O bom
preparo como econometrista especialista em econometria de séries de tempo depende de
se investir em aprender esses outros procedimentos de teste de raíz unitária. Esperamos
que este texto tenha servido como um startup.

Copyright© Rogério Silva de Mattos 54


Apêndice 1: Decomposição de Beveridge e Nelson

Os econometristas que estudaram fenômenos como os ciclos econômicos sempre


buscaram extrair do comportamento dinâmico de uma série temporal o componente de
tendência, para que, assim, pudessem estudar o componente de ciclo. Para séries que
seguem o processo tendência estacionária, esta decomposição é trivial e envolve subtrair
da série o componente de tendência determinística linear.
No entanto, para séries que apresentam raiz unitária, como a série que segue o
processo diferença estacionária, esse procedimento não é suficiente. Eliminase a
tendência determinística linear do comportamento da série mas permanece o
componente de tendência estocástica. A idéia da decomposição de Beveridge e Nelson
(BN) é modelar uma série não estacionária como a soma de uma tendência estocástica,
também chamado componente secular, e um componente estacionário, também
chamado de componente cíclico.
Este apêndice explica, de forma sucinta, como se procede para decompor um
processo de raiz unitária em uma parte que é tendência estocástica e outra que é um
componente cíclico estacionário, ou I(0). Para tanto, partimos da representação de um
processo de raiz unitária como:

Zt  Zt1 ut (A.1)

Onde Zt representa uma variável de interesse e ut é um termo de erro estacionário, ou


I(0), com média nula. Em particular, vamos assumir que ut segue um processo
ARMA(p,q) estacionário e invertível, que pode ser representado como:

ut (B)t (A.2)

Onde t é um erro aleatório que segue um processo ruído branco e (B) é a razão entre
os polinômio média móvel e autorregressivo:

 (B)
 (B)  (A.3)
 (B)

O polinômio (B) apresenta grau infinito mas corresponde a uma série infinita
convergente, devido ao fato que os polinômios finitos de grau p, representado por (B),
e de grau q, representado por (B), ambos apresentam todas as raízes fora do círculo
unitário por hipótese. Em outras palavras, o polinômio (B) permite representar ut
como uma média móvel infinita dos erros t em (A.2). Agora, vamos definir:

 *(B) 
 (B)  (1) (A.4)
1 B

onde (1) representa a soma dos coeficientes da média móvel infinita dos erros t em
(A.2). Esta soma é convergente, isto é, corresponde a um número real finito, em
consequência das hipóteses adotadas até aqui. Dados todos esses elementos, podemos

Copyright© Rogério Silva de Mattos 55


então aplicar a decomposição BN. Primeiro, lembremos que nosso objetivo é
reescrever o processo para Zt em (A.1) como:

Zt  TEt  wt (A.5)

onde TEt representa uma tendência estocástica, ou um passeio aleatório, e wt representa


um componente cíclico estacionário, ou I(0). Esses componentes, segundo a
decomposição BN, são obtidos como:

t
TEt  (1)t (A.6)
i 1
wt  * (B) t (A.7)

Note que ti1 i é um passeio aleatório com média nula multiplicando uma constante
finita dada por (1), daí TEt ser um passeio aleatório também. O termo dado por wt
corresponde a uma média móvel infinita dos erros t onde o polinômio média móvel,
neste caso dado por *(B), é convergente fazendo com que wt seja estacionário ou I(0).
Portanto, a decomposição BN permite representar duas situações de interesse. O
caso em que o processo estocástico para a variável de interesse Yt é de tipo raiz unitária:

Yt Yt1 ut TEt  wt (A.8)

Neste caso, Yt não possui tendência determinística, só tendência estocástica. E o caso


em que o processo para Yt é de tipo diferença estacionária:

Y  TDt  Zt 
Yt  a Yt 1  ut   t   TDt TEt  wt (A.9)
 t
Z  Zt 1  ut

Copyright© Rogério Silva de Mattos 56


Apêndice 2: Relações entre Conceitos

Figura A2.1 Fonte: Elaboração do autor usando conceitos e definições apresentados no texto. As relações foram estabelecidas com base
na definição restrita de Engle e Granger (1987) para processo integrado. Os termos ARMA(p,q) e ARIMA(p,d,q) se referem à
representação com constante e condição de invertibilidade. O conceito de processo com d raízes unitárias (na parte AR) não aparece na
figura, mas equivale ao de processo integrado ou I(d).

Copyright© Rogério Silva de Mattos 57


Referências

Beveridge, S. e Nelson, C. (1981). A new approach to decomposition of economic time


series into permanente and transitory componentes with particular attention to
measurement of the ‘Business Cycle’. Journal of Monetary Economics 7, 151–174.
Campbell, J. Y. e Perron, P. (1991). Pitfalls and opportunities: what macroeconomists
should know about unit roots. National Bureau of Economic Research Macroeconomics
Annual 1991, Volume 6. 141–220.
Chatfeld, C. (1995). The analysis of time series. 5th Edition. Nova York: Chapman &
Hall/CRC.
Dickey, D. A., Bell, W. R. e Miller, R. B. (1986) Unit roots in time series models: tests
and implications. The American Statistician, 40 (1), 12–26.
Dickey, D.A. & W.A. Fuller (1979). Distribution of the Estimators for Autoregressive
Time Series with Unit Root. Journal of the American Statistical Association, 74, 427-
431.
Dickey, D. A. e Fuller, W. A. (1981). Likelihood ratio statistics for autoregressive time
series with a unit root. Econometrica 49, 4, 1057–1072.
DICKEY, D.A.; PANTULA, S. Determining the Order of Differencing in
Autoregressive Processes. Journal of Business and Economic Statistics, n. 5, 455-461,
1987.
Enders, W. (2003) Applied Econometric Time Series. 2nd. Edition. Nova York: Wiley.
Engle, R.F. e C.W.J. Granger (1987). Co-Integration and Error Correction:
Representation, Estimation and Testing. Econometrica, 55, 251-276.
Engle, R. F. e Granger, C. W. J. Introdução a Co-integração. Tradução do primeiro
capítulo (Introduction) de Long–Run Economic Relationships: Readings in
Cointegration. 1990.
Fuller, W.A. (1976). Introduction to Statistical Time Series. New York: John Wiley.
Fuller, W.A. (1995). Introduction to Statistical Time Series. 2nd Edition. New York:
John Wiley.
Granger, C. e Newbold, P. (1974). Spurious regression in econometrics. Journal of
Econometrics 2, 111120.
Hamilton, J. (1994) Time series analysis. Princeton: Princeton University Press..
Harvey, A. (1985). Trends and cycles in macroeconomic time series. Journal of
Business & Economic Statistics 3, 3, 216–227.
Harvey, A, C., (1997), Trends, Cycles and Autoregression, The Economic Journal, 107:
pp.192-201.
Hooker, R. H. (1901). Correlation of the marriage–rate with trade. Journal of The Royal
Statistical Society 64, 485–492.
Johansen, S. (1991). Estimation and Hypothesis Testing of Cointegration Vectors in
Gaussian Vector Autoregressive Models. Econometrica, 59, 1551-1580.
Lütkepohl Autorregreção Vetorial. Tradução de Lütkepohl, H. (1999). Vector
Autoregressions, Discussion Paper 4, SFB 373, disponibilizado no site do National

Copyright© Rogério Silva de Mattos 58


Research Center / Quantification and Simulation of Economic Processes da Humbolt
Universität, Berlim (http://sfb.wiwi.hu-berlin.de/papers).
MacKinnon, J. G. (1996). Numerical Distribution Functions for Unit Root and
Cointegration Tests. Journal of Applied Econometrics, Vol. 11, No. 6 601-618
Maddala, G. S. e Kim, InMo (1999). Unit roots, cointegration, and structural change.
Cambridge, UN: Cambridge University Press.
Nelson, C e Plosser, C. (1982) Trends and random walks in macroeconomic time
series: some evidence and implications. Journal of Monetary Economics 10, 130162.
Newey, Whitney K; West, Kenneth D (1987). "A Simple, Positive Semi-definite,
Heteroskedasticity and Autocorrelation Consistent Covariance Matrix". Econometrica.
55 (3), 703–708.
Ogaki, M., Park, J.Y., (1997). A cointegration approach to estimating preference
parameters. Journal of Econometrics 82, 107-134.
Phillips, P.C.B. (1987). Time series regression with a unit root. Econometrica, 55, 277-
301.
Phillips, P. C. B. (2010). The mysteries of trend. Macroeconomic Review. 82–89.
Phillips, P.C.B. e Perron, P.(1988), Testing for a unit root in time series regression.
Biometrika 75,2, 335–346.
Schimidth, P. e Phillips, P. C. B. (1992). LM testes for a unit root in the presence of
deterministic trend. Oxford Bulletin of Economics and Statistics. 54,3. 257–287.
Sims, C.A. (1980). Macroeconomics and Reality, Econometrica. 48, 1-48.
Stock, J. (1994). Unit roots, structural breaks, and trends. In Engle, R. e McFadden, D.
Handbook of Econometrics, Chapter 46. Nova York: Elsevier.
Stock, J. e Watson, M. (1988) Testing for common trends. Journal of The American
Statistical Association 83, 10971107.

Copyright© Rogério Silva de Mattos 59

Você também pode gostar