Você está na página 1de 13

Testando Estacionaridade:

uma abordagem de aprendizado de máquina

12 ∗ 12 † 12 ‡
Kauê de Moraes , Carlos Cavalcante , Rodrigo De-Losso

Março, 2021

Resumo

A identificação de raízes (quasi-)unitárias em series temporais é de suma importância,


para evitar inferências espúrias. Quando tratadas de forma errônea, podem destruir
relações de alta relevância nos dados como, por exemplo, a cointegração. Os testes
clássicos, apesar de serem simples e elegantes, apresentam problemas, sendo o principal
deles o baixo poder de teste em processos fortemente persistentes. O presente trabalho
explora essas deficiências através da modelagem de uma base de sequências com memó-
ria longa geradas por ARFIMA(p,d,q) e generaliza os conceitos de estacionariedade pelo
treinamento de uma rede neural recorrente (vanilla LSTM). A arquitetura proposta
melhora em 12 pontos percentuais (p.p.) a acurácia e 25 p.p. o poder do teste quando
comparado aos melhores resultados dos testes clássicos na base de sequências aqui
proposta.

Palavras-chaves: Teste de estacionariedade. Memória Longa. Machine Learning.

Introdução
Testes de estacionariedade fazem parte do cotidiano do econometrista tanto quanto
séries com um certo nível de autocorrelação. Em séries integradas de ordens maiores ou
iguais a um, alguma diferenciação é necessária para a obtenção de uma representação de
Wold do processo para dar sequência com outras etapas de inferência.


kaue.moraes@usp.br

nathanielrocha18@usp.br

delosso@usp.br
1
Departamento de Economia, FEA-USP
2
Núcleo de Pesquisa em Economia Financeira - NEFIN, FEA-USP, e-mail: nefin@usp.br

1
Como observado por Granger e Newbold (1974), a presença de raízes unitárias no
processo pode criar inferências espúrias a depender do contexto, criando falsas correlações
entre variáveis independentes. Por outro lado, se aplicado um número inadequado de
diferenças na série podemos perder informações importantes de relações entre as variáveis,
deixando assim de modelar informações importantes para o modelo, e fazendo crescer as
variâncias dos nossos estimadores.
Os testes de raíz unitária mais utilizados modelam processos geradores de dados
(DGP - data generating process) que melhor representam a teoria e dados em questão. Dessa
forma circunscrevem sua hipótese nula, distribuição e região crítica do teste. Sendo assim,
qualquer desvio da modelagem em relação aos dados afeta significativamente o poder do
teste. Esse é precisamente o motivo pelo qual diferentes testes de estacionariedade indicam
resultados divergentes para uma mesma série. Propostas de DGP diferentes geram testes
com resultados diferentes pois em quase nenhum caso as hipóteses nulas são subconjuntos
umas das outras (CORNWALL; CHEN; SAULEY, 2021).
A proposta deste trabalho é treinar o reconhecimento de estacionariedade por uma
rede neural recorrente em um modelo ARF IM A(p, d, q). Em particular, exploramos séries
com memória longa, onde normalmente os testes clássicos de raiz unitária falham devido à
presença de forte autocorrelação.
O presente artigo se subdivide da seguinte forma: a próxima seção aborda quais
ferramentas serão utilizadas ao longo do trabalho, em “Criação da Base de Sequências”
descrevemos quais foram os parâmetros de interesse escolhidos e quais os testes executados
nas sequências como caso base de comparação, em “Resultados” comparamos os testes
clássicos com o proposto neste trabalho (LSTM), e finalmente a conclusão discute quais os
objetivos alcançados e propostas para futuros trabalhos.

1 Técnicas
Apresento uma breve introdução às técnicas utilizadas no treinamento do classifi-
cador proposto.

1.1 Séries com memória longa


Séries de memória longa são de grande importância para algumas áreas da econo-
mia, principalmente para finanças. Um exemplo é o modelo CAPM que requer medidas
anualizadas de risco de ativos e esses podem apresentar memória longa (ELLIS, 1999).
O método utilizado para anualizar os dados desse modelo tem como hipótese que a série
de retornos segue um passeio aleatório Gaussiano, e por esse motivo se faz necessário
testar a hipótese de raiz unitária contra os dados. Preços de commmodities são geralmente
considerados como processos que revertem à média com dimensão fracionária (ASSA;
WANG; TURVEY, 2015).
Um processo é dito ter memória longa se (BHANSALI; KOKOSZKA, 2001):
1) A função de covariância, R(u), é não somável:

X
Rx (u) = ∞
u=−∞

2
2) O DGP, xt , admite uma representação infinita de médias móveis e também
autoregressiva infinita no formato:

X
xt = b(j)ϵt−j
j=0

e com restrição:

X
b(j)2 < ∞
j=0

Existem algumas formas de modelar processos com memória longa, historicamente


os econometristas escolheram utilizar os modelos ARFIMA, uma interessante discussão
sobre como se deu essa escolha é feita por Graves et al. (2017).

1.2 ARF IM A(p, d, q)


A classe de modelos ARFIMA pode ser pensada como uma extensão dos modelos
ARIM A(p, d, q) com a possibilidade de variar o parâmetro de integração d nos números
reais por meio de um processo de integração fracionária.
Um ARFIMA(p,d,q) é representado da seguinte forma:

Φ(L)(1 − L)d Xt = Ψ(L)ϵt

Sendo Φ(L) e Ψ(L) a representação usualmente utilizada dos polinômios em lag de


uma ARMA(p,q). A diferença se dá pelo termo fracionário (1 − L)d Xt em que d ∈ R e
pode ser escrito como:


X Γ(d)
(1 − L)d Xt = (−1)k Lk Xt
k=0
Γ(k)Γ(d − k)

Em que Γ(t) é a função Gama usual, uma extensão da função fatorial para os
números reais.
̸ 0) decaem à taxas hiper-
As correlações em um processo ARFIMA não trivial (d =
bólicas, ou seja, muito mais lentamente que uma ARMA, que decaem à taxas exponenciais.
Toda a álgebra relacionada ao modelo é muito bem discutida em Veenstra (2013).
O parâmetro d, da dimensão fracionária, é onde vamos centrar nossa atenção. Com
um único parâmetro conseguimos inserir em nossas séries um alto nível de não linearidade de
forma parcimoniosa e conseguindo calibrar o nível de memória longa que queremos(SHANG,
2020). Além de também podermos ajustar de forma independente como nossa memória
curta funciona através dos já conhecidos (p, q) do ARM A(p, q) (BARKOULAS; BAUM,
1996).
O modelo ARF IM A(p, d, q) é estacionário se e somente se o modelo ARM A(p, q)
de mesmos coeficientes for estacionário e |d| < 21 . Ou seja, precisamos que as raízes do
ARM A(p, q) de mesmos coeficientes do ARF IM A, estejam fora do círculo unitário.
Vamos utilizar o parâmetro d para criar diferentes séries com diferentes níveis
de memória longa, tornando assim possível uma base de sequências adequada para o
treinamento das redes neurais recorrentes.

3
1.3 Redes Neurais
A classe das técnicas denominada por redes neurais1 pode ser vista como uma
classe de aproximadores de funções. Com uma modelagem simples e dado um número
suficientemente grande de neurônios é possível aproximar arbitrariamente qualquer função
(ATHEY; IMBENS, 2019) sem nenhuma hipótese a priori sobre o processo gerador de
dados. Infelizmente isso exige uma procura de parâmetros em um espaço muito maior do
que o número de parâmetros do problema original, e consequentemente um tamanho de
amostra ainda maior.
A aplicação desse tipo de técnica em problemas de predição de séries temporais
compõem as soluções de estado da arte atuais. Charpentier, Flachaire e Ly (2018) discutem
diversos exemplos que já podem ser encontrados na literatura econômica. Siami-Namini,
Tavakoli e Namin (2018) e Siami-Namini e Namin (2018) são exemplos de melhorias em
predição comparadas aos modelos da classe ARIM A, muito utilizados em finanças.

1.4 Métricas Utilizadas


Por nosso problema ser uma classificação binária, os resultados são completamente
entendidos através da contagem de Falsos Positivos (F P ), Falsos Negativos (F N ), Verda-
deiros Positivos (T P ) e Verdadeiros Negativos (T N ). Vamos utilizar as siglas derivadas da
matriz de confusão em inglês, como é mais comum na literatura.
Com as 4 contagens feitas para cada teste de raiz unitária, calcularemos as seguintes
métricas:

TP + TN
Acurácia =
TP + TN + FP + FN

TP
Sensibilidade =
TP + FN

Perceba que para problemas de classificação binária a sensibilidade é a definição de


poder estatístico de um teste, que é exatamente o objeto de estudo do presente trabalho.

2 Criação da base de séries


2.1 Parâmetros escolhidos
Sendo o modelo escolhido para simulação um ARF IM A(1, d, 0), precisamos tomar
os parâmetros de modo a manter nossa base equilibrada entre séries de raíz unitária e séries
estacionárias. Dessa forma a primeira metade da base, deve ter os parâmetros escolhidos
para que sejam do tipo raíz unitária:

ϕ1 = 1 d=0

1
Uma discussão mais profunda do funcionamento desse tipo de técnica foge ao escopo do presente
trabalho, dada a complexidade do tema. Uma excelente introdução à diferentes técnicas de machine
learning é apresentada por Athey e Imbens (2019).

4
Já os próximos 50% das séries na base gerada devem ser estacionários, sendo que
os primeiros 25% serão séries de memória curta com parâmetros seguindo:

ϕ1 ∼ U(0.9, 0.9999) d=0

Em que U indica a distribuição uniforme e ϕ1 é o parâmetro do processo autoregressivo


de ordem 1 associado ao modelo ARF IM A escolhido. Os últimos 25% serão séries de
memória longa com parâmetros distribuídos seguindo:

ϕ1 ∼ U(0.9, 0.9999) d ∼ U(0, 0.4999)

Note que escolhemos ϕ1 de modo a nos restringirmos ao intervalo de interesse


para o problema em questão. Dada a estrutura de base com rótulos balanceados acima,
escolhemos o tamanho de 100.000 séries, ou seja: 50.000 séries raiz unitária, 25.000 séries
estacionárias de memória curta e 25.000 séries estacionárias de memória longa.

2.2 Testes de raiz unitária escolhidos


Em referência ao excelente paper de Cornwall, Chen e Sauley (2021), foram
escolhidos os testes que tinham as melhores métricas de acurácia, sensibilidade.
São eles os testes: ADF (Augmented-Dickey Fuller), PP (Phillips–Perron), KPSS
(Kwiatkowski–Phillips–Schmidt–Shin) e PGFF (Pantula, Gonzales-Farias and Fuller).

2.3 Treinamento
Pela própria natureza do problema tratado neste trabalho, temos uma forte corre-
lação sequencial nos nossos dados e por esse motivo a arquitetura de rede neural escolhida
é a LSTM (Long Short-term Memory).
LSTM são um caso especial de redes neurais recorrentes inicialmente desenvolvidas
por Hochreiter e Schmidhuber (1997). Apesar de ter uma implementação relativamente
simples visando tratar dados sequenciais, ainda é fronteira de pesquisa quando tratamos da
base teórica analítica que tenta explicar o excelente desempenho desse tipo de arquitetura.
Treinamos o modelo mais básico de LSTM (vanilla) com 20 neurônios de entrada e
um neurônio de saída com ativação pela função sigmoid.

3 Resultados
3.1 Classificação da base pelos métodos clássicos
Dada uma base de tamanho 100.000 séries e montada conforme descrito anterior-
mente, classificamos cada uma das séries de acordo com os testes de raiz unitária escolhidos.
Vale lembrar que os resultados observados na tabela abaixo são ruins por construção da
base. Ao escolher o parâmetro ϕ1 próximo da unidade, inserimos uma forte autocorrelação,
que conhecidamente é um dos problemas dos testes clássicos.

5
Figura 1 – Gráfico de comparação entre as estatísticas para cada série da base de teste. Note
que estão coloridas de acordo com a verdadeira classificação de estacionariedade.

Perceba que o teste KPSS tem uma vantagem significativa em termos de sensibili-
dade, isso só é possível pois em sua montagem temos a hipótese nula H0 dizendo que a
série em questão é estacionária, diferente dos outros testes da tabela, em que a H0 é a série
não ser estacionária. Logo o poder desse teste não pode ser diretamente comparado aos
outros pois estão minimizando diferentes erros do tipo I. O teste KPSS será mantido nesse
trabalho para fins de comparação com a estatística teste proposta.

Acurácia Sensibilidade (Poder)


ADF 0.507 0.059
PP 0.509 0.078
KPSS 0.567 0.310
PGFF 0.540 0.128
Tabela 1 – Métricas aferidas para cada teste e utilizando a base de sequências aqui proposta.

Vale ressaltar que por estarmos trabalhando com um problema de classificação


binária, o pior valor possível para a acurácia é de 0.5. Podemos então afirmar que todos os
testes da tabela tiveram um péssimo desempenho na nossa base de sequências.

3.2 Comparação das estatísticas de teste geradas


O estudo dos gráficos abaixo serve para dar ênfase ao motivo de treinarmos uma
rede neural para classificar nossas séries. Cada ponto é uma série que foi gerada e classificada
como estacionária (1) ou não estacionária (0).
Note que, ao estabelecermos uma região crítica da distribuição de acordo com
um tamanho de teste pré-selecionado, o que estamos fazendo é definindo um hiperplano
separador ortogonal aos eixos propostos nos gráficos abaixo. No caso específico teríamos
então uma reta horizontal justamente no valor crítico para a estatística "ADF"e retas
verticais para as estatísticas PP (esquerda), KPSS (Centro) e PGFF (direita).
No melhor dos casos essa reta deveria separar o plano de tal forma a isolar os
pontos laranjas de um lado e os azuis de outro.
Fica visível a não linearidade presente nas estatísticas teste e também como os
testes mapeiam cada uma das sequências nesse novo espaço.
A ideia de utilizar uma rede neural para a resolução do problema é encontrar a

6
transformação que melhor mapeie as sequências para um novo espaço de tal forma que
cada classe possa ser linearmente separável.

3.3 Classificador gerado pela LSTM


Após separar aleatoriamente 25% da base para teste, foi executado o treinamento
com as 75.000 séries restantes. Encontramos um mínimo local para a função de minimização
(mse 0.1537 e acc 0.7233), fornecendo um classificador com as seguintes métricas de
comparação na base de teste:

Tabela 2 –
Acurácia Sensibilidade (Poder)
LSTM 0.660 0.370
ADF 0.507 0.059
PP 0.509 0.078
KPSS 0.567 0.310
PGFF 0.540 0.128

As classificações geradas pela LSTM melhoraram em 12 pontos percentuais (pp) a


acurácia e melhoram em 25 pp o poder do teste de hipóteses para presença de raiz unitária.
Agora considerando o teste KPSS, podemos comparar a sensibilidade mas não o poder, já
que temos hipóteses nulas diferentes, e apesar da hipótese favorecer o teste KPSS, ainda
assim nossas classificações superam em 10 pp na acurácia e em 5 pp em sensibilidade. A
próxima seção esclarece como esse números afetam a distribuição gerada para a estatística
teste da LSTM.

7
3.4 Comparação entre todas as estatísticas
A diagonal do gráfico abaixo apresenta as funções densidades das séries classificadas
de acordo com cada estatística. Seria esperado que uma estatística ótima separasse ambas
as distribuições.
Fora da diagonal estão os gráficos de comparação entre diferentes estatísticas, assim
como apresentado anteriormente. Perceba que agora temos incluída também as predições
geradas pela LSTM. Os dados apresentados na tabela da seção anterior ficam mais claros
aqui, principalmente pelas funções densidade de distribuição.

Figura 2 – Comparações das estatísticas de teste conjuntamente com a classificação verda-


deira de cada série. Cada ponto é uma série da base de teste. Encontramos as
funções de densidades na diagonal

É visível que a melhora no poder do teste, e logo na melhora de 25 pp da sensi-


bilidade, acontecem justamente das duas densidades classificadas pela LSTM terem sua
intersecção diminuída, possibilitando um erro do tipo II menor.

8
3.5 Variação do poder dos testes com parâmetro ϕ1
Utilizando os 25% da base separados para teste calculamos o poder de cada um
dos testes para os diferentes níveis do coeficientes autoregressivo, ϕ1 . Como esperado os
testes clássicos tendem para zero em toda a base de dados.

Figura 3 – O poder de cada um dos testes apresentado de acordo com a variação do


coeficiente ϕ1 dos modelos ARF IM A(1, d, 0) simulados.

Aproximadamente 25% da base de dados de teste é formada por memória longa,


possibilitando assim um poder de teste maior que zero para a estatística de teste “LSTM”
quando o coeficiente ϕ1 se aproxima de 1.

9
3.6 Estatística de teste LSTM agrupada por níveis de ϕ1
É interessante notar que somente utilizando técnicas e arquitetura introdutória de
redes neurais conseguimos obter ótimos resultados para a classificação das séries. Na figura
4 podemos observar como a rede treinada com nossa base separou as sequências para cada
valores de ϕ1 diferentes.

Figura 4 – Distribuição da Estatística gerada pela LSTM agrupada pelo coeficiente do


AR(1)

4 Conclusão
O classificador gerado no presente trabalho avança no sentido de melhorar o poder
dos testes de estacionariedade em séries fortemente autocorrelacionadas. A metodologia
proposta utiliza sequências geradas por modelos ARF IM A(1, d, 0). Com esse tipo de
modelo é possível gerar séries com a função de autocorrelação decaindo à taxas hiperbólicas,
ou seja, de forma mais lenta que os modelos ARFIMA estacionários, que caem à taxas

10
exponenciais. Dessa forma é possível apresentar alternativas intermediárias para que a rede
neural recorrente (arquitetura Vanilla LSTM ) generalize a ideia de estacionariedade em
contraposição à presença de raízes unitárias.
Ao melhorar a sensibilidade dos testes consideravelmente, a metodologia proposta
contribui para o aprimoramento dos testes de estacionariedade e também abre novas
possibilidades na interface entre aprendizado de máquina e econometria.
Modificações na especificação da arquitetura da LSTM certamente podem vir a
melhorar os presentes resultados para conseguir atingir métricas de acurácia e sensibilidade
maiores. Nesse trabalho uma única camada LSTM com 20 neurônios escondidos foi
utilizada e uma camada final com único neurônio e ativação de uma “sigmoid”. Um estudo
comparando o número de camadas e variações do número de neurônios certamente virá a
contribuir com a literatura. É possível também aplicar a metodologia aqui apresentada para
estimar o coeficiente fracionário d de um ARF IM A qualquer. Os métodos implementados
nas bibliotecas mais utilizadas utilizam uma mistura de teste ADF com sucessivas diferenças
fracionárias.

5 Agradecimentos
Os autores agradecem a Fundação Instituto de Pesquisas Econômicas (FIPE) pelo
financiamento e suporte prestado ao longo desta pesquisa.

11
Referências

ASSA, H.; WANG, M.; TURVEY, C. Arfima models and the hurst measures: An
investigation of commodity daily index and futures prices. SSRN Electronic Journal, 01
2015. Citado na página 2.

ATHEY, S.; IMBENS, G. Machine learning methods that economists should know about.
Annual Review of Economics, 2019. Citado na página 4.

BARKOULAS, J.; BAUM, C. F. Fractional Differencing Modeling and Forecasting of


Eurocurrency Deposit Rates. [S.l.], 1996. Disponível em: <https://ideas.repec.org/p/boc/
bocoec/317.html>. Citado na página 3.

BHANSALI, R.; KOKOSZKA, P. Prediction of long-memory time series: An overview.


Estadística, v. 160, 01 2001. Citado na página 2.

CHARPENTIER, A.; FLACHAIRE, E.; LY, A. Econometrics and Machine Learning.


Economie et Statistique / Economics and Statistics, n. 505-506, p. 147–169, 2018.
Disponível em: <https://ideas.repec.org/a/nse/ecosta/ecostat_2018_505-506_8.html>.
Citado na página 4.

CORNWALL, G.; CHEN, J.; SAULEY, B. Standing on the Shoulders of Machine


Learning: Can We Improve Hypothesis Testing? 2021. Citado 2 vezes nas páginas 2 e 5.

ELLIS, C. Estimation of the arfima (p, d, q) fractional differencing parameter


(d) using the classical rescaled adjusted range technique. International Review of
Financial Analysis, v. 8, n. 1, p. 53–65, 1999. ISSN 1057-5219. Disponível em:
<https://www.sciencedirect.com/science/article/pii/S1057521999000058>. Citado na
página 2.

GRANGER, C.; NEWBOLD, P. Spurious regressions in econometrics. Journal


of Econometrics, v. 2, n. 2, p. 111–120, 1974. ISSN 0304-4076. Disponível em:
<https://www.sciencedirect.com/science/article/pii/0304407674900347>. Citado na
página 2.

GRAVES, T. et al. A brief history of long memory: Hurst, mandelbrot and the road
to arfima, 1951–1980. Entropy, v. 19, n. 9, 2017. ISSN 1099-4300. Disponível em:
<https://www.mdpi.com/1099-4300/19/9/437>. Citado na página 3.

HOCHREITER, S.; SCHMIDHUBER, J. Long short-term memory. Neural computation,


v. 9, p. 1735–80, 12 1997. Citado na página 5.

SHANG, H. L. A comparison of hurst exponent estimators in long-range dependent curve


time series. Journal of Time Series Econometrics, Walter de Gruyter GmbH, v. 12, n. 1,
Jan 2020. ISSN 1941-1928. Disponível em: <http://dx.doi.org/10.1515/jtse-2019-0009>.
Citado na página 3.

SIAMI-NAMINI, S.; NAMIN, A. S. Forecasting Economics and Financial Time Series:


ARIMA vs. LSTM. 2018. Citado na página 4.

12
SIAMI-NAMINI, S.; TAVAKOLI, N.; NAMIN, A. S. A comparison of arima and lstm in
forecasting time series. In: 2018 17th IEEE International Conference on Machine Learning
and Applications (ICMLA). [S.l.: s.n.], 2018. p. 1394–1401. Citado na página 4.

VEENSTRA, J. PERSISTENCE AND ANTI-PERSISTENCE: THEORY AND


SOFTWARE. Tese (Doutorado), 02 2013. Citado na página 3.

13

Você também pode gostar