Você está na página 1de 7

Modelo Preditivo para Preços de Energia (PLD -

Preço de Liquidação das Diferenças) no Mercado


Spot, Considerando a Fusão de Novas Variáveis,
sob o Enfoque da Estatística Bayesiana.
Remido, Victor de B., Luciano, Edson J.R., Zechinatto, Daniel S., Souza, Angelo R.R.S

I. RESUMO/ABSTRACT II. INTRODUÇÃO

O SIN (Sistema Interligado Nacional) brasileiro [1], Segundo a CCEE (Câmara de Comercialização de Energia
principalmente no que tange a oferta hídrica, pode ser Elétrica) [3], os preços futuros têm como principal indicador o
considerado único no mundo. Uma das constatações da PLD (preço da liquidação das diferenças), os quais são gerados
evolução desse sistema é o aumento da quantidade e a partir de considerações sobre o comportamento futuro da
complexidade das variáveis consideradas para a tomada de demanda de energia, projeções de afluências, que consideram
decisões por todos os diversos atores envolvidos no setor os resultados de diversos modelos de previsão de afluências e
elétrico brasileiro. finalmente dados referentes ao incremento da oferta de energia,
Segundo o IBGE [2], Estatística e um conjunto de técnicas, ou cronograma de obras futuras. Todos esses dados são
métodos de pesquisa e análise de dados que engloba o processados em uma cadeia de modelos de “otimização”, com
planejamento do experimento, a coleta qualificada dos dados, a inıcio no Modelo Estratégico de Geração Hidrotérmica a
inferência, o processamento, a análise e a disseminação das Subsistemas Equivalentes (NEWAVE) empregado no
informações. O desenvolvimento e o aperfeiçoamento de planejamento da operação interligada de sistemas
técnicas estatísticas de obtenção e análise das informações hidrotérmicos, que determina as metas de geração para cada
permitem o controle e o estudo adequado de fenômenos, fatos usina do subsistema, a cada intervalo de discretização
eventos e ocorrências em diversas áreas do conhecimento. considerado (mês).
Propõe-se neste documento, como resultado do projeto de Esse programa gera, dentre outras informações, uma função que
P&D, uma abordagem inovadora na análise dessa imensa massa traduz o impacto da utilização da água armazenada nos
de dados e das informações disponíveis, implementando uma reservatórios, a ser utilizada pelo modelo de curto prazo
visão distinta das usuais empreendidas pelo Setor de Energia (DECOMP), que representa o parque gerador (usinas
Elétrica, permitindo considerar na modelagem a estatística de hidráulicas e térmicas por subsistemas) de forma
previsão de preços a ser desenvolvida, além de fatos e individualizada. Ele tem como objetivo a determinação dos
conhecimentos oriundos dos Agentes do SIN. Dessa forma, o despachos de geração por usina hidráulica e térmica de cada
principal fator motivador do projeto é a construção de um submercado, e os custos marginais de operação (CMO) para
modelo preditivo para preços de energia (PLD - Preço de cada estágio por patamar de carga que, submetidos a valores
Liquidação das Diferenças) no mercado spot, considerando a máximos e mínimos, conforme regras de mercado, convertem-
fusão de novas variáveis as tradicionalmente conhecidas, sob o se em PLD’s.
enfoque da estatística Bayesiana.
III. METODOLOGIA
____________________
Antes do início do projeto, a previsão do PLD ou CMO era
Este artigo é resultado de um projeto de P&D, modelo Aneel, PD 0061- realizada, de forma complementar aos modelos oficiais do setor
0045/2014 desenvolvido pela empresa CESP – Companhia Energética de São
elétrico, através de um modelo desenvolvido segundo o
Paulo.
Remido, Victor de B., empresa Bayes, vdebuen@gmail.com trabalho de pós- doutorado de Lopes (2014). O modelo de
Luciano, Edson J.R., empresa CESP, São Paulo – Brasil, Lopes usa as seguintes variáveis:
edson.luciano@cesp.com.br
Zechinatto, Daniel S., empresa CESP, São Paulo – Brasil, EAR - Energia armazenada disponível num sistema de reservatórios.
daniel.zechinatto@cesp.com.br ENA - Energia natural afluente nos reservatórios.
mlt - Média de longo prazo. Histórico de oitenta e dois anos de vazões do ONS.
ENA(mlt) - ENA média a longo prazo
CargaPrev - Carga prevista Nesses modelos se utiliza o operador de defasagem B que é
Carga(P EN) - Carga do Plano Energético Nacional
aplicado a uma série temporal St e representa um retardo de uma
EARt−1 - EAR da semana anterior
EARt−2 - EAR de duas semanas anteriores unidade de tempo, ou seja,

Escolha do modelo estocástico B St = St−1

Modelo multiplicativo: sua forma geral é: Se for aplicado duas vezes consecutivas, o operador de
defasagem é denotado:

B2 St = B (B St) = B St−1 = St−2


𝛽𝑗
𝑌𝑖 = ∏ 𝑥𝑖𝑗 𝜀𝑖, 𝑖, … , 𝑁; 𝑗 = 1, … , 𝐾
𝑗
e, de forma geral, tem-se
em que
Bn St = St−n
Yi é o valor de saída ou variável dependente para o i−ésimo caso em
estudo;
Xij é o valor da j−ésima variável de entrada para o i−ésimo caso em Aplicar o operador 0 vezes resulta, intuitivamente, no índice
estudo; não modificado
βj é o parâmetro associado à j−ésima variável de entrada;
N é o total de casos ou tamanho da amostra; B0 St = 1 St = St
K é o total de entrada ou variáveis explicativas;
εi é o termo de erro associado ao i−ésimo caso em estudo.
Toda combinação linear de defasagens de grau máximo n pode
ser expressa como um polinômio do mesmo grau
Seguindo simplificações logarítimicas, obtemos a forma linear
do modelo multiplicativo: ψ (B) = ψ0 + ψ1B + ψ2B2 + . . . + ψnBn
Σ que aplicada a uma serie temporal St resulta em
∑𝑗 𝛽𝑗 log 𝑋𝑖𝑗 + 𝜀𝑖, 𝑖 = 1, … , 𝑁; 𝑗 = 1, … , 𝐾
ψ (B) St = ψ0St + ψ1St−1 + ψ2St−2 + . . . + ψnSt−n
Classe de modelos X-ARIMA
A expressão geral na forma de defasagens de um modelo
A classe de modelos que mostraram melhores resultados neste ARIMA está representada abaixo.
φ (B) ∆ (B)zt = θ (B)at
tipo de problema foi X-ARIMA de Box&Jenkins [2], que
at ∼ N (0, σ2)
adiciona ao poder explicativo da regressão linear, indicada pelo
termo X, a capacidade de previsão de tendência dos modelos
em que
ARIMA. O modelo X-ARIMA consiste em aplicar o modelo
ARIMA aos resíduos por uma regressão linear de um conjunto
φ (B) é o polinômio autorregressivo de ordem p que introduz um
de termos explicativos sobre a série em questão.
máximo de p coeficientes desconhecidos a serem estimados no
Em estatística e econometria, ARIMA é um modelo muito modelo.
utilizado na modelagem e previsões de séries temporais. O ∆ (B) é o polinômio de diferenças ou estruturas determinísticas de
termo deriva do inglês AutoRegressive Integrated Moving ordem d e que não implica nenhum tipo de coeficiente desconhecido.
Average, que significa modelo auto-regressivo integrado de θ (B) é o polinômio de média móvel de ordem q que que supõe um
média móvel. máximo de q coeficientes desconhecidos a serem estimados no
O modelo ARIMA é uma generalização do modelo auto- modelo.
regressivo de média móvel (ARMA). A representação
ARIMA(p, d, q), às vezes escrita AR(p)I(d)MA(q), refere-se, O modelo ARIMA atua como um filtro linear que transforma a
respectivamente, às ordens de auto-regressão, de integração e série de ruídos auto-correlacionados zt na série at de resíduos
de média móvel: normais independentes (ruído branco gaussiano), reduzindo
assim a incerteza. A série de ruídos diferenciada wt = ∆ (B) zt
p é o número de termos auto-regressivos, deve ser estacionária, mais especificamente há de ter média
d é o número de diferenças, e nula e variância constante no tempo, e sua matriz de auto-
q é o número de termos da média móvel
covariância deve ser unicamente determinada pelos polinômios
(φ, θ) do modelo, denominada Σφ,θ. Para garantir essas
condições, todas as raízes dos polinômios AR e MA devem
estar fora do círculo unitário, o que, na prática, funciona como
restrição sobre os parâmetros do modelo ARIMA.

Primeiro modelo Bayes - CMO.MLE.01

A hipótese de normalidade sobre o ruído zt parece plausível, e


a heteroscedasticidade foi reduzida ostensivamente, porém o Figura 2 Comparação dos ajustes e previsão dos modelos CMO.MLE.02 e
resíduo continua não estacionário. Tendo em vista os evidentes CMO.LSS.02
ciclos anuais dos inputs e da tendência mostrada pela carga,
seria razoável estabelecer um modelo ARIMA com uma Segundo modelo Bayes - CMO.MLE.02
diferença regular e outra estacionária de ordem 52, assim como
graus AR e MA regulares e estacionários com graus ainda Numa evolução desse modelo ARIMA a série input
desconhecidos. EnaEarCargaProd.Log do modelo se desdobra em duas séries,
uma anterior à introdução do CVAR na metodologia de cálculo
(1 − B)(1 − B52)φ(b)Φ(B52)zt = θ(B)Θ(B52)εt do CMO, chamada EnaEarCargaProdPreCVAR.Log e outra
posterior de nome EnaEarCargaProdPosCVAR.Log.
εt ∼ N (0, 𝜎𝜀2 ) Efetivamente se observa que os coeficientes são
significativamente distintos. O coeficiente correspondente ao
No momento em que essa versão do modelo estava sob análise CVAr é agora mais significativo.
só havia pouco mais de dois anos de histórico de dados sendo
usados, portanto era inviável incluir a parte estacionária, logo Tabela 1 Estimação dos parâmetros
resta a parte regular

(1 − B)φ(B)zt = θ(B)εt (36)

O modelo utilizado foi um IMA, ou seja, o grau da parte AR do Tabela 2 Comparação dos modelos
ARIMA foi nula, e será incluído um parâmetro de escala na data
de introdução do CVAR, obtendo-se os parâmetros por
estimativa de máxima verossimilhança.
Na Figura 1, pode-se ver os resíduos do modelo CMO.LSS.02
comparados com o modelo CMO.MLE.01. Abordagem Bayesiana
O autocorrelograma dos resíduos mostra independência para os
mesmos, portanto são cumpridas todas as hipóteses do modelo, A abordagem Bayesiana é baseada na interpretação da
o que torna possível a realização da estimação por intervalos de probabilidade como a formalização da incerteza.
confiança que nos indica qual é o nível de incerteza, que Uma vez que isso é aceito, é natural considerar que a incerteza
aumenta conforme aumenta o horizonte de previsão. As sobre um parâmetro de um modelo pode ser descrita através de
previsões são muito parecidas, ao se levar em conta o alto nível uma função de probabilidade, seja a priori, ou a posteriori.
de incerteza ilustrado pelo intervalo de confiança, como se pode Inclusive, foi observado que distribuições de probabilidade a
ver na Figura 2. posteriori podem ser usadas como distribuições de
probabilidade a priori uma vez que novos dados são
incorporados à análise. Portanto, a distinção entre distribuição
a priori e a posteriori é puramente operacional, não em essência.
Por outro lado, é natural e intuitivamente aceitável que os
parâmetros desconhecidos tenham certas funções de
distribuição.
Ocasionalmente a reticência mostrada perante a análise
Bayesiana é focada na necessidade de se usar uma distribuição
Figura 1 Comparação dos resíduos dos modelos CMO.MLE.01 e CMO.LSS.02
a priori dos parâmetros.
A informação a priori, entra na análise estatística via o modelo
probabilístico escolhido e não dos dados a priori em si. Torna-
se evidente que, se existe informação a priori, então o resultado
obtido quando a usamos na inferência estatística de parâmetros
produz resultados melhores comparativamente. Caso contrário, dentre outros. A partir dessas análises foram obtidos os
é necessário o uso de distribuições probabilísticas não resultados apresentados na sequência.
informativas. Assim, num ponto de vista assintótico, qualquer
que seja a distribuição a priori, sua relevância diminui à medida IV. RESULTADOS
que a quantidade de dados aumenta.
O paradigma Bayesiano consiste em usar o teorema de Bayes Validação cruzada
como instrumento para toda inferência estatística. Consiste em observar as diferenças entre os dados reais e
Relembramos que o teorema de Bayes expressa o fato que a previstos para um intervalo de tempo que, no momento de
probabilidade condicional da ocorrência de um evento A, calcular essa previsão, eram desconhecidos. A validação
condicionado à ocorrência de um evento B (a probabilidade a cruzada foi realizada com dados previstos em 12/09/2015, junto
posteriori do evento A) é o produto da probabilidade de aos dados reais obtidos até 19/03/2016. Embora os dados sejam
ocorrência do evento B condicionado à ocorrência do evento A, estritamente conhecidos até 27/02/2016, foram usadas as
multiplicada pela probabilidade marginal (ou probabilidade a previsões do DECOMP para completar o intervalo até
priori ) da ocorrência do evento A, dividida pela probabilidade 19/03/2016.
de ocorrência do evento B. A seguir, são apresentados os gráficos de validação cruzada de
cada subsistema.
𝐵
𝑝(𝐴)
P (A/B) = P(A)
𝑝(𝐵)

Com isso, a abordagem Bayesiana possibilita incluir


conhecimento de negócios de gerentes e garante resultados
coerentes do ponto de vista econômico. Figura 4: Validação cruzada dos subsistemas Norte e Nordeste, respetivamente (R$ x
tempo)
Um exemplo simplista de utilização no nosso universo poderia
se ver na medição da influência da chuva em um modelo de
O sistema não foi capaz de prever a queda a valores próximos
produção por usina. A relação entre chuva e produção é
de zero em janeiro e fevereiro de 2016, embora se previsse uma
certamente positiva para usinas hidroelétricas enquanto pode
leve queda no início do ano.
ser entendida de forma inversa para usinas termoelétricas. Esta
As previsões no subsistema Nordeste foram satisfatórias, com
informação poderia ser usada como informação a priori
somente duas semanas fora das bandas de previsão de 60%.
apoiando a estimação empírica de parâmetros e facilitando uma
interpretação mais robusta do modelo estatístico.
A estimação bayesiana não gera, como resultado, um único
valor pontual para cada parâmetro, mas sim a distribuição
conjunta de todos eles na forma de cadeia de Markov (Figura
3), que é uma amostra autocorrelacionada dos possíveis valores
para os parâmetros, como por exemplo, a variância do modelo. Figura 5: Validação cruzada do subsistema Sul e Sudeste, respetivamente (R$ x
tempo).

As previsões no subsistema Sul e Sudeste são aceitáveis até


novembro de 2015, mas assim como no Norte, o sistema não
foi capaz de prever a queda a valores próximos de zero em
janeiro e fevereiro de 2016.
Previsões futuras
Foi possível observar, para os quatro subsistemas, os dados
previstos a partir dos dados reais conhecidos até 20/02/2016 e
estendidos até 19/03/2016 com as previsões do DECOMP.
A seguir, podem-se ver as bandas de confiança das previsões
correspondentes a cada um dos quatro subsistemas.
Figura 3 Cadeia de Markov da variância do modelo

Ao longo do desenvolvimento, muitos ajustes foram realizados,


dentro de cada parâmetro como as relações do CMO por
subsistema, previsão dos preços dos combustíveis, inflação,

Figura 6: Previsão no subsistema Norte e Nordeste, respectivamente (R$ x tempo).


probabilidade de rejeição menor que 8%. No Sul, a cauda da
distribuição está algo mais truncada e o efeito é bem menor que
nos demais subsistemas.

Figura 7: Previsão no subsistema Sul e Sudeste, respectivamente (R$ x


tempo).

A seguir, serão apresentadas as estatísticas e histogramas dos


distintos grupos de parâmetros para se obter uma visão mais
detalhada da incerteza associada a cada um.
ARIMA (modelo auto regressivo integrado de médias móveis):
a significância (t-Student) dos parâmetros AR(1) é altíssima em
Figura 10: Densidade empírica dos parâmetros da ENA.
todos os casos, ou seja, a probabilidade de que os valores
estimados sejam devidos ao acaso é nula em todos os efeitos. Demanda de energia: a significância dos parâmetros de
Essa probabilidade costuma ser chamada de probabilidade de demanda de energia é razoável em todos os subsistemas, com
rejeição do parâmetro (Refuse Probability). probabilidade de rejeição menor que 9%. No Sul e no Nordeste,
A estrutura do modelo foi postulada como um simples AR(1) a cauda da distribuição está algo mais truncada e o efeito é
sem diferenças e, efetivamente, se observa nos histogramas dos bastante menor que no Norte e no Sudeste.
parâmetros que a probabilidade de que haja raízes unitárias é
praticamente nula.

Figura 11: Densidade empírica dos parâmetros de demanda de energia.

Figura 8: Densidade empírica dos parâmetros AR(1).


Inflexibilidade: a significância dos parâmetros de
inflexibilidade é razoável em todos os subsistemas, com
Nos subsistemas Sul e Sudeste, as raízes estão um tanto mais
probabilidade de rejeição menor que 10%.
longe da unidade e ligeiramente mais dispersas.
EAR (Energia Armazenada): a significância dos parâmetros
EAR é muito alta em todos os subsistemas, com probabilidade
de rejeição nula. No Sul e Sudeste, especialmente no Sudeste,
os efeitos da EAR são ligeiramente maiores em termos
absolutos, e também mais dispersos. Em nenhum deles se
observa truncamento das caudas da distribuição.

Figura 12: Densidade empírica dos parâmetros de inflexibilidade.

Todas as caudas estão ligeiramente truncadas sem que chegue


a ser preocupante em nenhum caso.
Geração Térmica Futura
As entradas anteriores se referem aos efeitos instantâneos das
Figura 9: Densidade empírica dos parâmetros da EAR
componentes do balanço energético, ou seja, às consequências
da situação energética presente no CMO, sem ter em conta o
ENA (Energia Natural Afluente): a significância dos futuro. Com este input, se pretende incluir os efeitos futuros do
parâmetros da EAR é razoável em todos os subsistemas, com balanço energético atual, tendo em conta as previsões a médio
e longo prazos do NEWAVE para Demanda e EAR, assim Essa é, de fato, uma das maiores virtudes da estimação
como os modelos de El Ninõ, vazões e ENA desenvolvidos pela bayesiana, que permite integrar os dados conhecidos com a
Bayes. informação a priori que provém do conhecimento do fenômeno
A Geração Térmica Futura é calculada mediante uma série de estudado.
modelos lineares simples que estimam, para cada mês dos Em particular, as quedas do CMO a zero ou a valores próximos
próximos quatro anos, a diferença entre a energia demandada e de zero, correspondentes a períodos de sobre abundância
a disponível, truncada inferiormente por zero. hidrológica, são eventos bastante complicados de prever, assim
Sabe-se que em 31/08/2013 foi introduzido o CVAR na como os períodos de seca severa, especialmente quando se está
metodologia do modelo DECOMP, que reforça os efeitos falando de previsões até um ano e meio à frente.
futuros, pois esse é precisamente seu principal objetivo.
REFERÊNCIAS

[1] ONS, O que é o SIN,


<http://www.ons.org.br/paginas/sobre-o-sin/o-que-e-o-sin>,
acessado em 01/09/2019.
[2] IBGE, Base de dados do IBGE.<
https://www.ibge.gov.br/institucional/atuacao-ibge.html>,
acessado em 01/09/2019.
[3] CCEE, Metodologia de preços, <
Figura 13: Efeitos conjuntos lineares (Esquerda) e não lineares (Direita) da Geração
Térmica Futura no subsistema Norte. https://www.ccee.org.br/portal/faces/pages_publico/o-que-
fazemos/como_ccee_atua/precos/metodologia_de_precos?_afr
Se essa informação não é adicionada, o aspecto da função no Loop=1064275149045121&_adf.ctrl-
intervalo de valores observados no subsistema Norte é state=ybm7he07a_14#!%40%40%3F_afrLoop%3D10642751
praticamente linear, como se vê no gráfico da Esquerda na 49045121%26_adf.ctrl-state%3Dybm7he07a_18>, acessado
Figura 13, mas ao se introduzir a informação a priori descrita, a em 01/09/2019.
função de transferência é completamente distinta fora desse [b]Gwilym Box George; Jenkins. Time series analysis:
intervalo. Sem os mecanismos de simulação bayesiana Forecasting and control. 1970.
necessários para forçar essas restrições, seria impossível [c]Câmara de Comercializacão de Energia Elétrica.
estimar esse tipo de relações funcionais com as amostras [d]Energy Inofrmation Administration. Spot Prices (Crude Oil
disponíveis. in Dollars per Barrel, Products in Dollars per Gallon). URL:
A significância dos parâmetros não é tão alta como nas outras http://www.eia.gov/dnav/pet/pet_pri_spt_s1_d.htm.
variáveis, mas é suficiente tendo em conta a complexidade do [e]Federl Research Bank of St. Louis. Brazil / U.S. Foreign
fenômeno. As caudas dos hiper parâmetros mostram Exchange Rate (DEXBZUS). URL:
truncamentos bastante leves. https://research.stlouisfed.org/fred2/series/DEXBZUS/downlo
Preços dos combustíveis addata.
A significância dos preços do Gás é muito alta exceto no Norte [f]Bayes Forecast. Manual de Instalação e Uso Básico. 2012.
que não é tanto, enquanto que as do Diesel são bastante [g]National Oceanic and Atmospheric Administration.
menores, embora razoáveis, com probabilidade de rejeição Experimental Tropical SST Forecast Pro- ducts. URL:
menor que 9%. A cauda do preço do Gás no Norte está http://www.esrl.noaa.gov/psd/forecasts/sstlim/.
ligeiramente truncada. O mesmo ocorre com todas as caudas do [h]Operador Nacinal do Sistema Elétrico.
preço do Diesel, porém sem chegar, em nenhum caso, a [i]Wikipedia. Teste t de Student. URL: http:// pt. wikipedia.
situações alarmantes. org/ wiki/ Teste_ t_ de_ Student.

V. CONCLUSÃO Bibliografia de Apoio

Tendo em vista que 60.71% dos dados reais se encontram entre As publicações mais utilizadas para desenvolvimento do estudo
as bandas de confiança de 60%, ao redor das previsões extra final foram:
amostrais, é possível dizer que, efetivamente, as bandas de
confiança são efetivas, ou seja, o modelo dá uma medida BOX, G.E.P. and DRAPER, N.R. (1987) Empirical Model-
bastante confiável da incerteza associada ao fenômeno, mesmo Building and Response Surfaces (Wiley Series in Probability
que as previsões possam ser melhoradas no que diz respeito ao and Mathematical Statistics)
viés.
BURMAN, J.P. (1980) Seasonal Adjustment by Signal
Extraction. Journal of the Royal Statistical Society. Series A
(General) Vol. 143, No. 3, pp. 321-337
RENYI, A. (1987) A Diary on Information Theory (Wiley
Series in Probability and Mathematical Statistics)
CARLIN, BRADLEY P. and LOUIS, THOMAS A. (2009)
Bayesian Methods for Data Analysis.

INMON, W. H. (2005) Building Data Warehouses, 4 Thed.


Wiley Publishing Inc. Indiana.

D’AGOSTINO, R. B. (1971) An omnibus test of normality for


moderate and large sample size, Biometrika, 58, 341-348
LOPES, J.E.G. (2014) Análise e Monitoramento de Riscos no
Planejamento da Operação do Sistema Hidrométrico Brasileiro,
Relatório de Atividades de Pós-doutorado na FEC UNICAMP

Você também pode gostar