IET Smart Grid - 2022 - Mousavi Ziabari

Machine Translated by Google
Recebido: 5 de maio de 2021 - Revisado: 10 de novembro de 2021 - Aceito: 28 de janeiro de 2022 - Rede Inteligente IET
DOI: 10.1049/stg2.12057
PESQUISA ORIGINAL
Previsão usando redes de memória longa e de curto prazo a serviço

do projeto de uma nova política de preços para redes inteligentes
Zahra Mousavi Ziabari1 | Abbas Pasdar2
1
Departamento de Engenharia da Computação, Alzahra Abstrato
Universidade, Teerã, Irã
A tarifação dinâmica é uma das soluções mais eficazes para controlar e gerir o consumo de energia
2
Departamento de Engenharia Elétrica, Sharif
nos mercados eléctricos. Duas questões desafiadoras para atingir este objetivo são conceber uma
Universidade de Tecnologia, Teerã, Irã
política abrangente, que possa determinar preços ótimos para cada parte, e definir um simulador
preciso do ambiente real, que possa expressar a complexidade da satisfação. Para superar estes
Correspondência
Zahra Mousavi Ziabari, Departamento de Engenharia da

problemas, concebemos de forma inovadora uma política aplicável e fiável que possa determinar o
Computação, Universidade Alzahra, Teerã, Irã. preço óptimo do ponto de vista de todos os intervenientes no mercado de electricidade. Além disso,
E-mail: z.mousaviziabari@student.alzahra.ac.ir e
nesta política são definidos coeficientes de satisfação e lucro para o varejista e para o cliente e, em
zahramousavii@yahoo.com
seguida, é apresentada uma simulação passo a passo com base neles. O algoritmo proposto simula
interações entre o cliente e o varejista para atingir um ponto ideal com melhor desempenho. Além
disso, para aumentar a flexibilidade e a precisão dos resultados, que tornam o sistema comercialmente
operacional, duas redes de memória de longo prazo prevêem que o preço grossista e a procura de
energia serão utilizados pela secção de preços. Para avaliação de eficiência, o método proposto é
comparado com trabalhos similares para comprovar melhor precisão e desempenho.
PALAVRAS-CHAVE
Inteligência artificial e análise de dados, controle ideal, preços, controle preditivo, mercados de energia, confiabilidade
na distribuição de energia
1 | INTRODUÇÃO solução para aumentar a confiabilidade da rede, que é chamada de

resposta à demanda baseada em preço [9–11]. A alteração do pico de
Um sistema otimizado e inteligente na rede pode desempenhar um papel carga através de preços dinâmicos é uma solução para responder à
crítico na regulação do consumo de energia para manter o equilíbrio procura de electricidade numa situação de emergência. Esta abordagem
entre a procura e a oferta. Até agora, foram realizados muitos estudos é amplamente utilizada para regular e modificar o consumo de energia
sobre a tecnologia necessária para controlar a procura de electricidade nos horários de pico e, portanto, aumenta a eficiência e a estabilidade
em áreas residenciais ou com níveis baixos de rede [1–7]. De acordo do sistema de distribuição de energia elétrica. No entanto, depende da
com a sua investigação, os programas de resposta à procura podem flexibilidade da procura dos preços. Embora a precificação dinâmica
ser investigados com base em duas categorias de preço e incentivo [8]. tenha sido realizada nos estudos revisados para controlar e responder à
Os programas de resposta à procura baseados em preços centram-se demanda, seus resultados de simulação, nos quais parâmetros
na concepção de políticas de preços cujo objectivo é determinar um limitados, como coeficientes estáticos para especificar horários de pico,
ponto desejável entre vários preços. Este preço deve ser rentável e foram usados para modelar um ambiente tão complexo, podem não ser confiáveis.
aceitável para um operador de rede, a fim de garantir a resiliência da A maior parte das pesquisas anteriores sobre precificação dinâmica
rede, e também ser satisfatório do ponto de vista do consumidor. De para resposta à demanda depende dos picos de carga e apresentam
facto, entre as áreas de investigação relacionadas com a melhoria do problemas não resolvidos na identificação de eventos de pico inesperados.
desempenho das redes inteligentes, duas delas são de grande Dessa forma, a estimativa e previsão da demanda de forma robusta e
importância e estão intimamente relacionadas; preços dinâmicos e ágil são altamente necessárias. Alguns estudos investigaram a previsão
justos e gestão da resposta à procura. Estas questões podem ser combinadasda
e levar
demanda
a uma
desolução
potência
ideal
e outros
Este é um artigo de acesso aberto nos termos da Licença Creative Commons Attribution, que permite o uso, distribuição e reprodução em qualquer meio, desde que o trabalho original seja devidamente citado.
© 2022 Os Autores. IET Smart Grid publicado por John Wiley & Sons Ltd em nome da Instituição de Engenharia e Tecnologia.
Rede Inteligente IET. 2022;5:417–429. wileyonlinelibrary.com/journal/stg2 - 417

MOUSAVI ZIABARI E PASDAR
418 -
propriedades influentes do mercado de eletricidade. Esta estratégia é combinar sem a necessidade de intervenção humana no meio do seu
muito eficaz para determinar preços e gerenciar o consumo em processo. Eles fornecem insumos adequados uns aos outros que os
ambientes dinâmicos de preços [12–15]. Eles são divididos em três ajudam a acelerar e se adaptar às mudanças em suas tendências de
categorias: (1) equivalência de certeza, (2) aprendizagem passiva e insumos. Além disso, suas características estruturais prepararão os
(3) aprendizagem ativa. Na equivalência de certeza, o parâmetro de benefícios da sincronização. A segunda razão é que podem gerir de
incerteza é ignorado no processo de modelagem de decisão e sua forma independente a situação em que se encontram. O LSTM prevê
saída é como modelos de substituição determinísticos. os dados com precisão, e o Q-learning os utiliza e altera as variáveis
Assume que a função de demanda é determinística e controlada por do ambiente em relação ao nosso objetivo. Estas conquistas serão
um único parâmetro, o que significa que o preço não afeta diretamente refletidas na avaliação de desempenho de cada seção. Como
o processo de aprendizagem. Durante a aprendizagem passiva, os resultado, o desempenho geral aumentará.
dados de demanda são coletados e avaliados, mas as decisões que
foram tomadas não são utilizadas na aprendizagem por demanda para O objetivo deste estudo é desenhar uma política de preços
evitar efeitos negativos no tempo de execução da aprendizagem. Por dinâmica utilizando a procura prevista de eletricidade e os preços
fim, na aprendizagem ativa, as decisões atuais serão utilizadas na grossistas, bem como determinar a flexibilidade dos clientes e o nível
aprendizagem e previsão do comportamento da demanda, nas quais de satisfação do operador relativamente aos preços retalhistas. Além
são considerados os efeitos de múltiplos períodos de planejamento disso, a nossa abordagem tem uma perspectiva inovadora que não
com o parâmetro de incerteza. Por exemplo, ao alterar o preço, simula o feedback dos preços porque a verdadeira optimização dos
podemos ver os seus efeitos sobre a procura. Esta interação nos dá preços definidos não pode ser comprovada até que sejam
informações que são aplicadas na aprendizagem para alcançar um implementados no ambiente operacional. Esta abordagem preenche
modelo de demanda mais preciso em condições de incerteza. Uma a lacuna mencionada entre a simulação e o uso real. No método
pré-condição importante para qualquer aprendizagem pela procura é proposto obtêm-se os coeficientes de flexibilidade e insatisfação dos
que a procura seja assumida como dependente. Na verdade, devemos clientes e do operador, assumindo que os preços de retalho anteriores
ter dependência funcional entre a procura e outros factores, tais como foram óptimos. Então, ao contrário dos estudos anteriores, podemos
alterações de preços, a menos que a aprendizagem não possa perceber os ganhos e perdas das variações de preços considerando
acontecer [16]. Entre os métodos utilizados na área mencionada, as as diferentes influências dos clientes e da operadora entre si.
redes de memória de longo prazo (LSTM) são muito adequadas para A razão para esta suposição é que deve haver uma referência para a
classificar, processar e prever dados de séries temporais. Uma das otimização, e esta referência pode ser preços que tenham sido
vantagens dessas redes é a insensibilidade a intervalos de tempo satisfatórios para o cliente e para o operador até o momento.
desconhecidos em comparação com redes neurais recorrentes (RNNs), Em suma, as contribuições deste trabalho são as seguintes:
modelos ocultos de Markov e outros métodos de aprendizagem de
sequências de dados [17]. Por exemplo, os autores de [18] usaram ÿ Propor um novo processo de otimização utilizando características
duas redes LSTM para prever cargas em intervalos de tempo de 1 comportamentais do cliente que possam determinar o nível de
hora e 1 minuto, e em [19], o LSTM foi implementado para prever a resposta ao programa de demanda.
energia eólica. Por outro lado, Q-learning, um método de Aprendizagem ÿ Projetar um novo sistema para gestão de consumo combinando a
por Reforço, foi estudado em um grande número de estudos recentes rede LSTM com o método Q-learning para visualizar o preço de
e utilizado para resposta à demanda [20–25]. Este método é útil acordo com a demanda prevista com precisão e com um tempo
porque não tem modelo e pode ser aplicado para encontrar uma de resposta melhorado. ÿ Modelar a
insatisfação
política de seleção de ações ideal em que as ações sejam os preços nos programas do operador
de resposta da rede como retalhista do mercado de
à procura.
De acordo com os estudos analisados, podemos constatar que a eletricidade utilizando a sua formulação de função de custo e preço
política de preços foi maioritariamente desenhada e avaliada do ponto grossista previsto pelo LSTM. A novidade e a importância dos
de vista dos consumidores, enquanto estes são um dos beneficiários resultados se devem à definição dos parâmetros efetivos do cliente
do mercado eléctrico. Os varejistas, por outro lado, precisam e da operadora e à criação de um modelo concorrente dos mesmos.
urgentemente de estratégias confiáveis. Eles buscam insights para ÿ Avaliar o modelo de
gerenciar o volume de compras de energia das empresas de precificação usando os lucros e perdas obtidos na análise dos efeitos
manufatura em relação às demandas dos clientes. Além disso, querem de cada parte sobre os preços e entre si. O passo principal e
estabelecer preços de uma forma que seja satisfatória para ambos os distintivo aqui é que a justiça dos preços seja determinada com
lados. Em [26], este problema é abordado, e uma Deep Q-Network base numa plataforma fiável criada pela aprendizagem activa em
(uma técnica de aprendizagem por reforço profundo) é construída com dados reais.
base em uma estrutura de otimização que visa maximizar os
interesses dos agregadores de carga. No entanto, a desvantagem O restante deste estudo está organizado da seguinte forma. Na
deste método em comparação com LSTM e Q-learning combinados é Seção 2, a arquitetura do sistema proposta é descrita. A preparação
que ele retarda muito o aprendizado e aumenta a complexidade da dos dados utilizados é explicada na Seção 3, e a previsão do preço de
amostra, devido à qual o desempenho geral será degradado [27] . atacado e da demanda de energia é apresentada na Seção 4. O
Portanto, para projetar um sistema eficiente de precificação dinâmica desenho da política de preços é investigado na Seção 5, e os
em tempo real na rede inteligente, o tempo de execução é uma questão crítica que deve de
coeficientes sersatisfação
considerada.
e funções objetivo do operador e do cliente
O Q-learning híbrido LSTM alcançará melhor desempenho por são considerados. Os estudos de simulação são conduzidos na Seção
dois motivos. Em primeiro lugar, eles eficientemente 6 e o estudo é concluído na Seção 7.
MOUSAVI ZIABARI E PASDAR - 419
2 | ABORDAGEM PROPOSTA
Nesta seção, discutimos a estrutura do sistema proposta e suas

suposições subjacentes. A arquitetura considerada para a rede é um
sistema hierárquico em que a primeira camada consiste em atacadistas,
a camada intermediária de varejistas (operadores de rede) e a última
camada de clientes varejistas (consumidores).
Conforme mostrado na Figura 1, em nosso sistema proposto,
reunimos os dados brutos, que são informações de atacado e a
FIGURA E 1 Esboço do sistema de preços proposto
quantidade de consumo de energia do cliente ao longo do tempo, e os
classificamos por meio do pré-processamento de dados. Em seguida,
seus valores futuros são previstos usando duas redes LSTM e sua os estados abrangidos por eles são indicados em [29] , no entanto, os
precisão é avaliada. Os resultados da previsão e dois coeficientes de nomes dos hubs são ligeiramente diferentes de [28]. Portanto,
satisfação para o operador e para o cliente juntamente com o fator de investigamos a coordenação entre suas informações e representamos
impacto entram no bloco de preços. Eles organizam a política de os resultados finais classificados na Figura 2. Como pode ser visto
preços, que é a função objetivo do algoritmo. nesta figura, por exemplo, o centro de Palo Verde (3) na região
O fator de impacto indica que o benefício da operadora supera o do Sudoeste inclui Novo México, Arizona e Colorado.
cliente ou vice-versa. Na fase de treinamento do sistema, o preço
definido é comparado ao preço de varejo, e sua diferença é calculada
e, em seguida, aplicada aos coeficientes de satisfação. Este ciclo 4 | QUADRO DE PREVISÃO
continua até que a diferença convirja para zero, o que significa que os
coeficientes são ajustados às condições de preços atuais com valores Para planear a gestão do consumo de electricidade dos clientes,
ótimos, e a configuração inicial do sistema é lançada. Nesta situação, determinando o seu preço óptimo, a procura futura de electricidade e o
assumimos que o benefício da operadora é igual ao do cliente preço grossista devem ser conhecidos. Esses dois fatores são usados
considerando um determinado valor para o fator de impacto. Em como insumos no bloco de preços. Assim, a seguir, é estudada a rede
seguida, o feedback é removido e os coeficientes obtidos de forma LSTM, que é utilizada para prever preços no atacado e demanda do
ótima na fase de aplicação do sistema são utilizados, para que cliente.
possamos alterar os preços definindo valores variáveis para o fator de A rede LSTM é um tipo de arquitetura RNN usada em aprendizado
impacto. profundo. As redes neurais profundas são compostas de múltiplas
Portanto, os lucros e perdas podem ser observados com base nesses camadas para aprender automaticamente com os dados. Ao contrário
coeficientes. Como a precificação será adquirida com base em dados das redes neurais feed-forward, o LSTM possui conexões de feedback.
mais precisos em um tempo de execução adequado utilizando os É tão eficaz mesmo que haja uma duração desconhecida entre os
blocos de predição e precificação em conjunto, a abordagem proposta eventos importantes na série temporal [30]. Os LSTMs foram
pode ser mais eficiente e benéfica em comparação com trabalhos anteriores.desenvolvidos para resolver os problemas de explosão e
Além disso, os benefícios para o cliente e para a operadora são desaparecimento de gradientes que ocorrem durante o treinamento de RNNs tradicio
considerados simultaneamente, porque a operadora pode associar os As redes recorrentes mantêm as informações dentro de si por causa
preços observando seus efeitos no lucro de cada lado. Nas seções dos loops dentro delas. Na Figura 3a, no tempo t, o bloco da rede
seguintes, fornecemos uma descrição detalhada de cada parte do neural A olha para a entrada Xt e produz a saída Ht com base na
sistema proposto e suas relações. entrada. O loop também faz com que a informação se mova do
momento presente para o próximo. De acordo com a Figura 3b , uma
RNN pode ser considerada como uma cadeia de uma rede neural, cada
3 | PREPARANDO O CONJUNTO DE DADOS USADO uma fornecendo informações subsequentes.
À medida que a lacuna de informação aumenta, a RNN torna-se
Coletamos os dados utilizados neste estudo do site da Administração mais incapaz de aprender a relação entre eles. Em contraste, este
de Informações de Energia dos EUA [28], que inclui dados on-line de problema foi eliminado nas redes LSTM, e estas redes são de alguma
consumo de energia. Os dados de atacado estão na forma de centros forma projetadas para evitar o problema da dependência de dados a
na rede elétrica dos EUA. Os hubs são a camada intermediária da longo prazo. As redes LSTM também são encadeadas, mas os blocos
distribuição de energia, que têm a função de transmitir eletricidade repetidos possuem uma estrutura diferente que funciona como uma
entre si e também dos geradores da camada superior para os memória e pode reter informações por um longo tempo [31].
consumidores da camada inferior. Na verdade, estes dados indicam o
preço transacionado da eletricidade em cada hub, o que determina o
preço de compra do retalhista no mercado de eletricidade. 4.1 | Previsão de preço de atacado
Os dados de varejo são baseados em áreas residenciais de cada O preço de atacado que usaremos em nosso trabalho a partir de agora
estado, portanto devemos prepará-los e revisá-los para especificar a são os preços das potências negociadas todos os dias e em todos os
relação entre centros e estados. Em [28], dados de atacado e varejo hubs. A cada transação, esses preços variam, por isso são ponderados
são possíveis, mas sua relação não é revelada. Hubs e o e calculados em média. Segundo [28], é calculado por:
420 -
FIGURA 2 Classificação da rede elétrica dos EUA
TABELA E 1 Parâmetros de treinamento de rede de memória de longo e curto prazo na

previsão de preços
Parâmetro Valor
O número de entradas em cada intervalo de tempo 32
O número de unidades ocultas 32
Tamanho do batch 128
Etapas por época 200
Épocas 50
Taxa de Aprendizagem 0,001
Após o treinamento da rede neural, a parte de teste dos dados de

preços de atacado é prevista. O diagrama das funções de perda de
treinamento e validação na Figura 4 e o diagrama dos valores previstos
versus os valores reais na Figura 5 são plotados.
FIGURA 3 Um diagrama de blocos da arquitetura de rede neural recorrente. (a) A presença de De acordo com esta figura, eles são perfeitamente semelhantes e próximos
um loop que transmite informações em redes neurais recorrentes. (b) Desdobrando o loop um do outro. Além disso, percebe-se que ambas as perdas foram reduzidas
da rede neural recorrente e sua natureza semelhante a uma cadeia
ao longo do tempo, o que significa que o treinamento da rede foi feito
corretamente. Além disso, embora a perda de validação seja sempre maior
N que a perda de treinamento, devido à pequena quantidade dessas perdas,
Pn -Vn
Eu ¼X ð1Þ
N as duas curvas estão muito próximas uma da outra.
n¼1
Portanto, o overfitting não aconteceu. O erro quadrático médio (MSE),
onde I é o preço médio ponderado do índice ($/ MWh), n é o número de conforme mostrado na Tabela 2, indica os resultados da comparação dos
cada transação em hubs, N é o número total de todas as transações dados de teste que relatamos como não escalonados e escalonados em
qualificadas, Pn é o preço de cada transação ($/ MWh) e Vn é o volume de relação às quantidades de dados. Valores baixos desta tabela mostram alta
uma transação individual. precisão de previsão.
Neste estudo, 8.277 linhas de dados de 8 centros de 37 estados dos
EUA são usadas diariamente de 2014 a 2019 para prever preços no atacado.
Implementamos a previsão baseada na rede LSTM usando a ferramenta 4.2 | Previsão de demanda de energia
Tensorflow. A proporção de uso de dados para a rede neural é de 85%
como dados de treinamento, 7,5% para avaliação e 7,5% para teste. Os Nesta seção, nosso objetivo é prever o consumo diário de energia dos
parâmetros da rede neural são encontrados pelo método de busca aleatória clientes que utilizam a rede LSTM. Preparamos e dividimos seus dados em
[32], portanto obtivemos seus valores conforme Tabela 1. Nesta tabela, o partes de treinamento, avaliação e teste semelhantes às da seção anterior.
número de entradas em cada intervalo de tempo é o período de dados que Além disso, os parâmetros da rede neural são alcançados em seus valores
entra simultaneamente no LSTM. Além disso, o número de unidades ocultas proporcionais para prever a demanda de energia durante o processo de
especifica o número de camadas intermediárias da rede neural. Em cada pesquisa aleatória, conforme os números da Tabela 3. A análise de
etapa de cada época, os dados são inseridos na quantidade de tamanho desempenho da previsão da demanda de energia nos dados de teste
do lote. A taxa de aprendizagem também determina a velocidade de mostra que o MSE escalonado é baixo, conforme indicado na Tabela 4.
atualização dos pesos da rede.
TABELA E 3 Parâmetros de treinamento da rede de memória de longo e curto prazo em

previsão de demanda
Parâmetro Valor
O número de entradas em cada intervalo de tempo 32
O número de unidades ocultas 64
Tamanho do batch 128
Etapas por época 400
Épocas 50
Taxa de Aprendizagem 0,001
TABELA E 4 Desempenho do conjunto de testes da memória de longo e curto prazo

rede na previsão de demanda
Tipo de erro Valor

FIGURA 4 Perda de treinamento e perda de validação no preço de atacado
predição 3705.08
Erro quadrático médio não escalonado (MSE)
MSE dimensionado 0,001645
FIGURA 5 Resultado da previsão do preço de atacado
TABELA 2 Desempenho do conjunto de testes da memória de longo e curto prazo não ocorre. Como resultado, a convergência de ambas as perdas para
rede na previsão de preços próximo de zero indica que o treinamento e aprendizagem da rede neural
Valor
foram executadas corretamente.
Tipo de erro
Erro quadrático médio não escalonado (MSE) 0,17
MSE dimensionado 0,000 138 5 5 | QUADRO DA POLÍTICA DE PREÇOS
Na seção anterior, a demanda e os preços no atacado foram

Após treinar a rede LSTM, os valores previstos do previsto. A previsão precisa garante que a incerteza e
demanda de energia em comparação com os valores reais foram plotados, como a falta de informação não afetará o processo de precificação e
mostrado na Figura 6. Além disso, diagramas de funções de treinamento portanto, aumentar a confiabilidade. Ele também fornece insights sobre
e perda de validação são representados na Figura 7, em que o valor futuro do consumo de eletricidade e preços no atacado
maior perda de validação em todas as iterações indica que overfitting para definir uma política de preços mais abrangente. Depois
422 -
FIGURA 6 Resultado da previsão de demanda de energia
ÿ Otimizar os coeficientes de satisfação e não depender apenas da

simulação de preços ótimos porque a simulação utilizando
coeficientes constantes estimados não tem provas suficientes de
que os preços são ótimos.
A seguir, são discutidos os fundamentos da nossa política de

preços. Deve-se considerar que alguns tipos de consumo de energia
não podem ser afetados por preços dinâmicos, como a iluminação
noturna na área residencial. Porque nesses casos há pouca
flexibilidade em relação ao aumento de preços. O preço,
independentemente destes valores, é irrealista e à medida que o
preço aumenta, não haverá variação significativa no consumo.
Assim, o consumo de eletricidade é dividido em duas partes:
restringível e não restringível ou crítico [33], em que as quantidades
críticas de consumo de energia são inalteráveis e as quantidades
FIGURA 7 Perda de treinamento e perda de validação na previsão de demanda
restringíveis podem ser removidas ou alteradas. Portanto, pode ser
de energia
concebido como:
previsão, os valores previstos (preço de atacado e demanda de Et ¼ Ecurt

t þ Crítico
t ð2Þ
energia) entram no bloco de preços e, assim, os preços flexíveis e em

tempo real são determinados para a operadora de rede e os onde Et denota o consumo de energia no tempo t, crítico é o valor
consumidores com base nas explicações a seguir. crítico e curto significa valor restringível. A equação (2) vale para
Nesta seção, utilizamos o estudo [20] para determinar a política todos os dados de consumo que são o consumo real (Ereal), a
de preços, mas nosso método proposto tem algumas vantagens, como: demanda prevista (Ep ) e o consumo desejado (Ed ).
O consumo de eletricidade desejado é uma meta da política de preços
ÿ Considerando o custo da insatisfação do operador para levar em e será utilizado na função objetivo. Tal como mencionado
conta o benefício do operador. ÿ Definir anteriormente, quantidades críticas de consumo de energia são
taxa de exploração para acelerar a convergência do algoritmo de insensíveis às alterações de preços, pelo que as situações desejadas
precificação. e previstas são iguais, portanto:
Ed;crítico
t ¼ Ep;crítico
t ð3Þ
Mas para montantes restringíveis, uma função é definida da

seguinte forma:
Pt ÿ ÿt
Ed;t curto ¼ Ep; tcurto 1+ÿ ð4Þ
ÿ ÿt ÿ
em que ÿ é o coeficiente de elasticidade, Pt é o preço determinado por

este método no momento t e ÿt é o preço de atacado previsto no
momento t. A elasticidade é geralmente negativa, o que indica uma
FIGURA E 8 A arquitetura básica do Q-learning
relação inversa entre a procura de electricidade e o preço da electricidade [34].
O preço de varejo é sempre determinado maior ou igual ao preço de atacado
(Pt ÿ ÿt), portanto a quantidade desejada de consumo é obtida menor ou igual
ao valor previsto ðEd;curt ÿ Ep;curt Þ para considerar a influência do preço .
onde Q(st, at) é o valor Q atual que está sendo atualizado, ÿ
t t é a taxa de aprendizagem, rt é a recompensa, ÿ é o fator de
Para determinar os preços de varejo, estudamos Q-learning, desconto e maxaQ(st+1, a) é a recompensa estimada do
que é um método amplamente utilizado de aprendizagem por próximo Ação. Q é uma matriz cujas linhas são os estados e
reforço [35]. A arquitetura básica deste método é ilustrada na Figura 8. as colunas são as ações, e em cada um de seus elementos
Com base no algoritmo de aprendizagem Q em cada iteração, armazena o valor obtido em (5). O fator de desconto
a melhor ação é selecionada de acordo com a situação atual, determinará quanto vale a ação futura esperada em
recompensas e recompensas futuras estimadas. Então, essa comparação com a ação que acabou de ser vivenciada. A
repetição continuará até atingir o valor alvo ideal. Neste taxa de aprendizagem também ajusta a velocidade do
algoritmo, uma matriz Q é especificada como: algoritmo para alcançar a convergência ao valor ideal. Em
última análise, Q-learning é descrito como Algoritmo 1.
Para modelar o mercado de eletricidade usando Q-learning,
Qtþ1 stð ; _ atÞ ¼ Qt st ð ; emÞ þ ÿ ÿ rt þ ÿmaxa Qt sð tþ1; aÞ
assumimos os consumidores e o gerador como ambiente, o
ð5Þ
operador ou as empresas intermediárias como agentes, os preços
de retalho como ações, os dados de consumo de eletricidade e
ÿQtstð ; _ _ emÞ
os preços grossistas como estados e, finalmente, maiores lucros
do operador e reduzir os custos do cliente como recompensas.
Algoritmo 1 Algoritmo Q-learning Em seguida, são atribuídos os parâmetros deste método de
aprendizagem, conforme apresentado na Tabela 5. Q0 é o valor
inicial da matriz Q que determinamos em relação à convergência do algoritmo
Além disso, os dados de consumo de energia e preços de atacado são
calculados em média em diferentes áreas residenciais e centros. Então,
intervalos de tempo deles são usados, e cada intervalo de tempo cria um
estado de Q-learning, então temos 51 estados.
Definimos uma taxa de exploração para aumentar a velocidade
de convergência do Q-learning aplicado neste estudo. Nesse ritmo,
o algoritmo se move aleatoriamente, em vez de se mover em direção
ao alvo com base nas informações já obtidas. Por conta disso, a
exploração de pontos mais próximos do ponto alvo ocorre mais
rapidamente. É calculado como:
10
RE ¼ min ÿ ; ð6Þ
ÿ logði + 1Þ ÿ
sendo i o número da iteração e ÿ um número fixo indicado

na Tabela 5. A ação, com a taxa de exploração (6), é
selecionada aleatoriamente; caso contrário, é selecionada
uma ação que maximiza Q. Finalmente, o algoritmo termina
quando a diferença entre os valores Q atuais e anteriores é
menor que uma pequena quantidade que depende do
projeto do sistema [36].
424 -
TABELA E 5 Parâmetros de Q-learning

5.1 | Custo da insatisfação
Parâmetro Valor
Para encontrar a insatisfação do cliente e do operador, especificamos dois Q0 [ÿ100]Estado sÿNações

funções de custo, que levam tanto ao cliente quanto ao operador
N intervalos de tempo 51
beneficiar e determinar preços ideais. Eles são definidos como
segundo grau será convexo em relação ao excedente estimado N estados 51
quantidade de consumo [37]. O custo da insatisfação do cliente Taxa de Aprendizagem 0,1

no momento t é calculado como:
Factor de desconto 0,9
8 1 ÿ 0,5
ÿt Ediff se Dmin < Edifft
:
2 t ÿ ÿ2 þ ÿ Ediff tÿÿ; ð7Þ

ÿt;cu ¼ <
: 0; de outra forma:
5.2 | Função objetiva
onde:
Os clientes pretendem reduzir o custo do consumo de eletricidade.
Portanto, aplicamos a função objetivo do cliente como:
Ediff
t ¼ Ep;curto
t ÿ Ed;curto
t ð8Þ
T
ÿt, ÿ são coeficientes positivos e dependentes do cliente, h min X
PtEdt
þ ÿt;cu eu
ð13Þ
enquanto ÿt é a preferência do cliente e ÿ é a preferência predeterminada ( t¼1 )
constante. ÿt tem uma relação inversa com a quantidade de
esforço do cliente para reduzir a demanda de eletricidade. Ele indica o onde:
inclinação dos clientes para reduzir a demanda para melhorar seus
nível de satisfação [38]. Ed.
t ¼ Ed;crítico
t þ Ed;curto
t ð14Þ
Por outro lado, o custo da insatisfação do operador é
definido da seguinte forma:
Também definimos a função objetivo do operador como:
T
ÿt ÿEdiff ÿ Ep;curto :
t t se Dmáx > Edifft
ÿ2 ; ð9Þ ðPt ÿ ÿtÞEd t ÿ ÿt;op ð15Þ
ÿt;op ¼ h máx X eu
( 0; de outra forma: ( t¼1 )
onde ÿt também é positivo e indica o coeficiente de onde os preços de varejo são selecionados entre os seguintes permitidos
faixa:
flexibilidade, que é a preferência do operador em aumentar os preços.
Se a diferença entre o consumo previsto e o desejado
for inferior a Dmin em (7) ou superior a Dmax em (9), k1ÿt;min < Pt < k2ÿt;max ; k2 > k1 ÿ 1 ð16Þ
que são definidos a seguir, o custo do cliente ou
a insatisfação do operador é considerada zero. Nós definimos Dmin k1 é o mínimo e k2 é o coeficiente de preço máximo.
e Dmáx da seguinte forma: Estes dois parâmetros podem ser personalizados dependendo do
preferência do operador e satisfação do cliente.
Dmin ¼ ÿminEp; curto
t ð10Þ Para obter uma função global para o objetivo, os dois
funções objetivas do cliente e do operador (13) e
Dmáx = ÿmaxEp;curto
t ð11Þ (15) são adicionados usando um fator de impacto. Nosso objetivo é maximizar
esta função conforme descrito a seguir:
onde 0 < ÿmin < ÿmax ÿ 1. Esses coeficientes são
determinado com base nos níveis mínimo e máximo de T
insatisfação. P máx. ÿðPt ÿ ÿtÞEd _ t ÿ ÿt;op
ÿh ÿÿ ÿ
t¼1
ð17Þ
Ao colocar os valores mínimo e máximo de (4) em (8),
ÿð1 ÿ ÿÞ PtEd
o Ediff t , então o custo do cliente
estará entre 0 e Ep; curto t
t þ ÿt;cu io
insatisfação de acordo com (7), será de 0 a max{ÿt,cu}
que: onde ÿ é o fator de impacto, que representa a importância
de cada cliente ou operador com valor entre zero e
ÿt um e pode ser definido como opcional. Este fator desempenha um papel significativo
máx ÿt;cu ÿ ÿ ¼ 2 curto
t t ÿ ð12Þ
ÿ2 þ ÿ Ep;curto
na determinação dos preços. Quanto mais próximo o fator de impacto estiver de um,
maior será o lucro da operadora e a perda do cliente. Então,
Com base nos valores especificados acima, o custo da operadora a função objetivo em cada iteração do algoritmo é
a insatisfação (9) é definida como estando na faixa de curtot ÿ2 considerada uma função de recompensa. Então, de acordo com (17), o
ÿt a 0, portanto atua contra o custo da insatisfação do cliente. a recompensa no momento t é calculada da seguinte forma:
- 425
rt ¼ ÿ ðPt ÿ ÿtÞEd benefício médio do cliente Bt;cu ÿ é zero e a proporção de

ÿ t ÿ ÿt;op ÿ
benefício médio da operadora Br t;op ÿ ÿ é um, de acordo com (19)
ÿð1 ÿ ÿÞ PtEd t þ ÿt;cu ð18Þ
ÿ ÿ
e (20) respectivamente. Portanto, se Bt;cu for maior que ÿ, o
o coeficiente de flexibilidade do cliente (ÿt) é reduzido em um certo
valor definido em (21), que provoca aumento nos preços, então Bt;cu
5.3 | Coeficientes de satisfação
diminui. Pelo contrário, se Bt;cu for menor que ÿ, ÿt aumentará
Conforme descrito na Seção 5.1, definimos as duas funções de custo para convergir Bt;cu para zero. O mesmo processo se aplica a
de insatisfação de clientes e operadores no objetivo o coeficiente de flexibilidade do operador (ÿt), portanto aumenta ou diminui
função para considerar o benefício de ambos. Nessas funções, conforme (22) até Br chega perto de um e o
principal
são utilizados dois coeficientes importantes, chamados preços determinados aproximam-se dos preços reais no fator de impacto
coeficientes de flexibilidade ou coeficientes de satisfação. de 0,5.
Estes coeficientes são ÿt para o cliente e ÿt para o operador. Em
[20] e trabalhos anteriores relacionados, valores desses coeficientes
Algoritmo 2 Algoritmo de precificação proposto
foram hipotetizados, mas neste estudo, ganhamos seu ideal
valor considerando os valores iniciais para eles. Isto é conseguido por
aplicar feedback dos preços definidos e dos benefícios percebidos
sobre esses coeficientes. Para obter o valor ideal de
os coeficientes de satisfação, assumimos que o valor real atual
os preços são ótimos, portanto, no fator de impacto de 0,5, esses
coeficientes são definidos de tal forma que os preços de varejo que
determinar aproximar-se dos preços reais de varejo. No fim de
cada iteração do algoritmo, o benefício médio do cliente
e o índice médio de benefício do operador será calculado, por tempo
slot t, com fator de impacto de 0,5, que são definidos como
segue respectivamente:
T
1
Bt; cu ¼ T X Préal ÿ Ponto ð19Þ
ÿ t ÿ
t¼1
¼ PT t¼1ðPt ÿ ÿtÞ
irmão ð20Þ
principal
PT t¼1 ÿ Préal
t ÿÿt _
ÿ
onde Preal t é o preço real de varejo no momento t, que está disponível em

o conjunto de dados de varejo apresentado na Seção 3, e Pt é o preço definido
no momento t. Então, em cada iteração, o cliente e o operador
fatores de insatisfação ou, em outras palavras, os coeficientes de
flexibilidade são revisadas da seguinte forma:
8
ÿt ÿ m1em1Bt;cu ; se Bt;cu > ÿ:
ÿtþ1 ¼ ð21Þ
ÿt + m1eÿm1Bt;cu ; se Bt;cu < ÿÿ:
><
Em resumo, nosso algoritmo de precificação será definido
de outra forma:
>: ÿt;
como Algoritmo 2. Após a convergência e determinação do valor ideal
coeficientes, se o operador quiser aumentar ou diminuir os preços, pode
8 m2 Br ð t;opÿ1Þ; ÿ 1 > ÿ:
ÿt ÿ m2e se irmão
principal
ver os lucros e perdas de seus clientes e de si mesmo, alterando
ð22Þ
o fator de impacto e a execução do algoritmo, desta vez
ÿtþ1 ¼ >><
ðt ;opÿ1Þ; ÿtÿm2 Br
+ m2e se irmão ÿ 1 < ÿÿ:
t;op com coeficientes de flexibilidade constantes e ótimos.
>>:
ÿt; caso contrário:
onde m1 e m2 são inclinações de convergência maiores que 6 | SIMULAÇÃO E ANÁLISE

zero, e ÿ é um pequeno valor positivo que indica o
limite de convergência. De acordo com a arquitetura do nosso sistema apresentada neste
Como mencionado anteriormente, por assumir o determinado estudo, implementamos a previsão de dados e analisamos seus
preços iguais aos preços reais de varejo com um fator de impacto de 0,5, o resultados na Seção 4. Em seguida, o método de precificação foi definido
426 -
TABELA E 6 Parâmetros de simulação

usando os dados previstos na Seção 5. Nesta seção,
Parâmetro ÿ0, ÿ0 ÿ ÿmin ÿmax ÿ
simular a precificação e avaliar o desempenho do Qÿ
algoritmo de aprendizagem e seus resultados. Os valores pelos quais o Valor 1 30 0,1 1,5 0,1
simulação é realizada estão listados na Tabela 6. Nestes parâmetros, ÿ foi
Parâmetro m1 m2 ÿ k1 k2
selecionado com base na investigação relatada em
1 1
[39]. ÿmin, ÿmax, k1 e k2 são os limites do sistema e têm Valor 0,01 ÿ0,6 3
foi escolhido com base no intervalo de dados de entrada. Além disso, m1, m2 e ÿ
foram personalizados em termos de como o algoritmo converge. ÿ0
e ÿ0 são os valores iniciais que são atualizados ao final de cada
iteração do algoritmo de precificação de acordo com o feedback
descrito no sistema proposto. Se o número apropriado
de iterações é atribuído, esses valores convergirão para dois
valores específicos antes do final do algoritmo, e nosso objetivo é
para encontrar esses valores. Além disso, ÿ foi alcançado usando restrições
explicado em [40].
A magnitude das mudanças no valor Q, que representa
a convergência ou divergência do algoritmo implementado;
é mostrado na Figura 9. É claro que esses valores convergem para
zero, então nosso algoritmo atingiu seu valor ideal. O
a convergência do algoritmo também é determinada pelo
convergência da recompensa. Conforme mostrado na Figura 10, esta recompensa
inicialmente diminuiu devido à seleção aleatória de ações, mas
aumentou de forma constante e convergiu para um valor constante. O
FIGURA E 9 Mudança absoluta dos valores Q
razão para o sinal negativo das recompensas é por causa do alvo
valor e a forma como ele é definido.
Após verificar a convergência do algoritmo Q-learning e garantir a
correcção do seu funcionamento, é
necessário investigar a convergência do cliente e
coeficientes de insatisfação do operador (ÿt e ÿt). Eles são dois
partes importantes que devem ser alcançadas na implementação
do método proposto. Ao atribuir três iniciais diferentes
valores na execução do algoritmo, esses coeficientes
convergiu precisamente para certos valores, conforme mostrado nas Figuras 11
e 12. De acordo com essas figuras, os ÿ e ÿ finais são 35 e
60 em média, respectivamente, que serão utilizados nas próximas etapas.
Até agora, identificamos com precisão os coeficientes de insatisfação e
provamos a convergência do algoritmo. Na próxima
etapa, esses coeficientes são fixados no algoritmo e mudamos
o fator de impacto e obter os preços fixados em 51 intervalos de tempo. O FIGURA E 1 0 Convergência da recompensa total para a melhor política
foram representadas médias desses preços em vários fatores de impacto,
conforme Figura 13. Percebe-se que com o aumento do impacto
fator, os preços subiram, o que indica que a operadora simulado em relação a (19) e (20), respectivamente. Seus valores
o lucro tornou-se mais importante. O ponto vermelho também é o foram obtidos conforme Figura 14. De acordo com este gráfico, pode-se
média dos preços reais de varejo no mesmo intervalo de tempo, o que é tão concluiu que ao atribuir mais importância ao operador
próximo da média dos preços apurados no fator de impacto usando o fator de impacto, o índice de benefícios da operadora tornou-se
de 0,5. Outro ponto considerável é que ao diminuir o maior, mas, pelo contrário, o benefício para o cliente degradou-se.
fator de impacto próximo a zero, a média dos preços determinados Para comparar a velocidade do nosso sistema proposto, o
fica próximo de k1 multiplicado pela média do atacado método apresentado no estudo [20] foi simulado com base em seu
preços, que é mostrado como k1 ÿ ÿ , e ao aumentá-lo para 1 dados relatados. Além disso, implementamos um método combinado de
chega a k2 ÿ ÿ . Portanto, quanto mais direcionado for o cliente Q-learning com uma rede neural profunda, conhecida como Deep Q
lucro, mais próximo o preço definido estiver do preço de atacado e o Rede (DQN) [41]. Medimos o tempo de execução de
diminuir o lucro do operador. esses algoritmos em 105 iterações e obteve o número de
Ao fixar preços em função de diferentes factores de impacto, é necessário iterações necessárias para sua convergência, conforme mostrado na Tabela 7.
para determinar o lucro ou prejuízo do cliente e da operadora De acordo com esta tabela, o tempo de execução do Q-learning
em cada um desses fatores, e através disso, o operador pode apresentado na Seção 5 leva cerca de 4 minutos para ser executado no servidor
perceber com precisão a gama de flexibilidade para alterar os preços. Para do Google Collaboratory [42] para um cliente e 51 vezes
por esse motivo, o benefício do cliente e a relação benefício do operador são slots. A Deep Q Network substitui a matriz de Q por um
FIGURA 1 1 Convergência do coeficiente de

satisfação do cliente (ÿ)
FIGURA 1 2 Convergência do coeficiente de

satisfação do operador (ÿ)
FIGURA 1 3 Preços médios em diferentes fatores de impacto
FIGURA E 1 4 Lucro médio do cliente e da operadora em diferentes

rede neural e estima o novo valor de Q usando-a, portanto, este método fatores de impacto
converge mais rápido. No entanto, em cada iteração, o DQN gasta mais
tempo calculando o valor Q, portanto seu tempo de execução em um
grande número de iterações é maior do que o nosso Q-learning são previstos em menos de 1 minuto, portanto, na maior parte do tempo,
apresentado. O método de previsão descrito na Seção 4 leva 4 minutos trata-se de preços. Consequentemente, com base nos resultados obtidos
para ser executado na fase de aprendizagem para dados 8277 no Google em relação ao tempo total de execução do nosso sistema proposto, sua
Colab. Mas depois de aprender e modelar, esses valores velocidade foi melhorada em comparação com [20].
428 -
TABELA 7 Comparação entre o tempo de

Algoritmo Tempo(s) em 105 iterações Iterações de convergência
execução dos algoritmos de precificação
Nossa simulação de [20] 1302 20.000 relacionados
Proposta de LSTM + Q-learning 1056 10.000
Rede Q Profunda 51.875 250
7 | CONCLUSÃO na fase de treinamento do sistema e aplicá-lo para alteração de preços.

Assim, os ganhos e perdas podem ser observados com precisão para
A precificação dinâmica, também chamada de precificação baseada na facilitar a tomada de decisões. A decisão que o SP ou OP pode tomar é
demanda ou no tempo, é uma estratégia na qual as empresas definem alterar o fator de impacto para modificar o nível de satisfação, e é útil quando
preços flexíveis para seus produtos ou serviços com base na demanda do é observada uma situação crítica como falta de energia.
mercado. Os prestadores de serviços devem adoptar uma política de preços
dinâmica para melhor implementar os preços e depois utilizá-la para motivar As limitações do sistema proposto que podem ser abordadas em
os seus consumidores e aliviar as pressões da escassez de electricidade. O trabalhos futuros são as seguintes. No bloco de previsão, consideramos dois
objetivo do nosso estudo foi prever a demanda de eletricidade dos clientes fatores principais de precificação, o preço no atacado e a demanda de
da rede inteligente usando a combinação de duas técnicas de aprendizado energia. Embora outros parâmetros desempenhem um papel menos
de máquina para determinar um preço razoável e satisfatório para os clientes, importante na precificação, considerá-los pode melhorar o desempenho do
bem como um serviço confiável de acordo com a capacidade do sistema. Na sistema. Em particular, podemos utilizar informações domésticas e condições
verdade, consideramos o benefício tanto para os consumidores quanto para os distribuidores.
climáticas. Além disso, definimos o fator de impacto como uma ferramenta
Neste estudo, assumindo que os valores reais dos preços são ótimos, para o operador ajustar os preços com base na sua estimativa para equilibrar
foi determinada a flexibilidade dos clientes a esses preços e então as a procura e a oferta. Em trabalhos futuros, outros processos poderão ser
alterações de preços puderam ser observadas em relação ao lucro do definidos para adquirir este fator de forma dinâmica, o que aumenta a nossa
operador e dos clientes. confiança na justiça dos preços. No entanto, esta abordagem deve ser
A rentabilidade foi obtida com base no preço de atacado dos hubs da rede considerada de forma a não prejudicar a eficácia do tempo. Além disso, em
elétrica e nas demandas para que pudesse ser implementada no ambiente trabalhos futuros, a simulação do comportamento dos consumidores sob
real. Para avaliar o método proposto, simulamos os preços da eletricidade diferentes políticas de preços propostas pelo Q-learning poderá ser realizada
para o consumidor e os comparamos com os valores reais, e então e a previsibilidade do comportamento será demonstrada pela investigação de
investigamos a utilidade e justiça desses preços. seu efeito no desempenho do LSTM.
Neste estudo, apresentamos uma abordagem que combina previsão e

precificação em que os preços são justos do ponto de vista do consumidor CONFLITO DE INTERESSE Gostaríamos de
e do operador da rede. Assim, aplicamos duas redes LSTM para prever a confirmar que não há conflitos de interesse conhecidos associados a esta
procura de energia e os preços grossistas na rede eléctrica dos EUA e publicação e que não houve apoio financeiro significativo para este trabalho
utilizámos os seus resultados para a fixação de preços. Assim, desenhámos que pudesse ter influenciado o seu resultado.
uma política de preços para abordar uma questão importante no mercado
eléctrico, nomeadamente o controlo e gestão do consumo.
PERMISSÃO PARA REPRODUZIR MATERIAL DE OUTRAS FONTES
Os benefícios do nosso sistema proposto podem ser categorizados em Nenhuma.
duas partes: (1) Alta flexibilidade devido à modelagem interativa de cada tipo
de cliente e operador de rede, e levando em conta seus fatores de satisfação,
(2) Preços mais precisos com um tempo de execução aceitável devido à DECLARAÇÃO DE DISPONIBILIDADE DE DADOS
aplicação de um bloco de previsão separado. Os beneficiários do sistema Os dados que apoiam as conclusões deste estudo estão disponíveis no
proposto são o cliente, o mercado, o prestador de serviço, a operadora e a EIA_ElectricityÿPriceÿDataset em https://github.com/Zahra MousaviZiabari/
microrrede. A posição do sistema está no mercado e na microrrede, em que EIA_ElectricityÿPriceÿDataset. Esses dados foram derivados dos seguintes
o mercado está incluído ou compreende a microrrede. O prestador de recursos disponíveis em domínio público: https://www.eia.gov/electricity/data/
serviço (SP) ou operador (OP) utiliza este sistema sem intervenção direta em browser/
seu processo. Eles fornecem a quantidade de energia adquirida, seu preço e
a demanda que observaram dos clientes em um cronograma específico. ORCID
Zahra Mousavi Ziabari https://orcid.org/0000-0001-5979-304X Abbas Pasdar

https://
Por exemplo, estes dados e a sua informação complementar são fornecidos orcid.org/0000-0003-0397-8648
em [43] relativamente ao mercado eléctrico PJM.
Na seção de resultados, foi demonstrado que os coeficientes de REFERÊNCIAS
satisfação do cliente e do operador podem ser determinados e otimizados
1. Bahrami, S., Wong, VW, Huang, J.: Um algoritmo de aprendizagem online para
com um ciclo de feedback. O SP ou OP pode configurar o sistema proposto resposta à demanda em redes inteligentes. IEEE Trans. Rede Inteligente.
com base em valores reais ótimos que são adquiridos 9(5), 4712–4725 (2017)
2. Jia, L., Tong, L.: Preços dinâmicos e gestão de energia distribuída para resposta à procura. 24. Wen, Z., O'Neill, D., Maei, H.: Resposta ideal à demanda usando aprendizagem por reforço
IEEE Trans. Rede Inteligente. 7(2), 1128–1136 (2016) baseada em dispositivo. IEEE Trans. Rede Inteligente. 6(5), 2312–2324 (2015)
3. Khajavi, P., Abniki, H., Arani, A.: O papel dos programas de resposta à procura baseados em
incentivos na rede inteligente. In: 10ª Conferência Internacional sobre Meio Ambiente e 25. Kim, B.ÿG., et al.: Preços dinâmicos para redes inteligentes com aprendizagem por reforço. In:
Engenharia Elétrica. IEEE, Roma (2011) Conferência IEEE sobre Workshops de Comunicação por Computador de 2014, pp.
4. Khezeli, K., Bitar, E.: Aprendizagem sensível ao risco e preços para resposta à procura. IEEE INFOCOM WKSHPS (2014)
Trans. Rede Inteligente. 9(6), 6000–6007 (2017) 26. Zhong, S., et al.: Estrutura de aprendizagem por reforço profundo para resposta dinâmica à
5. Li, N., Chen, L., Low, SH: Resposta ótima à demanda baseada na maximização da utilidade demanda de preços de aquecimento elétrico regenerativo. Apl. Energia. 288, 116623 (2021)
em redes de energia. In: Reunião Geral da IEEE Power and Energy Society. IEEE, Detroit
(2011) 27. Xie, et al .: Algoritmo de planejamento de trajetória de veículos aéreos não tripulados baseado
6. Qian, M., Fanlin, M., Xiao-Jun, Z.: Preços dinâmicos ideais para redes inteligentes com clientes em aprendizagem por reforço profundo em ambientes dinâmicos e de grande escala.
mistos com e sem medidores inteligentes. J. Sistema de energia moderno. Energia Limpa Acesso IEEE. 9, 24884–24900 (2021)
6(6), 1244–1254 (2018)
7. Tang, Q., et al.: Um algoritmo de precificação dinâmica em tempo real para redes inteligentes eletricidade/
Is(
A
d
2 com fornecedores de energia instáveis e usuários mal-intencionados. Coisas da Internet
IEEE J. 3(4), 554–562 (2015)
8. Sharifi, R., Fathi, SH, Vahidinasab, V.: Uma revisão sobre ferramentas do lado da demanda
no mercado de eletricidade. Renovar. Sustentar. Energia Rev. 72, 565–572 (2017)
9. Al-Rubaye, S., et al.: O mecanismo dinâmico de preços nas comunicações de redes
inteligentes está a tomar forma. Comun. IEEE. Vamos. 22(7), 1350–1353 (2018)
10. Hassan, M., Rehmani, MH, Chen, J.: Preços dinâmicos diferencialmente privados para resposta
eficiente à demanda em redes inteligentes. In: ICC 2020ÿ2020 Conferência Internacional
IEEE sobre Comunicações (ICC), pp.
IEEE, Dublin (2020)
11. Märkle-Huß, J., Feuerriegel, S., Neumann, D.: Resposta à procura em grande escala e suas
implicações para os preços à vista, carga e políticas: percepções do mercado eléctrico
alemão-austríaco. Apl. Energia. 210, 1290–1298 (2018)
12. Weron, R.: Previsão do preço da eletricidade: uma revisão do estado da arte com um olhar
para o futuro. Internacional J. Previsão. 30(4), 1030–1081 (2014)
13. Ferdous, J., et al.: Preço dinâmico ideal para negociação entre utilidade do usuário e lucro do
operador na rede inteligente. IEEE Trans. Sist. Homem Cibernet. Sist. 50 (2), 455–467
(2017)
14. Muralitharan, K., Sakthivel, R., Vishnuvarthan, R .: Abordagem de otimização baseada em
redes neurais para previsão de demanda de energia em redes inteligentes.
Neurocomputação. 273, 199–208 (2018)
15. Yin, P.ÿY., Chao, C.ÿH.: Seleção automática dos preditores de demanda de energia mais
adequados com base na otimização do enxame cibernético e na aprendizagem por reforço.
Apl. Computação suave. 71, 152–164 (2018)
16. Christ, S.: Operacionalizando Modelos de Preços Dinâmicos: Previsão de Demanda Bayesiana
e Modelagem de Escolha do Cliente para Operadoras de Baixo Custo.
29. Comissão Federal Reguladora de Energia. (2020). https://www.ferc.gov/marketÿassessments/
mktÿelectric/overview.asp _ 30. Gers, FA, Schmidhuber,
J., Cummins, F.: Aprendendo a esquecer: previsão contínua com LSTM. Computação neural.
12(10), 2451–2471 (2000)
31. Gers, FA, Schraudolph, NN, Schmidhuber, J.: Aprendendo tempo preciso com redes recorrentes
LSTM. J. Mach. Aprender. Res. 3 (agosto), 115–143 (2002)
32. Bergstra, J., Bengio, Y .: Pesquisa aleatória para otimização de hiperparâmetros

ção. J. Mach. Aprender. Res. 13(2), 281–305 (2012)
33. Jin, M., Zhang, L., Spanos, CJ: Previsão de energia através do reconhecimento de padrões
de consumo de energia para edifícios inteligentes. In: Conferência Internacional IEEE sobre
Ciência e Engenharia de Automação (CASE), pp.
419–424. IEEE, Gotemburgo (2015)
34. Jin, M., et al.: Microrrede para permitir o varejo de energia distribuída ideal e a resposta à
demanda do usuário final. Apl. Energia 210, 1321–1335 (2018)
35. Schwind, M.: Preços dinâmicos e alocação automatizada de recursos para serviços de
informação complexos: aprendizagem por reforço e leilões combinatórios. Springer Science
& Business Media, Berlim (2007)
36. Melo, FS: Convergência de Q-learning: uma prova simples. páginas 1–4. Instituto
de Sistemas e Robótica (2001)
37. Yu, M., Hong, SH: Um algoritmo de resposta à demanda em tempo real para redes inteligentes:
uma abordagem de jogo stackelberg. IEEE Trans. Rede Inteligente. 7(2), 879–888 (2015)
38. Yu, M., Hong, SH: Resposta à procura baseada em incentivos considerando o mercado
hierárquico de electricidade: uma abordagem de jogo de Stackelberg. Apl. Energia 203,
267–279 (2017)
39. Miller, M., Alberini, A.: Sensibilidade da elasticidade-preço da procura à agregação,
Springer Science & Business Media, Alemanha (2011) heterogeneidade não observada, tendências de preços e endogeneidade de preços:
17. Graves, A.: Memória Longa de Curto Prazo: Rotulagem de Sequência Supervisionada com evidências de US Data, Energy Policy, 97, 235–249 (2016)
Redes Neurais Recorrentes, pp. Springer, Berlim (2012) 40. Chen, J., Yang, B., Guan, X .: Programação ideal de resposta à demanda com abordagem de
18. Marino, DL, Amarasinghe, K., Manic, M.: Construindo previsão de carga de energia usando jogo stackelberg sob incerteza de carga para rede inteligente. In: Terceira Conferência
redes neurais profundas. In: IECON 2016-42ª Conferência Anual da IEEE Industrial Internacional IEEE sobre Comunicações de Redes Inteligentes de 2012, pp. SmartGridComm
Electronics Society, pp. (2012)

IEEE, Florença (2016) 41. Mnih, V., et al.: Controle em nível humano por meio de aprendizagem por reforço profundo.
19. Xiaoyun, Q., et al.: Previsão de curto prazo da energia eólica com base na memória profunda, Natureza 518(7540), 529–533 (2015)
longa e de curto prazo. In: Conferência IEEE PES Ásia-Pacífico de Engenharia de Energia 42. Colaborador Google. (2021). https://colab.research.google.com/ 43. Centro de
e Energia 2016, pp. APEEC (2016) Aprendizagem. (2021). https://learn.pjm.com
20. Lu, R., et al.: Um algoritmo de resposta à demanda de preços dinâmicos para rede inteligente:
abordagem de aprendizagem por reforço. Apl. Energia 220, 220–230 (2018)
21. Ghasemkhani, A., Yang, L., Preços baseados em aprendizagem por reforço para resposta à
demanda. In: Conferência Internacional IEEE sobre Workshops de Comunicação Como citar este artigo: Mousavi Ziabari, Z., Pasdar, A.:
(Workshops ICC), pp. (2018) Predição usando redes de memória de longo e curto prazo
22. Ruelens, F., et al.: Resposta à demanda residencial de cargas controladas termostaticamente a serviço do projeto de uma nova política de preços para
usando aprendizagem por reforço em lote. IEEE Trans. Rede Inteligente. 8(5), 2149–2159
redes inteligentes. Rede Inteligente IET. 5(6), 417–
(2016)
23. Mocanu, E., et al.: Otimização energética de edifícios on-line usando aprendizagem por
429 (2022). https://doi.org/10.1049/stg2.12057
reforço profundo. IEEE Trans. Rede Inteligente. 10(4), 3698–3708 (2018)

IET Smart Grid - 2022 - Mousavi Ziabari

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

IET Smart Grid - 2022 - Mousavi Ziabari

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Machine Translated by Google

Previsão usando redes de memória longa e de curto prazo a serviço

Zahra Mousavi Ziabari1 | Abbas Pasdar2

Zahra Mousavi Ziabari, Departamento de Engenharia da

1 | INTRODUÇÃO solução para aumentar a confiabilidade da rede, que é chamada de

Rede Inteligente IET. 2022;5:417–429. wileyonlinelibrary.com/journal/stg2 - 417

Nesta seção, discutimos a estrutura do sistema proposta e suas

FIGURA 2 Classificação da rede elétrica dos EUA

TABELA E 1 Parâmetros de treinamento de rede de memória de longo e curto prazo na

O número de entradas em cada intervalo de tempo 32

O número de unidades ocultas 32

Tamanho do batch 128

Etapas por época 200

Taxa de Aprendizagem 0,001

Após o treinamento da rede neural, a parte de teste dos dados de

TABELA E 3 Parâmetros de treinamento da rede de memória de longo e curto prazo em

O número de entradas em cada intervalo de tempo 32

O número de unidades ocultas 64

Tamanho do batch 128

Etapas por época 400

Taxa de Aprendizagem 0,001

TABELA E 4 Desempenho do conjunto de testes da memória de longo e curto prazo

Tipo de erro Valor

MSE dimensionado 0,001645

FIGURA 5 Resultado da previsão do preço de atacado

Erro quadrático médio não escalonado (MSE) 0,17

MSE dimensionado 0,000 138 5 5 | QUADRO DA POLÍTICA DE PREÇOS

Na seção anterior, a demanda e os preços no atacado foram

FIGURA 6 Resultado da previsão de demanda de energia

ÿ Otimizar os coeficientes de satisfação e não depender apenas da

A seguir, são discutidos os fundamentos da nossa política de

previsão, os valores previstos (preço de atacado e demanda de Et ¼ Ecurt

energia) entram no bloco de preços e, assim, os preços flexíveis e em

Mas para montantes restringíveis, uma função é definida da

em que ÿ é o coeficiente de elasticidade, Pt é o preço determinado por

sendo i o número da iteração e ÿ um número fixo indicado

TABELA E 5 Parâmetros de Q-learning

Para encontrar a insatisfação do cliente e do operador, especificamos dois Q0 [ÿ100]Estado sÿNações

quantidade de consumo [37]. O custo da insatisfação do cliente Taxa de Aprendizagem 0,1

2 t ÿ ÿ2 þ ÿ Ediff tÿÿ; ð7Þ

( 0; de outra forma: ( t¼1 )

rt ¼ ÿ ðPt ÿ ÿtÞEd benefício médio do cliente Bt;cu ÿ é zero e a proporção de

onde Preal t é o preço real de varejo no momento t, que está disponível em

onde m1 e m2 são inclinações de convergência maiores que 6 | SIMULAÇÃO E ANÁLISE

TABELA E 6 Parâmetros de simulação

FIGURA 1 1 Convergência do coeficiente de

FIGURA 1 2 Convergência do coeficiente de

FIGURA 1 3 Preços médios em diferentes fatores de impacto

FIGURA E 1 4 Lucro médio do cliente e da operadora em diferentes

TABELA 7 Comparação entre o tempo de

Proposta de LSTM + Q-learning 1056 10.000

Rede Q Profunda 51.875 250

7 | CONCLUSÃO na fase de treinamento do sistema e aplicá-lo para alteração de preços.

Neste estudo, apresentamos uma abordagem que combina previsão e

Zahra Mousavi Ziabari https://orcid.org/0000-0001-5979-304X Abbas Pasdar

32. Bergstra, J., Bengio, Y .: Pesquisa aleatória para otimização de hiperparâmetros

Electronics Society, pp. (2012)

Você também pode gostar