Escolar Documentos
Profissional Documentos
Cultura Documentos
Recebido: 5 de maio de 2021 - Revisado: 10 de novembro de 2021 - Aceito: 28 de janeiro de 2022 - Rede Inteligente IET
DOI: 10.1049/stg2.12057
PESQUISA ORIGINAL
1
Departamento de Engenharia da Computação, Alzahra Abstrato
Universidade, Teerã, Irã
A tarifação dinâmica é uma das soluções mais eficazes para controlar e gerir o consumo de energia
2
Departamento de Engenharia Elétrica, Sharif
nos mercados eléctricos. Duas questões desafiadoras para atingir este objetivo são conceber uma
Universidade de Tecnologia, Teerã, Irã
política abrangente, que possa determinar preços ótimos para cada parte, e definir um simulador
preciso do ambiente real, que possa expressar a complexidade da satisfação. Para superar estes
Correspondência
PALAVRAS-CHAVE
Inteligência artificial e análise de dados, controle ideal, preços, controle preditivo, mercados de energia, confiabilidade
na distribuição de energia
Este é um artigo de acesso aberto nos termos da Licença Creative Commons Attribution, que permite o uso, distribuição e reprodução em qualquer meio, desde que o trabalho original seja devidamente citado.
© 2022 Os Autores. IET Smart Grid publicado por John Wiley & Sons Ltd em nome da Instituição de Engenharia e Tecnologia.
propriedades influentes do mercado de eletricidade. Esta estratégia é combinar sem a necessidade de intervenção humana no meio do seu
muito eficaz para determinar preços e gerenciar o consumo em processo. Eles fornecem insumos adequados uns aos outros que os
ambientes dinâmicos de preços [12–15]. Eles são divididos em três ajudam a acelerar e se adaptar às mudanças em suas tendências de
categorias: (1) equivalência de certeza, (2) aprendizagem passiva e insumos. Além disso, suas características estruturais prepararão os
(3) aprendizagem ativa. Na equivalência de certeza, o parâmetro de benefícios da sincronização. A segunda razão é que podem gerir de
incerteza é ignorado no processo de modelagem de decisão e sua forma independente a situação em que se encontram. O LSTM prevê
saída é como modelos de substituição determinísticos. os dados com precisão, e o Q-learning os utiliza e altera as variáveis
Assume que a função de demanda é determinística e controlada por do ambiente em relação ao nosso objetivo. Estas conquistas serão
um único parâmetro, o que significa que o preço não afeta diretamente refletidas na avaliação de desempenho de cada seção. Como
o processo de aprendizagem. Durante a aprendizagem passiva, os resultado, o desempenho geral aumentará.
dados de demanda são coletados e avaliados, mas as decisões que
foram tomadas não são utilizadas na aprendizagem por demanda para O objetivo deste estudo é desenhar uma política de preços
evitar efeitos negativos no tempo de execução da aprendizagem. Por dinâmica utilizando a procura prevista de eletricidade e os preços
fim, na aprendizagem ativa, as decisões atuais serão utilizadas na grossistas, bem como determinar a flexibilidade dos clientes e o nível
aprendizagem e previsão do comportamento da demanda, nas quais de satisfação do operador relativamente aos preços retalhistas. Além
são considerados os efeitos de múltiplos períodos de planejamento disso, a nossa abordagem tem uma perspectiva inovadora que não
com o parâmetro de incerteza. Por exemplo, ao alterar o preço, simula o feedback dos preços porque a verdadeira optimização dos
podemos ver os seus efeitos sobre a procura. Esta interação nos dá preços definidos não pode ser comprovada até que sejam
informações que são aplicadas na aprendizagem para alcançar um implementados no ambiente operacional. Esta abordagem preenche
modelo de demanda mais preciso em condições de incerteza. Uma a lacuna mencionada entre a simulação e o uso real. No método
pré-condição importante para qualquer aprendizagem pela procura é proposto obtêm-se os coeficientes de flexibilidade e insatisfação dos
que a procura seja assumida como dependente. Na verdade, devemos clientes e do operador, assumindo que os preços de retalho anteriores
ter dependência funcional entre a procura e outros factores, tais como foram óptimos. Então, ao contrário dos estudos anteriores, podemos
alterações de preços, a menos que a aprendizagem não possa perceber os ganhos e perdas das variações de preços considerando
acontecer [16]. Entre os métodos utilizados na área mencionada, as as diferentes influências dos clientes e da operadora entre si.
redes de memória de longo prazo (LSTM) são muito adequadas para A razão para esta suposição é que deve haver uma referência para a
classificar, processar e prever dados de séries temporais. Uma das otimização, e esta referência pode ser preços que tenham sido
vantagens dessas redes é a insensibilidade a intervalos de tempo satisfatórios para o cliente e para o operador até o momento.
desconhecidos em comparação com redes neurais recorrentes (RNNs), Em suma, as contribuições deste trabalho são as seguintes:
modelos ocultos de Markov e outros métodos de aprendizagem de
sequências de dados [17]. Por exemplo, os autores de [18] usaram ÿ Propor um novo processo de otimização utilizando características
duas redes LSTM para prever cargas em intervalos de tempo de 1 comportamentais do cliente que possam determinar o nível de
hora e 1 minuto, e em [19], o LSTM foi implementado para prever a resposta ao programa de demanda.
energia eólica. Por outro lado, Q-learning, um método de Aprendizagem ÿ Projetar um novo sistema para gestão de consumo combinando a
por Reforço, foi estudado em um grande número de estudos recentes rede LSTM com o método Q-learning para visualizar o preço de
e utilizado para resposta à demanda [20–25]. Este método é útil acordo com a demanda prevista com precisão e com um tempo
porque não tem modelo e pode ser aplicado para encontrar uma de resposta melhorado. ÿ Modelar a
insatisfação
política de seleção de ações ideal em que as ações sejam os preços nos programas do operador
de resposta da rede como retalhista do mercado de
à procura.
De acordo com os estudos analisados, podemos constatar que a eletricidade utilizando a sua formulação de função de custo e preço
política de preços foi maioritariamente desenhada e avaliada do ponto grossista previsto pelo LSTM. A novidade e a importância dos
de vista dos consumidores, enquanto estes são um dos beneficiários resultados se devem à definição dos parâmetros efetivos do cliente
do mercado eléctrico. Os varejistas, por outro lado, precisam e da operadora e à criação de um modelo concorrente dos mesmos.
urgentemente de estratégias confiáveis. Eles buscam insights para ÿ Avaliar o modelo de
gerenciar o volume de compras de energia das empresas de precificação usando os lucros e perdas obtidos na análise dos efeitos
manufatura em relação às demandas dos clientes. Além disso, querem de cada parte sobre os preços e entre si. O passo principal e
estabelecer preços de uma forma que seja satisfatória para ambos os distintivo aqui é que a justiça dos preços seja determinada com
lados. Em [26], este problema é abordado, e uma Deep Q-Network base numa plataforma fiável criada pela aprendizagem activa em
(uma técnica de aprendizagem por reforço profundo) é construída com dados reais.
base em uma estrutura de otimização que visa maximizar os
interesses dos agregadores de carga. No entanto, a desvantagem O restante deste estudo está organizado da seguinte forma. Na
deste método em comparação com LSTM e Q-learning combinados é Seção 2, a arquitetura do sistema proposta é descrita. A preparação
que ele retarda muito o aprendizado e aumenta a complexidade da dos dados utilizados é explicada na Seção 3, e a previsão do preço de
amostra, devido à qual o desempenho geral será degradado [27] . atacado e da demanda de energia é apresentada na Seção 4. O
Portanto, para projetar um sistema eficiente de precificação dinâmica desenho da política de preços é investigado na Seção 5, e os
em tempo real na rede inteligente, o tempo de execução é uma questão crítica que deve de
coeficientes sersatisfação
considerada.
e funções objetivo do operador e do cliente
O Q-learning híbrido LSTM alcançará melhor desempenho por são considerados. Os estudos de simulação são conduzidos na Seção
dois motivos. Em primeiro lugar, eles eficientemente 6 e o estudo é concluído na Seção 7.
Machine Translated by Google
MOUSAVI ZIABARI E PASDAR - 419
2 | ABORDAGEM PROPOSTA
blocos de predição e precificação em conjunto, a abordagem proposta eventos importantes na série temporal [30]. Os LSTMs foram
pode ser mais eficiente e benéfica em comparação com trabalhos anteriores.desenvolvidos para resolver os problemas de explosão e
Além disso, os benefícios para o cliente e para a operadora são desaparecimento de gradientes que ocorrem durante o treinamento de RNNs tradicio
considerados simultaneamente, porque a operadora pode associar os As redes recorrentes mantêm as informações dentro de si por causa
preços observando seus efeitos no lucro de cada lado. Nas seções dos loops dentro delas. Na Figura 3a, no tempo t, o bloco da rede
seguintes, fornecemos uma descrição detalhada de cada parte do neural A olha para a entrada Xt e produz a saída Ht com base na
sistema proposto e suas relações. entrada. O loop também faz com que a informação se mova do
momento presente para o próximo. De acordo com a Figura 3b , uma
RNN pode ser considerada como uma cadeia de uma rede neural, cada
3 | PREPARANDO O CONJUNTO DE DADOS USADO uma fornecendo informações subsequentes.
À medida que a lacuna de informação aumenta, a RNN torna-se
Coletamos os dados utilizados neste estudo do site da Administração mais incapaz de aprender a relação entre eles. Em contraste, este
de Informações de Energia dos EUA [28], que inclui dados on-line de problema foi eliminado nas redes LSTM, e estas redes são de alguma
consumo de energia. Os dados de atacado estão na forma de centros forma projetadas para evitar o problema da dependência de dados a
na rede elétrica dos EUA. Os hubs são a camada intermediária da longo prazo. As redes LSTM também são encadeadas, mas os blocos
distribuição de energia, que têm a função de transmitir eletricidade repetidos possuem uma estrutura diferente que funciona como uma
entre si e também dos geradores da camada superior para os memória e pode reter informações por um longo tempo [31].
consumidores da camada inferior. Na verdade, estes dados indicam o
preço transacionado da eletricidade em cada hub, o que determina o
preço de compra do retalhista no mercado de eletricidade. 4.1 | Previsão de preço de atacado
Os dados de varejo são baseados em áreas residenciais de cada O preço de atacado que usaremos em nosso trabalho a partir de agora
estado, portanto devemos prepará-los e revisá-los para especificar a são os preços das potências negociadas todos os dias e em todos os
relação entre centros e estados. Em [28], dados de atacado e varejo hubs. A cada transação, esses preços variam, por isso são ponderados
são possíveis, mas sua relação não é revelada. Hubs e o e calculados em média. Segundo [28], é calculado por:
Machine Translated by Google
MOUSAVI ZIABARI E PASDAR
420 -
Parâmetro Valor
Épocas 50
Parâmetro Valor
Épocas 50
TABELA 2 Desempenho do conjunto de testes da memória de longo e curto prazo não ocorre. Como resultado, a convergência de ambas as perdas para
rede na previsão de preços próximo de zero indica que o treinamento e aprendizagem da rede neural
Valor
foram executadas corretamente.
Tipo de erro
Ed;crítico
t ¼ Ep;crítico
t ð3Þ
Pt ÿ ÿt
Ed;t curto ¼ Ep; tcurto 1+ÿ ð4Þ
ÿ ÿt ÿ
10
RE ¼ min ÿ ; ð6Þ
ÿ logði + 1Þ ÿ
8 1 ÿ 0,5
ÿt Ediff se Dmin < Edifft
:
T
ÿt, ÿ são coeficientes positivos e dependentes do cliente, h min X
PtEdt
þ ÿt;cu eu
ð13Þ
enquanto ÿt é a preferência do cliente e ÿ é a preferência predeterminada ( t¼1 )
constante. ÿt tem uma relação inversa com a quantidade de
esforço do cliente para reduzir a demanda de eletricidade. Ele indica o onde:
inclinação dos clientes para reduzir a demanda para melhorar seus
nível de satisfação [38]. Ed.
t ¼ Ed;crítico
t þ Ed;curto
t ð14Þ
Por outro lado, o custo da insatisfação do operador é
definido da seguinte forma:
Também definimos a função objetivo do operador como:
T
ÿt ÿEdiff ÿ Ep;curto :
t t se Dmáx > Edifft
ÿ2 ; ð9Þ ðPt ÿ ÿtÞEd t ÿ ÿt;op ð15Þ
ÿt;op ¼ h máx X eu
onde ÿt também é positivo e indica o coeficiente de onde os preços de varejo são selecionados entre os seguintes permitidos
faixa:
flexibilidade, que é a preferência do operador em aumentar os preços.
Se a diferença entre o consumo previsto e o desejado
for inferior a Dmin em (7) ou superior a Dmax em (9), k1ÿt;min < Pt < k2ÿt;max ; k2 > k1 ÿ 1 ð16Þ
que são definidos a seguir, o custo do cliente ou
a insatisfação do operador é considerada zero. Nós definimos Dmin k1 é o mínimo e k2 é o coeficiente de preço máximo.
e Dmáx da seguinte forma: Estes dois parâmetros podem ser personalizados dependendo do
preferência do operador e satisfação do cliente.
Dmin ¼ ÿminEp; curto
t ð10Þ Para obter uma função global para o objetivo, os dois
funções objetivas do cliente e do operador (13) e
Dmáx = ÿmaxEp;curto
t ð11Þ (15) são adicionados usando um fator de impacto. Nosso objetivo é maximizar
esta função conforme descrito a seguir:
onde 0 < ÿmin < ÿmax ÿ 1. Esses coeficientes são
determinado com base nos níveis mínimo e máximo de T
insatisfação. P máx. ÿðPt ÿ ÿtÞEd _ t ÿ ÿt;op
ÿh ÿÿ ÿ
t¼1
ð17Þ
Ao colocar os valores mínimo e máximo de (4) em (8),
ÿð1 ÿ ÿÞ PtEd
o Ediff t , então o custo do cliente
estará entre 0 e Ep; curto t
t þ ÿt;cu io
insatisfação de acordo com (7), será de 0 a max{ÿt,cu}
que: onde ÿ é o fator de impacto, que representa a importância
de cada cliente ou operador com valor entre zero e
ÿt um e pode ser definido como opcional. Este fator desempenha um papel significativo
máx ÿt;cu ÿ ÿ ¼ 2 curto
t t ÿ ð12Þ
ÿ2 þ ÿ Ep;curto
na determinação dos preços. Quanto mais próximo o fator de impacto estiver de um,
maior será o lucro da operadora e a perda do cliente. Então,
Com base nos valores especificados acima, o custo da operadora a função objetivo em cada iteração do algoritmo é
a insatisfação (9) é definida como estando na faixa de curtot ÿ2 considerada uma função de recompensa. Então, de acordo com (17), o
ÿt a 0, portanto atua contra o custo da insatisfação do cliente. a recompensa no momento t é calculada da seguinte forma:
Machine Translated by Google
MOUSAVI ZIABARI E PASDAR
- 425
Conforme descrito na Seção 5.1, definimos as duas funções de custo para convergir Bt;cu para zero. O mesmo processo se aplica a
de insatisfação de clientes e operadores no objetivo o coeficiente de flexibilidade do operador (ÿt), portanto aumenta ou diminui
função para considerar o benefício de ambos. Nessas funções, conforme (22) até Br chega perto de um e o
principal
são utilizados dois coeficientes importantes, chamados preços determinados aproximam-se dos preços reais no fator de impacto
coeficientes de flexibilidade ou coeficientes de satisfação. de 0,5.
Estes coeficientes são ÿt para o cliente e ÿt para o operador. Em
[20] e trabalhos anteriores relacionados, valores desses coeficientes
Algoritmo 2 Algoritmo de precificação proposto
foram hipotetizados, mas neste estudo, ganhamos seu ideal
valor considerando os valores iniciais para eles. Isto é conseguido por
aplicar feedback dos preços definidos e dos benefícios percebidos
sobre esses coeficientes. Para obter o valor ideal de
os coeficientes de satisfação, assumimos que o valor real atual
os preços são ótimos, portanto, no fator de impacto de 0,5, esses
coeficientes são definidos de tal forma que os preços de varejo que
determinar aproximar-se dos preços reais de varejo. No fim de
cada iteração do algoritmo, o benefício médio do cliente
e o índice médio de benefício do operador será calculado, por tempo
slot t, com fator de impacto de 0,5, que são definidos como
segue respectivamente:
T
1
Bt; cu ¼ T X Préal ÿ Ponto ð19Þ
ÿ t ÿ
t¼1
¼ PT t¼1ðPt ÿ ÿtÞ
irmão ð20Þ
principal
PT t¼1 ÿ Préal
t ÿÿt _
ÿ
8
ÿt ÿ m1em1Bt;cu ; se Bt;cu > ÿ:
ÿtþ1 ¼ ð21Þ
ÿt + m1eÿm1Bt;cu ; se Bt;cu < ÿÿ:
><
Em resumo, nosso algoritmo de precificação será definido
de outra forma:
>: ÿt;
como Algoritmo 2. Após a convergência e determinação do valor ideal
coeficientes, se o operador quiser aumentar ou diminuir os preços, pode
8 m2 Br ð t;opÿ1Þ; ÿ 1 > ÿ:
ÿt ÿ m2e se irmão
principal
ver os lucros e perdas de seus clientes e de si mesmo, alterando
ð22Þ
o fator de impacto e a execução do algoritmo, desta vez
ÿtþ1 ¼ >><
ðt ;opÿ1Þ; ÿtÿm2 Br
+ m2e se irmão ÿ 1 < ÿÿ:
t;op com coeficientes de flexibilidade constantes e ótimos.
>>:
ÿt; caso contrário:
foi escolhido com base no intervalo de dados de entrada. Além disso, m1, m2 e ÿ
foram personalizados em termos de como o algoritmo converge. ÿ0
e ÿ0 são os valores iniciais que são atualizados ao final de cada
iteração do algoritmo de precificação de acordo com o feedback
descrito no sistema proposto. Se o número apropriado
de iterações é atribuído, esses valores convergirão para dois
valores específicos antes do final do algoritmo, e nosso objetivo é
para encontrar esses valores. Além disso, ÿ foi alcançado usando restrições
explicado em [40].
A magnitude das mudanças no valor Q, que representa
a convergência ou divergência do algoritmo implementado;
é mostrado na Figura 9. É claro que esses valores convergem para
zero, então nosso algoritmo atingiu seu valor ideal. O
a convergência do algoritmo também é determinada pelo
convergência da recompensa. Conforme mostrado na Figura 10, esta recompensa
inicialmente diminuiu devido à seleção aleatória de ações, mas
aumentou de forma constante e convergiu para um valor constante. O
FIGURA E 9 Mudança absoluta dos valores Q
razão para o sinal negativo das recompensas é por causa do alvo
valor e a forma como ele é definido.
Após verificar a convergência do algoritmo Q-learning e garantir a
correcção do seu funcionamento, é
necessário investigar a convergência do cliente e
coeficientes de insatisfação do operador (ÿt e ÿt). Eles são dois
partes importantes que devem ser alcançadas na implementação
do método proposto. Ao atribuir três iniciais diferentes
valores na execução do algoritmo, esses coeficientes
convergiu precisamente para certos valores, conforme mostrado nas Figuras 11
e 12. De acordo com essas figuras, os ÿ e ÿ finais são 35 e
60 em média, respectivamente, que serão utilizados nas próximas etapas.
Até agora, identificamos com precisão os coeficientes de insatisfação e
provamos a convergência do algoritmo. Na próxima
etapa, esses coeficientes são fixados no algoritmo e mudamos
o fator de impacto e obter os preços fixados em 51 intervalos de tempo. O FIGURA E 1 0 Convergência da recompensa total para a melhor política
foram representadas médias desses preços em vários fatores de impacto,
conforme Figura 13. Percebe-se que com o aumento do impacto
fator, os preços subiram, o que indica que a operadora simulado em relação a (19) e (20), respectivamente. Seus valores
o lucro tornou-se mais importante. O ponto vermelho também é o foram obtidos conforme Figura 14. De acordo com este gráfico, pode-se
média dos preços reais de varejo no mesmo intervalo de tempo, o que é tão concluiu que ao atribuir mais importância ao operador
próximo da média dos preços apurados no fator de impacto usando o fator de impacto, o índice de benefícios da operadora tornou-se
de 0,5. Outro ponto considerável é que ao diminuir o maior, mas, pelo contrário, o benefício para o cliente degradou-se.
fator de impacto próximo a zero, a média dos preços determinados Para comparar a velocidade do nosso sistema proposto, o
fica próximo de k1 multiplicado pela média do atacado método apresentado no estudo [20] foi simulado com base em seu
preços, que é mostrado como k1 ÿ ÿ , e ao aumentá-lo para 1 dados relatados. Além disso, implementamos um método combinado de
chega a k2 ÿ ÿ . Portanto, quanto mais direcionado for o cliente Q-learning com uma rede neural profunda, conhecida como Deep Q
lucro, mais próximo o preço definido estiver do preço de atacado e o Rede (DQN) [41]. Medimos o tempo de execução de
diminuir o lucro do operador. esses algoritmos em 105 iterações e obteve o número de
Ao fixar preços em função de diferentes factores de impacto, é necessário iterações necessárias para sua convergência, conforme mostrado na Tabela 7.
para determinar o lucro ou prejuízo do cliente e da operadora De acordo com esta tabela, o tempo de execução do Q-learning
em cada um desses fatores, e através disso, o operador pode apresentado na Seção 5 leva cerca de 4 minutos para ser executado no servidor
perceber com precisão a gama de flexibilidade para alterar os preços. Para do Google Collaboratory [42] para um cliente e 51 vezes
por esse motivo, o benefício do cliente e a relação benefício do operador são slots. A Deep Q Network substitui a matriz de Q por um
Machine Translated by Google
MOUSAVI ZIABARI E PASDAR - 427
para o consumidor e os comparamos com os valores reais, e então e a previsibilidade do comportamento será demonstrada pela investigação de
investigamos a utilidade e justiça desses preços. seu efeito no desempenho do LSTM.
e do operador da rede. Assim, aplicamos duas redes LSTM para prever a confirmar que não há conflitos de interesse conhecidos associados a esta
procura de energia e os preços grossistas na rede eléctrica dos EUA e publicação e que não houve apoio financeiro significativo para este trabalho
utilizámos os seus resultados para a fixação de preços. Assim, desenhámos que pudesse ter influenciado o seu resultado.
uma política de preços para abordar uma questão importante no mercado
eléctrico, nomeadamente o controlo e gestão do consumo.
PERMISSÃO PARA REPRODUZIR MATERIAL DE OUTRAS FONTES
Os benefícios do nosso sistema proposto podem ser categorizados em Nenhuma.
duas partes: (1) Alta flexibilidade devido à modelagem interativa de cada tipo
de cliente e operador de rede, e levando em conta seus fatores de satisfação,
(2) Preços mais precisos com um tempo de execução aceitável devido à DECLARAÇÃO DE DISPONIBILIDADE DE DADOS
aplicação de um bloco de previsão separado. Os beneficiários do sistema Os dados que apoiam as conclusões deste estudo estão disponíveis no
proposto são o cliente, o mercado, o prestador de serviço, a operadora e a EIA_ElectricityÿPriceÿDataset em https://github.com/Zahra MousaviZiabari/
microrrede. A posição do sistema está no mercado e na microrrede, em que EIA_ElectricityÿPriceÿDataset. Esses dados foram derivados dos seguintes
o mercado está incluído ou compreende a microrrede. O prestador de recursos disponíveis em domínio público: https://www.eia.gov/electricity/data/
serviço (SP) ou operador (OP) utiliza este sistema sem intervenção direta em browser/
seu processo. Eles fornecem a quantidade de energia adquirida, seu preço e
a demanda que observaram dos clientes em um cronograma específico. ORCID
Por exemplo, estes dados e a sua informação complementar são fornecidos orcid.org/0000-0003-0397-8648
em [43] relativamente ao mercado eléctrico PJM.
Na seção de resultados, foi demonstrado que os coeficientes de REFERÊNCIAS
satisfação do cliente e do operador podem ser determinados e otimizados
1. Bahrami, S., Wong, VW, Huang, J.: Um algoritmo de aprendizagem online para
com um ciclo de feedback. O SP ou OP pode configurar o sistema proposto resposta à demanda em redes inteligentes. IEEE Trans. Rede Inteligente.
com base em valores reais ótimos que são adquiridos 9(5), 4712–4725 (2017)
Machine Translated by Google
MOUSAVI ZIABARI E PASDAR - 429
2. Jia, L., Tong, L.: Preços dinâmicos e gestão de energia distribuída para resposta à procura. 24. Wen, Z., O'Neill, D., Maei, H.: Resposta ideal à demanda usando aprendizagem por reforço
IEEE Trans. Rede Inteligente. 7(2), 1128–1136 (2016) baseada em dispositivo. IEEE Trans. Rede Inteligente. 6(5), 2312–2324 (2015)
3. Khajavi, P., Abniki, H., Arani, A.: O papel dos programas de resposta à procura baseados em
incentivos na rede inteligente. In: 10ª Conferência Internacional sobre Meio Ambiente e 25. Kim, B.ÿG., et al.: Preços dinâmicos para redes inteligentes com aprendizagem por reforço. In:
Engenharia Elétrica. IEEE, Roma (2011) Conferência IEEE sobre Workshops de Comunicação por Computador de 2014, pp.
4. Khezeli, K., Bitar, E.: Aprendizagem sensível ao risco e preços para resposta à procura. IEEE INFOCOM WKSHPS (2014)
Trans. Rede Inteligente. 9(6), 6000–6007 (2017) 26. Zhong, S., et al.: Estrutura de aprendizagem por reforço profundo para resposta dinâmica à
5. Li, N., Chen, L., Low, SH: Resposta ótima à demanda baseada na maximização da utilidade demanda de preços de aquecimento elétrico regenerativo. Apl. Energia. 288, 116623 (2021)
em redes de energia. In: Reunião Geral da IEEE Power and Energy Society. IEEE, Detroit
(2011) 27. Xie, et al .: Algoritmo de planejamento de trajetória de veículos aéreos não tripulados baseado
6. Qian, M., Fanlin, M., Xiao-Jun, Z.: Preços dinâmicos ideais para redes inteligentes com clientes em aprendizagem por reforço profundo em ambientes dinâmicos e de grande escala.
mistos com e sem medidores inteligentes. J. Sistema de energia moderno. Energia Limpa Acesso IEEE. 9, 24884–24900 (2021)
6(6), 1244–1254 (2018)
7. Tang, Q., et al.: Um algoritmo de precificação dinâmica em tempo real para redes inteligentes eletricidade/
Is(
A
d
2 com fornecedores de energia instáveis e usuários mal-intencionados. Coisas da Internet
IEEE J. 3(4), 554–562 (2015)
8. Sharifi, R., Fathi, SH, Vahidinasab, V.: Uma revisão sobre ferramentas do lado da demanda
no mercado de eletricidade. Renovar. Sustentar. Energia Rev. 72, 565–572 (2017)
9. Al-Rubaye, S., et al.: O mecanismo dinâmico de preços nas comunicações de redes
inteligentes está a tomar forma. Comun. IEEE. Vamos. 22(7), 1350–1353 (2018)
10. Hassan, M., Rehmani, MH, Chen, J.: Preços dinâmicos diferencialmente privados para resposta
eficiente à demanda em redes inteligentes. In: ICC 2020ÿ2020 Conferência Internacional
IEEE sobre Comunicações (ICC), pp.
IEEE, Dublin (2020)
11. Märkle-Huß, J., Feuerriegel, S., Neumann, D.: Resposta à procura em grande escala e suas
implicações para os preços à vista, carga e políticas: percepções do mercado eléctrico
alemão-austríaco. Apl. Energia. 210, 1290–1298 (2018)
12. Weron, R.: Previsão do preço da eletricidade: uma revisão do estado da arte com um olhar
para o futuro. Internacional J. Previsão. 30(4), 1030–1081 (2014)
13. Ferdous, J., et al.: Preço dinâmico ideal para negociação entre utilidade do usuário e lucro do
operador na rede inteligente. IEEE Trans. Sist. Homem Cibernet. Sist. 50 (2), 455–467
(2017)
14. Muralitharan, K., Sakthivel, R., Vishnuvarthan, R .: Abordagem de otimização baseada em
redes neurais para previsão de demanda de energia em redes inteligentes.
Neurocomputação. 273, 199–208 (2018)
15. Yin, P.ÿY., Chao, C.ÿH.: Seleção automática dos preditores de demanda de energia mais
adequados com base na otimização do enxame cibernético e na aprendizagem por reforço.
Apl. Computação suave. 71, 152–164 (2018)
16. Christ, S.: Operacionalizando Modelos de Preços Dinâmicos: Previsão de Demanda Bayesiana
e Modelagem de Escolha do Cliente para Operadoras de Baixo Custo.
29. Comissão Federal Reguladora de Energia. (2020). https://www.ferc.gov/marketÿassessments/
mktÿelectric/overview.asp _ 30. Gers, FA, Schmidhuber,
J., Cummins, F.: Aprendendo a esquecer: previsão contínua com LSTM. Computação neural.
12(10), 2451–2471 (2000)
31. Gers, FA, Schraudolph, NN, Schmidhuber, J.: Aprendendo tempo preciso com redes recorrentes
LSTM. J. Mach. Aprender. Res. 3 (agosto), 115–143 (2002)
38. Yu, M., Hong, SH: Resposta à procura baseada em incentivos considerando o mercado
hierárquico de electricidade: uma abordagem de jogo de Stackelberg. Apl. Energia 203,
267–279 (2017)
39. Miller, M., Alberini, A.: Sensibilidade da elasticidade-preço da procura à agregação,
Springer Science & Business Media, Alemanha (2011) heterogeneidade não observada, tendências de preços e endogeneidade de preços:
17. Graves, A.: Memória Longa de Curto Prazo: Rotulagem de Sequência Supervisionada com evidências de US Data, Energy Policy, 97, 235–249 (2016)
Redes Neurais Recorrentes, pp. Springer, Berlim (2012) 40. Chen, J., Yang, B., Guan, X .: Programação ideal de resposta à demanda com abordagem de
18. Marino, DL, Amarasinghe, K., Manic, M.: Construindo previsão de carga de energia usando jogo stackelberg sob incerteza de carga para rede inteligente. In: Terceira Conferência
redes neurais profundas. In: IECON 2016-42ª Conferência Anual da IEEE Industrial Internacional IEEE sobre Comunicações de Redes Inteligentes de 2012, pp. SmartGridComm
21. Ghasemkhani, A., Yang, L., Preços baseados em aprendizagem por reforço para resposta à
demanda. In: Conferência Internacional IEEE sobre Workshops de Comunicação Como citar este artigo: Mousavi Ziabari, Z., Pasdar, A.:
(Workshops ICC), pp. (2018) Predição usando redes de memória de longo e curto prazo
22. Ruelens, F., et al.: Resposta à demanda residencial de cargas controladas termostaticamente a serviço do projeto de uma nova política de preços para
usando aprendizagem por reforço em lote. IEEE Trans. Rede Inteligente. 8(5), 2149–2159
redes inteligentes. Rede Inteligente IET. 5(6), 417–
(2016)
23. Mocanu, E., et al.: Otimização energética de edifícios on-line usando aprendizagem por
429 (2022). https://doi.org/10.1049/stg2.12057
reforço profundo. IEEE Trans. Rede Inteligente. 10(4), 3698–3708 (2018)