Você está na página 1de 64

Universidade Federal de Pernambuco

Centro de Tecnologia e Geociências


Departamento de Energia Nuclear

Disciplina:
EN248 Projeto de Graduação (TCC)
Responsável pela Disciplina:
Curso de Graduação: Prof. Alexandre Costa
Engenharia de Energia Período:
2019.2
Local e Data:
Recife, 13 de dezembro de 2019

Monografia

Título: Intercomparação de diferentes arquiteturas de redes neurais artificiais aplicadas à


previsão de potência de saída de centrais eólicas

________________________________________________________________
Aluno: Renan Soares Siqueira Costa; Matrícula: 086.735.254-03

________________________________________________________________
Orientador: Alexandre Costa, professor do Departamento de Energia Nuclear, Centro de
Tecnologia e Geociências, Universidade Federal de Pernambuco
AGRADECIMENTOS

Esse trabalho foi feito em conjunto com todos que me apoiaram, todos que
estiveram ao meu lado nos melhores e piores momentos da minha vida. Em especial
à minha mãe, Wilza, e aos meus tios Wallace e Wilde.

2
RESUMO

O uso do aprendizado de máquina, machine learning, vem sendo amplamente


utilizado na solução de diversos problemas, incluindo a previsão a curto prazo
(algumas horas a frente) da potência eólica com vistas à compra e venda no mercado
diário de energia, programação da manutenção de centrais eólicas e no despacho de
energia por parte do operador do sistema elétrico. Nesse contexto, esse trabalho
explora as questões positivas e negativas das diferentes arquiteturas de redes neurais
aplicadas à previsão da potência de saída de centrais eólicas em diferentes regiões
do nordeste brasileiro. As arquiteturas aqui tratadas são a short-term memory (LSTM),
multilayer perceptron (MLP) e convolutional neural networks (CNN). Ainda, as redes
neurais serão comparadas com a regressão multilinear (MLR) para verificar se o
esforço computacional compensa. As centrais eólicas estudadas então localizadas em
regiões com diferentes regimes de vento, submetidas a diferentes complexidades de
orografia e a diferentes distâncias da costa. A variedade de condições permite um
estudo detalhado sobre a performance de cada arquitetura nas diferentes dinâmicas
das séries temporais. Para realizar esse estudo, quatro diferentes métricas foram
utilizadas para medir a capacidade de reprodução sobre o sinal observado, sendo tais
características o comportamento médio, variação de amplitude e estruturas de fase e
frequência.

Palavras-chave: Previsão a curto prazo; redes neurais recorrentes; redes neurais


convolucionais; perceptron múltiplas camadas.

3
ABSTRACT

The use of machine learning is increasingly applied to solve several problems,


including short-term (some hours ahead) wind power prediction oriented to the spot
market, wind farms maintenance scheduling and wind farms dispatch to the
transmission system operator. In this context, this work explores the positive and
negative issues regarding distinct neural network architectures applied for short-term
prediction of the power output from several wind farms operating in the Northeast
Region of Brazil. The addressed architectures are long short-term memory (LSTM),
multilayer perceptron (MLP), convolutional neural networks (CNN). Plus, the neural
networks will be compared with Multilinear Regression (MLR) to verify whether the
computational complexity worth. The wind farms are located under different wind
regimes, submitted to different orographic complexities and different distances to the
coastline. Such variety of conditions permits a sensitivity study about the dependence
of model performance on the dynamics of the wind power time series. In order to
perform this study, four different metrics assess the model capabilities of reproducing
some characteristics of the (target) observed signal, being these characteristics the
mean value, amplitude of variations and phase and frequency structures.

Keywords: Short-term Wind Power Forecasting; Recurrent Neural Network;


Convolutional Neural Network; Back Propagation; Multilayer Perceptron.

4
LISTA DE SIGLAS

ANN Rede Neural Artificial (ARTIFICIAL NEURAL NETWORK)


BEN BALANÇO ENERGÉTICO NACIONAL
EPE EMPRESA DE PESQUISAS ENERGÉTICAS
LSTM LONG SHORT-TERM MEMORY
MLP Perceptron Múltipla Camada (MULTILAYER PERCEPTRON)
MLR MULTILINEAR REGRESSION
ONS OPERADOR NACIONAL DO SISTEMA ELÉTRICO
RMSD Raiz Quadrada do Desvio Quadrático Médio (ROOT-MEAN-
SQUARE DEVIATION)
RNN Rede Neural Recorrente (RECURRENT NEURAL NETWORK)
SIN SISTEMA INTERLIGADO NACIONAL
STD Desvio Padrão (STANDARD DEVIATION)

5
LISTA DE FIGURAS

FIGURA 1 - CRESCIMENTO DA ENERGIA EÓLICA NO BRASIL. ........................................................................ 10


FIGURA 2 - ESQUEMA DA CLASSIFICAÇÃO DA PREVISÃO EÓLICA. ................................................................. 13
FIGURA 3 - GRÁFICO REPRESENTATIVO DA EVOLUÇÃO DOS ERROS ASSOSSIADOS ÀS PREVISÕES ................. 14
FIGURA 4 - DIAGRAMA DE TAYLOR. ........................................................................................................... 15
FIGURA 5 - REPRESENTAÇÃO EM BLOCOS DO SISTEMA NERVOSO HUMANO. ................................................ 16
FIGURA 6 - REPRESENTAÇÃO DE UM NEURÔNIO BIOLÓGICO........................................................................ 17
FIGURA 7 - MODELO DE UM NEURÔNIO. ..................................................................................................... 19
FIGURA 8 - DADOS ANÔMALOS NUMA SÉRIE TEMPORAL. ............................................................................. 25
FIGURA 9 - EXEMPLO DE FILTROS APLICADADOS À UMA SÉRIE TEMPORAL.................................................... 30
FIGURA 10 - REPRESENTAÇÃO DE UMA REDE NEURAL DO TIPO LSTM. ....................................................... 31
FIGURA 11 - LOCALIZAÇÃO APROXIMADA DAS CENTRAIS EM ESTUDO........................................................... 34
FIGURA 12 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO À CORRELAÇÃO DE PEARSON ............................................................ 36
FIGURA 13 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO RMSD. ....................................................................................... 37
FIGURA 14 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 38
FIGURA 15 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 1 APLICADAS À CENTRAL G1. ......................... 39
FIGURA 16 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO À CORRELAÇÃO DE PEARSON. ........................................................... 40
FIGURA 17 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO RMSD. ....................................................................................... 41
FIGURA 18 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G1 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 42
FIGURA 19 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 2 APLICADAS À CENTRAL G1. ......................... 43
FIGURA 20 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 44
FIGURA 21 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO RMSD. ....................................................................................... 45
FIGURA 22 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 46
FIGURA 23 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 1 APLICADAS À CENTRAL G2. ......................... 47
FIGURA 24 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO À CORRELAÇÃO DE PEARSON............................................................. 48
FIGURA 25 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO RMSD. ....................................................................................... 49
FIGURA 26 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G2 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 50

6
FIGURA 27 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 2 APLICADAS À CENTRAL G2. ......................... 51
FIGURA 28 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO À CORRELAÇÃO DE PEARSON. ........................................................... 52
FIGURA 29 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO RMSD. ....................................................................................... 53
FIGURA 30 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 54
FIGURA 31 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 1 APLICADAS À CENTRAL G3. ......................... 55
FIGURA 32 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO À CORRELAÇÃO DE PEARSON. ........................................................... 56
FIGURA 33 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO RMSD. ....................................................................................... 57
FIGURA 34 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 58
FIGURA 35 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 2 APLICADAS À CENTRAL G3. ......................... 59

7
LISTA DE TABELAS

TABELA 1 - APLICAÇÕES COMUNS PARA DIFERENTES ARQUITETURAS DE REDES NEURAIS. ........................... 21


TABELA 2 - INFORMAÇÕES SOBRE OS CONJUNTOS DE DADOS UTILIZADOS ................................................... 35
TABELA 3 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 1 PARA A CENTRAL G1 ..................... 37
TABELA 4 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 1 PARA A CENTRAL G1 .............................. 38
TABELA 5 - DESEMPENHO SOBRE A DESVIO PADRÃO DAS ARQUITETURAS 1 PARA A CENTRAL G1 ................. 39
TABELA 6 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 2 PARA A CENTRAL G1 ..................... 40
TABELA 7 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 2 PARA A CENTRAL G1. ............................. 41
TABELA 8 - DESEMPENHO SOBRE O DESVIO PADRÃO DAS ARQUITETURAS 2 PARA A CENTRAL G1 ................. 42
TABELA 9 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 1 PARA A CENTRAL G2 ..................... 44
TABELA 10 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 1 PARA A CENTRAL G2 ............................ 45
TABELA 11 - DESEMPENHO SOBRE O DESVIO PADRÃO DAS ARQUITETURAS 1 PARA A CENTRAL G2 ............... 46
TABELA 12 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 2 PARA A CENTRAL G2 ................... 48
TABELA 13 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 2 PARA A CENTRAL G2 ............................ 49
TABELA 14 - DESEMPENHO SOBRE O DESVIO PADRÃO DAS ARQUITETURAS 2 PARA A CENTRAL G2. .............. 50
TABELA 15 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 1 PARA A CENTRAL G3. .................. 53
TABELA 16 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 1 PARA A CENTRAL G3. ........................... 54
TABELA 17 - DESEMPENHO SOBRE DESVIO PADRÃO DAS ARQUITETURAS 1 PARA A CENTRAL G3. ................. 55
TABELA 18 - DESEMPENHO SOBRE A CORRELAÇÃO DAS ARQUITETURAS 2 PARA A CENTRAL G3. .................. 56
TABELA 19 - DESEMPENHO SOBRE O RMSD DAS ARQUITETURAS 2 PARA A CENTRAL G3. ........................... 57
TABELA 20 - DESEMPENHO SOBRE O DESVIO PADRÃO DAS ARQUITETURAS 2 PARA A CENTRAL G3. .............. 58

8
SUMÁRIO

AGRADECIMENTOS .................................................................................................. 2

RESUMO .................................................................................................................... 3

1 INTRODUÇÃO ....................................................................................................... 10

2 CONCEITOS PRELIMINARES .............................................................................. 12

2.1 SÉRIES TEMPORAIS ..................................................................................... 12

2.2 PREVISÃO EÓLICA ........................................................................................ 12

2.3 DIAGRAMA DE TAYLOR ................................................................................ 14

2.4 REDES NEURAIS ARTIFICIAIS ...................................................................... 16

2.5 ARQUITETURAS ............................................................................................. 20

3 REVISÃO HISTÓRICA E ENUNCIADO DO PROBLEMA ...................................... 22

4 METODOLOGIA..................................................................................................... 24

4.1 GARANTIA DE QUALIDADE DOS DADOS .................................................... 24

4.2 PERSISTÊNCIA .............................................................................................. 25

4.2.1 MELHORA SOBRE A PERSISTÊNCIA ................................................... 26

4.3 MODELOS REGRESSIVOS ............................................................................ 26

4.3.1 Modelos autorregressivos ......................................................................... 27

4.3.2 Redes Neurais Artificiais ........................................................................... 28

5 ESTUDO DE CASO ............................................................................................... 34

5.1 DADOS OBSERVACONAIS ............................................................................ 34

5.2 RESULTADOS ................................................................................................ 35

5.1.1 RESULTADOS PARA A CENTRAL G1 .................................................... 35

5.1.2 RESULTADOS PARA A CENTRAL G2 .................................................... 43

5.1.3 RESULTADOS PARA A CENTRAL G3 .................................................... 51

6 CONCLUSÃO E PERSPECTIVAS ......................................................................... 60

9
1 INTRODUÇÃO

De acordo com Balanço Energético Nacional de 2019, somente em 2018 a


potência instalada subiu de 12,3 GW para 14,4 GW, que significa um acréscimo de
2,1 GW de potência instalada, representando 7,6% da matriz elétrica brasileira. A
geração no ano de 2018 foi de 48,48 GWh, que totaliza 7,44% da geração injetada no
Sistema Interligado Nacional (SIN) (EPE, 2018).

Figura 1 - Crescimento da energia eólica no Brasil.

Fonte: Balanço Energético Nacional 2019 (Relatório Síntese)

O órgão responsável pela coordenação e controle da operação das instalações


de geração e transmissão da energia elétrica no SIN é o Operador Nacional do
Sistema Elétrico (ONS). Dentre suas incumbências, está a de gerenciar o despacho
da produção de energia das fornecedoras de modo a manter a estabilidade da rede.
Por se tratar de uma fonte renovável, a produção eólica tem prioridade no
despacho. Porém, com a crescente inserção de uma fonte intermitente no SIN, o
gerenciamento da rede elétrica torna-se uma tarefa árdua e faz-se necessário estimar
a futura produção de energia a fim de evitar sobrecarga do sistema, bem como o déficit
de fornecimento. Para a realização desta tarefa, é de extrema importância manter-se
informado, com o maior nível de acurácia possível, sobre o comportamento da
produção energética de modo a ter mais tempo para conectar outras fontes de

10
energia, que, devido a suas inércias, podem demorar horas para chegarem ao nível
ideal de produção.
Nesse contexto, o desenvolvimento de bons modelos de previsão torna-se
indispensável para uma melhor gestão dos recursos energéticos que
consequentemente garantem uma maior estabilidade do Sistema Interligado Nacional.
Como os métodos estatísticos possuem melhor desempenho para previsões a curto
prazo (COSTA, 2005), este trabalho se dedicará a explorar as redes neurais artificiais
(HAYKIN, 2001).
A construção de uma rede neural exige a escolha de diversos parâmetros
(pesos sinápticos e bias) e hiperparâmetros (quantidade de camadas ocultas, taxa de
aprendizado, quantidade de neurônios, funções de ativação, etc.). Para cada
aplicação e cada conjunto de dados, é necessário o uso de processos empíricos para
se chegar a uma solução ótima para o problema. Por isso, em geral, a solução dos
problemas passa pelo processo cíclico de imaginar uma possível configuração,
programá-la e testá-la. Esse processo se repete até que uma solução satisfatória seja
alcançada.
Serão comparados os desempenhos das redes neurais long short-term memory
(LSTM), multilayer perceptron (MLP) e convolutional neural networks (CNN).

11
2 CONCEITOS PRELIMINARES

Nesta seção serão descritos alguns conceitos fundamentais para uma melhor
compreensão deste trabalho de conclusão de curso.

2.1 SÉRIES TEMPORAIS

Série temporal é um conjunto de dados ordenados de forma sequencial, ao


longo do tempo, cujos métodos de análise constituem uma grande área da estatística
que tem como objetivo compreender fenômenos dependentes do tempo para o
entendimento do comportamento, classificação, detecção de anomalias e previsão.
Matematicamente, seja 𝑇 = {𝑡|𝑡1 < 𝑡 < 𝑡2 } o conjunto de instantes de tempo, é dita
uma série temporal o conjunto {𝑋𝑡 | 𝑡 ∈ 𝑇}.
Uma série temporal é dita contínua quando sua observação é feita
continuamente ao longo do tempo (e.g. anemógrafos baseados em chart recorders
eletromecânicos) e é dita discreta quando as observações são obtidas em intervalos
discretos e equidistantes (e.g. anemômetros digitais) (CHATFIELD, 2003). Ainda com
relação às classificações, caso seja perfeitamente possível determinar seus valores
sem erros, a série é dita determinística e, caso existam componentes aleatórios
envolvidos, a série é dita estocástica.

2.2 PREVISÃO EÓLICA

A previsão eólica pode ser dividida em dois grandes grupos: a previsão espacial
e a previsão temporal, como mostra a figura 2. O primeiro grupo refere-se à redução
de modelagens microescalares (eventos atmosféricos com escalas da ordem de
grandeza de 1 m a 1 km) da atmosfera em previsões mesoescalares (escalas da
ordem de grandeza de 1 km a 100 km) ou macroescalares (escalas da ordem de
grandeza maiores que 100 km), enquanto o segundo grupo tem como objetivo
estimar os valores futuros de variáveis temporais relacionadas ao campo da eólica,
tais como velocidade do vento e potência gerada (COSTA, 2005). A previsão temporal
pode ser subdividida em três partes:

12
• Previsão de curtíssimo prazo, cujo horizonte de previsão varia entre
segundos até poucas horas à frente. A principal aplicação está em sistemas
de controles de aerogeradores;
• Previsão de curto prazo, cujo horizonte de previsão varia de horas até
alguns dias. Tem como principais aplicações a compra e venda de energia
no mercado diário e a operação do sistema elétrico;
• Previsão de médio e longo prazo, com horizontes maiores do que alguns
dias. Nesta área os modelos meteorológicos ganham mais espaço em
relação aos modelos estatísticos. Os principais objetivos são a
programação de manutenção de aerogeradores e a estimativa de produção
de centrais eólicas.

Figura 2 - Esquema da classificação da previsão eólica.

Previsão eólica

Previsão espacial Previsão Temporal

Curtíssimo prazo Curto prazo Longo prazo

Fonte: O Autor (2019).

Ainda com relação à previsão eólica, os modelos podem ser divididos em dois
grandes grupos: os matemáticos/estatísticos, para os quais se valem unicamente de
ferramentas matemáticas, não considerando as dimensões das grandezas
envolvidas, e os modelos físicos/meteorológicos que utilizam as leis de conservação
da física e teorias meteorológicas para a resolução dos problemas.
A figura 3 representa o gráfico hipotético que descreve o erro de cada um dos
grupos em função do horizonte de previsão. Para horizontes curtos, os modelos
matemáticos/estatísticos (representado pela curva azul) se mostram melhores,
entretanto, para horizontes mais longos, os modelos físicos/meteorológicos mostram-

13
se mais adequados.

Figura 3 - Gráfico representativo da evolução dos erros assossiados às previsões

Fonte: O Autor (2019).

2.3 DIAGRAMA DE TAYLOR

O diagrama de Taylor é uma ferramenta objetiva para visualização do


desempenho de um modelo ou conjunto de modelos, em relação a uma observação,
no qual é possível intercompará-los de um modo simples. O diagrama é capaz de
representar quatro estatísticos em um único gráfico: correlação como coordenada
radial, o desvio padrão e a raiz quadrática do erro quadrático médio (RMSD) como
coordenadas azimutais e o skill score (TAYLOR, 2001).
O coeficiente de correlação de Pearson entre 𝑓 e 𝑟 é definido como:

1 ∑𝑁 ̅
𝑛=1(𝑓𝑛 −𝑓 )(𝑟𝑛 −𝑟̅ )
𝜌=𝑁 (1)
𝜎𝑓 𝜎𝑟

̅ 𝑟̅ são os valores médios e 𝜎𝑓 e 𝜎𝑟 são, respectivamente, o desvio


Em que 𝑓 e
padrão de 𝑓 e 𝑟.
O skill score (SS4) é determinado a partir da equação (2):

14
(1 + 𝑅)4
𝑆𝑆4 = (2)
1
4 (𝜎̂ − )
𝜎̂

Em que R é a correlação entre a saída do modelo e os dados observacionais


do período de validação e 𝜎̂ é o desvio padrão da previsão normalizado pelo desvio
padrão das observações.
Abaixo está a representação do diagrama de Taylor com três modelos
arbitrários.

Figura 4 - Diagrama de Taylor.

Fonte: O Autor (2019).

15
2.4 REDES NEURAIS ARTIFICIAIS

A dinâmica de uma rede neural artificial se baseia no funcionamento dos


neurônios biológicos, buscando um processamento de informações que seja ao
mesmo tempo complexo, não-linear e paralelo. De forma demasiadamente
simplificada, o sistema nervoso humano capta um determinado estímulo, processa a
informação, convertem os estímulos elétricos e emite uma decisão como resposta ao
estímulo inicial, como exemplifica a figura 5.

Figura 5 - Representação em blocos do sistema nervoso humano.

Fonte: Haykin (2001) Adaptado.

Resumidamente, um neurônio pode ser dividido em três partes: dendritos,


axônio e terminais sinápticos. A comunicação entre neurônios é feita por
neurotransmissores, em seguida são captados pelos dendritos que processam e
transmitem a informação pelo axônio e logo após a informação é retransmitida pelos
terminais sinápticos.

16
Figura 6 - Representação de um neurônio biológico.

Fonte: Haykin (2001) Adaptado.

Analogamente, as redes neurais artificiais são conjuntos de neurônios que


trabalhandom de forma semelhante a observada no corpo humano.
De acordo com Haykin (1999), o uso de redes neurais tem como vantagem,
dentre outros, os seguintes aspectos:
⚫ Não-Linearidade: Devido à natureza não-linear dos neurônios, modelos
baseados em redes neurais são capazes de compreender bem
fenômenos cujos sinais são inerentemente não-lineares.
⚫ Mapeamento de Entrada-Saída: O paradigma de aprendizado
supervisionado envolve a relação entre dois conjuntos, sendo um o
conjunto de entrada e o outro o conjunto de resposta desejada para que,
dessa forma, através de diversas iterações, sejam ajustados os pesos
sinápticos e se estabeleça a melhor relação entre os dois conjuntos.

17
⚫ Adaptabilidade: Devido à facilidade de treinamento, as redes neurais são
capazes de alterar seus pesos sinápticos para compreenderem
modificações nas condições de operação.
⚫ Resposta a Evidências: Para o problema de classificação, as redes
neurais podem fornecer não apenas a pertinência de um padrão, mas
também a confiança na decisão.
⚫ Informação Contextual: Por estarem conectados em rede, a atividade de
um neurônio pode afetar os demais neurônios, fazendo com que a
informação seja representada de forma contextual.
⚫ Analogia Neurobiológica: Por possuir bases na analogia com o cérebro
humano, podemos imaginar que com o seu desenvolvimento, as redes
neurais artificiais podem atingir o mesmo patamar de tolerância à falhas,
poder e rapidez das redes neurais biológicas.

O neurônio, unidade básica de processamento das redes neurais artificiais,


consistem nos seguintes elementos:
1. Pesos sinápticos: Determinadas através de um número real e
equivalente às sinapses biológicas, um dado peso sináptico 𝜔𝑘𝑗
representa a sinapse j aplicada à entrada 𝑥𝑗 .
2. Somador: Trata-se de um combinador linear com pesos 𝜔𝑘𝑗 adicionado
do bias (𝑏𝑘 ), que é uma constante real responsável por deslocar
horizontalmente a função de ativação para ajustar o sinal de saída.
3. Função de ativação: Serve para limitar o sinal de saída do neurônio.
Normalmente os intervalos variam entre (0;1), (-1;1) e (0;∞).

Matematicamente, a saída de um neurônio pode ser definida através das


equações (3) e (4):
𝑚

𝑢𝑘 = ∑ 𝜔𝑘𝑗 𝑥𝑗 (3)
𝑗=1

e
𝑦𝑘 = 𝜑(𝑢𝑘 + 𝑏𝑘 ) (4)

Em que 𝑥𝑛 é o n-ésimo sinal de entrada, 𝜔𝑘𝑛 é o n-ésimo peso sináptico do neurônio k,

18
𝑏𝑘 é o bias, 𝑢𝑘 é a saída do combinador linear, 𝜙(. ) é a função de ativação e 𝑦𝑛 é a
saída do neurônio n.

Figura 7 - Modelo de um neurônio.

Fonte: Haykin (2002).

A topologia de uma rede neural é a forma como os neurônios são conectados


e tais conexões podem interferir diretamente no aprendizado (MIIKKULAINEN 2011).
A retropropagação do erro, também chamada de backprogation, é um método
numérico utilizado para o treinamento das redes feed-forward. De forma simplificada,
o backpropagation pode ser entendido como a maneira cuja rede avalia e melhora seu
desempenho, pois, após a alteração dos pesos sinápticos, a saída da rede neural é
comparada com o valor desejado (observação) e então o gradiente do erro é avaliado
e tomado como base para mais mudanças nos pesos sinápticos.
Apesar de promissoras, as redes neurais artificiais ainda estão longe da
capacidade de processamento de um cérebro humano e possuem um elevado custo
computacional no seu treinamento em CPUs (VANHOUCKE et al., 2011).

19
2.5 ARQUITETURAS

É dita arquitetura de rede neural a maneira como se interligam e interagem os


neurônios, juntamente com o algoritmo de aprendizagem, ditando assim o fluxo de
informações dentro da rede (HAYKIN, 2009). Diversas arquiteturas de redes foram
propostas ao longo do tempo, nas quais se destacam:

Multilayer Perceptron (MLP): Considerada uma das primeiras propostas de


arquiteturas de redes neurais, os perceptrons múltiplas camadas são cadeias de
neurônios organizadas sequencialmente de forma a transmitir a informação no sentido
entrada-saída.
Convolutional Neural Network (CNN): Através da aplicação de diversos filtros,
que nada mais são do que o produto escalar entre a matriz do filtro e trechos da
entrada, são capazes de alterar o conjunto de entrada mediante a aplicação de
convoluções de modo a extrair informações relevantes.
Recurrent Neural Network (RNN): Trata-se de uma MLP com pelo menos uma
realimentação em quaisquer neurônios ou camadas.
Long Short-Term Memory (LSTM): É um caso particular das redes neurais
recorrentes. Devido ao seu armazenamento de informações do passo, essa
arquitetura possui uma boa compreensão temporal e é capaz de obter informação de
maneira contextual.

Em geral, as diferentes arquiteturas de redes neurais possuem aplicações para


as quais são mais utilizadas. A tabela 1, a seguir, contempla as aplicações mais
comuns para cada arquitetura citada anteriormente.

20
Tabela 1 - Aplicações comuns para diferentes arquiteturas de redes neurais.

Arquitetura Entrada (x) ̂)


Saída (𝒚 Aplicações

Características de Preço Mercado imobiliário


uma casa
MLP

Série temporal de Valor futuro do Previsão


preços de ações preço de ações

Frase textual Sugestão de Autopreenchimento de


LSTM
incompleta palavra textos

Imagem de raio X Detecção de tumor Diagnósticos

CNN
Fotos ou vídeos Classificação do Reconhecimento de
conteúdo imagens

Áudio Transcrição do Reconhecimento de


texto fala
RNN

Texto em inglês Texto em Tradução


português

Imagens e Posição dos carros Carros autônomos


Híbridas
informações de radar em sua volta

Fonte: O Autor (2019).

21
3 REVISÃO HISTÓRICA E ENUNCIADO DO PROBLEMA

O primeiro estudo sobre redes neurais artificiais foi proposto em 1943 pelo
neurofisiologista Warren McCulloch e pelo matemático Walter Pitts com o trabalho que
tentava modelar o comportamento de um neurônio através de circuitos elétricos
(McCulloch, et al., 1943).
Através do livro The Organization of Behavior, publicado em 1949, Donald
Hebb reiterou a importância e promissora capacidade das redes neurais artificiais
(HEBB, 1949).
Em 1957, John von Neumann, responsável por importantes avanços na
matemática e computação, propôs a reprodução de funções neuronais simples
através de relés de telégrafo, enquanto no ano seguinte, em 1958, o neurobiólogo
Frank Rosenblatt desenvolveu o conceito de perceptron enquanto estudava o
funcionamento dos olhos das moscas, já que uma parte significativa o reflexo da
mosca é processado nos olhos (ROSENBLATT, 1958).
O primeiro problema aplicado ao mundo real resolvido por redes neurais
aconteceu em 1960 após o desenvolvimento dos modelos ADALINE e MADALINE,
responsáveis por eliminar ecos nas linhas de telefone, que ainda é utilizada
atualmente (WIDROW, et al., 1960).
Entre as décadas de 1960 e 1980, poucos ou nenhum trabalho foi elaborado
na área de inteligência artificial, período que ficou conhecido como “idade das trevas
das redes neurais”. Foi só a partir do ano 1982, após o amadurecimento da
computação e do aumento da capacidade de processamento que diversos trabalhos
foram publicados, incluindo a idealização das redes neurais convolucionais, até que
em 1997 foi desenvolvida a rede neural Long Short-term Memory (LSTM)
(HOCHREITER, et al., 1997).
Os primeiros trabalhos sobre redes neurais aplicadas à previsão eólica datam
do início dos anos 2000, com os trabalhos sobre previsão de potência eólica de
Kariniotakis (KARINIOTAKIS, et al., 1996) e Shuhui (SHUHUI, et al., 2001).
A última década foi preenchida com milhares de trabalhos sobre aprendizado
de máquina, possibilitando aplicações nas mais diversas áreas, incluindo o
desenvolvimento de modelos matemáticos regressivos para previsão (LI, et al., 2010).
Assim, o mercado de energia se utiliza dos avanços dos modelos para aplicar modelos
de previsão em diversos seguimentos da eólica, tais como orientação de dispositivos

22
ativos, programação paradas para a manutenção de aerogeradores, compra e venda
de energia no mercado diário e previsão do balanço de produção de energia.

Nesse contexto, este trabalho visa comparar o desempenho das arquiteturas


de redes neurais mais utilizadas atualmente quando aplicadas ao problema da
previsão de potência de centrais eólicas no nordeste brasileiro. Serão comparadas
duas variações dos modelos de rede neural convolucional, LSTM e MLP.

23
4 METODOLOGIA

Esta seção discorre sobre os procedimentos utilizados para chegar aos


resultados deste trabalho.

4.1 GARANTIA DE QUALIDADE DOS DADOS

Previamente os dados foram processados através de diversos testes de


qualidade a fim de que fossem eliminados os dados atípicos ou extremos (outliers)
frutos de possíveis erros de medição, armazenamento ou transmissão.
Os testes de qualidade aplicados às séries foram, respectivamente:
1. Lacunas: Testa descontinuidades nas séries para verificar se estas ainda
possuem dados suficientes para serem consideradas representativas (BAILEY,
MCDONALD et al., 1997).
2. Posicionamento: Identifica o alocamento indevido de dados. Verifica
sequências de dados repetidas.
3. Limites: Determina uma faixa de valores aceitáveis, fisicamente e
tecnologicamente, e verifica se há dados fora desta faixa. A verificação
tecnológica depende exclusivamente do sensor utilizado na medição, cujas
informações são passadas pelo fabricante. A segunda etapa consiste em
comparar a potência média de saída, integrada em 10 minutos, com 10% da
potência nominal da central para valores máximos e -5% da potência nominal
da central para valores mínimos, como mostram as equações abaixo:

𝑃𝑖 > 1,1 ∙ 𝑃𝑛𝑜𝑚𝑖𝑛𝑎𝑙


{ (5)
𝑃𝑖 < −1,05 ∙ 𝑃𝑛𝑜𝑚𝑖𝑛𝑎𝑙

Onde 𝑃𝑖 é a potência média no instante 𝑖 e 𝑃𝑛𝑜𝑚𝑖𝑛𝑎𝑙 é a potência nominal da central


em estudo.
4. Consistência de parâmetros: Intercompara parâmetros da série temporal a fim
de verificar se são fisicamente consistentes (VEJEN et al., 2002).
5. Consistência temporal: Calculas as diferenças entre valores sucessivos para
identificar possíveis discrepâncias, como descrito pela equação 6:

24
𝐷𝑖 = 𝑃𝑖 − 𝑃𝑖−1 (6)

Onde 𝑃𝑖 é a potência de saída observada no instante 𝑖 e 𝐷𝑖 é a diferença entre duas


observações consecutivas. Em seguida, o box-plot é aplicadoa série de 𝐷𝑖 para a
verificação da qualidade.

O figura 8 mostra uma série temporal de potência de saída de uma central


eólica com seus respectivos dados anômalos destacados em vermelho.

Figura 8 - Dados anômalos numa série temporal.

Fonte: O Autor (2019).

4.2 PERSISTÊNCIA

Dada a alta inércia dos fenômenos meteorológicos, especialmente na


macroescala e mesoescala, porém também observada na microescala, o modelo da
persistência sugere que o comportamento do vento irá se manter constante no
intervalo de tempo seguinte (equação 7).

𝑦̂𝑡+𝑘 = 𝑦𝑡 (7)

Em que 𝑦̂𝑡+𝑘 representa a estimativa da variável k-passos à frente e 𝑦𝑡

25
representa a observação no instante de tempo t (NIELSEN, et al., 1998).
Apesar de simples, este modelo possui boa acurácia para horizontes próximos.
Neste trabalho, a persistência será considerada um dos modelos de referência,
juntamente com o perceptron de múltipla camada.

4.2.1 MELHORA SOBRE A PERSISTÊNCIA

A melhora sobre a persistência, em inglês, Improvement Over Persistence


(IOP), é uma forma de mensurar o desempenho sobre o modelo de referência (neste
caso a persistência) através do ganho percentual sobre os estatísticos a serem
avaliados. A IOP é dada pela equação 8:

𝐸(𝑦̂)−𝐸(𝑦)
𝐼𝑂𝑃 = , 𝑝𝑎𝑟𝑎 𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑒 𝑆𝑆4
𝐸(𝑦)
{ 𝐸(𝑦̂)−𝐸(𝑦)
(8)
𝐼𝑂𝑃 = − , 𝑝𝑎𝑟𝑎 𝑜 𝑅𝑀𝑆𝐷
𝐸(𝑦)

Em que 𝐸(𝑦̂) é o estatístico referente à estimativa e 𝐸(𝑦) é o estatístico da


observação.
Para os casos em que IOP > 0, o desempenho do modelo supera a
persistência, enquanto para IOP < 0 temos um desempenho do modelo inferior à
persistência. Quando IOP = 0, os modelos se equiparam sobre o estatístico em
questão.

4.3 MODELOS REGRESSIVOS

Os modelos regressivos têm como finalidade estabelecer uma relação entre


dois conjuntos de forma a minimizar o erro. Neste trabalho serão utilizados e
comparados métodos de regressão que buscam modelar o comportamento da
potência de saída de centrais eólicas para realizar previsões sobre o comportamento
no curto prazo.

26
4.3.1 Modelos autorregressivos

Podemos representar um modelo autorregresivo através da equação 9:

𝑦1 1 𝑥11 … 𝑥1𝑘 𝛽1 𝜀1
𝑦2 1 𝑥21 … 𝑥2𝑘 𝛽 𝜀2
[⋮]= [ ] [ 2] + [⋮] (9)
⋮ ⋮ ⋱ ⋮ ⋮
𝑦𝑛 1 𝑥𝑛1 … 𝑥𝑛𝑘 𝛽𝑘 𝜀𝑛

Ou, em sua forma simbólica, dada pela equação 10

𝑌 = 𝑋𝛽 + 𝜀 (10)

Onde 𝑦𝑖 corresponde ao i-ésimo preditando (neste trabalho será o valor de


potência a ser estimado); 𝑥𝑖𝑗 é o j-ésimo preditor, ou variável regressora (neste
trabalho serão valores de potência conhecidos), correspondente ao i-ésimo
preditando; 𝛽𝑖 são os coeficientes associados às variáveis regressoras e 𝜀𝑖 são os
erros que desejam-se minimizar.

Os coeficientes da regressão podem ser calculados de diversas maneiras a fim


de minimizar o erro. Neste trabalho será adotado o método dos mínimos quadrados,
no qual o erro é determinado pela equação 11:

𝜖 𝑞 = ∑𝑁
𝑖=1(𝑦𝑖 − 𝑦
̂𝑖 )² (11)

Onde 𝑦𝑖 e 𝑦̂𝑖 são, respectivamente, os dados de observação e as estimativas


da regressão.

Utilizando a equação matricial (9), 𝜖𝑞 pode ser representada como:

𝜖𝑞 = (𝑌 − 𝑋𝛽)𝑇 (𝑌 − 𝑋𝛽) (12)

Ao minimizar o erro quadrático médio obtemos:

27
𝜕𝜖𝑞
= −2𝑋 𝑇 𝑌 + 2𝑋 𝑇 𝑋𝛽̂ = 0 (13)
𝜕𝛽
Logo,

𝛽̂ = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑌 (14)

Por fim.

𝑌̂ = 𝑋𝛽̂ (15)

4.3.2 Redes Neurais Artificiais

Em machine learning sempre há um grande número de possibilidades de


soluções para os problemas, porém a maioria não possui arquiteturas bem definidas
a priori; as escolhas dependem de diversos fatores tais como o conjunto de dados, o
problema em questão, o nível de acurácia, dentre diversos fatores e, por este motivo,
em alguns casos, a melhor forma de se obter melhoras é testando diferentes
arquiteturas e analisando os erros e acurácia.
Inicialmente foi realizada uma análise de sensibilidade para escolher as
melhores arquiteturas das redes:
Todas elas: 10 inicializações, 100 épocas, 5 variáveis regressoras e os
horizontes de até 12 timesteps de 30 minutos.
O algoritmo de treinamento utilizado, responsável pela atualização dos
hiperparâmetros da rede com o objetivo de atingir o mínimo global do hiperplano da
função custo, foi o Adadelta (ZEILER, 2012), cujo algoritmo pode ser representado
como o pseudocódigo abaixo:

Dada a constante de decaimento 𝜌, a constante 𝜖 e o parâmetro inicial 𝑥1 :

28
1: Inicialize os parâmetros 𝐸[𝑔2 ]0 = 0 , 𝐸[∆𝑥 2 ]0 = 0
2: 𝐩𝐚𝐫𝐚 𝑡 = 1: 𝑇 𝐟𝐚ç𝐚
3: Compute Gradiente: 𝑔𝑡
4: Acumule Gradiente: 𝐸[𝑔2 ]𝑡 = 𝜌𝐸[𝑔2 ]𝑡−1 + (1 − 𝜌)𝑔𝑡2
𝑅𝑀𝑆[∆𝑥]𝑡−1
5: Compute Update: ∆𝑥𝑡 = − 𝑔𝑡
𝑅𝑀𝑆[𝑔]𝑡
6: Acumule Updates: 𝐸[∆𝑥 2 ]𝑡 = 𝜌𝐸[∆𝑥 2 ]𝑡−1 + (1 − 𝜌)∆𝑥𝑡2
7: Aplique Update: 𝑥𝑡−1 = 𝑥𝑡 + ∆𝑥𝑡
8: 𝐟𝐢𝐦 𝐩𝐚𝐫𝐚

4.3.2.1 Redes Neurais Convolucionais

Apesar da existência da chamada Convolução Contínua, as aplicações


computacionais fazem uso da Convolução Discreta. Sejam 𝑓 e 𝑔 duas sequências de
tamanho n, a convolução (𝑓 ∙ 𝑔)(𝑛) = ℎ(𝑛) é dada por (DAMELIN, et al., 2011):

(𝑓 ∙ 𝑔)(𝑛) = ℎ(𝑛) = ∑ 𝑓(𝑚) ∙ 𝑔(𝑚−𝑛) (16)


𝑚=−∞

Partindo deste princípio, foi desenvolvido o conceito de redes neurais


convolucionais, normalmente utilizadas para aplicações em reconhecimento de
imagem (YOON, 2014). As redes neurais convolucionais são caracterizadas pela
aplicação do produto vetorial sobre trechos móveis, de tamanho definido, do vetor da
entrada e vetores filtros.
Sejam 𝑎 = [𝑎1 , 𝑎2 , … , 𝑎𝑛 ] e 𝑏 = [𝑏1 , 𝑏2 , … , 𝑏𝑛 ] dois vetores, o produto escalar
entre 𝑎 e 𝑏 é definido como:
𝑛

𝑎 ∗ 𝑏 = ∑ 𝑎𝑖 𝑏𝑖 (17)
𝑖=1

Ou, na sua forma matricial,

𝑎 ∗ 𝑏 = 𝑎𝑏 𝑇 (18)

O passo a passo de um exemplo de convolução aplicado à uma pequena série


mostrada no esquema a seguir.

29
SÉRIE DE ENTRADA FILTRO SÉRIE DE SAÍDA

3 2 7 1 0 3 9 * 1 0 1 = 10

3 2 7 1 0 3 9 * 1 0 1 = 10 3

3 2 7 1 0 3 9 * 1 0 1 = 10 1 7

3 2 7 1 0 3 9 * 1 0 1 = 10 1 7 4

3 2 7 1 0 3 9 * 1 0 1 = 10 1 7 3 9

A vantagem das redes neurais convolucionais está na habilidade de aprender


em paralelo diversas características que não estão originalmente no conjunto de
entrada da rede neural. A figura 12 mostra quatro filtros aleatórios aplicados à uma
série temporal de potência e o resultado final.

Figura 9 - Exemplo de filtros aplicadados à uma série temporal.

Fonte: O Autor (2019).

30
4.3.2.2 Redes Neurais Long Short-Term Memory (LSTM)

As redes LSTM (HOCHREITER, et al., 1997) são um tipo particular de rede


neural recorrente, que possuem uma compreensão temporal maior, devido ao seu
armazenamento de estados anteriores. Amplamente utilizadas em aplicações que
possuem dependências temporais, tais como processamento de linguagem natural,
reconhecimento de voz (XIANGANG, et al., 2015) e em músicas (HASIM, et al., 2014).
Como toda rede neural recorrente, as redes LSTM possuem uma arquitetura
sequencial como mostra a figura 10, porém, como diferença, as camadas ocultas
possuem um funcionamento diferente, como mostra a sequência de figuras a seguir:

Figura 10 - Representação de uma rede neural do tipo LSTM.

Fonte: Understanding LSTM Networks (2015).

As imagens a seguir representam de forma gráfica a organização das camadas


das diferentes arquiteturas utilizadas neste trabalho. Inicia-se com a descrição das
MLPs, seguindo para as LSTM e encerrando com as convolucionais.

31
PERCEPTRONS MÚLTIPLAS CAMADAS

Arquitetura 1 (MLP1):

Camada de
Camada escondida Camada de saída
entrada

𝑥1
𝑥2
⋮ 4 neurônios 𝑦̂
𝑥𝑛

Arquitetura 2 (MLP2):

Camada de Camada Camada Camada de


entrada escondida escondida saída

𝑥1
𝑥2
⋮ 4 neurônios 3 neurônios 𝑦̂
𝑥𝑛

REDES NEURAIS LONG SHORT-TERM MEMORY

Arquitetura 1 (LSTM1):

Camada de entrada Camada escondida Camada de saída



𝑥1
𝑥2
⋮ LSTM 𝑦̂
𝑥𝑛

32
Arquitetura 2 (LSTM2):

Camada de Camada Camada Camada de


entrada escondida escondida saída

𝑥1
𝑥2
⋮ LSTM LSTM 𝑦̂
𝑥𝑛

REDES NEURAIS CONVOLUCIONAIS

Arquitetura 1 (CONV1):

Camada de entrada Camada escondida Camada de saída



𝑥1
𝑥2
⋮ Convolução 𝑦̂
𝑥𝑛

Arquitetura 2 (CONV2):

Camada de Camada Camada Camada de


entrada escondida Escondida saída

𝑥1
𝑥2
⋮ Convolução Convolução 𝑦̂
𝑥𝑛

33
5 ESTUDO DE CASO

Esta seção trata da aplicação da metodologia sobre dados reais, sobre os


quais são traçados os resultados do trabalho.

5.1 DADOS OBSERVACONAIS

Os dados observacionais utilizados neste trabalho para o treinamento e


validação das redes neurais foram cedidos pelo Operador Nacional do Sistema
Elétrico, no âmbito do projeto HPC4E, de centrais eólicas localizadas no nordeste
brasileiro. As localizações aproximadas das centrais estão representadas na figura
14.

Figura 11 - Localização aproximada das centrais em estudo.

Fonte: GOES-16 (2019) adaptada.

As centrais G2 e G3 estão localizadas em região de chapada, considerada


zona de orografia complexa, enquanto a central G1 encontra-se no litoral do Rio
Grande do Norte, cuja localização é privilegiada quanto ao regime de ventos, pois há

34
uma predominância dos ventos alísios. A tabela 2 resume as informações acerca dos
dados utilizados.

Tabela 2 - Informações sobre os conjuntos de dados utilizados

Fonte: O Autor (2019).

5.2 RESULTADOS

Esta seção tem como objetivo apresentar os desempenhos de todas as


arquiteturas obtidos no estudo de caso para as centrais G1, G2 e G3.
A tabela Win-Loss Sparkline é um método de visualização de dados para a
rápida identificação dos modelos que possuem o melhor desempenho. Nesta seção,
a tabela possui as colunas organizdas por horizonte de previsão enquanto as cores
verde, vermelho e cinza representam, respectivamente, o modelo com melhor
desempenho, modelos com desempenho inferiores e empate.

5.1.1 RESULTADOS PARA A CENTRAL G1

Esta seção mostra os resultados dos modelos aplicados à central G1,


localizada no litoral do Rio Grande do Norte, em região de orografia simples. As
arquiteturas 1 possuem apenas uma camada oculta, enquanto as arquiteturas 2
possuem duas camadas ocultas.
A figura 12 indica a melhora sobre a persistência quando avaliada sobre a
correlação. Nota-se uma melhor performance da rede LSTM. O MLP possuiu anomalia

35
no desempenho para os horizontes 4 e 5, provavelmente ocasionados por má
treinamento da rede nesses horizontes. As redes convolucionais não conseguiram
reproduzir bem a fase e frequência do sinal de potência.
Com relação à figura 13, novamente a rede LSTM possuiu melhor desempenho
com relação ao RMSD, seguido do MLP. Quanto à reprodução do desvio padrão, a
figura 14 indica que a rede convolucional obteve melhor desempenho. A figura 15
mostra no diagrama de Taylor os estatísticos da previsão dos modelos para todos os
horizontes.
Para as arquiteturas 2, as redes convolucionais e LSTM possuíram
desempenhos, na prática, idênticos com relação à correlação de Pearson e ao RMSD,
mostradas, respectivamente, nas figuras 15 e 16. Quanto à repodução do desvio
padrão, houve uma alternância entre todas as arquiteturas, porém com a prevalência
da arquitetura convolucional.

Figura 12 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação à correlação de Pearson

Fonte: O Autor (2019).

36
Tabela 3 - Desempenho sobre a correlação das arquiteturas 1 para a central G1

Win-loss Sparkline – Correlação (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Figura 13 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação ao RMSD.

Fonte: O Autor (2019).

37
Tabela 4 - Desempenho sobre o RMSD das arquiteturas 1 para a central G1

Win-loss Sparkline – RMSD (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

Figura 14 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.

Fonte: O Autor (2019).

38
Tabela 5 - Desempenho sobre a desvio padrão das arquiteturas 1 para a central G1

Win-loss Sparkline – Desvio Padrão (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

Figura 15 - Diagrama de Taylor para as arquiteturas 1 aplicadas à central G1.

Fonte: O Autor (2019).

39
Figura 16 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação à correlação de Pearson.

Fonte: O Autor (2019).

Tabela 6 - Desempenho sobre a correlação das arquiteturas 2 para a central G1

Win-loss Sparkline – Correlação (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

40
Figura 17 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação ao RMSD.

Fonte: O Autor (2019).

Tabela 7 - Desempenho sobre o RMSD das arquiteturas 2 para a central G1.

Win-loss Sparkline – RMSD (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

41
Figura 18 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.

Fonte: O Autor (2019).

Tabela 8 - Desempenho sobre o desvio padrão das arquiteturas 2 para a central G1

Win-loss Sparkline – Desvio Padrão (G1)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

42
Figura 19 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G1.

Fonte: O Autor (2019).

5.1.2 RESULTADOS PARA A CENTRAL G2

Nesta seção serão abordados os resultados dos modelos aplicados à central


G2, localizada no interior da Bahia, em região de chapada com orografia complexa.
As arquiteturas 1 possuem apenas uma camada oculta, enquanto as arquiteturas 2
possuem duas camadas ocultas.
A figura 20 indica a melhora sobre a persistência quando avaliada sobre a
correlação. Nota-se uma melhor performance da rede LSTM, porém vale ressaltar a
aparente instabilidade de todas as arquiteturas, pois as curvas de melhora sobre a
persistência não seguem um padrão de crescimento constante, indicando um possível
mau treinamento (underfitting) da rede para esse conjunto de dados.
A figura 21 indica que a rede LSTM possuiu melhor desempenho com relação
ao RMSD, seguida de uma alternância entre a arquitetura MLP e convolucional.
Quanto à reprodução do desvio padrão, a figura 22 indica que a rede convolucional
obteve melhor desempenho. A figura 23 mostra no diagrama de Taylor os estatísticos
da previsão dos modelos para todos os horizontes.

43
Para as arquiteturas 2, a arquitetura convolucional liderou na correlação (figura
24), no RMSD (figura 24) e na reprodução do desvio padrão (figura 25), mas nota-se
indícios de mau treinamento de todas as redes avaliadas.

Figura 20 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.

Fonte: O Autor (2019).

Tabela 9 - Desempenho sobre a correlação das arquiteturas 1 para a central G2

Win-loss Sparkline – Correlação (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

44
Figura 21 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao RMSD.

Fonte: O Autor (2019).

Tabela 10 - Desempenho sobre o RMSD das arquiteturas 1 para a central G2

Win-loss Sparkline – RMSD (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

45
Figura 22 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.

Fonte: O Autor (2019).

Tabela 11 - Desempenho sobre o desvio padrão das arquiteturas 1 para a central G2

Win-loss Sparkline – Desvio Padrão (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

46
Figura 23 - Diagrama de Taylor para as arquiteturas 1 aplicadas à central G2.

Fonte: O Autor (2019).

47
Figura 24 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação à correlação de pearson.

Fonte: O Autor (2019).

Tabela 12 - Desempenho sobre a correlação das arquiteturas 2 para a central G2

Win-loss Sparkline – Correlação (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

48
Figura 25 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação ao RMSD.

Fonte: O Autor (2019).

Tabela 13 - Desempenho sobre o RMSD das arquiteturas 2 para a central G2

Win-loss Sparkline – RMSD (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

49
Figura 26 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.

Fonte: O Autor (2019).

Tabela 14 - Desempenho sobre o desvio padrão das arquiteturas 2 para a central G2.

Win-loss Sparkline – Desvio Padrão (G2)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

50
Figura 27 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G2.

Fonte: O Autor (2019).

5.1.3 RESULTADOS PARA A CENTRAL G3

A presente seção abordará os resultados dos modelos aplicados à central G3,


localizada no interior da Bahia, em região de chapada com orografia complexa. As
arquiteturas 1 possuem apenas uma camada oculta, enquanto as arquiteturas 2
possuem duas camadas ocultas.
Como nas seções anteriores, a figura 28 indica um melhor resultado da
arquitetura LSTM, porém com indícios de underfitting para todas as arquiteturas
analisadas.
A figura 29 indica que a rede LSTM possuiu melhor desempenho com relação
ao RMSD para a maioria dos horizontes de previsão. Quanto à reprodução do desvio
padrão, a figura 30 indica que a rede convolucional obteve melhor desempenho. A
figura 31 mostra no diagrama de Taylor os estatísticos da previsão dos modelos para
todos os horizontes.
Para as arquiteturas 2, as redes convolucionais e LSTM possuíram
desempenhos semelhantes, com leve vantagem para a LSTM com relação à

51
correlação de Pearson e ao RMSD, mostradas, respectivamente, nas figuras 32 e 33.
Quanto à repodução do desvio padrão, houve vantagem para a arquitetura
convolucional (figura 34). A figura 35 mostra no diagrama de Taylor os estatísticos da
previsão dos modelos para todos os horizontes.

Figura 28 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação à correlação de Pearson.

Fonte: O Autor (2019).

52
Tabela 15 - Desempenho sobre a correlação das arquiteturas 1 para a central G3.

Win-loss Sparkline – Correlação (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

Figura 29 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação ao RMSD.

Fonte: O Autor (2019).

53
Tabela 16 - Desempenho sobre o RMSD das arquiteturas 1 para a central G3.

Win-loss Sparkline – RMSD (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

Figura 30 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.

Fonte: O Autor (2019).

54
Tabela 17 - Desempenho sobre desvio padrão das arquiteturas 1 para a central G3.

Win-loss Sparkline – Desvio Padrão (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP1
LSTM1
CONV1

Fonte: O Autor (2019).

Figura 31 - Diagrama de Taylor para as arquiteturas 1 aplicadas à central G3.

Fonte: O Autor (2019).

55
Figura 32 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação à correlação de Pearson.

Fonte: O Autor (2019).

Tabela 18 - Desempenho sobre a correlação das arquiteturas 2 para a central G3.

Win-loss Sparkline – Correlação (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

56
Figura 33 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação ao RMSD.

Fonte: O Autor (2019).

Tabela 19 - Desempenho sobre o RMSD das arquiteturas 2 para a central G3.

Win-loss Sparkline – RMSD (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

57
Figura 34 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.

Fonte: O Autor (2019).

Tabela 20 - Desempenho sobre o desvio padrão das arquiteturas 2 para a central G3.

Win-loss Sparkline – Desvio Padrão (G3)


1 2 3 4 5 6 7 8 9 10 11 12
MLP2
LSTM2
CONV2

Fonte: O Autor (2019).

58
Figura 35 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G3.

Fonte: O Autor (2019).

59
6 CONCLUSÃO E PERSPECTIVAS

Este trabalho teve como objetivo realizar uma análise do desempenho de


diferentes arquiteturas clássicas de redes neurais, submetidas às mesmas condições
de atualização de hiperparâmetros e conjuntos de dados, aplicadas à resolução do
problema de previsão a curto prazo da potência centrais eólicas para fins de
aplicações futuras.
Como descrito na seção de resultados, dadas as condições citadas na
metodologia, nota-se que a arquitetura LSTM obteve um melhor desempenho na
previsão para a maioria dos casos avaliados quando comparada com as demais
arquiteturas de redes neurais, certamente graças a melhor compreensão temporal
típica da sua implementação™ e que as redes neurais convolucionais representam
melhor o desvio padrão. Os filtros aleatórios aplicados pelas redes convolucionais
provavelmente adicionaram ruídos e consequentemente houve piora nos resultados.
Para essa arquitetura ser bem sucedida na previsão de potência de centrais eólicas,
é necessário estudar quais filtros devem ser aplicados a fim de extrair informações
importantes da série original.
Tanto as redes LSTM quanto as redes convolucionais mostram-se promissoras
e com grandes oportunidades de aprimoramento e otimização. Em relação ao custo
computacional quando comparadas com a MLR, observa-se que, apesar de elevados,
tais arquiteturas introduzem uma melhora significativa na acurácia, de modo a que
não devem ser deixadas em segundo plano na área de previsão eólica.
Como perspectiva, vê-se a necessidade de um estudo mais detalhado sobre a
melhor das arquiteturas aqui apresentada com o intuito de otimizar o seu desempenho
com relação ao algoritmo de treinamento, bem como a configuração dos
hiperparâmetros específicas para cada arquitetura de modo a otimizá-las
individualmente, e atualização de parâmetros para aplicá-la como parte integrante de
algoritmos mais complexos a fim de melhorar a análise global de séries temporais.
Como sugestão, deixo os seguintes tópicos a serem explorados:

• Atualização dos hiperparâmetros de forma automática;


• Hibridizar as diferentes camadas para se extrair o que cada uma pode
oferecer de melhor;
• Aprofundar a interpretação dos resultados com vistas a entender os

60
motivos pelas quais as redes LSTM reproduzem melhor os estatísticos;
• Estudar e entender as anomalias apresentadas nos gráficos da IOP que
sugerem underfitting em algumas situações.

61
REFERÊNCIAS BIBLIOGRÁFICAS

Chatfield, Chris. 2003. The analysis of time series: an introduction. 2003.

Costa, Alexandre. 2005. Mathematical/statistical and physical/meteorological


models for short-term prediction of wind farms output. Madrid : Universidad
Politéctinica de Madrid, 2005.

Cutler, N., et al. 2007. Detecting, categorizing and forecasting large ramps in wind
farm power output using meteorological obervations and WPPT. s.l. : Wind Energy,
2007. pp. 453-470.

EPE. 2018. Balanço Energético Nacional. s.l. : Empresa de pesquisa energética,


2018.

Hasim, Sak, Senior, Andrew and Francoise, Beaufays. 2014. Long Short-Term
Memory recurrent neural network architectures for large scale acoustic modeling.
2014.

Haykin, Simon. 2009. Neural networks and learning machines. New York : Prentice
Hall, 2009.
—. 2001. Redes neurais artificiais. 2001.

Hebb, Donald. 1949. The Organization of Behavior. New York : Wiley, 1949.

Hochreiter, Sepp and Schmidhuber, Jürgen. 1997. Long Short-term memory. s.l. :
Neural Computation, 1997.

Kariniotakis, G. N., Stavrakakis, G. S. and Nogaret, E.F. 1996. Wind power


forecasting using advanced neural networks models. s.l. : IEEE, 1996.

Kelouwani, S. and Agbossou, K. 2004. Nonlinear Model Identification of Wind


Turbine With a Neural Network. s.l. : IEEE, 2004.

62
Li, G. and Shi, J. 2010. On comparing three artificial neural networks for wind speed
forecasting. s.l. : Applied Energy, 2010.

McCulloch, Warren and Pitts, Walter. 1943. A Logical Calculus of Ideas Immanent
in Nervous Activity. s.l. : Bulletin of mathematical Biophysics, 1943.
—. 1943. A Logical Calculus of Ideas Immanent in Nervous Activity. s.l. : Bulletin of
Mathematical Biophysics, 1943.

Miikkulainen, R. 2011. Encyclopedia of Machine Learning. s.l. : Springer, 2011.

More, A. and Deo, M. C. 2003. Forecasting wind with neural networks. s.l. : Marine
Structures, 2003.

Nielsen, T. S., et al. 1998. A new reference for wind power forecasting. . s.l. : Wind
Energy, 1998.

Rosenblatt, Frank. 1958. The Perceptron: A Probabilistic Model For Information


Storage And Organization In The Brain. s.l. : Psychological Review, 1958.

Shuhui, Li, et al. 2001. Using neural networks to estimate wind turbine power
generation. . s.l. : IEEE, 2001.

Taylor and Karl, E. 2001. Summarizing multiple aspects of model performance in a


single diagram. s.l. : Journal of Geophysical Resarch: Atmospheres, 2001. pp. 7183-
7192.

Understanding LSTM Networks. GitHub. Disponível em:


<https://colah.github.io/posts/2015-08-Understanding-LSTMs/>. Acesso em
18/11/2019).

Vanhoucke, Vincent, Senior , Andrew and Mao., Mark Z. 2001. Improving the
speed of neural networks on CPUs. 2001.

Vanhoucke, Vincent, Senior, Andrew and Mao, Mark. 2011. Improving the speed

63
of neural networks on CPUs. 2011.

Widrow, Bernard and Hoff, Marcian. 1960. Adaptive switching circuits. s.l. :
Stanford Univ Ca Stanford Eletronics Labs, 1960.

Xiangang, Li and Xihong, Wu. 2015. Constructing Long Short-Term Memory based
Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. 2015.

Yoon, Kim. 2014. Convolutional neural networks for sentence classification. 2014.

Zeiler, Matthew. 2012. ADADELTA: An Adaptive Learning Rate Method. s.l. :


Google Inc., 2012.

64

Você também pode gostar