Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Disciplina:
EN248 Projeto de Graduação (TCC)
Responsável pela Disciplina:
Curso de Graduação: Prof. Alexandre Costa
Engenharia de Energia Período:
2019.2
Local e Data:
Recife, 13 de dezembro de 2019
Monografia
________________________________________________________________
Aluno: Renan Soares Siqueira Costa; Matrícula: 086.735.254-03
________________________________________________________________
Orientador: Alexandre Costa, professor do Departamento de Energia Nuclear, Centro de
Tecnologia e Geociências, Universidade Federal de Pernambuco
AGRADECIMENTOS
Esse trabalho foi feito em conjunto com todos que me apoiaram, todos que
estiveram ao meu lado nos melhores e piores momentos da minha vida. Em especial
à minha mãe, Wilza, e aos meus tios Wallace e Wilde.
2
RESUMO
3
ABSTRACT
4
LISTA DE SIGLAS
5
LISTA DE FIGURAS
6
FIGURA 27 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 2 APLICADAS À CENTRAL G2. ......................... 51
FIGURA 28 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO À CORRELAÇÃO DE PEARSON. ........................................................... 52
FIGURA 29 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO RMSD. ....................................................................................... 53
FIGURA 30 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 1 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 54
FIGURA 31 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 1 APLICADAS À CENTRAL G3. ......................... 55
FIGURA 32 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO À CORRELAÇÃO DE PEARSON. ........................................................... 56
FIGURA 33 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO RMSD. ....................................................................................... 57
FIGURA 34 - MELHORA SOBRE A PERSISTÊNCIA PARA A CENTRAL G3 DOS DIFERENTES MODELOS COM
ARQUITETURA 2 COM RELAÇÃO AO DESVIO PADRÃO. ......................................................................... 58
FIGURA 35 - DIAGRAMA DE TAYLOR PARA AS ARQUITETURAS 2 APLICADAS À CENTRAL G3. ......................... 59
7
LISTA DE TABELAS
8
SUMÁRIO
AGRADECIMENTOS .................................................................................................. 2
RESUMO .................................................................................................................... 3
1 INTRODUÇÃO ....................................................................................................... 10
4 METODOLOGIA..................................................................................................... 24
9
1 INTRODUÇÃO
10
energia, que, devido a suas inércias, podem demorar horas para chegarem ao nível
ideal de produção.
Nesse contexto, o desenvolvimento de bons modelos de previsão torna-se
indispensável para uma melhor gestão dos recursos energéticos que
consequentemente garantem uma maior estabilidade do Sistema Interligado Nacional.
Como os métodos estatísticos possuem melhor desempenho para previsões a curto
prazo (COSTA, 2005), este trabalho se dedicará a explorar as redes neurais artificiais
(HAYKIN, 2001).
A construção de uma rede neural exige a escolha de diversos parâmetros
(pesos sinápticos e bias) e hiperparâmetros (quantidade de camadas ocultas, taxa de
aprendizado, quantidade de neurônios, funções de ativação, etc.). Para cada
aplicação e cada conjunto de dados, é necessário o uso de processos empíricos para
se chegar a uma solução ótima para o problema. Por isso, em geral, a solução dos
problemas passa pelo processo cíclico de imaginar uma possível configuração,
programá-la e testá-la. Esse processo se repete até que uma solução satisfatória seja
alcançada.
Serão comparados os desempenhos das redes neurais long short-term memory
(LSTM), multilayer perceptron (MLP) e convolutional neural networks (CNN).
11
2 CONCEITOS PRELIMINARES
Nesta seção serão descritos alguns conceitos fundamentais para uma melhor
compreensão deste trabalho de conclusão de curso.
A previsão eólica pode ser dividida em dois grandes grupos: a previsão espacial
e a previsão temporal, como mostra a figura 2. O primeiro grupo refere-se à redução
de modelagens microescalares (eventos atmosféricos com escalas da ordem de
grandeza de 1 m a 1 km) da atmosfera em previsões mesoescalares (escalas da
ordem de grandeza de 1 km a 100 km) ou macroescalares (escalas da ordem de
grandeza maiores que 100 km), enquanto o segundo grupo tem como objetivo
estimar os valores futuros de variáveis temporais relacionadas ao campo da eólica,
tais como velocidade do vento e potência gerada (COSTA, 2005). A previsão temporal
pode ser subdividida em três partes:
12
• Previsão de curtíssimo prazo, cujo horizonte de previsão varia entre
segundos até poucas horas à frente. A principal aplicação está em sistemas
de controles de aerogeradores;
• Previsão de curto prazo, cujo horizonte de previsão varia de horas até
alguns dias. Tem como principais aplicações a compra e venda de energia
no mercado diário e a operação do sistema elétrico;
• Previsão de médio e longo prazo, com horizontes maiores do que alguns
dias. Nesta área os modelos meteorológicos ganham mais espaço em
relação aos modelos estatísticos. Os principais objetivos são a
programação de manutenção de aerogeradores e a estimativa de produção
de centrais eólicas.
Previsão eólica
Ainda com relação à previsão eólica, os modelos podem ser divididos em dois
grandes grupos: os matemáticos/estatísticos, para os quais se valem unicamente de
ferramentas matemáticas, não considerando as dimensões das grandezas
envolvidas, e os modelos físicos/meteorológicos que utilizam as leis de conservação
da física e teorias meteorológicas para a resolução dos problemas.
A figura 3 representa o gráfico hipotético que descreve o erro de cada um dos
grupos em função do horizonte de previsão. Para horizontes curtos, os modelos
matemáticos/estatísticos (representado pela curva azul) se mostram melhores,
entretanto, para horizontes mais longos, os modelos físicos/meteorológicos mostram-
13
se mais adequados.
1 ∑𝑁 ̅
𝑛=1(𝑓𝑛 −𝑓 )(𝑟𝑛 −𝑟̅ )
𝜌=𝑁 (1)
𝜎𝑓 𝜎𝑟
14
(1 + 𝑅)4
𝑆𝑆4 = (2)
1
4 (𝜎̂ − )
𝜎̂
15
2.4 REDES NEURAIS ARTIFICIAIS
16
Figura 6 - Representação de um neurônio biológico.
17
⚫ Adaptabilidade: Devido à facilidade de treinamento, as redes neurais são
capazes de alterar seus pesos sinápticos para compreenderem
modificações nas condições de operação.
⚫ Resposta a Evidências: Para o problema de classificação, as redes
neurais podem fornecer não apenas a pertinência de um padrão, mas
também a confiança na decisão.
⚫ Informação Contextual: Por estarem conectados em rede, a atividade de
um neurônio pode afetar os demais neurônios, fazendo com que a
informação seja representada de forma contextual.
⚫ Analogia Neurobiológica: Por possuir bases na analogia com o cérebro
humano, podemos imaginar que com o seu desenvolvimento, as redes
neurais artificiais podem atingir o mesmo patamar de tolerância à falhas,
poder e rapidez das redes neurais biológicas.
𝑢𝑘 = ∑ 𝜔𝑘𝑗 𝑥𝑗 (3)
𝑗=1
e
𝑦𝑘 = 𝜑(𝑢𝑘 + 𝑏𝑘 ) (4)
18
𝑏𝑘 é o bias, 𝑢𝑘 é a saída do combinador linear, 𝜙(. ) é a função de ativação e 𝑦𝑛 é a
saída do neurônio n.
19
2.5 ARQUITETURAS
20
Tabela 1 - Aplicações comuns para diferentes arquiteturas de redes neurais.
CNN
Fotos ou vídeos Classificação do Reconhecimento de
conteúdo imagens
21
3 REVISÃO HISTÓRICA E ENUNCIADO DO PROBLEMA
O primeiro estudo sobre redes neurais artificiais foi proposto em 1943 pelo
neurofisiologista Warren McCulloch e pelo matemático Walter Pitts com o trabalho que
tentava modelar o comportamento de um neurônio através de circuitos elétricos
(McCulloch, et al., 1943).
Através do livro The Organization of Behavior, publicado em 1949, Donald
Hebb reiterou a importância e promissora capacidade das redes neurais artificiais
(HEBB, 1949).
Em 1957, John von Neumann, responsável por importantes avanços na
matemática e computação, propôs a reprodução de funções neuronais simples
através de relés de telégrafo, enquanto no ano seguinte, em 1958, o neurobiólogo
Frank Rosenblatt desenvolveu o conceito de perceptron enquanto estudava o
funcionamento dos olhos das moscas, já que uma parte significativa o reflexo da
mosca é processado nos olhos (ROSENBLATT, 1958).
O primeiro problema aplicado ao mundo real resolvido por redes neurais
aconteceu em 1960 após o desenvolvimento dos modelos ADALINE e MADALINE,
responsáveis por eliminar ecos nas linhas de telefone, que ainda é utilizada
atualmente (WIDROW, et al., 1960).
Entre as décadas de 1960 e 1980, poucos ou nenhum trabalho foi elaborado
na área de inteligência artificial, período que ficou conhecido como “idade das trevas
das redes neurais”. Foi só a partir do ano 1982, após o amadurecimento da
computação e do aumento da capacidade de processamento que diversos trabalhos
foram publicados, incluindo a idealização das redes neurais convolucionais, até que
em 1997 foi desenvolvida a rede neural Long Short-term Memory (LSTM)
(HOCHREITER, et al., 1997).
Os primeiros trabalhos sobre redes neurais aplicadas à previsão eólica datam
do início dos anos 2000, com os trabalhos sobre previsão de potência eólica de
Kariniotakis (KARINIOTAKIS, et al., 1996) e Shuhui (SHUHUI, et al., 2001).
A última década foi preenchida com milhares de trabalhos sobre aprendizado
de máquina, possibilitando aplicações nas mais diversas áreas, incluindo o
desenvolvimento de modelos matemáticos regressivos para previsão (LI, et al., 2010).
Assim, o mercado de energia se utiliza dos avanços dos modelos para aplicar modelos
de previsão em diversos seguimentos da eólica, tais como orientação de dispositivos
22
ativos, programação paradas para a manutenção de aerogeradores, compra e venda
de energia no mercado diário e previsão do balanço de produção de energia.
23
4 METODOLOGIA
24
𝐷𝑖 = 𝑃𝑖 − 𝑃𝑖−1 (6)
4.2 PERSISTÊNCIA
𝑦̂𝑡+𝑘 = 𝑦𝑡 (7)
25
representa a observação no instante de tempo t (NIELSEN, et al., 1998).
Apesar de simples, este modelo possui boa acurácia para horizontes próximos.
Neste trabalho, a persistência será considerada um dos modelos de referência,
juntamente com o perceptron de múltipla camada.
𝐸(𝑦̂)−𝐸(𝑦)
𝐼𝑂𝑃 = , 𝑝𝑎𝑟𝑎 𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑒 𝑆𝑆4
𝐸(𝑦)
{ 𝐸(𝑦̂)−𝐸(𝑦)
(8)
𝐼𝑂𝑃 = − , 𝑝𝑎𝑟𝑎 𝑜 𝑅𝑀𝑆𝐷
𝐸(𝑦)
26
4.3.1 Modelos autorregressivos
𝑦1 1 𝑥11 … 𝑥1𝑘 𝛽1 𝜀1
𝑦2 1 𝑥21 … 𝑥2𝑘 𝛽 𝜀2
[⋮]= [ ] [ 2] + [⋮] (9)
⋮ ⋮ ⋱ ⋮ ⋮
𝑦𝑛 1 𝑥𝑛1 … 𝑥𝑛𝑘 𝛽𝑘 𝜀𝑛
𝑌 = 𝑋𝛽 + 𝜀 (10)
𝜖 𝑞 = ∑𝑁
𝑖=1(𝑦𝑖 − 𝑦
̂𝑖 )² (11)
27
𝜕𝜖𝑞
= −2𝑋 𝑇 𝑌 + 2𝑋 𝑇 𝑋𝛽̂ = 0 (13)
𝜕𝛽
Logo,
𝛽̂ = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑌 (14)
Por fim.
𝑌̂ = 𝑋𝛽̂ (15)
28
1: Inicialize os parâmetros 𝐸[𝑔2 ]0 = 0 , 𝐸[∆𝑥 2 ]0 = 0
2: 𝐩𝐚𝐫𝐚 𝑡 = 1: 𝑇 𝐟𝐚ç𝐚
3: Compute Gradiente: 𝑔𝑡
4: Acumule Gradiente: 𝐸[𝑔2 ]𝑡 = 𝜌𝐸[𝑔2 ]𝑡−1 + (1 − 𝜌)𝑔𝑡2
𝑅𝑀𝑆[∆𝑥]𝑡−1
5: Compute Update: ∆𝑥𝑡 = − 𝑔𝑡
𝑅𝑀𝑆[𝑔]𝑡
6: Acumule Updates: 𝐸[∆𝑥 2 ]𝑡 = 𝜌𝐸[∆𝑥 2 ]𝑡−1 + (1 − 𝜌)∆𝑥𝑡2
7: Aplique Update: 𝑥𝑡−1 = 𝑥𝑡 + ∆𝑥𝑡
8: 𝐟𝐢𝐦 𝐩𝐚𝐫𝐚
𝑎 ∗ 𝑏 = ∑ 𝑎𝑖 𝑏𝑖 (17)
𝑖=1
𝑎 ∗ 𝑏 = 𝑎𝑏 𝑇 (18)
29
SÉRIE DE ENTRADA FILTRO SÉRIE DE SAÍDA
3 2 7 1 0 3 9 * 1 0 1 = 10
3 2 7 1 0 3 9 * 1 0 1 = 10 3
3 2 7 1 0 3 9 * 1 0 1 = 10 1 7
3 2 7 1 0 3 9 * 1 0 1 = 10 1 7 4
3 2 7 1 0 3 9 * 1 0 1 = 10 1 7 3 9
30
4.3.2.2 Redes Neurais Long Short-Term Memory (LSTM)
31
PERCEPTRONS MÚLTIPLAS CAMADAS
Arquitetura 1 (MLP1):
Camada de
Camada escondida Camada de saída
entrada
⬚
𝑥1
𝑥2
⋮ 4 neurônios 𝑦̂
𝑥𝑛
Arquitetura 2 (MLP2):
Arquitetura 1 (LSTM1):
32
Arquitetura 2 (LSTM2):
Arquitetura 1 (CONV1):
Arquitetura 2 (CONV2):
33
5 ESTUDO DE CASO
34
uma predominância dos ventos alísios. A tabela 2 resume as informações acerca dos
dados utilizados.
5.2 RESULTADOS
35
no desempenho para os horizontes 4 e 5, provavelmente ocasionados por má
treinamento da rede nesses horizontes. As redes convolucionais não conseguiram
reproduzir bem a fase e frequência do sinal de potência.
Com relação à figura 13, novamente a rede LSTM possuiu melhor desempenho
com relação ao RMSD, seguido do MLP. Quanto à reprodução do desvio padrão, a
figura 14 indica que a rede convolucional obteve melhor desempenho. A figura 15
mostra no diagrama de Taylor os estatísticos da previsão dos modelos para todos os
horizontes.
Para as arquiteturas 2, as redes convolucionais e LSTM possuíram
desempenhos, na prática, idênticos com relação à correlação de Pearson e ao RMSD,
mostradas, respectivamente, nas figuras 15 e 16. Quanto à repodução do desvio
padrão, houve uma alternância entre todas as arquiteturas, porém com a prevalência
da arquitetura convolucional.
Figura 12 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação à correlação de Pearson
36
Tabela 3 - Desempenho sobre a correlação das arquiteturas 1 para a central G1
Figura 13 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação ao RMSD.
37
Tabela 4 - Desempenho sobre o RMSD das arquiteturas 1 para a central G1
Figura 14 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.
38
Tabela 5 - Desempenho sobre a desvio padrão das arquiteturas 1 para a central G1
39
Figura 16 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação à correlação de Pearson.
40
Figura 17 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação ao RMSD.
41
Figura 18 - Melhora sobre a persistência para a central G1 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.
42
Figura 19 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G1.
43
Para as arquiteturas 2, a arquitetura convolucional liderou na correlação (figura
24), no RMSD (figura 24) e na reprodução do desvio padrão (figura 25), mas nota-se
indícios de mau treinamento de todas as redes avaliadas.
Figura 20 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.
44
Figura 21 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao RMSD.
45
Figura 22 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.
46
Figura 23 - Diagrama de Taylor para as arquiteturas 1 aplicadas à central G2.
47
Figura 24 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação à correlação de pearson.
48
Figura 25 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação ao RMSD.
49
Figura 26 - Melhora sobre a persistência para a central G2 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.
Tabela 14 - Desempenho sobre o desvio padrão das arquiteturas 2 para a central G2.
50
Figura 27 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G2.
51
correlação de Pearson e ao RMSD, mostradas, respectivamente, nas figuras 32 e 33.
Quanto à repodução do desvio padrão, houve vantagem para a arquitetura
convolucional (figura 34). A figura 35 mostra no diagrama de Taylor os estatísticos da
previsão dos modelos para todos os horizontes.
Figura 28 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação à correlação de Pearson.
52
Tabela 15 - Desempenho sobre a correlação das arquiteturas 1 para a central G3.
Figura 29 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação ao RMSD.
53
Tabela 16 - Desempenho sobre o RMSD das arquiteturas 1 para a central G3.
Figura 30 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 1
com relação ao desvio padrão.
54
Tabela 17 - Desempenho sobre desvio padrão das arquiteturas 1 para a central G3.
55
Figura 32 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação à correlação de Pearson.
56
Figura 33 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação ao RMSD.
57
Figura 34 - Melhora sobre a persistência para a central G3 dos diferentes modelos com arquitetura 2
com relação ao desvio padrão.
Tabela 20 - Desempenho sobre o desvio padrão das arquiteturas 2 para a central G3.
58
Figura 35 - Diagrama de Taylor para as arquiteturas 2 aplicadas à central G3.
59
6 CONCLUSÃO E PERSPECTIVAS
60
motivos pelas quais as redes LSTM reproduzem melhor os estatísticos;
• Estudar e entender as anomalias apresentadas nos gráficos da IOP que
sugerem underfitting em algumas situações.
61
REFERÊNCIAS BIBLIOGRÁFICAS
Cutler, N., et al. 2007. Detecting, categorizing and forecasting large ramps in wind
farm power output using meteorological obervations and WPPT. s.l. : Wind Energy,
2007. pp. 453-470.
Hasim, Sak, Senior, Andrew and Francoise, Beaufays. 2014. Long Short-Term
Memory recurrent neural network architectures for large scale acoustic modeling.
2014.
Haykin, Simon. 2009. Neural networks and learning machines. New York : Prentice
Hall, 2009.
—. 2001. Redes neurais artificiais. 2001.
Hebb, Donald. 1949. The Organization of Behavior. New York : Wiley, 1949.
Hochreiter, Sepp and Schmidhuber, Jürgen. 1997. Long Short-term memory. s.l. :
Neural Computation, 1997.
62
Li, G. and Shi, J. 2010. On comparing three artificial neural networks for wind speed
forecasting. s.l. : Applied Energy, 2010.
McCulloch, Warren and Pitts, Walter. 1943. A Logical Calculus of Ideas Immanent
in Nervous Activity. s.l. : Bulletin of mathematical Biophysics, 1943.
—. 1943. A Logical Calculus of Ideas Immanent in Nervous Activity. s.l. : Bulletin of
Mathematical Biophysics, 1943.
More, A. and Deo, M. C. 2003. Forecasting wind with neural networks. s.l. : Marine
Structures, 2003.
Nielsen, T. S., et al. 1998. A new reference for wind power forecasting. . s.l. : Wind
Energy, 1998.
Shuhui, Li, et al. 2001. Using neural networks to estimate wind turbine power
generation. . s.l. : IEEE, 2001.
Vanhoucke, Vincent, Senior , Andrew and Mao., Mark Z. 2001. Improving the
speed of neural networks on CPUs. 2001.
Vanhoucke, Vincent, Senior, Andrew and Mao, Mark. 2011. Improving the speed
63
of neural networks on CPUs. 2011.
Widrow, Bernard and Hoff, Marcian. 1960. Adaptive switching circuits. s.l. :
Stanford Univ Ca Stanford Eletronics Labs, 1960.
Xiangang, Li and Xihong, Wu. 2015. Constructing Long Short-Term Memory based
Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition. 2015.
Yoon, Kim. 2014. Convolutional neural networks for sentence classification. 2014.
64