Você está na página 1de 123

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo


Recursivo

Campinas
2014

i
ii
Universidade Estadual de Campinas
Faculdade de Engenharia Elétrica e de Computação

Raul Arthur Fernandes Rosa

Redes Neurais Evolutivas com Aprendizado Extremo


Recursivo

Dissertação de Mestrado apresentada ao Programa de Pós-


Graduação em Engenharia Elétrica da Faculdade de Enge-
nharia Elétrica e de Computação da Universidade Estadual
de Campinas para obtenção do tı́tulo de Mestre em Engenha-
ria Elétrica.
Área de Concentração: Engenharia de Computação.

Orientador: Fernando Antonio Campos Gomide


Coorientador: Marcos Eduardo Ribeiro do Valle Mesquita

Este exemplar corresponde à versão final da dissertação


defendida pelo aluno Raul Arthur Fernandes Rosa, e orien-
tada pelo Prof. Dr. Fernando Antonio Campos Gomide

Campinas
2014

iii
Ficha catalográfica
Universidade Estadual de Campinas
Biblioteca da Área de Engenharia e Arquitetura
Rose Meire da Silva - CRB 8/5974

Rosa, Raul Arthur Fernandes, 1989-


R71r RosRedes neurais evolutivas com aprendizado extremo recursivo / Raul Arthur
Fernandes Rosa. – Campinas, SP : [s.n.], 2014.

RosOrientador: Fernando Antonio Campos Gomide.


RosCoorientador: Marcos Eduardo Ribeiro do Valle Mesquita.
RosDissertação (mestrado) – Universidade Estadual de Campinas, Faculdade de
Engenharia Elétrica e de Computação.

Ros1. Redes neurais artificiais. 2. Aprendizagem. 3. Computação evolutiva. 4.


Sistemas nebulosos. I. Gomide, Fernando Antonio Campos,1951-. II. Mesquita,
Marcos Eduardo Ribeiro do Valle. III. Universidade Estadual de Campinas.
Faculdade de Engenharia Elétrica e de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Evolving neural networks with recursive extreme learning
Palavras-chave em inglês:
Artificial neural networks
Learning
Evolutionary computation
Fuzzy systems
Área de concentração: Engenharia de Computação
Titulação: Mestre em Engenharia Elétrica
Banca examinadora:
Fernando Antonio Campos Gomide [Orientador]
Michel Bortolini Hell
Romis Ribeiro de Faissol Attux
Data de defesa: 25-08-2014
Programa de Pós-Graduação: Engenharia Elétrica

iv
v
vi
Resumo

Esta dissertação estuda uma classe de redes neurais evolutivas para modelagem
de sistemas a partir de um fluxo de dados. Esta classe é caracterizada por redes
evolutivas com estruturas feedforward e uma camada intermediária cujo número de
neurônios é variável e determinado durante a modelagem. A aprendizagem consiste
em utilizar métodos de agrupamento para estimar o número de neurônios na camada
intermediária e algoritmos de aprendizagem extrema para determinar os pesos da
camada intermediária e de saı́da da rede. Neste caso, as redes neurais são chamadas
de redes neurais evolutivas. Um caso particular de redes evolutivas é quando o
número de neurônios da camada intermediária é determinado a priori, mantido fixo,
e somente os pesos da camada intermediária e de saı́da da rede são atualizados de
acordo com dados de entrada. Os algoritmos de agrupamento e de aprendizagem
extrema que compõem os métodos evolutivos são recursivos, pois a aprendizagem
ocorre de acordo com o processamento de um fluxo de dados.
Em particular, duas redes neurais evolutivas são propostas neste trabalho. A
primeira é uma rede neural nebulosa hı́brida evolutiva. Os neurônios da camada
intermediária desta rede são unineurônios, neurônios nebulosos com processamento
sináptico realizado por uninormas. Os neurônios da camada de saı́da são sigmoi-
dais. Um algoritmo recursivo de agrupamento baseado em densidade, chamado de
nuvem, é utilizado para particionar o espaço de entrada-saı́da do sistema e estimar
o número de neurônios da camada intermediária da rede; a cada nuvem corresponde
um neurônio. Os pesos da rede neural nebulosa hı́brida são determinados utilizando
a máquina de aprendizado extremo com o algoritmo quadrados mı́nimos recursivo
ponderado. O segundo tipo de rede proposto neste trabalho é uma rede neural mul-
ticamada evolutiva com neurônios sigmoidais na camada intermediária e de saı́da.
Similarmente à rede hı́brida, nuvens particionam o espaço de entrada-saı́da do sis-

vii
tema e são utilizadas para estimar o número de neurônios da camada intermediária.
O algoritmo para determinar os pesos da rede é a mesma versão recursiva da máquina
de aprendizado extremo. Além das redes neurais evolutivas, sugere-se também uma
variação da rede adaptativa OS-ELM (online sequential extreme learning machine)
mantendo o número de neurônios na camada intermediária fixo e introduzindo neurô-
nios sigmoidais na camada de saı́da. Neste caso, a aprendizagem usa o algoritmo
dos quadrados mı́nimos recursivo ponderado no aprendizado extremo.
As redes foram analisadas utilizando dois benchmarks clássicos: identificação de
forno a gás com o conjunto de dados de Box-Jenkins e previsão de série temporal
caótica de Mackey-Glass. Dados sintéticos foram gerados para analisar as redes
neurais na modelagem de sistemas com parâmetros e estrutura variantes no tempo
(concept drif e concept shift). Os desempenhos foram quantificados usando a raiz
quadrada do erro quadrado médio e avaliados com o teste estatı́stico de Deibold-
Mariano. Os desempenhos das redes neurais evolutivas e da rede adaptativa foram
comparados com os desempenhos da rede neural com aprendizagem extrema e dos
métodos de modelagem evolutivos representativos do estado da arte. Os resultados
mostram que as redes neurais evolutivas sugeridas neste trabalho são competitivas
e têm desempenhos similares ou superiores às abordagens evolutivas propostas na
literatura.

Palavras chave: sistemas evolutivos; redes neurais evolutivas; aprendizado extremo;


modelagem de processos.

viii
Abstract

This dissertation studies a class of evolving neural networks for system modeling
from data streams. The class encompasses single hidden layer feedforward neu-
ral networks with variable and online definition of the number of hidden neurons.
Evolving neural network learning uses clustering methods to estimate the number
of hidden neurons simultaneously with extreme learning algorithms to compute the
weights of the hidden and output layers. A particular case is when the evolving
network keeps the number of hidden neurons fixed. In this case, the number of hid-
den neurons is found a priori, and the hidden and output layer weights updated as
data are input. Clustering and extreme learning algorithms are recursive. Therefore,
the learning process may occur online or real-time using data stream as input.
Two evolving neural networks are suggested in this dissertation. The first is an
evolving hybrid fuzzy neural network with unineurons in the hidden layer. Unineu-
rons are fuzzy neurons whose synaptic processing is performed using uninorms. The
output neurons are sigmoidals. A recursive clustering algorithm based on density and
data clouds is used to granulate the input-output space, and to estimate the number
of hidden neurons of the network. Each cloud corresponds to a hidden neuron. The
weights of the hybrid fuzzy neural network are found using the extreme learning ma-
chine and the weighted recursive least squares algorithm. The second network is an
evolving multilayer neural network with sigmoidal hidden and output neurons. Like
the hybrid neural fuzzy network, clouds granulate the input-output space and gives
the number of hidden neurons. The algorithm to compute the network weights is the
same recursive version of the extreme learning machine. A variation of the adaptive
OS-ELM (online sequential extreme learning machine) network is also suggested.
Similarly as the original, the new OS-ELM fixes the number of hidden neurons, but
uses sigmoidal instead of linear neurons in the output layer. The new OS-ELM also
uses weighted recursive least square.

ix
The hybrid and neural networks were evaluated using two classic benchmarks:
the gas furnace identification using the Box-Jenkins data, and forecasting of the cha-
otic Mackey-Glass time series. Synthetic data were produced to evaluate the neural
networks when modeling systems with concept drift and concept shift. This a mode-
ling circumstance in which system structure and parameters change simultaneously.
Evaluation was done using the root mean square error and the Deibold-Mariano
statistical test. The performance of the evolving and adaptive neural networks
was compared against neural network with extreme learning, and evolving mode-
ling methods representative of the current state of the art. The results show that
the evolving neural networks and the adaptive network suggested in this disserta-
tion are competitive and have similar or superior performance than the evolving
approaches proposed in the literature.

Keywords: evolving systems; evolving neural networks; extreme learning; system


modeling.

x
Sumário

1 Introdução 1
1.1 Motivação e Relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Redes Neurais Nebulosas 5


2.1 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Redes Neurais Nebulosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Neurônios and e or . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Unineurônios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3 Sistemas Nebulosos Evolutivos e Aprendizado Extremo 17


3.1 Sistemas Nebulosos Evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Takagi-Sugeno Evolutivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1.2 Modelo Nebuloso Evolutivo Baseado em Nuvens . . . . . . . . . . . . . . 21
3.2 Aprendizado Extremo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Aprendizado Extremo Recursivo . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4 Redes Neurais com Aprendizado Extremo Recursivo 33


4.1 Rede Neural Nebulosa Hı́brida Evolutiva . . . . . . . . . . . . . . . . . . . . . . 34
4.1.1 Estrutura da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1.2 Partição e Representação do Espaço de Entrada-Saı́da . . . . . . . . . . 38
4.1.3 Algoritmo de Aprendizagem da eHFN . . . . . . . . . . . . . . . . . . . 42
4.2 Rede Neural Evolutiva com Aprendizado Extremo Recursivo . . . . . . . . . . . 44
4.2.1 Estrutura da Rede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

xi
4.2.2 Definição do Número de Neurônios na Camada Intermediária . . . . . . . 48
4.2.3 Algoritmo de Aprendizagem da eNNEL . . . . . . . . . . . . . . . . . . . 48
4.3 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5 Resultados Computacionais 51
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Critérios de Avaliação e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Raiz Quadrada do Erro Quadrado Médio . . . . . . . . . . . . . . . . . . 52
5.2.2 Teste Estatı́stico Diebold-Mariano . . . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Validação Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Identificação de Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4 Previsão de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Série Temporal Mackey-Glass . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Série Temporal Não Linear . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6 Conclusão 87

Bibliografia 89

xii
Agradecimentos

Agradeço,

ao professor Fernando Gomide, pela oportunidade, disponibilidade e pelos ensinamentos tão


valiosos.

ao professor Marcos Eduardo Valle, por mais de 4 anos de parceria.

aos professores da banca, Michel Hell e professor Romis Attux pelas considerações e enriqueci-
mento do trabalho.

aos colegas de orientação: Thomas Barlett e Leandro Maciel, pelas conversas e ajudas nos mo-
mentos de necessidade.

aos amigos que fiz na APOGEEU: Alan, Rafael, Edgar, Thisien, Eliezer, David, Saullo, Micael
e Clarissa, pelo mútuo interesse em construir uma pós-graduação melhor e além do laboratório.

aos professores e funcionários da FEEC, que fazem deste curso de pós-graduação um dos me-
lhores do paı́s.

à CAPES, pelo apoio financeiro fornecido.

aos amigos de república: Seike, Victor, Lucas e Natalia, pelas conversas enriquecedoras e par-
ceria.

aos meus amigos de longa data: Jef, João, Marcel, Eduardo e Adalberto, pelos mais de 10 anos
de companheirismo.

em especial, à minha famı́lia, Luis, Leila, Lara e Vitória, as pessoas mais importantes da minha
vida.

à minha namorada e melhor amiga, Lara, pelo apoio e dedicação nesses 5 anos de amor.

xiii
xiv
O revolucionário é o homem que transgride, que
não aceita, uma regra injusta. Respeite todas as
regras justas, respeite pela sua consciência, não
passe em cima do direito de ninguém. Agora, a
regra injusta a gente não aceita.

O revolucionário Plı́nio de Arruda Sampaio

xv
xvi
Lista de Figuras

2.1 Neurônio artificial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6


2.2 Rede neural artificial feedforward de única camada intermediária. . . . . . . . . 6
2.3 Neurônio nebuloso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Neurônio lógico do tipo and. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Neurônio lógico do tipo or. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6 Unineurônio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.7 Exemplos de uninormas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1 Demonstração do potencial (Lemos; 2011). . . . . . . . . . . . . . . . . . . . . . 20


3.2 Diferenças entre nuvens e grupos (Angelov e Yager; 2011a). . . . . . . . . . . . . 23

4.1 Estrutura da rede neural nebulosa hı́brida evolutiva. . . . . . . . . . . . . . . . . 36


4.2 Estrutra da rede neural evolutiva com aprendizado extremo recursivo. . . . . . . 46

5.1 Treinamento e validação para os dados Box-Jenkins. . . . . . . . . . . . . . . . . 56


5.2 Boxplot para os dados Box-Jenkins, para o conjunto Todos. . . . . . . . . . . . . 58
5.3 Saı́das das redes para os dados Box-Jenkins, para o conjunto Todos. . . . . . . . 60
5.4 Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto
Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.5 Boxplot para os dados Box-Jenkins, para o conjunto Fim. . . . . . . . . . . . . . 62
5.6 Saı́das das redes para os dados Box-Jenkins, para o conjunto Fim. . . . . . . . . 64
5.7 Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto Fim. 65
5.8 Treinamento e validação para a série Mackey-Glass. . . . . . . . . . . . . . . . . 65
5.9 Boxplot para a série temporal Mackey-Glass, para o conjunto Todos. . . . . . . . 66
5.10 Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Todos. . . 68

xvii
5.11 As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.12 Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.13 Boxplot para a série temporal Mackey-Glass, para o conjunto Fim. . . . . . . . . 71
5.14 Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Fim. . . . 73
5.15 As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.16 Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.17 Treinamento e validação para a série temporal não linear. . . . . . . . . . . . . . 77
5.18 Boxplot para a série temporal não linear, para o conjunto Todos. . . . . . . . . . 78
5.19 Saı́das das redes para a série temporal não linear, para o conjunto Todos. . . . . 80
5.20 Evolução do número de neurônios para a série temporal não linear, para o con-
junto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.21 Boxplot para a série temporal não linear, para o conjunto Fim. . . . . . . . . . . 82
5.22 Saı́das das redes para a série temporal não linear, para o conjunto Fim. . . . . . 84
5.23 Evolução do número de neurônios para a série temporal não linear, para o con-
junto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

xviii
Lista de Tabelas

5.1 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Todos. . . 57


5.2 Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos. . . . . 58
5.3 Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos. 59
5.4 Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Fim. . . . . 61
5.5 Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim. . . . . . 62
5.6 Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim. 63
5.7 Desempenho para a série temporal Mackey-Glass, para o conjunto Todos. . . . . 66
5.8 Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Todos. 67
5.9 Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o
conjunto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.10 Desempenho para a série temporal Mackey-Glass, para o conjunto Fim. . . . . . 71
5.11 Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Fim. 72
5.12 Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o
conjunto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.13 Série temporal não linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.14 Desempenho para a série temporal não linear, para o conjunto Todos. . . . . . . 78
5.15 Teste estatı́stico DM para a série temporal não linear, para o conjunto Todos. . 79
5.16 Resumo do teste estatı́stico DM para a série temporal não linear, para o conjunto
Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.17 Desempenho para a série temporal não linear, para o conjunto Fim. . . . . . . . 82
5.18 Teste estatı́stico DM para a série temporal não linear, para o conjunto Fim. . . . 83
5.19 Resultados do teste estatı́stico DM para a série temporal não linear, para o con-
junto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

xix
xx
Lista de Acrônimos

OS-ELM Online Sequential Extreme Learning Machine


TS Takagi-Sugeno
eTS evolving Takagi-Sugeno
ANYA ANgelov e YAger
NN Neural Network (rede neural)
SLFN Single Hidden Layer Feedforward Neural Networks
FRB Fuzzy Rule-Based
FNN Fuzzy Nerual Networks
ANFIS Adaptive-Network-Based Fuzzy Inference System
eFNN Evolving Fuzzy Neural Network
eFS evolving Fuzzy Systems
ELM Extreme Learning Machines
RLS Recursive Least Squares
OS-ELMn Online Sequential Extreme Learning Machine with Nonlinear function
EM Expectation Maximization
eHFN evolving Hybrid Fuzzy Neural network
WRLS Weighted Recursive Least Squares
OP-ELM Optimally Pruned Extreme Learning Machine
eNNEL evolving Neural Network with recursive Extreme Learning
DENFIS Dynamic Evolving Neuro-Fuzzy Inference System
RMSE Root Mean Squared Error
DM Diebold-Mariano

xxi
xxii
Lista de Notação

A matriz
x vetor
T
A transposta da matriz A
A−1 inversa da matriz A
<n conjunto dos números reais n-dimensional
t instante, estágio ou etapa em processos iterativos/construtivos
(x t y) Norma triangular (t-norma) entre x e y
T(.) Operador t-norma
(x s y) Conorma triangular (s-norma) entre x e y
S(.) Operador s-norma
(x u y) Uninorma entre x e y
U(.) Operador de uninorma
γ densidade local de uma nuvem
µ valor modal local de uma nuvem
Γ densidade global das nuvens
µG valor modal global das nuvens
M número de elementos de uma nuvem
K dispersão local de uma nuvem
U ti utilidade de uma nuvem
[] elemento escalar ou vetorial vazio
W matriz de pesos sinápticos da camada intermediária de uma rede neural
w vetor de pesos sinápticos da camada intermediária de uma rede neural
R matriz de pesos sinápticos da camada saı́da de uma rede neural
r vetor de pesos sinápticos da camada de saı́da de uma rede neural
ŷ saı́da dos modelos
In matriz identidade de dimensão n × n
|| · || norma Euclidiana
xxiii
xxiv
Trabalhos Publicados Pelo Autor

Congressos Internacionais

Rosa, R.; Gomide, F.; Dovzan, D.; Skrjanc, I. (2014). Evolving Neural Network with Extreme
Learning for System Modeling. Proceedings of the IEEE Conference on Evolving and Adaptive
Intelligent Systems, Linz, AT, v. 1, p. 1-7.

Rosa, R.; Maciel, L. S.; Gomide, F.; Ballini, R. (2014). Evolving Hybrid Neural Fuzzy Network
for Realized Volatility Forecasting with Jumps. Proceedings of the IEEE Computational Intel-
ligence for Financial Engineering & Economics, London, UK, v. 1, p. 1-8.

Rosa, R.; Ballini, R.; Gomide, F (2013). Evolving Hybrid Neural Fuzzy Network for System
Modeling and Time Series Forecasting. Proceedings of the International Conference on Machine
Learning and Applications, Miami, USA, v. 2, p. 378-383.
Congressos Nacionais

Rosa, R.; Gomide, F.; Ballini, R. (2013). Rede Neuro-Fuzzy Evolutiva com Neurônios Baseados
em Uninormas para Previsão de Séries Temporais. Anais do Simpósio Brasileiro de Automação
Inteligente, Fortaleza, Ceará, v. 1, p. 1-6.

xxv
xxvi
Capı́tulo 1
Introdução

1.1 Motivação e Relevância


Modelos de inteligência computacional se inspiram em processos naturais para a resolução
de problemas como otimização, automação, modelagem, controle, entre outros. Os modelos são
baseados na forma de pensar do ser humano, a estrutura do cérebro, divisão celular, organização
de formigas, abelhas, etc. Dois paradigmas de inteligência computacional são as redes neurais
artificiais e os sistemas nebulosos.
Redes neurais artificiais são modelos matemáticos baseados nos componentes e estrutura
cerebral, como os neurônios e suas conexões sinápticas (Haykin; 2009). Elas visam emular
a capacidade de aprendizagem, reconhecimento de padrões, memória, etc., das redes neurais
naturais. A aprendizagem de uma rede neural artificial advém da seleção de sua estrutura
e dos parâmetros correspondentes. Redes neurais são utilizadas nas mais diversas aplicações,
como reconhecimento de fala, previsão no mercado financeiro, controle de processos não lineares,
classificação, etc.
Tipicamente, métodos clássicos de aprendizagem de redes neurais tem o propósito de deter-
minar os pesos sinápticos das redes (Rumelhart et al.; 1986; Huang et al.; 2004). Atualmente,
observa-se um grande interesse por algoritmos de aprendizagem que determinem tanto a estru-
tura como os pesos da rede neural. Por exemplo, algoritmos construtivos (crescimento, poda,
crescimento-poda) e algoritmos evolucionários (Liu et al.; 2010; Fangju; 2011; Miche et al.;
2010; Feng et al.; 2009; Islam et al.; 2009a,b; Javan et al.; 2010; Pisani e Lorena; 2012) são duas
alternativas propostas na literatura.
Sistemas nebulosos constituem um arcabouço formal para tratar informação e dados im-
precisos. Fundamentais neste arcabouço são as noções de conjunto nebuloso, variável linguı́s-

1
2 Capı́tulo 1. Introdução

tica, relação nebulosa, operações com conjuntos e relações nebulosas. Estas noções fornecem o
substrato para construir modelos e controladores nebulosos com estrutura neural, linguı́stica,
funcional ou hı́bridas. Um tipo de sistema nebuloso particular é aquele baseado em regras
nebulosas. Regras nebulosas podem originar do conhecimento especialista, de dados, ou de
ambos. Em geral a aquisição de conhecimento especialista é complexa e métodos baseados em
dados tornaram-se uma alternativa para desenvolver e complementar abordagens baseadas em
conhecimento especialista. Mais recentement, sistemas evolutivos que produzem bases de regras
nebulosas, ou determinam a estrutura de redes neurais, simultaneamente com os respectivos pa-
râmetros foram propostas na literatura (Kasabov e Filev; 2006; Angelov e Filev; 2004; Angelov
e Yager; 2011a; Angelov et al.; 2010).
Sistemas evolutivos são sistemas adaptativos de alto nı́vel, pois eles determinam sua es-
trutura e respectivos parâmetros de forma simultânea, gradual e incremental. Portanto, são
sistemas capazes de aprender a partir de um fluxo de dados, o que é muito conveniente em
ambientes on-line ou tempo real. Por exemplo, uma base de regras nebulosas pode ser reduzida
ou expandida de modo a se adaptar à situação indicada pelos dados de entrada. Em geral,
sistemas nebulosos evolutivos podem ser vistos como uma combinação de modelos nebulosos,
mecanismos de representação e compactação de dados, e métodos recursivos de aprendizado de
máquina (Kasabov e Filev; 2006).
Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar
e processar informações imprecisas com a capacidade de aprendizado e aproximação das redes
neurais artificiais. Redes neurais nebulosas evolutivas, assim como os sistemas evolutivos, são
capazes de adaptar sua estrutura (topologia da rede) e atualizar seus parâmetros (pesos da
rede) de acordo com um fluxo de dados (Angelov e Filev; 2004; Angelov e Xiaowei; 2006).
Encontram-se na literatura aplicações de redes neurais nebulosas evolutivas para previsão de
preço de ações (Nguyen e Quek; 2010), modelo térmico de transformadores de potência (Souza
et al.; 2012), previsão de estado (Wang et al.; 2012), entre outras (Leite et al.; 2012; Wang et al.;
2012; Nguyen e Quek; 2010).

1.2 Objetivos
O objetivo deste trabalho é desenvolver e estudar redes neurais evolutivas para modelagem
de processos não lineares e variantes no tempo a partir de um fluxo de dados. As redes neurais
evolutivas adaptam sua estrutura e respectivos parâmetros simultaneamente usando algoritmos
1.3. Organização do Trabalho 3

recursivos de aprendizagem. A ênfase deste trabalho é em redes neurais feedforward com uma
camada intermediária. A adaptação da estrutura se dá pela variação do número de neurônios
da camada intermediária. Os parâmetros correspondem aos pesos associados às conexões entre
os neurônios da camada de entrada e a camada intermediária (pesos da camada intermediária)
e aos pesos associados às conexões entre a camada intermediária e a camada de saı́da (pesos
da camada de saı́da). A adaptação de uma rede ocorre sempre que cada novo dado de entrada
é processado e o resultado deste processamento indique a necessidade de adaptação à situação
atual. Assume-se um fluxo de dados na entrada, isto é, o processamento de dados é sequencial,
sem a obrigatoriedade de armazenar e reprocessar todos dados processados anteriormente.
São propostas duas redes neurais evolutivas com aprendizado extremo recursivo e uma rede
neural que é uma variação da rede adaptativa OS-ELM (Liang et al.; 2006). A primeira é uma
rede neural nebulosa hı́brida evolutiva com unineurônios na camada intermediária e neurônios
sigmoidais na camada de saı́da. Unineurônios são neurônios artificiais nebulosos com proces-
samento sináptico baseado em uninormas. Um algoritmo de agrupamento recursivo baseado
no conceito de nuvem é utilizado para granularizar o espaço de entrada-saı́da do processo a
ser modelado. Um algoritmo de aprendizado extremo recursivo é utilizado para determinar os
parâmetros da rede neural, isto é, os pesos das camadas intermediária e de saı́da.
A segunda é uma rede neural evolutiva com aprendizado extremo recursivo. Esta rede neural
utiliza neurônios sigmoidais na camada intermediária e de saı́da. Esta rede também utiliza um
algoritmo de agrupamento recursivo baseado em nuvens. Contudo, neste caso o número de
nuvens define o número de neurônios da camada intermediária: a cada nuvem é associado um
neurônio desta camada. O algoritmo recursivo de aprendizado extremo também é utilizado para
atualizar os pesos da camada intermediária e de saı́da.
A variação da rede OS-ELM sugerida nessa dissertação tem a mesma estrutura e parâmetros
da rede original. Porém, diferentemente da rede OS-ELM, os neurônios de saı́da têm funções
de ativação sigmoidais em vez de lineares. Além disso, o algoritmo dos quadrados mı́nimos
recursivo original é substituı́do por sua versão ponderada.

1.3 Organização do Trabalho


Esta dissertação está organizada da seguinte forma. Após esta introdução, o Capı́tulo 2 trata
de redes neurais e redes neurais nebulosas. Os conceitos básicos de redes neurais artificiais e de
sistemas nebulosos são revistos para, a seguir, caracterizar a classe de redes neurais nebulosas
4 Capı́tulo 1. Introdução

de interesse neste trabalho. Em particular, este capı́tulo apresenta os conceitos de t-norma,


s-norma e uninorma assim como neurônios nebulosos do tipo and e or e o unineurônio.
O Capı́tulo 3 resume as noções de sistemas nebulosos funcionais evolutivos e de aprendizado
extremo. Dois sistemas evolutivos são enfatizados, ambos modelos funcionais do tipo Takagi-
Sugeno (TS). O primeiro, chamado de eTS (evolving Takagi-Sugeno) (Angelov e Filev; 2004)
utiliza algoritmos recursivos de agrupamento baseado em densidade e no quadrados mı́nimos. O
segundo, ANYA (Angelov e Yager; 2011a) utiliza algoritmos recursivos de agrupamento baseado
em nuvem e no quadrados mı́nimos. A máquina de aprendizado extremo (Huang et al.; 2004)
é apresentada em seguida, incluindo a máquina de aprendizado extremo sequencial OS-ELM e
exemplos de aplicações mencionadas na literatura.
O Capı́tulo 4 detalha as redes neurais propostas neste trabalho: uma rede neural nebulosa
hı́brida evolutiva e a neural sigmoidal evolutiva. É feita uma análise da inserção das redes
propostas no estado da arte na área de redes neurais evolutivas.
O Capı́tulo 5 trata da avaliação de desempenho das redes neurais objeto deste trabalho. Ele
resume os resultados computacionais e compara as redes neurais propostas com as alternativas de
modelagem evolutiva mais representativas da literatura. Dois casos clássicos são considerados,
a identificação de forno a gás usando os dados de Box-Jenkins, e a previsão da série temporal
de Mackey-Glass. Considera-se também um processo não linear variante no tempo para gerar
dados sintéticos com concept drift e concept shift. O propósito é o de avaliar o desempenho das
redes neurais e sistemas evolutivos na modelagem de sistemas não lineares variantes no tempo
(parâmetros e estrutura do processo). O desempenho dos sistemas são comparados utilizando
a raiz quadrada do erro quadrado médio, o teste estatı́stico Deibold-Mariano, o número de
regras/neurônios e o tempo de processamento.
Finalmente, o Capı́tulo 6 conclui o trabalho resumindo suas principais contribuições e suge-
rindo temas para trabalhos futuros.
Capı́tulo 2
Redes Neurais Nebulosas

Redes neurais nebulosas são destaque na literatura devido à grande aplicabilidade, capaci-
dade de aprendizado e interpretação dos dados (Buckley e Hayashi; 1994; Lemos et al.; 2010).
Neste capı́tulo são apresentados conceitos básicos sobre sistemas neurais artificias e sistemas
nebulosos, sistemas neurais nebulosos e redes neurais nebulosas. Neurônios nebulosos do tipo
and e or e unineurônios são apresentados assim como t-normas, s-normas e uninormas.

2.1 Redes Neurais Artificiais

Redes neurais artificias, ou redes neurais (NN, Neural Network), são modelos matemáticos
inspirados nas redes neurais naturais e suas capacidades. As unidades básicas de processamento
das redes neurais são os neurônios artificiais. Em 1943, McCulloch e Pitts (1943) apresentaram
o primeiro modelo de neurônio artificial, um modelo matemático de um neurônio natural. Ro-
senblatt (1958), 15 anos após o primeiro modelo de neurônio artificial, propôs a primeira rede
neural chamada perceptron. As redes neurais emulam a capacidade de aprendizagem das re-
des neurais naturais, sendo capazes de aprender associações, padrões e dependências funcionais
(Hassoun; 1995). São utilizadas para reconhecimento de padrões, tomada de decisão, controle
de sistemas, previsão, etc.
A Figura 2.1 apresenta um modelo de neurônio artificial. Nesse modelo, os dados de entrada,
x = [x1 , . . . , xn ]T , são ponderados pelos pesos sinápticos w = [w1 , . . . , wn ]T através da multipli-
cação. Esses processamentos sinápticos, wi xi com i = 1, . . . , n, são agregados pelo operador de
P
soma, , como
X n
v= w i xi .
i=1

5
6 Capı́tulo 2. Redes Neurais Nebulosas

x1
w1

xi wi y
wn

xn

Figura 2.1: Neurônio artificial.

Figura 2.2: Rede neural artificial feedforward de única camada intermediária.

A função de ativação f é aplicada no resultado da agregação definindo a saı́da y. A função f


é geralmente escolhida como uma função sigmoidal, porém ela pode ser qualquer mapeamento
R → R. A saı́da do neurônio artificial é definida como segue

y = f (v). (2.1)

Uma rede neural feedforward de única camada intermediária (SLFN, Single hidden Layer
Feedforward Neural network), Figura 2.2, é um tipo de rede neural com um único fluxo de dados,
da camada de entrada para a camada de saı́da. Neste trabalho, as redes neurais propostas são
deste tipo.
Na camada de entrada da SLFN os dados de entrada, x, são inicialmente processados. As n
2.2. Redes Neurais Nebulosas 7

componentes do dado de entrada estão conectados aos N neurônios da camada intermediária,


ponderados pelos pesos intermediários W = [wil ], com i = 1, . . . , n e l = 1, . . . , N . As saı́das
dos neurônios da camada intermediária são definidas como

v l = f xT w l ,


onde wl = [w1l , . . . , wnl ]T , l = 1, . . . , N e f , como já dito, é usualmente escolhida como uma
função sigmoidal. As saı́das dos neurônios da camada intermediária, v = [v1 , . . . , vN ]T , são
ponderadas pelos pesos de saı́da R = [rjl ]. A saı́da da rede neural é definida como

ŷj = rj v, (2.2)

onde rj = [rj1 , . . . , rjN ], j = 1, . . . , m e m é o número de componentes do vetor de saı́da.


A aprendizagem das redes neurais advém do ajuste dos pesos sinápticos e da definição de
sua estrutura. A aprendizagem é chamada estática, ou treinamento, quando há disponı́vel a
priori um conjunto de dados para treinamento, validação e teste. Na aprendizagem dinâmica,
ou adaptação, os dados de entrada compõem um fluxo: a aprendizagem ocorre a cada dado de
entrada, de maneira recursiva. Em particular, pode-se realizar a aprendizagem estática, a fim
de determinar os parâmetros da rede neural, e, em seguida, processar um fluxo de dados com a
aprendizagem dinâmica.

2.2 Redes Neurais Nebulosas


Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar
e processar informações imprecisas com a capacidade de aprendizado e aproximação das redes
neurais. O objetivo é integrar os dois sistemas e combinar suas qualidades.
Nos anos 1960, Zadeh (1965) buscou generalizar o conceito de conjuntos clássicos e suas
operações, propondo os conjuntos nebulosos. A teoria dos conjuntos nebulosos traz um amparo
matemático para capturar incertezas associadas aos processos cognitivos humanos. Diferente
dos conjuntos clássicos, os conjuntos nebulosos permitem que um elemento pertença a mais de
um conjunto com diferentes graus de pertinência. Os graus de pertinência possuem valores no
intervalo [0,1]. Sistemas baseados na teoria de conjuntos nebulosos foram chamados de sistemas
nebulosos.
Um tipo de sistema nebuloso é o sistema nebuloso baseado em regras (FRB, Fuzzy Rule
8 Capı́tulo 2. Redes Neurais Nebulosas

Based). Os sistemas FRB possuem um conjunto de regras nebulosas que modelam localmente um
sistema. O desempenho dos sistemas FRB, em uma determinada aplicação, pode ser ajustado
modificando os parâmetros e número das regras nebulosas.
Ao combinar os sistemas nebulosos e as redes neurais, cria-se a possibilidade de tratar com
um sistema linguı́stico ao invés de modelos matemáticos complexos. Um sistema linguı́stico é
basicamente composto de regras nebulosas altamente intuitivas e facilmente compreendidas por
humanos. Além disso, o sistema neural nebuloso pode auto-ajustar os parâmetros das regras
nebulosas usando algoritmos de aprendizagem baseados nas redes neurais. Um tipo de sistema
neural nebuloso são as rede neurais nebulosas (FNN, Fuzzy Nerual Networks).
Na literatura, Lee e Lee (1974, 1975) foram pioneiros ao generalizar o neurônio artificial de
McCulloch-Pitts utilizando valores no intervalo de zero a um.
Kasabov (1996a) propôs a rede neural nebulosa chamada FuNN (Fuzzy Neural Network ).
A estrutura da rede FuNN é similar à estrutura de uma rede neural perceptron de múltiplas
camadas (MLP, Multilayer Perceptron) (Rosenblatt; 1958). O algoritmo de aprendizagem da
rede FuNN corresponde a uma metodologia do tipo backpropagation. A FuNN é um modelo
de FNN adaptável: as funções de pertinência dos antecedentes nebulosos e as regras nebulosas,
ambas definidas antes do treinamento, adaptam-se e modificam-se de acordo com os dados
de treinamento. Esta rede possui 5 camadas: a camada de entrada, camada dos elementos
condicionais, camada de regras, camada dos consequentes e a camada de saı́da.
Outra FNN, chamada sistema de inferência nebulosa baseado em redes adaptativas (ANFIS,
Adaptive-Network-Based Fuzzy Inference System) é uma FNN com destaque na literatura. Pro-
posta por Shing e Jang (1993), é uma rede neural nebulosa hı́brida que constrói um conjunto
de regras nebulosas do tipo se-então com função de pertinência apropriada para modelagem de
sistemas. A rede é composta de 6 camadas e pode ser comparada a um sistema de inferência ne-
bulosa. A primeira camada é a camada de entrada dos dados. A segunda camada representa os
dados de entrada através de funções de pertinência, e os parâmetros das funções de pertinência
representam os antecedentes do sistema nebuloso. Os neurônios na terceira camada realizam
o produto, ou outra t-norma, entre os diferentes graus das funções de pertinência para cada
dado de entrada. A quarta camada possui neurônios que normalizam as saı́das dos neurônios da
terceira camada. Na quinta camada, os neurônios multiplicam a saı́da dos neurônios da camada
anterior com uma função linear das entradas. Os parâmetros da função linear representam
os consequentes do sistema nebuloso. A última camada, a camada de saı́da, realiza a média
ponderada das saı́das dos neurônios da camada anterior.
2.2. Redes Neurais Nebulosas 9

Segundo Buckley e Hayashi (1994), redes neurais nebulosas são definidas de acordo com
os operadores escolhidos na agregação e ponderação, e nas definições das entradas e pesos. As
redes podem ser definidas como rede neural hı́brida, rede neural nebulosa e rede neural nebulosa
hı́brida.
Redes neurais hı́bridas utilizam neurônios com processamento sináptico e agregação definidos
por operadores dos sistemas nebulosos, as entradas e pesos possuem valores reais. Lin e Lee
(1996) chamaram esses neurônios de tipo I.
Nas redes neurais nebulosas, as entradas e/ou os pesos são nebulosos, ou seja, definidos por
graus de pertinência a conjuntos nebulosos, no intervalo [0,1]. Os processamentos sinápticos e
as agregações não são definidos por operadores dos sistemas nebulosos.
Como nas redes neurais hı́bridas, os processamentos sinápticos e as agregações das redes
neurais nebulosas hı́bridas utilizam operadores dos sistemas nebulosos, porém as entradas e/ou
pesos são nebulosos. Lin e Lee (1996) chamaram esses neurônios de tipo II. A rede ANFIS
utiliza neurônios do tipo II em sua terceira camada.
Neurônios cujos operadores são definidos pelos sistemas nebulosos são chamados neurônios
nebulosos (Pedrycz; 1993). Um neurônio nebuloso, Figura 2.3, é definido por suas duas opera-
ções, uma operação local, também chamada processamento sinápitico ou operador de pondera-
ção, ∗, que pondera as entradas xi com os pesos wi , e uma operação global, também chamada
de operador de agregação, ⊗, que combinam os processamentos sinápticos gerando a saı́da y,
equação (2.3). Ambas as operações, local e global, são realizadas por operadores dos sistemas
nebulosos. Se as entradas e os pesos forem valores reais, o neurônio é do tipo I, se as entradas
e/ou os pesos são nebulosos, o neurônio é do tipo II.

x1
w1
v1
xi wi vi y
vn
wn
xn

Figura 2.3: Neurônio nebuloso.

Em geral, um neurônio nebuloso é um mapeamento ⊗ : [0, 1]n → [0, 1] e pode ser descrito
10 Capı́tulo 2. Redes Neurais Nebulosas

da seguinte forma (Hell; 2008)

vi = wi ∗ xi , i = 1, 2, . . . , n,
(2.3)
y = ⊗(v1 , . . . , vn ) = v1 ⊗ . . . vn .
Nerônios do tipo and e or (Pedrycz e Rocha; 1993), unineurônios (Pedrycz; 2006a; Hell
et al.; 2009a,b; Lemos et al.; 2010) e nulneurônios (Hell et al.; 2008) são neurônios nebulosos
que utilizam operadores nebulosos tais como as t-normas, s-normas, uninormas e nulnormas, res-
pectivamente. Dependendo dos valores assumidos pelos pesos e entradas, os neurônios nebulosos
são definidos como neurônios do tipo I ou II.

2.2.1 Neurônios and e or


Operadores nebulosos são definidos pela teoria dos conjuntos nebulosos, e generalizam as
operações dos conjuntos clássicos (Pedrycz e Rocha; 1993). As normas triangulares t-norma
e s-norma, também chamada de t-conorma, são operadores que generalizam a intersecção e a
união dos conjuntos clássicos, respectivamente (Hájek; 2000). Estas normas são definidas da
seguinte forma:

Definição 1 (t-norma) Um operador binário, comutativo, associativo, monotônico e com ele-


mento neutro 1, T : [0, 1] × [0, 1] → [0, 1] que satisfaz T(x, 1) = x para todo x ∈ [0, 1] é chamado
norma triangular ou t-norma.

Exemplos de t-normas são as operações de produto e mı́nimo.

Definição 2 (s-norma) Um operador binário, comutativo, associativo, monotônico e com ele-


mento neutro 0, S : [0, 1] × [0, 1] → [0, 1] que satisfaz S(x, 0) = x para todo x ∈ [0, 1] é chamado
co-norma triangular ou s-norma.

Exemplos de s-norma são as operações de soma probabilı́stica e máximo. Outros exemplos


de t-normas e s-normas podem ser encontradas em (Klir e Yuan; 1995).
O neurônio nebuloso chamado neurônio lógico and, Figura 2.4, é obtido substituindo na
equação (2.3) o operador local por uma s-norma e o operador global por uma t-norma.
Reescrevendo a equação (2.3) desta forma, obtemos

vi = S(wi , xi ), i = 1, 2, . . . , n,
(2.4)
y = T(v1 , . . . , vn ),
ou simplesmente
2.2. Redes Neurais Nebulosas 11

x1
w1

xi wi
and y

wn
xn

Figura 2.4: Neurônio lógico do tipo and.

n
y = and(w, x) = T S(wi , xi ), (2.5)
i=1

onde x = [x1 , . . . , xn ]T é o vetor das entradas, xi ∈ [0, 1], w = [w1 , . . . , wn ]T é o vetor do pesos,
n
wi ∈ [0, 1], y ∈ [0, 1] é a saı́da e T (.) representa uma operação de t-normas.
i=1
O neurônio nebuloso chamado neurônio lógico or, Figura 2.5, é obtido substituindo o opera-
dor local, da equação (2.3), por uma t-norma e o operador global por uma s-norma, da seguinte
forma
x1
w1

xi wi
or y

wn
xn

Figura 2.5: Neurônio lógico do tipo or.

vi = T (wi , xi ), i = 1, 2, . . . , n,
(2.6)
y = S(v1 , . . . , vn ),
ou simplesmente
n
y = or(w, x) = S T (wi , xi ), (2.7)
i=1
n
onde S (.) representa uma operação de s-normas.
i=1
Os neurônios lógicos and e or (Pedrycz e Rocha; 1993) são utilizados em diversas redes
presentes na literatura. Originalmente, Pedrycz et al. (1995) propuseram FNNs que utilizam
neurônios and e or. As FNNs propostas são redes neurais nebulosas hı́bridas e são chamadas
de processadores lógicos. Os dois tipos de processadores lógicos possuem estruturas duais com
12 Capı́tulo 2. Redes Neurais Nebulosas

as mesmas definições para entradas e pesos sinápticos, ambos com neurônios do tipo II. O
que difere os dois tipos de processadores lógicos é o posicionamento dos neurônios and e or. No
primeiro processador lógico há h neurônios and na camada intermediária e somente um neurônio
or na camada de saı́da. Os neurônios and fornecem uma sequência de mintermos generalizados
do sistema, combinados através da união lógica realizada pelo neurônio or. Este processador é
conhecido como soma de mintermos. No segundo tipo de processador lógico, conhecido como
produto de maxitermos, a camada intermediária possui h neurônios or e somente um neurônio
and na camada de saı́da, que tem a função de agregar os maxitermos generalizados fornecidos
pela camada anterior (Hell; 2008).
Outra rede com neurônios and e or do tipo II, foi propostar por Caminhas et al. (1999).
Essa FNN é utilizada para problemas de classificação de padrões. A rede neural nebulosa
hı́brida apresenta o conhecimento adquirido de forma explı́cita: é possı́vel inserir ou extrair
conhecimento na forma de regras nebulosas do tipo se-então.
Ballini e Gomide (2002) propõem uma FNN recorrente com neurônios and e or do tipo
II. Nessa rede neural nebulosa hı́brida as duas primeiras camadas, com neurônios nebulosos,
formando um sistema de inferência nebulosa, a camada de saı́da é formada por uma rede neural
clássica que agrega as saı́das das regras nebulosas do sistema de inferência, formando uma
estrutura hı́brida (Hell; 2008).

2.2.2 Unineurônios

Neste trabalho, iremos utilizar neurônios nebulosos que utilizam uninormas em seus operado-
res, chamados unineurônios. Unineurônios possuem uma grande plasticidade: eles generalizam
os neurônios and e or, uma vez que a uninorma generaliza as t-normas e s-normas triangulares
(Yager e Rybalov; 1996). Essa plasticidade é obtida através do elemento neutro das uninormas.
Também chamado de elemento identidade, o elemento neutro pode assumir qualquer valor no
intervalo unitário; assim, a uninorma pode assumir o comportamento de uma t-norma, com
elemento identidade igual a 1, e de uma s-norma, com elemento identidade igual a 0, além de
possuir caracterı́sticas intermediárias quando o elemento identidade assume outros valores.
A definição de uninorma é da seguinte forma

Definição 3 (Uninorma) Um operador binário, comutativo, associativo, monotônico e com


elemento identidade no intervalo [0, 1], U : [0, 1] × [0, 1] → [0, 1], U (x, y) = x u y, é chamado
uninorma. Ou seja, para todo x, y, z ∈ [0, 1]
2.2. Redes Neurais Nebulosas 13

Comutatividade U (x, y) = U (y, x)


Monotonicidade U (x, y) ≥ U (z, v) para x > z e y > v
Associatividade U (x, U (y, z)) = U (U (x, y), z)
Elemento identidade ∃ algum e ∈ [0, 1] tal que U (x, e) = x ∀x ∈ [0, 1]

Exemplos de uninormas podem ser encontradas em Yager e Rybalov (1996).


O unineurônio, Figura 2.6, é obtido substituindo o operador local e global da equação (2.3)
por uninormas duais. Uninormas duais são um par de uninormas que possuem elemento iden-
tidade e = g ou e = (1 − g).
x1
w1
wi
xi Un y

wn
xn

Figura 2.6: Unineurônio.

A saı́da do unineurônio tem a seguinte forma

n
y = Un (w,x) = U xi u wi , (2.8)
i=1
n
onde xi é a i-ésima entrada e wi é o peso correspondente e U (.) representa uma operação de
i=1
uninormas. Em particular, se n = 1, então a saı́da, y, do unineurônio será

y = x i u wi .

Na literatura, Pedrycz (2006a) publicou um estudo pioneiro na aplicação de uninormas nos


operadores de um neurônio artificial. O autor explorou casos onde a uninorma era empregada
nos operadores locais ou nos operadores globais dos neurônios nebulosos. O autor afirma que al-
goritmos de aprendizagem para casos onde emprega-se a uninorma tanto para operadores locais,
como globais, seriam de dificil definição. Alguns anos mais tarde, Hell et al. (2009a) propõem
um algoritmo de aprendizagem para uma rede neural nebulosa hı́brida onde os neurônios uti-
lizavam uninormas como operador local e global. O processo de aprendizagem da rede neural
possui duas fases: a primeira consiste em agrupar o espaço entrada-saı́da e a segunda utiliza o
gradiente descendente para atualizar os pesos da rede.
14 Capı́tulo 2. Redes Neurais Nebulosas

Uma FNN com unineurônios do tipo II, proposta por Lemos et al. (2010), possui um al-
goritmo de aprendizagem também dividido em duas partes; na primeira, é realizado um agru-
pamento do espaço de entrada utilizando o fuzzy c-means. A segunda parte consiste em um
algoritmo genético que ajusta os parâmetros livres da rede neural nebulosa hı́brida. O unineurô-
nio da rede é visto como uma agregação de uninorma ponderada e outra singularidade é que o
elemento identidade é adicionado como parâmetro a ser otimizado.

Bordignon e Gomide (2014) propõem uma rede neural nebulosa evolutiva (eFNN, evolving
Fuzzy Neural Network) com unineurônios do tipo II. O processo de aprendizagem consiste em
agrupar os dados de entrada utilizando o fuzzy c-means e, para o ajuste dos parâmetros, é
utilizada uma versão recursiva da máquina de aprendizado extremo. A mesma versão recursiva
da máquina de aprendizado extremo é utilizada neste trabalho . Os autores conseguem provar
a capacidade de aproximação universal da rede neural nebulosa proposta quando treinada com
o aprendizado modo estático.

A uninorma utilizada neste trabalho é definida como (Pedrycz; 2006b)

  
e + (1 − e)S (a−e) , (b−e) , se a, b ∈ [e, 1]
(1−e) (1−e)
aub= , (2.9)
a b
 eT ( , ).e e
caso contrário

onde a t-norma é escolhida como o produto

T(a, b) = ab,

e a s-norma escolhida como a soma probabilı́stica

S(a, b) = a + b − ab.

Essa escolha resulta em uma superfı́cie mais suave para a função de ativação do neurônio nebu-
loso, ao contrário da combinação min-max que gera mudanças abruptas nos extremos de (a, e)
e (e, b) (Yager e Rybalov; 1996).

A superfı́cie gerada por essa uninorma é apresentada na Figura 2.7. As diferentes superfı́cies
são formadas escolhendo valores diferentes para o elemento identidade, e = [0, 1].
2.3. Resumo 15

a) e = 0, neunônio or. b) e = 0, 2.

c) e = 0, 4. d) e = 0, 6.

e) e = 0, 8. f) e = 1, neurônio and.

Figura 2.7: Exemplos de uninormas.

2.3 Resumo

Este capı́tulo apresentou uma breve revisão sobre redes neurais artificiais e neurônios arti-
ficiais. O principal foco foram as redes neurais nebulosas e os neurônios nebulosos. Algumas
16 Capı́tulo 2. Redes Neurais Nebulosas

redes neurais nebulosas com destaque na literatura são comentadas.


Conceitos de operadores nebulosos, t-normas, s-normas e uninormas são apresentados para
dar suporte as definições de neurônios nebulosos. Por fim, as redes neurais nebulosas com
neurônios nebulosos com neurônios do tipo and e or e com unineurônios são apresentadas.
Capı́tulo 3
Sistemas Nebulosos Evolutivos e Aprendizado
Extremo

Este capı́tulo está dividido em dois tópicos, o primeiro trata de sistemas nebulosos evolutivos,
apresenta alguns sistemas propostos na literatura, com enfoque em sistemas evolutivos que foram
utilizados de base para a produção deste trabalho. O segundo tópico apresenta os fundamentos
da máquina de aprendizado extremo e algumas aplicações presentes na literatura, além da
máquina de aprendizado sequencial online. Os principais conceitos apresentados aqui são o
sistema evolutivo ANYA e a máquina de aprendizado extremo sequencial online. Eles serão as
bases para a formulação das redes neurais propostas neste trabalho.

3.1 Sistemas Nebulosos Evolutivos


Sistemas nebulosos evolutivos (eFS, evolving Fuzzy Systems) são sistemas adaptativos que
modificam tanto sua estrutura como seus parâmetros conforme um fluxo de dados é processado.
Ou seja, a estrutura do sistema nebuloso evolutivo pode ser reduzida ou expandida de modo a
se adaptar à cada novo dado de entrada.
O termo “evolutivo” não pode ser confundido com “evolucionário”. Sistemas evolucionários
baseiam-se no processo de evolução que ocorre em uma população de indivı́duos e utilizam
operadores baseados em processos genéticos. Sistemas evolutivos são sistemas que modificam
sua estrutura e parâmetros a cada novo dado de entrada (Angelov e Xiaowei; 2006).
Sistemas nebulosos evolutivos podem ser vistos como uma combinação de modelos nebulosos,
um mecanismo evolutivo para representação e compactação dos dados de entrada e métodos
recursivos de aprendizado de máquina (Kasabov e Filev; 2006).

17
18 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Os sistemas nebulosos evolutivos surgiram devido à necessidade de um eficiente processa-


mento de informação e extração de conhecimento em sistemas complexos. No cenário atual,
os dados são obtidos em grandes quantidades, dinamicamente e na forma de um fluxo (Ange-
lov et al.; 2010). Para processar esses dados, novas metodologias foram propostas, capazes de
extrair conhecimento a partir dos dados, em tempo real (Kasabov; 1996b).
Nesta seção, serão apresentados dois sistemas nebulosos evolutivos, o eTS (Angelov; 2002) e
o ANYA (Angelov e Yager; 2011a), escolhidos por se tratarem de referências para a construção
deste trabalho.

3.1.1 Takagi-Sugeno Evolutivo

Os sistemas nebulosos baseado em regras (FRB, Fuzzy Rule-Based) chamados de Takagi-


Sugeno (TS), são sistemas nebulosos onde os antecedentes das regras nebulosas são termos
linguı́sticos e os consequentes são funções das variáveis dos antecedentes (Takagi e Sugeno;
1985). O modelo Takagi-Sugeno evolutivo (eTS, evolving Takagi-Sugeno) propõe uma atualiza-
ção do sistema de forma recursiva. Proposto por Angelov (2002), o modelo eTS determina os
antecedentes das regras por um processo de agrupamento não supervisionado. A estrutura do
modelo é flexı́vel, ou seja, a cada novo dado de entrada deve-se decidir como a base de regras será
atualizada, ajustando o número de regras e os parâmetros dos antecedentes (Angelov; 2002).
O modelos eTS é formado por um conjunto de regras nebulosas do tipo se-então, semelhante
ao modelo TS, da seguinte forma

Ri : SE xt1 é Ai1 E . . . E xtn é Ain ENTÃO yit = ai0 + ai1 xt1 + · · · + ain xtn ,

onde Ri é a i-ésima regra nebulosa para i = 1, . . . , Lt , Lt é o número de regras, xt = [xt1 , . . . , xtn ]T


∈ <n é o dado de entrada, Aij é a função de pertinência associada à j-ésima variável de entrada
t
da i-ésima regra nebulosa, yit ∈ <L é a saı́da linear do consequente da i-ésima regra e aij são
os parâmetros do modelo linear da regra i e t é o número da iteração.
Cada regra descreve comportamentos locais do conjunto de dados de entrada, aproximando
esses comportamentos por modelos lineares. O sistema não-linear é formado pela união dos
modelos lineares que fazem parte dos consequentes das regras (Angelov e Filev; 2004). O grau
de ativação de cada regra pondera a participação que o modelo linear local terá na saı́da total.
Os antecedentes das regras nebulosas são definidos por funções de pertinência Gaussianas
da seguinte forma (Angelov e Filev; 2004)
3.1. Sistemas Nebulosos Evolutivos 19

!
4
µij (xtj ) = exp − 2 ||xtj − x̌ij ||2 , (3.1)
σ ij

onde µij (xtj ) é o grau de pertinência do j-ésima componente do dado de entrada, xt , em Aij , x̌ij
é a j-ésima componente do centro ou ponto focal do grupo i, x̌i , e σij é a dispersão da função
de pertinência Aij e define a zona de influência do modelo presente na regra i e por fim || · ||
define a distância Euclidiana.
O grau de ativação da regra nebulosa i é definido pela conjunção dos graus de pertinência
do dado de entrada nos conjuntos nebulosos dos antecedentes desta regra, µij (xtj ), como segue

n
n Y
t t
τi (x ) = T µij (x ) = µij (xt ) = µi1 (xt1 ) × · · · × µin (xtn ), i = 1, . . . , Lt . (3.2)
j=1
j=1

A saı́da do modelo é definida como a média ponderada da saı́da de cada regra, como

L t
X
y= λi y i , (3.3)
i=1
.P
Lt
onde λi = τi (xt ) t
j=1 τj (x ) é o grau de ativação normalizado de cada regra i.
Para atualizar a base de regras, adicionando ou modificando regras existentes, o modelo
utiliza-se de um algoritmo de agrupamento recursivo não supervisionado. O agrupamento é
realizado no espaço de entrada-saı́da, z = [xT , yT ]T , e a estrutura do modelo é atualizada a
cada iteração. A base do algoritmo de agrupamento está na ideia de representatividade de cada
umas das novas entradas, calculada a partir de um potencial (Yager e Filev; 1994a).
A função potencial de um dado, zt , depende de todos os outros dados, através de uma medida
de proximidade como (Angelov e Filev; 2004)

t−1
t 1 X
P (z ) = exp(−r||zt − zk ||2 ), (3.4)
t − 1 k=1

onde r é uma constante positiva e t = 2, 3, . . . o ı́ndice dos dados já processadas.


A função potencial busca encontrar possı́veis dados que definam centro de regiões com con-
centração de dados. A Figura 3.1 apresenta a ideia da função potencial, onde o potencial do dado
B, PB , é maior que o potencial de A, PA . Regiões com maior concentração de dados apresen-
tarão maiores valores de potencial para cada dado. Ou seja, a função potencial é inversamente
proporcional às distâncias entre os dados.
Angelov e Filev (2004) propõem uma maneira de calcular o potencial de maneira recursiva,
20 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

Figura 3.1: Demonstração do potencial (Lemos; 2011).

como segue

t−1
P t (zt ) = , (3.5)
(t − 1)(ϑt
+ 1) + γ t − 2υ t
Pn+m t 2 t Pt−1 Pn+m k 2 t Pn+m t t Pt−1 k
onde ϑt = j=1 (zj ) , γ = k=1 j=1 (zj ) , υ =
t
j=1 zj βj sendo βj = k=1 zj , j =

1, . . . , n + m, n e m são as dimensões do espaço de entrada e de saı́da, respectivamente.


Os parâmetros ϑt e υ t são calculados a partir de zt , os parâmetros βjt e γ t podem ser
calculados recursivamente, como

n+m
X
t
γ =γ t−1
+ (zjt−1 )2 e βjt = β t−1 + zjt−1 . (3.6)
j=1

O potencial dos centros dos agrupamentos existentes também é calculado de maneira recur-
siva. Como os potenciais são calculados utilizando todos os dados disponı́veis até o instante t,
a cada chegada de um novo dado, os potenciais dos centros também mudam. Os potenciais dos
grupos são atualizados de acordo com (Angelov e Filev; 2004)

(t − 1)P t−1 (ži )


P t (ži ) = h Pn+m t(t−1) 2 i , (3.7)
t−1
t − 2 + P (ži ) · 1 + j=1 (dj )
t(t−1)
onde ži é o centro do grupo i, i = 1, . . . , Lt e dj é a j-ésimo componente de dt(t−1) = zt −zt−1 .
3.1. Sistemas Nebulosos Evolutivos 21

Para a evolução da base de regras, compara-se o valor do potencial do novo dado e dos
potenciais dos centros de grupo atualizados. Caso o potencial do novo dado seja maior que
o potencial de todos os centros de grupo atualizados, o centro de um grupo será atualizado,
ou um novo grupo será criado. Se o novo dado está próximo o suficiente, segundo a distância
Euclidiana, de um centro de grupo existente, o novo dado assumirá o centro do grupo. Os
limiares são definidos por Angelov e Filev (2004). Caso contrário, o novo dado irá originar um
novo grupo e será centro desse grupo.
Não satisfazendo nenhuma condição, o novo dado será utilizado para atualizar os parâme-
tros do consequente da regra relacionada ao grupo com menor distância Euclidiana ao novo
dado. Essa atualização é realizada utilizando o algoritmo recursivo de mı́nimos quadrados ou o
algoritmo recursivo de mı́nimos quadrados ponderado (Ljung; 1999; Young; 1984). O Algoritmo
3.1 apresenta o procedimento de atualização da estrutura do modelo eTS (Lemos; 2011).

Algoritmo 3.1 Algoritmo de agrupamento do eTS


ler o primeiro dado
inicializar o primeiro grupo com centro no primeiro dado
while existirem entradas do
ler o novo dado
calcular o potencial, P (zt ), do novo dado segundo (3.5)
for i = 1, . . . , Lt do
atualizar o potencial do centro ži , P (ži ), segundo (3.7)
end for
if P (zt ) > P (ži ) then
if zt é próximo o suficiente do centro de algum grupo i then
zt substitui ži como centro do grupo i
else
criar um novo grupo com centro zt
end if
else
atualizar os parâmetros do consequente da regra com centro de grupo com menor dis-
tância Euclidiana.
end if
end while

3.1.2 Modelo Nebuloso Evolutivo Baseado em Nuvens

O modelo nebuloso evolutivo proposto por Angelov e Yager (2011a) recebeu o nome de
ANYA (Angelov e Yager; 2011b) em homenagem aos autores. Trata-se de um novo sistema FRB
que, diferentemente dos outros modelos FRBs, TS (Takagi e Sugeno; 1985) e Mamdani (Zadeh;
22 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

1973; Mamdani e Assilian; 1975), possui antecedentes não paramétricos. A determinação dos
antecedentes nos modelos FRBs, TS e Mamdani, utiliza funções de pertinência pré definidas
(triangulares, trapezoidais, Gaussianas e etc.), que requerem um grande nı́vel de aproximação
(Angelov e Yager; 2011a). No modelo ANYA a determinação dos antecedentes é não paramétrica
e representa exatamente a real densidade e distribuição dos dados.
O conjunto de regras que forma o modelo ANYA é da seguinte forma

Ri : SE (z ∼ ℵi ) ENTÃO (yi ) ,

onde ∼ denota a pertinência nebulosa, lida como “é associado com”, Ri é a i-ésima regra
nebulosa para i = 1, . . . , Lt , Lt é o número de regras na iteração t, ℵi ∈ < é a nuvem dos dados
de entrada-saı́da, z = [z1 , . . . , zn+m ]T ∈ <n+m , onde x = [x1 , . . . , xn ]T ∈ <n é o vetor de entrada
e yi = [yi1 , . . . , yim ]T ∈ <m é o vetor de saı́da da i-ésima regra.
Esse conjunto de regras nebulosas é descrito como um sistema complexo, geralmente não
linear, não estacionário e não determinı́stico, observável apenas por suas entradas e saı́das. O
objetivo é descrever a dependência entre a entrada e a saı́da baseado no histórico de observações
dos pares entrada-saı́da, z = [xT , yT ]T . A proposta deste modelo é baseada em nuvens de dados
encontradas através do cálculo recursivo das densidades no espaço entrada-saı́da dos dados.
Como visto na Figura 3.2, as nuvens possuem certas diferenças com relação aos grupos.
As nuvens não possuem e não necessitam de contorno, por isso não possuem uma forma ana-
lı́tica, explı́cita. A nuvem de dados é um sub-conjunto dos dados de entrada-saı́da, onde os
dados associados à nuvem possuem propriedades em comum (proximidade no espaço observá-
vel). Diferente das funções de pertinência, as nuvens representam direta e exatamente todos os
dados de entrada-saı́da anteriores. O modelo preserva as caracterı́sticas dos sistemas nebulosos
permitindo que um dado pertença, com diferentes graus, λ ∈ [0, 1], a todas as nuvens.
As nuvens garantem ao modelo ANYA a não necessidade de definição a priori de funções
de pertinência para os dados de entrada-saı́da, assim como é necessário nos FRBs tradicionais.
Elas são descritas pela similaridade do sub-conjunto de dados que são associadas.
O grau de pertinência de um dado, zt , às nuvens existentes é calculado pela normalização
da densidade local, da seguinte forma

γit
λti = PLt , i = 1, ..., Lt , (3.8)
t
j=1 γj

onde γit é a densidade local do vetor zt na i-ésima nuvem. Essa equação é chamada média
3.1. Sistemas Nebulosos Evolutivos 23

Figura 3.2: Diferenças entre nuvens e grupos (Angelov e Yager; 2011a).


24 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

ponderada nebulosa (Klir e Folger; 1987; Yager e Filev; 1994b).


A densidade local, γit , do vetor zt , para a i-ésima nuvem, é definida por um kernel desejado
da distância entre o dado de entrada-saı́da atual e todas os outros dados daquela nuvem, por
isso chamada densidade local.
Para predição, modelagem de sistemas e controle, a média ponderada apresentada na equa-
ção (4.12) é o operador de inferência preferido (Yager e Filev; 1994b), diferente de casos como
classificação, que um operador de inferência do tipo “o ganhador leva tudo” é geralmente esco-
lhido (Klir e Folger; 1987; Yager e Filev; 1994b; Angelov e Yager; 2011a).
O kernel utilizado para o cálculo da densidade local é escolhido como uma função do tipo
Cauchy (Angelov e Buswell; 2002). O cálculo recursivo da densidade local pode ser realizado
da seguinte forma (Angelov e Yager; 2011a)

1
γit = , (3.9)
1+ ||zt − µti ||2 + Υti − ||zt ||2
onde µti = ((Mi − 1)/(Mi ))µit−1 + zt /(Mi ), µ11 = z1 é o valor modal local, Mi é o número de
dados de entrada-saı́da associados à i-ésima nuvem, i = 1, ..., Lt e Lt é o número de nuvens até
o instante t. Υti , é calculado como

Mi − 1 t−1 1
Υti = Υi + ||zt ||2 , Υ11 = ||z1 ||2 .
Mi Mi
Outra medida importante é a densidade global, calculada similarmente, porém considerando
todos os dados de entrada-saı́da. A densidade global Γt em t é calculada recursivamente da
seguinte forma

1
Γt = , (3.10)
1+ ||zt − µtG ||2 + ΥtG − ||zt ||2
onde µtG = ((t − 1)/t)µt−1 t 1 1
G + z /t, µG = z é o valor modal global de todos os dados em t, e

t−1 t 1
ΥtG = ΥG − 1 + ||zt ||2 , Υ1G = ||z1 ||2 .
t t
É fácil observar que, por causa da equação (3.8), o grau de pertinência nebuloso para uma
nuvem, λi , é normalizado, portanto,

Lt
X
λi = 1. (3.11)
i=1
3.2. Aprendizado Extremo 25

O Algoritmo 3.2 resume o processo de formação das nuvens.

Algoritmo 3.2 Algoritmo de formação de nuvens.


ler o primeiro dado
inicializar a primeira nuvem
while existirem entradas do
ler o novo dado
atualizar a densidade global (3.10)
calcular a densidade local para cada nuvem (3.9)
if a densidade global do novo dado é maior que a densidade global de cada nuvem then
criar uma nova nuvem
else
encontrar N uvemI onde o novo dado possui a maior densidade local
atualizar a N uvemI
end if
calcular o grau de pertinência (3.8)
end while

3.2 Aprendizado Extremo


A máquina de aprendizado extremo (ELM, Extreme Learning Machine) se associa a um mé-
todo para treinamento de redes neurais feedforward de única camada intermediária (SLFN, Sin-
gle Layer Feedforward Neural Network) (Huang et al.; 2004). O autor prova matematicamente
que os pesos da camada intermediária podem ser escolhidos de maneira não-supervisionada e os
pesos da camada de saı́da determinados analiticamente. Além disso, Huang, Zhu e Siew (2006)
e Huang et al. (2011) apresentam a capacidade de aproximação universal de uma ELM.
As aplicações para ELM são diversas: avaliação de segurança em sistemas de potência (Xu
et al.; 2012), preservação de privacidade (Samet e Miri; 2012), detecção automática de ataque
epiléptico em eletroencefalograma (Song et al.; 2012) e reconhecimento de ações humanas (Mi-
nhas et al.; 2012). Huang et al. (2011) apresentam as diversas formas em que foi aplicada a
máquina de aprendizado extremo.
Na literatura, diferentes modelos utilizam variados tipos de neurônios na camada interme-
diária, como: relações nebulosas (Huang et al.; 2005) e neurônios complexos (Huang et al.;
2008).
Outra extensão natural é o uso de aprendizado extremo para modelar sistemas evolutivos
nebulosos. Pelo fato de ser livre de derivadas, o método pode ser utilizado em conjunto com
neurônios que desempenham qualquer função não linear. É possı́vel utilizá-lo para treinar redes
26 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

que usem, por exemplo, uninormas em seus neurônios da camada intermediária (Bordignon e
Gomide; 2012).

Na ELM, os neurônios da camada intermediária são vistos como uma projeção não-linear dos
dados de entrada. As saı́das desses neurônios são interpretadas como um espaço transformado,
que servirá para o combinador linear da camada de saı́da.

Ao selecionar os pesos da camada intermediária de maneira não-supervisionada, o projeto


dos pesos da camada de saı́da torna-se uma regressão linear, a rede se torna linear com res-
peito aos parâmetros livres. Para resolver esse problema, utiliza-se a metodologia de quadrados
mı́nimos. Para N padrões entrada-saı́da, (xj , yj ), onde xj = [xj1 , . . . , xjn ]T ∈ <n é o vetor
de entrada e yj = [yj1 , . . . , yjm ]T ∈ <m é o vetor saı́da, uma rede SLFN com Ñ neurônios na
camada intermediária, determinados pelo usuário, e função de ativação g(x), pode ser modelada
matematicamente como (Huang et al.; 2004)


X
βi g(wi · xj + bi ) = ŷj , j = 1, . . . , N, (3.12)
i=1

onde wi = [wi1 , . . . , win ]T é o vetor de pesos sinápticos que conectam o i-ésimo neurônio inter-
mediário e os n componentes do dado de entrada, βi = [βi1 , . . . , βim ]T é o vetor de pesos que
conecta o i-ésimo neurônio intermediário e os m neurônios de saı́da e bi é o limiar para o i-ésimo
neurônio.
PN
A SLFN pode aproximar os N dados de entrada com erro médio nulo, j=1 ||ŷj − dj ||2 = 0,
sendo dj o vetor de saı́da desejado e k.k a distância Euclidiana, i.e., existe βi , wi e bi tal que


X
βi g(wi · xj + bi ) = dj , j = 1, . . . , N. (3.13)
i=1

A equação 3.13 pode ser escrita matricialmente como

Hβ = D, (3.14)

onde

 
g(w1 · x1 + b1 ) . . . g(wÑ · x1 + bÑ )
 .. ... .. 
H = [H1 h2 . . . hÑ ] = 
 . . 
 (3.15)
g(w1 · xN + b1 ) . . . g(wÑ · xN + bÑ )
N ×Ñ
3.2. Aprendizado Extremo 27

  

β1T dT1
 .   . 
β= .  eD= .  (3.16)
 .   . 
T
βÑ dTN
Ñ ×m N ×m

A matriz H é chamada matriz de saı́das da camada intermediária da rede neural; a i-ésima


coluna de H são as saı́das do i-ésimo neurônio intermediário.
Os valores do vetor de pesos da camada intermediária, wi = [wi1 , . . . , wiÑ ]T , são escolhidos
aleatoriamente e o problema, então, é encontrar os pesos β que satisfaçam

min ||Hβ − D||2 . (3.17)


β

A solução desse problema é encontrada utilizando a pseudo-inversa de Moore-Penrose, dada


por (Huang et al.; 2004)

β = H† D, (3.18)

onde a pseudo-inversa de Moore-Penrose é definida como H† = (HT H)−1 HT , se HT H é não


singular, ou H† = HT (HHT )−1 , se HHT é não singular. Essa equação é a solução de quadrados
mı́nimos de (3.14).

3.2.1 Aprendizado Extremo Recursivo

A versão apresentada da ELM considera que todos os dados de treinamento estão disponı́-
veis. Com o objetivo de tornar o modelo independente da disponibilidade ou não de dados de
treinamento, Liang et al. (2006) propõem um algoritmo de aprendizado sequencial online, OS-
ELM (Online Sequential Extreme Learning), para treinamento de redes neurais feedforward. O
algoritmo é baseado na máquina de aprendizado extremo e no algoritmo de quadrados mı́nimos
recursivo (RLS, Recursive Least Squares).
0
Dado um grupo de dados iniciais, podendo ter um ou mais dados, ℘0 = (xi , di )N 0
i=1 e N ≥ Ñ ,

em uma ELM clássica a solução seria minimizar a função objetivo ||H0 β − D0 ||2 . Reescrevendo
a equação (3.18), considerando o problema proposto, tem-se

−1 T
β 0 = K0 H0 D0 , (3.19)
T
onde K0 = H0 H0 e H† = (HT H)−1 HT .
28 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

0 1
Considerando agora um novo grupo de dados ℘1 = (xi , di )N +N 1
i=N 0 +1 , onde N representa o

número de dados nesse novo grupo. A nova função objetivo a ser minimizada toma a seguinte
forma

" # " # 2
H0 D0
β − . (3.20)


H1 D1

Considerando os dois grupos de dados, ℘0 e ℘1 , a solução do problema de minimização é

" #T " #
1−1 H0 D0
β1 = K , (3.21)
H1 D1
onde " #T " #
H0 H0
K1 = . (3.22)
H1 H1

Reescrevendo essas expressões de forma a tornar os novos valores da matriz de pesos de saı́da
dependentes dos valores anteriores, tem-se

" #
h T Ti H0
K1 = H0 H1
H1
T T (3.23)
= H0 H0 + H1 H1
T
= K0 + H1 H1 ,

e
" #T " #
H0 D0 T T

1 1
= H0 D0 + H1 D1
H D
−1 T T
= K0 K0 H0 D0 + H1 D1
T
(3.24)
= K0 β 0 + H1 D1
T T
= (K1 − H1 H1 )β 0 + H1 D1
T T
= K1 β 0 − H1 H1 β 0 + H1 D1 .

Combinando as expressões (3.21) e (3.24), obtêm-se


3.2. Aprendizado Extremo 29

−1 T T
β 1 = K1 (K1 β 0 − H1 H1 β 0 + H1 D1 )
−1 T
(3.25)
= β 0 + K1 H1 (D1 − H1 β 0 ).

Generalizando para qualquer novo grupo de dados, têm-se

T
Kt+1 = Kt + Ht+1 Ht+1 , (3.26)
−1 T
β t+1 = β t + Kt+1 Ht+1 (Dt+1 − Ht+1 β k ). (3.27)

−1
Para o cálculo recursivo da matriz dos pesos de saı́da, utiliza-se Kt+1 ao invés de Kt+1 .
Portanto, este termo também deve ser calculado recursivamente. Esse cálculo é feito utilizando
a fórmula de Woodbury (Golub e Van Loan; 1996)

−1 T
Kt+1 = (Kt + Ht+1 Ht+1 )−1
−1 −1 T −1 T −1
(3.28)
= Kt − Kt Ht+1 (I + Ht+1 Kt Ht+1 )−1 Ht+1 Kt .

Portanto, a matriz dos pesos de saı́da é calculada recursivamente da seguinte forma

T T
Pt+1 = Pt − Pt Ht+1 (I + Ht+1 Pt Ht+1 )−1 Ht+1 Pt , (3.29)
−1 T
β t+1 = β t + Pt+1 Ht+1 (Dt+1 − Ht+1 β k ), (3.30)

−1
onde Pt = Kt .
Assim como na OS-ELM, este trabalho também utiliza a versão recursiva da ELM, po-
rém aqui adota-se o algoritmo de quadrados mı́nimos recursivo ponderado (WRLS, Weighted
Recursive Least Squares). Esse algoritmo é uma versão que generaliza o RLS apresentado ante-
riormente. No WRLS o problema a ser resolvido é encontrar os pesos da camada de saı́da, β,
que minimizam

N
X
min ψ N −j ||ŷj − dj ||2 (3.31)
β
j=1

onde 0 < ψ N −j ≤ 1 é chamado fator de esquecimento que pondera o valor de erros anteriores e
N é o número de amostras do conjunto de dados.
30 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo

A solução do WRLS é semelhante ao RLS apresentado anteriormente e não será demonstrada.


Para as redes propostas neste trabalho, o problema é encontrar os pesos da camada de saı́da,
R = [rjl ], que minimizam

N
X
min ψ N −k ||Rk vk − f −1 (yk )||2 (3.32)
R
k=1

onde f −1 (y) = log(y) − log(1 − y), y é a saı́da desejada, v = [v1 , . . . , vLt ]T é a saı́da dos
neurônios da camada intermediária. Diferente da OS-ELM, e da ELM, o neurônio de saı́da
das redes implementadas possuem uma função de ativação sigmoidal, por isso o termo f −1 (y)
aparece na função objetivo. Chamamos essa versão de OS-ELMn, onde (n) enfatiza a aplicação
de uma função não linear na saı́da. A aplicação da rede OS-ELMn é uma contribuição deste
trabalho.
A definição dos pesos das redes neurais propostas é similar ao apresentado anteriormente.
Os pesos da camada intermediária são definidos de maneira não supervisionada e esses pesos são
mantidos fixos até o final da aplicação. Os pesos da camada de saı́da, R = [rjl ], são calculados
utilizando o algoritmo de mı́nimos quadrados recursivo ponderado com fator de esquecimento
ψ conforme

p = Qt−1 v{ψ + (v)T Qt−1 v}−1 (3.33)


Qt = (ILt − p(v)T )ψ −1 Qt−1 (3.34)
Rt = Rt−1 + (p)T (f −1 (y) − Rt−1 v). (3.35)

A inicialização de Q é usualmente ILt ω, onde ω = 1000, ILt é a matriz de identidade de


dimensão Lt × Lt , onde Lt é o número de neurônios na camada intermediária e os pesos de saı́da
são inicializados com zero.

3.3 Resumo

Sistemas nebulosos evolutivos foram resumidos neste capı́tulo. Após uma breve explanação
e motivação para esta classe de sistemas, apresentou-se em seguida dois sistemas que serviram
de base para este trabalho, o eTS e o ANYA.
A máquina de aprendizado extremo e a máquina de aprendizado extremo sequencial foram
3.3. Resumo 31

consideradas, com ênfase nos seus fundamentos e formulação. Exemplos de aplicações mencio-
nadas na literatura também foram apresentadas.
32 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
Capı́tulo 4
Redes Neurais com Aprendizado Extremo
Recursivo

Este capı́tulo apresenta duas redes neurais com aprendizado extremo recursivo. O objetivo
dessas redes é modelar sistemas e representar a dependência entre a entrada e a saı́da, z =
[xT , yT ]T ∈ <n+m , onde x ∈ <n e y ∈ <m . A entrada de dados assume um fluxo, portanto
todos os cálculos são realizados de maneira recursiva.

A primeira rede neural é uma rede neural nebulosa hı́brida evolutiva com neurônios nebulosos
com operadores definidos por uninormas. Os unineurônios são do tipo II, onde as entradas, os
pesos e os operadores são definidos segundo os sistemas nebulosos. A rede utiliza um algoritmo
recursivo de agrupamento, baseado nas nuvens, para particionar e representar o espaço de
entrada-saı́da. A determinação dos parâmetros do sistema é realizado por um algoritmo baseado
em máquinas de aprendizado extremo e no algoritmo quadrados mı́nimos recursivo ponderado.

A segunda é uma rede neural evolutiva com aprendizado extremo recursivo, uma rede neural
feedforward de três camadas que adiciona neurônios na camada intermediária conforme a densi-
dade dos dados no espaço de entrada-saı́da. Um algoritmo recursivo de agrupamento, baseado
no conceito de densidade dos dados, particiona o espaço de entrada-saı́da. A cada nova partição,
um neurônio é adicionado na camada intermediária. Os parâmetros da rede são determinados
por um algoritmo baseado em máquinas de aprendizado extremo e no algoritmo quadrados
mı́nimos recursivo ponderado.

33
34 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

4.1 Rede Neural Nebulosa Hı́brida Evolutiva

Métodos clássicos de modelagem de sistemas com algum tipo de inteligência computacional


utilizam treinamentos offline (Irwin; 1998; Yao; 1999; Fukuda e Kubota; 2001; Naso e Maione;
2001). Os parâmetros e a estrutura do sistema são formados através de um treinamento antes
de sua aplicação. O sistema formado é estável, ou seja, não modifica seus parâmetros conforme
novos dados. Sistemas evolutivos possuem a capacidade de atualizar seus parâmetros e sua
estrutura simultaneamente, de acordo com um fluxo de dados (Angelov e Filev; 2004).
Redes neurais nebulosas evolutivas (eFNN, evolving Fuzzy Neural Network), assim como
os sistemas evolutivos, são capazes de adaptar continuamente sua estrutura e atualizar seus
parâmetros de acordo com um fluxo de dados (Angelov e Xiaowei; 2006). Devido seu processo
de aprendizagem, as redes neurais nebulosas evolutivas podem adequar-se às variações que
ocorrem em um sistema.
O processo de aprendizado de um eFNN geralmente possui duas partes, um agrupamento
do espaço de entrada e uma atualização dos parâmetros do sistema. Para auxiliar no pro-
cesso de aprendizado algumas redes da literatura necessitam de um pré-treinamento para serem
desenvolvidas.
Uma rede que utiliza um pré-treinamento é proposta por Liao e Tsao (2003). Os autores
utilizam a abordagem evolutiva e realizam um pré ajuste dos parâmetros e da estrutura da
eFNN utilizando algoritmos genéticos e uma busca tabu para previsão do consumo diário de
energia em Taiwan.
Ho et al. (2010) utilizam de uma eFNN chamada sistema de inferência neural nebuloso
Mandani-Takagi-Sugeno evolutivo (eMTSFIS, evolving Mandani-Takagi-Sugeno Neural-Fuzzy
Inference System). A rede é utilizada para a previsão de valores diários do ı́ndice de uma bolsa
de valores. Ela é treinada utilizando uma aprendizagem supervisionada e os parâmetros são
atualizados continuamente conforme os dados de entrada.
Wang et al. (2012) propõem um ajuste dos parâmetros por um algoritmo estimativo de
mı́nimos quadrados e o agrupamento do espaço de entrada-saı́da é utilizado para a definição
da estrutura. Após esse processo, é realizada uma otimização da estrutura e dos parâmetros
utilizando algoritmos genéticos.
Luna et al. (2009) realizam um pré-processamento, no caso, um agrupamento subtrativo
no espaço de entrada para definir a estrutura da rede. Esse procedimento não é estritamente
necessário. Ele é realizado pois no processo de ajuste dos parâmetros a rede utiliza uma versão
4.1. Rede Neural Nebulosa Hı́brida Evolutiva 35

recursiva do algoritmo de maximização da expectativa (EM, Expectation Maximization), e esse


algoritmo é sensı́vel ao estado inicial do sistema.
Sistemas que não necessitam de pré-treinamento não possuem informação a priori do dados,
portanto possuem um alto nı́vel de adaptação.
Uma eFNN que não necessita de pré-treinamento foi proposta por Nguyen e Quek (2010).
Os autores propõem uma eFNN onde o espaço de entrada é particionado utilizando um al-
goritmo chamado agrupamento crescente escala-multidimensional. Esse algoritmo gerencia as
regras, criando, fundindo e excluindo quando necessário. Os parâmetros da eFNN são ajustados
utilizando um algoritmo de aprendizagem RLS, esses procedimentos são realizados a cada novo
dado de entrada, com um fluxo de dados.
Souza et al. (2012) propõem uma eFNN onde a estrutura e os parâmetros são ajustados
de modo online. Aqui utiliza-se um algoritmo de agrupamento evolutivo participatório gaussi-
ano que gerencia as regras definindo a estrutura. Os parâmetros são ajustados utilizando um
algoritmo WRLS.
Leite et al. (2012) utilizam uma eFNN para previsão de séries temporais. Nesse artigo os
autores propõem um neurônio nebuloso que se diferencia dos comumente utilizados, um modelo
de neurônio com agregação nebulosa. O agrupamento do espaço de entrada utiliza um novo
conceito, realizando uma granulação do espaço de entrada, tornando o processo mais abstrato
e com representação compacta.
Bordignon e Gomide (2014) propõem uma eFNN com neurônios baseados em uninormas.
A rede realiza um agrupamento do espaço de entrada utilizando dois algoritmos diferentes. O
ajuste dos parâmetros é realizado como na rede proposta nesta seção, através de uma versão
recursiva da máquina de aprendizado extremo.
As áreas de aplicação das eFNN são muitas. Elas são utilizadas para previsão de preço de
estoque (Nguyen e Quek; 2010), modelo térmico de transformadores de energia (Souza et al.;
2012), previsão do estado do sistema (Wang et al.; 2012), entre outras.
Esta seção apresenta uma eFNN com alto nı́vel de adaptação que não necessita de nenhum
pré-treinamento. Nesta rede, uma uninorma é utilizada como processamento sináptico de um
neurônio nebuloso. O agrupamento dos dados de entrada-saı́da utilizará um procedimento
chamado de nuvens. As nuvens formam grupos com contornos indefinidos e os dados podem
pertencer a diversas nuvens com diferentes graus. Além disso as nuvens não necessitam de uma
explı́cita definição da função de pertinência ou um pressuposto anterior, o que é o caso de diversos
modelos da literatura. O ajuste dos parâmetros será realizado a partir de uma versão recursiva
36 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

da máquina de aprendizado extremo, similar à proposta por Bordignon e Gomide (2014). Os


pesos da camada intermediária da rede são escolhidos de maneira não supervisionada no intervalo
[0,1], tornando a função custo a ser minimizada dependente somente de uma variável, os pesos
da camada de saı́da. A determinação dos pesos da camada de saı́da é realizada através do
algoritmo WRLS. Todas essas propostas irão tornar o processo ainda mais dinâmico e capaz de
simular sistemas complexos e não lineares.

4.1.1 Estrutura da Rede


A primeira rede proposta neste trabalho é uma rede feedforward com três camadas, chamada
rede neural nebulosa hı́brida evolutiva (eHFN, evolving Hybrid Fuzzy Neural network). Sua
estrutura pode ser vista na Figura 4.1.

Figura 4.1: Estrutura da rede neural nebulosa hı́brida evolutiva.

Os dados de entrada-saı́da, z = [xT , yT ]T ∈ <n+m , onde n é o número de componentes do


vetor de entrada e m é o número de componentes do vetor de saı́da, são representados pelas
nuvens presentes na primeira camada. Para cada novo dado é calculado seu grau de pertinência,
λ, segundo (4.12), para cada nuvem. Cada novo dado é associado à todas as nuvens criadas até
4.1. Rede Neural Nebulosa Hı́brida Evolutiva 37

o momento. O número de nuvens até o momento t é Lt , que também corresponde ao número de


unineurônios na segunda camada, assim como o número de regras nebulosas equivalentes que
simulam o sistema no passo t.

Na segunda camada, a camada intermediária, os neurônios utilizam uninormas como pro-


cessamento sináptico. Os unineurônios calculam a uninorma entre os graus de pertinência, λ =
[λ1 , . . . , λLt ]T , dos dados entrada-saı́da e os pesos da camada intermediária w = [w1 , . . . , wLt ]T .
Os pesos da camada intermediária são escolhidos aleatoriamente com valores entre [0, 1] e man-
tidos fixos até o fim da aplicação.

A uninorma escolhida é descrita na sub seção 2.2.2. O valor do elemento identidade, e, da


uninorma, também é escolhido aleatoriamente entre [0, 1] e mantido fixo até o fim da aplicação.
Para cada novo unineurônio, um novo elemento identidade é definido, tornando cada unineurônio
singular.

Os graus de pertinência, λl , quantificam a representação do dado de entrada zt pela nuvem


l, com l = 1, . . . , Lt . Portanto não realiza-se a agregação dos Lt graus de pertinência do dado zt
na camada intermediária e o unineurônio recebe só uma entrada. A uninorma, equação (2.9),
realiza a operação de ponderação entre λ e w e não há operação de agregação. A saı́da do
unineurônio é

v = λ u w, (4.1)

com v = [v1 , . . . , vLt ]T , sendo a saı́da dos Lt unineurônios e λ os graus de pertinência de zt


para as Lt nuvens.

Juntas, a primeira e a camada intermediária formam um sistema de inferência nebulosa. As


regras que definem esse sistema são da seguinte forma

Rl : SE (z ∼ N uveml ) ENTÃO (vl = λl u wl ),

com u definido na equação (2.9).

A última camada, a camada de saı́da, forma uma rede neural de agregação. Ela realiza a
agregação das saı́das dos unineurônios ponderadas com os pesos da camada de saı́da R = [rjl ],
onde j = 1, . . . , m, m é a dimensão do espaço de saı́da e l = 1, . . . , Lt . Os pesos rjl ponderam
a saı́da do l-ésimo unineurônio com o j-ésimo peso sináptico relacionado à esse unineurônio. A
saı́da da rede neural nebulosa é da seguinte forma
38 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

ŷ = f (Rv) , (4.2)

com ŷ = [ŷ1 , . . . , ŷm ]T .


A função de ativação f (·) é uma função sigmoidal definida como

1
f (x) = . (4.3)
1 + e−x

4.1.2 Partição e Representação do Espaço de Entrada-Saı́da

O processo de partição e representação do espaço de entrada-saı́da é baseado no conceito


de nuvens. Como descrito na sub seção 3.1.2, as nuvens particionam o espaço de entrada-saı́da
sem criar grupos com limites explı́citos. A representação das nuvens é baseada na densidade
de dados. O processo de formação de nuvens descrito a seguir é baseado no artigo de Sadeghi-
Tehran et al. (2012), onde os autores utilizam o conceito de ponto focal associado a uma nuvem
(Rosa et al.; 2013a,b; Rosa, Maciel, Gomide e Ballini; 2014).
Inicialmente o primeiro dado define a primeira nuvem e também é o ponto focal dessa nuvem,

f 1 ← z1 .

O ponto focal é um dado representativo da nuvem: o ponto focal é o dado com maior densidade
local e global de uma nuvem.
Cada novo dado, zt , é um potencial candidato à formação de uma nova nuvem. Inicialmente
calcula-se a densidade global, expressão (3.10), repetida aqui

1
Γt = , (4.4)
1+ ||zt − µtG ||2 + ΣtG − ||zt ||2

e a densidade local para as Lt nuvens, equação (3.9),

1
γit = , (4.5)
1+ ||zt − µti ||2 + Σti − ||zt ||2

para cada novo dado. Uma nova nuvem é criada se a densidade global do novo dado for maior
que a densidade global do ponto focal de cada nuvem, isto é

Γt > Γfl ∀l|l = [1, . . . , Lt ], (4.6)


4.1. Rede Neural Nebulosa Hı́brida Evolutiva 39

onde Γfl é a densidade global do ponto focal da nuvem l.


Se um novo dado apresentar densidade global maior que todas as densidades globais dos
pontos focais de cada nuvem, então uma nova nuvem é criada. A nova nuvem possui como
ponto focal o dado que a originou. Caso a condição não seja satisfeita, o novo dado será
associado a uma nuvem já existente cuja densidade local é maior, ou seja, a I-ésima nuvem,
onde I é

I = argmax γlt ,

(4.7)
l

onde γlt é a densidade local do vetor zt para a nuvem l e l = 1, . . . , Lt .


A nuvem ao qual o novo dado foi associado, N uvemI , deve ser atualizada, quanto ao número
de membros, sua densidade local e seu ponto focal. Para atualizar o ponto focal, é necessário que
duas condições sejam satisfeitas. O candidato à novo ponto focal deve possuir maior densidade
local e densidade global do atual ponto focal, i.e.,

Γt > ΓfI ,
(4.8)
γIt > γIf ,

onde γIf é a densidade local do ponto focal da N uvemI .


Para controlar a representatividade de cada nuvem e, assim, excluir nuvens que não estejam
contribuindo para a saı́da do modelo, é definida uma medida de utilidade (Angelov e Yager;
2011a). A utilidade é definida como o valor acumulado do grau de ativação, (3.8), de cada
nuvem dividido pela vida da nuvem, como segue

U titl = λ̄l , l = 1, . . . , Lt , (4.9)


Pt
onde λ̄l = k=Il λkl /(t − Il ) é a utilidade média e Il é o instante t em que a nuvem l foi criada.
Para remover uma nuvem, sua utilidade deve ser menor que um limiar, como segue

U titl < 1 , (4.10)

onde 1 é um valor pequeno, de até 10%.


Neste trabalho, o valor escolhido para 1 foi de 0,1. Para os experimentos computacionais
foram definidas duas redes, a rede eHFN, onde não há exclusão de nuvens e a rede eHFNv , onde
40 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

as nuvens pouco representativas são excluı́das.


Por fim são calculados os graus de pertinência do novo dado para cada nuvem. Diferente-
mente do proposto por Angelov e Yager (2011a), aqui o grau de pertinência depende do valor
modal local, µtl e da dispersão local, Ktl , no instante t, para l = 1, . . . , Lt , onde Lt é o número
de nuvens no instante t. De fato, para o cálculo do grau de pertinência, utilizamos a inversa
−1
da matriz de dispersão local, Ktl . A inversa da matriz Ktl é calculada recursivamente como
(Schürmann; 1996)
" #
t−1−1 t t−1 t t−1 T t−1−1
t−1 Ml − 1 −1 1 K (z − µ )(z − µ ) K
Kl = Kt−1
l − l l l
t−1−1 t
l
, (4.11)
Ml Ml 1 + 1/Ml (zt − µt−1 T
l ) Kl (z − µt−1
l )

onde Ml é o número de elementos associado à nuvem l até o instante t. A inicialização de K−1


é In , ou seja, a matriz identidade de dimensão n × n.
O grau de pertinência é calculado segundo a função de ativação Gaussiana multivariável,
com valor modal µtl e dispersão Ktl .

 
1 t t T t−1 t t
λl = exp − (z − µl ) Kl (z − µl ) . (4.12)
2
O Algoritmo 4.1 resume o processo de partição e representação do espaço de entrada-saı́da.
Segundo o algoritmo 4.1, o primeiro dado é utilizado para definir o valor inicial da densidade
global. O valor modal global, µ1G , recebe o valor de z1 , a dispersão global, Σ1G , recebe o valor
de ||z1 ||2 ; e a densidade global, Γ1 , é inicializada como um. O primeiro dado define também
a primeira nuvem, Lt igual a um, e o valor inicial da densidade local dessa nuvem. O valor
modal local, µ11 , recebe valor de z1 , o contador de dados associados à primeira nuvem, M1 ,
recebe um, a dispersão local, Σ11 , recebe o valor de ||z1 ||2 , e a densidade local, γ11 , recebe o valor
de um. O ponto focal da primeira nuvem, f1 , é também definido como o primeiro dado, z1 , a
densidade local, γ1f , e a densidade global, Γf1 , do ponto focal da primeira nuvem são iguais aos
valores já definidos γ11 e Γ1 , respectivamente. O instante t em que a primeira nuvem foi criada é
guardado em I1 . A inversa da matriz de dispersão, K−1
1 , é inicializada com a matriz identidade

de dimensão n × n.
Após a inicialização, enquanto houver dados, o algoritmo segue calculando recursivamente
as densidades locais e globais segundo (4.5) e (4.4) respectivamente.
Se a densidade global do novo dado for maior que a densidade global de todos os pontos
focais, satisfazendo a condição (4.6), uma nova nuvem é criada, Lt é incrementado, e os valores
4.1. Rede Neural Nebulosa Hı́brida Evolutiva 41

Algoritmo 4.1 Algoritmo de partição e representação do espaço de entrada-saı́da.


ler o primeiro dado z1
inicializar a densidade global µ1G ← z1 ; Σ1G ← ||z1 ||2 ; Γ1 ← 1
inicializar a primeira nuvem Lt ← 1; µ11 ← z1 ; M1 ← 1; Σ11 ← ||z1 ||2 ; γ11 ← 1; f1 ← z1 ;
γ1f ← γ11 ; Γf1 ← Γ1 ; I1 ← 1; K−1 1 ← In
while existirem entradas do
ler o novo dado zt
atualizar a densidade global (4.4)
calcular a densidade local para cada nuvem (4.5)
if Γt > Γfl ∀l, l = 1, . . . , Lt then
criar uma nova nuvem Lt ← Lt + 1; µtLt ← zt ; MLt ← 1; ΣtLt ← ||zt ||2 ; γLt t ← 1; fLt t ← zt ;
γLf t ← γLt t ; ΓfLt ← Γt ; ILt ← t; K−1
Lt ← In
else
encontrar a N uvemI segundo (4.7)
atualizar a N uvemI MI ← MI + 1
atualizar a inversa da matriz de dispersão local, K−1 I , (4.11)
calcular a nova densidade local da N uvemI (4.5)
if γIt > γIf and Γt > ΓfI then
atualizar o ponto focal fI ← zt ; γIf ← γIt ; ΓfI ← Γt
end if
end if
calcular o grau de pertinência (4.12)
if U titl < 1 ∀l, l = 1, . . . , Lt then
excluir a nuvem l Lt ← Lt − 1; µtl ← [ ]; Ml ← [ ]; Σtl ← [ ]; γlt ← [ ]; flt ← [ ]; γlf ← [ ];
Γfl ← [ ]
end if
end while
42 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

iniciais da densidade local dessa nuvem são definidos segundo o dado atual, zt . O valor modal
local, µtLt , recebe valor de zt , o contador de dados associados à nuvem Lt , MLt , recebe um, a
dispersão local, ΣtLt , recebe o valor de ||zt ||2 , e a densidade local, γLt t , recebe o valor de um. O
ponto focal dessa nuvem, fLt , também é definido pelo dado atual, assim como suas densidades
local, γLf t , e global, ΓfLt , definidas como γLt t e Γt , respectivamente. O instante t em que a primeira
nuvem foi criada é armazenado em ILt . A inversa da matriz de dispersão, K−1
Lt , para a nuvem

Lt é inicializada com a matriz identidade de dimensão n × n.


Se a condição (4.6) não for satisfeita, deve-se encontrar a N uvemI onde a densidade local
do dado atual é maior, condição (4.7). A N uvemI deve ser atualizada, o contador de dados
associados à N uvemI , MI , é incrementado e a densidade local da N uvemI é calculada segundo
(4.5). A inversa da matriz de dispersão da N uvemI , K−1
I , é atualizada segundo (4.11). O

ponto focal dessa nuvem é atualizado se tanto a densidade local, γIt , do dado atual quanto sua
densidade global, Γt forem maiores que as densidades local, γIf , e global, ΓfI , do ponto focal
da nuvem, respectivamente, satisfazendo a condição (4.8). A atualização é feita substituindo o
antigo ponto focal, e suas densidades, pelo novo dado e suas densidades.
Por fim são calculados os graus de pertinência do dado atual, equação (4.12), para cada uma
das Lt nuvens presentes até o momento t.
Se a condição (4.10) for satisfeita, deve-se excluir a nuvem l que satisfez a condição. Decrementa-
se Lt e todos os parâmetros que representam essa nuvem são excluı́dos.

4.1.3 Algoritmo de Aprendizagem da eHFN

O processo de aprendizagem da rede eHFN é feito em duas etapas. A primeira é o agru-


pamento dos dados de entrada-saı́da, realizado pelas nuvens apresentadas nas sub seções 3.1.2
e 4.1.1. A segunda etapa consiste no ajuste dos parâmetros, os pesos da rede neural. Todo
o procedimento é realizado de maneira recursiva, capacitando a rede para aplicações onde há
necessidade de processamento online. Para o ajuste dos parâmetros um algoritmo recursivo
baseado na máquina de aprendizado extremo e no algoritmo WRLS é utilizado (Bordignon e
Gomide; 2014).
Segundo a seção 3.2, os pesos da camada intermediária e os elementos identidade das uni-
normas de cada unineurônio são escolhidos aleatoriamente no intervalo [0,1]. Após a escolha
desses valores, eles não mudam, permanecendo fixos durante toda sua aplicação. Os pesos da
camada de saı́da, são calculados segundo as expressões (3.33)-(3.35).
4.1. Rede Neural Nebulosa Hı́brida Evolutiva 43

O algoritmo 4.2 resume o processo de aprendizagem da rede neural nebulosa hı́brida evolu-
tiva.

Algoritmo 4.2 Algoritmo de aprendizagem da eHFN e eHFNv .


ler o primeiro dado z1
inicializar a primeira nuvem segundo z1
inicializar a estrutura da rede e os parâmetros Lt = 1
escolher os pesos da camada intermediária e o elemento identidade do unineurônio aleatoria-
mente
while existirem entradas do
ler o dado zt
calcular a densidade local e global (4.5) e (4.4)
if Γt > Γfl ∀l, l = 1, . . . , Lt then
criar uma nova nuvem
adicionar um unineurônio na camada intermediária, seus respectivos pesos e elemento
identidade
escolher aleatoriamente os valores dos pesos da camada intermediária e do elemento
identidade
else
associar o novo dado à N uvemI segundo (4.7)
atualizar a N uvemI
calcular a nova densidade local da N uvemI (4.5)
if γIt > γIf and Γt > ΓfI then
atualizar o ponto focal
end if
end if
calcular o grau de pertinência (4.12)
calcular a saı́da dos unineurônios(4.1)
estimar a saı́da ŷt
ler a saı́da desejada yt
if U titl < 1 ∀l, l = 1, . . . , Lt then
excluir a nuvem l e o unineurônio corresponde, assim como os pesos e o elemento identi-
dade
end if
atualizar os pesos R (3.33)-(3.35)
end while

Conforme o Algoritmo 4.2, o primeiro dado define a primeira nuvem e a estrutura da rede
é iniciada. Com uma nuvem, a rede possui somente um unineurônio na camada intermediária
e seus respectivos pesos, w = [w1 ] e R = [r1 ] = [r11 , r21 , . . . , rm1 ]T , onde m é o número com-
ponentes do dado de saı́da. O peso da camada intermediária, w1 , é definido aleatoriamente em
um intervalo [0,1], e o elemento identidade, e, do unineurônio é definido da mesma forma. Os
pesos de saı́da, r1 , são inicializados com valores iguais a zero. São calculados os valores iniciais
44 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

das densidades locais e globais segundo o que foi apresentado na sub seção 3.1.2.
Após a fase de inicialização, enquanto houverem dados, o algoritmo segue calculando recur-
sivamente as densidades locais e globais segundo (4.5) e (4.4) respectivamente.
Se a condição (4.6) for satisfeita, uma nova nuvem é criada, Lt é incrementado, assim
como um novo unineurônio na camada intermediária e seus respectivos pesos, wLt e rLt =
[r1Lt , r2Lt , . . . , rmLt ]T . O vetor de pesos intermediários ganha um novo elemento, w = [wT , wLt ]T
e a matriz de pesos da camada de saı́da ganha uma nova coluna contendo o novo vetor de pesos,
R = [R, rLt ]. Os valores iniciais dos pesos e do elemento identidade do novo unineurônio são
definidos como anteriormente. A matriz de dispersão local para essa nuvem é inicializada com
a matriz identidade de dimensão n × n.
Se a condição (4.6) não for satisfeita, o novo dado será associado a N uvemI , com I definido
em (4.7). A matriz de dispersão local deve ser atualizada segundo (4.11). Os parâmetros da
N uvemI são atualizados, assim como sua densidade local segundo (4.5) e, se satisfeita a condição
(4.8), seu ponto focal.
Por fim, calculam-se os graus de pertinência do dado atual para todas as nuvens, equação
(4.12). Com o graus de pertinência, calcula-se a saı́da dos unineurônios conforme (4.1). A saı́da
da rede, ŷt , é estimada segundo (4.2).
Para a rede eHFNv , se a condição (4.10) for satisfeita, deve-se excluir a nuvem l que satisfez
a condição. Todos os parâmetros da nuvem l são excluı́dos, assim como o unineurônio associado
a essa nuvem, seus pesos e elemento identidade.
O valor desejado de saı́da, yt , torna-se disponı́vel, e ele é utilizado para atualizar os pesos
da camada de saı́da, R, segundo (3.33)-(3.35).

4.2 Rede Neural Evolutiva com Aprendizado Extremo


Recursivo
O processo de aprendizagem em uma rede neural consiste em ajustar os parâmetros da NN
para modelar o espaço entrada-saı́da de acordo com os dados. Estes parâmetros são responsáveis
pela capacidade de aproximação das NN. Um dos parâmetros a serem ajustados são os valores e
o número de pesos sinápticos. O número de pesos sinápticos depende da arquitetura da NN, isso
é, do número de camadas e o número de neurônios em cada camada, além de como os neurônios
são conectados. Portanto, o processo de aprendizagem depende também da arquitetura da rede.
Para a determinação de estrutura, Cybenko (1989) prova, baseado no teorema de Hahn-
4.2. Rede Neural Evolutiva com Aprendizado Extremo Recursivo 45

Banach, que uma rede neural de única camada intermediária é capaz de aproximar qualquer
função multivariável contı́nua. Outros autores também chegaram a mesma conclusão através
de diferentes teoremas (Hornik et al.; 1989; Funahashi; 1989). O problema resume-se a correta
determinação dos parâmetros da rede, número de neurônios e valor dos pesos da rede.
Diferente de Cybenko, Sprecher (1996) apresenta o teorema de Kolmogorov e conclui que
qualquer função contı́nua pode ser aproximada por uma rede neural artificial com duas camadas
intermediárias. A primeira camada contém n neurônios, onde n é o número de componentes do
dado de entrada, e a segunda camada contém 2n + 1 neurônios. Porém, o teorema não esclarece
como construir as funções de ativação dos neurônios.
Nos últimos anos, diversos estudos investigaram a auto determinação da arquitetura de
uma NN, dependente dos dados de entrada da rede neural ou do desempenho da rede em uma
determinada aplicação. Os sistemas propostos baseiam-se em algoritmos construtivos ou de
crescimento, poda, construtivo-poda e algoritmos evolucionários (Liu et al.; 2010; Fangju; 2011;
Miche et al.; 2010; Feng et al.; 2009; Islam et al.; 2009a,b; Rivals e Personnaz; 2003; Wang
et al.; 2002; Javan et al.; 2010; Gao; 2005; Pisani e Lorena; 2012; Rong et al.; 2006; Pouzols e
Lendasse; 2010a,b).
Algoritmos construtivos e de poda utilizam estratégias opostas: o primeiro adiciona camadas,
neurônios e conexões entre os neurônios durante o treinamento.
Algoritmos de poda subtraem camadas, neurônios e suas conexões considerados desnecessá-
rios. Pouzols e Lendasse (2010a,b) propõem um método de poda para sistemas neurais nebulosos
evolutivos, esse método estende o método proposto por Miche et al. (2010), a máquina de apren-
dizado extremo otimamente podada (OP-ELM, Optimally Pruned Extreme Learning Machine),
para algoritmos evolutivos online.
Algoritmos construtivos-poda e evolucionários adicionam e subtraem camadas, neurônios
e suas conexões durante o treinamento. Nos algoritmos construtivo-poda, pode-se começar
aumentando a estrutura e depois uma fase de poda, ou vice-versa. Outros podem adicionar
e subtrair conforme necessário. Algoritmos evolucionários utilizam algoritmos genéticos para
determinação da estrutura da rede (Pisani e Lorena; 2012).
Esta seção propõe uma rede neural evolutiva de única camada intermediária com aprendi-
zado extremo recursivo (eNNEL, evolving Neural Network with recursive Extreme Learning),
que determina o número de neurônios na camada intermediária através de um algoritmo do
tipo construtivo e construtivo-poda (Rosa, Gomide, Dovzan e Skrjanc; 2014). Diferente dos
algoritmos construtivos, de poda e evolucionários, a eNNEL determina o número de neurônios
46 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

Figura 4.2: Estrutra da rede neural evolutiva com aprendizado extremo recursivo.

da camada intermediária a cada novo dado, um algoritmo de agrupamento recursivo baseado


no conceito de nuvens determina o número de neurônios na camada intermediária.
As nuvens particionam o espaço de entrada-saı́da de acordo com a densidade dos dados
(Angelov e Yager; 2011a). A determinação dos pesos da camada intermediária e de saı́da é
realizada por uma versão recursiva da máquina de aprendizado extremo.

4.2.1 Estrutura da Rede

A rede neural evolutiva com aprendizado extremo recursivo, Figura 4.2, possui uma estrutura
feedforward com três camadas.
As nuvens, apresentadas nas seções anteriores, são utilizadas para determinar o número de
neurônios presentes na camada intermediária da rede. Diferentemente da eHFN, o grau de
ativação dos dados não é utilizado: a única informação relevante é o número de nuvens em cada
T T
instante t. A primeira camada é a camada de entrada dos dados zt = [xt , yt ]T ∈ <n+m , onde
n é o número de componentes do vetor de entradas, x, e m é o número de componentes do
vetor de saı́da, y. A segunda camada possui Lt neurônios sigmoidais, isto é, o mesmo número
4.2. Rede Neural Evolutiva com Aprendizado Extremo Recursivo 47

de nuvens no instante t. Um neurônio sigmoidal é aquele que tem função de ativação sigmoidal.
Quando uma nuvem é criada, um neurônio é criado na camada intermediária. Cada neurônio da
camada intermediária possui n+m pesos sinápticos, wil , onde i = 1, . . . , n+m e l = 1, · · · , Lt , e
n+m número de componentes dos dados z. Os pesos da camada intermediária W são escolhidos
aleatoriamente e mantidos fixos. O processamento sináptico dos neurônios nesta rede é realizado
pelo produto algébrico e a agregação pela soma. A saı́da dos neurônios da camada intermediária

v = f zT W .

(4.13)

A função de ativação, f (·), dos neurônios da camada intermediária e de saı́da é

1
f (x) = .
1 + e−x

A camada de saı́da é composta de m neurônios clássicos com função de ativação sigmoidal,


onde m é o número de componentes do vetor de saı́da. A resposta do neurônio da camada de
saı́da é

ŷ = f (Rv) , (4.14)

onde R = [rjl ] são os pesos da camada de saı́da com j = 1, . . . , m e l = 1, . . . , Lt . O uso de uma


função não-linear como função de ativação para o neurônio de saı́da difere de outras redes que
utilizam o aprendizado extremo de maneira recursiva, como a OS-ELM (Liang et al.; 2006), a
OP-ELM (Miche et al.; 2010), a OS-Fuzzy-ELM (Rong et al.; 2006) e a eF-OS-ELM (Pouzols e
Lendasse; 2010a,b).

A rede eNNEL é semelhante à rede OS-ELMn, com a diferença na determinação dos neurô-
nios da camada intermediária. Enquanto a rede OS-ELMn necessita de uma otimização para
a determinar do número de neurônios, ou de uma sugestão de um especialista, a rede eNNEL
define automaticamente o número de neurônios.

Quando uma nova nuvem é criada, um novo neurônio intermediário é adicionado. Os respec-
tivos pesos são inicializados, os da camada intermediária escolhidos aleatoriamente e os pesos
de saı́da iguais a zero.
48 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

4.2.2 Definição do Número de Neurônios na Camada Intermediária

A rede eNNEL utiliza a estratégia de agrupamento semelhante à rede eHFN, explicada na sub
seção 4.1.2 e em Rosa et al. (2013a,b). Porém, aqui os valores da função de pertinência definidos
em (4.12) não são utilizados. A partição do espaço de entrada-saı́da é realizada para determinar
o número de neurônios na camada intermediária. Para cada nova partição, é adicionado um
neurônio na camada intermediária. Isso cria uma associação entre o espalhamento dos dados no
espaço de entrada-saı́da e o número de neurônios intermediários.
Aqui também foram definidas duas redes para os experimentos computacionais, a rede eN-
NEL, onde não há exclusão de nuvens e a rede eNNELv , onde as nuvens pouco representativas
são excluı́das.
Neste trabalho, a rede eNNEL utiliza do algoritmo das nuvens para determinar o número de
neurônios na camada intermediária, mas nada impede que outros algoritmos sejam utilizados.

4.2.3 Algoritmo de Aprendizagem da eNNEL

Aprendizado extremo é uma abordagem para treinamento de redes neurais feedforward com
uma camada intermediária (Huang et al.; 2004). Na rede eNNEL, os valores da camada inter-
mediária são escolhidos aleatoriamente e os pesos da camada de saı́da determinados por um
algoritmo WRLS (Liang et al.; 2006; Bordignon e Gomide; 2014).
Huang, Chen e Siew (2006) provam a capacidade universal de aproximação das ELM e Huang
(2008) mostra que os pesos da camada intermediária podem ser definidos aleatóriamente, e os
pesos da camada de saı́da determinados analı́ticamente.
Os pesos da eNNEL são escolhidos de maneira não supervisionada no intervalo [-1,1] e
mantidos fixo para toda a aplicação. O algoritmo de aprendizagem, semelhante às equações
(3.33)-(3.35), atualizam os pesos de saı́da, R.
O Algoritmo 4.3 resume a aprendizagem da rede neural evolutiva com aprendizado extremo
recursivo.
Conforme o Algoritmo 4.3, o primeiro dado define a primeira nuvem e a estrutura da rede
é iniciada. Com uma nuvem, a rede possui somente um neurônio na camada intermediária e
seus respectivos pesos, w1 = [w11 , w21 , . . . , wn+m ]T , onde n é o número componentes do dado de
entrada e m é o número componentes do dado de saı́da, e r1 = [r11 , r21 , . . . , rm1 ]T . Os pesos da
camada intermediária, w1 , são definido aleatoriamente no intervalo [-1,1]. Os pesos de saı́da,
r1 , são inicializados com valores iguais a zero. São calculados os valores iniciais das densidades
4.2. Rede Neural Evolutiva com Aprendizado Extremo Recursivo 49

Algoritmo 4.3 Algoritmo de aprendizagem da eNNEL e eNNELv .


ler o primeiro dado z1
inicializar a primeira nuvem segundo z1
inicializar a estrutura da rede e os parâmetros Lt = 1
escolher os pesos da camada intermediária aleatoriamente
while existirem entradas do
ler o novo dado xt
calcular a densidade local e global (4.5) e (4.4)
if Γt > Γfl ∀l, l = 1, . . . , Lt then
criar uma nova nuvem
adicionar um neurônio na camada intermediária e seus respectivos pesos
escolher aleatoriamente os valores dos pesos da camada intermediária
else
associar o novo dado à N uvemI segundo (4.7)
atualizar a N uvemI
calcular a nova densidade local da N uvemI (4.5)
if γIt > γIf and Γt > ΓfI then
atualizar o ponto focal
end if
end if
calcular a saı́da dos neurônios intermediários (4.13)
estimar a saı́da ŷt
ler a saı́da desejada yt
if U titl < 1 ∀l, l = 1, . . . , Lt then
excluir a nuvem l e o neurônio corresponde, assim como seus pesos da camada interme-
diária e de saı́da
end if
atualizar os pesos R utilizando (3.33)-(3.35)
end while
50 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo

locais e globais segundo o que foi apresentado na sub seção 3.1.2.


Após a fase de inicialização, enquanto houver entrada de dados, o algoritmo segue calculando
recursivamente as densidades locais e globais segundo (4.5) e (4.4) respectivamente.
Se a condição (4.6) for satisfeita, uma nova nuvem é criada, Lt é incrementado, assim como
um novo neurônio na camada intermediária e seus respectivos pesos, wLt = [w1Lt , w2Lt , . . . , wn+mLt ]T
e rLt = [r1Lt , r2Lt , . . . , rmLt ]T . A matriz de pesos intermediários ganha uma nova coluna,
W = [W, wLt ] e a matriz de pesos da camada de saı́da ganha uma nova coluna contendo o
novo vetor de pesos, R = [R, rLt ]. Os valores iniciais dos pesos intermediários são definidos
como anteriormente.
Se a condição (4.6) não for satisfeita, o novo dado será associado a N uvemI , com I definido
em (4.7). Os parâmetros da N uvemI são atualizados, assim como sua densidade local segundo
(4.5) e, se satisfeita a condição (4.8), seu ponto focal.
Por fim, calcula-se a saı́da dos neurônios intermediários conforme (4.13). A saı́da da rede,
ŷt , é estimada segundo (4.14).
Para a rede eNNELv , se a condição (4.10) for satisfeita, deve-se excluir a nuvem l que satisfez
a condição. Todos os parâmetros da nuvem l são excluı́dos, assim como o neurônio associado à
essa nuvem, seus pesos da camada intermediária e de saı́da.
O valor desejado de saı́da, yt , torna-se disponı́vel e ele é utilizado para atualizar os pesos da
camada de saı́da, R, segundo (3.33)-(3.35).

4.3 Resumo
Este capı́tulo apresentou as duas redes neurais com aprendizado extremo recursivo propostas
neste trabalho. Foi apresentada a estrutura da rede neural nebulosa hı́brida evolutiva, o algo-
ritmo de partição e representação do espaço de entrada-saı́da e o aprendizado extremo recursivo.
A rede neural evolutiva com aprendizado extremo recursivo compartilha semelhança na es-
trutura e no processo de aprendizagem da rede anterior. Porém, o procedimento de partição e
representação do espaço de entrada-saı́da é usado aqui para determinar o número de neurônios
na camada intermediária
O próximo capı́tulo trata de experimentos computacionais realizado para avaliar o desem-
penho das redes neurais propostas. As redes serão comparadas com os principais algoritmos e
métodos evolutivos de modelagem propostos na literatura.
Capı́tulo 5
Resultados Computacionais

Este capı́tulo apresenta os resultados das redes neurais com aprendizado extremo recursivo,
da rede neural nebulosa hı́brida evolutiva, da rede neural evolutiva com aprendizado extremo
recursivo e da OS-ELMn. O desempenho das redes é comparado com algoritmos que são o estado
da arte em modelagem evolutiva e os algoritmos que foram utilizados para a formulação das
redes. São eles o DENFIS (Kasabov e Song; 2002), ANYA (Angelov e Yager; 2011a), OS-ELM
(Liang et al.; 2006) e ELM clássico (Huang et al.; 2004).

5.1 Introdução
As redes são testadas em duas aplicações, identificação de sistemas e previsão de séries
temporais. Para a identificação de sistemas utiliza-se o conjunto de dados Box-Jenkins e para a
previsão de séries temporais utiliza-se o sistema caótico Mackey-Glass e uma série temporal não
linear com dados sintéticos. Para cada aplicação foram calculados os desempenhos de todos os
modelos.
O desempenho é calculado com a raiz quadrada do erro quadrado médio (RMSE, Root
Mean Square Error). O modelo com menor valor desse critério é o modelo que menos errou
na aplicação. Além do RMSE, o teste estatı́stico Diebold-Mariano (Diebold e Mariano; 1995)
é utilizado. Esse teste estatı́stico compara a acurácia preditiva de dois modelos, com hipótese
nula de mesma acurácia preditiva.
Sistemas como o DENFIS e ANYA são determinı́sticos, ou seja, conforme um conjunto de
entrada, a resposta sempre será a mesma. Nos outros modelos testados, um mesmo conjunto
de entrada pode gerar diferentes valores de saı́da devido à determinação aleatória dos pesos da
camada intermediária. Portanto, cada experimento foi realizado 100 vezes.

51
52 Capı́tulo 5. Resultados Computacionais

Os valores de mı́nimo, máximo, média, desvio padrão, mediana e amplitude interquartil


(IQR) dos 100 valores de RMSE são apresentados. Os modelos serão comparados a partir dos
valores médios de RMSE, e da média de erros, para o teste estatı́stico. O tempo de processa-
mento dos modelos é a média para as 100 repetições.

O tempo de processamento para os diversos modelos é apresentado nas tabelas de resul-


tado. Os algoritmos foram escritos e implementados no software matemático MatLab
R
em um
computador com 8 GB de memória RAM, e um processador Intel
R
i7 com 3,40GHz.

Todos os dados são normalizados no intervalo [0.1, 0.9] utilizando a função mapminmax do
software matemático MatLab
R
. O valor do fator de esquecimento para o WRLS, seção 3.2.1, é
ψ = 0, 9 para as redes propostas.

5.2 Critérios de Avaliação e Validação

Esta seção apresenta o conceito teórico dos dois critérios utilizados na comparação dos mo-
delos, a raiz quadrada do erro quadrado médio e o teste estatı́stico Diebold-Mariano. Também
é apresentada a validação cruzada utilizada para determinar o número de neurônios na camada
intermediária para os modelos ELM, OS-ELM e OS-ELMn.

5.2.1 Raiz Quadrada do Erro Quadrado Médio

A raiz quadrada do erro quadrado médio é uma medida quantitativa do erro do modelo. O
RMSE retorna a raiz quadrada da média quadrática entre a diferença dos N valores desejados,
dt = [dt1 , . . . , dtm ]T , e valores estimados, ŷt = [ŷ1t , . . . , ŷm
t T
] , onde t = 1, . . . , N . O valor N é o
número de amostras do conjunto dados. O RMSE é calculado da seguinte forma

v
u
u1 X N
RMSE = t (dt − ŷt )2 . (5.1)
N t=1

Para este trabalho, segundo este critério de avaliação, o modelo que obtiver o menor valor
de RMSE médio é considerado o modelo mais acurado.
5.2. Critérios de Avaliação e Validação 53

5.2.2 Teste Estatı́stico Diebold-Mariano

O teste estatı́stico paramétrico Diebold-Mariano (DM) utiliza os erros de dois modelos,


e1 = [e11 , . . . , eN T 1 N T
1 ] e e2 = [e2 , . . . , e2 ] , com e = [d − ŷ], onde d é o valor desejado e ŷ o valor de

saı́da do modelo, em uma determinada aplicação, para comparar esses modelos. Ele é baseado
na função de perda definida como
   
(e11 )2 (e12 )2
 .   . 
L1 (e1 ) =  .   . 
 .  L2 (e2 ) =  .  (5.2)
(eN1 )
2
(eN2 )
2

A hipótese nula de igual acurácia é baseada na diferença dos valores da função de perda

g i = L1 (ei1 ) − L2 (ei2 ), (5.3)

onde g = [g 1 , . . . , g N ]T .

A hipótese nula é H0 : E(di ) = 0 contra a alternativa H1 : E(di ) 6= 0. O valor do teste


estatı́stico DM é DM , estimado como


DM = q ∼ N (0, 1), (5.4)
V̂ (ḡ)
onde " −1
N
#
X
V̂ (ḡ) = N −1 κ̂0 + 2 κ̂k , (5.5)
k=1

N
X
−1
κk = N (gi − ḡ)(gi−k − ḡ), (5.6)
i=k+1

e ḡ é a média de g.

A hipótese nula de mesma acurácia preditiva é rejeitada, com grau de confiança de 5%,
quando |DM | > 1, 96, nesse caso o modelo com menor média de RMSE é o que possui melhor
acurácia. Se |DM | < 1, 96 os modelos são considerados igualmente acurados.

Neste trabalho, os valores de erro dos modelos, e1 e e2 , são os erros médios dos 100 experi-
mentos realizados.

Todos os valores, RMSE e DM , foram calculados para os dados normalizados.


54 Capı́tulo 5. Resultados Computacionais

5.2.3 Validação Cruzada


O número de neurônios da camada intermediária para os modelos ELM, OS-ELM e OS-
ELMn foi determinado através de uma metodologia de validação cruzada. Essa validação foi
realizada em todos os experimentos.
Os experimentos, no geral, utilizam os primeiros dados para validação cruzada (80% trei-
namento e 20% validação) e os dados restantes, chamados de “Fim”, utilizados para teste. Na
validação cruzada, o intervalo da variação do número de neurônios da camada intermediária
foi [1,50]. Portanto, foram contruı́das 50 redes neurais com número de neurônios na camada
intermediária de 1, 2, . . . , 50.
Para cada rede neural, calcula-se o RMSE para todo o conjunto de dados de treinamento e
de validação. A validação foi realizada com os pesos da camada intermediária, e de saı́da, já
definidos com o conjunto de treinamento. Foram realizados 100 treinamentos e validações para
cada número de neurônios, e calculada a média dos RMSE.
O menor valor de RMSE médio para o conjunto de validação determina o número de neurô-
nios na camada intermediária. Ou seja, o número de neurônios escolhido é aquele que apresenta
a menor média de RMSE de validação. Uma vez escolhido o número de neurônios, as redes
ELM, OS-ELM e OS-ELMn manterão fixa sua estrutura para todos os testes.
Através da validação cruzada, as redes ELM, OS-ELM e OS-ELMn têm definido a priori
o número de neurônios da camada intermediária. Os modelos evolutivos iniciam as aplicações
sem nenhuma informação a priori dos dados. Além disso, o modelo ELM é o único modelo que
não assume um fluxo de dados, mas foi considerado aqui pela relevância para o trabalho.
Definiu-se, então, as redes Ehfn e Ehfnv , onde a inicialização das matrizes de dispersão para
as nuvens, Ki , é realizada com os dados utilizados para treinamento e validação, ao invés da
matriz identidade. Ou seja, são as rede eHFN e eHFNv com um conhecimento a priori dos
dados.
A inicialização das matrizes de dispersão é da seguinte forma

tN
1 X
Ki = (ziT − z̄)(ziT − z̄)T , (5.7)
Nt − 1 i=1

onde Nt é o número de dados utilizados no treinamento, zT são os dados de treinamento e z̄ a


média desses dados.
Para todos os modelos foram calculados os critérios de avaliação para o conjunto de teste
“Fim” e o conjunto “Todos”, que contém todo o conjunto de dados (treinamento, validação e
5.3. Identificação de Sistemas 55

teste). Os conjuntos de dados utilizados para treinamento e validação serão apresentados em


cada uma das aplicações.

5.3 Identificação de Sistemas


Os dados contidos no conjunto de dados Box-Jenkins são valores de entrada e saı́da de um
processo de combustão de uma mistura de ar e gás metano . Os dados de entrada representam
o fluxo de gás na entrada do sistema, ut , e os dados de saı́da são as concentrações de CO2
expelidos pela combustão, y t . O objetivo é prever o nı́vel de CO2 tendo como entrada valores
passados de ut e y t .
O modelo para identificar o sistema é o seguinte (Kasabov e Song; 2002; Angelov e Yager;
2011a)

y t = fBJ (y t−1 , ut−4 ), (5.8)

ou seja, para prever o valor de CO2 na saı́da do sistema, utiliza-se o nı́vel de CO2 anterior e o
fluxo de gás de quatro instantes atrás. A função não linear fBJ (·) é a que deseja-se aproximar.
O conjunto de dados contém 290 pares entrada-saı́da. Para os modelos que necessitam de
treinamento, foram separadas os 150 primeiros dados para o conjunto de treinamento e validação,
sendo que os primeiros 120 dados foram utilizados para o treinamento e os 30 últimos para a
validação. Portanto, o conjunto Fim possui 140 dados e o conjunto Todos possui os 290 dados.
A Figura 5.1 apresenta os valores de RMSE médio para os conjuntos de treinamento e
validação dos modelos ELM, OS-ELM e OS-ELMn, com intervalo de variação do número de
neurônios da camada intermediária de 1, 2, . . . , 50. O número ótimo de neurônios da camada
intermediária é o que apresentar menor RMSE médio para o conjunto de validação. O número de
neurônios escolhido foi de 5 para a ELM, 11 para a OS-ELM e 3 para a OS-ELMn, com valores
de RMSE médio, para o conjunto de validação, de 0,0072, 0,0068 e 0,0199, respectivamente.
Com o número de neurônios determinados para as redes que necessitam, um experimento
com o conjunto de dados Todos foi realizado para todos os modelos. A Tabela 5.1 apresenta os
valores de RMSE para o conjunto Todos. O modelo com menor RMSE médio foi o DENFIS,
seguido dos modelos ELM e OS-ELMn.
Os modelos eNNEL e eNNELv apresentam um valor de RMSE médio menor que o modelo
ANYA e que os modelos eHFN e eHFNv . Os modelos eHFN e eHFNv superam somente os
modelos Ehfn e Ehfnv , os modelos com maiores valores de RMSE médio. Nesta experimento, a
56 Capı́tulo 5. Resultados Computacionais

a) ELM. b) OS-ELM.

c) OS-ELMn.

Figura 5.1: Treinamento e validação para os dados Box-Jenkins.

inicialização da matriz de dispersão, Ki , com os 150 valores iniciais, não significou uma melhora
no desempenho. De fato, a inicialização da matriz de dispersão, da forma que está sendo
realizada, piora os resultados para todos os experimentos.

Neste experimento, as redes eHFN e eHFNv são semelhantes, ou seja, elas possuem a mesma
estrutura para todo o experimento. A evolução no número de neurônios na camada interme-
diária, Figura 5.4, é a mesma para as duas redes; o mesmo acontece para as redes eNNEL e
eNNELv .

Os modelos com menor custo computacional não modificam sua estrutura no decorrer do
experimento: são os modelos ELM, OS-ELM e OS-ELMn. Comparando os modelos que mo-
dificam tanto sua estrutura como seus parâmetros conforme o fluxo de dados, os modelos com
menor custo computacional são eNNEL, eNNELv e ANYA.

A Figura 5.2 apresenta graficamente os resultados da Tabela 5.1. Este tipo de gráfico,
chamado boxplot, apresenta os valores máximos e mı́nimos, representados pelos limites superior
e inferior, o terceiro e primeiro quartil, representados pelos limites superior e inferior da caixa, a
5.3. Identificação de Sistemas 57

Tabela 5.1: Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Todos.

Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 5 5 0,0204 0,0235 0,0218 0,0007 0,0218 0,0010 0,0003
OS-ELM 11 11 0,0365 0,0373 0,0368 0,0002 0,0368 0,0002 0,0145
OS-ELMn 3 3 0,0201 0,0922 0,0235 0,0082 0,0214 0,0025 0,0150
Ehfn 7 7 0,0638 0,1085 0,0989 0,0096 0,1026 0,0093 0,0686
Ehfnv 7 7 0,0756 0,1234 0,1114 0,0099 0,1148 0,0117 0,0731
ANYA 7 7 0,0483 0,0483 0,0483 0 0,0483 0 0,0397
DENFIS 11 11 0,0189 0,0189 0,0189 0 0,0189 0 0,4502
eHFN 7 7 0,0384 0,0654 0,0522 0,0059 0,0527 0,0088 0,0684
eHFNv 7 7 0,0369 0,0645 0,0530 0,0050 0,0534 0,0077 0,0726
eNNEL 7 7 0,0279 0,0631 0,0417 0,0078 0,0421 0,0113 0,0344
eNNELv 7 7 0,0261 0,0624 0,0396 0,0079 0,0383 0,0121 0,0388

mediana, representada pelo traço vermelho, além da média, representado pelo ponto preto, dos
100 valores de RMSE. As cruzes em vermelho são valores atı́picos, ou seja, valores com grande
afastamento dos valores restantes, também chamados de outliers. Os outliers foram definidos
pelo software MatLab
R
.
A mediana representa o valor intermediário de uma sequência ordenada. No gráfico, os
valores abaixo da mediana, até o valor mı́nimo, representam 50% dos valores, assim como os
valores acima, até o valor máximo. Quando a mediana está abaixo da média, significa que a
maioria dos valores estão abaixo da média, neste experimento isso acontece para os modelos OS-
ELMn e eNNELv . Quando a mediana está acima da média, a maioria dos valores está acima da
média, neste experimento isso acontece para os modelos Ehfn, Ehfnv , eHFN, eHFNv e eNNEL.
Para uma comparação par a par, utilizou-se o teste estatı́stico Diebold-Mariano. Para valores
de |DM | menores que 1,96 a hipótese nula de mesma acurácia preditiva é aceita, do contrário,
valores maiores de 1,96, ela é rejeitada.
A Tabela 5.2 apresenta os valores de DM par a par para o conjunto Todos e a Tabela 5.3
resume os resultados. Os modelos eHFN e eHFNv possuem mesma acurácia preditiva que os
modelos ANYA, OS-ELM e entre eles. Os únicos modelos menos acurados que eHFN e eHFNv ,
são o Ehfn e Ehfnv . De fato, os modelos Ehfn e Ehfnv são os menos acurados dos modelos, entre
eles o modelo Ehfn é mais acurado. Os modelos eNNEL e eNNELv possuem mesma acurácia
que os modelos ANYA, OS-ELM e entre eles. As redes eNNEL e eNNELv são mais acuradas que
os modelos eHFN, eHFNv , Ehfn e Ehfnv e menos acuradas que os outros. O modelo OS-ELMn
58 Capı́tulo 5. Resultados Computacionais

Figura 5.2: Boxplot para os dados Box-Jenkins, para o conjunto Todos.

é igualmente acurado que os modelos ANYA, ELM e OS-ELM e mais acurado que os outros
modelos, com exceção do modelo DENFIS.

Tabela 5.2: Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos.

Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA -0,1272 4,5148 -0,1222 5,5032 -0,6741 -0,8128 -1,6600
DENFIS 7,6726 9,7297 7,9922 9,6308 5,8393 5,4635 3,1736
ELM 7,2383 9,6279 7,5257 9,5978 5,3026 4,9000 0,6927
OS-ELM 0,9992 6,2623 1,0091 7,1221 0,2671 0,0814 -1,0740
OS-ELMn 7,5469 9,5849 7,8807 9,5105 5,5607 5,4635 -
eNNELv 4,0457 8,6807 4,6217 8,8622 1,7554 - -
eNNEL 3,0818 8,5415 3,5195 8,7625 - - -
Ehfnv -8,5322 -4,4727 -8,5356 - - - -
eHFNv -0,1503 8,4059 - - - - -
Ehfn -8,4200 - - - - - -

As figuras contidas na Figura 5.3 apresentam as saı́das das redes propostas e os valores
desejados para os dados Box-Jenkins, para o conjunto Todos. As redes, após uma primeira fase
de ajuste, conseguem uma boa aproximação da função fBJ e assim prever os valores de y t . A
concentração de CO2 , y t , representada pelo gráfico em azul e pontos conseguem ser previstos
5.3. Identificação de Sistemas 59

Tabela 5.3: Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn,
eHFN Ehfn e Ehfnv eHFNv , OS-ELM e ANYA
ELM e DENFIS
eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv eHFN, OS-ELM e ANYA
ELM e DENFIS
eHFN, eHFNv , eNNEL, eNNELv
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN
eNNEL eNNELv , OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eHFNv
Ehfn, Ehfnv , eHFN
eNNELv eNNEL, OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eHFNv
Ehfn, Ehfnv , eHFN,
OS-ELMn ELM, OS-ELM e ANYA DENFIS
eHFNv , eNNEL e eNNELv

com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cı́rculos. Para gerar
os gráficos, foi utilizada a função mapminmax.reverse, que reverte os valores normalizados nos
valores reais. Portanto, os gráficos da Figura 5.3 possuem os valores reais.
A evolução do número de neurônios da camada intermediária para as redes propostas, eHFN,
eHFNv , Ehfn, Ehfnv , eNNEL e eNNELv , é apresentado na Figura 5.4. A maioria dos neurônios
são criados nos 50 primeiros instantes e nenhum neurônio é excluı́do. As redes finais apresentam
uma estrutura com 7 neurônios na camada intermediária.
Os resultados de RMSE para o conjunto de teste Fim são apresentados na Tabela 5.4. Aqui,
novamente os modelos com menor RMSE médio foram os modelos DENFIS, ELM e OS-ELMn.
Neste experimento, os modelos eHFN, eHFNv , eNNEL e eNNELv superam o modelo ANYA,
com menor RMSE médio.
Novamente os modelos Ehfn e Ehfnv apresentam os maiores RMSE médios.
Os menores custos computacionais, entre os modelos que alteram tanto a estrutura quanto
os parâmetros com o fluxo de dados, são novamente os modelos eNNEL, eNNELv e ANYA.
A Figura 5.5 apresenta graficamente os resultados da Tabela 5.4. Para os modelos OS-
ELMn, eHFNv , eNNEL e eNNELv , a maioria dos valores está abaixo da média, diferentemente
dos modelos Ehfn e Ehfnv , onde a maioria dos valores está acima da média.
Segundo os valores de DM para o conjunto Fim, Tabela 5.5, as redes eHFN e eHFNv possuem
mesma acurácia preditiva que os modelos ANYA, OS-ELM e entre elas. As redes eHFN e eHFNv
são mais acuradas que os modelos Ehfn, Ehfnv , eNNEL e eNNELv e menos acuradas que os
outros modelos. Os modelos Ehfn e Ehfnv possuem mesma acurácia que o modelo ANYA e
entre elas, essas redes são menos acuradas que todos os outros modelos. As redes eNNEL e
60 Capı́tulo 5. Resultados Computacionais

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.3: Saı́das das redes para os dados Box-Jenkins, para o conjunto Todos.

eNNELv são mais acuradas que os modelos Ehfn e Ehfnv e possuem mesma acurácia preditiva
que os modelos ANYA, OS-ELM e entre elas. O modelo OS-ELMn possui mesma acurácia que
os modelos ANYA e OS-ELM, é menos acurado que os modelos DENFIS e ELM e mais acurado
que todos os outros modelos. Esses resultados são resumidos na Tabela 5.6.

As figuras presentes na Figura 5.6 apresentam as saı́das das redes propostas e os valores
desejados para os dados Box-Jenkins, para o conjunto Fim. A concentração de CO2 , y t , repre-
sentada pelo gráfico em azul e pontos conseguem ser previstos com grande precisão pelas saı́das
das redes neurais, ŷ t , gráfico em vermelho e cı́rculos. Os gráficos são gerados da mesma forma,
5.3. Identificação de Sistemas 61

Figura 5.4: Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto
Todos.

Tabela 5.4: Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Fim.

Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 5 5 0,0230 0,0259 0,0244 0,0007 0,0243 0,0012 0,0002
OS-ELM 11 11 0,0497 0,0517 0,0500 0,0003 0,0499 0,0003 0,0072
OS-ELMn 3 3 0,0235 0,0728 0,0283 0,0071 0,0259 0,0055 0,0076
Ehfn 8 8 0,0724 0,1096 0,0970 0,0097 0,1012 0,0140 0,0317
Ehfnv 8 8 0,0798 0,1138 0,1007 0,0092 0,1040 0,0114 0,0338
ANYA 8 8 0,0696 0,0696 0,0696 0 0,0696 0 0,0186
DENFIS 13 13 0,0234 0,0234 0,0234 0 0,0234 0 0,2454
eHFN 8 8 0,0425 0,0742 0,0525 0,0060 0,0526 0,0069 0,0314
eHFNv 8 8 0,0428 0,0702 0,0517 0,0056 0,0505 0,0076 0,0335
eNNEL 8 8 0,0445 0,0828 0,0613 0,0090 0,0600 0,0150 0,0164
eNNELv 8 8 0,0434 0,0834 0,0592 0,0096 0,0566 0,0136 0,0183

com a função mapminmax.reverse e apresentam os valores reais.


A Figura 5.4 apresenta a evolução do número de neurônios da camada intermediária para as
redes eHFN, eHFNv , Ehfn, Ehfnv , eNNEL e eNNELv . O número final de neurônios na camada
intermediária é de 8, um a mais que o experimento anterior. Aqui, a maioria dos neurônios é
criado até o instante 60.
A rede OS-ELMn apresentou o terceiro melhor desempenho nos dois conjuntos de dados.
Na fase de otimização, o número ótimo de neurônios foi 3, muito abaixo que qualquer outro
modelo. Ou seja, com uma estrutura menor a rede superou a todas as redes propostas.
62 Capı́tulo 5. Resultados Computacionais

Figura 5.5: Boxplot para os dados Box-Jenkins, para o conjunto Fim.

Tabela 5.5: Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim.

Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA -0,9481 1,2365 -0,9782 1,4682 -0,5115 -0,6056 -1,6849
DENFIS 4,3447 6,0066 4,2924 6,0297 4,5491 4,3739 2,5931
ELM 4,2533 6,0292 4,1977 6,0751 4,5357 4,3557 2,0481
OS-ELM -0,0172 2,6386 -0,0570 2,8933 0,5446 0,4230 -1,0093
OS-ELMn 4,1736 5,8913 4,1156 5,9210 4,4277 4,2466 -
eNNELv -2,8970 4,0979 -3,0420 4,2230 0,5753 - -
eNNEL -3,3607 3,9931 -3,4570 4,1145 - - -
Ehfnv -4,9379 -1,6425 -4,9414 - - - -
eHFNv 1,8707 4,8690 - - - - -
Ehfn -4,9379 - - - - - -

A estrutura das redes eHFN, eHFNv , eNNEL e eNNELv foram semelhantes, por isso o
desempenho dos pares eHFN e eHFNv , eNNEL e eNNELv foram estatisticamente semelhantes
nos dois conjuntos de teste.
5.4. Previsão de Séries Temporais 63

Tabela 5.6: Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
Ehfn, Ehfnv , eNNEL
eHFN eHFNv , OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eNNELv
Ehfn, Ehfnv , eNNEL
eHFNv eHFN, OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eNNELv
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn - Ehfnv e ANYA
OS-ELMn, ELM, OS-ELM e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfnv - Ehfn e ANYA
OS-ELMn, ELM, OS-ELM e DENFIS
eHFN, eHFNv , OS-ELMn,
eNNEL Ehfn e Ehfnv eNNELv , OS-ELM e ANYA
ELM e DENFIS,
eHFN, eHFNv , OS-ELMn,
eNNELv Ehfn e Ehfnv eNNEL, OS-ELM e ANYA
ELM e DENFIS
Ehfn, Ehfnv , eHFN,
OS-ELMn OS-ELM e ANYA ELM e DENFIS
eHFNv , eNNEL e eNNELv

5.4 Previsão de Séries Temporais

5.4.1 Série Temporal Mackey-Glass

Os dados da série temporal Mackey-Glass são gerados através de uma função não linear da
seguinte forma

dx Axt−τ
= − Bxt , (5.9)
dt 1 + (xt−τ )C
onde A = 0, 2, B = 0, 1, C = 10, τ = 17 com intervalo de integração igual a 0, 1. Esses valores
são usados por outros autores, e por isso foram usados aqui (Kasabov e Song; 2002; Angelov e
Xiaowei; 2006).
O objetivo é prever o valor de xt+85 , ou seja, xt 85 instantes a frente, utilizando valores
antigos de xt . O modelo para prever os valores de xt+85 é

xt+85 = fM G xt , xt−6 , xt−12 , xt−18 .



(5.10)

A função fM G (·) é não linear que aproxima a solução de (5.9).


Os experimentos foram realizados no espaço entrada-saı́da, zt = [xt+84 , xt , xt−6 , xt−12 , xt−18 ]
e para a experimentação, foram gerados 3200 dados segundo a função da equação (5.9). Os
dados de t = 200, . . . , 3200 foram utilizados.
Para os modelos que necessitam de treinamento, foram separados os 1000 primeiros dados,
sendo que os primeiros 800 dados foram utilizados para o treinamento e os 200 últimos para
a validação. Portanto, o conjunto Fim possui 2000 dados, e o conjunto Todos possui os 3000
64 Capı́tulo 5. Resultados Computacionais

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.6: Saı́das das redes para os dados Box-Jenkins, para o conjunto Fim.

dados.
A Figura 5.8 apresenta os valores de RMSE médio para o conjunto de treinamento e validação
para os modelos ELM, OS-ELM e OS-ELMn. O número de neurônios escolhido foi de 49 para a
ELM, 50 para a OS-ELM e 8 para a OS-ELMn com valores de RMSE médio de 0,0374, 0,0473
e 0,0548, respectivamente.
A Tabela 5.7 apresenta os desempenhos das redes segundo o RMSE, o número de re-
gras/neurônios e o tempo de processamento. Os menores valores de RMSE médio foram os
modelos DENFIS, OS-ELMn, ELM, eNNEL e eNNELv , em ordem crescente de valor do RMSE.
5.4. Previsão de Séries Temporais 65

Figura 5.7: Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto Fim.

a) ELM. b) OS-ELM.

c) OS-ELMn.

Figura 5.8: Treinamento e validação para a série Mackey-Glass.

Os modelos eHFN, eHFNv , Ehfn e Ehfnv possuem os maiores valores de RMSE médio.
Novamente, entre os modelos que apresentam modificações de estrutura, os menores custos
computacionais foram dos modelo eNNEL, eNNELv e ANYA.
66 Capı́tulo 5. Resultados Computacionais

Tabela 5.7: Desempenho para a série temporal Mackey-Glass, para o conjunto Todos.

Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 49 49 0,0123 0,0150 0,0136 0,0006 0,0137 0,0008 0,0107
OS-ELM 50 50 0,0241 0,0252 0,0247 0,0003 0,0247 0,0004 0,3246
OS-ELMn 8 8 0,0105 0,0162 0,0118 0,0009 0,0116 0,0009 0,1625
Ehfn 13 13 0,1064 0,1258 0,1180 0,0042 0,1187 0,0057 1,1384
Ehfnv 11 9 0,1138 0,1310 0,1252 0,0037 0,1260 0,0061 1,0479
ANYA 13 13 0,0274 0,0274 0,0274 0 0,0274 0 1,0455
DENFIS 32 32 0,0112 0,0112 0,0112 0 0,0112 0 8,2730
eHFN 13 13 0,0437 0,0556 0,0497 0,0030 0,0498 0,0048 1,1347
eHFNv 11 9 0,0550 0,0688 0,0638 0,0032 0,0648 0,0031 1,0504
eNNEL 13 13 0,0114 0,0227 0,0183 0,0031 0,0189 0,0048 0,5056
eNNELv 11 9 0,0126 0,0234 0,0185 0,0031 0,0187 0,0057 0,4983

A Figura 5.9 apresenta graficamente os resultados da Tabela 5.7. Neste experimento, a


mediana ficou muito próxima da média, para todos os modelos, ou seja, a média é uma boa
representação do desempenho dos modelos.

Figura 5.9: Boxplot para a série temporal Mackey-Glass, para o conjunto Todos.

Para uma comparação par a par, utiliza-se o teste DM, Tabela 5.8, para o conjunto de teste
5.4. Previsão de Séries Temporais 67

Todos. Para valores de |DM | menores que 1,96 a hipótese nula de mesma acurácia preditiva é
aceita; do contrário, valores maiores de 1,96, ela é rejeitada.
A Tabela 5.8 mostra que as redes eHFN, eHFNv , Ehfn e Ehfnv possuem menor acurácia
preditiva que todos os outros modelos. Entre essas redes, a rede mais acurada é a eHFN,
seguida da eHFNv , Ehfn e Ehfnv , o modelo menos acurado. As redes eNNEL e eNNELv possuem
mesma acurácia preditiva e superam a acurácia dos modelos ANYA, OS-ELM, eHFN, eHFNv ,
Ehfn e Ehfnv . Os únicos modelos que superam a acurácia das rede eNNEL e eNNELv são os
modelos ELM, DENFIS e OS-ELMn. Neste experimento, o modelo OS-ELMn possui mesma
acurácia preditiva que o modelo DENFIS, e supera todos os outros modelos. Esses resultados
são resumidos na Tabela 5.9.
Tabela 5.8: Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Todos.

Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 4,6694 18,5413 9,3045 20,5683 -2,2428 -2,2534 -2,9744
DENFIS 15,3242 20,6796 16,2097 22,6924 3,3470 3,7369 -1,1276
ELM 15,0135 20,6272 16,0215 22,6400 2,4948 2,7864 -5,3627
OS-ELM 7,0632 19,4094 11,5774 21,4613 -2,2360 -2,2592 -3,5633
OS-ELMn 15,5277 20,6892 16,3176 22,6984 3,6821 4,1443 -
eNNELv 13,6863 20,4033 15,3538 22,4157 -0,0015 - -
eNNEL 13,4904 20,3941 15,2717 22,4049 - - -
Ehfnv -19,7762 -2,6868 -17,9891 - - - -
eHFNv -7,7420 14,4180 - - - - -
Ehfn -17,9407 - - - - - -

Tabela 5.9: Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto
Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn, Ehfnv e eHFNv -
OS-ELM, ANYA e DENFIS
eHFN, eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv -
ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN,
eNNEL eNNELv OS-ELMn, ELM e DENFIS
eHFNv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN,
eNNELv eNNEL OS-ELMn, ELM e DENFIS
eHFNv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn DENFIS -
eNNEL, eNNELv , ELM, OS-ELM e ANYA

As curvas da Figura 5.10 apresentam as saı́das das redes e os valores desejados para a sé-
68 Capı́tulo 5. Resultados Computacionais

rie temporal Mackey-Glass. As redes conseguiram uma boa aproximação da função que define
a saı́da desejada, fM G . Os valores de xt , representados pelo gráfico em azul conseguem ser
previstos com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cru-
zes. Para gerar os gráficos, foi utilizada a função mapminmax.reverse, que reverte os valores
normalizados nos valores normais. Portanto, os gráficos da Figura 5.10 possuem os valores reais.

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.10: Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Todos.

Como o conjunto de dados é muito grande, as figuras da Figura 5.11 apresentam as primeiras
600 saı́das das redes e os primeiros 600 valores desejados para a série temporal Mackey-Glass,
para o conjunto Todos. Nesta figura, fica nı́tida a eficácia preditiva das redes OS-ELMn, eNNEL
5.4. Previsão de Séries Temporais 69

e eNNELv .

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.11: As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Todos.

A evolução do número de neurônios para as redes eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentada na Figura 5.12.a. O número final de neurônios para essas redes é 13.
A Figura 5.12.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9. Assim como nas outras aplicações,
o maior número de neurônios é criado nos primeiros instantes. Pode-se observar, na Figura
5.12.b, que a evolução do número de neurônios acontece desde os primeiros instantes até o final
70 Capı́tulo 5. Resultados Computacionais

do experimento, adaptando-se ao espaço entrada-saı́da.

a) Redes eHFN, eNNEL e Ehfn.

b) Redes eHFNv , eNNELv e Ehfnv .

Figura 5.12: Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Todos.

O desempenho dos modelos para o conjunto Fim é apresentado na Tabela 5.10. Os menores
valores de RMSE médio novamente foram os dos modelos DENFIS, OS-ELMn, ELM, eNNEL
e eNNELv . As redes com maior RMSE médio foram os modelos eHFN, eHFNv , Ehfn e por fim
Ehfnv .
O menor custo computacional, entre os modelos que alteram sua estrutura, foram os modelos
eNNEL, eNNELv e eHFNv .
A Figura 5.13 apresenta graficamente os resultados da Tabela 5.10. Novamente, a maioria
dos modelos apresentou mediana similar à média, com exceção dos modelos Ehfn, Ehfnv e
eNNEL, que apresentaram mediana superior à média. Ou seja, a maioria dos valores para as
5.4. Previsão de Séries Temporais 71

Tabela 5.10: Desempenho para a série temporal Mackey-Glass, para o conjunto Fim.

Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 49 49 0,0118 0,0154 0,0137 0,0006 0,0137 0,0008 0,0076
OS-ELM 50 50 0,0249 0,0265 0,0257 0,0003 0,0257 0,0004 0,2094
OS-ELMn 8 8 0,0102 0,0157 0,0118 0,0009 0,0117 0,0009 0,1087
Ehfn 14 14 0,0992 0,1294 0,1170 0,0068 0,1186 0,0095 0,8366
Ehfnv 12 9 0,1135 0,1361 0,1289 0,0055 0,1304 0,0095 0,6999
ANYA 14 14 0,0288 0,0288 0,0288 0 0,0288 0 0,7699
DENFIS 33 33 0,0105 0,0105 0,0105 0 0,0105 0 5,3492
eHFN 14 14 0,0372 0,0517 0,0453 0,0031 0,0456 0,0037 0,8352
eHFNv 12 9 0,0411 0,0523 0,0468 0,0020 0,0467 0,0028 0,6997
eNNEL 14 14 0,0107 0,0224 0,0178 0,0035 0,0189 0,0051 0,3636
eNNELv 12 9 0,0125 0,0240 0,0192 0,0031 0,0193 0,0053 0,3331

redes Ehfn, Ehfnv e eNNEL estão acima da média.

Figura 5.13: Boxplot para a série temporal Mackey-Glass, para o conjunto Fim.

A Tabela 5.11 apresenta os valores de DM para as comparações par a par. Neste expe-
rimento, novamente as redes eHFN, eHFNv , Ehfn e Ehfnv possuem menor acurácia preditiva
que todos os outros modelos. Entre essas redes, a rede mais acurada é a eHFN, seguido da
72 Capı́tulo 5. Resultados Computacionais

eHFNv , Ehfn e Ehfnv , o modelo menos acurado. A rede eNNELv supera a acurácia dos modelos
ANYA, OS-ELM, eHFN, eHFNv , Ehfn e Ehfnv e é superado pela acurácia dos modelos DEN-
FIS, OS-ELMn, ELM e eNNEL. Os únicos modelos que superam a rede eNNEL são os modelos
DENFIS, OS-ELMn e ELM. Novamente o modelo OS-ELMn possui mesma acurácia preditiva
que o modelo DENFIS e supera todos os outros modelos. Esses resultados são resumidos na
Tabela 5.12.
Tabela 5.11: Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Fim.

Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 2,4477 13,8759 3,1558 16,2473 -2,1510 -2,0076 -2,7137
DENFIS 17,3223 15,6931 21,1307 17,9158 3,4616 4,3252 0,3122
ELM 16,6541 15,6270 20,4353 17,8523 2,1866 3,0260 -7,2240
OS-ELM 4,5162 14,5971 5,5857 16,9120 -2,2157 -2,0003 -3,1884
OS-ELMn 17,5080 15,6859 21,4867 17,9044 3,4257 4,3009 -
eNNELv 13,8994 15,4234 17,1894 17,6634 -8,9512 - -
eNNEL 14,2642 15,4742 17,4924 17,7066 - - -
Ehfnv -16,3137 -3,6242 -16,0626 - - - -
eHFNv -2,7384 13,6052 - - - - -
Ehfn -13,9389 - - - - - -

Tabela 5.12: Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o
conjunto Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn, Ehfnv e eHFNv -
OS-ELM, ANYA e DENFIS
eHFN, eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv -
ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN, eHFNv ,
eNNEL - OS-ELMn, ELM e DENFIS
eNNELv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN, eNNEL, OS-ELMn, ELM
eNNELv -
eHFNv , OS-ELM e ANYA e DENFIS
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn DENFIS -
eNNEL, eNNELv , ELM, OS-ELM e ANYA

As figuras da Figura 5.14 apresentam as saı́das das redes e os valores desejados para a série
temporal Mackey-Glass. As redes conseguiram uma boa aproximação da função que define
a saı́da desejada, fM G . Os valores de xt , representados pelo gráfico em azul conseguem ser
previstos com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cruzes.
Para gerar os gráficos, foi utilizado a função mapminmax.reverse e apresentam os valores reais.
5.4. Previsão de Séries Temporais 73

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.14: Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Fim.

Como o conjunto de dados é muito grande, as figuras da Figura 5.15 apresentam as primeiras
600 saı́das das redes e os primeiros 600 valores desejados para a série temporal Mackey-Glass,
para o conjunto Fim. Novamente a eficácia preditiva das redes OS-ELMn, eNNEL e eNNELv é
visualmente maior que as redes eHFN e eHNFv .

A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.16.a. O número final de neurônios para essas redes é 14.
A Figura 5.16.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9. O maior número de neurônios, para
74 Capı́tulo 5. Resultados Computacionais

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.15: As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Fim.

todos os modelos, é criado nos primeiros instantes.

O modelo OS-ELMn apresenta o menor número de neurônios na camada intermediária, 8,


seguido dos modelos Ehfnv , eHFNv e eNNELv , com número final de neurônios de 9, para os
dois conjuntos de teste. Apesar disso, as redes OS-ELMn e eNNELv apresentam desempenhos
semelhantes ao modelo com menores RMSE médios, o modelo DENFIS. O modelo DENFIS,
para as duas aplicações, apresenta uma estrutura com mais de 30 regras nebulosas, o que torna
esse modelo oneroso computacionalmente.
5.4. Previsão de Séries Temporais 75

a) Redes eHFN, eNNEL e Ehfn.

b) Redes eHFNv , eNNELv e Ehfnv .

Figura 5.16: Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Fim.

5.4.2 Série Temporal Não Linear

Narendra e Parthasarathy (1990) sugerem diversos problemas para modelagem de sistemas


não lineares utilizando redes neurais. Um dos problemas é definido da seguinte forma

ay t
y t+1 = + c(ut )3 , (5.11)
1 + b(y t )2
onde ut = sen(2πt/25) + sen(2πt/10) e y 1 = 0.

O objetivo é aproximar a função não linear, fT SDC (·). As entradas são valores passados de
76 Capı́tulo 5. Resultados Computacionais

y t e a saı́da desejada é o próprio y t . O modelo é da seguinte forma

y t = fN LT S (y t−1 , y t−2 , y t−3 , y t−4 ). (5.12)

Para modificar o comportamento do sistema, a fim testar a capacidade de aproximação dos


modelos, alteraram-se os parâmetros e/ou a entrada ut e/ou a equação (5.11). A Tabela 5.13
apresenta como foi a definição do sistem. São gerados 1200 dados, t = 1, . . . , 1200.

Tabela 5.13: Série temporal não linear

Parâmetro t≤400 400<t≤600


a 0, 5sen(0, 2t) + 1 0, 5sen(0, 2t) + 0, 1
b 0, 5sen(0, 2t) + 1 0, 5sen(0, 2t) + 0, 3
c 0, 5sen(0, 2t) + 1 0, 5sen(0, 2t) + 0, 5
ut sen(2πt/25) + sen(2πt/10) sen(2πt/25) − sen(2πt/10)
ay t ay t
y t+1 1+b(y t )2
+ c(ut )3 1+b(y t )2
+ c(ut )3
Parâmetro 600<t≤800 800<t≤1000
a 0, 5sen(0, 2t) + 2, 5 0, 5sen(0, 2t) + 2, 1
b 0, 5sen(0, 2t) + 1, 8 0, 5sen(0, 2t) + 3
c 0, 5sen(0, 2t) − 1 0, 5sen(0, 2t) + 0, 4
ut sen(2πt/25) + sen(2πt/10) sen(2πt/25) + sen(2πt/10)
yt ay t y t−1
y t+1 a(1+b(y t )2 )
+ c(ut )3 1+b(y t )2
+ c(ut )3
Parâmetro 1000<t≤1200
a 0, 5sen(0, 2t) + 1
b 0, 5sen(0, 2t) + 1
c 0, 5sen(0, 2t) + 1
ut sen(2πt/25) + sen(2πt/10)
ay t
y t+1 1+b(y t )2
+ c(ut )3

Para os modelos que necessitam de treinamento, foram separadas os 400 primeiros dados,
sendo que os primeiros 320 dados foram utilizados para o treinamento e os 80 últimos para a
validação. Portanto, o conjunto Fim possui 800 dados, e o conjunto Todos possui os 1200 dados.
A Figura 5.17 apresenta os valores de RMSE médio para os conjuntos de treinamento e
validação para os modelos ELM, OS-ELM e OS-ELMn. O número de neurônios escolhido foi
de 50 para a ELM, 46 para a OS-ELM e 7 para a OS-ELMn com valores de RMSE médio de
0,0276, 0,0316 e 0,0522, respectivamente.
A Tabela 5.14 apresenta os resultados para a série temporal não linear, para o conjunto To-
dos. Neste experimento, os modelos com menor RMSE médio foram os modelos ELM, OS-ELM
e DENFIS. As redes eHFNv , eNNELv e Ehfnv superaram os modelos semelhantes que não reali-
5.4. Previsão de Séries Temporais 77

a) ELM. b) OS-ELM.

c) OS-ELMn.

Figura 5.17: Treinamento e validação para a série temporal não linear.

zam a exclusão de neurônios da camada intermediária, eHFN, eNNEL e Ehfn, respectivamente.

Os modelos com evolução na estrutura que apresentaram o menor custo computacional foram
os modelos eNNELv , eNNEL e eHFNv .

A Figura 5.18 apresenta graficamente os resultados da Tabela 5.14.

Para uma comparação par a par, utiliza-se o teste DM, Tabela 5.15. Para valores de |DM |
menores que 1,96 a hipótese nula de mesma acurácia preditiva é aceita, do contrário, valores
maiores de 1,96, ela é rejeitada.

Para o conjunto de teste Todos, os valores de DM são apresentados na Tabela 5.15 e re-
sumidos na Tabela 5.16. A rede eHFN possui mesma acurácia preditiva que o modelo Ehfnv .
A rede eHFN é mais acurada que os modelos Ehfn e eNNEL e menos acurada que os outros
modelos. O único modelo menos acurado que o modelo Ehfn é a rede eNNEL, o modelo com
menor acurácia para este experimento. O modelo Ehfnv é mais acurado que os modelos Ehfn
e eNNEL, igualmente acurado que o modelo eHFN e menos acurado que os outros modelos. A
rede eHFNv é mais acurada que os modelos Ehfnv , eHFN, Ehfn e eNNEL, e menos acurada que
78 Capı́tulo 5. Resultados Computacionais

Tabela 5.14: Desempenho para a série temporal não linear, para o conjunto Todos.
.
Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 50 50 0,0256 0,0274 0,0263 0,0001 0,0263 0,0004 0,0059
OS-ELM 46 46 0,0376 0,0379 0,0377 0,0001 0,0377 0,0001 0,1185
OS-ELMn 7 7 0,0453 0,0807 0,0501 0,0038 0,0497 0,0028 0,0615
Ehfn 19 19 0,0987 0,1110 0,1036 0,0020 0,1035 0,0024 0,5927
Ehfnv 11 9 0,0861 0,0950 0,0908 0,0014 0,0908 0,0016 0,4115
ANYA 19 19 0,0451 0,0451 0,0451 0 0,0451 0 0,5706
DENFIS 17 17 0,0391 0,0391 0,0391 0 0,0391 0 2,1196
eHFN 19 19 0,0894 0,1160 0,1034 0,0055 0,1037 0,0075 0,5978
eHFNv 11 9 0,0757 0,0989 0,0863 0,0041 0,0859 0,0049 0,4112
eNNEL 19 19 0,1352 0,2106 0,1709 0,0153 0,1701 0,0198 0,2523
eNNELv 11 9 0,0515 0,0628 0,0571 0,0024 0,0570 0,0038 0,1972

Figura 5.18: Boxplot para a série temporal não linear, para o conjunto Todos.

os outros modelos. O modelo eNNELv possui mesma acurácia preditiva que o modelo ANYA,
mais acurado que os modelos eHFNv , Ehfnv , eHFN, Ehfn e eNNEL, e menos acurado que os
outros modelos. A rede OS-ELMn é igualmente acurada que o modelo ANYA, menos acurada
que os modelos DENFIS, ELM e OS-ELM, e mais acurada que todos os outros sistemas.
5.4. Previsão de Séries Temporais 79

Tabela 5.15: Teste estatı́stico DM para a série temporal não linear, para o conjunto Todos.

Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 8,3843 8,7404 6,1695 7,6079 14,7170 1,5970 0,3894
DENFIS 10,8410 10,3930 8,9738 9,5781 16,5442 5,0049 3,4089
ELM 12,6767 11,7453 11,3215 11,1898 17,0809 9,6622 9,4487
OS-ELM 9,9463 9,8549 7,8534 8,8900 15,7782 3,4880 2,1674
OS-ELMn 11,4831 10,0660 8,2294 8,8259 16,7301 5,1976 -
eNNELv 10,8273 9,6278 6,9191 7,9733 16,6760 - -
eNNEL -12,6851 -8,4896 -13,0673 -10,2791 - - -
Ehfnv 0,3859 3,4179 -3,6472 - - - -
eHFNv 4,3908 5,6058 - - - - -
Ehfn -2,1840 - - - - - -

Tabela 5.16: Resumo do teste estatı́stico DM para a série temporal não linear, para o conjunto
Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eHFNv , eNNELv , OS-ELMn, ELM,
eHFN Ehfn e eNNEL Ehfnv
OS-ELM, ANYA e DENFIS
Ehfn, Ehfnv , eHFN eNNELv , OS-ELMn, ELM,
eHFNv -
e eNNEL OS-ELM, ANYA e DENFIS
Ehfnv , eHFN, eHFNv , eNNELv , OS-ELMn,
Ehfn eNNEL -
ELM, OS-ELM, ANYA e DENFIS
eHFNv , eNNELv , OS-ELMn,
Ehfnv Ehfn e eNNEL eHFN
ELM, OS-ELM, ANYA e DENFIS
eNNEL - - Todos
Ehfn, Ehfnv , eHFN, OS-ELMn, ELM, OS-ELM
eNNELv ANYA
eHFNv e eNNEL e DENFIS
Ehfn, Ehfnv , eHFN,
OS-ELMn ANYA ELM, OS-ELM e DENFIS
eHFNv , eNNEL e eNNELv

As curvas da Figura 5.19 apresentam as saı́das das redes e os valores desejados para a série
temporal não linear. É nı́tido que as redes propostas não apresentaram um bom resultado para
esse experimento, principalmente o modelo eNNEL. Os valores de y t , representados pelo gráfico
em azul são previstos pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cruzes. Para
gerar os gráficos da Figura 5.19, foi utilizado a função mapminmax.reverse e apresentam os
valores reais.
A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.20.a. O número final de neurônios para essas redes é 19.
A Figura 5.20.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9.
80 Capı́tulo 5. Resultados Computacionais

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.19: Saı́das das redes para a série temporal não linear, para o conjunto Todos.

Para o conjunto de teste Fim, segundo a Tabela 5.17, o modelo com menor RMSE médio é
o modelo ELM, seguido pelos modelos OS-ELM e DENFIS. Novamente as rede com exclusão
de neurônios, eHFNv , eNNELv e Ehfnv , superaram as redes que não excluem neurônios, eHFN,
eNNEL e Ehfn, respectivamente.
Entre os modelos que atualizam sua estrutura conforme o fluxo de dados, os que apresenta-
ram menor custo computacional foram os modelos eNNELv , eNNEL e ANYA.
A Figura 5.21 apresenta graficamente os resultados da Tabela 5.17. Os modelos com mediana
menor que a média, neste experimento, são OS-ELMn, eHFN, eHFNv , eNNEL e eNNELv .
5.4. Previsão de Séries Temporais 81

a) Redes eHFN, eNNEL e Ehfn.

b) Redes eHFNv , eNNELv e Ehfnv .

Figura 5.20: Evolução do número de neurônios para a série temporal não linear, para o conjunto
Todos.

A Tabela 5.18 apresenta os resultados do teste estatı́stico, a Tabela 5.19 resumo os resultados.
Segundo essa tabela, os modelos eHFN e eHFNv possuem mesma acurácia preditiva, são mais
acurados que os modelos Ehfn e Ehfnv e menos acurados que os outros modelos. Os modelos
Ehfn e Ehfnv possuem mesma acurácia preditiva e menos acurácia que todos os outros modelos.
A rede eNNEL é mais acurada que os modelos eHFN, eHFNv , Ehfn e Ehfnv e menos acurada
que os outros modelos. A rede eNNELv possui mesma acurácia que o modelo ANYA, supera
os modelos eNNEL, eHFN, eHFNv , Ehfn e Ehfnv e é superada pelos outro modelos. O modelo
OS-ELMn possui mesma acurácia preditiva que os modelos ANYA e DENFIS e é superada
somente pelos modelos ELM e OS-ELM.
As figuras da Figura 5.22 apresentam as saı́das das redes e os valores desejados para a série
82 Capı́tulo 5. Resultados Computacionais

Tabela 5.17: Desempenho para a série temporal não linear, para o conjunto Fim.

Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 50 50 0,0241 0,0254 0,0247 0,0003 0,0246 0,0004 0,0048
OS-ELM 46 46 0,0364 0,0367 0,0365 0,0001 0,0365 0,0001 0,0801
OS-ELMn 7 7 0,0441 0,0577 0,0495 0,0026 0,0491 0,0037 0,0415
Ehfn 14 14 0,0857 0,0921 0,0886 0,0013 0,0885 0,0017 0,3205
Ehfnv 11 10 0,0831 0,0881 0,0856 0,0013 0,0855 0,0022 0,2721
ANYA 14 14 0,0454 0,0454 0,0454 0 0,0454 0 0,2673
DENFIS 13 13 0,0434 0,0434 0,0434 0 0,0434 0 1,2294
eHFN 14 14 0,0711 0,1033 0,0836 0,0061 0,0831 0,0080 0,3226
eHFNv 11 10 0,0670 0,1010 0,0813 0,0061 0,0804 0,0061 0,2722
eNNEL 14 14 0,0549 0,0955 0,0675 0,0073 0,0660 0,0092 0,1418
eNNELv 11 10 0,0510 0,0661 0,0577 0,0033 0,0574 0,0053 0,1305

Figura 5.21: Boxplot para a série temporal não linear, para o conjunto Fim.

temporal não linear. Para esse conjunto de teste, o resultado é melhor para todos os modelos. Os
valores de y t , representados pelo gráfico em azul são previstos pelas saı́das das redes neurais, ŷ t ,
gráfico em vermelho e cruzes. Para gerar os gráficos, foi utilizado a função mapminmax.reverse
e apresentam os valores reais.
5.4. Previsão de Séries Temporais 83

Tabela 5.18: Teste estatı́stico DM para a série temporal não linear, para o conjunto Fim.

Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 4,9944 6,4206 4,7498 5,9415 2,4985 1,3819 0,1483
DENFIS 6,1027 6,9964 5,8449 6,4408 3,8711 2,7663 0,8914
ELM 10,3436 9,9220 10,1881 9,2871 8,2791 7,5047 7,1628
OS-ELM 7,1880 8,0030 6,9342 7,4479 4,7262 3,5709 2,5202
OS-ELMn 7,8368 7,4863 7,2789 6,8041 5,4213 4,1011 -
eNNELv 6,0573 6,4273 5,4124 5,7092 4,4430 - -
eNNEL 4,4043 5,3577 3,7255 4,6774 - - -
Ehfnv -2,2575 1,1638 -2,7735 - - - -
eHFNv 0,8405 3,4158 - - - - -
Ehfn -2,9360 - - - - - -

Tabela 5.19: Resultados do teste estatı́stico DM para a série temporal não linear, para o conjunto
Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn e Ehfnv eHFNv
OS-ELM, ANYA e DENFIS
eNNEL, eNNELv , OS-ELMn, ELM,
eHFNv Ehfn e Ehfnv eHFN
OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn - Ehfnv
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfnv - Ehfn
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfn, Ehfnv , eHFN OS-ELMn, ELM, OS-ELM,
eNNEL -
e eHFNv ANYA e DENFIS
Ehfn, Ehfnv , eHFN, OS-ELMn, ELM, OS-ELM
eNNELv ANYA
eHFNv e eNNEL e DENFIS
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn ANYA e DENFIS ELM e OS-ELM
eNNEL e eNNELv

A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.20.a. O número final de neurônios para essas redes é 14.
A Figura 5.20.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 10.

Novamente a rede OS-ELMn se destacou, com o menor número de neurônios na camada in-
termediária conseguiu equiparar-se a modelos como o DENFIS e o ANYA. A rede eNNELv , para
os dois conjuntos de teste, obteve um resultado melhor que a rede eNNEL, sempre superando a
acurácia preditiva, mesmo com um número menor de regras.
84 Capı́tulo 5. Resultados Computacionais

a) Saı́da da eHFN. b) Saı́da da eNNEL.

c) Saı́da da eHFNv . d) Saı́da da eNNELv .

e) OS-ELMn.

Figura 5.22: Saı́das das redes para a série temporal não linear, para o conjunto Fim.

5.5 Resumo

Neste capı́tulo, foram apresentados os resultados computacionais das redes propostas em


comparação com modelos da literatura. As redes foram aplicadas em três problemas: uma
tarefa de identificação de sistema, com o conjunto de dados Box-Jenkins, e duas tarefas de
previsão de séries temporais, a série temporal Mackey-Glass e os dados sintéticos de um sistema
não linear. Em cada problema, foram realizados duas aplicações, uma com todo o conjunto de
dados e outra somente com os últimos 3/4 do conjunto, aproximadamente.
5.5. Resumo 85

a) Redes eHFN, eNNEL e Ehfn.

b) Redes eHFNv , eNNELv e Ehfnv .

Figura 5.23: Evolução do número de neurônios para a série temporal não linear, para o conjunto
Fim.

Os dados iniciais de cada problema foram utilizados para realizar uma validação cruzada.
A validação cruzada determinou o número de neurônios na camada intermediária das redes
ELM, OS-ELM e OS-ELMn. Por isso as redes ELM, OS-ELM e OS-ELMn apresentavam um
conhecimento a priori do conjunto de dados. As redes Ehfn e Ehfnv utilizaram os mesmos dados
para inicializar as matrizes de dispersão das nuvens.
A raiz quadrada do erro quadrático foi utilizada para quantificar o desempenho dos modelos
e o teste estatı́stico Diebold-Mariano avaliou o desempenho dos modelos par a par. Analisando
os resultados dos critérios de comparação escolhidos, as redes neurais demonstraram potencial.
Os melhores desempenhos entre as redes propostas foram competitivos quando comparados aos
desempenhos dos modelos referenciais.
86 Capı́tulo 5. Resultados Computacionais

Particularmente, a rede eNNELv apresentou, nos testes estatı́sticos de todas as seis aplica-
ções, um desempenho igual ou superior ao do modelo ANYA. A rede eNNEL foi estatisticamente
igual e superior ao modelo ANYA em quatro das seis aplicações.
Outro modelo proposto que se destacou foi o modelo OS-ELMn, uma variação do modelo
OS-ELM. O modelo OS-ELMn apresentou menores valores médios de RMSE em quatro das seis
aplicações quando comparadas ou modelo OS-ELM. Quando comparado ao modelo DENFIS, o
modelo OS-ELMn apresentou mesma acurácia preditiva em três das seis aplicações. O modelo
DENFIS apresentou os melhores desempenhos em todas as aplicações e também sempre o maior
tempo de processamento, devida sua maior estrutura final na maioria das aplicações.
Os modelos OS-ELMn e eNNELv apresentaram sempre desempenhos competitivos e um
menor número de regras. De fato, as redes eNNEL e eNNELv são similares à rede OS-ELMn,
deferindo na definição da estrutura. A estrutura das redes eNNEL e eNNELv são adaptativas,
assim como seus parâmetros, na rede OS-ELMn somente os parâmetros são adaptativos.
As redes eHFN e eHFNv apresentaram mesma acurácia preditiva que o modelo ANYA e o
modelo OS-ELM em duas das seis aplicações. Apesar disso, estas redes foram inferiores às redes
eNNEL, eNNELv e OS-ELMn na maioria das aplicações. Os modelos Ehfn e Ehfnv mostraram
que a inicialização das matrizes de dispersão das nuvens com os dados utilizados para validação,
não melhorou os desempenhos.
Além disso, todas as redes propostas possuem tempo de processamento, quando comparados
aos modelos evolutivos, entre os menores em todas as aplicações, capacitando-as para diversas
aplicações que necessitam velocidade de processamento. As redes apresentaram um pequeno nú-
mero de regras/neurônios, formando modelos compactos para a representação do espaço entrada
saı́da.
Capı́tulo 6
Conclusão

O desenvolvimento de sistemas capazes de definir simultaneamente sua própria estrutura e


seus parâmetros introduz um alto grau de adaptação e autonomia. Adaptação é importante
quando se trata de modelagem de sistemas dinâmicos não lineares variantes no tempo em am-
bientes dinâmicos. Neste contexto, este trabalho propôs duas redes neurais evolutivas, redes
adaptativas com estrutura feedforward cujo número de neurônios da camada intermediária e
os pesos da camada de entrada e de saı́da são determinados concomitantemente. A primeira
delas utiliza unineurônios na camada intermediária e neurônios sigmoidais na camada de saı́da,
enquanto a segunda utiliza neurônios sigmoidais nas camadas intermediária e de saı́da. A
aprendizagem destas duas redes se dá por agrupamento e aprendizado extremo recursivo. Na
primeira, o agrupamento granulariza o espaço de entrada-saı́da e fornece o centro de grupos
como os valores modais de funções de pertinência Gaussianas. Neste caso, a dispersão da Gaus-
siana é determinada recursivamente a partir dos dados de entrada-saida. Na segunda rede, o
agrupamento determina o número de neurônios da camada intermediária, um neurônio para
cada grupo. Além disso, uma variação da rede OS-ELM com um número fixo de neurônios na
camada intermediária e neurônios sigmoidais em todas suas camadas foi sugerida. Neste caso,
a aprendizagem usa o algoritmo dos quadrados mı́nimos recursivo ponderado no aprendizado
extremo.
As redes neurais foram avaliadas utilizando dados do forno de Box-Jenkins e a série caótica
de Mackey-Glass, dois benchmarks tı́picos. Um conjunto de dados sintéticos gerado por um
sistema não linear com estrutura e parâmetros variantes no tempo também foi utilizado para a
avaliação. O desempenho foi avaliado utilizando a raiz quadrada do erro quadrático médio, o
teste estatı́stico de Diebold-Mariano e outras grandezas como o número de neurônios/regras e
tempo de processamento.

87
88 Capı́tulo 6. Conclusão

Os resultados mostram que o desempenho das redes neurais propostas é competitivo quando
comparado com as abordagens de modelagem evolutiva adotadas para comparação. Hoje, estas
abordagens são as mais eficientes disponı́veis na literatura. Em geral as redes neurais propostas
nesta dissertação são capazes de modelar sistemas não lineares complexos com uma estrutura
parcimoniosa, com alto grau de autonomia e grande acurácia. Além disso, as redes neurais
propostas têm um tempo de processamento entre os menores, capacitando-a para aplicações
on-line e tempo real.
Apesar de se mostrar promissora, um número de questões sobre a modelagem neural evolutiva
ainda precisam de ser investigadas. Por exemplo, é necessário analisar o comportamento das
rede neurais na modelagem de processos com parâmetros estocásticos. O mesmo ocorre no
caso de modelagem em ambientes com ruı́do e outliers. O estudo de redes neurais recorrentes
evolutivas com neurônios sigmoidais, neurônios nebulosos, ou ambos também está em aberto.
Outro assunto importante é o uso de sistemas evolutivos para controle adaptativo de alto nı́vel
e aplicações.
Bibliografia

Angelov, P. (2002). Evolving Rule-Based Models: A Tool for Design of Flexible Adaptive Sys-
tems, Physica-Verlag, Heidelberg, Alemanha.

Angelov, P. e Buswell, R. (2002). Identification of evolving rule-based models, IEEE Transac-


tions on Fuzzy Systems 10(5): 667–677.

Angelov, P. e Filev, D. (2004). An approach to online identification of takagi-sugeno fuzzy mo-


dels, IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics 34(1): 484
– 498.

Angelov, P., Filev, D. e Kasabov, N. (2010). Evolving Intelligent Systems: Methodology and
Applications, John Wiley & Sons, Hoboken, NJ, EUA.

Angelov, P. e Xiaowei, Z. (2006). Evolving fuzzy systems from data streams in real-time,
International Symposium on Evolving Fuzzy Systems, Lake District, Reino Unido, pp. 29 –35.

Angelov, P. e Yager, R. (2011a). A new type of simplified fuzzy rule-based system, International
Journal of General Systems 41(2): 163–185.

Angelov, P. e Yager, R. (2011b). Simplified fuzzy rule-based systems using non-parametric ante-
cedents and relative data density, Evolving and Adaptive Intelligent Systems, IEEE, pp. 62–69.

Ballini, R. e Gomide, F. (2002). Learning in recurrent, hybrid neurofuzzy networks, IEEE


International Conference on Fuzzy Systems, Vol. 1, Havaı́, EUA, pp. 785 –790.

Bordignon, F. e Gomide, F. (2012). Extreme learning for evolving hybrid neural networks,
Brazilian Symposium on Neural Networks, Curitiba, PR, Brazil, pp. 196–201.

89
90 Bibliografia

Bordignon, F. e Gomide, F. (2014). Uninorm based evolving neural networks and approximation
capabilities, Neurocomputing 127(0): 13 – 20.

Buckley, J. e Hayashi, Y. (1994). Fuzzy neural networks: A survey, Fuzzy sets and Systems
66: 1–13.

Caminhas, W., Tavares, H., Gomide, F. e Pedrycz, W. (1999). Fuzzy set based neural networks:
Structure, learning and application., JACIII 3(3): 151–157.

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function, Mathematics of


Control, Signals and Systems 2(4): 303–314.

Diebold, F. X. e Mariano, R. S. (1995). Comparing predictive accuracy, Journal of Business &


Economic Statistics 13(3): 253–63.

Fangju, A. (2011). A new pruning algorithm for feedforward neural networks, International
Workshop on Advanced Computational Intelligence, pp. 286–289.

Feng, G., Huang, G.-B., Lin, Q. e Gay, R. (2009). Error minimized extreme learning machine
with growth of hidden nodes and incremental learning, Transactions on Neural Networks
20(8): 1352–1357.

Fukuda, T. e Kubota, N. (2001). Computational intelligence-fuzzy, neural, and evolutionary


computing, IFSA World Congress and 20th NAFIPS International Conference, 2001. Joint
9th, Vol. 4, pp. 2084–2089 vol.4.

Funahashi, K. (1989). On the approximate realization of continuous mappings by neural


networks, Neural Netw. 2(3): 183–192.

Gao, W. (2005). New evolutionary neural networks, First International Conference on Neural
Interface and Control, pp. 167–171.

Golub, G. H. e Van Loan, C. F. (1996). Matrix Computations (3rd Ed.), Johns Hopkins Uni-
versity Press, Baltimore, MD, USA.

Hájek, P. (2000). Discovering the world with fuzzy logic, Physica-Verlag GmbH, Heidelberg,
Germany, Germany, chapter On the Metamathematics of Fuzzy Logic, pp. 155–174.
URL: http://dl.acm.org/citation.cfm?id=357564.357577
Bibliografia 91

Hassoun, M. H. (1995). Fundamentals of Artificial Neural Networks, 1st edn, MIT Press, Cam-
bridge, MA, USA.

Haykin, S. (2009). Neural Networks and Learning Machines, 3 edn, Pearson Education, Upper
Saddle River, NJ, EUA.

Hell, M. B. (2008). Abordagem neurofuzzy para modelagem de sistemas dinâmicos não lineares,
PhD thesis, Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de
Computação.

Hell, M., Costa, P., Gomide, F. e Jr, P. C. (2008). Hybrid neurofuzzy computing with nullneu-
rons, IEEE International Joint Conference on Neural Networks pp. 3653–3659.

Hell, M., Gomide, F., Ballini, R. e Costa, P. (2009a). Uninetworks in time series forecasting,
Fuzzy Information Processing Society, 2009. NAFIPS 2009. Annual Meeting of the North
American pp. 1–6.

Hell, M., Gomide, F., Ballini, R. e Costa, P. (2009b). Uninetworks in time series forecasting,
Annual Meeting of the North American Fuzzy Information Processing Society pp. 1–6.

Ho, W. L., Tung, W. L. e Quek, C. (2010). Brain-inspired evolving neuro-fuzzy system for
financial forecasting and trading of the s&p500 index, Pacific Rim international conference
on Trends in artificial intelligence pp. 601–607.

Hornik, K., Stinchcombe, M. e White, H. (1989). Multilayer feedforward networks are universal
approximators, Neural Netw. 2(5): 359–366.

Huang, G.-B. (2008). Reply to ”comments on the extreme learning machine”, Neural Networks,
IEEE Transactions on 19(8): 1495–1496.

Huang, G.-B., Chen, L. e Siew, C.-K. (2006). Universal approximation using incremental cons-
tructive feedforward networks with random hidden nodes, Neural Networks, IEEE Transac-
tions on 17(4): 879–892.

Huang, G.-B., Wang, D. e Lan, Y. (2011). Extreme learning machines: a survey, International
Journal of Machine Learning and Cybernetics 2(2): 107–122.

Huang, G.-B., Zhu, Q.-Y. e Siew, C.-K. (2006). Extreme learning machine: Theory and appli-
cations, Neurocomputing 70(1): 489 – 501.
92 Bibliografia

Huang, G., Li, M., Chen, L. e Siew, C. (2008). Incremental extreme learning machine with fully
complex hidden nodes, Neurocomputing 71(4-6): 576–583.

Huang, G., Liang, N., Rong, H., Saratchandran, P. e Sundararajan, N. (2005). On-line se-
quential extreme learning machine, in M. H. Hamza (ed.), Computational Intelligence 05,
IASTED/ACTA Press, Calgary, Alberta, Canadá, pp. 232–237.

Huang, G., Zhu, Q. e Siew, C. (2004). Extreme learning machine: a new learning scheme
of feedforward neural networks, IEEE International Joint Conference on Neural Networks
2: 985–990.

Irwin, G. (1998). Artificial intelligence approaches to model-based control, Update on Develop-


ments in Intelligent Control (Ref. No. 1998/513), IEE Colloquium on, pp. 4/1–4/6.

Islam, M., Sattar, A., Amin, F., Yao, X. e Murase, K. (2009a). A new adaptive merging and
growing algorithm for designing artificial neural networks, IEEE Transactions on Systems,
Man, and Cybernetics, Part B: Cybernetics 39(3): 705–722.

Islam, M., Sattar, M., Amin, M., Yao, X. e Murase, K. (2009b). A new constructive algorithm
for architectural and functional adaptation of artificial neural networks, IEEE Transactions
on Systems, Man, and Cybernetics, Part B: Cybernetics, 39(6): 1590–1605.

Javan, D., Mashhadi, H. e Rouhani, M. (2010). Static security assessment using radial basis
function neural networks based on growing and pruning method, Electric Power and Energy
Conference, pp. 1–6.

Kasabov, N. (1996a). Adaptable neuro production systems, Neurocomputing 13(2-4): 95 – 117.

Kasabov, N. e Filev, D. (2006). Evolving intelligent systems: Methods, learning, applications,


International Symposium on Evolving Fuzzy Systems, pp. 8–18.

Kasabov, N. K. (1996b). Foundations of Neural Networks, Fuzzy Systems, and Knowledge


Engineering, 1st edn, MIT Press, Cambridge, MA, USA.

Kasabov, N. e Song, Q. (2002). DENFIS: dynamic evolving neural-fuzzy inference system and
its application for time-series prediction, IEEE Trans. on Fuzzy Systems 10(2): 144 –154.

Klir, G. J. e Folger, T. A. (1987). Fuzzy Sets, Uncertainty, and Information, Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA.
Bibliografia 93

Klir, G. J. e Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic: Theory and Applications, Prentice-
Hall, Inc., Upper Saddle River, NJ, USA.

Lee, S. C. e Lee, E. T. (1974). Fuzzy sets and neural networks, Journal of Cybernetics 4(2): 83–
103.

Lee, S. C. e Lee, E. T. (1975). Fuzzy neural networks, Mathematical Biosciences 23(1-2): 151–
177.

Leite, D., Costa, P. e Gomide, F. (2012). Evolving granular neural network for fuzzy time series
forecasting, The 2012 International Joint Conference on Neural Networks pp. 1–8.

Lemos, A., Caminhas, W. e Gomide, F. (2010). New uninorm-based neuron model and fuzzy
neural networks, Annual Meeting of the North American Fuzzy Information Processing Society
pp. 1–6.

Lemos, A. P. (2011). Modelagem Nebulosa Evolutiva: Novas Topologias e Algoritmos de Apren-


dizagem, PhD thesis, Universidade Federal de Minas Gerais.

Liang, N.-Y., Huang, G.-B., Saratchandran, P. e Sundararajan, N. (2006). A fast and accurate
online sequential learning algorithm for feedforward networks, IEEE Transactions on Neural
Networks 17(6): 1411–1423.

Liao, G.-C. e Tsao, T.-P. (2003). Integrating evolving fuzzy neural networks and tabu search
for short term load forecasting, Transmission and Distribution Conference and Exposition,
Vol. 2, IEEE, pp. 755–762 vol.2.

Lin, C. e Lee, C. (1996). Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intelligent Systems,
Prentice-Hall, Upper Saddle River, NJ, USA.

Liu, Y., Zhang, Y., Zhu, Y. e Zhao, Z. (2010). A constructive neural network learning method
based on quotient space and its application in coal mine gas prediction, International Confe-
rence on Intelligent Computing and Cognitive Informatics, pp. 172–174.

Ljung, L. (ed.) (1999). System Identification: Theory for the User, 2 edn, Prentice Hall PTR,
Upper Saddle River, NJ, USA.

Luna, I., Soares, S., Lopes, J. E. G. e Ballini, R. (2009). Verifying the Use of Evolving Fuzzy
Systems for Multi-Step Ahead Daily Inflow Forecasting, Intelligent System Applications to
Power Systems, IEEE, pp. 1–6.
94 Bibliografia

Mamdani, E. e Assilian, S. (1975). An experiment in linguistic synthesis with a fuzzy logic


controller, International Journal of Man-Machine Studies 7(1): 1 – 13.

McCulloch, W. e Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity,
The bulletin of mathematical biophysics 5(4): 115–133.

Miche, Y., Sorjamaa, A., Bas, P., Simula, O., Jutten, C. e Lendasse, A. (2010). Op-elm: Opti-
mally pruned extreme learning machine, IEEE Transactions on Neural Networks 21(1): 158–
162.

Minhas, R., Mohammed, A. e Wu, Q. (2012). Incremental learning in human action recognition
based on snippets, IEEE Trans. on Circuits and Systems for Video Technology 22(11): 1529
–1541.

Narendra, K. e Parthasarathy, K. (1990). Identification and control of dynamical systems using


neural networks, IEEE Trans. on Neural Networks 1(1): 4–27.

Naso, D. e Maione, G. (2001). Recent developments in the application of computational intel-


ligence to multi-agent manufacturing control, Fuzzy Systems, 2001. The 10th IEEE Interna-
tional Conference on, Vol. 2, pp. 990–994 vol.3.

Nguyen, N. N. e Quek, C. (2010). Stock price prediction using Generic Self-Evolving Takagi-
Sugeno-Kang (GSETSK) fuzzy neural network, International Joint Conference on Neural
Networks, IEEE, pp. 1–8.

Pedrycz, W. (1993). Fuzzy neural networks and neurocomputations, Fuzzy Sets and Systems
56(1): 1–28.

Pedrycz, W. (2006a). Logic-based fuzzy neurocomputing with unineurons, IEEE Trans. on


Fuzzy Systems 14(6): 860 –873.

Pedrycz, W. (2006b). Logic-based fuzzy neurocomputing with unineurons, IEEE Transactions


on Fuzzy Systems 14(6): 860–873.

Pedrycz, W., Lam, P. e Rocha, A. (1995). Distributed fuzzy system modeling, Systems, Man
and Cybernetics 25(5): 769 – 780.

Pedrycz, W. e Rocha, A. (1993). Fuzzy-set based models of neurons and knowledge-based


networks, IEEE Trans. on Fuzzy Systems 1(4): 254 –266.
Bibliografia 95

Pisani, P. e Lorena, A. (2012). Evolutionary neural networks applied to keystroke dynamics:


Genetic and immune based, IEEE Congress on Evolutionary Computation, pp. 1–8.

Pouzols, F. e Lendasse, A. (2010a). Evolving fuzzy optimally pruned extreme learning machine:
A comparative analysis, IEEE International Conference on Fuzzy Systems, pp. 1–8.

Pouzols, F. M. e Lendasse, A. (2010b). Evolving fuzzy optimally pruned extreme learning


machine for regression problems, Evolving Systems 1(1): 43–58.

Rivals, I. e Personnaz, L. (2003). Neural-network construction and selection in nonlinear mode-


ling, IEEE Transactions on Neural Networks 14(4): 804–819.

Rong, H., Sundararajan, N., Huang, G. e Saratchandran, P. (2006). Sequential adaptive fuzzy
inference system (safis) for nonlinear system identification and prediction, Fuzzy Sets and
Systems 157(9): 1260–1275.

Rosa, R., Gomide, F. e Ballini, R. (2013a). Evolving hybrid neural fuzzy network for system
modeling and time series forecasting, International Conference on Machine Learning and
Applications, Vol. 2, pp. 378–383.

Rosa, R., Gomide, F. e Ballini, R. (2013b). Rede neuro-fuzzy evolutiva com neurônios ba-
seados em uninormas para previsão de séries temporais, Simpósio Brasileiro de Automação
Inteligente, Vol. 1, pp. 1–6.

Rosa, R., Gomide, F., Dovzan, D. e Skrjanc, I. (2014). Evolving neural network with extreme
learning for system modeling, IEEE Conference on Evolving and Adaptive Intelligent Systems,
Vol. 1, pp. 1–7.

Rosa, R., Maciel, L., Gomide, F. e Ballini, R. (2014). Evolving hybrid neural fuzzy network
for realized volatility forecasting with jumps, IEEE Computational Intelligence for Financial
Engineering & Economics, Vol. 1, pp. 1–8.

Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and
organization in the brain, Psychological Review 65(6): 386–408.

Rumelhart, D. E., McClelland, J. L. e PDP Research Group, C. (eds) (1986). Parallel Distributed
Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations, MIT Press,
Cambridge, MA, USA.
96 Bibliografia

Sadeghi-Tehran, P., Cara, A., Angelov, P., Pomares, H., Rojas, I. e Prieto, A. (2012). Self-
evolving parameter-free rule-based controller, IEEE International Conference on Fuzzy Sys-
tems, pp. 1–8.

Samet, S. e Miri, A. (2012). Privacy-preserving back-propagation and extreme learning machine


algorithms, Data & Knowledge Engineering 79-80: 40–61.

Schürmann, J. (1996). Pattern Classification: A Unified View of Statistical and Neural Appro-
aches, John Wiley & Sons, Inc., New York, NY, USA.

Shing, J. e Jang, R. (1993). ANFIS: Adaptive-network-based fuzzy inference system, IEEE


Trans. on Systems, Man, and Cybernetics 23: 665–685.

Song, Y., Crowcroft, J. e Zhang, J. (2012). Automatic epileptic seizure detection in eegs based
on optimized sample entropy and extreme learning machine, Journal of Neuroscience Methods
210(2): 132 – 146.

Souza, L., Lemos, A. P., Caminhas, W. M. e Boaventura, W. C. (2012). Thermal modeling


of power transformers using evolving fuzzy systems, Engineering Applications of Artificial
Intelligence 25(5): 980–988.

Sprecher, D. A. (1996). A numerical implementation of kolmogorov’s superpositions, Neural


Netw. 9(5): 765–772.

Takagi, T. e Sugeno, M. (1985). Fuzzy identification of systems and its applications to modeling
and control, IEEE Transactions on Systems, Man and Cybernetics SMC-15(1): 116–132.

Wang, W., Li, D. Z. e Vrbanek, J. (2012). An evolving neuro-fuzzy technique for system state
forecasting, Neurocomputing 87(0): 111–119.

Wang, W., Lu, W., Leung, A., Lo, S.-M., Xu, Z. e Wang, X. (2002). Optimal feed-forward
neural networks based on the combination of constructing and pruning by genetic algorithms,
Proceedings of the 2002 International Joint Conference on Neural Networks, Vol. 1, pp. 636–
641.

Xu, Y., Dong, Z., Zhao, J., Zhang, P. e Wong, K. (2012). A reliable intelligent system for
real-time dynamic security assessment of power systems, IEEE Trans. on Power Systems
27(3): 1253 –1263.
Bibliografia 97

Yager, R. e Filev, D. (1994a). Approximate clustering via the mountain method, IEEE Trans.
on Systems, Man and Cybernetics 24(8): 1279 –1284.

Yager, R. R. e Filev, D. P. (1994b). Essentials of Fuzzy Modeling and Control, Wiley-


Interscience, New York, NY, USA.

Yager, R. e Rybalov, A. (1996). Uninorm aggregation operators, Fuzzy Sets and Systems
80(1): 111–120.

Yao, X. (1999). Evolving artificial neural networks, Proceedings of the IEEE 87(9): 1423–1447.

Young, P. (1984). Recursive Estimation and Time-series Analysis: An Introduction, Springer-


Verlag New York, Inc., New York, NY, USA.

Zadeh, L. (1965). Fuzzy sets, Information and Control 8(3): 338 – 353.

Zadeh, L. A. (1973). Outline of a new approach to the analysis of complex systems and decision
processes, Systems, Man and Cybernetics, IEEE Transactions on SMC-3(1): 28–44.

Você também pode gostar