Escolar Documentos
Profissional Documentos
Cultura Documentos
Campinas
2014
i
ii
Universidade Estadual de Campinas
Faculdade de Engenharia Elétrica e de Computação
Campinas
2014
iii
Ficha catalográfica
Universidade Estadual de Campinas
Biblioteca da Área de Engenharia e Arquitetura
Rose Meire da Silva - CRB 8/5974
Título em outro idioma: Evolving neural networks with recursive extreme learning
Palavras-chave em inglês:
Artificial neural networks
Learning
Evolutionary computation
Fuzzy systems
Área de concentração: Engenharia de Computação
Titulação: Mestre em Engenharia Elétrica
Banca examinadora:
Fernando Antonio Campos Gomide [Orientador]
Michel Bortolini Hell
Romis Ribeiro de Faissol Attux
Data de defesa: 25-08-2014
Programa de Pós-Graduação: Engenharia Elétrica
iv
v
vi
Resumo
Esta dissertação estuda uma classe de redes neurais evolutivas para modelagem
de sistemas a partir de um fluxo de dados. Esta classe é caracterizada por redes
evolutivas com estruturas feedforward e uma camada intermediária cujo número de
neurônios é variável e determinado durante a modelagem. A aprendizagem consiste
em utilizar métodos de agrupamento para estimar o número de neurônios na camada
intermediária e algoritmos de aprendizagem extrema para determinar os pesos da
camada intermediária e de saı́da da rede. Neste caso, as redes neurais são chamadas
de redes neurais evolutivas. Um caso particular de redes evolutivas é quando o
número de neurônios da camada intermediária é determinado a priori, mantido fixo,
e somente os pesos da camada intermediária e de saı́da da rede são atualizados de
acordo com dados de entrada. Os algoritmos de agrupamento e de aprendizagem
extrema que compõem os métodos evolutivos são recursivos, pois a aprendizagem
ocorre de acordo com o processamento de um fluxo de dados.
Em particular, duas redes neurais evolutivas são propostas neste trabalho. A
primeira é uma rede neural nebulosa hı́brida evolutiva. Os neurônios da camada
intermediária desta rede são unineurônios, neurônios nebulosos com processamento
sináptico realizado por uninormas. Os neurônios da camada de saı́da são sigmoi-
dais. Um algoritmo recursivo de agrupamento baseado em densidade, chamado de
nuvem, é utilizado para particionar o espaço de entrada-saı́da do sistema e estimar
o número de neurônios da camada intermediária da rede; a cada nuvem corresponde
um neurônio. Os pesos da rede neural nebulosa hı́brida são determinados utilizando
a máquina de aprendizado extremo com o algoritmo quadrados mı́nimos recursivo
ponderado. O segundo tipo de rede proposto neste trabalho é uma rede neural mul-
ticamada evolutiva com neurônios sigmoidais na camada intermediária e de saı́da.
Similarmente à rede hı́brida, nuvens particionam o espaço de entrada-saı́da do sis-
vii
tema e são utilizadas para estimar o número de neurônios da camada intermediária.
O algoritmo para determinar os pesos da rede é a mesma versão recursiva da máquina
de aprendizado extremo. Além das redes neurais evolutivas, sugere-se também uma
variação da rede adaptativa OS-ELM (online sequential extreme learning machine)
mantendo o número de neurônios na camada intermediária fixo e introduzindo neurô-
nios sigmoidais na camada de saı́da. Neste caso, a aprendizagem usa o algoritmo
dos quadrados mı́nimos recursivo ponderado no aprendizado extremo.
As redes foram analisadas utilizando dois benchmarks clássicos: identificação de
forno a gás com o conjunto de dados de Box-Jenkins e previsão de série temporal
caótica de Mackey-Glass. Dados sintéticos foram gerados para analisar as redes
neurais na modelagem de sistemas com parâmetros e estrutura variantes no tempo
(concept drif e concept shift). Os desempenhos foram quantificados usando a raiz
quadrada do erro quadrado médio e avaliados com o teste estatı́stico de Deibold-
Mariano. Os desempenhos das redes neurais evolutivas e da rede adaptativa foram
comparados com os desempenhos da rede neural com aprendizagem extrema e dos
métodos de modelagem evolutivos representativos do estado da arte. Os resultados
mostram que as redes neurais evolutivas sugeridas neste trabalho são competitivas
e têm desempenhos similares ou superiores às abordagens evolutivas propostas na
literatura.
viii
Abstract
This dissertation studies a class of evolving neural networks for system modeling
from data streams. The class encompasses single hidden layer feedforward neu-
ral networks with variable and online definition of the number of hidden neurons.
Evolving neural network learning uses clustering methods to estimate the number
of hidden neurons simultaneously with extreme learning algorithms to compute the
weights of the hidden and output layers. A particular case is when the evolving
network keeps the number of hidden neurons fixed. In this case, the number of hid-
den neurons is found a priori, and the hidden and output layer weights updated as
data are input. Clustering and extreme learning algorithms are recursive. Therefore,
the learning process may occur online or real-time using data stream as input.
Two evolving neural networks are suggested in this dissertation. The first is an
evolving hybrid fuzzy neural network with unineurons in the hidden layer. Unineu-
rons are fuzzy neurons whose synaptic processing is performed using uninorms. The
output neurons are sigmoidals. A recursive clustering algorithm based on density and
data clouds is used to granulate the input-output space, and to estimate the number
of hidden neurons of the network. Each cloud corresponds to a hidden neuron. The
weights of the hybrid fuzzy neural network are found using the extreme learning ma-
chine and the weighted recursive least squares algorithm. The second network is an
evolving multilayer neural network with sigmoidal hidden and output neurons. Like
the hybrid neural fuzzy network, clouds granulate the input-output space and gives
the number of hidden neurons. The algorithm to compute the network weights is the
same recursive version of the extreme learning machine. A variation of the adaptive
OS-ELM (online sequential extreme learning machine) network is also suggested.
Similarly as the original, the new OS-ELM fixes the number of hidden neurons, but
uses sigmoidal instead of linear neurons in the output layer. The new OS-ELM also
uses weighted recursive least square.
ix
The hybrid and neural networks were evaluated using two classic benchmarks:
the gas furnace identification using the Box-Jenkins data, and forecasting of the cha-
otic Mackey-Glass time series. Synthetic data were produced to evaluate the neural
networks when modeling systems with concept drift and concept shift. This a mode-
ling circumstance in which system structure and parameters change simultaneously.
Evaluation was done using the root mean square error and the Deibold-Mariano
statistical test. The performance of the evolving and adaptive neural networks
was compared against neural network with extreme learning, and evolving mode-
ling methods representative of the current state of the art. The results show that
the evolving neural networks and the adaptive network suggested in this disserta-
tion are competitive and have similar or superior performance than the evolving
approaches proposed in the literature.
x
Sumário
1 Introdução 1
1.1 Motivação e Relevância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
xi
4.2.2 Definição do Número de Neurônios na Camada Intermediária . . . . . . . 48
4.2.3 Algoritmo de Aprendizagem da eNNEL . . . . . . . . . . . . . . . . . . . 48
4.3 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Resultados Computacionais 51
5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Critérios de Avaliação e Validação . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.1 Raiz Quadrada do Erro Quadrado Médio . . . . . . . . . . . . . . . . . . 52
5.2.2 Teste Estatı́stico Diebold-Mariano . . . . . . . . . . . . . . . . . . . . . . 53
5.2.3 Validação Cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Identificação de Sistemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4 Previsão de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.1 Série Temporal Mackey-Glass . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4.2 Série Temporal Não Linear . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6 Conclusão 87
Bibliografia 89
xii
Agradecimentos
Agradeço,
aos professores da banca, Michel Hell e professor Romis Attux pelas considerações e enriqueci-
mento do trabalho.
aos colegas de orientação: Thomas Barlett e Leandro Maciel, pelas conversas e ajudas nos mo-
mentos de necessidade.
aos amigos que fiz na APOGEEU: Alan, Rafael, Edgar, Thisien, Eliezer, David, Saullo, Micael
e Clarissa, pelo mútuo interesse em construir uma pós-graduação melhor e além do laboratório.
aos professores e funcionários da FEEC, que fazem deste curso de pós-graduação um dos me-
lhores do paı́s.
aos amigos de república: Seike, Victor, Lucas e Natalia, pelas conversas enriquecedoras e par-
ceria.
aos meus amigos de longa data: Jef, João, Marcel, Eduardo e Adalberto, pelos mais de 10 anos
de companheirismo.
em especial, à minha famı́lia, Luis, Leila, Lara e Vitória, as pessoas mais importantes da minha
vida.
à minha namorada e melhor amiga, Lara, pelo apoio e dedicação nesses 5 anos de amor.
xiii
xiv
O revolucionário é o homem que transgride, que
não aceita, uma regra injusta. Respeite todas as
regras justas, respeite pela sua consciência, não
passe em cima do direito de ninguém. Agora, a
regra injusta a gente não aceita.
xv
xvi
Lista de Figuras
xvii
5.11 As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.12 Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.13 Boxplot para a série temporal Mackey-Glass, para o conjunto Fim. . . . . . . . . 71
5.14 Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Fim. . . . 73
5.15 As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.16 Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.17 Treinamento e validação para a série temporal não linear. . . . . . . . . . . . . . 77
5.18 Boxplot para a série temporal não linear, para o conjunto Todos. . . . . . . . . . 78
5.19 Saı́das das redes para a série temporal não linear, para o conjunto Todos. . . . . 80
5.20 Evolução do número de neurônios para a série temporal não linear, para o con-
junto Todos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.21 Boxplot para a série temporal não linear, para o conjunto Fim. . . . . . . . . . . 82
5.22 Saı́das das redes para a série temporal não linear, para o conjunto Fim. . . . . . 84
5.23 Evolução do número de neurônios para a série temporal não linear, para o con-
junto Fim. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
xviii
Lista de Tabelas
xix
xx
Lista de Acrônimos
xxi
xxii
Lista de Notação
A matriz
x vetor
T
A transposta da matriz A
A−1 inversa da matriz A
<n conjunto dos números reais n-dimensional
t instante, estágio ou etapa em processos iterativos/construtivos
(x t y) Norma triangular (t-norma) entre x e y
T(.) Operador t-norma
(x s y) Conorma triangular (s-norma) entre x e y
S(.) Operador s-norma
(x u y) Uninorma entre x e y
U(.) Operador de uninorma
γ densidade local de uma nuvem
µ valor modal local de uma nuvem
Γ densidade global das nuvens
µG valor modal global das nuvens
M número de elementos de uma nuvem
K dispersão local de uma nuvem
U ti utilidade de uma nuvem
[] elemento escalar ou vetorial vazio
W matriz de pesos sinápticos da camada intermediária de uma rede neural
w vetor de pesos sinápticos da camada intermediária de uma rede neural
R matriz de pesos sinápticos da camada saı́da de uma rede neural
r vetor de pesos sinápticos da camada de saı́da de uma rede neural
ŷ saı́da dos modelos
In matriz identidade de dimensão n × n
|| · || norma Euclidiana
xxiii
xxiv
Trabalhos Publicados Pelo Autor
Congressos Internacionais
Rosa, R.; Gomide, F.; Dovzan, D.; Skrjanc, I. (2014). Evolving Neural Network with Extreme
Learning for System Modeling. Proceedings of the IEEE Conference on Evolving and Adaptive
Intelligent Systems, Linz, AT, v. 1, p. 1-7.
Rosa, R.; Maciel, L. S.; Gomide, F.; Ballini, R. (2014). Evolving Hybrid Neural Fuzzy Network
for Realized Volatility Forecasting with Jumps. Proceedings of the IEEE Computational Intel-
ligence for Financial Engineering & Economics, London, UK, v. 1, p. 1-8.
Rosa, R.; Ballini, R.; Gomide, F (2013). Evolving Hybrid Neural Fuzzy Network for System
Modeling and Time Series Forecasting. Proceedings of the International Conference on Machine
Learning and Applications, Miami, USA, v. 2, p. 378-383.
Congressos Nacionais
Rosa, R.; Gomide, F.; Ballini, R. (2013). Rede Neuro-Fuzzy Evolutiva com Neurônios Baseados
em Uninormas para Previsão de Séries Temporais. Anais do Simpósio Brasileiro de Automação
Inteligente, Fortaleza, Ceará, v. 1, p. 1-6.
xxv
xxvi
Capı́tulo 1
Introdução
1
2 Capı́tulo 1. Introdução
tica, relação nebulosa, operações com conjuntos e relações nebulosas. Estas noções fornecem o
substrato para construir modelos e controladores nebulosos com estrutura neural, linguı́stica,
funcional ou hı́bridas. Um tipo de sistema nebuloso particular é aquele baseado em regras
nebulosas. Regras nebulosas podem originar do conhecimento especialista, de dados, ou de
ambos. Em geral a aquisição de conhecimento especialista é complexa e métodos baseados em
dados tornaram-se uma alternativa para desenvolver e complementar abordagens baseadas em
conhecimento especialista. Mais recentement, sistemas evolutivos que produzem bases de regras
nebulosas, ou determinam a estrutura de redes neurais, simultaneamente com os respectivos pa-
râmetros foram propostas na literatura (Kasabov e Filev; 2006; Angelov e Filev; 2004; Angelov
e Yager; 2011a; Angelov et al.; 2010).
Sistemas evolutivos são sistemas adaptativos de alto nı́vel, pois eles determinam sua es-
trutura e respectivos parâmetros de forma simultânea, gradual e incremental. Portanto, são
sistemas capazes de aprender a partir de um fluxo de dados, o que é muito conveniente em
ambientes on-line ou tempo real. Por exemplo, uma base de regras nebulosas pode ser reduzida
ou expandida de modo a se adaptar à situação indicada pelos dados de entrada. Em geral,
sistemas nebulosos evolutivos podem ser vistos como uma combinação de modelos nebulosos,
mecanismos de representação e compactação de dados, e métodos recursivos de aprendizado de
máquina (Kasabov e Filev; 2006).
Sistemas neurais nebulosos combinam a propriedade dos sistemas nebulosos de representar
e processar informações imprecisas com a capacidade de aprendizado e aproximação das redes
neurais artificiais. Redes neurais nebulosas evolutivas, assim como os sistemas evolutivos, são
capazes de adaptar sua estrutura (topologia da rede) e atualizar seus parâmetros (pesos da
rede) de acordo com um fluxo de dados (Angelov e Filev; 2004; Angelov e Xiaowei; 2006).
Encontram-se na literatura aplicações de redes neurais nebulosas evolutivas para previsão de
preço de ações (Nguyen e Quek; 2010), modelo térmico de transformadores de potência (Souza
et al.; 2012), previsão de estado (Wang et al.; 2012), entre outras (Leite et al.; 2012; Wang et al.;
2012; Nguyen e Quek; 2010).
1.2 Objetivos
O objetivo deste trabalho é desenvolver e estudar redes neurais evolutivas para modelagem
de processos não lineares e variantes no tempo a partir de um fluxo de dados. As redes neurais
evolutivas adaptam sua estrutura e respectivos parâmetros simultaneamente usando algoritmos
1.3. Organização do Trabalho 3
recursivos de aprendizagem. A ênfase deste trabalho é em redes neurais feedforward com uma
camada intermediária. A adaptação da estrutura se dá pela variação do número de neurônios
da camada intermediária. Os parâmetros correspondem aos pesos associados às conexões entre
os neurônios da camada de entrada e a camada intermediária (pesos da camada intermediária)
e aos pesos associados às conexões entre a camada intermediária e a camada de saı́da (pesos
da camada de saı́da). A adaptação de uma rede ocorre sempre que cada novo dado de entrada
é processado e o resultado deste processamento indique a necessidade de adaptação à situação
atual. Assume-se um fluxo de dados na entrada, isto é, o processamento de dados é sequencial,
sem a obrigatoriedade de armazenar e reprocessar todos dados processados anteriormente.
São propostas duas redes neurais evolutivas com aprendizado extremo recursivo e uma rede
neural que é uma variação da rede adaptativa OS-ELM (Liang et al.; 2006). A primeira é uma
rede neural nebulosa hı́brida evolutiva com unineurônios na camada intermediária e neurônios
sigmoidais na camada de saı́da. Unineurônios são neurônios artificiais nebulosos com proces-
samento sináptico baseado em uninormas. Um algoritmo de agrupamento recursivo baseado
no conceito de nuvem é utilizado para granularizar o espaço de entrada-saı́da do processo a
ser modelado. Um algoritmo de aprendizado extremo recursivo é utilizado para determinar os
parâmetros da rede neural, isto é, os pesos das camadas intermediária e de saı́da.
A segunda é uma rede neural evolutiva com aprendizado extremo recursivo. Esta rede neural
utiliza neurônios sigmoidais na camada intermediária e de saı́da. Esta rede também utiliza um
algoritmo de agrupamento recursivo baseado em nuvens. Contudo, neste caso o número de
nuvens define o número de neurônios da camada intermediária: a cada nuvem é associado um
neurônio desta camada. O algoritmo recursivo de aprendizado extremo também é utilizado para
atualizar os pesos da camada intermediária e de saı́da.
A variação da rede OS-ELM sugerida nessa dissertação tem a mesma estrutura e parâmetros
da rede original. Porém, diferentemente da rede OS-ELM, os neurônios de saı́da têm funções
de ativação sigmoidais em vez de lineares. Além disso, o algoritmo dos quadrados mı́nimos
recursivo original é substituı́do por sua versão ponderada.
Redes neurais nebulosas são destaque na literatura devido à grande aplicabilidade, capaci-
dade de aprendizado e interpretação dos dados (Buckley e Hayashi; 1994; Lemos et al.; 2010).
Neste capı́tulo são apresentados conceitos básicos sobre sistemas neurais artificias e sistemas
nebulosos, sistemas neurais nebulosos e redes neurais nebulosas. Neurônios nebulosos do tipo
and e or e unineurônios são apresentados assim como t-normas, s-normas e uninormas.
Redes neurais artificias, ou redes neurais (NN, Neural Network), são modelos matemáticos
inspirados nas redes neurais naturais e suas capacidades. As unidades básicas de processamento
das redes neurais são os neurônios artificiais. Em 1943, McCulloch e Pitts (1943) apresentaram
o primeiro modelo de neurônio artificial, um modelo matemático de um neurônio natural. Ro-
senblatt (1958), 15 anos após o primeiro modelo de neurônio artificial, propôs a primeira rede
neural chamada perceptron. As redes neurais emulam a capacidade de aprendizagem das re-
des neurais naturais, sendo capazes de aprender associações, padrões e dependências funcionais
(Hassoun; 1995). São utilizadas para reconhecimento de padrões, tomada de decisão, controle
de sistemas, previsão, etc.
A Figura 2.1 apresenta um modelo de neurônio artificial. Nesse modelo, os dados de entrada,
x = [x1 , . . . , xn ]T , são ponderados pelos pesos sinápticos w = [w1 , . . . , wn ]T através da multipli-
cação. Esses processamentos sinápticos, wi xi com i = 1, . . . , n, são agregados pelo operador de
P
soma, , como
X n
v= w i xi .
i=1
5
6 Capı́tulo 2. Redes Neurais Nebulosas
x1
w1
xi wi y
wn
xn
y = f (v). (2.1)
Uma rede neural feedforward de única camada intermediária (SLFN, Single hidden Layer
Feedforward Neural network), Figura 2.2, é um tipo de rede neural com um único fluxo de dados,
da camada de entrada para a camada de saı́da. Neste trabalho, as redes neurais propostas são
deste tipo.
Na camada de entrada da SLFN os dados de entrada, x, são inicialmente processados. As n
2.2. Redes Neurais Nebulosas 7
v l = f xT w l ,
onde wl = [w1l , . . . , wnl ]T , l = 1, . . . , N e f , como já dito, é usualmente escolhida como uma
função sigmoidal. As saı́das dos neurônios da camada intermediária, v = [v1 , . . . , vN ]T , são
ponderadas pelos pesos de saı́da R = [rjl ]. A saı́da da rede neural é definida como
ŷj = rj v, (2.2)
Based). Os sistemas FRB possuem um conjunto de regras nebulosas que modelam localmente um
sistema. O desempenho dos sistemas FRB, em uma determinada aplicação, pode ser ajustado
modificando os parâmetros e número das regras nebulosas.
Ao combinar os sistemas nebulosos e as redes neurais, cria-se a possibilidade de tratar com
um sistema linguı́stico ao invés de modelos matemáticos complexos. Um sistema linguı́stico é
basicamente composto de regras nebulosas altamente intuitivas e facilmente compreendidas por
humanos. Além disso, o sistema neural nebuloso pode auto-ajustar os parâmetros das regras
nebulosas usando algoritmos de aprendizagem baseados nas redes neurais. Um tipo de sistema
neural nebuloso são as rede neurais nebulosas (FNN, Fuzzy Nerual Networks).
Na literatura, Lee e Lee (1974, 1975) foram pioneiros ao generalizar o neurônio artificial de
McCulloch-Pitts utilizando valores no intervalo de zero a um.
Kasabov (1996a) propôs a rede neural nebulosa chamada FuNN (Fuzzy Neural Network ).
A estrutura da rede FuNN é similar à estrutura de uma rede neural perceptron de múltiplas
camadas (MLP, Multilayer Perceptron) (Rosenblatt; 1958). O algoritmo de aprendizagem da
rede FuNN corresponde a uma metodologia do tipo backpropagation. A FuNN é um modelo
de FNN adaptável: as funções de pertinência dos antecedentes nebulosos e as regras nebulosas,
ambas definidas antes do treinamento, adaptam-se e modificam-se de acordo com os dados
de treinamento. Esta rede possui 5 camadas: a camada de entrada, camada dos elementos
condicionais, camada de regras, camada dos consequentes e a camada de saı́da.
Outra FNN, chamada sistema de inferência nebulosa baseado em redes adaptativas (ANFIS,
Adaptive-Network-Based Fuzzy Inference System) é uma FNN com destaque na literatura. Pro-
posta por Shing e Jang (1993), é uma rede neural nebulosa hı́brida que constrói um conjunto
de regras nebulosas do tipo se-então com função de pertinência apropriada para modelagem de
sistemas. A rede é composta de 6 camadas e pode ser comparada a um sistema de inferência ne-
bulosa. A primeira camada é a camada de entrada dos dados. A segunda camada representa os
dados de entrada através de funções de pertinência, e os parâmetros das funções de pertinência
representam os antecedentes do sistema nebuloso. Os neurônios na terceira camada realizam
o produto, ou outra t-norma, entre os diferentes graus das funções de pertinência para cada
dado de entrada. A quarta camada possui neurônios que normalizam as saı́das dos neurônios da
terceira camada. Na quinta camada, os neurônios multiplicam a saı́da dos neurônios da camada
anterior com uma função linear das entradas. Os parâmetros da função linear representam
os consequentes do sistema nebuloso. A última camada, a camada de saı́da, realiza a média
ponderada das saı́das dos neurônios da camada anterior.
2.2. Redes Neurais Nebulosas 9
Segundo Buckley e Hayashi (1994), redes neurais nebulosas são definidas de acordo com
os operadores escolhidos na agregação e ponderação, e nas definições das entradas e pesos. As
redes podem ser definidas como rede neural hı́brida, rede neural nebulosa e rede neural nebulosa
hı́brida.
Redes neurais hı́bridas utilizam neurônios com processamento sináptico e agregação definidos
por operadores dos sistemas nebulosos, as entradas e pesos possuem valores reais. Lin e Lee
(1996) chamaram esses neurônios de tipo I.
Nas redes neurais nebulosas, as entradas e/ou os pesos são nebulosos, ou seja, definidos por
graus de pertinência a conjuntos nebulosos, no intervalo [0,1]. Os processamentos sinápticos e
as agregações não são definidos por operadores dos sistemas nebulosos.
Como nas redes neurais hı́bridas, os processamentos sinápticos e as agregações das redes
neurais nebulosas hı́bridas utilizam operadores dos sistemas nebulosos, porém as entradas e/ou
pesos são nebulosos. Lin e Lee (1996) chamaram esses neurônios de tipo II. A rede ANFIS
utiliza neurônios do tipo II em sua terceira camada.
Neurônios cujos operadores são definidos pelos sistemas nebulosos são chamados neurônios
nebulosos (Pedrycz; 1993). Um neurônio nebuloso, Figura 2.3, é definido por suas duas opera-
ções, uma operação local, também chamada processamento sinápitico ou operador de pondera-
ção, ∗, que pondera as entradas xi com os pesos wi , e uma operação global, também chamada
de operador de agregação, ⊗, que combinam os processamentos sinápticos gerando a saı́da y,
equação (2.3). Ambas as operações, local e global, são realizadas por operadores dos sistemas
nebulosos. Se as entradas e os pesos forem valores reais, o neurônio é do tipo I, se as entradas
e/ou os pesos são nebulosos, o neurônio é do tipo II.
x1
w1
v1
xi wi vi y
vn
wn
xn
Em geral, um neurônio nebuloso é um mapeamento ⊗ : [0, 1]n → [0, 1] e pode ser descrito
10 Capı́tulo 2. Redes Neurais Nebulosas
vi = wi ∗ xi , i = 1, 2, . . . , n,
(2.3)
y = ⊗(v1 , . . . , vn ) = v1 ⊗ . . . vn .
Nerônios do tipo and e or (Pedrycz e Rocha; 1993), unineurônios (Pedrycz; 2006a; Hell
et al.; 2009a,b; Lemos et al.; 2010) e nulneurônios (Hell et al.; 2008) são neurônios nebulosos
que utilizam operadores nebulosos tais como as t-normas, s-normas, uninormas e nulnormas, res-
pectivamente. Dependendo dos valores assumidos pelos pesos e entradas, os neurônios nebulosos
são definidos como neurônios do tipo I ou II.
vi = S(wi , xi ), i = 1, 2, . . . , n,
(2.4)
y = T(v1 , . . . , vn ),
ou simplesmente
2.2. Redes Neurais Nebulosas 11
x1
w1
xi wi
and y
wn
xn
n
y = and(w, x) = T S(wi , xi ), (2.5)
i=1
onde x = [x1 , . . . , xn ]T é o vetor das entradas, xi ∈ [0, 1], w = [w1 , . . . , wn ]T é o vetor do pesos,
n
wi ∈ [0, 1], y ∈ [0, 1] é a saı́da e T (.) representa uma operação de t-normas.
i=1
O neurônio nebuloso chamado neurônio lógico or, Figura 2.5, é obtido substituindo o opera-
dor local, da equação (2.3), por uma t-norma e o operador global por uma s-norma, da seguinte
forma
x1
w1
xi wi
or y
wn
xn
vi = T (wi , xi ), i = 1, 2, . . . , n,
(2.6)
y = S(v1 , . . . , vn ),
ou simplesmente
n
y = or(w, x) = S T (wi , xi ), (2.7)
i=1
n
onde S (.) representa uma operação de s-normas.
i=1
Os neurônios lógicos and e or (Pedrycz e Rocha; 1993) são utilizados em diversas redes
presentes na literatura. Originalmente, Pedrycz et al. (1995) propuseram FNNs que utilizam
neurônios and e or. As FNNs propostas são redes neurais nebulosas hı́bridas e são chamadas
de processadores lógicos. Os dois tipos de processadores lógicos possuem estruturas duais com
12 Capı́tulo 2. Redes Neurais Nebulosas
as mesmas definições para entradas e pesos sinápticos, ambos com neurônios do tipo II. O
que difere os dois tipos de processadores lógicos é o posicionamento dos neurônios and e or. No
primeiro processador lógico há h neurônios and na camada intermediária e somente um neurônio
or na camada de saı́da. Os neurônios and fornecem uma sequência de mintermos generalizados
do sistema, combinados através da união lógica realizada pelo neurônio or. Este processador é
conhecido como soma de mintermos. No segundo tipo de processador lógico, conhecido como
produto de maxitermos, a camada intermediária possui h neurônios or e somente um neurônio
and na camada de saı́da, que tem a função de agregar os maxitermos generalizados fornecidos
pela camada anterior (Hell; 2008).
Outra rede com neurônios and e or do tipo II, foi propostar por Caminhas et al. (1999).
Essa FNN é utilizada para problemas de classificação de padrões. A rede neural nebulosa
hı́brida apresenta o conhecimento adquirido de forma explı́cita: é possı́vel inserir ou extrair
conhecimento na forma de regras nebulosas do tipo se-então.
Ballini e Gomide (2002) propõem uma FNN recorrente com neurônios and e or do tipo
II. Nessa rede neural nebulosa hı́brida as duas primeiras camadas, com neurônios nebulosos,
formando um sistema de inferência nebulosa, a camada de saı́da é formada por uma rede neural
clássica que agrega as saı́das das regras nebulosas do sistema de inferência, formando uma
estrutura hı́brida (Hell; 2008).
2.2.2 Unineurônios
Neste trabalho, iremos utilizar neurônios nebulosos que utilizam uninormas em seus operado-
res, chamados unineurônios. Unineurônios possuem uma grande plasticidade: eles generalizam
os neurônios and e or, uma vez que a uninorma generaliza as t-normas e s-normas triangulares
(Yager e Rybalov; 1996). Essa plasticidade é obtida através do elemento neutro das uninormas.
Também chamado de elemento identidade, o elemento neutro pode assumir qualquer valor no
intervalo unitário; assim, a uninorma pode assumir o comportamento de uma t-norma, com
elemento identidade igual a 1, e de uma s-norma, com elemento identidade igual a 0, além de
possuir caracterı́sticas intermediárias quando o elemento identidade assume outros valores.
A definição de uninorma é da seguinte forma
wn
xn
n
y = Un (w,x) = U xi u wi , (2.8)
i=1
n
onde xi é a i-ésima entrada e wi é o peso correspondente e U (.) representa uma operação de
i=1
uninormas. Em particular, se n = 1, então a saı́da, y, do unineurônio será
y = x i u wi .
Uma FNN com unineurônios do tipo II, proposta por Lemos et al. (2010), possui um al-
goritmo de aprendizagem também dividido em duas partes; na primeira, é realizado um agru-
pamento do espaço de entrada utilizando o fuzzy c-means. A segunda parte consiste em um
algoritmo genético que ajusta os parâmetros livres da rede neural nebulosa hı́brida. O unineurô-
nio da rede é visto como uma agregação de uninorma ponderada e outra singularidade é que o
elemento identidade é adicionado como parâmetro a ser otimizado.
Bordignon e Gomide (2014) propõem uma rede neural nebulosa evolutiva (eFNN, evolving
Fuzzy Neural Network) com unineurônios do tipo II. O processo de aprendizagem consiste em
agrupar os dados de entrada utilizando o fuzzy c-means e, para o ajuste dos parâmetros, é
utilizada uma versão recursiva da máquina de aprendizado extremo. A mesma versão recursiva
da máquina de aprendizado extremo é utilizada neste trabalho . Os autores conseguem provar
a capacidade de aproximação universal da rede neural nebulosa proposta quando treinada com
o aprendizado modo estático.
e + (1 − e)S (a−e) , (b−e) , se a, b ∈ [e, 1]
(1−e) (1−e)
aub= , (2.9)
a b
eT ( , ).e e
caso contrário
T(a, b) = ab,
S(a, b) = a + b − ab.
Essa escolha resulta em uma superfı́cie mais suave para a função de ativação do neurônio nebu-
loso, ao contrário da combinação min-max que gera mudanças abruptas nos extremos de (a, e)
e (e, b) (Yager e Rybalov; 1996).
A superfı́cie gerada por essa uninorma é apresentada na Figura 2.7. As diferentes superfı́cies
são formadas escolhendo valores diferentes para o elemento identidade, e = [0, 1].
2.3. Resumo 15
a) e = 0, neunônio or. b) e = 0, 2.
c) e = 0, 4. d) e = 0, 6.
e) e = 0, 8. f) e = 1, neurônio and.
2.3 Resumo
Este capı́tulo apresentou uma breve revisão sobre redes neurais artificiais e neurônios arti-
ficiais. O principal foco foram as redes neurais nebulosas e os neurônios nebulosos. Algumas
16 Capı́tulo 2. Redes Neurais Nebulosas
Este capı́tulo está dividido em dois tópicos, o primeiro trata de sistemas nebulosos evolutivos,
apresenta alguns sistemas propostos na literatura, com enfoque em sistemas evolutivos que foram
utilizados de base para a produção deste trabalho. O segundo tópico apresenta os fundamentos
da máquina de aprendizado extremo e algumas aplicações presentes na literatura, além da
máquina de aprendizado sequencial online. Os principais conceitos apresentados aqui são o
sistema evolutivo ANYA e a máquina de aprendizado extremo sequencial online. Eles serão as
bases para a formulação das redes neurais propostas neste trabalho.
17
18 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
Ri : SE xt1 é Ai1 E . . . E xtn é Ain ENTÃO yit = ai0 + ai1 xt1 + · · · + ain xtn ,
!
4
µij (xtj ) = exp − 2 ||xtj − x̌ij ||2 , (3.1)
σ ij
onde µij (xtj ) é o grau de pertinência do j-ésima componente do dado de entrada, xt , em Aij , x̌ij
é a j-ésima componente do centro ou ponto focal do grupo i, x̌i , e σij é a dispersão da função
de pertinência Aij e define a zona de influência do modelo presente na regra i e por fim || · ||
define a distância Euclidiana.
O grau de ativação da regra nebulosa i é definido pela conjunção dos graus de pertinência
do dado de entrada nos conjuntos nebulosos dos antecedentes desta regra, µij (xtj ), como segue
n
n Y
t t
τi (x ) = T µij (x ) = µij (xt ) = µi1 (xt1 ) × · · · × µin (xtn ), i = 1, . . . , Lt . (3.2)
j=1
j=1
A saı́da do modelo é definida como a média ponderada da saı́da de cada regra, como
L t
X
y= λi y i , (3.3)
i=1
.P
Lt
onde λi = τi (xt ) t
j=1 τj (x ) é o grau de ativação normalizado de cada regra i.
Para atualizar a base de regras, adicionando ou modificando regras existentes, o modelo
utiliza-se de um algoritmo de agrupamento recursivo não supervisionado. O agrupamento é
realizado no espaço de entrada-saı́da, z = [xT , yT ]T , e a estrutura do modelo é atualizada a
cada iteração. A base do algoritmo de agrupamento está na ideia de representatividade de cada
umas das novas entradas, calculada a partir de um potencial (Yager e Filev; 1994a).
A função potencial de um dado, zt , depende de todos os outros dados, através de uma medida
de proximidade como (Angelov e Filev; 2004)
t−1
t 1 X
P (z ) = exp(−r||zt − zk ||2 ), (3.4)
t − 1 k=1
como segue
t−1
P t (zt ) = , (3.5)
(t − 1)(ϑt
+ 1) + γ t − 2υ t
Pn+m t 2 t Pt−1 Pn+m k 2 t Pn+m t t Pt−1 k
onde ϑt = j=1 (zj ) , γ = k=1 j=1 (zj ) , υ =
t
j=1 zj βj sendo βj = k=1 zj , j =
n+m
X
t
γ =γ t−1
+ (zjt−1 )2 e βjt = β t−1 + zjt−1 . (3.6)
j=1
O potencial dos centros dos agrupamentos existentes também é calculado de maneira recur-
siva. Como os potenciais são calculados utilizando todos os dados disponı́veis até o instante t,
a cada chegada de um novo dado, os potenciais dos centros também mudam. Os potenciais dos
grupos são atualizados de acordo com (Angelov e Filev; 2004)
Para a evolução da base de regras, compara-se o valor do potencial do novo dado e dos
potenciais dos centros de grupo atualizados. Caso o potencial do novo dado seja maior que
o potencial de todos os centros de grupo atualizados, o centro de um grupo será atualizado,
ou um novo grupo será criado. Se o novo dado está próximo o suficiente, segundo a distância
Euclidiana, de um centro de grupo existente, o novo dado assumirá o centro do grupo. Os
limiares são definidos por Angelov e Filev (2004). Caso contrário, o novo dado irá originar um
novo grupo e será centro desse grupo.
Não satisfazendo nenhuma condição, o novo dado será utilizado para atualizar os parâme-
tros do consequente da regra relacionada ao grupo com menor distância Euclidiana ao novo
dado. Essa atualização é realizada utilizando o algoritmo recursivo de mı́nimos quadrados ou o
algoritmo recursivo de mı́nimos quadrados ponderado (Ljung; 1999; Young; 1984). O Algoritmo
3.1 apresenta o procedimento de atualização da estrutura do modelo eTS (Lemos; 2011).
O modelo nebuloso evolutivo proposto por Angelov e Yager (2011a) recebeu o nome de
ANYA (Angelov e Yager; 2011b) em homenagem aos autores. Trata-se de um novo sistema FRB
que, diferentemente dos outros modelos FRBs, TS (Takagi e Sugeno; 1985) e Mamdani (Zadeh;
22 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
1973; Mamdani e Assilian; 1975), possui antecedentes não paramétricos. A determinação dos
antecedentes nos modelos FRBs, TS e Mamdani, utiliza funções de pertinência pré definidas
(triangulares, trapezoidais, Gaussianas e etc.), que requerem um grande nı́vel de aproximação
(Angelov e Yager; 2011a). No modelo ANYA a determinação dos antecedentes é não paramétrica
e representa exatamente a real densidade e distribuição dos dados.
O conjunto de regras que forma o modelo ANYA é da seguinte forma
Ri : SE (z ∼ ℵi ) ENTÃO (yi ) ,
onde ∼ denota a pertinência nebulosa, lida como “é associado com”, Ri é a i-ésima regra
nebulosa para i = 1, . . . , Lt , Lt é o número de regras na iteração t, ℵi ∈ < é a nuvem dos dados
de entrada-saı́da, z = [z1 , . . . , zn+m ]T ∈ <n+m , onde x = [x1 , . . . , xn ]T ∈ <n é o vetor de entrada
e yi = [yi1 , . . . , yim ]T ∈ <m é o vetor de saı́da da i-ésima regra.
Esse conjunto de regras nebulosas é descrito como um sistema complexo, geralmente não
linear, não estacionário e não determinı́stico, observável apenas por suas entradas e saı́das. O
objetivo é descrever a dependência entre a entrada e a saı́da baseado no histórico de observações
dos pares entrada-saı́da, z = [xT , yT ]T . A proposta deste modelo é baseada em nuvens de dados
encontradas através do cálculo recursivo das densidades no espaço entrada-saı́da dos dados.
Como visto na Figura 3.2, as nuvens possuem certas diferenças com relação aos grupos.
As nuvens não possuem e não necessitam de contorno, por isso não possuem uma forma ana-
lı́tica, explı́cita. A nuvem de dados é um sub-conjunto dos dados de entrada-saı́da, onde os
dados associados à nuvem possuem propriedades em comum (proximidade no espaço observá-
vel). Diferente das funções de pertinência, as nuvens representam direta e exatamente todos os
dados de entrada-saı́da anteriores. O modelo preserva as caracterı́sticas dos sistemas nebulosos
permitindo que um dado pertença, com diferentes graus, λ ∈ [0, 1], a todas as nuvens.
As nuvens garantem ao modelo ANYA a não necessidade de definição a priori de funções
de pertinência para os dados de entrada-saı́da, assim como é necessário nos FRBs tradicionais.
Elas são descritas pela similaridade do sub-conjunto de dados que são associadas.
O grau de pertinência de um dado, zt , às nuvens existentes é calculado pela normalização
da densidade local, da seguinte forma
γit
λti = PLt , i = 1, ..., Lt , (3.8)
t
j=1 γj
onde γit é a densidade local do vetor zt na i-ésima nuvem. Essa equação é chamada média
3.1. Sistemas Nebulosos Evolutivos 23
1
γit = , (3.9)
1+ ||zt − µti ||2 + Υti − ||zt ||2
onde µti = ((Mi − 1)/(Mi ))µit−1 + zt /(Mi ), µ11 = z1 é o valor modal local, Mi é o número de
dados de entrada-saı́da associados à i-ésima nuvem, i = 1, ..., Lt e Lt é o número de nuvens até
o instante t. Υti , é calculado como
Mi − 1 t−1 1
Υti = Υi + ||zt ||2 , Υ11 = ||z1 ||2 .
Mi Mi
Outra medida importante é a densidade global, calculada similarmente, porém considerando
todos os dados de entrada-saı́da. A densidade global Γt em t é calculada recursivamente da
seguinte forma
1
Γt = , (3.10)
1+ ||zt − µtG ||2 + ΥtG − ||zt ||2
onde µtG = ((t − 1)/t)µt−1 t 1 1
G + z /t, µG = z é o valor modal global de todos os dados em t, e
t−1 t 1
ΥtG = ΥG − 1 + ||zt ||2 , Υ1G = ||z1 ||2 .
t t
É fácil observar que, por causa da equação (3.8), o grau de pertinência nebuloso para uma
nuvem, λi , é normalizado, portanto,
Lt
X
λi = 1. (3.11)
i=1
3.2. Aprendizado Extremo 25
que usem, por exemplo, uninormas em seus neurônios da camada intermediária (Bordignon e
Gomide; 2012).
Na ELM, os neurônios da camada intermediária são vistos como uma projeção não-linear dos
dados de entrada. As saı́das desses neurônios são interpretadas como um espaço transformado,
que servirá para o combinador linear da camada de saı́da.
Ñ
X
βi g(wi · xj + bi ) = ŷj , j = 1, . . . , N, (3.12)
i=1
onde wi = [wi1 , . . . , win ]T é o vetor de pesos sinápticos que conectam o i-ésimo neurônio inter-
mediário e os n componentes do dado de entrada, βi = [βi1 , . . . , βim ]T é o vetor de pesos que
conecta o i-ésimo neurônio intermediário e os m neurônios de saı́da e bi é o limiar para o i-ésimo
neurônio.
PN
A SLFN pode aproximar os N dados de entrada com erro médio nulo, j=1 ||ŷj − dj ||2 = 0,
sendo dj o vetor de saı́da desejado e k.k a distância Euclidiana, i.e., existe βi , wi e bi tal que
Ñ
X
βi g(wi · xj + bi ) = dj , j = 1, . . . , N. (3.13)
i=1
Hβ = D, (3.14)
onde
g(w1 · x1 + b1 ) . . . g(wÑ · x1 + bÑ )
.. ... ..
H = [H1 h2 . . . hÑ ] =
. .
(3.15)
g(w1 · xN + b1 ) . . . g(wÑ · xN + bÑ )
N ×Ñ
3.2. Aprendizado Extremo 27
β1T dT1
. .
β= . eD= . (3.16)
. .
T
βÑ dTN
Ñ ×m N ×m
β = H† D, (3.18)
A versão apresentada da ELM considera que todos os dados de treinamento estão disponı́-
veis. Com o objetivo de tornar o modelo independente da disponibilidade ou não de dados de
treinamento, Liang et al. (2006) propõem um algoritmo de aprendizado sequencial online, OS-
ELM (Online Sequential Extreme Learning), para treinamento de redes neurais feedforward. O
algoritmo é baseado na máquina de aprendizado extremo e no algoritmo de quadrados mı́nimos
recursivo (RLS, Recursive Least Squares).
0
Dado um grupo de dados iniciais, podendo ter um ou mais dados, ℘0 = (xi , di )N 0
i=1 e N ≥ Ñ ,
em uma ELM clássica a solução seria minimizar a função objetivo ||H0 β − D0 ||2 . Reescrevendo
a equação (3.18), considerando o problema proposto, tem-se
−1 T
β 0 = K0 H0 D0 , (3.19)
T
onde K0 = H0 H0 e H† = (HT H)−1 HT .
28 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
0 1
Considerando agora um novo grupo de dados ℘1 = (xi , di )N +N 1
i=N 0 +1 , onde N representa o
número de dados nesse novo grupo. A nova função objetivo a ser minimizada toma a seguinte
forma
" # " #
2
H0 D0
β −
. (3.20)
H1 D1
" #T " #
1−1 H0 D0
β1 = K , (3.21)
H1 D1
onde " #T " #
H0 H0
K1 = . (3.22)
H1 H1
Reescrevendo essas expressões de forma a tornar os novos valores da matriz de pesos de saı́da
dependentes dos valores anteriores, tem-se
" #
h T Ti H0
K1 = H0 H1
H1
T T (3.23)
= H0 H0 + H1 H1
T
= K0 + H1 H1 ,
e
" #T " #
H0 D0 T T
1 1
= H0 D0 + H1 D1
H D
−1 T T
= K0 K0 H0 D0 + H1 D1
T
(3.24)
= K0 β 0 + H1 D1
T T
= (K1 − H1 H1 )β 0 + H1 D1
T T
= K1 β 0 − H1 H1 β 0 + H1 D1 .
−1 T T
β 1 = K1 (K1 β 0 − H1 H1 β 0 + H1 D1 )
−1 T
(3.25)
= β 0 + K1 H1 (D1 − H1 β 0 ).
T
Kt+1 = Kt + Ht+1 Ht+1 , (3.26)
−1 T
β t+1 = β t + Kt+1 Ht+1 (Dt+1 − Ht+1 β k ). (3.27)
−1
Para o cálculo recursivo da matriz dos pesos de saı́da, utiliza-se Kt+1 ao invés de Kt+1 .
Portanto, este termo também deve ser calculado recursivamente. Esse cálculo é feito utilizando
a fórmula de Woodbury (Golub e Van Loan; 1996)
−1 T
Kt+1 = (Kt + Ht+1 Ht+1 )−1
−1 −1 T −1 T −1
(3.28)
= Kt − Kt Ht+1 (I + Ht+1 Kt Ht+1 )−1 Ht+1 Kt .
T T
Pt+1 = Pt − Pt Ht+1 (I + Ht+1 Pt Ht+1 )−1 Ht+1 Pt , (3.29)
−1 T
β t+1 = β t + Pt+1 Ht+1 (Dt+1 − Ht+1 β k ), (3.30)
−1
onde Pt = Kt .
Assim como na OS-ELM, este trabalho também utiliza a versão recursiva da ELM, po-
rém aqui adota-se o algoritmo de quadrados mı́nimos recursivo ponderado (WRLS, Weighted
Recursive Least Squares). Esse algoritmo é uma versão que generaliza o RLS apresentado ante-
riormente. No WRLS o problema a ser resolvido é encontrar os pesos da camada de saı́da, β,
que minimizam
N
X
min ψ N −j ||ŷj − dj ||2 (3.31)
β
j=1
onde 0 < ψ N −j ≤ 1 é chamado fator de esquecimento que pondera o valor de erros anteriores e
N é o número de amostras do conjunto de dados.
30 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
N
X
min ψ N −k ||Rk vk − f −1 (yk )||2 (3.32)
R
k=1
onde f −1 (y) = log(y) − log(1 − y), y é a saı́da desejada, v = [v1 , . . . , vLt ]T é a saı́da dos
neurônios da camada intermediária. Diferente da OS-ELM, e da ELM, o neurônio de saı́da
das redes implementadas possuem uma função de ativação sigmoidal, por isso o termo f −1 (y)
aparece na função objetivo. Chamamos essa versão de OS-ELMn, onde (n) enfatiza a aplicação
de uma função não linear na saı́da. A aplicação da rede OS-ELMn é uma contribuição deste
trabalho.
A definição dos pesos das redes neurais propostas é similar ao apresentado anteriormente.
Os pesos da camada intermediária são definidos de maneira não supervisionada e esses pesos são
mantidos fixos até o final da aplicação. Os pesos da camada de saı́da, R = [rjl ], são calculados
utilizando o algoritmo de mı́nimos quadrados recursivo ponderado com fator de esquecimento
ψ conforme
3.3 Resumo
Sistemas nebulosos evolutivos foram resumidos neste capı́tulo. Após uma breve explanação
e motivação para esta classe de sistemas, apresentou-se em seguida dois sistemas que serviram
de base para este trabalho, o eTS e o ANYA.
A máquina de aprendizado extremo e a máquina de aprendizado extremo sequencial foram
3.3. Resumo 31
consideradas, com ênfase nos seus fundamentos e formulação. Exemplos de aplicações mencio-
nadas na literatura também foram apresentadas.
32 Capı́tulo 3. Sistemas Nebulosos Evolutivos e Aprendizado Extremo
Capı́tulo 4
Redes Neurais com Aprendizado Extremo
Recursivo
Este capı́tulo apresenta duas redes neurais com aprendizado extremo recursivo. O objetivo
dessas redes é modelar sistemas e representar a dependência entre a entrada e a saı́da, z =
[xT , yT ]T ∈ <n+m , onde x ∈ <n e y ∈ <m . A entrada de dados assume um fluxo, portanto
todos os cálculos são realizados de maneira recursiva.
A primeira rede neural é uma rede neural nebulosa hı́brida evolutiva com neurônios nebulosos
com operadores definidos por uninormas. Os unineurônios são do tipo II, onde as entradas, os
pesos e os operadores são definidos segundo os sistemas nebulosos. A rede utiliza um algoritmo
recursivo de agrupamento, baseado nas nuvens, para particionar e representar o espaço de
entrada-saı́da. A determinação dos parâmetros do sistema é realizado por um algoritmo baseado
em máquinas de aprendizado extremo e no algoritmo quadrados mı́nimos recursivo ponderado.
A segunda é uma rede neural evolutiva com aprendizado extremo recursivo, uma rede neural
feedforward de três camadas que adiciona neurônios na camada intermediária conforme a densi-
dade dos dados no espaço de entrada-saı́da. Um algoritmo recursivo de agrupamento, baseado
no conceito de densidade dos dados, particiona o espaço de entrada-saı́da. A cada nova partição,
um neurônio é adicionado na camada intermediária. Os parâmetros da rede são determinados
por um algoritmo baseado em máquinas de aprendizado extremo e no algoritmo quadrados
mı́nimos recursivo ponderado.
33
34 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo
v = λ u w, (4.1)
A última camada, a camada de saı́da, forma uma rede neural de agregação. Ela realiza a
agregação das saı́das dos unineurônios ponderadas com os pesos da camada de saı́da R = [rjl ],
onde j = 1, . . . , m, m é a dimensão do espaço de saı́da e l = 1, . . . , Lt . Os pesos rjl ponderam
a saı́da do l-ésimo unineurônio com o j-ésimo peso sináptico relacionado à esse unineurônio. A
saı́da da rede neural nebulosa é da seguinte forma
38 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo
ŷ = f (Rv) , (4.2)
1
f (x) = . (4.3)
1 + e−x
f 1 ← z1 .
O ponto focal é um dado representativo da nuvem: o ponto focal é o dado com maior densidade
local e global de uma nuvem.
Cada novo dado, zt , é um potencial candidato à formação de uma nova nuvem. Inicialmente
calcula-se a densidade global, expressão (3.10), repetida aqui
1
Γt = , (4.4)
1+ ||zt − µtG ||2 + ΣtG − ||zt ||2
1
γit = , (4.5)
1+ ||zt − µti ||2 + Σti − ||zt ||2
para cada novo dado. Uma nova nuvem é criada se a densidade global do novo dado for maior
que a densidade global do ponto focal de cada nuvem, isto é
I = argmax γlt ,
(4.7)
l
Γt > ΓfI ,
(4.8)
γIt > γIf ,
1 t t T t−1 t t
λl = exp − (z − µl ) Kl (z − µl ) . (4.12)
2
O Algoritmo 4.1 resume o processo de partição e representação do espaço de entrada-saı́da.
Segundo o algoritmo 4.1, o primeiro dado é utilizado para definir o valor inicial da densidade
global. O valor modal global, µ1G , recebe o valor de z1 , a dispersão global, Σ1G , recebe o valor
de ||z1 ||2 ; e a densidade global, Γ1 , é inicializada como um. O primeiro dado define também
a primeira nuvem, Lt igual a um, e o valor inicial da densidade local dessa nuvem. O valor
modal local, µ11 , recebe valor de z1 , o contador de dados associados à primeira nuvem, M1 ,
recebe um, a dispersão local, Σ11 , recebe o valor de ||z1 ||2 , e a densidade local, γ11 , recebe o valor
de um. O ponto focal da primeira nuvem, f1 , é também definido como o primeiro dado, z1 , a
densidade local, γ1f , e a densidade global, Γf1 , do ponto focal da primeira nuvem são iguais aos
valores já definidos γ11 e Γ1 , respectivamente. O instante t em que a primeira nuvem foi criada é
guardado em I1 . A inversa da matriz de dispersão, K−1
1 , é inicializada com a matriz identidade
de dimensão n × n.
Após a inicialização, enquanto houver dados, o algoritmo segue calculando recursivamente
as densidades locais e globais segundo (4.5) e (4.4) respectivamente.
Se a densidade global do novo dado for maior que a densidade global de todos os pontos
focais, satisfazendo a condição (4.6), uma nova nuvem é criada, Lt é incrementado, e os valores
4.1. Rede Neural Nebulosa Hı́brida Evolutiva 41
iniciais da densidade local dessa nuvem são definidos segundo o dado atual, zt . O valor modal
local, µtLt , recebe valor de zt , o contador de dados associados à nuvem Lt , MLt , recebe um, a
dispersão local, ΣtLt , recebe o valor de ||zt ||2 , e a densidade local, γLt t , recebe o valor de um. O
ponto focal dessa nuvem, fLt , também é definido pelo dado atual, assim como suas densidades
local, γLf t , e global, ΓfLt , definidas como γLt t e Γt , respectivamente. O instante t em que a primeira
nuvem foi criada é armazenado em ILt . A inversa da matriz de dispersão, K−1
Lt , para a nuvem
ponto focal dessa nuvem é atualizado se tanto a densidade local, γIt , do dado atual quanto sua
densidade global, Γt forem maiores que as densidades local, γIf , e global, ΓfI , do ponto focal
da nuvem, respectivamente, satisfazendo a condição (4.8). A atualização é feita substituindo o
antigo ponto focal, e suas densidades, pelo novo dado e suas densidades.
Por fim são calculados os graus de pertinência do dado atual, equação (4.12), para cada uma
das Lt nuvens presentes até o momento t.
Se a condição (4.10) for satisfeita, deve-se excluir a nuvem l que satisfez a condição. Decrementa-
se Lt e todos os parâmetros que representam essa nuvem são excluı́dos.
O algoritmo 4.2 resume o processo de aprendizagem da rede neural nebulosa hı́brida evolu-
tiva.
Conforme o Algoritmo 4.2, o primeiro dado define a primeira nuvem e a estrutura da rede
é iniciada. Com uma nuvem, a rede possui somente um unineurônio na camada intermediária
e seus respectivos pesos, w = [w1 ] e R = [r1 ] = [r11 , r21 , . . . , rm1 ]T , onde m é o número com-
ponentes do dado de saı́da. O peso da camada intermediária, w1 , é definido aleatoriamente em
um intervalo [0,1], e o elemento identidade, e, do unineurônio é definido da mesma forma. Os
pesos de saı́da, r1 , são inicializados com valores iguais a zero. São calculados os valores iniciais
44 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo
das densidades locais e globais segundo o que foi apresentado na sub seção 3.1.2.
Após a fase de inicialização, enquanto houverem dados, o algoritmo segue calculando recur-
sivamente as densidades locais e globais segundo (4.5) e (4.4) respectivamente.
Se a condição (4.6) for satisfeita, uma nova nuvem é criada, Lt é incrementado, assim
como um novo unineurônio na camada intermediária e seus respectivos pesos, wLt e rLt =
[r1Lt , r2Lt , . . . , rmLt ]T . O vetor de pesos intermediários ganha um novo elemento, w = [wT , wLt ]T
e a matriz de pesos da camada de saı́da ganha uma nova coluna contendo o novo vetor de pesos,
R = [R, rLt ]. Os valores iniciais dos pesos e do elemento identidade do novo unineurônio são
definidos como anteriormente. A matriz de dispersão local para essa nuvem é inicializada com
a matriz identidade de dimensão n × n.
Se a condição (4.6) não for satisfeita, o novo dado será associado a N uvemI , com I definido
em (4.7). A matriz de dispersão local deve ser atualizada segundo (4.11). Os parâmetros da
N uvemI são atualizados, assim como sua densidade local segundo (4.5) e, se satisfeita a condição
(4.8), seu ponto focal.
Por fim, calculam-se os graus de pertinência do dado atual para todas as nuvens, equação
(4.12). Com o graus de pertinência, calcula-se a saı́da dos unineurônios conforme (4.1). A saı́da
da rede, ŷt , é estimada segundo (4.2).
Para a rede eHFNv , se a condição (4.10) for satisfeita, deve-se excluir a nuvem l que satisfez
a condição. Todos os parâmetros da nuvem l são excluı́dos, assim como o unineurônio associado
a essa nuvem, seus pesos e elemento identidade.
O valor desejado de saı́da, yt , torna-se disponı́vel, e ele é utilizado para atualizar os pesos
da camada de saı́da, R, segundo (3.33)-(3.35).
Banach, que uma rede neural de única camada intermediária é capaz de aproximar qualquer
função multivariável contı́nua. Outros autores também chegaram a mesma conclusão através
de diferentes teoremas (Hornik et al.; 1989; Funahashi; 1989). O problema resume-se a correta
determinação dos parâmetros da rede, número de neurônios e valor dos pesos da rede.
Diferente de Cybenko, Sprecher (1996) apresenta o teorema de Kolmogorov e conclui que
qualquer função contı́nua pode ser aproximada por uma rede neural artificial com duas camadas
intermediárias. A primeira camada contém n neurônios, onde n é o número de componentes do
dado de entrada, e a segunda camada contém 2n + 1 neurônios. Porém, o teorema não esclarece
como construir as funções de ativação dos neurônios.
Nos últimos anos, diversos estudos investigaram a auto determinação da arquitetura de
uma NN, dependente dos dados de entrada da rede neural ou do desempenho da rede em uma
determinada aplicação. Os sistemas propostos baseiam-se em algoritmos construtivos ou de
crescimento, poda, construtivo-poda e algoritmos evolucionários (Liu et al.; 2010; Fangju; 2011;
Miche et al.; 2010; Feng et al.; 2009; Islam et al.; 2009a,b; Rivals e Personnaz; 2003; Wang
et al.; 2002; Javan et al.; 2010; Gao; 2005; Pisani e Lorena; 2012; Rong et al.; 2006; Pouzols e
Lendasse; 2010a,b).
Algoritmos construtivos e de poda utilizam estratégias opostas: o primeiro adiciona camadas,
neurônios e conexões entre os neurônios durante o treinamento.
Algoritmos de poda subtraem camadas, neurônios e suas conexões considerados desnecessá-
rios. Pouzols e Lendasse (2010a,b) propõem um método de poda para sistemas neurais nebulosos
evolutivos, esse método estende o método proposto por Miche et al. (2010), a máquina de apren-
dizado extremo otimamente podada (OP-ELM, Optimally Pruned Extreme Learning Machine),
para algoritmos evolutivos online.
Algoritmos construtivos-poda e evolucionários adicionam e subtraem camadas, neurônios
e suas conexões durante o treinamento. Nos algoritmos construtivo-poda, pode-se começar
aumentando a estrutura e depois uma fase de poda, ou vice-versa. Outros podem adicionar
e subtrair conforme necessário. Algoritmos evolucionários utilizam algoritmos genéticos para
determinação da estrutura da rede (Pisani e Lorena; 2012).
Esta seção propõe uma rede neural evolutiva de única camada intermediária com aprendi-
zado extremo recursivo (eNNEL, evolving Neural Network with recursive Extreme Learning),
que determina o número de neurônios na camada intermediária através de um algoritmo do
tipo construtivo e construtivo-poda (Rosa, Gomide, Dovzan e Skrjanc; 2014). Diferente dos
algoritmos construtivos, de poda e evolucionários, a eNNEL determina o número de neurônios
46 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo
Figura 4.2: Estrutra da rede neural evolutiva com aprendizado extremo recursivo.
A rede neural evolutiva com aprendizado extremo recursivo, Figura 4.2, possui uma estrutura
feedforward com três camadas.
As nuvens, apresentadas nas seções anteriores, são utilizadas para determinar o número de
neurônios presentes na camada intermediária da rede. Diferentemente da eHFN, o grau de
ativação dos dados não é utilizado: a única informação relevante é o número de nuvens em cada
T T
instante t. A primeira camada é a camada de entrada dos dados zt = [xt , yt ]T ∈ <n+m , onde
n é o número de componentes do vetor de entradas, x, e m é o número de componentes do
vetor de saı́da, y. A segunda camada possui Lt neurônios sigmoidais, isto é, o mesmo número
4.2. Rede Neural Evolutiva com Aprendizado Extremo Recursivo 47
de nuvens no instante t. Um neurônio sigmoidal é aquele que tem função de ativação sigmoidal.
Quando uma nuvem é criada, um neurônio é criado na camada intermediária. Cada neurônio da
camada intermediária possui n+m pesos sinápticos, wil , onde i = 1, . . . , n+m e l = 1, · · · , Lt , e
n+m número de componentes dos dados z. Os pesos da camada intermediária W são escolhidos
aleatoriamente e mantidos fixos. O processamento sináptico dos neurônios nesta rede é realizado
pelo produto algébrico e a agregação pela soma. A saı́da dos neurônios da camada intermediária
é
v = f zT W .
(4.13)
1
f (x) = .
1 + e−x
ŷ = f (Rv) , (4.14)
A rede eNNEL é semelhante à rede OS-ELMn, com a diferença na determinação dos neurô-
nios da camada intermediária. Enquanto a rede OS-ELMn necessita de uma otimização para
a determinar do número de neurônios, ou de uma sugestão de um especialista, a rede eNNEL
define automaticamente o número de neurônios.
Quando uma nova nuvem é criada, um novo neurônio intermediário é adicionado. Os respec-
tivos pesos são inicializados, os da camada intermediária escolhidos aleatoriamente e os pesos
de saı́da iguais a zero.
48 Capı́tulo 4. Redes Neurais com Aprendizado Extremo Recursivo
A rede eNNEL utiliza a estratégia de agrupamento semelhante à rede eHFN, explicada na sub
seção 4.1.2 e em Rosa et al. (2013a,b). Porém, aqui os valores da função de pertinência definidos
em (4.12) não são utilizados. A partição do espaço de entrada-saı́da é realizada para determinar
o número de neurônios na camada intermediária. Para cada nova partição, é adicionado um
neurônio na camada intermediária. Isso cria uma associação entre o espalhamento dos dados no
espaço de entrada-saı́da e o número de neurônios intermediários.
Aqui também foram definidas duas redes para os experimentos computacionais, a rede eN-
NEL, onde não há exclusão de nuvens e a rede eNNELv , onde as nuvens pouco representativas
são excluı́das.
Neste trabalho, a rede eNNEL utiliza do algoritmo das nuvens para determinar o número de
neurônios na camada intermediária, mas nada impede que outros algoritmos sejam utilizados.
Aprendizado extremo é uma abordagem para treinamento de redes neurais feedforward com
uma camada intermediária (Huang et al.; 2004). Na rede eNNEL, os valores da camada inter-
mediária são escolhidos aleatoriamente e os pesos da camada de saı́da determinados por um
algoritmo WRLS (Liang et al.; 2006; Bordignon e Gomide; 2014).
Huang, Chen e Siew (2006) provam a capacidade universal de aproximação das ELM e Huang
(2008) mostra que os pesos da camada intermediária podem ser definidos aleatóriamente, e os
pesos da camada de saı́da determinados analı́ticamente.
Os pesos da eNNEL são escolhidos de maneira não supervisionada no intervalo [-1,1] e
mantidos fixo para toda a aplicação. O algoritmo de aprendizagem, semelhante às equações
(3.33)-(3.35), atualizam os pesos de saı́da, R.
O Algoritmo 4.3 resume a aprendizagem da rede neural evolutiva com aprendizado extremo
recursivo.
Conforme o Algoritmo 4.3, o primeiro dado define a primeira nuvem e a estrutura da rede
é iniciada. Com uma nuvem, a rede possui somente um neurônio na camada intermediária e
seus respectivos pesos, w1 = [w11 , w21 , . . . , wn+m ]T , onde n é o número componentes do dado de
entrada e m é o número componentes do dado de saı́da, e r1 = [r11 , r21 , . . . , rm1 ]T . Os pesos da
camada intermediária, w1 , são definido aleatoriamente no intervalo [-1,1]. Os pesos de saı́da,
r1 , são inicializados com valores iguais a zero. São calculados os valores iniciais das densidades
4.2. Rede Neural Evolutiva com Aprendizado Extremo Recursivo 49
4.3 Resumo
Este capı́tulo apresentou as duas redes neurais com aprendizado extremo recursivo propostas
neste trabalho. Foi apresentada a estrutura da rede neural nebulosa hı́brida evolutiva, o algo-
ritmo de partição e representação do espaço de entrada-saı́da e o aprendizado extremo recursivo.
A rede neural evolutiva com aprendizado extremo recursivo compartilha semelhança na es-
trutura e no processo de aprendizagem da rede anterior. Porém, o procedimento de partição e
representação do espaço de entrada-saı́da é usado aqui para determinar o número de neurônios
na camada intermediária
O próximo capı́tulo trata de experimentos computacionais realizado para avaliar o desem-
penho das redes neurais propostas. As redes serão comparadas com os principais algoritmos e
métodos evolutivos de modelagem propostos na literatura.
Capı́tulo 5
Resultados Computacionais
Este capı́tulo apresenta os resultados das redes neurais com aprendizado extremo recursivo,
da rede neural nebulosa hı́brida evolutiva, da rede neural evolutiva com aprendizado extremo
recursivo e da OS-ELMn. O desempenho das redes é comparado com algoritmos que são o estado
da arte em modelagem evolutiva e os algoritmos que foram utilizados para a formulação das
redes. São eles o DENFIS (Kasabov e Song; 2002), ANYA (Angelov e Yager; 2011a), OS-ELM
(Liang et al.; 2006) e ELM clássico (Huang et al.; 2004).
5.1 Introdução
As redes são testadas em duas aplicações, identificação de sistemas e previsão de séries
temporais. Para a identificação de sistemas utiliza-se o conjunto de dados Box-Jenkins e para a
previsão de séries temporais utiliza-se o sistema caótico Mackey-Glass e uma série temporal não
linear com dados sintéticos. Para cada aplicação foram calculados os desempenhos de todos os
modelos.
O desempenho é calculado com a raiz quadrada do erro quadrado médio (RMSE, Root
Mean Square Error). O modelo com menor valor desse critério é o modelo que menos errou
na aplicação. Além do RMSE, o teste estatı́stico Diebold-Mariano (Diebold e Mariano; 1995)
é utilizado. Esse teste estatı́stico compara a acurácia preditiva de dois modelos, com hipótese
nula de mesma acurácia preditiva.
Sistemas como o DENFIS e ANYA são determinı́sticos, ou seja, conforme um conjunto de
entrada, a resposta sempre será a mesma. Nos outros modelos testados, um mesmo conjunto
de entrada pode gerar diferentes valores de saı́da devido à determinação aleatória dos pesos da
camada intermediária. Portanto, cada experimento foi realizado 100 vezes.
51
52 Capı́tulo 5. Resultados Computacionais
Todos os dados são normalizados no intervalo [0.1, 0.9] utilizando a função mapminmax do
software matemático MatLab
R
. O valor do fator de esquecimento para o WRLS, seção 3.2.1, é
ψ = 0, 9 para as redes propostas.
Esta seção apresenta o conceito teórico dos dois critérios utilizados na comparação dos mo-
delos, a raiz quadrada do erro quadrado médio e o teste estatı́stico Diebold-Mariano. Também
é apresentada a validação cruzada utilizada para determinar o número de neurônios na camada
intermediária para os modelos ELM, OS-ELM e OS-ELMn.
A raiz quadrada do erro quadrado médio é uma medida quantitativa do erro do modelo. O
RMSE retorna a raiz quadrada da média quadrática entre a diferença dos N valores desejados,
dt = [dt1 , . . . , dtm ]T , e valores estimados, ŷt = [ŷ1t , . . . , ŷm
t T
] , onde t = 1, . . . , N . O valor N é o
número de amostras do conjunto dados. O RMSE é calculado da seguinte forma
v
u
u1 X N
RMSE = t (dt − ŷt )2 . (5.1)
N t=1
Para este trabalho, segundo este critério de avaliação, o modelo que obtiver o menor valor
de RMSE médio é considerado o modelo mais acurado.
5.2. Critérios de Avaliação e Validação 53
saı́da do modelo, em uma determinada aplicação, para comparar esses modelos. Ele é baseado
na função de perda definida como
(e11 )2 (e12 )2
. .
L1 (e1 ) = . .
. L2 (e2 ) = . (5.2)
(eN1 )
2
(eN2 )
2
A hipótese nula de igual acurácia é baseada na diferença dos valores da função de perda
onde g = [g 1 , . . . , g N ]T .
ḡ
DM = q ∼ N (0, 1), (5.4)
V̂ (ḡ)
onde " −1
N
#
X
V̂ (ḡ) = N −1 κ̂0 + 2 κ̂k , (5.5)
k=1
N
X
−1
κk = N (gi − ḡ)(gi−k − ḡ), (5.6)
i=k+1
e ḡ é a média de g.
A hipótese nula de mesma acurácia preditiva é rejeitada, com grau de confiança de 5%,
quando |DM | > 1, 96, nesse caso o modelo com menor média de RMSE é o que possui melhor
acurácia. Se |DM | < 1, 96 os modelos são considerados igualmente acurados.
Neste trabalho, os valores de erro dos modelos, e1 e e2 , são os erros médios dos 100 experi-
mentos realizados.
tN
1 X
Ki = (ziT − z̄)(ziT − z̄)T , (5.7)
Nt − 1 i=1
ou seja, para prever o valor de CO2 na saı́da do sistema, utiliza-se o nı́vel de CO2 anterior e o
fluxo de gás de quatro instantes atrás. A função não linear fBJ (·) é a que deseja-se aproximar.
O conjunto de dados contém 290 pares entrada-saı́da. Para os modelos que necessitam de
treinamento, foram separadas os 150 primeiros dados para o conjunto de treinamento e validação,
sendo que os primeiros 120 dados foram utilizados para o treinamento e os 30 últimos para a
validação. Portanto, o conjunto Fim possui 140 dados e o conjunto Todos possui os 290 dados.
A Figura 5.1 apresenta os valores de RMSE médio para os conjuntos de treinamento e
validação dos modelos ELM, OS-ELM e OS-ELMn, com intervalo de variação do número de
neurônios da camada intermediária de 1, 2, . . . , 50. O número ótimo de neurônios da camada
intermediária é o que apresentar menor RMSE médio para o conjunto de validação. O número de
neurônios escolhido foi de 5 para a ELM, 11 para a OS-ELM e 3 para a OS-ELMn, com valores
de RMSE médio, para o conjunto de validação, de 0,0072, 0,0068 e 0,0199, respectivamente.
Com o número de neurônios determinados para as redes que necessitam, um experimento
com o conjunto de dados Todos foi realizado para todos os modelos. A Tabela 5.1 apresenta os
valores de RMSE para o conjunto Todos. O modelo com menor RMSE médio foi o DENFIS,
seguido dos modelos ELM e OS-ELMn.
Os modelos eNNEL e eNNELv apresentam um valor de RMSE médio menor que o modelo
ANYA e que os modelos eHFN e eHFNv . Os modelos eHFN e eHFNv superam somente os
modelos Ehfn e Ehfnv , os modelos com maiores valores de RMSE médio. Nesta experimento, a
56 Capı́tulo 5. Resultados Computacionais
a) ELM. b) OS-ELM.
c) OS-ELMn.
inicialização da matriz de dispersão, Ki , com os 150 valores iniciais, não significou uma melhora
no desempenho. De fato, a inicialização da matriz de dispersão, da forma que está sendo
realizada, piora os resultados para todos os experimentos.
Neste experimento, as redes eHFN e eHFNv são semelhantes, ou seja, elas possuem a mesma
estrutura para todo o experimento. A evolução no número de neurônios na camada interme-
diária, Figura 5.4, é a mesma para as duas redes; o mesmo acontece para as redes eNNEL e
eNNELv .
Os modelos com menor custo computacional não modificam sua estrutura no decorrer do
experimento: são os modelos ELM, OS-ELM e OS-ELMn. Comparando os modelos que mo-
dificam tanto sua estrutura como seus parâmetros conforme o fluxo de dados, os modelos com
menor custo computacional são eNNEL, eNNELv e ANYA.
A Figura 5.2 apresenta graficamente os resultados da Tabela 5.1. Este tipo de gráfico,
chamado boxplot, apresenta os valores máximos e mı́nimos, representados pelos limites superior
e inferior, o terceiro e primeiro quartil, representados pelos limites superior e inferior da caixa, a
5.3. Identificação de Sistemas 57
Tabela 5.1: Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Todos.
Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 5 5 0,0204 0,0235 0,0218 0,0007 0,0218 0,0010 0,0003
OS-ELM 11 11 0,0365 0,0373 0,0368 0,0002 0,0368 0,0002 0,0145
OS-ELMn 3 3 0,0201 0,0922 0,0235 0,0082 0,0214 0,0025 0,0150
Ehfn 7 7 0,0638 0,1085 0,0989 0,0096 0,1026 0,0093 0,0686
Ehfnv 7 7 0,0756 0,1234 0,1114 0,0099 0,1148 0,0117 0,0731
ANYA 7 7 0,0483 0,0483 0,0483 0 0,0483 0 0,0397
DENFIS 11 11 0,0189 0,0189 0,0189 0 0,0189 0 0,4502
eHFN 7 7 0,0384 0,0654 0,0522 0,0059 0,0527 0,0088 0,0684
eHFNv 7 7 0,0369 0,0645 0,0530 0,0050 0,0534 0,0077 0,0726
eNNEL 7 7 0,0279 0,0631 0,0417 0,0078 0,0421 0,0113 0,0344
eNNELv 7 7 0,0261 0,0624 0,0396 0,0079 0,0383 0,0121 0,0388
mediana, representada pelo traço vermelho, além da média, representado pelo ponto preto, dos
100 valores de RMSE. As cruzes em vermelho são valores atı́picos, ou seja, valores com grande
afastamento dos valores restantes, também chamados de outliers. Os outliers foram definidos
pelo software MatLab
R
.
A mediana representa o valor intermediário de uma sequência ordenada. No gráfico, os
valores abaixo da mediana, até o valor mı́nimo, representam 50% dos valores, assim como os
valores acima, até o valor máximo. Quando a mediana está abaixo da média, significa que a
maioria dos valores estão abaixo da média, neste experimento isso acontece para os modelos OS-
ELMn e eNNELv . Quando a mediana está acima da média, a maioria dos valores está acima da
média, neste experimento isso acontece para os modelos Ehfn, Ehfnv , eHFN, eHFNv e eNNEL.
Para uma comparação par a par, utilizou-se o teste estatı́stico Diebold-Mariano. Para valores
de |DM | menores que 1,96 a hipótese nula de mesma acurácia preditiva é aceita, do contrário,
valores maiores de 1,96, ela é rejeitada.
A Tabela 5.2 apresenta os valores de DM par a par para o conjunto Todos e a Tabela 5.3
resume os resultados. Os modelos eHFN e eHFNv possuem mesma acurácia preditiva que os
modelos ANYA, OS-ELM e entre eles. Os únicos modelos menos acurados que eHFN e eHFNv ,
são o Ehfn e Ehfnv . De fato, os modelos Ehfn e Ehfnv são os menos acurados dos modelos, entre
eles o modelo Ehfn é mais acurado. Os modelos eNNEL e eNNELv possuem mesma acurácia
que os modelos ANYA, OS-ELM e entre eles. As redes eNNEL e eNNELv são mais acuradas que
os modelos eHFN, eHFNv , Ehfn e Ehfnv e menos acuradas que os outros. O modelo OS-ELMn
58 Capı́tulo 5. Resultados Computacionais
é igualmente acurado que os modelos ANYA, ELM e OS-ELM e mais acurado que os outros
modelos, com exceção do modelo DENFIS.
Tabela 5.2: Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos.
Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA -0,1272 4,5148 -0,1222 5,5032 -0,6741 -0,8128 -1,6600
DENFIS 7,6726 9,7297 7,9922 9,6308 5,8393 5,4635 3,1736
ELM 7,2383 9,6279 7,5257 9,5978 5,3026 4,9000 0,6927
OS-ELM 0,9992 6,2623 1,0091 7,1221 0,2671 0,0814 -1,0740
OS-ELMn 7,5469 9,5849 7,8807 9,5105 5,5607 5,4635 -
eNNELv 4,0457 8,6807 4,6217 8,8622 1,7554 - -
eNNEL 3,0818 8,5415 3,5195 8,7625 - - -
Ehfnv -8,5322 -4,4727 -8,5356 - - - -
eHFNv -0,1503 8,4059 - - - - -
Ehfn -8,4200 - - - - - -
As figuras contidas na Figura 5.3 apresentam as saı́das das redes propostas e os valores
desejados para os dados Box-Jenkins, para o conjunto Todos. As redes, após uma primeira fase
de ajuste, conseguem uma boa aproximação da função fBJ e assim prever os valores de y t . A
concentração de CO2 , y t , representada pelo gráfico em azul e pontos conseguem ser previstos
5.3. Identificação de Sistemas 59
Tabela 5.3: Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn,
eHFN Ehfn e Ehfnv eHFNv , OS-ELM e ANYA
ELM e DENFIS
eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv eHFN, OS-ELM e ANYA
ELM e DENFIS
eHFN, eHFNv , eNNEL, eNNELv
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN
eNNEL eNNELv , OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eHFNv
Ehfn, Ehfnv , eHFN
eNNELv eNNEL, OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eHFNv
Ehfn, Ehfnv , eHFN,
OS-ELMn ELM, OS-ELM e ANYA DENFIS
eHFNv , eNNEL e eNNELv
com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cı́rculos. Para gerar
os gráficos, foi utilizada a função mapminmax.reverse, que reverte os valores normalizados nos
valores reais. Portanto, os gráficos da Figura 5.3 possuem os valores reais.
A evolução do número de neurônios da camada intermediária para as redes propostas, eHFN,
eHFNv , Ehfn, Ehfnv , eNNEL e eNNELv , é apresentado na Figura 5.4. A maioria dos neurônios
são criados nos 50 primeiros instantes e nenhum neurônio é excluı́do. As redes finais apresentam
uma estrutura com 7 neurônios na camada intermediária.
Os resultados de RMSE para o conjunto de teste Fim são apresentados na Tabela 5.4. Aqui,
novamente os modelos com menor RMSE médio foram os modelos DENFIS, ELM e OS-ELMn.
Neste experimento, os modelos eHFN, eHFNv , eNNEL e eNNELv superam o modelo ANYA,
com menor RMSE médio.
Novamente os modelos Ehfn e Ehfnv apresentam os maiores RMSE médios.
Os menores custos computacionais, entre os modelos que alteram tanto a estrutura quanto
os parâmetros com o fluxo de dados, são novamente os modelos eNNEL, eNNELv e ANYA.
A Figura 5.5 apresenta graficamente os resultados da Tabela 5.4. Para os modelos OS-
ELMn, eHFNv , eNNEL e eNNELv , a maioria dos valores está abaixo da média, diferentemente
dos modelos Ehfn e Ehfnv , onde a maioria dos valores está acima da média.
Segundo os valores de DM para o conjunto Fim, Tabela 5.5, as redes eHFN e eHFNv possuem
mesma acurácia preditiva que os modelos ANYA, OS-ELM e entre elas. As redes eHFN e eHFNv
são mais acuradas que os modelos Ehfn, Ehfnv , eNNEL e eNNELv e menos acuradas que os
outros modelos. Os modelos Ehfn e Ehfnv possuem mesma acurácia que o modelo ANYA e
entre elas, essas redes são menos acuradas que todos os outros modelos. As redes eNNEL e
60 Capı́tulo 5. Resultados Computacionais
e) OS-ELMn.
Figura 5.3: Saı́das das redes para os dados Box-Jenkins, para o conjunto Todos.
eNNELv são mais acuradas que os modelos Ehfn e Ehfnv e possuem mesma acurácia preditiva
que os modelos ANYA, OS-ELM e entre elas. O modelo OS-ELMn possui mesma acurácia que
os modelos ANYA e OS-ELM, é menos acurado que os modelos DENFIS e ELM e mais acurado
que todos os outros modelos. Esses resultados são resumidos na Tabela 5.6.
As figuras presentes na Figura 5.6 apresentam as saı́das das redes propostas e os valores
desejados para os dados Box-Jenkins, para o conjunto Fim. A concentração de CO2 , y t , repre-
sentada pelo gráfico em azul e pontos conseguem ser previstos com grande precisão pelas saı́das
das redes neurais, ŷ t , gráfico em vermelho e cı́rculos. Os gráficos são gerados da mesma forma,
5.3. Identificação de Sistemas 61
Figura 5.4: Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto
Todos.
Tabela 5.4: Desempenho para o conjunto de dados Box-Jenkins, para o conjunto Fim.
Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 5 5 0,0230 0,0259 0,0244 0,0007 0,0243 0,0012 0,0002
OS-ELM 11 11 0,0497 0,0517 0,0500 0,0003 0,0499 0,0003 0,0072
OS-ELMn 3 3 0,0235 0,0728 0,0283 0,0071 0,0259 0,0055 0,0076
Ehfn 8 8 0,0724 0,1096 0,0970 0,0097 0,1012 0,0140 0,0317
Ehfnv 8 8 0,0798 0,1138 0,1007 0,0092 0,1040 0,0114 0,0338
ANYA 8 8 0,0696 0,0696 0,0696 0 0,0696 0 0,0186
DENFIS 13 13 0,0234 0,0234 0,0234 0 0,0234 0 0,2454
eHFN 8 8 0,0425 0,0742 0,0525 0,0060 0,0526 0,0069 0,0314
eHFNv 8 8 0,0428 0,0702 0,0517 0,0056 0,0505 0,0076 0,0335
eNNEL 8 8 0,0445 0,0828 0,0613 0,0090 0,0600 0,0150 0,0164
eNNELv 8 8 0,0434 0,0834 0,0592 0,0096 0,0566 0,0136 0,0183
Tabela 5.5: Teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim.
Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA -0,9481 1,2365 -0,9782 1,4682 -0,5115 -0,6056 -1,6849
DENFIS 4,3447 6,0066 4,2924 6,0297 4,5491 4,3739 2,5931
ELM 4,2533 6,0292 4,1977 6,0751 4,5357 4,3557 2,0481
OS-ELM -0,0172 2,6386 -0,0570 2,8933 0,5446 0,4230 -1,0093
OS-ELMn 4,1736 5,8913 4,1156 5,9210 4,4277 4,2466 -
eNNELv -2,8970 4,0979 -3,0420 4,2230 0,5753 - -
eNNEL -3,3607 3,9931 -3,4570 4,1145 - - -
Ehfnv -4,9379 -1,6425 -4,9414 - - - -
eHFNv 1,8707 4,8690 - - - - -
Ehfn -4,9379 - - - - - -
A estrutura das redes eHFN, eHFNv , eNNEL e eNNELv foram semelhantes, por isso o
desempenho dos pares eHFN e eHFNv , eNNEL e eNNELv foram estatisticamente semelhantes
nos dois conjuntos de teste.
5.4. Previsão de Séries Temporais 63
Tabela 5.6: Resumo do teste estatı́stico DM para os dados Box-Jenkins, para o conjunto Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
Ehfn, Ehfnv , eNNEL
eHFN eHFNv , OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eNNELv
Ehfn, Ehfnv , eNNEL
eHFNv eHFN, OS-ELM e ANYA OS-ELMn, ELM e DENFIS
e eNNELv
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn - Ehfnv e ANYA
OS-ELMn, ELM, OS-ELM e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfnv - Ehfn e ANYA
OS-ELMn, ELM, OS-ELM e DENFIS
eHFN, eHFNv , OS-ELMn,
eNNEL Ehfn e Ehfnv eNNELv , OS-ELM e ANYA
ELM e DENFIS,
eHFN, eHFNv , OS-ELMn,
eNNELv Ehfn e Ehfnv eNNEL, OS-ELM e ANYA
ELM e DENFIS
Ehfn, Ehfnv , eHFN,
OS-ELMn OS-ELM e ANYA ELM e DENFIS
eHFNv , eNNEL e eNNELv
Os dados da série temporal Mackey-Glass são gerados através de uma função não linear da
seguinte forma
dx Axt−τ
= − Bxt , (5.9)
dt 1 + (xt−τ )C
onde A = 0, 2, B = 0, 1, C = 10, τ = 17 com intervalo de integração igual a 0, 1. Esses valores
são usados por outros autores, e por isso foram usados aqui (Kasabov e Song; 2002; Angelov e
Xiaowei; 2006).
O objetivo é prever o valor de xt+85 , ou seja, xt 85 instantes a frente, utilizando valores
antigos de xt . O modelo para prever os valores de xt+85 é
e) OS-ELMn.
Figura 5.6: Saı́das das redes para os dados Box-Jenkins, para o conjunto Fim.
dados.
A Figura 5.8 apresenta os valores de RMSE médio para o conjunto de treinamento e validação
para os modelos ELM, OS-ELM e OS-ELMn. O número de neurônios escolhido foi de 49 para a
ELM, 50 para a OS-ELM e 8 para a OS-ELMn com valores de RMSE médio de 0,0374, 0,0473
e 0,0548, respectivamente.
A Tabela 5.7 apresenta os desempenhos das redes segundo o RMSE, o número de re-
gras/neurônios e o tempo de processamento. Os menores valores de RMSE médio foram os
modelos DENFIS, OS-ELMn, ELM, eNNEL e eNNELv , em ordem crescente de valor do RMSE.
5.4. Previsão de Séries Temporais 65
Figura 5.7: Evolução do número de neurônios para os dados Box-Jenkins, para o conjunto Fim.
a) ELM. b) OS-ELM.
c) OS-ELMn.
Os modelos eHFN, eHFNv , Ehfn e Ehfnv possuem os maiores valores de RMSE médio.
Novamente, entre os modelos que apresentam modificações de estrutura, os menores custos
computacionais foram dos modelo eNNEL, eNNELv e ANYA.
66 Capı́tulo 5. Resultados Computacionais
Tabela 5.7: Desempenho para a série temporal Mackey-Glass, para o conjunto Todos.
Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 49 49 0,0123 0,0150 0,0136 0,0006 0,0137 0,0008 0,0107
OS-ELM 50 50 0,0241 0,0252 0,0247 0,0003 0,0247 0,0004 0,3246
OS-ELMn 8 8 0,0105 0,0162 0,0118 0,0009 0,0116 0,0009 0,1625
Ehfn 13 13 0,1064 0,1258 0,1180 0,0042 0,1187 0,0057 1,1384
Ehfnv 11 9 0,1138 0,1310 0,1252 0,0037 0,1260 0,0061 1,0479
ANYA 13 13 0,0274 0,0274 0,0274 0 0,0274 0 1,0455
DENFIS 32 32 0,0112 0,0112 0,0112 0 0,0112 0 8,2730
eHFN 13 13 0,0437 0,0556 0,0497 0,0030 0,0498 0,0048 1,1347
eHFNv 11 9 0,0550 0,0688 0,0638 0,0032 0,0648 0,0031 1,0504
eNNEL 13 13 0,0114 0,0227 0,0183 0,0031 0,0189 0,0048 0,5056
eNNELv 11 9 0,0126 0,0234 0,0185 0,0031 0,0187 0,0057 0,4983
Figura 5.9: Boxplot para a série temporal Mackey-Glass, para o conjunto Todos.
Para uma comparação par a par, utiliza-se o teste DM, Tabela 5.8, para o conjunto de teste
5.4. Previsão de Séries Temporais 67
Todos. Para valores de |DM | menores que 1,96 a hipótese nula de mesma acurácia preditiva é
aceita; do contrário, valores maiores de 1,96, ela é rejeitada.
A Tabela 5.8 mostra que as redes eHFN, eHFNv , Ehfn e Ehfnv possuem menor acurácia
preditiva que todos os outros modelos. Entre essas redes, a rede mais acurada é a eHFN,
seguida da eHFNv , Ehfn e Ehfnv , o modelo menos acurado. As redes eNNEL e eNNELv possuem
mesma acurácia preditiva e superam a acurácia dos modelos ANYA, OS-ELM, eHFN, eHFNv ,
Ehfn e Ehfnv . Os únicos modelos que superam a acurácia das rede eNNEL e eNNELv são os
modelos ELM, DENFIS e OS-ELMn. Neste experimento, o modelo OS-ELMn possui mesma
acurácia preditiva que o modelo DENFIS, e supera todos os outros modelos. Esses resultados
são resumidos na Tabela 5.9.
Tabela 5.8: Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Todos.
Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 4,6694 18,5413 9,3045 20,5683 -2,2428 -2,2534 -2,9744
DENFIS 15,3242 20,6796 16,2097 22,6924 3,3470 3,7369 -1,1276
ELM 15,0135 20,6272 16,0215 22,6400 2,4948 2,7864 -5,3627
OS-ELM 7,0632 19,4094 11,5774 21,4613 -2,2360 -2,2592 -3,5633
OS-ELMn 15,5277 20,6892 16,3176 22,6984 3,6821 4,1443 -
eNNELv 13,6863 20,4033 15,3538 22,4157 -0,0015 - -
eNNEL 13,4904 20,3941 15,2717 22,4049 - - -
Ehfnv -19,7762 -2,6868 -17,9891 - - - -
eHFNv -7,7420 14,4180 - - - - -
Ehfn -17,9407 - - - - - -
Tabela 5.9: Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto
Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn, Ehfnv e eHFNv -
OS-ELM, ANYA e DENFIS
eHFN, eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv -
ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN,
eNNEL eNNELv OS-ELMn, ELM e DENFIS
eHFNv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN,
eNNELv eNNEL OS-ELMn, ELM e DENFIS
eHFNv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn DENFIS -
eNNEL, eNNELv , ELM, OS-ELM e ANYA
As curvas da Figura 5.10 apresentam as saı́das das redes e os valores desejados para a sé-
68 Capı́tulo 5. Resultados Computacionais
rie temporal Mackey-Glass. As redes conseguiram uma boa aproximação da função que define
a saı́da desejada, fM G . Os valores de xt , representados pelo gráfico em azul conseguem ser
previstos com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cru-
zes. Para gerar os gráficos, foi utilizada a função mapminmax.reverse, que reverte os valores
normalizados nos valores normais. Portanto, os gráficos da Figura 5.10 possuem os valores reais.
e) OS-ELMn.
Figura 5.10: Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Todos.
Como o conjunto de dados é muito grande, as figuras da Figura 5.11 apresentam as primeiras
600 saı́das das redes e os primeiros 600 valores desejados para a série temporal Mackey-Glass,
para o conjunto Todos. Nesta figura, fica nı́tida a eficácia preditiva das redes OS-ELMn, eNNEL
5.4. Previsão de Séries Temporais 69
e eNNELv .
e) OS-ELMn.
Figura 5.11: As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Todos.
A evolução do número de neurônios para as redes eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentada na Figura 5.12.a. O número final de neurônios para essas redes é 13.
A Figura 5.12.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9. Assim como nas outras aplicações,
o maior número de neurônios é criado nos primeiros instantes. Pode-se observar, na Figura
5.12.b, que a evolução do número de neurônios acontece desde os primeiros instantes até o final
70 Capı́tulo 5. Resultados Computacionais
Figura 5.12: Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Todos.
O desempenho dos modelos para o conjunto Fim é apresentado na Tabela 5.10. Os menores
valores de RMSE médio novamente foram os dos modelos DENFIS, OS-ELMn, ELM, eNNEL
e eNNELv . As redes com maior RMSE médio foram os modelos eHFN, eHFNv , Ehfn e por fim
Ehfnv .
O menor custo computacional, entre os modelos que alteram sua estrutura, foram os modelos
eNNEL, eNNELv e eHFNv .
A Figura 5.13 apresenta graficamente os resultados da Tabela 5.10. Novamente, a maioria
dos modelos apresentou mediana similar à média, com exceção dos modelos Ehfn, Ehfnv e
eNNEL, que apresentaram mediana superior à média. Ou seja, a maioria dos valores para as
5.4. Previsão de Séries Temporais 71
Tabela 5.10: Desempenho para a série temporal Mackey-Glass, para o conjunto Fim.
Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 49 49 0,0118 0,0154 0,0137 0,0006 0,0137 0,0008 0,0076
OS-ELM 50 50 0,0249 0,0265 0,0257 0,0003 0,0257 0,0004 0,2094
OS-ELMn 8 8 0,0102 0,0157 0,0118 0,0009 0,0117 0,0009 0,1087
Ehfn 14 14 0,0992 0,1294 0,1170 0,0068 0,1186 0,0095 0,8366
Ehfnv 12 9 0,1135 0,1361 0,1289 0,0055 0,1304 0,0095 0,6999
ANYA 14 14 0,0288 0,0288 0,0288 0 0,0288 0 0,7699
DENFIS 33 33 0,0105 0,0105 0,0105 0 0,0105 0 5,3492
eHFN 14 14 0,0372 0,0517 0,0453 0,0031 0,0456 0,0037 0,8352
eHFNv 12 9 0,0411 0,0523 0,0468 0,0020 0,0467 0,0028 0,6997
eNNEL 14 14 0,0107 0,0224 0,0178 0,0035 0,0189 0,0051 0,3636
eNNELv 12 9 0,0125 0,0240 0,0192 0,0031 0,0193 0,0053 0,3331
Figura 5.13: Boxplot para a série temporal Mackey-Glass, para o conjunto Fim.
A Tabela 5.11 apresenta os valores de DM para as comparações par a par. Neste expe-
rimento, novamente as redes eHFN, eHFNv , Ehfn e Ehfnv possuem menor acurácia preditiva
que todos os outros modelos. Entre essas redes, a rede mais acurada é a eHFN, seguido da
72 Capı́tulo 5. Resultados Computacionais
eHFNv , Ehfn e Ehfnv , o modelo menos acurado. A rede eNNELv supera a acurácia dos modelos
ANYA, OS-ELM, eHFN, eHFNv , Ehfn e Ehfnv e é superado pela acurácia dos modelos DEN-
FIS, OS-ELMn, ELM e eNNEL. Os únicos modelos que superam a rede eNNEL são os modelos
DENFIS, OS-ELMn e ELM. Novamente o modelo OS-ELMn possui mesma acurácia preditiva
que o modelo DENFIS e supera todos os outros modelos. Esses resultados são resumidos na
Tabela 5.12.
Tabela 5.11: Teste estatı́stico DM para a série temporal Mackey-Glass, para o conjunto Fim.
Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 2,4477 13,8759 3,1558 16,2473 -2,1510 -2,0076 -2,7137
DENFIS 17,3223 15,6931 21,1307 17,9158 3,4616 4,3252 0,3122
ELM 16,6541 15,6270 20,4353 17,8523 2,1866 3,0260 -7,2240
OS-ELM 4,5162 14,5971 5,5857 16,9120 -2,2157 -2,0003 -3,1884
OS-ELMn 17,5080 15,6859 21,4867 17,9044 3,4257 4,3009 -
eNNELv 13,8994 15,4234 17,1894 17,6634 -8,9512 - -
eNNEL 14,2642 15,4742 17,4924 17,7066 - - -
Ehfnv -16,3137 -3,6242 -16,0626 - - - -
eHFNv -2,7384 13,6052 - - - - -
Ehfn -13,9389 - - - - - -
Tabela 5.12: Resumo do teste estatı́stico DM para a série temporal Mackey-Glass, para o
conjunto Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn, Ehfnv e eHFNv -
OS-ELM, ANYA e DENFIS
eHFN, eNNEL, eNNELv , OS-ELMn,
eHFNv Ehfn e Ehfnv -
ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn Ehfnv -
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfnv - - Todos
Ehfn, Ehfnv , eHFN, eHFNv ,
eNNEL - OS-ELMn, ELM e DENFIS
eNNELv , OS-ELM e ANYA
Ehfn, Ehfnv , eHFN, eNNEL, OS-ELMn, ELM
eNNELv -
eHFNv , OS-ELM e ANYA e DENFIS
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn DENFIS -
eNNEL, eNNELv , ELM, OS-ELM e ANYA
As figuras da Figura 5.14 apresentam as saı́das das redes e os valores desejados para a série
temporal Mackey-Glass. As redes conseguiram uma boa aproximação da função que define
a saı́da desejada, fM G . Os valores de xt , representados pelo gráfico em azul conseguem ser
previstos com grande precisão pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cruzes.
Para gerar os gráficos, foi utilizado a função mapminmax.reverse e apresentam os valores reais.
5.4. Previsão de Séries Temporais 73
e) OS-ELMn.
Figura 5.14: Saı́das das redes para a série temporal Mackey-Glass, para o conjunto Fim.
Como o conjunto de dados é muito grande, as figuras da Figura 5.15 apresentam as primeiras
600 saı́das das redes e os primeiros 600 valores desejados para a série temporal Mackey-Glass,
para o conjunto Fim. Novamente a eficácia preditiva das redes OS-ELMn, eNNEL e eNNELv é
visualmente maior que as redes eHFN e eHNFv .
A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.16.a. O número final de neurônios para essas redes é 14.
A Figura 5.16.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9. O maior número de neurônios, para
74 Capı́tulo 5. Resultados Computacionais
e) OS-ELMn.
Figura 5.15: As 600 primeiras saı́das das redes para a série temporal Mackey-Glass, para o
conjunto Fim.
Figura 5.16: Evolução do número de neurônios para a série temporal Mackey-Glass, para o
conjunto Fim.
ay t
y t+1 = + c(ut )3 , (5.11)
1 + b(y t )2
onde ut = sen(2πt/25) + sen(2πt/10) e y 1 = 0.
O objetivo é aproximar a função não linear, fT SDC (·). As entradas são valores passados de
76 Capı́tulo 5. Resultados Computacionais
Para os modelos que necessitam de treinamento, foram separadas os 400 primeiros dados,
sendo que os primeiros 320 dados foram utilizados para o treinamento e os 80 últimos para a
validação. Portanto, o conjunto Fim possui 800 dados, e o conjunto Todos possui os 1200 dados.
A Figura 5.17 apresenta os valores de RMSE médio para os conjuntos de treinamento e
validação para os modelos ELM, OS-ELM e OS-ELMn. O número de neurônios escolhido foi
de 50 para a ELM, 46 para a OS-ELM e 7 para a OS-ELMn com valores de RMSE médio de
0,0276, 0,0316 e 0,0522, respectivamente.
A Tabela 5.14 apresenta os resultados para a série temporal não linear, para o conjunto To-
dos. Neste experimento, os modelos com menor RMSE médio foram os modelos ELM, OS-ELM
e DENFIS. As redes eHFNv , eNNELv e Ehfnv superaram os modelos semelhantes que não reali-
5.4. Previsão de Séries Temporais 77
a) ELM. b) OS-ELM.
c) OS-ELMn.
Os modelos com evolução na estrutura que apresentaram o menor custo computacional foram
os modelos eNNELv , eNNEL e eHFNv .
Para uma comparação par a par, utiliza-se o teste DM, Tabela 5.15. Para valores de |DM |
menores que 1,96 a hipótese nula de mesma acurácia preditiva é aceita, do contrário, valores
maiores de 1,96, ela é rejeitada.
Para o conjunto de teste Todos, os valores de DM são apresentados na Tabela 5.15 e re-
sumidos na Tabela 5.16. A rede eHFN possui mesma acurácia preditiva que o modelo Ehfnv .
A rede eHFN é mais acurada que os modelos Ehfn e eNNEL e menos acurada que os outros
modelos. O único modelo menos acurado que o modelo Ehfn é a rede eNNEL, o modelo com
menor acurácia para este experimento. O modelo Ehfnv é mais acurado que os modelos Ehfn
e eNNEL, igualmente acurado que o modelo eHFN e menos acurado que os outros modelos. A
rede eHFNv é mais acurada que os modelos Ehfnv , eHFN, Ehfn e eNNEL, e menos acurada que
78 Capı́tulo 5. Resultados Computacionais
Tabela 5.14: Desempenho para a série temporal não linear, para o conjunto Todos.
.
Todos
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 50 50 0,0256 0,0274 0,0263 0,0001 0,0263 0,0004 0,0059
OS-ELM 46 46 0,0376 0,0379 0,0377 0,0001 0,0377 0,0001 0,1185
OS-ELMn 7 7 0,0453 0,0807 0,0501 0,0038 0,0497 0,0028 0,0615
Ehfn 19 19 0,0987 0,1110 0,1036 0,0020 0,1035 0,0024 0,5927
Ehfnv 11 9 0,0861 0,0950 0,0908 0,0014 0,0908 0,0016 0,4115
ANYA 19 19 0,0451 0,0451 0,0451 0 0,0451 0 0,5706
DENFIS 17 17 0,0391 0,0391 0,0391 0 0,0391 0 2,1196
eHFN 19 19 0,0894 0,1160 0,1034 0,0055 0,1037 0,0075 0,5978
eHFNv 11 9 0,0757 0,0989 0,0863 0,0041 0,0859 0,0049 0,4112
eNNEL 19 19 0,1352 0,2106 0,1709 0,0153 0,1701 0,0198 0,2523
eNNELv 11 9 0,0515 0,0628 0,0571 0,0024 0,0570 0,0038 0,1972
Figura 5.18: Boxplot para a série temporal não linear, para o conjunto Todos.
os outros modelos. O modelo eNNELv possui mesma acurácia preditiva que o modelo ANYA,
mais acurado que os modelos eHFNv , Ehfnv , eHFN, Ehfn e eNNEL, e menos acurado que os
outros modelos. A rede OS-ELMn é igualmente acurada que o modelo ANYA, menos acurada
que os modelos DENFIS, ELM e OS-ELM, e mais acurada que todos os outros sistemas.
5.4. Previsão de Séries Temporais 79
Tabela 5.15: Teste estatı́stico DM para a série temporal não linear, para o conjunto Todos.
Todos
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 8,3843 8,7404 6,1695 7,6079 14,7170 1,5970 0,3894
DENFIS 10,8410 10,3930 8,9738 9,5781 16,5442 5,0049 3,4089
ELM 12,6767 11,7453 11,3215 11,1898 17,0809 9,6622 9,4487
OS-ELM 9,9463 9,8549 7,8534 8,8900 15,7782 3,4880 2,1674
OS-ELMn 11,4831 10,0660 8,2294 8,8259 16,7301 5,1976 -
eNNELv 10,8273 9,6278 6,9191 7,9733 16,6760 - -
eNNEL -12,6851 -8,4896 -13,0673 -10,2791 - - -
Ehfnv 0,3859 3,4179 -3,6472 - - - -
eHFNv 4,3908 5,6058 - - - - -
Ehfn -2,1840 - - - - - -
Tabela 5.16: Resumo do teste estatı́stico DM para a série temporal não linear, para o conjunto
Todos.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eHFNv , eNNELv , OS-ELMn, ELM,
eHFN Ehfn e eNNEL Ehfnv
OS-ELM, ANYA e DENFIS
Ehfn, Ehfnv , eHFN eNNELv , OS-ELMn, ELM,
eHFNv -
e eNNEL OS-ELM, ANYA e DENFIS
Ehfnv , eHFN, eHFNv , eNNELv , OS-ELMn,
Ehfn eNNEL -
ELM, OS-ELM, ANYA e DENFIS
eHFNv , eNNELv , OS-ELMn,
Ehfnv Ehfn e eNNEL eHFN
ELM, OS-ELM, ANYA e DENFIS
eNNEL - - Todos
Ehfn, Ehfnv , eHFN, OS-ELMn, ELM, OS-ELM
eNNELv ANYA
eHFNv e eNNEL e DENFIS
Ehfn, Ehfnv , eHFN,
OS-ELMn ANYA ELM, OS-ELM e DENFIS
eHFNv , eNNEL e eNNELv
As curvas da Figura 5.19 apresentam as saı́das das redes e os valores desejados para a série
temporal não linear. É nı́tido que as redes propostas não apresentaram um bom resultado para
esse experimento, principalmente o modelo eNNEL. Os valores de y t , representados pelo gráfico
em azul são previstos pelas saı́das das redes neurais, ŷ t , gráfico em vermelho e cruzes. Para
gerar os gráficos da Figura 5.19, foi utilizado a função mapminmax.reverse e apresentam os
valores reais.
A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.20.a. O número final de neurônios para essas redes é 19.
A Figura 5.20.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 9.
80 Capı́tulo 5. Resultados Computacionais
e) OS-ELMn.
Figura 5.19: Saı́das das redes para a série temporal não linear, para o conjunto Todos.
Para o conjunto de teste Fim, segundo a Tabela 5.17, o modelo com menor RMSE médio é
o modelo ELM, seguido pelos modelos OS-ELM e DENFIS. Novamente as rede com exclusão
de neurônios, eHFNv , eNNELv e Ehfnv , superaram as redes que não excluem neurônios, eHFN,
eNNEL e Ehfn, respectivamente.
Entre os modelos que atualizam sua estrutura conforme o fluxo de dados, os que apresenta-
ram menor custo computacional foram os modelos eNNELv , eNNEL e ANYA.
A Figura 5.21 apresenta graficamente os resultados da Tabela 5.17. Os modelos com mediana
menor que a média, neste experimento, são OS-ELMn, eHFN, eHFNv , eNNEL e eNNELv .
5.4. Previsão de Séries Temporais 81
Figura 5.20: Evolução do número de neurônios para a série temporal não linear, para o conjunto
Todos.
A Tabela 5.18 apresenta os resultados do teste estatı́stico, a Tabela 5.19 resumo os resultados.
Segundo essa tabela, os modelos eHFN e eHFNv possuem mesma acurácia preditiva, são mais
acurados que os modelos Ehfn e Ehfnv e menos acurados que os outros modelos. Os modelos
Ehfn e Ehfnv possuem mesma acurácia preditiva e menos acurácia que todos os outros modelos.
A rede eNNEL é mais acurada que os modelos eHFN, eHFNv , Ehfn e Ehfnv e menos acurada
que os outros modelos. A rede eNNELv possui mesma acurácia que o modelo ANYA, supera
os modelos eNNEL, eHFN, eHFNv , Ehfn e Ehfnv e é superada pelos outro modelos. O modelo
OS-ELMn possui mesma acurácia preditiva que os modelos ANYA e DENFIS e é superada
somente pelos modelos ELM e OS-ELM.
As figuras da Figura 5.22 apresentam as saı́das das redes e os valores desejados para a série
82 Capı́tulo 5. Resultados Computacionais
Tabela 5.17: Desempenho para a série temporal não linear, para o conjunto Fim.
Fim
Regras / RMSE
Modelo
Neurônios Tempo (s)
mı́nimo máximo médio desvio mediana IQR
máx fim
ELM 50 50 0,0241 0,0254 0,0247 0,0003 0,0246 0,0004 0,0048
OS-ELM 46 46 0,0364 0,0367 0,0365 0,0001 0,0365 0,0001 0,0801
OS-ELMn 7 7 0,0441 0,0577 0,0495 0,0026 0,0491 0,0037 0,0415
Ehfn 14 14 0,0857 0,0921 0,0886 0,0013 0,0885 0,0017 0,3205
Ehfnv 11 10 0,0831 0,0881 0,0856 0,0013 0,0855 0,0022 0,2721
ANYA 14 14 0,0454 0,0454 0,0454 0 0,0454 0 0,2673
DENFIS 13 13 0,0434 0,0434 0,0434 0 0,0434 0 1,2294
eHFN 14 14 0,0711 0,1033 0,0836 0,0061 0,0831 0,0080 0,3226
eHFNv 11 10 0,0670 0,1010 0,0813 0,0061 0,0804 0,0061 0,2722
eNNEL 14 14 0,0549 0,0955 0,0675 0,0073 0,0660 0,0092 0,1418
eNNELv 11 10 0,0510 0,0661 0,0577 0,0033 0,0574 0,0053 0,1305
Figura 5.21: Boxplot para a série temporal não linear, para o conjunto Fim.
temporal não linear. Para esse conjunto de teste, o resultado é melhor para todos os modelos. Os
valores de y t , representados pelo gráfico em azul são previstos pelas saı́das das redes neurais, ŷ t ,
gráfico em vermelho e cruzes. Para gerar os gráficos, foi utilizado a função mapminmax.reverse
e apresentam os valores reais.
5.4. Previsão de Séries Temporais 83
Tabela 5.18: Teste estatı́stico DM para a série temporal não linear, para o conjunto Fim.
Fim
Modelo
eHFN Ehfn eHFNv Ehfnv eNNEL eNNELv OS-ELMn
ANYA 4,9944 6,4206 4,7498 5,9415 2,4985 1,3819 0,1483
DENFIS 6,1027 6,9964 5,8449 6,4408 3,8711 2,7663 0,8914
ELM 10,3436 9,9220 10,1881 9,2871 8,2791 7,5047 7,1628
OS-ELM 7,1880 8,0030 6,9342 7,4479 4,7262 3,5709 2,5202
OS-ELMn 7,8368 7,4863 7,2789 6,8041 5,4213 4,1011 -
eNNELv 6,0573 6,4273 5,4124 5,7092 4,4430 - -
eNNEL 4,4043 5,3577 3,7255 4,6774 - - -
Ehfnv -2,2575 1,1638 -2,7735 - - - -
eHFNv 0,8405 3,4158 - - - - -
Ehfn -2,9360 - - - - - -
Tabela 5.19: Resultados do teste estatı́stico DM para a série temporal não linear, para o conjunto
Fim.
Modelo Maior acurácia Mesma acurácia Menor acurácia
eNNEL, eNNELv , OS-ELMn, ELM,
eHFN Ehfn e Ehfnv eHFNv
OS-ELM, ANYA e DENFIS
eNNEL, eNNELv , OS-ELMn, ELM,
eHFNv Ehfn e Ehfnv eHFN
OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfn - Ehfnv
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
eHFN, eHFNv , eNNEL, eNNELv ,
Ehfnv - Ehfn
OS-ELMn, ELM, OS-ELM, ANYA e DENFIS
Ehfn, Ehfnv , eHFN OS-ELMn, ELM, OS-ELM,
eNNEL -
e eHFNv ANYA e DENFIS
Ehfn, Ehfnv , eHFN, OS-ELMn, ELM, OS-ELM
eNNELv ANYA
eHFNv e eNNEL e DENFIS
Ehfn, Ehfnv , eHFN, eHFNv ,
OS-ELMn ANYA e DENFIS ELM e OS-ELM
eNNEL e eNNELv
A evolução do número de neurônios para a rede eHFN, eNNEL e Ehfn com o decorrer dos
t instantes é apresentado na Figura 5.20.a. O número final de neurônios para essas redes é 14.
A Figura 5.20.b apresenta a evolução do número de neurônios para a rede eHFNv , eNNELv e
Ehfnv . O número final de neurônios para essas redes é 10.
Novamente a rede OS-ELMn se destacou, com o menor número de neurônios na camada in-
termediária conseguiu equiparar-se a modelos como o DENFIS e o ANYA. A rede eNNELv , para
os dois conjuntos de teste, obteve um resultado melhor que a rede eNNEL, sempre superando a
acurácia preditiva, mesmo com um número menor de regras.
84 Capı́tulo 5. Resultados Computacionais
e) OS-ELMn.
Figura 5.22: Saı́das das redes para a série temporal não linear, para o conjunto Fim.
5.5 Resumo
Figura 5.23: Evolução do número de neurônios para a série temporal não linear, para o conjunto
Fim.
Os dados iniciais de cada problema foram utilizados para realizar uma validação cruzada.
A validação cruzada determinou o número de neurônios na camada intermediária das redes
ELM, OS-ELM e OS-ELMn. Por isso as redes ELM, OS-ELM e OS-ELMn apresentavam um
conhecimento a priori do conjunto de dados. As redes Ehfn e Ehfnv utilizaram os mesmos dados
para inicializar as matrizes de dispersão das nuvens.
A raiz quadrada do erro quadrático foi utilizada para quantificar o desempenho dos modelos
e o teste estatı́stico Diebold-Mariano avaliou o desempenho dos modelos par a par. Analisando
os resultados dos critérios de comparação escolhidos, as redes neurais demonstraram potencial.
Os melhores desempenhos entre as redes propostas foram competitivos quando comparados aos
desempenhos dos modelos referenciais.
86 Capı́tulo 5. Resultados Computacionais
Particularmente, a rede eNNELv apresentou, nos testes estatı́sticos de todas as seis aplica-
ções, um desempenho igual ou superior ao do modelo ANYA. A rede eNNEL foi estatisticamente
igual e superior ao modelo ANYA em quatro das seis aplicações.
Outro modelo proposto que se destacou foi o modelo OS-ELMn, uma variação do modelo
OS-ELM. O modelo OS-ELMn apresentou menores valores médios de RMSE em quatro das seis
aplicações quando comparadas ou modelo OS-ELM. Quando comparado ao modelo DENFIS, o
modelo OS-ELMn apresentou mesma acurácia preditiva em três das seis aplicações. O modelo
DENFIS apresentou os melhores desempenhos em todas as aplicações e também sempre o maior
tempo de processamento, devida sua maior estrutura final na maioria das aplicações.
Os modelos OS-ELMn e eNNELv apresentaram sempre desempenhos competitivos e um
menor número de regras. De fato, as redes eNNEL e eNNELv são similares à rede OS-ELMn,
deferindo na definição da estrutura. A estrutura das redes eNNEL e eNNELv são adaptativas,
assim como seus parâmetros, na rede OS-ELMn somente os parâmetros são adaptativos.
As redes eHFN e eHFNv apresentaram mesma acurácia preditiva que o modelo ANYA e o
modelo OS-ELM em duas das seis aplicações. Apesar disso, estas redes foram inferiores às redes
eNNEL, eNNELv e OS-ELMn na maioria das aplicações. Os modelos Ehfn e Ehfnv mostraram
que a inicialização das matrizes de dispersão das nuvens com os dados utilizados para validação,
não melhorou os desempenhos.
Além disso, todas as redes propostas possuem tempo de processamento, quando comparados
aos modelos evolutivos, entre os menores em todas as aplicações, capacitando-as para diversas
aplicações que necessitam velocidade de processamento. As redes apresentaram um pequeno nú-
mero de regras/neurônios, formando modelos compactos para a representação do espaço entrada
saı́da.
Capı́tulo 6
Conclusão
87
88 Capı́tulo 6. Conclusão
Os resultados mostram que o desempenho das redes neurais propostas é competitivo quando
comparado com as abordagens de modelagem evolutiva adotadas para comparação. Hoje, estas
abordagens são as mais eficientes disponı́veis na literatura. Em geral as redes neurais propostas
nesta dissertação são capazes de modelar sistemas não lineares complexos com uma estrutura
parcimoniosa, com alto grau de autonomia e grande acurácia. Além disso, as redes neurais
propostas têm um tempo de processamento entre os menores, capacitando-a para aplicações
on-line e tempo real.
Apesar de se mostrar promissora, um número de questões sobre a modelagem neural evolutiva
ainda precisam de ser investigadas. Por exemplo, é necessário analisar o comportamento das
rede neurais na modelagem de processos com parâmetros estocásticos. O mesmo ocorre no
caso de modelagem em ambientes com ruı́do e outliers. O estudo de redes neurais recorrentes
evolutivas com neurônios sigmoidais, neurônios nebulosos, ou ambos também está em aberto.
Outro assunto importante é o uso de sistemas evolutivos para controle adaptativo de alto nı́vel
e aplicações.
Bibliografia
Angelov, P. (2002). Evolving Rule-Based Models: A Tool for Design of Flexible Adaptive Sys-
tems, Physica-Verlag, Heidelberg, Alemanha.
Angelov, P., Filev, D. e Kasabov, N. (2010). Evolving Intelligent Systems: Methodology and
Applications, John Wiley & Sons, Hoboken, NJ, EUA.
Angelov, P. e Xiaowei, Z. (2006). Evolving fuzzy systems from data streams in real-time,
International Symposium on Evolving Fuzzy Systems, Lake District, Reino Unido, pp. 29 –35.
Angelov, P. e Yager, R. (2011a). A new type of simplified fuzzy rule-based system, International
Journal of General Systems 41(2): 163–185.
Angelov, P. e Yager, R. (2011b). Simplified fuzzy rule-based systems using non-parametric ante-
cedents and relative data density, Evolving and Adaptive Intelligent Systems, IEEE, pp. 62–69.
Bordignon, F. e Gomide, F. (2012). Extreme learning for evolving hybrid neural networks,
Brazilian Symposium on Neural Networks, Curitiba, PR, Brazil, pp. 196–201.
89
90 Bibliografia
Bordignon, F. e Gomide, F. (2014). Uninorm based evolving neural networks and approximation
capabilities, Neurocomputing 127(0): 13 – 20.
Buckley, J. e Hayashi, Y. (1994). Fuzzy neural networks: A survey, Fuzzy sets and Systems
66: 1–13.
Caminhas, W., Tavares, H., Gomide, F. e Pedrycz, W. (1999). Fuzzy set based neural networks:
Structure, learning and application., JACIII 3(3): 151–157.
Fangju, A. (2011). A new pruning algorithm for feedforward neural networks, International
Workshop on Advanced Computational Intelligence, pp. 286–289.
Feng, G., Huang, G.-B., Lin, Q. e Gay, R. (2009). Error minimized extreme learning machine
with growth of hidden nodes and incremental learning, Transactions on Neural Networks
20(8): 1352–1357.
Gao, W. (2005). New evolutionary neural networks, First International Conference on Neural
Interface and Control, pp. 167–171.
Golub, G. H. e Van Loan, C. F. (1996). Matrix Computations (3rd Ed.), Johns Hopkins Uni-
versity Press, Baltimore, MD, USA.
Hájek, P. (2000). Discovering the world with fuzzy logic, Physica-Verlag GmbH, Heidelberg,
Germany, Germany, chapter On the Metamathematics of Fuzzy Logic, pp. 155–174.
URL: http://dl.acm.org/citation.cfm?id=357564.357577
Bibliografia 91
Hassoun, M. H. (1995). Fundamentals of Artificial Neural Networks, 1st edn, MIT Press, Cam-
bridge, MA, USA.
Haykin, S. (2009). Neural Networks and Learning Machines, 3 edn, Pearson Education, Upper
Saddle River, NJ, EUA.
Hell, M. B. (2008). Abordagem neurofuzzy para modelagem de sistemas dinâmicos não lineares,
PhD thesis, Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de
Computação.
Hell, M., Costa, P., Gomide, F. e Jr, P. C. (2008). Hybrid neurofuzzy computing with nullneu-
rons, IEEE International Joint Conference on Neural Networks pp. 3653–3659.
Hell, M., Gomide, F., Ballini, R. e Costa, P. (2009a). Uninetworks in time series forecasting,
Fuzzy Information Processing Society, 2009. NAFIPS 2009. Annual Meeting of the North
American pp. 1–6.
Hell, M., Gomide, F., Ballini, R. e Costa, P. (2009b). Uninetworks in time series forecasting,
Annual Meeting of the North American Fuzzy Information Processing Society pp. 1–6.
Ho, W. L., Tung, W. L. e Quek, C. (2010). Brain-inspired evolving neuro-fuzzy system for
financial forecasting and trading of the s&p500 index, Pacific Rim international conference
on Trends in artificial intelligence pp. 601–607.
Hornik, K., Stinchcombe, M. e White, H. (1989). Multilayer feedforward networks are universal
approximators, Neural Netw. 2(5): 359–366.
Huang, G.-B. (2008). Reply to ”comments on the extreme learning machine”, Neural Networks,
IEEE Transactions on 19(8): 1495–1496.
Huang, G.-B., Chen, L. e Siew, C.-K. (2006). Universal approximation using incremental cons-
tructive feedforward networks with random hidden nodes, Neural Networks, IEEE Transac-
tions on 17(4): 879–892.
Huang, G.-B., Wang, D. e Lan, Y. (2011). Extreme learning machines: a survey, International
Journal of Machine Learning and Cybernetics 2(2): 107–122.
Huang, G.-B., Zhu, Q.-Y. e Siew, C.-K. (2006). Extreme learning machine: Theory and appli-
cations, Neurocomputing 70(1): 489 – 501.
92 Bibliografia
Huang, G., Li, M., Chen, L. e Siew, C. (2008). Incremental extreme learning machine with fully
complex hidden nodes, Neurocomputing 71(4-6): 576–583.
Huang, G., Liang, N., Rong, H., Saratchandran, P. e Sundararajan, N. (2005). On-line se-
quential extreme learning machine, in M. H. Hamza (ed.), Computational Intelligence 05,
IASTED/ACTA Press, Calgary, Alberta, Canadá, pp. 232–237.
Huang, G., Zhu, Q. e Siew, C. (2004). Extreme learning machine: a new learning scheme
of feedforward neural networks, IEEE International Joint Conference on Neural Networks
2: 985–990.
Islam, M., Sattar, A., Amin, F., Yao, X. e Murase, K. (2009a). A new adaptive merging and
growing algorithm for designing artificial neural networks, IEEE Transactions on Systems,
Man, and Cybernetics, Part B: Cybernetics 39(3): 705–722.
Islam, M., Sattar, M., Amin, M., Yao, X. e Murase, K. (2009b). A new constructive algorithm
for architectural and functional adaptation of artificial neural networks, IEEE Transactions
on Systems, Man, and Cybernetics, Part B: Cybernetics, 39(6): 1590–1605.
Javan, D., Mashhadi, H. e Rouhani, M. (2010). Static security assessment using radial basis
function neural networks based on growing and pruning method, Electric Power and Energy
Conference, pp. 1–6.
Kasabov, N. e Song, Q. (2002). DENFIS: dynamic evolving neural-fuzzy inference system and
its application for time-series prediction, IEEE Trans. on Fuzzy Systems 10(2): 144 –154.
Klir, G. J. e Folger, T. A. (1987). Fuzzy Sets, Uncertainty, and Information, Prentice-Hall, Inc.,
Upper Saddle River, NJ, USA.
Bibliografia 93
Klir, G. J. e Yuan, B. (1995). Fuzzy Sets and Fuzzy Logic: Theory and Applications, Prentice-
Hall, Inc., Upper Saddle River, NJ, USA.
Lee, S. C. e Lee, E. T. (1974). Fuzzy sets and neural networks, Journal of Cybernetics 4(2): 83–
103.
Lee, S. C. e Lee, E. T. (1975). Fuzzy neural networks, Mathematical Biosciences 23(1-2): 151–
177.
Leite, D., Costa, P. e Gomide, F. (2012). Evolving granular neural network for fuzzy time series
forecasting, The 2012 International Joint Conference on Neural Networks pp. 1–8.
Lemos, A., Caminhas, W. e Gomide, F. (2010). New uninorm-based neuron model and fuzzy
neural networks, Annual Meeting of the North American Fuzzy Information Processing Society
pp. 1–6.
Liang, N.-Y., Huang, G.-B., Saratchandran, P. e Sundararajan, N. (2006). A fast and accurate
online sequential learning algorithm for feedforward networks, IEEE Transactions on Neural
Networks 17(6): 1411–1423.
Liao, G.-C. e Tsao, T.-P. (2003). Integrating evolving fuzzy neural networks and tabu search
for short term load forecasting, Transmission and Distribution Conference and Exposition,
Vol. 2, IEEE, pp. 755–762 vol.2.
Lin, C. e Lee, C. (1996). Neural Fuzzy Systems: A Neuro-Fuzzy Synergism to Intelligent Systems,
Prentice-Hall, Upper Saddle River, NJ, USA.
Liu, Y., Zhang, Y., Zhu, Y. e Zhao, Z. (2010). A constructive neural network learning method
based on quotient space and its application in coal mine gas prediction, International Confe-
rence on Intelligent Computing and Cognitive Informatics, pp. 172–174.
Ljung, L. (ed.) (1999). System Identification: Theory for the User, 2 edn, Prentice Hall PTR,
Upper Saddle River, NJ, USA.
Luna, I., Soares, S., Lopes, J. E. G. e Ballini, R. (2009). Verifying the Use of Evolving Fuzzy
Systems for Multi-Step Ahead Daily Inflow Forecasting, Intelligent System Applications to
Power Systems, IEEE, pp. 1–6.
94 Bibliografia
McCulloch, W. e Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity,
The bulletin of mathematical biophysics 5(4): 115–133.
Miche, Y., Sorjamaa, A., Bas, P., Simula, O., Jutten, C. e Lendasse, A. (2010). Op-elm: Opti-
mally pruned extreme learning machine, IEEE Transactions on Neural Networks 21(1): 158–
162.
Minhas, R., Mohammed, A. e Wu, Q. (2012). Incremental learning in human action recognition
based on snippets, IEEE Trans. on Circuits and Systems for Video Technology 22(11): 1529
–1541.
Nguyen, N. N. e Quek, C. (2010). Stock price prediction using Generic Self-Evolving Takagi-
Sugeno-Kang (GSETSK) fuzzy neural network, International Joint Conference on Neural
Networks, IEEE, pp. 1–8.
Pedrycz, W. (1993). Fuzzy neural networks and neurocomputations, Fuzzy Sets and Systems
56(1): 1–28.
Pedrycz, W., Lam, P. e Rocha, A. (1995). Distributed fuzzy system modeling, Systems, Man
and Cybernetics 25(5): 769 – 780.
Pouzols, F. e Lendasse, A. (2010a). Evolving fuzzy optimally pruned extreme learning machine:
A comparative analysis, IEEE International Conference on Fuzzy Systems, pp. 1–8.
Rong, H., Sundararajan, N., Huang, G. e Saratchandran, P. (2006). Sequential adaptive fuzzy
inference system (safis) for nonlinear system identification and prediction, Fuzzy Sets and
Systems 157(9): 1260–1275.
Rosa, R., Gomide, F. e Ballini, R. (2013a). Evolving hybrid neural fuzzy network for system
modeling and time series forecasting, International Conference on Machine Learning and
Applications, Vol. 2, pp. 378–383.
Rosa, R., Gomide, F. e Ballini, R. (2013b). Rede neuro-fuzzy evolutiva com neurônios ba-
seados em uninormas para previsão de séries temporais, Simpósio Brasileiro de Automação
Inteligente, Vol. 1, pp. 1–6.
Rosa, R., Gomide, F., Dovzan, D. e Skrjanc, I. (2014). Evolving neural network with extreme
learning for system modeling, IEEE Conference on Evolving and Adaptive Intelligent Systems,
Vol. 1, pp. 1–7.
Rosa, R., Maciel, L., Gomide, F. e Ballini, R. (2014). Evolving hybrid neural fuzzy network
for realized volatility forecasting with jumps, IEEE Computational Intelligence for Financial
Engineering & Economics, Vol. 1, pp. 1–8.
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and
organization in the brain, Psychological Review 65(6): 386–408.
Rumelhart, D. E., McClelland, J. L. e PDP Research Group, C. (eds) (1986). Parallel Distributed
Processing: Explorations in the Microstructure of Cognition, Vol. 1: Foundations, MIT Press,
Cambridge, MA, USA.
96 Bibliografia
Sadeghi-Tehran, P., Cara, A., Angelov, P., Pomares, H., Rojas, I. e Prieto, A. (2012). Self-
evolving parameter-free rule-based controller, IEEE International Conference on Fuzzy Sys-
tems, pp. 1–8.
Schürmann, J. (1996). Pattern Classification: A Unified View of Statistical and Neural Appro-
aches, John Wiley & Sons, Inc., New York, NY, USA.
Song, Y., Crowcroft, J. e Zhang, J. (2012). Automatic epileptic seizure detection in eegs based
on optimized sample entropy and extreme learning machine, Journal of Neuroscience Methods
210(2): 132 – 146.
Takagi, T. e Sugeno, M. (1985). Fuzzy identification of systems and its applications to modeling
and control, IEEE Transactions on Systems, Man and Cybernetics SMC-15(1): 116–132.
Wang, W., Li, D. Z. e Vrbanek, J. (2012). An evolving neuro-fuzzy technique for system state
forecasting, Neurocomputing 87(0): 111–119.
Wang, W., Lu, W., Leung, A., Lo, S.-M., Xu, Z. e Wang, X. (2002). Optimal feed-forward
neural networks based on the combination of constructing and pruning by genetic algorithms,
Proceedings of the 2002 International Joint Conference on Neural Networks, Vol. 1, pp. 636–
641.
Xu, Y., Dong, Z., Zhao, J., Zhang, P. e Wong, K. (2012). A reliable intelligent system for
real-time dynamic security assessment of power systems, IEEE Trans. on Power Systems
27(3): 1253 –1263.
Bibliografia 97
Yager, R. e Filev, D. (1994a). Approximate clustering via the mountain method, IEEE Trans.
on Systems, Man and Cybernetics 24(8): 1279 –1284.
Yager, R. e Rybalov, A. (1996). Uninorm aggregation operators, Fuzzy Sets and Systems
80(1): 111–120.
Yao, X. (1999). Evolving artificial neural networks, Proceedings of the IEEE 87(9): 1423–1447.
Zadeh, L. (1965). Fuzzy sets, Information and Control 8(3): 338 – 353.
Zadeh, L. A. (1973). Outline of a new approach to the analysis of complex systems and decision
processes, Systems, Man and Cybernetics, IEEE Transactions on SMC-3(1): 28–44.