Você está na página 1de 49

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/276279246

Redes Neurais da família ART

Technical Report · January 2010


DOI: 10.13140/RG.2.1.4033.4247

CITATIONS READS

0 743

2 authors:

K. Nose-Filho Anna Diva P. Lotufo


Universidade Federal do ABC (UFABC) São Paulo State University
38 PUBLICATIONS   225 CITATIONS    58 PUBLICATIONS   658 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

APLICAÇÃO DE SISTEMAS IMUNOLÓGICOS ARTIFICIAIS PARA BIOMETRIA FACIAL: RECONHECIMENTO DE IDENTIDADE BASEADO NAS CARACTERÍSTICAS DE PADRÕES
BINÁRIOS View project

All content following this page was uploaded by K. Nose-Filho on 15 May 2015.

The user has requested enhancement of the downloaded file.


Campus de Ilha Solteira

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

“Estudos especiais I – Redes Neurais da família ART ”

Kenji Nose Filho

Orientadora: Profa. Dra. Anna Diva P. Lotufo

Estudos especiais I apresentado à


Faculdade de Engenharia - UNESP –
Campus de Ilha Solteira

Ilha Solteira – SP
Junho/2010
1. Objetivo 02

2. Resumo 02

3. Redes neurais artificiais 03

3.1. Introdução a redes neurais artificiais 03

3.2. O neurônio artificial 05

3.3. Redes perceptron multicamadas (MLP – Multi Layer Perceptron ) 09

3.4. Algoritmo backpropagation 11

4. Redes neurais da família ART 13

4.1. Introdução a redes da família ART 13

4.2. Operadores lógicos fuzzy AND/OR 16

4.3. Rede ART fuzzy 17

4.4. Rede ARTMAP fuzzy 22

4.5. Redes neurais da família ART 25

4.6. Aplicações recentes utilizando redes da família ART 31

4.7. Inclusão do treinamento continuado nas redes ART fuzzy e ARTMAP


32
fuzzy

5. Previsão de cargas elétricas utilizando redes ARTMAP e GRNN 35

6. Conclusões
41
7.

8. Referências Bibliográficas 42
2

1. Objetivo

O objetivo principal deste trabalho é o estudo dos principais conceitos e estruturas das
redes neurais da família ART.

2. Resumo

As redes neurais da família ART (Adaptive Ressonance Theory) são de grande


importância para a resolução de problemas complexos como o reconhecimento e a
classificação de padrões, previsão de séries temporais, robótica, etc., tendo em vista de
proporcionarem respostas rápidas e suficientemente precisas nestes tipos de aplicações. Tais
requisitos são contemplados baseados no dilema da estabilidade, onde sempre há garantia da
obtenção de uma solução e da plasticidade, propriedade da inclusão do treinamento
continuado. Antes de estudar as redes neurais da família ART, serão vistos os principais
conceitos de redes neurais artificiais.
O capítulo 3 é referente às redes neurais artificiais. Na seção 3.1 é feito uma breve
introdução. Na seção 3.2 são abordados os principais conceitos a respeito do neurônio
artificial e das primeiras RNAs como o perceptron e a ADALINE. Na seção 3.3 é descrito a
estrutura de uma rede perceptron multicamadas (MLP) e na seção 3.4 é descrito um dos
algoritmos mais utilizados para o treinamento de redes MLP, o algoritmo backpropagation.
O capítulo 4 é referente às redes neurais da família ART. Na seção 4.1 é feito uma breve
introdução. Na seção 4.2, são introduzidos os operadores lógicos fuzzy AND/OR utilizados
nas redes ART fuzzy e ARTMAP fuzzy, estas redes são descritas com detalhes nas seções 4.3
e 4.4 respectivamente. Na seção 4.5 são descritas as redes da família ART estudadas. Na
seção 4.6 são citadas aplicações recentes utilizando as redes da família ART e na seção 4.7 é
referente à inclusão do treinamento continuado nas redes ART fuzzy e ARTMAP fuzzy.
O capitulo 5 é referente à aplicação de uma rede ARTMAP fuzzy e uma GRNN para a
previsão de cargas.
3

3. Redes neurais artificiais

3.1. Introdução a redes neurais artificiais

As redes neurais artificiais (RNAs) (Haykin, 2008) têm como característica principal
“simular” o funcionamento do cérebro humano, reproduzindo artificialmente a maneira como
os estímulos são processados por nossos neurônios. As RNAs com seus mecanismos de
associação, generalização e auto-organização conquistaram o seu espaço dentro do mundo
moderno.
O primeiro neurônio artificial foi descrito por McCulloch e Pitts em 1943 (McCulloch e
Pitts, 1943). Em 1958, Rosemblatt apresentou o seu trabalho sobre o perceptron (Rosemblatt,
1958), uma das primeiras RNAs, com apenas um neurônio e aprendizagem supervisionada.
Logo após em 1960, Widrow e Hoff desenvolveram o algoritmo do mínimo quadrado médio
(LMS, Least Mean-Square) (Widrow e Hoff, 1960) e com este deram origem ao elemento
linear adaptativo (Adaline, Adaptive linear element). Logo após Widrow propôs a estrutura
múltipla (Madaline, Multiple adaline). Nos anos 70 surgiram vários trabalhos a respeito dos
mapas auto-organizáveis utilizando aprendizagem competitiva, com os trabalhos pioneiros de
Willshaw e von der Marslburg (Willshaw e Marslburg, 1976). Em 1976 surgem os primeiros
trabalhos de Grossberg a respeito da teoria da ressonância adaptativa (ART, Adaptive
Ressonance Theory) (Grossberg, 1976a, 1976b). No início dos anos 80 surgiram as redes de
Hopfield (Hopfield, 1982) e os mapas auto-organizáveis de Kohonen (Kohonen, 1982). Em
1985 surgiu a máquina de Boltzmann (Ackley et al., 1985), trabalho desenvolvido por Ackley,
Hinton e Sejnowski, um exemplo de RNA de múltiplas camadas bem sucedido na época. Em
1986 Rumelhart, Hinton e Willians apresentaram o algoritmo retro-propagação
(backpropagation) (Rumelhart et al. 1986), primeiramente proposto por Werbos em 1974
(Werbos, 1974). O backpropagation é um dos algoritmos mais utilizados até hoje, inclusive
como padrão de referência. Em 1987 Grossberg apresenta a sua primeira rede baseada na
teoria da ressonância adaptativa, conhecida como ART1 (Grossberg, 1987).
Nos últimos 20 anos, várias outras redes foram desenvolvidas, novos algoritmos de
treinamento surgiram e o uso de técnicas híbridas vem sido bastante estudado. Como
exemplos estão as redes de função de base radial (RBF, Radial Basis Function Neural
Network) (Moody e Darken, 1989), a rede probabilística (PNN, Probabilistic Neural
Network), a rede de regressão generalizada (GRNN, General Regression Neural Network)
4

introduzidas por Specht (Specht, 1990, 1991), as redes ART fuzzy, ARTMAP e ARTMAP
fuzzy, desenvolvidas por Carpenter et al. (Carpenter et al., 1991a, 1991b, 1992), o sistema de
inferência fuzzy com aprendizagem baseada nas RNAs (ANFIS , Adaptive Neuro-Fuzzy
Inference System) (Jang, 1993), e vários outros sistemas não menos importantes.
Nas ultimas décadas vários trabalhos têm sido propostos utilizando RNAs e suas
aplicações em previsões de séries temporais, aproximação de funções, reconhecimento de
padrões, classificação, mapeamento e outros, fazem com que as RNAs sejam utilizadas nas
três grandes áreas do conhecimento: biológicas, exatas e humanas. Pesquisas recentes vêm
aplicando as RNAs em diagnósticos médicos, mapeamento do genoma humano, previsão do
tempo, previsão de demanda de energia elétrica, previsão de preços de energia elétrica,
classificação e detecção de faltas nos sistemas de energia elétrica, classificação de
consumidores do setor elétrico, classificação de consumidores de lojas de varejo, entre outros.
As RNAs podem ser programadas tanto em hardwares quanto em softwares. Graças ao
grande avanço tecnológico é possível programar RNAs em circuitos RLC, FPGAs (Field
Programmable Gate Array), microprocessadores, circuitos integrados utilizando tecnologia
CMOS (Complementary Metal Oxide Semiconductor) (Oki, 1998), (Lucks e Oki, 1999), entre
outros.

Em geral as RNAs podem ser classificadas em recorrentes ou não recorrentes. As redes


recorrentes possuem laços de realimentação, ou seja, a saída dos neurônios de determinadas
camadas realimentam a entrada desta mesma camada ou de camadas anteriores.. As redes não
recorrentes, também conhecidas como feedforward não possuem laços de realimentação, ou
seja, a saída dos neurônios de uma camada só alimenta a entrada dos neurônios da camada
seguinte.

A aprendizagem das redes neurais artificiais ocorre na fase de treinamento (Wasserman,


1989). O treinamento realiza o ajuste dos pesos e bias, responsáveis pelo armazenamento de
informações. O treinamento pode ser supervisionado ou não supervisionado. O treinamento
supervisionado é um treinamento que utiliza os padrões de entrada e saídas desejadas. Já o
treinamento não supervisionado é um treinamento que utiliza somente os padrões de entrada,
em geral trata-se de um processo auto-organizável. Além disso, o treinamento pode ser “on-
line” ou “off-line”. No treinamento “on-line” ou treinamento por padrão de entrada os pesos
são atualizados para cada padrão de entrada. No treinamento “off-line” ou treinamento por
lote o ajuste dos pesos ocorre após a apresentação de todos os padrões de entrada do lote de
treinamento.
5

3.2. O neurônio artificial

O primeiro neurônio artificial descrito por McCulloch e Pitts em 1943 (McCulloch e Pitts,
1943) visa a interpretação de estímulos, gerados por dados de entrada, que resultam em uma
resposta. Esta resposta é a saída de uma função (linear ou não linear), denominada função de
ativação, cuja entrada é a composição linear dos dados de entrada multiplicados por “pesos”
somados a um elemento denominado “bias” com peso unitário. Este neurônio pode ser
descrito através da figura 3.2.1.

Entradas Bias Saída

B
X1 W1

X2 W2 1

X3 W3

∑ y F(.) Y

Xn Wn

Figura 3.2.1. Neurônio artificial de McCulloch e Pitts.

Sendo:
X1, X2, ... , Xn – são as entradas;
W1, W2, ... , Wn – são os pesos correspondentes;
B – é o bias que é o elemento de soma auxiliar;
y – é o elemento intermediário dado por (3.2.1);
F(.) – é a função linear ou não linear;
Y – é a saída dado por (3.2.2).

(3.2.1)

(3.2.2)

As funções de ativação mais utilizadas são as funções: linear, relé, sigmóide 1 e 2 e


gaussiana, dadas por (3.2.3)-(3.2.7), respectivamente (Haykin, 2008).
6

Função linear

(3.2.3)

Sendo:

α – Coeficiente linear.

Função relé

(3.2.4)

Função sigmóide 1

(3.2.5)

Sendo:

λ – Coeficiente que determina a abertura da função sigmóide.

Função sigmóide 2

(3.2.6)

Função gaussiana

(3.2.7)
7

A figura 3.2.2 exprime o comportamento de cada uma das funções acima descritas.

5 1 1

0.5 0.5
F(y)

F(y)

F(y)
0 0 0

-0.5 -0.5

-5 -1 -1
-5 0 5 -5 0 5 -5 0 5
y y y

a) b) c)

1 1

0.8 0.8

0.6 0.6
F(y)

F(y)

0.4 0.4

0.2 0.2

0 0
-5 0 5 -5 0 5
y y

\
d) e)

Figura 3.2.2. Funções de ativação, a) função linear, b) função relé, c) função sigmóide 1, d) função sigmóide 2 e
e) função gaussiana.

Com base neste neurônio Rosemblatt propôs o perceptron (Rosemblatt, 1958), cuja
característica principal é a classificação de conjuntos linearmente separáveis, seu treinamento
é do tipo supervisionado, o ajuste dos pesos e bias é feito através do cálculo do erro entre a
saída produzida pelo perceptron e a saída desejada. A função de ativação utilizada é a função
relé dada por (3.2.4), o ajuste dos pesos é dado por (3.2.8) e o cálculo do erro é dado por
(3.2.9).

Outra rede, baseada em um único neurônio, é a rede ADALINE, proposta por Widrow e
Hoff que utiliza o algoritmo LMS (Least mean square) (Widrow and Hoff, 1960), a diferença
entre o perceptron e o ADALINE ocorre no ajuste dos pesos e bias, sendo que no ADALINE,
o erro é calculado tomando-se a saída intermediária da rede. A adaptação dos pesos é dada por
(3.2.8), mas o erro é dado por (3.2.10). A função de ativação desta rede é a mesma do
perceptron.
8

(3.2.8)

Sendo:

W – Vetor de pesos, dado por [W1 W2 ... Wn B];

X – Vetor de entrada, dado por [X1 X2 ... Xn 1];

n – Número de entradas da rede;

W(k) – Vetor de pesos da iteração k;

W(k+1) – Vetor de pesos da iteração k+1 (vetor de pesos atualizado);

X(k) – Vetor de entrada;

β – Taxa de aprendizagem [0 1];

ε(k) – Erro;

k – índice de iteração do processo adaptativo.

(3.2.9)

Sendo:

ε(k) – Erro produzido pela saída da rede Y(k) com a saída desejada D(k), dado por (5).

(3.2.10)

Sendo:

ε(k) – Erro produzido pela saída intermediaria da rede y(k) com a saída intermediaria desejada
d(k).
9

3.3. Redes perceptron multicamadas (MLP – Multi Layer Perceptron )

As redes perceptron multicamadas são estruturas compostas por vários perceptrons


dispostos em várias camadas (Haykin, 2008). Estas camadas são denominadas: camada de
entrada, camadas intermediárias ou escondidas e camada de saída. As camadas intermediárias
podem ser compostas por mais de uma camada. As camadas de entrada e intermediárias
possuem um número independente de neurônios, somente a camada de saída possui um
número de neurônios fixo que deve ser igual ao número de saídas da rede.

A figura 3.3.1 ilustra a estrutura de uma rede perceptron multicamadas do tipo


feedforward com 3 camadas.

Camada de Camada Camada de


Entradas Intermediária Saída
entrada Saída
(Escondida)

W01
1

X1 W11 ∑ F1(.)
U01
U11
W12
1 ∑ F2(.) 1
W13 U12

V11
W02 V01
W21
U21
X2 W22 ∑ F1(.) 1 ∑ Fn(.) Y
U22
W23
U02 V21
1
W31 U31
∑ F2(.)
W32 W03

U32
X3 W33 ∑ F1(.)

Figura 3.3.1. Rede neural artificial perceptron multicamadas, com 3 camadas, com 3 entradas, 3neurônios na
camada de entrada, 2 neurônios na camada intermediaria e uma saída.

O número de pesos, bias e funções de ativação são determinados através do número de


entradas, do número de saídas, do número de camadas e do número de neurônios por camada.
10

Sendo:

ne – número de entradas;

ns – número de saídas;

m – número de camadas, sendo m-2 o número de camadas intermediárias;

ni – número de neurônios de cada camada, i=1,2, ...,m.

Tem-se que a matriz de pesos e bias de cada camada é definida por:

 Matriz de pesos e bias da camada de entrada (i=1): ne+1 linhas e n1 colunas.


 Matrizes de pesos e bias das camadas intermediárias (i=2, ..., m-1): ni-1+1 linhas e ni
colunas.
 Matriz de pesos e bias da camada de saída (i=m): nm-1 linhas e ns colunas.

Os elementos da primeira linha de cada matriz representam os bias e as demais linhas


representam os pesos de cada camada.

Cada camada pode ter uma função de ativação Fi diferente e possui um número de
funções de ativação igual ao número de neurônios desta camada.

Quanto ao treinamento de redes MLP feedforward, existem vários algoritmos propostos


na literatura, sendo o mais comum, o algoritmo backpropagation que visa o ajuste dos pesos e
bias através do gradiente descendente (algoritmo de 1ªordem) (Werbos, 1974). Além deste,
existem outros algoritmos de ordem elevada como o algoritmo de Levenberg-Marquardt
(Hagan e Mehnaj, 1994) e quase-Newton (algoritmos de 2ªordem).
11

3.4. Algoritmo backpropagation

Este algoritmo visa o ajuste dos pesos e bias das redes MLP de forma a minimizar a
função erro através do gradiente descendente desta função. O treinamento se dá por encerrado
quando um número máximo de iterações (épocas) é atingido ou o valor do módulo do
gradiente da função erro é menor que um parâmetro pré-especificado.
A função erro ou função desempenho, mais utilizada em redes MLP via backpropagation
é a função MSE (Mean Squared Error) dada por (3.4.1) (Haykin, 2008). De forma geral, o
ajuste dos pesos e bias é dado por (3.4.2).

(3.4.1)

Sendo:

– Saída do i-ésimo neurônio da camada de saída;

– Média das saídas desejadas;

– Número de saídas provenientes da camada de saída.

(3.4.2)

Sendo:

Wjk+1 – Vetor de pesos da coluna j da matriz de pesos e bias da camada W;

x – vetor de entradas relacionadas à camada W;

β – taxa de aprendizagem;

δj – pode ser calculado por (3.4.3) se W for a ultima camada ou por (3.4.4) para as demais camadas;

nw – número de neurônios da camada W.

(3.4.3)
Sendo:
– derivada da função de ativação da camada W;
– Erro, dado por (3.2.9).
(3.4.4)

Sendo:
– derivada da função de ativação da camada W;
– peso da camada U, que liga o neurônio j da camada W ao neurônio k da camada U.
12

Este algoritmo tem este nome, pois o ajuste dos pesos e bias é realizado na direção
contrária ao cálculo da saída, o primeiro ajuste ocorre nos pesos e bias da última camada e a
partir destes os demais reajustes são realizados.
Inicialmente os pesos e bias são determinados de modo aleatório, com valores entre [0 1].
O treinamento das redes MLP via backpropagation é do tipo supervisionado e pode ser
efetuado de duas formas (Minussi e Silveira, 1995). O treinamento pode ser efetuado
realizando-se uma iteração para cada padrão de entrada (treinamento “on-line” ou treinamento
por padrão) ou uma iteração após a apresentação de todos os padrões de entrada do lote de
treinamento (treinamento “off-line” ou treinamento por lote), onde uma iteração consiste em
um ajuste dos pesos e bias.
Apesar de ser um algoritmo bastante utilizado, o algoritmo backpropagation apresenta
dois grandes problemas, o da alta probabilidade em se cair em mínimos locais e a paralisia da
rede (Krose e Smagt, 1996).
As maiorias das redes MLPs envolvem funções de ativação do tipo sigmóide em pelo
menos uma de suas camadas, estas funções fazem com que a função erro apresente vários
mínimos locais. Um dos critérios de parada do algoritmo backpropagation se dá quando o
valor do módulo do gradiente da função erro é menor que um parâmetro pré-especificado,
neste caso a função erro cai em um mínimo e a probabilidade deste ser um mínimo local é
alta.
A paralisia da rede se dá quando o estímulo produzido na entrada da função de ativação
(sigmóide) é muito elevado, ocasionando em uma derivada de valor aproximadamente nulo,
sendo assim, o ajuste do peso dado por (3.4.2) é praticamente nulo, pois depende da derivada
da função de ativação.
Existem vários algoritmos derivados deste que apresentam um melhor desempenho,
tentando evitar os mínimos locais e a paralisia da rede através do ajuste dinâmico de alguns
parâmetros do treinamento e das funções sigmóides. Entre eles estão:
 Algoritmo backpropagation com momento (Widrow e Lehr, 1990)
 Algoritmo backpropagation com taxa de aprendizagem adaptativa
 Algoritmo backpropagation com momento e taxa de aprendizagem adaptativa
 Algoritmo backpropagation com momento e ajuste da taxa de treinamento através de
lógica fuzzy (Lopes et al., 2000)
 Algoritmo backpropagation com ajuste dinâmico dos parâmetros de inclinação e
translação da função sigmóide (Lopes et al., 2003)
13

4. Redes neurais da família ART

4.1. Introdução a redes da família ART

A rede ART (Adaptive Ressonance Theory ou Teoria da Ressonância Adaptativa) foi


primeiramente introduzida por Grossberg em 1976 (Grossberg, 1976a, 1976b). Esta rede se
baseia na teoria da ressonância adaptativa para simular o processo de aprendizagem do
cérebro humano (Grossberg, 1980).

A teoria da ressonância adaptativa tenta explicar a maneira de como nosso cérebro


processa e categoriza informações na medida em que nos são apresentadas novas
informações. Esta rede lida com o dilema da estabilidade/plasticidade que é a capacidade de
aprender novas informações sem que as informações passadas sejam perdidas e isto tem que
ser feito de forma a não afetar na estabilidade do sistema. A estabilidade, que é a capacidade
do sistema permanecer estável em resposta a informações já aprendidas, é garantida através
do processo de adaptação dos pesos, que tendem ao valor mínimo entre a entrada da rede e o
peso a ser atualizado. Já a plasticidade, que é a capacidade da rede de aprender sem perder
tudo aquilo que foi aprendido anteriormente é garantida através da ativação de novas
categorias.

As principais redes desta família são as redes ART1, ARTMAP, ART fuzzy e ARTMAP
fuzzy (Grossberg, 1987), (Carpenter et al., 1991a, 1991c 1992). As redes ART1 e ART fuzzy
são redes com treinamento não supervisionado, e as redes ARTMAP e ARTMAP fuzzy são
redes com treinamento supervisionado. As redes ART1 e ARTMAP se diferem das redes
ART fuzzy e ARTMAP fuzzy por processarem apenas dados binários enquanto que as outras
duas processam tanto dados binários quanto analógicos. A diferença em seus algoritmos é que
nas redes ART fuzzy e ARTMAP fuzzy são utilizados os operadores lógicos fuzzy AND/OR e
nas redes ART1 e ARTMAP são utilizados os operadores lógicos binários AND/OR.

O processo de treinamento das redes da família ART é um processo de treinamento “on-


line” onde os pesos são ajustados a cada apresentação dos padrões de entrada. Diferentemente
das redes MLP via backpropagation submetidas a treinamento “on-line”, as redes da família
ART não correm o risco de desestabilizar a saída para padrões de entrada já aprendidos
(Grossberg, 1987).
14

A rede ART pode ser descrita por um sistema composto de dois subsistemas, um
subsistema de atenção e um subsistema de orientação (Grossberg, 1987).

O subsistema de atenção é composto por duas camadas denominadas F1 e F2, cada


camada contêm neurônios responsáveis pela comparação e o reconhecimento de padrões,
respectivamente. Estes neurônios são interconectados por pesos, denominados de memória de
longo prazo (LTM – Long Term Memory). Estes neurônios produzem atividades denominadas
de memória de curto prazo (STM – Short Term Memory). As camadas F1 e F2 são conectadas
pelos pesos LTM e esta conexão pode ser de F1 para F2 e de F2 para F1, como pode ser visto
através da figura 4.1.1.

Subsistema de Subsistema de
atenção orientação

F2 STM

reset

LTM

LTM

F1 STM
ρa

Figura 4.1.1. Arquitetura simplificada de uma rede ART1.

O subsistema de orientação serve para estabilizar a aprendizagem do sistema, permitindo


que a rede aprenda sem esquecer o conhecimento já adquirido. Este subsistema é responsável
por dizer se houve ou não ressonância e pelo sinal de “reset”.

A rede ART armazena informações em forma de categorias, o número de neurônios na


camada F1 e F2 são iguais ao número máximo de categorias que o sistema é capaz de
armazenar. Para cada categoria, existe um vetor peso associado a ela. Uma categoria é dita
ativa quando o vetor peso associado a ela armazena informações de padrões já apresentados à
rede. Uma categoria é dita inativa se possui a ela atribuída um vetor peso inalterado, as
categorias inativas correspondem à memória “em branco” da rede.
15

Alguns parâmetros são de extrema importância no processo de classificação e


aprendizagem das redes neurais da família ART. Estes parâmetros são: o parâmetro de
escolha (α), o parâmetro de vigilância (ρ) e o parâmetro de taxa de treinamento (β).

 Parâmetro de escolha (α > 0) – Parâmetro que define a ordem de busca das atividades
em F2.
 Parâmetro de vigilância (ρ E [0 1]) – Parâmetro que define a seletividade do sistema,
quanto mais próximo de um, mais seletivo será o sistema.
 Parâmetro de taxa de treinamento (β Ε [0 1]) – Parâmetro que define a velocidade em
que os pesos são reajustados, para β=1 o treinamento é considerado rápido.

A classificação de padrões nas redes ART1 é dada em quatro etapas, reconhecimento,


comparação, busca e aprendizagem (Grossberg, 1987). Para melhor ilustrar cada etapa, será
feito um exemplo, considerando I um vetor de entrada contendo n elementos, X a atividade da
camada F1 (STM em F1), Y o vetor de atividades da camada F2 (STM em F2) contendo m
elementos, W a matriz de pesos (LTM) contendo m linhas e n colunas, sendo m o número
máximo de categorias.

 Reconhecimento – Etapa que ocorre na camada F2. O vetor I com os vetores linha da
matriz W gera estímulos em F2. A atividade YJ é então selecionada e corresponde ao
maior estímulo gerado pelo vetor linha WJ e o vetor I.
 Comparação – Etapa que ocorre na camada F1. O vetor I é comparado com o vetor
linha WJ, gerando a atividade X, se X for maior que ρ, então o neurônio J é ativado,
ocorre a ressonância, e passa-se para a fase de aprendizagem (adaptação do pesos),
caso contrário, entra-se na fase de busca até que ocorra a ressonância.
 Busca – Quando não ocorre a ressonância, ocorre o reset, o estímulo produzido pelo
vetor linha WJ com I é zerado e uma nova atividade YJ’ é selecionada.
 Aprendizagem – Quando ocorre a ressonância, ocorre o ajuste dos pesos do vetor linha
WJ. Nesta fase se β=1 os pesos são ajustados em um único ciclo, para β<1 são
necessários mais de um ciclo para o ajuste dos pesos. Existem vantagens e
desvantagens para cada um dos casos, para β=1, a rede é capaz de aprender em apenas
um ciclo a respeito de eventos raros, porém para os eventos comuns esta pode não ser
a melhor solução, sendo preferível utilizar nestes casos β<1. Porém, no caso de se
utilizar β<1, mais ciclos de treinamento serão necessários, tornando assim o processo
de aprendizagem mais lento.
16

4.2. Operadores lógicos fuzzy AND/OR

Os operadores lógicos fuzzy AND/OR (Carpenter et al., 1991c), denotados por ⋀ e ⋁,


respectivamente, são capazes de realizar operações com números analógicos, diferentemente
dos operadores lógicos binários AND/OR, denotados por ∩ e U, respectivamente. O operador
lógico fuzzy AND realiza a operação mín. e o operador lógico fuzzy OR realiza a operação
máx. Para melhor compreender estes operadores será realizada a operação mín. e máx. entre
dois números.

Seja u=0,2 e v=0,5:

⋀ í í (4.2.1)

⋁ á á (4.2.2)

Se u e v forem dois pontos no R2, u=[0,1 0,9] e v=[0,8 0,3], então:

⋀ í í í í (4.2.3)

⋁ á á á á (4.2.4)

No R2 os pontos u, v, u⋀v e u⋁v, formam um retângulo, dado pela figura 4.2.1, este
retângulo é denominado hiper-retângulo.

11 uu u⋁v
u⋁v

u⋀v
u⋀v vv

11

Figura 4.2.1 Representação geométrica do hiper-retângulo formado pelos pontos u, v, uv e uv.
17

4.3. Rede ART fuzzy

A rede ART fuzzy é capaz de realizar a classificação de dados binários e analógicos


devido à substituição do operador lógico binário AND, utilizado na rede ART1, pelo operador
lógico fuzzy AND (Carpenter et. al., 1991c). A representação das categorias nas redes ART
fuzzy é dada por hiper-retângulos. Em comparação com a rede ART1, esta rede possui uma
camada adicional denominada F0 onde ocorre a normalização do vetor de entrada e a
execução do código complemento. Estas duas etapas são necessárias para evitar a proliferação
de categorias e para preservar a amplitude da informação. A arquitetura desta rede é dada pela
figura 4.3.1.

ART

F2
reset

Wj

F1
ρ

A AC

Normalização e
F0 Código
Complemento

Figura 4.3.1 Arquitetura da rede ART fuzzy.

A classificação e aprendizagem dos padrões nas redes ART fuzzy é dada basicamente em
seis etapas: normalização do vetor de entrada, execução do código complemento,
reconhecimento, comparação (teste de vigilância), busca e aprendizagem.
18

Antes de descrever o processo de classificação de padrões nas redes ART fuzzy, serão
definidos cada um dos elementos que a compõem.

Sendo:

– Parâmetro de escolha >0.

– Parâmetro de vigilância [0 1].

– Parâmetro de taxa de treinamento [0 1].

– Número máximo de categorias.

– vetor de entrada M-dimensional.

– vetor de atividades no campo F2.

– matriz de pesos.

Inicialmente realiza-se a leitura dos parâmetros iniciais α, ρ, β e Nc. Feito isso, deve-se
inicializar os pesos da rede, estes são inicializados todos iguais a um, conforme (4.3.1):

(4.3.1)

Cada linha j da matriz W (vetor linha Wj) representa uma categoria, cada categoria é então
um vetor representado geometricamente por hiper-retângulos. Na ressonância o vetor Y
representa a categoria ativada por A.

Realizada a leitura dos parâmetros e a inicialização dos pesos, passa-se para a fase de
classificação e aprendizagem.

Normalização do vetor de entrada – A normalização (4.3.2) é um processo que


padroniza todos os elementos do vetor de entrada A para que fiquem dentro de uma faixa de
valores compreendidos entre 0 e 1. Isto é necessário para evitar a proliferação de categorias
(Carpenter et al. 1991c). Existem vários tipos de normalizações que podem ser efetuadas
através do uso de diferentes normas, dentre eles está a normalização pela norma do máximo
(4.3.3), a normalização pela norma da soma (4.3.4) e a normalização pela norma euclidiana
(4.3.5), definidos pelos operadores , respectivamente.
19

(4.3.2)

(4.3.3)

(4.3.4)

(4.3.5)

A norma utilizada em Carpenter et al. (1991c) é a norma da soma, toda vez que aparecer a
norma subtende-se que seja a norma da soma.

Código complemento – o código complemento serve para preservar a amplitude da


informação do vetor de entrada A, este código gera um vetor I, 2M-dimensional, definido por
(4.3.6).

(4.3.6)

Sendo:

- Vetor complemento de A, definido por (4.3.7)

(4.3.7)

Reconhecimento – Esta etapa é responsável pelo reconhecimento dos estímulos


produzidas no campo F2, para isto calculam-se os elementos do vetor T através de uma
função denominada função de escolha. Existem diversas funções de escolha, como as
definidas em Carpenter e Gjaja (1994). A mais utilizada é a função de escolha pela lei de
Weber (Carpenter e Grossberg, 1987), descrita por (4.3.8).

⋀ (4.3.8)

Outras funções possíveis, definidas em Carpenter e Gjaja (1994), são as funções de


escolha por proporção (4.3.9), por intersecção (4.3.10) e por diferença (4.3.11).
20

⋀ (4.3.9)

⋀ (4.3.10)

⋀ ⋁ (4.3.11)

A categoria J é escolhida conforme (4.3.12).

(4.3.12)

Os elementos do vetor Y são dados por (4.3.13).

(4.3.13)

Comparação – Esta fase define se ocorre ou não a ressonância entre o vetor I e a


categoria WJ, caso ocorra, segue-se para a fase de aprendizagem, caso contrário entra-se na
fase de busca.

A ressonância ocorre se for satisfeita a condição dada por (4.3.14), caso contrário, entra-se
na fase de busca.

⋀ (4.3.14)

Busca – Nesta fase, zera-se o elemento TJ (reset), e escolhe-se outra categoria, calculam-
se novamente os elementos de Y e passa-se para a fase de comparação. Este processo se repete
até ocorrer a ressonância.

Aprendizagem – Nesta etapa é realizada a adaptação dos pesos da categoria J, dada por
(4.3.15).

⋀ (4.3.15)

O algoritmo desta rede é descrito pelo fluxograma da figura 4.3.2.


21

leitura dos parâmetros


iniciais α, ρ, β e Nc

Inicialização dos pesos.


Wj =1

Leitura do padrão de
entrada A
Normalização e Código
complemento

Normalização e Código
Complemento

Reconhecimento
Escolha da categoria
através da função de
escolha

TJ=máx{Tj: j=1,...,N}

YJ=1

Yj=0 para j≠J

Aprendizagem

Teste de vigilância
Sim Não TJ=0

Comparação Busca

Figura 4.3.2. Fluxograma do algoritmo de classificação da rede ART fuzzy.


22

4.4. Rede ARTMAP fuzzy

A rede ARTMAP fuzzy é capaz de realizar o treinamento supervisionado de dados


binários e analógicos através da pré-classificação dos dados de entrada e saída em categorias.
Esta rede é composta por dois módulos ART e um módulo inter-ART (Carpenter ET. al.
1992).

Os módulos ART são denominados ARTa e ARTb, cada um é responsável pela pré-
classificação dos dados de entrada e saída respectivamente. O módulo inter-ART realiza a
conexão entre as categorias de entrada e as categorias de saída. A arquitetura desta rede é
dada pela figura 4.4.1.

inter-ART

Fab

Wjab

Xab

ARTa ARTb

F2a ρab F2b


reset reset

Wja Wkb

F1a F1b
ρa ρb

match-tracking

A AC B BC

Normalização e Normalização e
F0a Código F0b Código
Complemento Complemento

A B

Figura 4.4.1 Arquitetura da rede ARTMAP fuzzy.

Antes de descrever o seu funcionamento, serão descritos os elementos que compõem uma
rede ARTMAP fuzzy.
23

Sendo:

– Parâmetro de escolha >0.

– Parâmetro de vigilância dos módulos ART a, ARTb e inter-ART respectivamente [0 1].

– Parâmetro de taxa de treinamento [0 1].

– Taxa de incremento do parâmetro de vigilância do módulo ARTa.

– Número máximo de categorias dos módulos ART a e ARTb respectivamente.

– vetor de entrada Ma-dimensional.

– vetor de entrada Mb-dimensional.

– vetor de atividades no campo F2a.

– vetor de atividades no campo F2b.

– matriz de pesos do módulo ART a.

– matriz de pesos do módulo ART b.

– matriz de pesos do módulo inter-ART.

A aprendizagem da rede ARTMAP fuzzy pode ser descrita basicamente em seis etapas,
normalização dos vetores de entrada e saída, execução do código complemento,
reconhecimento, comparação, busca e aprendizagem. Antes de serem realizadas estas etapas é
realizada a leitura dos parâmetros α, ρa, ρb, ρab, β, ε, Nca, Ncb, feito isto ocorre a inicialização
dos pesos, todos iguais a um. Durante todo o processo, são realizados três processos de
comparação e três processos de busca, um para cada módulo. O processo de comparação e
busca realizado no módulo inter-ART é denominado “match-tracking”, este processo visa a
conexão das categorias ativas no módulo ARTa e ARTb. Todo o processo de aprendizagem
será descrito através do fluxograma da figura 4.4.2.
24

leitura dos parâmetros


iniciais:
α, β, ρa, ρb, ρab, ε, Nca e
Ncb

Inicialização dos pesos:


Waj =1, Wbk =1 e Wabj =1

Leitura dos padrões de


entrada e saída:
Normalização e Código AeB
complemento

Normalização e Código
Complemento

Reconhecimento

Escolha da categoria:

TbK=máx{Tbk : k=1,...,Ncb}

Atividade de F2b:
Teste de vigilância
Sim Não TbK=0

TaJ=máx{Taj : j=1,...,Nca}

Atividade de F2a:
Teste de vigilância
Sim Não TaJ=0

Acréscimo do
parâmetro de vigilância
ρa:

Adaptação dos pesos: “Match-tracking”

Teste de vigilância
Sim Não TaJ=0

Comparação

Aprendizagem
Busca

Figura 4.4.2. Fluxograma do algoritmo de classificação da rede ARTMAP fuzzy.


25

4.5. Redes neurais da família ART

ART1 – Primeira rede neural artificial da família ART, introduzida por Grossberg em
1987, sua principal característica é o treinamento não supervisionado e a capacidade de
reconhecimento de padrões de entrada binários de forma aleatória. (Grossberg, 1987)

ART2 – Rede neural da família ART, com treinamento não supervisionado capaz de
reconhecer padrões de entrada binários e analógicos de forma aleatória. Diferentemente da
rede ART1, a rede ART2 utiliza-se de equações algébricas para a seleção de categorias,
enquanto que a rede ART1 utiliza-se de lógica binária. (Carpenter e Grossberg, 1987).

ART2-A – Rede neural da família ART, derivada da rede ART2 com algoritmo
modificado para exercer o treinamento de forma mais rápida (cerca de 2 a 3 vezes mais rápido
que a rede ART2) mas com a mesma dinâmica, seu treinamento é do tipo não supervisionado
e com capacidade de reconhecer padrões de entrada binários e analógicos de forma aleatória.
(Carpenter et al., 1991b)

ART fuzzy – Rede neural da família ART, derivada da rede ART1, com treinamento não
supervisionado, seu algoritmo foi modificado para reconhecer padrões de entrada binários e
analógicos de forma aleatória. Sua grande diferença com relação à rede ART é que são
utilizados ao invés das operações lógicas binárias AND/OR, os operadores lógicos fuzzy
AND/OR. (Carpenter et al., 1991c)

ARTMAP – Rede neural da família ART, cuja principal característica é o treinamento


supervisionado de padrões de entrada e saída binários. Esta rede conta com dois módulos
ART1 e um módulo denominado inter-ART. Um módulo ART1, denominado ARTa, é
utilizado para a classificação dos padrões de entrada, enquanto o outro, denominado ARTb, é
utilizado para a classificação dos padrões de saída. O módulo inter-ART é responsável pela
conexão entre as categorias criadas pelos módulos ARTa e ARTb. (Carpenter et al., 1991a)

ARTMAP fuzzy – Rede neural da família ART, derivada da rede ARTMAP, cuja
característica principal é o treinamento supervisionado de padrões de entrada e saída binários
26

e/ou analógicos. Isto é feito, substituindo as operações lógicas binárias AND/OR da rede
ARTMAP pelos operadores lógicos fuzzy AND/OR. (Carpenter et al., 1992)

S-ART – Rede neural da família ART, derivada da rede ART2-A, seu algoritmo foi
modificado para acelerar o processo de treinamento da rede ART2-A no modo de treinamento
intermediário, reduzindo o número de apresentações dos padrões de entrada, necessários para
que a rede aprenda de forma eficaz. O treinamento intermediário força o algoritmo a tomar
passos pequenos na direção de cada padrão de entrada, permitindo uma associação de
categorias de forma mais eficaz. Segundo os autores isto pode ser conseguido ajustando-se o
parâmetro de treinamento para 1/P onde P é o número de vezes que o padrão de entrada será
apresentado para a rede. (Taylor e Greenhough, 1994)

Gaussian ARTMAP – Rede neural da família ART, derivada da rede ARTMAP com
treinamento supervisionado de padrões de entrada binários e/ou analógicos. Sua principal
diferença está na função de escolha, baseada na distribuição gaussiana. Resultados
comprovam uma melhor generalização e bom desempenho em ambientes ruidosos quando
comparada com a rede ARTMAP fuzzy. (Williamson, 1996)

RBF-Fuzzy ARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy
com treinamento supervisionado e rápido de padrões de entrada binários e/ou analógicos.
Trata-se de uma rede híbrida que combina a rede de base radial (RBF – Radial Basis
Function) com a rede ARTMAP fuzzy. Foi projetada para contornar os problemas na
classificação de padrões obtidos com a ordem de apresentação dos padrões de entrada. Na
rede ARTMAP fuzzy este problema é bastante comum, pois esta rede possui modo de
treinamento “on-line”, onde os pesos são atualizados na medida em que são apresentados
novos padrões de entrada, já nas redes do tipo base radial, a ordem de apresentação dos
padrões de entrada não interfere muito no seu desempenho, uma vez que o treinamento seja
realizado “off-line”, ou seja, antes de ocorrer a atualização dos pesos, ocorre um pré-
processamento de todos os dados. A criação desta nova rede permite uma rede com a mesma
dinâmica e as mesmas características de estabilidade/plasticidade das redes ARTMAP fuzzy,
menos sensível à ordem de apresentação dos padrões de entrada. Esta rede possui uma
estrutura muito similar a da rede ARTMAP fuzzy, só que ao invés do módulo ARTa, existe
um módulo RBF, este módulo é composto pela camada de entrada e a camada escondida da
rede RBF. (Tontini e Abelardo, 1996)
27

Distributed ARTMAP (dARTMAP) – Rede neural da família ART, projetada para


combinar as principais características das redes MLP e ARTMAP fuzzy. Trata-se de uma rede
derivada da rede ARTMAP fuzzy com treinamento supervisionado e rápido de padrões de
entrada binários e/ou analógicos. Um dos principais problemas em se trabalhar com a rede
ARTMAP fuzzy em ambientes ruidosos é a proliferação de categorias. Em compensação,
redes MLP possuem em geral um treinamento lento enquanto que a rede ARTMAP fuzzy
possui treinamento rápido e modo de treinamento “on-line”. A rede dARTMAP combina as
principais características das duas arquiteturas (ARTMAP fuzzy e MLP), resultando em uma
rede com um treinamento rápido e “on-line”, mantendo as características de
estabilidade/plasticidade das redes ARTMAP fuzzy e a capacidade de trabalhar em ambientes
ruidosos sem que ocorra a proliferação de categorias. Esta rede pode ser utilizada em dois
modos de operação, distribuído ou winner takes all (WTA). No modo distribuído, esta rede
age evitando a proliferação de categorias em ambientes ruidosos, enquanto que no modo
WTA suas características se assemelham bastante a da rede ARTMAP fuzzy. A proliferação
de categorias é evitada no modo distribuído, mas a precisão dos resultados pode ser afetada.
(Carpenter et al., 1998)

Hypersphere ART/ARTMAP (H-ART/ARTMAP) – Rede neural da família ART,


derivadas das redes ART/ARTMAP com treinamento não supervisionado e supervisionado de
padrões de entrada binários e/ou analógicos. Sua grande diferença em relação às redes
ART/ARTMAP fuzzy está no modo como são representadas as categorias. Nas redes
ART/ARTMAP fuzzy as categorias são representadas por hiper-retângulos, nas redes H-
ART/ARTMAP as categorias são representadas por hiper-esferas. (Anagnostopoulos e
Georgiopuolos, 2000)

Ellipsoid ART/ARTMAP (EA/EAM) – Rede neural da família ART, derivadas das redes
H-ART/H-ARTMAP com treinamento não supervisionado e supervisionado de padrões de
entrada binários e/ou analógicos. A sua grande diferença em relação às redes H-ART/H-
ARTMAP está no modo como são representadas as categorias, nestas as categorias são
representadas por hiper-esferas, já nas redes EA/EAM as categorias são representadas por
elipses. (Anagnostopoulos e Georgiopuolos, 2001)

μARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy com
treinamento supervisionado e rápido de padrões de entrada binários e/ou analógicos. Projetada
28

para solucionar o problema da proliferação de categorias, que ocorrem em algumas


aplicações. As categorias são representadas por hiper-retângulos, assim como na rede
ARTMAP fuzzy. Para evitar o problema da proliferação de categorias é utilizado um
compacto conjunto de regras do tipo se-então para o posicionamento e dimensionamento
inteligente dos hiper-retângulos. (Sánchez et al., 2002)

ART-Kohonen – Rede neural da família ART, derivadas das redes ART1 e Kohonen com
treinamento não supervisionado de padrões de entrada binários e/ou analógicos. Trata-se de
um modelo hibrido com arquitetura semelhante a da rede ART1, porém a escolha das
categorias, o teste de vigilância e a adaptação dos pesos são baseados na rede de Kohonen. A
categoria escolhida se baseia na topologia do neurônio vencedor WTA (Winner Takes All)
cujo neurônio vencedor é tido como aquele que possui a menor distância euclidiana com o
padrão de entrada. (Yang et al., 2003)

ART&ARTMAP fuzzy – Rede neural da família ART composta por duas redes, uma rede
ART fuzzy para o pré-processamento de sinais analógicos e uma rede ARTMAP fuzzy para o
treinamento supervisionado de padrões de entradas e saídas. O padrão de entrada é composto
por dois vetores, um vetor de entrada externo e outro provido da saída da rede ART fuzzy.
(Lopes et al., 2005)

ARTN/ARTMAPN Fuzzy – Redes neurais da família ART, derivadas das redes


ART/ARTMAP fuzzy com treinamento não supervisionado e supervisionado de padrões de
entrada binários e/ou analógicos. Diferentemente das redes ART/ARTMAP fuzzy, estas redes
não necessitam da normalização e execução do código complemento. A principal diferença
está na função de escolha que é baseada na norma Lp. Resultados comprovam uma boa
performance quando comparadas com as redes ART/ARTMAP fuzzy tradicionais. (Dagher,
2006)

ARTMAP fuzzy, Ellipsoidal ARTMAP e Gaussian ARTMAP otimizadas por algoritmo


genético (GFAM, GEAM e GGAM respectivamente) – Estas redes são derivadas da rede
ARTMAP para o treinamento supervisionado de padrões de entrada e saída binários e/ou
analógicos. Diferem-se pelo modo como são representadas suas categorias, sendo
representadas por hiper-retângulos, elipses e curvas gaussianas, respectivamente. O uso de
algoritmos genéticos aumenta a capacidade de generalização destas redes e pode ser uma
29

alternativa para o problema da proliferação de categorias em algumas aplicações. (Kaylani, et


al., 2007)

ARTMAP fuzzy otimizada através de enxame de partícula (PSO – Particle Swarm


Optimization) – Trata-se de uma rede neural da família ART, com arquitetura baseada na rede
ARTMAP fuzzy para o treinamento supervisionado e rápido de padrões de entrada binários
e/ou analógicos. Sua grande característica é a otimização dos parâmetros da rede ARTMAP
fuzzy utilizando PSO. Resultados comprovam uma significante redução do erro de
generalização. (Granger, et al., 2007)

Self-supervised ARTMAP – Trata-se de uma rede neural da família ART, derivada da


rede ARTMAP fuzzy para o treinamento supervisionado e não supervisionado de padrões de
entrada binários e/ou analógicos. Sua principal característica é a habilidade de ser treinada
supervisionada e não supervisionada, ou seja, consegue aprender através de padrões de
entrada que possuem um padrão de saída desejada e também de aprender com padrões de
entrada que não possuem um padrão de saída desejado, sem interferir na estabilidade das
informações já adquiridas. (Amis e Carpenter, 2010)

Biased ARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy para o
treinamento supervisionado de padrões de entrada binários e/ou analógicos. Desenvolvida
para lidar com os problemas que podem ser ocasionados pela atenção direta aos
comportamentos críticos, esta rede volta a sua atenção para as categorias já aprendidas
durante o processo de busca. (Carpenter e Gadam, 2010)
A figura 4.5.1. ilustra as redes da família ART acima descritas.
30

ART

Treinamento não
supervisionado

ART1 ART2
(1987) (1987)

ART
ART fuzzy H-ART ART2-A S-ART
Kohonen
(1991) (2000) (1991) (1994)
(2003)

ARTN
E-ART
Fuzzy
(2001)
(2006)

Treinamento
ARTMAP
supervisionado (1991)

ARTMAP H- Gaussian
fuzzy ARTMAP ARTMAP
(1992) (2000) (1996)

ARTMAP Biased Self- E- GGAM


RBF dARTMAP μARTMAP GFAM
ARTMAP N fuzzy ARTMAP supervised ARTMAP (2007)
(1998) (2002) (2007)
fuzzy (2006) (2010) ARTMAP (2001)
(1996) (2010)

GEAM
(2007)

Figura 4.5.1. Redes Neurais da família ART


31

4.6. Aplicações recentes utilizando redes da família ART

Embora as redes MLP sejam as mais utilizadas, recentemente, tem sido publicado
bastantes trabalhos utilizando as redes da família ART. Neste estudo foram vistos algumas
aplicações recentes, dentre elas estão:

 Análise de faltas em máquinas rotativas utilizando a rede ART-Kohonen. (Yang et al.,


2003)

 Uso da rede ARTMAP para problemas que envolvam dados coletados a partir de
diferentes fontes com perspectivas, pontos de vista e objetivos diferentes, este tipo de
problema é tratado na literatura especializada como sendo um problema de data fusion
ou fusão de dados. (Carpenter et al. 2005)

 Previsão de cargas elétricas utilizando a rede ART&ARTMAP fuzzy. (Lopes et al.,


2005)

 Classificação de faltas em sistemas de energia elétrico utilizando a rede ART fuzzy.


(Vasilic e Kezunovic, 2005)

 Previsão de preço de energia elétrica utilizando redes neurais artificiais, neste trabalho
é utilizada uma rede da família ART para o pré-processamento dos dados de entrada
que alimenta uma rede MLP backpropagation para a previsão do preço de energia
elétrica de um dia à frente. (Pino et al. 2008)

 Reconhecimento de faces através de uma rede ART fuzzy. (Gu, 2009)


32

4.7. Inclusão do treinamento continuado nas redes ART fuzzy e ARTMAP fuzzy

As redes neurais da família ART por possuírem um modo de treinamento “on-line”,


podem ser adaptadas para trabalharem no contexto de treinamento continuado. O treinamento
continuado se torna necessário em sistemas reais contínuos no qual a cada instante de tempo
são apresentados novos padrões de entrada e saída ao sistema. As redes ART fuzzy e
ARTMAP fuzzy apresentadas nas seções 4.3 e 4.4 possuem um número de categorias fixo.
Para trabalharem neste contexto, é necessária a adição de uma etapa onde novas categorias
sejam criadas assim que necessárias.

Nesta seção serão apresentados os fluxogramas das seções 4.3 e 4.4 modificados,
possibilitando o treinamento continuado destas redes.

Na rede ART fuzzy, a etapa onde o número de categorias é incrementado ocorre na fase de
busca. A criação de uma nova categoria implica na criação de um novo vetor linha na matriz
de pesos W, com valores inicializados todos iguais a 1.

Na rede ARTMAP fuzzy, este processo se torna um pouco mais complexo, pois lida com a
criação de duas categorias, as categorias do módulo ARTa e as categorias do módulo ARTb.
Portanto, a etapa de incremento, deve ocorrer nas fases de busca do módulo ARTa, do módulo
ARTb e do módulo Inter-ART. Cada vez que for criada uma nova categoria no módulo ARTa,
ou seja, cada vez que for criado um novo vetor linha em Wa, deve ser criado um novo vetor
linha em Wab, a criação desta nova categoria pode ocorrer tanto na fase de busca do módulo
ARTa quanto na fase de busca do módulo Inter-ART. Cada vez que for criada uma nova
categoria no módulo ARTb, ou seja, cada vez que for criado um novo vetor linha em Wb, deve
ser criada um novo vetor coluna em Wab. Os vetores linha criados nas matrizes Wa, Wb e Wab
são vetores com elementos unitários, já que essas linhas correspondem a uma categoria
inativa. O vetor coluna criado na matriz Wab é um vetor com zeros e uns. A criação de uma
nova coluna na matriz Wab inclui linhas ativas e linhas inativas que correspondem as
categorias ativas e inativas do módulo ARTa. Sendo assim, este vetor coluna deve assumir
zeros nas linhas que correspondem às categorias ativas e uns nas linhas que correspondem às
categorias inativas. As figuras 4.7.1 e 4.7.2 ilustram o fluxograma modificado das redes ART
fuzzy e ARTMAP fuzzy, respectivamente.
33

leitura dos parâmetros


iniciais α, ρ, β e Nc

Inicialização dos pesos.


Wj =1

Leitura do padrão de
entrada A
Normalização e Código
complemento

Normalização e Código
Complemento

Reconhecimento
Escolha da categoria
através da função de
escolha;
Cont_a=1;

TJ=máx{Tj : j=1,...,Nc}

Nc=Nc+1;
Cont_a≤Nc
J=Nc; Não

WJ=1;

sim

YJ=1

Yj=0 para j≠J

Aprendizagem

Teste de vigilância TJ=0;


Sim Não
Cont_1=Cont_a+1;

Comparação Busca

Figura 4.7.1. Fluxograma do algoritmo de classificação da rede ART fuzzy, modificado para o treinamento
continuado.
34

leitura dos parâmetros


iniciais:
α, β, ρa, ρb, ρab, ε, Nca e
Ncb

Inicialização dos pesos:


Waj =1, Wbk =1 e Wabj =1

Leitura dos padrões de


entrada e saída:
Normalização e Código AeB
complemento

Normalização e Código
Complemento

Reconhecimento

Escolha da categoria:
*i=1 para as
categorias inativas
da coluna K;
i=0 para as
categorias ativas da
coluna K;
Cont_a=1;
Cont_b=1;

TbK=máx{Tbk : k=1,...,Ncb} Sim

Ncb=Ncb+1;
K=Ncb;
Não
WbK=1;
WabK=i;*

Atividade de F2b:
Teste de vigilância TbK=0; Cont_b≤Ncb
Sim Não
Cont_b=Cont_b+1;

TaJ=máx{Taj : j=1,...,Nca}
Nca=Nca+1;
J=Nca;
Não
WaJ=1;
WabJ=1;

Atividade de F2a:
Teste de vigilância TaJ=0; Cont_a≤Nca
Sim Não Sim
Cont_a=Cont_a+1;

Acréscimo do
parâmetro de vigilância
ρa:
Não
Adaptação dos pesos:

Teste de vigilância TaJ=0; Cont_a≤Nca Sim


Sim Não
Cont_a=Cont_a+1;

Comparação

Aprendizagem
Busca

Figura 4.7.2. Fluxograma do algoritmo de classificação da rede ARTMAP fuzzy, modificado para o treinamento
continuado.
35

5. Previsão de cargas elétricas utilizando redes ARTMAP e GRNN

Alguns estudos e planejamentos em sistemas de energia elétrica necessitam da previsão de


cargas elétricas. Dentre eles, estão: despacho econômico, fluxo de potência, estabilidade
transitória, planejamento de geração, planejamento de transmissão, planejamento de expansão
e a compra e venda de energia elétrica. Para que o sistema opere de modo seguro, confiável e
econômico (Ranaweera et al., 1997), uma boa previsão de carga é necessária, tanto na fase de
geração quanto na fase de transmissão ou na fase de distribuição (Kermanshahi e Iwamiya,
2002). Deste modo, tem-se a necessidade de se prever as cargas em vários pontos do sistema
de energia elétrica de maneira rápida e precisa.

Historicamente, encontram-se vários métodos para realizar a previsão de cargas: regressão


linear múltipla ou simples, alisamento exponencial, estimação de estado, filtro de Kalman,
métodos ARIMA de Box e Jenkins (Box e Jenkins, 1976) entre outros. Todos estes métodos
necessitam da modelagem matemática da carga.

Uma alternativa para a resolução do problema de previsão de cargas é a utilização de


redes neurais artificiais (RNAs), lógica fuzzy e sistemas híbridos.

As RNAs apresentam inúmeras vantagens, sendo as principais delas a capacidade de


aprendizado e generalização (Haykin, 2008).

A modelagem matemática da carga é uma tarefa bastante dispendiosa, e nem sempre é a


que apresenta melhores resultados, por isso o uso de RNAs, lógica fuzzy e sistemas híbridos
vêm sendo bastante utilizados, pois não necessitam da modelagem matemática da carga. Nos
artigos de Saini e Soni (2002) e Malki et al., (2004) os autores utilizam redes neurais
perceptron multicamadas (MLP – Multi Layer Perceptron ) para realizar a previsão de cargas
de curto prazo, no primeiro as redes foram treinadas com os algoritmos de Levenberg-
Marquardt e quase-Newton, no segundo, as redes foram treinadas com o algoritmo
backpropagation. No artigo de Pandian et al. (2006), os autores utilizam lógica fuzzy para
realizar a previsão de cargas de curto prazo. Nos artigos de Telbany e Karmi, (2008) e Yun et
al., (2008) os autores trabalham com o uso de sistemas híbridos para realizar a previsão de
cargas de curto prazo, o primeiro utiliza particle swarm optimization (PSO) para o
treinamento de uma RNA e o segundo utiliza redes de funções de base radial (RBF) e o
ANFIS (Adaptive Neuro Fuzzy Inference System), que é um sistema híbrido que combina
lógica fuzzy com RNAs. No trabalho de Lopes et. al., (2010), os autores utilizam uma rede
ART&ARTMAP fuzzy que combina um módulo ART fuzzy para o pré-processamento de
36

entradas analógicas e uma rede ARTMAP fuzzy para a aprendizagem supervisionada. Através
deste sistema, os autores conseguem um ganho computacional em termos de velocidade de
processamento e menores erros na previsão, comparados com os resultados obtidos
utilizando-se uma rede MLP via backpropagation.

As RNAs e alguns sistemas híbridos são capazes de aprender o comportamento da carga


através de um treinamento adequado (Moody e Darken, 1989; Widrow e Lehr, 1990; Chen et
al., 1996) composto de dados históricos das cargas e dados exógenos. Alguns dados exógenos
possuem grande influência no comportamento e no valor da carga elétrica, como:
temperatura, umidade, dia da semana, hora, feriados, entre outros.

Para a previsão de cargas de um sistema de energia elétrico da Nova Zelândia, serão


utilizadas uma rede ARTMAP fuzzy e uma GRNN (General Regression Neural Network)
(Specht, 1991). Através destas redes serão previstas as cargas de meia em meia hora dos
primeiros sete, 14 e 21 dias do mês de janeiro de 2009. Para isto as redes foram treinadas com
dados históricos referentes aos anos de 2007 e 2008.

Foram elaborados dois sistemas, um que realiza a previsão da carga correspondente à


meia hora seguinte (sistema 1), e outro sistema capaz de prever as 48 cargas referentes ao dia
seguinte (sistema 2), conforme as figuras 5.1 e 5.2.

Entradas Rede Neural Saída

Mês de referência
(m/12), m=mês

Dia da semana
[1 0 0 0]T - segunda-feira
[0 1 0 0]T - terça à sexta-feira
[0 0 1 0]T - sábado
[0 0 1 0]T - domingo

Horário de verão
1 – pertence
0 - não pertence Sistema 1 Carga n (Normalizada)

Feriado
1 – sim
0 – não

Hora de referência
(n/48), n=amostra

Carga n-1 (Normalizada)

Figura 5.1. Sistema 1 – previsor de carga global da meia hora seguinte.


37

Entradas Rede Neural Saídas

Mês de referência
(m/12), m=mês

Dia da semana
[1 0 0 0]T - segunda-feira
T
[0 1 0 0] - terça à sexta-feira
[0 0 1 0]T - sábado
[0 0 1 0]T - domingo

Horário de verão
1 – pertence Carga n (Normalizada)
0 – não pertence

Feriado
1 – sim Carga n+1 (Normalizada)
0 – não

Carga n-48 (Normalizada)

Sistema 2 Carga n+24 (Normalizada)

Carga n-47 (Normalizada)

Carga n+46 (Normalizada)

Carga n-24 (Normalizada)


Carga n+47 (Normalizada)

Carga n-2 (Normalizada)

Carga n-1 (Normalizada)

Figura 5.2. Sistema 2 – previsor de carga global do dia seguinte.

A escolha das redes ARTMAP fuzzy e GRNN para a previsão de cargas é porque estes
sistemas são capazes de identificar padrões e comportamentos. Uma vez treinado o sistema,
38

dado uma entrada, este sistema irá identificar o padrão que mais se identifica com a entrada e
deste modo realiza a previsão. O funcionamento de ambas as redes são muito parecidos, com
a diferença de que as redes da família ARTMAP possuem um modo de treinamento “on-line”,
podendo ser incluídas em aplicações que necessitam do treinamento continuado.

Utilizou-se para cada sistema, uma rede ARTMAP fuzzy e uma GRNN, para o sistema 1,
as redes foram denominadas ARTMAP1 e GRNN1, para o sistema 2 as redes foram
denominadas ARTMAP2 e GRNN2. Estas redes foram treinadas com dados históricos
extraídos do Centralized Dataset (CDS) disponibilizados pelo Electricity Comission da Nova
Zelândia, referentes à carga global de 9 subestações de energia elétrica da Nova Zelândia. Os
parâmetros de entrada e saída de cada sistema são ilustrados nas Figs. 5.1 e 5.2.

Para cada rede, foram realizados 3 treinamentos distintos e 3 previsões distintas. A tabela
5.1 faz referência ao período compreendido em cada treinamento, a tabela 5.2 é referente aos
dias previstos em cada previsão. As redes foram treinadas e simuladas através do aplicativo
MATLAB, para a GRNN, utilizou-se do toolbox de redes neurais.

Tabela 5.1 Período compreendido em cada treinamento.

Treinamento Período

Treinamento 1 01-01-2007 à 14-01-2007 + 01-01-2008 à 14-01-2008 (total de 28 dias/1344 amostras)

Treinamento 2 01-01-2007 à 31-01-2007 + 01-01-2008 à 31-01-2008 (total de 62 dias/2976 amostras)

Treinamento 3 01-01-2007 à 31-12-2007 + 01-01-2008 à 31-12-2008 (total de 731 dias/35088 amostras)

Tabela 5.2 Período compreendido em cada previsão.

Previsão Período

Previsão 1 01-01-2009 à 07-01-2009 (total de 7 dias/336 amostras)

Previsão 2 01-01-2009 à 14-01-2009 (total de 14 dias/672 amostras)

Previsão 3 01-01-2009 à 21-01-2009 (total de 21 dias/1008 amostras)

Os parâmetros de treinamento de cada uma das redes podem ser observados através da
tabela 5.3. A tabela 5.4 apresenta os resultados obtidos, em termos de tempo de treinamento
(s), tempo de previsão (s), MAPE (Mean Absolute Percentage Error) e EMáx (Erro Máximo
absoluto percentual).
39

Tabela 5.3. Parâmetros de treinamento das redes neurais utilizadas.

GRNN1 Spread=0.04

GRNN2 Spread=0.075

ARTMAP1 ρa=1, ρb=1, ρab=1, α = 0, β = 1

ARTMAP2 ρa=1, ρb=1, ρab=1, α = 0, β = 1

Tabela 5.4. Resultados obtidos com o uso das redes GRNN1, GRNN2, ARTMAP1 e ARTMAP2.

Previsão 1 Previsão 2 Previsão 3


GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP
1 2 1 2 1 2 1 2 1 2 1 2
Treinamento 1

T. tr. 0.30 0.34 16.04 0.04 0.31 0.32 15.99 0.04 0.28 0.35 15.98 0.04
(s)
T. 3.07 0.17 0.37 0.02 5.97 0.24 0.68 0.02 8.69 0.32 1.01 0.03
prev.
(s)
MAPE 3.06 3.51 2.33 3.48 2.61 2.56 2.09 2.69 2.42 2.17 2.16 2.36
(%)
EMáx 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36
(%)
GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP
1 2 1 2 1 2 1 2 1 2 1 2
Treinamento 2

T. tr. 0.32 0.35 101.37 0.08 0.33 0.33 97.91 0.07 0.33 0.31 100.42 0.07
(s)
T. 3.17 0.17 1.14 0.02 6.18 0.23 1.88 0.03 8.84 0.30 2.88 0.04
prev.
(s)
MAPE 3.11 3.02 2.28 3.48 2.72 2.42 2.10 2.70 2.47 1.97 1.90 2.68
(%)
EMáx 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36
(%)
GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP
1 2 1 2 1 2 1 2 1 2 1 2
Treinamento 3

T. tr. 0.34 0.33 --------- 6.41 0.37 0.34 --------- 6.72 0.35 0.32 --------- 6.63
(s)
T. 5.95 0.18 --------- 0.16 11.59 0.25 --------- 0.31 17.10 0.31 --------- 0.49
prev.
(s)
MAPE 3.06 2.99 --------- 3.48 2.72 2.85 --------- 2.70 2.46 2.41 --------- 2.68
(%)
EMáx 12.11 13.76 --------- 16.36 12.11 13.76 --------- 16.36 12.11 13.76 --------- 16.36
(%)

O vetor de entrada do sistema 1 é composto por 9 elementos e o vetor de saída é composto


de um elemento, referente ao valor da carga da meia hora seguinte. Já o vetor de entrada do
sistema 2 é composto por 55 elementos e o vetor de saída é composto de 48 elementos
referentes às cargas do dia seguinte.

O tempo de treinamento da rede GRNN é padrão, em torno de 0.35s, que é o tempo


necessário que se leva para armazenar os padrões de treinamento na memória. Já para as redes
ARTMAP, observou-se que o tempo de treinamento aumenta de forma considerável quando
se aumenta o número de vetores de treinamento. O tempo de treinamento da rede ARTMAP2
é inferior ao tempo de treinamento da rede ARTMAP1, isto porque são utilizados menos
40

vetores no treinamento da ARTMAP2. A rede ARTMAP1, não foi treinada com todos os
vetores correspondentes ao treinamento 3, pois, levar-se-ia muito tempo para realizar tal
treinamento. Quanto ao tempo de previsão, de modo geral, observa-se que quanto maior o
período previsto, maior o tempo necessário para realizar a previsão, de modo geral as redes
ARTMAPs são mais rápidas que as redes GRNNs. O tempo gasto pelas redes do sistema 2,
levam menos tempo para realizar as previsões, isto porque para prever um dia com o sistema
2 é necessário realizar apenas uma previsão, enquanto que o sistema 1 necessita realizar 48
previsões.

Para o treinamento 1 e 2, as melhores previsões foram obtidas com a rede ARTMAP1, já


para o treinamento 3, as redes GRNN1 e GRNN2 se saíram melhor que a rede ARTMAP2,
apresentando menores erros na previsão. De modo geral o valor do MAPE diminui quando
são previstos mais cargas, isto deve ser porque a previsão de todos estes dias incluem a
previsão de 2 dias atípicos, o que ocasionam em erros maiores que os erros obtidos com a
previsão de dias típicos, portanto, quanto mais dias típicos são previstos, a média dos erros
(MAPE) tende a cair. Observa-se através destes resultados que a rede ARTMAP é capaz de
prover bons resultados, em alguns casos, até melhores que os obtidos com a GRNN. A grande
vantagem da rede ARTMAP utilizada é a possibilidade de realizar o treinamento continuado,
o que não é possível com o uso da GRNN.

É interessante observar que os resultados obtidos com a rede ARTMAP2, para o


treinamento 2 e 3 são iguais, isto demonstra que o treinamento 2 foi suficiente para apresentar
bons resultados, não sendo necessário a utilização de tantos padrões de treinamento. Caso a
rede ARTMAP1, fosse treinada com o treinamento 3, os resultados seriam muito parecidos
com os resultados obtidos para o treinamento 2. A vantagem da rede ARTMAP2 com relação
à rede ARTMAP1 é o tempo de treinamento e previsão, porém, os resultados obtidos com este
sistema foram inferiores. Pode-se dizer que o sistema 1 visa uma melhor precisão dos
resultados, enquanto o sistema 2 visa um menor tempo de treinamento e previsão.
41

6. Conclusões

Neste trabalho foram estudadas as principais características das principais redes da família
ART. A grande vantagem em se trabalhar com as redes da família ART é o treinamento
rápido, “on-line” e estável, podendo este ser supervisionado ou não supervisionado. Quando
submetidos a um extenso treinamento sua capacidade de generalização é superior a das redes
MLP via backpropagation.
O treinamento destas redes é considerado rápido, pois necessita de poucas iterações e não
existe um critério de parada, sendo possível o usuário decidir a quantidade de vezes que um
mesmo padrão será apresentado à rede. Além disso, somente os pesos que correspondem a
aquele padrão serão atualizados, deste modo não interfere na resposta do sistema para outros
padrões.
Algumas desvantagens em se trabalhar com as redes da família ART é a proliferação de
categorias e a dependência da ordem com que os padrões de entrada são apresentados, mas
estes problemas podem ser contornados através do uso de técnicas híbridas.
As redes da família ART são bastante indicadas para o reconhecimento de padrões,
problemas que envolvam variáveis lingüísticas, data mining ou mineração de dados, data
fusion ou fusão de dados, clusterização, entre outros.
Para o problema da previsão de cargas foi possível obter, utilizando a rede ARTMAP
fuzzy, bons resultados, comparáveis com os resultados obtidos com a GRNN e em alguns
casos, até melhores, como no caso da rede ARTMAP1. As grandes vantagens destas redes
são: a possibilidade de trabalhar em sistemas que necessitam de treinamento continuado e as
características de estabilidade e plasticidade, possibilitando o aprendizado de novas
informações sem que as informações passadas sejam perdidas.
42

7. Referências Bibliográficas

ACKLEY, D.H.; HINTON, G.E.; SEJNOWSKY, T. J. A learning algorithms for


Boltzmann machines. Cognitive Sciences, v. 9, p.147-169, 1985

AMIS, P. G.; CARPENTER, G. A. Self-supervised ARTMAP. Neural Networks, v. 23,


p. 265-282, 2010.

ANAGNOSTOPOULOS, C. G.; GEORGIOPOULOS, M. Hypersphere ART and


ARTMAP for unsupervised and supervised, incremental learning. In Proceedings of the
IEEE-INNS international joint conference on neural networks, v. 6, p. 59-64, 2000.

ANAGNOSTOPOULOS, C. G.; GEORGIOPOULOS, M. Ellipsoid ART and ARTMAP


for incremental clustering and classification. In Proceedings of the IEEE-INNS
international joint conference on neural networks, v. 2, p. 1221-1226, 2001.

BOX, G.E.; JENKINS, G.M. Times series analysis: forecasting and control. San
Francisco, USA: Holden-Day, 1976.

CARPENTER, G. A.; GROSSBERG, S. ART2: Stable self-organization of pattern


recognition codes for analog input patterns. Applied Optics, v. 26, p. 4919-4930, 1987.

CARPENTER, G.A.; GROSSBERG, S.; REYNOLDS, J.H. ARTMAP: supervised real-


time learning and classification of nonstationary data by a self-organizing neural network.
Neural Networks, v. 4, p. 565-588, 1991a.

CARPENTER, G. A.; STEPHEN, G.; ROSEN, D. B. ART2-A: An adaptive resonance


algorithm for rapid learning and recognition. Neural Networks, v. 4, p. 493-504, 1991b.

CARPENTER, G.A.; GROSSBERG, S.; ROSEN, D.B. Fuzzy ART: Fast stable learning
and categorization of analog patterns by an adaptive resonance system. Neural Networks, v.
4, p. 759-771, 1991c.

CARPENTER, G.A.; GROSSBERG, S.; MARKUZON, N.; REYNOLDS, J.H.; ROSEN,


D.B. Fuzzy ARTMAP: A neural network architecture for incremental supervised learning of
analog multidimensional maps. IEEE Transactions on Neural Networks, v. 3, p. 698-713,
1992.
43

CARPENTER, G. A.; GJAJA, M. N. Fuzzy ART choice function. World Congress on


Neural Networks – San Diego, 1994 International Neural Network Society, v. 1, p. 713-
722 1994.

CARPENTER, G. A.; MILENOVA, B. L.; NOESKE, B. W. Distributed ARTMAP: A


neural network for fast distributed supervised learning. Neural Networks, v. 11, p. 793-813,
1998.

CARPENTER, G. A.; MARTENS, S.; OGAS, O. J. Self-organizing information fusion


and hierarchical knowledge discovery: a new framework using ARTMAP neural networks.
Neural Networks, v. 18, p. 287-295, 2005.

CARPENTER, G. A.; GADDAM, S. C. Biased ART: A neural architecture that shifts


attention toward previously disregarded features following an incorrect prediction. Neural
Networks, v. 23, p. 435-451, 2010.

DAGHER, I. Art networks with geometrical distances. Journal of Discrete Algorithms,


v. 4, p. 538-553, 2006.

GRANGER, E.; HENNIGES, P.; SABOURIN, R.; OLIVEIRA, L. S. Supervised learning


of fuzzy ARTMAP neural networks through particle swarm optimization. Journal of Pattern
Recognition Research, v. 1, p. 27-60, 2007.

GROSSBERG, S. Adaptive pattern classification and universal recoding, I: parallel


development and coding of neural feature detectors, Biological Cybernetics, v. 23, n. 3, p.
121-134, 1976a.

GROSSBERG, S. Adaptive pattern classification and universal recoding, II: feedback,


expectation, olfaction, and illusions, Biological Cybernetics, v. 23, n. 4, p. 187-202, 1976b.

GROSSBERG, S. How does a brain build a cognitive code? Psychological Review, v. 87,
p.1-51, 1980.

GROSSBERG S. Competitive learning: from interactive activation to adaptive resonance.


Cognitive Science, v. 11, p. 23-63, 1987.
44

GU, M. Fuzzy ART neural network model and its application. IEEE International
Conference on Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. v. 1, p.
195-198, 2009.

HAGAN, M. T.; MEHNAJ, M. B. Training feedforward networks with Marquardt


algorithm, IEEE transactions on Neural Networks, v. 5, n. 6 p. 989-993, 1994.

HAYKIN, S. Neural Networks and Learning Machines. 3rd Ed. New Jersey, USA:
Prentice-Hall, 2008.

HOPFIELD, J.J. Neural networks and physical systems with emergent collective
computational abilities. Proceedings of the National Academy of Sciences, v. 79, p. 2554-
2558, USA, 1982.

JANG, J.S.R. ANFIS: Adaptive Neuro-Fuzzy Inference System. IEEE Transactions on


Systems, v. 3, p. 665-685, Maio 1993.

KAYLANI, A.; AL-DARAISEH, A.; GEORGIOPULOS, M.; MOLLAGHASEMI, M.;


ANAGNOSTOPOULOS, G. C.; WU, A. S. Genetic Optimization of ART neural network
architectures. Proceedings of International Joint Conference on Neural Networks,
Orlando, Florida, USA, August 12-17, 2007, p. 379 – 384, 2007.

KERMANSHAHI, B., E IWAMIYA, H. Up to year 2020 load forecasting using neural


nets. International Journal of Electrical Power & Energy Systems,v. 24 (9), p. 789-797,
2002.

KOHONEN, T. Self-organized formation of topologically correct of feature maps.


Biological Cybernetics, v. 22, p. 159-168, 1982.

KROSE, B.; SMAGT, P. V. An introduction to neural networks, Online Book,


University of Amsterdam, Eighth Edition, 1996.

LOPES, M. L. M.; MINUSSI, C. R.; LOTUFO, A. P. A fast electric load forecasting


using neural networks, 43rd Midwest Symposium on Circuits and Systems, Lansing-
Michigan, USA, 2000, v. 2, p. 646-649, 2000.

LOPES, M. L. M.; MINUSSI, C. R.; LOTUFO, A. P. Electrical load forecasting


formulation by a fast neural network, Engineering Intelligent Systems for Electrical
Engineering and Communications, v. 11, n. 1, p. 51-57, 2003.
45

LOPES, M. L. M.; MINUSSI, C. R.; LOTUFO, A. D. P. Electric load forecasting using a


fuzzy ART&ARTMAP neural network. Applied Soft Computing, v. 5, p. 235-244, 2005.

LOPES, M. L. M.; LOTUFO, A. D. P.; MINUSSI, C. R. Application of the Fuzzy


ART&ARTMAP Neural Network to the Electrical Load Forecasting Problem. In: J. J.
Zhu and G. P. C. Fung, (Org.), ed. 2010. Forecasting Models - Methods and Applications. :
iConcept Press Pty Ltd , pp. 179-190, 2010.

LUCKS, M. B.; OKI, N. Winner-take-all circuit using CMOS technology, Midwest


Symposium in Circuits and Systems, 1999, Las Cruces, NM, v. 2, p. 1109-1112, 1999.

MALKI, H.A.; KARAYIANNIS, N.B.; BALASUBRAMANIAN, M. Short-term electric


power load forecasting using feedforward neural networks. Expert Systems, v. 21 (3), p. 157-
167, 2004.

MCCULLOCH, W.S; PITTS, W. H. A logical calculus of the ideas immanent in nervous


activity. Bulletin of Mathematical Biophysics, v. 5, p. 115-133, 1943.

MINUSSI, C. R. and SILVEIRA, M. C. G. Electric power systems transient stability by


neural networks, 38rd Midwest Symposium On Circuits And Systems, 1995, Rio de
Janeiro-RJ, v. 2, p. 1305-1308, 1995.

MODDY, J.; DARKEN, C. J. Fast learning in networks of locally-tuned processing units.


Neural Computation, v. 1, p. 281-294, 1989.

MOODY, J.; DARKEN, C.J. Fast leaning in networks of locally tuned processing units.
Neural Computation, v. 1, p. 281-294, 1989.

OKI, N. Winner-take-all circuit using CMOS technology, Midwest Symposium in


Circuits and Systems, 1998, Notre Dame, IN, p. 568-570, 1998.

PANDIAN, S.C.; DURAISWAMYA K.; RAJAN, C.C.A.; KANAGARAJ, N. Fuzzy


approach for short term load forecasting. Electric Power System Research, v. 76 (6-7),
p.541-548, 2006.

PINO, R.; PARRENO, J.; GOMEZ, A.; PRIORE P. Forecasting next-day price of
electricity in the Spanish energy market using artificial neural networks. Engineering
Applications of Artificial Intelligence, v. 21, p. 53-62, 2008.
46

RANAWEERA, K.D.; KARADY, G.G.; FARNER, G.R. Economic impact analysis of


load forecasting. IEEE Transactions on Power Systems, v. 12 (3), p. 1388-1392, 1997.

ROSEMBLATT, F. The perceptron: A probabilistic model for information storage and


organization in the brain. Psychological Review, v. 65, p.386-408, 1958.

RUMELHART, D.E.; HINTON, G. E.; WILLIAMS, R.J. Learning representations by


Back-propagation errors. Nature, v. 323, p. 533.536, 1986.

SAINI, L.M.; SONI, M.K. Artificial neural network based peak load forecasting using
Levenberg-Marquardt and quasi-Newton methods. IEEE Proceedings on Generation,
Transmission & Distribution, v. 149 (5), p. 578- 584, 2002.

SÁNCHEZ, E. G.; DIMITRIADIS, Y. A.; IZQUIERDO, J. M. C.; CORONADO, J. L.


μARTMAP: Use of mutual information for category reduction in fuzzy ARTMAP. IEEE
Transactions on Neural Networks, v. 13, n. 1, p. 58-69, jan., 2002.

SPECHT, D.F. A generalized regression neural network. IEEE Transactions on Neural


Networks, v. 2, p. 568-576, 1991.

SPECHT, D.F. Probabilistc neural networks. Neural Networks, v. 3, p. 110-118, 1990.

TAYLOR, I.; GREENHOUGH, M. S_ART: A modified ART2-A algorithm with rapid


intermediate learning capabilities. IEEE World Congress on Computational Intelligence,
1994 IEEE International Conference on Neural Networks, 1994, v. 2, p. 606-611, 1994.

TELBANY, M.E.; KARMI, F.E. Short-term forecasting of Jordanian electricity demand


using particle swarm optimization. Electric Power Systems Research, v. 78 (3), p. 425-433,
2008.

TONTINI, G.; QUEIROZ, A. A. RBF Fuzzy-ARTMAP: A new fuzzy neural network for
robust on-line learning and identification of patterns. IEEE International Conference on
Systems, Man, and Cybernetics, 1996, v. 2, p. 1364-1369, 1996.

VASILIC, S.; KEZUNOVIC, M. Fuzzy ART neural network algorithm for classifying the
power system faults. IEEE Transactions on Power Delivery, v. 20, n. 2, p. 1306-1314,
2005.
47

WASSERMAN, P. D. Neural computing - theory and practice Van Nostrand Reinhold,


1989.

WERBOS, P.J. Beyond regression: New tools for prediction and analysis in the
behavioral sciences. Tese de mestrado, Harvard University, 1974.

WIDROW, B.; M.E. HOFF JR., M.E. Adaptive switching circuits. IRE WESCON
Convention Record, p. 96-104, 1960.

WIDROW, B.; LEHR, M. A. 30 years of adaptive neural networks: perceptron, madaline,


and backpropagation, Proceedings of the IEEE, v. 78, n. 9, p. 1415-1442, 1990.

WILLIAMSON, J. R. Gaussian ARTMAP: A neural network for fast incremental learning


of noise multidimensional maps. Neural Networks, v. 9, p. 881-897, 1996.

WILLSHAW, D.J.; MALSBURG, C. VON DER How patterned neural connections can
be set up by self-organization. Proceedings of the Royal Society of London Series B, v.
194, p. 431-445, 1976.

YANG, B. S.; HAN, T.; AN, J. L. ART-Kohonen neural network for fault diagnosis of
rotating machinery. Mechanical Systens and Signal Processing, v. 18, p. 645-657, 2004.

View publication stats

Você também pode gostar