Escolar Documentos
Profissional Documentos
Cultura Documentos
net/publication/276279246
CITATIONS READS
0 743
2 authors:
Some of the authors of this publication are also working on these related projects:
APLICAÇÃO DE SISTEMAS IMUNOLÓGICOS ARTIFICIAIS PARA BIOMETRIA FACIAL: RECONHECIMENTO DE IDENTIDADE BASEADO NAS CARACTERÍSTICAS DE PADRÕES
BINÁRIOS View project
All content following this page was uploaded by K. Nose-Filho on 15 May 2015.
Ilha Solteira – SP
Junho/2010
1. Objetivo 02
2. Resumo 02
6. Conclusões
41
7.
8. Referências Bibliográficas 42
2
1. Objetivo
O objetivo principal deste trabalho é o estudo dos principais conceitos e estruturas das
redes neurais da família ART.
2. Resumo
As redes neurais artificiais (RNAs) (Haykin, 2008) têm como característica principal
“simular” o funcionamento do cérebro humano, reproduzindo artificialmente a maneira como
os estímulos são processados por nossos neurônios. As RNAs com seus mecanismos de
associação, generalização e auto-organização conquistaram o seu espaço dentro do mundo
moderno.
O primeiro neurônio artificial foi descrito por McCulloch e Pitts em 1943 (McCulloch e
Pitts, 1943). Em 1958, Rosemblatt apresentou o seu trabalho sobre o perceptron (Rosemblatt,
1958), uma das primeiras RNAs, com apenas um neurônio e aprendizagem supervisionada.
Logo após em 1960, Widrow e Hoff desenvolveram o algoritmo do mínimo quadrado médio
(LMS, Least Mean-Square) (Widrow e Hoff, 1960) e com este deram origem ao elemento
linear adaptativo (Adaline, Adaptive linear element). Logo após Widrow propôs a estrutura
múltipla (Madaline, Multiple adaline). Nos anos 70 surgiram vários trabalhos a respeito dos
mapas auto-organizáveis utilizando aprendizagem competitiva, com os trabalhos pioneiros de
Willshaw e von der Marslburg (Willshaw e Marslburg, 1976). Em 1976 surgem os primeiros
trabalhos de Grossberg a respeito da teoria da ressonância adaptativa (ART, Adaptive
Ressonance Theory) (Grossberg, 1976a, 1976b). No início dos anos 80 surgiram as redes de
Hopfield (Hopfield, 1982) e os mapas auto-organizáveis de Kohonen (Kohonen, 1982). Em
1985 surgiu a máquina de Boltzmann (Ackley et al., 1985), trabalho desenvolvido por Ackley,
Hinton e Sejnowski, um exemplo de RNA de múltiplas camadas bem sucedido na época. Em
1986 Rumelhart, Hinton e Willians apresentaram o algoritmo retro-propagação
(backpropagation) (Rumelhart et al. 1986), primeiramente proposto por Werbos em 1974
(Werbos, 1974). O backpropagation é um dos algoritmos mais utilizados até hoje, inclusive
como padrão de referência. Em 1987 Grossberg apresenta a sua primeira rede baseada na
teoria da ressonância adaptativa, conhecida como ART1 (Grossberg, 1987).
Nos últimos 20 anos, várias outras redes foram desenvolvidas, novos algoritmos de
treinamento surgiram e o uso de técnicas híbridas vem sido bastante estudado. Como
exemplos estão as redes de função de base radial (RBF, Radial Basis Function Neural
Network) (Moody e Darken, 1989), a rede probabilística (PNN, Probabilistic Neural
Network), a rede de regressão generalizada (GRNN, General Regression Neural Network)
4
introduzidas por Specht (Specht, 1990, 1991), as redes ART fuzzy, ARTMAP e ARTMAP
fuzzy, desenvolvidas por Carpenter et al. (Carpenter et al., 1991a, 1991b, 1992), o sistema de
inferência fuzzy com aprendizagem baseada nas RNAs (ANFIS , Adaptive Neuro-Fuzzy
Inference System) (Jang, 1993), e vários outros sistemas não menos importantes.
Nas ultimas décadas vários trabalhos têm sido propostos utilizando RNAs e suas
aplicações em previsões de séries temporais, aproximação de funções, reconhecimento de
padrões, classificação, mapeamento e outros, fazem com que as RNAs sejam utilizadas nas
três grandes áreas do conhecimento: biológicas, exatas e humanas. Pesquisas recentes vêm
aplicando as RNAs em diagnósticos médicos, mapeamento do genoma humano, previsão do
tempo, previsão de demanda de energia elétrica, previsão de preços de energia elétrica,
classificação e detecção de faltas nos sistemas de energia elétrica, classificação de
consumidores do setor elétrico, classificação de consumidores de lojas de varejo, entre outros.
As RNAs podem ser programadas tanto em hardwares quanto em softwares. Graças ao
grande avanço tecnológico é possível programar RNAs em circuitos RLC, FPGAs (Field
Programmable Gate Array), microprocessadores, circuitos integrados utilizando tecnologia
CMOS (Complementary Metal Oxide Semiconductor) (Oki, 1998), (Lucks e Oki, 1999), entre
outros.
O primeiro neurônio artificial descrito por McCulloch e Pitts em 1943 (McCulloch e Pitts,
1943) visa a interpretação de estímulos, gerados por dados de entrada, que resultam em uma
resposta. Esta resposta é a saída de uma função (linear ou não linear), denominada função de
ativação, cuja entrada é a composição linear dos dados de entrada multiplicados por “pesos”
somados a um elemento denominado “bias” com peso unitário. Este neurônio pode ser
descrito através da figura 3.2.1.
B
X1 W1
X2 W2 1
X3 W3
∑ y F(.) Y
Xn Wn
Sendo:
X1, X2, ... , Xn – são as entradas;
W1, W2, ... , Wn – são os pesos correspondentes;
B – é o bias que é o elemento de soma auxiliar;
y – é o elemento intermediário dado por (3.2.1);
F(.) – é a função linear ou não linear;
Y – é a saída dado por (3.2.2).
(3.2.1)
(3.2.2)
Função linear
(3.2.3)
Sendo:
α – Coeficiente linear.
Função relé
(3.2.4)
Função sigmóide 1
(3.2.5)
Sendo:
Função sigmóide 2
(3.2.6)
Função gaussiana
(3.2.7)
7
A figura 3.2.2 exprime o comportamento de cada uma das funções acima descritas.
5 1 1
0.5 0.5
F(y)
F(y)
F(y)
0 0 0
-0.5 -0.5
-5 -1 -1
-5 0 5 -5 0 5 -5 0 5
y y y
a) b) c)
1 1
0.8 0.8
0.6 0.6
F(y)
F(y)
0.4 0.4
0.2 0.2
0 0
-5 0 5 -5 0 5
y y
\
d) e)
Figura 3.2.2. Funções de ativação, a) função linear, b) função relé, c) função sigmóide 1, d) função sigmóide 2 e
e) função gaussiana.
Com base neste neurônio Rosemblatt propôs o perceptron (Rosemblatt, 1958), cuja
característica principal é a classificação de conjuntos linearmente separáveis, seu treinamento
é do tipo supervisionado, o ajuste dos pesos e bias é feito através do cálculo do erro entre a
saída produzida pelo perceptron e a saída desejada. A função de ativação utilizada é a função
relé dada por (3.2.4), o ajuste dos pesos é dado por (3.2.8) e o cálculo do erro é dado por
(3.2.9).
Outra rede, baseada em um único neurônio, é a rede ADALINE, proposta por Widrow e
Hoff que utiliza o algoritmo LMS (Least mean square) (Widrow and Hoff, 1960), a diferença
entre o perceptron e o ADALINE ocorre no ajuste dos pesos e bias, sendo que no ADALINE,
o erro é calculado tomando-se a saída intermediária da rede. A adaptação dos pesos é dada por
(3.2.8), mas o erro é dado por (3.2.10). A função de ativação desta rede é a mesma do
perceptron.
8
(3.2.8)
Sendo:
ε(k) – Erro;
(3.2.9)
Sendo:
ε(k) – Erro produzido pela saída da rede Y(k) com a saída desejada D(k), dado por (5).
(3.2.10)
Sendo:
ε(k) – Erro produzido pela saída intermediaria da rede y(k) com a saída intermediaria desejada
d(k).
9
W01
1
X1 W11 ∑ F1(.)
U01
U11
W12
1 ∑ F2(.) 1
W13 U12
V11
W02 V01
W21
U21
X2 W22 ∑ F1(.) 1 ∑ Fn(.) Y
U22
W23
U02 V21
1
W31 U31
∑ F2(.)
W32 W03
U32
X3 W33 ∑ F1(.)
Figura 3.3.1. Rede neural artificial perceptron multicamadas, com 3 camadas, com 3 entradas, 3neurônios na
camada de entrada, 2 neurônios na camada intermediaria e uma saída.
Sendo:
ne – número de entradas;
ns – número de saídas;
Cada camada pode ter uma função de ativação Fi diferente e possui um número de
funções de ativação igual ao número de neurônios desta camada.
Este algoritmo visa o ajuste dos pesos e bias das redes MLP de forma a minimizar a
função erro através do gradiente descendente desta função. O treinamento se dá por encerrado
quando um número máximo de iterações (épocas) é atingido ou o valor do módulo do
gradiente da função erro é menor que um parâmetro pré-especificado.
A função erro ou função desempenho, mais utilizada em redes MLP via backpropagation
é a função MSE (Mean Squared Error) dada por (3.4.1) (Haykin, 2008). De forma geral, o
ajuste dos pesos e bias é dado por (3.4.2).
(3.4.1)
Sendo:
(3.4.2)
Sendo:
β – taxa de aprendizagem;
δj – pode ser calculado por (3.4.3) se W for a ultima camada ou por (3.4.4) para as demais camadas;
(3.4.3)
Sendo:
– derivada da função de ativação da camada W;
– Erro, dado por (3.2.9).
(3.4.4)
Sendo:
– derivada da função de ativação da camada W;
– peso da camada U, que liga o neurônio j da camada W ao neurônio k da camada U.
12
Este algoritmo tem este nome, pois o ajuste dos pesos e bias é realizado na direção
contrária ao cálculo da saída, o primeiro ajuste ocorre nos pesos e bias da última camada e a
partir destes os demais reajustes são realizados.
Inicialmente os pesos e bias são determinados de modo aleatório, com valores entre [0 1].
O treinamento das redes MLP via backpropagation é do tipo supervisionado e pode ser
efetuado de duas formas (Minussi e Silveira, 1995). O treinamento pode ser efetuado
realizando-se uma iteração para cada padrão de entrada (treinamento “on-line” ou treinamento
por padrão) ou uma iteração após a apresentação de todos os padrões de entrada do lote de
treinamento (treinamento “off-line” ou treinamento por lote), onde uma iteração consiste em
um ajuste dos pesos e bias.
Apesar de ser um algoritmo bastante utilizado, o algoritmo backpropagation apresenta
dois grandes problemas, o da alta probabilidade em se cair em mínimos locais e a paralisia da
rede (Krose e Smagt, 1996).
As maiorias das redes MLPs envolvem funções de ativação do tipo sigmóide em pelo
menos uma de suas camadas, estas funções fazem com que a função erro apresente vários
mínimos locais. Um dos critérios de parada do algoritmo backpropagation se dá quando o
valor do módulo do gradiente da função erro é menor que um parâmetro pré-especificado,
neste caso a função erro cai em um mínimo e a probabilidade deste ser um mínimo local é
alta.
A paralisia da rede se dá quando o estímulo produzido na entrada da função de ativação
(sigmóide) é muito elevado, ocasionando em uma derivada de valor aproximadamente nulo,
sendo assim, o ajuste do peso dado por (3.4.2) é praticamente nulo, pois depende da derivada
da função de ativação.
Existem vários algoritmos derivados deste que apresentam um melhor desempenho,
tentando evitar os mínimos locais e a paralisia da rede através do ajuste dinâmico de alguns
parâmetros do treinamento e das funções sigmóides. Entre eles estão:
Algoritmo backpropagation com momento (Widrow e Lehr, 1990)
Algoritmo backpropagation com taxa de aprendizagem adaptativa
Algoritmo backpropagation com momento e taxa de aprendizagem adaptativa
Algoritmo backpropagation com momento e ajuste da taxa de treinamento através de
lógica fuzzy (Lopes et al., 2000)
Algoritmo backpropagation com ajuste dinâmico dos parâmetros de inclinação e
translação da função sigmóide (Lopes et al., 2003)
13
As principais redes desta família são as redes ART1, ARTMAP, ART fuzzy e ARTMAP
fuzzy (Grossberg, 1987), (Carpenter et al., 1991a, 1991c 1992). As redes ART1 e ART fuzzy
são redes com treinamento não supervisionado, e as redes ARTMAP e ARTMAP fuzzy são
redes com treinamento supervisionado. As redes ART1 e ARTMAP se diferem das redes
ART fuzzy e ARTMAP fuzzy por processarem apenas dados binários enquanto que as outras
duas processam tanto dados binários quanto analógicos. A diferença em seus algoritmos é que
nas redes ART fuzzy e ARTMAP fuzzy são utilizados os operadores lógicos fuzzy AND/OR e
nas redes ART1 e ARTMAP são utilizados os operadores lógicos binários AND/OR.
A rede ART pode ser descrita por um sistema composto de dois subsistemas, um
subsistema de atenção e um subsistema de orientação (Grossberg, 1987).
Subsistema de Subsistema de
atenção orientação
F2 STM
reset
LTM
LTM
F1 STM
ρa
Parâmetro de escolha (α > 0) – Parâmetro que define a ordem de busca das atividades
em F2.
Parâmetro de vigilância (ρ E [0 1]) – Parâmetro que define a seletividade do sistema,
quanto mais próximo de um, mais seletivo será o sistema.
Parâmetro de taxa de treinamento (β Ε [0 1]) – Parâmetro que define a velocidade em
que os pesos são reajustados, para β=1 o treinamento é considerado rápido.
Reconhecimento – Etapa que ocorre na camada F2. O vetor I com os vetores linha da
matriz W gera estímulos em F2. A atividade YJ é então selecionada e corresponde ao
maior estímulo gerado pelo vetor linha WJ e o vetor I.
Comparação – Etapa que ocorre na camada F1. O vetor I é comparado com o vetor
linha WJ, gerando a atividade X, se X for maior que ρ, então o neurônio J é ativado,
ocorre a ressonância, e passa-se para a fase de aprendizagem (adaptação do pesos),
caso contrário, entra-se na fase de busca até que ocorra a ressonância.
Busca – Quando não ocorre a ressonância, ocorre o reset, o estímulo produzido pelo
vetor linha WJ com I é zerado e uma nova atividade YJ’ é selecionada.
Aprendizagem – Quando ocorre a ressonância, ocorre o ajuste dos pesos do vetor linha
WJ. Nesta fase se β=1 os pesos são ajustados em um único ciclo, para β<1 são
necessários mais de um ciclo para o ajuste dos pesos. Existem vantagens e
desvantagens para cada um dos casos, para β=1, a rede é capaz de aprender em apenas
um ciclo a respeito de eventos raros, porém para os eventos comuns esta pode não ser
a melhor solução, sendo preferível utilizar nestes casos β<1. Porém, no caso de se
utilizar β<1, mais ciclos de treinamento serão necessários, tornando assim o processo
de aprendizagem mais lento.
16
⋀ í í (4.2.1)
⋁ á á (4.2.2)
⋀ í í í í (4.2.3)
⋁ á á á á (4.2.4)
No R2 os pontos u, v, u⋀v e u⋁v, formam um retângulo, dado pela figura 4.2.1, este
retângulo é denominado hiper-retângulo.
11 uu u⋁v
u⋁v
u⋀v
u⋀v vv
11
Figura 4.2.1 Representação geométrica do hiper-retângulo formado pelos pontos u, v, uv e uv.
17
ART
F2
reset
Wj
F1
ρ
A AC
Normalização e
F0 Código
Complemento
A classificação e aprendizagem dos padrões nas redes ART fuzzy é dada basicamente em
seis etapas: normalização do vetor de entrada, execução do código complemento,
reconhecimento, comparação (teste de vigilância), busca e aprendizagem.
18
Antes de descrever o processo de classificação de padrões nas redes ART fuzzy, serão
definidos cada um dos elementos que a compõem.
Sendo:
– matriz de pesos.
Inicialmente realiza-se a leitura dos parâmetros iniciais α, ρ, β e Nc. Feito isso, deve-se
inicializar os pesos da rede, estes são inicializados todos iguais a um, conforme (4.3.1):
(4.3.1)
Cada linha j da matriz W (vetor linha Wj) representa uma categoria, cada categoria é então
um vetor representado geometricamente por hiper-retângulos. Na ressonância o vetor Y
representa a categoria ativada por A.
Realizada a leitura dos parâmetros e a inicialização dos pesos, passa-se para a fase de
classificação e aprendizagem.
(4.3.2)
(4.3.3)
(4.3.4)
(4.3.5)
A norma utilizada em Carpenter et al. (1991c) é a norma da soma, toda vez que aparecer a
norma subtende-se que seja a norma da soma.
(4.3.6)
Sendo:
(4.3.7)
⋀ (4.3.8)
⋀ (4.3.9)
⋀ (4.3.10)
⋀ ⋁ (4.3.11)
(4.3.12)
(4.3.13)
A ressonância ocorre se for satisfeita a condição dada por (4.3.14), caso contrário, entra-se
na fase de busca.
⋀ (4.3.14)
Busca – Nesta fase, zera-se o elemento TJ (reset), e escolhe-se outra categoria, calculam-
se novamente os elementos de Y e passa-se para a fase de comparação. Este processo se repete
até ocorrer a ressonância.
Aprendizagem – Nesta etapa é realizada a adaptação dos pesos da categoria J, dada por
(4.3.15).
⋀ (4.3.15)
Leitura do padrão de
entrada A
Normalização e Código
complemento
Normalização e Código
Complemento
Reconhecimento
Escolha da categoria
através da função de
escolha
TJ=máx{Tj: j=1,...,N}
YJ=1
Aprendizagem
Teste de vigilância
Sim Não TJ=0
Comparação Busca
Os módulos ART são denominados ARTa e ARTb, cada um é responsável pela pré-
classificação dos dados de entrada e saída respectivamente. O módulo inter-ART realiza a
conexão entre as categorias de entrada e as categorias de saída. A arquitetura desta rede é
dada pela figura 4.4.1.
inter-ART
Fab
Wjab
Xab
ARTa ARTb
Wja Wkb
F1a F1b
ρa ρb
match-tracking
A AC B BC
Normalização e Normalização e
F0a Código F0b Código
Complemento Complemento
A B
Antes de descrever o seu funcionamento, serão descritos os elementos que compõem uma
rede ARTMAP fuzzy.
23
Sendo:
A aprendizagem da rede ARTMAP fuzzy pode ser descrita basicamente em seis etapas,
normalização dos vetores de entrada e saída, execução do código complemento,
reconhecimento, comparação, busca e aprendizagem. Antes de serem realizadas estas etapas é
realizada a leitura dos parâmetros α, ρa, ρb, ρab, β, ε, Nca, Ncb, feito isto ocorre a inicialização
dos pesos, todos iguais a um. Durante todo o processo, são realizados três processos de
comparação e três processos de busca, um para cada módulo. O processo de comparação e
busca realizado no módulo inter-ART é denominado “match-tracking”, este processo visa a
conexão das categorias ativas no módulo ARTa e ARTb. Todo o processo de aprendizagem
será descrito através do fluxograma da figura 4.4.2.
24
Normalização e Código
Complemento
Reconhecimento
Escolha da categoria:
TbK=máx{Tbk : k=1,...,Ncb}
Atividade de F2b:
Teste de vigilância
Sim Não TbK=0
TaJ=máx{Taj : j=1,...,Nca}
Atividade de F2a:
Teste de vigilância
Sim Não TaJ=0
Acréscimo do
parâmetro de vigilância
ρa:
Teste de vigilância
Sim Não TaJ=0
Comparação
Aprendizagem
Busca
ART1 – Primeira rede neural artificial da família ART, introduzida por Grossberg em
1987, sua principal característica é o treinamento não supervisionado e a capacidade de
reconhecimento de padrões de entrada binários de forma aleatória. (Grossberg, 1987)
ART2 – Rede neural da família ART, com treinamento não supervisionado capaz de
reconhecer padrões de entrada binários e analógicos de forma aleatória. Diferentemente da
rede ART1, a rede ART2 utiliza-se de equações algébricas para a seleção de categorias,
enquanto que a rede ART1 utiliza-se de lógica binária. (Carpenter e Grossberg, 1987).
ART2-A – Rede neural da família ART, derivada da rede ART2 com algoritmo
modificado para exercer o treinamento de forma mais rápida (cerca de 2 a 3 vezes mais rápido
que a rede ART2) mas com a mesma dinâmica, seu treinamento é do tipo não supervisionado
e com capacidade de reconhecer padrões de entrada binários e analógicos de forma aleatória.
(Carpenter et al., 1991b)
ART fuzzy – Rede neural da família ART, derivada da rede ART1, com treinamento não
supervisionado, seu algoritmo foi modificado para reconhecer padrões de entrada binários e
analógicos de forma aleatória. Sua grande diferença com relação à rede ART é que são
utilizados ao invés das operações lógicas binárias AND/OR, os operadores lógicos fuzzy
AND/OR. (Carpenter et al., 1991c)
ARTMAP fuzzy – Rede neural da família ART, derivada da rede ARTMAP, cuja
característica principal é o treinamento supervisionado de padrões de entrada e saída binários
26
e/ou analógicos. Isto é feito, substituindo as operações lógicas binárias AND/OR da rede
ARTMAP pelos operadores lógicos fuzzy AND/OR. (Carpenter et al., 1992)
S-ART – Rede neural da família ART, derivada da rede ART2-A, seu algoritmo foi
modificado para acelerar o processo de treinamento da rede ART2-A no modo de treinamento
intermediário, reduzindo o número de apresentações dos padrões de entrada, necessários para
que a rede aprenda de forma eficaz. O treinamento intermediário força o algoritmo a tomar
passos pequenos na direção de cada padrão de entrada, permitindo uma associação de
categorias de forma mais eficaz. Segundo os autores isto pode ser conseguido ajustando-se o
parâmetro de treinamento para 1/P onde P é o número de vezes que o padrão de entrada será
apresentado para a rede. (Taylor e Greenhough, 1994)
Gaussian ARTMAP – Rede neural da família ART, derivada da rede ARTMAP com
treinamento supervisionado de padrões de entrada binários e/ou analógicos. Sua principal
diferença está na função de escolha, baseada na distribuição gaussiana. Resultados
comprovam uma melhor generalização e bom desempenho em ambientes ruidosos quando
comparada com a rede ARTMAP fuzzy. (Williamson, 1996)
RBF-Fuzzy ARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy
com treinamento supervisionado e rápido de padrões de entrada binários e/ou analógicos.
Trata-se de uma rede híbrida que combina a rede de base radial (RBF – Radial Basis
Function) com a rede ARTMAP fuzzy. Foi projetada para contornar os problemas na
classificação de padrões obtidos com a ordem de apresentação dos padrões de entrada. Na
rede ARTMAP fuzzy este problema é bastante comum, pois esta rede possui modo de
treinamento “on-line”, onde os pesos são atualizados na medida em que são apresentados
novos padrões de entrada, já nas redes do tipo base radial, a ordem de apresentação dos
padrões de entrada não interfere muito no seu desempenho, uma vez que o treinamento seja
realizado “off-line”, ou seja, antes de ocorrer a atualização dos pesos, ocorre um pré-
processamento de todos os dados. A criação desta nova rede permite uma rede com a mesma
dinâmica e as mesmas características de estabilidade/plasticidade das redes ARTMAP fuzzy,
menos sensível à ordem de apresentação dos padrões de entrada. Esta rede possui uma
estrutura muito similar a da rede ARTMAP fuzzy, só que ao invés do módulo ARTa, existe
um módulo RBF, este módulo é composto pela camada de entrada e a camada escondida da
rede RBF. (Tontini e Abelardo, 1996)
27
Ellipsoid ART/ARTMAP (EA/EAM) – Rede neural da família ART, derivadas das redes
H-ART/H-ARTMAP com treinamento não supervisionado e supervisionado de padrões de
entrada binários e/ou analógicos. A sua grande diferença em relação às redes H-ART/H-
ARTMAP está no modo como são representadas as categorias, nestas as categorias são
representadas por hiper-esferas, já nas redes EA/EAM as categorias são representadas por
elipses. (Anagnostopoulos e Georgiopuolos, 2001)
μARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy com
treinamento supervisionado e rápido de padrões de entrada binários e/ou analógicos. Projetada
28
ART-Kohonen – Rede neural da família ART, derivadas das redes ART1 e Kohonen com
treinamento não supervisionado de padrões de entrada binários e/ou analógicos. Trata-se de
um modelo hibrido com arquitetura semelhante a da rede ART1, porém a escolha das
categorias, o teste de vigilância e a adaptação dos pesos são baseados na rede de Kohonen. A
categoria escolhida se baseia na topologia do neurônio vencedor WTA (Winner Takes All)
cujo neurônio vencedor é tido como aquele que possui a menor distância euclidiana com o
padrão de entrada. (Yang et al., 2003)
ART&ARTMAP fuzzy – Rede neural da família ART composta por duas redes, uma rede
ART fuzzy para o pré-processamento de sinais analógicos e uma rede ARTMAP fuzzy para o
treinamento supervisionado de padrões de entradas e saídas. O padrão de entrada é composto
por dois vetores, um vetor de entrada externo e outro provido da saída da rede ART fuzzy.
(Lopes et al., 2005)
Biased ARTMAP – Rede neural da família ART, derivada da rede ARTMAP fuzzy para o
treinamento supervisionado de padrões de entrada binários e/ou analógicos. Desenvolvida
para lidar com os problemas que podem ser ocasionados pela atenção direta aos
comportamentos críticos, esta rede volta a sua atenção para as categorias já aprendidas
durante o processo de busca. (Carpenter e Gadam, 2010)
A figura 4.5.1. ilustra as redes da família ART acima descritas.
30
ART
Treinamento não
supervisionado
ART1 ART2
(1987) (1987)
ART
ART fuzzy H-ART ART2-A S-ART
Kohonen
(1991) (2000) (1991) (1994)
(2003)
ARTN
E-ART
Fuzzy
(2001)
(2006)
Treinamento
ARTMAP
supervisionado (1991)
ARTMAP H- Gaussian
fuzzy ARTMAP ARTMAP
(1992) (2000) (1996)
GEAM
(2007)
Embora as redes MLP sejam as mais utilizadas, recentemente, tem sido publicado
bastantes trabalhos utilizando as redes da família ART. Neste estudo foram vistos algumas
aplicações recentes, dentre elas estão:
Uso da rede ARTMAP para problemas que envolvam dados coletados a partir de
diferentes fontes com perspectivas, pontos de vista e objetivos diferentes, este tipo de
problema é tratado na literatura especializada como sendo um problema de data fusion
ou fusão de dados. (Carpenter et al. 2005)
Previsão de preço de energia elétrica utilizando redes neurais artificiais, neste trabalho
é utilizada uma rede da família ART para o pré-processamento dos dados de entrada
que alimenta uma rede MLP backpropagation para a previsão do preço de energia
elétrica de um dia à frente. (Pino et al. 2008)
4.7. Inclusão do treinamento continuado nas redes ART fuzzy e ARTMAP fuzzy
Nesta seção serão apresentados os fluxogramas das seções 4.3 e 4.4 modificados,
possibilitando o treinamento continuado destas redes.
Na rede ART fuzzy, a etapa onde o número de categorias é incrementado ocorre na fase de
busca. A criação de uma nova categoria implica na criação de um novo vetor linha na matriz
de pesos W, com valores inicializados todos iguais a 1.
Na rede ARTMAP fuzzy, este processo se torna um pouco mais complexo, pois lida com a
criação de duas categorias, as categorias do módulo ARTa e as categorias do módulo ARTb.
Portanto, a etapa de incremento, deve ocorrer nas fases de busca do módulo ARTa, do módulo
ARTb e do módulo Inter-ART. Cada vez que for criada uma nova categoria no módulo ARTa,
ou seja, cada vez que for criado um novo vetor linha em Wa, deve ser criado um novo vetor
linha em Wab, a criação desta nova categoria pode ocorrer tanto na fase de busca do módulo
ARTa quanto na fase de busca do módulo Inter-ART. Cada vez que for criada uma nova
categoria no módulo ARTb, ou seja, cada vez que for criado um novo vetor linha em Wb, deve
ser criada um novo vetor coluna em Wab. Os vetores linha criados nas matrizes Wa, Wb e Wab
são vetores com elementos unitários, já que essas linhas correspondem a uma categoria
inativa. O vetor coluna criado na matriz Wab é um vetor com zeros e uns. A criação de uma
nova coluna na matriz Wab inclui linhas ativas e linhas inativas que correspondem as
categorias ativas e inativas do módulo ARTa. Sendo assim, este vetor coluna deve assumir
zeros nas linhas que correspondem às categorias ativas e uns nas linhas que correspondem às
categorias inativas. As figuras 4.7.1 e 4.7.2 ilustram o fluxograma modificado das redes ART
fuzzy e ARTMAP fuzzy, respectivamente.
33
Leitura do padrão de
entrada A
Normalização e Código
complemento
Normalização e Código
Complemento
Reconhecimento
Escolha da categoria
através da função de
escolha;
Cont_a=1;
TJ=máx{Tj : j=1,...,Nc}
Nc=Nc+1;
Cont_a≤Nc
J=Nc; Não
WJ=1;
sim
YJ=1
Aprendizagem
Comparação Busca
Figura 4.7.1. Fluxograma do algoritmo de classificação da rede ART fuzzy, modificado para o treinamento
continuado.
34
Normalização e Código
Complemento
Reconhecimento
Escolha da categoria:
*i=1 para as
categorias inativas
da coluna K;
i=0 para as
categorias ativas da
coluna K;
Cont_a=1;
Cont_b=1;
Ncb=Ncb+1;
K=Ncb;
Não
WbK=1;
WabK=i;*
Atividade de F2b:
Teste de vigilância TbK=0; Cont_b≤Ncb
Sim Não
Cont_b=Cont_b+1;
TaJ=máx{Taj : j=1,...,Nca}
Nca=Nca+1;
J=Nca;
Não
WaJ=1;
WabJ=1;
Atividade de F2a:
Teste de vigilância TaJ=0; Cont_a≤Nca
Sim Não Sim
Cont_a=Cont_a+1;
Acréscimo do
parâmetro de vigilância
ρa:
Não
Adaptação dos pesos:
Comparação
Aprendizagem
Busca
Figura 4.7.2. Fluxograma do algoritmo de classificação da rede ARTMAP fuzzy, modificado para o treinamento
continuado.
35
entradas analógicas e uma rede ARTMAP fuzzy para a aprendizagem supervisionada. Através
deste sistema, os autores conseguem um ganho computacional em termos de velocidade de
processamento e menores erros na previsão, comparados com os resultados obtidos
utilizando-se uma rede MLP via backpropagation.
Mês de referência
(m/12), m=mês
Dia da semana
[1 0 0 0]T - segunda-feira
[0 1 0 0]T - terça à sexta-feira
[0 0 1 0]T - sábado
[0 0 1 0]T - domingo
Horário de verão
1 – pertence
0 - não pertence Sistema 1 Carga n (Normalizada)
Feriado
1 – sim
0 – não
Hora de referência
(n/48), n=amostra
Mês de referência
(m/12), m=mês
Dia da semana
[1 0 0 0]T - segunda-feira
T
[0 1 0 0] - terça à sexta-feira
[0 0 1 0]T - sábado
[0 0 1 0]T - domingo
Horário de verão
1 – pertence Carga n (Normalizada)
0 – não pertence
Feriado
1 – sim Carga n+1 (Normalizada)
0 – não
A escolha das redes ARTMAP fuzzy e GRNN para a previsão de cargas é porque estes
sistemas são capazes de identificar padrões e comportamentos. Uma vez treinado o sistema,
38
dado uma entrada, este sistema irá identificar o padrão que mais se identifica com a entrada e
deste modo realiza a previsão. O funcionamento de ambas as redes são muito parecidos, com
a diferença de que as redes da família ARTMAP possuem um modo de treinamento “on-line”,
podendo ser incluídas em aplicações que necessitam do treinamento continuado.
Utilizou-se para cada sistema, uma rede ARTMAP fuzzy e uma GRNN, para o sistema 1,
as redes foram denominadas ARTMAP1 e GRNN1, para o sistema 2 as redes foram
denominadas ARTMAP2 e GRNN2. Estas redes foram treinadas com dados históricos
extraídos do Centralized Dataset (CDS) disponibilizados pelo Electricity Comission da Nova
Zelândia, referentes à carga global de 9 subestações de energia elétrica da Nova Zelândia. Os
parâmetros de entrada e saída de cada sistema são ilustrados nas Figs. 5.1 e 5.2.
Para cada rede, foram realizados 3 treinamentos distintos e 3 previsões distintas. A tabela
5.1 faz referência ao período compreendido em cada treinamento, a tabela 5.2 é referente aos
dias previstos em cada previsão. As redes foram treinadas e simuladas através do aplicativo
MATLAB, para a GRNN, utilizou-se do toolbox de redes neurais.
Treinamento Período
Previsão Período
Os parâmetros de treinamento de cada uma das redes podem ser observados através da
tabela 5.3. A tabela 5.4 apresenta os resultados obtidos, em termos de tempo de treinamento
(s), tempo de previsão (s), MAPE (Mean Absolute Percentage Error) e EMáx (Erro Máximo
absoluto percentual).
39
GRNN1 Spread=0.04
GRNN2 Spread=0.075
Tabela 5.4. Resultados obtidos com o uso das redes GRNN1, GRNN2, ARTMAP1 e ARTMAP2.
T. tr. 0.30 0.34 16.04 0.04 0.31 0.32 15.99 0.04 0.28 0.35 15.98 0.04
(s)
T. 3.07 0.17 0.37 0.02 5.97 0.24 0.68 0.02 8.69 0.32 1.01 0.03
prev.
(s)
MAPE 3.06 3.51 2.33 3.48 2.61 2.56 2.09 2.69 2.42 2.17 2.16 2.36
(%)
EMáx 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36
(%)
GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP
1 2 1 2 1 2 1 2 1 2 1 2
Treinamento 2
T. tr. 0.32 0.35 101.37 0.08 0.33 0.33 97.91 0.07 0.33 0.31 100.42 0.07
(s)
T. 3.17 0.17 1.14 0.02 6.18 0.23 1.88 0.03 8.84 0.30 2.88 0.04
prev.
(s)
MAPE 3.11 3.02 2.28 3.48 2.72 2.42 2.10 2.70 2.47 1.97 1.90 2.68
(%)
EMáx 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36 12.24 13.89 11.16 16.36
(%)
GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP GRNN GRNN ARTMAP ARTMAP
1 2 1 2 1 2 1 2 1 2 1 2
Treinamento 3
T. tr. 0.34 0.33 --------- 6.41 0.37 0.34 --------- 6.72 0.35 0.32 --------- 6.63
(s)
T. 5.95 0.18 --------- 0.16 11.59 0.25 --------- 0.31 17.10 0.31 --------- 0.49
prev.
(s)
MAPE 3.06 2.99 --------- 3.48 2.72 2.85 --------- 2.70 2.46 2.41 --------- 2.68
(%)
EMáx 12.11 13.76 --------- 16.36 12.11 13.76 --------- 16.36 12.11 13.76 --------- 16.36
(%)
vetores no treinamento da ARTMAP2. A rede ARTMAP1, não foi treinada com todos os
vetores correspondentes ao treinamento 3, pois, levar-se-ia muito tempo para realizar tal
treinamento. Quanto ao tempo de previsão, de modo geral, observa-se que quanto maior o
período previsto, maior o tempo necessário para realizar a previsão, de modo geral as redes
ARTMAPs são mais rápidas que as redes GRNNs. O tempo gasto pelas redes do sistema 2,
levam menos tempo para realizar as previsões, isto porque para prever um dia com o sistema
2 é necessário realizar apenas uma previsão, enquanto que o sistema 1 necessita realizar 48
previsões.
6. Conclusões
Neste trabalho foram estudadas as principais características das principais redes da família
ART. A grande vantagem em se trabalhar com as redes da família ART é o treinamento
rápido, “on-line” e estável, podendo este ser supervisionado ou não supervisionado. Quando
submetidos a um extenso treinamento sua capacidade de generalização é superior a das redes
MLP via backpropagation.
O treinamento destas redes é considerado rápido, pois necessita de poucas iterações e não
existe um critério de parada, sendo possível o usuário decidir a quantidade de vezes que um
mesmo padrão será apresentado à rede. Além disso, somente os pesos que correspondem a
aquele padrão serão atualizados, deste modo não interfere na resposta do sistema para outros
padrões.
Algumas desvantagens em se trabalhar com as redes da família ART é a proliferação de
categorias e a dependência da ordem com que os padrões de entrada são apresentados, mas
estes problemas podem ser contornados através do uso de técnicas híbridas.
As redes da família ART são bastante indicadas para o reconhecimento de padrões,
problemas que envolvam variáveis lingüísticas, data mining ou mineração de dados, data
fusion ou fusão de dados, clusterização, entre outros.
Para o problema da previsão de cargas foi possível obter, utilizando a rede ARTMAP
fuzzy, bons resultados, comparáveis com os resultados obtidos com a GRNN e em alguns
casos, até melhores, como no caso da rede ARTMAP1. As grandes vantagens destas redes
são: a possibilidade de trabalhar em sistemas que necessitam de treinamento continuado e as
características de estabilidade e plasticidade, possibilitando o aprendizado de novas
informações sem que as informações passadas sejam perdidas.
42
7. Referências Bibliográficas
BOX, G.E.; JENKINS, G.M. Times series analysis: forecasting and control. San
Francisco, USA: Holden-Day, 1976.
CARPENTER, G.A.; GROSSBERG, S.; ROSEN, D.B. Fuzzy ART: Fast stable learning
and categorization of analog patterns by an adaptive resonance system. Neural Networks, v.
4, p. 759-771, 1991c.
GROSSBERG, S. How does a brain build a cognitive code? Psychological Review, v. 87,
p.1-51, 1980.
GU, M. Fuzzy ART neural network model and its application. IEEE International
Conference on Intelligent Computing and Intelligent Systems, 2009. ICIS 2009. v. 1, p.
195-198, 2009.
HAYKIN, S. Neural Networks and Learning Machines. 3rd Ed. New Jersey, USA:
Prentice-Hall, 2008.
HOPFIELD, J.J. Neural networks and physical systems with emergent collective
computational abilities. Proceedings of the National Academy of Sciences, v. 79, p. 2554-
2558, USA, 1982.
MOODY, J.; DARKEN, C.J. Fast leaning in networks of locally tuned processing units.
Neural Computation, v. 1, p. 281-294, 1989.
PINO, R.; PARRENO, J.; GOMEZ, A.; PRIORE P. Forecasting next-day price of
electricity in the Spanish energy market using artificial neural networks. Engineering
Applications of Artificial Intelligence, v. 21, p. 53-62, 2008.
46
SAINI, L.M.; SONI, M.K. Artificial neural network based peak load forecasting using
Levenberg-Marquardt and quasi-Newton methods. IEEE Proceedings on Generation,
Transmission & Distribution, v. 149 (5), p. 578- 584, 2002.
TONTINI, G.; QUEIROZ, A. A. RBF Fuzzy-ARTMAP: A new fuzzy neural network for
robust on-line learning and identification of patterns. IEEE International Conference on
Systems, Man, and Cybernetics, 1996, v. 2, p. 1364-1369, 1996.
VASILIC, S.; KEZUNOVIC, M. Fuzzy ART neural network algorithm for classifying the
power system faults. IEEE Transactions on Power Delivery, v. 20, n. 2, p. 1306-1314,
2005.
47
WERBOS, P.J. Beyond regression: New tools for prediction and analysis in the
behavioral sciences. Tese de mestrado, Harvard University, 1974.
WIDROW, B.; M.E. HOFF JR., M.E. Adaptive switching circuits. IRE WESCON
Convention Record, p. 96-104, 1960.
WILLSHAW, D.J.; MALSBURG, C. VON DER How patterned neural connections can
be set up by self-organization. Proceedings of the Royal Society of London Series B, v.
194, p. 431-445, 1976.
YANG, B. S.; HAN, T.; AN, J. L. ART-Kohonen neural network for fault diagnosis of
rotating machinery. Mechanical Systens and Signal Processing, v. 18, p. 645-657, 2004.