Arq 0477

September 24-28, 2012
Rio de Janeiro, Brazil
DESEMPENHO DO ALGORTMO DE BACKPROPAGATION COM A FUNO DE

ATIVAO BI-HIPERBLICA
Geraldo Miguez
COPPE / PESC, Universidade Federal do Rio de Janeiro, Brasil
geraldomiguez@gmail.com
Nelson Maculan
maculan@cos.ufrj.br
Adilson Elias Xavier
adilson@cos.ufrj.br
RESUMO
A utilizao mais ampla do algoritmo de Backpropagation na soluo de problemas
prticos do mundo real tem esbarrado na sua relativa lentido. Muitas tcnicas tm sido
discutidas para acelerar o seu desempenho e a tcnica apresentada neste trabalho a utilizao de
uma nova funo de ativao, a funo Bi-hiperblica, que proporciona melhor desempenho
computacional, possibilitando fugir do problema de saturao dos neurnios e exigindo uma
arquitetura mais leve, com um menor nmero de neurnios em sua camada oculta. A maior
flexibilidade, eficincia e capacidade de discriminao desta funo demonstrada atravs de um
conjunto de experimentos computacionais com problemas tradicionais da literatura.
PALAVRAS CHAVE. Redes Neurais; Backpropagation; Funo Bi-hiperblica;
rea principal. Programao Matemtica
ABSTRACT
The use of Backpropagation algorithm in real world problems solutions has been blocked
by its slow performance. Many techniques have been discussed to speed up its performance and
in this paper a new strategy is presented based on the use of a new activation function, the Bihyperbolic function, that offers more flexibility, avoids saturations problem e needs a smaller
architecture with less neurons and shows a faster evaluation time. The efficiency and the
discrimination capacity of the proposed methodology are shown through a set of computational
experiments with traditional problems of the literature.
KEYWORDS. Neural Networks; Backpropagation; Bi-hyperbolic Function;
Main area. Mathematical Programming
3539

Introduo
A utilizao de Redes Neurais Artificiais (RNA) vem se destacando na construo de
sistemas para uso em diversas reas do conhecimento humano. Isto se deve, em grande parte,
pela utilizao das redes do tipo Perceptron de Mltiplas Camadas (Multilayer Perceptrons
MLP).
Por suas caractersticas de obter solues atravs do aprendizado do comportamento do
ambiente no qual ela est inserida, as redes neurais artificiais dependem de um eficiente
algoritmo de treinamento. Segundo informes encontrados na literatura especializada, o algoritmo
mais utilizado tem sido o Backpropagation. um mtodo computacionalmente eficiente para o
treinamento de redes MLPs e que resolve o problema de realizar a propagao reversa do erro em
RNAs com mltiplas camadas. Apesar disto, ele ainda apresenta algumas limitaes na sua
utilizao que impedem a sua aplicao de uma forma mais ampla em problemas do mundo real.
Sendo um mtodo baseado no uso de gradientes, existe sempre a possibilidade de convergncia
para um mnimo local, falhando na localizao do mnimo global. Outro problema
constantemente relatado diz respeito ao caso em que, mesmo nos casos em que consegue atingir o
seu objetivo e apresentar um erro dentro dos limites desejados, a lentido muito grande no seu
processamento pode chegar a impedir o seu uso. Esta demora no processamento dificulta a sua
utilizao em uma gama maior de aplicaes prticas, em especial em aplicaes de mdio e
grande porte (SCHIFFMANN et al, 1994), (OTAIR et al, 2005).
Um dos fatores possivelmente responsvel pela lentido deste processo de convergncia
a funo de ativao usada em seus neurnios. Sendo o processo de aprendizagem da rede
essencialmente iterativo, uma funo mais lenta para ser calculada torna todo o procedimento
demorado. Acredita-se que a razo para isto seja a saturao da funo de ativao usada nos
neurnios em suas diversas camadas. Isto se deve ao fato de que, uma vez que a saturao de uma
unidade ocorre, o gradiente descendente tende a assumir valores muito pequenos, mesmo nos
casos em que o erro de sada ainda grande.
Para otimizar a eficincia e a taxa de convergncia do algoritmo de backpropagation,
proposto neste trabalho a utilizao de uma nova funo de ativao, a Funo Bi-hiperblica
Simtrica. Ela apresenta caractersticas que atendem s necessidades do algoritmo de
backpropagation, alm de possibilitar uma maior flexibilidade na representao dos fenmenos
modelados. Ela conta com o uso de dois parmetros, um a mais do que nas funes
tradicionalmente utilizadas para esta finalidade. Isto implica na possibilidade de melhor enfrentar
o problema da saturao, alm de permitir melhor tratamento para evitar os mnimos locais. Por
suas caractersticas prprias apresenta, ainda, a vantagem de ser computacionalmente muito mais
rpida de ser avaliada do que a funo logstica. (XAVIER, 2005).
Alm disso, o uso desta Funo Bi-Hiperblica possibilita, por sua maior flexibilidade, a
capacidade de poder aproximar qualquer funo de uma forma mais sinttica, permitindo a
utilizao de um menor nmero de neurnios, melhorando ainda mais o desempenho do
algoritmo backpropagation, agindo diretamente na topologia da rede (XAVIER , 2005).
Para possibilitar a avaliao computacional destas caractersticas foi desenvolvido um
prottipo em MATLAB que, atravs de uma interface grfica, permitiu a obteno de resultados
altamente favorveis, apresentados posteriormente neste trabalho.
Redes Neurais Artificiais
Uma Rede Neural Artificial funciona pela criao de ligaes entre suas unidades de
processamento matemtico, chamados de neurnios artificiais. O conhecimento codificado na
rede pela fora destas conexes entre diferentes neurnios, chamada de peso, e pela criao de
camadas de neurnios que trabalham em paralelo. O sistema aprende atravs de um processo de
determinao do nmero de neurnios, ou ns, e pelo ajuste dos pesos dessas conexes com base
nos dados usados para o treinamento. O poder computacional de uma RNA devido basicamente
sua estrutura paralela pesadamente distribuda e sua habilidade de aprender e,
conseqentemente, generalizar (HAYKIN, 2001).
3540

Neurnios Artificiais so unidades de processamento das RNAs. Eles so simplificaes

do conhecimento que se tinha do neurnio biolgico, feitas por McCulloch e Pitts (KVACS,
1996). O modelo desenvolvido apresenta vrios terminais de entrada, representando os dendritos,
e um terminal de sada, representando o axnio. As sinapses tm seu comportamento simulado
pelo acoplamento de pesos a cada terminal de entrada do neurnio artificial e podem assumir
valores positivos ou negativos, emulando sinapses excitatrias ou inibitrias. A sada do neurnio
artificial obtida atravs da aplicao de uma funo de ativao que pode ativar ou no esta
sada, dependendo da soma ponderada dos valores de cada entrada, submetida a esta funo,
atingir um limiar pr-determinado. A funo de ativao limita a faixa de amplitude permitida do
sinal de sada a algum valor finito. Tipicamente, a amplitude normalizada da sada de um
neurnio restrita ao intervalo unitrio fechado [0, 1] ou, alternativamente, [-1, 1]. O modelo
neural usado inclui uma polarizao externa (bias), que tem o efeito de aumentar ou diminuir o
argumento da funo de ativao (), que define a sada do neurnio em termos do potencial de
ativao.
O neurnio pode ser descrito, em termos matemticos da seguinte forma:
p
u k = wkj x j
j =1
vk = u k k
y k = (v k )
Onde x1, x2, ... , xp so os sinais de entrada; wk1, wk2, ... , wkp so os pesos sinpticos do
neurnio k; uk a sada proveniente da combinao linear dos sinais de entrada e pesos; k o
bias; () a funo de ativao; e yk o sinal de sada do neurnio (HAIKIN, 2001).
Funes de Ativao
Um dos componentes mais importantes do neurnio artificial a sua funo de ativao
ou transferncia. Ela tem por objetivo limitar a amplitude vlida do sinal de sada do neurnio a
um valor finito. Normalmente, esta amplitude normalizada se encontra em um intervalo fechado
unitrio [0, 1] ou, em alguns casos, [-1, 1].
As funes de ativao mais comumente utilizadas e disponibilizadas na literatura so
apresentadas abaixo. Tambm so descritas as suas derivadas, que tm grande importncia no
mtodo de treinamento de redes neurais artificiais conhecido como Backpropagation (XAVIER,
2005), (HAYKIN,2001).
a) Funo Degrau
1
0.8
se v 0
se v < 0
1()
1
0
1 (v) =
0.6
0.4
0.2
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
Figura 1: Funo Degrau

A derivada desta funo 1 ' (v) = 0 para v 0 e no definida para v = 0 . A
descontinuidade na origem associada ao valor nulo da derivada nos demais pontos restringe
muito a utilidade prtica desta funo. Ela est representada na Figura 1.
b) Funo Patamar
1
se v b;
0,
2 (v, b) = (v + b) / 2b, se b < v < b;

1,
se v > b;
Sendo b = 1 / 2 tan , onde o ngulo de inclinao. Figura 2: Funo Patamar

0.8
2()
0.6
0.4
0.2
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
3541

A sua derivada no definida nos pontos v = 1 / 2 e v = 1 / 2 , nos demais valores assume:
para v < b;
0,
2 ' (v, b) = 1 / 2b, para b < v < b;

0,
para v > b;
A insensibilidade da derivada fora do intervalo (-b, b) limita consideravelmente o uso prtico

dessa funo de ativao
() .
c) Funo Logstica
Esta a funo de ativao mais utilizada na construo de redes neurais artificiais. Ela
definida como uma funo estritamente crescente que exibe um balano entre o comportamento
linear e o comportamento no-linear, sendo definida por:
(v , a ) =
1
1+ e
av
onde a o parmetro de declividade da funo logstica.

A derivada da Funo Logstica definida por:
' (v, a) = a (v, a)(1

3
(v, a))
Segundo Xavier (XAVIER, 2005), a Funo Logstica oferece a importante

flexibilidade dada por sua inclinao na origem,
' (0, a) = a/4, ser varivel com o parmetro a.

3
Atravs da variao deste parmetro a foram obtidos os grficos de funes Logsticas com
diferentes declividades, que podem ser vistos na Figura 3. Alm disso, a Funo Logstica
apresenta propriedades de simetria e de completa diferenciabilidade, ou seja, pertence classe de
funes c . Variando o parmetro a foram obtidas as derivadas da funo logstica de diferentes
declividades, apresentadas na Figura 4.
0.4
0.35
1
0.3
0.8
0.25
0.2
3()
3()
0.6
0.4
0.15
0.1
0.05
0.2
0
0
-0.05
-0.2
-10
-8
-6
-4
-2
-0.1
-10
10
-8
-6
-4
-2
10
Figura 3: Funo Logstica

Efeito da variao do parmetro a
Figura 4: Derivadas da Funo Logstica

variando o parmetro a
d) Funo de Elliott (ELLIOTT,1993) (XAVIER, 2005)

Esta funo, apresentada na Figura 5, definida por:
(v) =
+ 1 / 2
1+ | v |
A sua derivada, apresentada na Figura 6, definida por:
' (v ) =
2(1+|v|)
Ela apresenta a inclinao de sua derivada na origem invariante, 4(0)=1/2, independente de

qualquer transformao de escala, fato que limita fortemente a flexibilidade dessa funo e seu
decorrente uso prtico.
3542

0.5
0.4
0.6
0.3
4()
4()
0.8
0.4
0.2
0.1
-0.2
-10
0.2
-8
-6
-4
-2
-0.1
-10
10
-8
-6
-4
-2
10
Figura 5: Funo de Elliot
Figura 6: Derivada da Funo de Elliot
e) Funo Bi-Hiperblica (XAVIER, 2005)

A funo Bi-Hiperblica Assimtrica em sua forma mais geral definida por:
5 (v, , 1 , 2 ) = 2 (v + 1 / 4 ) 2 + 12 ) 2 (v 1 / 4 ) 2 + 2 2 ) + 1 / 2 ,
Sendo sua derivada definida por:
2 (v + 1 / 4 )
5 ' ( v , , 1 , 2 ) =
2 (v 1 / 4 )
2 (v + 1 / 4 ) 2 + 12
2 (v 1 / 4 ) 2 + 2 2
A funo 5 (, , 1 , 2 ) apresenta a desejada propriedade de possuir diferenciabilidade
infinita, ou seja, pertence classe de funes c , o que permitir a sua utilizao em algoritmos
de otimizao mais robustos, alm de apresentar as seguintes propriedades triviais consentneas
s demais funes de ativao:
lim 5 (v, , 1 , 2 ) = 0
lim 5 (v, , 1 , 2 ) = 1
v
lim '5 (v, , 1 , 2 ) = 0
lim '5 (v, , 1 , 2 ) = 0

v
Se considerarmos o caso particular obtido igualando-se os valores dos parmetros

1 = 2 = , a funo 5 (, , 1 , 2 ) 5 (, , ) , assume uma forma mais consentnea a outras
=
funes de ativao, tendo imagem no intervalo [0, 1] e oferecendo a propriedade de simetria,

conforme retratado pelos grficos da Figura 7 e Figura 8.
5 (v, , ) = 2 (v + 1 / 4 ) 2 + 2 ) 2 (v 1 / 4 ) 2 + 2 ) + 1 / 2
2 (v + 1 / 4 )
2 (v 1 / 4 )
2 (v + 1 / 4 ) 2 + 2
2 (v 1 / 4 ) 2 + 2
'5 (v, , ) =
2.5
1
2
0.8
1.5
()
()
0.6
0.4
0.2
0.5
0
0
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
Figura 7: Curvas Bi-Hiperblica variando

com fixo
-0.5
0.5
1.5
Figura 8: Derivadas das Curvas BiHiperblica variando com fixo
A funo [ 5 (v, , ) 1 / 2] anti-simtrica, ou seja:
5 (v, , ) 1 / 2 = [5 (v, , ) 1 / 2]
3543

No ponto v = 0 , so observados os seguintes valores para a funo 5 e sua derivada:
5 (0, , ) = 1 / 2
'5 (0, , ) =
2 1 / 16 + 2
lim '5 (0, , ) = 2
Na figura 7, so mostrados grficos da forma simtrica da funo Bi-Hiperblica

correspondentes a trs valores diferentes para o parmetro , mantendo-se o parmetro
constante. Pode-se ver um efeito similar quele produzido pela variao do parmetro a na
funo logstica. Dessa forma pode-se associar o parmetro inclinao da funo na origem.
A funo 5 (, , ) apresenta, ademais, os seguintes comportamentos assintticos:
lim 5 (v, , ) = 1 x(v)
1
lim 5 (v, , ) = 2 v,
0
4
Como bem ressalta Xavier (XAVIER, 2005), a existncia de dois parmetros, um a mais
que as demais funes de ativao, possibilita a essa funo dispor de uma maior flexibilidade
para representar mais adequadamente os fenmenos normalmente modelados com redes neurais.
Numa rede neural multicamadas, por exemplo, essa maior flexibilidade certamente
fornece funo de ativao Bi-Hiperblica o poder de aproximar qualquer funo de uma forma
mais sinttica, com um menor nmero de neurnios. Atravs da manipulao conveniente de seus
parmetros, a funo 5 (, , ) , oferece tambm a possibilidade de poder enfrentar mais
convenientemente o desastroso fenmemo de saturao, alm de poder evitar um indesejado
mnimo local. Um forte indicador destas possibilidades pode ser observado no grfico de sua
derivada, na Figura 8, onde se pode ver que ela apresenta uma taxa de variao do crescimento
bem mais acentuada do que o das derivadas das demais funes.
Arquitetura da rede neural
O projeto de uma rede neural artificial comea com a seleo de uma arquitetura
apropriada e com o treinamento atravs dos exemplos e de um algoritmo especfico. Esta fase a
chamada de aprendizagem. Em seguida feita a avaliao com dados no usados no treinamento
para determinar o seu desempenho nesta tarefa especfica. Esta fase a chamada de
generalizao. O projeto de uma rede neural artificial baseado diretamente nos dados do mundo
real, fazendo com que a rede fornea um modelo implcito do ambiente no qual est inserida,
alm de realizar a funo de processamento de informaes.
Para uma rede neural do tipo MLP o dimensionamento das camadas de entrada e de sada
ser sempre determinado pela natureza do prprio problema, enquanto que a determinao de
quantas camadas ocultas e de quantos neurnios estas devem possuir, no uma tarefa que
permita uma resposta exata. Existem solues aproximadas ou heursticas, que procuram estimar
estes valores. Estas heursticas expem sempre o compromisso entre a convergncia e a
generalizao da rede. Considera-se Convergncia a capacidade da rede de aprender todos os
padres de entrada usados no seu treinamento. Uma rede muito pequena em relao ao problema
em anlise no ser capaz de aprender os dados de treinamento do problema, ou seja, a rede no
possuir parmetros ou pesos sinpticos suficientes (HECHT-NIELSEN, 1989) (HAYKIN,
2001).
Generalizao a capacidade da rede neural de responder adequadamente a padres fora
dos usados no treinamento. Uma rede muito grande, com nmero de neurnios muito superior ao
necessrio, no responder corretamente a estes novos padres e perder a capacidade de
generalizar, uma vez que, durante o processo de treinamento o ajuste dos pesos sinpticos da rede
3544

a levaro a memorizar especificamente estes vetores de entrada alm do rudo presente nestes
dados de treinamento.
A capacidade de generalizao de uma rede neural afetada pelo tamanho e eficincia
dos dados de treinamento, pela arquitetura da rede e nmero de processadores nas camadas
ocultas e pela complexidade do problema. Na prtica, as heursticas so utilizadas em conjunto
com sries de tentativas e ajustes na arquitetura e definies da rede. O principal objetivo obter
uma rede que generalize, ao invs de memorizar os padres usados no treinamento
(STATHAKIS, 2009), (HORNIK, 1989) e (HECHT-NIELSEN, 1989).
Aprendizagem
A propriedade mais importante de uma Rede Neural Artificial a sua capacidade de
aprender a partir do seu ambiente e melhorar seu desempenho atravs deste aprendizado. Isto se
resume no problema de obter um conjunto de parmetros livres que permita rede atingir o
desempenho desejado. Neste processo a rede estimulada pelo ambiente e sofre mudanas em
seus parmetros livres como resultado deste estmulo. Devido s mudanas ocorridas em sua
estrutura interna, ela passa a responder de uma nova forma ao ambiente.
O tipo de aprendizagem determinado pela forma atravs da qual efetuada a mudana
nos parmetros. Os dois paradigmas bsicos de aprendizagem so o aprendizado atravs de um
tutor (Aprendizado Supervisionado) e o aprendizado sem um tutor (Aprendizado NoSupervisionado). Uma terceira forma chamada de Aprendizagem por Reforo utiliza um crtico.
No Aprendizado Supervisionado, uma srie de padres, representados pelos vetores de
entrada, associada com os resultados desejados como resposta e apresentado rede. Os
parmetros internos da rede, chamados de pesos sinpticos, so alterados sistematicamente de
forma a aproximar os resultados obtidos aos das respostas desejadas. Este procedimento consiste
em minimizar os erros obtidos na comparao entre os resultados desejados e os calculados para
os padres usados no treinamento. (HAYKIN, 2001).
Algoritmo de Backpropagation
O treinamento de um Perceptron de Mltiplas Camadas (MLP) consiste em ajustar os
pesos e os thresholds (bias) de suas unidades para que a classificao desejada seja obtida.
Quando um padro inicialmente apresentado rede, ela produz uma sada e, aps medir a
distncia entre a resposta atual e a desejada, so realizados os ajustes apropriados nos pesos de
modo a reduzir esta distncia. Este procedimento conhecido como Regra Delta.
Esse tipo de rede apresenta solues para funes linearmente no-separveis e necessita
de um algoritmo de treinamento capaz de definir de forma automtica os pesos. O algoritmo mais
utilizado para o treinamento destas redes MLP uma generalizao da Regra Delta denominada
de Algoritmo de Backpropagation.
Durante o treinamento com o algoritmo Backpropagation, a rede opera em uma
seqncia de dois passos. No primeiro, um padro apresentado camada de entrada da rede e o
sinal resultante flui atravs dela, camada por camada, at que a resposta seja produzida pela
camada de sada. No segundo passo, a sada obtida comparada sada desejada para esse
padro particular. Se esta no estiver correta, o erro calculado. Este erro propagado a partir da
camada de sada at a camada de entrada, e os pesos das conexes das unidades das camadas
internas vo sendo modificados medida que o erro retropropagado.
Na Regra Delta padro implementado um gradiente descendente no quadrado da soma
do erro para funes de ativao lineares. Entretanto, como a superfcie do erro pode no ser to
simples, as redes ficam sujeitas aos problemas de mnimos locais.
A Regra Delta Generalizada, ou Backpropagation, funciona quando so utilizadas na rede
unidades com uma funo de ativao semi-linear, que uma funo diferencivel e no
decrescente.
A Taxa de Aprendizado uma constante de proporcionalidade no intervalo [0,1], pois
este procedimento de aprendizado requer apenas que a mudana no peso seja proporcional
meta. Entretanto, como o verdadeiro gradiente descendente requer que sejam tomados passos
3545

infinitesimais, quanto maior for essa constante, maior ser a mudana nos pesos, aumentando a
velocidade do aprendizado. Tal situao pode levar a uma oscilao do modelo na superfcie de
erro. Procura-se, ento, utilizar a maior taxa de aprendizado possvel que no leve a uma
oscilao, resultando em um aprendizado mais rpido. O treinamento das redes MLP com
backpropagation pode demandar muitos passos no conjunto de treinamento, resultando em um
tempo de treinamento consideravelmente longo. Se for encontrado um mnimo local, o erro para
o conjunto de treinamento pra de diminuir e estaciona em um valor maior que o aceitvel
(HAYKIN, 2001).
A utilizao da funo de ativao Bi-Hiperblica apresenta uma vantagem grande por
possuir dois parmetros que ajudam a obter um ajuste mais preciso. Outro fator que beneficia este
uso dado pela mudana maior na inclinao de sua derivada, conforme pode ser visto na Figura
8, o que contribui para diminuir o problema da saturao, que ocorre muitas vezes no treinamento
das redes neurais (XAVIER, 2005).
Estudo comparativo
A proposta apresentada neste trabalho para o problema de otimizar a eficincia e a taxa
de convergncia do algoritmo de Backpropagation, prev a utilizao de uma nova funo de
ativao, a Funo Bi-Hiperblica, com caractersticas que atendem s necessidades do algoritmo
de backpropagation. Ela oferece a vantagem de possibilitar maior flexibilidade na representao
dos fenmenos modelados. Conta com o uso de dois parmetros, um a mais do que nas funes
tradicionalmente utilizadas para esta finalidade. Isto implica em melhor enfrentar o problema da
saturao, alm de permitir tratamento para evitar os mnimos locais. Outra vantagem, observada
empiricamente, a de ser computacionalmente muito mais rpida de ser avaliada do que a funo
logstica, pois apesar de tambm poder ser considerada uma funo sigmoidal, o seu clculo
feito diretamente, enquanto que a funo logstica tem como seu principal algoritmo de clculo
usado em sistemas computacionais ser o de expanso da Srie de Taylor, conforme apresentado
na seguinte equao (HAHN, 1993):
ex = 1+
x x2 x3
+
+
+ ...
1! 2! 3!
Alm disso, a sua maior flexibilidade possibilita a capacidade de poder aproximar

qualquer funo de uma forma mais sinttica, permitindo a utilizao de um menor nmero de
neurnios. Isto melhora ainda mais o desempenho do algoritmo backpropagation, agindo
diretamente na topologia da rede (XAVIER, 2005).
Para permitir uma avaliao computacional das caractersticas descritas, comparando-as
com a funo de ativao tradicionalmente utilizada, foi desenvolvido um prottipo em
MATLAB, que atravs de uma interface grfica, apresenta as funes necessrias aos
treinamentos e testes, permitindo a execuo do ciclo de treinamento e a verificao dos
resultados obtidos pela comparao de desempenho com o modelo usando a funo logstica.
Foi adotada no prottipo uma rede neuronal artificial do tipo MLP, progressiva e
completamente conectada com a arquitetura apresentada a seguir. O nmero de ns fonte na
camada de entrada da rede determinado pela dimensionalidade do espao de observao, que
responsvel pela gerao dos sinais de entrada. O nmero de neurnios na camada de sada
determinado pela dimensionalidade requerida da resposta desejada. A existncia de camadas
ocultas se deve para permitir a extrao de estatsticas de ordem superior de algum desconhecido
processo aleatrio subjacente, responsvel pelo "comportamento" dos dados de entrada, processo
sobre o qual a rede est tentando adquirir conhecimento. Este um valor arbitrrio e pode variar
em funo da anlise do desempenho do modelo. A deciso de utilizar uma nica camada oculta
baseada na demonstrao feita por Robert Hecht-Nielsen de que, teoricamente, o uso de trs
camadas sempre suficiente para a aproximao de qualquer funo. Entretanto, ele tambm
resalta que, em se tratando de problemas do mundo real, esta aproximao por apenas trs
camadas poder resultar na necessidade de uma quantidade de neurnios na camada oculta
extremamente grande, fazendo com que seja mais prtico o uso de um maior nmero de camadas
para a obteno de uma soluo tratvel. Para a determinao do nmero de neurnios na camada
3546

oculta foi adotada a heurstica proposta por Hecht-Nielsen (HECHT-NIELSEN, 1989). Este um
dos parmetros mais importantes na definio de uma RNA, uma vez que, quanto maior for esse
valor, maior ser o nmero de pesos a serem ajustados.
Para possibilitar a avaliao comparativa da funo proposta, o prottipo desenvolvido
faz o treinamento em duas redes distintas, com os mesmos parmetros bsicos e com o uso de
funes de ativao diferenciadas. Uma das redes utiliza como funo de ativao a Funo
Logstica e, a outra rede, utiliza como funo de ativao a Funo Bi-Hiperblica.
Para a execuo dos testes foram utilizados os seguintes parmetros em comum nos dois
modelos:
a) Topologia inicial da Rede Neural:
Uma camada externa com 10 ns, um para cada uma dos nove atributos descritivos
das caractersticas observadas e mais um para o controle do bias;
Uma camada escondida com 21 ns, definida com base na heurstica proposta por
Hecht-Nielsen (HECHT-NIELSEN, 1989).
Uma camada de sada com um n;
b) Nvel de Erro Mdio Quadrtico considerado: menor que 0,001;
c) Taxa de aprendizado: 0,05
d) Amostra usada no treinamento: 200 instncias;
e) Amostra usada para avaliao do modelo: 483 instncias;
Base de Dados para teste do modelo
Para possibilitar a obteno de dados comparativos, foi utilizada a base de dados
conhecida
como
Wisconsin
Breast
Cancer
Data,
disponvel
no
site
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original) da University of
Wisconsin-Madison. Ela tem sido bastante utilizada em artigos publicados na rea mdica e de
reconhecimento de pades, facilitando as comparaes com os resultados a serem obtidos
(PRECHELT, 1994).
uma base com um razovel nmero de amostras, atributos e padres bem definidos,
sendo formada por dados de amostras obtidas atravs da realizao de bipsias em massas com
suspeitas de malignidade, encontradas em exames de mamas humanas. Cada amostra apresenta
um identificador e nove atributos descritivos das caractersticas observadas, que utilizam uma
escala numrica padronizada. A cada amostra est associado o resultado da avaliao feita por
especialistas, classificando-as como benignas (resultado negativo) ou malignas (resultado
positivo). Foram utilizadas 683 amostras, sendo 444 classificadas como benignas (65 %) e 239
classificadas como malignas (35 %) (MANGASARIAN, 1990), (WOLBERG, 1990).
Resultados computacionais
Para a preparao inicial dos dados, foi feita uma aleatorizao das instncias, para evitar
alguma tendncia no conhecida devido a, por exemplo, a temporalidade da obteno das
amostras. Foi feita, tambm, uma normalizao dos atributos originais para uma escala de valores
entre zero e um. Nenhum destes procedimentos altera as caractersticas das amostras, visando
apenas facilitar a visualizao dos dados.
Para avaliar a influncia do nmero de neurnios na camada oculta sobre o erro
quadrtico mdio, foram feitos treinamentos independentes da rede utilizando arquiteturas
contendo de desde 21 neurnios na camada oculta, valor obtido pelo uso da heurstica proposta
por Hecht-Nielsen (HECHT-NIELSEN, 1989), at o limite arbitrrio de cinco neurnios ocultos.
Para evitar a influncia da inicializao dos pesos feita com valores aleatrios, todos os
testes forma realizados com os mesmos valores iniciais para os pesos das ligaes entre os
neurnios das diversas camadas.
Foi feito um teste de sensibilidade para os parmetros em ambos os modelos. Assim,
esto apresentados abaixo os parmetros que ofereceram o melhor resultado em termos de acertos
e de nmero de pocas (iteraes usadas no treinamento com o conjunto de amostras destacado
para tal fim).
3547

Modelo com Funo de Ativao usando a Curva Logstica

O parmetro varivel da curva Logstica que apresentou o melhor resultado, em termos
de acertos, foi a igual a 0,3 que convergiu em 62 pocas, apresentando sete diagnsticos errados,
o que corresponde a um percentual menor que 1,5% de respostas erradas. Os grficos obtidos
neste processamento esto apresentados na Figura 9.
(a) EQM
(b) amostras-treinamento
(c) amostras validao
Figura 9: Sadas obtidas no processamento do modelo
Foram utilizadas arquiteturas contendo de 21 neurnios na camada oculta, at o limite
arbitrrio de cinco neurnios. Considerando-se apenas as redes que apresentaram o melhor
resultado obtido, com sete diagnsticos errados em 483 instncias avaliadas, obtivemos os
valores apresentados na Figura 10. Podemos verificar que, em alguns casos, o mesmo resultado
foi obtido por uma mesma arquitetura, mas com a utilizao de parmetros diferentes.
Avaliao da arquitetura
Funo Logstica
25
Neurnios ocultos
20
15
10
0
0
20
40
60
80
100
120
140
160
180
200
Nmero de pocas
Figura 10: Avaliao das arquiteturas para a Funo Logstica

Modelo com ativao pela Funo Bi-Hiperblica
Para possibilitar uma avaliao comparativa do desempenho do modelo que utiliza a
Funo Bi-Hiperblica, foram feitos testes variando conjuntamente o parmetro , que pode ser
associado com a inclinao da curva na origem, e o parmetro , pode ser associado com o
afastamento da curva s duas assntotas horizontais.
Foram feitos os treinamentos e avaliaes combinando entre si estes parmetros. O
melhor resultado obtido, em termos de acertos, foi a obteno de sete diagnsticos errados. Isto
foi obtido em 371 combinaes no total, sendo que em 21 delas este resultado foi obtido com
apenas duas pocas, e em 25 destas com apenas sete neurnios na camada oculta. Isto demonstra
o enorme poder de convergncia do modelo, bem como a sua capacidade de operar com uma rede
de arquitetura com menos neurnios. Isto facilita o seu uso em ambientes computacionais com
menos recursos disponveis. Os grficos obtidos neste processamento esto apresentados na
Figura 11.
(a) EQM
(b) amostras-treinamento (c) amostras validao
Figura 11: Sadas obtidas no processamento do modelo com 7 neurnios ocultos
3548

O processamento deste modelo com a variao dos parmetros citada anteriormente

permitiu, tambm a obteno de outros resultados muito interessantes, como por exemplo,
considerando como melhor resultado o nmero de pocas, importante no caso de sistemas
computacionais mais lentos ou com necessidade de treinamento mais rpido, foram obtidas 68
combinaes que convergiram em apenas uma poca e que apresentaram entre oito e nove
diagnsticos errados. Considerando-se apenas as redes que apresentaram o melhor resultado
obtido, com sete diagnsticos errados em 483 instncias avaliadas, obtivemos os valores
apresentados na Figura 12 que mostra o nmero de pocas associado ao nmero de neurnios na
camada oculta. Podemos verificar que, em alguns casos, o mesmo resultado foi obtido por uma
mesma arquitetura, mas com a utilizao de parametrizao diferente.
Avaliao da Arquitetura Funo Bi-Hiperblica
25
Neurnios Ocultos
20
15
10
0
0
200
400
600
800
1000
1200
1400
Nmero de poca s
Figura 12: Avaliao das arquiteturas para a Funo Bi-Hiperblica
Estas caractersticas podem ser atribudas a uma maior taxa de variao da

derivada da funo bi-hiperblica em comparao com a da outra funo de ativao
usada. Isto pode ser observado na comparao a seguir com a derivada da funo
logstica. Foram usadas curvas com a mesma inclinao na origem, apresentadas na
Figura 13 e as respectivas derivadas na Figura 14, onde as linhas pontilhadas
correspondem funo bi-hiperblica.
Figura 13: Curvas com a mesma inclinao

na origem
Figura 14: Derivadas das curvas com mesma

inclinao na origem
Mantendo os mesmos parmetros bsicos e variando a amplitude dos dados de

entrada foram obtidas as razes entre as derivadas das funes bi-hiperblica e da
logstica, apresentadas na Figura 15. Pode ser visto que a razo entre estas derivadas
mostra uma tendncia que justifica as proposies feitas neste trabalho pois, depois de
perodo de pequenas variaes, esta razo cresce exponencialmente. Isto apoia nossa
afirmao de que assim evitada a saturao da funo, acelerando o processo de
convergncia da rede neural.
(a) amplitude -10 to 10 (b) amplitude -20 to 20

(c) amplitude -50 to 50
Figura 15: Razo entre as derivadas das funes bi-hiperblica e logstica
3549

Concluses
Os resultados obtidos demonstraram a grande viabilidade de utilizao da funo de
ativao Bi-Hiperblica, ecoando as previses de maior capacidade de generalizao,
convergncia mais rpida (convergiu em um nmero de iteraes de aproximadamente 3% do
observado para o outro modelo), maior velocidade de clculo e arquitetura de rede com menor
nmero de neurnios (utilizou 1/3 do nmero de neurnios ocultos utilizado no modelo com a
Funo Logstica).
Outro fator importante que se pode inferir dos resultados que a atividade de
configurao da arquitetura da rede com o uso desta funo, que normalmente obtida atravs de
processos heursticos e de tentativas e erros, fica facilitada uma vez que uma ampla combinao
de parmetros diferentes possibilita a obteno dos resultados desejados.
Referncias
ELLIOTT, David L. A Better Activation Function for Articial Neural Networks, Institute for
Systems Research, ISR Technical Report TR 93-8, 1993.
FYFE, Colin. Artificial Neural Networks, Departament of Computing and Information Systems.
The University of Paisley, 2000.
HAHN, Brian D., Fortran 90 for Scientists and Engineers. University Press, Cambridge, London.
1993
HAYKIN, S. Redes Neurais: princpios e prtica. 2. ed. Porto Alegre, Bookman, 2001.
HECHT-NIELSEN , R. Theory of the Backpropagation Neural Network; Neural Networks,
1989. IJCNN., International Joint Conference . pp 593 605. Washington, USA
HORNIK, K. Multilayer Feedforward Networks are Universal Approximatorz, Neural Networks,
Vol. 2, pp. 359-366, 1989.
KVACS, Z. L., Redes neurais artificiais: fundamentos e aplicaes. So Paulo, Edio
Acadmica, 1996.
MANGASARIAN, O. L., Wolberg, W. H., "Cancer diagnosis via linear programming", SIAM
News, Volume 23, Number 5, September 1990, pp 1 & 18.
OTAIR, M. A., SALAMEH, W. A., Speeding Up Back-Propagation Neural Networks, in
Proceedings of the 2005 Informing Science and IT Education Joint Conference, Flagstaff,
Arizona, USA.
PRECHELT, L.,Proben1 - A Set of Neural Network Benchmark Problems and Benchmarking
Rules, Universit at Karlsruhe, Technical Report 21/94, 1994
SCHIFFMANN W., JOOST M., WERNER, R., Optimization of the Backpropagation Algorithm
for Training Multilayer Perceptrons, University of Koblenz, Institute of Physics, Koblenz,
1994.
STATHAKIS, D. How many hidden layers and nodes? International Journal of Remote Sensing
Vol. 30, No. 8, 20 April 2009, 21332147
WOLBERG, W. H., MANGASARIAN, O. L., "Multisurface method of pattern separation for
medical diagnosis applied to breast cytology", Proceedings of the National Academy of
Sciences, U.S.A., Volume 87, December 1990, pp 9193-9196.
XAVIER, Adilson Elias, Uma Funo de Ativao para Redes Neurais Artificiais Mais Flexvel
e Poderosa e Mais Rpida. Learning and Nonlinear Models Revista da Sociedade
Brasileira de Redes Neurais (SBRN), Vol. 1, No. 5. PP. 276-282, 2005.
3550

Arq 0477

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Arq 0477

Enviado por

Direitos autorais:

Formatos disponíveis

September 24-28, 2012

Rio de Janeiro, Brazil

DESEMPENHO DO ALGORTMO DE BACKPROPAGATION COM A FUNO DE

September 24-28, 2012

September 24-28, 2012

Neurnios Artificiais so unidades de processamento das RNAs. Eles so simplificaes

Figura 1: Funo Degrau

2 (v, b) = (v + b) / 2b, se b < v < b;

Sendo b = 1 / 2 tan , onde o ngulo de inclinao. Figura 2: Funo Patamar

September 24-28, 2012

A sua derivada no definida nos pontos v = 1 / 2 e v = 1 / 2 , nos demais valores assume:

2 ' (v, b) = 1 / 2b, para b < v < b;

A insensibilidade da derivada fora do intervalo (-b, b) limita consideravelmente o uso prtico

onde a o parmetro de declividade da funo logstica.

' (v, a) = a (v, a)(1

Segundo Xavier (XAVIER, 2005), a Funo Logstica oferece a importante

' (0, a) = a/4, ser varivel com o parmetro a.

Figura 3: Funo Logstica

Figura 4: Derivadas da Funo Logstica

d) Funo de Elliott (ELLIOTT,1993) (XAVIER, 2005)

A sua derivada, apresentada na Figura 6, definida por:

Ela apresenta a inclinao de sua derivada na origem invariante, 4(0)=1/2, independente de

September 24-28, 2012

Figura 5: Funo de Elliot

Figura 6: Derivada da Funo de Elliot

e) Funo Bi-Hiperblica (XAVIER, 2005)

lim '5 (v, , 1 , 2 ) = 0

lim '5 (v, , 1 , 2 ) = 0

Se considerarmos o caso particular obtido igualando-se os valores dos parmetros

funes de ativao, tendo imagem no intervalo [0, 1] e oferecendo a propriedade de simetria,

Figura 7: Curvas Bi-Hiperblica variando

Figura 8: Derivadas das Curvas BiHiperblica variando com fixo

A funo [ 5 (v, , ) 1 / 2] anti-simtrica, ou seja:

September 24-28, 2012

No ponto v = 0 , so observados os seguintes valores para a funo 5 e sua derivada:

Na figura 7, so mostrados grficos da forma simtrica da funo Bi-Hiperblica

lim 5 (v, , ) = 1 x(v)

September 24-28, 2012

September 24-28, 2012

Alm disso, a sua maior flexibilidade possibilita a capacidade de poder aproximar

September 24-28, 2012

September 24-28, 2012

Modelo com Funo de Ativao usando a Curva Logstica

Figura 10: Avaliao das arquiteturas para a Funo Logstica

September 24-28, 2012

O processamento deste modelo com a variao dos parmetros citada anteriormente

Figura 12: Avaliao das arquiteturas para a Funo Bi-Hiperblica

Estas caractersticas podem ser atribudas a uma maior taxa de variao da

Figura 13: Curvas com a mesma inclinao

Figura 14: Derivadas das curvas com mesma

Mantendo os mesmos parmetros bsicos e variando a amplitude dos dados de

(a) amplitude -10 to 10 (b) amplitude -20 to 20

September 24-28, 2012

Você também pode gostar