Escolar Documentos
Profissional Documentos
Cultura Documentos
Arq 0477
Arq 0477
RESUMO
A utilizao mais ampla do algoritmo de Backpropagation na soluo de problemas
prticos do mundo real tem esbarrado na sua relativa lentido. Muitas tcnicas tm sido
discutidas para acelerar o seu desempenho e a tcnica apresentada neste trabalho a utilizao de
uma nova funo de ativao, a funo Bi-hiperblica, que proporciona melhor desempenho
computacional, possibilitando fugir do problema de saturao dos neurnios e exigindo uma
arquitetura mais leve, com um menor nmero de neurnios em sua camada oculta. A maior
flexibilidade, eficincia e capacidade de discriminao desta funo demonstrada atravs de um
conjunto de experimentos computacionais com problemas tradicionais da literatura.
PALAVRAS CHAVE. Redes Neurais; Backpropagation; Funo Bi-hiperblica;
rea principal. Programao Matemtica
ABSTRACT
The use of Backpropagation algorithm in real world problems solutions has been blocked
by its slow performance. Many techniques have been discussed to speed up its performance and
in this paper a new strategy is presented based on the use of a new activation function, the Bihyperbolic function, that offers more flexibility, avoids saturations problem e needs a smaller
architecture with less neurons and shows a faster evaluation time. The efficiency and the
discrimination capacity of the proposed methodology are shown through a set of computational
experiments with traditional problems of the literature.
KEYWORDS. Neural Networks; Backpropagation; Bi-hyperbolic Function;
Main area. Mathematical Programming
3539
Introduo
A utilizao de Redes Neurais Artificiais (RNA) vem se destacando na construo de
sistemas para uso em diversas reas do conhecimento humano. Isto se deve, em grande parte,
pela utilizao das redes do tipo Perceptron de Mltiplas Camadas (Multilayer Perceptrons
MLP).
Por suas caractersticas de obter solues atravs do aprendizado do comportamento do
ambiente no qual ela est inserida, as redes neurais artificiais dependem de um eficiente
algoritmo de treinamento. Segundo informes encontrados na literatura especializada, o algoritmo
mais utilizado tem sido o Backpropagation. um mtodo computacionalmente eficiente para o
treinamento de redes MLPs e que resolve o problema de realizar a propagao reversa do erro em
RNAs com mltiplas camadas. Apesar disto, ele ainda apresenta algumas limitaes na sua
utilizao que impedem a sua aplicao de uma forma mais ampla em problemas do mundo real.
Sendo um mtodo baseado no uso de gradientes, existe sempre a possibilidade de convergncia
para um mnimo local, falhando na localizao do mnimo global. Outro problema
constantemente relatado diz respeito ao caso em que, mesmo nos casos em que consegue atingir o
seu objetivo e apresentar um erro dentro dos limites desejados, a lentido muito grande no seu
processamento pode chegar a impedir o seu uso. Esta demora no processamento dificulta a sua
utilizao em uma gama maior de aplicaes prticas, em especial em aplicaes de mdio e
grande porte (SCHIFFMANN et al, 1994), (OTAIR et al, 2005).
Um dos fatores possivelmente responsvel pela lentido deste processo de convergncia
a funo de ativao usada em seus neurnios. Sendo o processo de aprendizagem da rede
essencialmente iterativo, uma funo mais lenta para ser calculada torna todo o procedimento
demorado. Acredita-se que a razo para isto seja a saturao da funo de ativao usada nos
neurnios em suas diversas camadas. Isto se deve ao fato de que, uma vez que a saturao de uma
unidade ocorre, o gradiente descendente tende a assumir valores muito pequenos, mesmo nos
casos em que o erro de sada ainda grande.
Para otimizar a eficincia e a taxa de convergncia do algoritmo de backpropagation,
proposto neste trabalho a utilizao de uma nova funo de ativao, a Funo Bi-hiperblica
Simtrica. Ela apresenta caractersticas que atendem s necessidades do algoritmo de
backpropagation, alm de possibilitar uma maior flexibilidade na representao dos fenmenos
modelados. Ela conta com o uso de dois parmetros, um a mais do que nas funes
tradicionalmente utilizadas para esta finalidade. Isto implica na possibilidade de melhor enfrentar
o problema da saturao, alm de permitir melhor tratamento para evitar os mnimos locais. Por
suas caractersticas prprias apresenta, ainda, a vantagem de ser computacionalmente muito mais
rpida de ser avaliada do que a funo logstica. (XAVIER, 2005).
Alm disso, o uso desta Funo Bi-Hiperblica possibilita, por sua maior flexibilidade, a
capacidade de poder aproximar qualquer funo de uma forma mais sinttica, permitindo a
utilizao de um menor nmero de neurnios, melhorando ainda mais o desempenho do
algoritmo backpropagation, agindo diretamente na topologia da rede (XAVIER , 2005).
Para possibilitar a avaliao computacional destas caractersticas foi desenvolvido um
prottipo em MATLAB que, atravs de uma interface grfica, permitiu a obteno de resultados
altamente favorveis, apresentados posteriormente neste trabalho.
Redes Neurais Artificiais
Uma Rede Neural Artificial funciona pela criao de ligaes entre suas unidades de
processamento matemtico, chamados de neurnios artificiais. O conhecimento codificado na
rede pela fora destas conexes entre diferentes neurnios, chamada de peso, e pela criao de
camadas de neurnios que trabalham em paralelo. O sistema aprende atravs de um processo de
determinao do nmero de neurnios, ou ns, e pelo ajuste dos pesos dessas conexes com base
nos dados usados para o treinamento. O poder computacional de uma RNA devido basicamente
sua estrutura paralela pesadamente distribuda e sua habilidade de aprender e,
conseqentemente, generalizar (HAYKIN, 2001).
3540
u k = wkj x j
j =1
vk = u k k
y k = (v k )
Onde x1, x2, ... , xp so os sinais de entrada; wk1, wk2, ... , wkp so os pesos sinpticos do
neurnio k; uk a sada proveniente da combinao linear dos sinais de entrada e pesos; k o
bias; () a funo de ativao; e yk o sinal de sada do neurnio (HAIKIN, 2001).
Funes de Ativao
Um dos componentes mais importantes do neurnio artificial a sua funo de ativao
ou transferncia. Ela tem por objetivo limitar a amplitude vlida do sinal de sada do neurnio a
um valor finito. Normalmente, esta amplitude normalizada se encontra em um intervalo fechado
unitrio [0, 1] ou, em alguns casos, [-1, 1].
As funes de ativao mais comumente utilizadas e disponibilizadas na literatura so
apresentadas abaixo. Tambm so descritas as suas derivadas, que tm grande importncia no
mtodo de treinamento de redes neurais artificiais conhecido como Backpropagation (XAVIER,
2005), (HAYKIN,2001).
a) Funo Degrau
1
0.8
se v 0
se v < 0
1()
1
0
1 (v) =
0.6
0.4
0.2
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
se v b;
0,
2()
0.6
0.4
0.2
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
3541
para v < b;
0,
() .
c) Funo Logstica
Esta a funo de ativao mais utilizada na construo de redes neurais artificiais. Ela
definida como uma funo estritamente crescente que exibe um balano entre o comportamento
linear e o comportamento no-linear, sendo definida por:
(v , a ) =
1
1+ e
av
(v, a))
Atravs da variao deste parmetro a foram obtidos os grficos de funes Logsticas com
diferentes declividades, que podem ser vistos na Figura 3. Alm disso, a Funo Logstica
apresenta propriedades de simetria e de completa diferenciabilidade, ou seja, pertence classe de
funes c . Variando o parmetro a foram obtidas as derivadas da funo logstica de diferentes
declividades, apresentadas na Figura 4.
0.4
0.35
1
0.3
0.8
0.25
0.2
3()
3()
0.6
0.4
0.15
0.1
0.05
0.2
0
0
-0.05
-0.2
-10
-8
-6
-4
-2
-0.1
-10
10
-8
-6
-4
-2
10
(v) =
+ 1 / 2
1+ | v |
' (v ) =
2(1+|v|)
3542
0.5
0.4
0.6
0.3
4()
4()
0.8
0.4
0.2
0.1
-0.2
-10
0.2
-8
-6
-4
-2
-0.1
-10
10
-8
-6
-4
-2
10
5 (v, , 1 , 2 ) = 2 (v + 1 / 4 ) 2 + 12 ) 2 (v 1 / 4 ) 2 + 2 2 ) + 1 / 2 ,
Sendo sua derivada definida por:
2 (v + 1 / 4 )
5 ' ( v , , 1 , 2 ) =
2 (v 1 / 4 )
2 (v + 1 / 4 ) 2 + 12
2 (v 1 / 4 ) 2 + 2 2
A funo 5 (, , 1 , 2 ) apresenta a desejada propriedade de possuir diferenciabilidade
infinita, ou seja, pertence classe de funes c , o que permitir a sua utilizao em algoritmos
de otimizao mais robustos, alm de apresentar as seguintes propriedades triviais consentneas
s demais funes de ativao:
lim 5 (v, , 1 , 2 ) = 0
lim 5 (v, , 1 , 2 ) = 1
v
5 (v, , ) = 2 (v + 1 / 4 ) 2 + 2 ) 2 (v 1 / 4 ) 2 + 2 ) + 1 / 2
2 (v + 1 / 4 )
2 (v 1 / 4 )
2 (v + 1 / 4 ) 2 + 2
2 (v 1 / 4 ) 2 + 2
'5 (v, , ) =
2.5
1
2
0.8
1.5
()
()
0.6
0.4
0.2
0.5
0
0
-0.2
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
1.5
5 (v, , ) 1 / 2 = [5 (v, , ) 1 / 2]
3543
5 (0, , ) = 1 / 2
'5 (0, , ) =
2 1 / 16 + 2
lim '5 (0, , ) = 2
1
lim 5 (v, , ) = 2 v,
0
4
Como bem ressalta Xavier (XAVIER, 2005), a existncia de dois parmetros, um a mais
que as demais funes de ativao, possibilita a essa funo dispor de uma maior flexibilidade
para representar mais adequadamente os fenmenos normalmente modelados com redes neurais.
Numa rede neural multicamadas, por exemplo, essa maior flexibilidade certamente
fornece funo de ativao Bi-Hiperblica o poder de aproximar qualquer funo de uma forma
mais sinttica, com um menor nmero de neurnios. Atravs da manipulao conveniente de seus
parmetros, a funo 5 (, , ) , oferece tambm a possibilidade de poder enfrentar mais
convenientemente o desastroso fenmemo de saturao, alm de poder evitar um indesejado
mnimo local. Um forte indicador destas possibilidades pode ser observado no grfico de sua
derivada, na Figura 8, onde se pode ver que ela apresenta uma taxa de variao do crescimento
bem mais acentuada do que o das derivadas das demais funes.
Arquitetura da rede neural
O projeto de uma rede neural artificial comea com a seleo de uma arquitetura
apropriada e com o treinamento atravs dos exemplos e de um algoritmo especfico. Esta fase a
chamada de aprendizagem. Em seguida feita a avaliao com dados no usados no treinamento
para determinar o seu desempenho nesta tarefa especfica. Esta fase a chamada de
generalizao. O projeto de uma rede neural artificial baseado diretamente nos dados do mundo
real, fazendo com que a rede fornea um modelo implcito do ambiente no qual est inserida,
alm de realizar a funo de processamento de informaes.
Para uma rede neural do tipo MLP o dimensionamento das camadas de entrada e de sada
ser sempre determinado pela natureza do prprio problema, enquanto que a determinao de
quantas camadas ocultas e de quantos neurnios estas devem possuir, no uma tarefa que
permita uma resposta exata. Existem solues aproximadas ou heursticas, que procuram estimar
estes valores. Estas heursticas expem sempre o compromisso entre a convergncia e a
generalizao da rede. Considera-se Convergncia a capacidade da rede de aprender todos os
padres de entrada usados no seu treinamento. Uma rede muito pequena em relao ao problema
em anlise no ser capaz de aprender os dados de treinamento do problema, ou seja, a rede no
possuir parmetros ou pesos sinpticos suficientes (HECHT-NIELSEN, 1989) (HAYKIN,
2001).
Generalizao a capacidade da rede neural de responder adequadamente a padres fora
dos usados no treinamento. Uma rede muito grande, com nmero de neurnios muito superior ao
necessrio, no responder corretamente a estes novos padres e perder a capacidade de
generalizar, uma vez que, durante o processo de treinamento o ajuste dos pesos sinpticos da rede
3544
a levaro a memorizar especificamente estes vetores de entrada alm do rudo presente nestes
dados de treinamento.
A capacidade de generalizao de uma rede neural afetada pelo tamanho e eficincia
dos dados de treinamento, pela arquitetura da rede e nmero de processadores nas camadas
ocultas e pela complexidade do problema. Na prtica, as heursticas so utilizadas em conjunto
com sries de tentativas e ajustes na arquitetura e definies da rede. O principal objetivo obter
uma rede que generalize, ao invs de memorizar os padres usados no treinamento
(STATHAKIS, 2009), (HORNIK, 1989) e (HECHT-NIELSEN, 1989).
Aprendizagem
A propriedade mais importante de uma Rede Neural Artificial a sua capacidade de
aprender a partir do seu ambiente e melhorar seu desempenho atravs deste aprendizado. Isto se
resume no problema de obter um conjunto de parmetros livres que permita rede atingir o
desempenho desejado. Neste processo a rede estimulada pelo ambiente e sofre mudanas em
seus parmetros livres como resultado deste estmulo. Devido s mudanas ocorridas em sua
estrutura interna, ela passa a responder de uma nova forma ao ambiente.
O tipo de aprendizagem determinado pela forma atravs da qual efetuada a mudana
nos parmetros. Os dois paradigmas bsicos de aprendizagem so o aprendizado atravs de um
tutor (Aprendizado Supervisionado) e o aprendizado sem um tutor (Aprendizado NoSupervisionado). Uma terceira forma chamada de Aprendizagem por Reforo utiliza um crtico.
No Aprendizado Supervisionado, uma srie de padres, representados pelos vetores de
entrada, associada com os resultados desejados como resposta e apresentado rede. Os
parmetros internos da rede, chamados de pesos sinpticos, so alterados sistematicamente de
forma a aproximar os resultados obtidos aos das respostas desejadas. Este procedimento consiste
em minimizar os erros obtidos na comparao entre os resultados desejados e os calculados para
os padres usados no treinamento. (HAYKIN, 2001).
Algoritmo de Backpropagation
O treinamento de um Perceptron de Mltiplas Camadas (MLP) consiste em ajustar os
pesos e os thresholds (bias) de suas unidades para que a classificao desejada seja obtida.
Quando um padro inicialmente apresentado rede, ela produz uma sada e, aps medir a
distncia entre a resposta atual e a desejada, so realizados os ajustes apropriados nos pesos de
modo a reduzir esta distncia. Este procedimento conhecido como Regra Delta.
Esse tipo de rede apresenta solues para funes linearmente no-separveis e necessita
de um algoritmo de treinamento capaz de definir de forma automtica os pesos. O algoritmo mais
utilizado para o treinamento destas redes MLP uma generalizao da Regra Delta denominada
de Algoritmo de Backpropagation.
Durante o treinamento com o algoritmo Backpropagation, a rede opera em uma
seqncia de dois passos. No primeiro, um padro apresentado camada de entrada da rede e o
sinal resultante flui atravs dela, camada por camada, at que a resposta seja produzida pela
camada de sada. No segundo passo, a sada obtida comparada sada desejada para esse
padro particular. Se esta no estiver correta, o erro calculado. Este erro propagado a partir da
camada de sada at a camada de entrada, e os pesos das conexes das unidades das camadas
internas vo sendo modificados medida que o erro retropropagado.
Na Regra Delta padro implementado um gradiente descendente no quadrado da soma
do erro para funes de ativao lineares. Entretanto, como a superfcie do erro pode no ser to
simples, as redes ficam sujeitas aos problemas de mnimos locais.
A Regra Delta Generalizada, ou Backpropagation, funciona quando so utilizadas na rede
unidades com uma funo de ativao semi-linear, que uma funo diferencivel e no
decrescente.
A Taxa de Aprendizado uma constante de proporcionalidade no intervalo [0,1], pois
este procedimento de aprendizado requer apenas que a mudana no peso seja proporcional
meta. Entretanto, como o verdadeiro gradiente descendente requer que sejam tomados passos
3545
infinitesimais, quanto maior for essa constante, maior ser a mudana nos pesos, aumentando a
velocidade do aprendizado. Tal situao pode levar a uma oscilao do modelo na superfcie de
erro. Procura-se, ento, utilizar a maior taxa de aprendizado possvel que no leve a uma
oscilao, resultando em um aprendizado mais rpido. O treinamento das redes MLP com
backpropagation pode demandar muitos passos no conjunto de treinamento, resultando em um
tempo de treinamento consideravelmente longo. Se for encontrado um mnimo local, o erro para
o conjunto de treinamento pra de diminuir e estaciona em um valor maior que o aceitvel
(HAYKIN, 2001).
A utilizao da funo de ativao Bi-Hiperblica apresenta uma vantagem grande por
possuir dois parmetros que ajudam a obter um ajuste mais preciso. Outro fator que beneficia este
uso dado pela mudana maior na inclinao de sua derivada, conforme pode ser visto na Figura
8, o que contribui para diminuir o problema da saturao, que ocorre muitas vezes no treinamento
das redes neurais (XAVIER, 2005).
Estudo comparativo
A proposta apresentada neste trabalho para o problema de otimizar a eficincia e a taxa
de convergncia do algoritmo de Backpropagation, prev a utilizao de uma nova funo de
ativao, a Funo Bi-Hiperblica, com caractersticas que atendem s necessidades do algoritmo
de backpropagation. Ela oferece a vantagem de possibilitar maior flexibilidade na representao
dos fenmenos modelados. Conta com o uso de dois parmetros, um a mais do que nas funes
tradicionalmente utilizadas para esta finalidade. Isto implica em melhor enfrentar o problema da
saturao, alm de permitir tratamento para evitar os mnimos locais. Outra vantagem, observada
empiricamente, a de ser computacionalmente muito mais rpida de ser avaliada do que a funo
logstica, pois apesar de tambm poder ser considerada uma funo sigmoidal, o seu clculo
feito diretamente, enquanto que a funo logstica tem como seu principal algoritmo de clculo
usado em sistemas computacionais ser o de expanso da Srie de Taylor, conforme apresentado
na seguinte equao (HAHN, 1993):
ex = 1+
x x2 x3
+
+
+ ...
1! 2! 3!
3546
oculta foi adotada a heurstica proposta por Hecht-Nielsen (HECHT-NIELSEN, 1989). Este um
dos parmetros mais importantes na definio de uma RNA, uma vez que, quanto maior for esse
valor, maior ser o nmero de pesos a serem ajustados.
Para possibilitar a avaliao comparativa da funo proposta, o prottipo desenvolvido
faz o treinamento em duas redes distintas, com os mesmos parmetros bsicos e com o uso de
funes de ativao diferenciadas. Uma das redes utiliza como funo de ativao a Funo
Logstica e, a outra rede, utiliza como funo de ativao a Funo Bi-Hiperblica.
Para a execuo dos testes foram utilizados os seguintes parmetros em comum nos dois
modelos:
a) Topologia inicial da Rede Neural:
Uma camada externa com 10 ns, um para cada uma dos nove atributos descritivos
das caractersticas observadas e mais um para o controle do bias;
Uma camada escondida com 21 ns, definida com base na heurstica proposta por
Hecht-Nielsen (HECHT-NIELSEN, 1989).
Uma camada de sada com um n;
b) Nvel de Erro Mdio Quadrtico considerado: menor que 0,001;
c) Taxa de aprendizado: 0,05
d) Amostra usada no treinamento: 200 instncias;
e) Amostra usada para avaliao do modelo: 483 instncias;
Base de Dados para teste do modelo
Para possibilitar a obteno de dados comparativos, foi utilizada a base de dados
conhecida
como
Wisconsin
Breast
Cancer
Data,
disponvel
no
site
http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original) da University of
Wisconsin-Madison. Ela tem sido bastante utilizada em artigos publicados na rea mdica e de
reconhecimento de pades, facilitando as comparaes com os resultados a serem obtidos
(PRECHELT, 1994).
uma base com um razovel nmero de amostras, atributos e padres bem definidos,
sendo formada por dados de amostras obtidas atravs da realizao de bipsias em massas com
suspeitas de malignidade, encontradas em exames de mamas humanas. Cada amostra apresenta
um identificador e nove atributos descritivos das caractersticas observadas, que utilizam uma
escala numrica padronizada. A cada amostra est associado o resultado da avaliao feita por
especialistas, classificando-as como benignas (resultado negativo) ou malignas (resultado
positivo). Foram utilizadas 683 amostras, sendo 444 classificadas como benignas (65 %) e 239
classificadas como malignas (35 %) (MANGASARIAN, 1990), (WOLBERG, 1990).
Resultados computacionais
Para a preparao inicial dos dados, foi feita uma aleatorizao das instncias, para evitar
alguma tendncia no conhecida devido a, por exemplo, a temporalidade da obteno das
amostras. Foi feita, tambm, uma normalizao dos atributos originais para uma escala de valores
entre zero e um. Nenhum destes procedimentos altera as caractersticas das amostras, visando
apenas facilitar a visualizao dos dados.
Para avaliar a influncia do nmero de neurnios na camada oculta sobre o erro
quadrtico mdio, foram feitos treinamentos independentes da rede utilizando arquiteturas
contendo de desde 21 neurnios na camada oculta, valor obtido pelo uso da heurstica proposta
por Hecht-Nielsen (HECHT-NIELSEN, 1989), at o limite arbitrrio de cinco neurnios ocultos.
Para evitar a influncia da inicializao dos pesos feita com valores aleatrios, todos os
testes forma realizados com os mesmos valores iniciais para os pesos das ligaes entre os
neurnios das diversas camadas.
Foi feito um teste de sensibilidade para os parmetros em ambos os modelos. Assim,
esto apresentados abaixo os parmetros que ofereceram o melhor resultado em termos de acertos
e de nmero de pocas (iteraes usadas no treinamento com o conjunto de amostras destacado
para tal fim).
3547
(a) EQM
(b) amostras-treinamento
(c) amostras validao
Figura 9: Sadas obtidas no processamento do modelo
Foram utilizadas arquiteturas contendo de 21 neurnios na camada oculta, at o limite
arbitrrio de cinco neurnios. Considerando-se apenas as redes que apresentaram o melhor
resultado obtido, com sete diagnsticos errados em 483 instncias avaliadas, obtivemos os
valores apresentados na Figura 10. Podemos verificar que, em alguns casos, o mesmo resultado
foi obtido por uma mesma arquitetura, mas com a utilizao de parmetros diferentes.
Avaliao da arquitetura
Funo Logstica
25
Neurnios ocultos
20
15
10
0
0
20
40
60
80
100
120
140
160
180
200
Nmero de pocas
(a) EQM
(b) amostras-treinamento (c) amostras validao
Figura 11: Sadas obtidas no processamento do modelo com 7 neurnios ocultos
3548
Neurnios Ocultos
20
15
10
0
0
200
400
600
800
1000
1200
1400
Nmero de poca s
3549
Concluses
Os resultados obtidos demonstraram a grande viabilidade de utilizao da funo de
ativao Bi-Hiperblica, ecoando as previses de maior capacidade de generalizao,
convergncia mais rpida (convergiu em um nmero de iteraes de aproximadamente 3% do
observado para o outro modelo), maior velocidade de clculo e arquitetura de rede com menor
nmero de neurnios (utilizou 1/3 do nmero de neurnios ocultos utilizado no modelo com a
Funo Logstica).
Outro fator importante que se pode inferir dos resultados que a atividade de
configurao da arquitetura da rede com o uso desta funo, que normalmente obtida atravs de
processos heursticos e de tentativas e erros, fica facilitada uma vez que uma ampla combinao
de parmetros diferentes possibilita a obteno dos resultados desejados.
Referncias
ELLIOTT, David L. A Better Activation Function for Articial Neural Networks, Institute for
Systems Research, ISR Technical Report TR 93-8, 1993.
FYFE, Colin. Artificial Neural Networks, Departament of Computing and Information Systems.
The University of Paisley, 2000.
HAHN, Brian D., Fortran 90 for Scientists and Engineers. University Press, Cambridge, London.
1993
HAYKIN, S. Redes Neurais: princpios e prtica. 2. ed. Porto Alegre, Bookman, 2001.
HECHT-NIELSEN , R. Theory of the Backpropagation Neural Network; Neural Networks,
1989. IJCNN., International Joint Conference . pp 593 605. Washington, USA
HORNIK, K. Multilayer Feedforward Networks are Universal Approximatorz, Neural Networks,
Vol. 2, pp. 359-366, 1989.
KVACS, Z. L., Redes neurais artificiais: fundamentos e aplicaes. So Paulo, Edio
Acadmica, 1996.
MANGASARIAN, O. L., Wolberg, W. H., "Cancer diagnosis via linear programming", SIAM
News, Volume 23, Number 5, September 1990, pp 1 & 18.
OTAIR, M. A., SALAMEH, W. A., Speeding Up Back-Propagation Neural Networks, in
Proceedings of the 2005 Informing Science and IT Education Joint Conference, Flagstaff,
Arizona, USA.
PRECHELT, L.,Proben1 - A Set of Neural Network Benchmark Problems and Benchmarking
Rules, Universit at Karlsruhe, Technical Report 21/94, 1994
SCHIFFMANN W., JOOST M., WERNER, R., Optimization of the Backpropagation Algorithm
for Training Multilayer Perceptrons, University of Koblenz, Institute of Physics, Koblenz,
1994.
STATHAKIS, D. How many hidden layers and nodes? International Journal of Remote Sensing
Vol. 30, No. 8, 20 April 2009, 21332147
WOLBERG, W. H., MANGASARIAN, O. L., "Multisurface method of pattern separation for
medical diagnosis applied to breast cytology", Proceedings of the National Academy of
Sciences, U.S.A., Volume 87, December 1990, pp 9193-9196.
XAVIER, Adilson Elias, Uma Funo de Ativao para Redes Neurais Artificiais Mais Flexvel
e Poderosa e Mais Rpida. Learning and Nonlinear Models Revista da Sociedade
Brasileira de Redes Neurais (SBRN), Vol. 1, No. 5. PP. 276-282, 2005.
3550