Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo—Otimizar os hiperparâmetros de uma rede neural artificial como inicialização e regularização de pesos que também precisam
(ANN) multi-layer perceptron (MLP) não é uma tarefa trivial, e ainda ser ajustados porque podem melhorar o desempenho do MLP.
hoje a abordagem de tentativa e erro é amplamente utilizada.
Muitos trabalhos já apresentados utilizando o algoritmo genético (AG) Os hiperparâmetros de inicialização dos pesos utilizados neste
trabalho controlam a distribuição estatística e a escala dos pesos
para auxiliar nessa busca de otimização incluindo topologia MLP,
pesos e otimização de bias. Este trabalho propõe adicionar iniciais. Pesos mal inicializados podem impedir um bom desempenho,
hiperparâmetros para inicialização e regularização de pesos a serem levando a um treinamento mais lento e exigindo mais épocas para
otimizados simultaneamente com a topologia usual MLP e treinar ou a um treinamento mais rápido, mas com maior risco de ficar
hiperparâmetros de aprendizado. Também analisa quais preso em um mínimo local [9]. Por outro lado, uma inicialização de
hiperparâmetros estão mais correlacionados com o desempenho da peso otimizada permitirá que a retropropagação do MLP diminua
classificação, permitindo uma redução no espaço de busca, o que eficientemente o erro ao longo das épocas, alcançando melhor
diminui o tempo e a computação necessária para chegar a um bom conjunto de hiperparâmetros.
desempenho.
Os resultados obtidos com conjuntos de dados públicos revelam um
aumento no desempenho quando comparados com trabalhos Os hiperparâmetros de regularização são especialmente
semelhantes. Além disso, os hiperparâmetros relacionados à essenciais para melhorar a generalização de uma rede com tamanho
inicialização e regularização dos pesos estão entre os 5 de amostra limitado e um grande número de parâmetros[10]. Com um
hiperparâmetros mais relevantes para explicar o desempenho da grande número de parâmetros, o MLP pode memorizar exatamente
as instâncias
precisão em todos os conjuntos de dados, mostrando a importância de incluí-los de treinamento
no processo e atingir um suposto ajuste perfeito livre
de otimização.
de erros (Fig. 1), comprometendo a capacidade da rede de generalizar
Palavras-chave—rede neural artificial, perceptron multicamadas, o conhecimento adquirido na predição para os exemplos não usados
MLP, algoritmo genético, GA, hiperparâmetros no treinamento .
I. INTRODUÇÃO Regularização não otimizada Regularização Otimizada
Parâmetros de hiperajuste Hiperparâmetros de bom ajuste
Uma vez que cada problema possui especificidades sobre seus 40 40
15 15
0 2 4 6 8 10
0
0 2 4 6 8 10
Além disso, a relação entre esses hiperparâmetros adicionados e o Ainda hoje, não existe uma regra estabelecida para definir o número de
desempenho da classificação será analisada para entender os efeitos desses neurônios e camadas ocultas, então a abordagem de tentativa e erro é
hiperparâmetros no desempenho da classificação. Isso permitirá identificar amplamente utilizada.
as regiões do espaço de hiperparâmetros onde o melhor desempenho de
2) Hiperparâmetros da taxa de aprendizado
classificação é alcançado. Com isso, também será possível restringir o
Existem vários métodos de otimização para ajustar adequadamente os
espaço de busca e desenvolver um AG mais eficiente, que requer menos
pesos sinápticos. O Gradient Descent foi o primeiro e foi necessário ajustar
tempo e recursos computacionais para encontrar um bom conjunto de
manualmente a taxa de aprendizado, um hiperparâmetro crítico para obter
hiperparâmetros.
alto desempenho. Mais recentemente alguns métodos com adaptação
dinâmica da taxa de aprendizado foram propostos, como o ADADELTA [14],
O restante deste artigo está organizado da seguinte forma: A Seção II utilizado neste trabalho. Este método altera dinamicamente a taxa de
apresenta brevemente alguns conceitos gerais sobre redes MLP e AG. A aprendizado para otimizar os pesos sinápticos mais rapidamente e sem ficar
Seção III detalha a metodologia desenvolvida, seguida dos resultados preso em mínimos locais. Requer dois hiperparâmetros a serem definidos: 1)
experimentais na Seção IV. A Seção V apresenta as conclusões e trabalhos r representa uma constante de decaimento, semelhante àquela usada no
futuros. método do momento, 2) e é uma constante para evitar a divisão por zero.
Além disso, parece ser robusto para diferentes topologias, conjuntos de
II. CONCEITOS GERAIS E TRABALHOS RELACIONADOS
dados e a seleção de outros hiperparâmetros [14].
Esta seção apresenta alguns conceitos gerais de MLP e os
hiperparâmetros que propomos adicionar ao processo de otimização. Serão
apresentados conceitos gerais do AG, bem como as modificações feitas para 3) Hiperparâmetros de inicialização de pesos sinápticos A
otimizar hiperparâmetros categóricos, inteiros e de valor real simultaneamente. velocidade e convergência do processo de aprendizagem de um MLP,
A seção Trabalhos Relacionados apresenta outros métodos de otimização como em muitos problemas de otimização multidimensionais, é fortemente
de hiperparâmetros MLP. influenciada pela condição inicial [15] [16]. Em um MLP, esses estados
iniciais são dados pelos pesos sinápticos iniciais. Neste trabalho, usamos os
hiperparâmetros que permitem que os valores iniciais sejam amostrados a
A. Efeitos de hiperparâmetro Perceptron multicamada partir de diferentes distribuições probabilísticas, como Gaussiana e Uniforme,
MLP é uma das arquiteturas de MLP mais amplamente utilizadas devido e diferentes escalas, conforme ilustrado na Fig. 3. Assim, permitimos que
à sua versatilidade em problemas de classificação e regressão e sua cada conjunto de dados obtenha o condição inicial ótima para aumentar o
característica de aproximação de função universal [1] [11] desempenho da classificação.
[12] [13]. Um exemplo de MLP é apresentado na Fig. 2. Os círculos pequenos
representam os neurônios de entrada e saída em suas respectivas camadas,
e os círculos grandes representam os neurônios presentes nas camadas
ocultas. Essa estrutura também é chamada de topologia do MLP. As
conexões entre os neurônios, também conhecidas como pesos sinápticos,
são representadas por setas e contém o conhecimento do MLP. Esse
conhecimento é adquirido durante a fase de treinamento, geralmente usando
o algoritmo BP, quando o MLP aprende a partir de exemplos. Abaixo
apresentamos os efeitos conceituais dos hiperparâmetros MLP utilizados
neste trabalho.
Camadas Ocultas
evolução gramatical para projetar a topologia MLP, mas usa PB para B. Hiperparâmetros da Rede Neural MLP A Tabela II
treinamento. O método NN-SGE, proposto por [4], usa evolução gramatical
apresenta os hiperparâmetros a serem otimizados pelo AG, a faixa de
estruturada para otimizar tanto a topologia quanto os pesos sinápticos. valores permitidos e as localizações dos genes. Os números entre parênteses
representam os tipos de genes: (1)
O método proposto, MLPGA+4, otimiza não apenas a topologia e a taxa Categórica, (2) Discreta e (3) Contínua. Os hiperparâmetros que este trabalho
de aprendizado, mas também os pesos iniciais e os hiperparâmetros de se propõe a incluir no processo de otimização, inicialização e regularização
regularização. Consequentemente, espera-se que o MLP resultante seja dos pesos, são apresentados nos genes 1 a 2 e 12 a 14, respectivamente.
melhor otimizado e tenha um desempenho de maior precisão na classificação.
TABELA I. CONJUNTOS DE DADOS UCI USADOS EM EXPERIMENTOS Nº de neurônios na camada oculta 4 (2) [1, 16] 7
a 8
conjunto de dados Características Instâncias Nº de neurônios na camada oculta 5 (2) [1, 16]
População
Avaliação
Estrutura de rede
Sim
Parâmetros de aprendizagem Parar? Hiperparâmetros
selecionados
Não
Seleção
Cruzamento
Mutação
Fig. 5. O fluxograma dos hiperparâmetros do MLP sendo otimizados pelo GA. Aqui, os hiperparâmetros de inicialização e regularização dos pesos são codificados em um vetor cromossômico para serem
otimizados pelo AG, simultaneamente com a estrutura da rede (topologia) e os hiperparâmetros de aprendizado.
O método selecionado para otimizar os pesos e vieses sinápticos é o estabilidade para atingir esse desempenho. Por outro lado, a topologia do
BP com taxa de aprendizagem adaptativa e um trem limitado por 1.000 método proposto mostra um número substancialmente maior de neurônios,
épocas. Além disso, uma técnica de validação cruzada de 3 vezes foi dentre os que apresentaram esta informação.
usada para avaliar as capacidades de generalização do MLP. O 3-fold foi
escolhido devido à limitação do número de instâncias dos conjuntos de
Analisando os resultados do conjunto de dados da Ionosfera, o
dados, uma vez que treinar com 90% de instâncias limitadas pode aumentar
MLPGA+4 apresentou uma taxa de precisão consideravelmente maior
o risco de overfitting.
quando comparado com o método NNC. Como nos conjuntos de dados
C. Configuração anteriores, o desvio padrão do método proposto continua sendo o menor
do AG A representação cromossômica mista foi adotada para permitir e o número de neurônios, consideravelmente maior.
que o AG evolua com diferentes tipos de genes. Ao criar a população No conjunto de dados Sonar, a abordagem proposta mostra um
inicial, os genes categóricos e discretos foram amostrados com aumento de 15,79% na taxa de precisão quando comparada com NN
probabilidades iguais para cada categoria ou número inteiro. Os genes SGE, e com um desvio padrão consideravelmente menor. Mais uma vez
contínuos assumiram um valor real de uma distribuição uniforme dentro da com um número visivelmente maior de neurônios.
faixa de valores permitidos.
Os detalhes sobre o funcionamento dos operadores do AG estão descritos Analisando o conjunto de dados Heart, o MLPGA+4 apresentou um
na seção II.B.4. aumento de 8,30% na taxa de acurácia quando comparado com o método
GE BP. Também apresentou um desvio padrão consideravelmente menor.
A função de aptidão adotada calcula a taxa média de precisão dos
conjuntos de validação de uma configuração de validação cruzada de 3
vezes. A população inicial foi definida para conter 100 indivíduos, e o Finalmente, considerando o conjunto de dados Iris, o método proposto
número de gerações é determinado como 20. A técnica de elitismo foi apresenta uma taxa de precisão ligeiramente superior quando comparado
adotada em 5%. Este método, apresentado na Fig. 5, foi aplicado em 30 com o método GE-BP, e um desvio padrão consideravelmente menor.
execuções independentes, gerando 60.000 MLP treinadas para cada
conjunto de dados. TABELA III. CLASSIFICAÇÃO DESEMPENHO E Nº DE NEURÔNIOS
de floresta aleatória não linear [23] foi ajustado aos dados. Este modelo foi NNC 95,44% -
escolhido devido a sua capacidade de calcular a importância da variável. BCWD GE-BP 95,90% ± 3,14% -
Assim, podemos identificar facilmente qual hiperparâmetro tem mais NN-SGE 93,00% ± 2,00% 3,73 ± 1,53
influência no desempenho da classificação. Os dados utilizados no modelo MLPGA+4 99,19% ± 0,08%
a
b 11,67 ± 2,15
contêm 60.000 observações de cada conjunto de dados, resultantes de NNC 90,34% -
uma população de 100 indivíduos de 20 gerações e 30 execuções GE-BP 89,90% ± 3,16% -
independentes. A configuração dos hiperparâmetros MLP foram as Ionosfera
NN-SGE 3,53 ± 1,36
87,00% ± 10,00%
entradas, e a taxa média de precisão da validação cruzada de 3 vezes foi a b
MLPGA+4 96,73% ± 0,30% 36,03 ± 12,08
o alvo.
NN-SGE [1] 78,00% ± 5,00% 4,23 ± 1,33
Sonar a b
A importância de cada hiperparâmetro e seus efeitos foram analisados MLPGA+4 93,79% ± 0,41% 29,47 ± 16,11
graficamente e estatisticamente usando o teste Mann-Whitney U [24], que GE-BP 80,20% ± 5,24% -
Coração
é um teste não paramétrico bem estabelecido usado para comparar a MLPGA+4 88,50% ± 0,30%
a
b 26,57 ± 14,78
distribuição de dados de 2 grupos. A distribuição estatística dos resultados GE-BP 96,60 ± 6,14% -
Íris
será apresentada em um gráfico boxplot [25], que permite uma rápida MLPGA+4 98,87% ± 0,33%
a
b 13,10 ± 11,30
comparação entre grupos, como mediana, 1º e 3º quartis e dispersão,
b a.Taxa de precisão média de validação cruzada de 3 vezes. Média do nº de neurônios em MLP
identificando visualmente padrões. Os ensaios foram conduzidos em um
O melhor desempenho de classificação foi alcançado em diferentes
sistema operacional Linux Ubuntu 16.04 com plataforma de computação
gerações para cada conjunto de dados, considerando as 30 execuções
estatística R 3.4.1 e biblioteca de aprendizado de máquina H2O versão
independentes, conforme ilustrado na Fig. 6.
3.16.0.2.
4. RESULTADOS EXPERIMENTAIS
O conjunto de dados da Ionosfera exigiu em média 11 gerações para mesma distribuição. Embora 1,1% possa parecer menor, alguns problemas
atingir o melhor conjunto de hiperparâmetros, o menor número de gerações que exigem alta precisão podem se beneficiar da otimização desse
entre os considerados neste trabalho. O desvio padrão de 5,36 é semelhante hiperparâmetro.
aos demais conjuntos de dados, exceto para o conjunto de dados BCWD,
que apresentou 4,03.
O conjunto de dados BCWD exigiu uma média de 15,33 gerações para
atingir o melhor conjunto de hiperparâmetros, o maior número de gerações
entre os cinco conjuntos de dados.
0,4582
vizinhos usando o teste U de Mann-Whitney mostra que o intervalo (0,3, 0,4]
# Camada Oculta de Neurônios 4
1,0000 é estatisticamente superior, considerando um nível de significância de 5%.
# Camada Oculta de Neurônios 2
Taxa de abandono de entrada 0,7384
Distribuição de Peso Inicial 0,6003 Ao contrário do conjunto de dados BCWD, a dispersão da taxa média de
Sonar # Camadas Ocultas 0,5671
precisão, representada pelo tamanho do boxplot, aumenta quando a taxa
# Camada Oculta de Neurônios 1 0,3091
de abandono de entrada aumenta.
Função de ativação 1,0000
No conjunto de dados da Ionosfera, a escala de peso inicial e a Por fim, no conjunto de dados Iris, a taxa de abandono de entrada
distribuição de peso inicial são o segundo e o quarto fatores mais é o fator mais relevante relacionado à taxa média de precisão. Após
relevantes relacionados à taxa média de precisão. Após agrupar todos agrupar todos os intervalos estatisticamente iguais, o MLP que utilizou
os intervalos estatisticamente iguais, o MLP que utilizou a escala de a taxa de abandono de entrada na faixa (0,0, 0,1] apresentou um
peso inicial na faixa (0,5, 0,9] apresentou um aumento estimado de aumento estimado de 15,2% na taxa média de acerto quando
0,2% na taxa média de acerto quando comparado com o MLP que comparado com o MLP que utilizou o pior intervalo (0,6, 0,8 ] (Fig. 13).
utilizou o pior intervalo (1,3, 1,5 ] Considerando um nível de significância de 5%, o intervalo ótimo, (0,0,
(Fig. 10). Considerando um nível de significância de 5%, o intervalo 0,1], é estatisticamente superior aos demais intervalos. Além disso, o
ótimo, (0,5, 0,9], é estatisticamente superior aos demais intervalos. intervalo ótimo apresentou o menor desvio padrão da taxa média de
acerto (0,026). É 4,31 vezes menor do que o desvio padrão da taxa
média de acerto do pior intervalo (0,113).
Fig. 10. O boxplot da taxa de precisão média por intervalos de escala de peso inicial
no conjunto de dados da Ionosfera mostra uma faixa ideal no intervalo (0,5, 0,9],
com um aumento de 0,2% na taxa de precisão média quando comparada com o
Fig. 12. O boxplot da taxa de precisão média por intervalos de escala de peso
pior intervalo (1.3, 1.5].
inicial no conjunto de dados Heart mostra uma faixa ideal no intervalo (0,5, 0,9],
com um aumento de 0,4% na taxa de precisão média quando comparada com o
Além disso, no conjunto de dados da Ionosfera, o MLP que pior intervalo (1.1, 1.2].
alcançou a mediana mais alta da taxa média de precisão teve o
Adaptativo Uniforme como a distribuição de peso inicial (Fig. 11). A
distribuição estatística ótima apresentou um aumento estimado de
0,5% quando comparada com a distribuição gaussiana. Quando
comparada com as demais distribuições pelo teste U de Mann-Whitney,
o p-valor foi inferior a 0,1%, evidenciando que a Uniform Adaptive é
estatisticamente superior às distribuições Gaussiana e Uniforme.
V. CONCLUSÕES E TRABALHOS FUTUROS [4] F. Assunção, N. Lourenço, P. Machado e B. Ribeiro, "Geração automática de redes
neurais com evolução gramatical estruturada", em 2017 IEEE Congress on
Este trabalho apresentou a adição de hiperparâmetros para Evolutionary Computation (CEC), San Sebastian, 2017, pp. -1564.
inicialização e regularização de pesos a serem otimizados
simultaneamente com topologia e parâmetros de aprendizado de [5] PP Palmes, T. Hayasaka e S. Usui, "Rede Neural Genética Baseada em Mutação", IEEE
um MLP. Propôs também analisar como esses hiperparâmetros Transactions on Neural Networks, vol. 16, não. 3, pp.
587-600, maio de 2005.
afetam o desempenho da classificação.
[6] S. Zhang, H. Wang, L. Liu, C. Du e J. Lu, "Otimização de rede neural baseada em
Os resultados dos cinco conjuntos de dados mostram que o algoritmo genético e BP", em Anais da Conferência Internacional de 2014 sobre
método proposto permite treinar um MLP com melhor desempenho Computação em Nuvem e Internet das Coisas, Changchun, 2014, pp. 203-207.
a importância dos hiperparâmetros de regularização no controle do [12] C. Bishop, Redes neurais para reconhecimento de padrões. Oxford University Press,
overfit. Oxford, 1995.
[13] K. Hornik, M. Stinchcombe e H. White, “Redes feedforward multicamadas são
A distribuição de peso inicial e a escala de peso inicial são aproximadores universais,” Neural Netw., vol. 2, pp. 359-366, 1989.
encontradas entre os 5 hiperparâmetros mais relevantes em 3 de 5
conjuntos de dados. No conjunto de dados do Sonar, a otimização [14] MD Zeiler, “ADADELTA: An Adaptive Learning Rate Method,”
CoRR abs/1207.0151, 2012.
inicial da distribuição de peso aumentou a taxa média de precisão
[15] H. Lari-Najafi, M. Nasiruddin e T. Samad, "Efeito dos pesos iniciais na retropropagação
em 3,6%. Este resultado mostra a importância deste hiperparâmetro
e suas variações," Anais da Conferência., Conferência Internacional IEEE sobre
ser incluído no processo de otimização. Sistemas, Homem e Cibernética, Cambridge, MA, pp. 218-219 vol.1, 1989.
[22] K. Soltanian, FA Tab, FA Zar, I. Tsoulos, "Artificial Neural Networks Generation Using
REFERÊNCIAS Grammatical Evolution," 21st Iranian Conference on Electrical Engineering (ICEE),
Mashhad, pp. 1-5, 2013.
[1] S. Haykin, Redes Neurais: Uma Fundação Abrangente (2ª ed.).
[23] L. Breiman, “Florestas aleatórias,” Machine Learning, vol. 45, pp. 5-32,
Prentice Hall PTR, Upper Saddle River, NJ, EUA, 1998. 2001.
[2] J. Gill, B. Singh e S. Singh, “Training Back Propagation Neural Networks with Genetic
[24] WJ Conover, Estatística não paramétrica prática, Willey, Nova York,
Algorith for Weather Previsão”, em 2010 IEEE 8º Simpósio Internacional de Sistemas 1999.
Inteligentes e Informática (SISY), Subotica, 2010, pp. 465-469.
[25] McGill, R., Tukey, J., e Larsen, W, "Variations of Box Plots," The
American Statistician, 32(1), 12-16, 1978.
[3] KY Huang, LC Shen, KJ Chen e MC Huang, "Multilayer perceptron com algoritmo
genético para inversão de dados de perfil de poço", em 2013 IEEE International [26] A. Candel, V. Parmar, E. LeDell, A. Arora, “Deep Learning with H2O”, em http:// h2o.ai/
Geoscience and Remote Sensing Symposium (IGARSS), Melbourne, 2013, pp. resources, 2018.
1544-1547 .