Extending MLP ANN Hyper-Parameters Optimization by Using Genetic Algorithm

Machine Translated by Google
Estendendo a Otimização de hiperparâmetros MLP

ANN usando Algoritmo Genético
Fernando Itano Miguel Angelo de Abreu de Sousa Emilio Del-Moral-Hernandez

Dept. Electronic Systems Engineering Federal Institute of Education, Science and Dept. Electronic Systems Engineering
University of São Paulo Technology of São Paulo University of São Paulo
São Paulo, Brazil Sao Paulo, Brazil São Paulo, Brazil
itanofe@lsi.usp.br angelo@ifsp.edu.br emilio@lsi.usp.br
Resumo—Otimizar os hiperparâmetros de uma rede neural artificial como inicialização e regularização de pesos que também precisam
(ANN) multi-layer perceptron (MLP) não é uma tarefa trivial, e ainda ser ajustados porque podem melhorar o desempenho do MLP.
hoje a abordagem de tentativa e erro é amplamente utilizada.
Muitos trabalhos já apresentados utilizando o algoritmo genético (AG) Os hiperparâmetros de inicialização dos pesos utilizados neste
trabalho controlam a distribuição estatística e a escala dos pesos
para auxiliar nessa busca de otimização incluindo topologia MLP,
pesos e otimização de bias. Este trabalho propõe adicionar iniciais. Pesos mal inicializados podem impedir um bom desempenho,
hiperparâmetros para inicialização e regularização de pesos a serem levando a um treinamento mais lento e exigindo mais épocas para
otimizados simultaneamente com a topologia usual MLP e treinar ou a um treinamento mais rápido, mas com maior risco de ficar
hiperparâmetros de aprendizado. Também analisa quais preso em um mínimo local [9]. Por outro lado, uma inicialização de
hiperparâmetros estão mais correlacionados com o desempenho da peso otimizada permitirá que a retropropagação do MLP diminua
classificação, permitindo uma redução no espaço de busca, o que eficientemente o erro ao longo das épocas, alcançando melhor
diminui o tempo e a computação necessária para chegar a um bom conjunto de hiperparâmetros.
desempenho.
Os resultados obtidos com conjuntos de dados públicos revelam um
aumento no desempenho quando comparados com trabalhos Os hiperparâmetros de regularização são especialmente
semelhantes. Além disso, os hiperparâmetros relacionados à essenciais para melhorar a generalização de uma rede com tamanho
inicialização e regularização dos pesos estão entre os 5 de amostra limitado e um grande número de parâmetros[10]. Com um
hiperparâmetros mais relevantes para explicar o desempenho da grande número de parâmetros, o MLP pode memorizar exatamente
as instâncias
precisão em todos os conjuntos de dados, mostrando a importância de incluí-los de treinamento
no processo e atingir um suposto ajuste perfeito livre
de otimização.
de erros (Fig. 1), comprometendo a capacidade da rede de generalizar
Palavras-chave—rede neural artificial, perceptron multicamadas, o conhecimento adquirido na predição para os exemplos não usados
MLP, algoritmo genético, GA, hiperparâmetros no treinamento .
I. INTRODUÇÃO Regularização não otimizada Regularização Otimizada
Parâmetros de hiperajuste Hiperparâmetros de bom ajuste
Uma vez que cada problema possui especificidades sobre seus 40 40
dados, a escolha dos hiperparâmetros ótimos de uma MLP 35 35
geralmente envolve uma abordagem de tentativa e erro, que consome 30 30
tempo, recursos computacionais e exige do pesquisador grande 25 25
experiência para ajustar adequadamente a MLP. Portanto, é altamente

20 20
15 15
desejável ter um método para procurar automaticamente os 10 10
hiperparâmetros ideais de forma eficiente. Por hiperparâmetros 5 5
entendemos aqueles responsáveis por definir a topologia, aprendizado, 0
0 2 4 6 8 10
0
0 2 4 6 8 10
inicialização dos pesos e opções de regularização de um MLP.

Fig. 1. Os pontos circulares representam o conjunto de treinamento e os pontos em losango
AG tem sido amplamente utilizado como uma alternativa ao o conjunto de teste. Os hiperparâmetros de regularização não otimizados podem resultar no
clássico algoritmo Back-propagation (BP) [1] para ajustar o conjunto overfit do MLP, ou seja, com perda da capacidade de generalização e maior erro no conjunto
de teste (curva de ajuste no gráfico à esquerda). O método de regularização é especialmente
de valores de peso de MLP com topologia neural fixa, como em [2] [3].
importante com tamanho de amostra limitado e um grande número de parâmetros, levando
Alguns trabalhos estudaram o uso do AG para encontrar apenas a a uma melhor generalização e menor erro no conjunto de teste (curva de ajuste no gráfico à
topologia MLP, ou seja, o número de camadas ocultas e o número de direita). Os símbolos estão na mesma posição em ambos os gráficos.
neurônios em cada camada, como em [4]. Outros usam o AG para
buscar os valores ótimos dos pesos do MLP juntamente com sua Para melhorar o desempenho da classificação, este trabalho
topologia, ao invés de usar o BP clássico, como em [5]. O GA também propõe adicionar a inicialização dos pesos e os hiperparâmetros de
tem sido utilizado para ajustar os pesos e topologia do MLP, como em regularização para serem otimizados simultaneamente com a topologia
[6] [7], e para compor uma estratégia de treinamento híbrido com o MLP e aprender hiperparâmetros usando um AG. O método proposto
BP [8]. Essas otimizações de hiperparâmetros certamente aumentam denominado MLPGA+4 devido às 4 categorias de hiperparâmetros a
o desempenho do MLP. No entanto, existem outros hiperparâmetros essenciais,
serem otimizados simultaneamente.
XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE
978-1-5090-6014-6/18/$31,00 ©2018 IEEE

Uso licenciado autorizado limitado a: UNIVERSIDADE DE SAO PAULO. Baixado em 04 de abril de 2023 às 02:29:39 UTC do IEEE Xplore. Restrições aplicadas.
Além disso, a relação entre esses hiperparâmetros adicionados e o Ainda hoje, não existe uma regra estabelecida para definir o número de
desempenho da classificação será analisada para entender os efeitos desses neurônios e camadas ocultas, então a abordagem de tentativa e erro é
hiperparâmetros no desempenho da classificação. Isso permitirá identificar amplamente utilizada.
as regiões do espaço de hiperparâmetros onde o melhor desempenho de
2) Hiperparâmetros da taxa de aprendizado
classificação é alcançado. Com isso, também será possível restringir o
Existem vários métodos de otimização para ajustar adequadamente os
espaço de busca e desenvolver um AG mais eficiente, que requer menos
pesos sinápticos. O Gradient Descent foi o primeiro e foi necessário ajustar
tempo e recursos computacionais para encontrar um bom conjunto de
manualmente a taxa de aprendizado, um hiperparâmetro crítico para obter
hiperparâmetros.
alto desempenho. Mais recentemente alguns métodos com adaptação
dinâmica da taxa de aprendizado foram propostos, como o ADADELTA [14],
O restante deste artigo está organizado da seguinte forma: A Seção II utilizado neste trabalho. Este método altera dinamicamente a taxa de
apresenta brevemente alguns conceitos gerais sobre redes MLP e AG. A aprendizado para otimizar os pesos sinápticos mais rapidamente e sem ficar
Seção III detalha a metodologia desenvolvida, seguida dos resultados preso em mínimos locais. Requer dois hiperparâmetros a serem definidos: 1)
experimentais na Seção IV. A Seção V apresenta as conclusões e trabalhos r representa uma constante de decaimento, semelhante àquela usada no
futuros. método do momento, 2) e é uma constante para evitar a divisão por zero.
Além disso, parece ser robusto para diferentes topologias, conjuntos de
II. CONCEITOS GERAIS E TRABALHOS RELACIONADOS
dados e a seleção de outros hiperparâmetros [14].
Esta seção apresenta alguns conceitos gerais de MLP e os
hiperparâmetros que propomos adicionar ao processo de otimização. Serão
apresentados conceitos gerais do AG, bem como as modificações feitas para 3) Hiperparâmetros de inicialização de pesos sinápticos A
otimizar hiperparâmetros categóricos, inteiros e de valor real simultaneamente. velocidade e convergência do processo de aprendizagem de um MLP,
A seção Trabalhos Relacionados apresenta outros métodos de otimização como em muitos problemas de otimização multidimensionais, é fortemente
de hiperparâmetros MLP. influenciada pela condição inicial [15] [16]. Em um MLP, esses estados
iniciais são dados pelos pesos sinápticos iniciais. Neste trabalho, usamos os
hiperparâmetros que permitem que os valores iniciais sejam amostrados a
A. Efeitos de hiperparâmetro Perceptron multicamada partir de diferentes distribuições probabilísticas, como Gaussiana e Uniforme,
MLP é uma das arquiteturas de MLP mais amplamente utilizadas devido e diferentes escalas, conforme ilustrado na Fig. 3. Assim, permitimos que
à sua versatilidade em problemas de classificação e regressão e sua cada conjunto de dados obtenha o condição inicial ótima para aumentar o
característica de aproximação de função universal [1] [11] desempenho da classificação.
[12] [13]. Um exemplo de MLP é apresentado na Fig. 2. Os círculos pequenos
representam os neurônios de entrada e saída em suas respectivas camadas,
e os círculos grandes representam os neurônios presentes nas camadas
ocultas. Essa estrutura também é chamada de topologia do MLP. As
conexões entre os neurônios, também conhecidas como pesos sinápticos,
são representadas por setas e contém o conhecimento do MLP. Esse
conhecimento é adquirido durante a fase de treinamento, geralmente usando
o algoritmo BP, quando o MLP aprende a partir de exemplos. Abaixo
apresentamos os efeitos conceituais dos hiperparâmetros MLP utilizados
neste trabalho.
Camadas Ocultas
Camada de entrada Camada de saída
Fig. 3. Comparação da distribuição de peso inicial: Gaussiana e Uniforme com

escalas de 0,5 e 1,5.
4) Hiperparâmetros de regularização Com o

Fig. 2. Exemplo de um MLP com 3 entradas, 3 camadas ocultas; a primeira com 3 aumento do poder computacional, é fácil criar uma MLP com várias
neurônios, a segunda com 2 neurônios e a terceira com 3 neurônios e uma camada de camadas e um grande número de neurônios em cada camada. No entanto,
saída com 2 neurônios. esse grande número de parâmetros pode levar ao overfitting, ou seja, à perda
da capacidade de generalização [10]. Os hiperparâmetros de regularização
1) Hiperparâmetros da topologia O considerados neste trabalho são usados para preservar a capacidade de
aumento do número de neurônios, alocados em uma ou mais camadas generalização de 2 maneiras principais:
ocultas, permite um MLP mapear relacionamentos mais complexos entre
entrada e saída. No entanto, um grande número de neurônios aumenta o a) Razão de abandono de
tempo e a computação necessários para treinar a rede e aumenta a entrada A razão de abandono de entrada restringe a otimização online
probabilidade de overfitting. Por outro lado, menos neurônios e menos de modo que durante a propagação direta, para um dado exemplo de
camadas ocultas limitam o MLP a mapear apenas relacionamentos mais treinamento, cada neurônio da rede suprima sua ativação com probabilidade
simples. P [17].
Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

b) l1 e l2 sobre operador. Aqui usamos a seleção de torneio com 2 indivíduos.

Esses hiperparâmetros modificam a função de perda de forma a Esses 2 indivíduos são amostrados aleatoriamente da população e
minimizar a perda. l1 restringe o valor absoluto dos pesos sinápticos, seus valores de função de aptidão são comparados, aquele com o
enquanto l2 restringe a soma dos pesos ao quadrado; ambos podem maior valor é então selecionado. Este processo é repetido para outra
fazer com que os pesos sinápticos se tornem zero, também conhecido amostra aleatória de 2 indivíduos e o vencedor também é selecionado.
Esses 2 indivíduos vencedores selecionados são então submetidos
como processo de poda. Se os hiperparâmetros l1 e l2 estiverem bem
ajustados, eles reduzem o número de pesos sinápticos, reduzindo ao operador de cross-over.
apropriadamente o efeito overfit. Por outro lado, se os hiperparâmetros b) Cruzamento
l1 e l2 forem mal otimizados, muitos parâmetros podem tornar-se zero,
Este operador troca a informação cromossômica entre 2 indivíduos
simplificando demais o conhecimento adquirido, ou poucos parâmetros
para gerar descendentes com características mistas. Utilizamos aqui
podem tornar-se zero, aumentando o efeito de overfit.
o cruzamento uniforme, que consiste em amostrar uma variável
B. Algoritmo Genético otimizando um MLP aleatória da distribuição de Bernoulli [19] com p = 0,5 para cada gene.
AG é um dos algoritmos de busca de computação evolucionária Em seguida, definir qual pai enviará seus genes para a prole com
baseado na teoria evolutiva natural [18]. Ele afirma que os indivíduos base nessa amostra.
que estão melhor adaptados ao seu ambiente têm maior probabilidade Por exemplo, o primeiro filho herdará os genes do pai nº 1 se o valor
de sobreviver e se reproduzir. A próxima geração representada por da variável aleatória for “0” e herdará os genes do pai nº 2 se o valor
seus descendentes herdará uma mistura das características dos pais da variável aleatória for “1”. O segundo filho herdará os genes opostos.
e gerará indivíduos melhorados e piores. Os aprimorados terão ainda Um exemplo é mostrado na Fig. 4.
mais chances de sobreviver e se reproduzir, enquanto os piores
desaparecerão. Após várias gerações neste processo, espera-se que A probabilidade de ocorrência do cross-over foi definida como
a população evolua e encontre um indivíduo cujas características o 80%; caso contrário, os indivíduos selecionados passam para o
permitam ser o indivíduo mais adaptado.
próximo operador sem modificações.
Uma vez que a representação cromossômica aqui adotada contém

As principais características do AG incluem (1) robustez a genes categóricos, discretos e contínuos, ao invés da representação
descontinuidades da função de aptidão porque o AG não requer que
binária amplamente utilizada, o operador cross-over foi customizado
a função de aptidão tenha uma derivada, (2) robustez a mínimos locais para trocar adequadamente as informações genéticas, conforme
devido à sua característica de busca global e (3) busca direcionada mostrado a seguir.
que não não requer explorar o espaço de soluções completas. A
seguir estão os detalhes sobre como usar o GA para otimização de Pai#1 A1 B1 C1 D1
hiperparâmetros MLP. Pai#2 A2 B2 C2 D2
1) Função de aptidão Amostra cruzada 0 1 1 0
Uma função de aptidão calcula uma medida que permite avaliar o

quão adaptado um indivíduo está ao ambiente. Essa métrica é utilizada Prole #1 A1 B2 C2 D1
para direcionar a busca pelas características que resultarão em um
Prole #2 A2 B1 C1 D2
indivíduo mais adaptado, ou seja, com melhor desempenho em uma
tarefa. No contexto deste artigo, definimos a função de aptidão como
Fig. 4. Exemplo de cruzamento uniforme – a herança dos genes dos pais é
a taxa de acerto em tarefas de classificação.
estocasticamente definida por amostragem de uma distribuição de Bernoulli.
Os genes A, B, C e D, cada um representando uma característica, são
2) Representação cromossômica A
trocados ou não entre 2 genitores. Os 2 filhos herdarão uma combinação das
representação cromossômica binária [18] é a representação mais características dos pais.
utilizada e consiste na codificação da informação em genes que
podem assumir valores zero e um. Para evitar uma de suas ressalvas, c) Mutação
como o Abismo de Hamming, este trabalho utilizou uma representação
O operador de mutação introduz um fator estocástico no algoritmo
mista na qual cada gene pode assumir valores inteiros para
de evolução artificial e altera aleatoriamente as informações contidas
características categóricas e discretas e valores reais para
em um gene. Aqui, a probabilidade de ocorrer uma mutação foi
características contínuas.
definida como 20%. Além disso, a mutação e os operadores de
3) População Inicial A cruzamento ocorrem independentemente.
população inicial contém todos os indivíduos que serão avaliados C. Trabalhos Relacionados
pela função fitness e submetidos aos operadores genéticos.
Normalmente, ele é gerado por amostragem aleatória, mas neste Existem alguns trabalhos que otimizam o MLP usando AG com
trabalho foram tomados cuidados adicionais para garantir que não diferentes estratégias.
existam indivíduos replicados no início do processo de otimização. O método G-Prop, proposto por [20], usa AG para selecionar os
pesos iniciais e otimizar o número de neurônios em uma única camada
oculta. Esta é uma abordagem híbrida onde os pesos sinápticos são
4) Operadores Genéticos
inicializados por um AG e otimizados pelo algoritmo BP.
a) Seleção O método NNC, proposto por [21], usa evolução gramatical para
O operador de seleção escolhe 2 indivíduos da população com codificar a topologia da rede e os pesos sinápticos. O método GE-BP,
base em seu valor de função de aptidão para submeter ao cruzamento proposto por [22], também utiliza

evolução gramatical para projetar a topologia MLP, mas usa PB para B. Hiperparâmetros da Rede Neural MLP A Tabela II
treinamento. O método NN-SGE, proposto por [4], usa evolução gramatical
apresenta os hiperparâmetros a serem otimizados pelo AG, a faixa de
estruturada para otimizar tanto a topologia quanto os pesos sinápticos. valores permitidos e as localizações dos genes. Os números entre parênteses
representam os tipos de genes: (1)
O método proposto, MLPGA+4, otimiza não apenas a topologia e a taxa Categórica, (2) Discreta e (3) Contínua. Os hiperparâmetros que este trabalho
de aprendizado, mas também os pesos iniciais e os hiperparâmetros de se propõe a incluir no processo de otimização, inicialização e regularização
regularização. Consequentemente, espera-se que o MLP resultante seja dos pesos, são apresentados nos genes 1 a 2 e 12 a 14, respectivamente.
melhor otimizado e tenha um desempenho de maior precisão na classificação.
TABELA II. HIPERPARÂMETROS A SEREM OTIMIZADOS PELO GA, A FAIXA

DE VALORES PERMITIDOS E LOCALIZAÇÕES DE GENE
III. MÉTODO
Faixa de valores
O desempenho de classificação do método proposto e o efeito desses Hiperparâmetro (tipo de gene) Gene
permitidos
hiperparâmetros na taxa de precisão foram avaliados usando cinco conjuntos 1 – Gaussiano
de dados públicos. Distr. Peso Inicial (1) 2 – Uniforme 1
3 – Adaptativo Uniforme
A. Conjuntos de dados
Escala de Peso Inicial (3) [0,5, 1,5] 2
Cinco conjuntos de dados públicos do UCI Machine Learning Repository
Nº de camadas escondidas (2) [1, 5] 3
foram usados sem pré-processamento ou metodologias de aumento de dados,
ou seja, os conjuntos de dados são usados conforme obtidos. A coluna de Nº de neurônios na camada oculta 1 (2) [1, 16] 4
recursos mostra quantas entradas estão disponíveis e a coluna de instâncias
Nº de neurônios na camada oculta 2 (2) [1, 16] 5
mostra quantas observações de cada categoria cada conjunto de dados contém.
Nº de neurônios na camada oculta 3 (2) [1, 16] 6
TABELA I. CONJUNTOS DE DADOS UCI USADOS EM EXPERIMENTOS Nº de neurônios na camada oculta 4 (2) [1, 16] 7
a 8
conjunto de dados Características Instâncias Nº de neurônios na camada oculta 5 (2) [1, 16]
Diagnóstico de câncer de mama em Wisconsin 1 – Tanh

30 357+212=569
(BCWD) Função de ativação (1) 2 – Retificador 9
3 – Maxout
Ionosfera (Iono) 34 225+126=351
Taxa de aprendizado adaptável: fator de
[0,985, 0,995] 10
Banco Conexionista - Sonar, Minas vs. Rochas
60 97+111=208 decaimento de tempo - ALRTD (3)
(Sonar)
Taxa de aprendizado adaptável: fator de
[1e-9, 1e-7] 11
Doença Cardíaca (Coração) 14 164+139=303 suavização - ALRSM (3)
Taxa de abandono de entrada (3) [0,0, 0,8] 12

Íris 4 50+50+50=150
a. l1 (3) [0,0, 1e-3] 13

Número de observações em cada categoria e o total
l2 (3) [0,0, 1e-3] 14
1 Abordagem ANN MLP 2 Codificação de hiperparâmetros 3 Ajuste de hiperparâmetros de algoritmo genético
Entrada Saída Inicial

Camadas Ocultas População
Camada Camada
Inicialização dos Pesos
População
Avaliação
Estrutura de rede
Sim
Parâmetros de aprendizagem Parar? Hiperparâmetros
selecionados
Não
Parâmetros de Regularização Operadores Genéticos
Seleção
Cruzamento
Mutação
Fig. 5. O fluxograma dos hiperparâmetros do MLP sendo otimizados pelo GA. Aqui, os hiperparâmetros de inicialização e regularização dos pesos são codificados em um vetor cromossômico para serem
otimizados pelo AG, simultaneamente com a estrutura da rede (topologia) e os hiperparâmetros de aprendizado.

O método selecionado para otimizar os pesos e vieses sinápticos é o estabilidade para atingir esse desempenho. Por outro lado, a topologia do
BP com taxa de aprendizagem adaptativa e um trem limitado por 1.000 método proposto mostra um número substancialmente maior de neurônios,
épocas. Além disso, uma técnica de validação cruzada de 3 vezes foi dentre os que apresentaram esta informação.
usada para avaliar as capacidades de generalização do MLP. O 3-fold foi
escolhido devido à limitação do número de instâncias dos conjuntos de
Analisando os resultados do conjunto de dados da Ionosfera, o
dados, uma vez que treinar com 90% de instâncias limitadas pode aumentar
MLPGA+4 apresentou uma taxa de precisão consideravelmente maior
o risco de overfitting.
quando comparado com o método NNC. Como nos conjuntos de dados
C. Configuração anteriores, o desvio padrão do método proposto continua sendo o menor
do AG A representação cromossômica mista foi adotada para permitir e o número de neurônios, consideravelmente maior.
que o AG evolua com diferentes tipos de genes. Ao criar a população No conjunto de dados Sonar, a abordagem proposta mostra um
inicial, os genes categóricos e discretos foram amostrados com aumento de 15,79% na taxa de precisão quando comparada com NN
probabilidades iguais para cada categoria ou número inteiro. Os genes SGE, e com um desvio padrão consideravelmente menor. Mais uma vez
contínuos assumiram um valor real de uma distribuição uniforme dentro da com um número visivelmente maior de neurônios.
faixa de valores permitidos.
Os detalhes sobre o funcionamento dos operadores do AG estão descritos Analisando o conjunto de dados Heart, o MLPGA+4 apresentou um
na seção II.B.4. aumento de 8,30% na taxa de acurácia quando comparado com o método
GE BP. Também apresentou um desvio padrão consideravelmente menor.
A função de aptidão adotada calcula a taxa média de precisão dos
conjuntos de validação de uma configuração de validação cruzada de 3
vezes. A população inicial foi definida para conter 100 indivíduos, e o Finalmente, considerando o conjunto de dados Iris, o método proposto
número de gerações é determinado como 20. A técnica de elitismo foi apresenta uma taxa de precisão ligeiramente superior quando comparado
adotada em 5%. Este método, apresentado na Fig. 5, foi aplicado em 30 com o método GE-BP, e um desvio padrão consideravelmente menor.
execuções independentes, gerando 60.000 MLP treinadas para cada
conjunto de dados. TABELA III. CLASSIFICAÇÃO DESEMPENHO E Nº DE NEURÔNIOS
conjunto de dados Método Precisão neurônios

Para avaliar quais dos hiperparâmetros estão mais correlacionados
com o desempenho da classificação e quantificar seus efeitos, um modelo G-Prop 99,00% ± 0,50% 3,20 ± 0,8
de floresta aleatória não linear [23] foi ajustado aos dados. Este modelo foi NNC 95,44% -
escolhido devido a sua capacidade de calcular a importância da variável. BCWD GE-BP 95,90% ± 3,14% -
Assim, podemos identificar facilmente qual hiperparâmetro tem mais NN-SGE 93,00% ± 2,00% 3,73 ± 1,53
influência no desempenho da classificação. Os dados utilizados no modelo MLPGA+4 99,19% ± 0,08%
a
b 11,67 ± 2,15
contêm 60.000 observações de cada conjunto de dados, resultantes de NNC 90,34% -
uma população de 100 indivíduos de 20 gerações e 30 execuções GE-BP 89,90% ± 3,16% -
independentes. A configuração dos hiperparâmetros MLP foram as Ionosfera
NN-SGE 3,53 ± 1,36
87,00% ± 10,00%
entradas, e a taxa média de precisão da validação cruzada de 3 vezes foi a b
MLPGA+4 96,73% ± 0,30% 36,03 ± 12,08
o alvo.
NN-SGE [1] 78,00% ± 5,00% 4,23 ± 1,33
Sonar a b
A importância de cada hiperparâmetro e seus efeitos foram analisados MLPGA+4 93,79% ± 0,41% 29,47 ± 16,11
graficamente e estatisticamente usando o teste Mann-Whitney U [24], que GE-BP 80,20% ± 5,24% -
Coração
é um teste não paramétrico bem estabelecido usado para comparar a MLPGA+4 88,50% ± 0,30%
a
b 26,57 ± 14,78
distribuição de dados de 2 grupos. A distribuição estatística dos resultados GE-BP 96,60 ± 6,14% -
Íris
será apresentada em um gráfico boxplot [25], que permite uma rápida MLPGA+4 98,87% ± 0,33%
a
b 13,10 ± 11,30
comparação entre grupos, como mediana, 1º e 3º quartis e dispersão,
b a.Taxa de precisão média de validação cruzada de 3 vezes. Média do nº de neurônios em MLP
identificando visualmente padrões. Os ensaios foram conduzidos em um
O melhor desempenho de classificação foi alcançado em diferentes
sistema operacional Linux Ubuntu 16.04 com plataforma de computação
gerações para cada conjunto de dados, considerando as 30 execuções
estatística R 3.4.1 e biblioteca de aprendizado de máquina H2O versão
independentes, conforme ilustrado na Fig. 6.
3.16.0.2.
4. RESULTADOS EXPERIMENTAIS
A Tabela III apresenta o desempenho de classificação do melhor MLP

após 20 gerações em cada uma das 30 execuções independentes em
cada conjunto de dados com seu respectivo número de neurônios usando
o MLPGA+4, e os resultados de trabalhos semelhantes. A taxa média de
acerto e o número de neurônios são apresentados com seus respectivos
desvios padrão (±).
Considerando o conjunto de dados BCWD, o método proposto mostra

Fig. 6. Os boxplots com a distribuição de gerações necessárias para atingir o melhor conjunto
uma taxa de precisão um pouco maior na classificação do câncer como de hiperparâmetros. Os triângulos mostram o número médio de gerações. O conjunto de dados
benigno ou maligno quando comparado com o método G-Prop, mas com Ionosphere exigiu menos gerações para atingir um bom conjunto de hiperparâmetros, com uma
um desvio padrão consideravelmente menor, evidenciando melhor média de 11. Por outro lado, o conjunto de dados BCWD exigiu 15,33 gerações, em média.

O conjunto de dados da Ionosfera exigiu em média 11 gerações para mesma distribuição. Embora 1,1% possa parecer menor, alguns problemas
atingir o melhor conjunto de hiperparâmetros, o menor número de gerações que exigem alta precisão podem se beneficiar da otimização desse
entre os considerados neste trabalho. O desvio padrão de 5,36 é semelhante hiperparâmetro.
aos demais conjuntos de dados, exceto para o conjunto de dados BCWD,
que apresentou 4,03.
O conjunto de dados BCWD exigiu uma média de 15,33 gerações para
atingir o melhor conjunto de hiperparâmetros, o maior número de gerações
entre os cinco conjuntos de dados.
Os resultados mostram que, embora algumas das 30 execuções

independentes tenham alcançado o melhor conjunto de hiperparâmetros
antes da 20ª geração, a redução no número de gerações reduz drasticamente
a probabilidade de atingir esse conjunto ótimo. Isso significa que para
manter a probabilidade de atingir o melhor conjunto de hiperparâmetros em
90%, é necessário evoluir pelo menos até a 17ª geração no conjunto de
dados Ionosfera e 20ª geração no conjunto de dados BCWD.
Fig. 7. O boxplot da taxa média de precisão por taxa de abandono de entrada no conjunto de dados BCWD
mostra uma faixa ideal no intervalo (0,2, 0,3], com um aumento de 1,1% na taxa média de precisão quando
A Tabela IV apresenta a importância escalonada dos 5 principais
comparado com o pior intervalo ( 0,7, 0,8].
hiperparâmetros por cada conjunto de dados. Os hiperparâmetros em
negrito são os propostos a serem incluídos no processo de otimização deste
trabalho. No conjunto de dados do Sonar, a taxa de abandono de entrada e a
distribuição de peso inicial são os 2 fatores mais relevantes relacionados à
TABELA IV. IMPORTÂNCIA ESCALADA DOS 5 PRINCIPAIS HIPERPARÂMETROS POR taxa média de precisão. O boxplot apresentado na Fig. 8 mostra que o MLP
CONJUNTO DE DADOS
que utilizou o hiperparâmetro de taxa de abandono de entrada no intervalo
conjunto de dados
Hiperparâmetro Importância em escala 1,0000 (0,3, 0,4] apresentou a maior mediana da taxa média de acerto. Essa faixa
0,5075
# Camada Oculta de Neurônios 3 ótima apresenta um aumento de 10,5% na média taxa de acerto quando
# Camadas Ocultas 0,4693
comparado com o pior intervalo (0,7, 0,8).A comparação com seus intervalos
BCWD Taxa de abandono de entrada 0,4615
0,4582
vizinhos usando o teste U de Mann-Whitney mostra que o intervalo (0,3, 0,4]
# Camada Oculta de Neurônios 4
1,0000 é estatisticamente superior, considerando um nível de significância de 5%.
Taxa de abandono de entrada 0,7384
Distribuição de Peso Inicial 0,6003 Ao contrário do conjunto de dados BCWD, a dispersão da taxa média de
Sonar # Camadas Ocultas 0,5671
precisão, representada pelo tamanho do boxplot, aumenta quando a taxa
# Camada Oculta de Neurônios 1 0,3091
de abandono de entrada aumenta.
Função de ativação 1,0000
# Camada Oculta de Neurônios 5 0,8349
Escala de Peso Inicial 0,7985
Ionosfera # Camadas Ocultas 0,5723
Distribuição de Peso Inicial 0,5376
# Camadas Ocultas 0,6943
Coração # Camada Oculta de Neurônios 5

Escala de Peso Inicial
Taxa de abandono de entrada
# Camadas Ocultas
Íris # Camada Oculta de Neurônios 3
# Total de Neurônios
Função de ativação 0,4753030303000000000000000000 0,530 0,53000000000000000000 0,530 0,53000000000000000000 0,540 0,530.53000000.8232 0,6943 ,
Fig. 8. O boxplot da taxa média de precisão por taxa de abandono de entrada no conjunto de dados do
Sonar mostra uma faixa ideal no intervalo (0,3, 0,4], com um aumento de 10,5% na taxa média de precisão
quando comparado com o pior intervalo ( 0,7, 0,8].
Analisando o efeito dos hiperparâmetros no conjunto de dados BCWD,
o hiperparâmetro da taxa de abandono de entrada é o terceiro fator mais
importante para explicar a taxa média de precisão. O boxplot representado Analisando a distribuição de peso inicial no conjunto de dados Sonar,
na Fig. 7 mostra que o MLP que usou o hiperparâmetro de taxa de abandono Uniform Adaptive [26] apresentou a maior mediana da taxa média de
de entrada no intervalo (0,2, 0,3] apresentou a maior mediana da taxa média precisão (Fig. 9). Esta distribuição apresentou um aumento estimado de
de precisão. Essa faixa ótima dá um aumento de 1,1% na média taxa de 3,6% quando comparada com a distribuição gaussiana. Além disso, o desvio
acerto quando comparado com o pior intervalo (0,7, 0,8). Contrastando com padrão da taxa de precisão média adaptativa uniforme é 44% menor que o
seus intervalos vizinhos, (0,1, 0,2] e (0,3, 0,4), os valores-p do teste U de uniforme e 61% menor que a distribuição gaussiana. Considerando um nível
Mann-Whitney são inferiores a 0,1%. valor mostra que o intervalo ótimo é de significância de 5%, o Uniform Adaptive apresentou taxa média de acerto
estatisticamente superior aos seus vizinhos. A hipótese nula deste teste estatisticamente superior às distribuições Gaussiana e Uniforme.
estatístico é que os grupos têm o

No conjunto de dados da Ionosfera, a escala de peso inicial e a Por fim, no conjunto de dados Iris, a taxa de abandono de entrada
distribuição de peso inicial são o segundo e o quarto fatores mais é o fator mais relevante relacionado à taxa média de precisão. Após
relevantes relacionados à taxa média de precisão. Após agrupar todos agrupar todos os intervalos estatisticamente iguais, o MLP que utilizou
os intervalos estatisticamente iguais, o MLP que utilizou a escala de a taxa de abandono de entrada na faixa (0,0, 0,1] apresentou um
peso inicial na faixa (0,5, 0,9] apresentou um aumento estimado de aumento estimado de 15,2% na taxa média de acerto quando
0,2% na taxa média de acerto quando comparado com o MLP que comparado com o MLP que utilizou o pior intervalo (0,6, 0,8 ] (Fig. 13).
utilizou o pior intervalo (1,3, 1,5 ] Considerando um nível de significância de 5%, o intervalo ótimo, (0,0,
(Fig. 10). Considerando um nível de significância de 5%, o intervalo 0,1], é estatisticamente superior aos demais intervalos. Além disso, o
ótimo, (0,5, 0,9], é estatisticamente superior aos demais intervalos. intervalo ótimo apresentou o menor desvio padrão da taxa média de
acerto (0,026). É 4,31 vezes menor do que o desvio padrão da taxa
média de acerto do pior intervalo (0,113).
Fig. 9. O boxplot da taxa média de precisão por distribuição de peso inicial no

conjunto de dados do Sonar mostra Uniform Adaptive como a distribuição ideal,
com um aumento de 3,6% no desempenho da precisão quando comparado com a
distribuição Gaussiana. Fig. 11. O boxplot da taxa média de precisão por distribuição de peso inicial no
conjunto de dados da Ionosfera mostra Uniforme Adaptável como a distribuição
ideal, com um aumento de 0,5% na taxa média de precisão quando comparada
com a distribuição gaussiana.
Fig. 10. O boxplot da taxa de precisão média por intervalos de escala de peso inicial
no conjunto de dados da Ionosfera mostra uma faixa ideal no intervalo (0,5, 0,9],
com um aumento de 0,2% na taxa de precisão média quando comparada com o
Fig. 12. O boxplot da taxa de precisão média por intervalos de escala de peso
pior intervalo (1.3, 1.5].
inicial no conjunto de dados Heart mostra uma faixa ideal no intervalo (0,5, 0,9],
com um aumento de 0,4% na taxa de precisão média quando comparada com o
Além disso, no conjunto de dados da Ionosfera, o MLP que pior intervalo (1.1, 1.2].
alcançou a mediana mais alta da taxa média de precisão teve o
Adaptativo Uniforme como a distribuição de peso inicial (Fig. 11). A
distribuição estatística ótima apresentou um aumento estimado de
0,5% quando comparada com a distribuição gaussiana. Quando
comparada com as demais distribuições pelo teste U de Mann-Whitney,
o p-valor foi inferior a 0,1%, evidenciando que a Uniform Adaptive é
estatisticamente superior às distribuições Gaussiana e Uniforme.
No conjunto de dados Heart, a taxa de abandono de entrada é o

5º fator mais relevante relacionado à taxa média de precisão. Após
agrupar todos os intervalos estatisticamente iguais, o MLP que utilizou
a escala de peso inicial na faixa (0,5, 0,9] apresentou um aumento
estimado de 0,4% na taxa média de acerto quando comparado com o
MLP que utilizou o pior intervalo (1,1, 1,2 ] (Fig. 12).
Fig. 13. O boxplot da taxa média de precisão por intervalos de taxa de abandono
Considerando um nível de significância de 5%, o intervalo ótimo, (0,5, de entrada no conjunto de dados Iris mostra uma faixa ideal no intervalo (0,0, 0,1],
0,9], é estatisticamente igual ao intervalo (1,0, 1,1] e estatisticamente com um aumento de 15,2% na taxa média de precisão quando comparado com o
superior aos demais intervalos). pior intervalo (0,6, 0,8].

V. CONCLUSÕES E TRABALHOS FUTUROS [4] F. Assunção, N. Lourenço, P. Machado e B. Ribeiro, "Geração automática de redes
neurais com evolução gramatical estruturada", em 2017 IEEE Congress on
Este trabalho apresentou a adição de hiperparâmetros para Evolutionary Computation (CEC), San Sebastian, 2017, pp. -1564.
inicialização e regularização de pesos a serem otimizados
simultaneamente com topologia e parâmetros de aprendizado de [5] PP Palmes, T. Hayasaka e S. Usui, "Rede Neural Genética Baseada em Mutação", IEEE
um MLP. Propôs também analisar como esses hiperparâmetros Transactions on Neural Networks, vol. 16, não. 3, pp.
587-600, maio de 2005.
afetam o desempenho da classificação.
[6] S. Zhang, H. Wang, L. Liu, C. Du e J. Lu, "Otimização de rede neural baseada em
Os resultados dos cinco conjuntos de dados mostram que o algoritmo genético e BP", em Anais da Conferência Internacional de 2014 sobre
método proposto permite treinar um MLP com melhor desempenho Computação em Nuvem e Internet das Coisas, Changchun, 2014, pp. 203-207.
na tarefa de classificação quando comparado com trabalhos

[7] JT Tsai, JH Chou e TK Liu, “Ajustando a estrutura e os parâmetros de uma rede neural
semelhantes. Além disso, o desvio padrão da taxa média de acerto
usando algoritmo genético híbrido de Taguchi,” IEEE Transactions on Neural
apresentado pelo método proposto é o menor, demonstrando a Networks, vol. 17, não. 1, pp. 69-80, janeiro de 2006.
estabilidade da abordagem. [8] X. Yao, "Evolução de redes neurais artificiais", Proceedings of the IEEE,
voo. 87, nº. 9, pp. 1423–1447, 1999.
Nos cinco conjuntos de dados, os hiperparâmetros adicionados
[9] Y. Bengio, “Recomendações práticas para treinamento baseado em gradiente de
de inicialização e regularização de pesos encontram-se entre os 5
arquiteturas profundas”, em G. Montavon, GB Orr, KR. Müller (eds) Redes neurais:
hiperparâmetros mais relevantes para explicar a taxa de precisão do truques do ofício. Lecture Notes in Computer Science, vol 7700. Springer, Berlin,
MLP em tarefas de classificação. A maior diferença na taxa de Heidelberg, 2012.
precisão média ocorreu no conjunto de dados Iris com um aumento [10] GN Karystinos e DA Pados, "On overfitting, generalização e conjuntos de treinamento
de mais de 15% do pior para o melhor intervalo da taxa de abandono expandidos aleatoriamente," IEEE Transactions on Neural Networks, vol. 11, não. 5,
de entrada. Mesmo com o maior número de neurônios em todos os pp. 1050-1057, setembro de 2000.
conjuntos de dados, o MLP com o método proposto apresentou a [11] G. Cybenko, Aproximação por superposições de uma função sigmoidal, Math. Control
maior taxa de precisão na validação cruzada de 3 vezes, mostrando Signals Systems 2 (1989) 303–314.
a importância dos hiperparâmetros de regularização no controle do [12] C. Bishop, Redes neurais para reconhecimento de padrões. Oxford University Press,
overfit. Oxford, 1995.
[13] K. Hornik, M. Stinchcombe e H. White, “Redes feedforward multicamadas são
A distribuição de peso inicial e a escala de peso inicial são aproximadores universais,” Neural Netw., vol. 2, pp. 359-366, 1989.
encontradas entre os 5 hiperparâmetros mais relevantes em 3 de 5
conjuntos de dados. No conjunto de dados do Sonar, a otimização [14] MD Zeiler, “ADADELTA: An Adaptive Learning Rate Method,”
CoRR abs/1207.0151, 2012.
inicial da distribuição de peso aumentou a taxa média de precisão
[15] H. Lari-Najafi, M. Nasiruddin e T. Samad, "Efeito dos pesos iniciais na retropropagação
em 3,6%. Este resultado mostra a importância deste hiperparâmetro
e suas variações," Anais da Conferência., Conferência Internacional IEEE sobre
ser incluído no processo de otimização. Sistemas, Homem e Cibernética, Cambridge, MA, pp. 218-219 vol.1, 1989.
Devido às peculiaridades de cada problema, cada conjunto de

[16] I. Sutskever, J. Martens, G. Dahl e G. Hinton, “On the important of initialization and
dados se beneficiou de um conjunto diferente de hiperparâmetros e
momentum in deep learning,” in Proceedings of the 30th International Conference on
alcançou o melhor conjunto em diferentes gerações. Portanto, não Machine Learning , em PMLR 28(3) , pp. 1139-1147, 2013.
foi encontrado um padrão que pudesse ser utilizado para tornar a
busca por AG mais eficiente. Por outro lado, mostra como é [17] GE Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever e RR
importante otimizar esses hiperparâmetros em cada conjunto de Salakhutdinov, “Melhorando redes neurais prevenindo a co-adaptação de detectores
dados com um mínimo de 20 gerações para obter alto desempenho. de recursos”, arXiv preprint arXiv:1207.0580, 2012.
[18] M. Mitchell, uma introdução ao algoritmo genético. MIT Press, Cambridge, 1999.
Extensões futuras a este trabalho incluem adicionar o
hiperparâmetro dropout da camada oculta para ser otimizado com [19] S. Ross, Um Primeiro Curso de Probabilidade. Pearson, Londres, 2014.
os propostos aqui e analisar o desempenho do MLPGA+4 em tarefas [20] PA Castillo, JJ Merelo, A. Prieto, V. Rivas, G. Romero, “G-Prop: Otimização global de
de regressão. A correlação entre os próprios hiperparâmetros deve perceptrons multicamadas usando GAs,” [20] .
ser analisada para procurar um padrão que possa ser usado para Neurocomputing 35, 2000, pp. 149-163.
reduzir o espaço de busca dos hiperparâmetros, reduzindo assim o [21] I. Tsoulos, D. Gavrilis e E. Glavas, "Construção e treinamento de redes neurais usando
tempo necessário para encontrar o conjunto ótimo de hiperparâmetros. evolução gramatical", Neurocomputing, vol. 72, nº. 1, pp. 269–277, 2008.
[22] K. Soltanian, FA Tab, FA Zar, I. Tsoulos, "Artificial Neural Networks Generation Using
REFERÊNCIAS Grammatical Evolution," 21st Iranian Conference on Electrical Engineering (ICEE),
Mashhad, pp. 1-5, 2013.
[1] S. Haykin, Redes Neurais: Uma Fundação Abrangente (2ª ed.).
[23] L. Breiman, “Florestas aleatórias,” Machine Learning, vol. 45, pp. 5-32,
Prentice Hall PTR, Upper Saddle River, NJ, EUA, 1998. 2001.
[2] J. Gill, B. Singh e S. Singh, “Training Back Propagation Neural Networks with Genetic
[24] WJ Conover, Estatística não paramétrica prática, Willey, Nova York,
Algorith for Weather Previsão”, em 2010 IEEE 8º Simpósio Internacional de Sistemas 1999.
Inteligentes e Informática (SISY), Subotica, 2010, pp. 465-469.
[25] McGill, R., Tukey, J., e Larsen, W, "Variations of Box Plots," The
American Statistician, 32(1), 12-16, 1978.
[3] KY Huang, LC Shen, KJ Chen e MC Huang, "Multilayer perceptron com algoritmo
genético para inversão de dados de perfil de poço", em 2013 IEEE International [26] A. Candel, V. Parmar, E. LeDell, A. Arora, “Deep Learning with H2O”, em http:// h2o.ai/
Geoscience and Remote Sensing Symposium (IGARSS), Melbourne, 2013, pp. resources, 2018.
1544-1547 .


Extending MLP ANN Hyper-Parameters Optimization by Using Genetic Algorithm

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Extending MLP ANN Hyper-Parameters Optimization by Using Genetic Algorithm

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Estendendo a Otimização de hiperparâmetros MLP

Fernando Itano Miguel Angelo de Abreu de Sousa Emilio Del-Moral-Hernandez

dados, a escolha dos hiperparâmetros ótimos de uma MLP 35 35

geralmente envolve uma abordagem de tentativa e erro, que consome 30 30

tempo, recursos computacionais e exige do pesquisador grande 25 25

experiência para ajustar adequadamente a MLP. Portanto, é altamente

desejável ter um método para procurar automaticamente os 10 10

hiperparâmetros ideais de forma eficiente. Por hiperparâmetros 5 5

entendemos aqueles responsáveis por definir a topologia, aprendizado, 0

inicialização dos pesos e opções de regularização de um MLP.

XXX-X-XXXX-XXXX-X/XX/$XX.00 ©20XX IEEE

978-1-5090-6014-6/18/$31,00 ©2018 IEEE

Camada de entrada Camada de saída

Fig. 3. Comparação da distribuição de peso inicial: Gaussiana e Uniforme com

4) Hiperparâmetros de regularização Com o

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

b) l1 e l2 sobre operador. Aqui usamos a seleção de torneio com 2 indivíduos.

Uma vez que a representação cromossômica aqui adotada contém

hiperparâmetros MLP. Pai#2 A2 B2 C2 D2

1) Função de aptidão Amostra cruzada 0 1 1 0

Uma função de aptidão calcula uma medida que permite avaliar o

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

TABELA II. HIPERPARÂMETROS A SEREM OTIMIZADOS PELO GA, A FAIXA

Diagnóstico de câncer de mama em Wisconsin 1 – Tanh

Taxa de abandono de entrada (3) [0,0, 0,8] 12

a. l1 (3) [0,0, 1e-3] 13

l2 (3) [0,0, 1e-3] 14

1 Abordagem ANN MLP 2 Codificação de hiperparâmetros 3 Ajuste de hiperparâmetros de algoritmo genético

Entrada Saída Inicial

Inicialização dos Pesos

Parâmetros de Regularização Operadores Genéticos

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

conjunto de dados Método Precisão neurônios

A Tabela III apresenta o desempenho de classificação do melhor MLP

Considerando o conjunto de dados BCWD, o método proposto mostra

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

Os resultados mostram que, embora algumas das 30 execuções

# Camada Oculta de Neurônios 5 0,8349

Escala de Peso Inicial 0,7985

Ionosfera # Camadas Ocultas 0,5723

Distribuição de Peso Inicial 0,5376

Função de ativação 1,0000

Função de ativação 0,8232

# Camadas Ocultas 0,6943

Coração # Camada Oculta de Neurônios 5

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

Fig. 9. O boxplot da taxa média de precisão por distribuição de peso inicial no

No conjunto de dados Heart, a taxa de abandono de entrada é o

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

na tarefa de classificação quando comparado com trabalhos

Devido às peculiaridades de cada problema, cada conjunto de

Conferência Conjunta Internacional de 2018 sobre Redes Neurais (IJCNN)

Você também pode gostar