Uma Metaheurística Híbrida de Dois Níveis para Pontuação de Crédito

Machine Translated by Google
Information Systems Frontiers (2020) 22:1009–1019 https://

doi.org/10.1007/s10796-020-10037-0
Uma metaheurística híbrida de dois níveis para pontuação de crédito
Doruk ÿen1,2 & Cem Çaÿrÿ Dönmez3 & Oman Mahir Yÿldÿrÿm2
Publicado online: 3 de julho de 2020

# Springer Science+Business Media, LLC, parte da Springer Nature 2020
Resumo
Esta pesquisa tem como objetivo propor uma estrutura para avaliação de solicitações de crédito, atribuindo uma pontuação binária ao solicitante. A
pontuação é direcionada para determinar se o pedido de crédito é 'bom' ou 'ruim' em empréstimos para fins comerciais. Mesmo pequenas melhorias de
desempenho em pequenas empresas podem gerar um impacto positivo na economia, pois geram mais de 60% do valor. O método apresentado neste
artigo hibridiza o Algoritmo Genético (GA) e a Máquina de Vetores de Suporte (SVM) em um mecanismo de alimentação de dois níveis para maior precisão
de previsão. O primeiro nível é determinar os parâmetros do SVM e o segundo é encontrar um conjunto de recursos que aumente a precisão da
classificação. Para testar a abordagem proposta, investigamos três conjuntos de dados diferentes; Conjunto de dados australiano da UCI para trabalhos
preliminares, conjunto de dados do Lending Club para treinamento e testes grandes e conjuntos de dados alemães e australianos da UCI para comparação
com alguns outros métodos notáveis que usam GA. Nossos resultados computacionais mostram que nosso método proposto usando um mecanismo de
feedback sob a estrutura híbrida de dois níveis GA-SVM supera outros algoritmos de classificação na literatura, ou seja, Árvore de Decisão, Florestas
Aleatórias, Regressão Logística, SVM e Redes Neurais Artificiais, melhora efetivamente a classificação precisão.
Palavras-chave Máquina de vetores de suporte. Algoritmo genético . Pontuação de crédito. Classificação . Seleção de recursos
1. Introdução o aumento da eficiência do modelo resultará em reduções nas perdas

monetárias para as instituições e autoridades.
Os mecanismos de pontuação de crédito formam a espinha dorsal do Durante os anos finais da década de 1930, o National Bureau of
setor financeiro ou de outras autoridades emissoras de crédito. Um modelo Economic Research (NBER) dos EUA realizou uma coleção de estudos
sólido deve ser capaz de diferenciar os requerentes nas categorias de sobre o conceito de financiamento a prestações. Esses estudos foram
inadimplentes e não inadimplentes em termos de capacidade de cumprir publicados durante os primeiros anos da década de 1940. Entre eles,
ou não as obrigações que são oferecidas nas solicitações de crédito. Chapman (1940) introduziu que os oficiais de crédito deveriam decidir
Inadimplência - a segregação de não inadimplência nem sempre é sobre o pedido com base em sua intuição e experiência. A subjetividade
necessária conforme introduzido no trabalho de Hand e Henley (1997), mencionada foi baseada em sua vontade e capacidade de pagamento.
designar classes boas e ruins para avaliação de risco também é aceitável Plummer e Young (1940) enfocaram os fatores que afetam o risco de
na literatura. A abordagem converte automaticamente o caso em um crédito. No entanto, os fatores de risco distintos foram ponderados
problema de classificação binária, pois a decisão final é a capacidade de subjetivamente sem o uso de ferramentas empíricas. O uso de ferramentas
separar casos bons e ruins uns dos outros. O matemáticas poderia ser considerado limitado até outro estudo NBER que
é conduzido por Durand (1941) onde a análise discriminante (DA) é usada

para classificação de inadimplência de crédito. O algoritmo que é
desenvolvido em seu trabalho foi nomeado como a fórmula de classificação
* Doruk ÿen
de crédito. A fórmula é utilizada para obter uma pontuação para a decisão
doruksen@marun.edu.tr de aceitação ou rejeição por um agente de crédito. Ele alegou que esse
método permite o processamento rápido de pedidos de empréstimo com
1 pura objetividade. Juntamente com o trabalho de Fisher (1936) sobre
Departamento de Gestão de Engenharia, Instituto de Pura e
Ciências Aplicadas, Universidade de Marmara, 34722 Kadikoy, Istambul, discriminação estatística, os estudos NBER assumiram uma função
Peru essencial no desenvolvimento da pontuação de crédito.
2
Departamento de Engenharia Industrial, Istanbul Bilgi University, No entanto, o tamanho da amostra foi considerado um dos principais
34060 Eyupsultan, Istambul, Turquia argumentos em suas pesquisas.
3
Departamento de Engenharia Industrial, Universidade de Marmara, Com o aumento das bases de dados, os métodos estatísticos assumiram
34722 Kadikoy, Istambul, Turquia o lugar dos métodos convencionais (Bumacov et al. 2017).
1010 Inf Syst Front (2020) 22:1009–1019
No final dos anos 60, a análise discriminante múltipla é proposta por critério. Portanto, o aprendizado se torna a execução do modelo
Altman (1968) para a previsão de falências. Pouco mais de uma década desenvolvido para obter o objetivo. Em conjuntos de dados pequenos e
depois, uma abordagem probabilística é introduzida por Ohlson (1980) com simples, as técnicas de aprendizado supervisionado têm pouco a oferecer
o nome de 'Regressão Logística' para avaliação da solvabilidade do para concluir com previsões simples. No entanto, é quase impossível
requerente. Embora muitos modelos de programação matemática sejam concluir manualmente o alvo em grandes conjuntos de dados, onde muitos
estudados neste domínio, uma das maiores mudanças de paradigma recursos são investigados com diferentes condições aplicadas a um
ocorreu em 2003 com o lançamento do acordo de capital Basiléia II, que tamanho de amostra extenso. Em algumas formas específicas, medidas
visa preservar a integridade do capital nos bancos (Kashyap e Stein 2004) . de complexidade de tempo e espaço do desempenho do modelo de
Basel II consiste em três pilares como; requisitos mínimos de capital, aprendizagem desenvolvido podem ser tão significativas quanto sua
processo de revisão pela supervisão e transparência e disciplina de precisão preditiva. Independentemente do comportamento descritivo ou
mercado. O objetivo do acordo foi classificar o risco e determinar o preditivo do modelo desenvolvido, a dificuldade do problema destaca a
montante de capital suficiente para o banco manter e cobrir os riscos importância de soluções de aprendizado de máquina com algoritmos
operacionais e financeiros que possam surgir. O acordo oferecia três formas eficazes onde o desempenho pode ser medido em níveis elevados.
de mensuração do risco de crédito. A primeira é a Abordagem Padronizada, Juntamente com os desenvolvimentos em aprendizado de máquina
na qual as instituições podem utilizar ratings de agências independentes supervisionado e aprimoramentos no poder computacional, a construção
de classificação de risco. Os bancos devem desenvolver os seus algoritmos de modelos de pontuação de crédito baseada em dados atrai a máxima
internos de rating para calcular a exposição ao incumprimento (EAD), a atenção do setor financeiro e grandes desenvolvimentos são esperados a
probabilidade de incumprimento (PD) e a perda em caso de incumprimento esse respeito. Embora a maioria dos modelos existentes seja aprimorada
(LGD) no segundo e terceiro métodos, nomeadamente o Foundation com base na regressão logística, outros modelos de aprendizado como
Internal Rating Based Method (FIRB) e Método baseado em classificação modelos de Support Vector Machine (SVM) e abordagens metaheurísticas
interna avançada (AIRD) (Do et al. 2019). A mudança forçou as instituições são amplamente investigados na literatura. No entanto, ainda há espaço
a buscar algoritmos mais sofisticados do que os métodos existentes. para melhorias para modelos específicos de problemas.
Juntamente com outras abordagens da teoria estatística de
aprendizagem, os SVMs foram propostos por Vapnik (1998) no final dos
Atualmente, a introdução desses modelos não está longe da imaginação anos 1990 como uma ferramenta de classificação robusta. Isso foi
junto com o aumento do poder computacional (Do et al. 2019; Goh e Lee incipientemente destinado à classificação binária, mas pode ser estendido
2019). para classificação e regressão de várias classes. O objetivo principal deste
O desenvolvimento do poder computacional necessário está altamente algoritmo é obter um hiperplano que separe duas classes com margens
vinculado às grandes quantidades de geração de dados das organizações máximas. O hiperplano ótimo é definido como um limite de decisão para a
modernas, pois os dados coletados devem ser analisados de maneira separação das classes. Os SVMs não são apenas populares e amplamente
inteligente para obter insights e extrair valor deles. O principal objetivo da usados - da classificação de tráfego ao reconhecimento facial (Chen et al.
extração de valor é aprender com o passado para moldar o futuro com 2016; Yuan et al. 2010) - mas também codificam vantagens computacionais
maior previsibilidade. A análise preditiva de dados preocupa-se com técnicas sobre outros métodos probabilísticos Murphy (2012). Outras áreas de
de construção de modelos para observar os padrões de comportamento aplicação de SVMs são, mas não limitadas a, detecção de malware,
passado e oferecer previsões com base nessas observações. Aplicações diagnóstico de diabetes de diagnóstico de circuito analógico, mineração de
de análise preditiva estão disponíveis em uma ampla gama de opções, rede social, deslizamento de terra e previsão de temperatura do solo
incluindo, entre outras, previsão de preços, avaliação de risco, modelagem (Santhanam e Padmavathi 2015; Burnaev e Smolyakov 2016; Chen et al.
de propensão e classificação. Para fazer essas análises preditivas,
algoritmos eficazes devem ser propostos para as preocupações de 2016; Zhou et ai. 2016, 2020; Zadeh et al. 2019; Vallejos et ai. 2020).
otimalidade do problema definido para treinamento. Assim, a principal
abordagem comum em todas as áreas de aplicação mencionadas é o Uma das primeiras aplicações do modelo SVM para o problema de
treinamento do modelo proposto. pontuação de crédito é vista em Baesens et al. (2003). Eles investigaram
o desempenho de algoritmos de classificação de última geração em oito
Uma das técnicas de treinamento populares são os algoritmos de conjuntos de dados de pontuação de crédito com a comparação de padrão
aprendizado de máquina supervisionado por sua capacidade de automatizar e mínimos quadrados SVM (LS-SVM). Suas medidas de desempenho são
os processos usando a teoria estatística na construção de modelos matemáticos. definidas como a área sob o receptor
Algoritmos de aprendizado supervisionado automatizam o processo de curva característica operacional e precisão de classificação.
aprendizado das relações entre o conjunto de recursos e o alvo usando o Eles fixaram a superioridade de desempenho do LS-SVM juntamente com
modelo que é desenvolvido para ele. A aprendizagem supervisionada é um o modelo de Rede Neural Artificial (ANN) que apresentaram. O desempenho
tipo de aprendizagem que pode ser explicada de várias formas, mas nesta do SVM no campo de pontuação de crédito é fortemente investigado após
pesquisa focamos na sua capacidade de aprender a classe do caso seu desempenho de precisão bem-sucedido.
desejado a partir de seus exemplos positivos e negativos. Em outras Trabalhos recentes neste domínio propuseram SVMs como um método bem-
palavras, ele é projetado para trabalhar no sentido de otimizar o desempenho do sucedido, incluindo as revisões da literatura sobre falência
Inf Syst Front (2020) 22:1009–1019 1011
previsão e avaliação de risco de crédito (Moro et al. 2016; Alaka et al. 2018; pesquisas baseadas em população estão se tornando cada vez mais
Goh e Lee 2019). populares, o SVM supera a competição pela classificação dentro das
Os aplicativos de pontuação de crédito não se limitam a técnicas de técnicas de aprendizado de máquina. Portanto, nosso estudo se baseia
aprendizado de máquina. Várias abordagens metaheurísticas foram oferecidas nessas técnicas para sua metodologia.
como uma estrutura alternativa para propor modelos avançados de pontuação O restante deste trabalho está organizado da seguinte forma. Nossa
de crédito. Metaheurísticas são uma variedade de abordagens de mineração metodologia de pesquisa é proposta na próxima seção. A análise empírica
de dados baseadas em inteligência artificial que buscam uma solução quase continua na Seção 4. As considerações finais e discussões relacionadas são
ótima com um processo computadorizado para o problema de otimização apresentadas na Seção 5.
dado. Mais regularmente, os algoritmos metaheurísticos se dividem em várias
categorias na área de pontuação de crédito. Essas categorias são
frequentemente denotadas como; Algoritmo Evolucionário, Inteligência de
Enxame e Baseado em Iterações. O Algoritmo Evolucionário se baseia no 2 Máquina de Vetor de Suporte e Genética
conceito do princípio darwiniano. O Algoritmo Genético é observado como a Algoritmo
prática mais comum dos algoritmos evolutivos no domínio do credit scoring.
Algoritmos de Inteligência de Enxame são estimulados pelo comportamento 2.1 Máquinas de Vetores de Suporte
grupal de sistemas auto-organizados e descentralizados da natureza. Honey
Bees Mating Optimization (HBMO), Ant Colony Optimization (ACO), Artificial O classificador do SVM é definido como um hiperplano ótimo -ou seja, o limite
Bee Colony Optimization (ACO) e Particle Swarm Optimization (PSO) são as de decisão- que é usado para separar classes com distâncias máximas a ele.
práticas mais comuns em pontuação de crédito. O conjunto de treinamento é definido como xi, xi ÿ ÿn onde i denota o número
de instâncias.
A função de contorno para este fenômeno é frequentemente declarada como:
f xð Þ¼ wx þ b
Algoritmos baseados em iteratividade focam na melhoria da função de aptidão
pela técnica de busca na vizinhança. Os rótulos para o problema de classificação são definidos como y i ÿ {ÿ1,
Simulated Annealing (SA) e Tabu Search (TS) são as práticas mais comuns +1} e esses valores são definidos para regiões das classes onde os valores
nesta área (Doering et al. 2019; Goh e Lee 2019). levam f(x) > 1 dentro da classe que é denotada por +1 e f( x) < ÿ 1 no outro.
O valor da função é igual a zero no limite de decisão (hiperplano ótimo). O
O desenvolvimento mais significativo na área é observado pelos Algoritmos termo vetores de suporte é usado para os pontos de dados nas margens
Evolutivos. Esses algoritmos estiveram no ponto focal dos métodos de onde a função tem os valores de +1 e -1 para sua região correspondente. O
mineração de dados nos últimos anos, não apenas no domínio da pontuação problema primordial é um caso de programação matemática quadrática onde
de crédito. Por exemplo; Algoritmos genéticos e métodos de colônias artificiais a função objetivo é uma forma de quadrática e as restrições são lineares.
de abelhas são usados para resolver problemas de arquitetura de software,
criação de perfil da web e eficiência de banco de dados (Awal e Bharadwaj
2019; Mu et al. 2019; Liu et al. 2019). No entanto, a otimização de margem suave é aplicada se os dados forem
A mudança também é observada nas revisões de literatura dos últimos
linearmente inseparáveis e a função de Lagrange for usada para encontrar o
década. Dentre esses trabalhos, Marques et al. (2013) observaram que essa ótimo. O problema de otimização convexa para margem suave é denotado
grande mudança de paradigma em direção às metaheurísticas é cada vez como segue:
mais promissora para um futuro próximo junto com a inteligência
computacional. Louzada e cols. (2016) também acrescentou que tais
m
algoritmos podem trabalhar de forma eficiente lado a lado com técnicas de 2
1 minÿ ð Þ¼ w; b saber þCÿ ÿi
2
aprendizado de máquina como SVM. Nesta área, Goh e Lee (2019) i¼1
introduziram a revisão mais aprofundada, focando apenas na evolução do

s:t: yi ð Þ w xi Þ b ÿ1
SVM e das metaheurísticas.
Neste estudo, nos concentramos nos problemas de pontuação de crédito Os termos ÿ e C estão associados à penalidade de violação da margem
apresentados na última década. Os problemas de classificação são filtrados na forma soft como sendo a variável de folga para má classificação e o custo
para modelos híbridos onde técnicas de aprendizado de máquina são usadas respectivamente para todo m número de restrições. No entanto, o classificador
para construir um classificador e o problema de seleção de atributos é tratado SVM linear não pode conduzir aprendizado sólido em casos onde os dados
por técnicas metaheurísticas. Um resumo desses estudos é mostrado na são linearmente inseparáveis. Portanto, ferramentas de classificação não
Tabela 1. Observamos que as técnicas de busca baseadas na população são linear são usadas para modificar o modelo com o truque do kernel [K(a, b)].
os métodos mais comumente preferidos para a seleção de recursos. Dentre
as técnicas de busca baseadas em população, o uso do Algoritmo Genético Polinomial, função de base radial e sigmóide são as funções de kernel mais
tem a maior preferência dos pesquisadores. Enquanto o uso de populares. As funções para esses Kernels são mostradas a seguir:
Zhou
et
ai.
2009 Marinaki
et
ai.
Avaliação
de
Risco
de
Crédito
2010 Wang
et
ai.
2010 Huang
e
Wu
2011
Pontuação
de
crédito
em
cartões
de
crédito Orski
et
ai.
2012 2014
Oreski
eWang
et
al.
2012 Waad
et
ai.
2014 Wang
et
ai.
2015 Das
et
al.
2016 Aladeemy
et
ai.
Seleção
de
recursos
de
2017 Chen
et
ai.
2017 Dias
e
Neto
Seleção
de
Longas
2017 Medjahed
et
ai.
Diagnóstico
de
Câncer
2017 Mohamed
e
outros.
2017
Detecção
e
Classificação
de
Doenças Wei
e
outros.
2017 Ala'M
et
al.
2018 Jadhav
et
al.
2018 Wang
et
ai.
2018 diagnóstico
e
tratamento
classificação
Baliarsingh
et
al.
Seleção
de
genes
2019
para
câncer Dash
et
ai.
2019 Autores Tabela
1Literatura
sobre
Seleção
de
Recursos
com
Metaheurísticas
e
Máquina
Pontuação
de
crédito
Šušteršiÿ
et
al.
Pontuação
de
crédito
2009 Sayed
e
cols.
2019
Pontuação
de
crédito Avaliação
de
risco
de
crédito Pontuação
de
crédito Avaliação
de
risco
de
crédito Pontuação
de
crédito Classificação
de
spam
e-
mail Seleção
de
Gene Seleção
de
recursos Seleção
de
recurso Seleção
de
recursos
na
classificação
de
crédito Seleção
de
recursos
na
pontuação
de
crédito Seleção
de
genes
microarray
e Classificação Problema
Detecção
de
spam
classificação
banco
esloveno
Conjuntos
de
dados
UCI
(alemão,
australiano) Empresas
não
financeiras
do
Reino
Unido Conjunto
de
dados
UCI
(japonês) Conjuntos
de
dados
UCI
(australiano,
japonês) banco
croata Banco
croata,
UCI
Datasets
(australiano, banco
croata,
UCI
Datasets Repositório
UCI
(australiano
e 6
corpos 5
conjuntos
de
dados
Conjuntos
de
dados
UCI
(vários
campos) Conjuntos
de
dados
UCI
(vários
campos) Conjuntos
de
dados
genes
de
microarray Conjuntos
de
dados
genes
de
microarray Dados
do
Twitter
(árabe,
inglês,
espanhol,
coreano)
Whale
Optimization
Algorithm Conjuntos
de
dados
UCI:
alemão,
australiano,
taiwanês Conjuntos
de
dados
UCI:
alemão,
australiano Conjuntos
de
dados
genes
de
microarray Conjuntos
de
dados
genes
de
microarray banco
de
drogas Base
de
dados
10
conjuntos
de
dados
(vários
campos) Forrageamento
bacteriano
de
quimiotaxia
adaptativa
14
conjuntos
de
dados
(vários
campos)
Japonês) alemão),
banco
da
Tunísia,
conjunto
de
dados
HMEQ
GA GA HBMO Pesquisa
Tabu Algoritmo
genético GA Conjunto
irregular,
pesquisa
de
dispersão GA Algoritmo
Genético
(GA) Grid
Search
(GS),
orientado
para
amelhor
harmonia
global Pesquisa
Harmony
(HS),
GA Inteligência
de
coorte
auto-
adaptativa
(SACI) Recozimento
Simulado
(SA) Libélula
Binária
(BDF) Otimização
de
Enxame
de
Partículas
(PSO),
Pesquisa
de
Cuco Otimização
por
Enxame
de
Partículas
Binárias
(BPSO) Wrapper
de
Algoritmo
Genético
Aprimorado
(IGDFS)
SVM,
KNN,
NB HMPGA
(Genética
de
Populações
Múltiplas
Híbridas) Híbrido:
otimizador
de
engenharia
social
(SEO)
e Algoritmo
de
salto
sapo
embaralhado
binário
(BSFLA)
ANN,
SVM Algoritmo
Caótico
da
Libélula
(CDA) Metaheurísticas
de
seleção
recursos
pesquisa
de
harmonia
(GBHS),
método
metaheurístico
de
otimização
global
(GOPSO),
pesquisa
de
harmonia
aprimorada
(IHS) Algoritmo
de
Otimização
Forrageamento
(ISEDBFO) Enxameação
e
Eliminação-
Dispersão
Bacteriana Algoritmo
de
Otimização
(ACBFO),
Melhorado (CS),
Colônia
Artificial
de
Abelhas
(ABC) Algoritmo),
MPGA,
GA otimizador
do
pinguim
imperador
(EPO)
ANN SVM KNN RBF,
SVM,
LR KNN,
BN,
DT,
LR,
SVM, ANN ANN ANN DT,
SVM,
LR Fuzzy
SVM,
NB SVM SVM SVM SVM SVM KNN,
SVM SVM SVM SVM SVM SVM Classificador
RBFNN
Inf Syst Front (2020) 22:1009–1019 1012
Inf Syst Front (2020) 22:1009–1019 1013
& Polinômio configuração híbrida para pontuação de crédito. Dado o motivo, decidimos
construir um algoritmo sofisticado para encontrar um bom conjunto de
recursos usando uma forma híbrida dos algoritmos mencionados acima.
K a Þ¼ ; b 1þÿ d ÿ2
j Nosso método proposto compõe dois níveis que se comunicam por
ajbj !d ;
meio de um mecanismo de alimentação. No primeiro nível, um recurso
& Função de base radial definido e finalizado com bons parâmetros SVM para prosseguir para
o segundo. No Nível II, nosso modelo corrige os parâmetros SVM
2
K a Þ¼ ; ÿkkaÿb
b exp h
=2ÿ2 eu
encontrados no estágio anterior e encontra um conjunto de recursos
iterativamente com maior precisão em comparação com o primeiro nível.
& Função Sigmóide Posteriormente, o conjunto de recursos encontrado é alimentado no primeiro
nível para encontrar melhores parâmetros SVM e assim por diante. As
b t;t b h
K a Þ¼ iterações são realizadas até o critério de parada.
3.1 Nível I - Seleção de Parâmetros SVM

As SVMs lineares que não usam nenhum kernel podem
preparar classificadores usando n + 1 número de classificadores.
Nós nos concentramos no Algoritmo Genético para selecionar
Em outras palavras, (i) ele pode realizar uma representação
os parâmetros SVM. Os parâmetros que estávamos procurando
usando vetores de suporte, x . Por outro lado, SVMs kernelizados
são os da função de base radial, ou seja, C e ÿ. Usamos os
podem seguir grandes dimensões de ÿ(x). Aumenta o tempo
termos C e G respectivamente para esses valores em nossas
computacional e, portanto, mais eficiente para lembrar os vetores
representações gráficas.
de suporte. Em nosso modelo, usamos a função de base radial
O parâmetro C está formando um trade-off entre classificação
(RBF) como um classificador não linear para separar créditos bons e ruins.
precisa para amostras que são usadas para treinamento e permitir
que a outra classe cruze a margem. Esta é uma forma típica de
2.2 Algoritmo Genético SVM de margem suave. À medida que o valor de C aumenta, espera-
se que a margem entre os dois grupos diminua nos casos em que o
O AG é introduzido pela primeira vez na edição de 1975 da obra de
hiperplano de contorno realiza a classificação correta para todos
Holland (1992). A ideia foi posteriormente desenvolvida nos os pontos de treinamento. À medida que o valor do parâmetro
trabalhos de Schwefel (1977) e Fogel (1998) para a computação diminui, a referida margem é estimulada a aumentar ainda que
evolutiva. A ideia principal é construir blocos de soluções tenha fracas capacidades no treinamento de classificação precisa
candidatas (cromossomos) e regenerar novos candidatos com das amostras que são investigadas. Além disso, o parâmetro ÿ
base em seu desempenho calculado, ou seja, pontuação de descreve a distância (valores baixos) e a proximidade (valores altos)
aptidão. As funções de aptidão são alocadas ao modelo do impacto de trechos de uma amostra de treinamento individualmente.
considerando sua finalidade. O modelo seleciona os cromossomos
a serem considerados na reprodução. O procedimento imagina as
chances dos cromossomos mais aptos para as gerações futuras. 3.1.1 Criação da População e Seleção dos Pais
As gerações são formadas por um procedimento do AG, ou seja,
crossover. As gerações que são formadas usando esse Criamos inicialmente um array com tamanho 1 × 2, onde os índices
procedimento são chamadas de filhos ou descendentes. Os denotam os parâmetros C e ÿ respectivamente. Os valores dos
descendentes que são criados para formar uma nova geração parâmetros são atribuídos aleatoriamente por uma distribuição
podem ser submetidos a um procedimento chamado mutação para uniforme [a, b]. A população para o algoritmo genético é formada
explorar ainda mais o espaço de soluções. O processo de mutação pela duplicação deste procedimento para o tamanho de população
é tipicamente formado pela alteração do valor de um gene dentro do cromossomo
predefinido(Kang et al. 2012;
e o conjunto Gendreau
de recursos e Potvin
é fixado 2010).
como o conjunto
máximo disponível. Para a fase de seleção dos pais do algoritmo
genético, o conjunto de treinamento é treinado com validação
3 Abordagem Híbrida de Dois Níveis cruzada k-fold para cada membro da população com seus
parâmetros SVM correspondentes. Os n principais membros da
Embora os métodos apresentados no escopo deste artigo forneçam população com maior precisão de classificação são selecionados como pais.
estimativas precisas, uma nova metaheurística é necessária para
aumentar a precisão da classificação com seleção de recursos e, 3.1.2 Criando as Gerações
ao mesmo tempo, aumentar a simplicidade desse mecanismo
complexo. Neste trabalho, focamo-nos no desenvolvimento de um A próxima geração é criada com as fases de cruzamento
modelo nesta área, nomeadamente, machine learning e e mutação do algoritmo genético. Primeiro, os pais
selecionados
metaheurísticas. Até onde sabemos, essas abordagens nunca foram usadas em um formam um cruzamento trocando seus
1014 Inf Syst Front (2020) 22:1009–1019
Fig. 1 Procedimentos de Crossover e Mutação para Nível I
parâmetros conforme representado na Fig. 1. Em seguida, o procedimento de 3.2.1 Criação da População e Seleção dos Pais
mutação ocorre com um gene selecionado aleatoriamente. O modelo permitiu
aumentos e diminuições dos parâmetros com o uso da distribuição uniforme. Nesta etapa, a população do GA é criada usando diferentes conjuntos de
recursos. Cada gene em um cromossomo representa uma característica dos
Como os parâmetros do SVM não podem funcionar com valores menores ou dados com uma variável binária aleatória, tendo zero para uma característica não
iguais a zero, o limite inferior é definido como 0,1. O procedimento de mutação é incluída no conjunto e um para inclusão conforme ilustrado na Fig. 2 para um
representado na Fig. 1. Finalmente, a próxima geração é criada com n número conjunto de dados onde o tamanho máximo do conjunto de características é m .
de pais e n número de filhos mutantes. A população de tamanho n ÿ 1 é gerada atribuindo variáveis binárias aleatórias
a cada variável para determinar sua adição ao conjunto e o n- ésimo cromossomo
Dessa forma, boas soluções nunca são esquecidas e há a busca por é o conjunto que é fixado no nível I. Na chamada do Nível II, esse conjunto de
melhorias. A regra é mantida até que o critério de parada seja atingido. Para o recursos é igual ao máximo conjunto de dados disponível, ou seja, cada gene
modelo apresentado, o definimos como não tendo alterações da maior precisão tem o valor 1. Este é um método semelhante ao aplicado na fase anterior com o
de classificação em um número predeterminado de iterações. Como resultado objetivo de não esquecer a melhor solução final. Cada conjunto gerado
do Nível I, os parâmetros SVM de C e ÿ de maior precisão de classificação são aleatoriamente e o enésimo conversam com o conjunto de dados de treinamento
transportados para o Nível II. principal para o encolhimento.
Em seguida, cada conjunto de dados encolhido é treinado usando os parâmetros
SVM que são encontrados no nível I com validação cruzada k-fold.
As precisões de classificação são classificadas para todos os conjuntos de recursos treinados
para definir a próxima geração.

3.2 Nível II - Seleção de Recursos
3.2.2 Criando as Gerações

O nível II do mecanismo de alimentação é estruturado para encontrar um
conjunto de recursos que melhor represente o comportamento do conjunto de
Um número predefinido de conjuntos de recursos que produzem as mais altas
dados do que o conjunto de recursos definido no nível I. O GA no nível II é
precisões de classificação são listados para se tornarem pais.
estruturada de forma semelhante. No entanto, os cromossomos correspondem a
Seu acasalamento é conduzido usando uma estratégia de cruzamento semelhante
diferentes conjuntos de recursos neste nível. O desempenho é medido com
ao primeiro nível, conforme representado na Fig. 3. Para procedimentos de
precisão de classificação usando o SVM com parâmetros encontrados no Nível
mutação dos filhos criados, o método bitflip é aplicado a um recurso selecionado.
I.
O método funciona como incluir o selecionado
Fig. 2 Um exemplo de um Conjunto

Binário de Recursos Atribuídos
Inf Syst Front (2020) 22:1009–1019 1015
Fig. 3 Procedimentos de Crossover e Mutação para Nível II
recurso ao aparelho se ainda não estiver incluído ou vice-versa. O nunca é esquecido. O mecanismo de alimentação continua até o
processo é mapeado na Fig. 3. ponto em que o critério de parada global é acionado. O desenho
Dadas as estratégias representadas na Fig. 3, a próxima do critério segue as mesmas regras para as gerações dos níveis
geração é criada com n número de pais e n número de filhos (Seção 3.1.2). As regras referem-se a manter a precisão máxima
mutantes. O método nunca esquece uma boa solução. da classificação em cada alimentação (saída do Nível II) e parar
Por exemplo, se um conjunto de recursos da primeira geração o mecanismo caso a precisão não melhore em um número
fornece a melhor solução, ele é levado para a geração seguinte. predeterminado de repetições. A estrutura geral do método
As gerações são criadas até um critério de parada da mesma proposto é mostrada na Fig. 4.
forma que é aplicado no Nível I.
3.3 Mecanismo de Alimentação

4 Detalhes Computacionais
No final do Nível II, os recursos que produzem a maior precisão de
classificação são realimentados para o Nível I como um conjunto Em nosso trabalho, adotamos a metodologia explicada na Seção
fixo de recursos. O método permite a busca 2 para dois conjuntos de dados diferentes usando Python 3.7.4 em
para obter melhores parâmetros SVM para o conjunto de recursos processador Intel(R) Core (TM) i5-8500T @ processador de 2,10
encontrado no final do Nível II. Os parâmetros SVM anteriores GHz com 8,00 GB de memória instalada.
são mantidos como um membro da população de Nível I recém- Primeiro, aplicamos nosso algoritmo aos dados da Austrália de UCI
criada para fins de elitismo. Dessa forma, parâmetros SVM que já Datasets para trabalhos preliminares durante a evolução do
possuem alta precisão para o conjunto de recursos modelo. Durante os trabalhos preliminares, temos
Fig. 4 Mecanismo de alimentação de dois níveis

1016 Inf Syst Front (2020) 22:1009–1019
Fig. 5 Iteração geral e desempenho de alimentação
observaram o comportamento do modelo com diferentes configurações geração número 50 se o critério de parada não for atingido, que é a
de SVM e GA. Dado isso, observamos que os pequenos valores de parada do processo se a precisão da classificação não for alterada
parâmetro do SVM funcionam melhor e mais rápido. Uma vez após 10 iterações consecutivas.
concluídas as fases de modelagem, os dados online de ('Lending Club A população e os tamanhos de cruzamento são os mesmos em
Data' 2019) para fins de pequenas empresas são investigados de ambos os níveis, exceto pela estrutura cromossômica. Os
2007 a 2018. O principal gatilho por trás disso é investigar o cromossomos são formados conforme descrito na Seção 3.2. Os
desempenho do algoritmo de pontuação de crédito com fins recentes resultados nos levaram a observar maiores níveis de precisão com
para pequenas empresas dados do empréstimo. A empresa também menores valores de ÿ no cromossomo. Dada a razão, atualizamos
tem um forte cenário de empréstimos P2P, que é visto principalmente nosso modelo para um estudo empírico em larga escala, permitindo
como um potencial para o crescimento das PMEs. menos desvio no valor de ÿ nas fases de mutação (ver Fig. 1 ) e
inicialização C menor para computação mais rápida.
4.1 Trabalhos Preliminares 4.2 Empréstimo de Dados do Clube
Durante os testes preliminares do modelo, usamos o conjunto de Após as fases de limpeza e pré-processamento, adotamos o
dados australiano do UCI Repository. O conjunto de dados possui mecanismo de alimentação de dois níveis para os dados. Os dados
690 instâncias com 14 atributos a serem treinados para prever a 15ª. pré-processados consistiam em mais de 24 mil instâncias com 142
A estrutura cromossômica para o primeiro nível (C e ÿ) é formada com feições. Essa quantidade aumentou o tempo de computação para
números aleatórios gerados por Uni ÿ [1, 10] com um tamanho Hybrid GA-SVM que trabalha com função de base radial. Dada a
populacional de 8. Isso levou nosso modelo a ter 4 pais e 4 razão, os valores iniciais do parâmetro de penalidade e os valores
descendentes mutantes como a próxima geração . Essas iterações são realizadas
gama sãoaté
Fig. 6 Comparação de desempenho

Inf Syst Front (2020) 22:1009–1019 1017
Tabela 2 A comparação dos resultados

com AG envolveu técnicas Autores Método Precisão (%)
(alemã e
Alemão australiano
conjuntos de dados australianos)
GA-SVM híbrido de dois níveis 80,70 89.13
Jadhav et al. 2018 GA Wrapper 80,40 89.02
Wang et ai. 2018 HMPGA 78,53 86,96
MPGA 78,42 86,91
GA 78.21 86,75
Oreski e Oreski 2014 HGA-NN 78,90 –
GA-NN 78,50 –
Huang e outros. 2007 SVM + AG 77,92 86,90
reduzido para Uni ÿ [0,1, 0,5]. No entanto, os demais parâmetros de tamanho 2017). Os resultados obtidos são comparados a alguns dos trabalhos sem
da população e geração de descendentes são mantidos junto com o critério tabela que incluem AG na Tabela 2. A tabela indica que o mecanismo de
de parada. alimentação híbrida de dois níveis está se mostrando promissor na automação

dos parâmetros do SVM e no desenvolvimento de um subconjunto de recursos
que aumenta a precisão do teste superando os outros trabalhos.
5 Resultados e Conclusão
Esta pesquisa propõe um mecanismo de alimentação de dois níveis para
A Figura 5b representa a acurácia da classificação ao final do Nível II em cada pontuação de crédito. A interação entre níveis é introduzida com o princípio
alimentação. Pode-se observar que o algoritmo para devido ao critério de de elitismo do AG em que a melhor solução da geração e nível correspondente
parada ao final da 20ª alimentação onde a precisão chega a 97,04% em C = nunca é esquecida.
21,515 e ÿ = 0,558. A evolução da precisão da classificação também pode O critério de parada também desempenha um papel vital para os níveis e a
ser observada na Fig. 5a. Observa-se que a estrutura de dois níveis melhora formação da alimentação.
significativamente a precisão. Os trabalhos empíricos são conduzidos com trabalhos preliminares durante
a fase de desenvolvimento do modelo da pesquisa. Os resultados para o
Os resultados empíricos obtidos usando o algoritmo Hybrid GA SVM são grande conjunto de dados indicam que o mecanismo de alimentação para a
comparados com algoritmos de classificação comumente usados em fase de seleção de recursos (Nível II) melhora significativamente a precisão
aprendizado de máquina supervisionado -Decision Tree (DT), Random Forest onde as principais mudanças são observadas. No entanto, o modelo é
(RF), Logistic Regression (LR), Support Vector Machine (SVM) e Artificial desenvolvido para buscar a melhoria contínua do conjunto de dados estudado.
Rede Neural (RNA). A comparação é ilustrada na Fig. 6. Os parâmetros de Além disso, focamos na clareza das etapas para permitir replicações por
cada algoritmo são desenvolvidos e selecionados a partir de trabalhos outros pesquisadores, pois alguns dos métodos implantados possuem
preliminares, exceto no caso do SVM, no qual são mantidos os mesmos segmentos vagos na literatura.
encontrados no modelo híbrido (C = 21,515 e ÿ = 0,558 em radial função de As limitações no domínio de pontuação de crédito impedem os
base). pesquisadores de alcançar conjuntos de dados que possam oferecer visões

mais profundas. A elegibilidade do Repositório UCI deve ser considerada
Para observar a sensibilidade do algoritmo ao conjunto de recursos, cada como um sólido espaço de trabalho preliminar. Por outro lado, plataformas
online como Lending Club são promissoras para modelos de scoring
algoritmo é executado duas vezes. Primeiro, todo o conjunto de dados é usado como entrada.
Na segunda execução, no entanto, o conjunto reduzido de recursos obtido comportamental. Além disso, os pesquisadores podem se concentrar na
pelo algoritmo GA-SVM de dois níveis é usado como entrada. Observa-se que pontuação de lucro em conjuntos de dados privados e limitados como
o conjunto reduzido de recursos está aumentando a precisão da classificação pesquisas futuras. Acredita-se que modelos híbridos com estrutura multinível
podem trazer contribuições notáveis.
em cada algoritmo. A maior precisão de classificação é alcançada na categoria
butions à literatura nos domínios de pontuação de crédito acima mencionados.
proposta de GA-SVM de dois níveis, uma vez que o conjunto de recursos
predefinidos é desenvolvido usando-o. Além disso, a Fig. 6 indica que os Por fim, este estudo contribui para a literatura com o mecanismo de
algoritmos de RF e ANN executados com o conjunto reduzido de recursos são alimentação de dois níveis GA-SVM, uma vez que supera os métodos
promissores. convencionais. Assim, oferece fundamentos para as extensões com diferentes
Além dos testes de comparação no mesmo conjunto de dados, implantamos hibridações de algoritmos de aprendizado e metaheurísticas para maior
o modelo em dois dos conjuntos de dados disponíveis ao público comumente precisão, pois sua comparação é altamente promissora, especialmente em
usados neste campo; Conjuntos de dados alemães e australianos do UCI Florestas Aleatórias e Redes Neurais Artificiais.
Machine Learning Repository (Dua e Graff

1018 Inf Syst Front (2020) 22:1009–1019
Doering, J., Kizys, R., Juan, AA, Fitó, À., & Polat, O. (2019).
Conformidade com os Padrões Éticos
Metaheurísticas para otimização de portfólio rico e gerenciamento de risco:
estado atual e tendências futuras. Operations Research Perspectives, 6, 100121.
Conflito de Interesses Com relação à publicação desta pesquisa, os autores do artigo
declaram não haver conflitos de interesses.
Dua, D., & Graff, C. (2017). Repositório de aprendizado de máquina UCI.
Durand, D. (1941). Elementos de risco no financiamento ao consumidor.
Nova York: National Bureau of Economic Research.
Referências Fischer, RA (1936). O uso de medições múltiplas em problemas taxonômicos. Annals

of Eugenics, 7(2), 179–188.
Fogel, DB (1998). Computação evolucionária: O registro fóssil. wiley
Ala'M, A.-Z., Faris, H., Alqatawna, J.f., & Hassonah, MA (2018).
Imprensa IEEE.
Evolução de máquinas de vetores de suporte utilizando algoritmo de otimização
Gendreau, M., & Potvin, J.-Y. (2010). Manual de metaheurísticas.
baleia para detecção de perfis de spam em redes sociais online em diferentes
Springer.
contextos linguísticos. Sistemas Baseados em Conhecimento, 153, 91–104.
Goh, R., & Lee, L. (2019). Pontuação de crédito: Uma revisão sobre máquinas de
Aladeemy, M., Tutun, S., & Khasawneh, MT (2017). Uma nova abordagem híbrida para
vetores de suporte e abordagens metaheurísticas. Avanços em Pesquisa
seleção de recursos e seleção de modelo de máquina vetorial de suporte com
Operacional, 2019.
base em inteligência de coorte auto-adaptativa. Sistemas Especialistas com
Mão, DJ e Henley, WE (1997). Métodos de classificação estatística em pontuação de
Aplicações, 88, 118–131.
crédito ao consumidor: uma revisão. Jornal da Royal Statistical Society: Série A
Alaka, HA, Oyedele, LO, Owolabi, HA, Kumar, V., Ajayi, SO, Akinade, OO e Bilal, M.
(Estatísticas na Sociedade), 160(3), 523–541.
(2018). Revisão sistemática de modelos de previsão de falência: Rumo a uma
Holanda, JH (1992). Adaptação em sistemas naturais e artificiais: uma análise
estrutura para seleção de ferramentas.
introdutória com aplicações em biologia, controle e inteligência artificial. Imprensa
Sistemas Especialistas com Aplicações, 94, 164–184.
do MIT.
Altman, EI (1968). Índices financeiros, análise discriminante e previsão de falência de
Huang, S.-C., & Wu, C.-F. (2011). Avaliações de qualidade de crédito do cliente usando
empresas. The Journal of Finance, 23(4), 589–609.
métodos de mineração de dados para setores bancários. African Journal of
Business Management, 5(11), 4438–4445.
Awal, GK e Bharadwaj, KK (2019). Aproveitando a inteligência coletiva para previsão
Huang, C.-L., Chen, M.-C., & Wang, C.-J. (2007). Pontuação de crédito com uma
comportamental em redes sociais assinadas por meio de abordagem evolutiva.
abordagem de mineração de dados baseada em máquinas de vetores de suporte.
Fronteiras dos Sistemas de Informação, 21(2), 417–439.
Sistemas Especialistas com Aplicações, 33(4), 847–856.
Jadhav, S., He, H., & Jenkins, K. (2018). Seleção de recurso de wrapper de algoritmo
Baesens, B., Van Gestel, T., Viaene, S., Stepanova, M., Suykens, J., & Vanthienen, J.
genético direcionado para ganho de informação para classificação de crédito.
(2003). Benchmarking de algoritmos de classificação de última geração para
Applied Soft Computing, 69, 541-553.
pontuação de crédito. Jornal da Sociedade de Pesquisa Operacional, 54(6), 627–
Kang, K., Moon, I., & Wang, H. (2012). Um algoritmo genético híbrido com uma nova
635.
estratégia de empacotamento para o problema de empacotamento tridimensional.
Baliarsingh, SK, Ding, W., Vipsita, S., & Bakshi, S. (2019). Um algoritmo memético
Matemática Aplicada e Computação, 219(3), 1287–1299.
usando pinguim-imperador e otimização de engenharia social para classificação
Kashyap, AK, & Stein, JC (2004). Implicações cíclicas dos padrões de capital de
de dados médicos. Applied Soft Computing, 85, 105773.
Basileia II. Economic Perspectives-Federal Reserve Bank Of Chicago, 28(1), 18–
33.
Bumacov, V., Ashta, A., & Singh, P. (2017). Pontuação de crédito: uma recorrência
'Dados do Clube de Empréstimo'. (2019). Disponível em: https://www.lendingclub.com.
histórica nas microfinanças. Mudança Estratégica, 26(6), 543–554. Acesso: 11-01-2019.
Burnaev, E., & Smolyakov, D. (2016). SVM de classe única com informações
Liu, Q., Feng, G., Tayi, GK e Tian, J. (2019). Gerenciando a qualidade dos dados do
privilegiadas e sua aplicação para detecção de malware. Em 2016 IEEE 16ª
data warehouse: uma abordagem de programação restrita ao acaso. Fronteiras
Conferência Internacional sobre Oficinas de Mineração de Dados (ICDMW) (pp.
dos Sistemas de Informação, 1–15.
273–280). IEEE.
Louzada, F., Ara, A., & Fernandes, GB (2016). Métodos de classificação aplicados ao
Chapman, JM (1940). Bancos comerciais e parcelamento ao consumidor
credit scoring: Revisão sistemática e comparação global.
crédito. NBER.
Surveys in Operations Research and Management Science, 21(2), 117–134.
Chen, P., Yuan, L., He, Y., & Luo, S. (2016). Um classificador SVM aprimorado
baseado no algoritmo genético quântico de cadeias duplas e sua aplicação no Marinaki, M., Marinakis, Y., & Zopounidis, C. (2010). Algoritmo de otimização de
diagnóstico de circuitos analógicos. Neurocomputing, 211, 202-211. acasalamento de abelhas melíferas para problemas de classificação financeira.
Applied Soft Computing, 10(3), 806–812.
Chen, Y.-P., Li, Y., Wang, G., Zheng, Y.-F., Xu, Q., Fan, J.-H., & Cui, X.-T. (2017). Um Marques, A., García, V., & Sánchez, JS (2013). Uma revisão da literatura sobre a
novo algoritmo de otimização de forrageamento bacteriano para seleção de aplicação da computação evolutiva para pontuação de crédito. Jornal da
recursos. Sistemas Especialistas com Aplicações, 83, 1–17. Sociedade de Pesquisa Operacional, 64(9), 1384–1399.
Das, K., Mishra, D., & Shaw, K. (2016). Uma estrutura de otimização metaheurística Medjahed, SA, Saadi, TA, Benyettou, A., & Ouali, M. (2017).
para seleção informativa de genes. Informatics in Medicine Unlocked, 4, 10–20. Aprendizagem baseada em kernel e análise de seleção de recursos para
diagnóstico de câncer. Applied Soft Computing, 51, 39–48.
Dash, R., Dash, R., & Rautray, R. (2019). Uma abordagem de seleção e classificação Mohamed, NS, Zainudin, S., & Othman, ZA (2017). Abordagem metaheurística para
de genes de microarranjo baseada em estrutura evolutiva usando algoritmo de um método de filtro mRMR aprimorado para classificação usando dados de
salto de sapo embaralhado binário. Journal of King Saud University-Computer microarray de resposta a drogas. Sistemas Especialistas com Aplicações, 90,
and Information Sciences. 224–231.
Dias, MLD, & Neto, ARR (2017). Treinamento de máquinas vetoriais de suporte de Moro, S., Cortez, P., & Rita, P. (2016). Uma análise automatizada da literatura sobre
margem suave por recozimento simulado: uma abordagem dupla. Sistemas aplicações de mineração de dados para avaliação de risco de crédito. Em
Especialistas com Aplicações, 87, 157–169. Inteligência artificial nos mercados financeiros (pp. 161–177). Springer.
Do, HL, Luong, TTH, Nguyen, XT e Mai, N. (2019). Aplicação de Credit Scoring em Mu, L., Sugumaran, V., & Wang, F. (2019). Um Algoritmo Genético Híbrido para
bancos: Mapeamento para Basileia II. Jornal de Ciências Sociais e Políticas, Remodularização de Arquitetura de Software. Fronteiras dos Sistemas de
2(1), 83–89. Informação, pp. 1–29.
Inf Syst Front (2020) 22:1009–1019 1019
Murphy, KP (2012). Aprendizado de máquina: uma perspectiva probabilística. Yuan, R., Li, Z., Guan, X., & Xu, L. (2010). Um método de aprendizado de máquina baseado
COM pressione. em SVM para classificação precisa do tráfego da Internet.
Ohlson, JA (1980). Índices financeiros e previsão probabilística de falência. Journal of Fronteiras dos Sistemas de Informação, 12(2), 149–156.
Accounting Research, 18, 109–131. Zadeh, AH, Zolbanin, HM, Sharda, R., & Delen, D. (2019). Mídia social para previsão da
Oreski, S., & Oreski, G. (2014). Heurística baseada em algoritmos genéticos para seleção atividade da gripe: análise de big data espaço-temporal.
de características na avaliação de risco de crédito. Sistemas Especialistas com Fronteiras dos Sistemas de Informação, 21(4), 743–760.
Aplicações, 41(4), 2052–2064. Zhou, L., Lai, KK, & Yen, J. (2009). Modelos de pontuação de crédito com maximização de
Oreski, S., Oreski, D., & Oreski, G. (2012). Sistema híbrido com algoritmo genético e redes AUC com base em SVM ponderado. Jornal internacional de tecnologia da informação
neurais artificiais e sua aplicação na avaliação de risco de crédito no varejo. Sistemas e tomada de decisão, 8(04), 677-696.
Especialistas com Aplicações, 39(16), 12605–12617. Zhou, C., Yin, K., Cao, Y., & Ahmed, B. (2016). Aplicação da análise de séries temporais e
modelo PSO-SVM na previsão do deslizamento de terra de Bazimen no reservatório
Plummer, WC, & Young, RA (1940). Empresas financeiras de vendas e suas práticas de de três gargantas, China. Geologia de Engenharia, 204, 108–120.
crédito. NBER.
Santhanam, T., & Padmavathi, M. (2015). Aplicação de K-means e algoritmos genéticos Zhou, S., Chu, X., Cao, S., Liu, X., & Zhou, Y. (2020). Previsão da temperatura do solo com
para redução de dimensão integrando SVM para diagnóstico de diabetes. Procedia ANN, LS-SVM e fuzzy LS-SVM para aplicação GSHP. Geotérmica, 84, 101757.
Computer Science, 47, 76–83.

Sayed, GI, Tharwat, A., & Hassanien, AE (2019). Algoritmo de libélula caótica: um algoritmo
metaheurístico aprimorado para seleção de recursos. Inteligência Aplicada, 49(1), Nota do editor A Springer Nature permanece neutra em relação a reivindicações
188–205. jurisdicionais em mapas publicados e afiliações institucionais.
Enxofre, H.-P. (1977). Otimização numérica de modelos computacionais usando a estratégia
de evolução.(Parte 1, Cap. 1-5).
Birkhauser.
Doruk Sen é um candidato a PhD na Marmara University e um assistente de pesquisa na
Šušteršiÿ, M., Mramor, D., & Zupan, J. (2009). Modelos de pontuação de crédito ao Istanbul Bilgi University. Seus principais interesses de pesquisa incluem aprendizado de
consumidor com dados limitados. Sistemas Especialistas com Aplicações, 36(3), máquina e metaheurística em problemas de otimização, juntamente com tecnologia Fintech
4736–4744.
e blockchain. Ele é o co-fundador do grupo de pesquisa Metaheuristics and Learning in
Vallejos, S., Alonso, DG, Caimmi, B., Berdun, L., Armentano, MG, & Soria, Á. (2020). Operations Research (MLOR) na Istanbul Bilgi University.
Mineração de redes sociais para detecção de incidentes de trânsito. Fronteiras dos
Sistemas de Informação, 1–20.
Vapnik, V. (1998). Teoria da aprendizagem estatística (pp. 156–160). Nova York: Wiley. O Dr. Cem CAGRI DOMMEZ é de Cambridge, Reino Unido. Ele nasceu em Istambul,
https://www.wiley.com/en-us/Statistical+Learning+Theory p-9780471030034 Waad, Turquia. Ele é bacharel em Engenharia Física e pela Anglia Ruskin University em Cambridge,
B., Ghazi, B., Mohamed, um MPhil em Estratégias do Mercado de Ações e um PhD em Econofísica. Ele é o principal
L., Larodec, I., & Larime, E. (2014). especialista em medição e otimização de impacto de analisadores de abordagem quantitativa.
Uma nova técnica de seleção de recursos aplicada a dados de pontuação de crédito
usando uma abordagem de agregação de classificação baseada em: Otimização, Ele tem liderado equipes que constroem tais ferramentas, bem como realizam pesquisas
algoritmo genético e similaridade. Processo de Descoberta de Conhecimento e exploratórias sobre questões de combustão Quantitativa Econofísica. Ele tem fortes
Métodos para Melhorar o Desempenho Organizacional, pp. 347–376. habilidades de análise e também fala sobre esse tópico extensivamente em estatísticas,
Wang, J., Guo, K., & Wang, S. (2010). Conjunto aproximado e seleção de recursos baseada bem como em conferências, seminários e workshops. Em particular, combinar seu trabalho
em pesquisa Tabu para pontuação de crédito. Procedia Computer Science, 1(1), neste campo com as abordagens Blockchain e Fintech trouxe novos ganhos para o mundo
2425–2432. dos Ecossistemas financeiros digitais.
Wang, J., Hedar, A.-R., Wang, S., & Ma, J. (2012). Seleção de recursos baseados em Além disso, nos últimos 5 anos, ele trabalhou no Departamento de Engenharia Industrial da
metaheurística de pesquisa de conjunto aproximado e dispersão para pontuação de crédito. Marmara University como Professor Associado.
Sistemas Especialistas com Aplicações, 39(6), 6123–6128. Sua formação tem mecânica de ações; Econofísica e abordagens do mercado de ações,
Wang, Y., Liu, Y., Feng, L., & Zhu, X. (2015). Novo método de seleção de recursos baseado analisador de estatísticas financeiras, analisador quantitativo e financeiro do mercado,
na pesquisa de harmonia para classificação de e-mail. controle de qualidade, otimização, simulação e análise.
Knowledge-Based Systems, 73, 311-323.
Wang, D., Zhang, Z., Bai, R., & Mao, Y. (2018). Um sistema híbrido com abordagem de filtro U. Mahir Yÿldÿrÿm é professor assistente na Istanbul Bilgi University no Departamento de
e algoritmo genético de múltiplas populações para seleção de recursos em pontuação Engenharia Industrial. Ele ministra cursos sobre design de sistemas de informação e
de crédito. Journal of Computational and Applied Mathematics, 329, 307–321. metaheurísticas em otimização. Sua principal área de pesquisa é sobre abordagens
metaheurísticas para resolver problemas de otimização combinatória com ênfase particular
Wei, J., Zhang, R., Yu, Z., Hu, R., Tang, J., Gui, C., & Yuan, Y. (2017). em sistemas de transporte e logística. Ele é o co-fundador do grupo de pesquisa
Um algoritmo BPSO-SVM baseado em renovação de memória e mecanismos de Metaheuristics and Learning in Operations Research (MLOR) na Istanbul Bilgi University.
mutação aprimorados para seleção de recursos. Applied Soft Computing, 58, 176–
192.

Uma Metaheurística Híbrida de Dois Níveis para Pontuação de Crédito

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Uma Metaheurística Híbrida de Dois Níveis para Pontuação de Crédito

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Information Systems Frontiers (2020) 22:1009–1019 https://

Uma metaheurística híbrida de dois níveis para pontuação de crédito

Publicado online: 3 de julho de 2020

1. Introdução o aumento da eficiência do modelo resultará em reduções nas perdas

é conduzido por Durand (1941) onde a análise discriminante (DA) é usada

1010 Inf Syst Front (2020) 22:1009–1019

Inf Syst Front (2020) 22:1009–1019 1011

introduziram a revisão mais aprofundada, focando apenas na evolução do

Inf Syst Front (2020) 22:1009–1019 1013

3.1 Nível I - Seleção de Parâmetros SVM

1014 Inf Syst Front (2020) 22:1009–1019

Fig. 1 Procedimentos de Crossover e Mutação para Nível I

para definir a próxima geração.

3.2.2 Criando as Gerações

Fig. 2 Um exemplo de um Conjunto

Inf Syst Front (2020) 22:1009–1019 1015

Fig. 3 Procedimentos de Crossover e Mutação para Nível II

3.3 Mecanismo de Alimentação

Fig. 4 Mecanismo de alimentação de dois níveis

1016 Inf Syst Front (2020) 22:1009–1019

Fig. 5 Iteração geral e desempenho de alimentação

4.1 Trabalhos Preliminares 4.2 Empréstimo de Dados do Clube

Fig. 6 Comparação de desempenho

Inf Syst Front (2020) 22:1009–1019 1017

Tabela 2 A comparação dos resultados

GA-SVM híbrido de dois níveis 80,70 89.13

Jadhav et al. 2018 GA Wrapper 80,40 89.02

Wang et ai. 2018 HMPGA 78,53 86,96

MPGA 78,42 86,91

Oreski e Oreski 2014 HGA-NN 78,90 –

Huang e outros. 2007 SVM + AG 77,92 86,90

de parada. alimentação híbrida de dois níveis está se mostrando promissor na automação

base). pesquisadores de alcançar conjuntos de dados que possam oferecer visões

promissores. convencionais. Assim, oferece fundamentos para as extensões com diferentes

Machine Learning Repository (Dua e Graff

1018 Inf Syst Front (2020) 22:1009–1019

Referências Fischer, RA (1936). O uso de medições múltiplas em problemas taxonômicos. Annals

Inf Syst Front (2020) 22:1009–1019 1019

Computer Science, 47, 76–83.

Você também pode gostar