Escolar Documentos
Profissional Documentos
Cultura Documentos
Doruk ÿen1,2 & Cem Çaÿrÿ Dönmez3 & Oman Mahir Yÿldÿrÿm2
Resumo
Esta pesquisa tem como objetivo propor uma estrutura para avaliação de solicitações de crédito, atribuindo uma pontuação binária ao solicitante. A
pontuação é direcionada para determinar se o pedido de crédito é 'bom' ou 'ruim' em empréstimos para fins comerciais. Mesmo pequenas melhorias de
desempenho em pequenas empresas podem gerar um impacto positivo na economia, pois geram mais de 60% do valor. O método apresentado neste
artigo hibridiza o Algoritmo Genético (GA) e a Máquina de Vetores de Suporte (SVM) em um mecanismo de alimentação de dois níveis para maior precisão
de previsão. O primeiro nível é determinar os parâmetros do SVM e o segundo é encontrar um conjunto de recursos que aumente a precisão da
classificação. Para testar a abordagem proposta, investigamos três conjuntos de dados diferentes; Conjunto de dados australiano da UCI para trabalhos
preliminares, conjunto de dados do Lending Club para treinamento e testes grandes e conjuntos de dados alemães e australianos da UCI para comparação
com alguns outros métodos notáveis que usam GA. Nossos resultados computacionais mostram que nosso método proposto usando um mecanismo de
feedback sob a estrutura híbrida de dois níveis GA-SVM supera outros algoritmos de classificação na literatura, ou seja, Árvore de Decisão, Florestas
Aleatórias, Regressão Logística, SVM e Redes Neurais Artificiais, melhora efetivamente a classificação precisão.
Palavras-chave Máquina de vetores de suporte. Algoritmo genético . Pontuação de crédito. Classificação . Seleção de recursos
* Doruk ÿen
de crédito. A fórmula é utilizada para obter uma pontuação para a decisão
doruksen@marun.edu.tr de aceitação ou rejeição por um agente de crédito. Ele alegou que esse
método permite o processamento rápido de pedidos de empréstimo com
1 pura objetividade. Juntamente com o trabalho de Fisher (1936) sobre
Departamento de Gestão de Engenharia, Instituto de Pura e
Ciências Aplicadas, Universidade de Marmara, 34722 Kadikoy, Istambul, discriminação estatística, os estudos NBER assumiram uma função
Peru essencial no desenvolvimento da pontuação de crédito.
2
Departamento de Engenharia Industrial, Istanbul Bilgi University, No entanto, o tamanho da amostra foi considerado um dos principais
34060 Eyupsultan, Istambul, Turquia argumentos em suas pesquisas.
3
Departamento de Engenharia Industrial, Universidade de Marmara, Com o aumento das bases de dados, os métodos estatísticos assumiram
34722 Kadikoy, Istambul, Turquia o lugar dos métodos convencionais (Bumacov et al. 2017).
Machine Translated by Google
No final dos anos 60, a análise discriminante múltipla é proposta por critério. Portanto, o aprendizado se torna a execução do modelo
Altman (1968) para a previsão de falências. Pouco mais de uma década desenvolvido para obter o objetivo. Em conjuntos de dados pequenos e
depois, uma abordagem probabilística é introduzida por Ohlson (1980) com simples, as técnicas de aprendizado supervisionado têm pouco a oferecer
o nome de 'Regressão Logística' para avaliação da solvabilidade do para concluir com previsões simples. No entanto, é quase impossível
requerente. Embora muitos modelos de programação matemática sejam concluir manualmente o alvo em grandes conjuntos de dados, onde muitos
estudados neste domínio, uma das maiores mudanças de paradigma recursos são investigados com diferentes condições aplicadas a um
ocorreu em 2003 com o lançamento do acordo de capital Basiléia II, que tamanho de amostra extenso. Em algumas formas específicas, medidas
visa preservar a integridade do capital nos bancos (Kashyap e Stein 2004) . de complexidade de tempo e espaço do desempenho do modelo de
Basel II consiste em três pilares como; requisitos mínimos de capital, aprendizagem desenvolvido podem ser tão significativas quanto sua
processo de revisão pela supervisão e transparência e disciplina de precisão preditiva. Independentemente do comportamento descritivo ou
mercado. O objetivo do acordo foi classificar o risco e determinar o preditivo do modelo desenvolvido, a dificuldade do problema destaca a
montante de capital suficiente para o banco manter e cobrir os riscos importância de soluções de aprendizado de máquina com algoritmos
operacionais e financeiros que possam surgir. O acordo oferecia três formas eficazes onde o desempenho pode ser medido em níveis elevados.
de mensuração do risco de crédito. A primeira é a Abordagem Padronizada, Juntamente com os desenvolvimentos em aprendizado de máquina
na qual as instituições podem utilizar ratings de agências independentes supervisionado e aprimoramentos no poder computacional, a construção
de classificação de risco. Os bancos devem desenvolver os seus algoritmos de modelos de pontuação de crédito baseada em dados atrai a máxima
internos de rating para calcular a exposição ao incumprimento (EAD), a atenção do setor financeiro e grandes desenvolvimentos são esperados a
probabilidade de incumprimento (PD) e a perda em caso de incumprimento esse respeito. Embora a maioria dos modelos existentes seja aprimorada
(LGD) no segundo e terceiro métodos, nomeadamente o Foundation com base na regressão logística, outros modelos de aprendizado como
Internal Rating Based Method (FIRB) e Método baseado em classificação modelos de Support Vector Machine (SVM) e abordagens metaheurísticas
interna avançada (AIRD) (Do et al. 2019). A mudança forçou as instituições são amplamente investigados na literatura. No entanto, ainda há espaço
a buscar algoritmos mais sofisticados do que os métodos existentes. para melhorias para modelos específicos de problemas.
Juntamente com outras abordagens da teoria estatística de
aprendizagem, os SVMs foram propostos por Vapnik (1998) no final dos
Atualmente, a introdução desses modelos não está longe da imaginação anos 1990 como uma ferramenta de classificação robusta. Isso foi
junto com o aumento do poder computacional (Do et al. 2019; Goh e Lee incipientemente destinado à classificação binária, mas pode ser estendido
2019). para classificação e regressão de várias classes. O objetivo principal deste
O desenvolvimento do poder computacional necessário está altamente algoritmo é obter um hiperplano que separe duas classes com margens
vinculado às grandes quantidades de geração de dados das organizações máximas. O hiperplano ótimo é definido como um limite de decisão para a
modernas, pois os dados coletados devem ser analisados de maneira separação das classes. Os SVMs não são apenas populares e amplamente
inteligente para obter insights e extrair valor deles. O principal objetivo da usados - da classificação de tráfego ao reconhecimento facial (Chen et al.
extração de valor é aprender com o passado para moldar o futuro com 2016; Yuan et al. 2010) - mas também codificam vantagens computacionais
maior previsibilidade. A análise preditiva de dados preocupa-se com técnicas sobre outros métodos probabilísticos Murphy (2012). Outras áreas de
de construção de modelos para observar os padrões de comportamento aplicação de SVMs são, mas não limitadas a, detecção de malware,
passado e oferecer previsões com base nessas observações. Aplicações diagnóstico de diabetes de diagnóstico de circuito analógico, mineração de
de análise preditiva estão disponíveis em uma ampla gama de opções, rede social, deslizamento de terra e previsão de temperatura do solo
incluindo, entre outras, previsão de preços, avaliação de risco, modelagem (Santhanam e Padmavathi 2015; Burnaev e Smolyakov 2016; Chen et al.
de propensão e classificação. Para fazer essas análises preditivas,
algoritmos eficazes devem ser propostos para as preocupações de 2016; Zhou et ai. 2016, 2020; Zadeh et al. 2019; Vallejos et ai. 2020).
otimalidade do problema definido para treinamento. Assim, a principal
abordagem comum em todas as áreas de aplicação mencionadas é o Uma das primeiras aplicações do modelo SVM para o problema de
treinamento do modelo proposto. pontuação de crédito é vista em Baesens et al. (2003). Eles investigaram
o desempenho de algoritmos de classificação de última geração em oito
Uma das técnicas de treinamento populares são os algoritmos de conjuntos de dados de pontuação de crédito com a comparação de padrão
aprendizado de máquina supervisionado por sua capacidade de automatizar e mínimos quadrados SVM (LS-SVM). Suas medidas de desempenho são
os processos usando a teoria estatística na construção de modelos matemáticos. definidas como a área sob o receptor
Algoritmos de aprendizado supervisionado automatizam o processo de curva característica operacional e precisão de classificação.
aprendizado das relações entre o conjunto de recursos e o alvo usando o Eles fixaram a superioridade de desempenho do LS-SVM juntamente com
modelo que é desenvolvido para ele. A aprendizagem supervisionada é um o modelo de Rede Neural Artificial (ANN) que apresentaram. O desempenho
tipo de aprendizagem que pode ser explicada de várias formas, mas nesta do SVM no campo de pontuação de crédito é fortemente investigado após
pesquisa focamos na sua capacidade de aprender a classe do caso seu desempenho de precisão bem-sucedido.
desejado a partir de seus exemplos positivos e negativos. Em outras Trabalhos recentes neste domínio propuseram SVMs como um método bem-
palavras, ele é projetado para trabalhar no sentido de otimizar o desempenho do sucedido, incluindo as revisões da literatura sobre falência
Machine Translated by Google
previsão e avaliação de risco de crédito (Moro et al. 2016; Alaka et al. 2018; pesquisas baseadas em população estão se tornando cada vez mais
Goh e Lee 2019). populares, o SVM supera a competição pela classificação dentro das
Os aplicativos de pontuação de crédito não se limitam a técnicas de técnicas de aprendizado de máquina. Portanto, nosso estudo se baseia
aprendizado de máquina. Várias abordagens metaheurísticas foram oferecidas nessas técnicas para sua metodologia.
como uma estrutura alternativa para propor modelos avançados de pontuação O restante deste trabalho está organizado da seguinte forma. Nossa
de crédito. Metaheurísticas são uma variedade de abordagens de mineração metodologia de pesquisa é proposta na próxima seção. A análise empírica
de dados baseadas em inteligência artificial que buscam uma solução quase continua na Seção 4. As considerações finais e discussões relacionadas são
ótima com um processo computadorizado para o problema de otimização apresentadas na Seção 5.
dado. Mais regularmente, os algoritmos metaheurísticos se dividem em várias
categorias na área de pontuação de crédito. Essas categorias são
frequentemente denotadas como; Algoritmo Evolucionário, Inteligência de
Enxame e Baseado em Iterações. O Algoritmo Evolucionário se baseia no 2 Máquina de Vetor de Suporte e Genética
conceito do princípio darwiniano. O Algoritmo Genético é observado como a Algoritmo
prática mais comum dos algoritmos evolutivos no domínio do credit scoring.
Algoritmos de Inteligência de Enxame são estimulados pelo comportamento 2.1 Máquinas de Vetores de Suporte
grupal de sistemas auto-organizados e descentralizados da natureza. Honey
Bees Mating Optimization (HBMO), Ant Colony Optimization (ACO), Artificial O classificador do SVM é definido como um hiperplano ótimo -ou seja, o limite
Bee Colony Optimization (ACO) e Particle Swarm Optimization (PSO) são as de decisão- que é usado para separar classes com distâncias máximas a ele.
práticas mais comuns em pontuação de crédito. O conjunto de treinamento é definido como xi, xi ÿ ÿn onde i denota o número
de instâncias.
A função de contorno para este fenômeno é frequentemente declarada como:
f xð Þ¼ wx þ b
Algoritmos baseados em iteratividade focam na melhoria da função de aptidão
pela técnica de busca na vizinhança. Os rótulos para o problema de classificação são definidos como y i ÿ {ÿ1,
Simulated Annealing (SA) e Tabu Search (TS) são as práticas mais comuns +1} e esses valores são definidos para regiões das classes onde os valores
nesta área (Doering et al. 2019; Goh e Lee 2019). levam f(x) > 1 dentro da classe que é denotada por +1 e f( x) < ÿ 1 no outro.
O valor da função é igual a zero no limite de decisão (hiperplano ótimo). O
O desenvolvimento mais significativo na área é observado pelos Algoritmos termo vetores de suporte é usado para os pontos de dados nas margens
Evolutivos. Esses algoritmos estiveram no ponto focal dos métodos de onde a função tem os valores de +1 e -1 para sua região correspondente. O
mineração de dados nos últimos anos, não apenas no domínio da pontuação problema primordial é um caso de programação matemática quadrática onde
de crédito. Por exemplo; Algoritmos genéticos e métodos de colônias artificiais a função objetivo é uma forma de quadrática e as restrições são lineares.
de abelhas são usados para resolver problemas de arquitetura de software,
criação de perfil da web e eficiência de banco de dados (Awal e Bharadwaj
2019; Mu et al. 2019; Liu et al. 2019). No entanto, a otimização de margem suave é aplicada se os dados forem
A mudança também é observada nas revisões de literatura dos últimos
linearmente inseparáveis e a função de Lagrange for usada para encontrar o
década. Dentre esses trabalhos, Marques et al. (2013) observaram que essa ótimo. O problema de otimização convexa para margem suave é denotado
grande mudança de paradigma em direção às metaheurísticas é cada vez como segue:
mais promissora para um futuro próximo junto com a inteligência
computacional. Louzada e cols. (2016) também acrescentou que tais
m
algoritmos podem trabalhar de forma eficiente lado a lado com técnicas de 2
1 minÿ ð Þ¼ w; b saber þCÿ ÿi
2
aprendizado de máquina como SVM. Nesta área, Goh e Lee (2019) i¼1
Neste estudo, nos concentramos nos problemas de pontuação de crédito Os termos ÿ e C estão associados à penalidade de violação da margem
apresentados na última década. Os problemas de classificação são filtrados na forma soft como sendo a variável de folga para má classificação e o custo
para modelos híbridos onde técnicas de aprendizado de máquina são usadas respectivamente para todo m número de restrições. No entanto, o classificador
para construir um classificador e o problema de seleção de atributos é tratado SVM linear não pode conduzir aprendizado sólido em casos onde os dados
por técnicas metaheurísticas. Um resumo desses estudos é mostrado na são linearmente inseparáveis. Portanto, ferramentas de classificação não
Tabela 1. Observamos que as técnicas de busca baseadas na população são linear são usadas para modificar o modelo com o truque do kernel [K(a, b)].
os métodos mais comumente preferidos para a seleção de recursos. Dentre
as técnicas de busca baseadas em população, o uso do Algoritmo Genético Polinomial, função de base radial e sigmóide são as funções de kernel mais
tem a maior preferência dos pesquisadores. Enquanto o uso de populares. As funções para esses Kernels são mostradas a seguir:
Zhou
et
ai.
2009 Marinaki
et
ai.
Avaliação
de
Risco
de
Crédito
2010 Wang
et
ai.
2010 Huang
e
Wu
2011
Pontuação
de
crédito
em
cartões
de
crédito Orski
et
ai.
2012 2014
Oreski
eWang
et
al.
2012 Waad
et
ai.
2014 Wang
et
ai.
2015 Das
et
al.
2016 Aladeemy
et
ai.
Seleção
de
recursos
de
2017 Chen
et
ai.
2017 Dias
e
Neto
Seleção
de
Longas
2017 Medjahed
et
ai.
Diagnóstico
de
Câncer
2017 Mohamed
e
outros.
2017
Detecção
e
Classificação
de
Doenças Wei
e
outros.
2017 Ala'M
et
al.
2018 Jadhav
et
al.
2018 Wang
et
ai.
2018 diagnóstico
e
tratamento
classificação
Baliarsingh
et
al.
Seleção
de
genes
2019
para
câncer Dash
et
ai.
2019 Autores Tabela
1Literatura
sobre
Seleção
de
Recursos
com
Metaheurísticas
e
Máquina
Pontuação
de
crédito
Šušteršiÿ
et
al.
Pontuação
de
crédito
2009 Sayed
e
cols.
2019
Pontuação
de
crédito Avaliação
de
risco
de
crédito Pontuação
de
crédito Avaliação
de
risco
de
crédito Pontuação
de
crédito Classificação
de
spam
e-
mail Seleção
de
Gene Seleção
de
recursos Seleção
de
recurso Seleção
de
recursos
na
classificação
de
crédito Seleção
de
recursos
na
pontuação
de
crédito Seleção
de
genes
microarray
e Classificação Problema
Detecção
de
spam
classificação
banco
esloveno
Conjuntos
de
dados
UCI
(alemão,
australiano) Empresas
não
financeiras
do
Reino
Unido Conjunto
de
dados
UCI
(japonês) Conjuntos
de
dados
UCI
(australiano,
japonês) banco
croata Banco
croata,
UCI
Datasets
(australiano, banco
croata,
UCI
Datasets Repositório
UCI
(australiano
e 6
corpos 5
conjuntos
de
dados
Conjuntos
de
dados
UCI
(vários
campos) Conjuntos
de
dados
UCI
(vários
campos) Conjuntos
de
dados
genes
de
microarray Conjuntos
de
dados
genes
de
microarray Dados
do
Twitter
(árabe,
inglês,
espanhol,
coreano)
Whale
Optimization
Algorithm Conjuntos
de
dados
UCI:
alemão,
australiano,
taiwanês Conjuntos
de
dados
UCI:
alemão,
australiano Conjuntos
de
dados
genes
de
microarray Conjuntos
de
dados
genes
de
microarray banco
de
drogas Base
de
dados
10
conjuntos
de
dados
(vários
campos) Forrageamento
bacteriano
de
quimiotaxia
adaptativa
14
conjuntos
de
dados
(vários
campos)
Japonês) alemão),
banco
da
Tunísia,
conjunto
de
dados
HMEQ
GA GA HBMO Pesquisa
Tabu Algoritmo
genético GA Conjunto
irregular,
pesquisa
de
dispersão GA Algoritmo
Genético
(GA) Grid
Search
(GS),
orientado
para
amelhor
harmonia
global Pesquisa
Harmony
(HS),
GA Inteligência
de
coorte
auto-
adaptativa
(SACI) Recozimento
Simulado
(SA) Libélula
Binária
(BDF) Otimização
de
Enxame
de
Partículas
(PSO),
Pesquisa
de
Cuco Otimização
por
Enxame
de
Partículas
Binárias
(BPSO) Wrapper
de
Algoritmo
Genético
Aprimorado
(IGDFS)
SVM,
KNN,
NB HMPGA
(Genética
de
Populações
Múltiplas
Híbridas) Híbrido:
otimizador
de
engenharia
social
(SEO)
e Algoritmo
de
salto
sapo
embaralhado
binário
(BSFLA)
ANN,
SVM Algoritmo
Caótico
da
Libélula
(CDA) Metaheurísticas
de
seleção
recursos
pesquisa
de
harmonia
(GBHS),
método
metaheurístico
de
otimização
global
(GOPSO),
pesquisa
de
harmonia
aprimorada
(IHS) Algoritmo
de
Otimização
Forrageamento
(ISEDBFO) Enxameação
e
Eliminação-
Dispersão
Bacteriana Algoritmo
de
Otimização
(ACBFO),
Melhorado (CS),
Colônia
Artificial
de
Abelhas
(ABC) Algoritmo),
MPGA,
GA otimizador
do
pinguim
imperador
(EPO)
ANN SVM KNN RBF,
SVM,
LR KNN,
BN,
DT,
LR,
SVM, ANN ANN ANN DT,
SVM,
LR Fuzzy
SVM,
NB SVM SVM SVM SVM SVM KNN,
SVM SVM SVM SVM SVM SVM Classificador
RBFNN
Inf Syst Front (2020) 22:1009–1019 1012
Machine Translated by Google
Machine Translated by Google
& Polinômio configuração híbrida para pontuação de crédito. Dado o motivo, decidimos
construir um algoritmo sofisticado para encontrar um bom conjunto de
recursos usando uma forma híbrida dos algoritmos mencionados acima.
K a Þ¼ ; b 1þÿ d ÿ2
j Nosso método proposto compõe dois níveis que se comunicam por
ajbj !d ;
meio de um mecanismo de alimentação. No primeiro nível, um recurso
& Função de base radial definido e finalizado com bons parâmetros SVM para prosseguir para
o segundo. No Nível II, nosso modelo corrige os parâmetros SVM
2
K a Þ¼ ; ÿkkaÿb
b exp h
=2ÿ2 eu
encontrados no estágio anterior e encontra um conjunto de recursos
iterativamente com maior precisão em comparação com o primeiro nível.
& Função Sigmóide Posteriormente, o conjunto de recursos encontrado é alimentado no primeiro
nível para encontrar melhores parâmetros SVM e assim por diante. As
b t;t b h
K a Þ¼ iterações são realizadas até o critério de parada.
parâmetros conforme representado na Fig. 1. Em seguida, o procedimento de 3.2.1 Criação da População e Seleção dos Pais
mutação ocorre com um gene selecionado aleatoriamente. O modelo permitiu
aumentos e diminuições dos parâmetros com o uso da distribuição uniforme. Nesta etapa, a população do GA é criada usando diferentes conjuntos de
recursos. Cada gene em um cromossomo representa uma característica dos
Como os parâmetros do SVM não podem funcionar com valores menores ou dados com uma variável binária aleatória, tendo zero para uma característica não
iguais a zero, o limite inferior é definido como 0,1. O procedimento de mutação é incluída no conjunto e um para inclusão conforme ilustrado na Fig. 2 para um
representado na Fig. 1. Finalmente, a próxima geração é criada com n número conjunto de dados onde o tamanho máximo do conjunto de características é m .
de pais e n número de filhos mutantes. A população de tamanho n ÿ 1 é gerada atribuindo variáveis binárias aleatórias
a cada variável para determinar sua adição ao conjunto e o n- ésimo cromossomo
Dessa forma, boas soluções nunca são esquecidas e há a busca por é o conjunto que é fixado no nível I. Na chamada do Nível II, esse conjunto de
melhorias. A regra é mantida até que o critério de parada seja atingido. Para o recursos é igual ao máximo conjunto de dados disponível, ou seja, cada gene
modelo apresentado, o definimos como não tendo alterações da maior precisão tem o valor 1. Este é um método semelhante ao aplicado na fase anterior com o
de classificação em um número predeterminado de iterações. Como resultado objetivo de não esquecer a melhor solução final. Cada conjunto gerado
do Nível I, os parâmetros SVM de C e ÿ de maior precisão de classificação são aleatoriamente e o enésimo conversam com o conjunto de dados de treinamento
transportados para o Nível II. principal para o encolhimento.
Em seguida, cada conjunto de dados encolhido é treinado usando os parâmetros
SVM que são encontrados no nível I com validação cruzada k-fold.
As precisões de classificação são classificadas para todos os conjuntos de recursos treinados
recurso ao aparelho se ainda não estiver incluído ou vice-versa. O nunca é esquecido. O mecanismo de alimentação continua até o
processo é mapeado na Fig. 3. ponto em que o critério de parada global é acionado. O desenho
Dadas as estratégias representadas na Fig. 3, a próxima do critério segue as mesmas regras para as gerações dos níveis
geração é criada com n número de pais e n número de filhos (Seção 3.1.2). As regras referem-se a manter a precisão máxima
mutantes. O método nunca esquece uma boa solução. da classificação em cada alimentação (saída do Nível II) e parar
Por exemplo, se um conjunto de recursos da primeira geração o mecanismo caso a precisão não melhore em um número
fornece a melhor solução, ele é levado para a geração seguinte. predeterminado de repetições. A estrutura geral do método
As gerações são criadas até um critério de parada da mesma proposto é mostrada na Fig. 4.
forma que é aplicado no Nível I.
observaram o comportamento do modelo com diferentes configurações geração número 50 se o critério de parada não for atingido, que é a
de SVM e GA. Dado isso, observamos que os pequenos valores de parada do processo se a precisão da classificação não for alterada
parâmetro do SVM funcionam melhor e mais rápido. Uma vez após 10 iterações consecutivas.
concluídas as fases de modelagem, os dados online de ('Lending Club A população e os tamanhos de cruzamento são os mesmos em
Data' 2019) para fins de pequenas empresas são investigados de ambos os níveis, exceto pela estrutura cromossômica. Os
2007 a 2018. O principal gatilho por trás disso é investigar o cromossomos são formados conforme descrito na Seção 3.2. Os
desempenho do algoritmo de pontuação de crédito com fins recentes resultados nos levaram a observar maiores níveis de precisão com
para pequenas empresas dados do empréstimo. A empresa também menores valores de ÿ no cromossomo. Dada a razão, atualizamos
tem um forte cenário de empréstimos P2P, que é visto principalmente nosso modelo para um estudo empírico em larga escala, permitindo
como um potencial para o crescimento das PMEs. menos desvio no valor de ÿ nas fases de mutação (ver Fig. 1 ) e
inicialização C menor para computação mais rápida.
Durante os testes preliminares do modelo, usamos o conjunto de Após as fases de limpeza e pré-processamento, adotamos o
dados australiano do UCI Repository. O conjunto de dados possui mecanismo de alimentação de dois níveis para os dados. Os dados
690 instâncias com 14 atributos a serem treinados para prever a 15ª. pré-processados consistiam em mais de 24 mil instâncias com 142
A estrutura cromossômica para o primeiro nível (C e ÿ) é formada com feições. Essa quantidade aumentou o tempo de computação para
números aleatórios gerados por Uni ÿ [1, 10] com um tamanho Hybrid GA-SVM que trabalha com função de base radial. Dada a
populacional de 8. Isso levou nosso modelo a ter 4 pais e 4 razão, os valores iniciais do parâmetro de penalidade e os valores
descendentes mutantes como a próxima geração . Essas iterações são realizadas
gama sãoaté
GA 78.21 86,75
GA-NN 78,50 –
reduzido para Uni ÿ [0,1, 0,5]. No entanto, os demais parâmetros de tamanho 2017). Os resultados obtidos são comparados a alguns dos trabalhos sem
da população e geração de descendentes são mantidos junto com o critério tabela que incluem AG na Tabela 2. A tabela indica que o mecanismo de
5 Resultados e Conclusão
Esta pesquisa propõe um mecanismo de alimentação de dois níveis para
A Figura 5b representa a acurácia da classificação ao final do Nível II em cada pontuação de crédito. A interação entre níveis é introduzida com o princípio
alimentação. Pode-se observar que o algoritmo para devido ao critério de de elitismo do AG em que a melhor solução da geração e nível correspondente
parada ao final da 20ª alimentação onde a precisão chega a 97,04% em C = nunca é esquecida.
21,515 e ÿ = 0,558. A evolução da precisão da classificação também pode O critério de parada também desempenha um papel vital para os níveis e a
ser observada na Fig. 5a. Observa-se que a estrutura de dois níveis melhora formação da alimentação.
significativamente a precisão. Os trabalhos empíricos são conduzidos com trabalhos preliminares durante
a fase de desenvolvimento do modelo da pesquisa. Os resultados para o
Os resultados empíricos obtidos usando o algoritmo Hybrid GA SVM são grande conjunto de dados indicam que o mecanismo de alimentação para a
comparados com algoritmos de classificação comumente usados em fase de seleção de recursos (Nível II) melhora significativamente a precisão
aprendizado de máquina supervisionado -Decision Tree (DT), Random Forest onde as principais mudanças são observadas. No entanto, o modelo é
(RF), Logistic Regression (LR), Support Vector Machine (SVM) e Artificial desenvolvido para buscar a melhoria contínua do conjunto de dados estudado.
Rede Neural (RNA). A comparação é ilustrada na Fig. 6. Os parâmetros de Além disso, focamos na clareza das etapas para permitir replicações por
cada algoritmo são desenvolvidos e selecionados a partir de trabalhos outros pesquisadores, pois alguns dos métodos implantados possuem
preliminares, exceto no caso do SVM, no qual são mantidos os mesmos segmentos vagos na literatura.
encontrados no modelo híbrido (C = 21,515 e ÿ = 0,558 em radial função de As limitações no domínio de pontuação de crédito impedem os
Para observar a sensibilidade do algoritmo ao conjunto de recursos, cada como um sólido espaço de trabalho preliminar. Por outro lado, plataformas
online como Lending Club são promissoras para modelos de scoring
algoritmo é executado duas vezes. Primeiro, todo o conjunto de dados é usado como entrada.
Na segunda execução, no entanto, o conjunto reduzido de recursos obtido comportamental. Além disso, os pesquisadores podem se concentrar na
pelo algoritmo GA-SVM de dois níveis é usado como entrada. Observa-se que pontuação de lucro em conjuntos de dados privados e limitados como
o conjunto reduzido de recursos está aumentando a precisão da classificação pesquisas futuras. Acredita-se que modelos híbridos com estrutura multinível
podem trazer contribuições notáveis.
em cada algoritmo. A maior precisão de classificação é alcançada na categoria
butions à literatura nos domínios de pontuação de crédito acima mencionados.
proposta de GA-SVM de dois níveis, uma vez que o conjunto de recursos
predefinidos é desenvolvido usando-o. Além disso, a Fig. 6 indica que os Por fim, este estudo contribui para a literatura com o mecanismo de
algoritmos de RF e ANN executados com o conjunto reduzido de recursos são alimentação de dois níveis GA-SVM, uma vez que supera os métodos
Além dos testes de comparação no mesmo conjunto de dados, implantamos hibridações de algoritmos de aprendizado e metaheurísticas para maior
o modelo em dois dos conjuntos de dados disponíveis ao público comumente precisão, pois sua comparação é altamente promissora, especialmente em
usados neste campo; Conjuntos de dados alemães e australianos do UCI Florestas Aleatórias e Redes Neurais Artificiais.
Doering, J., Kizys, R., Juan, AA, Fitó, À., & Polat, O. (2019).
Conformidade com os Padrões Éticos
Metaheurísticas para otimização de portfólio rico e gerenciamento de risco:
estado atual e tendências futuras. Operations Research Perspectives, 6, 100121.
Conflito de Interesses Com relação à publicação desta pesquisa, os autores do artigo
declaram não haver conflitos de interesses.
Dua, D., & Graff, C. (2017). Repositório de aprendizado de máquina UCI.
Durand, D. (1941). Elementos de risco no financiamento ao consumidor.
Nova York: National Bureau of Economic Research.
Murphy, KP (2012). Aprendizado de máquina: uma perspectiva probabilística. Yuan, R., Li, Z., Guan, X., & Xu, L. (2010). Um método de aprendizado de máquina baseado
COM pressione. em SVM para classificação precisa do tráfego da Internet.
Ohlson, JA (1980). Índices financeiros e previsão probabilística de falência. Journal of Fronteiras dos Sistemas de Informação, 12(2), 149–156.
Accounting Research, 18, 109–131. Zadeh, AH, Zolbanin, HM, Sharda, R., & Delen, D. (2019). Mídia social para previsão da
Oreski, S., & Oreski, G. (2014). Heurística baseada em algoritmos genéticos para seleção atividade da gripe: análise de big data espaço-temporal.
de características na avaliação de risco de crédito. Sistemas Especialistas com Fronteiras dos Sistemas de Informação, 21(4), 743–760.
Aplicações, 41(4), 2052–2064. Zhou, L., Lai, KK, & Yen, J. (2009). Modelos de pontuação de crédito com maximização de
Oreski, S., Oreski, D., & Oreski, G. (2012). Sistema híbrido com algoritmo genético e redes AUC com base em SVM ponderado. Jornal internacional de tecnologia da informação
neurais artificiais e sua aplicação na avaliação de risco de crédito no varejo. Sistemas e tomada de decisão, 8(04), 677-696.
Especialistas com Aplicações, 39(16), 12605–12617. Zhou, C., Yin, K., Cao, Y., & Ahmed, B. (2016). Aplicação da análise de séries temporais e
modelo PSO-SVM na previsão do deslizamento de terra de Bazimen no reservatório
Plummer, WC, & Young, RA (1940). Empresas financeiras de vendas e suas práticas de de três gargantas, China. Geologia de Engenharia, 204, 108–120.
crédito. NBER.
Santhanam, T., & Padmavathi, M. (2015). Aplicação de K-means e algoritmos genéticos Zhou, S., Chu, X., Cao, S., Liu, X., & Zhou, Y. (2020). Previsão da temperatura do solo com
para redução de dimensão integrando SVM para diagnóstico de diabetes. Procedia ANN, LS-SVM e fuzzy LS-SVM para aplicação GSHP. Geotérmica, 84, 101757.