Evolutionary Algorithms For Selecting The Architecture of A MLP Neural Network A Credit Scoring Case

Machine Translated by Google
2011 11ª Conferência Internacional IEEE sobre Oficinas de Mineração de Dados
Algoritmos evolutivos para selecionar a arquitetura de um

Rede neural MLP: um caso de pontuação de crédito
Alejandro Correa B., Andrés González M.

Banco Colpatria
Bogotá, Colômbia
{correaal, gonzalean}@colpatria.com
Resumo—Redes neurais são ferramentas poderosas para classificação Algoritmo (GA) e Enxame de Partículas Binárias (BPS)
e regressão, mas é difícil e demorado determinar a melhor arquitetura Otimização. A função objetivo a maximizar é a curva ROC (Receiver
para um determinado problema. Neste artigo, dois algoritmos Operating Characteristic) e as variáveis de decisão são o número de
evolucionários, Algoritmos Genéticos (GA) e Binary Particle Swarm camadas ocultas e sua função de ativação, o número de unidades
Optimization (BPS), são usados para otimizar a arquitetura de uma Rede ocultas em cada camada, a função de ativação da camada de destino
Neural Perceptron Multi-Layer (MLP), a fim de melhorar o poder preditivo
e se usar polarização ou ter uma conexão direta entre a camada de
do risco de crédito scorecards. Os resultados mostram que ambos os
entrada e saída. Embora uma metodologia de otimização semelhante
métodos superam a regressão logística e uma rede neural padrão em
tenha sido desenvolvida em outras áreas, no caso do GA [3][18], até
termos de previsibilidade, mas o AG consome mais tempo do que o
onde sabemos, essas metodologias não foram aplicadas para
BPS. O poder preditivo de ambos os métodos é semelhante ao do
melhorar os scorecards de risco de crédito.
Global Optimum, mas é encontrado em um tempo razoável.
Este artigo está dividido em seis seções. Primeiramente, é feita

uma descrição dos dados e das variáveis utilizadas para o
Palavras-chave; algoritmo genético; otimização de enxame de particulas; desenvolvimento do modelo. Posteriormente, há uma introdução aos
pontuação de crédito; redes neurais. conceitos gerais de Redes Neurais MLP, técnicas de GA e BPS.
A terceira seção apresenta as definições específicas para modelagem
I. INTRODUÇÃO
com o MLP e as técnicas de otimização. Em seguida, os resultados
A fim de mitigar o impacto do risco de crédito e tomar decisões são mostrados com base na comparação dos algoritmos de otimização
mais objetivas e precisas, as entidades financeiras criaram novas e com uma arquitetura padrão de Rede Neural e uma Regressão
melhores ferramentas para prever e controlar suas perdas [4][6]. É Logística. Além disso, todas as arquiteturas possíveis do MLP para o
por isso que se tornou comum em instituições financeiras em todo o nosso caso de estudo são calculadas e o ótimo global é comparado.
mundo usar scorecards para medir uma Em seguida, o algoritmo também é usado para desenvolver dois
risco de crédito do cliente [1][8][12]. Um scorecard é um modelo modelos adicionais e o impacto gerado pelas metodologias de
estatístico que permite atribuir um rating (score) a um cliente, que otimização é mostrado. Por fim, é feita uma discussão sobre as
indica a probabilidade prevista de o cliente refletir um determinado abordagens utilizadas neste artigo e algumas questões específicas.
comportamento. O que se busca com os scorecards é criar uma
medida estimada do risco de um cliente, ou seja, a probabilidade de
TABELA I. ESTATÍSTICA DESCRITIVA DAS VARIÁVEIS
um cliente ter um bom hábito de pagamento caso um empréstimo
seja concedido, com base em experiências passadas [11]. O método Variável N Média Std. Dev. Mínimo máximo
mais utilizado pelas instituições financeiras para estimar esses X1 125.557 -0,027 5.823 -5.615 53.637
modelos é a Regressão Logística [2], devido ao seu poder preditivo e x2 125.557 0,002 1.629 -66.097 52.220
facilidade de interpretação. Mas existem outros métodos, como Redes X3 125.557 0,003 1.511 -13.606 20.037
Neurais [7] que possuem um maior nível de complexidade que X4 0,000 1.376 -13.579 33.091
125.557
poderiam melhorar o poder preditivo dos scorecards. X5 0,014 2.108 -10.655 21.943
125.557
X6 125.557 -0,014 1.710 -8.699 38.439
Redes neurais não são amplamente utilizadas em pontuação de
X7 125.557 -0,002 1.656 -63.313 122.732
crédito devido a dois motivos principais, i) a dificuldade de
interpretabilidade e ii) a complexidade no desenvolvimento do modelo.
Ao desenvolver uma Rede Neural Perceptron Multi-Layer (MLP), os Utilizando informações fornecidas por um banco local, são
utilizados 125.557 clientes com cartões de crédito ativos para a
analistas devem abordar vários tipos de questões relacionadas aos
construção do modelo, e com a definição de inadimplência do banco
parâmetros ou arquitetura da Rede Neural. Neste trabalho é feita uma
otimização da arquitetura da Rede Neural MLP utilizando duas ao longo do período de atuação, os clientes são classificados em bons e ruins.
técnicas de otimização: Genética Os nomes das variáveis são alterados para…X1 X7 por solicitação da
instituição financeira. As variáveis originais foram
978-0-7695-4409-0/11 $ 26,00 © 2011 IEEE 725

DOI 10.1109/ICDMW.2011.80
Uso licenciado autorizado limitado a: UNIVERSIDADE DE SAO PAULO. Baixado em 04 de abril de 2023 às 01:39:28 UTC do IEEE Xplore. Restrições aplicadas.
padronizada e a TABELA I apresenta a estatística descritiva das sete camada pode ter a opção de polarização ativada. Um termo de polarização
variáveis, enquanto a TABELA II apresenta a correlação entre elas. pode ser tratado como um peso de conexão de uma unidade especial com
A correlação máxima entre as sete variáveis é de 0,017. Finalmente, um valor de ativação constante diferente de zero. O termo "bias" é geralmente
a TABELA III mostra como os dados originais são divididos usado em relação a uma "unidade de polarização" com um valor constante de
aleatoriamente em três conjuntos de dados diferentes usados para o um.
desenvolvimento e validação do scorecard. A unidade de polarização única é conectada a todas as unidades ocultas
ou de saída que precisam de um termo de polarização. Portanto, os termos de
viés podem ser aprendidos como outros pesos.
TABELA II. MATRIZ DE CORRELAÇÃO
X1 x2 X3 X4 X5 X6 X7
X1 1 0,001 -0,005 0,004 0,017 0,003 0,000
x2 0,001 1 -0,002 0,014 -0,003 0,000 0,000
X3 -0,005 -0,002 1 0,011 -0,005 -0,001 -0,009
X4 0,004 0,014 0,011 1 -0,002 0,001 -0,009
x5 0,017 -0,003 -0,005 -0,002 1 -0,002 -0,001
X6 0,003 0,000 -0,001 0,001 -0,002 1 0,001
X7 0,000 0,000 -0,009 -0,009 -0,001 0,001 1
TABELA III. CONJUNTOS DE DADOS DE DESENVOLVIMENTO E VALIDAÇÃO
Dados N Porcentagem da Taxa Ruim

população total
Trem 50.223 40,00% 56,48% Figura 1. Estrutura da Rede Neural MLP.
Teste 37.667 30,00% 56,68%
Validação 37.667 30,00% 56,84% B. Algoritmo Genético
Total 125.557 100,00% 56,65%
Um Algoritmo Genético (AG) é uma técnica de otimização que
II. CONCEITOS GERAIS tenta replicar processos de evolução natural nos quais os indivíduos
com as características consideradas melhores para se adaptar ao
A. Multi-Layer Perceptron Neural Network Modelo ambiente têm maior probabilidade de se reproduzir e sobreviver.
um artificial matemático/ é a Esses indivíduos vantajosos acasalam entre si, produzindo
computacional de rede neural que tenta imitar a estrutura e descendentes com características semelhantes, de modo que as
funcionalidade de redes neurais biológicas [9]. características favoráveis são preservadas e as desfavoráveis
É composto por um conjunto de unidades computacionais simples destruídas, levando à evolução progressiva da espécie.
altamente interconectadas. Essas unidades são chamadas de nós, e O GA visa melhorar a solução de um problema mantendo a
cada uma representa um neurônio biológico. Em uma Rede Neural, melhor combinação de variáveis de entrada. O fluxograma apresentado
as unidades ocultas recebem uma soma ponderada das entradas e na Fig. 2 descreve o processo. Inicia-se com a definição do problema
aplicam a ela uma função de ativação. As informações são passadas a otimizar, gerando uma função objetivo para avaliar as possíveis
de uma camada para a outra. Em seguida, as unidades de saída soluções candidatas (cromossomos), ou seja, a função objetivo é a
recebem uma soma ponderada da saída das unidades ocultas e forma de determinar qual indivíduo produz o melhor resultado.
aplicam uma função de ativação a essa soma. A Rede Neural
encontra os pesos por um processo iterativo através de diferentes tipos de algoritmos.
A rede discutida neste artigo é chamada de Multi Layer O próximo passo é gerar uma população inicial aleatória de n
Perceptron Neural Network (MLP) e possui algumas características indivíduos chamados cromossomos que são simbolizados por strings
específicas. A fim de explicar facilmente a estrutura da Rede Neural binárias, onde cada posição binária do cromossomo é chamada de
MLP, a Fig. 1 mostra os principais componentes. Possui uma camada gene e denota uma característica específica (variável de entrada).
de entrada que representa as variáveis de entrada a serem utilizadas Portanto, a combinação de todas as diferentes características
no modelo de Rede Neural e pode ser conectada diretamente com a codificadas na string representa um indivíduo candidato à solução.
camada de saída. Ele também possui i camadas ocultas e cada
camada contém j unidades ocultas. Na Fig. 1 as unidades ocultas Cada cromossomo é avaliado na função objetivo e os melhores
são representadas por círculos. As conexões entre as unidades são indivíduos são selecionados para sobreviver ao acasalamento (pais),
unidirecionais e são representadas por linhas direcionadas. Cada enquanto os piores são descartados para dar lugar a novos
conexão tem um escalar associado chamado peso w. As unidades descendentes. Existem muitas maneiras de emparelhar os
ocultas possuem uma variedade de funções de ativação ocultas e cromossomos selecionados [5]. Neste trabalho, é utilizado um
também uma função de combinação linear. pareamento de custo ponderado, que consiste em atribuir uma
Finalmente, o MLP tem uma camada de saída que calcula o resultado probabilidade de seleção de acordo com o custo de cada cromossomo.
do processo. A camada de saída também possui uma função de Ou seja, um cromossomo com o custo mais alto tem maior
ativação de destino. Ambos, as camadas ocultas e a saída probabilidade de acasalar porque a maximização do custo é desejada.
726
usado na próxima iteração do algoritmo descrito. O algoritmo itera até

que um número máximo de gerações de cromossomos seja criado ou
uma solução satisfatória seja alcançada.
C. Otimização de Swam de Partículas Binárias

Particle Swarm (PS) é um algoritmo baseado em população que foi
introduzido por Eberhart e Kennedy [14][15] para simular o comportamento
social e os movimentos de animais quando estão juntos em um enxame
ou cardume. Em seguida, o algoritmo foi utilizado como técnica
computacional para otimizar a solução de um problema utilizando uma
população de soluções candidatas denominadas “partículas”. Essas
partículas se movem ao longo do espaço de busca com base em
cálculos matemáticos sobre sua posição e velocidade. O próximo
movimento de cada partícula é afetado pela inércia do movimento atual,
a melhor posição que ela explorou até agora e a melhor posição global
explorada no espaço de busca por todas as partículas do enxame. Este
método busca mover o enxame em direção à melhor solução.
Para o caso específico deste trabalho, uma implementação binária

do algoritmo de otimização por enxame de partículas (BPS) proposto
por Khanesar, Teshnehlab e Shoorehdeli [17] é usada em vez do
algoritmo binário original de Kennedy e Eberhart [16], porque o algoritmo
original apresenta algumas limitações em relação aos parâmetros e à
Figura 2. Diagrama de fluxo do GA [5].
memória das partículas [17].
Após selecionar os cromossomos pais com o método de pareamento
O diagrama de fluxo apresentado na Fig. 3 descreve o processo
escolhido, o próximo passo é criar uma segunda geração de indivíduos,
para o BPS. Inicia-se com a designação da função custo em função do
com base nas informações dos pais. Existem várias formas de
problema a resolver e dos parâmetros w, c1 e c2, onde w é a inércia da
acasalamento [5]. Neste artigo, dois pais criam um filho.
velocidade da corrente, e c1, c2 são variáveis fixas definidas pelo
utilizador.
Para transferir as informações binárias dos pais para o filho, também
O próximo passo é inicializar aleatoriamente as n partículas do
existem diferentes tipos de abordagens, como o cruzamento de um
enxame dentro do espaço de busca. Para fazer isso, cada valor binário
ponto. A técnica de cruzamento de um ponto consiste em selecionar um
das partículas (variável de entrada), chamado bit, é definido
ponto aleatório na string do pai.
aleatoriamente como 0 ou 1. Feita a inicialização, cada partícula é
A criança é criada da seguinte maneira: primeiro, o pai1 transfere seu
decodificada para os valores reais das variáveis de entrada e o
código binário do primeiro gene para o ponto de cruzamento. Em
desempenho é avaliado em a função custo. Em seguida, o desempenho
seguida, o pai2 transfere seu código binário do ponto de cruzamento
de cada partícula é comparado com sua melhor solução encontrada até
para o último gene do cromossomo. Novos pais são selecionados
o momento ( ) e também com a melhor solução global encontrada pelo
aleatoriamente para cada novo filho e o processo continua até que a
população de cromossomos volte ao tamanho original n. enxame ( ). Para cada caso, se a posição atual da partícula apresentar
uma solução melhor que sua melhor solução encontrada até então,
Uma vez concluído o processo de reprodução, a mutação aleatória então ( ) é atualizado com a nova posição da partícula. Da mesma
é usada para alterar uma certa porcentagem dos genes dos forma, se a melhor solução das posições atuais das partículas for maior
cromossomos. O objetivo da mutação é introduzir diversidade na que a melhor solução global encontrada pelo enxame, então ( ) é
população, permitindo que o algoritmo evite mínimos locais gerando atualizado.
novas combinações de genes nos cromossomos. O procedimento de O próximo passo é atualizar a velocidade de cada partícula. A
mutação mais comum é o chamado mutação de ponto único. É
velocidade refere-se à rapidez com que a partícula se move no espaço
implementado gerando uma variável aleatória que indica a posição do
de busca. Em seguida, a nova posição de cada partícula é calculada
gene que será modificado, a partir da população de cromossomos.
com base no valor anterior da partícula (inércia) e na velocidade.
Geralmente, a mutação não é permitida nos cromossomos da melhor
solução porque esses indivíduos de “elite” estão destinados a se
Finalmente, verifica-se o critério de convergência. Se o algoritmo
propagar inalterados. No algoritmo genético, isso é chamado de elitismo
atender ao critério de convergência, ele para, caso contrário, o
[5].
desempenho das novas posições das partículas é avaliado nas funções
de custo e é usado na próxima iteração do algoritmo. O processo BPS
Finalmente, após a mutação, a nova geração de cromossomos é
pode iterar por um número fixo de vezes ou até um resultado satisfatório.
avaliada com a função objetivo e
727
solução é alcançada. Para informações mais detalhadas sobre as TABELA V. FUNÇÕES DE CAMADAS OCULTAS
fórmulas usadas no BPS, consulte Khanesar, Teshnehlab e Alvo

Shoorehdeli [17]. Combinação Função de ativação de destino
Função
Logística:
Linear:
Logística M:
Softmax:
Gauss:
Figura 4. Estrutura do cromossomo/partícula.
Além disso, para ambos os procedimentos de otimização, a

curva ROC (Receiver Operating Characteristic) é escolhida como
a função objetivo a ser maximizada porque mede a capacidade da
rede neural de atribuir e classificar pontuações relativamente mais
baixas para empréstimos que eventualmente se tornam
inadimplentes do que para empréstimos que continuam com um
bom comportamento. A ROC também é conhecida como curva de
swap, pois representa a troca entre bons clientes e maus clientes,
Figura 3. Diagrama de Fluxo BPS. ou seja, o percentual de maus clientes permitido para aceitar um
determinado percentual de bons clientes.
III. MODELAGEM
Posteriormente, é feita a definição das variáveis de entrada e
Agora que os conceitos gerais de Redes Neurais MLP, GA e da estrutura do cromossomo no caso do AG e da estrutura da
BPS foram abordados, é hora de focar no caso específico deste partícula no caso do BPS. Essas definições são as mesmas em
artigo. Primeiro, uma definição sobre as funções de ativação e ambos os algoritmos; a única diferença é a maneira de se referir a
combinação no MLP é eles. Sete variáveis de entrada são selecionadas para formar o
apresentado. Dado que na pontuação de crédito o objetivo é obter cromossomo/partícula que vai ter um total de 12 genes/bits que
uma probabilidade prevista para refletir um determinado podem gerar um total de 4.096 ( ) combinações possíveis. A
comportamento de um cliente, as funções de ativação do alvo da estrutura do cromossomo/partícula é definida na Fig. 4.
Rede Neural MLP foram limitadas a funções com intervalo entre 0
e a TABELA IV e a TABELA V apresenta as funções de ativação e
TABELA VI. CODIFICAÇÃO DE VARIÁVEIS
combinação usado neste papel. Em segundo lugar, a rede discutida
encontra os pesos por meio de um algoritmo de retropropagação Escondido
Escondido direto
[13]. Unidades Ocultas
Conexão
Camadas
Camadas
Viés
TABELA IV. FUNÇÕES DE CAMADAS OCULTAS 00 = 1 000 = 1 0 = Não 0 = Não
Combinação Oculta Ativação Oculta Ativação Oculta 01 = 2 001 = 2 1 = Sim 1 = Sim

Função Função Faixa de função 10 = 3 …
Linear:
11 = 4 111 = 8
Logística:
Escondido
Linear: Camada Alvo
Camadas Camada Alvo
Ativação
Ativação Viés
Função
artano:) Função
00 = Logística 00 = Logística 0 = Não

Tangente Hiperbólica: 01 = Linear 1 = Sim
01 = MLogística
10 = Agir Tan 10 = Softmax
11 = Tan H 11 = Gauss
728
Da mesma forma, as variáveis dos cromossomos/partículas são poder preditivo em todos os níveis de risco. A única alternativa que
codificadas conforme mostrado na TABELA VI. supera ligeiramente o desempenho do AG e do BPS é o ótimo global
Finalmente, existem algumas definições-chave que são específicas (71,26%), mas a diferença é tão pequena que não representa uma
para cada um dos algoritmos de otimização. Para o AG existe o melhora significativa na predição
tamanho total da população, o número de indivíduos de “elite” e a poder.
porcentagem de genes a sofrer mutação de toda a população
TABELA VII. MEDIDAS DE COMPARAÇÃO
cromossômica. Correspondentemente, o tamanho da população é de
16 indivíduos (cromossomos), os quatro melhores cromossomos da Modelo Tempo de CPU ROC (m) Chamadas de função
solução permanecerão inalterados e a porcentagem de mutação é de MLP padrão 68,09% 2 1
2% dos genes da população total. No caso do BPS, o tamanho da 1 1
Regressão Logística 65,92%
população é igual a 10, o número de iterações é definido como 10, o
GA-MLP 71,25% 559 274
peso da inércia é 0,6 e tanto c1 quanto c2 são definidos como 0,6.
BPS - MLP 71,25% 204 100
Ideal Global 71,26% 8.356 4.096

4. RESULTADOS
Além das evidências estatísticas apresentadas na curva ROC, a
A. Resultados experimentais TABELA VII mostra o esforço computacional de cada alternativa através
Nesta seção apresentamos os resultados do AG e do BPS utilizados de duas medidas, o tempo total gasto em minutos (tempo de CPU em
para selecionar a melhor arquitetura da Rede Neural MLP. Os resultados minutos) e o número de vezes que a função foi chamada. Como a
de 30 iterações executadas com o GA, 10 iterações com o BPS são Regressão Logística e a Rede Neural MLP padrão são executadas
comparados com os resultados de uma Rede Neural usando os apenas uma vez, ambas têm apenas uma chamada de função e gastam
parâmetros padrão do SAS Enterprise Miner™ [10] (1 camada oculta, 1 e 2 minutos, respectivamente. Conforme apresentado acima, essas
3 unidades ocultas, sem conexão direta, oculta viés de camada, função duas alternativas apresentam o pior poder preditivo medido pela curva
de ativação de camada oculta de tangente hiperbólica, função de ROC.
ativação de camada de destino logístico, viés de camada de destino), O GA usado para otimizar a arquitetura da Rede Neural MLP
uma regressão logística (algoritmo mais comum em pontuação de gastou 9,3 horas (559 minutos) em uma execução de 30 iterações e
crédito) [2] e o ótimo global. fez 274 chamadas de função, enquanto o BPS gastou 3,4 horas (204
minutos) na 10 iteração fazendo um total de 100 chamadas de função.
Finalmente, o modelo usado para encontrar o ótimo global levou 139,2
horas (8.356 minutos) e fez 4.096 chamadas de função (todas as
combinações possíveis). Essas últimas alternativas de árvore têm
aproximadamente o mesmo poder preditivo e a diferença no esforço
computacional é evidente. O AG gastou 1.395% menos tempo e
chamadas de função do que o método de localização de ótimo global,
enquanto o BPS gastou e 3.994,4% menos tempo e chamadas de
função do que o método de localização de ótimo global e 173,5%
menos tempo do que o GA.
71,35%
71,20%
71,05%
70,90%
70,75%
70,60%
70,45%
ROC
70,30%
Figura 5. Curva ROC de comparação
70,15%
70,00%
A comparação das curvas ROC obtidas pelo GA, e o BPS na rede
MLP e as outras três 69,85%
BPS GA
alternativas são exibidas na Fig. 5. A área sob a curva ROC do GA e o 69,70%
BPS é (71,25%) desejo é significativamente maior do que a da Rede 69,55%

Neural MLP usando os parâmetros padrão (68,09%) e a Regressão 69,40%
Logística (65,92 %). Essa diferença indica que o GA e o BPS na Rede 1 4 7 10 13 16 19 22 25 28
Neural MLP tem maior Iteração
Figura 6. Curva inclinada ROC versus Iteração
729
Adicionalmente, uma terceira comparação foi feita em relação No modelo de cobrança, as economias foram calculadas como a
à evolução da função de otimização (curva ROC) a cada iteração. diferença nas taxas anuais de cobrança. A economia alcançada
As curvas de aprendizado do GA e BPS são mostradas na Fig. 6. pelo poder preditivo adicional dos modelos GA/BPS sobre a
A curva de aprendizado do GA tem inclinação de 0,0006 enquanto Regressão Logística foi de US$ 33.490. Da mesma forma, a
a do BPS tem inclinação de 0,0018 o que se traduz em um aumento economia da rede GA/BPS sobre o modelo de Rede Neural MLP
médio de 208,65% na velocidade de evolução do ROC das redes foi de US$ 12.997.
resultantes em cada iteração do BPS sobre o GA. Por fim, como o modelo de cartão de crédito de aquisição
desenvolvido para o estudo deste trabalho também está sendo
Da mesma forma, é importante observar que, mesmo na
utilizado pelo banco, os cálculos de poupança também foram
primeira iteração, ambos os algoritmos de otimização superam o
medidos pela perda esperada anual. A economia do GA/BPS sobre
poder preditivo da Regressão Logística final e da Rede Neural MLP
padrão. a Regressão Logística e o MLP padrão foi de US$ 225.216 e US$
181.152, respectivamente.
B. Impacto no mundo Por fim, a fim de mostrar que é necessário alterar a arquitetura
real Além dos dados usados para desenvolver os modelos de da rede neural MLP para melhor se adequar a cada modelo e,
originação de cartão de crédito referidos neste caso de estudo, os portanto, é eficiente usar o algoritmo de otimização para isso. A
algoritmos de otimização foram usados para desenvolver dois TABELA IX mostra as diferentes arquiteturas finais das Redes
modelos adicionais com conjuntos de dados completamente Neurais encontradas com os algoritmos GA/BPS para cada modelo.
diferentes que também estão sendo usados atualmente pelo banco:
i ) A modelo de comportamento do cartão de crédito e um ii) modelo
TABELA IX. ARQUITETURA DE REDE NEURAL GA/PSO MLP
de cobrança [4]. Para cada modelo foi calculada uma Regressão
Logística, uma Rede Neural default, um BPS e um AG. Para ambos Escondido Alvo
direto Escondido Alvo
Escondido Escondido
os casos, os resultados dos algoritmos de otimização foram os Modelo
Unidades
íon de Camadas
Camadas
Ativação
Camada
Ativação Camada
Camadas
conexão Viés Viés
mesmos e, portanto, apenas um é exibido. Função Função
Para mensurar o impacto gerado no banco pela aplicação da Aquisição 2 6 0 1 BRONZEADO SOF 0
rede resultante BPS/GA sobre o modelo de Regressão Logística e
Comportamento 3 3 0 1 TANH Logística 0
o modelo de Rede Neural default, foram realizadas duas
comparações. A primeira comparação refere-se à diferença entre o Coleções 1 5 0 1 BRONZEADO
logística 1
poder preditivo medido pela curva ROC. Como mostra a TABELA

VIII, para o modelo de comportamento do cartão de crédito, a rede V. DISCUSSÃO
GA/BPS supera o poder preditivo da regressão logística em 1,83%
e o MLP default em 1,06%. Da mesma forma, no modelo de Nos últimos anos as instituições financeiras passaram a utilizar
coleção, o modelo GA/BPS supera a regressão logística e o poder os escores não só para aquisição de clientes, mas também para
preditivo padrão do MLP em 1,03% e 0,66%, respectivamente. outros processos dentro do banco como cobrança, marketing,
manutenção de crédito entre outros. Isso devido ao sucesso das
pontuações como economia de custos e ferramentas eficientes de
tomada de decisão. Essa tendência cria mais pressão sobre os
TABELA VIII. ROC PARA CADA MODELO analistas para desenvolver algoritmos mais rápidos e com maior
GA/ PSO
poder preditivo, levando-os a técnicas mais complexas e,
Modelo Regressão MLP padrão
Logística SAS MLP consequentemente, a novos problemas.
Comportamento 82,10% 82,72% 83,60% O primeiro problema é que os analistas não têm tempo
Coleções 88,91% 89,24% 89,83% suficiente para deixar de lado a simplicidade da regressão logística
e aprender uma nova técnica para desenvolver modelos mais
avançados.
Para a segunda comparação, o impacto produzido pela
O segundo problema refere-se à forma de explicar os modelos
melhoria do poder preditivo dos modelos é medido em economia à alta administração. Dado que a interpretação da regressão
de dinheiro. Essa comparação é a mais importante para a alta logística é muito direta, a alta administração pode entender
administração, pois o momento da verdade é o impacto econômico facilmente o impacto de cada variável no modelo, bem como a
que gera valor para as empresas. Os cálculos e as premissas lógica do negócio.
aplicadas para medir o impacto econômico de cada um dos Por outro lado, técnicas mais complexas como Redes Neurais são
modelos são apresentados no Apêndice. No caso do modelo de difíceis de explicar e entender porque a interação e o impacto das
comportamento do cartão de crédito, a economia anual na perda variáveis são desconhecidos e o modelo se transforma em uma
esperada obtida usando o modelo final GA/BPS sobre o modelo de caixa preta. Isso gera desconfiança na alta administração.
Regressão Logística foi de US$ 528.890, enquanto a economia na
perda esperada obtida usando a rede GA/BPS no modelo MLP Este artigo se concentra na primeira questão e fornece ao
padrão foi de US$ 336.502. Para agora analista um procedimento padrão para estimar parâmetros de
Redes Neurais de maneira eficiente, mas há outras questões que
730
deve ser abordado como selecionar variáveis antes de usá-las para o (1)
desenvolvimento da Rede Neural e como simplificar a interpretação de
metodologias complexas para apresentar à alta administração. Como não temos o saldo de cada cliente, ele é estimado como o
limite médio de crédito multiplicado pela utilização média.
SERRA. CONCLUSÃO
Este artigo mostrou o uso de GA e BPS na modelagem de risco de (2)

crédito como técnicas para otimizar o processo de escolha da arquitetura
de uma Rede Neural MLP que maximiza a área sob a curva ROC e, Finalmente, usando (2), a perda esperada é calculada para cada
portanto, o poder preditivo do scorecard. Esse poder preditivo adicional modelo.
se reflete em uma economia significativa de dinheiro para o banco em
comparação com os dois algoritmos de referência (regressão logística e TABELA XI. CÁLCULO DA PERDA ESPERADA DO MODELO DE AQUISIÇÃO
MLP padrão). GA/ PSO

Modelo Inadimplência Logística MLP
Além disso, é interessante mostrar que para cada modelo a arquitetura taxa de aprovação MLP 53,1% 53,1% 7,12% 53,1%
final da Rede Neural calculada com o GA/BPS varia, demonstrando que Taxa ruim acima do corte 6,92% 36.156 36.156 6,10%
não é uma boa prática usar uma única arquitetura para desenvolver População acima do corte 2.574 2.502 $ 1.575.288 36.156
diferentes modelos. Clientes ruins esperados $ 1.531.224 $ 1.350.072 2.206
Além disso, os resultados experimentais mostraram que com muito Perda esperada
menos esforço computacional o AG e o BPS usados para otimizar a Rede B. Modelo de comportamento
Neural MLP chegaram a um resultado aproximadamente igual ao ótimo
global. Além disso, como a diferença entre as curvas ROC dos algoritmos O processo de cálculo da economia do modelo de comportamento é
de otimização e o ótimo global é insignificante, ilustramos que isso não semelhante ao modelo de aquisição, no qual a economia é definida como
representa uma melhoria no poder preditivo do scorecard. as diferenças da perda esperada. Dada a diferente utilização do modelo
comportamental versus modelo de aquisição, a perda esperada é
calculada como o saldo dos clientes inadimplentes que estavam acima do
Também é importante dizer que o AG e o BPS superaram os ponto de corte no momento da estratégia de aumento do limite de crédito.
resultados da Regressão Logística e os resultados da Rede Neural MLP
padrão.
TABELA XII. SUPOSIÇÕES DO MODELO DE COMPORTAMENTO
Por fim, embora ambos os algoritmos de otimização tenham
apresentado o mesmo valor ROC final, o BPS superou o GA em tempo de Variável Valor
CPU e chamadas de função. Número de clientes 844.177
Linha de crédito média $ 1.500
APÊNDICE Linha de crédito média
58,0%
% aumentada
Cálculo da poupança para cada modelo usando o banco
Linha de crédito média
informações internas: aumentado
$ 870
Gravidade 85,0%
A. Modelo de aquisição
Utilização média 48,0%
Para o modelo de aquisição a economia é definida como a diferença
de perda esperada entre os modelos. Para calcular a perda esperada, TABELA XIII. CÁLCULO DA PERDA ESPERADA DO MODELO DE COMPORTAMENTO
são necessárias as seguintes informações: número de solicitantes, limite

Padrão GA/ PSO
médio de crédito, severidade da carteira e utilização média do cartão de Modelo MLP MLP
Logística
crédito. taxa de aprovação 80,2% 80,2% 80,2%
Taxa ruim acima do corte 4,39% 4,31% 4,17%
TABELA X. SUPOSIÇÕES DO MODELO DE AQUISIÇÃO
População acima do corte 677030 677030 677030
Variável Valor Clientes ruins esperados 29722 29180 28232
Número de aplicativos 68.123 Perda esperada $ 10.550.121 $ 10.357.733 $ 10.021.231
Linha de crédito média $ 1.500

C. Modelo de coleção
Gravidade 85,0%
Utilização média 48,0% Para o modelo de cobrança, a economia será calculada como a
diferença nas taxas de cobrança. Uma política interna estabelece que
Uma taxa de aprovação fixa de 53,08% foi encontrada após a todo cliente com probabilidade de inadimplência superior a 15% deve ser
determinação do ponto de corte estatístico no modelo de Regressão contatado pela equipe de cobrança.
Logística [8]. Em seguida, para cada modelo, a taxa ruim acima do ponto Portanto, a economia é calculada como a diferença entre o número de
de corte estatístico é calculada. clientes abaixo do ponto de corte multiplicado pelo custo de uma ação de
Conforme mostrado em [8], a perda esperada de um cliente é definida cobrança.
da seguinte forma:
731
TABELA XIV. SUPOSIÇÕES DO MODELO DE COLEÇÃO [7] R. Matignon. Modelagem de redes neurais usando SAS Enterprise Miner.
Casa Aitor. 2005.
Variável Valor
[8] E. Mays. Credit Scoring para Gestores de Risco. O Manual para Credores. Thomson
Número médio de
541.234 Sudoeste. Mason, Ohio. 2004.
clientes por mês
[9] F, Rosenblatt. Princípios de Neurodinâmica. Spartan, Washington,
Custo por cliente por
$ 1,06 DC. 1962.
mês
[10] Ajuda e documentação do SAS Institute Inc. Sas, Proc Neural. Instituto SAS, Cary,
NC. 2010.
TABELA XV. CÁLCULO DE CUSTOS DO MODELO DE COLETA
[11] LC Tomás. Credit Scoring e suas aplicações. Sião, Filadélfia. 2002.
Padrão GA/ PSO
Modelo Logística MLP MLP
[12] LC Tomás. Modelos de crédito ao consumidor: preços, lucro e
População abaixo do ponto de corte 13,0% 12,7% 12,5%
Portfólios. Oxford, Nova York. 2009.
Clientes com ações de
70.415 68.802 67.779 [13] B. Wamer, M. Misra. Compreendendo Redes Neurais como Ferramentas
cobrança por mês Estatísticas. A Associação Americana de Estatísticos. 1996.
Clientes com ações de
844.975 825.620 813.345 [14] R. Eberhart e J. Kennedy, Um novo otimizador usando a teoria do enxame de
cobrança por ano
partículas, Proc. Sixth International Symposium on Micro Machine and Human
Custo por ano $ 894.679 $ 874.186 $ 861.189
Science (Nagoya, Japão), IEEE Service Center, Piscataway, NJ, pp. 39-43, 1995.
REFERÊNCIAS
[15] J. Kennedy e R. Eberhart, "Particle Swarm Optimization", IEEE International
[1] C. Abranhams, M. Zhang, Fair Lending Compliance. John Wiley & Conference on Neural Networks (Perth, Austrália), IEEE Service Center,
Filhos, Inc. 2009. Piscataway, NJ, IV, pp. 1942-1948, 1995.
[2] PD Allison. Regressão Logística utilizando o sistema SAS: Teoria e [16] J. Kennedy e R. Eberhart, Uma versão binária discreta do algoritmo de enxame de
Aplicativo. Instituto Sas e Wiley. partículas, IEEE International Conference on Systems, Man, and Cybernetics,
1997.
[3] Paasch, Carsten AW Detecção de fraude de cartão de crédito usando redes neurais
artificiais ajustadas por algoritmos genéticos. Universidade de Ciência e [17] MA Khanesar, M. Teshnehlab, MA Shoorehdeli, Uma nova otimização de enxame
Tecnologia de Hong Kong. 2008. de partículas binárias, IEEE 15ª Conferência do Mediterrâneo sobre Controle e
Automação, 2009.
[4] R. Anderson. O kit de ferramentas de pontuação de crédito: teoria e prática para
gerenciamento de risco de crédito de varejo e automação de decisões. Oxofrd [18] Frank HF Leung, membro, IEEE, HK Lam, SH Ling e Peter KS Tam, ajuste da
University Press Inc, Nova York. 2007. estrutura e parâmetros de uma rede neural usando um algoritmo genético
aprimorado, transações IEEE em redes neurais, VOL. 14, Nº. 1 de janeiro de
[5] R. Haupt, S. Haupt. Algoritmos Genéticos Práticos, segunda edição.
2003.
John Wiley & Filhos. Nova Iorque. 2004.
[6] D. Lawrence, A. Solomon. Gestão de um negócio de crédito ao consumidor.
Salomão, Nova York. 2002.
732

Evolutionary Algorithms For Selecting The Architecture of A MLP Neural Network A Credit Scoring Case

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Evolutionary Algorithms For Selecting The Architecture of A MLP Neural Network A Credit Scoring Case

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

2011 11ª Conferência Internacional IEEE sobre Oficinas de Mineração de Dados

Algoritmos evolutivos para selecionar a arquitetura de um

Alejandro Correa B., Andrés González M.

Este artigo está dividido em seis seções. Primeiramente, é feita

978-0-7695-4409-0/11 $ 26,00 © 2011 IEEE 725

x2 0,001 1 -0,002 0,014 -0,003 0,000 0,000

X3 -0,005 -0,002 1 0,011 -0,005 -0,001 -0,009

X4 0,004 0,014 0,011 1 -0,002 0,001 -0,009

x5 0,017 -0,003 -0,005 -0,002 1 -0,002 -0,001

X6 0,003 0,000 -0,001 0,001 -0,002 1 0,001

X7 0,000 0,000 -0,009 -0,009 -0,001 0,001 1

TABELA III. CONJUNTOS DE DADOS DE DESENVOLVIMENTO E VALIDAÇÃO

Dados N Porcentagem da Taxa Ruim

usado na próxima iteração do algoritmo descrito. O algoritmo itera até

C. Otimização de Swam de Partículas Binárias

Para o caso específico deste trabalho, uma implementação binária

fórmulas usadas no BPS, consulte Khanesar, Teshnehlab e Alvo

Figura 4. Estrutura do cromossomo/partícula.

Além disso, para ambos os procedimentos de otimização, a

Combinação Oculta Ativação Oculta Ativação Oculta 01 = 2 001 = 2 1 = Sim 1 = Sim

00 = Logística 00 = Logística 0 = Não

Ideal Global 71,26% 8.356 4.096

BPS é (71,25%) desejo é significativamente maior do que a da Rede 69,55%

Figura 6. Curva inclinada ROC versus Iteração

poder preditivo medido pela curva ROC. Como mostra a TABELA

Este artigo mostrou o uso de GA e BPS na modelagem de risco de (2)

MLP padrão). GA/ PSO

são necessárias as seguintes informações: número de solicitantes, limite

Variável Valor Clientes ruins esperados 29722 29180 28232

Número de aplicativos 68.123 Perda esperada $ 10.550.121 $ 10.357.733 $ 10.021.231

Linha de crédito média $ 1.500

Você também pode gostar