Análise de Risco de Crédito Aplicando Regressão Logística, Neural Modelos de Redes e Algoritmos Genéticos

Machine Translated by Google
Jornal Internacional de Pesquisa em Engenharia Avançada e

Ciência (IJAERS)
Journal revisado por pares
ISSN: 2349-6495(P) | 2456-1908(O)

Vol-8, Edição-9; Setembro de
2021 Página inicial do jornal disponível: https://
ijaers.com/ Artigo DOI: https:// dx.doi.org/ 10.22161/ ijaers.89.20
Análise de Risco de Crédito Aplicando Regressão Logística, Neural

Modelos de Redes e Algoritmos Genéticos
Eric Bacconi Gonçalves1 , Maria Aparecida Gouvêa2
1Departamento de Marketing, Universidade Estadual Paulista (USP), Brasil

2Departamento de Administração de Empresas, Universidade Estadual Paulista (USP), Brasil
Recebido: 14 de agosto de 2021, Resumo—A maioria das grandes instituições brasileiras que trabalham com concessão
de crédito utiliza modelos de crédito para avaliar o risco de empréstimos ao consumidor.
Recebido em forma revisada: 15 de setembro de 2021,
Qualquer aprimoramento nas técnicas que venha a trazer maior precisão de um modelo
Aceito: 22 de setembro de 2021,
de previsão proporcionará retorno financeiro à instituição. A primeira fase deste estudo
Disponível online: 30 de setembro de 2021 introduz os conceitos de crédito e risco. Posteriormente, com uma amostra de candidatos
©2021 O(s) autor(es). Publicado por AI de uma grande instituição financeira brasileira, três modelos de pontuação de crédito são
Publicação. Este é um artigo de acesso aberto sob construídos aplicando essas técnicas distintas: Regressão Logística, Redes Neurais e
a licença CC BY (https:// Algoritmos Genéticos. Por fim, a qualidade e o desempenho desses modelos são
creativecommons.org/licenses/by/4.0/). avaliados e comparados para identificar o melhor. Os resultados obtidos pelos modelos
de regressão logística e rede neural são bons e muito semelhantes, embora o primeiro
Palavras-chave—risco de crédito , modelos de credit
seja um pouco melhor. Os resultados obtidos com o modelo de algoritmo genético também
scoring, algoritmos genéticos, regressão logística,
são bons, mas um pouco inferiores. Este estudo mostra os procedimentos a serem
redes neurais.
adotados por uma instituição financeira para identificar o melhor modelo de crédito para
avaliar o risco de empréstimos ao consumidor. A utilização do modelo mais adequado
favorecerá a definição de uma estratégia empresarial adequada, aumentando assim os
lucros.
I. INTRODUÇÃO em instituições financeiras visando agilizar a avaliação das propostas.
Com a estabilidade cambial alcançada pelo Plano Econômico Real

em 1994, os empréstimos financeiros tornaram-se um bom negócio Modelos de análise para concessão de crédito, conhecidos como
para os bancos que não mais lucravam tanto com a desvalorização modelos de credit scoring, são baseados em informações históricas do
cambial (Bresser-Pereira & Nakano, 2002). Para substituir esta banco de dados dos clientes existentes, a fim de avaliar se o cliente
rentabilidade, sentiu-se no final do em potencial terá maior chance de ser um bom ou mau pagador. Os
modelos de credit scoring são agregados aos sistemas da instituição
período de inflação. A partir daí, as instituições têm se esforçado para permitindo avaliação de crédito on-line.
expandir suas carteiras de crédito. No entanto, os empréstimos não
podiam ser oferecidos aleatoriamente a todos os clientes solicitantes,
1.1 Objetivos do Estudo
portanto, eram necessárias formas de avaliar os candidatos.
Com base nos dados de uma amostra, pretende-se:
Há alguns anos, ao solicitar um empréstimo, o cliente preenchia •
Desenvolva três modelos de pontuação de crédito usando
uma proposta para avaliação de um ou mais analistas (Abdou &
três técnicas estatísticas/computacionais: Logística
Pointon, 2011). Eles então emitiram um parecer sobre o pedido.
Regressão, Redes Neurais, Algoritmos Genéticos
Embora eficaz, o processo era lento porque não acomodava a análise
de muitos pedidos. Assim, o modelo de análise da concessão de • Comparar os modelos desenvolvidos em termos de qualidade
crédito foi inicialmente introduzido dos indicadores de aptidão e predição;
• Proponha um modelo para a classificação de clientes
www.ijaers.com Página | 198

Eric Bacconi Gonçalves et al. Jornal Internacional de Pesquisa e Ciência de Engenharia Avançada, 8(9)-2021
II. BASE TEÓRICA No universo do crédito ao consumo, a penhora de pagamento futuro

envolve a ideia de risco. Como o futuro não pode ser totalmente previsto,
Nesta seção, os conceitos teóricos que
todo crédito ao consumidor envolve risco, pois não existe garantia de
apoiar o tema deste trabalho será apresentado.
pagamento (Lewis, 1992).
2.1 Crédito ao Consumidor
A análise de crédito tem a função de estimar o risco envolvido na
A expressão crédito ao consumo pode ser entendida como uma concessão ou não do crédito.
forma de comércio em que uma pessoa obtém dinheiro, bens ou serviços
O risco máximo que a instituição pode assumir depende da política
e se compromete a pagar por isso no futuro, adicionando um prêmio
adotada pela empresa. O risco apresentado pelo solicitante é de grande
(juros) ao valor original (Crook et al., 2007).
relevância para o processo de concessão de crédito, devendo ser
considerados diversos quesitos em sua avaliação.
Atualmente, o crédito ao consumidor é uma grande indústria que
opera em todo o mundo. Grandes varejistas estimulam suas vendas 2.3 Avaliação do Risco de Crédito
fornecendo crédito. Automobilísticas, bancos e outros segmentos utilizam
Avaliação de risco é a principal questão para concessão de
as linhas de crédito ao consumidor como alternativa adicional para
crédito. Se o risco for mal avaliado a empresa certamente perderá
obter lucro. Por outro lado, o crédito ao consumo injeta recursos na
dinheiro, seja pela aceitação de clientes que trarão prejuízos ao negócio
economia, permitindo a produção e a expansão econômica de um país,
ou pela recusa de bons clientes que gerariam lucros para o negócio. As
trazendo assim o desenvolvimento da nação (Lewis, 1992).
empresas que têm uma avaliação melhor que seus concorrentes na
concessão de crédito levam vantagem sobre as demais por serem
Mas tornar o crédito amplamente disponível não significa distribuí-lo
menos vulneráveis às consequências de decisões erradas na concessão
aleatoriamente a todos os que o solicitam; existe um fator associado ao
de crédito.
crédito ao consumo que é determinante na decisão de disponibilizar ou
não crédito: o risco.
A avaliação de risco de um potencial cliente pode ser realizada de

2.2 Risco de Crédito
duas formas:
No mercado financeiro, o risco de crédito é a forma mais antiga de
1. Por julgamento, uma forma mais subjetiva envolvendo uma
risco (Caouette et al., 2008). É o resultado de uma transação financeira,
análise mais qualitativa;
contratada entre o fornecedor de recursos (doador de crédito) e o usuário
2. Classificando o tomador por meio de avaliação
(tomador de crédito). Antes de qualquer sofisticação decorrente da
modelos, envolvendo uma análise mais quantitativa.
engenharia financeira, o mero ato de emprestar uma quantia a alguém
acarreta a probabilidade de não ser reembolsado, a incerteza quanto ao Atualmente, quase todas as empresas de grande porte que trabalham
retorno. Este é, no fundo, o risco de crédito que pode ser definido como com concessão de crédito usam uma combinação de ambos.
o risco de uma contraparte, num contrato de concessão de crédito, não

Os modelos denominados de credit scoring são utilizados para a
cumprir a sua obrigação.
avaliação do risco de crédito por classificação do solicitante. Permitem
a mensuração do risco do solicitante de crédito, para subsidiar a tomada
Segundo Caouette et al. (2008 p.1), “se o crédito pode ser definido de decisão (concessão ou não de crédito).
como a expectativa de recebimento de uma quantia em dinheiro em um
determinado período, o risco de crédito é uma chance de que essa
2.4 Modelos de pontuação de crédito
expectativa não seja atendida”.
O pioneiro dos modelos de crédito foi Henry Wells, executivo da
A atividade de concessão de crédito é função básica dos bancos,
Spiegel Inc. que desenvolveu um modelo de pontuação de crédito
portanto o risco de crédito assume papel relevante na composição dos
durante a Segunda Guerra Mundial (Lewis, 1992).
riscos de uma instituição e pode ser encontrado tanto nas operações em
que há transferência de dinheiro para os clientes quanto naquelas em
A Wells precisava de ferramentas que permitissem a analistas
que há apenas a possibilidade de utilização, os limites pré-concebidos.
inexperientes realizar avaliações de crédito, porque muitos de seus
Os principais tipos de operação de crédito bancário são: empréstimos,
funcionários qualificados haviam sido recrutados para a guerra.
financiamentos, desconto de contas a pagar, adiantamento a
depositantes, adiantamento de câmbio, operações de arrendamento Durante a década de 50 os modelos de scoring foram difundidos no
mercantil, fianças e fianças etc. setor bancário americano. Os primeiros modelos baseavam-se em pesos
pré-estabelecidos para determinadas características dadas, somando os
Nestas operações o risco pode assumir diversas formas; conhecê-
pontos para chegar a um escore de classificação.
los conceitualmente ajuda a orientar a gestão e a mitigação.

Uso mais extensivo dos modelos nos anos sessenta (1997) destacam ainda a Análise Discriminante, Regressão Linear e
negócios transformados no mercado americano (Thomas, 2000). Não Árvores de Decisão como métodos que podem ser usados na prática.
só as empresas da área financeira, mas também os grandes varejistas Não existe um método claramente melhor que os outros, tudo depende
passaram a utilizar modelos de credit scoring para realizar vendas a de como a técnica eleita se ajusta aos dados.
prazo para seus consumidores. Varejistas como Wards, Bloomingdale's
e JC Penney foram alguns dos pioneiros nesse segmento.
6. Definição dos critérios de comparação dos modelos
No Brasil o fundo é mais curto. As instituições financeiras passaram

A medição para a comparação dos modelos será definida aqui,
a fazer uso intensivo de crédito
normalmente pela taxa de acertos e pelas estatísticas de Kolmogorov-
modelos de pontuação apenas em meados dos anos noventa.
Smirnov (KS).
Existem algumas etapas a serem seguidas para a construção de um
7. Seleção e implementação do melhor modelo
modelo de pontuação de crédito; como:
O melhor modelo é escolhido usando os critérios previamente
1. Levantamento do histórico dos clientes
definidos. Como tal, a implementação do modelo deve ser programada.
A suposição básica para construir um modelo de avaliação de A instituição deve adequar seus sistemas para receber o algoritmo final
crédito é que os clientes tenham o mesmo comportamento e programar sua utilização em coordenação com as demais áreas
padrão ao longo do tempo; portanto, os modelos são construídos com envolvidas.
base em informações passadas. A disponibilidade e qualidade do banco

de dados são fundamentais para o sucesso do modelo
III. PROCEDIMENTOS METODOLÓGICOS
(Jain e outros, 2020)
3.1 Descrição do Estudo
2. Classificação dos clientes de acordo com sua
padrão de comportamento e definição da variável dependente Uma instituição financeira pretende conceder crédito aos seus
clientes e por isso necessita de uma ferramenta de avaliação do nível
Além dos clientes bons e ruins, existem também os clientes
de risco associado a cada crédito para apoio à tomada de decisão. Para
excluídos, aqueles que possuem características peculiares e não devem
a concretização deste projeto, foram disponibilizadas informações sobre
ser considerados (por exemplo, trabalhadores da instituição) e os
o histórico dos clientes que contrataram crédito pessoal.
clientes indeterminados, aqueles no limiar de serem bons ou ruins, ainda
sem uma posição clara sobre eles. Na prática, as instituições consideram
apenas os clientes bons e ruins para construir o modelo, pois é muito O produto em estudo é o crédito pessoal. O crédito pessoa física é
mais fácil trabalhar com modelos de resposta binária. Essa tendência de uma operação de crédito ao consumidor rápida e prática.
trabalhar apenas com clientes bons e ruins também é percebida em A finalidade do empréstimo não precisa ser declarada, e o empréstimo
trabalhos acadêmicos (Amaral & Iquiapaza, 2020; Gonçalves et al., será concedido de acordo com a pontuação de crédito do solicitante.
2013; Locatelli et al., 2015; Ríha, 2016).
Outra característica do produto em questão é a não exigência de

3. Seleção de uma amostra aleatória representativa do contexto bens como garantia de pagamento. A modalidade com taxas de juros
histórico pré-fixadas com prazos de empréstimo variando de 1 a 12 meses foi o
foco deste estudo.
É importante que as amostras de bons e maus clientes tenham o
mesmo tamanho para evitar qualquer possível viés devido à diferença
de tamanho. Não há um número fixo para a amostra; porém Lewis 3.2 Os Dados
(1992) sugere uma amostra de 1.500 clientes bons e 1.500 clientes ruins Para a realização deste estudo foi feito um sorteio aleatório num
para alcançar resultados robustos. universo de clientes do banco, 10.000 contratos de crédito, considerados
Habitualmente são utilizadas três amostras, uma para construção do como bons e 10.000 considerados como maus. Todos esses contratos
modelo, outra para a validação do modelo e uma terceira para testar o já haviam vencido, ou seja, a amostra foi coletada após o vencimento
modelo.
da última parcela de todos os contratos. Este é um banco de dados
4. Análise descritiva e preparação dos dados histórico
com informações mensais sobre a utilização do produto.

Isso consiste em analisar, segundo estatísticas
Com base nessa estrutura, o andamento do contrato poderia ser
critérios, cada variável que será utilizada no modelo.
acompanhado e particularizado quando o cliente não pagasse uma ou
5. Escolha e aplicação das técnicas a serem utilizadas na construção
mais parcelas.
do modelo
No trabalho, a amostra é dividida em três subamostras oriundas
Regressão Logística, Redes Neurais e Algoritmos Genéticos serão
do mesmo universo de interesse: uma
utilizados neste trabalho. mão e henley

para construção do modelo, 8.000 dados (4.000 bons e 4.000 ruins), o ÿ 'X Z
e e
segundo para validação do modelo construído, 6.000 dados (3.000 =
p(X) E(Y) = =
'X Z
bons e 3.000 ruins) e o terceiro também com 6.000 (com a mesma ÿ1e+ 1e+
divisão igualitária) para testar a modelo obtido. Inicialmente, neste trabalho serão incluídas todas as variáveis para
a construção do modelo; porém no modelo logístico final, apenas
3.3 As Variáveis algumas das variáveis serão selecionadas. A escolha das variáveis
será feita por meio do método forward stepwise, que é o mais utilizado
o disponível explicativo variáveis têm
em modelos de regressão logística.
características que podem ser divididas em dois grupos: Variáveis do
Arquivo de Referência e Variáveis de Utilização e Restrição. As
variáveis do arquivo de referência estão relacionadas ao Fensterstock (2005) aponta as seguintes vantagens no uso da
cliente e as Variáveis de Utilização e Restrição referem-se à restrição regressão logística para a construção de modelos:
de crédito e aponta sobre os demais
• O modelo gerado leva em consideração a correlação entre
operações de crédito existentes no mercado. variáveis, identificando relações que não seriam visíveis e eliminando
As variáveis do arquivo de referência, bem como as de variáveis redundantes;
Utilização e Restrição são coletadas quando o cliente
contrata o produto. •
Leva em consideração as variáveis individualmente e
3.4 Definição da Variável Dependente simultaneamente;
Essa definição da Variável Dependente, também chamada de • O usuário pode verificar as fontes de erro e otimizar o modelo.
Definição de Desempenho, está diretamente relacionada à política de

crédito da instituição. Para o produto em estudo, foram considerados No mesmo texto, o autor ainda identifica algumas desvantagens
Maus (inadimplentes) os clientes com atraso igual ou superior a 60 dias dessa técnica:
e Bons os clientes com atraso máximo de 20 dias. •
Em muitos casos, a preparação das variáveis leva muito
tempo;
Os clientes designados como indeterminados representam um •
No caso de muitas variáveis, o analista deve fazer uma pré-
grupo cujo comportamento creditício não é suficientemente claro para
seleção das mais importantes, com base em análises separadas:
os classificar como bons ou maus clientes. Na prática, os clientes que
não são claramente definidos como bons ou ruins são analisados
separadamente pelo analista de crédito, com base em análises qualitativas. • Alguns dos modelos resultantes são difíceis de implementar.
3.5 Regressão Logística

3.6 Redes Neurais Artificiais
Nos modelos de regressão logística, a variável dependente é, em
geral, uma variável binária (nominal ou ordinal) e as variáveis Redes Neurais Artificiais são técnicas computacionais que
independentes podem ser categóricas (desde que dicotomizadas após apresentam um modelo matemático baseado na estrutura neural de
a transformação) ou contínuas (Almeida et al., 2020). organismos inteligentes e que adquirem conhecimento através da
experiência.
O modelo de Regressão Logística é um caso particular dos Modelos Foi somente na década de oitenta que, devido ao maior poder
Lineares Generalizados (Lopes et al., 2017). A função que caracteriza computacional, as redes neurais foram amplamente estudadas e
o modelo é dada por (Ye & Bellotti, 2019): aplicadas. Rojas (1996) destaca o desenvolvimento do algoritmo de
retropropagação como o ponto de virada para a popularidade das redes
neurais.
ln ÿ p(X)
ÿ
ÿÿ ÿ ÿ ÿ 1 p(X) = ÿ COM
= 'X Um modelo de rede neural artificial processa certas características
e produz respostas como as do cérebro humano. As redes neurais
ÿ
ÿ
artificiais são desenvolvidas usando modelos matemáticos nos quais
' (ÿn
ÿ= , ÿ1
) ÿ0 , ÿ2
,..., : vetor dos parâmetros as seguintes suposições são feitas (Rojas, 1996):
associado às variáveis
p(X)=E(Y=1|X): probabilidade do indivíduo ter sido 1. O processamento da informação ocorre dentro dos chamados
classificado como bom, dado o vetor X. neurônios;
Essa probabilidade é expressa por (Gonçalves et al., 2013): 2. Os estímulos são transmitidos pelos neurônios através de
conexões;

3. Cada conexão é associada a um peso que, em uma rede 1. As redes feedforward com uma única camada são as redes
neural padrão, se multiplica ao receber um estímulo; mais simples, nas quais há apenas uma camada de entrada e uma
camada de saída. Algumas redes que utilizam esta arquitetura são:
4. Cada neurônio contribui para a ativação Hebb Network, perceptron, ADALINE, entre outras.
função (em geral não linear) para determinar o estímulo de saída

(resposta da rede). 2. Redes feedforward multicamadas são aquelas que possuem
uma ou mais camadas intermediárias. As redes perceptron
O modelo pioneiro de McCulloch e Pitts
multicamadas (MLP), MADALINE e de função de base radial são
(McCulloch & Pitts, 1943) para uma unidade de processamento
(neurônio) pode ser resumido em: algumas das redes que utilizam esta arquitetura.
•
Os sinais são apresentados na entrada;
3. Redes recorrentes: neste tipo de rede, a camada de saída
• Cada sinal é multiplicado por um peso que
possui pelo menos uma conexão que realimenta a rede. As redes
indica sua influência na saída da unidade;
denominadas BAM (Biderectal Associative Memory) e ART1 e
• A soma ponderada dos sinais que produz ART2 (Adaptative Resonance Theory) são redes recorrentes.
um nível de atividade é feito;
• Se este nível exceder um limite, a unidade produz um A qualidade mais importante das redes neurais é a capacidade
saída. de “aprender” de acordo com o ambiente e, assim, melhorar seu
desempenho (Deiu-merci & Mayou, 2018).
Existem sinais de entrada X 1 ,x 2 ,...,
Xp 1 e
pesos correspondentes 2 Rp W ,W ,..., e o limite

Existem essencialmente três tipos de aprendizagem:
sendo k.
1. Aprendizado Supervisionado: neste tipo de aprendizado é
Neste modelo o nível de atividade é dado por: indicada à rede a resposta esperada. É o caso deste trabalho, onde
a priori já se sabe se o cliente é bom ou ruim.
p
a = ÿ WiXi
=1
eu 2. Aprendizado não supervisionado: neste tipo de aprendizado
a rede deve contar apenas com os estímulos recebidos; a rede
E a saída é dada por:
deve aprender a agrupar os estímulos;
y = 1, se um ÿ k
3. Aprendizagem por Reforço: neste tipo de aprendizagem, o
y = 0, se a < k comportamento da rede é avaliado por um revisor externo.
Três características devem ser levadas em conta na
definição de um modelo de redes neurais: a forma do
Berry & Linoff (2004) apontam os seguintes pontos positivos na
rede denominada arquitetura; o método para determinação dos
utilização de redes neurais:
pesos, denominado algoritmo de aprendizado; e a função de
ativação. • São versáteis: as redes neurais podem ser utilizadas para a
solução de diversos tipos de problemas como: predição,
A arquitetura está relacionada ao formato da rede. Toda rede é agrupamento ou identificação de padrões;
dividida em camadas, geralmente classificadas em três grupos
• São capazes de identificar relações não lineares entre
(Akkoç, 2012):
variáveis;
•
Camada de entrada onde os padrões são apresentados
• São amplamente utilizados, podem ser encontrados em diversos
à rede;
Programas.
•
As camadas intermediárias ou ocultas nas quais ocorre
Quanto às desvantagens, os autores afirmam:
a maior parte do processamento, por meio das conexões
•
ponderadas, podem ser vistas como extratores de características; Os resultados não podem ser explicados: nenhuma regra
explícita é produzida, a análise é realizada dentro da rede e apenas
• o resultado é fornecido pela “caixa preta”;
Camada de Saída, na qual o resultado final é
concluído e apresentado. • A rede pode convergir para uma solução menor: não há
garantias de que a rede encontrará
Existem basicamente três tipos principais de arquitetura: redes
a melhor solução possível; pode convergir para um máximo local.
feedforward com uma única camada; redes feedforward com
múltiplas camadas e redes recorrentes.

3.7 Algoritmos Genéticos Algumas das desvantagens apontadas na literatura são:
A ideia dos algoritmos genéticos se assemelha à evolução das • Continuam a ser pouco utilizados para problemas de avaliação de
espécies proposta por Darwin: os algoritmos vão evoluir com o passar risco de crédito (Fensterstock, 2005)
das gerações e os candidatos à solução do problema que se quer •
Exigem um grande esforço computacional (Berry &
resolver “mantêm-se vivos” e reproduzem-se (Silva et al., 2019 ).
Linoff, 2004)
•
Estão disponíveis em apenas alguns softwares (Berry &
O algoritmo é composto por uma população que é representada por
Linoff, 2004)
cromossomos que são apenas as várias soluções possíveis para o
Critérios de Avaliação de Desempenho
problema proposto. As soluções que são selecionadas para formar novas
soluções (a partir de um cruzamento) são selecionadas de acordo com Para avaliar o desempenho do modelo foram selecionadas duas
a aptidão dos cromossomos pais. Assim, quanto mais apto for o amostras, uma para validação e outra para teste.
cromossomo, maior a possibilidade de se reproduzir. Este processo é Ambos eram do mesmo porte (3.000 clientes considerados bons e 3.000
repetido até que a regra de parada seja satisfeita, ou seja, para encontrar considerados ruins, para cada um). Além das amostras, são utilizados
uma solução muito próxima da esperada. outros critérios, que são apresentados nesta seção.
3.8 Pontuação de acertos

Todo algoritmo genético passa pelas seguintes etapas:
A pontuação de acertos é medida dividindo-se o total de clientes

Início: inicialmente é gerada uma população formada por um corretamente classificados, pelo número de clientes incluídos no modelo.
conjunto aleatório de indivíduos (cromossomos) que podem ser vistos
como possíveis soluções para o problema. Da mesma forma, a pontuação de acertos dos clientes bons e ruins
Fitness: define-se uma função de fitness para avaliar a “qualidade” pode ser quantificada.
de cada um dos cromossomos. Em algumas situações é muito mais importante identificar um bom
Seleção: de acordo com os resultados da função de aptidão, uma cliente do que um mau cliente (ou vice-versa); em tais casos, geralmente
porcentagem do melhor ajuste é mantida enquanto as outras são um peso mais adequado é dado à pontuação de acertos e uma média
rejeitadas (Darwinismo). ponderada da pontuação de acertos é calculada.
Cross-over: dois pais são escolhidos e a partir deles é gerada uma Neste trabalho, como não há informações a priori sobre o que seria
descendência, com base em um critério de cruzamento específico. O mais atrativo para a instituição financeira
mesmo critério é usado com outro (identificação dos clientes bons ou ruins), o produto entre a pontuação
cromossomo e o material de ambos os cromossomos é de acertos dos clientes bons e ruins (Ih) será utilizado como indicador de
trocado. Se não houver cruzamento, a prole é uma cópia exata dos pais. acertos para avaliar a qualidade do modelo. Este indicador privilegiará
os modelos com maiores pontuações de acertos para ambos os tipos de
clientes. Quanto maior for o indicador, melhor será o modelo.
Mutação é uma alteração em um dos genes do cromossomo. O
objetivo da mutação é evitar que a população convirja para um máximo
local. Assim, caso ocorra essa convergência, a mutação garante que a 3.9 O teste de Kolmogorov-Smirnov
população salte sobre o ponto mínimo local, buscando atingir outros O Kolmogorov-Smirnov (KS) é o outro critério frequentemente
pontos máximos. utilizado na prática e utilizado neste trabalho (Fonseca et al., 2019; Lin,
2013; Machado, 2015).
Verificação do critério de parada: criada uma nova geração, verifica- O teste KS é uma técnica não paramétrica para determinar se duas
se o critério de parada e caso este critério não tenha sido atendido, volta- amostras foram coletadas da mesma população (ou de populações com
se para a etapa da função de aptidão. distribuições semelhantes)(Jakliÿ et al., 2018). Este teste é baseado na
distribuição acumulada das pontuações dos clientes
Os seguintes pontos positivos na utilização de
algoritmos genéticos devem ser destacados: considerados bons e ruins.
• Para verificar se as amostras têm a mesma distribuição, existem
Ao contrário das redes neurais, elas produzem resultados
explicáveis (Berry & Linoff, 2004) tabelas a serem consultadas de acordo com o nível de significância e
• tamanho da amostra (Siegel & Castellan Jr, 2006). Neste trabalho, como
Seu uso é fácil (Berry & Linoff, 2004)
as amostras são grandes, a tendência é que todos os modelos rejeitem
• Eles podem trabalhar com um grande conjunto de dados e
a hipótese de distribuições iguais. O melhor modelo será aquele com
variáveis (Fensterstock, 2005)
maior

valor no teste, pois esse resultado indica um spread maior entre o bom • As variáveis telefone comercial e telefone residencial foram
e o ruim. recodificadas na forma binária como titularidade ou não;
• As variáveis CEP comercial e residencial

4. RESULTADOS
Os CEPs foram inicialmente agrupados de acordo com os três primeiros
Esta seção abordará os métodos de tratamento de variáveis, a
dígitos, em seguida foi calculado o risco relativo de cada camada e
aplicação das três técnicas em estudo e os resultados obtidos por cada
posteriormente foi feito um reagrupamento de acordo com o risco
uma delas, comparando seu desempenho. Para análise descritiva,
relativo semelhante, mesmo procedimento adotado por Hand & Henley
categorização dos dados e aplicação da regressão logística foi utilizado
(1997);
o software SPSS for Windows v.21.0, o software SAS Enterprise Miner.
14.1 foi utilizado para a seleção das amostras e aplicação na rede • O salário variável do cônjuge foi descartado
da análise porque faltavam muitos dados;
neural; para o algoritmo genético foi utilizado um programa desenvolvido
em Visual Basic pelos autores. • Foram criadas duas novas variáveis, percentual do valor
emprestado sobre o salário e percentual do valor da prestação sobre o
salário. Ambas são variáveis quantitativas, que foram categorizadas da
4.1 Tratamento das Variáveis mesma forma que as demais.
Inicialmente, as variáveis quantitativas foram categorizadas.

4.2 Regressão Logística
Os decis (valores abaixo dos quais caem 10%, 20% etc. dos casos)
Para a estimação do modelo de regressão logística, foi utilizada
dessas variáveis foram inicialmente identificados para categorização
uma amostra de 8.000 casos igualmente divididos nas categorias bom
das variáveis contínuas. Partindo dos decis, o próximo passo foi analisá-
ou ruim.
los de acordo com a variável dependente. A distribuição de clientes
bons e ruins foi calculada por decis e então foi calculada a razão entre Inicialmente, é interessante avaliar a relação logística entre cada
bons e ruins, o chamado risco relativo (RR). variável independente e a variável dependente TIPO.
Como um dos objetivos dessa análise era identificar quais variáveis

Os grupos que apresentavam risco relativo (RR) semelhante foram são mais eficientes para a caracterização dos dois tipos de clientes
agrupados para reduzir o número de categorias por variável. bancários, foi utilizado um procedimento stepwise. O método de seleção
Os riscos relativos também foram calculados para o eleito foi forward stepwise.
variáveis qualitativas para reduzir o número de categorias, sempre que

possível. Segundo (Gouvêa et al., 2012) existem duas razões para Com variáveis categóricas, a avaliação do efeito de uma categoria
fazer uma nova categorização das variáveis qualitativas. A primeira é particular deve ser feita em comparação com uma categoria de
evitar categorias com um número muito pequeno de observações, o referência. O coeficiente para a categoria de referência é 0.
que pode levar a estimativas menos robustas dos parâmetros a elas
associados. A segunda é a eliminação do modelo
Variáveis com coeficiente logístico estimado negativo indicam que
a categoria focalizada, em relação à referência, está associada a uma
parâmetros, se duas categorias apresentam risco próximo, é razoável diminuição das chances e, portanto, uma diminuição da probabilidade
agrupá-las em uma única classe.
de ter um bom cliente.
Além do agrupamento de categorias, o RR ajuda a entender se
essa categoria está mais ligada a bons ou maus clientes. Este método Existem dois testes estatísticos para avaliar a
de agrupamento de categorias é explicado por Hand & Henley (1997)
significância do modelo final: o teste qui-quadrado da mudança no valor
de – 2LL (-2 vezes o log da verossimilhança) e o teste de Hosmer e
Ao trabalhar com as variáveis disponibilizadas, preste atenção Lemeshow.
foi dado o seguinte:
A Tabela 1 apresenta o valor inicial de – 2LL, considerando apenas
• As variáveis sexo, primeira aquisição e tipo de crédito não foram a constante do modelo, seu valor final, a melhoria e o nível descritivo
recodificadas por já serem variáveis binárias; para medir sua significância.
• A variável profissão foi agrupada de acordo com a similaridade

da natureza dos empregos;

Tabela 1: Teste qui-quadrado p

-2LL g= ÿ WiXi
Qui-quadrado Graus de Significado
=1
eu
(melhoria) liberdade
11090.355 é a soma ponderada das entradas do neurônio.
9264.686 1825.669 28 0,000 O treinamento das redes consiste em encontrar o conjunto de

pesos Wi que minimiza uma função de erro. Neste trabalho para o
treinamento será utilizado o algoritmo Backpropagation. Neste
O modelo de 28 variáveis revelou que a redução algoritmo, a rede opera em uma sequência de duas etapas. Primeiro,
da medida -2LL foi estatisticamente significativa. um padrão é apresentado à camada de entrada da rede. A atividade
O teste de Hosmer e Lemeshow considera a resultante flui pela rede, camada por camada, até que a resposta seja
hipótese estatística de que as classificações previstas nos grupos são produzida pela camada de saída. Na segunda etapa, a saída obtida é
iguais às observadas. Portanto, este é um teste de adequação do comparada à saída desejada para esse padrão específico.
modelo aos dados.
Se não estiver correto, o erro é estimado. O erro é propagado a partir
A estatística qui-quadrado apresentou o resultado 3,4307, com
da camada de saída para a camada de entrada, e os pesos das
oito graus de liberdade e nível descritivo igual a 0,9045. Este resultado
conexões das unidades das camadas internas vão sendo modificados,
leva à não rejeição da hipótese nula do teste, endossando a aderência
enquanto o erro é retropropagado. Este procedimento é repetido nas
do modelo aos dados.
iterações sucessivas até que o critério de parada seja atingido.
4.3 Rede Neural

Neste modelo o critério de parada adotado foi o erro médio do
Neste trabalho será utilizada uma rede de aprendizado conjunto de dados de validação. Este erro é calculado
supervisionado, pois se sabe a priori se os clientes em questão são mediante o módulo da diferença entre o valor que a rede localizou e o
bons ou ruins. Segundo Potts (1998: 44), a estrutura de rede neural esperado. Sua média para os 8.000 casos (amostra de treinamento)
mais utilizada para este tipo de problema é o multilayer perceptron ou para os 6.000 casos (amostra de validação) é estimada. O
(MLP) que é uma rede com arquitetura feedforward com múltiplas processamento detectou que a estabilidade do modelo ocorreu após
camadas. A literatura consultada (Akkoç, 2012; Deiu-merci & Mayou, a 94ª iteração. Na amostra de validação o erro foi um pouco maior
2018; Olson et al., 2012; Ríha, 2016) corrobora esta afirmação. (0,62 x 0,58), o que é comum considerando que o modelo é ajustado
a partir da primeira amostra.
A rede MLP também será adotada neste trabalho.
As redes MLP podem ser treinadas usando os seguintes Inicialmente, a classificação ruim é de 50%, pois a alocação de
algoritmos: Gradiente Descendente Conjugado, Levenberg Marquardt, um indivíduo como cliente bom ou ruim é aleatória; com o aumento
Retropropagação, Propagação Rápida ou Delta bar-Delta. O mais das iterações, atinge-se o melhor resultado de 30,6% de erro para a
comum (Rojas, 1996) é o algoritmo Backpropagation que será amostra de treinamento e de 32,3% para a amostra de validação.
detalhado mais adiante.
O modelo implementado possui uma camada de entrada de Algumas das estatísticas da rede adotada estão na tabela 2.
neurônios, uma camada de saída de um único neurônio, que
corresponde ao resultado se um cliente é bom ou ruim na classificação Tabela 2: Estatísticas da rede neural
da rede. Ele também tem um intermediário
Estatísticas obtidas Teste Validação
camada com três neurônios, pois foi a rede que apresentou os
melhores resultados, tanto na consulta de maior percentual de acertos Classificação incorreta de casos 0,306 0,323
quanto na consulta de redução do erro médio. Redes com um, dois ou erro médio 0,576 0,619
quatro neurônios também foram testadas neste trabalho.
erro quadrático médio 0,197 0,211
Graus de liberdade do modelo 220

Cada neurônio da camada oculta é um elemento de processamento
que recebe n entradas ponderadas por pesos Wi.
A soma ponderada das entradas é transformada por meio de uma Graus de liberdade do 7780
função de ativação não linear f(.). erro
O função de ativação usada em
Total de graus de liberdade 8000
1
este estudo será a função logística , onde
1e + (g)
ÿ

Além do erro de classificação e do erro médio, também são Função Fitness: cada cliente foi associado ao
apresentados o erro quadrático e os graus de liberdade. estimativa de uma pontuação e classificada como boa ou ruim.
O erro quadrático médio é calculado pela média dos quadrados das Comparando com as informações já conhecidas a priori sobre a
diferenças entre o observado e o obtido da rede. natureza do cliente, pode-se calcular a precisão de cada cromossomo.
O indicador de acertos (Ih), será a função fitness, ou seja, quanto
maior o indicador melhor será o cromossomo.
O número de graus de liberdade do modelo está relacionado ao
número de pesos estimados, à ligação de cada um dos atributos aos
neurônios do Seleção: Neste trabalho foi utilizado um elitismo de 10% para
camada intermediária e para a ligação da camada intermediária com a cada nova geração, os vinte melhores cromossomos são mantidos
a saída. enquanto os outros cento e oitenta são formados por cruzamento e
mutação.
4.4 Algoritmos Genéticos
Cross-over: para escolher os pais para cruzamento foi utilizado o
O algoritmo genético foi utilizado para encontrar uma equação
método conhecido como roleta para seleção
discriminante que permitisse pontuar os clientes e, posteriormente,
entre esses vinte cromossomos que foram mantidos (Oreski et al.,
separar os bons dos ruins de acordo com a pontuação alcançada. A
2012). Nesse método, cada indivíduo recebe uma probabilidade de
equação pontua os clientes e os com maior pontuação são
ser sorteado de acordo com seu valor da função de aptidão.
considerados bons, enquanto os ruins são os com menor pontuação.
Essa rota foi adotada por Metawa et al., (2017) e Picinini et al. (2003).
Para o processo de troca de material genético foi utilizado um
método conhecido como uniform cross-over (Galvan, 2016). Nesse
O algoritmo implementado foi semelhante ao apresentado em
tipo de cross-over, cada gene do cromossomo do filho é escolhido
Picinini et al. (2003). Cada uma das 71 categorias de variáveis recebeu
aleatoriamente entre os genes de um dos pais, enquanto o segundo
um peso aleatório inicial.
filho recebe os genes complementares do segundo pai.
A esses setenta e um coeficientes foi introduzido mais um, uma
constante aditiva incorporada à equação linear. O valor da pontuação
do cliente é dado por: Mutação: no processo de mutação, cada gene do cromossomo é
72 avaliado de forma independente. Cada gene de cada cromossomo
Sj = ÿ ()
wi pij ,
onde tem 0,5% de probabilidade de sofrer mutação. Sempre que um gene
é escolhido para mutação, a alteração genética é realizada,
=1
eu
adicionando um pequeno valor escalar k neste gene. No experimento
S
j = Pontuação obtida pelo cliente j descrito, um valor variando entre -0,05 e + 0,05 foi sorteado
aleatoriamente.
wi = Peso relativo à categoria i
Verificação do critério de parada: um número máximo
bebida = indicador binário igual a 1, se o cliente j tiver de gerações igual a 600 foi definido como o critério de parada. Após
seiscentas iterações, o cromossomo adequado será a solução.
a categoria i e 0, inversamente.
A seguinte regra foi utilizada para definir se o cliente é bom ou

Resultados do algoritmo que teve o maior Indicador
ruim:
de acertos são apresentados aqui.
Se
Sj ÿ 0 , o cliente é considerado bom Após a execução do algoritmo, as variáveis com peso muito
pequeno foram descartadas. No trabalho de Picinini et al. (2003) os
Se
Sj ÿ 0 , o cliente é considerado ruim autores consideram que as variáveis com peso menor que 0,15 ou
Assim, o problema que o algoritmo tem que resolver é encontrar maior que -0,15 seriam descartadas por não terem peso significativo
para o modelo. Neste trabalho, após realizar uma análise de
o vetor W= [ ] resultando emw,w,...,
um2 w721
sensibilidade, decidiu-se que as variáveis com peso maior que 0,10
critério de classificação com bom índice de acertos na previsão do
ou menor que – 0,10 seriam consideradas significativas para o modelo.
desempenho do pagamento do crédito.
Essa regra não foi aplicada para a constante, que se mostrou
Seguindo as etapas de um algoritmo genético, tem-se: importante para o modelo mesmo com valor abaixo do corte.
Início: uma população de 200 indivíduos foi gerada com cada

cromossomo contendo 72 genes. O peso inicial wi de cada gene foi
4.5 Avaliação do Desempenho dos Modelos
gerado aleatoriamente no intervalo [-1, 1] (Picinini et al., 2003)
Após a obtenção dos modelos, as três amostras foram pontuadas
e o Ih e o KS foram calculados para cada um dos

modelos. A Tabela 3 mostra os resultados da classificação alcançada
pelos três modelos.
Tabela 3: Resultados da classificação
Treinamento Validação Teste
logística Ruim Bom % Correto Ruim Bom % Correto Ruim Bom % Correto
Regressão
Ruim 2833 1167 70,8 2111 889 70,4 2159 841 72,0
Bom 1294 2706 67,7 1078 1922 64,1 1059 1941 64,7
Total 4127 3873 69.2 3189 2811 67,2 3218 2782 68.3
Redes neurais
Ruim 2979 1021 74,5 2236 764 74,5 2255 745 75.2
Bom 1430 2570 64,3 1177 1823 60,8 1193 1807 60.2
Total 4409 3591 69,4 3413 2587 67,7 3448 2552 67,7
Genético
Algoritmos
Ruim 2692 1308 67.3 1946 1054 64,9 2063 937 68,8
Bom 1284 2716 67,9 1043 1957 65,2 1073 1927 64.2
Total 3976 4024 67,6 2989 3011 65,1 3136 2864 66,5
Todos apresentaram bons resultados de classificação, pois, segundo Os valores de KS em todos os modelos podem ser considerados bons.
Picinini et al. (2003): “modelos de credit scoring com taxas de acerto Novamente, Picinini et al. (2003) explicam: “O teste Kolmogorov Smirov
acima de 65% são considerados bons pelos especialistas”. (KS) é utilizado no mercado financeiro como um dos indicadores de
eficiência dos modelos de credit scoring. Um modelo que apresenta
valor de KS igual ou superior a 30 é considerado bom pelo mercado”.
As porcentagens de acerto foram muito semelhantes nos modelos
Aqui, novamente, os modelos de regressão logística e rede neural
de regressão logística e rede neural e um pouco menores para o modelo
apresentam resultados muito próximos, superiores aos obtidos pelo
de algoritmos genéticos. Outro resultado interessante é que, com
algoritmo genético.
exceção dos algoritmos genéticos, os modelos apresentaram a maior
taxa de acertos para clientes ruins, com taxa superior a 70% para
clientes ruins nas três amostras dos modelos logísticos e de redes Na escolha do modelo que melhor se ajusta a esses dados e na
neurais. análise segundo os indicadores Ih e KS, optou-se pelo modelo construído
por regressão logística. Embora os resultados tenham sido muito
A Tabela 4 apresenta os resultados dos critérios Ih e KS que foram
semelhantes aos alcançados pelas redes neurais, este modelo
escolhidos para comparar os modelos.
apresentou os melhores resultados na amostra de teste, sugerindo que
Tabela 4: Índices de comparação
é o mais adequado para aplicação em outras bases de dados. Entretanto,
Eles Teste de Validação de Treinamento deve-se ressaltar que a adoção de qualquer um dos modelos traria bons
47,9 45.1 46,6 resultados para a instituição financeira.

regressão logística
Rede neural 47,9 45.3 45.3
Algoritmo genético 45,7 42.3 44.2

V. CONCLUSÃO
KS Teste de Validação de Treinamento
O objetivo deste estudo foi desenvolver modelos preditivos de
regressão logística 38 35 37
pontuação de crédito com base em dados de uma grande instituição
Rede neural 39 35 35 financeira por meio de Regressão Logística, Redes Neurais Artificiais e
34 30 32 Algoritmos Genéticos.
Algoritmo genético
Ao desenvolver os modelos de credit scoring alguns cuidados
devem ser tomados para garantir a qualidade do modelo e sua

aplicabilidade posterior. Precauções na amostragem, definição clara de rry+linoff&ots=KYIpqpPXxG&sig=GfmnZURJGHyQzm

critérios para classificação de bons e maus clientes e tratamento das CH0YUPuiAoXO0&redir_esc=y#v=onepage&q=berry
linoff&f=false [6]
variáveis no banco de dados antes da aplicação das técnicas foram as
Bresser-Pereira, LC, & Nakano, Y. (2002). Uma Estratégia de
medidas tomadas neste estudo, visando otimizar resultados e minimizar
Desenvolvimento com Estabilidade. Revista Brasileira de Economia
erros.
Política, 22(3), 533–563. [7] Caouette, JB, Narayanan, P., Nimmo,
Os três modelos apresentaram resultados adequados para a base R., & Altman, EI
de dados em questão, que foi fornecida por um grande banco de varejo
com atuação no Brasil. O modelo de regressão logística apresentou (2008). Gestão do Risco de Crédito: O Grande Desafio para os
resultados um pouco melhores que o modelo construído por redes neurais Mercados Financeiros Globais (2ª ed.). John Wiley & Filhos.
e ambos foram melhores que o modelo baseado [8] Crook, JN, Edelman, DB, & Thomas, LC (2007).
Desenvolvimentos recentes na avaliação do risco de crédito ao consumidor.
em algoritmos genéticos.
European Journal of Operational Research, 183(3), 1447–1465.
Este estudo não teve como objetivo uma abordagem mais detalhada https://doi.org/10.1016/j.ejor.2006.09.100 [9] Deiu-
das técnicas enfocadas. As redes neurais e os algoritmos genéticos merci, KK, & Mayou, M. (2018). Segurança de Dados de Rede para o
apresentaram uma extensa gama de estruturas e variações que podem Sistema de Detecção na Internet das Coisas com Abordagem Deep
(e devem) ser melhor exploradas. Os algoritmos genéticos, por serem Learning. International Journal of Advanced Engineering Research
and Science, 5(6), 208–213. https://doi.org/10.22161/ijaers.5.6.34
um método bastante flexível, ainda pouco pesquisado em problemas de
[10] Fensterstock, A. (2005). Pontuação de
concessão de crédito, podem ser utilizados de diversas formas para
crédito e o próximo passo.
otimizar resultados.
Crédito comercial, 46–50.
Nesse tipo de problema, novas técnicas como análise de [11] Fonseca, S. E., Santos, A. de O., Pereira, M. V. L., & Camargos, M.
sobrevivência não devem ser negligenciadas e merecem atenção em A. de. (2019). Análise do Impacto de Variáveis Macroeconômicas
estudos futuros. no Desempenho Financeiro e Endividamento de Empresas Listadas
na B3. Revista Contábilbil, 93–114. https://doi.org/10.4270/
Universo ruc.2018429 [12] Galvan, P. (2016). Educational
14(4),
REFERÊNCIAS Evaluation and Prediction of School
Performance through Data Miningand Genetic Algorithms. International
[1] Abdou, HA, & Pointon, J. (2011). CREDIT SCORING, TÉCNICAS
Journal of Advanced Engineering Research and Science, 3(10),
ESTATÍSTICAS E CRITÉRIOS DE AVALIAÇÃO: UMA REVISÃO
215–220. https://doi.org/10.22161/ijaers/3.10.34
DA LITERATURA.
Sistemas Inteligentes em Contabilidade, Finanças e 18(2–3), Gestão,
https://doi.org/10.1002/isaf.325 59–88.
[13] Gonçalves, E. B., Gouvêa, M. A., & Mantovani, D. M. N.
(2013). Análise de risco de crédito com o uso de regressão logística.
[2] Akkoç, S. (2012). Uma comparação empírica de técnicas convencionais,
Revista Contemporânea de Contabilidade, 10(20), 139–160. https://
redes neurais e o modelo híbrido Adaptive Neuro Fuzzy Inference
doi.org/10.5007/2175- 8069.2013v10n20p139 [14] Gouvêa, M. A.,
System (ANFIS) de três estágios para análise de pontuação de
Gonçalves, E. B., &
crédito: o caso dos dados de cartão de crédito turcos. Jornal Europeu
Mantovani, D. M. N.
de Pesquisa Operacional, 222(1), 168–178. https://doi.org/10.1016/
(2012). Aplicação De Regressão Logística E Algoritmos Genéticos
j.ejor.2012.04.009 [3] Almeida, FP, Gouveia, RGL de, Lima, MKG Na Análise De Risco De Crédito. Revista
de, Ribeiro, FABS, Mendonça, JP, & Oliveira, J. Universo 84–102.
Contábil,
do N.
https://doi.org/10.4270/ruc.2012214 [15]
Mão, DJ e Henley, WE (1997). Métodos de classificação estatística em
(2020). Coocorrência de Fatores Econômicos, Políticos e Ambientais
pontuação de crédito ao consumidor: uma revisão. Jornal da Royal
na Percepção de Grupos Sociais no Município de Uberlândia (Minas
Statistical Society: Série A (Statistics Society), 160(3), 523–541.
Gerais, Brasil) em
https://doi.org/10.1111/J.1467-985X.1997.00078.X
Sobre os Casos Notificados de Dengue. International Journal of
Advanced Engineering Research and Science, 7(4), 145–156. https://
[16] Jain, A., Patel, H., Nagalapatti, L., Gupta, N., Mehta, S., Guttula, S.,
doi.org/10.22161/ijaers.74.17 [4] Amaral, GH
Mujumdar, S., Afzal, S., Sharma Mittal, R., & Munigala, V. (2020).
de O., & Iquiapaza, RA (2020).
Visão geral e importância da qualidade de dados para tarefas de
Determinantes de Inadimplência e de Recuperação de Crédito em
aprendizado de máquina. Proceedings of the ACM SIGKDD
um Banco de Desenvolvimento. BASE –
International Conference on Knowledge Discovery Data Mining,
Revista de Administração e Contabilidade Da Unisinos, 17(3), 483– e
3561–3562. https://doi.org/10.1145/3394486.3406477 [17] Jakliÿ, J.,
519. https://doi.org/10.4013/base.173.05 [5] Berry, M. J. a.,
Grublješiÿ, T., & Popoviÿ, A. (2018). O papel da
& Linoff, G. S. (2004). Data mining techniques: for marketing, sales, and
compatibilidade na previsão de intenções de uso de inteligência de
customer relationship In Portal.Acm.Org. management. https://
negócios e análise. International Journal of Information Management,
books.google.com.br/books?hl=pt
43 (agosto), 305–318.
BR&lr=&id=AyQfVTDJypUC&oi=fnd&pg=PR37&dq=be

https://doi.org/10.1016/j.ijinfomgt.2018.08.017 Pesquisa em Engenharia e Ciência, 6(7), 218–222. https://doi.org/

[18] Lewis, EM (1992). Uma Introdução à Pontuação de Crédito. 10.22161/ijaers.6726 [32] Thomas, LC
[19] Lin, R. (2013). A aplicação e avaliação de modelos de pontuação de (2000). Uma pesquisa de pontuação de crédito e comportamental: previsão
crédito ao consumidor na medição do risco de emissão de empréstimos do risco financeiro de empréstimos aos consumidores.
ao consumidor de bancos comerciais na China. Poderia. International Journal of Forecasting, 16(2), 149–172. https://doi.org/
[20] Locatelli, R. L., Afonso, T., Ramalho, W., & Silvério, R. 10.1016/S0169-2070(00)00034-0 [33] Ye, H., & Bellotti,
A. de O. (2015). Determinantes da inadimplência no crédito habitacional A. (2019). Modelagem de taxas de recuperação para empréstimos
direcionado a classe média emergente brasileira. Revista de Finanças inadimplentes. Riscos, 7(1), 1–17. https://doi.org/
Aplicadas, 1(1), 1–30. http://repositorio.uninove.br/xmlui/handle/ 10.3390/risks7010019
123456789/1112 [21] Lopes, M. G., Ciribeli, J. P., Massardi, W. D. O.,
& Mendes, W. D. A. (2017). Análise dos indicadores de inadimplência nas
linhas de crédito para pessoa física: um estudo utilizando modelo de
regressão logística. Estudos
Fazer CEPE, 46, https://doi.org/ 75.
10.17058/cepe.v0i46.11099 [22] Machado, A. R.

(2015). Collection Scoring via Regressão Logística e Modelo de Riscos
Proporcionais de Cox.
Universidade de Brasília.
[23] McCulloch, WS, & Pitts, W. (1943). Um cálculo lógico das idéias imanentes
na atividade nervosa. O Boletim de Biofísica Matemática 1943 5:4, 5(4),
115–133. https://doi.org/10.1007/BF02478259 [24] Metawa, N., Hassan,
MK, & Elhoseny, M. (2017).
Modelo baseado em algoritmo genético para otimizar decisões de

empréstimos bancários. Sistemas Especialistas com Aplicações, 80,
75–82. https://doi.org/10.1016/J.ESWA.2017.03.021
[25] Olson, DL, Delen, D., & Meng, Y. (2012). Análise comparativa de métodos
de mineração de dados para previsão de falências.
Sistemas de Apoio à Decisão, 52(2), 464–473. https://doi.org/10.1016/
j.dss.2011.10.007 [26] Oreski, S., Oreski, D., &

Oreski, G. (2012). Sistema híbrido com algoritmo genético e redes neurais
artificiais e sua aplicação na avaliação de risco de crédito no varejo.
Sistemas Especialistas com Aplicações, 39(16), 12605–12617. https://
doi.org/10.1016/j.eswa.2012.05.023 [27] Picinini, R., Oliveira, GMB, &
Monteiro, LHA
(2003). Detecção de problemas de crédito em empresas de pequeno

porte usando redes neurais e algoritmo genético.
SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO
INTELIGENTE.
[28] Ríha, J. (2016). Artificial Intelligence Approach to Credit [Charles

Risco University]. file:///E:/Downloads/
DPTX_2013_2_11230_0_415651_0_ 151649.pdf [29] Rojas, R. (1996).
Neural
networks: a systematic introduction. In Springer Science & Business Media.
https://books.google.com.br/books?hl=pt
BR&lr=&id=4rESBwAAQBAJ&oi=fnd&pg=PA3&ots=V
Bf8cRZWqP&sig=wKOJYQs4mZa3iR1F56RB
rzB6zM&redir_esc=y#v=onepage&q&f=false [30] Siegel,
S., & Castellan Jr, N. J. (2006). Estatística não
Paramétrica Para Ciências do Comportamento (2nd ed.).
Bookman.
[31] Silva, MF da, Silva, WG da, Carvalho, RL de, Silva, EM da, & Almeida,
T. da S. (2019). Análise de Algoritmo Genético para sistemas digitais
de síntese modelados em máquina de estados finitos. Jornal
Internacional de Avançado

Análise de Risco de Crédito Aplicando Regressão Logística, Neural Modelos de Redes e Algoritmos Genéticos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Risco de Crédito Aplicando Regressão Logística, Neural Modelos de Redes e Algoritmos Genéticos

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Jornal Internacional de Pesquisa em Engenharia Avançada e

ISSN: 2349-6495(P) | 2456-1908(O)

Análise de Risco de Crédito Aplicando Regressão Logística, Neural

1Departamento de Marketing, Universidade Estadual Paulista (USP), Brasil

I. INTRODUÇÃO em instituições financeiras visando agilizar a avaliação das propostas.

Com a estabilidade cambial alcançada pelo Plano Econômico Real

• Proponha um modelo para a classificação de clientes

www.ijaers.com Página | 198

II. BASE TEÓRICA No universo do crédito ao consumo, a penhora de pagamento futuro

A avaliação de risco de um potencial cliente pode ser realizada de

o risco de uma contraparte, num contrato de concessão de crédito, não

www.ijaers.com Página | 199

No Brasil o fundo é mais curto. As instituições financeiras passaram

base em informações passadas. A disponibilidade e qualidade do banco

Outra característica do produto em questão é a não exigência de

com informações mensais sobre a utilização do produto.

www.ijaers.com Página | 200

3.4 Definição da Variável Dependente simultaneamente;

Definição de Desempenho, está diretamente relacionada à política de

3.5 Regressão Logística

www.ijaers.com Página | 201

função (em geral não linear) para determinar o estímulo de saída

pesos correspondentes 2 Rp W ,W ,..., e o limite

www.ijaers.com Página | 202

3.7 Algoritmos Genéticos Algumas das desvantagens apontadas na literatura são:

3.8 Pontuação de acertos

A pontuação de acertos é medida dividindo-se o total de clientes

www.ijaers.com Página | 203

• As variáveis CEP comercial e residencial

4.1 Tratamento das Variáveis mesma forma que as demais.

Inicialmente, as variáveis quantitativas foram categorizadas.

Como um dos objetivos dessa análise era identificar quais variáveis

variáveis qualitativas para reduzir o número de categorias, sempre que

• A variável profissão foi agrupada de acordo com a similaridade

www.ijaers.com Página | 204

Tabela 1: Teste qui-quadrado p

11090.355 é a soma ponderada das entradas do neurônio.

9264.686 1825.669 28 0,000 O treinamento das redes consiste em encontrar o conjunto de

4.3 Rede Neural

Graus de liberdade do modelo 220

www.ijaers.com Página | 205

72 avaliado de forma independente. Cada gene de cada cromossomo

A seguinte regra foi utilizada para definir se o cliente é bom ou

Início: uma população de 200 indivíduos foi gerada com cada

www.ijaers.com Página | 206

modelos. A Tabela 3 mostra os resultados da classificação alcançada

pelos três modelos.

Tabela 3: Resultados da classificação

Treinamento Validação Teste

47,9 45.1 46,6 resultados para a instituição financeira.

Rede neural 47,9 45.3 45.3

Algoritmo genético 45,7 42.3 44.2

www.ijaers.com Página | 207

aplicabilidade posterior. Precauções na amostragem, definição clara de rry+linoff&ots=KYIpqpPXxG&sig=GfmnZURJGHyQzm

www.ijaers.com Página | 208

https://doi.org/10.1016/j.ijinfomgt.2018.08.017 Pesquisa em Engenharia e Ciência, 6(7), 218–222. https://doi.org/

Fazer CEPE, 46, https://doi.org/ 75.

10.17058/cepe.v0i46.11099 [22] Machado, A. R.

Modelo baseado em algoritmo genético para otimizar decisões de

j.dss.2011.10.007 [26] Oreski, S., Oreski, D., &

(2003). Detecção de problemas de crédito em empresas de pequeno

[28] Ríha, J. (2016). Artificial Intelligence Approach to Credit [Charles