Exemplo5.TCC Predicao

Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Análise de risco de crédito usando técnicas de machine learning
Gustavo Fernandes Cruz¹*; Gabrielle Maria Romeiro Lombardi2

1 Matemático. Rua Herculano de Freitas, 359, apto 53 – Bela Vista; 01308-020 São Paulo, São Paulo, Brasil
2 Pecege. Doutora em Genética e Melhoramento de Plantas. Rua Alexandre Herculano, 120 – Monteiro; 13418-
445 Piracicaba, São Paulo, Brasil
*autor correspondente: eskerda.math@gmail.com
1
Análise de risco de crédito usando técnicas de machine learning
Resumo
O processo de análise de crédito para pessoa física tem como objetivo identificar riscos
e futuros problemas de inadimplência para as instituições que estão concedendo o crédito.
Com esta análise, é possível estimar alguma probabilidade sobre a capacidade de pagamento
de quem solicita, auxiliando na tomada de decisão da concessão do crédito. Diante da
necessidade de avaliar grandes bases de dados contendo informações de solicitantes de
crédito, a utilização de técnicas de machine learning possibilita computar predições a partir
destes dados em um curto espaço de tempo e com alta precisão. Este trabalho irá demonstrar
a possibilidade de identificar, dentre as principais técnicas de classificação, aquela que melhor
calcula a probabilidade de um indivíduo ser inadimplente considerando informações pessoais
e financeiras como variáveis explicativas. A partir de dados abertos de uma instituição
financeira alemã, dividida em bases de treino e teste, foram aplicadas cinco técnicas
supervisionadas de classificação binária e os indicadores analisados foram: área embaixo da
curva ROC e acurácia, especificidade e sensitividade. A técnica escolhida com os melhores
resultados nestes indicadores foi a que melhor identificou possíveis inadimplentes na base de
treino. Foi feita uma análise do ponto de corte ótimo junto à avaliação da base de teste, para
aumentar a quantidade de inadimplentes identificados e garantir que o modelo tenha poder
preditivo em observações que não constam na base de dados estudada. O modelo final
aponta que, a partir das variáveis explicativas disponíveis, é possível identificar e diferenciar
os adimplentes dos inadimplentes com consistência e robustez.
Palavras-chave: random forest; previsão; classificação; concessão; inadimplência.
Introdução
Uma operação de crédito, segundo o Banco Central do Brasil (BACEN), é quando uma
pessoa ou empresa recebe dinheiro assumindo o compromisso de pagar, no futuro, o valor
disponibilizado acrescido de juros e encargos.
O risco de crédito, possibilidade de ocorrência de perdas associadas ao não
cumprimento pelo tomador de crédito, ou contraparte, de suas respectivas obrigações
financeiras nos termos pactuados (BACEN, 2009), apresenta crescente uso de métodos
estatísticos para classificar se uma pessoa é “bom” ou “mau” pagadora. Esta classificação
possui o termo “Score de Crédito” e uma série de problemas particulares desta área vem
sendo examinados em que os métodos estatísticos utilizados estão sempre sendo revistos
(Hand e Henley, 1997).
Os primeiros modelos de risco de crédito foram elaborados entre 1950 e 1960, e estes
eram desenhados a partir de Análise Discriminante, sugerido por Fisher (1936), utilizando
funções de discriminação. Com a evolução das metodologias estatísticas, a modelagem é
feita a partir de métodos com uma abordagem mais sofisticada como Regressão Logística,
Random Forest, XGBoost, Support Vector Machines e Redes Neurais (Ferreira et al. 2015).
Com o recente crescimento de 2,9%, em 2020 em relação ao mesmo período em 2019
da concessão de crédito às pessoas físicas (BACEN 2021), as instituições financeiras
2
necessitam de modelos que façam previsões menos arbitrárias, para evitar concessão de
crédito a uma pessoa inadimplente evitando assim prejuízo financeiro a instituição. Esses
modelos, precisam ser ágeis, consistentes e principalmente assertivos, já que nenhum
humano consegue fazer uma série de avaliações rapidamente e com várias variáveis ao
mesmo tempo. Esses modelos consistem em efetuar classificação a partir de variáveis que
contemplam desde cunho sócio demográfico como região onde reside, idade e renda até
variáveis chamadas transacionais como quantidade de crédito solicitado nos últimos 12
meses.
Apesar dos modelos serem métodos matemáticos, podem ocorrer casos em que se
recusa um bom pagador e aceita-se um mau pagador. Isto acontece, pois, nenhum sistema
de classificação consegue capturar todas as características necessárias para ter uma
classificação perfeita (Chaia, 2003). Estes modelos oferecem, além de uma classificação
binária, também um valor de probabilidade do indivíduo ser bom ou mau pagador, chamado
Probability of Default (probabilidade de negligência). Segundo Delianedis e colaboradores
(2003), ‘default’ é definido como falha em cumprir com obrigação contratual, no caso, o
contrato de concessão do crédito entre a instituição financeira e a pessoa física. Tem-se
então, como entrega do modelo, uma distribuição de probabilidades de uma pessoa não
cumprir com a obrigação de pagar o crédito que lhe foi concedido. Existe a possibilidade da
construção de faixas de crédito, onde são consideradas faixas de probabilidade, possibilitando
uma maior flexibilidade para a concessão.
Há cada vez mais direcionamento dos termos de concessão de crédito em tempo real
(EXPERIAN, 2021) e os modelos de machine learning estão sendo explorados de diversas
maneiras para que essa mecânica tenha dinamismo aliado à assertividade.
A partir destes pressupostos, o objetivo deste trabalho é construir um modelo de
machine learning capaz de identificar se um indivíduo (pessoa física) será adimplente ou
inadimplente no ato da concessão de crédito, identificando padrões em variáveis que
descrevem características e objetivos de cada indivíduo-observação.
Material e Métodos
Coleta dos dados
A base de dados utilizada neste trabalho foi extraída do repositório de dados online
chamado Kaggle e tem como título ‘German Credit Risk’. Esta base contém 1.000
observações e 10 variáveis, sendo uma delas a variável resposta. A variável resposta é binária
sendo 1 correspondendo ao adimplente e 0 corresponde ao inadimplente. Dentre as variáveis
3
explicativas, 3 são quantitativas e 6 qualitativas. A base está alocada no link

https://www.kaggle.com/datasets/uciml/german-credit. Esta base de dados apresenta
variáveis acerca de cada indivíduo no momento do pedido de crédito, com o objetivo de
encontrar padrões de inadimplência. É sabido que existem estudos em que vários momentos
de vida do indivíduo são capturados e estruturados como variáveis explicativas, por exemplo:
se o indivíduo já foi inadimplente, quantas vezes foi inadimplente e quanto tempo durou cada
vez período de inadimplência, porém estas frentes não foram tratadas neste trabalho.
Tabela 1. Descrição e classificação das variáveis

Variáveis Qualitativas Quantitativas
Idade x
Sexo x
Status Profissional x
Status Residência x
Explicativas Classe Social x
Crédito Solicitado x
Duração(meses) do crédito x
Motivo para solicitação do crédito x
Status Reserva Monetária x
Resposta Risco x
Fonte: Dados originais da pesquisa
Tratamento e Análise Exploratória
Aplicando técnicas de análise exploratória de dados, foram extraídas duas visões

gráficas para obter informações relevantes das variáveis explicativas. A Figura 1 apresenta
um boxplot para as variáveis quantitativas: a) crédito solicitado, b) duração (em meses) do
crédito e c) idade.
Figura 1. Boxplot das variáveis qualitativas explicativas

Fonte: Resultados originais da pesquisa
4
A quantidade de ‘crédito solicitado’ variou entre 250 e 8.000, enquanto que a ‘duração
do crédito’ variou entre 4º e 42º meses e a ‘idade’ entre 19 e 64 anos (Figura 1). Mesmo
desconsiderando os outliers observa-se alta dispersão das variáveis quantitativas deste banco
de dados (Figura 1), mostrando que os dados estão heterogêneos sem apresentar viés de
representatividade.
A Figura 2 contém as frequências de cada componente de cada variável explicativa
qualitativa. Observa-se que existe predominância do sexo masculino em relação ao sexo
feminino na variável ‘sexo’. Este é um ponto relevante em relação ao conjunto de dados pois
como a idade média é de 35 anos, é possível captar o perfil de quem pede empréstimos com
maior frequência desta amostra, isto é, pessoas do sexo masculino e com idade média de 35
anos. Além disso, é possível verificar que existem observações sem valores ou NA em
‘reserva_monetária’ e em ‘classe_social’, que foram tratadas de maneira adequada, conforme
demonstrado adiante.
Figura 2. Frequência, em percentuais, das variáveis explicativas qualitativas

A Figura 3 mostra a distribuição da variável ‘risco’ sendo possível visualizar que existe
maior proporção de adimplentes (1) em relação aos inadimplentes (0) e que isto pode ter
impacto nos indicadores do modelo, conforme demonstrado nos resultados finais.
5
Figura 3. Frequência, em percentuais, dos componentes da variável Risco

As variáveis qualitativas apresentam ocorrências de valores faltantes ou NA em

reserva monetária e classe social, com proporções consideráveis para a quantidade de
observações totais da base de dados, sendo de 39,4% e 19,3%, respectivamente. Logo, foi
utilizado o método MICE para inclusão de valores faltantes, a fim de garantir a completude da
base de dados. Segundo Buuren e Groothuis-Oudshoorn (2011), o método MICE –
Multivariate Imputation by Chained Equations – faz a inclusão de valores faltantes no conjunto
de dados através de uma sequência de equações de regressão avaliando a densidade dos
dados e, tomando como base comparativa dados já existentes das variáveis em questão, e
eliminando a incompletude dos valores faltantes. Em seguida, estas variáveis foram
transformadas em variáveis ‘dummy’ pelo método one hot encoding, processo este para
exemplificar variáveis categóricas explicativas em variáveis binárias. Cada variável em
questão é transformada em um vetor de valores 0 e 1, e somente terá o valor 1 se existir
correspondência da variável em questão junto à observação. Este passo é aplicado para cada
variável categórica da base de dados.
Por fim, com todas as variáveis explicativas em formato numérico, a normalização pelo
procedimento Z-Scores foi aplicada. Em que, para cada valor do banco de dados, coluna a
coluna, subtrai-se a média e divide-se pelo desvio padrão da variável em questão. Os novos
valores possuem média igual à 0 e desvio padrão igual à 1. O objetivo deste procedimento é
adequar os outliers que poderiam ter influência direta nos resultados do modelo e gerar viés
nas predições.
6
Técnicas de Classificação Binária
Classificação é uma técnica de mineração de dados em machine learning usada para

prever a associação de um indivíduo a um determinado grupo ou classe (Soofi e Awan, 2017).
Denomina-se classificação binária quando o número de grupos ou classes, a serem
associados, são duas. Uma técnica de classificação é denominada Supervisionada quando
seu objetivo é encontrar relações entre a variável resposta e as variáveis explicativas a partir
de uma base de dados onde as classes são conhecidas e posteriormente prever em uma base
de dados onde a classe não é conhecida. Existem duas abordagens para se obter os
resultados de uma classificação binária: distinção discreta entre duas classes, atribuindo os
valores 0, se o item não pertence à classe, e 1 se o item pertence à classe, e calculando a
probabilidade de o item pertencer à uma das classes. Neste caso, a relação entre as variáveis
dependente e independente é descrita por uma distribuição de probabilidades e a classe a ser
escolhida é aquela que tem a probabilidade calculada a partir de seus parâmetros estimados
por máxima verossimilhança acima do ponto de corte considerado (Fávero e Belfiore, 2021).
Existem uma série de técnicas de classificação binária em machine learning e algumas
delas foram utilizadas para determinar se existe relação entre a variável dependente “risco” e
as variáveis independentes e, se existir, capturar o quão bem este modelo pode distinguir um
grupo do outro. As técnicas utilizadas foram: Regressão Logística, Random Forest, XGBoost,
Support Vector Machines (SVM) e Redes Neurais MLP.
a) Regressão Logística
É uma técnica de classificação para estimar a probabilidade de uma instância
pertencer a uma determinada classe. Se a probabilidade estimada for maior 50%
(ponto de corte), então o modelo prevê que a instância pertence a classe 1, por
exemplo, caso contrário pertence a classe 0. A regressão logística calcula a soma
ponderada das características de entrada, gerando o logit deste resultado, função
sigmóide que mostra o número entre 0 e 1 (Géron, 2019);
b) Random Forest
É um classificador ensemble, isto é, consiste em um conjunto de classificadores
treinados individualmente, neste caso árvores de decisão, cujas decisões de previsão
da classe são combinadas de acordo com alguma métrica (Marques et al., 2012). Os
parâmetros ajustáveis, ou hiperparâmetros são: número de árvores construídas para
fazer a média das previsões, número máximo de características a serem usadas em
cada árvore e o número mínimo de folhas em cada árvore.
7
c) XGBoost
É uma técnica boosting, isto é, combina as soluções de várias árvores de decisão
como classificadores chamados de fracos, criados em paralelo, para obter uma
solução melhor e iterativamente, sempre corrigindo os erros dos classificadores
anteriores (Baldo et al. 2022).
d) Support Vector Machines (SVM)

SVM é uma técnica que cria um hiperplano de margem máxima em um espaço
transformado pelas variáveis explicativas e separa as classes da variável resposta
enquanto maximiza a distância da superfície de decisão até as observações mais
próximas. Os parâmetros do hiperplano solução são derivados de problema de
otimização de programação quadrática (Shmilovici, 2009).
e) Redes Neurais – MLP

As redes neurais MLP, multi-layer perceptron, são bastante usadas para
reconhecimento de padrões e, consequentemente, podem ser usadas para
classificação binária. As redes MLP são constituídas de camadas internas, geralmente
2 ou 3, diferentemente da rede neural mais básica, onde temos apenas entrada-
camada interna-saida (Hush, 1989)
Hiperparâmetros e Cross validation
Foi feita aplicação do k-fold cross validation (validação cruzada K-fold), que é um
método estatístico de avaliação e comparação de algoritmos de aprendizagem, e o
gridsearch, para otimização de hiperparâmetros do modelo. O cross validation funciona
dividindo os dados em k (número inteiro) conjuntos: um usado para aprender ou treinar o
modelo e o outro usado para validação. A forma comumente utilizada consiste em dividir o
conjunto de dados em 75% da quantidade total de observações reservadas para treino e 25%
para teste, a fim de avaliar a performance dos modelos primeiro no conjunto de treino e
posteriormente no conjunto de testes.
O número K usado foi 10, o que significa que foram testadas 10 diferentes divisões
entre treino e teste, para no final ser calculado a média dos indicadores de qualidade, tendo
esta média como resultado final. Esta prática é indicada para efetuar ajustes no modelo caso
a avaliação dos indicadores tenha sido muito boa (overfitting) ou muito ruim (underfitting) após
8
o aprendizado no conjunto de treino e também para otimizar os hiperparâmetros do modelo,

testando todas as combinações possíveis e selecionando a que entregue o melhor resultado.
Esta etapa ainda permite descobrir o quão generalista o modelo pode ser em relação à novos
dados, pois se a avaliação no conjunto de teste se encaixar nestes dois extremos, o ideal é
iniciar o processo de modelagem e explorar métodos para evitar tais situações.
Escolha do método
Para a escolha do melhor método, utilizou-se a função “workflow_sets” do pacote

“Tidymodels” a qual reúne todas as técnicas e retorna o comparativo dos resultados
graficamente tendo como parâmetros a fórmula matemática que relaciona as variáveis
resposta e explicativas e cada modelo especificamente selecionado pelo seu nome no
software R. A escolha do melhor modelo foi definida através de dois indicadores de qualidade
para modelos de classificação que, segundo Fávero e Belfiore (2021), são: Acurácia e a área
embaixo da curva ROC (ROC_AUC, Receiver Operation Characteristic Area Under Curve).
Estas são métricas de qualidade comumente utilizadas para determinar se um modelo
supervisionado de classificação binário tem maior capacidade de predição em comparação a
outros modelos.
A acurácia é calculada como a razão entre total de acertos pelo total de observações
para um determinado cutoff, que é um ponto de corte pré definido para que sejam classificadas
as observações em função das suas probabilidades calculadas, e que por enquanto será de
50% no conjunto de treino (no conjunto de teste serão estudados outros pontos de corte a fim
de encontrar o melhor resultado para os indicadores de qualidade aqui discutidos). Para
determinar a ROC_AUC, é necessário construir a curva ROC, a matriz de confusão será
utilizada como forma de representar visualmente a relação entre classificações positivas (1) e
negativas (0) que podem ser resultado de um classificador binário. Uma matriz de confusão é
composta através de 4 categorias: VP, FP, VN e FN. VP (Verdadeiros Positivos) são os
exemplos classificados corretamente como positivos, FP (Falsos Positivos) são os exemplos
negativos classificados incorretamente como positivos, VN (Verdadeiros Negativos) são os
exemplos negativos classificados corretamente como negativos e os FN (Falsos Negativos)
são os exemplos positivos classificados incorretamente como negativos, segundo Davis
(2006). Seu formato gráfico é bastante utilizado para fácil visualização dos acertos e erros do
modelo. A partir da matriz de confusão, é possível extrair métricas que avaliam a qualidade
de predição do modelo, como por exemplo a sensitividade e especificidade.
A sensitividade, eq.(1), refere-se ao percentual de acerto considerando as
observações positivas (neste trabalho, risco igual à 1 - adimplência) e a especificidade, eq.
9
(2), refere-se ao percentual de acerto considerando as observações negativas (neste

trabalho, risco igual à 0 - inadimplência).
𝑉𝑃
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑃+𝐹𝑃
(1)
onde VP: Verdadeiros Positivos; FP: Falsos Positivos.
𝑉𝑁
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑁+𝐹𝑁 (2)
onde VN: Verdadeiros Negativos; FN: Falsos Negativos.
O gráfico da curva ROC resume os resultados da sensitividade, no eixo y, em função

da taxa de falsos positivos (1- especificidade), no eixo x, para todos os possíveis pares de
valores relativos aos pontos de corte em [0,1]. Se o valor da área embaixo da curva ROC for
acima de 50%, é possível afirmar que o modelo escolhido está com capacidade preditiva
acima de um modelo nulo (50%), garantindo a utilização do modelo para predição em novos
conjuntos dados (Faraggi et al., 2002).
Junto a estas métricas, o índice J de Youden, derivada dos parâmetros usados na
curva ROC e que mede a efetividade de um modelo de classificação, que visa encontrar um
ponto de corte ótimo, ajustado para o conjunto de dados estudados, é bastante utilizada nas
áreas de análise de crédito e biomedicina. O índice J é definido em eq. (3) como:
𝐽 = max {𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒(𝑡) + 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒(𝑡) − 1} (3)

𝑡
onde t são todos os pontos de corte contidos no intervalo [0,1].

Este índice seleciona um par de pontos de sensitividade e especificidade com mesmo
peso, encontrando a combinação ótima entre os acertos das classificações positivas e
negativas (Schisterman et al., 2007).
Resultados e Discussão
A Figura 4 mostra que, após aplicar as técnicas descritas anteriormente ao conjunto

de treino, o modelo Random Forest obteve a melhor performance em ambas as métricas de
qualidade, com 71,6% de acurácia e 69,2% de ROC_AUC.
10
Figura 4. Ranking de modelos de classificação aplicados ao conjunto de treino

A validação cruzada (cross validation) sugeriu, para este conjunto de dados, os

hiperparâmetros ajustáveis de uma Random Forest, que são número de árvores construídas
para fazer a média das previsões (‘trees’), número máximo de características a serem usadas
em cada árvore (‘mtry’) e o número mínimo de folhas em cada árvore (‘min_n’), os seguintes
valores: Trees = 1971, mtry = 5 e min_n = 23. Dentre todas as avaliações durante a validação
cruzada, o modelo Random Forest com estes hiperparâmetros foi o que obteve os melhores
resultados de acurácia e AUC_ROC.
Figura 5. Matriz de confusão (a) e curva ROC (b)

Ao realizar a curva ROC, foi possível observar que o modelo escolhido não apresenta
overfitting/underfitting, ou seja, não possui a área embaixo da curva igual à 100% e também
11
não tem este indicador menor que 50%, que seria pior que o modelo nulo (Figura 5). Sendo
assim, não se faz necessário uma reavaliação dos procedimentos adotados.
Na sequência, tem-se os resultados da matriz de confusão (a) e curva ROC (b) do
modelo Random Forest aplicado ao conjunto teste (Figura 6).
a) b)
Figura 6. Matriz de confusão (a) e curva ROC (b)

A acurácia apresentou queda de 2.8 pontos percentuais em relação ao resultado no

conjunto de treino, sendo de 68,8%.
A partir da matriz de confusão do conjunto de teste, extraiu-se os resultados de
sensitividade e especificidade, conforme abaixo eq. (4) e eq.(5):
𝑉𝑁 8
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = = = 10,7% (4)
𝑉𝑁+𝐹𝑁 8+67
𝑉𝑃 164
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑃+𝐹𝑃
= 164+11 = 93,7% (5)
Desta forma, utilizando um ponto de corte de 0,5, teve-se 93,7% dos adimplentes
classificados corretamente e apenas 10,7% dos inadimplentes classificados corretamente.
Como este percentual é muito baixo para prever os inadimplentes, visto que, o objetivo da
utilização do modelo é identificar corretamente tanto adimplentes quanto inadimplentes e
principalmente avaliar corretamente observações que não estão presentes nesta amostra.
Buscou-se realizar uma análise de sensibilidade para encontrar o ponto ótimo entre
sensitividade e especificidade, mesmo que isto acarrete em queda dos principais indicadores,
acurácia e AUC_ROC.
12
Análise de Sensibilidade do Ponto de Corte
A intenção da análise de sensibilidade é encontrar o melhor ponto de corte, ou seja, o

valor que equilibra as classificações corretas de adimplente e inadimplente. O índice J auxilia
a encontrar o ponto onde especificidade e sensitividade possuem o mesmo peso, fazendo
com que o modelo de análise de crédito classifique corretamente tanto pessoas adimplente
quanto inadimplente. A Figura 7 mostra o cruzamento dos valores de sensitividade e
especificidade para cada cutoff entre 0 e 1, já com índice J calculado e indicando que foi ponto
de equilíbrio das classificações corretas.
Figura 7. Curvas de especificidade e sensitividade para cada possível cutoff e o índice J

A Tabela 2 apresenta um comparativo das métricas estudadas antes e depois da

análise de sensibilidade. É possível verificar que para aumentar o número de indivíduos
classificados corretamente como inadimplentes foi necessário reduzir o número de indivíduos
classificados corretamente como adimplentes. Como consequência, houve uma queda
também no valor da acurácia, de 12 pontos percentuais.
Tabela 2. Comparação antes e depois da análise de sensibilidade do ponto de corte

Métricas Antes Depois
Acurácia 68,8% 56,8%
Sensitividade 93,7% 50,9%
Especificidade 10,7% 70,7%
Índice J 0,04 0,215
Ponto de Corte 0,5 0,85*
Nota que: *Ponto de corte ótimo
13
Após o cálculo do ponto de corte ótimo, foi necessário reaplicar o modelo, com este
novo valor, ao conjunto de teste. A Figura 8 apresenta a nova configuração das classificações
via matriz de confusão.
Figura 8. Matriz de confusão do conjunto teste, após análise de sensibilidade

Observa-se um aumento de 8 para 53 classificações corretas de VN -verdadeiros

negativos- ou seja, o modelo está classificando corretamente um número maior de
inadimplentes após a análise de sensibilidade e captura do novo ponto de corte. Este aumento
é compensado pela queda da identificação correta de VP -verdadeiros positivos- de 164 para
89, mas essa compensação é aceitável para o objetivo de concessão de crédito pois a
intenção é identificar o maior número de inadimplentes e posteriormente não efetuar a
concessão, a fim de não ter prejuízos financeiros futuros.
A Figura 9 apresenta as variáveis de maior importância para o modelo considerando
o índice de Gini como métrica. De acordo com Dai et al. (2018), o índice de Gini refere-se à
probabilidade da variável ser selecionada aleatoriamente para estar na separação de nó para
o nó subsequente. Quanto maior o índice de Gini, maior a probabilidade da variável ser
selecionada para o próximo nó, sendo a variável que mais vezes participou das decisões no
modelo. No caso é possível verificar, que no momento que houver uma solicitação de crédito,
as variáveis que têm maior relevância na tomada de decisão final são: o valor do crédito
solicitado, a idade do solicitante e quanto tempo irá durar crédito, sendo a primeira a mais
relevante entre as 3 citadas.
14
Figura 9. Variáveis de importância para o modelo Random Forest pelo índice de Gini
Conclusões
O objetivo deste trabalho é construir um modelo de machine learning capaz de

identificar se um indivíduo (pessoa física) será adimplente ou inadimplente no ato da
concessão de crédito, identificando padrões em variáveis que descrevem características e
objetivos de cada indivíduo-observação.
A análise do risco da concessão de crédito é possível ser feita utilizando técnicas de
machine learning mas com a ressalva de que é necessário entender o objetivo do problema
estudado. Verificar apenas os indicadores de qualidade como acurácia e AUC_ROC sem
verificar a matriz de confusão e o número de classificações dos inadimplentes podem fornecer
interpretações erradas no momento da concessão de crédito.
O modelo Random Forest teve boa performance avaliando nos indicadores, mas a
matriz de confusão determinou que a identificação dos inadimplentes estava baixa e não era
suficiente, sendo necessário avaliar a sensitividade, especificidade e o ponto de corte. A
análise de sensibilidade neste caso foi fundamental para melhorar a classificação de
inadimplentes, mesmo com queda nos principais indicadores de qualidade, e deixando o
modelo mais robusto, sendo possível a utilização para tomada de decisão em instituições com
objetivo de concessão de crédito.
15
Agradecimento
Obrigado aos meus amigos e familiares, que me apoiaram e deram o suporte

necessário para a finalização deste trabalho.
Referências
Baldi; Brunak, S; Chauvin, Y.; Andersen, C.A.F.;Nielsen, H. 2000. Assessing the accuracy of
prediction algorithms for classification: an overview. Bioinformatics.16(5): 412–424.
Baesens, B.; Setiono, R.; Mues, C.; Vanthienen, J. 2003. Using Neural Network Rule
Extraction and Decision Tables for Credit-Risk Evaluation. Management Science. 49(3):
312–329.
Baldo F.; Grando J.; Weege M. K.; Bonassa G. 2022. Adaptive Fast XGBoost for Binary
Classification. Simpósio Brasileiro de Banco de Dados. 37:13-25
Banco Central do Brasil [BACEN]. 2021. Evolução Recente do Crédito no SFN. Disponível
em:
<https://www.bcb.gov.br/content/acessoinformacao/covid19_docs/Evolucao_Recente_do_Cr
edito.pdf > Acesso em: 04 abr. 2022.
Banco Central do Brasil [BACEN] .2021. Relatório de Estabilidade Financeira. Disponível em

<https://www.bcb.gov.br/content/publicacoes/ref/202110/RELESTAB202110-refPub.pdf>
Acesso em: 04 abr.2022.
Bjoern H. M.; Kelm B. M.; Masuch R.; Himmelreich U.; Bachert P.; Petrich W.; Hamprecht
A.F. 2009. A comparison of random forest and its Gini importance with standard
chemometric methods for the feature selection and classification of spectral data. BMC
Bioinformatics, 10(213)
Blöchlinger, A.; Leippold, M. 2006. Economic benefit of powerful credit scoring. Journal of
Banking & Finance, 30(3): 851–873.
Bruce A.; Bruce P. 2019. Estatística prática para cientistas de dados: 50 conceitos
essenciais .1ed. Editora Alta Books. Rio de Janeiro, RJ, Brasil.
Buuren, S.V.; Groothuis-Oudshoorn, K. 2011. mice: Multivariate Imputation by Chained

Equations in R. Journal of Statistical Software 45(3): 1-67
Chaia, A.J. 2003. Modelos de gestão do risco de crédito e sua aplicabilidade ao mercado
brasileiro. Dissertação de Mestrado em Administração. Universidade de São Paulo São
Paulo, SP, Brasil.
Chawla, Nitesh V. 2002. SMOTE: synthetic minority over-sampling technique. Journal of

artificial intelligence research 16: 321-357.
16
Cutler, A.; Cutler, D. R.; Stevens, J. R. 2012. Random Forests. p.157-175. In Cutler, A.;
Cutler, D. R.; Stevens, J. R. Ensemble Machine Learning: Methods and Applications.
Springer, Boston, MA, Estados Unidos.
Dai B.; Chen R. -C.; Zhu S. -Z.; Zhang W. -W. 2018. Using Random Forest Algorithm for
Breast Cancer Diagnosis. International Symposium on Computer, Consumer and Control
(IS3C): 449-452
Davis, J.; Goadrich, M. 2006. The relationship between Precision-Recall and ROC curves.
Proceedings of the 23rd International Conference on Machine Learning 6: 233-240.
Delianedis, G; Geske R.L. 2003. Credit risk and risk neutral default probabilities: information
about rating migrations and defaults. California, LA, Estados Unidos. Disponível em: <
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=424301>. Acesso em: 04 abr.2022.
Dreiseitl, S; Ohno-Machado, L. 2002. Logistic regression and artificial neural network

classification models: a methodology review. Journal of Biomedical Informatics 35: 352–359.
Duda R.; Hart P.; Stork D. 2000. Pattern classification. 2º edição. John Wiley & Sons, New
York, NY, Estados Unidos
Experian Information Solutions. 2021. Navigating a new era of credit risk decisioning.
Disponível em:
<https://www.experian.com.vn/wpcontent/uploads/2021/07/Decisioning_Report_2021.pdf>.
Acesso em: 04 abr.2022.
Faraggi, D.; Reiser, B. 2002. Estimation of the area under the ROC curve. Statistics in
Medicine 21: 3093–3106.
Fávero, L.P.; Belfiore, P. 2021. Manual de Análise de Dados - Estatística e Modelagem

Multivariada com Excel®, SPSS® e Stata®. 1ª edição.GEN LTC.Rio de Janeiro, RJ, Brasil.
Ferreira, Paulo H.; Louzada F.; Diniz C. 2015. Credit scoring modeling with state-dependent
sample selection: A comparison study with the usual logistic modeling. Pesquisa
Operacional 35: 39-56.
Géron A. 2019. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn e TensorFlow. 1ª

edição. AltaBooks, Rio de Janeiro, RJ, Brasil.
Gislason, P. O.; Benediktsson, J. A.; Sveinsson, J. R. 2006. Random Forests for land cover
classification. Pattern Recognition Letters 27: 294–300.
Grolemund,G. 2014. Hands-on Programming with R. 1ª edição. O'Reilly Media.Sebastopol,

CA, Estados Unidos.
Hand, D. J.; Henley, W. E. 1997. Statistical Classification Methods in Consumer Credit

Scoring: a Review. Journal of the Royal Statistical Society 160: 523–541.
Hernández-Orallo, J.; Flach, P.; Ferri Ramírez, C. 2012. A unified view of performance
metrics: Translating threshold choice into expected classification loss. Journal of Machine
Learning Research 13: 2813-2869.
Hush. 1989. Classification with neural networks: a performance analysis. IEEE 1989
International Conference on Systems Engineering. 277-280.
17
Jurgovsky, J.; Granitzer, M.; Ziegler, K.; Calabretto, S.; Portier, P.E.; He-Guelton, L.; Caelen,
O. 2018. Sequence classification for credit-card fraud detection. Expert Systems with
Applications 100: 234–245.
Provost, F.; Fawcett, T. 2001. Robust Classification for Imprecise Environments. Machine
Learning 42: 203–231
Refaeilzadeh P.; Tang L.; Liu H. 2016. Cross-Validation. In: Liu L.; Özsu M. Encyclopedia of
Database Systems. Springer, New York, NY, Estados Unidos.
Ruopp, M. D.; Perkins, N. J.; Whitcomb, B. W.; Schisterman, E. F. 2008. Youden Index and
Optimal Cut-Point Estimated from Observations Affected by a Lower Limit of Detection.
Biometrical Journal 50: 419–430.
Schisterman, E. F.; Faraggi, D.; Reiser, B.; Hu, J. 2007. Youden Index and the optimal
threshold for markers with mass at zero. Statistics in Medicine 27: 297–315.
Shmilovici A. 2009. Support Vector Machines. Data Mining and Knowledge Discovery
Handbook. Springer, Boston, MA, United States of America
Soofi, A. A.; Awan A. 2017. Classification Techniques in Machine Learning: Applications

and Issues. Journal of Basic & Applied Sciences 13:459-465
White, I. R.; Daniel, R.; Royston, P. 2010. Avoiding bias due to perfect prediction in multiple
imputation of incomplete categorical variables. Computational Statistics & Data Analysis
54(10): 2267–2275.
Zou Q.; Qu K.; Luo Y.; Yin D.; Ju Y.; Tang H. 2018. Predicting Diabetes Mellitus With
Machine Learning Techniques. Front. Genet. 06: 9-515.
18

Exemplo5.TCC Predicao

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Exemplo5.TCC Predicao

Enviado por

Direitos autorais:

Formatos disponíveis

Trabalho de Conclusão de Curso apresentado para obtenção do título

de especialista em Data Science e Analytics – 2022

Análise de risco de crédito usando técnicas de machine learning

Gustavo Fernandes Cruz¹*; Gabrielle Maria Romeiro Lombardi2

Análise de risco de crédito usando técnicas de machine learning

Coleta dos dados

explicativas, 3 são quantitativas e 6 qualitativas. A base está alocada no link

Tabela 1. Descrição e classificação das variáveis

Tratamento e Análise Exploratória

Aplicando técnicas de análise exploratória de dados, foram extraídas duas visões

Figura 1. Boxplot das variáveis qualitativas explicativas

Figura 2. Frequência, em percentuais, das variáveis explicativas qualitativas

Figura 3. Frequência, em percentuais, dos componentes da variável Risco

As variáveis qualitativas apresentam ocorrências de valores faltantes ou NA em

Técnicas de Classificação Binária

Classificação é uma técnica de mineração de dados em machine learning usada para

d) Support Vector Machines (SVM)

e) Redes Neurais – MLP

Hiperparâmetros e Cross validation

o aprendizado no conjunto de treino e também para otimizar os hiperparâmetros do modelo,

Para a escolha do melhor método, utilizou-se a função “workflow_sets” do pacote

(2), refere-se ao percentual de acerto considerando as observações negativas (neste

onde VP: Verdadeiros Positivos; FP: Falsos Positivos.

onde VN: Verdadeiros Negativos; FN: Falsos Negativos.

O gráfico da curva ROC resume os resultados da sensitividade, no eixo y, em função

𝐽 = max {𝑠𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒(𝑡) + 𝑒𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒(𝑡) − 1} (3)

onde t são todos os pontos de corte contidos no intervalo [0,1].

A Figura 4 mostra que, após aplicar as técnicas descritas anteriormente ao conjunto

Figura 4. Ranking de modelos de classificação aplicados ao conjunto de treino

A validação cruzada (cross validation) sugeriu, para este conjunto de dados, os

Figura 5. Matriz de confusão (a) e curva ROC (b)

Figura 6. Matriz de confusão (a) e curva ROC (b)

A acurácia apresentou queda de 2.8 pontos percentuais em relação ao resultado no

Análise de Sensibilidade do Ponto de Corte

A intenção da análise de sensibilidade é encontrar o melhor ponto de corte, ou seja, o

Figura 7. Curvas de especificidade e sensitividade para cada possível cutoff e o índice J

A Tabela 2 apresenta um comparativo das métricas estudadas antes e depois da

Tabela 2. Comparação antes e depois da análise de sensibilidade do ponto de corte

Figura 8. Matriz de confusão do conjunto teste, após análise de sensibilidade

Observa-se um aumento de 8 para 53 classificações corretas de VN -verdadeiros

O objetivo deste trabalho é construir um modelo de machine learning capaz de

Obrigado aos meus amigos e familiares, que me apoiaram e deram o suporte

Banco Central do Brasil [BACEN] .2021. Relatório de Estabilidade Financeira. Disponível em

Buuren, S.V.; Groothuis-Oudshoorn, K. 2011. mice: Multivariate Imputation by Chained

Chawla, Nitesh V. 2002. SMOTE: synthetic minority over-sampling technique. Journal of

Dreiseitl, S; Ohno-Machado, L. 2002. Logistic regression and artificial neural network

Fávero, L.P.; Belfiore, P. 2021. Manual de Análise de Dados - Estatística e Modelagem

Géron A. 2019. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn e TensorFlow. 1ª

Grolemund,G. 2014. Hands-on Programming with R. 1ª edição. O'Reilly Media.Sebastopol,

Hand, D. J.; Henley, W. E. 1997. Statistical Classification Methods in Consumer Credit

Soofi, A. A.; Awan A. 2017. Classification Techniques in Machine Learning: Applications

Você também pode gostar