Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Resumo
O processo de análise de crédito para pessoa física tem como objetivo identificar riscos
e futuros problemas de inadimplência para as instituições que estão concedendo o crédito.
Com esta análise, é possível estimar alguma probabilidade sobre a capacidade de pagamento
de quem solicita, auxiliando na tomada de decisão da concessão do crédito. Diante da
necessidade de avaliar grandes bases de dados contendo informações de solicitantes de
crédito, a utilização de técnicas de machine learning possibilita computar predições a partir
destes dados em um curto espaço de tempo e com alta precisão. Este trabalho irá demonstrar
a possibilidade de identificar, dentre as principais técnicas de classificação, aquela que melhor
calcula a probabilidade de um indivíduo ser inadimplente considerando informações pessoais
e financeiras como variáveis explicativas. A partir de dados abertos de uma instituição
financeira alemã, dividida em bases de treino e teste, foram aplicadas cinco técnicas
supervisionadas de classificação binária e os indicadores analisados foram: área embaixo da
curva ROC e acurácia, especificidade e sensitividade. A técnica escolhida com os melhores
resultados nestes indicadores foi a que melhor identificou possíveis inadimplentes na base de
treino. Foi feita uma análise do ponto de corte ótimo junto à avaliação da base de teste, para
aumentar a quantidade de inadimplentes identificados e garantir que o modelo tenha poder
preditivo em observações que não constam na base de dados estudada. O modelo final
aponta que, a partir das variáveis explicativas disponíveis, é possível identificar e diferenciar
os adimplentes dos inadimplentes com consistência e robustez.
Palavras-chave: random forest; previsão; classificação; concessão; inadimplência.
Introdução
Uma operação de crédito, segundo o Banco Central do Brasil (BACEN), é quando uma
pessoa ou empresa recebe dinheiro assumindo o compromisso de pagar, no futuro, o valor
disponibilizado acrescido de juros e encargos.
O risco de crédito, possibilidade de ocorrência de perdas associadas ao não
cumprimento pelo tomador de crédito, ou contraparte, de suas respectivas obrigações
financeiras nos termos pactuados (BACEN, 2009), apresenta crescente uso de métodos
estatísticos para classificar se uma pessoa é “bom” ou “mau” pagadora. Esta classificação
possui o termo “Score de Crédito” e uma série de problemas particulares desta área vem
sendo examinados em que os métodos estatísticos utilizados estão sempre sendo revistos
(Hand e Henley, 1997).
Os primeiros modelos de risco de crédito foram elaborados entre 1950 e 1960, e estes
eram desenhados a partir de Análise Discriminante, sugerido por Fisher (1936), utilizando
funções de discriminação. Com a evolução das metodologias estatísticas, a modelagem é
feita a partir de métodos com uma abordagem mais sofisticada como Regressão Logística,
Random Forest, XGBoost, Support Vector Machines e Redes Neurais (Ferreira et al. 2015).
Com o recente crescimento de 2,9%, em 2020 em relação ao mesmo período em 2019
da concessão de crédito às pessoas físicas (BACEN 2021), as instituições financeiras
2
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
necessitam de modelos que façam previsões menos arbitrárias, para evitar concessão de
crédito a uma pessoa inadimplente evitando assim prejuízo financeiro a instituição. Esses
modelos, precisam ser ágeis, consistentes e principalmente assertivos, já que nenhum
humano consegue fazer uma série de avaliações rapidamente e com várias variáveis ao
mesmo tempo. Esses modelos consistem em efetuar classificação a partir de variáveis que
contemplam desde cunho sócio demográfico como região onde reside, idade e renda até
variáveis chamadas transacionais como quantidade de crédito solicitado nos últimos 12
meses.
Apesar dos modelos serem métodos matemáticos, podem ocorrer casos em que se
recusa um bom pagador e aceita-se um mau pagador. Isto acontece, pois, nenhum sistema
de classificação consegue capturar todas as características necessárias para ter uma
classificação perfeita (Chaia, 2003). Estes modelos oferecem, além de uma classificação
binária, também um valor de probabilidade do indivíduo ser bom ou mau pagador, chamado
Probability of Default (probabilidade de negligência). Segundo Delianedis e colaboradores
(2003), ‘default’ é definido como falha em cumprir com obrigação contratual, no caso, o
contrato de concessão do crédito entre a instituição financeira e a pessoa física. Tem-se
então, como entrega do modelo, uma distribuição de probabilidades de uma pessoa não
cumprir com a obrigação de pagar o crédito que lhe foi concedido. Existe a possibilidade da
construção de faixas de crédito, onde são consideradas faixas de probabilidade, possibilitando
uma maior flexibilidade para a concessão.
Há cada vez mais direcionamento dos termos de concessão de crédito em tempo real
(EXPERIAN, 2021) e os modelos de machine learning estão sendo explorados de diversas
maneiras para que essa mecânica tenha dinamismo aliado à assertividade.
A partir destes pressupostos, o objetivo deste trabalho é construir um modelo de
machine learning capaz de identificar se um indivíduo (pessoa física) será adimplente ou
inadimplente no ato da concessão de crédito, identificando padrões em variáveis que
descrevem características e objetivos de cada indivíduo-observação.
Material e Métodos
A base de dados utilizada neste trabalho foi extraída do repositório de dados online
chamado Kaggle e tem como título ‘German Credit Risk’. Esta base contém 1.000
observações e 10 variáveis, sendo uma delas a variável resposta. A variável resposta é binária
sendo 1 correspondendo ao adimplente e 0 corresponde ao inadimplente. Dentre as variáveis
3
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
4
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
A quantidade de ‘crédito solicitado’ variou entre 250 e 8.000, enquanto que a ‘duração
do crédito’ variou entre 4º e 42º meses e a ‘idade’ entre 19 e 64 anos (Figura 1). Mesmo
desconsiderando os outliers observa-se alta dispersão das variáveis quantitativas deste banco
de dados (Figura 1), mostrando que os dados estão heterogêneos sem apresentar viés de
representatividade.
A Figura 2 contém as frequências de cada componente de cada variável explicativa
qualitativa. Observa-se que existe predominância do sexo masculino em relação ao sexo
feminino na variável ‘sexo’. Este é um ponto relevante em relação ao conjunto de dados pois
como a idade média é de 35 anos, é possível captar o perfil de quem pede empréstimos com
maior frequência desta amostra, isto é, pessoas do sexo masculino e com idade média de 35
anos. Além disso, é possível verificar que existem observações sem valores ou NA em
‘reserva_monetária’ e em ‘classe_social’, que foram tratadas de maneira adequada, conforme
demonstrado adiante.
A Figura 3 mostra a distribuição da variável ‘risco’ sendo possível visualizar que existe
maior proporção de adimplentes (1) em relação aos inadimplentes (0) e que isto pode ter
impacto nos indicadores do modelo, conforme demonstrado nos resultados finais.
5
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
6
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
a) Regressão Logística
É uma técnica de classificação para estimar a probabilidade de uma instância
pertencer a uma determinada classe. Se a probabilidade estimada for maior 50%
(ponto de corte), então o modelo prevê que a instância pertence a classe 1, por
exemplo, caso contrário pertence a classe 0. A regressão logística calcula a soma
ponderada das características de entrada, gerando o logit deste resultado, função
sigmóide que mostra o número entre 0 e 1 (Géron, 2019);
b) Random Forest
É um classificador ensemble, isto é, consiste em um conjunto de classificadores
treinados individualmente, neste caso árvores de decisão, cujas decisões de previsão
da classe são combinadas de acordo com alguma métrica (Marques et al., 2012). Os
parâmetros ajustáveis, ou hiperparâmetros são: número de árvores construídas para
fazer a média das previsões, número máximo de características a serem usadas em
cada árvore e o número mínimo de folhas em cada árvore.
7
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
c) XGBoost
É uma técnica boosting, isto é, combina as soluções de várias árvores de decisão
como classificadores chamados de fracos, criados em paralelo, para obter uma
solução melhor e iterativamente, sempre corrigindo os erros dos classificadores
anteriores (Baldo et al. 2022).
Foi feita aplicação do k-fold cross validation (validação cruzada K-fold), que é um
método estatístico de avaliação e comparação de algoritmos de aprendizagem, e o
gridsearch, para otimização de hiperparâmetros do modelo. O cross validation funciona
dividindo os dados em k (número inteiro) conjuntos: um usado para aprender ou treinar o
modelo e o outro usado para validação. A forma comumente utilizada consiste em dividir o
conjunto de dados em 75% da quantidade total de observações reservadas para treino e 25%
para teste, a fim de avaliar a performance dos modelos primeiro no conjunto de treino e
posteriormente no conjunto de testes.
O número K usado foi 10, o que significa que foram testadas 10 diferentes divisões
entre treino e teste, para no final ser calculado a média dos indicadores de qualidade, tendo
esta média como resultado final. Esta prática é indicada para efetuar ajustes no modelo caso
a avaliação dos indicadores tenha sido muito boa (overfitting) ou muito ruim (underfitting) após
8
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Escolha do método
9
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
𝑉𝑁
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑁+𝐹𝑁 (2)
Resultados e Discussão
10
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Ao realizar a curva ROC, foi possível observar que o modelo escolhido não apresenta
overfitting/underfitting, ou seja, não possui a área embaixo da curva igual à 100% e também
11
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
não tem este indicador menor que 50%, que seria pior que o modelo nulo (Figura 5). Sendo
assim, não se faz necessário uma reavaliação dos procedimentos adotados.
Na sequência, tem-se os resultados da matriz de confusão (a) e curva ROC (b) do
modelo Random Forest aplicado ao conjunto teste (Figura 6).
a) b)
𝑉𝑁 8
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = = = 10,7% (4)
𝑉𝑁+𝐹𝑁 8+67
𝑉𝑃 164
𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 = 𝑉𝑃+𝐹𝑃
= 164+11 = 93,7% (5)
Desta forma, utilizando um ponto de corte de 0,5, teve-se 93,7% dos adimplentes
classificados corretamente e apenas 10,7% dos inadimplentes classificados corretamente.
Como este percentual é muito baixo para prever os inadimplentes, visto que, o objetivo da
utilização do modelo é identificar corretamente tanto adimplentes quanto inadimplentes e
principalmente avaliar corretamente observações que não estão presentes nesta amostra.
Buscou-se realizar uma análise de sensibilidade para encontrar o ponto ótimo entre
sensitividade e especificidade, mesmo que isto acarrete em queda dos principais indicadores,
acurácia e AUC_ROC.
12
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
13
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Após o cálculo do ponto de corte ótimo, foi necessário reaplicar o modelo, com este
novo valor, ao conjunto de teste. A Figura 8 apresenta a nova configuração das classificações
via matriz de confusão.
14
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Figura 9. Variáveis de importância para o modelo Random Forest pelo índice de Gini
Fonte: Resultados originais da pesquisa
Conclusões
15
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Agradecimento
Referências
Baldi; Brunak, S; Chauvin, Y.; Andersen, C.A.F.;Nielsen, H. 2000. Assessing the accuracy of
prediction algorithms for classification: an overview. Bioinformatics.16(5): 412–424.
Baesens, B.; Setiono, R.; Mues, C.; Vanthienen, J. 2003. Using Neural Network Rule
Extraction and Decision Tables for Credit-Risk Evaluation. Management Science. 49(3):
312–329.
Baldo F.; Grando J.; Weege M. K.; Bonassa G. 2022. Adaptive Fast XGBoost for Binary
Classification. Simpósio Brasileiro de Banco de Dados. 37:13-25
Banco Central do Brasil [BACEN]. 2021. Evolução Recente do Crédito no SFN. Disponível
em:
<https://www.bcb.gov.br/content/acessoinformacao/covid19_docs/Evolucao_Recente_do_Cr
edito.pdf > Acesso em: 04 abr. 2022.
Bjoern H. M.; Kelm B. M.; Masuch R.; Himmelreich U.; Bachert P.; Petrich W.; Hamprecht
A.F. 2009. A comparison of random forest and its Gini importance with standard
chemometric methods for the feature selection and classification of spectral data. BMC
Bioinformatics, 10(213)
Blöchlinger, A.; Leippold, M. 2006. Economic benefit of powerful credit scoring. Journal of
Banking & Finance, 30(3): 851–873.
Bruce A.; Bruce P. 2019. Estatística prática para cientistas de dados: 50 conceitos
essenciais .1ed. Editora Alta Books. Rio de Janeiro, RJ, Brasil.
Chaia, A.J. 2003. Modelos de gestão do risco de crédito e sua aplicabilidade ao mercado
brasileiro. Dissertação de Mestrado em Administração. Universidade de São Paulo São
Paulo, SP, Brasil.
16
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Cutler, A.; Cutler, D. R.; Stevens, J. R. 2012. Random Forests. p.157-175. In Cutler, A.;
Cutler, D. R.; Stevens, J. R. Ensemble Machine Learning: Methods and Applications.
Springer, Boston, MA, Estados Unidos.
Dai B.; Chen R. -C.; Zhu S. -Z.; Zhang W. -W. 2018. Using Random Forest Algorithm for
Breast Cancer Diagnosis. International Symposium on Computer, Consumer and Control
(IS3C): 449-452
Davis, J.; Goadrich, M. 2006. The relationship between Precision-Recall and ROC curves.
Proceedings of the 23rd International Conference on Machine Learning 6: 233-240.
Delianedis, G; Geske R.L. 2003. Credit risk and risk neutral default probabilities: information
about rating migrations and defaults. California, LA, Estados Unidos. Disponível em: <
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=424301>. Acesso em: 04 abr.2022.
Duda R.; Hart P.; Stork D. 2000. Pattern classification. 2º edição. John Wiley & Sons, New
York, NY, Estados Unidos
Experian Information Solutions. 2021. Navigating a new era of credit risk decisioning.
Disponível em:
<https://www.experian.com.vn/wpcontent/uploads/2021/07/Decisioning_Report_2021.pdf>.
Acesso em: 04 abr.2022.
Faraggi, D.; Reiser, B. 2002. Estimation of the area under the ROC curve. Statistics in
Medicine 21: 3093–3106.
Ferreira, Paulo H.; Louzada F.; Diniz C. 2015. Credit scoring modeling with state-dependent
sample selection: A comparison study with the usual logistic modeling. Pesquisa
Operacional 35: 39-56.
Gislason, P. O.; Benediktsson, J. A.; Sveinsson, J. R. 2006. Random Forests for land cover
classification. Pattern Recognition Letters 27: 294–300.
Hernández-Orallo, J.; Flach, P.; Ferri Ramírez, C. 2012. A unified view of performance
metrics: Translating threshold choice into expected classification loss. Journal of Machine
Learning Research 13: 2813-2869.
Hush. 1989. Classification with neural networks: a performance analysis. IEEE 1989
International Conference on Systems Engineering. 277-280.
17
Trabalho de Conclusão de Curso apresentado para obtenção do título
de especialista em Data Science e Analytics – 2022
Jurgovsky, J.; Granitzer, M.; Ziegler, K.; Calabretto, S.; Portier, P.E.; He-Guelton, L.; Caelen,
O. 2018. Sequence classification for credit-card fraud detection. Expert Systems with
Applications 100: 234–245.
Provost, F.; Fawcett, T. 2001. Robust Classification for Imprecise Environments. Machine
Learning 42: 203–231
Refaeilzadeh P.; Tang L.; Liu H. 2016. Cross-Validation. In: Liu L.; Özsu M. Encyclopedia of
Database Systems. Springer, New York, NY, Estados Unidos.
Ruopp, M. D.; Perkins, N. J.; Whitcomb, B. W.; Schisterman, E. F. 2008. Youden Index and
Optimal Cut-Point Estimated from Observations Affected by a Lower Limit of Detection.
Biometrical Journal 50: 419–430.
Schisterman, E. F.; Faraggi, D.; Reiser, B.; Hu, J. 2007. Youden Index and the optimal
threshold for markers with mass at zero. Statistics in Medicine 27: 297–315.
Shmilovici A. 2009. Support Vector Machines. Data Mining and Knowledge Discovery
Handbook. Springer, Boston, MA, United States of America
White, I. R.; Daniel, R.; Royston, P. 2010. Avoiding bias due to perfect prediction in multiple
imputation of incomplete categorical variables. Computational Statistics & Data Analysis
54(10): 2267–2275.
Zou Q.; Qu K.; Luo Y.; Yin D.; Ju Y.; Tang H. 2018. Predicting Diabetes Mellitus With
Machine Learning Techniques. Front. Genet. 06: 9-515.
18