Você está na página 1de 8

1.

RESUMO

O objetivo deste trabalho discorrer sobre meus aprendizados vinculados s atividades


desenvolvidas na instituio Ita Unibanco Banco Mltiplo S.A. ao longo do semestre.
Realizei um estgio na Diretoria de Modelagem e Pesquisa do banco, especificamente na
Superintendncia de Mtodos Quantitativos de Crdito.
Minha principal funo durante o semestre foi participar da elaborao de modelos de cobrana
(Collection Score) para as mais diversas reas do banco.
Estive em contato com todo o processo de construo de um modelo de cobrana, portanto
buscarei aqui discorrer separadamente sobre cada uma das etapas da modelagem.

2.1. INTRODUO: O Modelo de Collection Score

Um modelo de Collection Score um tipo de modelo construdo buscando classificar o risco do


cliente em termos de pagamentos futuros.
A populao de entrada do mesmo sempre um pblico j inadimplente. Logo, o objetivo do
modelo justamente fornecer uma medida (score), que ordene tais clientes inadimplentes numa escala de
menor para maior probabilidade de recuperao/regularizao da dvida.

_____________________________________________
vnovas.renan@gmail.com
martinez@ime.unicamp.br
2

Entre as principais utilidades de um modelo de Collection Score est a estruturao de uma rgua
de cobrana, que determine diferentes aes a serem aplicadas nos indivduos inadimplentes, dependendo
do nmero de dias de atraso do mesmo.
Uma rgua de cobrana uma estrutura fixa de polticas a serem aplicadas sobre o indivduo
inadimplente. Tais polticas so mais brandas ou mais agressivas dependendo do nmero de dias em
atraso e do Score do cliente.

Outra grande utilidade do Collection Score seria na quantizao dos descontos a serem aplicados
pra indivduos com maiores atrasos, buscando incentivar a regularizao das dvidas do mesmo.
Pblicos em faixas de atraso mais elevadas tendem a somente regularizar suas dvidas mediante
renegociao da mesma. Portanto, utilizando o modelo possvel precificar o desconto mximo a ser
concedido em cada uma destas renegociaes.

2.2. MODELAGEM: Pblico do modelo

A primeira etapa da construo do modelo consiste na definio exata de qual o pblico alvo
do modelo, para o qual ser gerado um Score.
O pblico escolhido dever ser um subgrupo da populao inadimplente cuja relao entre as
variveis explicativas e a varivel resposta do modelo seja a mais fixa possvel.
Buscando tal estabilidade no poder preditivo das variveis do modelo, uma primeira quebra j
pode ser realizada, a quebra de buckets de atraso.
Buckets de atraso correspondem a faixas de atraso na qual se encontram os indivduos. Podemos
definir por exemplo que existem 3 buckets que desejamos escorar, um de 5 a 30 dias de atraso, outro de
31 a 60 dias de atraso e outro de 61 a 90 dias de atraso.
A motivao para tal diviso seria a de que em cada uma destas faixas de atraso, os motivos que
levam um indivduo a regularizar sua dvida so de natureza distinta. Entretanto dentro da mesma faixa de
atraso, os indivduos apresentam um comportamento bem homogneo, o que permite o agrupamento.
3

Sendo assim, havero modelos isolados para cada um dos buckets, que podero depois ser
realinhados e transpostos para uma mesma escala, buscando fazer com que mesmas faixas de scores
possuam taxas semelhantes de regularizao, independente do modelo.
Outro ponto importante de ateno na seleo do pblico a ser escorado entender desde o incio
qual ser a principal aplicao do modelo, dado que diferentes patamares de atraso sero abordados,
dependendo desta aplicao.
Modelos com aplicaes em rguas de cobrana normalmente buscam escorar faixas mais
recentes de atraso, enquanto modelos de precificao de descontos normalmente escoram faixas de atraso
mais elevadas.
Finalmente deve-se tambm determinar tambm quais sero as safras de pblico (meses de
referncia) utilizadas para a construo do modelo. O nmero de safras dever ser suficiente para garantir
que o modelo possua uma alta estabilidade temporal, e no descalibre to facilmente aps vrios meses de
uso. Entretanto muitas safras podero tambm comear a interferir na capacidade preditiva do modelo nas
safras atuais.

2.3. MODELAGEM: Varivel resposta do modelo

Uma das principais tcnicas de regresso utilizadas para este tipo de modelo a Regresso
Logstica. Com ela, busca-se obter uma resposta binria para o problema a ser modelado.
Um exemplo de possvel varivel resposta para um modelo de cobrana a regularizao da
dvida nos prximos 30 dias.
Caso o indivduo regularize sua dvida no perodo de um ms ele marcado como um indivduo
bom pelo modelo. J indivduos que regularizam aps mais que um ms, ou no regularizam, devem ser
marcados como maus.
A definio de como ser marcada a performance de cada indivduo inadimplente varia de
acordo com a viso da empresa e de seu departamento de cobrana. A varivel resposta do modelo dever
ser um reflexo do que a empresa enxerga como sendo um bom ou um mau indivduo, do ponto de vista de
cobrana.
Nem sempre tal simplificao de bons e maus adotada, j que podem existir subgrupos na
populao inadimplente onde h uma maior dificuldade de categorizao.
Pode ser que a empresa realmente considere quem regularizou a dvida nos prximos 30 dias um
indivduo bom. E pode ser que a empresa realmente considere maus aqueles indivduos que no
regularizaram ou demoraram mais de 90 dias para regularizar suas dvidas.
Entretanto para os indivduos com regularizao entre 31 e 90 dias, o conceito de performance
fica um pouco mais difcil de ser aplicado. Surge ento a alternativa de declarar uma performance
indeterminada para esta subpopulao do pblico, separando-a do restante do pblico para fins de
modelagem.
4

O modelo seria ento construdo apenas analisando a correlao das variveis explicativas com
as populaes boas e ms. Entretanto como a populao indeterminada tambm estar presente no
pblico-alvo de escoragem, ento a equao gerada dever tambm ser capaz de ordenar bem esta
subpopulao indeterminada.
O principal ganho na utilizao da performance indeterminada a obteno de um modelo que
consiga segregar melhor os bons dos maus indivduos. Para isso abdica-se de parte do potencial de
ordenao dos indivduos com performance menos clara do ponto de vista da empresa.

2.4. MODELAGEM: Seleo de variveis

2.4.1. Processo de Seleo: Viso Geral

O foco desta etapa a filtragem de variveis com maior poder explicativo com relao varivel
resposta (performance). Visando garantir a estabilidade e a performance do modelo nas safras atuais, tais
variveis filtradas devero ter um poder explicativo estvel ao longo do tempo.
Normalmente centenas de variveis so submetidas a uma rotina de testes estatsticos buscando
definir um pequeno subconjunto de variveis finalistas do modelo.
O conceito destas variveis finalistas deve ser ento bem compreendido, buscando assim garantir
que o modelo seja realmente coerente com a realidade.
Um dos pontos de ateno nesta etapa a relativizao de variveis absolutas, como por
exemplo, valores monetrios. Uma varivel de saldo em atraso, por exemplo, pode at explicar muito bem
o comportamento do indivduo, entretanto devido inflao ou a outros fatores macroeconmicos que
norteiam o crdito, esta varivel pouco robusta do ponto de vista temporal.
Se relativizarmos por exemplo o saldo em atraso, criando uma varivel que corresponda ao
percentual do limite do carto de crdito do indivduo em atraso. A varivel passa ento a ficar mais
robusta, normalmente at aumentando seu poder explicativo, j que ela perde parte de sua dependncia
das condies macroeconmicas do perodo.
Outro importante ponto de ateno o cuidado de evitar variveis que estejam correlacionadas
com a prpria utilizao do modelo.
Um possvel exemplo o nmero de ligaes que a central de cobrana do banco realiza para o
indivduo. Se a varivel relaciona que quanto mais ligaes o banco realiza, pior o indivduo, ento
quanto mais o banco liga para o indivduo, pior fica seu Score.
Sendo que o Score do indivduo piora, o banco tende a ser ainda mais agressivo em sua poltica
de cobrana, ligando ainda mais para um indivduo. Com isso, o simples fato de o banco realizar uma
ligao para o indivduo, pode transferir o mesmo indivduo para uma diferente rgua de cobrana, mais
agressiva, que pode resultar em atritos desnecessrios entre o banco e o cliente.
5

O ltimo ponto de ateno seria um check-up final, questionando se existe alguma outra varivel
que a equipe de cobrana acredite ser discriminante, entretanto foi filtrada pelos testes estatsticos.
Com isso pode ser realizada uma repescagem de variveis, garantindo que que o modelo
realmente reflita a posio da equipe de cobrana frente ao pblico inadimplente.

2.4.2. Processo de Seleo: Mtodos Estatsticos

Anlise Univariada

Inicialmente buscamos verificar em algumas centenas ou milhares de variveis aquelas que


podem ser utilizadas para o pblico a ser modelado. Para isto verificamos basicamente o preenchimento
destas, independentemente de seus significados.
Variveis com mesmo preenchimento em mais de 98% dos indivduos, por exemplo, poderiam j
ser excludas das etapas de modelagem.

Anlises Multivariadas

Atravs de uma anlise multivariada deseja-se selecionar as variveis mais correlacionadas com
a performance, dentre as que menos estejam correlacionadas entre si.
Para isto as variveis so categorizadas e observa-se a taxa de regularizao dentro de cada uma
das categorias criadas.
Para isto usa-se basicamente o conceito de Information Value (IV), definido abaixo:

( ) ( )

Sendo:

( )

( )

Um exemplo de utilizao do IV na categorizao de uma varivel de idade.


Inicialmente ordenamos o pblico pela varivel idade e o dividimos em 50 grupos de mesma
volumetria. Observamos ento qual a taxa de regularizao dentro de cada grupo.
6

Quanto maior o IV de uma categoria, mais ela se difere da mdia do grupo. Categorias com
mesma regularizao que a taxa mdia de regularizao do pblico recebem 0 de IV. J variveis com
maior ou pior regularizao possuem um IV positivo, diretamente proporcional ao poder da varivel de
distanciar o grupo da mdia do pblico.
O IV da varivel definido como sendo o somatrio dos IVs de todas as categorias.
Aps calcular o IV de todas as variveis, fazemos um teste de correlao entre as variveis e
retiramos as de menor IV, dentro de um grupo de variveis correlacionadas.
Definimos um grupo de variveis correlacionadas, por exemplo, como um grupo de variveis
que possuam entre elas um coeficiente de correlao de postos de Spearman maior que 70% em mdulo,
por exemplo.
O coeficiente de correlao de postos de Spearman definido como sendo o coeficiente de
correlao de Pearson entre as variveis j categorizadas.
Sendo o coeficiente de correlao de Pearson:

( )
( ) ( )

Sendo X e Y as duas variveis das quais deseja-se verificar a correlao.


Selecionando apenas as variveis de maior IV no correlacionadas agora fazemos uma anlise
mais fina da estabilidade do IV ao longo das safras e buscamos variveis que realmente faam sentido
para o modelo.
Caso ainda existam muitas variveis aps tais etapas de filtragem, pode-se definir um ponto de
corte de IV, selecionando apenas variveis, por exemplo, com um IV superior a 5%.

2.5. MODELAGEM: Regresso

Obtidas as variveis finalistas realizada ento uma regresso linear utilizando um algoritmo
stepwise, cuja escolha das variveis preditivas a serem incorporadas ao modelo realizada
automaticamente acrescentando e retirando as variveis finalistas uma a uma da equao final, a fim de se
obter o melhor modelo possvel com uma menor combinao possvel de variveis.
A etapa de regresso um processo basicamente computacional, onde busca-se otimizar a
combinao das variveis utilizadas na equao final, obtendo um bom modelo com um nmero que no
seja excessivo de variveis.
7

3. VALIDAO DO MODELO

Aps construda a equao final do modelo, testamos agora o modelo em safras mais recentes,
fora do perodo de modelagem e verificamos quo bem ele consegue diferenciar o pblico bom do
pblico mau.
Para isso utilizamos basicamente o teste Kolmogorov-Smirnov (KS) e o coeficiente de Gini.
O KS consiste basicamente na maior distncia entre a curva de bons acumulados e a curva de
maus acumulados, com relao ao score.
Sendo que a curva de bons e maus acumulados varia entre 0% e 100%, o mximo KS possvel de
ser obtido vale 1, que ocorre quando existe um escore n para o qual todos os indivduos com score menor
que n so maus e maiores que n so bons, ou vice-versa.

J o coeficiente de Gini busca verificar como est a ordenao nas faixas de score como um todo
e no apenas na faixa onde h uma maior segregao entre a curva acumulada de bons e de maus. O
coeficiente de Gini o mdulo da integral de uma das curvas acumuladas subtrada da integral da outra
curva acumulada.
O coeficiente tambm varia entre 0 e 1, sendo que este vale 1 tambm exatamente quando o KS
da mesma tambm igual a 1.
Caso o modelo satisfaa todos as expectativas com relao sua performance, ele agora j est
pronto para ser utilizado.
Caso haja vrias equaes diferentes para um mesmo modelo, englobando cada uma um
determinado subgrupo do pblico, agora que estas devem ser realinhadas, para que fiquem em uma
8

mesma escala. Tal alinhamento permite que scores semelhantes em diferentes equaes possam ser
comparveis.
Caso ainda haja algum descontentamento com relao performance do modelo, deve-se voltar
s etapas anteriores de seleo de pblico ou de seleo de variveis, buscando encontrar algum ponto de
melhoria no modelo, atravs de uma maior segregao do pblico de modelagem ou da construo de
novas variveis.

4. CONCLUSO

A criao de modelos de cobrana para escorar clientes uma prtica bastante problemtica,
dado a constante mudana do perfil do pblico inadimplente.
Um modelo muito bom de Collection Score pode buscar maximizar a regularizao dos
indivduos inadimplentes, entretanto, se ele for bem sucedido, tal fato ir mudar o pblico inadimplente,
tornando-o cada vez um pblico pior, o que torna sempre necessria a criao de um novo modelo de
cobrana.
Alm disso, os eventos de cobrana de uma empresa sofrem muito impacto de efeitos sazonais,
aps grandes feriados ou por exemplo o recebimento do 13 salrio.
um desafio bem interessante a construo de um modelo suficientemente robusto, que no
descalibre medida que a poltica de cobrana comece a ser implementada utilizando o score gerado.
Deve-se interpretar muito bem os resultados estatsticos obtidos e tentar justificar cada
anormalidade sazonal. Uma greve dos Correios ou uma falha operacional podem causar inmeros
problemas se estiverem presentes no perodo da amostra de modelagem.
Todos os eventos anormais devem ser filtrados ou includos de uma maneira diferenciada no
modelo, buscando maximizar o poder das variveis explicativas de realmente retratar a realidade.

5. REFERNCIAS

http://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient
http://en.wikipedia.org/wiki/Stepwise_regression
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
http://en.wikipedia.org/wiki/Lorenz_curve
http://www.plug-n-score.com/learning/characteristics-selection-using-information-value.htm