Escolar Documentos
Profissional Documentos
Cultura Documentos
Para Risco de Cr
edito
Carlos Diniz
Francisco Louzada
ABE - Associa
c
ao Brasileira de Estatstica
20o SINAPE
Julho / 2012
Modelagem Estatstica
Para Risco de Cr
edito
Carlos Diniz
DEsUFSCar
Francisco Louzada
ICMCUSP
Colaboradores
Helio J. Abreu
Natalia M. Ferreira
Paulo H. Ferreira
Ricardo F. Rocha
Agatha S. Rodrigues
Fernanda N. Scacabarozi
Anderson L. de Sousa
20o SINAPE
Simp
osio Nacional de Probabilidade e Estatstica
30/07 a 03/08 2012
Hotel Tamba
u, Joao Pessoa-PB
Prefacio
Historicamente, os modelos de Credit Scoring compreendem uma
das principais ferramentas de suporte a` concessao de credito. O desenvolvimento de tais modelos baseia-se, geralmente, na construcao de um procedimento formal para descrever quais caractersticas dos clientes estao,
efetivamente, relacionadas com o seu risco de credito e qual a intensidade
e direcao desse relacionamento. A ideia central consiste na geracao de
um escore ou de um grupo de escores atraves dos quais clientes potenciais possam ser ordenados segundo a sua chance de inadimplencia. Neste
livro apresentamos os procedimentos estatsticos comumente utilizados
na modelagem de Credit Scoring.
O presente livro tem como base cinco dissertacoes de mestrado,
defendidas no Programa de Pos-graduacao em Estatstica da UFSCar,
um trabalho de conclusao de curso do Bacharelado em Estatstica da
UFSCar e um trabalho de Iniciacao Cientfica. Trata-se das dissertacoes
de Fernanda Nanci Scacabarozi, intitulada Modelagem de Eventos Raros:
Uma Comparacao e de Natalia Manduca Ferreira, intitulada Presenca de
Dados Missing em Modelos de Regressao Logstica, as quais foram orientadas pelo Prof. Carlos Diniz; as dissertacoes de Helio Jose de Abreu, intitulada Aplicacao de Analise de Sobrevivencia em um Problema de Credit Scoring e Comparacao com a Regressao Logstica, de Ricardo Ferreira
da Rocha, intitulada Combinacao de Classificadores para Inferencia dos
Rejeitados e de Anderson Lus de Sousa, intitulada Redes Probabilsticas
de k-Dependencia para Problemas de Classificacao Binaria, os quais foram orientados pelo Prof. Francisco Louzada; o trabalho de conclusao de
curso de Agatha Sacramento Rodrigues, intitulado Regressao Logstica
com Erro de Medida, orientada pelo Prof. Carlos Diniz e o trabalho de
Iniciacao Cientfica de Paulo Henrique Ferreira da Silva, intitulado Medidas do Valor Preditivo de Modelos de Classificacao Aplicados a Dados
de Credito, orientado pelo Prof. Francisco Louzada.
O livro e composto por 9 captulos. No Captulo 1 apresentamos
as principais etapas de desenvolvimento de um modelo de Credit Scoring. No Captulo 2 apresentamos a metodologia usualmente utilizada
no contexto de risco de credito, ou seja, modelo de regressao logstica e
ii
Sum
ario
1 Introduc
ao `
a Modelagem de Credit Scoring
1.1 Etapas de Desenvolvimento . . . . . . . . . . . .
1.2 Planejamento Amostral . . . . . . . . . . . . . . .
1.2.1 Descricao de um problema - Credit Scoring
1.3 Determinacao da Pontuacao de Escore . . . . . .
1.3.1 Transformacao e selecao de variaveis . . .
1.3.2 Regressao logstica . . . . . . . . . . . . .
1.4 Validacao e Comparacao dos Modelos . . . . . . .
1.4.1 A estatstica de Kolmogorov-Smirnov (KS)
1.4.2 Curva ROC . . . . . . . . . . . . . . . . .
1.4.3 Capacidade de acerto dos modelos . . . . .
2 Regress
ao Logstica
2.1 Estimacao dos Coeficientes . . . . . . . . . . . . .
2.2 Intervalos de Confianca e Selecao de Variaveis . .
2.3 Interpretacao dos Coeficientes do Modelo . . . . .
2.4 Aplicacao . . . . . . . . . . . . . . . . . . . . . .
2.5 Amostras State-Dependent . . . . . . . . . . . . .
2.5.1 Metodo de correcao a priori . . . . . . . .
2.6 Estudo de Comparacao . . . . . . . . . . . . . . .
2.6.1 Medidas de desempenho . . . . . . . . . .
2.6.2 Probabilidades de inadimplencia estimadas
2.7 Regressao Logstica com Erro de Medida . . . . .
2.7.1 Funcao de verossimilhanca . . . . . . . . .
2.7.2 Metodos de estimacao . . . . . . . . . . .
2.7.3 Renda presumida . . . . . . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
3
3
8
9
11
12
15
16
19
22
.
.
.
.
.
.
.
.
.
.
.
.
.
25
26
28
30
31
34
36
37
37
38
39
41
42
43
SUMARIO
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
46
47
48
50
51
52
53
55
57
57
59
59
60
63
.
.
.
.
.
.
67
68
68
69
70
71
72
.
.
.
.
.
.
76
76
78
78
79
80
80
85
86
87
88
iv
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
SUMARIO
.
.
.
.
.
.
.
.
.
.
.
90
93
94
97
98
99
99
101
102
104
107
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
115
116
116
118
118
119
121
121
121
123
124
125
125
131
132
8 An
alise de Sobreviv
encia
8.1 Algumas Definicoes Usuais . . . . . . . . . . . . . . . . .
8.2 Modelo de Cox . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Modelo para comparacao de dois perfis de clientes
8.2.2 A generalizacao do modelo de riscos proporcionais
8.2.3 Ajuste de um modelo de riscos proporcionais . . .
137
138
142
143
144
146
6.3
6.4
6.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Redes Probabilsticas
7.1 Conceitos Probabilsticos . . . . . . . . . . . . . .
7.1.1 Teorema de Bayes . . . . . . . . . . . . . .
7.1.2 Distribuicoes multinomial e Dirichlet . . .
7.1.3 Distribuicao normal - uni e multivariada .
7.1.4 Entropia . . . . . . . . . . . . . . . . . . .
7.1.5 Informacao m
utua . . . . . . . . . . . . .
7.2 Redes Probabilsticas . . . . . . . . . . . . . . . .
7.2.1 Elementos basicos . . . . . . . . . . . . . .
7.2.2 Estruturas de teoria de grafos . . . . . . .
7.2.3 Exemplo basico de uma rede probabilstica
7.2.4 Construcao de uma rede probabilstica . .
7.3 Inferencia . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Estimacao de estruturas de classificacao .
7.3.2 Estimacao de parametros . . . . . . . . . .
7.4 Comparacao entre os metodos de classificacao . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
SUMARIO
8.3
8.4
8.5
8.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
151
154
155
157
159
vi
Captulo 1
Introdu
c
ao `
a Modelagem de
Credit Scoring
A partir de 1933, ano da publicacao do primeiro volume da revista Econometrica, intensificou-se o desenvolvimento de metodos estatsticos para, dentre outros objetivos, testar teorias economicas, avaliar
e implementar polticas comerciais, estimar relacoes economicas e dar suporte `a concessao de credito.
Os primeiros modelos de Credit Scoring foram desenvolvidos entre os anos 40 e 50 e a metodologia basica, aplicada a esse tipo de problema, era orientada por metodos de discriminacao produzidos por Fisher
(1936). Podemos dizer que foi de Durand (1941) o primeiro trabalho conhecido que utilizou analise discriminante para um problema de credito,
em que as tecnicas desenvolvidas por Fisher foram empregadas para discriminar bons e maus emprestimos.
Henry Markowitz (Markowitz, 1952) foi um dos pioneiros na
criacao de um modelo estatstico para o uso financeiro, o qual foi utilizado para medir o efeito da diversificacao no risco total de uma carteira
de ativos.
Fischer Black e Myron Scholes (Black & Scholes, 1973) desenvolveram um modelo classico para a precificacao de uma opcao, uma das
mais importantes formulas usadas no mercado financeiro.
Diretores do Citicorp, em 1984, lancaram o livro Risco e Recompensa: O Negocio de Credito ao Consumidor, com as primeiras mencoes
1
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
1.1
Etapas de Desenvolvimento
1.2
Planejamento Amostral
Introduc
ao `
a Modelagem de Credit Scoring
ser o mais recente possvel a fim de que nao se trabalhe com operacoes
de credito remotas que nao sejam representativas da realidade atual.
Uma premissa fundamental na construcao de modelos de Credit
Scoring, e preditivos em geral, e que a forma como as variaveis cadastrais
se relacionaram com o desempenho de credito no passado, seja similar
no futuro.
Um fator importante a ser considerado na construcao do modelo e
o horizonte de previsao, sendo necessario estabelecer um espaco de tempo
para a previsao do Credit Scoring, ou seja, o intervalo entre a solicitacao
do credito e a classificacao como bom ou mau cliente. Esse sera tambem
o intervalo para o qual o modelo permitira fazer as previsoes de quais
indivduos serao mais ou menos provaveis de se tornarem inadimplentes
ou de serem menos rentaveis. A regra e de 12 a 18 meses, porem na
pratica observamos que um intervalo de 12 meses e o mais utilizado.
Thomas et al. (2002) tambem propoe um perodo de 12 meses
para modelos de Credit Scoring, sugerindo que a taxa de inadimplencia
dos clientes das empresas financeiras em funcao do tempo aumenta no
incio, estabilizando somente apos 12 meses. Assim, qualquer horizonte
mais breve do que esse pode nao refletir de forma real o percentual de
maus clientes prejudicando uma possvel associacao entre as caractersticas dos indivduos e o evento de interesse modelado, no caso, a inadimplencia. Por outro lado, a escolha de um intervalo de tempo muito
longo para o horizonte de previsao tambem pode nao trazer benefcios, fazendo com que a eficacia do modelo diminua, uma vez que, pela distancia
temporal, os eventos se tornam pouco correlacionados com potenciais
variaveis cadastrais, normalmente, obtidas no momento da solicitacao do
credito.
O fator tempo tem uma importancia fundamental na construcao
de modelos preditivos e, de forma geral, tem tres importantes etapas,
como mostra a Figura 1.1. O passado e composto pelas operacoes para
as quais ja foram observados os desempenhos de credito durante um
horizonte de previsao adotado. As informacoes cadastrais dos clientes
no momento da concessao do credito, levantadas no passado mais distante, sao utilizadas como variaveis de entrada para o desenvolvimento
do modelo e os dados do passado mais recente, as observacoes dos de4
Introduc
ao `
a Modelagem de Credit Scoring
Figura 1.1: Estrutura temporal das informacoes para construcao de modelos preditivos.
importante ressaltar que as variaveis de entrada para a consE
trucao do modelo sejam baseadas em informacoes, que necessariamente,
ocorreram antes de qualquer informacao utilizada para gerar a variavel
resposta de interesse. Se dividirmos o passado em perodos de observacao
e desempenho. O perodo de observacao compreende o perodo de tempo
no qual sao obtidas e observadas as informacoes potencialmente relevantes para o evento de interesse, ou seja, o perodo em que se constroi
e obtem as variaveis explanatorias. Em um modelo de Credit Scoring
esse perodo compreende na realidade um u
nico instante, sendo o momento em que um cliente busca obter um produto de credito, podendo
ser chamado de ponto de observacao. O perodo de desempenho e o intervalo de tempo em que e observado a ocorrencia ou nao do evento de
interesse. Esse perodo corresponde a um intervalo de tempo do mesmo
tamanho do horizonte de previsao adotado para a construcao do modelo.
O presente corresponde ao perodo de desenvolvimento do modelo em
que, normalmente, as informacoes referentes a esse perodo ainda nao
estao disponveis, uma vez que estao sendo geradas pelos sistemas das
instituicoes. O futuro e o perodo de tempo para o qual serao feitas as
predicoes, utilizando-se de informacoes do presente, do passado e das
relacoes entre estas, que foram determinadas na construcao do modelo.
Um alerta importante e que modelos preditivos, construdos a
5
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
1.2.1
Descri
c
ao de um problema - Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
1.3
Determinac
ao da Pontua
c
ao de Escore
Uma vez determinado o planejamento amostral e obtidas as informacoes necessarias para o desenvolvimento do modelo, o proximo
passo e estabelecer qual tecnica estatstica ou matematica sera utilizada
para a determinacao dos escores. Porem, antes disso, alguns tratamentos
exploratorios devem sempre ser realizados para que uma maior familia9
Introduc
ao `
a Modelagem de Credit Scoring
rizacao com os dados possa ser obtida. Isto permite uma melhor definicao
da tecnica que sera utilizada e, consequentemente, um aprimoramento do
desenvolvimento do modelo. Essa analise inicial tem alguns objetivos,
dentre os quais, destacam-se:
identificacao de eventuais inconsistencias e presenca de outliers;
comparacao dos comportamentos das covariaveis, no caso de um
Credit Scoring, entre a amostra de bons e maus pagadores, identificando, assim, potenciais variaveis correlacionadas com o evento
modelado;
definicao de possveis transformacoes de variaveis e a criacao de
novas a serem utilizadas nos modelos.
10
Introduc
ao `
a Modelagem de Credit Scoring
Figura 1.3:
50% maus.
1.3.1
Transforma
c
ao e selec
ao de vari
aveis
11
Introduc
ao `
a Modelagem de Credit Scoring
e atraves da tecnica CHAID (Chi-Squared Automatic Interaction Detector), a qual divide a amostra em grupos menores, a partir da associacao de
uma ou mais covariaveis com a variavel resposta. A criacao de categorias
para as covariaveis de natureza contnua ou o reagrupamento das discretas e baseada no teste de associacao Qui-Quadrado, buscando a melhor
categorizacao da amostra com relacao a cada uma dessas covariaveis ou
conjunto delas. Estas novas covariaveis podem, entao, ser utilizadas na
construcao dos modelos, sendo ou nao selecionadas, por algum metodo de
selecao de variaveis, para compor o modelo final. Um metodo de selecao
de variaveis muitas vezes utilizado e o stepwise. Este metodo permite
determinar um conjunto de variaveis estatisticamente significantes para
a ocorrencia de problemas de credito dos clientes, atraves de entradas
e sadas das variaveis potenciais utilizando o teste da razao de verossimilhanca. Os nveis de significancia de entrada e sada das variaveis
utilizados pelo metodo stepwise podem ser valores inferiores a 5%, a fim
de que a entrada e a permanencia de variaveis sem efeito pratico sejam
minimizadas. Outro aspecto a ser considerado na selecao de variaveis,
alem do criterio estatstico, e que a experiencia de especialistas da area
de credito juntamente com o bom senso na interpretacao dos parametros
sejam, sempre que possvel, utilizados.
Na construcao de um modelo de Credit Scoring e fundamental
que este seja simples com relacao `a clareza de sua interpretacao e que
ainda mantenha um bom ajuste. Esse fato pode ser um ponto chave
para que ocorra um melhor entendimento, nao apenas da area de desenvolvimento dos modelos como tambem das demais areas das empresas,
resultando, assim, no sucesso da utilizacao dessa ferramenta.
1.3.2
Regress
ao logstica
Um modelo de regressao logstica, com variavel resposta, Y , dicotomica, pode ser utilizado para descrever a relacao entre a ocorrencia
ou nao de um evento de interesse e um conjunto de covariaveis. No
contexto de Credit Scoring, o vetor de observacoes do cliente envolve
seu desempenho creditcio durante um determinado perodo de tempo,
normalmente de 12 meses, um conjunto de caractersticas observadas no
12
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
1.4
Validac
ao e Compara
c
ao dos Modelos
Introduc
ao `
a Modelagem de Credit Scoring
1.4.1
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
18
Introduc
ao `
a Modelagem de Credit Scoring
1.4.2
Curva ROC
Introduc
ao `
a Modelagem de Credit Scoring
mM : n
umero de maus clientes que foram classificados como Maus
(acerto);
mB : n
umero de bons clientes que foram classificados como Maus
(erro);
bM : n
umero de maus clientes que foram classificados como Bons
(erro);
B
: n
umero total de bons clientes na amostra;
M : n
umero total de maus clientes na amostra;
b
: n
umero total de clientes classificados como bons na amostra;
m : n
umero total de clientes classificados como maus na amostra;
Na area medica, duas medidas muito comuns e bastante utilizadas sao a sensibilidade e a especificidade. Essas medidas, adaptadas ao
contexto de Credit Scoring, considerando o mau cliente como a categoria
de interesse, sao definidas da seguinte forma:
Sensibilidade: probabilidade de um indivduo ser classificado como
mau pagador, dado que realmente e mau;
Especificidade: probabilidade de um indivduo ser classificado como
bom pagador, dado que realmente e bom;
Utilizando as frequencias mostradas na matriz de confusao, temos que a Sensibilidade e dada por mMM e a Especificidade por bBB .
A curva ROC (Zweig & Campbell, 1993) e construda variando
os pontos de corte, cut-off, ao longo da amplitude dos escores fornecidos
pelos modelos, a fim de se obter as diferentes classificacoes dos indivduos
e obtendo, consequentemente, os respectivos valores para as medidas
de Sensibilidade e Especificidade para cada ponto de corte estabelecido.
Assim, a curva ROC, ilustrada na Figura 1.7, e obtida tendo no seu
eixo horizontal os valores de (1-Especificidade), ou seja, a proporcao de
bons clientes que sao classificados como maus clientes pelo modelo, e no
eixo vertical a Sensibilidade, que e a proporcao de maus clientes que sao
classificados realmente como maus. Uma curva ROC obtida ao longo da
diagonal principal corresponde a uma classificacao obtida sem a utilizacao
de qualquer ferramenta preditiva, ou seja, sem a presenca de modelos.
Consequentemente, a curva ROC deve ser interpretada de forma que
quanto mais a curva estiver distante da diagonal principal, melhor o
desempenho do modelo em questao. Esse fato sugere que quanto maior
20
Introduc
ao `
a Modelagem de Credit Scoring
Introduc
ao `
a Modelagem de Credit Scoring
1.4.3
Em um modelo com variavel resposta binaria, como ocorre normalmente no caso de um Credit Scoring, temos o interesse em classificar
os indivduos em uma das duas categorias, bons ou maus clientes, e obter um bom grau de acerto nestas classificacoes. Como, geralmente, nas
amostras testes, em que os modelos sao avaliados, se conhece a resposta
dos clientes em relacao a sua condicao de credito, e estabelecendo criterios
para classificar estes clientes em bons e maus, torna-se possvel comparar
a classificacao obtida com a verdadeira condicao creditcia dos clientes.
A forma utilizada para estabelecer a matriz de confusao, Figura
1.6, e determinar um ponto de corte (cutoff ) no escore final dos modelos
tal que, indivduos com pontuacao acima desse cutoff sao classificados
como bons, por exemplo, e abaixo desse valor como maus clientes e comparando essa classificacao com a situacao real de cada indivduo. Essa
matriz descreve, portanto, uma tabulacao cruzada entre a classificacao
predita atraves de um u
nico ponto de corte e a condicao real e conhecida de cada indivduo, em que a diagonal principal representa as classificacoes corretas e valores fora dessa diagonal correspondem a` erros de
classificacao.
A partir da matriz de confusao determinada por um ponto de
corte especfico e representada pela Figura 1.6, algumas medidas de capacidade de acerto dos modelos sao definidas a seguir:
Capacidade de Acerto Total (CAT)=
bB +mM
n
mM
M
bB
bB +bM
mB
mB +mM
22
bB
B
(Especifici-
(Sensibili-
Introduc
ao `
a Modelagem de Credit Scoring
Prevalencia (PVL) =
bB +mB
n
bB mM bM mB
(bB +bM )(bB +mB )(mM +bM )(mM +mB )
A Prevalencia, proporcao de observacoes propensas a caracterstica de interesse ou a probabilidade de uma observacao apresentar a
caracterstica de interesse antes do modelo ser ajustado, e um medida de
extrema importancia, principalmente quando tratamos de eventos raros.
A Capacidade de Acerto Total e tambem conhecida como Acuracia ou Proporcao de Acertos de um Modelo de Classificacao. Esta medida
tambem pode ser vista como uma media ponderada da sensibilidade e
da especificidade em relacao ao n
umero de observacoes que apresentam
23
Introduc
ao `
a Modelagem de Credit Scoring
V PP =
SENS PVL
,
SENS PVL + (1 SPEC) (1 PVL)
SPEC (1 PVL)
.
SPEC (1 PVL) + SENS PVL
24
Captulo 2
Regress
ao Logstica
Os modelos de regressao sao utilizados para estudar e estabelecer uma relacao entre uma variavel de interesse, denominada variavel
resposta, e um conjunto de fatores ou atributos referentes a cada cliente,
geralmente encontrados na proposta de credito, denominados covariaveis.
No contexto de Credit Scoring, como a variavel de interesse e
binaria, a regressao logstica e um dos metodos estatsticos utilizado com
bastante frequencia. Para uma variavel resposta dicotomica, o interesse e
modelar a proporcao de resposta de uma das duas categorias, em funcao
comum adotarmos o valor 1 para a resposta de maior
das covariaveis. E
interesse, denominada sucesso, o qual pode ser utilizado no caso de um
proponente ao credito ser um bom ou um mau pagador.
Normalmente, quando construmos um modelo de Credit Scoring, a amostra de desenvolvimento e formada pela selecao dos clientes
contratados durante um perodo de tempo especfico, sendo observado
o desempenho de pagamento desses clientes ao longo de um perodo de
tempo posterior e pre-determinado, correspondente ao horizonte de previsao. Esse tempo e escolhido arbitrariamente entre 12 e 18 meses, sendo
na pratica 12 meses o intervalo mais utilizado, como ja mencionado no
Captulo 1, em que a variavel resposta de interesse e classificada, por
exemplo, em bons (y = 0) e maus (y = 1) pagadores, de acordo com a
importante
ocorrencia ou nao de problemas de credito nesse intervalo. E
chamar a atencao que ambos os perodos de selecao da amostra e de
desempenho de pagamento estao no passado, portanto a ocorrencia
25
Regress
ao Logstica
exp(0 + 1 x1 + . . . + k xk )
,
1 + exp(0 + 1 x1 + . . . + k xk )
2.1
Estimac
ao dos Coeficientes
Dada uma amostra de n clientes (yi , xi ), sendo yi a variavel resposta bons e maus pagadores e xi = (xi1 , xi2 , . . . , xik )0 , em que
xi1 , xi2 , . . . , xik sao os valores dos k atributos observados do i-esimo cliente, i = 1, . . . , n, o ajuste do modelo logstico consiste em estimar os
parametros j , j = 1, 2, . . . , k, os quais definem (x).
Os parametros sao geralmente estimados pelo metodo de maxima verossimilhanca (Hosmer & Lemeshow, 2000). Por este metodo, os
coeficientes sao estimados de maneira a maximizar a probabilidade de se
obter o conjunto de dados observados a partir do modelo proposto. Para
o metodo ser aplicado, primeiramente construmos a funcao de verossimilhanca que expressa a probabilidade dos dados observados, como funcao
26
Regress
ao Logstica
(2.1)
Uma vez que as observacoes, ou seja, os clientes sao considerados independentes, a funcao de verossimilhanca pode ser obtida como
produto dos termos em (2.1)
L() =
n
Y
(xi ).
(2.2)
i=1
n
X
i=1
[yi (xi )] = 0,
i=1
n
X
para j = 1, . . . , k,
i=1
as quais, uma vez solucionadas via metodos numericos, como por exemplo
Newton-Raphson, fornecem as estimativas de maxima verossimilhanca.
Esse metodo numerico e o mais comum de ser encontrado nos pacotes
estatsticos.
27
Regress
ao Logstica
2.2
Intervalos de Confian
ca e Sele
c
ao de
Vari
aveis
Regress
ao Logstica
(2.4)
n
X
)
[yi log(yi ) + (1 yi ) log(1 yi )]
i=1
= 2
( n
X
yi [log(b
i ) log(yi )]
i=1
+ (1 yi ) [log(1
bi ) log(1 yi )]}
= 2
n
X
i1
yi log
bi
yi
+ (1 yi ) log
1
bi
1 yi
,
(2.5)
sendo
i =
(xi ).
A significancia de uma covariavel pode ser obtida comparando
o valor da Deviance (D) para os modelos com e sem a covariavel de interesse. A mudanca ocorrida em D devido a` presenca da covariavel no
modelo e obtida da seguinte forma
G = D(modelo sem a covariavel) D(modelo com a covariavel).
Uma vez que a verossimilhanca do modelo saturado e comum em
29
Regress
ao Logstica
(2.6)
A estatstica (2.6), sob a hipotese de que o coeficiente da covariavel de interesse que esta sendo testada e nulo, tem distribuicao 21 .
Esse teste, conhecido como teste da Razao de Verossimilhanca, pode ser
conduzido para mais do que uma variavel simultaneamente. Uma alternativa ao teste da Razao de Verossimilhanca e o teste de Wald. Para
um u
nico parametro, a estatstica de Wald e obtida comparando a estimativa de maxima verossimilhanca do parametro de interesse com o seu
respectivo erro-padrao.
Para um modelo com k covariaveis temos, para cada parametro,
H0 : j = 0, j = 0, 1, . . . , k, cuja estatstica do teste e dada por
Zj =
bj
,
d (bj )
EP
2.3
Interpretac
ao dos Coeficientes do Modelo
Regress
ao Logstica
(1)/(1 (1))
.
(0)/(1 (0))
1+e0 +1
2.4
Aplicac
ao
Regress
ao Logstica
Regress
ao Logstica
Estimativa
-1,1818
0,5014
-0,1784
-0,4967
0,4604
-0,2659
0,5439
0,1963
-0,0068
-0,8421
1,8436
1,3207
0,2452
-1,2102
-1,3101
-0,6338
Erro
Padrao
0,2331
0,0403
0,0403
0,0802
0,1551
0,0910
0,2273
0,2284
0,2476
0,8351
0,1383
0,1172
0,1123
0,1576
0,2150
0,4470
Valor-p
<,0001
<,0001
<,0001
<,0001
0,0030
0,0035
0,0167
0,3903
0,9780
0,3133
<,0001
<,0001
0,0290
<,0001
<,0001
0,1562
Odds
ratio
2,726
0,700
0,450
1,171
0,567
1,545
1,091
0,891
0,386
8,158
4,836
1,650
0,385
0,348
0,685
TEMPO DE RESIDENCIA:
notamos que quanto menor o tempo
33
Regress
ao Logstica
2.5
Amostras State-Dependent
Regress
ao Logstica
35
Regress
ao Logstica
i
.
i + (1 i )
exp
x
exp xi log
i
=
.
i =
=
0
0
0
exp xi +
1 + 1 exp xi
1 + exp xi log
Pela expressao acima, observamos que i obedece o mesmo formato de
um modelo de regressao logstica e, com excecao do intercepto, os mesmos
parametros presentes na full sample se aplicam aqui. O intercepto da
full sample pode ser recuperado adicionando log ao intercepto, 0 , da
selected sample. Um estimador consiste e eficiente de 0 e apresentado
na subsecao 2.5.1.
2.5.1
M
etodo de correc
ao a priori
A tecnica de correcao a priori envolve o calculo dos estimadores de maxima verossimilhanca dos parametros do modelo de regressao
logstica e a correcao destas estimativas, com base na informacao a priori
da fracao de eventos na populacao (prevalencia populacional, ou seja,
a proporcao de eventos na populacao) e a fracao de eventos observados
36
Regress
ao Logstica
0 log
.
1 y
A maior vantagem da tecnica de correcao a priori e a facilidade
de uso, ja que os parametros do modelo de regressao logstica podem ser
estimados da forma usual e apenas o intercepto deve ser corrigido.
2.6
Estudo de Compara
c
ao
Com o objetivo de comparar o comportamento, isto e, a distribuicao das probabilidades de inadimplencia estimadas e a capacidade
preditiva dos modelos obtidos pela regressao logstica usual e pela regressao logstica com selecao de amostras state-dependent, construmos
os dois modelos a partir de amostras geradas 1 com diferentes tamanhos
e proporcoes de bons e maus pagadores, as quais apresentamos a seguir:
1. 50% (10000 bons pagadores) e 50% (10000 maus pagadores)
2. 75% (30000 bons pagadores) e 25% (10000 maus pagadores)
3. 90% (90000 bons pagadores) e 10% (10000 maus pagadores)
Os principais resultados deste estudo de simulacao, tambem encontrados em Louzada et al. (2012), sao apresentados nas subsecoes seguintes.
1
37
Regress
ao Logstica
2.6.1
Medidas de desempenho
38
Regress
ao Logstica
2.6.2
Probabilidades de inadimpl
encia estimadas
O modelo de regressao logstica usual determina as probabilidades de inadimplencia originais, enquanto que o modelo de regressao
logstica com selecao de amostras state-dependent determina as probabilidades corrigidas ou ajustadas. As Figuras 2.2 a 2.4 apresentam as
curvas da probabilidade de inadimplencia obtidas dos modelos original e
ajustado, segundo os tres graus de desbalanceamento considerados. Observamos que, independentemente do grau de desbalanceamento da amostra de treinamento, as probabilidades estimadas sem o ajuste no termo
constante da equacao estao abaixo das probabilidades com o ajuste. Ou
seja, o modelo de regressao logstica subestima a probabilidade de inadimplencia. Notamos, tambem, que a distancia entre as curvas diminui
a` medida que o grau de desbalanceamento da amostra se torna mais
acentuado. Para o caso de amostras balanceadas, 50% bons pagadores e
50% maus pagadores, a distancia entre as curvas e a maior observada,
enquanto que para o caso de amostras desbalanceadas com 90% bons pagadores e 10% maus pagadores, as curvas estao muito proximas uma da
outra.
39
Regress
ao Logstica
Regress
ao Logstica
2.7
Regress
ao Logstica com Erro de Medida
41
Regress
ao Logstica
2.7.1
Fun
c
ao de verossimilhanca
n Z
Y
i=1
n Z
Y
fY W X (yi , wi , xi )dxi
fY |W,X (yi |wi , xi )fW |X (wi |xi )fX (xi )dxi , (2.7)
i=1
exp(0 + 1 xi )
.
1 + exp(0 + 1 xi )
42
Regress
ao Logstica
2.7.2
M
etodos de estimac
ao
2.7.3
Renda presumida
Uma covariavel importante para predizer se um cliente sera inadimplente ou nao em instituicoes bancarias e a sua renda. Se o cliente
nao pertence ao portfolio da instituicao e possvel que sua renda nao esteja disponvel. Nestes casos, modelos de renda presumida sao utilizados
e, consequentemente, a covariavel renda e medida com erro. Um modelo
utilizado para renda presumida e o modelo de regressao gama.
Como exemplo, considere as seguintes variaveis explicativas categoricas: profissao, com cinco categorias: varejistas, profissionais liberais, servidores p
ublicos, executivos e outros, e escolaridade, com tres
categorias: ensino fundamental, medio e superior. Neste caso, como
as variaveis profissao e escolaridade sao categoricas, usamos variaveis
dummies. Se uma variavel apresenta k categorias, o modelo tera k 1
dummies referentes a essa variavel. As Tabelas 2.4 e 2.5 mostram a
43
Regress
ao Logstica
i
,
i
i = e i =
.
i
A distribuicao gama reparametrizada pertence `a famlia exponencial na forma canonica, cuja funcao de ligacao e
i =
1
.
i
1
.
0 + 1 D1i + 2 D2i + 3 D3i + 4 D4i + 5 D5i + 6 D6i
44
Regress
ao Logstica
45
Captulo 3
Modelagem Para Eventos
Raros
Em muitas situacoes praticas, temos interesse em descrever a
relacao entre uma variavel resposta extremamente desbalanceada e uma
ou mais covariaveis. No mercado financeiro, comumente, o interesse reside em determinar as probabilidades de que clientes cometam acoes fraudulentas ou nao paguem a primeira fatura, sendo que a proporcao destes
clientes e muito pequena.
Existem alguns estudos na literatura que revelam que o modelo
de regressao logstica usual subestima a probabilidade do evento de interesse, quando este e construdo utilizando bases de dados extremamente
desbalanceadas (King & Zeng, 2001). Para este modelo, os estimadores
de maxima verossimilhanca sao, assintoticamente, nao viciados e, mesmo
para grandes amostras, este vcio persiste. McCullagh & Nelder (1989)
sugerem um estimador para o vcio, para qualquer modelo linear generalizado, adaptado por King & Zeng (2001) para o uso concomitante com
amostras state-dependent, permitindo que uma correcao seja efetuada nos
estimadores de maxima verossimilhanca. King & Zeng (2001) sugerem,
ainda, que as correcoes sejam realizadas nas probabilidades do evento
de interesse, estimadas por meio do modelo de regressao logstica. Tais
correcoes permitem diminuir o vcio e o erro quadratico medio de tais
probabilidades.
Outros modelos, presentes na literatura, desenvolvidos especial46
3.1
mesmo que seja corrigido pelo vcio estimado, P Y = 1|, xi e viciado para (xi ). Nesta secao, discutimos metodos para a correcao destes
47
estimadores.
3.1.1
Corre
c
ao nos par
ametros
(3.1)
i = ei / (1 + ei )
e
00
i = ei (1 ei )/(1 + ei )3 .
Assim,
i = 0, 5
1 ei
1 + ei
Qii .
i = 1 i1 (1 i ) ,
00
= 1 i1 (1 i ) [1 (1 1 ) i ] ,
i = 0, 5Qii [(1 1 ) i 1 ] .
A matriz de informacao de Fisher do modelo e dada por
48
E
2 L (|y)
j k
=
n
X
h 0
i
0
i (1 i ) xj i xk = X W X
j,k
i=1
com W = diag [i (1 i ) i ].
cio().
SeO estimador corrigido pelo vcio e dado por = v
gundo McCullagh & Nelder (1989), a matriz de variancias e covariancias
2
2
n
n
de e aproximadamente
V (). Como
< 1 temos
n+p1
n+p1
< V (),
ou seja, a diminuicao no vcio dos estimadores do
que V ()
modelo causa uma diminuicao na variancia dos mesmos.
3.1.2
Corre
c
ao nas probabilidades estimadas
< V ().
Assim,
e menos viciado do que para e, alem disso, V ()
(xi ) e prefervel a
(xi ). No entanto, segundo Geisser (1993) e King
& Zeng (2001), este estimador nao e otimo porque nao leva em conta
a incerteza a respeito de , e isto pode gerar estimativas viesadas da
probabilidade de evento.
Uma maneira de levar em contar a incerteza na estimacao do
modelo e escrever (xi ) como
Z
P (Yi = 1) = P (Yi = 1| ) P ( ) d ,
(3.2)
sendo que P () representa a incerteza com relacao a . Observe que a expressao (3.2) pode ser vista como E [P (Yi = 1| )]. Sob o ponto de vista
h
i
V ()
.
Bayesiano podemos usar a densidade a posteriori N ormal ,
Existem duas formas de calcular a integral em (3.2). A primeira e usando
aproximacao Monte Carlo, ou seja, retirando uma amostra de a par0
0
tir de P (), inserindo esta amostra em exi / 1 + exi e calculando a
media destes valores. Aumentando o n
umero de simulacao nos permite
aproximar P (Yi = 1) a um grau de acuracia desejavel. A segunda e exx0
pandindo em serie de Taylor a expressao (x0 ) = e 0x0 em torno de
1+e
49
=
2
(x0 )
1
,
+
2
0 =
(3.3)
sendo
(x0 )
(x0 )
0
0
=
(x0 ) (1
(x0 )) x0 ,
0
= (0, 5
(x0 ))
(x0 ) (1
(x0 )) x0 x0
e umamatriz
de ordem k k cujo (k, j)esimo elemento e igual a
exi
0
1 + exi
(x0 ) +
(x0 ) (1
(x0 )) x0 b
i
0 h
+ bb0 x00 ,
+ (0, 5 +
(x0 ))
(x0 )
2 (x0 ) x0 V ()
com b = E 0. Logo, podemos escrever (xi ) como
i = P (Yi = 1) =
(xi ) + Ci ,
com
0
i
Ci = (0, 5
(xi ))
(xi ) (1
(xi )) xi V ()x
(3.4)
50
que E , E (
) nao e aproximadamente igual a . Na realidade,
podemos
interpretando a integral em (3.2) como um valor esperado sob ,
escrever E (
) + Ci , e o fator de correcao pode ser pensado como
um vies. Surpreendentemente, subtraindo o fator de correcao (
Ci )
teremos um estimador aproximadamente nao-viesado, mas, adicionando
o vies, (
+ Ci ) teremos um estimador com erro quadratico medio menor
do que o estimador usual.
O estimador da probabilidade do evento de interesse (xi ) =
3.2
exi
(xi ) =
0 ,
1 + exi
(3.5)
3.2.1
Estima
c
ao
x0
e i
yi log
l (, ) =
0
1 + exi
i=1
x0 )
e i
+ (1 yi ) log 1
I(0,1) ().
0
1 + exi
(3.6)
Os estimadores de maxima verossimilhanca sao obtidos maximizando-se a expressao (3.6). As derivadas da funcao de verossimilhanca
com relacao aos parametros 0 , 1 , . . . , p1 e sao dadas, respectivamente, por
n
X
[yi (xi )] ,
(3.7)
i=1
n
X
(3.8)
i=1
n
X
yi (xi )
i=1
1 (xi )
(3.9)
. Desta forma, a
nativa e considerar a reparametrizacao = log 1
funcao de verossimilhanca pode ser reescrita como
n
X
e
1
l (, ) =
yi log
0
1 + e
1 + exi
i=1
)
1
e
, (3.10)
+ (1 yi ) log 1
0
1 + e
1 + exi
3.2.2
M
etodo BFGS
t t t t t0 t
+ 0
t dt,
t0 t
t t t
0
com t = t t = t+1
t , t = g (t+1 ) g (t ), t = t t t e
dt = t1t t 0 1t t t t .
t
3.3
1 e
h = , 1 = 0
1
2 ||
1
, 2 > 0
h = , 2 = 0
1
2 log (1 2 ||) , 2 < 0
Quando 1 = 2 = 0 o modelo resultante e o logito usual.
A funcao h aumenta mais rapidamente ou mais vagarosamente
do que a curva do modelo logito usual, como podemos ver na Figura 3.2.
Os parametros 1 e 2 determinam o comportamento das caudas. Se
1 = 2 a curva de probabilidade correspondente e simetrica.
3.3.1
Estima
c
ao
Figura 3.2: Graficos de e h: a linha solida representa o modelo logito usual, a linha tracejada corresponde ao modelo logito generalizado
com = (1, 1) e a linha pontilhada corresponde ao modelo logito
generalizado com = (0, 25; 0, 25).
e a matriz usual X acrescida de duas colunas
adicionais contendo as
g()
g()
0
variaveis z = (z1,t+1 , z2,t+1 ) = 1 , 2 |,
t , sendo
zi,t+1
1 2
=
sgn(), i = 0
com i =
i,t , = t = x0 t e (t ,
t ) a estimativa de (, ) na t-esima
iteracao. Os elementos de z correspondem aos parametros de forma e
devem ser atualizados a cada iteracao.
Stukel (1985) sugere, ainda, uma maneira alternativa de estimar
os parametros do modelo logito generalizado, que consiste em estimar
o vetor de parametros considerando varios valores de e escolhendo
como estimativa o conjunto de valores que maximize a verossimilhanca.
57
3.4
3.4.1
Modelo normal
exi
E (Yi ) = (xi ) = P (Yi = 1) =
= g 1 (x0i ) ,
0
1 + exi
(3.11)
58
i C
i C
= P Zi <
=
,
(3.12)
sendo Zi uma variavel aleatoria com distribuicao normal padrao e distribuicao acumulada . Das equacoes (3.11) e (3.12), temos que
i C
(xi ) =
= g 1 (x0i ) , i = 1, . . . , n,
(3.13)
ou ainda,
i C
g ((xi )) = g
= x0i = i ,
i = 1, . . . , n,
i = 1, . . . , n.
ri 1 g 1 (x0i ) C
,
L , 2 ; r = 2 2 2 exp 2
2 i=1
e o logaritmo da funcao de verossimilhanca e dado por
n
2
n
1 X
2
l , ; r = log 2 2
ri 1 g 1 (x0i ) C .
2
2 i=1
(3.14)
2
59
3.4.2
Modelo exponencial
i > 0,
i = 1, . . . , n.
(3.15)
Dessa forma,
P (Ri > C) = ei C ,
i = 1, . . . , n.
(3.16)
(3.17)
g ei C = x0i ,
(3.18)
e, portanto,
sendo g [exp ()] a funcao de ligacao que origina o preditor linear x0i ,
i = 1, . . . , n.
A funcao de verossimilhanca para o modelo logstico com resposta
exponencial e dada por
)
(
n
ri /C
1
0
1
0
Y
log [g (xi )] [g (xi )]
.
(3.19)
L (; r) =
C
i=1
com i dado por
log [g 1 (x0i )]
.
C
Aplicando o logaritmo em (3.19) temos a funcao de log-verossimilhanca
dada por
i =
l (; r) =
n
X
i=1
3.4.3
n
1 X
log log g 1 (x0i )
ri log g 1 (x0i ) n log (C) .
C i=1
Modelo lognormal
i log(C)
i log(C)
(xi ) = P Zi <
=
,
i = 1, . . . , n.
(3.20)
na qual Zi e uma variavel aleatoria com distribuicao normal padrao e
distribuicao acumulada . Logo, de (3.20) temos
i = 1 g 1 (x0i ) + log(C).
(3.21)
L , 2 ; r = 2
n
2 2
n
1 X
exp 2
[log(ri ) i ]2
2 i=1
)
,
(3.22)
3.4.4
Estudo de simulac
ao
Nesta secao apresentamos um estudo de simulacao para analisarmos os desempenhos dos modelos logsticos com resposta de origem
lognormal e usual, em duas prevalencias. A distribuicao lognormal e co61
0,10
0
1
2
3
0
1
2
3
Vcio
-0,146
-0,022
-0,0003
0,104
-0,046
-0,001
0,001
0,043
0,10
0
1
2
3
0
1
2
3
90%
(0,932; 1,126)
(0,402; 1,480)
(0,761; 1,238)
(0,900; 1,174)
(0,944; 1,072)
(0,844; 1,157)
(0,922; 1,076)
(0,930; 1,097)
95%
(0,919; 1,159)
(0,302; 1,563)
(0,724; 1,288)
(0,883; 1,216)
(0,932; 1,085)
(0,818; 1,192)
(0,908; 1,089)
(0,920; 1,117)
99%
(0,894; 1,254)
(0,077; 1,786)
(0,617; 1,367)
(0,847; 1,356)
(0,921; 1,125)
(0,780; 1,240)
(0,879; 1,089)
(0,891; 1,169)
0,10
1
2
3
1
2
3
90%
(1,457; 4,469)
(4,397; 12,062)
(87,12; 369,905)
(2,234; 3,276)
(6,059; 8,966)
(101,215; 255,177)
95%
(1,306; 4,940)
(3,973; 13,435)
(81,527; 437,423)
(2,159; 3,431)
(5,886; 9,274)
(94,817; 288,825)
99%
(1,062; 6,093)
(3,336; 16,684)
(62,517; 904,604)
(2,053; 3,712)
(5,574; 10,018)
(82,262; 402,277)
0,10
1
2
3
1
2
3
90%
(2,207; 3,329)
(6,034; 9,192)
(120,810; 180,553)
(2,433; 3,037)
(6,636; 8,323)
(124,913; 176,059)
95%
(2,130; 3,473)
(5,818; 9,528)
(117,774; 187,391)
(2,362; 3,123)
(6,482; 8,496)
(121,539; 180,823)
99%
(2,009; 3,890)
(5,428; 10,209)
(110,959; 199,106)
(2,300; 3,265)
(6,168; 8,739)
(115,152; 192,856)
0,10
0
1
2
3
0
1
2
3
Modelo
90%
0,917
0,898
0,900
0,905
0,914
0,899
0,900
0,900
logstico
95%
0,975
0,952
0,947
0,970
0,961
0,954
0,944
0,960
usual
99%
0,995
0,993
0,990
0,992
0,992
0,994
0,993
0,994
Modelo
90%
0,908
0,921
0,899
0,910
0,901
0,899
0,899
0,901
resposta de origem
95%
99%
0,954
0,992
0,961
0,992
0,952
0,995
0,967
0,993
0,948
0,989
0,953
0,987
0,946
0,983
0,948
0,987
0,10
3.5
0
1
2
3
0
1
2
3
Modelo
90%
3,670
1,094
0,990
3,662
0,969
0,387
0,384
0,908
logstico
95%
4,387
1,308
1,183
4,376
1,159
0,463
0,459
1,085
usual
99%
5,752
1,715
1,551
5,739
1,519
0,607
0,602
1,423
Modelo
90%
0,388
0,432
0,417
0,412
0,395
0,226
0,236
0,330
resposta de origem
95%
99%
0,464
0,608
0,517
0,678
0,498
0,653
0,492
0,645
0,472
0,619
0,270
0,354
0,282
0,370
0,395
0,518
An
alise de Dados Reais
Nesta secao analisamos um conjunto de dados reais de uma instituicao financeira, cuja variavel resposta representa fraude em cartao de
credito. As covariaveis sao descritas com nomes fictcios. Os dados originais possuem 172452 observacoes, das quais apenas 2234 representam
64
GL
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Estimativas
-2,677
0,588
0,500
0,215
-0,068
-0,336
0,522
-0,411
0,445
-0,720
-0,233
0,094
0,278
0,161
0,449
Erro Padr
ao
0,159
0,034
0,062
0,064
0,067
0,064
0,087
0,146
0,275
0,130
0,085
0,069
0,070
0,110
0,093
Teste de Wald
280,6489
290,583
65,021
11,307
1,052
27,249
36,013
7,916
2,616
30,625
7,560
1,853
15,788
2,134
23,300
Valor-p
0,0001
0,0001
0,0001
0,0008
0,304
0,0001
0,0001
0,004
0,105
0,0001
0,006
0,173
0,0001
0,144
0,0001
GL
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Estimativas
0,234
-0,770
0,704
0,602
0,240
-0,082
-0,401
0,677
-0,553
0,707
-0,795
-0,270
0,099
0,323
0,149
0,528
Erro Padr
ao
0,089
0,686
0,077
0,091
0,078
0,078
0,080
0,138
0,265
0,516
0,146
0,097
0,080
0,086
0,129
0,122
Teste de Wald
2,611
-1,121
9,116
6,546
3,083
-1,058
-4,964
4,891
-2,086
1,370
-5,437
-2,773
1,232
3,749
1,155
4,305
Valor-p
0,009
0,261
<0,001
<0,001
0,0020
0,289
<0,0001
<0,001
0,036
0,170
<0,001
0,005
0,217
0,0001
0,247
<0,001
GL
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Estimativas
1,02
-1,266
0,140
0,118
0,046
-0,016
-0,079
0,131
-0,103
0,136
-0,147
-0,052
0,017
0,060
0,025
0,104
Erro Padr
ao
Teste de Wald
Valor-p
0,050
0,008
0,015
0,015
0,015
0,013
0,023
0,046
0,089
0,025
0,018
0,015
0,016
0,025
0,023
-25,106
16,233
7,875
3,031
-1,116
-5,728
5,564
-2,255
1,514
-5,816
-2,881
1,101
3,717
1,007
4,478
<0,001
<0,001
<0,001
0,002
0,264
<0,001
<0,001
0,024
0,129
<0,001
0,003
0,270
0,0002
0,313
<0,001
AIC
8726,026
8725,026
8729,12
BIC
8854,676
8819,315
8823,409
-2log(verossimilhanca)
8696,815
8693,026
8697,120
SENS
0,632
0,622
0,632
0,713
0,701
0,703
SPEC
0,683
0,673
0,681
0,616
0,627
0,674
VPP
0,052
0,051
0,052
0,049
0,049
0,053
VPN
0,985
0,985
0,985
0,987
0,986
0,985
CAT
0,682
0,662
0,680
0,618
0,629
0,674
MCC
0,109
0,107
0,108
0,109
0,109
0,113
Dos resultados apresentados podemos concluir que os desempenhos preditivos dos modelos de classificacao estudados foram similares.
No entanto, o modelo logito usual com estimadores KZ e o que apresenta
medidas indicando um poder predito mais efetivo.
67
Captulo 4
Credit Scoring com Infer
encia
dos Rejeitados
Os modelos de Credit Scoring, como mencionado no Captulo 1,
sao desenvolvidos a partir de bases historicas de performance de credito
dos clientes, alem de informacoes pertinentes ao produto. A amostra utilizada no desenvolvimento de um modelo de Credit Scoring deve refletir
as caractersticas presentes na carteira, ou na populacao total. Porem,
devido ao fato de que varios clientes nao aprovados no processo de selecao
nao tem seus comportamentos observados e sao excludos da amostra utilizada na construcao do modelo, mesmo pertencendo a` populacao total
de clientes, suas peculiaridades nao serao absorvidas por este modelo.
Desta forma, as amostras usuais, formadas apenas pelos clientes aceitos,
nao sao totalmente representativas da populacao de interesse e, possivelmente, existe um vcio amostral intrnseco. A Figura 4.1 apresenta um
esquema da distribuicao dos dados para um modelo de Credit Scoring.
Esse vcio pode ser mais ou menos influente no modelo final de
acordo com a proporcao de rejeitados em relacao ao total de proponentes. Quanto maior essa proporcao, mais importante e o uso de alguma
estrategia para a correcao deste vcio. Para solucionar esse problema,
apresentamos, neste captulo, algumas tecnicas de inferencia dos rejeitados.
68
4.1
M
etodos de Infer
encia dos Rejeitados
4.1.1
M
etodo da reclassificac
ao
pulacao dos rejeitados como sendo maus pagadores. Essa estrategia procura reduzir o vies amostral baseado na ideia de que, na populacao dos
rejeitados, esperamos que a maioria seja de maus pagadores, embora
certamente possa haver bons pagadores em meio aos rejeitados. Adotado
esse metodo, os bons clientes que foram, inicialmente, rejeitados serao
classificados erroneamente e, consequentemente, os proponentes nao rejeitados com perfis similares serao prejudicados (Thomas et al., 2002).
No entanto, pela caracterstica desta tecnica, e de se esperar um modelo
mais sensvel, em que os elementos positivos sejam melhor identificados,
o que e de grande importancia no contexto de escoragem de credito.
4.1.2
M
etodo da ponderac
ao
4.1.3
M
etodo do parcelamento
71
4.1.4
Outros m
etodos
72
4.2
Aplicac
ao
Dois bancos de Credit Scoring de livre domnio, disponveis na internet no website do UCI Machine Learning Repository, foram utilizados
para ilustrar as estrategias de inferencia dos rejeitados apresentadas neste
captulo. Modelos de regressao logstica foram ajustados e as medidas
de avaliacao, como sensibilidade (SENS), especificidade (SPEC), valor
preditivo positivo (VPP), valor preditivo negativo (VPN), acuracia ou
capacidade de acerto total (CAT), coeficiente de correlacao de Matthews
(MCC) e custo relativo (CR), descritas no Captulo 1, foram usadas para
avaliar a qualidade do ajuste.
A primeira base e a German Credit Data, que consiste de 20
variaveis cadastrais, sendo 13 categoricas e 7 numericas, e 1000 observacoes de utilizadores de credito, dos quais 700 correspondem a bons
pagadores e 300 (prevalencia de 30% de positivos) a maus pagadores. A
segunda base e o Australian Credit Data, que consiste de 14 variaveis,
sendo 8 categoricas e 6 contnuas, e 690 observacoes, das quais 307 (prevalencia de 44,5% de positivos) sao inadimplentes e 383 sao adimplentes.
Para simular a situacao em que temos rejeitados na amostra, foram separados os indivduos do banco de dados de ajustes que obtiveram
escore mais alto segundo um modelo proposto, com uma metade aleatoria
de observacoes do banco de dados para avaliacao.
A implementacao do metodo da reclassificacao e muito simples.
Em cada indivduo da populacao dos rejeitados e inferida a resposta mau
pagador e, com uma nova base constituda dos aceitos e dos rejeitados, e
construdo o modelo de regressao logstica e o bagging (ver Captulo 5).
Na estrategia da ponderacao devemos ter, inicialmente, um modelo aceita - rejeita, que forneca a probabilidade de inadimplencia de
todos os proponentes. Com este modelo atribumos escore a cada cliente
e associamos um peso em cada indivduo da populacao dos aceitos, como
descrito na Subsecao 4.1.2.
No metodo do parcelamento devemos inferir o comportamento
dos rejeitados a partir das taxas de inadimplencia, observadas na populacao dos aceitos. O procedimento consiste em ajustar um modelo
a partir dos aceitos e dividir os proponentes em faixas de escores ho73
quenos. No geral, o metodo que mais se destacou foi o da reclassificacao, apresentando melhorias na maioria das configuracoes utilizadas.
Os metodos da ponderacao e parcelamento apresentaram bons resultados apenas em algumas situacoes, nao diferindo muito do modelo logstico
usual.
Em sntese, de acordo com os resultados apresentados, podemos
dizer que a melhor estrategia para um modelo de Credit Scoring seria o
uso da reclassificacao. Sua estrutura de modelagem e simples, o aumento
do custo computacional e mnimo e induz a um modelo com sensibilidade
maior. Ainda que o vies amostral continue presente, de uma maneira
diferente e teoricamente menor, os modelos gerados tendem a identificar
com uma maior precisao a populacao dos maus pagadores.
75
USUAL
RECLASS.
POND.
PARC.
Medidas de
Avaliac
ao
SPEC
SENS
VPP
VPN
CAT
MCC
CR
SPEC
SENS
VPP
VPN
CAT
MCC
CR
SPEC
SENS
VPP
VPN
CAT
MCC
CR
SPEC
SENS
VPP
VPN
CAT
MCC
CR
10%
0,81577
0,38247
0,78290
0,67840
0,62295
0,31492
0,40297
0,80279
0,42888
0,77510
0,68922
0,63640
0,33108
0,39480
0,93117
0,13090
0,84548
0,58867
0,57505
0,21532
0,41397
0,82414
0,30371
0,74920
0,65100
0,59255
0,24761
0,41027
Australian
30%
0,83640
0,34607
0,80213
0,66734
0,61820
0,29732
0,41317
0,82423
0,38146
0,78079
0,66869
0,62720
0,32485
0,39617
0,93523
0,14416
0,83496
0,59705
0,58320
0,23893
0,39660
0,87541
0,22180
0,74826
0,62264
0,58455
0,26282
0,41890
50%
0,93270
0,18663
0,86486
0,61080
0,60070
0,24889
0,42637
0,81820
0,33517
0,76942
0,66220
0,60325
0,28626
0,40257
0,94360
0,12112
0,86095
0,58899
0,57760
0,22877
0,41310
0,87757
0,21011
0,66729
0,60909
0,58055
0,21562
0,42543
76
10%
0,76371
0,39300
0,51568
0,76446
0,65250
0,20374
0,33000
0,71762
0,45767
0,50502
0,77615
0,63963
0,21600
0,29077
0,78681
0,36522
0,52650
0,75836
0,66033
0,19947
0,44000
0,75219
0,36256
0,49688
0,75472
0,63530
0,17135
0,33538
German
30%
0,84486
0,28011
0,57179
0,74514
0,67543
0,19771
0,37270
0,73714
0,43722
0,50442
0,77430
0,64717
0,22211
0,36420
0,84310
0,27944
0,56567
0,74274
0,67400
0,18609
0,42090
0,79490
0,29944
0,51014
0,74218
0,64627
0,16359
0,41120
50%
0,89352
0,18656
0,59152
0,72698
0,68143
0,18054
0,39910
0,66505
0,47122
0,43902
0,78279
0,60690
0,19386
0,39980
0,88362
0,19611
0,59888
0,73139
0,67737
0,17576
0,42990
0,86848
0,20733
0,59824
0,73017
0,67013
0,17002
0,41470
Captulo 5
Combina
c
ao de Modelos de
Credit Scoring
Uma das estrategias mais utilizadas para aumentar a precisao
em uma classificacao e o uso de combinacao de modelos. A ideia consiste
em tomar as informacoes fornecidas por diferentes mecanismos e agregar
essas informacoes em uma u
nica predicao. No contexto de Credit Scoring,
a estrategia e acoplar as informacoes por reamostragem dos dados de
treinamento.
Breiman (1996) propos a tecnica bagging, que e baseada na reamostragem com reposicao dos dados de treinamento, gerando varios modelos distintos para que, entao, possam ser combinados. Neste captulo
descrevemos o algoritmo bagging e algumas formas de combinacao de
escores.
5.1
Bagging de Modelos
O bagging (bootstrap aggregating) e uma tecnica em que construmos diversos modelos baseados nas replicas bootstrap de um banco
de dados de treinamento. Todos os modelos sao combinados, de forma a
encontrar um preditor que represente a informacao de todos os modelos
gerados.
A caracterstica principal, que deve estar presente na base de
77
Combinac
ao de Modelos de Credit Scoring
dados, para que este procedimento apresente bons resultados e a instabilidade. Um modelo e instavel se pequenas variacoes nos dados de treinamento leva a grandes alteracoes nos modelos ajustados. Quanto mais
instavel e o classificador basico, mais variados serao os modelos ajustados pelas replicas bootstrap e, consequentemente, teremos diferentes
informacoes fornecidas pelos modelos, aumentando a contribuicao para o
preditor combinado. Se o classificador basico for estavel, as replicas gerariam, praticamente, os mesmos modelos e nao haveriam contribuicoes
relevantes para o preditor combinado final. Algoritmos de modelagem,
como redes neurais e arvores de decisao, sao exemplos de classificadores
usualmente instaveis (Kuncheva, 2004). Em B
uhlmann & Yu (2002) e
feita uma analise do impacto da utilizacao do bagging no erro quadratico
medio e na variancia do preditor final, utilizando uma definicao algebrica
de instabilidade.
Desde que a tecnica bagging foi publicada, diversas variantes foram desenvolvidas. B
uhlmann & Yu (2002) propoem a variante subagging
(subsample aggregating), que consiste em retirar amostras aleatorias simples, de tamanho menores, dos dados de treinamento. A combinacao e
feita, usualmente, por voto majoritario, mas e possvel tambem o uso
de outras tecnicas. Essa estrategia apresenta resultados otimos quando
o tamanho das amostras e a metade do tamanho do conjunto de dados
de treinamento (half-subagging). No artigo e mostrado que os resultados
com half-subagging sao praticamente iguais aos do bagging, principalmente em amostras pequenas.
Louzada-Neto et al. (2011) propoem um procedimento que generaliza a ideia de reamostragem do bagging, chamado poly-bagging. A
estrategia e fazer reamostras sucessivas nas proprias amostras bagging
originais. Cada reamostragem aumenta um nvel na estrutura e complexidade da implementacao. Os resultados obtidos por simulacoes foram
expressivos, mostrando que e possvel reduzir ainda mais a taxa de erro
de um modelo. A tecnica se mostra poderosa em diversas configuracoes
de tamanhos amostrais e prevalencias.
Desta forma, na modelagem via bagging, a aplicacao dos novos clientes deve passar por todos os modelos construdos na estrutura,
ou seja, cada cliente e avaliado por todos os modelos. Com essas in78
Combinac
ao de Modelos de Credit Scoring
formacoes, um novo escore sera obtido, por meio da aplicacao dos escores
anteriores, usando uma especfica funcao combinacao.
O procedimento bagging, com B representando o n
umero de replicas utilizadas, e descrito nos seguintes passos:
Geramos L1 , . . . , LB replicas bootstrap da amostra treinamento L;
Para cada replica i geramos o modelo com preditor Si , i = 1, . . . , B;
Combinamos os preditores para obter o preditor bagging S .
Na proxima secao discutimos varias propostas para a combinacao
= 1, . . . , B. Para isto, considere os preditores Si e a funcao
dos
combinacao c(S1 , . . . , SB ) = S .
Si , i
5.2
5.2.1
M
etodos de Combina
c
ao
Combina
c
ao via m
edia
S =
c(S1 , . . . , SB )
B
1 X
=
S .
B i=1 i
(5.1)
B
1 X
(S )
B i=1 i
! 1
,
(5.2)
quando = 1.
Essa formulacao permite a deducao de outros tipos menos comuns de combinacao, que podem ser utilizadas em situacoes mais especficas. Alem do caso = 1, gerando a combinacao por media, temos
79
Combinac
ao de Modelos de Credit Scoring
outros casos particulares interessantes. Se = 1, a equacao (5.2) representa uma combinacao via media harmonica, se 0 a equacao representa uma combinacao via media geometrica. Se a equacao
representa uma combinacao via mnimo e se a equacao representa
uma combinacao via maximo.
Estas estrategias podem ser usadas de acordo com o conservadorismo ou otimismo que desejamos exercer sobre a modelagem. Quanto
menor o valor de , mais proxima estaremos da combinacao via mnimo,
que e otimista por tomar o menor escore dentre os modelos gerados. Se
escolhemos valores altos para , o valor do escore tendera a aumentar,
representando uma combinacao com tendencias conservadoras.
5.2.2
Combina
c
ao via voto
A combinacao por voto e tambem uma estrategia simples. Iniciamos associando o escore com a classificacao final dos clientes. Seja Ci a
variavel que corresponde a` classificacao associada ao escore Si , definida
a partir do ponto de corte c escolhido, isto e,
Ci = 1 se Si > ci e Ci = 0 caso contrario.
A partir dos classificadores Ci , definimos a combinacao por voto
majoritario da seguinte forma:
C = 1 se
B
X
Ci
i=1
B
e C = 0 caso contrario,
2
(5.3)
C = 1 se
B
X
Ci k e C = 0 caso contrario,
i=1
80
Combinac
ao de Modelos de Credit Scoring
com k = 0, . . . , B.
5.2.3
Combina
c
ao via regress
ao logstica
S = log
P (Y = 1|S1 , . . . , SB )
1 P (Y = 1|S1 , . . . , SB )
= 0 +
B
X
i Si ,
i=1
B
X
i=1
wi Si , tal que
B
X
wi = 1.
i=1
5.3
Aplicac
ao
Combinac
ao de Modelos de Credit Scoring
Combinac
ao de Modelos de Credit Scoring
Combinac
ao de Modelos de Credit Scoring
84
Combinac
ao de Modelos de Credit Scoring
Captulo 6
Dados Missing em Modelos
de Credit Scoring
Dados missing sao geralmente encontrados em situacoes reais
por razoes de acidente, falta de informacao, informacoes erroneas ou ate
mesmo por conveniencia. Se, em uma pesquisa de campo, o entrevistado
recusa-se a responder determinada pergunta, a resposta referente a` pergunta nao respondida e um dado missing. Alem dos casos mencionados,
o responsavel pelo levantamento de dados de um cliente pode nao ter o
devido cuidado de preencher todas as lacunas de informacoes necessarias,
causando a existencia de um, ou varios dados missing.
As diferentes causas que nos levam a ter dados missing sao importantes na escolha da analise a ser feita e na interpretacao dos dados.
Enquanto a maioria das analises de dados ignoram as causas dos dados
missing, assumindo-os como acidentais, a literatura estatstica discute as
causas da ocorrencia destes dados faltantes, assumindo-os como intencionais. Neste caso, o processo que causa esses dados e geralmente considerado explcito. Um exemplo de metodo que pode criar um missing
intencional e a analise robusta, na qual os outliers podem ser descartados
ou tidos como missing.
Quando temos interesse em estimar parametros de regressao com
a presenca de valores missing nas covariaveis, uma solucao e usar a analise
de caso completo. A analise de caso completo consiste, simplesmente, em
descartar todos os dados incompletos. Esta analise, porem, na maioria
86
das vezes, torna o estimador ineficiente. Outro metodo consiste em imputar (completar) valores para os dados nao observados e entao tratar
o conjunto de valores como se fosse completo. Entretanto, alguns dos
metodos de imputacao nao levam em conta a incerteza dos dados adicionados, podendo gerar erro na estimacao (Didelez, 2002). A escolha
mais razoavel e usar a imputacao m
ultipla que e auxiliada por metodos
de simulacao, tal como, Monte Carlo via cadeia de Markov.
Neste Captulo apresentamos um estudo do modelo de regressao
logstica com presenca de valores missing nas covariaveis considerando
as tecnicas: Caso Completo (CC), Imputacao pela Media (IM), Caso
Completo Corrigido (CCC) e Estimador de Maxima Verossimilhanca com
uso da Quadratura Gaussiana (EMVG).
6.1
Dados Missing
Ao contrario dos dados presentes em textos ilustrativos, conjuntos reais quase sempre sao constitudos de dados missing.
Muitos softwares estatsticos permitem a identificacao de dados
nao observados. No software SAS, por exemplo, cada valor missing e, automaticamente, representado por um ponto (.). Neste texto indicamos a
ausencia de informacao por um traco (). Alguns softwares estatsticos,
SAS e R por exemplo, eliminam os indivduos que apresentarem valores missing em qualquer variavel envolvida na analise. Esta estrategia
de descarte, apesar de ser facilmente implementada e, a`s vezes, satisfatoria quando se tem poucos missing. Porem, e geralmente inapropriada,
pois perde-se possveis informacoes relevantes observadas nos indivduos
excludos. Se houver uma grande diferenca entre os casos completos e os
incompletos, em que, por caso completo, entende-se como todos os casos
presentes na amostra inicial e casos incompletos a amostra de tamanho
reduzido, sem os indivduos com dados missing, a inferencia estatstica
baseada nos casos completos pode ser viciada, ja que ha uma perda consideravel de dados.
Exemplo 1 Considere as variaveis x1 , x2 , x3 , x4 e x5 definidas como informacoes cadastrais de um cliente (fsico ou jurdico). Seja Y a variavel
87
Y
0
0
1
1
1
0
x1
1
3
1
4
2
x2 x3 x4
- 170 0
38 200 0
51 210 - 350 1
40 430 0
-
x5
1
1
1
0
0
6.2
ou monotonia de valor missing, ou modelo especial ou ainda em modelo geral. Na sequencia, definimos tambem tres mecanismos para dados
incompletos.
6.2.1
x5
1
1
0
1
0
0
90
Y
0
0
1
1
1
0
x1
1
3
1
2
x2
51
40
-
6.2.2
6.3
(6.1)
(6.2)
1, se x2 e observado;
0, caso contr
ario.
y
0
0
1
1
1
0
x1
1
1
0
0
1
0
x2
2,5
3,4
4,9
-
r
1
1
0
1
0
0
Similarmente, q10 = 1/6 e q11 = 1/6. Estas estimacoes, no entanto, so sao possveis quando Y e X1 sao variaveis discretas.
6.3.1
Estima
c
ao de m
axima verossimilhanca
Para estimar os parametros de interesse, , via maxima verossimilhanca, consideramos (yi , x1i , x2i , ri ), i = 1, . . . , n, uma amostra independente de (y, x1 , x2 , r) e definimos o conjunto de dados completos
(com dados observados e nao observados) por
{(yi , x1i , x2i , ri )| i v} {(yi , x1i , ri )| i v}
em que v = {i|ri = 1} e v = {1, . . . , n}\v, ou seja, em v temos os
indivduos cuja variavel X2 e observada e, em v, os indivduos em que a
informacao referente `a variavel X2 e missing.
95
Em geral, nao ha diferenca entre a estimacao de maxima verossimilhanca para dados completos e para dados incompletos.
Considere a seguinte funcao de verossimilhanca gerada por
(y, x1 , x2 , r),
L(, ) =
=
n
Y
i=1
n
Y
[f (x1i , x2i , yi , ri ; , )]
[f (x1i |)f (x2i |x1i ; )P (yi |x1i , x2i ; )f (ri |yi , x1i , x2i ; )]
i=1
ri
f (x1i |)f (ri |yi , x1i ; ) P (yi |x1i , x2i ; )f (x2i |x1i ; )
=
{z
}
|
L(, ) =
i=1
x2i observado
1ri
P (yi |x1i ; )
{z
}
|
x2i missing
n
Y
[f (x1i |)f (ri |yi , x1i ; ) {P (yi |x1i , x2i ; )f (x2i |x1i ; )}ri
i=1
1ri
P (y , x ; )
i
1i
f
(x
)
1i
{z
}
|
()
96
L(, ) =
n
Y
[f (x1i |)f (ri |yi , x1i ; ) {P (yi |x1i , x2i ; )f (x2i |x1i ; )}ri
i=1
1ri #
Z
(6.3)
j
v
(6.4)
com v e v definidos no incio da presente secao.
Em geral, a maximizacao da funcao (6.4) e obtida numericamente
devido a` integracao presente no segundo produtorio. Isto pode ser, em
parte, simplificado pelo uso do algoritmo EM (Expectation Maximization)
ou, ainda, pelo uso de algum tipo de Quadratura Gaussiana com N pontos
97
6.3.2
Caso completo
6.3.3
CCC
CC
2
= 2
Para maiores detalhes sobre este estimador, ver Vach & Illi (1997).
Note que estes estimadores utilizam as observacoes incompletas
99
se a correcao dos termos usa qyx1 , em que qyx1 e dado como a proporcao
dos valores y, x1 e os missing x2 sobre todos os valores y e x1 .
6.3.4
Imputa
co
es simples e m
ultipla
Um dos metodos de imputacao simples mais conhecidos e a imputacao pela media. Neste metodo ocorre a substituicao de cada valor
missing pela media da variavel considerando apenas os casos completos.
Podemos tambem substituir os valores missing pela media condicional
nos valores observados de outras variaveis. Porem, a imputacao simples
nao reflete a incerteza sobre as predicoes de um valor missing.
A imputacao m
ultipla substitui cada missing por um conjunto
de valores plausveis que representam a incerteza sobre o dado a ser
imputado. O conjunto de imputacoes m
ultiplas e analisado, utilizando
procedimentos padronizados para dados completos e combinacoes dos
resultados dessas analises. Nao importa qual analise de dados completos e usada, pois o processo de combinacao dos resultados de diferentes
conjuntos de dados e essencialmente o mesmo.
Segundo Giacon (2007), a inferencia na imputacao m
ultipla envolve tres fases distintas:
os dados missing sao completados m vezes para gerar m conjuntos
de dados completos;
os m conjuntos de dados completos sao analisados atraves do uso
de procedimentos padronizados;
os resultados dos m conjuntos de dados completos sao combinados
para inferencia.
6.4
100
h=0
6.5
Estudo de Simula
c
ao
Nesta secao apresentamos um estudo de simulacao para compararmos os diferentes metodos de estimacao na presenca de diferentes prevalencias de dados missing no conjunto de dados. Metricas, tais como,
vcio, erro quadratico medio e variancia sao utilizadas no processo de
comparacao. Os metodos estudados foram:
1. Estimador de Caso Completo (CC);
2. Estimador de Caso Completo Corrigido (CCC);
3. Imputacao pela Media (IM);
4. Estimador de Maxima Verossimilhanca com uso da Quadratura
Gaussiana (EMVG)
A estimacao EMVG e detalhada na Subsecao 6.5.2. Os metodos
CC, CCC e IM foram detalhados na secao anterior.
102
6.5.1
Dados completos
exp (0 + 1 x1 + 2 x2 )
;
1 + exp (0 + 1 x1 + 2 x2 )
(6.6)
0 = 0
x1
1
0
1
0
1
0
0
1
1
1
1 = 1
x2 |x1
1,91011
9,77855
2,15188
0,68117
1,03975
2,48260
0,93053
6,05345
2,72359
2,92716
2 = 1, 5
p
0,97947
0,99999
0,98562
0,73531
0,92821
0,97642
0,80151
0,99995
0,99285
0,99546
y
1
1
1
1
1
1
1
1
1
1
Par
ametro
0
1
2
Estimativa Media
-0,02821
1,04709
1,52082
Variancia
0,07976
0,11644
0,06173
Vcio
0,00080
0,00222
0,00043
EQM
0,08055
0,11866
0,06216
ICAssint
otico = 1, 96 V ar()
e o intervalo de confianca emprico e definido pelos percentis e 1
da amostra com B estimativas dos parametros; sendo () e (1) os
limitantes inferior e superior do intervalo considerado. Nesta analise
consideramos = 2, 5%. Com isso os limitantes do intervalo sao dados
pelos 0 s que pertencem a`s posicoes 2, 5% e 97, 5% do percentil.
Tabela 6.7: Intervalos de Confianca Assintotico e Emprico para amostra
sem missing.
Amostra
Est.
0
1
2
IC Assint
otico
(-0,58173; 0,52531)
(0,37826; 1,71592)
(1,03386; 2,00778)
Amp. A
1,10705
1,33766
0,97392
IC Emprico
(-0,69358; 0,54676)
(0,45631; 1,80521)
(1,04545; 1,97357)
Amp. E
1,24034
1,34890
0,92812
Observe, como esperado, uma vez que o valor real do parametro 0 e igual
a zero, que o o zero pertence aos dois intervalos, assintotico e emprico.
Ja os parametros 1 e 2 sao significativos, pois o zero nao pertence aos
respectivos intervalos. Notamos tambem que a amplitude dos intervalos
de confianca empricos sao, na maioria dos casos, maiores que as amplitudes dos intervalos de confianca assintoticos.
104
6.5.2
M
etodo EMVG
y
1
1
0
1
.
.
.
1
0
0
1
x1
1
0
0
1
.
.
.
1
1
1
0
x2
7,43328
0,10512
5,09924
.
.
.
2,76514
0,87523
4,85405
Z
ln
P (yj |x1j , z; )f (z|x1j ; )dz ,
(6.7)
j
v
sendo v = {i|ri = 1}, isto e, o indivduo pertence a v quando for observado em x2 , v = {1, . . . , N }\v;
P (y|x1i , x2i ; ) =
e
n x o
1
2i
f (x2i |x1i ; ) = exp
, x2i > 0.
2
2
105
X
zo
exp (0 + 1 x1j + 2 z) 1
exp
dz .
+
ln
1 + exp (0 + 1 x1j + 2 z) 2
2
0
j
v
Considerando z = 2c, temos:
n x o
X exp (0 + 1 x1i + 2 x2i ) 1
2i
l(, ) =
ln
exp
1
+
exp
(
+
x
+
x
)
2
2
0
1 1i
2 2i
iv
X Z exp (0 + 1 x1j + 22 c)
exp{c}dc (6.8)
+
ln
1
+
exp
(
+
x
+
2
c)
0
1
1j
2
0
j
v
A integral no segundo fator da funcao (6.8) pode ser vista da
seguinte forma:
Z
exp (0 + 1 x1j + 22 c)
exp{c}dc =
1 + exp (0 + 1 x1j + 22 c)
F (c)exp(c)dc,
0
em que
F (c) =
exp (0 + 1 x1j + 22 c)
.
1 + exp (0 + 1 x1j + 22 c)
F (c)exp(c)dc =
0
k1
X
wh F (ch ) + Ek ,
h=0
sendo
Ek =
(k!)2
d(2k) F ()
, 0,
(2k)!
d (2k)
(k!)
com |Ek | (2k)!
max |F (2k) ()|.
Quando F (c) e um polinomio de grau 2k + 1 ou menor, o erro
Ek e zero, ou seja, a aproximacao e exata. Porem, quando F (c) nao e
106
n x o
exp (0 + 1 x1i + 2 x2i ) 1
2i
l(, ) =
ln
exp
1
+
exp
(
+
x
+
x
)
2
2
0
1 1i
2 2i
iv
#
" k1
X
X
exp (0 + 1 x1j + 22 ch )
+ Ek ,
+
ln
wh
1 + exp (0 + 1 x1j + 22 ch )
j
v
h=0
X
10
Razes (ch )
0,58579
3,41421
0,41577
2,29428
6,28995
0,32255
1,74576
4,53662
9,39507
0,13779
0,72945
1,80834
3,40143
5,55249
8,33015
11,84378
16,27925
21,99658
29,92069
Pesos (wh )
0,85355
0,14645
0,71109
0,27852
0,01039
0,60315
0,35742
0,03889
0,00054
0,30844
0,40111
0,21806
0,06208
0,00950
0,00075
0,00002
0,00000
0,00000
0,00000
107
(10!)2 d(20) F ()
,
(20)!
d (20)
F () =
exp(0 + 1 x1j + 22 )
.
1 + exp(0 + 1 x1j + 22 )
com
0,
(6.9)
d(20) F ()
= F ()(20) ,
d (20)
6.5.3
Resultados
108
Figura 6.5: Erro Quadratico Medio (Figuras a.1 e a.2), Variancia (Figura
b.1) e Vcio (Figuras c.1 e c.2) para 0 .
Os resultados das metricas para 1 sao mostrados na Figura 6.6.
Pelos resultados apresentados na Figura 6.6, o EQM aumenta
conforme o n
umero de dados missing aumenta nos metodos CC e EMVG.
Para CCC e IM existe uma oscilacao, mas sempre com um aumento em
50%. Neste caso, o metodo CCC e inferior aos outros tres, enquanto que
EMVG e superior.
Pela Figura b.1 as variancias apresentadas pela estimativas via
109
Figura 6.6: Erro Quadratico Medio (Figura a.1), Variancia (Figura b.1)
e Vcio (Figuras c.1 e c.2) para 1 .
metodo EMVG sao menores que as do metodo IM, que por sua vez possui
variancias menores que CC e CCC.
Finalmente, analisando o vcio de 1 , vemos que, diferentemente
dos casos anteriores, o metodo EMVG nao e superior aos outros metodos.
Com 50% de missing, o vcio de IM e menor que o vcio obtido em EMVG.
Exceto no metodo IM, os vcios aumentam com o aumento de missing na
amostra. Mas, em geral, o metodo EMVG e superior aos outros metodos.
Os resultados das metricas para 2 sao mostrados na Figura
6.7. Similar aos casos anteriores, pela Figura 6.7, observamos tambem
o EQM aumenta com o aumento do percentual de missing na amostra.
O metodo EMVG e superior aos outros tres metodos, enquanto que o
metodo IM produz os piores valores. Os vcios, apresentando nas Figuras c.1 e c.2, aumentam com o aumento das informacoes faltantes, com
o metodo EMVG superior aos outros tres metodos.
As Tabelas 6.10 a 6.13 apresentam os parametros estimados e as
110
Figura 6.7: Erro Quadratico Medio (Figura a.1), Variancia (Figura b.1)
e Vcio (Figuras c.1 e c.2) para 2 .
metricas EQM, variancia e vcio, utilizando os quatro metodos.
Tabela 6.10: Parametros estimados para n=500 com 5% de dados missing.
M
etodo
CC
CCC
IM
EMVG
Par
ametro
0
1
2
0
1
2
0
1
2
0
1
2
Estimativa
-0,0279
1,04671
1,5206
-1,51614
0,93504
1,52060
0,04111
1,03425
1,35812
0,00000
1,01414
1,49542
Vari
ancia
0,08345
0,12179
0,06628
0,08345
0,12179
0,06628
0,07589
0,11424
0,05117
0,00000
0,00000
0,00000
111
Vcio
0,00078
0,00218
0,00042
2,29868
0,00422
0,00042
0,00169
0,00117
0,02013
0,00000
0,00020
0,00002
EQM
0,08422
0,12397
0,06670
2,38213
0,12601
0,06670
0,07758
0,11542
0,07130
0,00000
0,00020
0,00002
Tabela 6.11: Parametros estimados para n=500 com 10% de dados missing.
M
etodo
CC
CCC
IM
EMVG
Par
ametro
0
1
2
0
1
2
0
1
2
0
1
2
Estimativa
-0,02905
1,0478
1,52203
-1,74900
0,53238
1,52203
0,08985
1,02246
1,24086
0,00000
1,01457
1,49563
Vari
ancia
0,08740
0,12982
0,07036
0,08740
0,12982
0,07036
0,07452
0,11281
0,04049
0,00000
0,00000
0,00000
Vcio
0,00084
0,00228
0,00049
3,05900
0,21867
0,00049
0,00807
0,00050
0,06715
0,00000
0,00021
0,00002
EQM
0,08825
0,13211
0,07085
3,14640
0,34849
0,07085
0,08260
0,11331
0,10764
0,00000
0,00021
0,00002
Tabela 6.12: Parametros estimados para n=500 com 30% de dados missing.
M
etodo
CC
CCC
IM
EMVG
Par
ametro
0
1
2
0
1
2
0
1
2
0
1
2
Estimativa
-0,03836
1,05858
1,54519
-1,67847
0,10253
1,54519
0,19275
0,99593
0,97594
0,00000
1,02164
1,51181
Vari
ancia
0,11295
0,17800
0,10708
0,11295
0,17800
0,10708
0,08044
0,11077
0,03032
0,00000
0,00000
0,00000
Vcio
0,00147
0,00343
0,00204
2,81726
0,80545
0,00204
0,03715
0,00002
0,27464
0,00000
0,00047
0,00014
EQM
0,11442
0,18143
0,10912
2,93021
0,98345
0,10912
0,11759
0,11079
0,30496
0,00000
0,00047
0,00014
Apos analisar os resultados obtidos na simulacao, podemos afirmar que, dentre os metodos: Analise de caso completo, estimador de
caso completo corrigido, imputacao pela media e estimador de maxima
verossimilhanca com uso da quadratura Gaussiana, o metodo que obteve as melhores estimativas para os parametros foi EMVG em todos os
percentuais de missing.
Os intervalos de confianca assintoticos e empricos para cada estimativa, com presenca de 5%, 10%, 30% e 50% de missing em relacao
aos totais de casos, sao apresentados nas Tabelas 6.14 a 6.17.
A Tabela 6.14 apresenta os intervalos de confianca para amostras
com 5% de missing em relacao ao total de casos.
112
Tabela 6.13: Parametros estimados para n=500 com 50% de dados missing.
M
etodo
CC
CCC
IM
EMVG
Par
ametro
0
1
2
0
1
2
0
1
2
0
1
2
Estimativa
-0,04303
1,09428
1,55562
-1,67755
0,16828
1,55562
0,24303
0,96316
0,83939
0,00457
1,05074
1,51417
Vari
ancia
0,14270
0,44180
0,13762
0,14270
0,44180
0,13762
0,08808
0,10843
0,02670
0,00000
0,00000
0,00000
Vcio
0,00185
0,00889
0,00309
2,81417
0,69176
0,00309
0,05906
0,00136
0,43641
0,00002
0,00257
0,00020
EQM
0,14455
0,45069
0,14071
2,95688
1,13356
0,14071
0,14714
0,10978
0,46311
0,00002
0,00258
0,00020
CCC
IM
EMVG
Est.
0
1
2
0
1
2
0
1
2
0
1
2
IC Assintotico
(-0,59409, 0,53829)
(0,36271, 1,73071)
(1,01602, 2,02518)
(-2,08233, -0,94995)
(0,25104, 1,61904)
(1,01602, 2,02518)
(-0,49883, 0,58105)
(0,37177, 1,69673)
(0,91475, 1,80149)
(4,541011 ; 4,551011 )
(1,01284; 1,01543)
(1,49429; 1,49655)
Amp. A
1,13237
1,36800
1,00916
1,13237
1,36800
1,00916
1,07988
1,32496
0,88674
11013
0,00259
0,00227
IC Emprico
(-0,66658, 0,51224)
(0,46991, 1,79124)
(1,02897, 2,03234)
(-2,80049, -0,02790)
(-0,33958, 2,08816)
(1,02897, 2,03234)
(-0,57018, 0,56491)
(0,43700, 1,73311)
(0,95558, 1,81736)
(21011 ; 71011 )
(0,47629; 1,70773)
(1,03659; 1,97240)
Amp. E
1,17882
1,32133
1,00337
2,77259
2,42774
1,00337
1,13509
1,29611
0,86178
41011
1,23144
0,93581
CC, o zero esta contido no intervalo de 1 , sendo este nao relevante na explicacao da resposta. Nos outros metodos, 1 e 2 sao significativos. Na
maioria dos casos, as amplitudes dos intervalos de confianca assintoticos
sao menores do que as amplitudes dos intervalos de confianca empricos.
Tabela 6.15: Intervalos de Confianca Assintoticos e Empricos em 10%
de missing.
Amostra
CC
CCC
IM
EMVG
Est.
0
1
2
0
1
2
0
1
2
0
1
2
IC Assintotico
(-0,60850, 0,55040)
(0,34159, 1,75401)
(1,00212, 2,04194)
(-2,32845, -1,16955)
(-0,17383, 1,23859)
(1,00212, 2,04194)
(-0,44521, 0,62491)
(0,36415, 1,68077)
(0,84649, 1,63523)
(1,20108 ; 1,218 )
(1,01316; 1,01598)
(1,49445; 1,49681)
Amp.A
1,15891
1,41242
1,03982
1,15891
1,41242
1,03982
1,07012
1,31661
0,78874
31011
0,00282
0,00235
IC Emprico
(-0,68167, 0,54764)
(0,42108, 1,82725)
(1,03860, 2,05373)
(-3,20710, -0,87635)
(-0,91374, 2,03963)
(1,03860, 2,05373)
(-0,50540, 0,58267)
(0,45499, 1,71327)
(0,89672, 1,69346)
(1,1108 ; 1,5108 )
(0,43103; 1,73993)
(1,04306; 1,99018)
Amp. E
1,22931
1,40617
1,01513
2,33075
2,95337
1,01513
1,08807
1,25828
0,79674
4109
1,30890
0,94712
A Tabela 6.16 apresenta os intervalos de confianca para as amostras com 30% de missing em relacao ao total de casos. Nos metodos
CC e IM, 0 nao e significativo para o modelo. Isto nao ocorre em CCC
e EMVG. Com relacao a 1 vemos que nao e significativo nos metodos
CC e CCC, uma vez que o zero pertence ao intervalo de 1 . Nos outros
metodos, 1 e 2 sao significativos. Na maioria dos casos, as amplitudes
dos intervalos de confianca assintoticos sao menores do que as amplitudes
dos intervalos de confianca empricos.
Finalmente, a Tabela 6.17 apresenta os intervalos de confianca
para as amostras com 50% de missing em relacao ao total de casos.
Nos metodos CC e IM os intervalos de confianca para o parametro
0 contem o zero, mostrando que 0 nao e significativo para o modelo,
conforme esperado. Ja em CCC e EMVG 0 e significativo para o modelo.
Na maioria dos casos, as amplitudes dos intervalos de confianca empricos
sao maiores que nos intervalos de confianca assintoticos.
114
CCC
IM
EMVG
Est.
0
1
2
0
1
2
0
1
2
0
1
2
IC Assint
otico
(-0,69708; 0,62036)
(0,23166; 1,88550)
(0,90382; 2,18656)
(-2,33719; -1,01975)
(-0,72439; 0,92945)
(0,90382; 2,18656)
(-0,36315; 0,74865)
(0,34360; 1,64826)
(0,63463; 1,31725)
(0,00008; 0,000081)
(1,01984; 1,02344)
(1,51037; 1,51325)
Amp. A
1,31743
1,65385
1,28274
1,31743
1,65385
1,28274
1,11179
1,30465
0,68263
0,00000
0,00360
0,00288
IC Emprico
(-0,77924; 0,59270)
(0,37096; 1,94978)
(0,98845; 2,24164)
(-2,30950; -1,13697)
(-1,35956; 1,13818)
(0,98845; 2,24164)
(-0,42397; 0,72900)
(0,43630; 1,66564)
(0,65660; 1,34071)
(0,00003; 0,00012)
(0,38054; 1,85074)
(0,99294; 2,16011)
Amp. E
1,37194
1,57882
1,25319
1,17253
2,49774
1,25319
1,15297
1,22934
0,68411
0,00009
1,47020
1,16717
CCC
IM
EMVG
Est.
0
1
2
0
1
2
0
1
2
0
1
2
IC Assint
otico
(-0,78344; 0,69738)
(-0,20849; 2,39705)
(0,82852; 2,28272)
(-2,41796; -0,93714)
(-1,13449; 1,47105)
(0,82852; 2,28272)
(-0,33866; 0,82472)
(0,31777; 1,60855)
(0,51913; 1,15965)
(0,00457; 0,00457)
(1,04814; 1,05334)
(1,51212; 1,51622)
Amp. A
1,48082
2,60555
1,45420
1,48082
2,60555
1,45420
1,16338
1,29078
0,64053
0,00000
0,00520
0,00409
115
IC Emprico
(-0,82293; 0,67351)
(0,42089; 0,51914)
(0,96054; 2,36765)
(-2,13002; -1,21512)
(-0,84134; 0,97319)
(0,96054; 2,36765)
(-0,38738; 0,80686)
(0,42258; 1,62640)
(0,54544; 1,17218)
(0,00539; 0,00720)
(0,42431; 0,51609)
(0,96029; 2,26950)
Amp. E
1,49644
0,09825
1,40711
0,91490
1,81453
1,40711
1,19424
1,20382
0,62674
0,00180
0,09178
1,30921
Captulo 7
Redes Probabilsticas
A tecnica de redes probabilsticas, tambem conhecida como redes Bayesianas, redes causais ou graficos de dependencia probabilstica,
introduzida por Pearl (1988), surgiu na decada de 80 e tem sido aplicada
em varias areas da ciencia, (Bobbio et al., 2001). Na area financeira,
redes probabilsticas sao utilizadas para a estimacao de risco operacional
e Credit Scoring.
Segundo Neapolitan (2003), a tecnica de redes probabilsticas
surgiu para determinar a influencia probabilstica nao direta de uma
variavel com as demais em situacoes em que ha disponvel um grande
n
umero de variaveis. Assim, a teoria de redes probabilsticas combina
princpios de teoria de grafos, teoria de probabilidades, Ciencia da Computacao e Estatstica (Ben-Gal, 2007) e podem ser consideradas uma
representacao visual e informativa da tabela de probabilidade conjunta
de todas as variaveis de interesse.
Neste captulo apresentamos os conceitos probabilsticos que sao
necessarios para o entendimento da teoria de redes probabilsticas, a teoria geral de redes probabilsticas e os procedimentos de inferencia estatstica. Alem disso, comparamos os metodos aplicados em Credit Scoring.
116
Redes Probabilsticas
7.1
Conceitos Probabilsticos
7.1.1
Teorema de Bayes
(7.1)
O teorema de Bayes e uma juncao do conceito de probabilidade condicional e do teorema da probabilidade total. As probabilidades
P (Ei ), P (F |Ei ) e P (Ei |F ) sao, a`s vezes, chamadas de probabilidade a
priori, verossimilhanca e probabilidade a posteriori (probabilidade posterior `a observacao do evento F ), respectivamente. Como o denominador
em (7.1) e uma constante normalizadora, entao
P (Ei |F ) P (F |Ei )P (Ei ),
na qual indica proporcionalidade. Podemos dizer que a probabilidade
a posteriori e proporcional `a probabilidade a priori multiplicada pela
verossimilhanca.
7.1.2
Distribui
co
es multinomial e Dirichlet
As distribuicoes multinomial e Dirichlet sao amplamente utilizadas em redes probabilsticas, quando metodos de estimacao bayesiana
sao requeridos.
Considere um experimento com r possveis resultados, sendo que
P
o i-esimo resultado possui a probabilidade de ocorrencia pi , ri=1 pi = 1.
Se o experimento for repetido, de forma independente, N vezes, seja
Xi a variavel que representa o n
umero de vezes em que o experimento i,
117
Redes Probabilsticas
(0 )
p1 1 p2 2 1 . . . pr r 1
(1 )(2 ) . . . (r ) 1
P
na qual 0 = ri=1 i .
Da mesma forma, como o termo
normalizadora de (7.3), entao
(0 )
(1 )(2 )...(r )
(7.3)
e a constante
P (p|) p1 1 1 p2 2 1 . . . pr r 1 .
Considerando que P (p|) e a distribuicao a priori para p e
P (X1 = x1 , . . . , Xr = xr |N, p1 , . . . , pr ) e a funcao de verossimilhanca,
a posteriori, P (p|X, ), e expressa como
P (p|X, ) p1 1 +x1 1 p2 2 1 . . . pr r +xr 1 ,
que corresponde a distribuicao Dirichlet com parametros = (1 +
x1 , ..., r + xr ).
Neste caso, a distribuicao a` posteriori pertence `a mesma famlia
de distribuicoes que a priori. Dizemos, portanto, que a famlia Dirichlet
e conjugada para amostras com distribuicao multinomial.
118
Redes Probabilsticas
7.1.3
Distribui
c
ao normal - uni e multivariada
12 12 1k
..
22
.
...
2
k
se a sua funcao densidade de probabilidade e dada por
1
1
t
1
f (x) =
(x ) (x ) .
k
1 exp
2
(2) 2 || 2
(7.5)
7.1.4
Entropia
Redes Probabilsticas
certeza de uma variavel aleatoria. Alem disso, a entropia pode ser interpretada como uma medida da quantidade de informacao requerida, em
media, para descrever uma variavel aleatoria.
Considere a variavel aleatoria discreta X com lei P . A sua entropia e definida como
H(X) = E log
1
P (X)
=
n
X
i=1
7.1.5
Informa
c
ao m
utua
Considerando as variaveis aleatorias X e Y possuindo distribuicao de probabilidade conjunta p(x, y) e marginais p(x) e q(y), respectivamente, a informacao m
utua entre X e Y e definida como
XX
p(x, y)
I(X, Y ) =
p(x, y)log
.
(7.6)
p(x)q(y)
x
y
Considerando duas variaveis aleatorias quaisquer X e Y , I(X, Y )
0, com igualdade se, e somente se, X e Y sao independentes.
A expressao (7.6) pode ser escrita como
I(X, Y ) = H(X) H(X|Y ),
P P
em que H(X|Y ) = x y p(x)p(y) log (p(x|y)) e a entropia da variavel
aleatoria X dado Y . Esta expressao permite interpretarmos I(X, Y )
como a reducao na incerteza de X devido ao conhecimento de Y . Note
que, por simetria, I(X, Y ) = H(Y ) H(Y |X).
120
Redes Probabilsticas
A informacao m
utua condicional entre as variaveis X e Y , condicionadas a Z, e definida por
XXX
P (x, y|z)
I(X, Y |Z) =
P (x, y, z)log
.
P
(x|z)P
(y|z)
x
y
z
Como no caso anterior, I(X, Y |Z) 0 e I(X, Y |Z) = I(Y, X|Z).
Alem disso, I(X, Y |Z) = 0 se, e somente se, as variaveis aleatorias X e
Y , condicionadas a` Z, sao independentes.
Por exemplo, se Z e uma variavel aleatoria discreta assumindo
valores no conjunto 1, . . . , r, com distribuicao de probabilidade P (Z = z)
e X e uma variavel aleatoria seguindo distribuicao normal com parametros
e 2 , entao a distribuicao de X dado Z = z e normal com parametros
z e z2 . A informacao m
utua entre X e Z e dada por (Perez et al., 2006),
"
#
r
X
1
I(X, Z) =
log 2
P (z)log z2 .
2
z=1
Se a distribuicao conjunta das variaveis aleatorias X e Y , condicionadas a Z = z, segue uma distribuicao normal multivariada de di
mensao 2 com vetor de medias z = X|z , Y |z e matriz de variancia e
covariancia
!
2
X|z
X,Y |z
,
z =
X,Y |z Y2 |z
a informacao m
utua condicional entre as variaveis X e Y , condicionadas
a Z, e dada por
sendo
r
1X
P (z)log 1 2z (X, Y ) ,
I(X, Y |Z) =
2 z=1
(7.7)
X,Y |z
2z (X, Y ) = q
2
X|z
Y2 |z
(7.8)
121
Redes Probabilsticas
7.2
Redes Probabilsticas
7.2.1
Elementos b
asicos
7.2.2
122
Redes Probabilsticas
123
Redes Probabilsticas
7.2.3
Exemplo b
asico de uma rede probabilstica
124
Redes Probabilsticas
7.2.4
Constru
c
ao de uma rede probabilstica
Redes Probabilsticas
7.3
Infer
encia
Quando trabalhamos com uma rede probabilstica, nosso interesse reside em estimar sua estrutura ou seus parametros, procedimentos
que, geralmente, sao realizados separadamente.
Esta secao exibe tecnicas de como estimar a estrutura da rede e,
posteriormente, estimar seus parametros.
7.3.1
Estima
c
ao de estruturas de classificac
ao
126
Redes Probabilsticas
127
Redes Probabilsticas
Redes Probabilsticas
(a)
(b)
(c)
(d)
129
Redes Probabilsticas
P ais(X6 ) = {};
P ais(X4 ) = {X6 };
P ais(X3 ) = {X4 , X6 };
P ais(X5 ) = {X4 , X6 };
P ais(X9 ) = {X4 , X3 };
P ais(X1 ) = {X3 , X4 };
P ais(X2 ) = {X1, X3 };
P ais(X8 ) = {X3 , X4 };
P ais(X7 ) = {X8 , X4 }.
Por fim, na rede probabilstica simples com 3-dependencia (KDB3),
ilustrada pela Figura 7.3(d), temos
P ais(X6 ) = {};
P ais(X4 ) = {X6 };
P ais(X3 ) = {X4 , X6 };
P ais(X5 ) = {X4 , X6 , X3 };
P ais(X9 ) = {X4 , X3 , X5 };
P ais(X1 ) = {X3 , X4 , X9 };
P ais(X2 ) = {X1, X3 , X4 };
P ais(X8 ) = {X3 , X4 , X1 };
P ais(X7 ) = {X8 , X4 , X3 }.
130
Redes Probabilsticas
Note que a rede probabilstica com 0-dependencia possui a estrutura de uma rede probabilstica simples naive Bayes, bem como a
rede com 1-dependencia possui a mesma estrutura que uma rede probabilstica para classificacao, sendo bastante difundida na literatura e conhecida como Tree Augmented Network (TAN) (Friedman et al., 1997).
Desta forma, as redes probabilsticas de K-dependencia generalizam outras particulares redes de classificacao.
Para o ajuste de uma rede KDB a um conjunto de dados, Sahami
(1996) propoe o seguinte algoritmo (algoritmo KDB):
1. Para cada variavel Xi , calcule a medida de informacao m
utua
I(Xi , Y );
2. Para cada par de variaveis explicativas (Xi , Xj ), calcule a medida
de informacao m
utua condicional I(Xi , Xj |Y );
3. Defina S como a lista de variaveis explicativas utilizadas, sendo
que, inicialmente, S e o conjunto vazio;
4. Inicie a rede probabilstica com a variavel de classificacao Y ;
5. Repita ate a lista S conter todas as variaveis explicativas:
(a) Selecione a variavel explicativa Xmax que ainda nao esta contida em S e que possua a maior medida I(Xmax , Y );
(b) Adicione a` rede a variavel Xmax ;
(c) Adicione um arco de Y para Xmax ;
(d) Adicione m = min(|S|, K) arcos partindo das m Xj variaveis
explicativas com o maior valor I(Xmax , Xj |Y ) ;
(e) Adicione Xmax a` lista S;
6. Calcule as tabelas de probabilidades condicionais considerando a
estrutura construda.
131
Redes Probabilsticas
7.3.2
Estima
c
ao de par
ametros
132
Redes Probabilsticas
7.4
Comparac
ao entre os m
etodos de classificac
ao
Redes Probabilsticas
penho considerada.
A comparacao entre os metodos para o caso discreto e mostrada
na Tabela 7.1. Para o caso contnuo, a comparacao entre os metodos
e mostrada na Tabela 7.2, sendo n o n
umero de observacoes em cada
conjunto de dados e p o n
umero de variaveis explicativas.
Para os resultados da Tabela 7.1 podemos verificar visualmente
que, para os conjuntos de dados analisados, as redes de K-dependencia
possuem maior capacidade preditiva, especialmente considerando como
metricas gerais o CAT e MCC. Para este caso, todos os conjuntos de
dados estudados admitem, visualmente, que as redes de 0-dependencia
(naive Bayes) possuem a melhor capacidade preditiva. As estruturas
destas redes sao exibidas na Figura 7.5.
Atraves dos resultados da Tabela 7.2 podemos verificar que, para
os conjuntos de dados com variaveis explicativas contnuas, as redes de
K-dependencia possuem tambem maior capacidade preditiva. Neste sentido, Sahami (1996) evidencia que para determinados conjuntos de dados podemos achar um valor para K, no qual a capacidade preditiva
e mais satisfatoria. Para os Dataset 5 e 6, as redes de 0-dependencia
possuem melhor capacidade preditiva, o Dataset 7 admite as redes de 2dependencia com a melhor capacidade preditiva considerando a metrica
MCC. Por fim, as redes de 2-dependencia possuem a melhor capacidade
preditiva para o Dataset 8. As estruturas das redes contnuas sao exibidas
na Figura 7.6.
Para os resultados da Tabela 7.1 podemos verificar visualmente
que, para os conjuntos de dados analisados, as redes de K-dependencia
possuem maior capacidade preditiva, especialmente considerando como
metricas gerais o CAT e MCC. Para este caso, todos os conjuntos de
dados estudados admitem, visualmente, que as redes de 0-dependencia
(naive Bayes) possuem a melhor capacidade preditiva. As estruturas
destas redes sao exibidas na Figura 7.5.
Atraves dos resultados da Tabela 7.2 podemos verificar que, para
os conjuntos de dados com variaveis explicativas contnuas, as redes de
K-dependencia possuem tambem maior capacidade preditiva. Neste sentido, Sahami (1996) evidencia que para determinados conjuntos de dados podemos achar um valor para K, no qual a capacidade preditiva
134
Redes Probabilsticas
Dataset 1
286
10
Dataset 2
690
14
Dataset 3
1000
20
Dataset 4
653
15
Medidas
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
LR
0,742
0,662
0,719
0,381
0,758
0,734
0,747
0,490
0,708
0,717
0,711
0,397
0,789
0,751
0,771
0,540
PR
0,737
0,664
0,716
0,378
0,758
0,783
0,767
0,537
0,708
0,715
0,710
0,394
0,790
0,756
0,773
0,546
KDB0
0,780
0,722
0,762
0,471
0,890
0,850
0,924
0,778
0,734
0,750
0,739
0,453
0,890
0,877
0,902
0,779
KDB1
0,663
0,578
0,639
0,221
0,717
0,722
0,720
0,439
0,633
0,584
0,619
0,203
0,759
0,728
0,744
0,486
KDB2
0,672
0,556
0,646
0,208
0,657
0,588
0,623
0,246
0,524
0,667
0,565
0,173
0,601
0,580
0,622
0,202
Dataset 5
107
Dataset 6
270
13
Dataset 7
748
Dataset 8
208
60
Medidas
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
SPEC
SENS
CAT
MCC
LR
0,745
0,791
0,760
0,513
0,867
0,838
0,854
0,705
0,739
0,687
0,727
0,380
0,775
0,723
0,750
0,498
PR
0,740
0,798
0,758
0,511
0,870
0,834
0,854
0,704
0,735
0,688
0,723
0,375
0,776
0,719
0,749
0,496
KDB0
0,768
0,772
0,768
0,519
0,874
0,842
0,860
0,716
0,687
0,692
0,688
0,331
0,802
0,694
0,753
0,510
KDB1
0,706
0,754
0,722
0,442
0,866
0,841
0,855
0,706
0,746
0,683
0,731
0,385
0,838
0,815
0,827
0,652
KDB2
0,686
0,723
0,702
0,398
0,857
0,842
0,849
0,696
0,744
0,686
0,730
0,386
0,846
0,863
0,856
0,712
135
Redes Probabilsticas
(a) Dataset 1
(b) Dataset 2
(c) Dataset 3
(d) Dataset 4
136
Redes Probabilsticas
(a) Dataset 5
(b) Dataset 6
(c) Dataset 7
(d) Dataset 8
137
Captulo 8
An
alise de Sobreviv
encia
Do ponto de vista dos gestores do credito, o questionamento
basico a` concessao consiste em saber qual a propensao a` inadimplencia
do cliente. Considerando a modelagem apresentada ate o momento neste
livro, a resposta a essa pergunta, vem dos modelos de classificacao direcionados na determinacao do escore de credito, correspondendo a` chance
do cliente estar ou nao propenso `a inadimplencia.
A questao basica aqui e a pontualidade da modelagem, atribuda
a` simplificacao da real resposta a uma determinada concessao de credito.
Na verdade, a partir da entrada do cliente na base, antes mesmo do
final do perodo de desempenho, este pode tornar-se mau pagador e a
resposta a` concessao do credito e obtida, ou seja, temos o verdadeiro
momento da resposta do cliente `a concessao. Entretanto, baseados no
planejamento amostral usual descrito no Captulo 1, utilizado para o desenvolvimento da modelagem de Credit Scoring, esperamos ate o final do
perodo de desempenho para, entao, indicar se o desempenho do cliente
foi bom ou mau por meio de uma variavel dicotomica 0 ou 1. Isto e,
simplificamos a resposta. Apesar de termos o instante da ocorrencia da
resposta (no nosso caso, negativa) do cliente a` concessao do credito desde
a sua entrada na base, este momento e ignorado, em detrimento de sua
transformacao simplificadora a uma resposta dicotomica passvel de ser
o
acomodada por tecnicas usuais de modelagem de Credit Scoring. E
que podemos chamar de representacao discreta do risco de credito do cliente. Entretanto, o que nao podemos esquecer e que, apesar dos pontos
138
An
alise de Sobreviv
encia
de contato do cliente com a empresa serem discretos (pontuais), o relacionamento cliente-empresa e contnuo a partir de sua entrada na base.
Assim, intuitivamente, e natural pensarmos em adaptar a tecnica de modelagem `a uma resposta temporal do cliente a` concessao, direcionando
os procedimentos estatsticos a uma visao contnua do relacionamento
cliente-empresa, ao inves de simplificar a resposta do cliente relacionada
a` concessao do credito, adequando-a `as tecnicas usuais de modelagem.
o que chamamos de modelagem temporal de Credit Scoring. Assim,
E
consideramos uma metodologia conhecida por analise de sobrevivencia.
8.1
Algumas Defini
co
es Usuais
A analise de sobrevivencia consiste em uma colecao de procedimentos estatsticos para a analise de dados relacionados ao tempo decorrido desde um tempo inicial, pre-estabelecido, ate a ocorrencia de um
evento de interesse. No contexto de Credit Scoring, o tempo relevante e
o medido entre o ingresso do cliente na base de usuarios de um produto
de credito ate a ocorrencia de um evento de interesse, como por exemplo,
um problema de inadimplencia.
As principais caractersticas das tecnicas de analise de sobrevivencia sao sua capacidade de extrair informacoes de dados censurados,
ou seja, daqueles clientes para os quais, no final do acompanhamento no
perodo de desempenho, o problema de credito nao foi observado, alem
de levar em consideracao os tempos para a ocorrencia dos eventos. De
maneira geral, um tempo censurado corresponde ao tempo decorrido entre o incio e o termino do estudo ou acompanhamento de um indivduo
sem ser observada a ocorrencia do evento de interesse para ele.
Na analise de sobrevivencia, o comportamento da variavel aleatoria
tempo de sobrevida, T 0, pode se expresso por meio de varias funcoes
matematicamente equivalentes, tais que, se uma delas e especificada, as
outras podem ser derivadas. Essas funcoes sao: a funcao densidade de
probabilidade, f (t), a funcao de sobrevivencia, S(t), e a funcao de risco,
h(t), que sao descritas com mais detalhes a seguir. Essas tres funcoes
sao utilizadas na pratica para descrever diferentes aspectos apresentados
pelo conjunto de dados.
139
An
alise de Sobreviv
encia
f (t) = lim
(8.1)
A funcao de sobrevivencia e uma das principais funcoes probabilsticas usadas para descrever dados de tempo de sobrevivencia. Tal
funcao e definida como a probabilidade de nao ser observado o evento de
interesse para um indivduo ate um certo tempo t, ou seja, a probabilidade de um indivduo sobreviver ao tempo t sem o evento. Em termos
probabilsticos esta funcao e dada por
S(t) = P (T > t) = 1 F (t),
(8.2)
Rt
tal que S(t) = 1 quando t = 0 e S(t) = 0 quando t e F (t) = 0 f (u)
du representa a funcao de distribuicao acumulada.
A funcao de risco, ou taxa de falha, e definida como o limite da
probabilidade de ser observado o evento de interesse para um indivduo
no intervalo de tempo [t, t + t] dado que o mesmo tenha sobrevivido
ate o tempo t, e expressa por
P (t T < t + t | T t)
.
t0
t
h(t) = lim
Esta funcao tambem pode ser definida em termos de (8.1) e (8.2) por
meio da expressao
f (t)
h(t) =
,
(8.3)
S(t)
descrevendo assim o relacionamento entre as tres funcoes que geralmente
sao utilizadas para representar o comportamento dos tempos de sobrevivencia.
Devido a sua interpretacao, a funcao de risco e muitas vezes utilizada para descrever o comportamento dos tempos de sobrevivencia. Essa
funcao descreve como a probabilidade instantanea de falha, ou taxa de
falha, se modifica com o passar do tempo, sendo conhecida tambem como
140
An
alise de Sobreviv
encia
[1 S(t)]
= S 0 (t).
t
(8.4)
S 0 (t)
[log S(t)]
=
.
S(t)
t
Z
log S(t) =
h(u)du,
0
ou seja,
Z t
S(t) = exp
h(u)du .
(8.5)
Z
H(t) =
h(u)du.
(8.6)
141
(8.7)
An
alise de Sobreviv
encia
(8.8)
142
An
alise de Sobreviv
encia
8.2
Modelo de Cox
An
alise de Sobreviv
encia
8.2.1
(8.9)
An
alise de Sobreviv
encia
(8.10)
8.2.2
A generaliza
c
ao do modelo de riscos proporcionais
An
alise de Sobreviv
encia
(8.11)
An
alise de Sobreviv
encia
8.2.3
r
Y
P
j=1
exp( 0 x(j) )
,
0
lR(t(j) ) exp( xl )
(8.12)
147
An
alise de Sobreviv
encia
t(j) . O somatorio no denominador da funcao de verossimilhanca considera apenas os valores de exp( 0 x) para todos os indivduos que estao
sob risco de credito no instante t(j) . Note que o produtorio considera apenas os clientes para os quais o evento de interesse foi observado. Alem
disso, observe que os clientes com tempos de sobrevida censurados nao
contribuem no numerador da funcao de verossimilhanca, porem, fazem
parte do somatorio do conjunto sob risco de credito em cada um dos
tempos que ocorreram eventos. A funcao de verossimilhanca depende
somente da ordem dos tempos em que ocorreram os eventos de interesse,
uma vez que, isso define o conjunto de risco em cada um dos tempos.
Consequentemente, inferencias sobre os efeitos das covariaveis na funcao
de risco dependem somente da ordem dos tempos de sobrevivencia.
Considere ti , i = 1, 2, . . . , n os tempos de sobrevida observados e
i uma variavel indicadora de censura assumindo valor zero, se o i-esimo
tempo ti , i = 1, 2, . . . , n, e uma censura, e um, na situacao em que o
evento de interesse foi observado no tempo considerado.
A funcao de verossimilhanca em (8.12) pode ser expressa da seguinte forma
"
# i
n
Y
exp( 0 xi )
P
L() =
,
0x )
exp(
l
lR(t
)
i
i=1
O logaritmo desta funcao de maxima verossimilhanca e dado por
X
X
l() =
i 0 xi log
exp( 0 xl ) .
(8.13)
i=1
lR(ti )
lR(ti ) exp(xl )
i=1
e obtido atraves do metodo de Newton-Raphson.
O estimador de , ,
148
An
alise de Sobreviv
encia
dos
O estimador da matriz de variancias-covariancias, Vd
ar(),
coeficientes estimados sao obtidos usando a teoria assintotica dos estimadores de maxima verossimilhanca (Hosmer & Lemeshow, 1999). Estes
estimadores sao dados por
= I()
1 ,
Vd
ar()
(8.14)
l()
I() =
2
=
e
r
X
2 l()
=
22
i=1
(P
)
P
P
[ l exp(xl )] [ l x2l exp(xl )] [ l xl exp(xl )]2
P
.
l exp(xl )
149
An
alise de Sobreviv
encia
e utilizando a equacao (8.11), a funcao de risco basica, h0 (t(j) ), no numerador e denominador sao canceladas resultando na seguinte expressao
exp( 0 x(j) )
,
0
lR(t(j) ) exp( xl )
An
alise de Sobreviv
encia
de verossimilhanca parcial.
Com o objetivo de tornar mais clara a construcao da funcao de
verossimilhanca parcial do modelo de riscos proporcionais, considere uma
amostra com informacoes dos tempos de sobrevida de cinco clientes, que
estao representados na Figura 8.2. Para os indivduos 2 e 5 nao ocorreu
o evento de interesse, ou seja, ate o instante t(3) estes clientes estao
com seus pagamentos em dia com a empresa. Os tres tempos para os
quais foram observados a inadimplencia dos clientes sao denotados por
t(1) < t(2) < t(3) . Assim, t(1) e o tempo de sobrevida do cliente 3, t(2) e o
tempo para o cliente 1 e t(3) para o cliente 4.
An
alise de Sobreviv
encia
(3)
(1) + (2) + (3) + (4) + (5)
(1)
(1) + (2) + (4)
(4)
(2) + (4)
Quando ocorrem empates entre eventos e censuras, como em t(3) , utilizamos, por convencao, que as censuras ocorreram apos o evento, definindo,
assim, quais os indivduos que fazem parte do conjunto de risco em cada
um dos tempos e que foram observados os eventos.
8.2.4
Tratamento de empates
An
alise de Sobreviv
encia
r
Y
j=1
exp( 0 sj )
hP
0
lR(t(j) ) exp( xl )
idj .
(8.16)
r
Y
j=1
exp( 0 sj )
Qdj
k=1
hP
lR(t(j) )
exp( 0 s
l)
(k
P
0
1)d1
lD(t(j) ) exp( xl )
k
idj ,
(8.17)
An
alise de Sobreviv
encia
r
Y
P
j=1
exp( 0 sj )
,
0
lR(t(j) ;dj ) exp( sl )
(8.18)
em que R(t(j) ; dj ) denota um conjunto de dj indivduos retirados do conjunto de risco no instante t(j) . O somatorio no denominador corresponde
a todos os possveis conjuntos de dj indivduos retirados do conjunto de
risco R(t(j) ). A aproximacao da expressao (8.18) e baseada no modelo
para a situacao em que a escala de tempo e discreta, permitindo assim a
presenca de empates. A funcao de risco para um indivduo, com vetor de
covariaveis xi , hi (t; x), e interpretada como a probabilidade de abandono
em um intervalo de tempo unitario (t, t + 1), dado que esse indivduo
estava sob risco ate o instante t, ou seja,
hi (t) = P (t 6 T < t + 1 | T > t),
(8.19)
(8.20)
An
alise de Sobreviv
encia
8.3
Intervalos de Confian
ca e Sele
c
ao de
Vari
aveis
155
An
alise de Sobreviv
encia
8.4
Estimac
ao da Fun
c
ao de Risco e Sobreviv
encia
Nas secoes anteriores consideramos procedimentos para a estimacao do vetor de parametros do componente linear do modelo de
riscos proporcionais. Uma vez ajustado o modelo, a funcao de risco e
a correspondente funcao de sobrevivencia podem, se necessario, ser estimadas.
Suponha que o escore de risco de um modelo de riscos proporcionais contem p covariaveis x1 , x2 , . . . , xp com as respectivas estimativas
para seus coeficientes 1 , 2 , . . . , p . A funcao de risco para o i-esimo
indivduo no estudo e dada por
i (t) = exp{0 xi }h
0 (t),
h
(8.21)
156
An
alise de Sobreviv
encia
X
exp(0 xl )
=
exp(0 xl ),
0 xl )
exp(
lR(t )
)1
j
(8.22)
(j)
exp(0 x(j) )
1 P
exp(0 xl )
!exp(0 x(j) )
,
lR(t(j) )
S0 (t) =
j ,
j=1
An
alise de Sobreviv
encia
funcao e
k
X
log j ,
j=1
i (u)du = exp(0 xi )
h
0 (u)du,
h
Si (t) = S0 (t)
,
para t(k) t < t(k+1) , k = 1, 2, . . . , r 1. Uma vez estimada a funcao
de sobrevivencia, Si (t), uma estimativa da funcao de risco acumulada e
obtida automaticamente fazendo log Si (t).
8.5
Interpretac
ao dos Coeficientes
Quando o modelo de riscos proporcionais e utilizado, os coeficientes das covariaveis podem ser interpretados como o logaritmo da razao
de risco (hazard risk) do evento de dois indivduos com caractersticas
diferentes para uma covariavel especfica. Dessa forma, o coeficiente de
uma covariavel especfica e interpretado como o logaritmo da razao do
risco do evento de um indivduo, que assume determinado valor para esta
covariavel, em relacao a outro indivduo para o qual foi observado um
outro valor que e assumido como referencia.
158
An
alise de Sobreviv
encia
h
i
h
i = exp().
=
=
hj (t)
An
alise de Sobreviv
encia
risco basica. Assim, a razao de risco, em um determinado t, de um cliente pertencente a um grupo diferente ao de referencia em relacao ao de
referencia e exp(j ). Similar ao caso de uma variavel contnua, podemos
dizer que o risco dos indivduos pertencentes a algum grupo j, j 2,
e exp(
j ) vezes o risco do grupo adotado como referencia. Consequentemente, o parametro j e o logaritmo da razao do risco do evento de
interesse de um cliente do grupo j para outro pertencente ao grupo um
adotado como referencia, ou seja,
hj (t)
j = log
.
h0 (t)
8.6
Aplicac
ao
A base de dados utilizada para ilustrar a metodologia apresentada neste captulo e composta por uma amostra de treinamento de 3.000
clientes, obtida via oversampling dos dados do exemplo apresentado na
Secao 1.2.1, cujas variaveis sao apresentadas na Tabela 1.1. Tais clientes
iniciaram a utilizacao de um produto de credito durante varios meses,
compreendendo, portanto, a varias safras de clientes, sendo que, para
1.500 clientes nao houve problema de credito, enquanto que os demais
clientes tornaram inadimplentes, formando assim a base total de clientes.
A ocorrencia ou nao de problema de credito, que determina a
classificacao dos clientes em bons ou maus pagadores, foi observada durante os 12 meses seguintes a` contratacao do produto, que corresponde
ao horizonte de previsao do estudo.
O uso de uma amostra com essa quantidade de clientes e com
a proporcao de 50% de clientes bons e 50% de clientes maus pagadores
foi devido a` sugestao dada por Lewis (1994) em relacao a quantidade de
clientes em cada uma das categorias.
As Tabelas 8.1 e 8.2 apresentam os resultados obtidos por meio
do modelo de Cox utilizando as aproximacoes de Breslow e Efron, respectivamente.
A Figura 8.3 mostra as curvas ROC relacionadas aos ajustes dos
modelos de regressao de Cox (BRESLOW) e regressao de Cox (EFRON).
160
An
alise de Sobreviv
encia
A grande semelhanca entre os desempenhos dos modelos pode ser justificada pela presenca das covariaveis com maior peso na discriminacao
de bons e maus clientes, tais como posse de cartao, idade e cliente antigo. Nesta amostra, o metodo de Breslow, no tratamento dos empates
na analise de sobrevivencia, selecionou, ao nvel de significancia 0,01, o
menor n
umero de variaveis dummies, 9 contra 11 do metodo de aproximacao de Efron. Em ambos os casos o desempenho foi semelhante aos
demais metodos.
Com o objetivo de medir e comparar o desempenho dos modelos
construdos com base na amostra de treinamento, 30 amostras de teste
com aproximadamente 200.000 clientes e na proporcao da base total de
clientes, ou seja, 99% bons e 1% maus pagadores, foram obtidas e avaliadas pela estatstica de Kolmogorov-Smirnov (KS) medindo o quanto
os escores produzidos pelos modelos conseguiam separar as duas categorias de clientes, sendo avaliado tambem a Capacidade de Acerto Total
do Modelo (CAT), a Capacidade de Acertos dos maus e bons clientes,
161
An
alise de Sobreviv
encia
(CAM) e (CAB).
Os resultados apresentados na Tabela 8.3 mostram que o desempenho dos dois modelos ajustados e muito semelhante para os casos
estudados, com as mesmas interpretacoes em relacao ao risco de credito,
sendo assim, as categorias consideradas das covariaveis originais, ou seja,
dummies, trazem evidencias de aumento ou diminuicao do risco de credito
coincidentes nas duas metodologias.
Ambas metodologias forneceram resultados dentro do praticado
pelo mercado para um problema de Credit Scoring. No entanto, algumas
alteracoes poderiam ser propostas para alcancar possveis melhorias no
162
An
alise de Sobreviv
encia
163
Captulo 9
Modelo de Longa Dura
c
ao
Um peculiaridade associada aos dados de Credit Scoring e a possibilidade de observarmos clientes, com determinados perfis definidos pelas covariaveis, com probabilidade de inadimplencia muito pequena. Tais
clientes sao considerados imunes a este evento dentro do horizonte de
12 meses. Ou seja, dentro do portfolio podemos observar uma proporcao
consideravel de clientes imunes ao evento inadimplencia.
Uma curva de sobrevivencia tpica nessa situacao pode ser vista
na Figura 9.1, em que observamos poucos eventos ocorrendo a partir do
instante de tempo t com elevada quantidade de censuras.
A analise estatstica adequada para situacoes como a descrita
acima envolve modelos de longa duracao.
9.1
(9.1)
(9.2)
9.2
Estimac
ao do modelo longa dura
c
ao geral
(9.3)
sideradas. Dentre as quais destacamos a distribuicao log-normal, a loglogstica e a gama (Louzada-Neto et al., 2002).
Seja Ti , i = 1, . . . , n, uma amostra dos tempos de sobrevida de n
clientes ate a ocorrencia da inadimplencia dentro do horizonte de previsao
de 12 meses, o vetor das covariaveis zi = (zi1 , zi2 , . . . , zik ) e uma variavel
indicadora i , onde i = 1 se for observada a inadimplencia para o i -esimo
cliente da amostra e i = 0 se nao for observado esse evento. A funcao
de verossimilhanca pode ser escrita como
L=
n
Y
(9.4)
i=1
sendo f (ti |zi ) a funcao densidade e S(ti |zi ) como definida em (9.2).
0
Seja = (, , ) o vetor de parametros, as estimativas de
maxima verossimilhanca de podem ser obtidas solucionando o sistema
de equacoes nao-lineares log L/ = 0. Porem, pode ser custoso obter a solucao desse sistema diretamente por metodos do tipo iterativo de
Newton. Uma forma direta de se obter essa solucao e maximizando (9.4).
Esse metodo pode ser implementado via SAS atraves do procedimento
NLP encontrando o valor de maximo local da funcao nao-linear usando
metodos de otimizacao.
Considerando o modelo de sobrevivencia Weibull geral em (9.2)
e assumindo que os parametros de escala, de forma e a probabilidade de
incidencia do evento sao afetados pelo vetor de covariaveis z, por meio
P
das relacoes log-lineares e logito, ou seja, log((zi )) = 0 + kj=1 j zij ,
P
P
p(zi )
log((zi )) = 0 + kj=1 j zij e log 1p(z
= 0 + kj=1 j zij respectivai)
mente. Entao, a funcao log-verossimilhanca e dada por
l(, , | z)
n
X
h
i
t
t
i zti + e zi zti + e zi log(ti )
i=1
+
+
n
X
i=1
n
X
i log(p(zi ))
n
X
i (ti e zi )e
zti
(9.5)
i=1
(ti ezi )e
i=1
167
zti
,
Pk
Pk
9.3
Aplicac
ao
a 66, 27, com um intervalo de confianca igual a (64, 53; 67, 91).
Os resultados sao apresentados na Tabela 9.4, em que observamos
que o desempenhos dos dois modelos ajustados e muito semelhante para
os casos estudados, com as mesmas interpretacoes em relacao ao risco de
credito, sendo assim, as categorias consideradas das variaveis originais,
ou seja, dummies, trazem evidencias de aumento ou diminuicao do risco
de credito coincidentes nas duas metodologias.
A utilizacao de modelos de longa-duracao para dados de Credit
Scoring nos proporciona acomodar a presenca de imunes a` inadimplencia,
o que condiz com a realidada encontrada geralmente nas bases de dados
de credito. Entretanto, varios sao os motivos que podem levar um cliente `a inadimplencia. Dentre os quais, ocorrencia de desemprego, esquecimento, fraude, entre outros. Inclusive essa informacao pode nao estar
disponvel, e nem mesmo a quantidade de possveis motivos. Neste contexto, modelo de longa-duracao, que acomodam estas situacoes tem sido
propostos e podem ser considerados adaptacoes dos modelos desenvolvidos por Perdona & Louzada-Neto (2011) e Louzada et al. (2011) entre
outros.
170
Refer
encias
Allison, P. D. (1995). Survival analysis using SAS system - A practical
guide. SAS Institute Inc.
Alves, M. C. (2008). Estrategias para o desenvolvimento de modelos de
credit score com inferencia dos rejeitados. Ph.D. thesis, Instituto de
Matematica e Estatstica - USP.
Aranda-Ordaz, F. J. (1981). On two families of transformations to additivity for binary response data. Biometrika, 68(2), 357363.
Ash, D. & Meesters, S. (2002). Best Practices in Reject Inferencing.
Wharton Financial Institution Center. Apresentacao na credit risk modelling and decisioning conference, Philadelphia.
Baldi, P., Brunak, S., Chauvin, Y., Andersen, C. A. F. & Nielsen, H.
(2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412424.
Banasik, J. & Crook, J. (2005). Credit scoring, augmentation and lean
models. Journal of the Operational Research Society, 56, 10721091.
Ben-Gal, I. (2007). Encyclopedia of Statistics in Quality and Reliability,
chapter Bayesian Networks. John Wiley & Sons.
Berkson, J. & Gage, R. (1952). Survival curve for cancer patients following treatment. Journal of the American Statistical Association, 47,
501515.
Berry, M. J. A. & Linoff, G. S. (2000). Mastering data mining. John
Wiley & Sons, New York.
171
REFERENCIAS
B
uhlmann, P. & Yu, B. (2002). Analyzing bagging. The Annals of
Statistics, 30, 927961.
Black, F. & Scholes, M. S. (1973). The pricing of options and corporate
liabilities. Journal of Political Economy, 81(3), 637654.
Bobbio, A., Portinale, L., Minichino, M. & Ciancarmela, E. (2001). Improving the analysis of dependable systems by mapping fault trees
into bayesian networks. Realiability Engineering and System Safety,
71, 249260.
Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2), 123
140.
Breslow, N. (1974). Covariance analysis of censored data. Biometrics,
30(1), 89100.
Broyden, C. G. (1970). The convergence of a class of double-rank minimization algorithms - parts i and ii. IMA Journal of Applied Mathematics, 6(1), 7690 e 222231.
Burkett, K. (2002). Logistic regression with missing haplotypes. Ph.D.
thesis, Simon Fraser University - Department of Statistics and Actuarial Science.
Carroll, R., Ruppert, D. & Stefanski, L. (1995). Measurement Error in
Nonlinear Models. Chapman & Hall, London.
Carvalho, J. (2000). Integracao de funcoes. Technical report, Departamento de Fsica da F.C.T.U.C. e LIP - Coimbra.
Colosimo, E. & Giolo, S. (2006). Analise de sobrevivencia aplicada. Edgard Blucher.
Cox, D. R. (1972). Regression models and life-tables (with discussion).
Journal Royal Statistic Society - B , 34(2), 187220.
Cox, D. R. & Oakes, D. (1994). Analysis of survival data. Chapman &
Hall, London.
172
REFERENCIAS
173
REFERENCIAS
174
REFERENCIAS
King, G. & Zeng, L. (2001). Logistic regression in rare events data. MA:
Harvard University, Cambridge.
Korb, K. B. & Nicholson, A. E. (2004). Bayesian artificial intelligence..
CRC Press UK.
Kuncheva, L. I. (2004). Combining pattern classifiers. Methods and
Algorithms. Wiley.
Lewis, E. M. (1994). An introduction to credit scoring. Athenas, California.
Linnet, K. (1998). A review of the methodology for assessing diagnostic
test. Clinical Chemistry, 34(7), 13791386.
Little, R. J. A. (1992). Regression with missing xs: a review. Journal
of the American Statistical Association, 87(420), 12271237.
Louzada, F., Roman, M. & Cancho, V. (2011). The complementary exponential geometric distribution: Model, properties, and a comparison
with its counterpart. Computational Statistics & Data Analysis, 55,
25162524.
Louzada, F., Ferreira, P. H. & Diniz, C. A. R. (2012). On the impact
of disproportional samples in credit scoring models: An application
to a brazilian bank data. Expert Systems with Applications, 39(10),
80718078.
Louzada-Neto, F., Mazucheli, J. & Achcar, J. A. (2002). Analise de
Sobrevivencia e Confiabilidade. IMCA Instituto de Matematicas y
Ciencias Afines, Lima-Peru.
Louzada-Neto, F., Anacleto, O., Candolo, C. & Mazucheli, J. (2011).
Poly-bagging predictors for classification modelling for credit scoring.
Expert Systems with Applications, 38(10), 1271712720.
Markowitz, H. (1952). Portfolio selection. The Journal of Finance, 7(1),
7791.
175
REFERENCIAS
REFERENCIAS
REFERENCIAS
178