Você está na página 1de 40

5

Regresso Logstica
Sumrio do captulo
Introduo.
A lgica da Regresso Logstica.
Modelo matemtico da Regresso Logstica.
Interpretando os coeficientes da Regresso.
A Curva da Regresso Logstica.
Suposies do modelo logstico.
Vantagens operacionais do modelo logstico.
Medidas de avaliao do modelo logstico.
Exemplo prtico.
Consideraes finais.
Resumo.
Objetivos de aprendizagem
O estudo deste captulo permitir ao leitor:
Compreender os objetivos gerais da Regresso Logstica e id
ficar as circunstncias em que essa tcnica pode ser utilizada;
Compreender as razes pelas quais o modelo logstico
recomendvel para realizar predies e classificar indivduos
objetos quando a varivel dependente dicotmica;
Regresso Logfstica 281
Estimar e interpretar os coeficientes da Regresso Logstica, es-
pecialmente no que se refere aos efeitos que eles exercem sobre
a probabilidade associada ocorrncia de determinado evento;
Realizar testes de significncia para o modelo logstico, em sentido
geral, e para cada coeficiente da regresso em particular;
Estimar probabilidades e realizar classificaes de indivduos e
objetos em grupos, utilizando o modelo logstico;
Solucionar casos prticos utilizando ferramentas computacionais
que contemplem a tcnica da Regresso Logstica (nfase na ge-
rao e interpretao dos relatrios).
5.1 Introduo
Vimos que a Regresso Linear Mltipla uma tcnica estatstica aplicvel a si-
tuaes em que se deseja predizer ou explicar valores de uma varivel dependente
em funo de valores conhecidos das variveis independentes. A ttulo de exemplo,
lembramos que esse recurso pode ser utilizado para explicar uma possvel relao
matemtica existente entre resultado operacional lquido e outras variveis, tais
como crescimento das vendas e gastos com publicidade. Caso se identifique uma
relao significativa entre elas, obtm-se um modelo que pode servir para estimar
o referido resultado em funo de futuras observaes das variveis independentes.
claro que em tais circunstncias a varivel dependente pode assumir qualquer
valor, inclusive negativo. E se estivssemos diante de uma situao em que ela s
pudesse assumir um entre dois resultados e, alm disso, de natureza qualitativa?
Ser que, ainda assim, seria vivel utilizar o modelo linear?
De fato, h de se considerar que em muitas situaes a varivel dependente
de natureza binria ou dicotmica. Por exemplo, um aluno pode ser aprovado ou
reprovado num exame, um paciente pode vir a bito ou sobreviver a um enfarte,
um candidato a um posto de trabalho pode ser contratado ou no, um produto
pode ser aceito ou barrado pelo controle de qualidade, um cliente pode cancelar
ou confirmar um pedido, um gerente pode obter xito ou fracassar numa nego-
ciao, um fornecedor pode aceitar ou rejeitar uma proposta, um cliente pode
se tornar inadimplente ou no, e assim por diante. Obviamente, esse raciocnio
tambm se aplica s entidades mais amplas, como grupos, empresas, pases etc.
Determinada cidade pode sofrer um ataque terrorista, passar por problemas de
abastecimento, enfrentar rebelies e outros fenmenos do gnero. De igual forma,
uma empresa pode ingressar em estado de falncia, sofrer restries ao crdito,
enfrentar greves, problemas na obteno de insumos e muitos outros. Como pre-
ver fenmenos que, como estes, s admitem uma entre duas alternativas do tipo
ocorre ou no ocorre, sim ou no?
282 Anlise Multivariada Corrar, Paulo e Dias Filho
Por tais exemplos, j se pode deduzir que a soluo desse problema
de perto a praticamente todas as reas do conhecimento. No mbito das
no difcil encontrar algum interessado em saber se um cliente tende a se
inadimplente, se uma empresa tende falncia, se um contrato poder ser 1V111v
se um empregado tende a se envolver em acidente de trabalho, tudo isso em
de um conjunto de variveis econmicas, ambientais etc. Na rea mdica, por
vez, um profissional pode estar interessado em estimar o risco de algum
um ataque cardaco em funo de certas variveis, tais como taxa de -.v'""'"''--
idade, sexo, peso, hbitos alimentares e outras. Note-se que, em todos os
o objetivo sempre explicar ou predizer a ocorrncia de determinado evento
funo de um conjunto de variveis, que podem ser categricas ou no. De
forma, importante observar que a varivel dependente de natureza
e exige resultados que possam ser interpretados em termos de
exatamente para resolver problemas desse tipo que se desenvolveu a
estatstica denominada Regresso Logstica.
Breve histrico
A tcnica da Regresso Logstica foi desenvolvida por volta de 1960
resposta ao desafio de realizar predi{jes ou explicar a ocorrncia de
minados fenmenos quando a varivel dependente fosse de natureza vu u ~
Um dos primeiros estudos que mais contriburam para conferir
a esse recurso da estatstica multivariada foi o famoso Framingham
Study, realizado com a colaborao da Universidade de Boston. O pri
objetivo dessa pesquisa foi identificar fatores que concorrem para "'"""'' ..........
dear doenas cardiovasculares. Em sua primeira etapa, foram recrutados S.
indivduos na faixa etria de 30 a 60 anos, residentes na cidade de
gham, em Massachusetts. Com o apoio da Regresso Logstica, um
monitoramento dessa amostra acabou identificando diversos fatores de
tais como: hipertenso arterial, taxas de colesterol elevadas, tabagismo,
sidade, diabetes e vida sedentria.
Alm disso, a referida tcnica ajudou a mensurar a influncia que cada
desses fatores exerce no desenvolvimento de doenas cardiovasculares,
dualmente, e quando associados a algumas caractersticas pessoais, tais """rTV1 ....
cor, sexo, idade, elementos psicossociais etc. Segundo Hosmer e
(1989), desde ento a Regresso Logstica tem se tornado o
na anlise multivariada de dados em muitos ramos do conhecimento, especial-
mente na rea mdica, quando a varivel dependente dicotmica. De fato,
uma rpida incurso em peridicos especializados, tais como o American Jour-
nal of Public Health, The International Journal of Epidemiology, The Journal of
Regresso l.ogfstica 283
Di.seases e outros do gnero, j nos permite comprovar o quanto essa
tem contribudo para a evoluo do conhecimento.
a Regresso Logstica tenha surgido e se desenvolvido na mediei-
sua aplicao no ficou restrita a essa rea. Pelo contrrio, expandiu-se
por outros campos para modelar relacionamentos entre uma va-
dependente dicotmica e um conjunto de variveis preditoras. Em eco-
por exemplo, o modelo logstico se revelou de grande utilidade para
problemas que implicam a escolha de uma entre duas alternativas e
estimao de probabilidades. Quando se deseja explicar por que
....... "
1
""' prefere este quele produto, por que determinados projetes econ-
fracassam e outros no, por que certas empresas conseguem angariar
com mais facilidade do que outras, por que um empregado consegue
metas e outro no, a Regresso Logstica pode prestar relevantes con-
:oes. Mais recentemente, vem sendo muito aplicada no desenvolvimento
Credit Scoring, inclusive no Brasil.
lgica da Regresso Logstica
vimos anteriormentera Regresso Logstica tambm busca explicar ou
valores de uma varivel em funo de valores conhecidos de outras va-
Porm, existem algumas particularidades que a distinguem dos demais
de regresso. A principal delas o fato de a varivel dependente ser di-
Isso exige que o resultado da anlise possibilite associaes a certas ca-
tais como positivo ou negativo, aceitar ou rejeitar, morrer ou sobreviver
por diante. Em princpio, nada obsta que semanticamente cada uma delas
.,..,.,v._1aua a qualquer nmero. Por exemplo, o nmero 3 poderia ser interpre-
como algo negativo e o 8 como uma situao positiva. Ocorre que, alm de
a classificao de fenmenos ou indivduos em categorias especficas,
so Logstica tem ainda por objetivo estimar a probabilidade de ocorrn-
determinado evento ou de que um fenmeno venha a se enquadrar nessa
categoria. Em outras palavras, os resultados da varivel dependente
permitir interpretaes em termos de probabilidade e no apenas classifi-
Como se pode deduzir, em tais circunstncias a sada circunscrever todos os
_.,.c ..... u., que se possam atribuir varivel dependente ao intervalo compreen-
entre zero e um. Assim, pode-se atender a dois objetivos, simultaneamente:
a probabilidade de ocorrncia de determinado evento e classific-lo em
Por exemplo, admitamos que algum esteja interessado em saber se
empresa se classifica no grupo de insolventes ou de solventes. Obtendo-se um
-ua,uu de O, 7 para a varivel dependente, pode-se afirmar que estatisticamente
284 Anlise Multivariada Corrar, Paulo e Dias Filho
ela se enquadra no grupo de provveis insolventes e, ao mesmo tempo,
a probabilidade de ela realmente assumir esse status. No caso, essa pro
de seria de 70%. Obviamente, isso pressupe a definio prvia de uma
deciso. Baseando-se em dados histricos, algum pode estabelecer que
resultado superior a 0,5 deve ser interpretado como de provvel ina
cia. Nessa hiptese, a categoria INSOLVENTE seria associada ao nmero
SOLVENTE, ao nmero zero. Esclarecemos que se trata de uma mera con
Portanto, uma associao em sentido oposto tambm . vivel, ou seja, zero
significar insolvente e o nmero um, solvente. Esse aspecto deve ser corlSIClt!ll
quando da interpretao dos resultados.
Como o uso do modelo linear poderia nos conduzir a predies de
nores que zero e maiores que um para a varivel dependente,
converter as observaes em razo de chance (odd.s ratio) e submet-las a
transformao logartmica, conforme ser demonstrado na prxima seo.
de utilizar o mtodo dos mnimos quadrados, opta-se pelo da mxima
lhana. Com isso, o modelo passa a evidenciar mudanas nas inter-relaes
logs da varivel dependente, e no na prpria varivel. Da o adjetivo ... v . ... ..,. ....
Alis, cabe salientar que a adoo do modelo linear tambm se tornaria
dada a impossibilidade de atender a algumas suposies bsicas, tais como
malidade e homoscedasticidade, alm de a probabilidade da ocorrncia do
to crescer ou diminuir linearmente em relao funo estatstica. Re
diramos que a Regresso Logstica se caracteriza como uma tcnica
que nos permite estimar a probabilidade de ocorrncia de determinado evento
face de um conjunto de variveis explanatrias, alm de auxiliar na
de objetos ou casos. particularmente recomendada para as situaes em
varivel dependente de natureza dicotmica ou binria. Quanto s
tes, tanto podem ser categricas como mtricas.
Na verdade, o modelo logstico tambm pode ser utilizado em problemas
envolvem classificao de fenmenos em mais de um grupo. Porm, a
especializada sugere que ele se mostra mais adequado para os casos em
varivel dependente de natureza binria. Salientamos que nos limites deste
ptulo no se pretende apurar tais questes e muito menos descer a detalhes
elevada complexidade, j que esse tipo de abordagem se distanciaria dos
vos da obra e das expectativas do pblico para o qual est orientada. Aos
res eventualmente interessados em explicaes tericas de maior profund
sugerimos consulta s fontes bibliogrficas relacionadas no final deste ........
especialmente se pesquisadores da rea mdica e farmacolgica.
5.3 Modelo matemtico da Regresso Logstica
J mencionamos que uma das razes pelas quais o modelo linear torna
inadequado para estimar probabilidades o fato de a varivel dependente poder-
Regresso Logstica 285
valor menor que zero e maior que um. Isso no se coaduna com urna re-
- natureza logstica, j que uma mesma mudana nos valores da varivel
pode produzir efeitos diferentes sobre a varivel dependente. Tudo
nder de sua posio relativa. Quanto mais prxima a probabilidade esti-
xu limite superior, menor o efeito dos fatores que concorrem para aumen-
:ice-versa. certo que outros modelos de natureza no linear poderiam
....... ,,., para representar esse tipo de relao. Contudo, salientamos que o
tem sido preferido, em funo de suas propriedades e da relativa sim-
operacional.
contornar as dificuldades inerentes ao modelo linear, efetua-se uma
logstica na varivel dependente. Esse processo constitudo basi-
de duas etapas. A primeira consiste em convert-la numa razo de chan-
segunda, em transform-la numa varivel de base logartmica. Com isso,
a predio de valores menores que zero e maiores que um. Para facilitar a
vamos explicar cada fase em separado. Considere-se, inicialmente,
a fenmeno tem uma probabilidade de ocorrer ou de assumir determina-
Assim, fica claro que, embora a varivel dependente s possa
duas posies, zero e um, toma-se necessrio obter valores que possam
em termos de probabilidade. Para tanto, em primeiro lugar can-
a probabilidade a cada observao em razo de chance (odds
que representa a probabilidade de sucesso comparada com a de fracasso.
pode ser expressa da seguinte forma:
P (sucesso)
Razo de chance=-----'-----'--
1 - P (sucesso)
r motivos de ordem operacional e principalmente para facilitar a interpre-
dos resultados, o segundo passo rumo construo do modelo consiste em
o logaritmo natural da razo de chance, conforme segue:
ro JffiO se observa, no lado esquerdo da equao anterior tem-se o logaritmo
31 da razo de chance. No direito, as variveis independentes (categricas
-crricas) e os coeficientes estimados (b
0
+ b
1
+ ... + bk), que expressam mu-
-'-"r"..., no log da razo de chance. Alis, esse ponto deve ser observado com muita
quando da interpretao dos coeficientes. Ou seja, preciso considerar
a Regresso Logstica calcula mudanas nas inter-relaes dos logs da varivel
dente e no na prpria varivel, como acontece com a linear. Voltaremos a
aspecto quando da interpretao dos resultados da regresso, por meio de
plos prticos.
286 Anlise Multivariada Corrar, Paulo e Dias Filho
Uma vez que o modelo logstico tenha sido ajustado a um conjunto de d
a razo de chance estimada pode ser obtida com relativa facilidade. Para
basta elevar a constante matemtica e ao expoente composto dos coeficientes
timados, como se observa a seguir:
(
P (sucesso) ) = e tbu+htX1 ... 1%,x . J
1 - P (sucesso)
Ora, se a razo de chance estiver devidamente estimada, chega-se ao o
vo final, que identificar a probabilidade associada ocorrncia de
evento. Valendo-se do prprio conceito de chance e baseando-se na frmula
ma, obtm-se a seguinte equao:
e (b
0
+b,x, +b
1
X
2
+ ... h,x"')
P (evento) = ----:-:----:-:,..---;--:-:----:-::--:-
1 + e(b0 +b1X1 +b2X2 + ...
Simplificando-se um pouco mais, a equao logstica assumiria o
formato:
Identificada a equao que nos permite calcular a probabilidade relativa
ocorrncia de determinado evento, agora s nos resta estimar os seus coeficienteS.
Como se sabe, se o modelo fosse linear, poderamos utilizar o mtodo dos mni.rnc:s
quadrados, cujo objetivo minimizar a soma dos quadrados das diferenas en
valores previstos e observados para a varivel dependente. Porm, a transforma -
logstica da qual resulta a equao anterior exige que se utilize um procedimc
diferente, que o mtodo da mxima verossimilhana. Trata-se de um recurso i
rativo que facilita a identificao dos coeficientes necessrios ao clculo da prot.
bilidade mxima associada a determinado evento. Resumidamente, diramos que
uma forma de estimar parmetros de distribuio de probabilidades que maxirm-
zem a funo verossimilhana. Geralmente, tal procedimento executado com
apoio de recursos computacionais e, por isso, evitamos descer a detalhes de cun
operacional. Neste captulo, utilizaremos o software SPss para realizar tais eso-
mativas. Alis, cabe salientar que todos os clculos envolvidos em cada etapa acima
referida normalmente so executados com apoio de ferramentas computacionais.
Por isso, at aqui estamos privilegiando aspectos conceituais do modelo para qu
o leitor possa compreender o significado da Regresso Logstica e identificar, por
prprio, oportunidades de aplicao em sua rea de interesse. Ademais, sem essa
base conceituai, torna-se bem menos confortvel a interpretao dos resultados de-
correntes de uma aplicao prtica.
Regresso Logstica 287
5.4 Interpretando os coeficientes da Regresso
No modelo linear, vimos que cada coeficiente estimado mede a mudana que
no valor da varivel dependente para cada unidade de variao ocorrida
varivel explicativa. Em se tratando de Regresso Mltipla, obviamente, h de
considerar que isso incorpora o pressuposto de que as demais variveis perma-
wcein constantes. Em sntese, diramos que cada coeficiente descreve a reao
pela varivel dependente a uma variao unitria ocorrida na varivel
Por exemplo, se Y = 200 + 8X expressa a relao entre custo total
dependente) e quantidade produzida (varivel independente), pode-se
que para cada variao unitria que se verifique em X, o custo total se
ificar em oito unidades.
No modelo logstico, pelo contrrio, o coeficiente de cada varivel indepen-
est sujeito a diversas interpretaes, j que ele exerce efeitos sobre a quan-
-u ....... de logit (logaritmo natural da razo de chance), sobre a prpria razo de
e, finalmente, sobre as probabilidades. Voltemos ao modelo geral da Re-
Logstica para examinarmos os diversos significados que podem ser atri-
:-.JIOC>s aos coeficientes:
(
P(sucesso) )
ln = b
0
+ b
1
x
1
, + b
2
x
2
, + + bkxk,
1 - P (sucesso)
Em relao ao logaritmo natural da razo de chance, o efeito de cada coe-
.,_,;.,nt<> semelhante ao que se verifica no modelo linear. Ou seja, o parmetro
o mede a mudana que ocorrer na varivel dependente por unidade de
ocorrida na independente. Por exemplo, supondo-se que as demais vari-
se mantenham inalteradas e que o coeficiente b
1
seja igual a 2, a quantidade
logit sofrer um acrscimo de duas unidades sempre que x
1
evoluir em uma
aidade. Independentemente do nvel em que se encontre a varivel x
1
ou qual-
outra independente, uma variao unitria em x
1
produzir o mesmo efeito
a varivel dependente, mantendo-se os demais fatores constantes. Como
exatamente o que acontece no modelo linear.
Porm, apesar da simplicidade com que pode ser interpretado, nesse caso
coeficiente da regresso no possui nenhum significado intuitivo. Dizer que a
,.. .. ,au.uuade de logit sofreu um aumento de duas unidades, por exemplo, expres-
muito pouco a respeito do impacto que essa variao poder exercer sobre a
probabilidade associada a determinado evento. Para sermos mais realistas, somos
a reconhecer que esse dado apenas indica que a probabilidade aumen-
tou. Isso porque um coeficiente positivo assinala um aumento de probabilidade
e o negativo, uma diminuio. Em termos prticos, claro que isso no melhora
muito a qualidade da informao disponvel. Afinal de contas, mais do que saber
flUe a probabilidade aumentou ou diminuiu, o pesquisador ou qualquer outro pro-
fissional responsvel por decises precisa identificar em quanto ela poder aumen-
288 Anlise Muhivariada Corrar, Paulo e Dias !'ilho
tarou diminuir, dada uma certa variao ocorrida na varivel independente. PGr
exemplo, suponha que a probabilidade de um indivduo contratar um seguro
vida pode ser estimada por variveis, tais como quantidade de filhos, renda, n\
de instruo e idade do chefe de famlia. Nesse caso, para um economista, cen.
mente muito mais interessante saber que uma variao positiva de R$ SOO.
na renda do indivduo aumentar em 8% a probabilidade de ele adquirir o segu
mantendo-se as demais variveis constantes, do que obter uma informao de que
essa variao provocar um aumento de 3 unidades no log da razo de chance
Assim, necessrio encontrar significados mais simples e intuitivos para 01
coeficientes. Uma segunda interpretao possvel, e talvez bem mais til, a qur
se relaciona com o impacto de cada coeficiente sobre a prpria razo de c h a n ~
e no mais sobre a quantidade de logit, como explicamos anteriormente. Ora, ~
servando-se a estrutura do modelo logstico, no difcil concluir que basta ele-
vara constante matemtica e (2,7182 ... ) ao coeficiente da varivel independenrr
para identificar o impacto que ele exerce sobre a razo de chance. Como se v,
procedimento consiste simplesmente em obter o antilogaritmo do prprio coefi-
ciente. Por exemplo, se o coeficiente b
1
for 0,3, a razo de chance ser impactada
em e
0

3
= 1,35. Isso significa que para cada unidade de variao que se registre na
varivel independente, as chances de que o evento ocorra sero aumentadas 35
em relao posio anterior, supondo-se que as demais variveis se mantenham
constantes, claro. de se admitir, portanto, que sob o ponto de vista pragmn-
co prefervel afirmar que as chances de um evento se concretizar evoluram em
35% a dizer que o logit sofreu um aumento de 0,3, a menos que o indivduo se
sinta muito confortvel com a terminologia matemtica.
Do exposto, observa-se que o efeito dos coeficientes sobre a razo de chancr
sempre de natureza multiplicativa, e no aditiva, como ocorre no modelo lineat.
Por essa razo, quando se obtm um coeficiente igual a O o efeito sobre a varivel
dependente tambm nulo. De fato, no poderia ser diferente, j que o antiloga-
ritmo desse coeficiente 1 (e
0
). Nesse caso, claro que no se verifica nenhum
efeito sobre a probabilidade. Alm disso, importante observar que como a cons-
tante matemtica e elevada a qualquer nmero positivo produz um resultado su-
perior a um, fica claro por que qualquer coeficiente positivo contribui para elevar
a razo de chance e, conseqentemente, a probabilidade. Logicamente, o inverso
tambm verdadeiro, ou seja, como e elevado a qualquer nmero negativo re-
sulta em nmero inferior a 1, coeficientes negativos contribuem para reduzir a
razo de chance e, novamente, a probabilidade. Vale observar que quando o coe-
ficiente negativo, obtm-se um resultado inferior a um, porm sempre superior
a O, j que a base da potncia positiva. exatamente por isso que se recorreu
transformao logartmica. Com isso, preserva-se o limite mnimo do espao das
probabilidades (zero).
verdade que a interpretao dos coeficientes em termos do efeito que eles
exercem sobre a chance de um evento ocorrer j tem algum significado intuitivo.
Regresso Logsttca 289
Entrelanto, como estamos mais habituados a raciocinar pensando em probabilida-
des, seria interessante considerarmos ainda essa terceira alternativa de interpreta-
~ o . Para determinar o impacto que um parmetro estimado pode exercer sobre a
robabilidade de um determinado evento, antes de tudo preciso identificar em
que nvel ela j se encontra. Consideremos, por exemplo, que a probabilidade de
am cliente alugar um apartamento de trs quartos em determinado bairro varia
em funo da renda familiar (X
1
) e do nmero de filhos (X
2
), conforme segue:
1
(
P(sucesso) ) _
0 25 0 4 n - , x
1
+ , x
2
1 - P(sucesso)
Partindo do pressuposto de que a probabilidade de um indivduo alugar um
nvel desse tipo j era de 30% e que no ltimo ms o casal ganhou mais um fi-
o, para quanto cla evoluiu se considerarmos que no houve nenhuma alterao
83 renda familiar? Em primeiro lugar, precisamos verificar qual era a chance de
alugar o imvel nas circunstncias anteriores. Pelo prprio conceito de chance,
-se que ela era de aproximadamente 0,43, ou seja, 0,3/ 0,7 (probabilidade de
sobre a de no alugar). O segundo passo consiste em verificar em quanto
as chances por unidade de variao ocorrida na varivel Xz (nmero de
. Pelo que vimos h pouco, essa variao de e
0
'
4
= 1,49. Isso significa que
razo de chance ser aumentada por um fator de 1,49. Com isso, ela passa de
para 0,64. Ora, se a chance representada pela razo entre a probabilidade
sucesso e a de insucesso [p/ (1- p)], conclui-se que a probabilidade evolui para
de 39% pelo fato de o casal ter ganho mais um filho.
E se a probabilidade inicial de se alugar o imvel fosse de 80%, em vez de
Bem, o raciocnio rigorosamente o mesmo! Como se pode perceber, nesse
a chance inicial seria de 4 (0,8/02). Aplicando-se o fator 1,49, que obviamen-
permanece o mesmo, a chance evolui para 5,96. Se a nova chance de 5,96,
-.u::-''" concluir que a probabilidade de se alugar o imvel em tais circunstncias
a ser de 85,6%. muito importante observar que agora a mesma variao
em X
2
produziu um efeito um pouco menor sobre a probabilidade. Note-
que na hiptese anterior ela evolui de 30 para 39%, ao passo que nesta ltima
de 80 para 85,5%. Portanto, verifica-se um efeito marginal decrescente.
exemplo contribui para reforar o entendimento acerca da relao que se
belece entre variveis dependente e independentes no modelo logstico, de-
nstrando que a variao de probabilidade no linear. Esse aspecto ser abor-
tklo em maiores detalhes na seo seguinte, quando examinaremos a Curva da
~ e s s o Logstica.
290 Anlise Multivariada Corra r, Paulo e D1as Filho
5.5 A Curva da Regresso Logstica
Praticamente tudo o que foi dito sobre o modelo logstico at aqui pode
visualizado na chamada Curva da Regresso Logstica. Como se pode nr>lrr,.
ela descreve a relao existente entre a probabilidade associada ocorrncia
determinado evento e um conjunto de variveis preditoras. A ttulo de e x 1 ~ m 1 1
diramos que ela poderia estar evidenciando o efeito de determinado es
sobre a probabilidade de um empregado atingir metas, o efeito de certas d
sobre a probabilidade de morte prematura, o efeito de pequenos desvios
a probabilidade de algum cometer uma fraude mais grave e assim por
Portanto, a referida curva expressa a natureza da relao que se estabelece
variveis desse tipo.
P(y)
1,0
oL--------------- -+x
Figura 5.1 Curva logstica.
Sob o ponto de vista conceituai, perfeitamente admissvel que a curva des-
crita pelo modelo logstico se assemelhe mais a um S do que a uma reta. Como a
estimao de probabilidades pressupe um limite mnimo e mximo (O e 1), real-
mente de se esperar que as mudanas ocorridas na varivel estatstica produzam
efeitos cada vez menores sobre a varivel dependente medida que ela assuma
valores mais prximos dos extremos. Isso significa que quanto mais a probabili-
dade se aproxima de O ou de 1, tornam-se necessrias mudanas cada vez mais
expressivas na funo logstica para se obter o mesmo efeito que seria obtido no
meio da curva. Em outras palavras, para que a probabilidade se desloque de 97
para 98%, por exemplo, o incremento que deve ocorrer nas variveis independen-
Hegresso Logstica 291
es muito maior do que o que se faz necessrio para alcanar uma evoluo de
47% para 48%. Da essa inclinao bem mais suave nas extremidades.
Na prtica, pode-se observar esse tipo de relao em diversas situaes. Consi-
por exemplo, que possvel estimar a probabilidade de vendas de automveis
wos em determinada populao usando a renda como varivel preditora. Par-
ndo dessa premissa, razovel admitir que uma variao de R$ 40.000,00 para
S 60.000,00 na renda anual de cada indivduo produzir um efeito muito maior
sobre a probabilidade do que uma evoluo R$ 90.000,00 para R$ 110.000,00.
so porque pessoas que j possuem renda mais elevada tm maior probabilidade
e adquirir certos bens de consumo durvel, como automveis. Ou seja, ao atingir
is patamares e permanecendo nessa condio, a taxa de crescimento da proba-
ilidade de algum adquirir outro veculo da mesma categoria tende a diminuir
::or unidade de renda.
Assim como um incremento de R$ 20.000,00 para indivduos mais aquinhoa-
os certamente exerceria pouco efeito sobre a probabilidade de se adquirir auto-
ovei novo em determinado perodo, o raciocnio inverso tambm verdadeiro.
seja, um aumento de R$ 20.000,00 na renda de quem ainda no conseguiu
mnimo necessrio ao seu bem-estar, certamente no exercer grande impacto
bre a probabilidade de vir a adquirir bens dessa natureza. Portanto, uma mes-
-J mudana na varivel preditora pode gerar impactos diferentes sobre a proba-
idade. Para quem j tem uma boa chance de comprar um automvel novo, o
:.1mento de R$ 20.000,00 na renda anual tende a aument-la substancialmente.
rm, para os que se encontram em nveis de renda mais elevados ou extrema-
ente reduzidos, o efeito tende a ser bem menor. O resultado, portanto, uma
.:or\'a em formato de S, muito utilizada cm estudos econmicos e em medicina
ra modelar certas relaes.
5.6 Suposies do Modelo Logstico
Um dos motivos pelos quais a Regresso Logstica tem sido muito utilizada
a realizar predies quanto varivel dependente dicotmica o pequeno
mero de suposies. Com essa tcnica, o pesquisador consegue contornar certas
rries encontradas em outros modelos multivariados, entre as quais se des-
am a homogeneidade de varincia e a normalidade na distribuio dos erros.
assim, necessrio observar os seguintes requisitos:
incluir todas as variveis preditoras no modelo para que ele obtenha
maior estabilidade;
o valor esperado do erro deve ser zero;
inexistncia de autocorrelao entre os erros;
292 Anlise Multivariada Corrar, Paulo e Dias Filho
inexistncia de correlao entre os erros e as variveis independen
ausncia de multicolinearidade perfeita entre as variveis
tes.
Como se pode observar, se comparado aos demais modelos de res!ressjio_,
logstico realmente possui poucas restries. Felizmente, pois do contrrio
mais difcil operar com variveis categricas. Nesse particular, um dos pro
mais srios seria a violao de aiguns preceitos bsicos, tais como o carte
normalidade na distribuio das variveis independentes. Entretanto, um
em relao ao qual a literatura ainda no apresenta consenso a quantidade
observaes necessrias realizao de inferncias de boa qualidade. Dada a
bustez do modelo, alguns autores consideram que na maioria dos casos esse
to no chega a preocupar. Na dvida, entende-se que uma regra razovel
um nmero de observaes equivalente a pelo menos trinta vezes a
de parmetros que se deseja estimar. Em geral, h um certo consenso no
de que o modelo logstico requer amostras mais amplas do que os lineares
alguns experimentos, temos observado que realmente as predies tendem a
tanto mais acuradas quanto mais ampla for a amostra. Assim, ao menos por
tes de cautela, julgamos conveniente considerar esse limite, ou seja, uma
de pelo menos 30 observaes para cada parmetro estimado.
S. 7 Vantagens operacionais do modelo logstico
No restam dvidas de que uma das principais vantagens associadas ao
da Regresso Logstica est na relativa facilidade com que ela pode
predizer a ocorrncia de determinados fenmenos em diversas reas do
mento, tais como economia, administrao, contabilidade, sociologia e luc:UI"--
Genericamente, pode-se afirmar que o modelo logstico se presta cons
de dois grandes objetivos: identificar a que grupo certos objetos, pessoas o
nmenos pertencem e estimar a probabilidade de que eles possam se enq
nesta ou naquela categoria. Mas, sob o ponto de vista operacional, o que
ficaria a popularidade que essa tcnica vem alcanando em to curto
tempo? Afinal de contas, ela foi desenvolvida h apenas quatro dcadas e
ento vem ganhando espao em praticamente todas as reas, principalmente
de biologia e economia.
Para explicar o xito e a grande popularidade que essa tcnica tem an..cu'o.-
a literatura especializada no assunto costuma mencionar os seguintes fatores:
comparada a outras tcnicas de dependncia, a Regresso Logstica
lhe com mais facilidade variveis categricas. Alis, esta uma das
pelas quais ela se torna uma boa alternativa anlise discriminante.
Regresso Logstica 293
bretudo quando o pesquisador se defronta com problemas relacionados
homogeneidade da varincia;
mostra-se mais adequada soluo de problemas que envolvem estima-
o de probabilidades, pois trabalha com uma escala de resultados que
vai de O a 1;
requer um menor nmero de suposies iniciais, se comparada com ou-
tras tcnicas utilizadas para discriminar grupos;
admite variveis independentes mtricas e no mtricas, simultanea-
mente;
facilita a construo de modelos destinados previso de riscos em di-
versas reas do conhecimento. Os chamados Credit Scoring e tantos ou-
tros que so utilizados no contexto da anlise de sobrevivncia ilustram
essa realidade;
tendo em vista que o referido modelo mais flexvel quanto s suposies
iniciais, tende a ser mais til e a apresentar resultados mais confiveis;
os resultados da anlise podem ser interpretados com relativa facilidade,
j que a lgica do modelo se assemelha em muito de outras tcnicas
bem conhecidas, como a regresso linear;
apresenta facilidade computacional, tendo sido includa em vrios paco-
tes estatsticos amplamente difundidos em todo o mundo.
No mbito das organizaes, em particular o fato de a Regresso Logstica
-se notabilizado como uma tcnica muito apropriada para gerenciar riscos de
edito, explicar certas tendncias, prever riscos de falncia e outros semelhan-
. tem sido atribudo principalmente aos seguintes fatores: fcil compreenso
:. resultados da anlise de dados, pequeno grau de complexidade operacional
_usncia de restries mais rgidas, ao contrrio do que se verifica em relao
"...nlise Discriminante, que pressupe distribuio normal para as variveis in-
-pendentes. Estas e outras vantagens podero ser percebidas pelo leitor quando
:Jvermos aplicando a tcnica a um caso prtico, ainda neste captulo .
.5.8 Medidas de avaliao do modelo logstico
Pode-se questionar se as classificaes e predies baseadas na equao lo-
..:>tica so melhores do que as que poderiam ser realizadas tomando-se como
'erncia o grupo em que se enquadra a maioria dos componentes da amostra.
~ n a l de contas, se o modelo no proporcionar informaes mais acuradas do que
disponveis no poder contribuir para melhorar a compreenso da realidade
por conseguinte, a qualidade das decises. Em relao ao modelo linear, isso
294 Anlise Multivariada Corrar, Paulo e Dias Filho
equivale a perguntar se as predies orientadas pela equao da reta realmente
so melhores do que as baseadas no valor mdio da varivel dependente. Para
sanar tais dvidas, diversos testes estatsticos podem ser utilizados, inclusive para
comparar a performance de modelos alternativos. Sabe-se que na regresso linear
poderamos lanar mo de diversas medidas, tais como a distribuio F, que testa
a significncia global de um modelo, a distribuio t, que testa a significncia de
um coeficiente estimado, o R-Quadrado, e assim por diante. No contexto daRe-
gresso Logstica, ser que podemos nos valer desses mesmos mecanismos?
Adiantamos que no possvel utilizar as mesmas estratgias de avaliao
para o modelo logstico, uma vez que os seus parmetros so estimados com
apoio do mtodo da mxima verossimilhana e no com o dos mnimos quadrados.
Com a mxima verossimilhana buscam-se coeficientes que nos permitam estimar
a maior probabilidade possvel de um evento acontecer ou de certa
se fazer presente.
5.8.1 O Likelihood Value
Uma das principais medidas de avaliao geral da Regresso Logstica
Log Likelihood Value. Trata-se de um indicador que busca aferir a capacidade
o modelo estimar a probabilidade associada ocorrncia de determinado evento.
Como veremos, seu papel um pouco parecido com o da estatstica F, u ............. _
na avaliao do modelo linear. De forma geral, o Likelihood Value tem sido
sentado pela expresso- 2LL, que nada mais do que o logaritmo natural do
kelihood Value multiplicado por -2, seguindo-se uma distribuio
Ora, se a probabilidade mxima de um evento ocorrer representada no .... ,u .... -
logstico pelo nmero 1, pode-se deduzir que o nvel ideal para o Likelihood
zero. Em outras palavras, quanto mais prximo de zero, maior o poder pred
do modelo como um todo.
Apesar da facilidade com que se pode interpretar o -211, devemos
que ele no tem um significado intrnseco, isto , considerado de forma ............ ,_
oferece pouca informao sobre o grau de adequao do modelo. Para
esse problema, costuma-se estabelecer uma base de comparao e verificar
esse indicador aumenta ou diminui. Com apoio de ferramentas computaci
obtm-se o Likelihood Value, incluindo-se apenas a constante no modelo, ou
partindo-se do pressuposto de que todos os coeficientes das variveis in
tes so iguais a zero. Em seguida, calcula-se o Likelihood Value com a incluso
todas as variveis independentes no modelo. Quanto mais elevada for a
entre os dois valores, maior o potencial dos coeficientes para estimar proba
des associadas ocorrncia de determinado evento ou manifestao de
caractersticas. Essa diferena serve para testar a hiptese de que todos os
cientes da equao logstica so iguais a zero, tal como se verifica na d
Regrt>ssao Logstica 295
F. O Likelihood Value serve tambm para verificar se o modelo melhora com a in-
cluso ou excluso de alguma varivel independente, particularmente quando se
opta pelo mtodo stepwise. Lembramos que esse mtodo (stepwise) um processo
terativo que tem por finalidade identificar as variveis que apresentam maior po-
der preditivo. Em sntese, pode-se afirmar que o principal objetivo do Likelihood
alue (-211) verificar se a regresso como um todo estatisticamente significan-
te e facilitar comparaes entre modelos alternativos.
5.8.2 O R-Quadrado do modelo logstico
A esta altura, provvel que voc esteja esperando uma medida equivalente
ao famoso Coeficiente de Determinao da Regresso Linear, cujo objetivo iden-
tificar a proporo da variao total ocorrida na varivel dependente em funo
das independentes. Embora no se disponha de uma medida rigorosamente idn-
tica ao R
2
no modelo logstico, existem alguns indicadores que cumprem um pa-
pel semelhante ao que ele desempenha. So os chamados Pseudos- R-Quadrado.
Cm deles o McFadden's-R
2
ou o R
2
logit, como mais conhecido. Este coeficiente
expressa a variao percentual entre o Likelihood Value do modelo, que considera
apenas a constante, e o Likelihood Value, que incorpora as variveis explicativas,
conforme segue: R
2
logit= [-2LLnulo- (-2LLmodelo)]/-2LLnulo.
Como se observa, o numerador evidencia a melhoria que se espera ocorrer no
ikelihood Value como efeito da incluso das variveis independentes no mode-
lo. O denominador, pelo contrrio, tende a apresentar um Likelihood Value mais
elevado, j que ele reflete apenas a constante. Assim, se todos os coeficientes das
~ r i v e i s includas no modelo forem O, o R
2
logit tambm ser O. Seu valor m-
ximo se aproxima de 1. Contudo, bom lembrar que esse R-Quadrado tem um
significado um pouco diferente daquele que se atribui ao coeficiente de determi-
nao do modelo linear. Na verdade, ele apenas nos permite avaliar se o modelo
melhora ou no a qualidade das predies, quando comparado a um outro que
gnore as variveis independentes. No pode, por exemplo, ser interpretado como
taXa de variao na probabilidade de ocorrer o evento por unidade de variao
da varivel independente.
Outra espcie de pseudo- R
2
que se assemelha ao coeficiente de determina-
o utilizado no modelo linear o teste Cox-Snell R
2
. Como o anterior, este tam-
bm no serve propriamente para indicar a proporo da variao experimentada
pela varivel dependente em funo de variaes ocorridas nas independentes,
uma vez que funes de probabilidade no lidam com variaes desse tipo. Alis,
e exatamente por isso que tais medidas so geralmente denominadas pseudos
R-Quadrado. Entretanto, trata-se de um mecanismo que pode ser utilizado para
comparar o desempenho de modelos concorrentes. A princpio, entre duas equa-
es logsticas igualmente vlidas, deve-se preferir a que apresente o Cox-Snell R
2
296 Anlise Multivariada Corrar, Paulo e Dias Filho
mais elevado. Esse indicador baseia-se no Likelihood Value e situa-se numa
que comea em O, mas no chega a 1 em seu limite superior. Por isso, Nu""'-'"''.-
(1991) props um ajuste nesse ndice para que ele pudesse chegar ao
limite mximo. Da a existncia do chamado teste Nagelkerke R
2
. Situado
escala que vai de zero a um, sua finalidade a mesma do Cox-Snell R
2
. Na
a nica diferena est em se fazer mais compreensvel que o Cox-Snell.
Vale salientar que no existe consenso quanto superioridade deste ou
quele ndice enquanto medida de adequao do modelo logstico. Como no
conflitantes entre si, recomenda-se utiliz-los em conjunto, com a devida
cia. A literatura especializada no assunto sugere que os pesquisadores
pseudos R-Quadrado apenas como uma medida aproximada do poder
cada modelo. Entende-se que no se deve atribuir uma importncia muito
a cada um deles isoladamente. De qualquer forma, a opinio geral a de
indicadores que vo de O a 1 podem ser muito teis no processo de avaliao
modelos, principalmente se considerados de forma conjugada . .n.""'"''v"'"" .. "'-
h de se considerar que tais medidas incorporam a vantagem de se
a alguns mecanismos de avaliao utilizados nos modelos lineares, o que
a sua interpretao.
5.8.3 O Teste Hosmer e Lemeshow
Outro mecanismo que pode facilitar o julgamento do grau de acurcia
modelo logstico o Teste Hosmer e Lemeshow. De enorme simplicidade
tual, esse indicador nada mais do que um teste Qui-quadrado que consiste
dividir o nmero de observaes em cerca de dez classes e, em seguida, -----.--.
as freqncias preditas com as observadas. Como se pode deduzir, a .... , .... _
desse teste verificar se existem diferenas significativas entre as .... u,..,.., ....... ..
realizadas pelo modelo e a realidade observada. A certo nvel de S;>;uuLcu"'
busca-se aceitar a hiptese de que no existem diferenas entre os valores
tos e observados. A lgica a seguinte: se houver diferenas significativas
as classificaes preditas pelo modelo e as observadas, ento ele no repre
realidade de forma satisfatria. Ou seja, em tais circunstncias o modelo no
capaz de produzir estimativas e classificaes muito confiveis.
5.8.4 O Teste Wald
Alm dos testes que se propem a avaliar o modelo logstico como um
temos ainda a estatstica Wald. Sua finalidade aferir o grau de significncia
cada coeficiente da equao logstica, inclusive a constante. Mais precisamente,
ramos que esse mecanismo tem por objetivo verificar se cada parmetro
significativamente diferente de O. Como se observa, seu papel semelhante
Regresso Logstica 297
.este T, utilizado na avaliao dos modelos lineares. Isto , testa a hiptese de
um determinado coeficiente nulo. A estatstica Wald segue uma distribuio
-quadrado e quando a varivel dependente tem um nico grau de liberdade
-e ser calculada elevando-se ao quadrado a razo entre o coeficiente que est
do testado e o respectivo erro-padro, conforme segue:
Wald = (b/S. E)
2
e:
b = coeficiente de uma varivel independente includa no modelo
S. E.= erro-padro (standard errar).
H uma particularidade que deve ser considerada no uso da estatstica Wald.
111do o valor absoluto dos coeficientes muito expressivo, o erro-padro a ele
dado pode ficar um pouco distorcido. Conseqentemente, o teste da hiptese
ue o coeficiente no significativamente diferente de O ficaria prejudicado .
. contornar essa dificuldade, recomenda-se calcular o Likelihood Value com a
avel a que se refere o coeficiente sob anlise e, depois, renovar esse mesmo
::-edimento sem essa varivel. Comparando-se os dois valores, ou seja, o Like-
--.d Value com e sem a varivel, pode-se verificar se o coeficiente em apreo
ce impactos significativos sobre as probabilidades. Isso vem reforar a idia
ue sempre recomendvel avaliar o modelo logstico com o apoio de vrios
cadores.
'Jota-se, portanto, que a maioria dos indicadores utilizados para avaliar o
. mpenho do modelo logstico pode ser interpretada com relativa facilidade.
- decorre do fato de que existe uma certa semelhana entre eles e os mecanis-
' de avaliao do modelo linear. Naturalmente, essa facilidade ser tanto mais
cebida quando maior for o grau de familiaridade do leitor com as nuanas
:-egresso linear. Por isso, em caso de dvidas mais profundas recomendamos
_ar a esse assunto, principalmente se persistirem aps a apresentao do caso
uco. Com a resoluo de exerccios, ainda teremos oportunidade de explorar
_ tos conceitos e ampliar a viso sobre o significado de cada um dos indicado-
apresentados.
o Exemplo prtico
Do exposto, parece-nos claro que a Regresso Logstica realmente uma tc-
., muito apropriada a situaes em que se deseja predizer ou explicar valores
Jma varivel binria em funo de valores conhecidos de outras variveis,
::: como afirmamos, podem ser categricas ou no. Mostra-se muito til na so-
~ o de problemas que implicam a escolha de uma entre duas alternativas e na
298 Anlise Multivariada Corrar, Paulo c Dias Filho
estimao de probabilidades associadas ocorrncia de determinado evento.
rea econmica, tem larga aplicao em Credit Scoring, na previso de
falncia, em controle de custos, em marketing etc. Vimos tambm que,
razes que explicam o sucesso dessa tcnica em diversas reas do
destacam-se: a capacidade de operar com variveis categricas e mtricas
taneamente, a facilidade com que se podem interpretar os resultados da
e o pequeno nmero de suposies iniciais, especialmente quando l"f"Ymr\<>r,....
outras ferramentas estatsticas como a anlise discriminante, por exemplo.
Agora, desejamos lanar mo de um exemplo prtico para consolidar
os conceitos apresentados nas sees anteriores. O objetivo oferecer ao
urna oportunidade de sedimentar os conhecimentos hauridos em torno da
gresso Logstica e descobrir conosco oportunidades de aplicao dessa
em seu campo de ao. Para tanto, valemo-nos do pacote estatstico d
SPSS, seguindo a mesma sistemtica adorada em captulos anteriores. A
de ento, daremos prioridade aos aspectos operacionais e interpretao
sultados da anlise.
5. 9.1 Descrio do caso
Suponha que uma concessionria esteja interessada em aprimorar sua
de vendas para minimizar perdas com clientes. Uma das medidas que se ....... ~ .. , ..
em cogitao exigir garantias adicionais de indivduos que no possuem
fixa, especialmente quando responsveis pelas despesas da famlia. Por " " ' ' " " ~
que as exigncias devem variar em funo do risco de inadimplncia a.,.,IJ,\..lCll\1
cada operao, o controller solicitou um estudo baseado no histrico dos
12 meses. Para tanto, tomou-se uma amostra aleatria de 92 clientes, em
aos quais foram consideradas as seguintes variveis: renda mensal,
dependentes e, finalmente, se o elemento possui ou no algum vnculo
gatcio. De acordo com o comportamento apresentado no perodo, cada um
classificado como adimplente ou inadimplente.
Com esse estudo, o que se pretende mesmo verificar o risco de um
cliente assumir a condio de inadimplente, dadas certas caractersticas a ele
saciadas. A depender do grupo em que ele se classifique, a administrao
definir de forma mais racional as condies sob as quais a venda de um
poder se concretizar. Aps o levantamento, os dados foram resumidos c
cados do seguinte modo:
Regresso Logstica 299
ST R ND VE ST R ND VE ST R ND VE
-
o 2,5 3 1 1 1,6 3 1 o 3,2 3 o
1 1,7 3 1 1 2,0 1 1 1 1,2 2 1
o 4 2 1 1 2,5 3 1 o 3,5 3 o
1 2,3 2 1 o 3,8 1 o o 4,0 1 o
1 3,7 4 o o 4,3 2 o 1 2,3 3 1
o 4,8 1 o 1 2,0 2 1 o 2,9 4 o
1 1,9 3 o o 5,2 2 o 1 2,4 2 1
o 5,3 2 1 1 2,4 3 o o 5,0 3 o
1 3,1 4 1 o 2,6 4 o 1 2,2 3 o
1 1,9 3 1 o 1,3 2 1 1 1,3 3 1
1 2,3 4 1 o 3,8 1 1 1 1,7 3 1
o 3,6 1 o o 4,5 o 1 o 3,0 2 o
o 4,7 2 1 o 3,0 o 1 o 3,0 2 1
o 5,8 2 o 1 2,1 2 1 o 3,5 2 1
o 6 4 o 1 1,9 2 1 o 5,8 2 1
o 3,9 3 1 o
1 '7
4 o o 4,8 1 o
.
2,4 4 1 1
1 '7
2 1 1 2,3 3 1
1 1,7 4 1 1 1,3 3 1 1 2,6 2 1
o 3,7 2 o o 2,5 1 1 1 1,8 2 1
o 4,8 1 o o 3,5 2 o 1 2,9 2 1
o 3,2 2 1 o 5,6 3 o o 3,2 1 o
1 2,7 3 1 o 3,8 2 o o 4,2 1 o
1 1,2 3 1 o 4,0 o o o 2,6 1 o
o 8,2 5 o 1 2,5 1 1 o 6,0 1 o
1 1,8 1 1 1 1,2 2 o 1 4,5 3 1
1 2,5 1 1 o 3,0 1 o 1 1,3 2 1
1 2,2 3 1 o 3,0 1 o 1 2,4 2 1
o 4,0 1 o 1 2,1 2 1 o 4,3 2 o
o 4,2 1 o o 2,5 1 o 1 1,8 o 1
o 3,7 1 o o 2,9 1 o o 2,4 2 o
1 2,4 2 1 o 4,0 3 o
Codificao das variveis:
- STATUS)- se inadimplente, rotula-se com o nmero 1; adimplente, com zero;
-renda mensal (mdia dos ltimos 12 meses, em milhares de reais);
:::J - nmero de dependentes;
::- atividade profissional com vnculo empregatcio (1 ); sem vnculo (O)
300 Anlise Multivariada Corrar, Paulo e Dias Filho
Recapitulando, diramos que o objetivo final estimar a probabilidade
cliente assumir o status de inadimplente, em funo das variveis Renda,
rode Dependentes e Tipo de Atividade Profissional (existncia ou
vnculo empregatcio). Fica claro, assim, que a varivel dependente o
o cliente poder assumir em certas circunstncias (adimplncia ou inadimp
Como se observa, trata-se de um problema que realmente pode ser resolvido
o apoio da Regresso Logstica, pois a varivel dependente de natureza d.
mica, isto , s admite um entre dois resultados. Alm disso, tal resultado
apresentar de forma que possa ser interpretado em termos de probabilidade.
5. 9.2 Procedimentos para executar a regresso utilizando o S P S S ~
Seguindo a sistemtica adorada em captulos anteriores, o problema ser
vido com o apoio do software SPSS. Embora se trate de um pacote au
tivo e de fcil manipulao, apresentaremos alguns passos de carter o
rumo obteno dos outputs. Salientamos que isso ser feito de forma
para no sacrificar o foco da abordagem, que a interpretao dos res
Assim, j passaremos a um dos primeiros procedimentos, que transpor os
coletados para as colunas relativas a cada varivel, conforme segue:
Figura 5.2 Caixa de dilogo Imposio das Variveis.
Regresso Logstica 301
Como se pode notar, a planilha recepciona facilmente os dados amostrais. Na
coluna, tem-se o nmero de identificao de cada observao. Nas sub-
relacionam-se todos os dados referentes a cada indivduo: o status que
assumiu no perodo observado (st); a sua renda mensal mdia (r); o nmero de
.-.. .... uL'-" (nd); e existncia ou no de vnculo empregatcio (ve). Lembramos
uma vez que a existncia de vnculo empregatcio referenciada com o nme-
1 e a inexistncia com o O. Selecionando-se a opo Binary Logistic Regression,
menu analyze, o prximo passo consiste em separar a varivel dependente das
.. epenaentes (covariates), como evidencia a seguinte caixa de dilogo:
5.3 Caixa de dilogo Seleo da Varivel Dependente.
Selecionada a varivel dependente, transferem-se as demais para o campo
covariates. Neste exemplo, optamos por incluir todas as variveis preditoras
te. Por isso, selecionamos o mtodo enter. Esclarecemos que, em
disso, poderamos selecion-las de forma gradual. Nesse caso, seria necessrio
o mtodo stepwise. Como se sabe, trata-se de um procedimento em que as
independentes so escolhidas de forma seqencial de acordo com seu
explicativo ou preditivo.
Como temos uma varivel de natureza categrica no conjunto das indepen-
necessrio distingui-la das demais. Para tanto, basta acionar o comando
rat,eS!:<)nc:a ",que se faz presente na base da prxima caixa de dilogo (Figura 5.4).
seguida, s clicar sobre a varivel categrica (vnculo empregatcio) e trans-
para o campo apropriado. A planilha seguinte ilustra o procedimento ora
. Por oportuno, esclarecemos que variveis desse tipo tambm costumam
definidas como nominal, no mtrica, qualitativa, ou ainda taxonmica. Ser-
wm apenas para atribuir uma caracterstica a um objeto ou indivduo (rotular).
302 An;lise Multivariada Corra r, Paulo e Dias Filho
Figura 5.4 Caixa de dilogo Seleo da Varivel Categrica.
Clicando em continue, voc poder salvar as estatsticas que lhe
Em seguida, dever clicar sobre a guia options e selecionar os recursos mais
quados ao tipo de anlise que pretende realizar. Geralmente, selecionam-se
menos o classification plots, o Hosmer-Lemeshow goodness-of-fit e o CI for
Como tivemos oportunidade de explicar, o Hosmer-Lemeshow um teste muito
para verificar at que ponto existe correspondncia entre a classificao
pelo modelo e a realidade observada. Seu objetivo, portanto, verificar se
diferenas significativas entre os valores preditos e os observados. CI for
nada mais do que o intervalo de confiana de cada coeficiente estimado.
indicador especialmente til nas situaes em que se utiliza a equao
para estimar probabilidades associadas ocorrncia de determinado evento.
Na mesma caixa de dilogo, temos outros recursos de grande significado
a realizao da anlise. Um deles o classification cgtoff, que, como o
nome sugere, nos permite selecionar um ponto de corte para a classificao
indivduos neste ou naquele grupo. Como se pode observar, aqui estamos
lhando com 0,5, mas a depender das circunstncias o pesquisador poder
outro ponto de corte. Finalmente, temos os critrios para incluso ou
de variveis no modelo e o nmero de iteraes que dever ser realizada
software, caso se deseje trabalhar com o mtodo stepwise. Como se pode notar,
planilha auto-explicativa.
Regresso Logstica 303
5.5 Caixa de dilogo Opes.
A partir de ento, acionando-se o comando continue e logo em seguida "OK",
-se diversos relatrios evidenciando os resultados da Regresso. Talvez seja
1eS11ec:es:sar salientar que "rodar" a Regresso um ato to simples que est ao
de qualquer indivduo medianamente instrudo. Entretanto, interpretar
relatrios e extrair deles as informaes necessrias ao processo decisrio, isto
uma tarefa que demanda conhecimentos mais avanados.
Com o apoio dos conceitos expostos na primeira parte deste captulo, espe-
que o leitor consiga lidar com tais relatrios de forma confortvel e, final-
encontrar neles instrumentos que contribuam para melhorar a qualidade
suas decises. Lembramos que, no presente caso, nosso interesse conceber
modelo que nos permita prever o nvel de risco a que se expe a concession-
em uma deciso de venda, dadas certas caractersticas do cliente. Baseando-se
dados histricos, a anlise nos permitir tambm compreender por que este
aquele cliente assumiu a condio de inadimplente.
9.3 Interpretando os outputs da Regresso
Case Processing Summary
Unweighted Casesa
Selected Cases lncluded in Analysis
Missing Cases
Unselected Cases
Total
Total
N
92
o
92
o
92
Percent
100,0
0,0
100,0
0,0
100,0
a. lf weight is in effect, see classification table for the total number of cases.
304 Anlise Multivariada Corrar, Paulo c Dias Filho
O primeiro relatrio fornecido pelo SPSS uma espcie de quadro
tivo de casos includos na anlise. Como a nossa amostra composta de 92
vaes, conclui-se que todas foram aproveitadas. Alis, o prprio quadro
esse aspecto ao indicar que nenhum caso deixou de ser selecionado. o que
teceria, por exemplo, com algum cliente em relao ao qual no
de dados para todas as variveis independentes. Supondo-se 95 casos, mas
sem dados relativos a alguma varivel independente (renda mensal, nmero
dependentes ou vnculo empregatcio), apenas 93 participariam da anlise. O
monstrativo acusaria a existncia de dois missing cases. A propsito, cabe
que, sob esse aspecto, a tcnica denominada Redes Neurais leva certa va
sobre a Regresso Logstica, j que aproveitaria todas as observaes, mesmo
no se dispusesse de dados para algumas variveis preditoras.
Codificao da varivel dependente
Dependent Variable Encoding
Original Value Internal Value
ADIMPLENTE o
INADIMPLENTE 1
O quadro acima apresenta o cdigo que o software atribuiu varivel
dente. No presente caso, observa-se que foi mantida a codificao inicial, ou
1 para representar o estado de inadimplncia e O para o de adimplncia.
os resultados da anlise devem permitir interpretao em termos de
de, no houve necessidade de alterar a codificao original. Ela j se
adequada consecuo desse objetivo, pois as probabilidades esto contidas
intervalo de O a 1. Se tivssemos atribudo uma codificao diferente, para e
operacionais, ela teria sido modificada pelo SPSS:iY. No prximo quadro,
uma codificao paramtrica atribuda varivel categrica. Isso somente
fins operacionais. Portanto, no precisamos nos preocupar com esse detalhe.
Possui Vnculo Em-
pregatcio ou no
Categorical Variables Codings
No Possui Vnculo Empregatcio
Possui Vnculo Empregatcio
Frequency
42
50
Para meter
(1)
1,000
0,000
Regresso Logstica 305
de classificao anterior anlise
Classification Tablea,b
Predicted
Percentage
Observed
Situao do Cliente
ADIMPLENTE
INADIM-
Correct
PLENTE
Situao do ADIMPLENTE 51 o 100,0
Cliente INADIMPLENTE 41 o 0,0
55,4
is included in the model.
Antes de apresentar os resultados da anlise propriamente dita, o SPSS nos
como seriam classificados os indivduos caso o modelo se deixasse guiar
pela situao em que se enquadra a maioria dos casos observados. Assim
como a amostra composta de 51 adimplentes e 41 inadimplentes, todos
seriam classificados a priori como adimplentes. Isso significa que o
classificaria corretamente aqueles que de fato honraram com suas obriga-
mas incorretamente os que assumiram a condio de inadimplentes. Nesse
o percentual geral de acerto nas classificaes seria de apenas 55,4%. Esse
de classificao anterior anlise atua, portanto, como uma referncia
avaliar a eficcia do modelo quando ele passa a operar com as variveis in-
para predizer a que grupo pertence certo indivduo.
Em seguida, o software fornece a estatstica Wald, que, nesse primeiro mo-
est avaliando apenas a significncia da constante includa no modelo.
que este mesmo recurso ser utilizado mais tarde para avaliar tam-
a significncia dos coeficientes de cada varivel independente. Sua finalida-
verificar se cada um deles significativamente diferente de zero, conforme
anteriormente.
Variables in the equation
B S.E. Wald df Sig. Exp(B)
Step O Constant -0,218 0,210 1,083 0,298 0,804
306 Anlise .'>1ultivanada Corrar, Paulo c Dias Filho
Do exposto conclui-se que realmente no seria conveniente formular . - ~ . , ....
em funo desse critrio de classificao. Fica cada vez mais claro que o seu
objetivo, de fato, fornecer uma base de comparao que nos permita
se as variveis independentes vm melhorar a qualidade das predies.
tante considerar que sem inclu-las no modelo j se alcana um nvel de acc
55,4% na classificao dos casos. Com elas, espera-se um percentual mais
do. A relao dessas variveis com os respectivos scores apresentada pelo
ao final do chamado Step O, tal como se observa a seguir:
Step Variables
o
Overall statistics
Variables not in the equation
R
ND
VE(1)
Se ore
39,112
7,768
33,368
54,573
Testando a capacidade preditiva do modelo
df
3
Sig.
0,000
0,005
0,000
0,000
No se pode perder de vista que o objetivo final de nossa anlise
se realmente as variveis renda, nmero de dependentes e vnculo
podem explicar o fato de determinado cliente assumir a condio de inad
te. Caso se observe uma relao significativa entre o fenmeno inadimplncia
variveis supracitadas, pode-se aproveit-las na construo de um modelo
para identificar a probabilidade de um futuro cliente se tornar inadimplente
certas condies. Mas notem que estamos nos referindo a uma relao
va, ou seja, algo que estatisticamente possa explicar a ocorrncia de
evento. Por isso, a primeira preocupao do SPSSCiV, aps fornecer alguns
iniciais para comparao, apresentar os chamados testes de significncia.
eles, pode-se verificar se o modelo capaz de realizar predies com a
desejada.
Como evidencia o prximo quadro, uma das primeiras providncias
a validade do modelo como um todo. Lembramos que na Regresso Linear
procedimento realizado por meio da estatstica F, cujo objetivo testar a
de que todos os coeficientes da equao so nulos. Como se sabe, a
dessa hiptese sugere que o modelo no serve para a estimao de valores
a varivel dependente em funo de valores conhecidos das independentes.
porque nesse caso nenhum dos coeficientes seria significativamente diferente
zero. E no modelo logstico? Bem, como explicamos na parte introdutria,
Regresso Logstica 307
logstico temos um conjunto de testes que cumprem um papel bastante
Como consta a seguir, um deles o chamado Model Chi-square.
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step1 Step 76,143 3 0,000
Block 76,143 3 0,000
Model 76,143 3 0,000
O Model Chi-square testa a hiptese de que todos os coeficientes da equao
so nulos. Como se v, realmente trata-se de um teste Qui-quadrado mui-
parecido com a estatstica E No presente caso, nota-se que o valor do Model foi
76,143. A esta altura, natural que voc esteja querendo saber qual o signifi-
desse nmero. Lembra-se do Likelihood Value (- 211) e de que a diferena
os valores inicial e final desse indicador expressa a capacidade preditiva do
elo? isso mesmo! Esse nmero corresponde diferena entre o valor de
2LL obtido quando se inclui apenas a constante no modelo e o - 2LL calculado
a incluso de todas as variveis independentes. Com a incluso das vari-
predicaras, espera-se que o Likelihood Value sofra uma reduo estatstica-
significativa. E exatamente o que se verifica no presente caso. Com trs
de liberdade, que correspondem diferena entre o nmero de parmetros
-..uu.-.n,i3 nos modelos inicial e final (o que considera somente a constante e o
inclui as variveis independentes), pode-se concluir que pelo menos um dos
da Regresso diferente de zero. Portanto, pode-se rejeitar a hipte-
de que todos os parmetros estimados so nulos. Em outras palavras, pode-se
que eles contribuem para melhorar a qualidade das predies. Um ponto
para o nosso modelo!
No mesmo quadro, nota-se ainda a presena de mais dois testes: o Step e o
Esclarecemos que se trata do mesmo indicador. Ambos tm significado ri-
igual ao do Model. Portanto, podem ser interpretados de forma an-
loga. Como nossa anlise est sendo realizada sob o mtodo Enter, ou seja, com a
mcluso simultnea de todas as variveis independentes, est explicado por que
seus valores so coincidentes. Porm, se estivssemos trabalhando com o mtodo
Stepwise, seja de se esperar alguma diferena no Likelihood Value. Essa distino
poder ser percebida quando estivermos utilizando o mtodo Stepwise.
Em seguida, o software nos fornece outros indicadores que tambm contribuem
para avaliar o desempenho geral do modelo. Como consta no quadro a seguir, desta
feita temos o -2 Log likelihood, o Cox & Snell e, finalmente, o Nagelkerke.
308 Anlise Multivariada Corrar, Paulo e Dias Filho
Model Summary
Step
- 2Log Cox& Snell Nagelkerke
likelihood R Square R Square
1 50,307 0,563 0,754
Se voc vem acompanhando nossas explicaes, certamente j se deu
que o Likelihood Value C -2LL) no passvel de interpretao isoladamente.
precisamente, deve se lembrar de que esse indicador s adquire significado
do confrontado com uma base de referncia. Como mencionamos
um de seus principais objetivos facilitar a comparao do desempenho de
delos alternativos. Por exemplo, um que considere apenas a constante e outro
incorpore algumas variveis independentes ou todas, obviamente. Aprovei
a oportunidade para alert-lo para alguns problemas de interpretao. No
costuma-se afirmar que quanto menor o Likelihood Value, melhor. Es
que s faz sentido uma afirmao desse tipo se o indivduo estiver tomando
referncia outro Likelihood Value relativo ao mesmo caso. Apesar de no
ser interpretado diretamente, a manuteno do Likelihood Value no quadro
ma deve-se ao fato de ele participar do clculo de outros indicadores, tais
o Model, o Step e o Block Qui-quadrado.
E o que dizer dos testes Cox & Snell e Nagelkerke, que no presente
sumem os valores de 0,563 e 0,754, respectivamente? A que concluso se
chegar a partir de tais indicadores? Se voc se recorda de que ambos so
rados Pseudos-R-Quadrado, certamente compreender que eles procuram
a proporo das variaes ocorridas no log da razo de chance que
pelas variaes ocorridas nas variveis independentes. De certa forma, vv._. ..... _
comparados ao R-Quadrado da Regresso Linear. Assim, o Cox & Snell est
cando que cerca de 56,3% das variaes ocorridas no log da razo de
explicadas pelo conjunto das variveis independentes (renda, nmero de
dentes e vnculo empregatcio). O Nagelkerke, corno explicamos
uma verso do Cox & Snell adaptada para fornecer resultados entre O e 1.
essa medida, somos levados a considerar que o modelo capaz de explicar
de 75,4% das variaes registradas na varivel dependente. Como se v, re
tem significado muito semelhante ao do coeficiente de determinao.
Teste Hosmer e Lemeshow
No prximo quadro, temos o indicador denominado Teste Hosmer e
Lembramos que se trata de um teste Qui-quadrado, cujo objetivo testar a
de que no h diferenas significativas entre os resultados preditos pelo"'" ... ,
os observados. Para tanto, dividem-se os casos em dez grupos aproximad
Regresso Logstica 309
e comparam-se os valores observados com os esperados, tal como se apre-
na tabela de contingncia.
Hosmer and Lemeshow Test
Step Chi-square df Sig.
8,169 8 0,417
Contingency Table for Hosmer and Lemeshow Test
Situao do Cliente "" Situao do Cliente "" I
ADIMPLENTE INADIMPLENTE
Total
Observed Expected Observed Expected
Step 1 9 8,991 o 0,009 9
1 2 9 8,952 o 0,048 9
3 9 8,841 o O, 159 9
4 9 8,488 o 0,512 9
5 7 7,148 2 1,852 9
6 5 4,318 4 4,682 9
7 o 2,305 9 6,695 9
8 2 1 '155 7 7,845 9
9 o 0,578 9 8,422 9
10 1 0,223 10 10,777 11
Seguindo uma distribuio Qui-quadrado, o clculo nos leva a uma estatsti-
de 8,169 e um nvel de significncia de 0,417. Isso indica que os valores pre-
no so significativamente diferentes dos observados. Portanto, tem-se a
um indcio de que o modelo pode ser utilizado para estimar a probabilidade
um determinado cliente se tornar inadimplente em funo das variveis inde-
possvel que voc esteja a nos questionar se esse resultado realmente fa-
uma vez que o nvel de significncia encontrado foi bem superior a 0,05.
que sim, porque se o resultado estivesse em um patamar igual ou
a 0,05 teramos que rejeitar a hiptese de que no existem diferenas sig-
entre os valores esperados e observados. O que se pretende no isso,
sim aceitar a hiptese de que no existem diferenas entre valores preditos
e observados. Portanto, sempre desejvel que se obtenham resultados superio-
310 Anlise Multivanada Corrar, Paulo e Oias Filho
res a 0,05, como ocorreu na presente situao. Alis, diramos que quanto
elevado melhor. claro que existem algumas limitaes associadas ao uso
teste, conforme comentamos anteriormente. Uma delas diz respeito ao
da amostra. Quanto mais ampla, maior o risco de rejeitarmos a hiptese nula
devidamente. Para contornar esse problema, recomendamos utilizar vrios
simultaneamente, como estamos fazendo nessa oportunidade.
Quadro de classificao final
Como se observa, at aqui tudo se mostra favorvel ao uso das variveis
pendentes como estimadores do status que o cliente poder assumir em
nadas circunstncias. Certamente, voc se lembra de que sem incluirmos tais
riveis no modelo, o percentual de acerto nas classificaes era de apenas 5
Muito bem! E se considerarmos tais variveis, qual seria o percentual de
Como nos mostra o quadro a seguir, ele se eleva para 89,1%. Nota-se,
urna melhoria considervel.
Classification Tablea
Observed
Step1 Situao do
Cliente
Overall Percentage
a. The cut value is 0,500.
ADIMPLENTE
INADIMPLENTE
Predicted
Situao do Cliente
ADIMPLENTE
45
4
INADIM-
PLENTE
6
37
Percentage
Correct
88,2
90,2
89,1
Embora se verifique urna reduo no nvel de acerto em relao ............... " ....
o dos clientes que assumiram a condio de adimplente, j que antes
em 100 e agora declinou para 88,2%, no cmputo geral o modelo alcana
desempenho. Isso porque ele apresentou uma sensvel melhoria na
dos indivduos que assumiram o status de inadimplente. Como eles so
foram classificados inicialmente na categoria de adimplentes. Por isso, em
a tais clientes o nvel de acerto do modelo era zero. Note-se que com a u 1 ~ . 1 u . ; o - .
das variveis independentes esse percentual sobe para 90,2%. Portanto, em
dia, obtm-se 89,1% de acurcia nas predies. Considerando-se mais esse
cador, estamos convencidos de que estatisticamente vivel incluir as
independentes no modelo. No conjunto, parecem explicar o status assumido
cada cliente no perodo observado (ADIMPLNCIA ou INADIMPLNCIA).
Regresso Logstica 311
incorporadas ao modelo
Como vimos, at aqui todos os testes sugerem que, de forma geral, o modelo
ser utilizado para estimar a probabilidade de um cliente assumir a condio
inadimplente em funo do conjunto de variveis independentes (renda, nme-
de dependentes e vnculo empregatcio). Sendo assim, ser que j poderamos
mo dos coeficientes abaixo relacionados e esboar a equao da regresso
a para fazer estimativas? A resposta no! Isso porque at ento s reali-
a avaliao do modelo como um todo. Comparando-se regresso linear,
se tivssemos apenas submetido a equao ao teste E Resta-nos ainda avaliar
significncia de cada coeficiente em particular. Afinal, necessrio verificar se
um deles realmente pode ser utilizado como estimador de probabilidades.
ra tanto, recorremos estatstica Wald. Trata-se de um mecanismo equivalente
teste t, cujo objetivo testar a hiptese nula de que um determinado coeficien-
no significativamente diferente de zero.
Como a varivel independente tem apenas um grau de liberdade, para cada
coeficiente procede-se ao seguinte clculo: Wald = (b/S.E.)
2
, onde b simboliza o
coeficiente de uma varivel includa no modelo e S.E., o erro-padro a ele asso-
ciado. Como se observa, o quadro seguinte sugere que todas as variveis podem
ser aproveitadas na composio do modelo, j que seus coeficientes no so nu-
Em outras palavras, pode-se afirmar que cada um deles exerce efeito sobre
probabilidade de um cliente assumir o status de adimplente ou inadimplente,
lo menos a um nvel de significncia de 0,05. Os coeficientes das variveis ren-
da (R) e vnculo empregatcio (VE) so negativos. Isso significa que uma variao
positiva em tais variveis contribui para diminuir a probabilidade de um cliente
se tomar inadimplente. Nmero de dependentes (ND), pelo contrrio, tem sinal
positivo. Portanto, uma variao positiva nessa varivel concorre para aumentar
a probabilidade de o cliente se tornar inadimplente.
Variables in the equation
95,0% C.l.for
B S.E. Wald df Sig. Exp(B)
EXP(B)
lower Upper
Step R -1,882 0,489 14,845 1 0,000 0,152 0,058 0,397
1a
ND 0,860 0,386 4,965 1 0,026 2,362
1 '1 09
5,031
VE(1) -2,822 0,852 10,969 1 0,001 0,059 0,011 0,316
Constant 4,300 1,489 8,341 1 0,004 73,679
Vanable(s) entered on step 1: R, ND, VE.
312 Anlise Multivariada Corrar, Paulo" Dias Filho
Alm da estatstica Wald, temos o intervalo de confiana, que tambm
ser utilizado para verificar se realmente o coeficiente significativamente d
rente de zero. Lembra-se de que no modelo logstico cada coeficiente da
independente elevado constante matemtica e? Pois bem! O relatrio ind
que cada um deles elevado a essa constante est contido no intervalo de
a acima referido. Por exemplo, nota-se claramente que o coeficiente da
ND (0,860) elevado constante e resulta em 2,362 (indicado na coluna Exp
e est contido no intervalo cujo limite mnimo 1,109 e o mximo, 5,031.
se a mais um indicador de que cada varivel pode ser utilizada na estimao
probabilidades.
Submetido a todos os testes, verifica-se que o modelo est
apto a ser utilizado na soluo do problema. Agora, sim, podemos esboar a
o da Regresso Logstica com boa margem de segurana. Dados os rnTu ... n
tes acima referidos, essa equao pode ser exposta da seguinte forma: Z =
- 1,882 R + 0,860 ND- 2,822 VE. Lembramos, mais uma vez que, R simboliza
renda mensal mdia do cliente; ND, o nmero de dependentes e VE, a
de vnculo empregatcio.
Interpretando os coeficientes da equao
A exemplo do que se verifica na Regresso Linear, cada coeficiente deve
interpretado como estimativa do efeito que uma varivel independente
sobre a dependente quando as demais se mantm inalteradas. Entretanto,
se pode esquecer de que o modelo logstico expresso em termos de
da razo de chance ou logit. Assim, cada coeficiente deve ser interpretado
o efeito que uma variao unitria sofrida pela varivel independente tende
produzir sobre o logaritmo da razo de chance. No presente caso, se um
possuir vnculo empregatcio com a(s) fonte(s) de onde extrai sua renda, o efeito
dessa caracterstica sobre o logaritmo da razo de chance (logit) ser da ordem de
-2,822, tendo em vista que em tal circunstncia essa varivel codificada com o
nmero 1. De forma semelhante, pode-se afirmar que a quantidade de logit sofrer
uma variao de 0,860 para cada variao unitria que se verifique no nmero de
dependentes. O sinal do coeficiente que vai determinar a direo da mudana,
que pode ser aumentativa ou diminutiva.
J o efeito de cada coeficiente sobre a probabilidade de natureza multiplica-
tiva e vai depender do nvel em que ela se encontrar. Digamos que em determina-
do perodo um cliente tenha sido classificado na faixa de risco de 20% em funo
de sua renda, do nmero de dependentes e do vnculo empregatcio. Nesse caso,
para quanto vai a probabilidade de ele assumir a condio de inadimplente se no
perodo subseqente ele incorporar mais um dependente e no apresentar nenhu-
ma alterao quanto s demais variveis? J tivemos oportunidade de demonstrar
que esse clculo muito simples! Em primeiro lugar, preciso identificar o fator
Regresso Logstica 313
pelo qual a razo de chance se altera em funo de uma variao unitria na va-
rivel considerada, no caso "nmero de dependentes". O relatrio fornecido pelo
SPSS indica que esse fator da ordem de 2,362, que corresponde constante
matemtica e elevada ao coeficiente da varivel em apreo (0,860). Agora, tudo
o que nos falta identificar a razo de chance a que corresponde a probabilidade
de 20% e multiplic-la por esse fator. Ora, como a razo de chance corresponde
ao quociente entre a probabilidade de um evento ocorrer e a de ele no ocorrer,
a partir desse ajuste pode-se identificar a mudana na probabilidade de o cliente
se tornar inadimplente. Acompanhemos o clculo, portanto.
Probabilidade inicial: 20%.
Razo de chance a que corresponde a probabilidade de 20%: 0,2/ 0,8::: 0,25.
Razo de chance ajustada: (0, 25) * (2,362) = 0,59.
Probabilidade a que corresponde a razo de chance ajustada:
[p/ (1- p)] = 0,59 :. p = 37%
Como se observa, se o cliente incorporar mais um dependente e mantiver os
demais fatores inalterados (renda e vnculo empregatcio), a probabilidade de se
tomar inadimplente evolui de 20 para 37%. Importa salientar mais uma vez que
essa variao depende sempre do patamar de risco em que se encontre o cliente
em determinado instante. A ttulo de exemplo, destaque-se que se a probabilidade
inicial fosse de 35%, agora ela teria evoludo para quase 56%. Em termos relati-
vos, uma variao bem menor. Em caso de dvida, recomendamos voltar parte
introdutria deste captulo, mais precisamente seo que trata da interpreta-
o dos coeficientes. Salientamos que esse ponto assume grande significado na
anlise da Regresso, pois nos permite observar o efeito de cada varivel sobre a
probabilidade associada ocorrncia de determinado evento ou manifestao
de certa caracterstica.
Realizando predies com o modelo
Como vimos, chegamos ao modelo capaz de descrever a relao existente
entre o fenmeno inadimplncia e as variveis renda, nmero de dependentes e
vnculo empregatcio, tomando-se como referncia um conjunto de dados histri-
cos pertencentes a uma concessionria de automveis. Agora, podemos utiliz-lo
para estimar a probabilidade de um determinado cliente se tornar inadimplente
sob certas condies. Para tanto, devemos esboar a equao logstica a partir dos
coeficientes estimados, conforme segue:
1
P(evento) =
1
+e C4 ,:l- J,BB2RO,B60ND- 2,B22VEl
314 Anlise Multivariada Corrar, Paulo e Dias Filho
Lembramos que, nesta equao, R representa a renda do cliente em milhares
de reais; ND, o nmero de dependentes; e VE, vnculo empregatcio. Utilizamos
essa simbologia para efeitos didticos, mas claro que cada varivel independente
poderia ser representada por outros cdigos, tais como Xl' X
2
e X
3
, por exemplo.
Por fim, salientamos mais uma vez que VE s poder assumir um entre dois valo-
res: 1 quando o cliente possuir vnculo empregatcio, e zero, em caso contrrio.
Com tais esclarecimentos, passaremos a alguns exemplos prticos.
Suponha que o gestor da rea de vendas da concessionria em apreo esteja
interessado em conhecer o risco de um cliente se tornar inadimpfente nas seguin-
tes circunstncias:
renda mensal (mdia dos ltimos doze meses): 4 mil;
nmero de dependentes: 3;
no possui vnculo empregatcio.
Valendo-nos da equao acima, temos:
1
P(evento)=
065
= 34,3%
1 +e
Portanto, um cliente que rena tais caractersticas apresenta um risco de
inadimplncia da ordem de 34,3%. Com essa informao, certamente a empresa
poder escolher medidas preventivas mais adequadas para minimizar expectati-
vas de perdas. Em tais circunstncias, provavelmente as exigncias no seriam
as mesmas impostas para um cliente que se encontrasse classificado na faixa de
risco de 70%, por exemplo. Alis, nesse caso talvez fosse mais prudente evitar a
venda! Obviamente, est longe de nossos propsitos prescrever esta ou aquela
medida para tais situaes. Com esse exemplo, queremos apenas demonstrar que
um instrumento dessa natureza pode contribuir em muito para melhorar a quali-
dade das decises no ambiente empresarial.
No caso especfico, estamos nos referindo probabilidade de um cliente as-
sumir o status de inadimplente. Porm, esse mesmo raciocnio pode se estender
a diversas situaes, conforme mencionamos no incio do captulo. Entre as mais
frcqentes, destacam-se: a necessidade de estimar a probabilidade de um cliente
preferir um produto a outro, de abandonar a empresa cm cartcr definitivo, de
reagir a determinados estmulos, de apresentar uma denncia fiscal contra a em-
presa, de se manter fiel a determinada marca, de acionar uma garantia etc. Um
modelo desse tipo pode servir tambm para estimar a probabilidade de a empre-
sa obter um emprstimo, de ingressar em estado de insolvncia, de atingir certas
metas, e assim por diante.
R e g r e ~ ~ a o Logstica 315
5. 10 Consideraes finais
Como vimos, tanto sob o ponto de vista conceituai como operacional, a Re-
gresso Logstica se caracteriza como uma tcnica de fcil aplicao. Em relao
Anlise Discriminante, por exemplo, ela leva certa vantagem na medida cm
que, alm de facilitar a identificao do grupo a que pertence um objeto ou in-
divduo, facilita a estimao de probabilidades associadas ocorrncia de deter-
minados eventos. Outra vantagem relativa diz respeito ao nmero de suposies
iniciais. Basta considerar que a logstica no exige a normalidade conjunta ou no
das variveis independentes. Se esse tipo de teste j assume certa complexidade
quando se lida com mltiplas variveis, muito mais ainda quando algumas so
de natureza categrica. Somando-se a isso a facilidade computacional, temos a
uma explicao bastante plausvel para o fato de essa tcnica ter se expandido
com tanta rapidez.
Pensando na diversidade de profissionais que podem se interessar por esse
recurso estatstico, procuramos conferir ao texto uma entonao didtica que
facilitasse a assimilao dos principais conceitos, a interpretao dos resultados
da anlise e principalmente a percepo das circunstncias em que ele pode ser
utilizado. Essa preocupao com aspectos didticos exigiu uma certa resistncia
tentao de nos alongar em explicaes tericas de maior complexidade. Por
exemplo, como as ferramentas computacionais disponveis nos permitem estimar
os parmetros da equao logstica sem conhecimentos mais profundos do mto-
do da mxima verossimilhana, evitamos maiores digresses sobre esse assunto.
De igual forma, procuramos deixar em segundo plano discusses de ordem dou-
trinria sobre uma ou outra particularidade. Se, por um lado, isso pode frustrar
a expectativa de alunos mais vidos por elucubraes tericas, por outro, temos
a compensao de tornar mais acessvel mdia dos leitores um conhecimento
de grande significado para o exerccio de suas atividades. Aos demais, resta-nos
aconselhar uma consulta complementar a fontes que se detm em tpicos mais
especficos.
5.11 Resumo
Regresso Logstica uma tcnica de anlise da estatstica multivariada apli-
cvel a situaes em que se deseja predizer ou explicar valores de uma varivel
binria em funo de valores conhecidos de outras variveis, que podem ser cate-
gricas ou no. O fato de a varivel dependente s poder assumir um entre dois
valores a principal diferena entre o modelo logstico e o linear. Esse tambm
um dos motivos pelos quais no se pode utilizar o mtodo dos mnimos quadrados
para estimar os parmetros da equao logstica. Em lugar dele, adota-se o m-
todo da mxima verossimilhana, um processo iterativo que nos permite estimar
316 Anlise Multivariada Corrar, Paulo c Dias Filho
a probabilidade mxima associada ocorrncia de determinado evento ou pre-
sena de certas caractersticas. Com esse recurso, todos os resultados atribuveis
varivel dependente ficam contidos no intervalo de O a 1.
Em praticamente todas as reas do conhecimento, o modelo logstico tem se
revelado muito eficaz na soluo de problemas que envolvem a escolha de urna
entre duas alternativas ou a estimao de probabilidades. No ambiente de neg-
cios, por exemplo, pode ser utilizado na previso de falncia, na avaliao de pro-
jetas econrnicos, na anlise de riscos de crdito etc. De igual forma, pode facili-
tara identificao de variveis que contribuem para explicar diversos
de interesse das organizaes, tais corno o sucesso ou o fracasso de
produto, atitudes pessoais frente ao processo decisrio, o desempenho de um
partarnento, a reao de alguns segmentos da sociedade a polticas empresariais,
o comportamento de certos agentes econrnicos, e assim por diante.
A popularidade que essa tcnica vem alcanando em todo o mundo atribu-
da, em parte, semelhana que ela conserva em relao a algumas
da Regresso Linear e principalmente ao fato de permitir que se contornem
restries encontradas em outros modelos, tais corno homogeneidade de
e normalidade na distribuio de erros. Sorna-se a isso o fato de acolher
independentes mtricas e no mtricas, simultaneamente, e de facilitar a "vu._. ....
de problemas que envolvem no apenas a discriminao de grupos, mas ccuuu"-UIIII
a estimao de probabilidades. Alis, o simples fato de ser menos exigente q
to s suposies iniciais j confere ao modelo logstico urna certa vantagem
tocante confiabilidade dos resultados da anlise. Na rea mdica, por
considera-se que esta urna das razes pelas quais ele ganhou o status de
menta-padro na avaliao de riscos.
5.12 Questes propostas
1. Qual o principal objetivo da Regresso Logstica e em quais
recomenda-se utilizar essa tcnica de anlise de dados?
2. Por que no se pode utilizar a Regresso Linear para descrever um
relacionamento entre urna varivel independente binria e um conjunto
variveis independentes de natureza mtrica e no mtrica?
3. Regresso Logstica e Anlise Discriminante so tcnicas substitutas?
que.
4. Em relao a outras tcnicas de classificao, corno a Anlise
quais as principais vantagens da Regresso Logstica?
Regresso Logstica 317
No modelo linear, cada parmetro estimado expressa a mudana que ocorrer
na varivel dependente por unidade de variao ocorrida na varivel predito-
ra, quando as demais permanecem constantes. E no modelo logstico?
Mencione as principais suposies requeridas pelo modelo logstico para que se
obtenham predies e classificaes vlidas sob o ponto de vista estatstico.
Para efeitos de avaliao do modelo logstico, como deve ser interpretado o
-2LL?
No modelo linear, para testar a hiptese de que um determinado coeficiente
da regresso nulo, pode-se utilizar a estatstica t. E no modelo logstico?
Qual a finalidade do teste denominado Hosmer e Lemeshow? Descreva sucin-
tamente em que consiste esse mecanismo de avaliao do modelo logstico e
como deve ser interpretado .
. Identifique oportunidades de aplicao da Regresso Logstica em sua rea
de atuao profissional.
Exerccios resolvidos
O Controller de uma transportadora tem observado que menos de 40% dos
funcionrios submetidos a um programa de treinamento voltado para reduo
de custos reagem positivamente. Interessado em aprimorar a poltica de pessoal,
solicitou um estudo para identificar as causas desse baixo desempenho, inclusive
porque o prprio treinamento j estava sob uma relao custo/benefcio desvan-
tajosa. Para tanto, extraiu-se uma amostra aleatria constituda de 36 emprega-
dos em relao aos quais foram consideradas as seguintes variveis: nmero de
anos de escolaridade, idade e sexo (1 = masculino; O = feminino). O fenmeno
que est sob anlise a reao de cada componente da amostra e ser codifica-
da como 1, quando positiva, e como zero, quando negativa, conforme consta no
seguinte quadro:
322 An<lise Mullivariada Corrar, Paulo e Dias Filho
Como consta no quadro acima, verificaram-se 17 ocorrncias de sinistro numa
amostra de 36 clientes (1 = houve sinistro; O = no houve sinistro). Em relao
a cada indivduo, foram levantadas as seguintes informaes adicionais: o estado
civil (1 =solteiro; O= casado), a idade e, finalmente, o sexo (1 = feminino; O=
masculino). Baseando-se nesse histrico, pede-se:
a) Esboce um modelo capaz de descrever o relacionamento existente entre
a ocorrncia de sinistro e as variveis sexo, idade e estado civil.
b) Ao nvel de significncia de 0,05, pode-se afirmar que o modelo acima
referido til para predizer a ocorrncia de sinistros na empresa consi-
derada? Por qu?
c) Explique o significado de cada coeficiente das variveis que compem o
modelo acima referido.
d) Estime a probabilidade de sinistro associada a um cliente do sexo
culino, casado e com 25 anos de idade.
e) Para o mesmo cliente citado no item anterior, qual a probabilidade
sinistro se ele for solteiro?
f) Compare os resultados obtidos nos dois itens anteriores e reflita sobre
estratgias que poderiam ser adoradas pela companhia para atrair
clientes.
Exerccio 2
Suponha que o modelo logstico abaixo mencionado seja vlido para,.,, . .,_. .... ,",_
a relao entre o cumprimento de meta individual num departamento de
o e as seguintes variveis: salrio do empregado (X
1
) e nvel de instruo
Considere que a varivel nvel de instruo est sendo codificada da seguinte
ma: O = sem instruo superior; 1 = com instruo superior.
(
P(sucesso) )
ln = 0,3 + 0,6x
1
+ 0,2x
2
1- P(sucesso)
a) Interprete o significado de cada coeficiente da regresso logstica.
b) Qual a probabilidade de um empregado atingir a meta individual se
no possuir instruo superior, mas tiver uma remunerao mensal
R$ 3.000,00?
c) Em relao a um empregado que tenha uma remunerao mensal de
5.000,00, qual o efeito da varivel nvel de instruo sobre a pro
dade de atingir a meta individual?
1989.
Regresso Logstica 323
d) Se as chances de um empregado atingir a meta forem estimadas em
0,85 somente em funo de seu salrio, para quanto vai a probabilidade
associada ocorrncia desse mesmo evento quando ele atingir o nvel
superior?
e) Sabendo-se que um empregado possui nvel superior e que as suas chan-
ces de atingir a meta correspondem a 0,60, qual deve ser o seu sal-
rio?
D. R.; SNELL, E. J. Analysis of binary data. 2. ed. London: Champman and Hall,
JR., Joseph E et al. Multivariate analyses data. New Jersey: Princeton University
1998.
ER, David W; LEMESHOW, Stanley. Applied logistic regression. Ncw York: Wiley,
JOHNSON, Richard A.; WICHERN, Dean W Applied multivariate statistical analysis. New
Jersey: Prentice Hall, 1998.
KAUFMAN, R. L. Comparing effects in dichotomous logistic regression: a variety of stan-
dardized coefficients. Social Science, 77, 1996.
MENARD, Scott W Applied logistic regression analysis. Thousands Oaks, Calif.: Sage Pu-
blications, n. 7, 1995.
NAGELKERKE, N. J. D. A note on a general definition of the coefficient of determination.
Biometrika, 78, p. 691-692, 1991.

Você também pode gostar