Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressão Logística
Sumário do capítulo
• Introdução.
• A lógica da Regressão Logística.
• Modelo matemático da Regressão Logística.
• Interpretando os coeficientes da Regressão.
• A Curva da Regressão Logística.
• Suposições do modelo logístico.
• Vantagens operacionais do modelo logístico.
• Medidas de avaliação do modelo logístico.
• Exemplo prático.
• Considerações finais.
• Resumo.
Objetivos de aprendizagem
O estudo deste capítulo permitirá ao leitor:
• Compreender os objetivos gerais da Regressão Logística e id
ficar as circunstâncias em que essa técnica pode ser utilizada;
• Compreender as razões pelas quais o modelo logístico
recomendável para realizar predições e classificar indivíduos
objetos quando a variável dependente é dicotômica;
Regressão Logfstica 281
5.1 Introdução
Vimos que a Regressão Linear Múltipla é uma técnica estatística aplicável a si-
tuações em que se deseja predizer ou explicar valores de uma variável dependente
em função de valores conhecidos das variáveis independentes. A título de exemplo,
lembramos que esse recurso pode ser utilizado para explicar uma possível relação
matemática existente entre resultado operacional líquido e outras variáveis, tais
como crescimento das vendas e gastos com publicidade. Caso se identifique uma
relação significativa entre elas, obtém-se um modelo que pode servir para estimar
o referido resultado em função de futuras observações das variáveis independentes.
É claro que em tais circunstâncias a variável dependente pode assumir qualquer
valor, inclusive negativo. E se estivéssemos diante de uma situação em que ela só
pudesse assumir um entre dois resultados e, além disso, de natureza qualitativa?
Será que, ainda assim, seria viável utilizar o modelo linear?
De fato, há de se considerar que em muitas situações a variável dependente é
de natureza binária ou dicotômica. Por exemplo, um aluno pode ser aprovado ou
reprovado num exame, um paciente pode vir a óbito ou sobreviver a um enfarte,
um candidato a um posto de trabalho pode ser contratado ou não, um produto
pode ser aceito ou barrado pelo controle de qualidade, um cliente pode cancelar
ou confirmar um pedido, um gerente pode obter êxito ou fracassar numa nego-
ciação, um fornecedor pode aceitar ou rejeitar uma proposta, um cliente pode
se tornar inadimplente ou não, e assim por diante. Obviamente, esse raciocínio
também se aplica às entidades mais amplas, como grupos, empresas, países etc.
Determinada cidade pode sofrer um ataque terrorista, passar por problemas de
abastecimento, enfrentar rebeliões e outros fenômenos do gênero. De igual forma,
uma empresa pode ingressar em estado de falência, sofrer restrições ao crédito,
enfrentar greves, problemas na obtenção de insumos e muitos outros. Como pre-
ver fenômenos que, como estes, só admitem uma entre duas alternativas do tipo
ocorre ou não ocorre, sim ou não?
282 Análise Multivariada • Corrar, Paulo e Dias Filho
Breve histórico
Já mencionamos que uma das razões pelas quais o modelo linear torna
inadequado para estimar probabilidades é o fato de a variável dependente poder-
Regressão Logística 285
valor menor que zero e maior que um. Isso não se coaduna com urna re-
- natureza logística, já que uma mesma mudança nos valores da variável
-~de1nte pode produzir efeitos diferentes sobre a variável dependente. Tudo
nder de sua posição relativa. Quanto mais próxima a probabilidade esti-
xu limite superior, menor o efeito dos fatores que concorrem para aumen-
:ice-versa. É certo que outros modelos de natureza não linear poderiam
--~....... ,,., para representar esse tipo de relação. Contudo, salientamos que o
tem sido preferido, em função de suas propriedades e da relativa sim-
operacional.
contornar as dificuldades inerentes ao modelo linear, efetua-se uma
logística na variável dependente. Esse processo é constituído basi-
de duas etapas. A primeira consiste em convertê-la numa razão de chan-
segunda, em transformá-la numa variável de base logarítmica. Com isso,
a predição de valores menores que zero e maiores que um. Para facilitar a
_.-r:>.-·n~:::~o, vamos explicar cada fase em separado. Considere-se, inicialmente,
a fenômeno tem uma probabilidade de ocorrer ou de assumir determina-
Assim, fica claro que, embora a variável dependente só possa
duas posições, zero e um, toma-se necessário obter valores que possam
.,...,,..-~•rnr<>t·<>rios em termos de probabilidade. Para tanto, em primeiro lugar can-
a probabilidade as~ociada a cada observação em razão de chance (odds
que representa a probabilidade de sucesso comparada com a de fracasso.
~ação pode ser expressa da seguinte forma:
P (sucesso)
Razão de chance=-----'-----'--
1 - P (sucesso)
No modelo linear, vimos que cada coeficiente estimado mede a mudança que
no valor da variável dependente para cada unidade de variação ocorrida
variável explicativa. Em se tratando de Regressão Múltipla, obviamente, há de
considerar que isso incorpora o pressuposto de que as demais variáveis perma-
wcein constantes. Em síntese, diríamos que cada coeficiente descreve a reação
pela variável dependente a uma variação unitária ocorrida na variável
Por exemplo, se Y = 200 + 8X expressa a relação entre custo total
dependente) e quantidade produzida (variável independente), pode-se
que para cada variação unitária que se verifique em X, o custo total se
ificará em oito unidades.
No modelo logístico, pelo contrário, o coeficiente de cada variável indepen-
está sujeito a diversas interpretações, já que ele exerce efeitos sobre a quan-
-·u. . . .de logit (logaritmo natural da razão de chance), sobre a própria razão de
e, finalmente, sobre as probabilidades. Voltemos ao modelo geral da Re-
Logística para examinarmos os diversos significados que podem ser atri-
:-.JIOC>s aos coeficientes:
P(sucesso) )
ln ( = b0 + b1 x 1, + b2x 2 , + ··· + bkxk,
1 - P (sucesso)
tarou diminuir, dada uma certa variação ocorrida na variável independente. PGr
exemplo, suponha que a probabilidade de um indivíduo contratar um seguro
vida pode ser estimada por variáveis, tais como quantidade de filhos, renda, nÍ\
de instrução e idade do chefe de família. Nesse caso, para um economista, cen.
mente é muito mais interessante saber que uma variação positiva de R$ SOO.
na renda do indivíduo aumentará em 8% a probabilidade de ele adquirir o segu
mantendo-se as demais variáveis constantes, do que obter uma informação de que
essa variação provocará um aumento de 3 unidades no log da razão de chance
Assim, é necessário encontrar significados mais simples e intuitivos para 01
coeficientes. Uma segunda interpretação possível, e talvez bem mais útil, é a qur
se relaciona com o impacto de cada coeficiente sobre a própria razão de chan~
e não mais sobre a quantidade de logit, como explicamos anteriormente. Ora, ~
servando-se a estrutura do modelo logístico, não é difícil concluir que basta ele-
vara constante matemática e (2,7182 ... ) ao coeficiente da variável independenrr
para identificar o impacto que ele exerce sobre a razão de chance. Como se vê,
procedimento consiste simplesmente em obter o antilogaritmo do próprio coefi-
ciente. Por exemplo, se o coeficiente b1 for 0,3, a razão de chance será impactada
=
em e0•3 1,35. Isso significa que para cada unidade de variação que se registre na
variável independente, as chances de que o evento ocorra serão aumentadas 35
em relação à posição anterior, supondo-se que as demais variáveis se mantenham
constantes, é claro. É de se admitir, portanto, que sob o ponto de vista pragmán-
co é preferível afirmar que as chances de um evento se concretizar evoluíram em
35% a dizer que o logit sofreu um aumento de 0,3, a menos que o indivíduo se
sinta muito confortável com a terminologia matemática.
Do exposto, observa-se que o efeito dos coeficientes sobre a razão de chancr
é sempre de natureza multiplicativa, e não aditiva, como ocorre no modelo lineat.
Por essa razão, quando se obtém um coeficiente igual a O o efeito sobre a variável
dependente também é nulo. De fato, não poderia ser diferente, já que o antiloga-
ritmo desse coeficiente é 1 (e 0 ). Nesse caso, é claro que não se verifica nenhum
efeito sobre a probabilidade. Além disso, é importante observar que como a cons-
tante matemática e elevada a qualquer número positivo produz um resultado su-
perior a um, fica claro por que qualquer coeficiente positivo contribui para elevar
a razão de chance e, conseqüentemente, a probabilidade. Logicamente, o inverso
também é verdadeiro, ou seja, como e elevado a qualquer número negativo re-
sulta em número inferior a 1, coeficientes negativos contribuem para reduzir a
razão de chance e, novamente, a probabilidade. Vale observar que quando o coe-
ficiente é negativo, obtém-se um resultado inferior a um, porém sempre superior
a O, já que a base da potência é positiva. É exatamente por isso que se recorreu à
transformação logarítmica. Com isso, preserva-se o limite mínimo do espaço das
probabilidades (zero).
É verdade que a interpretação dos coeficientes em termos do efeito que eles
exercem sobre a chance de um evento ocorrer já tem algum significado intuitivo.
Regressão Logísttca 289
P(sucesso) ) _
1n ( - 0 , 25x 1 + 0, 4x 2
1 - P(sucesso)
Praticamente tudo o que foi dito sobre o modelo logístico até aqui pode
visualizado na chamada Curva da Regressão Logística. Como se pode nr>lrr,.•
ela descreve a relação existente entre a probabilidade associada à ocorrência
determinado evento e um conjunto de variáveis preditoras. A título de ex1~m11
diríamos que ela poderia estar evidenciando ·o efeito de determinado es
sobre a probabilidade de um empregado atingir metas, o efeito de certas d
sobre a probabilidade de morte prematura, o efeito de pequenos desvios
a probabilidade de alguém cometer uma fraude mais grave e assim por
Portanto, a referida curva expressa a natureza da relação que se estabelece
variáveis desse tipo.
P(y)
1,0
oL------- - -- -- - -- -+x
Figura 5.1 Curva logística.
·es é muito maior do que o que se faz necessário para alcançar uma evolução de
47% para 48%. Daí essa inclinação bem mais suave nas extremidades.
Na prática, pode-se observar esse tipo de relação em diversas situações. Consi-
~ere, por exemplo, que é possível estimar a probabilidade de vendas de automóveis
wos em determinada população usando a renda como variável preditora. Par-
ndo dessa premissa, é razoável admitir que uma variação de R$ 40.000,00 para
S 60.000,00 na renda anual de cada indivíduo produzirá um efeito muito maior
sobre a probabilidade do que uma evolução R$ 90.000,00 para R$ 110.000,00.
so porque pessoas que já possuem renda mais elevada têm maior probabilidade
e adquirir certos bens de consumo durável, como automóveis. Ou seja, ao atingir
is patamares e permanecendo nessa condição, a taxa de crescimento da proba-
ilidade de alguém adquirir outro veículo da mesma categoria tende a diminuir
::or unidade de renda.
Assim como um incremento de R$ 20.000,00 para indivíduos mais aquinhoa-
os certamente exerceria pouco efeito sobre a probabilidade de se adquirir auto-
ovei novo em determinado período, o raciocínio inverso também é verdadeiro.
seja, um aumento de R$ 20.000,00 na renda de quem ainda não conseguiu
mínimo necessário ao seu bem-estar, certamente não exercerá grande impacto
bre a probabilidade de vir a adquirir bens dessa natureza. Portanto, uma mes-
- J mudança na variável preditora pode gerar impactos diferentes sobre a proba-
idade. Para quem já tem uma boa chance de comprar um automóvel novo, o
:.1mento de R$ 20.000,00 na renda anual tende a aumentá-la substancialmente.
rém, para os que se encontram em níveis de renda mais elevados ou extrema-
ente reduzidos, o efeito tende a ser bem menor. O resultado, portanto, é uma
.:or\'a em formato de S, muito utilizada cm estudos econômicos e em medicina
ra modelar certas relações.
Um dos motivos pelos quais a Regressão Logística tem sido muito utilizada
a realizar predições quanto à variável dependente é dicotômica é o pequeno
mero de suposições. Com essa técnica, o pesquisador consegue contornar certas
rrições encontradas em outros modelos multivariados, entre as quais se des-
am a homogeneidade de variância e a normalidade na distribuição dos erros.
~-;mo assim, é necessário observar os seguintes requisitos:
F. O Likelihood Value serve também para verificar se o modelo melhora com a in-
clusão ou exclusão de alguma variável independente, particularmente quando se
opta pelo método stepwise. Lembramos que esse método (stepwise) é um processo
terativo que tem por finalidade identificar as variáveis que apresentam maior po-
der preditivo. Em síntese, pode-se afirmar que o principal objetivo do Likelihood
alue (-211) é verificar se a regressão como um todo é estatisticamente significan-
te e facilitar comparações entre modelos alternativos.
A esta altura, é provável que você esteja esperando uma medida equivalente
ao famoso Coeficiente de Determinação da Regressão Linear, cujo objetivo é iden-
tificar a proporção da variação total ocorrida na variável dependente em função
das independentes. Embora não se disponha de uma medida rigorosamente idên-
tica ao R2 no modelo logístico, existem alguns indicadores que cumprem um pa-
pel semelhante ao que ele desempenha. São os chamados Pseudos- R-Quadrado.
Cm deles é o McFadden's-R2 ou o R2logit, como é mais conhecido. Este coeficiente
expressa a variação percentual entre o Likelihood Value do modelo, que considera
apenas a constante, e o Likelihood Value, que incorpora as variáveis explicativas,
conforme segue: R2 logit= [-2LLnulo- (-2LLmodelo)]/-2LLnulo.
Como se observa, o numerador evidencia a melhoria que se espera ocorrer no
ikelihood Value como efeito da inclusão das variáveis independentes no mode-
lo. O denominador, pelo contrário, tende a apresentar um Likelihood Value mais
elevado, já que ele reflete apenas a constante. Assim, se todos os coeficientes das
~riáveis incluídas no modelo forem O, o R2 logit também será O. Seu valor má-
ximo se aproxima de 1. Contudo, é bom lembrar que esse R-Quadrado tem um
significado um pouco diferente daquele que se atribui ao coeficiente de determi-
nação do modelo linear. Na verdade, ele apenas nos permite avaliar se o modelo
melhora ou não a qualidade das predições, quando comparado a um outro que
gnore as variáveis independentes. Não pode, por exemplo, ser interpretado como
taXa de variação na probabilidade de ocorrer o evento por unidade de variação
da variável independente.
Outra espécie de pseudo- R2 que se assemelha ao coeficiente de determina-
ção utilizado no modelo linear é o teste Cox-Snell R2 . Como o anterior, este tam-
bém não serve propriamente para indicar a proporção da variação experimentada
pela variável dependente em função de variações ocorridas nas independentes,
uma vez que funções de probabilidade não lidam com variações desse tipo. Aliás,
e exatamente por isso que tais medidas são geralmente denominadas pseudos
R-Quadrado. Entretanto, trata-se de um mecanismo que pode ser utilizado para
comparar o desempenho de modelos concorrentes. A princípio, entre duas equa-
ções logísticas igualmente válidas, deve-se preferir a que apresente o Cox-Snell R2
296 Análise Multivariada • Corrar, Paulo e Dias Filho
o Exemplo prático
VE ST VE ST R ND VE
- ST R ND R ND
o 2,5 3 1 1 1,6 3 1 o 3,2 3 o
1 1,7 3 1 1 2,0 1 1 1 1,2 2 1
o 4 2 1 1 2,5 3 1 o 3,5 3 o
1 2,3 2 1 o 3,8 1 o o 4,0 1 o
1 3,7 4 o o 4,3 2 o 1 2,3 3 1
o 4,8 1 o 1 2,0 2 1 o 2,9 4 o
1 1,9 3 o o 5,2 2 o 1 2,4 2 1
o 5,3 2 1 1 2,4 3 o o 5,0 3 o
1 3,1 4 1 o 2,6 4 o 1 2,2 3 o
1 1,9 3 1 o 1,3 2 1 1 1,3 3 1
1 2,3 4 1 o 3,8 1 1 1 1,7 3 1
o 3,6 1 o o 4,5 o 1 o 3,0 2 o
o 4,7 2 1 o 3,0 o 1 o 3,0 2 1
o 5,8 2 o 1 2,1 2 1 o 3,5 2 1
o 6 4 o 1 1,9 2 1 o 5,8 2 1
o 3,9 3 1 o 1'7 4 o o 4,8 1 o
. 2,4 4 1 1 1'7 2 1 1 2,3 3 1
1 1,7 4 1 1 1,3 3 1 1 2,6 2 1
o 3,7 2 o o 2,5 1 1 1 1,8 2 1
o 4,8 1 o o 3,5 2 o 1 2,9 2 1
o 3,2 2 1 o 5,6 3 o o 3,2 1 o
1 2,7 3 1 o 3,8 2 o o 4,2 1 o
1 1,2 3 1 o 4,0 o o o 2,6 1 o
o 8,2 5 o 1 2,5 1 1 o 6,0 1 o
1 1,8 1 1 1 1,2 2 o 1 4,5 3 1
1 2,5 1 1 o 3,0 1 o 1 1,3 2 1
1 2,2 3 1 o 3,0 1 o 1 2,4 2 1
o 4,0 1 o 1 2,1 2 1 o 4,3 2 o
o 4,2 1 o o 2,5 1 o 1 1,8 o 1
o 3,7 1 o o 2,9 1 o o 2,4 2 o
1 2,4 2 1 o 4,0 3 o
Codificação das variáveis:
ADIMPLENTE o
INADIMPLENTE 1
Para meter
Frequency
(1)
Predicted
Situação do Cliente
Observed Percentage
INADIM- Correct
ADIMPLENTE
PLENTE
55,4
Do exposto conclui-se que realmente não seria conveniente formular n.-~., ....
em função desse critério de classificação. Fica cada vez mais claro que o seu
objetivo, de fato, é fornecer uma base de comparação que nos permita
se as variáveis independentes vêm melhorar a qualidade das predições. É
tante considerar que sem incluí-las no modelo já se alcança um nível de acc
55,4% na classificação dos casos. Com elas, espera-se um percentual mais
do. A relação dessas variáveis com os respectivos scores é apresentada pelo
ao final do chamado Step O, tal como se observa a seguir:
Se ore df Sig.
Step Variables R 39,112 0,000
o ND 7,768 0,005
VE(1) 33,368 0,000
Overall statistics 54,573 3 0,000
Chi-square df Sig.
Step1 Step 76,143 3 0,000
Block 76,143 3 0,000
Model 76,143 3 0,000
Model Summary
8,169 8 0,417
1 2 9 8,952 o 0,048 9
3 9 8,841 o O, 159 9
4 9 8,488 o 0,512 9
5 7 7,148 2 1,852 9
6 5 4,318 4 4,682 9
7 o 2,305 9 6,695 9
8 2 1'155 7 7,845 9
9 o 0,578 9 8,422 9
10 1 0,223 10 10,777 11
É possível que você esteja a nos questionar se esse resultado realmente é fa-
uma vez que o nível de significância encontrado foi bem superior a 0,05.
llellanece~m<)S que sim, porque se o resultado estivesse em um patamar igual ou
a 0,05 teríamos que rejeitar a hipótese de que não existem diferenças sig-
entre os valores esperados e observados. O que se pretende não é isso,
sim aceitar a hipótese de que não existem diferenças entre valores preditos
e observados. Portanto, é sempre desejável que se obtenham resultados superio-
310 Análise Multivanada • Corrar, Paulo e Oias Filho
res a 0,05, como ocorreu na presente situação. Aliás, diríamos que quanto
elevado melhor. É claro que existem algumas limitações associadas ao uso
teste, conforme comentamos anteriormente. Uma delas diz respeito ao
da amostra. Quanto mais ampla, maior o risco de rejeitarmos a hipótese nula
devidamente. Para contornar esse problema, recomendamos utilizar vários
simultaneamente, como estamos fazendo nessa oportunidade.
Como se observa, até aqui tudo se mostra favorável ao uso das variáveis
pendentes como estimadores do status que o cliente poderá assumir em
nadas circunstâncias. Certamente, você se lembra de que sem incluirmos tais
riáveis no modelo, o percentual de acerto nas classificações era de apenas 5
Muito bem! E se considerarmos tais variáveis, qual seria o percentual de
Como nos mostra o quadro a seguir, ele se eleva para 89,1%. Nota-se,
urna melhoria considerável.
Classification Tablea
Predicted
Situação do Cliente
Observed Percentage
INADIM- Correct
ADIMPLENTE
PLENTE
incorporadas ao modelo
Como vimos, até aqui todos os testes sugerem que, de forma geral, o modelo
ser utilizado para estimar a probabilidade de um cliente assumir a condição
inadimplente em função do conjunto de variáveis independentes (renda, núme-
de dependentes e vínculo empregatício). Sendo assim, será que já poderíamos
mão dos coeficientes abaixo relacionados e esboçar a equação da regressão
a para fazer estimativas? A resposta é não! Isso porque até então só reali-
a avaliação do modelo como um todo. Comparando-se à regressão linear, é
se tivéssemos apenas submetido a equação ao teste E Resta-nos ainda avaliar
significância de cada coeficiente em particular. Afinal, é necessário verificar se
um deles realmente pode ser utilizado como estimador de probabilidades.
ra tanto, recorremos à estatística Wald. Trata-se de um mecanismo equivalente
teste t, cujo objetivo é testar a hipótese nula de que um determinado coeficien-
não é significativamente diferente de zero.
Como a variável independente tem apenas um grau de liberdade, para cada
coeficiente procede-se ao seguinte cálculo: Wald = (b/S.E.) 2, onde b simboliza o
coeficiente de uma variável incluída no modelo e S.E., o erro-padrão a ele asso-
ciado. Como se observa, o quadro seguinte sugere que todas as variáveis podem
ser aproveitadas na composição do modelo, já que seus coeficientes não são nu-
Em outras palavras, pode-se afirmar que cada um deles exerce efeito sobre
probabilidade de um cliente assumir o status de adimplente ou inadimplente,
lo menos a um nível de significância de 0,05. Os coeficientes das variáveis ren-
da (R) e vínculo empregatício (VE) são negativos. Isso significa que uma variação
positiva em tais variáveis contribui para diminuir a probabilidade de um cliente
se tomar inadimplente. Número de dependentes (ND), pelo contrário, tem sinal
positivo. Portanto, uma variação positiva nessa variável concorre para aumentar
a probabilidade de o cliente se tornar inadimplente.
95,0% C.l.for
B S.E. Wald df Sig. Exp(B) EXP(B)
lower Upper
pelo qual a razão de chance se altera em função de uma variação unitária na va-
riável considerada, no caso "número de dependentes". O relatório fornecido pelo
SPSS® indica que esse fator é da ordem de 2,362, que corresponde à constante
matemática e elevada ao coeficiente da variável em apreço (0,860). Agora, tudo
o que nos falta é identificar a razão de chance a que corresponde a probabilidade
de 20% e multiplicá-la por esse fator. Ora, como a razão de chance corresponde
ao quociente entre a probabilidade de um evento ocorrer e a de ele não ocorrer,
a partir desse ajuste pode-se identificar a mudança na probabilidade de o cliente
se tornar inadimplente. Acompanhemos o cálculo, portanto.
Probabilidade inicial: 20%.
Razão de chance a que corresponde a probabilidade de 20%: 0,2/ 0,8::: 0,25.
Razão de chance ajustada: (0,25) * (2,362) = 0,59.
Probabilidade a que corresponde a razão de chance ajustada:
[p/ (1- p)] = 0,59 :. p = 37%
Como se observa, se o cliente incorporar mais um dependente e mantiver os
demais fatores inalterados (renda e vínculo empregatício), a probabilidade de se
tomar inadimplente evolui de 20 para 37%. Importa salientar mais uma vez que
essa variação depende sempre do patamar de risco em que se encontre o cliente
em determinado instante. A título de exemplo, destaque-se que se a probabilidade
inicial fosse de 35%, agora ela teria evoluído para quase 56%. Em termos relati-
vos, uma variação bem menor. Em caso de dúvida, recomendamos voltar à parte
introdutória deste capítulo, mais precisamente à seção que trata da interpreta-
ção dos coeficientes. Salientamos que esse ponto assume grande significado na
análise da Regressão, pois nos permite observar o efeito de cada variável sobre a
probabilidade associada à ocorrência de determinado evento ou à manifestação
de certa característica.
1
P(evento) = + e C4 ,:l- J,BB2R·O,B60ND- 2,B22VEl
1
314 Análise Multivariada • Corrar, Paulo e Dias Filho
1
P(evento)= 065
= 34,3%
1 +e·
5. 10 Considerações finais
Como vimos, tanto sob o ponto de vista conceituai como operacional, a Re-
gressão Logística se caracteriza como uma técnica de fácil aplicação. Em relação
à Análise Discriminante, por exemplo, ela leva certa vantagem na medida cm
que, além de facilitar a identificação do grupo a que pertence um objeto ou in-
divíduo, facilita a estimação de probabilidades associadas à ocorrência de deter-
minados eventos. Outra vantagem relativa diz respeito ao número de suposições
iniciais. Basta considerar que a logística não exige a normalidade conjunta ou não
das variáveis independentes. Se esse tipo de teste já assume certa complexidade
quando se lida com múltiplas variáveis, muito mais ainda quando algumas são
de natureza categórica. Somando-se a isso a facilidade computacional, temos aí
uma explicação bastante plausível para o fato de essa técnica ter se expandido
com tanta rapidez.
Pensando na diversidade de profissionais que podem se interessar por esse
recurso estatístico, procuramos conferir ao texto uma entonação didática que
facilitasse a assimilação dos principais conceitos, a interpretação dos resultados
da análise e principalmente a percepção das circunstâncias em que ele pode ser
utilizado. Essa preocupação com aspectos didáticos exigiu uma certa resistência
à tentação de nos alongar em explicações teóricas de maior complexidade. Por
exemplo, como as ferramentas computacionais disponíveis nos permitem estimar
os parâmetros da equação logística sem conhecimentos mais profundos do méto-
do da máxima verossimilhança, evitamos maiores digressões sobre esse assunto.
De igual forma, procuramos deixar em segundo plano discussões de ordem dou-
trinária sobre uma ou outra particularidade. Se, por um lado, isso pode frustrar
a expectativa de alunos mais ávidos por elucubrações teóricas, por outro, temos
a compensação de tornar mais acessível à média dos leitores um conhecimento
de grande significado para o exercício de suas atividades. Aos demais, resta-nos
aconselhar uma consulta complementar a fontes que se detêm em tópicos mais
específicos.
5.11 Resumo
Exercícios resolvidos
Exercício 2
Suponha que o modelo logístico abaixo mencionado seja válido para,.,,..,_.. . ,",_
a relação entre o cumprimento de meta individual num departamento de
ção e as seguintes variáveis: salário do empregado (X 1) e nível de instrução
Considere que a variável nível de instrução está sendo codificada da seguinte
ma: O = sem instrução superior; 1 = com instrução superior.
P(sucesso) )
ln ( = 0,3 + 0,6x1 + 0,2x 2
1- P(sucesso)
D. R.; SNELL, E. J. Analysis of binary data. 2. ed. London: Champman and Hall,
JR., Joseph E et al. Multivariate analyses data. New Jersey: Princeton University
1998.
ER, David W; LEMESHOW, Stanley. Applied logistic regression. Ncw York: Wiley,
1989.
JOHNSON, Richard A.; WICHERN, Dean W Applied multivariate statistical analysis. New
Jersey: Prentice Hall, 1998.
KAUFMAN, R. L. Comparing effects in dichotomous logistic regression: a variety of stan-
dardized coefficients. Social Science, 77, 1996.
MENARD, Scott W Applied logistic regression analysis. Thousands Oaks, Calif.: Sage Pu-
blications, n. 7, 1995.
NAGELKERKE, N. J. D. A note on a general definition of the coefficient of determination.
Biometrika, 78, p. 691-692, 1991.