Escolar Documentos
Profissional Documentos
Cultura Documentos
Regresso logstica
A regresso logstica uma tcnica estatstica utilizada para descrever o comportamento entre uma varivel dependente binria e variveis independentes (explicativas) mtricas ou no. Y = Binria (dummy) X = Mtricas ou no (tambm podem ser qualitativas)
Regresso logstica
Funo logstica:
1 = 1 + ()
Regresso logstica
A regresso logstica pode:
ou
2 Apresentar a probabilidade de sua ocorrncia.
Obs.: Diferentemente da regresso mltipla, a regresso logstica no pressupe a existncia de homogeneidade de varincias e normalidade dos resduos.
Regresso logstica
O mtodo utilizado para estimar os parmetros e
1 = 1 + ()
Onde =
= + 1 1 + 2 2 + +
Regresso logstica
Premissas da regresso logstica: 1. Relao linear entre o vetor das variveis
variveis explicativas.
5. Ausncia de multicolinearidade.
Regresso logstica
A
pressupe
Regresso mltipla
Mtodos dos mnimos quadrados
Regresso logstica
Mtodos de mxima verossimilhana
Regresso logstica
No entanto, de forma semelhante regresso
mltipla, a regresso logstica tambm possui perspectivas para observar o ajustamento do modelo.
Existe uma relao que diz respeito a duas vezes
Regresso logstica
Algumas medidas de ajustamento merecem
destaque:
1 Pseudo R.
2 Cox & Snele R.
3 Nagelkerk R.
4 Teste Qui-quadrado.
Regresso logstica
Para analisar o poder preditivo do modelo, usual a
utilizao de uma tabela levando em conta um ponto de corte chamado de c (classification cutoff).
O c (classification cutoff) o ponto que indica o
percentual de sucessos observados na amostra selecionada. Por exemplo, caso o sucesso esperado seja a existncia de um sinistro, numa amostra de 200 casos, em que foi observado a ocorrncia de 30 sinistros, o c (classification cutoff) igual 32/200 = 0,16 = 16%. Mas isso relativo!
Regresso logstica
Predito Observado Ocorrncia do sinistro No-ocorrncia do sinistro Total Ocorrncia do sinistro 25 5 30 No-ocorrncia do sinistro 7 163 170 Total 32 168 200
ocorrncia).
Especificidade: 163/168 = 97% (percentual de acertos dos casos
de no-ocorrncia).
Regresso logstica
Se para cada c (classification cutoff) fosse calculado a
do ROC (curva 2) maior a capacidade do modelo discriminar o grupo dos sinistrados com os nosinistrados.
Quanto mais prximo o ROC
Regresso logstica
Interpretao da rea abaixo da curva de ROC:
rea abaixo da curva de ROC Menor ou igual a 0,5 Entre 0,7 e 0,8 Maior que 0,8
K-S (Kolmogorov-Smirnov):
K-S Menor que 30 De 30 a 50 Maior que 50 Interpretao Baixa discriminao boa discriminao tima discriminao
Regresso logstica
Binary Logistic.
Em Method, por ora coloque Enter. Explicado na p. 447.
Em Categorical, especifique as variveis categricas, neste
First, indicada pelo valor 0 (normalmente Last). Aps esta escolha, clique em Change.
Em Save, marque as opes Probabilities e Group
Membership.
No menu Options, marque Classification plots, Hosmer-
evento de interesse, mas neste caso de 72%. Assim, o valor do Classification Cutoff dever ser 0,72. Mais informaes na p. 449.
Apresenta o modelo com apenas o intercepto. Serve para se comear a suspeitar sobre qual a varivel mais relevante para o modelo atravs do Score. Neste caso, estado civil.
Utiliza-se do texto Qui-quadrado para observar se os coeficientes em conjuntos so estatisticamente significativos a um nvel de significncia de 95%. Como ilustrado na figura, sim!
Resultados do ajuste do modelo. A estatstica 2LL (1 da lista acima) no tem nenhum significado direto, apenas influncia o Qui-quadrado. As medidas Cox & Snell e Nagelkerk, so semelhantes ao R, porm, esta ltima prefervel devido ao valor mximo que pode assumir. Neste exemplo, o modelo proposto apresenta um poder explicativo de 44,3% .
Teste de Hosmer e Lemeshow. Comparao de eventos observados e esperados, com base na diviso de dados em 10 grupos analisando o n de ventos para cada categoria da varivel dependente. Este teste se refere ao (Quiquadrado) para avaliar se h diferenas significativas entre as frequncias esperadas e observadas em cada faixa. Veja o prximo slide:
O teste indica que no h diferena significativa, ao nvel de 5%, visto que o Sig. foi de 0,763 (ver slide anterior). Cabe ressaltar, porm, que o teste limitado, sendo seu resultados mais confiveis em grandes amostras.
Tabela de Classificao. Ilustra como o modelo classifica corretamente os eventos com base no ponto de corte c de 0,72. Vale ressaltar que os pontos de corte podem ser alterados pelo pesquisados conforme o interesse em relao aos erros tipo I e tipo II. Continuao no prximo slide.
O percentual de acerto dos clientes em atraso que continuariam inadimplentes de 72% (36/36+14). E o percentual de acerto dos que deixariam de ser inadimplentes de 76,9% (100/100+30). O percentual de acerto global do modelo de 75,6% (36+100/36+14+30+100)
Apresenta o resultado dos parmetros estimados (). Todos significativos a 5%. A estatstica de Wald semelhante ao teste t da regresso mltipla. OBS.: O livro no fala nada sobre o Exp(B) e o CI for Exp(B) O que so? O que indicam?
No Data View do SPSS aparecero a probabilidade de ocorrncia de cada uma das observaes e tambm a probabilidade de ocorrncia do evento de interesse pagamento para cada observao. Por exemplo, 0,58% e no pagamento para o caso da primeira observao.
Se esses valores de probabilidade calculados para cada uma das observaes for maior que o ponto de corte c (0,72%), ocorrer o evento de interesse (pagamento). Caso seja menor, como no caso da primeira observao, no ocorrer o evento de interesse (pagamento).
Grfico de distribuio de frequncia das probabilidades de ocorrncia do evento de interesse em relao aos pontos de corte, o que auxilia no estabelecimento de outros pontos de corte (p. 454).
Em Test Variable, inclua as probabilidades previstas (PRE_1) e em State Variable inclua a varivel dependente (pagamento).
Em Value of State Variable, digite 1, que representa o evento de interesse.
Marque as opes: ROC curve with diagonal reference line e Standard Error and confidence interval. S isso!
Como a rea abaixo da curva de 0,846, pode-se dizer que o poder de discriminao do modelo considerado excelente (ver slide 13 )
Ateno: Isso est na p. 456, porm no livro os autores no ensinam como fazer aparecer o n da observao.
esto dispostos a comprar um carro (a vista ou financiado), com o perfil dos que no esto dispostos a comprar.
Analyze -> Regression -> Multinomial Logistic
dif_ano.
No exemplo no h interaes entre variveis, mas se
Criterion), so indicadores utilizados na comparao de modelos. Como no exemplo no foram testados outros modelos e nem feito interaes entre variveis, no possvel fazer comparaes entre modelos (p. 460) (e se fosse? Como fica isso? O livro no explica!).
0) com os clientes que trocariam e pagariam vista (Y = 1), percebemos que no h um coeficiente das variveis significativo.
No entanto, quando comparado os clientes que no trocariam
o carro (Y = 0) com os clientes que trocariam por financiamento (Y = 2), percebemos que todas os coeficientes das variveis so significativos, exceto o coeficiente linear .
O pesquisador deve julgar portanto se vale pena manter as
dependente (Y)? Se considerar que sim, os valores dos coeficientes angulares devem ser mantidos, se no, deve-se excluir a categoria 1 (comprariam vista) e fazer um novo teste, neste caso, Regresso Binria (CERTO?).
Segundo os autores, talvez seja melhor excluir a categoria 1
com a anlise.
EST1_1: Probabilidade do indivduo pertencer ao primeiro grupo (Y = 0). EST2_1: Probabilidade do indivduo pertencer ao segundo grupo (Y = 1). EST3_1: Probabilidade do indivduo pertencer ao terceiro grupo (Y = 2). PRE_1: Indica a qual grupo realmente deve pertencer o indivduo (0, 1 ou 2). Ser
Regresso Logstica
Regresso Logstica utilizada para prever o comportamento de uma varivel categrica binria, indicando, inclusive, a probabilidade de ocorrncia de um evento de interesse. outras tcnicas tambm almejam prever o comportamento de variveis categorias: A Anlise discriminante (captulo 11) e a Anlise de sobrevivncia ou Modelo de Riscos proporcionais (captulo 15).
Duas
ela necessita de muitas premissas, tornando a sua utilizao prtica relativamente limitada, comparando-a com a Regresso Logstica.
A Anlise de sobrevivncia diferencia-se da Regresso
tcnicas sero utilizveis, cabendo ao pesquisador analisar qual modelo melhor retratar a realidade subjacente.