Você está na página 1de 57

UNIVERSIDADE FEDERAL DO ESPRITO SANTO CENTRO DE CINCIAS JURDICAS E ECONMICAS PROGRAMA DE PS-GRADUAO EM CINCIAS CONTBEIS

Livro: Anlise de Dados (FVERO et al. 2009)


Captulo 12:
Regresso logstica e Regresso logstica multinomial
Vitor Corra da Silva

Regresso logstica
A regresso logstica uma tcnica estatstica utilizada para descrever o comportamento entre uma varivel dependente binria e variveis independentes (explicativas) mtricas ou no. Y = Binria (dummy) X = Mtricas ou no (tambm podem ser qualitativas)

Regresso logstica
Funo logstica:

1 = 1 + ()

Assume sempre valores entre 0 e 1.

Regresso logstica
A regresso logstica pode:

1 Prever a ocorrncia de eventos de interesse.

ou
2 Apresentar a probabilidade de sua ocorrncia.
Obs.: Diferentemente da regresso mltipla, a regresso logstica no pressupe a existncia de homogeneidade de varincias e normalidade dos resduos.

Regresso logstica
O mtodo utilizado para estimar os parmetros e

o de mxima verossimilhana (apresentado no apndice A). Em relao formula, temos que:

1 = 1 + ()
Onde =

= + 1 1 + 2 2 + +

chamado de: logit.

chamado de: chance de ocorrncia (odds)

Regresso logstica
Premissas da regresso logstica: 1. Relao linear entre o vetor das variveis

explicativas X e a varivel dependente Y.


2. Valor esperado dos resduos igual a 0 (zero). 3. Ausncia de Autocorrelao. 4. Ausncia de correlao entre os resduos e as

variveis explicativas.
5. Ausncia de multicolinearidade.

Regresso logstica
A

regresso logstica no normalidade dos resduos.

pressupe

OBS.: Mtodos para estimao dos parmetros:

Regresso mltipla
Mtodos dos mnimos quadrados

Regresso logstica
Mtodos de mxima verossimilhana

Regresso logstica
No entanto, de forma semelhante regresso

mltipla, a regresso logstica tambm possui perspectivas para observar o ajustamento do modelo.
Existe uma relao que diz respeito a duas vezes

o logaritmo de verossimilhana (-2LL):

Quanto menor o valor de -2LL melhor adequao do modelo!

Regresso logstica
Algumas medidas de ajustamento merecem

destaque:

1 Pseudo R.
2 Cox & Snele R.

3 Nagelkerk R.
4 Teste Qui-quadrado.

5 Hosmer-Lemeshow Goodness-of-fit test.

Regresso logstica
Para analisar o poder preditivo do modelo, usual a

utilizao de uma tabela levando em conta um ponto de corte chamado de c (classification cutoff).
O c (classification cutoff) o ponto que indica o

percentual de sucessos observados na amostra selecionada. Por exemplo, caso o sucesso esperado seja a existncia de um sinistro, numa amostra de 200 casos, em que foi observado a ocorrncia de 30 sinistros, o c (classification cutoff) igual 32/200 = 0,16 = 16%. Mas isso relativo!

Regresso logstica
Predito Observado Ocorrncia do sinistro No-ocorrncia do sinistro Total Ocorrncia do sinistro 25 5 30 No-ocorrncia do sinistro 7 163 170 Total 32 168 200

usual o clculo da sensitividade (verdadeiro positivo) e da especificidade (verdadeiro negativo):


Sensitividade: 25/32 = 78% (percentual de acertos dos casos de

ocorrncia).
Especificidade: 163/168 = 97% (percentual de acertos dos casos

de no-ocorrncia).

Regresso logstica
Se para cada c (classification cutoff) fosse calculado a

sensitividade e a especificidade, teramos a curva ROC (Receiver Operating Characteristic).


Quanto maior a rea abaixo

do ROC (curva 2) maior a capacidade do modelo discriminar o grupo dos sinistrados com os nosinistrados.
Quanto mais prximo o ROC

(curva 2) da reta diagonal (curva 3), pior o poder de discriminao do modelo.

Regresso logstica
Interpretao da rea abaixo da curva de ROC:

rea abaixo da curva de ROC Menor ou igual a 0,5 Entre 0,7 e 0,8 Maior que 0,8

Interpretao Baixa discriminao boa discriminao tima discriminao

Outra medida de qualidade do ajustamento o modelo

K-S (Kolmogorov-Smirnov):
K-S Menor que 30 De 30 a 50 Maior que 50 Interpretao Baixa discriminao boa discriminao tima discriminao

Regresso logstica

REGRESSO LOGSTICA: Um exemplo prtico

REGRESSO LOGSTICA: Um exemplo prtico


Arquivo: logistica.sav.

Var. dependente: pagamento Var. explicativas: estado

civil, idade e sexo Colocar nos lugares corretos.


O exemplo no contm valores faltando (missing), no

entanto, na p. 447 o autor d sugestes para esses casos.


Regresso logstica no SPSS: Analyze -> Regression ->

Binary Logistic.
Em Method, por ora coloque Enter. Explicado na p. 447.
Em Categorical, especifique as variveis categricas, neste

caso, estado civil e sexo.

REGRESSO LOGSTICA: Um exemplo prtico


Ainda em Categorical, escolha a referncia em Last ou

First, indicada pelo valor 0 (normalmente Last). Aps esta escolha, clique em Change.
Em Save, marque as opes Probabilities e Group

Membership.
No menu Options, marque Classification plots, Hosmer-

Lemeshow goodness-of-fit e CI for exp(B).


O ideal uma amostra equilibrada, 50% de ocorrncia do

evento de interesse, mas neste caso de 72%. Assim, o valor do Classification Cutoff dever ser 0,72. Mais informaes na p. 449.

REGRESSO LOGSTICA: Um exemplo prtico


Ainda na p. 449, os autores indicam o que fazer em

situaes complexas de amostras no equilibradas.


Como no houve alteraes desse aspecto na amostra,

por fim, clique em Continue e em Ok.


Nos prximos slides sero apresentados os Outputs.

Informaes sobre os processos realizados podem ser encontradas na pagina 447.

REGRESSO LOGSTICA: Um exemplo prtico

Categorizao da varivel dependente, em que 0 no ocorrncia do evento de interesse e 1 a ocorrncia.

REGRESSO LOGSTICA: Um exemplo prtico

Frequncias de indicaes de 0 e 1 para as variveis categricas, sexo e estado civil.

REGRESSO LOGSTICA: Um exemplo prtico

Apresenta o modelo com apenas o intercepto. Serve para se comear a suspeitar sobre qual a varivel mais relevante para o modelo atravs do Score. Neste caso, estado civil.

REGRESSO LOGSTICA: Um exemplo prtico

Utiliza-se do texto Qui-quadrado para observar se os coeficientes em conjuntos so estatisticamente significativos a um nvel de significncia de 95%. Como ilustrado na figura, sim!

REGRESSO LOGSTICA: Um exemplo prtico

Resultados do ajuste do modelo. A estatstica 2LL (1 da lista acima) no tem nenhum significado direto, apenas influncia o Qui-quadrado. As medidas Cox & Snell e Nagelkerk, so semelhantes ao R, porm, esta ltima prefervel devido ao valor mximo que pode assumir. Neste exemplo, o modelo proposto apresenta um poder explicativo de 44,3% .

REGRESSO LOGSTICA: Um exemplo prtico

Teste de Hosmer e Lemeshow. Comparao de eventos observados e esperados, com base na diviso de dados em 10 grupos analisando o n de ventos para cada categoria da varivel dependente. Este teste se refere ao (Quiquadrado) para avaliar se h diferenas significativas entre as frequncias esperadas e observadas em cada faixa. Veja o prximo slide:

REGRESSO LOGSTICA: Um exemplo prtico

O teste indica que no h diferena significativa, ao nvel de 5%, visto que o Sig. foi de 0,763 (ver slide anterior). Cabe ressaltar, porm, que o teste limitado, sendo seu resultados mais confiveis em grandes amostras.

REGRESSO LOGSTICA: Um exemplo prtico

Tabela de Classificao. Ilustra como o modelo classifica corretamente os eventos com base no ponto de corte c de 0,72. Vale ressaltar que os pontos de corte podem ser alterados pelo pesquisados conforme o interesse em relao aos erros tipo I e tipo II. Continuao no prximo slide.

REGRESSO LOGSTICA: Um exemplo prtico

O percentual de acerto dos clientes em atraso que continuariam inadimplentes de 72% (36/36+14). E o percentual de acerto dos que deixariam de ser inadimplentes de 76,9% (100/100+30). O percentual de acerto global do modelo de 75,6% (36+100/36+14+30+100)

REGRESSO LOGSTICA: Um exemplo prtico

Apresenta o resultado dos parmetros estimados (). Todos significativos a 5%. A estatstica de Wald semelhante ao teste t da regresso mltipla. OBS.: O livro no fala nada sobre o Exp(B) e o CI for Exp(B) O que so? O que indicam?

REGRESSO LOGSTICA: Um exemplo prtico


No entendido: Na p. 453 o livro diz observe que o coeficiente dos indivduos casados de 0,116 (no seria 2,951?), o que significa que a probabilidade de ocorrncia do evento de interesse aumentada por um fator de 1,123 e relao aos solteiros (como ele achou isso?).

REGRESSO LOGSTICA: Um exemplo prtico


Os autores advertem que os coeficientes devem ter lgica, caso no possuam, pode ser problema de multicolinearidade, cabe ao pesquisador verificar tal fato! O problema de multicolinearidade ocorre quando variveis explicativas do modelo apresentam comportamentos semelhantes, ou seja, entre algumas delas pode existir correlao elevada. Na p. 359 os autores falam sobre o assunto e apresentam possveis formas de identificar a multicolinearidade, bem como suas possveis solues, como o mtodo Stepwise, apresentado na p. 365.

REGRESSO LOGSTICA: Um exemplo prtico

No Data View do SPSS aparecero a probabilidade de ocorrncia de cada uma das observaes e tambm a probabilidade de ocorrncia do evento de interesse pagamento para cada observao. Por exemplo, 0,58% e no pagamento para o caso da primeira observao.

REGRESSO LOGSTICA: Um exemplo prtico

Se esses valores de probabilidade calculados para cada uma das observaes for maior que o ponto de corte c (0,72%), ocorrer o evento de interesse (pagamento). Caso seja menor, como no caso da primeira observao, no ocorrer o evento de interesse (pagamento).

REGRESSO LOGSTICA: Um exemplo prtico

Grfico de distribuio de frequncia das probabilidades de ocorrncia do evento de interesse em relao aos pontos de corte, o que auxilia no estabelecimento de outros pontos de corte (p. 454).

REGRESSO LOGSTICA: Um exemplo prtico


Curva de ROC (Receiver Operating Characteristic): Analyse -> ROC curve.

Em Test Variable, inclua as probabilidades previstas (PRE_1) e em State Variable inclua a varivel dependente (pagamento).
Em Value of State Variable, digite 1, que representa o evento de interesse.

Marque as opes: ROC curve with diagonal reference line e Standard Error and confidence interval. S isso!

REGRESSO LOGSTICA: Um exemplo prtico


Curva de ROC (Receiver Operating Characteristic):

Como a rea abaixo da curva de 0,846, pode-se dizer que o poder de discriminao do modelo considerado excelente (ver slide 13 )

REGRESSO LOGSTICA: Um exemplo prtico


Curva de ROC (Receiver Operating Characteristic):

REGRESSO LOGSTICA: Um exemplo prtico


ATENO:
As premissas do modelo de regresso logstica apresentadas neste captulo 12 devem ser testadas seguindo a mesma lgica proposta no captulo 10 anlise de regresso, cujos testes no foram repetidos neste captulo 12. Destaca-se tambm que no exemplo apresentado foi utilizado o mtodo Enter, podendo ser utilizado outros mtodos, como o Foward Wald, onde o prprio SPSS seleciona as variveis relevantes.

Leverage (Hi) e Cook


Existem mtodos para diagnosticar a influncia relativa de cada observao da amostra do ajuste do modelo, esse mtodos so as medidas de distncia de Leverage (Hi) e Cook. Para acion-las, v no menu save da regresso logstica e marque as opes Cooks e Leverage Values. Quanto mais prximo de 0 (zero), melhor, pois h menor influncia nos parmetros por indivduo. Este mtodo de diagnstico no se aplica somente a regresso logstica, mas tambm a modelos de regresso linear simples e mltipla.

Leverage (Hi) e Cook


A distncia de Cook comumente utilizada para estimar a influncia de determinada observao em modelos de regresso. Um grfico de pontos Scatter/Dot pode ser elaborado com as distncias de Cook no eixo Y e o id (n da observao) no eixo X: Graphs -> Legacy Dialogs -> Scatter/Dot, depois clique em sample scatter e Define. Coloque o Analogof Cook no eixo Y e o id no eixo X. Na prtica, recomenda-se que observaes com distncia de Cook prximas de 1 ou maiores sejam eliminadas da amostra.

Leverage (Hi) e Cook

Ateno: Isso est na p. 456, porm no livro os autores no ensinam como fazer aparecer o n da observao.

Regresso logstica multinomial


A Reg. Log. Multinomial permite que a varivel categrica dependente apresente mais de duas categorias. Essas categorias podem ser nominal (ex.: preferncia por carro: GM, FIAT, BMW) ou ordinal (ex.: no satisfeito, muito satisfeito ou no satisfeito). A Reg. Log. Multinomial ordinal como do exemplo acime (no satisfeito, muito satisfeito ou no satisfeito) no foi abordada no livro. Na Reg. Log. Multinomial, uma das categorias da varivel dependente dever ser escolhida como referncia. A escolha pode ser arbitrria ou no, dependendo do interesse. Isso no altera o modelo, apenas a forma de interpretao.

Regresso logstica multinomial


Exemplo da funo logit, agora com trs categorias (0,1 e 2) e com suposio de que a referncia seja 0 (zero): ( = 1 = = = + ( = 0 ( = 2 = = = + ( = 0 Ou seja, agora a probabilidade do modelo apresentada com duas expresses, em que se calcula as probabilidade de ocorrncia de fenmenos em relao a um fenmeno de referncia.

Regresso logstica multinomial

Regresso logstica multinomial: Um exemplo prtico

Reg. Log. Multinomial: Um exemplo prtico


No exemplo, quer-se comparar o perfil dos clientes que

esto dispostos a comprar um carro (a vista ou financiado), com o perfil dos que no esto dispostos a comprar.
Analyze -> Regression -> Multinomial Logistic

Em Dependent Variable coloque Y. Em Reference

Category, coloque a categoria de referncia: Custom e digite 0 (zero).

Reg. Log. Multinomial: Um exemplo prtico


Em Factor(s) deve-se colocar as variveis categricas:

sexo e classe social.


Em Covariate(s) deve-se colocar variveis mtricas:

dif_ano.
No exemplo no h interaes entre variveis, mas se

assim desejar, v em Model e inclua a opo (o livro no disse como!).

Reg. Log. Multinomial: Um exemplo prtico


Em Statistics, marque

as opes conforme a imagem:

Reg. Log. Multinomial: Um exemplo prtico


No menu Save,

marque as opes conforme a imagem:

Por fim, clique em OK.

Reg. Log. Multinomial: Um exemplo prtico

AIC (Akaike Information Criterion) e BIC (Bayesian Information

Criterion), so indicadores utilizados na comparao de modelos. Como no exemplo no foram testados outros modelos e nem feito interaes entre variveis, no possvel fazer comparaes entre modelos (p. 460) (e se fosse? Como fica isso? O livro no explica!).

Reg. Log. Multinomial: Um exemplo prtico

Informaes acerca do Pseudo R. O poder explicativo do

modelo apenas modesto, com um Nagelkerke R de 40,4%.

Reg. Log. Multinomial: Um exemplo prtico

Parmetros estimados. Informaes sobre essa imagem nos

dois prximos slides!

Reg. Log. Multinomial: Um exemplo prtico


Quando comparado os clientes que no trocariam o carro (Y =

0) com os clientes que trocariam e pagariam vista (Y = 1), percebemos que no h um coeficiente das variveis significativo.
No entanto, quando comparado os clientes que no trocariam

o carro (Y = 0) com os clientes que trocariam por financiamento (Y = 2), percebemos que todas os coeficientes das variveis so significativos, exceto o coeficiente linear .
O pesquisador deve julgar portanto se vale pena manter as

mesmas categorias da varivel dependente (Y).

Reg. Log. Multinomial: Um exemplo prtico


Vale pena manter as mesmas categorias da varivel

dependente (Y)? Se considerar que sim, os valores dos coeficientes angulares devem ser mantidos, se no, deve-se excluir a categoria 1 (comprariam vista) e fazer um novo teste, neste caso, Regresso Binria (CERTO?).
Segundo os autores, talvez seja melhor excluir a categoria 1

(comprariam vista) e elaborar o teste novamente.


Para fins didticos, manteve-se a categoria e prosseguiu-se

com a anlise.

Reg. Log. Multinomial: Um exemplo prtico

As probabilidades de Y = 0, Y = 1 e Y = 2 foram salvas na base

de dados do SPSS, conforme ilustra a imagem!

Reg. Log. Multinomial: Um exemplo prtico

EST1_1: Probabilidade do indivduo pertencer ao primeiro grupo (Y = 0). EST2_1: Probabilidade do indivduo pertencer ao segundo grupo (Y = 1). EST3_1: Probabilidade do indivduo pertencer ao terceiro grupo (Y = 2). PRE_1: Indica a qual grupo realmente deve pertencer o indivduo (0, 1 ou 2). Ser

indicado pelo maior valor entre EST1_1, EST2_1 e EST3_1.


PCP_1: Indica a probabilidade prevista para o indivduo. Deve ser comparada com

os valores de EST1_1, EST2_1 e EST3_1 para observar o que PRE_1 j indica.


ACP_1: Indica a probabilidade observada. Anlise semelhante PCP_1. OBS.: EST1_1, EST2_1 e EST3_1 so chamados de taxas de risco.

Reg. Log. Multinomial: Um exemplo prtico


O ltimo slide faz uma anlise que aborda as comparaes

entre previstos e observados. Segue a sada do SPSS:

Essa imagem ilustra o grau de acerto para cada categoria e

tambm a performance geral, que de 63,3%.

Regresso Logstica

Relao com outras teorias

Relao com outras teorias


A

Regresso Logstica utilizada para prever o comportamento de uma varivel categrica binria, indicando, inclusive, a probabilidade de ocorrncia de um evento de interesse. outras tcnicas tambm almejam prever o comportamento de variveis categorias: A Anlise discriminante (captulo 11) e a Anlise de sobrevivncia ou Modelo de Riscos proporcionais (captulo 15).

Duas

Relao com outras teorias


Embora a Anlise discriminante seja uma tcnica robusta,

ela necessita de muitas premissas, tornando a sua utilizao prtica relativamente limitada, comparando-a com a Regresso Logstica.
A Anlise de sobrevivncia diferencia-se da Regresso

Logstica por considerar o tempo para a ocorrncia do evento de interesse.


Vale destacar que podem ocorrer situaes em que as trs

tcnicas sero utilizveis, cabendo ao pesquisador analisar qual modelo melhor retratar a realidade subjacente.

Você também pode gostar