Você está na página 1de 60

UNIVERSIDADE FEDERAL FLUMINENSE

Programa de Mestrado e Doutorado em Engenharia de Produção

Disciplina: Estatística Multivariada

Aula: Regressão Logística Binária

Professor: Valdecy Pereira, D. Sc.


email: valdecy.pereira@gmail.com
2015-2
Agenda

1. Definição

2. Cálculo

3. Adequação do Modelo

4. Interpretação

5. SPSS

6. Referências

2
MVDA

Aula 01) Introdução a MVDA e Revisão de Estatística.


Aula 02) Escalas de Mensuração e Confiabilidade.
Aula 03) Análise Fatorial Exploratória.
Aula 04) Escalonamento Multidimensional.
Aula 05) Análise de Correspondência.
Aula 06) Análise Discriminante.
Aula 07) Regressão Linear Múltipla.
Aula 08) Regressão Logística Binária.
Aula 09) Regressão Logística Multinomial.
Aula 10) Análise Fatorial Confirmatória.
MVDA - Regressão Logística
Uma técnica de regressão que possui uma variável dependente não métrica
(dicotômica ou politômica), e variáveis independentes métricas ou dicotômicas é
conhecida como regressão logística, apresentando a seguinte formulação:

𝑌𝑖 ∈ 0; 1

𝑝𝑖
𝑍𝑖 = 𝑙𝑙 = 𝐵0 + 𝐵1 𝑋1𝑖 + ⋯ + 𝐵𝑘 𝑋𝑘𝑘
1 − 𝑝𝑖
Onde:
𝑖= Cada caso de uma Amostra de Tamanho 𝑛;
𝑌𝑖 = Variável Dependente Dicotômica (Ocorrência = 1 e Não-Ocorrência = 0);
𝑍𝑖 = Logito;
𝑝𝑖 = Probabilidade de Ocorrência [𝜇(𝑌) = 𝑝𝑖 e 𝜎 2 (𝑌) = 𝑝𝑖 × (1 − 𝑝𝑖 )];
1 − 𝑝𝑖 = Probabilidade de não Ocorrência;
𝐵0 = Constante;
𝐵𝑘 = Coeficientes de Regressão;
𝑋𝑘𝑖 = Variável Independente 𝑘 (Preditor 𝑘) métrica ou dicotômicas.
3
MVDA - Regressão Logística
O logito, que é uma variável contínua, é calculado como o
logaritmo natural da chance. A chance é a razão entre a
ocorrência e a não-ocorrência. Por exemplo em uma chance 3:1
pode-se afirmar que a cada 4 eventos, 3 são ocorrências e 1 é
de não ocorrência.

𝑝𝑖
𝑙𝑙 = 𝑍𝑖
1 − 𝑝𝑖

𝑝𝑖 𝑍𝑖
=𝑒
1 − 𝑝𝑖

𝑐𝑐𝑐𝑐𝑐𝑐𝑌𝑖=1 = 𝑒 𝑍𝑖
MVDA - Regressão Logística
A saída de um modelo de regressão logística é a probabilidade
de um caso (𝑖) pertencer a um grupo de ocorrência (𝑌𝑖 = 1)ou a
um grupo de não-ocorrência (𝑌𝑖 = 0).

𝑝𝑖 𝑍𝑖
=𝑒
1 − 𝑝𝑖

𝑒 𝑍𝑖 1
𝑝𝑖 = =
1 + 𝑒 𝑍𝑖 1 + 𝑒− 𝐵0 +𝐵1 𝑋1𝑖 +⋯+ 𝐵𝑘 𝑋𝑘𝑘

1 1
1 − 𝑝𝑖 = 𝑍𝑖
= 𝐵0 +𝐵1 𝑋1𝑖 +⋯+ 𝐵𝑘 𝑋𝑘𝑘
1+𝑒 1+𝑒
MVDA - Regressão Logística
Para que se possa modelar corretamente um conjunto de
dados em que a variável de resposta é não-métrica, não
se pode utilzar a regressão linear múltipla porque como
os resultados são discretos, cada caso vai possuir
diferentes variações em relação aos resíduos causando
uma violação da premissa de homocedasticidade. Essa
violação é gravíssima e invalida os resultados do modelo
de regressão linear múltiplo.
Porém quando as variáveis não satisfazem as suposições
de normalidade, linearidade, e homocedasticidade, a
regressão logística é a ferramenta de escolha, uma vez
que não faz estas suposições.
1

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

7
MVDA - Regressão Logística
Requerimentos:

• A variável dependente deve ser dicotômica (Regressão Logística


Binária) ou politômica (Regressão Logística Multinomial);

• As variáveis independentes devem ser métricas ou dicotômicas;

𝑛
• ≥ 10 → pelo menos 10 observações ( 𝑛 ) por preditor ( 𝑘 ).
𝑘 𝑛
Quanto maior a relação melhor;
𝑘

• Ausência de colinearidade;

• Atenção com outliers.


MVDA - Regressão Logística

Exemplo: Imagine que uma escola necessite saber se o aluno que vem de
carro com um responsável tem mais chances de chegar atrasado (𝑌𝑖 = 1) ou
não (𝑌𝑖 = 0) nas aulas.
Para isso uma amostra de 100 alunos com essa característica foi coletada. Os
dados além de informar se o aluno chegou atrasado ou não, possui as
seguintes informações:

• Distância percorrida no trajeto mais comum. V𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑒𝑒 𝑘𝑘;


• Quantidades de semáforos no trajeto mais comum. 𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑎;
• Período dia em que o mais comum trajeto foi percorrido.
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐: 𝑀𝑀𝑀𝑀𝑀 𝑜𝑜 𝑇𝑎𝑎𝑎𝑎 (𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟);
• Perfil do responsável ao volante.
𝑉𝑉𝑉𝑉á𝑣𝑣𝑣 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐: 𝐶𝐶𝐶𝐶𝐶 (𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟), 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑜𝑜 𝐴𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔.
9
MVDA - Regressão Logística

Y (Atrasado?)
Id Estudante Distância (X1) Semáforos (X2) Período (X3) Perfil (X4)
Sim = 1; Não = 0
1 Gabriela 0 12.5 7 Manhã Calmo
2 Patrícia 0 13.3 10 Manhã Calmo
3 Gustavo 0 13.4 8 Manhã Agressivo
4 Letícia 0 23.5 7 Manhã Calmo
5 Luiz Ovídio 0 9.5 8 Manhã Calmo
6 Leonor 0 13.5 10 Manhã Calmo
7 Dalila 0 13.5 10 Manhã Calmo
8 Antônio 0 15.4 10 Manhã Calmo
9 Júlia 0 14.7 10 Manhã Calmo
10 Mariana 0 14.7 10 Manhã Calmo

34 Cintia 0 11.5 10 Tarde Calmo

99 Leandro 1 14.2 10 Manhã Moderado
100 Estela 1 1 13 Manhã Calmo

10
MVDA - Regressão Logística

Y (Atrasado?)
Id Estudante Distância (X1) Semáforos (X2) Período (X3) Perfil A (X4) Perfil B (X5)
Sim = 1; Não = 0
1 Gabriela 0 12.5 7 1 0 0
2 Patrícia 0 13.3 10 1 0 0
3 Gustavo 0 13.4 8 1 1 0
4 Letícia 0 23.5 7 1 0 0
5 Luiz Ovídio 0 9.5 8 1 0 0
6 Leonor 0 13.5 10 1 0 0
7 Dalila 0 13.5 10 1 0 0
8 Antônio 0 15.4 10 1 0 0
9 Júlia 0 14.7 10 1 0 0
10 Mariana 0 14.7 10 1 0 0

34 Cintia 0 11.5 10 0 0 0

99 Leandro 1 14.2 10 1 0 1
100 Estela 1 1 13 1 0 0

11
MVDA - Regressão Logística
A probabilidade de ocorrência de 𝑌𝑖 , é dada por:

𝑝(𝑌𝑖 ) = 𝑝𝑖 𝑌𝑖 × 1 − 𝑝𝑖 1−𝑌𝑖

Para uma amostra com 𝑛 casos, podemos definir a função de verossimilhança


(likelihood function – é um método estatístico utilizado para estimar os
coeficientes de regressão de um modelo, medindo a probabilidade de se
observar o conjunto de valores da variável dependente na amostra) como
sendo:
𝑛
𝑌𝑖 1−𝑌𝑖
𝐿 = � 𝑝𝑖 × 1 − 𝑝𝑖
𝑖=1

𝑛 𝑌𝑖 1−𝑌𝑖
𝑍𝑖
𝑒 1
𝐿=� 𝑍𝑖
× 𝑍𝑖
1+𝑒 1+𝑒
𝑖=1
12
MVDA - Regressão Logística
Na prática é mais conveniente se trabalhar com o logaritmo
natural da função de verossimilhança (log likelihood function)
e a sua estimação máxima.
𝑛
𝑒 𝑍𝑖 1
𝐿𝐿 = � 𝑌𝑖 ln + 1 − 𝑌𝑖 ln = 𝑚𝑚𝑚
1 + 𝑒 𝑍𝑖 1+𝑒 𝑍𝑖
𝑖=1

Podemos achar os valores dos coefeicientes de regressão


utilizando o Solver do MS Excel ou através do método de
Newton-Raphson.

13
14
Desmarcar!!!

15
MVDA - Regressão Logística

Newton-Raphson:

𝐵𝑚+1 = 𝐵𝑚 + 𝑋 ′ 𝑉𝑚 𝑋 −1 𝑋 ′ 𝑌 − 𝑃𝑚

𝐵𝑚 = Estimativa do passo anterior, onde 𝐵0 = 0; ∀𝑖


𝐵𝑚+1 = Estimativa mais aproximada, converge quando 𝐵𝑚+1 = 𝐵𝑚
𝑋= Matriz Design
𝑉𝑚 = Matriz Diagnonal cujo valores 𝑉𝑖𝑖 = 𝑝𝑖 × 1 − 𝑝𝑖
𝑌= Matriz Coluna da variável dependente
𝑃𝑚 = Matriz Coluna da ocorrência

16
MVDA - Regressão Logística

LLmáx -29.066
b0 -30.202
b1 0.220
b2 2.767
b3 -3.653
b4 1.346
b5 2.914

17
MVDA - Regressão Logística
Uma vez obtido os coeficientes de regressão, deve-se validar cada um deles.
Primeiramente precisamos determinar o erro padrão de cada 𝐵𝑖 . Matriz de
variância-covariância 𝑆:

𝑆 = 𝑋 ′ 𝑉𝑉 −1

A raíz quadrada da diagonal da Matriz 𝑆, fornece os valores do erro padrão de


cada 𝐵𝑖 . Com exceção de 𝐵0 , exclua preditores que possuam um erro padrão
maior do que 2, pois pode ser um indicador de multicolinearidade.

SEb
b0 9.981
b1 0.110
b2 0.922
b3 0.878
b4 0.748
b5 1.179
MVDA - Regressão Logística

Precisamos verificar se o valor de 𝐵𝑖 é verdadeiro ou não,


através da teste 𝑧 de Wald que testa a hipótese:
𝐻0 : 𝐵𝑖 = 0(𝑜 𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝐵𝑖 é 𝑖𝑖𝑖𝑖𝑖 𝑎 𝑧𝑧𝑧𝑧)
𝐻1 : 𝐵𝑖 ≠ 0(𝑜 𝑣𝑣𝑣𝑣𝑣 𝑑𝑑𝐵𝑖 é 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑑𝑑 𝑧𝑧𝑧𝑧)
𝐵𝑖
𝑊𝑡𝑡𝑡𝑡𝑡 =
𝑆𝑆𝐵𝑖
𝑊𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 𝑧𝛼/2
Rejeita-se a hipótese nula 𝐻0 se 𝑊𝑡𝑡𝑡𝑡𝑡 > 𝑊𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ou
𝑊𝑡𝑡𝑡𝑡𝑡 < −𝑊𝑐𝑐𝑐𝑐𝑐𝑐𝑐
MVDA - Regressão Logística
Então para 𝑊𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 𝑧𝛼/2 = 1.96, teremos:
𝐵0 −30.202
𝑊0 = = = −3.026 Rejeita-se a hipótese nula.
𝑆𝑆𝐵0 9.981

𝐵1 0.202
𝑊1 = = = 2.000 Rejeita-se a hipótese nula.
𝑆𝑆𝐵1 0.110

𝐵2 2.767
𝑊2 = = = 3.001 Rejeita-se a hipótese nula.
𝑆𝑆𝐵2 0.922

𝐵3 −3.653
𝑊3 = = = −4.161 Rejeita-se a hipótese nula.
𝑆𝑆𝐵3 0.878

𝐵4 1.346
𝑊4 = = = 1.799 Aceita-se a hipótese nula.
𝑆𝑆𝐵4 0.748

𝐵5 2.914
𝑊5 = = = 2.472 Rejeita-se a hipótese nula. 20
𝑆𝑆𝐵5 1.179
MVDA - Regressão Logística
Excluindo-se a variável preditora, teremos agora:

LLmáx -30.800 SEb


b0 -30.933 b0 10.636
b1 0.204 b1 0.101
b2 2.920 b2 1.011
b3 -3.776 b3 0.847
b5 2.459 b5 1.139

Nos casos em que se detecta mais de uma variável preditora


não significativa, deve-se excluir uma variável por vez e
refazer a análise. 21
MVDA - Regressão Logística
Então para 𝑊𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = 𝑧2.5% = 1.96, teremos:

𝐵0 −30.933
𝑊0 = = = −2.909 Rejeita-se a hipótese nula.
𝑆𝑆𝐵0 10.636

𝐵1 0.204
𝑊1 = = = 2.020 Rejeita-se a hipótese nula.
𝑆𝑆𝐵1 0.101

𝐵2 2.920
𝑊2 = = = 2.888 Rejeita-se a hipótese nula.
𝑆𝑆𝐵2 1.011

𝐵3 −3.776
𝑊3 = = = −4.458 Rejeita-se a hipótese nula.
𝑆𝑆𝐵3 0.847

𝐵5 2.459
𝑊5 = = = 2.159 Rejeita-se a hipótese nula.
𝑆𝑆𝐵5 1.139
22
MVDA - Regressão Logística

E o intervalo de confiança (1 − 𝛼) de 𝐵𝑖 é dado por:

𝐵𝑖 ± 𝑧𝛼/2 × 𝑆𝑆𝐵𝐵
MVDA - Regressão Logística

Então para um intervalo de confiança de 95% (𝑧 = 1.96), teremos:

𝐵0 ± 𝑧2.5% × 𝑆𝑆𝐵0 = [−51.782; −10.088]

𝐵1 ± 𝑧2.5% × 𝑆𝑆𝐵1 = [0.006; 0.402]

𝐵2 ± 𝑧2.5% × 𝑆𝑆𝐵2 = [0.938; 4.902]

𝐵3 ± 𝑧2.5% × 𝑆𝑆𝐵3 = [−5.436; −2.116]

𝐵5 ± 𝑧2.5% × 𝑆𝑆𝐵5 = [0.227; 4.691]


MVDA - Regressão Logística
Precisamos calcular a adequação do modelo em
relação aos dados. Para isso utilizamos o modelo nulo
( 𝐿𝐿0 ) e comparamos com o nosso modelo final
(𝐿𝐿𝑚𝑚𝑚 ) através do teste de razão de verossimilhança
(likelihood-ratio test). O modelo nulo é um modelo de
regressão logística, em não existem coeficientes de
regressão além do 𝐵0 . Teríamos então:
LL0 -67.686
b0 0.364
MVDA - Regressão Logística
O teste de razão de verossimilhança é calculado por:

χ2 𝑡𝑡𝑡𝑡𝑡 = −2 𝐿𝐿0 − 𝐿𝐿𝑚𝑚𝑚

χ2 𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = χ2 𝑘;𝛼
Onde:
χ2 𝑘;𝛼 = Teste Qui-Quadrado unilateral direito para 𝑘 preditores a um
determinado nível de significância 𝛼.
O teste também pode ser utilizado para se comparar outros modelos na
forma:

χ2 𝑡𝑡𝑡𝑡𝑡 = −2 𝐿𝐿𝑀𝑀𝑀𝑀𝑀𝑀 𝐹𝐹𝐹𝐹𝐹 − 𝐿𝐿𝑀𝑀𝑀𝑀𝑀𝑀𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴


MVDA - Regressão Logística

Tem-se seguinte hipótese para testar a adequação do


modelo:
𝐻0 : 𝑂 𝑚𝑚𝑚𝑚𝑚𝑚 𝑛𝑛𝑛 é 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎
𝐻1 : 𝑂 𝑚𝑚𝑚𝑚𝑚𝑚 é 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎

χ2 𝑡𝑡𝑡𝑡𝑡 = −2 𝐿𝐿0 − 𝐿𝐿𝑚𝑚𝑚

Rejeita-se a hipótese nula 𝐻0 se χ2 𝑡𝑡𝑡𝑡𝑡 > χ2 𝑘;𝛼


Tabela Qui-Quadrado Unilateral
α
G.L 10% 5% 1%
1 2.706 3.841 6.635
2 4.605 5.991 9.210
3 6.251 7.815 11.345
4 7.779 9.488 13.277
5 9.236 11.070 15.086
6 10.645 12.592 16.812
7 12.017 14.067 18.475
8 13.362 15.507 20.090
9 14.684 16.919 21.666
10 15.987 18.307 23.209
11 17.275 19.675 24.725
12 18.549 21.026 26.217
13 19.812 22.362 27.688
14 21.064 23.685 29.141
15 22.307 24.996 30.578
16 23.542 26.296 32.000
17 24.769 27.587 33.409
18 25.989 28.869 34.805
19 27.204 30.144 36.191
20 28.412 31.410 37.566
28
Tabela Qui-Quadrado Unilateral
α
G.L 10% 5% 1%
1 2.706 3.841 6.635
2 4.605 5.991 9.210
3 6.251 7.815 11.345
4 7.779 9.488 13.277
5 9.236 11.070 15.086
6 10.645 12.592 16.812
7 12.017 14.067 18.475
8 13.362 15.507 20.090
9 14.684 16.919 21.666
10 15.987 18.307 23.209
11 17.275 19.675 24.725
12 18.549 21.026 26.217
13 19.812 22.362 27.688
14 21.064 23.685 29.141
15 22.307 24.996 30.578
16 23.542 26.296 32.000
17 24.769 27.587 33.409
18 25.989 28.869 34.805
19 27.204 30.144 36.191
20 28.412 31.410 37.566
29
MVDA - Regressão Logística

Então:
χ2 𝑘;𝛼 = χ2 4;5% = 9.488

χ2 𝑡𝑡𝑡𝑡𝑡 = −2 𝐿𝐿0 − 𝐿𝐿𝑚𝑚𝑚

χ2 𝑡𝑡𝑡𝑡𝑡 = −2 −67.686 − −30.800 = 74.136

Rejeita-se a hipótese nula.


MVDA - Regressão Logística

NOTA: O teste de Hosmer-Lemeshow também pode


ser utilizado para se avalaiar o modelo. Nele deseja-se
aceitar a hipótese nula de que o modelo é adequado.
Porém não é um teste muito robusto e deve ser
utilizado apenas como apoio para a avaliação.

31
MVDA - Regressão Logística
Existem diversas medidas de associação destinadas a imitar a análise do 𝑟 2 , mas
nenhuma pode ser interpretada da mesma maneira e sim como uma uma variação
aproximada no resultado explicado pelo modelo. Essas medidas são conhecidas como
𝑝𝑝𝑝𝑝𝑝𝑝 𝑟 2 , e valores ente 0.2 e 0.4 são considerados altamente satisfatórios.

2
−2𝐿𝐿0 + 2𝐿𝐿𝑚𝑚𝑚
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 )𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 =
−2𝐿𝐿0

2
𝐿𝐿0
2
𝑒 𝑁
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 )𝐶𝐶𝐶 & 𝑆𝑆𝑆𝑆𝑆 = 1 − 𝐿𝐿
𝑒 𝑚𝑚𝑚

2
𝑁
𝑒 𝐿𝐿0
1 − 𝐿𝐿𝑚𝑚𝑚
𝑒
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 2 )𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 = 2
1− 𝐿𝐿
𝑒 0 𝑁
MVDA - Regressão Logística

Então:
−2 × (−67.686) + 2 × (−30.800)
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 2 )𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = = 0.545
−2 × (−67.686)

2
−67.686 100
𝑒
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 2 )𝐶𝐶𝐶 & 𝑆𝑆𝑆𝑆𝑆 = 1 − = 0.522
𝑒 −30.800

2
−67.686 100
𝑒
1−
𝑒 −30.800
𝑝𝑝𝑝𝑝𝑝𝑝(𝑟 2 )𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 = 2 = 0.703
1− 𝑒 −67.686 100

33
MVDA - Regressão Logística

𝑍𝑖 = −30.933 + 0.204𝑋1𝑖 + 2.620𝑋2𝑖 − 3.776𝑋3𝑖 + 2.459𝑋5𝑖

1
𝑝𝑖 =
1 + 𝑒 −30.933+0.204𝑋1𝑖 +2.620𝑋2𝑖−3.776𝑋3𝑖+2.459𝑋5𝑖

𝑒 𝐵𝑖 ; 𝑖 ≠ 0 → Média de alteração na chance de se chegar atrasado (𝑌 = 0)


quando a variável se modifica em uma unidade ou categoria, mantidas as
demais condições constantes.

34
MVDA - Regressão Logística

𝑒 𝐵1 = 𝑒 0.204 = 1.226 ∴ Chance de se chegar atrasado aumenta em média 22.6% se a


distância aumentar em 1𝑘𝑘.

𝑒 𝐵2 = 𝑒 2.620 = 13.736 ∴ Chance de se chegar atrasado aumenta em média


1273.6% se o número de semáforos aumentar em 1 unidade.

𝑒 𝐵3 = 𝑒 −3.776 = 0.023 ∴ Chance de se chegar atrasado diminui em média 97.7% se o


trajeto for percorrido pela manhã (a categoria de referência é o período da tarde).

𝑒 𝐵5 = 𝑒 2.459 = 11.693 ∴ Chance de se chegar atrasado aumenta em média 1069.3%


se o perfil do motorista ao volante aumentar em 1 categoria (de calmo para agressivo,
já que o perfil moderado não é significante ao nível de 5%).

35
MVDA - Regressão Logística

Cutoff de 0.5
Y (Atrasado?)
Id Estudante Probabilidade i Y(Previsto)
Sim = 1; Não = 0
1 Gabriela 0 8.01978E-06 0
2 Patrícia 0 0.037039567 0
3 Gustavo 0 0.000597068 0
4 Letícia 0 9.03594E-05 0
5 Luiz Ovídio 0 6.58771E-05 0
6 Leonor 0 0.038642641 0
7 Dalila 0 0.038642641 0
8 Antônio 0 0.057559687 0
9 Júlia 0 0.049747133 0
10 Mariana 0 0.049747133 0

34 Cintia 0 0.499731557 0

99 Leandro 1 0.463704 0
100 Estela 1 0.911589482 1

36
MVDA - Regressão Logística
Análise de Sensibilidade – Tabela de Classificação:

TN FN PN
(True Negative) (False Negative) (Predicted Negative)
FP TP PP
(False Positive) (True Positive) (Predicted Positive)
ON OP
n = TN+FP+FN+TP
(Observed Negative) (Observed Positive)

𝑇𝑇 = Total de casos = 0 e previsões = 0;


𝑇𝑃 = Total de casos = 1 e previsões = 1;
𝐹𝑁 = Total de casos = 0 e previsões = 1; Erro Tipo II
𝐹𝐹 = Total de casos = 1 e previsões = 0; Erro Tipo I

𝑃𝑁 = 𝑇𝑇 + 𝐹𝐹;
𝑃𝑃 = 𝑇𝑇 + 𝐹𝐹;
𝑂𝑁 = 𝑇𝑇 + 𝐹𝐹;
37
𝑂𝑂 = 𝑇𝑇 + 𝐹𝐹;
MVDA - Regressão Logística
𝑇𝑇
• 𝑻𝑻𝑻 (True Positive Rate) = 𝑂𝑂
𝑇𝑁
• 𝑻𝑻𝑻 (True Negative Rate) = 𝑂𝑁
𝑇𝑇+𝑇𝑇
• 𝑨𝑨𝑨 (Acuracy) = 𝑛
; Acurácia do modelo, a quantidade total de previsões
corretas
𝐹𝑃
• 𝑭𝑭𝑭 (False Positive Rate) = 1 − 𝑇𝑇𝑇 ou 𝑂𝑁
𝑇𝑇
• 𝑷𝑷𝑷 (Positive Prediticed Value = Sensitivity) = 𝑃𝑃 ; Razão de acertos positivos
𝑇𝑁
• 𝑵𝑵𝑵 (Negative Prediticed Value = Specificity) = 𝑃𝑃 ; Razão de acertos negativos

Os valores da 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 e de 1 − 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 servem para plotar a curva


ROC (Receiver operating characteristic). Quanto mais afastada a curva em relação a
uma curva de referência de 450 melhor é o ajuste do modelo. Um curva muito
próxima a curva de referência demonstra que a capacidade do modelo para
discriminar entre a ocorrência e a não-ocorrência é devido ao acaso.

38
MVDA - Regressão Logística

TN = 30 FN = 11 PN = 41

FP = 3 TP = 56 PP = 59

ON = 33 OP =67 n = 100

TPR 83.58%
TNR 90.91%
ACC 86.00%
FPR 9.09%
PPV 94.92%
NPV 73.17%

39
MVDA - Regressão Logística

40
MVDA - Regressão Logística

SPSS - Regressão Logística Binária


42
43
44
45
46
47
MVDA - Regressão Logística Binária

SPSS - Regressão Logística Binária - Output


48
49
50
51
MVDA - Regressão Logística

SPSS – Curva ROC


Passo 1 – Faça a Regressão Logística e marque a opção
“PROBABILIDADES” dos Valores Previstos na caixa de diálogos “SALVAR”.

53
Assim a variável “PRE_1” será criada.

54
Passo 2 – Selecione a “CURVA ROC” em “ANALISAR”

55
Passo 3 – A variável dependente será a “VARIÁVEL DE ESTADO”, e o seu valor deve ser
ajustado para 𝟏. A variável “PRE_1” será a “VARIÁVEL DE TESTE”. Marque as opções
“CURVA ROC”, “COM LINHA DE REFERÊNCIA DIAGONAL” e “ERRO PADRÃO E
INTERVALO DE CONFIANÇA”

56
57
Referências
BRUNI, A. L. SPSS Aplicado à Pesquisa Acadêmica. ATLAS, 2009.
CORRAR, L.J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada para Cursos de Administração,
Ciências Contábeis e Economia. ATLAS, 2009.
FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. Análise de Dados: Modelagem Multivariada
para Tomada de Decisões. CAMPUS, 2009.
HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise Multivariada de
Dados. BOOKMAN, 2009.
LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. CENGAGE Learning,
2011.
LEVINE, D. M.; STEPHAN, D. F.; KREHBIEL, T. C.; BERENSON, M. L. Estatística - Teoria e Aplicações
- Usando Microsoft Excel. LTC, 2012.

Você também pode gostar