AAI - Aula05 - Logit e Probit

Mestrado Profissional em Administração
Modelos de Resposta Binária (Discreta)

Logit e Probit
1
Modelo de Probabilidade Linear
Qu and o a var iá ve l de pen de nte é b i nár ia , MQO é ch ama do de
m o d e l o d e p r o b abilid a de l i n e a r.
𝑦𝑖 = 𝑃 𝑦𝑖 = 1|𝑋 = 𝛽0 + ෍ 𝛽𝑗 𝑥𝑗𝑖 + 𝜀𝑖 (1)

𝑗=1
C o mo Po d e mo s in te r p reter 𝛽𝑗 ? Se j a 𝐸 𝜀 | 𝑋 = 0, e n tã o
∆𝐸 𝑌 |𝑋 ∆𝑃𝑟 𝑌 = 1|𝑋
𝛽𝑗 = =
∆𝑥𝑗 ∆𝑥𝑗
Limitações MPL
Su pos iç ão de Norma lida de : O term o d e erro é i .i .d ., com
d i s tr ibu i ção n o r mal c o m m e d i a z e r o e va r i â n ci a σ ²
𝜀 ~ 𝑁 0; 𝜎 2
C omo os erros s ão com p le tares à un i da de (pro ba b i l i dad e ), a

d i s tr ibu i ção e s ta rá ma is p r ó xi m a à d i s tr i b ui çã o Be r n o ul l i
Limitações MPL
H o m o ce da sticid ad e : A va r i â n ci a d o te r m o d e e r r o 𝜀 é a m e s m a
p a r a to d o s o s in d ivíd u os.
𝑉𝑎𝑟 𝜀 |𝑋 = 𝜎 2
C o m o a d is tr ibu ição d o e r r o s e a p r o xi m a d e u m a d i s tr i b ui çã o
Be r n o ul l i , s u a va r iâ n ci a d e p e n d e d e X, p o r i s s o , é
h e te ro ced astico .
𝑉𝑎𝑟 𝜀 = 𝑃 𝑦𝑖 = 1|𝑋 1 − 𝑃 𝑦𝑖 = 1|𝑋

Limitações MPL
Po r d e fi n iç ão , a p r o b a bi l i d ad e s e m p re é d e fi n i d a n o i n te r val o
[0 ;1 ].
0 ≤ 𝐸 𝑌|𝑋 ≤ 1
Ma s , a e s tima ção p o r M Q O n ã o g a r a n te e s ta c o n d i çã o
◦ Pr e vis õ es p o d e m e s ta r fo r a d o i n te r val o d e p r o b a bi l i d ad e
[0 ;1 ];
◦ O e fe i to ma r g i n al Es tima do n o MPL é c o n s tante, ma s
s a b e -se q u e 𝑝 = 𝐸 𝑌 | 𝑋 c r esce l i n e a r m ente c o m 𝑋 . N ã o é
ve r o s símil, p o r e xe m p l o , p r o b abi l i d a de d e te r fi l h o s c r e sce
l i n e a r mente c o m o n ú m e ro d e fi l h o s .
Limitações MPL
U m vi é s n e g a tivo d o c o e fi ci e nte d e d e te rmi n açã o R ² .
O s va l o r e s o b s e rvad os s ã o 1 o u 0 , e n q u a n to a s p r e vi s ões
d e ve m s i tu a r -se e n tr e 0 e 1 : [0 ; 1 ].
C o m p a rand o o va lo r p r e vi s to c o m a s va r i á ve i s o b s e rvad as, a

q u a l i d a d e d o a ju s te a va l i a d a p e l o R ² é s i s te m ati c ame nte b a i xa .
Mas…
Em a l g u ma s s itu a ç ões p o d e s e r ú ti l e s ti m a r o M PL ,
p r in c ipa lmen te e m s i tu a ç ões e m q u e h á e n d o g en eida de d a
va r i á ve l b in á r ia .
O p r i m e i ro e s tá g io p o d e s e r e s ti m ad o p o r M PL .
8
Exemplo
Evans, Farrelly and Montgomery (AER, 1999)
1) Proibição de fumar no local de trabalho

reduz a probabilidade de fumar?
2) Trabalhadores com bons habitos de

saúde tem maior probabilidade de
trabalhar em empresas que apresentam
restrições ao fumo?
9
Descritiva - Fumante
. inspect smoker
smoker: is current smoking Number of Observations
Total Integers Nonintegers

# Negative - - -
# Zero 12,167 12,167 -
# Positive 4,091 4,091 -
#
# # Total 16,258 16,258 -
# # Missing -
0 1 16,258
(2 unique values)
MPL: Evans, Farrelly and Montgomery (AER, 1999)
. reg smoker age incomel male black hispanic hsgrad somecol college worka, robust
Linear regression Number of obs = 16,258

F(9, 16248) = 99.26
Prob > F = 0.0000
R-squared = 0.0488
Root MSE = .42336
Robust
smoker Coef. Std. Err. t P>|t| [95% Conf. Interval]
age -.0004776 .0002806 -1.70 0.089 -.0010276 .0000725

incomel -.0287361 .0047823 -6.01 0.000 -.03811 -.0193621
male .0168615 .0069542 2.42 0.015 .0032305 .0304926
black -.0356723 .0110203 -3.24 0.001 -.0572732 -.0140714
hispanic -.070582 .0136691 -5.16 0.000 -.097375 -.043789
hsgrad -.0661429 .0162279 -4.08 0.000 -.0979514 -.0343345
somecol -.1312175 .0164726 -7.97 0.000 -.1635056 -.0989293
college -.2406109 .0162568 -14.80 0.000 -.272476 -.2087459
worka -.066076 .0074879 -8.82 0.000 -.080753 -.051399
_cons .7530714 .0494255 15.24 0.000 .6561919 .8499509
Interpretar: Aqui a probabilidade vai de 0 a 1.... A estimativa é o efeito marginal

na probabilidade. Como varia a probabilidade?
Se multiplicarmos por 100 é uma variação em pontos percentuais.
Análise MPL
sort smoker_mpl:
2 observações com valores negativos
Heterocedasticidade
. imtest,white
White's test for Ho: homoskedasticity

Erros com against Ha: unrestricted heteroskedasticity
dist. Normal? chi2(44)

Prob > chi2
=
=
1083.85
0.0000
Cameron & Trivedi's decomposition of IM-test
Source chi2 df p
Heteroskedasticity 1083.85 44 0.0000

Skewness 8863.86 9 0.0000
Kurtosis 675.33 1 0.0000
Total 10623.04 54 0.0000

Modelos Probit e Logit
U ma a borda gem a l tern ativa, à que la vista an ter iormente em u m
mode l o de r egress ão usua l , é ass um ir que temos um mod e lo
d e r e g r essã o .
𝑦𝑖∗ = 𝛽0 + ෍ 𝛽𝑗 𝑥𝑗𝑖 + 𝜀𝑖 (2)

𝑗=1
Onde a variável resposta não é diretamente observada. Isso é comumente

chamado de variável “latente”.
12
O q u e o b s e rvamos é u m a va r i á ve l d u mmy , y i , d e fi n i d a p o r
1, 𝑠𝑒 𝑦𝑖∗ > 0
𝑦𝑖 = ቊ
0, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 (3)
13
A d ifere nça ma is comum en tre o M PL dad o em (1) e o mod e lo
d ado por (2) es tá no fato de qu e no pr im e iro a na li s amos a
var iá ve l d ico tômica co mo e la é, e nqu an to em ( 2) ass um i mos a
e xistê nc ia d e uma var iá ve l la ten te su ben te nd i da para a q ua l
o b s e rvam os u ma r e a liz açã o e m p íri ca d i c o tô mi ca .
Por e xemp l o, uma var iá ve l du mmy o bser vada pod e es tar

l i g ad a a o fa to de u ma p essoa estar ou nã o e mpre gad a . Ass im,
𝑦 𝑖∗ ser ia defin ida co mo a “pr ope nsã o ou h ab i li d ad e para ach ar
e mp r eg os” .
14
Modelos Logit e Probit
De (2) e (3) temos
 
( )
k
Pi = P( yi = 1) = P yi  0 = P  0 +   j x ji +  i  0  =
*
 j =1 
  k 
= P  i  −  0 +   j x ji  =
  j =1 
Distribuição acumulada
  k 
= 1 − F −   0 +   j x ji  (3)
  j =1 
15
Em q u e
F ( •) – é u ma fu n ç ã o d e d i s tr i bu i ção a c u m u l ada d e .
Se a d is tr i bu i ção d e  fo r s imé tric a , te mo s
1 − F (− z ) = F ( z )
Podemos, então, escrever
 k 
Pi = F   0 +   j x ji  (4)
 j =1 
Algumas distribuições simétricas: normal, t-Student, logística...
16
C omo os yi o bserva dos s ão ape nas re a l izaç ões de um
pr ocesso Ber nou lli c om pro bab i l i d ades d adas p e la e xpr essão
a nter ior e var ian do de e ven to em e vento (d epe nd endo d o x i j ) ,
p o d e m os e s c rever a fu n ç ão d e ve r o ssi m i l ha nça c o m o
L =  Pi  (1 − Pi ) (5)
yi =1 yi = 0
17
Modelo Logit
O tip o de mo de lo a va l i ad o de pen derá do pr essu posto
es ta be l ec id o s obre o termo de erro 𝜀 . Se a d is tri b u ição
ac umu l ad a d e 𝜀 for logís tic a, temos o qu e é co nhec i do co mo
mo d e l o l o g it . N e s s e c a s o,
 Pi  k
ln   =  0 +   j x ji
1 − Pi  j =1
O lado esquerdo do modelo logístico é chamado de log-razão de

probabilidades. Assim, a log-razão de probabilidades é uma função
linear.
18
Regressão logística
Supondo que temos 2 variáveis explicativas, temos que
 Pi 
ln   =  0 + 1 x1i +  2 x2i
1 − Pi 
Logo,
 0 + 1 x1i +  2 x2 i
e 1
Pi = P(yi = 1 ) =  0 + 1 x1i +  2 x2 i
=
1+ e 1 + e −( 0 + 1x1i +  2 x2 i )
Modelo Logit
Assim,
 Pi 
ln   =  0 + 1 x1i +  2 x2i : Logit
1 − Pi 
Ainda,
Pi  0 + 1 x1i +  2 x2 i
=e : Chance (odds)
1 - Pi
Transformação logística
a) A probabilidade varia entre 0 e 1

b) A odds ratio (razão de chance) varia entre 0 e + ∞
c) O log da odds varia entre - ∞ e + ∞.
Observe que a distribuição do log das probabilidades é simétrica.

Probabilidade, odds (chance) e logit
p(y=1)
P(y=1) Odds Ln (odds)
1-p(y=1)
0.01 1/99 0,01 -4,60
0.03 3/97 0,03 -3,48
0.05 5/95 0,05 -2,94
Excel
0.20 20/80 0,25 -1,39
0.30 30/70 0,43 -0,85
0.40 40/60 0,67 -0,41
0.50 50/50 1,00 0,00
0.60 60/40 1,50 0,41
0.70 70/30 2,33 0,85
0.80 80/20 4,00 1,39
0.95 95/5 19,0 2,94
0.97 97/3 32,3 3,48
0.99 99/1 99,0 4,60
Distribuição Logística Acumulada
1
tende a 1 quando x aumenta
0,9
Forma de S
0,8
0,7
0,6
0,5 
0,4
0,3
Caso
0,2
crescente
0,1
1>0
0
-6 -4 -2 0 2 4 6
tende a 0 quando x diminui

tende a 1 quando x diminui
1
0.9
Forma de S
0.8
invertido
0.7
0.6
0.5
Caso 0.4
decrescente
<0
0.3
0.2 tende a 0 quando x

0.1 aumenta
0
-6 -4 -2 0 2 4 6
1 = 1 e 0 = -1, 0 e 1 1
0,9
0,8
0,7
0,6
a=0 =1
0,5 a=−1 =1
a=1 =1
0,4
0,3
0,2
0,1
0
-4 -3 -2 -1 0 1 2 3 4
Caso x1i = 0 e x2i = 0, temos que
Pi
=e β0
1-Pi
chance de uma pessoa com x1 = 0 e x2 = 0 ter a característica de

interesse em relação a não ter.
Temos que
P( X 1 = x1 + 1, X 2 = x2 )
1-P( X 1 = x1 + 1, X 2 = x2 )
e =
β1
P( X 1 = x1 , X 2 = x2 )
1-P( X 1 = x1 , X 2 = x2 )
É a razão de chances (odds ratio).
Qual a chance de uma pessoa ter a característica em relação a não ter,

quando há uma variação em x1 de uma unidade, mantendo x2 fixa?
28
Modelo Logit


Ajuste do modelo
. logit smoker age incomel male black hispanic hsgrad somecol college worka, robust
Iteration 0: log pseudolikelihood = -9171.443

Iteration 1: log pseudolikelihood = -8770.6512 Interpretação para a estimativa:
Iteration 4: log pseudolikelihood = -8760.9112 𝛽෠ > 0 - aumento de prob. de
Logistic regression Number of obs = 16,258 sucesso;
Wald chi2(9) = 747.79
Log pseudolikelihood = -8760.9112

Prob > chi2
Pseudo R2
=
=
0.0000
0.0448 se 𝛽෠ < 0, diminui a prob. de
sucesso.
Robust
smoker Coef. Std. Err. z P>|z| [95% Conf. Interval]
age -.0026236 .0014986 -1.75 0.080 -.0055607 .0003135

incomel -.1518663 .0243847 -6.23 0.000 -.1996594 -.1040732
male .0942472 .0390201 2.42 0.016 .0177693 .1707251
black -.196468 .061475 -3.20 0.001 -.3169568 -.0759791
hispanic -.4024453 .0836877 -4.81 0.000 -.5664701 -.2384205
hsgrad -.2906189 .0702713 -4.14 0.000 -.4283481 -.1528898
somecol -.6092455 .0735821 -8.28 0.000 -.7534638 -.4650272
college -1.325203 .0784672 -16.89 0.000 -1.478996 -1.17141
worka -.3508271 .038949 -9.01 0.000 -.4271658 -.2744884
_cons 1.467936 .2491683 5.89 0.000 .9795747 1.956296
Interpretação para a estimativa: sinal positivo implica que variação de x aumenta

a probabilidade de ser 1 (fumante).
Ajuste do modelo
. logit smoker c.age##c.age incomel male black hispanic hsgrad somecol college worka, or
Iteration 0: log likelihood = -9171.443

Logistic regression Number of obs = 16258

LR chi2(10) = 988.43
Prob > chi2 = 0.0000
Log likelihood = -8677.2259 Pseudo R2 = 0.0539
smoker Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
age 1.129961 .0115613 11.94 0.000 1.107527 1.15285
c.age#c.age .9985056 .0001221 -12.23 0.000 .9982663 .998745
incomel .7810459 .0207195 -9.32 0.000 .741474 .8227296

male 1.108155 .0434905 2.62 0.009 1.026111 1.196759
black .7781586 .0470162 -4.15 0.000 .6912557 .8759868
hispanic .6575636 .0545866 -5.05 0.000 .558826 .7737467
hsgrad .7149941 .0512333 -4.68 0.000 .6213111 .8228029
somecol .5207666 .0389019 -8.73 0.000 .4498393 .6028773
college .2462833 .0194655 -17.73 0.000 .2109397 .2875487
worka .7023574 .0275168 -9.02 0.000 .6504441 .758414
_cons 1.136646 .3204704 0.45 0.650 .6540846 1.975224
Interpretação para a odds ratio (razão de chance): se for maior que 1, a

probabilidade de ser 1 (em relação a probabilidade de ser zero) aumenta com
variação de x.
Análise Logit
Estimativas de probabilidade entre 0 e 1
Distribuição ainda com problemas, mas

não apresenta buracos.
Interpretação – Efeitos marginais
. margins, dydx(*) atmeans
Conditional marginal effects Number of obs = 16,258

Model VCE : Robust
Expression : Pr(smoker), predict()

dy/dx w.r.t. : age incomel male black hispanic hsgrad somecol college worka
at : age = 38.54742 (mean)
incomel = 10.42097 (mean)
male = .3947595 (mean)
black = .1119449 (mean)
hispanic = .0607086 (mean)
hsgrad = .3355271 (mean)
somecol = .2685447 (mean)
college = .3293763 (mean)
worka = .6851396 (mean)
Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
age -.000476 .0002717 -1.75 0.080 -.0010084 .0000565

incomel
male
-.0275518
.0170985
.0044256
.0070756
-6.23
2.42
0.000
0.016
-.0362257
.0032305
-.0188779
.0309664
O efeito marginal nos
black
hispanic
-.0356435
-.0730122
.0111385
.0151558
-3.20
-4.82
0.001
0.000
-.0574746
-.1027171
-.0138124
-.0433074
modelos Logit ou Probit
hsgrad -.0527245 .012745 -4.14 0.000 -.0777044 -.0277447
somecol -.1105302 .0133278 -8.29 0.000 -.1366523 -.0844082 não é constante como no
college -.2404203 .014005 -17.17 0.000 -.2678695 -.2129711
worka -.0636476 .0070548 -9.02 0.000 -.0774748 -.0498204 MPL!!!
Interpretação para o efeito marginal: variação em p.p na probabilidade de sucesso.

Interpretação – Efeitos Marginais
. margins, dydx(*)
Average marginal effects Number of obs = 16,258

Model VCE : Robust

dy/dx w.r.t. : age incomel male black hispanic hsgrad somecol college worka O efeito marginal nos
modelos Logit ou Probit
Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval] não é constante como no
age -.0004697 .000268 -1.75 0.080 -.000995 .0000557 MPL!!!
incomel -.0271875 .0043551 -6.24 0.000 -.0357234 -.0186517
male .0168724 .0069801 2.42 0.016 .0031917 .0305531
black -.0351723 .0109843 -3.20 0.001 -.0567011 -.0136434
hispanic -.0720469 .0149383 -4.82 0.000 -.1013254 -.0427685
hsgrad -.0520275 .0125497 -4.15 0.000 -.0766243 -.0274306
somecol -.1090689 .0130561 -8.35 0.000 -.1346584 -.0834794
college -.2372417 .0136582 -17.37 0.000 -.2640113 -.2104721
worka -.0628061 .0069236 -9.07 0.000 -.0763761 -.0492361
Interpretação para o efeito marginal: variação em p.p na probabilidade de sucesso

Ajuste do modelo – Efeito marginal
logit smoker age incomel male black hispanic hsgrad somecol college worka, or rob
. margins, dydx(age) at(age==(18(5)88)) plot
Average marginal effects Number of obs = 16,258

Model VCE : Robust

dy/dx w.r.t. : age
1._at : age = 18
2._at : age = 23
3._at : age = 28
4._at : age = 33
5._at : age = 38
6._at : age = 43
7._at : age = 48
8._at : age = 53
9._at : age = 58
10._at : age = 63
11._at : age = 68
12._at : age = 73
13._at : age = 78
14._at : age = 83
15._at : age = 88
Delta-method
age
_at
1 -.0004809 .0002808 -1.71 0.087 -.0010313 .0000695
2 -.0004782 .0002777 -1.72 0.085 -.0010225 .0000662
3 -.0004755 .0002746 -1.73 0.083 -.0010138 .0000628
4 -.0004727 .0002715 -1.74 0.082 -.0010049 .0000595
5 -.00047 .0002684 -1.75 0.080 -.000996 .0000561
6 -.0004672 .0002652 -1.76 0.078 -.0009871 .0000526
7 -.0004645 .0002621 -1.77 0.076 -.0009781 .0000492
8 -.0004617 .0002589 -1.78 0.075 -.0009691 .0000457
9 -.0004589 .0002557 -1.79 0.073 -.00096 .0000422
10 -.0004561 .0002524 -1.81 0.071 -.0009508 .0000387
11 -.0004533 .0002492 -1.82 0.069 -.0009417 .0000352
12 -.0004504 .0002459 -1.83 0.067 -.0009325 .0000316
13 -.0004476 .0002427 -1.84 0.065 -.0009232 .000028
14 -.0004448 .0002394 -1.86 0.063 -.000914 .0000245
15 -.0004419 .0002361 -1.87 0.061 -.0009047 .0000209
margins: efeito marginal

Interpretação - Efeito marginal não constante
logit smoker c.age##c.age incomel male black hispanic hsgrad somecol college worka, or rob
. margins, dydx(age) at(age==(18(5)88))
Average marginal effects Number of obs = 16258

Model VCE : OIM

dy/dx w.r.t. : age
1._at : age = 18 Average Marginal Effects of age with 95% CIs
.01
2._at : age = 23
3._at : age = 28
4._at : age = 33
5._at : age = 38
.005
6._at : age = 43
Effects on Pr(Smoker)
7._at : age = 48
8._at : age = 53
9._at : age = 58
0
10._at : age = 63
11._at : age = 68
12._at : age = 73
13._at : age = 78
-.005
14._at : age = 83
15._at : age = 88
Delta-method
-.01
age
_at
1 .0090053 .0004877 18.46 0.000 .0080494 .0099612
2 .0083649 .0006155 13.59 0.000 .0071585 .0095714 18 23 28 33 38 43 48 53 58 63 68 73 78 83 88
3 .0067327 .0006035 11.16 0.000 .0055499 .0079155
4 .0043902 .0004921 8.92 0.000 .0034256 .0053548
age in years
5 .0016431 .0003629 4.53 0.000 .0009318 .0023543
6 -.001242 .0003344 -3.71 0.000 -.0018975 -.0005866
7 -.0040235 .0004379 -9.19 0.000 -.0048817 -.0031653
8 -.0064404 .0005568 -11.57 0.000 -.0075317 -.005349
9 -.0081908 .0005965 -13.73 0.000 -.0093598 -.0070217
10 -.0089824 .0005082 -17.68 0.000 -.0099784 -.0079865
11 -.0086673 .00032 -27.08 0.000 -.0092945 -.00804
12 -.0073834 .0002382 -31.00 0.000 -.0078502 -.0069166
13 -.0055577 .0003615 -15.37 0.000 -.0062662 -.0048492
14 -.0037111 .0004256 -8.72 0.000 -.0045452 -.002877
15 -.0022148 .0003821 -5.80 0.000 -.0029638 -.0014659
margins: efeito marginal

Previsão
Qual a probabilidade de um homem, branco, com 40 anos, com educação
superior, que trabalha em local de trabalho que não aplica a restrição ao fumo,
fumar? . margins, at(male=1 age=40 black=0 hispanic=0 hsgrad=0 somecol=0 worka=0)
Predictive margins Number of obs = 16,258
Model VCE : Robust

at : age = 40
male = 1
black = 0
Observar balanceamento
hispanic
hsgrad
=
=
0
0
das variáveis entre homens
somecol = 0 e mulheres
worka = 0
Delta-method
Margin Std. Err. z P>|z| [95% Conf. Interval]
_cons .3785058 .0129288 29.28 0.000 .3531658 .4038457
E qual a probabilidade de uma mulher, branca, com 40 anos, com educação

fumar?
_cons .3583437 .0127447 28.12 0.000 .3333645 .3833229
Assertividade
. estat classification
. estat classification, cutoff(0.25)
Logistic model for smoker
True
Classified D ~D Total True
Classified D ~D Total
+ 31 20 51
- 4060 12147 16207 + 2751 5638 8389
- 1340 6529 7869
Total 4091 12167 16258
Total 4091 12167 16258
Classified + if predicted Pr(D) >= .5
True D defined as smoker != 0 True D defined as smoker != 0
Sensitivity Pr( +| D) 0.76% Sensitivity Pr( +| D) 67.25%
Specificity Pr( -|~D) 99.84% Specificity Pr( -|~D) 53.66%
Positive predictive value Pr( D| +) 60.78% Positive predictive value Pr( D| +) 32.79%
Negative predictive value Pr(~D| -) 74.95% Negative predictive value Pr(~D| -) 82.97%
False + rate for true ~D Pr( +|~D) 0.16% False + rate for true ~D Pr( +|~D) 46.34%
False - rate for true D Pr( -| D) 99.24% False - rate for true D Pr( -| D) 32.75%
False + rate for classified + Pr(~D| +) 39.22% False + rate for classified + Pr(~D| +) 67.21%
False - rate for classified - Pr( D| -) 25.05% False - rate for classified - Pr( D| -) 17.03%
Correctly classified 74.90% Correctly classified 57.08%
Sensibilidade é a fração do resultado positivo observado e que são classificados corretamente;

Especificidade é a fração do resultado negativo observado e que são corretamente classificados.
Outras medidas de qualidade do modelo: Sucesso (1) classificado corretamente; Fracasso (0) classificado
corretamente; Falso positivo (dado que é negativo, a probabilidade de ser estimado como positivo); Falso
Negativo (dado que é positivo, a probabilidade de ser estimado como negativo); Classificado incorretamente
positivo (dado que foi classificado como positivo, probabilidade de ser negativo); Classificado incorretamente
negativo (dado que foi classificado como negativo, probabilidade de ser positivo).
Assertividade – Curva ROC
Curva ROC: gráfico de Sensibilidade versus um (1-Especificidade), com o cutoff c variando – e sua
área é calculada.
A curva começa em (0; 0), correspondendo a c = 1, e continua até (1; 1), correspondendo a c = 0.
Um modelo sem poder de previsão seria uma linha de 45º. Quanto maior o poder preditivo, mais
inclinada a curva e, portanto, a área sob a curva é frequentemente usada como uma medida da
qualidade do modelo.
Um modelo sem poder preditivo tem área 0,5; um modelo perfeito tem área 1.
. lroc
number of observations = 16258

area under ROC curve = 0.6472
Poderia ser comparado ao R-quadrado

Assertividade
Pearson or Hosmer-Lemeshow goodness-of-fit test
𝐻0 : modelo bem especificado
𝐻𝐴 : modelo mal especificado
Logistic model for smoker, goodness-of-fit test
(Table collapsed on quantiles of estimated probabilities)
Group Prob Obs_1 Exp_1 Obs_0 Exp_0 Total
1 0.1400 386 400.3 2868 2853.7 3254

Grupos homogêneos
2 0.2262 614 591.0 2636 2659.0 3250
3 0.2866 798 833.0 2453 2418.0 3251
4 0.3346 1025 1002.8 2227 2249.2 3252
5 0.6305 1268 1263.9 1983 1987.1 3251
number of observations = 16258

number of groups = 5
Hosmer-Lemeshow chi2(3) = 4.39
Prob > chi2 = 0.2223
Modelo Logit
Regressão logística – Seleção em observáveis
Comentário
A definição da probabilidade é baseada em características observáveis ao

pesquisador.
Todas as demais hipóteses sobre os não observáveis permanecem iguais.

Fato
Os modelos Probit e Logit diferem basicamente na especificação da
distribuição do termo de erro, 𝜀 . Caso os erros sejam normalmente
distribuídos, teremos, então, o modelo Probit.
Como as distribuições logística e normal acumulada são muito próximas

uma da outra, exceto nas caudas, não é provável que obtenhamos
resultados muito diferentes usando os modelos Logit ou Probit, a menos
que a amostra seja grande (de forma que tenhamos observações
suficientes nas caudas).
41
Modelo Probit
Caso os erros em (1) sejam normalmente distribuídos,
teremos, então, o modelo probit. Nesse caso,
Zi

 t2 
F (Z i ) =
1

− 2
exp dt
2
A maximização da função de verossimilhança, descrita em (5), tanto para o

modelo Probit quanto para o modelo Logit é realizada pelos métodos de
estimação não-lineares.
42
Modelo Probit
Interpretação dos parâmetros do Probit
Vamos derivar
Zi
 k  
 t2 
Pi = F   0 +   j x ji  = F (Z i ) =
1
 j =1 

− 2
exp dt
2
com relação à variável explicativa de interesse. Assim,
Pi  k 
= f   0 +   j x ji   j
x j  j =1 
43
44
Modelo Probit
Função de Distribuição Acumulada
No caso específico da normal padrão, utilizamos a seguinte notação
 z2 
y y
( y ) =   (z )dz =
1
-
 exp − dz.
2π -  2 
 (z)
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
-4,0 -3,7 -3,4 -3,2 -2,9 -2,6 -2,3 -2,0 -1,8 -1,5 -1,2 -0,9 -0,6 -0,4 -0,1 0,2 0,5 0,8 1,0 1,3 1,6 1,9 2,2 2,4 2,7 3,0 3,3 3,6 3,8
z
45
Modelo Probit


Ajuste do modelo
. probit smoker age incomel male black hispanic hsgrad somecol college worka, rob

Probit regression Number of obs = 16258

Wald chi2(9) = 778.53
Prob > chi2 = 0.0000
Não tem interpretação
Log pseudolikelihood = -8761.7208 Pseudo R2 = 0.0447 de odds ratio no
modelo Probit
Robust
smoker Coef. Std. Err. z P>|z| [95% Conf. Interval]
age -.0012684 .0009017 -1.41 0.160 -.0030358 .000499

incomel -.092812 .0147631 -6.29 0.000 -.1217471 -.0638769 Apenas efeito
male .0533213 .0229247 2.33 0.020 .0083896 .0982529
black -.1060518 .0358608 -2.96 0.003 -.1763377 -.035766 marginal – igual ao
hispanic
hsgrad
-.2281467
-.1748765
.0482861
.0433916
-4.72
-4.03
0.000
0.000
-.3227858
-.2599224
-.1335077
-.0898306
modelo Logit – mesma
somecol -.363869 .0450357 -8.08 0.000 -.4521374 -.2756007 interpretação
college -.7689527 .0468096 -16.43 0.000 -.8606979 -.6772076
worka -.2093287 .0231419 -9.05 0.000 -.254686 -.1639714
_cons .870543 .1508341 5.77 0.000 .5749135 1.166172
.
Interpretação para a estimativa: 𝛽መ > 0 indica aumento de probabilidade de sucesso;
se 𝛽መ < 0, diminui a probabilidade de sucesso.
Interpretação dos parâmetros
Geralmente queremos avaliar os efeitos de cada x sobre as probabilidades
de resposta.
Se x for uma variável contínua, então para pequenas variações em x,
( ) 
Pˆ (Y = 1 | X) =  ˆ0 + ˆ1 x1 + ˆ2 x2  j x j
Se x for uma variável discreta (dummy entra nesta categoria), então

conforme x2 passa para x2+1,
Geralmente são escolhidas as médias como valores de x para calcular f ou

F.
( ) ( )
Pˆ (Y = 1 | X) =  ˆ0 + ˆ1 x1 + ˆ2 x2 −  ˆ0 + ˆ1 x1 + ˆ2 ( x2 + 1)
Análise Probit
Estimativas de probabilidade entre 0 e 1
Distribuição ainda com problemas, mas

não apresenta buracos.
Previsão
Qual a probabilidade de um homem, branco, com 40 anos, com educação
fumar? . margins, at(male=1 age=40 black=0 hispanic=0 hsgrad=0 somecol=0 worka=0)
Predictive margins Number of obs = 16,258
Model VCE : Robust

at : age = 40
male = 1
black = 0 Observar balanceamento
hispanic = 0
hsgrad = 0
das variáveis entre homens
somecol
worka
=
=
0
0
e mulheres
Delta-method
Margin Std. Err. z P>|z| [95% Conf. Interval]
_cons .3754183 .0127313 29.49 0.000 .3504655 .4003711
E qual a probabilidade de uma mulher, branca, com 40 anos, com educação

fumar?
_cons .3566743 .0125931 28.32 0.000 .3319923 .3813563
Assertividade
Probit model for smoker
True
Classified D ~D Total
+ 25 14 39
- 4066 12153 16219
Total 4091 12167 16258

True D defined as smoker != 0
Sensitivity Pr( +| D) 0.61%

Specificity Pr( -|~D) 99.88%
Positive predictive value Pr( D| +) 64.10%
Negative predictive value Pr(~D| -) 74.93%
False + rate for true ~D Pr( +|~D) 0.12%

False - rate for true D Pr( -| D) 99.39%
False + rate for classified + Pr(~D| +) 35.90%
False - rate for classified - Pr( D| -) 25.07%
Correctly classified 74.90%
Sensibilidade é a fração do resultado positivo observado e que são classificados corretamente;

Especificidade é a fração do resultado negativo observado e que são corretamente classificados.
Outras medidas de qualidade do modelo: Sucesso (1) classificado corretamente; Fracasso (0) classificado
corretamente; Falso positivo (dado que é negativo, a probabilidade de ser estimado como positivo); Falso
Negativo (dado que é positivo, a probabilidade de ser estimado como negativo); Classificado incorretamente
positivo (dado que foi classificado como positivo, probabilidade de ser negativo); Classificado incorretamente
negativo (dado que foi classificado como negativo, probabilidade de ser positivo).
Além das medidas de qualidade… como
comparar modelos Logit e Probit?
Critérios de Informação – AIC e BIC: menor possível
Logit: logit smoker age incomel male black hispanic hsgrad somecol college worka, robust or
. estat ic
Akaike's information criterion and Bayesian information criterion
Model Obs ll(null) ll(model) df AIC BIC
. 16,258 -9171.443 -8760.911 10 17541.82 17618.79
Note: N=Obs used in calculating BIC; see [R] BIC note.
Probit: probit smoker age incomel male black hispanic hsgrad somecol college worka, robust
. estat ic
Akaike's information criterion and Bayesian information criterion
Model Obs ll(null) ll(model) df AIC BIC
. 16,258 -9171.443 -8761.721 10 17543.44 17620.4
Note: N=Obs used in calculating BIC; see [R] BIC note.

Testar hipóteses a partir das estimativas
Modelo Logit (Probit igual)
Teste de significância usual
- test hsgrad somecol college
- test (male=0.01)
A chance de ser fumante é 2 vezes menor para trabalhadores

que não abandoaram a escola antes de concluírem o high school.
. test(hsgrad+somecol+college=-2)
( 1) [smoker]hsgrad + [smoker]somecol + [smoker]college = -2
chi2( 1) = 1.21
Prob > chi2 = 0.2714

AAI - Aula05 - Logit e Probit

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AAI - Aula05 - Logit e Probit

Enviado por

Direitos autorais:

Formatos disponíveis

Mestrado Profissional em Administração

Modelos de Resposta Binária (Discreta)

𝑦𝑖 = 𝑃 𝑦𝑖 = 1|𝑋 = 𝛽0 + ෍ 𝛽𝑗 𝑥𝑗𝑖 + 𝜀𝑖 (1)

C omo os erros s ão com p le tares à un i da de (pro ba b i l i dad e ), a

𝑉𝑎𝑟 𝜀 = 𝑃 𝑦𝑖 = 1|𝑋 1 − 𝑃 𝑦𝑖 = 1|𝑋

C o m p a rand o o va lo r p r e vi s to c o m a s va r i á ve i s o b s e rvad as, a

1) Proibição de fumar no local de trabalho

2) Trabalhadores com bons habitos de

Evans, Farrelly and Montgomery (AER, 1999)

smoker: is current smoking Number of Observations

Total Integers Nonintegers

Linear regression Number of obs = 16,258

age -.0004776 .0002806 -1.70 0.089 -.0010276 .0000725

Interpretar: Aqui a probabilidade vai de 0 a 1.... A estimativa é o efeito marginal

White's test for Ho: homoskedasticity

dist. Normal? chi2(44)

Cameron & Trivedi's decomposition of IM-test

Heteroskedasticity 1083.85 44 0.0000

Total 10623.04 54 0.0000

𝑦𝑖∗ = 𝛽0 + ෍ 𝛽𝑗 𝑥𝑗𝑖 + 𝜀𝑖 (2)

Onde a variável resposta não é diretamente observada. Isso é comumente

Por e xemp l o, uma var iá ve l du mmy o bser vada pod e es tar

Se a d is tr i bu i ção d e  fo r s imé tric a , te mo s

Podemos, então, escrever

O lado esquerdo do modelo logístico é chamado de log-razão de

a) A probabilidade varia entre 0 e 1

Observe que a distribuição do log das probabilidades é simétrica.

tende a 0 quando x diminui

0.2 tende a 0 quando x

chance de uma pessoa com x1 = 0 e x2 = 0 ter a característica de

É a razão de chances (odds ratio).

Qual a chance de uma pessoa ter a característica em relação a não ter,

1) Proibição de fumar no local de trabalho

2) Trabalhadores com bons habitos de

Iteration 0: log pseudolikelihood = -9171.443

Log pseudolikelihood = -8760.9112

age -.0026236 .0014986 -1.75 0.080 -.0055607 .0003135

Interpretação para a estimativa: sinal positivo implica que variação de x aumenta

Iteration 0: log likelihood = -9171.443

Logistic regression Number of obs = 16258

smoker Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

age 1.129961 .0115613 11.94 0.000 1.107527 1.15285

c.age#c.age .9985056 .0001221 -12.23 0.000 .9982663 .998745

incomel .7810459 .0207195 -9.32 0.000 .741474 .8227296

Interpretação para a odds ratio (razão de chance): se for maior que 1, a

Estimativas de probabilidade entre 0 e 1

Distribuição ainda com problemas, mas

Conditional marginal effects Number of obs = 16,258

Expression : Pr(smoker), predict()

age -.000476 .0002717 -1.75 0.080 -.0010084 .0000565

Interpretação para o efeito marginal: variação em p.p na probabilidade de sucesso.

Average marginal effects Number of obs = 16,258

Expression : Pr(smoker), predict()

Interpretação para o efeito marginal: variação em p.p na probabilidade de sucesso

Average marginal effects Number of obs = 16,258

Expression : Pr(smoker), predict()

margins: efeito marginal

Average marginal effects Number of obs = 16258

Expression : Pr(smoker), predict()

1._at : age = 18 Average Marginal Effects of age with 95% CIs

margins: efeito marginal

Expression : Pr(smoker), predict()