Aula15 - MPL, Logit e Probit

Microeconometria
Aula 15 – Modelo de probabilidade

linear (MPL), logit e probit
Prof. Gilberto Boaretto
Ibmec/RJ
Conteúdo
Introdução
Variável dependente binária (variável dummy)
Modelo de probabilidade linear (MPL)
Modelos logit e probit
Interpretação dos modelos logit e probit

Bibliografia
Wooldridge, J. M. (2017). Introdução à Econometria: uma abordagem

moderna. 6a edição. Cengage Learning – Seção 7.5 e Cap. 17.
Stock, J. H., and M. M. Watson (2012). Introduction to Econometrics.

3a edição. Pearson – Cap. 9.
Introdução
▶ Variável dependente limitada: é uma variável dependente cujo
intervalo de valores é substancialmente restrito.
▶ Exemplos:
• Variável binária, isto é, assume apenas os valores zero ou 1;
• Variáveis envolvendo porcentagem (participação em planos de pensão);
• Variáveis não-negativas (salário, preços, contagens, etc.);
• Variáveis censuradas ou truncadas.
▶ Temos vários exemplos, mas nem todas essas variáveis precisam de

tratamento especial.
▶ Se a variável dependente for discreta e assumir um pequeno número de

valores, não podemos tratá-la como contı́nua.
1 / 20
Variável dependente binária
▶ Até agora, a variável dependente era quantitativa.
▶ E se quisermos usar uma regressão múltipla para explicar um evento

qualitativo?
• Concluiu o ensino médio;
• Se o consumidor escolher ou não um produto ou trabalho;
• Se a firma foi absorvida por outra durante um determinado ano.
▶ Considere o seguinte exemplo:

Y = β0 + β1 X1 + · · · + βk Xk + U
em que Y ∈ {0, 1} dependendo de uma certa condição.
▶ Neste caso, βj não pode ser interpretado como a mudança em Y em
razão de uma mudança marginal em Xj , mantendo fixos todos os outros
fatores.
• Y muda de 0 para 1 ou de 1 para 0, ou não muda.
• Mesmo assim, os coeficientes possuem interpretações úteis.
2 / 20
Modelo de probabilidade linear (PML)
▶ Sob a hipótese de média condicional zero, E (U | X1 , X2 , . . . , Xk ) = 0,
sabemos que
E (Y | X1 , X2 , . . . , Xk ) = β0 + β1 X1 + · · · + βk Xk = Xβ, (1)
em que X = (1, X1 , . . . , Xk ) e β = (β0 , β1 , . . . , βk )′ .
▶ Quando Y é uma variável binária com valores 0 ou 1, sabemos que
E (Y | X) = 0 × P (Y = 0 | X) + 1 × P (Y = 1 | X)
E (Y | X) = P (Y = 1 | X) (2)
▶ Portanto, (1) e (2) implicam que
P (Y = 1 | X) = β0 + β1 X1 + · · · + βk Xk = Xβ, (3)
ou seja, a probabilidade de sucesso é uma função linear de X.
▶ Esse modelo é chamado de modelo de probabilidade linear (MPL).

3 / 20
Modelo de probabilidade linear (PML)
▶ No modelo de probabilidade linear (MPL), βj mede a mudança na
probabilidade de sucesso quando Xj muda, mantendo os outros fatores
fixos:
∆P (Y = 1 | X) = βj ∆Xj
▶ A regressão (3) pode ser estimada por MQO.
▶ Na equação estimada,
P (Y\
= 1 | X) = βb0 + βb1 X1 + · · · + βbk Xk = X β,
b
• βb0 representa a probabilidade estimada de sucesso quando Xj = 0, ∀j;
• βbj , j ∈ {1, . . . , k}, representa a mudança prevista na probabilidade de

sucesso (ou seja, de que Y = 1) quando Xj aumenta em uma unidade,
mantendo os outros fatores constantes.
4 / 20
Modelo de probabilidade linear – Exemplo 1
5 / 20
▶ Variáveis:
• naft é uma dummy, sendo igual a 1 se uma mulher casada está na força
de trabalho, e 0, caso contrário;
• nesprend é a renda do marido;
• educ é o nı́vel de escolaridade;
• exper é o tempo de experiência anterior no mercado de trabalho;
• idade é a idade da mulher;
• crianmed6 é o número de filhos com idade inferior a 1 ano;
• crianma6 é o número de filhos com idade entre 6 e 18 anos.
▶ Resultados:
[ = 0.586 − 0.0034 nesprend + 0.038 educ + 0.039 exper − 0.0006 exper2
naft
(0.154) (0.0014) (0.007) (0.006) (0.00018)
− 0.016 idade − 0.262 crianmed6 + 0.013 crianma6

(0.002) (0.034) (0.0132)
N = 753, R2 = 0.264
6 / 20
No gráfico, representamos o caso em que nesprend = 50, exper = 5,
idade = 30, crianmed6 = 1 e crianma6 = 0.
7 / 20
▶ Mais um ano de educação aumenta a probabilidade de uma mulher
estar na força de trabalho em 0.038, em média, mantendo os outros
fatores constantes.
• A probabilidade prevista é negativa até que educ = 3.84 anos.

• Nenhuma mulher tem menos do que 5 anos de estudo.
• Nı́vel de escolaridade mais alto é 17 anos, o que leva a naft
[ = 0.5.
▶ O termo quadrático de experiência anterior mostra que o efeito do

tempo de experiência anterior é decrescente sobre a probabilidade de
uma mulher estar na força de trabalho.
• Mantendo os outros fatores constantes, a mudança estimada na

probabilidade de uma mulher estar na força de trabalho é de
0.039 − 2 × 0.0006 × exper.
• O ponto em que experiência não tem efeito sobre a probabilidade é 32.5
(bastante alto, somente 13 das 753 mulheres tem mais do que 32 anos de
experiência).
8 / 20
MPL – Caracterı́sticas
▶ Principal vantagem: simples de estimar e interpretar.
▶ No entanto, para certos valores das variáveis explicativas, a
probabilidade estimada pode ser negativa ou maior do que 1.
▶ A probabilidade não pode ser linearmente relacionada com as variáveis
explicativas em todos os seus possı́veis valores.
▶ Heteroscedasticidade: pelo fato de Y ser binária, sua variância
condicional é

Var (Y | X) = P (Y = 1 | X) 1 − P (Y = 1 | X) ,
ou seja, depende de X.
• Erros-padrão e estatı́sticas convencionais não são válidas.
▶ Mesmo com esses problemas, esse tipo de modelo ainda é bastante útil e
usado em economia.
▶ Normalmente, o modelo funciona bem para valores das variáveis
explicativas que são próximos das médias nas amostras.
9 / 20
▶ Para resolver o problema encontrado em modelos de probabilidade
linear de que a probabilidade prevista pode ser maior do que 1 ou
negativa, podemos considerar a seguinte especificação para a
probabilidade de sucesso:
P (Y = 1 | X) = G (β0 + β1 X1 + · · · + βk Xk ) = G (Xβ) ,
em que 0 ⩽ G(·) ⩽ 1.
▶ Funções não lineares para G(·) garantem que
0 ⩽ P (Y = 1 | X) ⩽ 1.
▶ Há duas opções clássicas para G(·):
1. função logı́stica;
2. c.d.f. da normal.
10 / 20
▶ No modelo logit, G(·) é uma função logı́stica:
exp (Xβ)
G(Xβ) = Λ(Xβ) = .
1 + exp (Xβ)
É a função de distribuição acumulada de uma variável logı́stica padrão.
▶ No modelo probit, G(·) é a função de distribuição acumulada de

uma variável normal padrão:
Z Xβ
G(Xβ) = Φ(Xβ) = ϕ(z) dz,
−∞
onde ϕ(z) é a densidade da normal padrão
ϕ(z) = (2π)−1/2 exp (−z 2 /2).
11 / 20
▶ Ambas as funções G(z) acima são crescentes no argumento z.
▶ Essas funções crescem mais rapidamente quando z = 0.
▶ G(z) → 0 quando z → −∞.

▶ G(z) → 1 quando z → ∞.
▶ Ambas são simetricamente distribuı́das ao redor de 0.
Figura: Comparação visual do ajuste: MPL, probit e logit
12 / 20
▶ Para entendermos melhor, vamos considerar o modelo de variável
latente: suponha que Y ∗ seja uma variável não observada tal que
Y ∗ = Xβ + U, Y = I (Y ∗ > 0)
onde I (·) é a função indicadora.
▶ Assim, Y = 1 se Y ∗ > 0 e Y = 0 caso contrário. Criamos um resultado

binário.
▶ Podemos assumir que U ⊥ X e que U tem distribuição normal ou

logı́stica.
▶ Podemos derivar a probabilidade de resposta de Y como
P (Y = 1 | X) = P (Y ∗ > 0 | X) = P (U > −Xβ | X) = 1 − G (−Xβ)

=⇒ P (Y = 1 | X) = G (Xβ)
em que usamos 1 − G(−z) = G(z).

13 / 20
Estimação dos modelos logit e probit
▶ No caso do modelo de probabilidade linear, podemos estimar os

parâmetros usando mı́nimo quadrados ordinários (MQO).
▶ Agora, em razão da natureza não linear de E (Y | X) = G (Xβ), o

estimador de MQO não é mais aplicável.
▶ Usamos o estimador de máxima verossimilhança (MLE):
• Não temos fórmulas fechadas (soluções exatas) para esses estimadores no

caso de logit e probit.
• A solução é numérica.
• Os softwares já são equipados para essa estimação e nos fornecem os

respectivos erros-padrão dos estimadores.
14 / 20
▶ Principal desvantagem: interpretação mais complicada.
▶ Os coeficientes obtidos dão o sinal dos efeitos parciais de cada Xj sobre

a probabilidade de resposta.
▶ Significância estatı́stica é analisada da maneira comumente usada, mas

considerando erros-padrão robustos à heteroscedasticidade.
▶ Qualidade de ajuste: percentagem corretamente predita, um forma

de pseudo R-quadrado.
15 / 20
▶ Efeitos parciais: é necessário reescalonar os coeficientes pois o efeito
parcial depende de X e da distribuição G(·).
• Quando X for uma variável contı́nua:
∂P (Y = 1 | X) ∂G (Xβ)
= = g (Xβ) βj
∂Xj ∂Xj
em que g(·) = dG(z)/dz.
• Portanto, considerando uma variação ∆Xj em Xj , temos:

P (Y = 1 | X) ≈ g X β
∆b b βbj ∆Xj
▶ Como g (Xβ) > 0, o efeito parcial de Xj sobre P (Y = 1 | X) terá o

mesmo sinal de βj .
▶ Os efeitos parciais
serão mais difı́ceis de serem analisados devido à
escala g X βb depender de X.
▶ Uma possibilidade é usar valores de Xj como médias, medianas,

mı́nimos, máximos ou valores especı́ficos.
16 / 20

▶ Efeito parcial na média: calculamos g X̄ β
b , em que X̄ é um vetor
das médias de cada regressor.
▶ Efeito parcial médio: para a j-ésima variável explicativa, calculamos

a média dos efeitos parciais individuais ao longo da amostra:
" N
#
1 X
g Xi β
b βbj .
N i=1
▶ Se Xj é uma variável discreta, podemos calcular:

N
1 X b
G β0 + βb1 X1i + · · · + βbj Xji + 1 + · · · + βbk Xki
N i=1

− G β0 + β1 X1i + · · · + βj Xji + · · · + βk Xki .
b b b b
▶ Note que os efeitos dependem dos nı́veis e dos coeficientes de todas as

variáveis.
17 / 20
Modelos logit e probit – Exemplo
▶ Voltando no exemplo que considera a participação de uma mulher

casada na força de trabalho.
▶ A tabela do próximo slide compara as estimativas de MPL, logit e

probit.
▶ Os erros-padrão são robustos à heteroscedasticidade.
▶ Os sinais dos coeficientes são os mesmos em todos os modelos.
▶ As magnitudes dos coeficientes não são diretamente comparáveis.
18 / 20
19 / 20
▶ Para comparar as estimativas logit e probit, é muito comum usar uma
regra de bolso de multiplicar as estimativas por 1.6.
▶ Já para comparar as estimativas com o MPL, usa-se normalmente o
efeito parcial na média, sendo o fator de escala neste exemplo 0.301
(para probit) e 0.179 (para logit).
▶ Portanto, o coeficiente escalonado de educ está por volta de
• 0.179 × 0.221 ≈ 0.040, no logit
• 0.301 × 0.131 ≈ 0.039, no probit
• ambos próximos de 0.038, do MPL.
▶ No caso da variável discreta crianmed6 (kidslt6), também temos
coeficientes escalonados parecidos:
• MPL: −0.262;
• logit: 0.179 × −1.443 ≈ −0.258;
• probit: 0.301 × −1.868 ≈ −0.261.
▶ Maior diferença entre o MPL e os modelos logit e probit:
• MPL assume efeitos marginais constantes;
• Modelos logit e probit implicam efeitos marginais não lineares.
20 / 20

Aula15 - MPL, Logit e Probit

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula15 - MPL, Logit e Probit

Enviado por

Direitos autorais:

Formatos disponíveis

Microeconometria

Aula 15 – Modelo de probabilidade

Prof. Gilberto Boaretto

Variável dependente binária (variável dummy)

Modelo de probabilidade linear (MPL)

Modelos logit e probit

Interpretação dos modelos logit e probit

Wooldridge, J. M. (2017). Introdução à Econometria: uma abordagem

Stock, J. H., and M. M. Watson (2012). Introduction to Econometrics.

• Variável binária, isto é, assume apenas os valores zero ou 1;

• Variáveis envolvendo porcentagem (participação em planos de pensão);

• Variáveis não-negativas (salário, preços, contagens, etc.);

• Variáveis censuradas ou truncadas.

▶ Temos vários exemplos, mas nem todas essas variáveis precisam de

▶ Se a variável dependente for discreta e assumir um pequeno número de

▶ E se quisermos usar uma regressão múltipla para explicar um evento

▶ Considere o seguinte exemplo:

em que X = (1, X1 , . . . , Xk ) e β = (β0 , β1 , . . . , βk )′ .

▶ Quando Y é uma variável binária com valores 0 ou 1, sabemos que

▶ Portanto, (1) e (2) implicam que

ou seja, a probabilidade de sucesso é uma função linear de X.

▶ Esse modelo é chamado de modelo de probabilidade linear (MPL).

▶ A regressão (3) pode ser estimada por MQO.

• βb0 representa a probabilidade estimada de sucesso quando Xj = 0, ∀j;

• βbj , j ∈ {1, . . . , k}, representa a mudança prevista na probabilidade de

− 0.016 idade − 0.262 crianmed6 + 0.013 crianma6

• A probabilidade prevista é negativa até que educ = 3.84 anos.

▶ O termo quadrático de experiência anterior mostra que o efeito do

• Mantendo os outros fatores constantes, a mudança estimada na

▶ Funções não lineares para G(·) garantem que

▶ Há duas opções clássicas para G(·):

▶ No modelo logit, G(·) é uma função logı́stica:

É a função de distribuição acumulada de uma variável logı́stica padrão.

▶ No modelo probit, G(·) é a função de distribuição acumulada de

onde ϕ(z) é a densidade da normal padrão

ϕ(z) = (2π)−1/2 exp (−z 2 /2).

▶ G(z) → 0 quando z → −∞.

Figura: Comparação visual do ajuste: MPL, probit e logit

onde I (·) é a função indicadora.

▶ Assim, Y = 1 se Y ∗ > 0 e Y = 0 caso contrário. Criamos um resultado

▶ Podemos assumir que U ⊥ X e que U tem distribuição normal ou

▶ Podemos derivar a probabilidade de resposta de Y como

P (Y = 1 | X) = P (Y ∗ > 0 | X) = P (U > −Xβ | X) = 1 − G (−Xβ)

em que usamos 1 − G(−z) = G(z).

▶ No caso do modelo de probabilidade linear, podemos estimar os

▶ Agora, em razão da natureza não linear de E (Y | X) = G (Xβ), o

▶ Usamos o estimador de máxima verossimilhança (MLE):

• Não temos fórmulas fechadas (soluções exatas) para esses estimadores no

• Os softwares já são equipados para essa estimação e nos fornecem os

▶ Principal desvantagem: interpretação mais complicada.

▶ Os coeficientes obtidos dão o sinal dos efeitos parciais de cada Xj sobre

▶ Significância estatı́stica é analisada da maneira comumente usada, mas

▶ Qualidade de ajuste: percentagem corretamente predita, um forma

▶ Como g (Xβ) > 0, o efeito parcial de Xj sobre P (Y = 1 | X) terá o

▶ Uma possibilidade é usar valores de Xj como médias, medianas,

▶ Efeito parcial médio: para a j-ésima variável explicativa, calculamos

▶ Se Xj é uma variável discreta, podemos calcular:

▶ Note que os efeitos dependem dos nı́veis e dos coeficientes de todas as

▶ Voltando no exemplo que considera a participação de uma mulher

▶ A tabela do próximo slide compara as estimativas de MPL, logit e

▶ Os erros-padrão são robustos à heteroscedasticidade.

▶ Os sinais dos coeficientes são os mesmos em todos os modelos.

▶ As magnitudes dos coeficientes não são diretamente comparáveis.

Você também pode gostar