Você está na página 1de 23

Microeconometria

Aula 15 – Modelo de probabilidade


linear (MPL), logit e probit

Prof. Gilberto Boaretto

Ibmec/RJ
Conteúdo

Introdução

Variável dependente binária (variável dummy)

Modelo de probabilidade linear (MPL)

Modelos logit e probit

Interpretação dos modelos logit e probit


Bibliografia

Wooldridge, J. M. (2017). Introdução à Econometria: uma abordagem


moderna. 6a edição. Cengage Learning – Seção 7.5 e Cap. 17.

Stock, J. H., and M. M. Watson (2012). Introduction to Econometrics.


3a edição. Pearson – Cap. 9.
Introdução
▶ Variável dependente limitada: é uma variável dependente cujo
intervalo de valores é substancialmente restrito.

▶ Exemplos:

• Variável binária, isto é, assume apenas os valores zero ou 1;

• Variáveis envolvendo porcentagem (participação em planos de pensão);

• Variáveis não-negativas (salário, preços, contagens, etc.);

• Variáveis censuradas ou truncadas.

▶ Temos vários exemplos, mas nem todas essas variáveis precisam de


tratamento especial.

▶ Se a variável dependente for discreta e assumir um pequeno número de


valores, não podemos tratá-la como contı́nua.

1 / 20
Variável dependente binária
▶ Até agora, a variável dependente era quantitativa.

▶ E se quisermos usar uma regressão múltipla para explicar um evento


qualitativo?
• Concluiu o ensino médio;
• Se o consumidor escolher ou não um produto ou trabalho;
• Se a firma foi absorvida por outra durante um determinado ano.

▶ Considere o seguinte exemplo:


Y = β0 + β1 X1 + · · · + βk Xk + U
em que Y ∈ {0, 1} dependendo de uma certa condição.
▶ Neste caso, βj não pode ser interpretado como a mudança em Y em
razão de uma mudança marginal em Xj , mantendo fixos todos os outros
fatores.
• Y muda de 0 para 1 ou de 1 para 0, ou não muda.
• Mesmo assim, os coeficientes possuem interpretações úteis.
2 / 20
Modelo de probabilidade linear (PML)
▶ Sob a hipótese de média condicional zero, E (U | X1 , X2 , . . . , Xk ) = 0,
sabemos que

E (Y | X1 , X2 , . . . , Xk ) = β0 + β1 X1 + · · · + βk Xk = Xβ, (1)

em que X = (1, X1 , . . . , Xk ) e β = (β0 , β1 , . . . , βk )′ .

▶ Quando Y é uma variável binária com valores 0 ou 1, sabemos que

E (Y | X) = 0 × P (Y = 0 | X) + 1 × P (Y = 1 | X)
E (Y | X) = P (Y = 1 | X) (2)

▶ Portanto, (1) e (2) implicam que

P (Y = 1 | X) = β0 + β1 X1 + · · · + βk Xk = Xβ, (3)

ou seja, a probabilidade de sucesso é uma função linear de X.

▶ Esse modelo é chamado de modelo de probabilidade linear (MPL).


3 / 20
Modelo de probabilidade linear (PML)
▶ No modelo de probabilidade linear (MPL), βj mede a mudança na
probabilidade de sucesso quando Xj muda, mantendo os outros fatores
fixos:

∆P (Y = 1 | X) = βj ∆Xj

▶ A regressão (3) pode ser estimada por MQO.

▶ Na equação estimada,

P (Y\
= 1 | X) = βb0 + βb1 X1 + · · · + βbk Xk = X β,
b

• βb0 representa a probabilidade estimada de sucesso quando Xj = 0, ∀j;

• βbj , j ∈ {1, . . . , k}, representa a mudança prevista na probabilidade de


sucesso (ou seja, de que Y = 1) quando Xj aumenta em uma unidade,
mantendo os outros fatores constantes.

4 / 20
Modelo de probabilidade linear – Exemplo 1

5 / 20
Modelo de probabilidade linear – Exemplo 2
▶ Variáveis:
• naft é uma dummy, sendo igual a 1 se uma mulher casada está na força
de trabalho, e 0, caso contrário;
• nesprend é a renda do marido;
• educ é o nı́vel de escolaridade;
• exper é o tempo de experiência anterior no mercado de trabalho;
• idade é a idade da mulher;
• crianmed6 é o número de filhos com idade inferior a 1 ano;
• crianma6 é o número de filhos com idade entre 6 e 18 anos.

▶ Resultados:
[ = 0.586 − 0.0034 nesprend + 0.038 educ + 0.039 exper − 0.0006 exper2
naft
(0.154) (0.0014) (0.007) (0.006) (0.00018)

− 0.016 idade − 0.262 crianmed6 + 0.013 crianma6


(0.002) (0.034) (0.0132)

N = 753, R2 = 0.264
6 / 20
Modelo de probabilidade linear – Exemplo 2
No gráfico, representamos o caso em que nesprend = 50, exper = 5,
idade = 30, crianmed6 = 1 e crianma6 = 0.

7 / 20
Modelo de probabilidade linear – Exemplo 2
▶ Mais um ano de educação aumenta a probabilidade de uma mulher
estar na força de trabalho em 0.038, em média, mantendo os outros
fatores constantes.

• A probabilidade prevista é negativa até que educ = 3.84 anos.


• Nenhuma mulher tem menos do que 5 anos de estudo.
• Nı́vel de escolaridade mais alto é 17 anos, o que leva a naft
[ = 0.5.

▶ O termo quadrático de experiência anterior mostra que o efeito do


tempo de experiência anterior é decrescente sobre a probabilidade de
uma mulher estar na força de trabalho.

• Mantendo os outros fatores constantes, a mudança estimada na


probabilidade de uma mulher estar na força de trabalho é de
0.039 − 2 × 0.0006 × exper.
• O ponto em que experiência não tem efeito sobre a probabilidade é 32.5
(bastante alto, somente 13 das 753 mulheres tem mais do que 32 anos de
experiência).
8 / 20
MPL – Caracterı́sticas
▶ Principal vantagem: simples de estimar e interpretar.
▶ No entanto, para certos valores das variáveis explicativas, a
probabilidade estimada pode ser negativa ou maior do que 1.
▶ A probabilidade não pode ser linearmente relacionada com as variáveis
explicativas em todos os seus possı́veis valores.
▶ Heteroscedasticidade: pelo fato de Y ser binária, sua variância
condicional é
 
Var (Y | X) = P (Y = 1 | X) 1 − P (Y = 1 | X) ,

ou seja, depende de X.
• Erros-padrão e estatı́sticas convencionais não são válidas.

▶ Mesmo com esses problemas, esse tipo de modelo ainda é bastante útil e
usado em economia.
▶ Normalmente, o modelo funciona bem para valores das variáveis
explicativas que são próximos das médias nas amostras.
9 / 20
Modelos logit e probit
▶ Para resolver o problema encontrado em modelos de probabilidade
linear de que a probabilidade prevista pode ser maior do que 1 ou
negativa, podemos considerar a seguinte especificação para a
probabilidade de sucesso:

P (Y = 1 | X) = G (β0 + β1 X1 + · · · + βk Xk ) = G (Xβ) ,

em que 0 ⩽ G(·) ⩽ 1.

▶ Funções não lineares para G(·) garantem que

0 ⩽ P (Y = 1 | X) ⩽ 1.

▶ Há duas opções clássicas para G(·):

1. função logı́stica;

2. c.d.f. da normal.
10 / 20
Modelos logit e probit

▶ No modelo logit, G(·) é uma função logı́stica:

exp (Xβ)
G(Xβ) = Λ(Xβ) = .
1 + exp (Xβ)

É a função de distribuição acumulada de uma variável logı́stica padrão.

▶ No modelo probit, G(·) é a função de distribuição acumulada de


uma variável normal padrão:
Z Xβ
G(Xβ) = Φ(Xβ) = ϕ(z) dz,
−∞

onde ϕ(z) é a densidade da normal padrão

ϕ(z) = (2π)−1/2 exp (−z 2 /2).

11 / 20
Modelos logit e probit
▶ Ambas as funções G(z) acima são crescentes no argumento z.
▶ Essas funções crescem mais rapidamente quando z = 0.

▶ G(z) → 0 quando z → −∞.


▶ G(z) → 1 quando z → ∞.
▶ Ambas são simetricamente distribuı́das ao redor de 0.

Figura: Comparação visual do ajuste: MPL, probit e logit

12 / 20
Modelos logit e probit
▶ Para entendermos melhor, vamos considerar o modelo de variável
latente: suponha que Y ∗ seja uma variável não observada tal que

Y ∗ = Xβ + U, Y = I (Y ∗ > 0)

onde I (·) é a função indicadora.

▶ Assim, Y = 1 se Y ∗ > 0 e Y = 0 caso contrário. Criamos um resultado


binário.

▶ Podemos assumir que U ⊥ X e que U tem distribuição normal ou


logı́stica.

▶ Podemos derivar a probabilidade de resposta de Y como

P (Y = 1 | X) = P (Y ∗ > 0 | X) = P (U > −Xβ | X) = 1 − G (−Xβ)


=⇒ P (Y = 1 | X) = G (Xβ)

em que usamos 1 − G(−z) = G(z).


13 / 20
Estimação dos modelos logit e probit

▶ No caso do modelo de probabilidade linear, podemos estimar os


parâmetros usando mı́nimo quadrados ordinários (MQO).

▶ Agora, em razão da natureza não linear de E (Y | X) = G (Xβ), o


estimador de MQO não é mais aplicável.

▶ Usamos o estimador de máxima verossimilhança (MLE):

• Não temos fórmulas fechadas (soluções exatas) para esses estimadores no


caso de logit e probit.

• A solução é numérica.

• Os softwares já são equipados para essa estimação e nos fornecem os


respectivos erros-padrão dos estimadores.

14 / 20
Interpretação dos modelos logit e probit

▶ Principal desvantagem: interpretação mais complicada.

▶ Os coeficientes obtidos dão o sinal dos efeitos parciais de cada Xj sobre


a probabilidade de resposta.

▶ Significância estatı́stica é analisada da maneira comumente usada, mas


considerando erros-padrão robustos à heteroscedasticidade.

▶ Qualidade de ajuste: percentagem corretamente predita, um forma


de pseudo R-quadrado.

15 / 20
Interpretação dos modelos logit e probit
▶ Efeitos parciais: é necessário reescalonar os coeficientes pois o efeito
parcial depende de X e da distribuição G(·).
• Quando X for uma variável contı́nua:
∂P (Y = 1 | X) ∂G (Xβ)
= = g (Xβ) βj
∂Xj ∂Xj
em que g(·) = dG(z)/dz.
• Portanto, considerando uma variação ∆Xj em Xj , temos:

P (Y = 1 | X) ≈ g X β
∆b b βbj ∆Xj

▶ Como g (Xβ) > 0, o efeito parcial de Xj sobre P (Y = 1 | X) terá o


mesmo sinal de βj .

▶ Os efeitos parciais
 serão mais difı́ceis de serem analisados devido à
escala g X βb depender de X.

▶ Uma possibilidade é usar valores de Xj como médias, medianas,


mı́nimos, máximos ou valores especı́ficos.
16 / 20
Interpretação dos modelos logit e probit

▶ Efeito parcial na média: calculamos g X̄ β
b , em que X̄ é um vetor
das médias de cada regressor.

▶ Efeito parcial médio: para a j-ésima variável explicativa, calculamos


a média dos efeitos parciais individuais ao longo da amostra:
" N
#
1 X 
g Xi β
b βbj .
N i=1

▶ Se Xj é uma variável discreta, podemos calcular:


N 
1 X b  
G β0 + βb1 X1i + · · · + βbj Xji + 1 + · · · + βbk Xki
N i=1
 
− G β0 + β1 X1i + · · · + βj Xji + · · · + βk Xki .
b b b b

▶ Note que os efeitos dependem dos nı́veis e dos coeficientes de todas as


variáveis.
17 / 20
Modelos logit e probit – Exemplo

▶ Voltando no exemplo que considera a participação de uma mulher


casada na força de trabalho.

▶ A tabela do próximo slide compara as estimativas de MPL, logit e


probit.

▶ Os erros-padrão são robustos à heteroscedasticidade.

▶ Os sinais dos coeficientes são os mesmos em todos os modelos.

▶ As magnitudes dos coeficientes não são diretamente comparáveis.

18 / 20
Modelos logit e probit – Exemplo

19 / 20
Modelos logit e probit – Exemplo
▶ Para comparar as estimativas logit e probit, é muito comum usar uma
regra de bolso de multiplicar as estimativas por 1.6.
▶ Já para comparar as estimativas com o MPL, usa-se normalmente o
efeito parcial na média, sendo o fator de escala neste exemplo 0.301
(para probit) e 0.179 (para logit).
▶ Portanto, o coeficiente escalonado de educ está por volta de
• 0.179 × 0.221 ≈ 0.040, no logit
• 0.301 × 0.131 ≈ 0.039, no probit
• ambos próximos de 0.038, do MPL.
▶ No caso da variável discreta crianmed6 (kidslt6), também temos
coeficientes escalonados parecidos:
• MPL: −0.262;
• logit: 0.179 × −1.443 ≈ −0.258;
• probit: 0.301 × −1.868 ≈ −0.261.
▶ Maior diferença entre o MPL e os modelos logit e probit:
• MPL assume efeitos marginais constantes;
• Modelos logit e probit implicam efeitos marginais não lineares.
20 / 20

Você também pode gostar