Você está na página 1de 33

Regressão Linear Múltipla: Informações qualitativas e

variáveis binárias, dicotômicas ou dummy


Aula 21, Introdução à Econometria

Prof. Moisés A. Resende Filho

Capítulo 7, parte 03

17 de agosto de 2022

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 1 / 33


1. O Modelo de Probabilidade Linear

O arquivo aula21.do, ao lado dos slides da aula 21 na página web do


curso, contém todos os comandos Stata utilizados nesta aula.
Qual o signi…cado da RLM quando y 2 f0, 1g, ou seja, quando a
variável dependente y é binária?
Consideremos p Pr(y = 1jx1 , ..., xk ) a probabilidade de sucesso ou
probabilidade do evento ocorrer e (1 p ) a probabilidade de
insucesso ou probabilidade do evento não ocorrer, tal que
y Bernoulli (p ) e, assim,

E (y jx1 , ..., xk ) = 1 p +0 (1 p )
|{z} | {z }
= p

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 2 / 33


O Modelo de Probabilidade Linear

Portanto, para y variável binária, a esperança de y condicional em


x1 , ..., xk é a própria probabilidade de sucesso,

E (y jx1 , ..., xk ) = Pr(y = 1jx1 , ..., xk ) (1)

Logo, sob RLM.1. y = β0 + β1 x1 + ... + βk xk + u e RLM.4.


E (u jx1 , ..., xk ) = 0,

E (y jx1 , ..., xk ) = β0 + β1 x1 + ... + βk xk

e, assim,
∆ Pr(yi = 1jx1 , ..., xk )
= βj , (2)
∆xj
ou seja, βj é variação da probabilidade de sucesso em resposta a
um aumento ceteris paribus ∆xj = 1 em xj .

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 3 / 33


O Modelo de Probabilidade Linear

Como sob RLM.1 e RLM.4 e y variável binária, a esperança de y


condicional em x1 , ..., xk é a própria probabilidade de sucesso, o
modelo
y = β0 + β1 x1 + ... + βk xk + u, y 2 f0, 1g
é chamado de modelo de probabilidade linear (MPL), tal que
quando estimado por MQO

yb = b
β0 + b
β1 x1 + ... + b
βk xk .

yb é a probabilidade estimada ou probabilidade prevista de


sucesso.
b
βj é a estimativa da variação da probabilidade de sucesso em resposta
a um aumento ceteris paribus ∆xj = 1 em xj .
Sob RLM.1 a RLM.4., mesmo se y 2 f0, 1g, os estimadores MQO do
MPL são não viesados e consistentes, como quando y 2 R.
Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 4 / 33
1.1 Limitações do Modelo de Probabilidade Linear

As principais limitações do MPL são:

1. As probabilidades estimadas devem estar necessariamente no intervalo


zero e um,

0 b
β0 + b
β1 x1i + ... + b
βk xki 1, i = 1, .., n,

mas a regressão MQO não garante isto.


2. A hipótese RLM.6 u Normal é violada, uma vez que
y Bernoulli (p ).

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 5 / 33


Limitações do Modelo de Probabilidade Linear

3. O erro no MPL é heterocedástico por construção, pois, como

Var (y jx1 , ..., xk ) E (y 2 jx1 , ..., xk ) E (y jx1 , ..., xk )2


| {z } | {z }

= p 12 + (1 p ) 02 (p 1 + (1 p ) 0)2
= p p2
= p (1 p )
= ( β0 + β1 x1 + ... + βk xk ) (1 ( β0 + β1 x1 + ... + βk xk )),

somente se β1 = β2 = = βk = 0,
Var (u jx1 , ..., xk ) = Var (y jx1 , ..., xk ) = β0 (1 β0 ) é independente de
x1 , ..., xk , logo, homocedástico.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 6 / 33


1.2. Exercício de Aplicação
Estamos interessados na probabilidade uma mulher casada estar
no mercado de trabalho.
Estimamos com os comandos Stata bcuse mroz, clear e reg inlf
nwifeinc educ exper expersq age kidslt6 kidsge6, cformat(%9.4f)
pformat(%5.4f) sformat(%8.3f),
. *Baixa o arquivo mroz.dta
. bcuse mroz, clear
. reg inlf nwifeinc educ exper expersq age kidslt6 kidsge6, cformat(%9.4f) pformat(%5.4f) sformat(%8.3f)

Source SS df MS Number of obs = 753


F(7, 745) = 38.22
Model 48.8080578 7 6.97257968 Prob > F = 0.0000
Residual 135.919698 745 .182442547 R-squared = 0.2642
Adj R-squared = 0.2573
Total 184.727756 752 .245648611 Root MSE = .42713

inlf Coef. Std. Err. t P>|t| [95% Conf. Interval]

nwifeinc -0.0034 0.0014 -2.351 0.0190 -0.0062 -0.0006


educ 0.0380 0.0074 5.151 0.0000 0.0235 0.0525
exper 0.0395 0.0057 6.962 0.0000 0.0284 0.0506
expersq -0.0006 0.0002 -3.227 0.0013 -0.0010 -0.0002
age -0.0161 0.0025 -6.476 0.0000 -0.0210 -0.0112
kidslt6 -0.2618 0.0335 -7.814 0.0000 -0.3276 -0.1960
kidsge6 0.0130 0.0132 0.986 0.3244 -0.0129 0.0389
_cons 0.5855 0.1542 3.798 0.0002 0.2828 0.8882

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 7 / 33


Exercício de Aplicação

Em que, em 1975: inlf é 1 se mulher casada trabalha fora, caso


contrário, zero, nwifeinc é a renda do marido, educ é anos de
escolaridade, age é a idade da mulher em anos, exper é experiência
em anos, kidslt6 é o número de …lhos com menos de 6 anos e kidsge6
é o número de …lhos com idade entre 6 e 18 anos.
Estimamos a probabilidade de 58, 55% para uma mulher casada com
nwifeinc = educ = exper = age = kidslt6 = kidsge6 = 0 estar
trabalhando fora de casa.
Estimamos uma redução de 26, 18% da probabilidade de uma mulher
casada trabalhar fora para cada …lho com menos de 6 anos .
No entanto, a probabilidade de uma mulher casada trabalhar fora não
se altera com um …lho entre 6 e 18 anos, p-valor = 0.3244.
Estimamos um aumento de 3, 8% da probabilidade de uma mulher
casada trabalhar fora por ano de estudo.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 8 / 33


Exercício de Aplicação

Para nwifeinc = 50, exper = 5, age = 30, kidslt6 = 1 e kidsge6 = 0,

d=
inlf 0, 146 + 0, 038educ

d = 0, 5, ou seja, a probabilidade
Por exemplo, para educ = 17, inlf
estimada é de 50% de uma mulher casada com tais características
trabalhar fora.
Fazendo 0, 146 + 0, 038educ = 0, encontramos que, se
educ < 3, 8421 anos, a probabilidade estimada é negativa. Como
pode?
Fazendo 0, 146 + 0, 038educ = 1, encontramos que, se
educ > 30, 158 anos, a probabilidade estimada é maior que um.
Como pode?

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 9 / 33


Exercício de Aplicação

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 10 / 33


Exercício de Aplicação

Como
. count if yhat < 0
16

.
. count if yhat > 1
17

.
. sum yhat

Variable Obs Mean Std. Dev. Min Max

yhat 753 .5683931 .2547633 -.3451103 1.127151 ,

observamos que 33 (= 16 + 17) das 753 estimativas de y (yhat) ou 4, 3%


dos yb estão fora do intervalo [0, 1], como também mostra o histograma no
próximo slide.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 11 / 33


Exercício de Aplicação

10
8
Percentagem, %
4 2
0 6

-.5 0 .5 1
Valores estimados de y

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 12 / 33


2. Análise e Avaliação de Políticas e Programas

Variáveis binárias também podem servir para indicar se um indivíduo


(empresa, consumidor, governo,...) recebeu ou não um tratamento
ou intervenção.
Um tratamento pode ser devido a um programa estabelecido
intencionalmente, como um treinamento para o mercado de trabalho,
uma transferência de renda, ...
Um tratamento também pode ser devido ao acaso, um experimento
natural ou quase-experimento, devido a acidentes naturais, como
secas e enchentes, guerras, mudança de regime político, .....

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 13 / 33


Análise e Avaliação de Políticas e Programas

Estamos interessados em encontrar o efeito ceteris paribus de um


programa ou tratamento com o modelo

y = β0 + δ0 d + u (3)

em que y é a variável resposta, como probabilidade de sucesso,


decisão de procurar emprego,...) e d recebe 1 se recebe o tratamento,
caso contrário, recebe zero.
A questão crucial no MRLM (3) é se RLM.4. E (u jd ) = 0 é válida.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 14 / 33


Análise e Avaliação de Políticas e Programas

Por exemplo, no MRLM (3), caracter ı́sticas individuais, como


esperteza, ansiedade, determinação, tenacidade, ... que afetam y ,
estão relegadas a u.
Contudo, caracter ı́sticas individuais também afetam preferências
individuais e, assim, as escolhas sobre participar ou não do
experimento ou programa, d.
Em suma, se

caracter ı́sticas individuais


. & ,
d ! y

como Cov (d, u ) 6= 0 devido a autoseleção (self-selection),


E (u jd ) 6= 0.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 15 / 33


Análise e Avaliação de Políticas e Programas

Se for viável designar os indivíduos aleatoriamente (é ético?) para


receber ou não tratamento, eliminamos autoseleção, tal que, agora
sob RLM.4. E (u jd ) = 0, temos que

E (y jd = 1) E (y jd = 0) = δ0 ,

o efeito esperado do tratamento.


Um tratamento administrado de forma aleatório elimina a
possibilidade de autoseleção.
É possível realizar ensaios randomizados (randomized trials) em
economia? Sim, pesquisadores realizam experimentos de campo,
fornecendo aleatoriamente livros didáticos para escolas, tratamento de
água para domicílios, transferência de renda e treinamento para
indivíduos, ....

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 16 / 33


Análise e Avaliação de Políticas e Programas

É possível realizar ensaios randomizados em economia? Meio que


sim, há quase-experimentos ou experimentos naturais tal que
podemos alegar que indivíduos foram afetados de forma aleatória por
um evento.
O experimento natural de Jonh Snow (1855) é um bom exemplo.
Nesse caso, a natureza, não o pesquisador, administra aleatoriamente
o tratamento.
Muitas vezes, não é de fato viável, ético ou legal realizar ensaios
randomizados.
Ensaios randomizados, apesar de eliminarem autoseleção, ainda
podem apresentar limitações em assegurar RLM.4 devido à mudança
de hábito em resposta ao tratamento.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 17 / 33


2.1. Ensaios Randomizados Pareados

Em um experimento ou ensaio randomizado pareado os participantes


são selecionados aleatoriamente e todos recebem tratamento em
t = 1, mas não em em t = 0.
A randomização torna impossível a autoseleção.
Como envolve duas observações dos mesmos indivíduos no tempo é,
por de…nição, um estudo longitudinal, formalizado com o modelo

yit = β0 + δ0 dit + uit , i = 1, 2, ..., n; t = 0, 1. (4)

em que y é a variável resposta e d recebe 1 no pós-tratamento


quando t = 1 e zero, no pré-tratamento, quando t = 0.
Poderíamos ainda incluir efeitos …xos individuais, mas seriam não
correlacionados com participação já que a seleção é aleatória.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 18 / 33


Ensaios Randomizados Pareados

Sob RLM.4. E (u jd ) = 0,

E (y jd = 0) = β0 é a média de y no pré-tratamento

E (y jd = 1) = β0 + δ0 é a média de y no pós-tratamento
e, portanto,

E (y jd = 1) E (y jd = 0) = δ0 é o efeito do tratamento

1 A estimativa MQO b β0 é a média amostral de y no pré-tratamento ou


pré-intervenção; e
2 A estimativa MQO b δ0 é a diferença das médias amostrais de y no pós
e pré tratamento, a estimativa do efeito do tratamento nos
tratados (ETT), pois todos terão sido tratados.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 19 / 33


Ensaios Randomizados Pareados

Um exemplo de dados obtidos com um ensaio randomizado


pareado com quatro indivíduos é:

Indivíduo yit dit


1 y10 = 1 0
1 y11 = 2 1
2 y20 = 5 0
2 y21 = 8 1
3 y30 = 2 0
3 y31 = 2 1
4 y40 = 1 0
4 y41 = 8 1

b
β0 = (1 + 5 + 2 + 1)/4 = 2, 25 = y 0 e
b
δ0 = (2 + 8 + 2 + 8)/4 2, 25 = 5 2, 25 = y 1 y 0 = 2, 75, como,
de fato, estimamos a seguir com o Stata.
Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 20 / 33
Ensaios Randomizados Pareados

. reg y d, cformat(%9.2f) pformat(%5.2f) sformat(%8.2f)

Source SS df MS Number of obs = 8


F(1, 6) = 1.94
Model 15.125 1 15.125 Prob > F = 0.2130
Residual 46.75 6 7.79166667 R-squared = 0.2444
Adj R-squared = 0.1185
Total 61.875 7 8.83928571 Root MSE = 2.7914

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

d 2.75 1.97 1.39 0.21 -2.08 7.58


_cons 2.25 1.40 1.61 0.16 -1.17 5.67

yb = 2, 25 + 2, 75 d
(1,40 ) (1,97 )

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 21 / 33


2.2. Efeito Placebo

Se indivíduos são selecionados aleatoriamente, a variável hábitos


individuais não afeta participação, d.
No entanto, hábitos afeta y e, assim, está no erro do modelo (4) e
pode ainda ser afetado por d tal que E (u jd = 0) 6= E (u jd = 1) e,
assim, E (u jd ) 6= 0, RLM.4 é violada. De fato. podemos ter

hábitos
% &
d ! y

Se Indivíduos mudam hábitos em resposta ao tratamento (se d


! hábitos, hábitos é um mediador, vide Pearl, Judea. 2018. Book
of Why, páginas153, 157, 276 e 375).
O efeito do programa na probabilidade de encontrar emprego pode
também ser via mudança de hábitos (efeito placebo) e somente via
efeito direto do programa, d ! y .
Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 22 / 33
Efeito Placebo

O efeito placebo (placebo e¤ect) é controverso, mas aparentemente


ocorre em ensaios clínicos (clinical trials), quando indivíduos do grupo
controle respondem a um tratamento ou intervenção …ctícia, como
tomar uma pílula com amido ou açúcar, quando o tratamento é tomar
uma pílula com uma droga.
Por exemplo, indivíduos podem passar a se exercitar mais em resposta
ao recebimento de um medicamento para diminuir o apetite,
indivíduos podem passar a procurar emprego com mais frequência
após passarem por um programa de treinamento, ....
Uma estratégia para eliminar o efeito placebo, como no caso de
mudança de hábito, é incluir um grupo controle, um grupo que não
recebe o tratamento mesmo após a administração do tratamento.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 23 / 33


2.3. Modelo Diferença em Diferenças (DID)

Seleção aleatória dos indivíduos na amostra em t = 0, o que elimina


autoseleção, e tratamento aleatório em t = 1, o que torna possível
controlar para mudança de hábito com o modelo

yit = β0 + β Tit + β2 dit + β3 (Tit dit ) +uit , , i = 1, ..., n; t = 0, 1


| 1{z } | {z }
EF de tempo
(5)
em que y é a variável resposta, T recebe 1 no pós-tratamento
(t = 1) e zero no pré-tratamento (t = 0) e d recebe 1 se o indivíduo
é do grupo tratado e, se é do grupo controle, zero.
Poderíamos incluir efeitos …xos dos indivíduos, mas se a amostra e
tratamento são aleatórios, efeitos …xos são não correlacionados com
participação, d.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 24 / 33


Modelo Diferença em Diferenças (DID)

Sob RLM.4, como


∂E (y jd ,T ) β1 , para grupo controle
= β1 + β3 d = , o modelo
∂T β1 + β3 , para grupo tratado
controla para mudança de hábito β1 6= 0.
Sob RLM.4, como
∂E (y jd ,T ) β2 , no pré-tratamento
= β2 + β3 T = , o modelo
∂d β2 + β3 , no pós-tratamento
controla para diferenças pré-existentes entre grupos β2 6= 0.
Se o ensaio é randomizado, esperamos β2 = 0.
Se β1 = β2 = 0, esperamos β3 = δ0 do modelo (4), um experimento
pareado seria tão bom quanto um não pareado.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 25 / 33


Modelo Diferença em Diferenças (DID)

Sob RLM.4, o efeito esperado do tratamento no grupo tratado é

E (y jd = 1, T = 1) E (y jd = 1, T = 0) =

= ( β0 + β1 + β2 + β3 ) ( β0 + β2 )
= β1 + β3

ou Efeito do Tratamento nos Tratados (ETT ).

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 26 / 33


Modelo Diferença em Diferenças (DID)

Com o modelo (5) sob RLM.4, o efeito esperado do tratamento


no grupo controle ou não tratado é

E (y jd = 0, T = 1) E (y jd = 0, T = 0) =

= ( β0 + β1 ) β0
= β1 ,

o efeito placebo ou Efeito do Tratamento nos Não Tratados


(ETNT ), o qual esperaríamos que fosse zero.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 27 / 33


Modelo Diferença em Diferenças (DID)

O efeito diferença em diferenças (di¤erence in di¤erences - DID) é

ETT ETNT = ( β1 + β3 ) β1
= β3 ,

o Efeito do Tratamento (ET ).


Portanto, bβ3 é a estimativa MQO DID ou estimativa ETT líquido,
pois se trata da estimativa ETT líquido ou livre do efeito placebo.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 28 / 33


Modelo Diferença em Diferenças (DID)

Consideremos o seguinte exemplo em que os indivíduos 1 e 3 são grupo


tratado e os indivíduos 2 e 4 são grupo controle:

Indivíduo Tit dit Tit dit yit


1 0 1 0 y10 = 1
1 1 1 1 y11 = 2
2 0 0 0 y20 = 5
2 1 0 0 y21 = 8
3 0 1 0 y30 = 2
3 1 1 1 y31 = 2
4 0 0 0 y40 = 1
4 1 0 0 y41 = 8

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 29 / 33


Modelo Diferença em Diferenças (DID)

Portanto:
b (y jd = 0, T = 0) = b
E β0 , a média da variável resposta nos não
tratados no pré-tratamento, é (5 + 1)/2 = 3 => b β0 = 3.
b (y jd = 0, T = 1) = b
E β0 + b β1 , a média da variável resposta nos não
tratados no pós-tratamento, é (8 + 8)/2 = 8 => b β = 8 3 = 5.
1
b (y jd = 1, T = 0) = b
E β0 + b
β2 , a média da variável resposta nos
tratados no pré-tratamento, é
(1 + 2)/2 = 1, 5 => b β2 = 1, 5 3 = 1, 5.
b (y jd = 1, T = 1) = b
E β0 + b
β1 + b β2 + b
β3 , a média da variável
resposta nos tratados no pós-tratamento, é
(2 + 2)/2 = 2 => b β3 = 2 (3 + 5 1, 5) = 4, 5.
Como, de fato, obtemos por MQO, vide saída do Stata no próximo
slide.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 30 / 33


Diferença em Diferenças (DID)

. reg y T d Txd, cformat(%9.2f) pformat(%5.2f) sformat(%8.2f)

Source SS df MS Number of obs = 8


F(3, 4) = 8.37
Model 53.375 3 17.7916667 Prob > F = 0.0337
Residual 8.5 4 2.125 R-squared = 0.8626
Adj R-squared = 0.7596
Total 61.875 7 8.83928571 Root MSE = 1.4577

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

T 5.00 1.46 3.43 0.03 0.95 9.05


d -1.50 1.46 -1.03 0.36 -5.55 2.55
Txd -4.50 2.06 -2.18 0.09 -10.22 1.22
_cons 3.00 1.03 2.91 0.04 0.14 5.86

ybit = 3 + 5Tit 1, 5dit 4, 5 (Tit dit )

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 31 / 33


Diferença em Diferenças (DID)

Se y é pobreza do município em % e d recebe 1 se o município


participa do programa de transferência de renda.
b
β0 = 3 por cento é a pobreza média nos municípios do grupo
controle no pré-tratamento.
b
β1 = 5 pontos percentuais é a estimativa da variação na pobreza do
pré para o pós tratamento, efeito placebo ou ETNT .
Por exemplo, devido ao "…que em casa a economia a gente vê
depois", estimamos que a pobreza aumenta para 8 por cento no
grupo controle, pois 3 + 5 = 8, e para 6, 5 por cento no grupo
tratado se não tivesse recebido o tratamento (contrafactual),
pois 3 + 5 1, 5 = 6, 5.

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 32 / 33


Diferença em Diferenças (DID)

Como b β2 = 1, 5, a estimativa da pobreza no grupo tratado é 1, 5


ponto percentual menor que no grupo controle, no pré-tratamento,
mas como é não signi…cante pelo teste t (p-valor de 0, 36),
consideramos que é zero, como o esperado para uma amostra
aleatória.
b
β1 + bβ3 = 0, 5 ponto percentual é a variação prevista na pobreza dos
tratados devido ao tratamento, ETT (efeito de d ! y = 4, 5+
d ! hábitos ! y = 5).
A pobreza teria aumentado 5 pontos percentuais (efeito placebo) sem
o programa, mas aumentou apenas 0, 5 ponto percentual nos
municípios tratados.
b
β3 = 4, 5 pontos percentuais é a estimativa da variação na pobreza
devido ao programa (ET ), efeito direto d ! y .

Moisés Resende Filho (ECO/UnB) MPL e APP 17/08/2022 33 / 33

Você também pode gostar