Você está na página 1de 42

Introdução à Econometria

Aula19: ARM_Variáveis Binárias2 -Modelo com


Interação

Paulo Loureiro

Departamento de Economia
Universidade de Brasília-UnB
pauloloureiro@unb.br
https://sites.google.com/site/praloureiro/
Aula 19: ARM_Variáveis Binárias2-Modelo com Interação.
Este slide é baseado em Wooldrigde, J. (2011)- Introdução À Econometria:uma
abordagem moderna.

1 / 42
Introdução À Econometria

2 / 42
Consideração de Inclinações Diferentes

∗ Existem casos de interação de variáveis dummy com variáveis


explicativas que não são dummy para permitir uma diferença
nas inclinações.
∗ Suponha que queiramos verificar se o retorno da educação é o
mesmo para homens e mulheres, considerando um diferencial
de salários constante entre homens e mulheres.
∗ Que tipo de modelo leva em conta retornos diferentes em
educação? Considere o modelo
log(salárioh) = (β0 + δ0 feminino) + (β1 + δ1 feminino)educ + µ (7.16)
P/ feminino=0:
Homens: intercepto: β0 e inclinação : β1
Mulheres: intercepto (β0 + δ0 ) e inclinação(β1 + δ1 )
δ0 : diferença nos interceptos entre mulheres e homens.
δ1 : diferença no retorno da educação entre sexos.

3 / 42
Considere o Modelo com uma Interação entre Feminino e
Educ

• (1) β0M < β0H , e β1M < β1H . Isso significa que as mulheres
ganham menos que os homens em todos os níveis de
educação, e a diferença aumenta conforme educ se torna
maior.
• (2) β0M < β0H , mas β1M < β1H .. Isso significa que as mulheres
ganham menos que os homens em baixos níveis de educação,
mas a diferença diminui conforme a educação aumenta.
• Em algum ponto, uma mulher ganhará mais que um homem,
dado o mesmo nível de educação.
log(salárioh) = β0 + δ0 feminino + β1 educ + δ1 feminino.educ + µ (7.17)

4 / 42
Gráfico da Eq.(7.16): (a) δ < 0, δ1 < 0; (b)δ < 0, δ1 > 0

5 / 42
Modelo com uma Interação entre Feminino e Educ

∗ Uma hipótese importante é que o retorno da educação é o


mesmo para mulheres e homens. H0 : δ1 = 0,

∂log(salárish|feminino, educ)
= β1 + δ1 feminino.
∂educ
Esta hipótese não fez nenhuma restrição sobre a diferença nos
interceptos, δ0 .
Um diferencial de salários entre homens e mulheres é admitido
nessa hipótese nula, mas ele deve ser o mesmo em todos os
níveis de educação.

6 / 42
Modelo com uma Interação entre Feminino e Educ

∗ Estamos interessados na hipótese de que os salários médios


são idênticos para homens e mulheres que tenham os mesmos
níveis de educação.

∂log(salárish|feminino, educ)
= β1 + δ1 educ
∂feminino
. Isso significa que H0 : δ0 = δ1 , usa-se o teste F, na equação
(7.17).
∗ No modelo com apenas uma diferença de interceptos,
rejeitamos essa hipótese, pois H0 : δ0 = 0 é completamente
rejeitada contra H1 : δ0 < 0.

7 / 42
Exemplo 7.10 (Equação do Log dos Salários-Hora)

O retorno estimado da educação dos homens nesta equação é


0,082, ou 8,2%.
Para mulheres, o retorno é 0,082 - 0,0056 = 0,0764, ou cerca de
7,6%.
A diferença, -0,56%, a menos para as mulheres, não é
economicamente grande nem estatisticamente significante: a
estatística t é -0,0056/0,0131 = - 0,43.
8 / 42
Análise do Modelo com uma Interação entre Feminino e
Educ
∗ Não há nenhuma evidência contra a hipótese de que o retorno
à educação é o mesmo para homens e mulheres.
∗ Observando os dois resultados da eq(7.10) e eq(7.09):

β̂1M = −227 e t = −1, 35, eq(7.10)

β̂1M = −0, 297 e t = −8, 25, eq(7.10)


.
∗ Devemos agora concluir que não existe evidência
estatisticamente significante de salários mais baixos para
mulheres nos mesmos níveis de educ, exper e perm?
∗ Não.
M
∗ Como adicionamos a interação β̂fem×educ à eq(7.10), β̂educ é
agora estimado com muito menos precisão do que na equação
M
(7.9): β̂educ ↑≈ 5 × (0, 168/0, 036 = 4, 67).
9 / 42
Exemplo 7.10 (Equação do Log dos Salários-Hora)

10 / 42
Exemplo 7.10 (Equação do Log dos Salários-Hora)

11 / 42
Análise do Modelo com uma Interação entre Feminino e
Educ

A razão disto é que feminino e fem × educ são altamente


correlacionados na amostra.

Neste exemplo, existe uma maneira proveitosa de pensar sobre a


multicolinearidade: na equação (7.17) e na equação mais geral
estimada em (7.18), δ0 , mede o diferencial de salários entre
mulheres e homens quando educ = 0.

12 / 42
Análise do Modelo com uma Interação entre Feminino e
Educ

∗ ∈
/ educ ≈ 0, não é surpreendente que temos muito trabalho
para estimar o diferencial em educ = O.
∗ Mais interessante seria estimar o diferencial por gênero no,
digamos, nível médio de educação da amostra (cerca de 12,5).

13 / 42
Análise do Modelo com uma Interação entre Feminino e
Educ

∗ Para fazer isso temos que substituir feminino × educ por


feminino-(educ - 12,5) e computar novamente a regressão;
isso muda apenas o coeficiente de feminino e seu erro-padrão.

14 / 42
Exemplo 7.11 (Efeitos da Raça sobre os Salários dos
Jogadores de Beisebol)

∗ Algumas vezes, queremos testar a H0 : hipótese nula de que


duas populações, ou grupos, seguem a mesma função de
regressão, contra a Ha : de que uma ou mais das inclinações
diferem entre os grupos.
∗ Suponha que queiramos testar se o mesmo modelo de
regressão descreve a nota média no curso superior de atletas
universitários masculinos e femininos. A equação é

nmgradac = β0 + β1 sat + β2 emperc + β3 tothrs + µ

onde sat é a nota obtida no exame de ingresso em curso


superior; emperc é o percentil da classificação no ensino
médio; e tothrs é o total de horas do curso superior.

15 / 42
Verificação de Diferenças nas Funções de Regressão entre
Grupos

• Se estivermos interessados em verificar se existe qualquer


diferença entre homens e mulheres, então devemos admitir um
modelo no qual o intercepto e todas as inclinações possam ser
diferentes entre os grupos:

nmgradac = β0 +δ0 feminino+β1 sat +δ1 feminino×sat +β2 emperc+

δ2 feminino × emperc + β3 tothrs + δ3 feminino × tothrs + µ (7.20)

O parâmetro δ0 é a diferença nos interceptos entre mulheres e


homens;
δ1 , é a diferença de inclinações em relação a sat entre mulheres e
homens.

16 / 42
Verificação de Diferenças nas Funções de Regressão entre
Grupos
A hipótese nula de que nmgradac segue o mesmo modelo para
homens e mulheres:

H0 : δ0 = 0, δ1 = 0, δ2 =, δ3 = 0. (7.21)
Se um dos δj 6= 0 ⇒ os modelos são 6= para H e M.

Usando os dados do arquivo GPA3.RAW, o modelo irrestrito é:

17 / 42
O Modelo Irrestrito

18 / 42
Maneira alternativa de calcular a estatística F no caso dado

∗ Maneira alternativa de calcular a estatística F no caso dado, é


estimar regressões separadas para homens e mulheres; o SQR
irrestrito é dado pela soma do SQSR dessas duas regressões.
∗ Estimar regressão para o modelo restrito e armazene o SQR
∗ Se o teste for calculado dessa maneira, ele é chamado de
Chow-Test.
∗ Importante: o teste assume variância de erro constante:
homocedaticidade, entre os grupos

19 / 42
Verificação de Diferenças nas Funções de Regressão entre
Grupos

Para calcular a estatística F deve-se estimar o modelo restrito, que


resulta da eliminação de feminino e de todas as interações. O
Modelo Restrito é:
nmgradac = β0 + β1 sat + β2 emperc + β3 tothrs + µ (7.20.A)

De modo que a estatística F ≈ 8.14: o p-valor é zero até cinco


casas decimais, o que nos leva a rejeitar completamente (7.21)
Assim, os modelos que especificam grada de atletas masculinos e
femininos são diferentes.

20 / 42
O Modelo Restrito

21 / 42
Verificação de Diferenças nas Funções de Regressão entre
Grupos

∗ O grande erro-padrão da variável feminino e os termos de


interação tornam difícil dizer com precisão como diferem
homens e mulheres.
∗ Se olharmos somente a variável feminino, concluiremos
erroneamente que umgrudac é cerca de 0,353 menor para
mulheres do que para homens, mantendo fixos os outros
fatores.
∗ Esta é a diferença estimada somente quando sat, emperc e
tothrs são definidas como zero, o que não é um cenário
interessante.

22 / 42
Verificação de Diferenças nas Funções de Regressão entre
Grupos

∗ Com sat = 1.100, emperc = 10 e tothrs = 50 a diferença


prevista entre uma mulher e um homem é

= −0, 353+0, 00075(1.100)−0, 00055(10)−0, 00012(50) = 0, 461.

Ou seja, é possível prever que a atleta feminina tem nmgradac


quase meio ponto mais alta que um atleta masculino nas
mesmas condições.

23 / 42
24 / 42
Estima o modelo com dados para homens e mulheres

25 / 42
O Teste de Chow

∗ Uma limitação importante do teste de Chow,


independentemente do método usado para implementá-lo, é a
hipótese nula não permitir nenhuma diferença entre os grupos.
∗ Em muitos casos, é mais interessante considerar uma
diferença nos interceptos entre os grupos e depois verificar as
diferenças das inclinações; vimos uma ilustração disso na
equação salarial no Exemplo 7.10.
∗ Há duas maneiras de fazermos com que os interceptos difiram
sob a hipótese nula.
∗ Uma delas é incluir a dummy do grupo e todos os termos de
interação, como na equação (7.22), mas apenas testar a
significância conjunta dos termos de interação.

26 / 42
O Teste de Chow

∗ Estima-se uma regressão agrupada e apenas incluímos as


variáveis dummy que distinguem os dois grupos.
∗ No exemplo da nota média do curso superior, fazemos a
regressão de nmgradac sobre feminino, sat, emperc e tothrs,
usando os dados dos alunos-atletas femininos e masculinos.

27 / 42
O Teste de Chow
∗ No exemplo de nmgradac, usamos o primeiro método, e assim
a hipótese nula é H0 : δ0 = 0, δ1 = 0, δ2 =, δ3 = 0. na equação
(7.20). (δ0 , não é restrita sob a hipótese nula.)

A estatística F para essas três restrições está em torno de 1,53, o


que produz um p-valor igual a 0,205. Portanto, não rejeitamos a
hipótese nula.
28 / 42
Uma Variável Dependente Binária: O Modelo de
Probabilidade Linear
A Variável dependente é uma dummy (0,1)

Por exemplo, y pode ser definido para indicar se um adulto


concluiu ensino médio; y pode indicar se um aluno do curso
superior usou drogas ilegais durante determinado ano escolar.

Yi = 1 p/ Presença de um atributo;

Yi = 0 p/ Ausência de um atributo

y = β0 + β1 x+ ... + βk xk + µ. (7.26)

Se assumirmos que a hipótese de média condicional zero RLM.3 é


válida, isto é, E (u|x1 , ..., xk ) = 0, então teremos, como sempre,

E (y |x ) = β0 + β1 x+ ... + βk xk

29 / 42
Uma Variável Dependente Binária: O Modelo de
Probabilidade Linear

O ponto principal é que, quando y é uma variável binária (0,1), é


sempre verdade que P(y = 1|x ) = E (y |x ): a probabilidade de
"sucesso"- isto é, a probabilidade de que y=1-é a mesma do valor
esperado de y. Então, temos a equação

P(y = 1|x ) = β0 + β1 x+ ... + βk xk (7.27)


P(y = 1|x ) é chamado de probabilidade de resposta.

que mostra a probabilidade de sucesso, p(x ) = P(y = 1|x ), uma


função linear de xj . Como a soma das probabilidades deve ser um,
P(y = 0|x ) = 1 − P(y = 1|x ) também é uma função linear de xj .

30 / 42
Uma Variável Dependente Binária: O Modelo de
Probabilidade Linear
O modelo de regressão linear múltipla com uma variável
dependente binária é chamado de modelo de probabilidade linear
(MPL) porque a probabilidade de resposta é linear nos parâmetros
βj . No MPL, βj mede a mudança na probabilidade de sucesso
quando xJ muda, mantendo fixos os outros fatores:

∆P(y = 1|x ) = βj ∆xj (7.28)

Suponha a equação estimada: ŷ = β̂0 + β̂1 x+ ... + β̂k xk


∗ ŷ é a probabilidade de sucesso prevista;
∗ βj é a probabilidade de sucesso prevista quando cada xj é
definido como zero, o que pode, ou não, ser interessante.
∗ O coeficiente de inclinação β̂1 , mede a mudança prevista na
probabilidade de sucesso quando xj , aumenta em uma
unidade.
31 / 42
Mroz (1987) MPL: 428 das 753 mulheres na força de
trabalho do ano de 1975:

∗ y=naft = 1 se a mulher informar ter trabalhado com


remuneração fora de casa em algum período no ano, e zero,
caso contrário;
∗ nesprend=a renda do marido (expressa em milhares de
dólares);
∗ exper=experiência anterior no mercado de trabalho;
∗ idade;
∗ educ=anos de estudo educ;
∗ crianmed6=número de filhos menores de seis anos;
∗ crianma6=número de filhos entre 6 e 18 anos;

32 / 42
Equação 7.29 Mercado de Trabalho

33 / 42
Equação 7.29 Mercado de Trabalho

34 / 42
Equação 7.29 Mercado de Trabalho

35 / 42
Equação 7.29 Mercado de Trabalho

36 / 42
Equação 7.29 Mercado de Trabalho

37 / 42
Equação 7.29 Mercado de Trabalho

38 / 42
Equação 7.29 Mercado de Trabalho

∗ Aumentando em mais um ano de educação da mulher,


aumenta a probabilidade de participação na força de trabalho
em 0,038 ou 3, 8% , ceteris paribus;
∗ mais dez anos de educação aumentarão a probabilidade de
estar na força de trabalho em 0,038(10) = 0,38, o que é um
aumento bastante grande em uma probabilidade.
∗ As outras variáveis independentes são fixadas nos valores
nesprend = 50, exper = 5, idade = 30, criamed6 = 1 e
crianma6 = 0, para fins ilustrativos.
∗ nalft = 0, 146 + 0, 038educ

39 / 42
Equação 7.29 Mercado de Trabalho

∗ A probabilidade prevista é negativa até que o nível de


educação iguale 3,84 anos.
∗ Porque, na amostra, nenhuma mulher tem menos de cinco
anos de estudo.
∗ O nível de educação mais alto informado é de 17 anos, e isso
leva a uma probabilidade prevista de 0,5.
∗ Por exemplo, para educ = 17, naft = 0, 5, a probabilidade
estimada é de 50% de uma mulher casada trabalhar fora.
Contudo, o efeito marginal de mais um ano de educação na
probabilidade de participação na força de trabalho será sempre
0,038.

40 / 42
Participação Feminina no Mercado de Trabalho de
Mulheres Casadas

41 / 42
O Modelo de Probabilidade Linear
∗ Um problema relacionado é que a probabilidade não pode ser
linearmente relacionada com as variáveis independentes em
todos os seus possíveis valores. Por exemplo, a equação (7.29)
prevê que o efeito de passar de zero filho para um filho menor
de seis anos reduz a probabilidade de trabalhar em 0,262.
∗ Essa também é a redução se a mulher passar de um filho para
dois. Pareceria mais realista que o primeiro filho reduzisse a
probabilidade em grande escala, enquanto os filhos
subseqüentes tivessem um efeito marginal menor.
∗ De fato, quando levada ao extremo, a equação (7.29) sugere
que passar de zero para quatro filhos reduz a probabilidade de
trabalhar em
ˆ = 0, 262(∆crianmed6) = 0, 262(4) = 1, 048, 0 que é
∆naft
impossível.
∗ Mesmo com esses problemas, o modelo de probabilidade linear
é útil e freqüentemente aplicado em economia. Normalmente,
ele funciona bem com os valores das variáveis independentes
que estejam próximos das médias na amostra. 42 / 42

Você também pode gostar