Escolar Documentos
Profissional Documentos
Cultura Documentos
SUMARIO
Alguem possui ou não um computador pessoal; Atenção à arbitrariedade na atribuição dos valores 0 e
1 com o beneficio real de permitirem uma
Uma empresa oferece ou não certo tipo de plano de interpretação bastante natural dos parametros;
pensão a seus empregados;
2.2 Uma unica variável independente dummy 2.2 Uma unica variável independente dummy
1
3/8/2020
2.2 Uma unica variável independente dummy 2.2 Uma unica variável independente dummy
A situação pode ser descrita graficamente como um
deslocamento do intercepto entre as linhas que representam
saláriohi = β0 + δ0genero + β1educi + ui
homens e mulheres
Na equação acima, o grupo contra o qual as comparações
são feitas é conhecido por grupo base ou de referência. Neste
caso é homem (genero = 0).
Esta é a razão pela qual β 0 é o intercepto para os homens e δ0
é a diferença dos interceptos entre mulheres e homens.
A Figura mostra δ0 < 0, o que significa que os homens ganham um
Poderiamos ter escolhido as mulheres como grupo base
montante fixo por hora a mais que as mulheres. Ja que a diferença
não depende do nivel de educação. Isso explica os perfis salário- atribuindo genero = 1 se homens e genero = 0 se mulher;
educação das mulheres e dos homens serem paralelos.
2.3 Mais que uma variável independente dummy 2.3 Mais que uma variável independente dummy
2.3 Mais que uma variável independente dummy 2.4 Interpretação dos coeficientes de variáveis Dummy
explicatvas quando a variável dependente é
Assim, se compararmos uma mulher e um homem com os expressa como log(y)
mesmos niveis de educação e experiência, a mulher ganha, Consideremos agora os resultados de estimação da
em média, 1,81 dolares por hora a menos que um homem. equação salarial, usando log(salárioh) como a variável
As restantes variáveis tem uma interpretação normal de uma dependente e adicionando termos quadraticos em exper:
regressão multipla envolvendo variáveis quantitativas.
Log(salárioh) =0,417 - 0,297genero + 0,080educ + 0,029exp -0,00058exp2
(0,099) (0,036) (0,007) (0,005) (0,00010)
n = 526 R2 = 0,441
2
3/8/2020
2.5 Uso de variáveis dummy para várias categorias 2.5 Uso de variáveis dummy para várias categorias
Podemos usar diversas variáveis dummy independentes na A estimação da equação anterior forneceu os seguintes
mesma equação. resultados:
Podemos, por exemplo, adicionar a variável dummy estado Log(salárioh) = 0,123 – 0,290genero+0,079educ+0,027exper
civil (estdciv) na equação anterior com estdciv = 1 se casado (0,106) (0,036) (0,007) (0,005)
e estdciv = 0 caso contrario:
– 0,00054exper2 + 0,053estdciv
Log(salárioh) = β0 + δ0genero + β1educ + β2exper + β3exper2 (0,00011) (0,041)
+ δ1estdciv + u n = 526 R2 = 0,461
2.5 Uso de variáveis dummy para várias categorias 2.5 Uso de variáveis dummy para várias categorias
Uma limitação importante do modelo anterior é de que o Colocando as tres variáveis na equação e eliminando a variável
prémio por ser casado é assumido como o mesmo para genero (ja que passa a ser redundante) produz os seguintes
homens e mulheres. Podemos relaxar esta limitação resultados:
considerando agora diferenças salariais entre quatro grupos: Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras
homens casados, mulheres casadas, homens solteiros e (0,100) (0,055) (0,058) (0,056)
mulheres solteiras.
+ 0,079educ + 0,027exper – 0,00054exper2
Para fazermos isso, temos que seleccionar um grupo base. (0,007) (0,005) (0,00011)
Seja homens solteiros. n = 526 R2 = 0,461
De seguida devemos definir as variáveis dummy para cada
Todos os coeficientes, excepto o de msolteiras, têm estatisticas t
um dos demais grupos. Vamos chama-los hcasados,
superiores a 2 em termos absolutos. A estatistica t de msolteiras
mcasadas, e msolteiras.
esta em torno de -1,96, que é significante apenas ao nivel de 5%.
3
3/8/2020
2.5 Uso de variáveis dummy para várias categorias 2.5 Uso de variáveis dummy para várias categorias
Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras • Assim, estima-se que, ceteris paribus, os homens casados
(0,100) (0,055) (0,058) (0,056) ganhem cerca de 21,3% mais que os homens solteiros;
+ 0,079educ + 0,027exper – 0,00054exper2 • Ceteris paribus,uma mulher casada ganha 19,8% menos
que um homen solteiro, com os mesmos niveis das outras
(0,007) (0,005) (0,00011)
variáveis;
n = 526 R2 = 0,461
• Como o grupo base é representado pelo intercepto,
Sendo o grupo base o de homens solteiros, as estimativas das incluimos variáveis dummy para apenas tres dos grupos para
tres variáveis dummy medem a diferença proporcional nos não cair na armadilha da variável dummy;
salários relativamente aos homens solteiros; • Embora os homens solteiros sejam o grupo base no nosso
exemplo, podemos usar a equação para obter a diferença
estimada entre dois grupos quaisquer;
2.5 Uso de variáveis dummy para várias categorias 2.5 Interacções envolvendo variáveis dummy
Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras
(0,100) (0,055) (0,058) (0,056) Em regressão multipla, para alem de permitir diferentes
+ 0,079educ + 0,027exper – 0,00054exper2 interceptos para qualquer numero de grupos, tambem
(0,007) (0,005) (0,00011) n = 526 R2 = 0,461 existem casos de interação de variáveis dummy com
variáveis explicativas que não são dummy para permitir
uma diferença nas inclinações.
Como o intercepto global é comum a todos os grupos, podemos
ignora-lo quando procuramos diferenças; Suponha que queiramos verificar se o retorno da
educação é o mesmo para homens e mulheres,
• Assim, a diferença proporcional estimada entre as mulheres considerando um diferêncial de salários constante entre
solteiras e as casadas é:
homens e mulheres.
-0,110 – (-0,198) = 0,088
Para simplificar, incluimos somente educação e genero no
Significa que as mulheres solteiras ganham cerca de 8,8% mais modelo:
que as muheres casadas;
2.5 Interacções envolvendo variáveis dummy 2.5 Interacções envolvendo variáveis dummy
4
3/8/2020
2.5 Interacções envolvendo variáveis dummy 2.5 Interacções envolvendo variáveis dummy
O grafico (b - δ0<0 e δ1>0) ) o intercepto das mulheres esta abaixo Adicionando os termos quadraticos de experiência e
do intecepto dos homens, mas a inclinação da educação é maior permanência e estimando a equação, obtem-se os seguintes
para as mulheres. Isso significa que as mulheres ganham menos resultados:
que os homens em baixos niveis da educação mas a diferenca
diminui conforme educ aumenta. Em algum ponto, uma mulher Log(salárioh) = 0,389 - 0,227genero + 0,082educ + 0,0056genero*educ
ganhara mais que um homem, dado o mesmo nivel da educação (0,119) (0,168) (0,008) (0,0131)
(qual é esse ponto?) + 0,029exper – ,00058exper2
(0,005) (0,00011)
n = 526 R2 = 0,441
2.5 Interacções envolvendo variáveis dummy 2.5 Interacções envolvendo variáveis dummy
O retorno estimado da educação dos homens nesta equação é Tambem podemos estar interessados na hipotese de que os
0,082, ou 8,2%. salários medios são identicos para homens e mulheres que
tenham os mesmos niveis da educação;
Para muheres, o retorno é 0,082 – 0,0056 = - 0,0764, ou cerca de
7,6%; Significa que δ0 e δ1 devem ambos ser zero sob a hipotese
A diferenca (-0,56%) ou pouco mais de meio pp a menos para as nula. Para isso, precisamos usar o teste F para testar H0: δ0 = 0,
mulheres, não é economicamente grande nem estatisticamente δ1 = 0;
significativo: a estatistica t = -0,0056/0,0131 = -0,43.
Sob a H0, a estatistica F = 34,33 que e um valor muito superior
Assim, podemos concluir não haver evidência contra a hipotese comparativamente a variável aleatoria F com glnumerador = 2 e
de que o retorno da educação seja o mesmo para homens e gldenominador = 518 pelo que a hipotese nula é rejeitada.
mulheres;
2.6 Uma variável dependente binária: O Modelo de 2.6 Uma variável dependente binária: O Modelo de
probabilidade linear (MPL) probabilidade linear (MPL)
Para perceber melhor, considere o seguinte modelo de
Existem três abordagens de modelos probabilísticos de regressão linear:
variável dependente binária: (2.6.1)
Yi= β0 + β1Xi1 + ... + βkXik + u
1.Os Modelos de probabilidade linear (MPL) O modelo (2.6) parece-se a um modelo de regressão linear
2.Os Modelos logit típico, mas porque a variável dependente é uma variável
3.Os Modelos Probit binaria que assume somente um de dois valores: zero e um,
é chamado de modelo de probabilidade linear (MPL);
Por causa da sua comparativa simplicidade, e porque
podemos também estimar usando o método dos MQO, Como Y pode assumir simente dois valores, os coeficientes
vamos considerar primeiro os MPL. de regressão (βk) não podem ser interpretados como
mudanca em Y devido ao aumento em Xi mantendo fixos
todos os outros factores;
5
3/8/2020
2.6 Uma variável dependente binária: O Modelo de 2.6 Uma variável dependente binária: O Modelo de
probabilidade linear (MPL) probabilidade linear (MPL)
Se assumirmos que a hipotese de media condicional zero é Se Pi = probabilidade de que y =1 (isto é, o evento ocorre),
valida, isto é, E(u|x1 ,..., xk) = 0, entao teremos, como e (1−Pi) = a probabilidade de que y = 0 (isto é, de que o
sempre: E(y|x) = β0 + β1X1 + ... + βkXk evento não ocorre), a variável y
terá a seguinte distribuição (de probabilidade).
Onde x é uma forma abreviada que representa todas as Yi Probabilidade
0 1-Pi
variáveis explicativas. 1 Pi
Total 1
Quando y é uma variável binaria assumindo os valores zero Assim,, temos a importante equação
e um, é sempre verdade que: P(y=1|x) = E(y|x) - a (2.6.2)
P(y=1|x) = β0 + β1X1 + ... + βkXk
probabilidade de “sucesso” – isto é, a probabilidade de que
y = 1 é a mesma do valor esperado de y. Que mostra a probabilidade de sucesso, digamos p(x) =
P(y=1|x) tambem chamada de probabilidade de resposta
2.6 Uma variável dependente binária: O Modelo de 2.6 Uma variável dependente binária: O Modelo de
probabilidade linear (MPL) probabilidade linear (MPL)
Pela definição do valor esperado ou esperança matemática Uma vez que a probabilidade P deve estar entre 0 e 1,
da distribuição Binomial, se obtêm: temos a seguinte restrição:
2.6 Uma variável dependente binária: O Modelo de 2.6 Uma variável dependente binária: O Modelo de
probabilidade linear (MPL) probabilidade linear (MPL)
Nos MPL, os βi medem a variação na probabilidade de
sucesso pela variação do Xi mantendo outros factores Exemplo
constantes. Tecnicamente:
∆P(y = 1|x) = βj∆xj Considere os dados sobre a
(2.6.5) posse de casa (y=1 se possui e y
Se escrevermos a equação estimada como = 0 se não possui) e renda familiar
Y^ = β^0 + β^ 1x1 + ... + β^ kxk de 40 familias. Com base nos
dados, foi ajustado o seguinte
Temos que nos lembrar que y^ é a probabilidade de MPL:
sucesso prevista.
O coeficiente de inclinação β^1 mede a mudança prevista y = β0 + β1x1 + ɛ
na probabilidade de sucesso quando x1 aumenta em uma
unidade.
6
3/8/2020
2.6 Uma variável dependente binária: O Modelo de 2.6 O Modelo de probabilidade linear (MPL): Exemplo
probabilidade linear (MPL)
O coeficiente de inclinação de 0.1021 significa que por uma
Tendo fornecido os seguintes resultados: variação na renda (aumento em $1000) em média a
probabilidade de possuir uma casa aumenta em 0.1021 ou 10,2%.
Yi 0.9457 0.10213 X i
Também, a partir dos resultados de regressão obtidos, podemos
(0.123) (0.0082 ) R 2 0.805 estimar a probabilidade actual de possuir casa para um dado
nível da renda.
Interpretação:
O intercepto de −0.9457 fornece a “probabilidade’’ de que Assim, para x = 12 ($12000), a probabilidade estimada de possuir
uma familia com rendimento zero possua casa. Dado que casa é de:
é negativo, e dado que a probabilidade nunca pode ser E (Yi | X 12) 0.9457 0.10213 * (12)
negativa, considera-se este valor como zero, o que é 0.2795
plausivel no presente caso.
Isto é, a probabilidade de que uma familia com renda de $12 000
possua casa é de cerca de 28%.
• Funciona como um modelo de regressão linear normal, mas • Heteroscedasticidade dos termos erro: porque para a
muda a interpretação porque agora Y é binária. distribuição binomial, a média e variância são respectivamente
nP e np(1− p), o que mostra que a variância é uma função da
• Um valor previsto de Y (Y-chapeu) é a previsão da
média. Por conseguinte, o termo erro é heteroscedastico;
probabilidade de que a variável dependente é igual a um,
dado X. • Possibilidade de não satisfazer a restrição: Dado que E(Yi|X) nos
MPL mede a probabilidade condicional de Y dado X, se
• Um coeficiente é a variação na probabilidade de que Y =1 encontre entre 0 e 1, não ha garantias de que isso possa
para uma variação unitária da variável independente de necessaraimente ocorrer;
interesse, mantendo tudo o resto constante.
• Os MPL assumem dependência linar entre Y e X;
• Não normalidade do termo erro: Porque, tal como Y, o termo
O problema fundamental com os MPL é de que não serem
erro toma somente dois valores, ou seja, tambem seguem a
logicamente muito atractivos, porque assumem que Pi = E(Y =
distribuição binomial; 1|X) aumenta linearmente com X, isto é, o efeito ou incremento
marginal de X mantem-se constante.