Aula #2 Regressao Com Variaveis Qualitativas

3/8/2020
SUMARIO
2.1 Descrição da informação qualitativa
2.2 Uma unica variável independente Dummy

TEMA #2
Análise de Regressão Múltipla com 2.3 Mais que uma variável independente dummy
Informações Qualitativas 2.4 Uso de variáveis Dummy para várias categorias;
2.5 Interacções envolvendo variáveis Dummy;
2.6 Uma variável dependente binária: O Modelo de

probabilidade linear;
2.1 A Descrição da informação qualitativa 2.1 A Descrição da informação qualitativa
Factores qualitativos aparecem frequentemente na

forma de informação binaria. O método de “quantificar” tais variáveis é construindo
variáveis artificiais que toma valores 1 ou 0;
 Uma pessoa é do genero feminino ou masculino; É
da religião A ou não; É de raça branca ou não; É da Tais variáveis binarias são em geral chamadas variáveis
região B ou não; É casada ou não; etc. dummy;
 Alguem possui ou não um computador pessoal; Atenção à arbitrariedade na atribuição dos valores 0 e
1 com o beneficio real de permitirem uma
 Uma empresa oferece ou não certo tipo de plano de interpretação bastante natural dos parametros;
pensão a seus empregados;
 Uma pessoa tem idade entre 20-35 vs pessoas com

idade superior a 35, etc.;
2.2 Uma unica variável independente dummy 2.2 Uma unica variável independente dummy
Consideremos o seguinte modelo de determinação de Assumindo a hipotese de média condicional zero,

salários por hora (salárioh): E(u/genero, educ) = 0, ent ão:
saláriohi = β0 + δ0genero + β1educi + ui δ0 = E(salárioh|genero=1,educ) – E(salário|genero=0,educ)
Onde genero = 1 se é mulher e genero = 0 se é homem; Sendo genero = 1 se é mulher e genero = 0 se é homem,
Somente dois factores observados afectam os salários: podemos escrever a expressão acima de forma mais
genero e educação; simples:
Como a variável genero = 1 se é mulher e genero = 0 se é δ0 = E(salárioh|mulher,educ) – E(salárioh|homem,educ)
homem, a variável δ0 é a diferença no salário por hora O importante aqui é que o nivel de educação é o mesmo
entre mulheres e homens, dado o mesmo grau de
em ambas as expectativas; a diferenç a δ0 deve-se
educação;
somente ao género;
1
3/8/2020
2.2 Uma unica variável independente dummy 2.2 Uma unica variável independente dummy
A situação pode ser descrita graficamente como um
deslocamento do intercepto entre as linhas que representam
saláriohi = β0 + δ0genero + β1educi + ui
homens e mulheres
Na equação acima, o grupo contra o qual as comparações
são feitas é conhecido por grupo base ou de referência. Neste
caso é homem (genero = 0).
Esta é a razão pela qual β 0 é o intercepto para os homens e δ0
é a diferença dos interceptos entre mulheres e homens.
A Figura mostra δ0 < 0, o que significa que os homens ganham um
Poderiamos ter escolhido as mulheres como grupo base
montante fixo por hora a mais que as mulheres. Ja que a diferença
não depende do nivel de educação. Isso explica os perfis salário- atribuindo genero = 1 se homens e genero = 0 se mulher;
educação das mulheres e dos homens serem paralelos.
2.3 Mais que uma variável independente dummy 2.3 Mais que uma variável independente dummy
Nada mais muda quando mais variáveis explicativas são

Utilizando os dados contidos no arquivo WAGE1.RAW foi
incluidas. Considerando os homens como o grupo base
estimado o modelo anterior que forneceu os seguintes
(genero=1 se mulher), um modelo que controla a
resultados:
experiência alem da educação seria: salárioh = -1,607 - 1,813genero + 0,575educ + 0,026exp
(0,727) (0,266) (0,0495) (0,012)
saláriohi = β0 + δ0genero + β1educi + β2experi + ui
n = 526 R2 = 0,364
O intercepto negativo (-1,607) – o intercepto para os
Se educ e exper forem todas caracteristicas da
homens, neste caso – não tem significado economico.
produtividade, a hipotese nula de não-existência de
diferença entre homens e mulheres será H0: δ0 = 0. A O coeficiente associado ao genero (-1,813) regista a
hopotese alternativa de que existe discriminação contra diferença média no salário por hora entre uma mulher e um
mulheres será : H1: δ0 < 0. homem, dados os mesmos niveis de educ e exper.
2.3 Mais que uma variável independente dummy 2.4 Interpretação dos coeficientes de variáveis Dummy
explicatvas quando a variável dependente é
Assim, se compararmos uma mulher e um homem com os expressa como log(y)
mesmos niveis de educação e experiência, a mulher ganha, Consideremos agora os resultados de estimação da
em média, 1,81 dolares por hora a menos que um homem. equação salarial, usando log(salárioh) como a variável
As restantes variáveis tem uma interpretação normal de uma dependente e adicionando termos quadraticos em exper:
regressão multipla envolvendo variáveis quantitativas.
Log(salárioh) =0,417 - 0,297genero + 0,080educ + 0,029exp -0,00058exp2
(0,099) (0,036) (0,007) (0,005) (0,00010)
n = 526 R2 = 0,441
2
3/8/2020
2.4 Interpretação dos coeficientes de variáveis Dummy

2.4 Variável dependente é expressa como log(y) - contin
explicatvas quando a variável dependente é
expressa como log(y) Log(salárioh) =0,417 - 0,297genero + 0,080educ + 0,029exp - 0,00058exp2
Log(salárioh) =0,417 - 0,297genero + 0,080educ + 0,029exp - 0,00058exp2 (0,099) (0,036) (0,007) (0,005) (0,00010)
(0,099) (0,036) (0,007) (0,005) (0,00010) n = 526 R2 = 0,441
n = 526 R2 = 0,441 A partir dos resultados da regressão anterior, teremos:
O coeficiente do genero implica que, para os mesmos niveis de Log(saláriohM) – log(saláriohH) = 0,297
educ e exper, as mulheres ganham cerca de 100(0,297) = 29,7% a
menos que os homens. Fazendo a exponênciação e a subtração temos:
(salárioM – salárioH) / saláriohH = exp(-0,297) – 1 ≈ -0,257
Podemos fazer melhor que isso se computarmos a diferença
percentual exacta nos salários previstos. A diferença percentual
Esta estimativa mais exacta implica que o salário de uma mulher
exacta nos salários entre mulheres e homens, mantendo fixos
é, em média, 25,7% menor que o salário de um homem nas
todos os outros factores: (saláriohM – saláriohH) / saláriohH
mesmas condições.
2.5 Uso de variáveis dummy para várias categorias 2.5 Uso de variáveis dummy para várias categorias
Podemos usar diversas variáveis dummy independentes na A estimação da equação anterior forneceu os seguintes
mesma equação. resultados:
Podemos, por exemplo, adicionar a variável dummy estado Log(salárioh) = 0,123 – 0,290genero+0,079educ+0,027exper
civil (estdciv) na equação anterior com estdciv = 1 se casado (0,106) (0,036) (0,007) (0,005)
e estdciv = 0 caso contrario:
– 0,00054exper2 + 0,053estdciv
Log(salárioh) = β0 + δ0genero + β1educ + β2exper + β3exper2 (0,00011) (0,041)
+ δ1estdciv + u n = 526 R2 = 0,461
O coeficiente da variável estdciv fornece o diferêncial

proporcional (aproximado) nos salários entre aqueles que Assim, o “prémio” por ser casado é estimado em torno de
são, ou não casados, mantendo fixos o genero, educ e 5,3%. Porém, é estatisticamente insignificante (t=1,29).
exper;
Uma limitação importante do modelo anterior é de que o Colocando as tres variáveis na equação e eliminando a variável
prémio por ser casado é assumido como o mesmo para genero (ja que passa a ser redundante) produz os seguintes
homens e mulheres. Podemos relaxar esta limitação resultados:
considerando agora diferenças salariais entre quatro grupos: Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras
homens casados, mulheres casadas, homens solteiros e (0,100) (0,055) (0,058) (0,056)
mulheres solteiras.
+ 0,079educ + 0,027exper – 0,00054exper2
Para fazermos isso, temos que seleccionar um grupo base. (0,007) (0,005) (0,00011)
Seja homens solteiros. n = 526 R2 = 0,461
De seguida devemos definir as variáveis dummy para cada
Todos os coeficientes, excepto o de msolteiras, têm estatisticas t
um dos demais grupos. Vamos chama-los hcasados,
superiores a 2 em termos absolutos. A estatistica t de msolteiras
mcasadas, e msolteiras.
esta em torno de -1,96, que é significante apenas ao nivel de 5%.
3
3/8/2020
Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras • Assim, estima-se que, ceteris paribus, os homens casados
(0,100) (0,055) (0,058) (0,056) ganhem cerca de 21,3% mais que os homens solteiros;
+ 0,079educ + 0,027exper – 0,00054exper2 • Ceteris paribus,uma mulher casada ganha 19,8% menos
que um homen solteiro, com os mesmos niveis das outras
(0,007) (0,005) (0,00011)
variáveis;
n = 526 R2 = 0,461
• Como o grupo base é representado pelo intercepto,
Sendo o grupo base o de homens solteiros, as estimativas das incluimos variáveis dummy para apenas tres dos grupos para
tres variáveis dummy medem a diferença proporcional nos não cair na armadilha da variável dummy;
salários relativamente aos homens solteiros; • Embora os homens solteiros sejam o grupo base no nosso
exemplo, podemos usar a equação para obter a diferença
estimada entre dois grupos quaisquer;
2.5 Uso de variáveis dummy para várias categorias 2.5 Interacções envolvendo variáveis dummy
Log(salárioh) = 0,321 + 0,213hcasados - 0,198mcasadas - 0,110msolteiras
(0,100) (0,055) (0,058) (0,056) Em regressão multipla, para alem de permitir diferentes
+ 0,079educ + 0,027exper – 0,00054exper2 interceptos para qualquer numero de grupos, tambem
(0,007) (0,005) (0,00011) n = 526 R2 = 0,461 existem casos de interação de variáveis dummy com
variáveis explicativas que não são dummy para permitir
uma diferença nas inclinações.
Como o intercepto global é comum a todos os grupos, podemos
ignora-lo quando procuramos diferenças; Suponha que queiramos verificar se o retorno da
educação é o mesmo para homens e mulheres,
• Assim, a diferença proporcional estimada entre as mulheres considerando um diferêncial de salários constante entre
solteiras e as casadas é:
homens e mulheres.
-0,110 – (-0,198) = 0,088
Para simplificar, incluimos somente educação e genero no
Significa que as mulheres solteiras ganham cerca de 8,8% mais modelo:
que as muheres casadas;
2.5 Interacções envolvendo variáveis dummy 2.5 Interacções envolvendo variáveis dummy
O grafico (a - δ0<0 e δ1<0) mostra o caso em que o intercepto das

Consideremos o seguinte modelo:
mulheres esta abaixo do intecepto dos homens enquanto que a
inclinação da linha é menor para as mulheres do que para os
Log(salárioh) = β0 + δ0genero + β1educ + δ1genero*educ + u homens em todos os niveis da educação.
Isso significa que as mulheres ganham menos que os homens em
Se fizermos genero = 0, veremos que o intercepto de todos os niveis da educação e a diferenca aumanta conforme
homens é β 0, enquanto a inclinação na educação dos educ se torna maior.
homens é β1.
Para as mulheres, usamos genero = 1; Assim, o intercepto
para mulheres sera β0 + δ0 e a inclinação sera β1 + δ1;
Assim, δ0 mede a diferença nos interceptos entre homens e
mulheres, enquanto que δ1 mede a diferença no retorno
da educação entre mulheres e homens;
4
3/8/2020
O grafico (b - δ0<0 e δ1>0) ) o intercepto das mulheres esta abaixo Adicionando os termos quadraticos de experiência e
do intecepto dos homens, mas a inclinação da educação é maior permanência e estimando a equação, obtem-se os seguintes
para as mulheres. Isso significa que as mulheres ganham menos resultados:
que os homens em baixos niveis da educação mas a diferenca
diminui conforme educ aumenta. Em algum ponto, uma mulher Log(salárioh) = 0,389 - 0,227genero + 0,082educ + 0,0056genero*educ
ganhara mais que um homem, dado o mesmo nivel da educação (0,119) (0,168) (0,008) (0,0131)
(qual é esse ponto?) + 0,029exper – ,00058exper2
(0,005) (0,00011)
n = 526 R2 = 0,441
O retorno estimado da educação dos homens nesta equação é Tambem podemos estar interessados na hipotese de que os
0,082, ou 8,2%. salários medios são identicos para homens e mulheres que
tenham os mesmos niveis da educação;
Para muheres, o retorno é 0,082 – 0,0056 = - 0,0764, ou cerca de
7,6%; Significa que δ0 e δ1 devem ambos ser zero sob a hipotese
A diferenca (-0,56%) ou pouco mais de meio pp a menos para as nula. Para isso, precisamos usar o teste F para testar H0: δ0 = 0,
mulheres, não é economicamente grande nem estatisticamente δ1 = 0;
significativo: a estatistica t = -0,0056/0,0131 = -0,43.
Sob a H0, a estatistica F = 34,33 que e um valor muito superior
Assim, podemos concluir não haver evidência contra a hipotese comparativamente a variável aleatoria F com glnumerador = 2 e
de que o retorno da educação seja o mesmo para homens e gldenominador = 518 pelo que a hipotese nula é rejeitada.
mulheres;
2.6 Uma variável dependente binária: O Modelo de 2.6 Uma variável dependente binária: O Modelo de
probabilidade linear (MPL) probabilidade linear (MPL)
Para perceber melhor, considere o seguinte modelo de
Existem três abordagens de modelos probabilísticos de regressão linear:
variável dependente binária: (2.6.1)
Yi= β0 + β1Xi1 + ... + βkXik + u
1.Os Modelos de probabilidade linear (MPL) O modelo (2.6) parece-se a um modelo de regressão linear
2.Os Modelos logit típico, mas porque a variável dependente é uma variável
3.Os Modelos Probit binaria que assume somente um de dois valores: zero e um,
é chamado de modelo de probabilidade linear (MPL);
Por causa da sua comparativa simplicidade, e porque
podemos também estimar usando o método dos MQO, Como Y pode assumir simente dois valores, os coeficientes
vamos considerar primeiro os MPL. de regressão (βk) não podem ser interpretados como
mudanca em Y devido ao aumento em Xi mantendo fixos
todos os outros factores;
5
3/8/2020
Se assumirmos que a hipotese de media condicional zero é Se Pi = probabilidade de que y =1 (isto é, o evento ocorre),
valida, isto é, E(u|x1 ,..., xk) = 0, entao teremos, como e (1−Pi) = a probabilidade de que y = 0 (isto é, de que o
sempre: E(y|x) = β0 + β1X1 + ... + βkXk evento não ocorre), a variável y
terá a seguinte distribuição (de probabilidade).
Onde x é uma forma abreviada que representa todas as Yi Probabilidade
0 1-Pi
variáveis explicativas. 1 Pi
Total 1
Quando y é uma variável binaria assumindo os valores zero Assim,, temos a importante equação
e um, é sempre verdade que: P(y=1|x) = E(y|x) - a (2.6.2)
P(y=1|x) = β0 + β1X1 + ... + βkXk
probabilidade de “sucesso” – isto é, a probabilidade de que
y = 1 é a mesma do valor esperado de y. Que mostra a probabilidade de sucesso, digamos p(x) =
P(y=1|x) tambem chamada de probabilidade de resposta
Pela definição do valor esperado ou esperança matemática Uma vez que a probabilidade P deve estar entre 0 e 1,
da distribuição Binomial, se obtêm: temos a seguinte restrição:
E(y|x) = 0(1-P) + 1(P) = P (2.6.3) 0 <= E(y|x) <= 1

Isto é, a probabilidade condicional deve estar entre 0 e 1.
Comparando (5.2) com (5.3), podemos igualar
A regressão linear multipla com variável dependente binária
E(y|x) = β0 + β1X1 + ... + βkXk = P (2.6.4) é chamado de Modelos de Probabilidade Linear (MPL)
porque a resposta probabilística é linear nos parâmetros β i.
Isto é, a esperança condicional do modelo (2.6.2) pode, de
facto, ser interpretado como a probabilidade condicional de
y.
Nos MPL, os βi medem a variação na probabilidade de
sucesso pela variação do Xi mantendo outros factores Exemplo
constantes. Tecnicamente:
∆P(y = 1|x) = βj∆xj Considere os dados sobre a
(2.6.5) posse de casa (y=1 se possui e y
Se escrevermos a equação estimada como = 0 se não possui) e renda familiar
Y^ = β^0 + β^ 1x1 + ... + β^ kxk de 40 familias. Com base nos
dados, foi ajustado o seguinte
Temos que nos lembrar que y^ é a probabilidade de MPL:
sucesso prevista.
O coeficiente de inclinação β^1 mede a mudança prevista y = β0 + β1x1 + ɛ
na probabilidade de sucesso quando x1 aumenta em uma
unidade.
6
3/8/2020
2.6 Uma variável dependente binária: O Modelo de 2.6 O Modelo de probabilidade linear (MPL): Exemplo
probabilidade linear (MPL)
O coeficiente de inclinação de 0.1021 significa que por uma
Tendo fornecido os seguintes resultados: variação na renda (aumento em $1000) em média a
probabilidade de possuir uma casa aumenta em 0.1021 ou 10,2%.
Yi  0.9457  0.10213 X i
Também, a partir dos resultados de regressão obtidos, podemos
(0.123) (0.0082 ) R 2  0.805 estimar a probabilidade actual de possuir casa para um dado
nível da renda.
Interpretação:
O intercepto de −0.9457 fornece a “probabilidade’’ de que Assim, para x = 12 ($12000), a probabilidade estimada de possuir
uma familia com rendimento zero possua casa. Dado que casa é de:
é negativo, e dado que a probabilidade nunca pode ser E (Yi | X  12)  0.9457  0.10213 * (12)
negativa, considera-se este valor como zero, o que é  0.2795
plausivel no presente caso.
Isto é, a probabilidade de que uma familia com renda de $12 000
possua casa é de cerca de 28%.
2.6 Características dos MPL 2.6 Problemas dos MPL
• Funciona como um modelo de regressão linear normal, mas • Heteroscedasticidade dos termos erro: porque para a
muda a interpretação porque agora Y é binária. distribuição binomial, a média e variância são respectivamente
nP e np(1− p), o que mostra que a variância é uma função da
• Um valor previsto de Y (Y-chapeu) é a previsão da
média. Por conseguinte, o termo erro é heteroscedastico;
probabilidade de que a variável dependente é igual a um,
dado X. • Possibilidade de não satisfazer a restrição: Dado que E(Yi|X) nos
MPL mede a probabilidade condicional de Y dado X, se
• Um coeficiente é a variação na probabilidade de que Y =1 encontre entre 0 e 1, não ha garantias de que isso possa
para uma variação unitária da variável independente de necessaraimente ocorrer;
interesse, mantendo tudo o resto constante.
• Os MPL assumem dependência linar entre Y e X;
• Não normalidade do termo erro: Porque, tal como Y, o termo
O problema fundamental com os MPL é de que não serem
erro toma somente dois valores, ou seja, tambem seguem a
logicamente muito atractivos, porque assumem que Pi = E(Y =
distribuição binomial; 1|X) aumenta linearmente com X, isto é, o efeito ou incremento
marginal de X mantem-se constante.
2.6 Problemas dos MPL: Medidas Correctivas
• Usa MQ ponderados (WLS) para resolver o problema de

heteroscedasticidade;
• Aumenta o tamanho da amostra para minimizar o

problema de não-normalidaade;
• Usa a técnica dos mínimos quadrados restritos (RLS) ou

programação matemática para forçar que a probabilidade
estimada se encontre no intervalo de 0 e 1;
• Usa os modelos Logit e Probit para resolver o problema de

dependência liner;

Aula #2 Regressao Com Variaveis Qualitativas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula #2 Regressao Com Variaveis Qualitativas

Enviado por

Direitos autorais:

Formatos disponíveis

3/8/2020

2.1 Descrição da informação qualitativa

2.2 Uma unica variável independente Dummy

2.5 Interacções envolvendo variáveis Dummy;

2.6 Uma variável dependente binária: O Modelo de

2.1 A Descrição da informação qualitativa 2.1 A Descrição da informação qualitativa

Factores qualitativos aparecem frequentemente na

 Uma pessoa tem idade entre 20-35 vs pessoas com

Consideremos o seguinte modelo de determinação de Assumindo a hipotese de média condicional zero,

Nada mais muda quando mais variáveis explicativas são

2.4 Interpretação dos coeficientes de variáveis Dummy

O coeficiente da variável estdciv fornece o diferêncial

O grafico (a - δ0<0 e δ1<0) mostra o caso em que o intercepto das

E(y|x) = 0(1-P) + 1(P) = P (2.6.3) 0 <= E(y|x) <= 1

2.6 Características dos MPL 2.6 Problemas dos MPL

2.6 Problemas dos MPL: Medidas Correctivas

• Usa MQ ponderados (WLS) para resolver o problema de

• Aumenta o tamanho da amostra para minimizar o

• Usa a técnica dos mínimos quadrados restritos (RLS) ou

• Usa os modelos Logit e Probit para resolver o problema de

Você também pode gostar