Você está na página 1de 30

Análise de Regressão Linear Múltipla (RLM): Estimação

Aula 08, Introdução à Econometria

Prof. Moisés A. Resende Filho

Capítulo 03, parte 1

06 de julho de 2022

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 1 / 30


1. Motivação para Regressão Linear Múltipla (RLM)

Ao possibilitar incorporar mais que uma única variável


explicativa e o uso de formas funcionais mais ‡exíveis, a RLM
abre espaço para tornar mais provável a hipótese crucial do modelo.
Suponha, por exemplo, que estamos interessados em saber o retorno
da escolaridade, ou seja, em conhecer o valor de β1 no modelo RLS

lsalario = β0 + β1 educ + u

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 2 / 30


Motivação para RLM

lsalario = β0 + β1 educ + u (1)

Contudo, nosso modelo teórico diz que intelig ência aumenta lsalario,
via produtividade do trabalhador.
Assim, intelig ência está necessariamente no erro do MRLS (1).
Isso nos forçaria a admitir que intelig ência e educ são não
correlacionados. Por quê?
Porque Corr (intelig ência, educ ) 6= 0 implica em
E (intelig ênciajeduc ) 6= 0, com u intelig ência.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 3 / 30


Motivação para RLM

De todo modo, para E (u jeduc ) = 0, ou seja,

E (intelig ênciajeduc ) = 0,

escolaridade nada pode dizer sobre o nível esperado de inteligência,


como quando cada indivíduo decide o quanto estudar sem levar em
conta a própria inteligência.
O caso em que intelig ência afeta somente lsalario poderia ser
representado pelo diagrama causal:

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 4 / 30


Motivação para RLM

Contudo, se alguns indivíduos levam em conta a própria inteligência


ao decidir o quanto estudar, intelig ência também afeta lsalario, o que
pode ser representado pelo diagrama causal:

Neste caso, intelig ência é um confundidor do potencial efeito causal


de educ no lsalario.
Por exemplo, se estudar por mais tempo custa menos para quem é
mais inteligente, esperaríamos uma inteligência média maior em
grupos de indivíduos de maior escolaridade, os quais teriam salários
ainda maiores por conta disto, a maior inteligência média do grupo.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 5 / 30


Motivação para RLM

Visando atenuar o efeito confundidor de intelig ência na identi…cação


do efeito causal de educ em lsalario, consideremos a reespeci…cação
da equação do log do salário como:

lsalario = β0 + β1 educ + β2 QI + u (2)

em que QI é o resultado do indivíduo no teste de QI (Quociente


de Inteligência).

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 6 / 30


Motivação para RLM

A variável QI na população tem média 100, desvio-padrão 15 e


distribuição:

Ao adicionarmos QI à RLS (1), estamos tentando retirar intelig ência


do erro.
Assim, se QI é uma boa proxy de intelig ência, ou seja, se
E (u jeduc, QI ) = 0, será possível identi…car ou obter estimativas
críveis do efeito causal de educ em lsalario a partir do modelo RLM
(2).
Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 7 / 30
Motivação para RLM

Obviamente, mesmo adicionando QI à regressão, ainda deixaremos


variáveis importantes, como experiência pro…ssional, motivação do
indivíduo para o trabalho e outras características individuais no erro
da RLM (2).
Como motivação é difícil de medir, mas experiência exper não é,
podemos, pelo menos, reespeci…car a RLM (2) como:

lsalario = β0 + β1 educ + β2 QI + β3 exper + u, (3)

esperando que
E (u jeduc, QI , exper ) = 0,
ou seja,
E (motivação jeduc, QI , exper ) = 0

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 8 / 30


Motivação para RLM

Contudo, adicionar variáveis à regressão também pode enfraquecer a


hipótese crucial.
Por exemplo, sabendo que educ e lsalario afetam pontos que é o total
de pontos de infração na carteira de motorista (CNH), resolvemos
reespeci…car a RLM (3) como:

lsalario = β0 + β1 educ + β2 QI + β3 exper + β4 pontos + u (4)

Contudo, como educ e lsalario causam pontos, mesmo se


E (u jeduc, QI , exper ) = 0, teríamos
E (u jeduc, QI , exper , pontos ) 6= 0.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 9 / 30


Motivação para RLM

A variável pontos é um exemplo de "collider", colisor ou nodo de


colisão (! ), pois educ ! pontos lsalario (Cunningham,
2018: p.77 a 80).
Admitindo que nosso modelo teórico pode ser representado pelo
diagrama causal:

se adicionarmos a variável pontos ao modelo, não mais será possivel


obter estimativas críveis do efeito causal de educ em lsalario a partir
do modelo.
Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 10 / 30
Motivação para Regressão Múltipla
A RLM viabiliza o uso de formas funcionais mais ‡exíveis, pois
possibilita a inclusão de variáveis ao quadrado, ao cubo, ... e de variáveis
de interação, como
lsalario = β0 + β1 educ + β2 QI + β3 exper + β4 exper 2 +
+ β5 (educ QI ) + u, tal que: (5)
1 O efeito de educ pode depender de QI e vice-versa, pois
∂lsalario
= β1 + β5 QI
∂educ (+) (?)
e
∂lsalario
= β2 + β5 educ
∂QI (+) (?)
2 O efeito de exper pode depender do próprio nível de experiência, pois
∂lsalario
= β3 + 2 β4 exper
∂exper (+) ( )
Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 11 / 30
Motivação para Regressão Múltipla

Na RLM

lsalario = β0 + β1 educ + β2 QI + β3 exper + β4 exper 2 +


+ β5 (educ QI ) + u, temos que:

1 100 ( β1 + β5 QI ) é a variação percentual ceteris paribus


(∆u = ∆QI = ∆exper = 0) no salário devido a ∆educ = 1 ano.
2 100 ( β2 + β5 educ ) é a variação percentual ceteris paribus
(∆u = ∆educ = ∆exper = 0) no salário devido a ∆QI = 1 ponto.
3 100 ( β3 + 2β4 exper ) é a variação percentual ceteris paribus
(∆u = ∆educ = ∆QI = 0) no salário devido a ∆exper = 1 ano.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 12 / 30


Motivação para Regressão Múltipla

Por exemplo, se

lsalario = 5 + 0, 1educ + 0, 007QI + 0, 022exper +


+0, 001exper 2 0, 0005(educ QI ) + u,

1 Como 10 0, 05QI , estimamos um aumento de 5% no salário devido


a mais um ano de escolaridade, para alguém com QI = 100.
2 Como 0, 7 0, 05educ, estimamos um aumento de 0, 2% no salário
devido a mais um ponto de QI, para alguém com educ = 10.
3 Como 2, 2 + 0, 2exper , estimamos um aumento de 4, 2% no salário
devido a mais um ano de experiência, para alguém com exper = 10.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 13 / 30


2. O Modelo com k Variáveis Explicativas

A forma geral do modelo RLM (MRLM) com k variáveis explicativas é

y = β0 + β1 x1 + β2 x2 + . . . + βk xk + u (6)
= β0 + ∑
k
j =1
βj xj + u

em que β0 é o intercepto, β1 é o coe…ciente de x1 , β2 é o


coe…ciente de x2 e assim por diante, β1 , ..., βk são parâmetros de
inclinação, e u é o termo de erro aleatório.
Assim, o MRLM tem k variáveis explicativas e k + 1 parâmetros, para
o qual, então, a hipótese crucial RLM.1 é

E (u jx1 , ..., xk ) = 0 (7)

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 14 / 30


O Modelo com k Variáveis Explicativas

Por exemplo, para apresentar o modelo

lsalario = β0 + β1 educ + β2 QI + β3 exper + β4 exper 2 +


+ β5 (educ QI ) + u,

na forma geral da RLM, de…na y lsalario, x1 educ, x2 QI ,


x3 exper , x4 exper 2 e x5 educ QI .
Note que, apesar de x4 x32 ser uma função não linear em x3 e
x5 x1 x2 ser uma variável de interação, o modelo ainda se
enquadra na forma geral da RLM, no caso:

y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + β5 x5 + u

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 15 / 30


O Modelo com k Variáveis Explicativas

A hipótese crucial nesse exemplo é

E (u jx1 , ..., x5 ) = 0,

ou seja, mais especi…camente,

E (u jeduc, QI , exper , exper 2 , educ QI ) = 0

Moral da história: apesar de estarmos interessados somente no


retorno de escolaridade 100β1 , decidimos controlar para QI , exper ,
exper 2 e educ QI de modo a aumentar a plausibilidade ou
probabilidade de que a hipótese crucial seja verdadeira, o que só
poderia ser feito com um MRLM, não com um MRLS.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 16 / 30


3. Mecânica de Mínimos Quadrados Ordinários (MQO)

Estamos interessados, com base na RLM populacional

yi = β0 + β1 xi 1 + ... + βk xik + ui , i = 1, .., n

e em uma amostra de dados f(xi 1 , ..., xik , yi ) : i = 1, ..., n g, em obter


a RLM estimada

ybi = b
β0 + b
β1 xi 1 + ... + b
βk xi 2 , i = 1, .., n (8)

Pelo método MQO, as estimativas dos parâmetros da RLM são


aquelas que minimizam a soma dos quadrados dos resíduos
SQR ∑ni=1 u bi2 , em que cada resíduo u
bi yi ybi é a diferença entre
o valor observado e estimado de y segundo (8).

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 17 / 30


Mecânica de MQO

O método MQO consiste em encontrar as k + 1 incógnitas b


β0 , b
β1 , ...,
b n 2
βk pela minimização de SQR ∑i =1 (yi ybi ) , no caso da RLM,

∑i =1 (yi
n b b b
min β0 β1 xi 1 ... βk xik )2 (9)
b
β0 , b
β1 ,...,b
βk

Isto produz k + 1 condições de primeira ordem - equações lineares


nas k + 1 incógnitas -, quais sejam:

∑i =1 (yi ∑i =1 ubi = 0
b n b b b n
β0 : β0 β1 xi 1 ... βk xik ) =

∑i =1 xi 1 (yi ∑i =1 xi 1 ubi = 0
b n b b b n
β1 : β0 β1 xi 1 ... βk xik ) =
..
.

∑i =1 xik (yi
n
∑i =1 xik ubi = 0
b b b b n
βk : β0 β1 xi 1 ... βk xik ) =

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 18 / 30


Mecânica de MQO

Após resolver esse sistema de equações lineares, obtendo os valores ou


estimativas b
β0 , b
β1 , ..., b
βk , dizemos que:
1 "Estimamos uma regressão de y em x1 , x2 , ..., xk por MQO"ou
2 "Estimamos uma regressão de y sobre x1 , x2 , ..., xk por MQO"ou
3 "Estimamos uma regressão MQO de y em x1 , x2 , ..., xk "ou
4 "Estimamos uma regressão MQO de y sobre x1 , x2 , ..., xk "ou
5 "Regredimos y em x1 , x2 , ..., xk por MQO"ou
6 "Regredimos y sobre x1 , x2 , ..., xk por MQO".

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 19 / 30


Mecânica de MQO

Alternativamente, se impusermos à amostra os k + 1 momentos


populacionais E (ui ) = 0 - média zero do erro - e
E (xij ui ) = 0, j = 1, ..., k - ortogonalidade contemporânea de xj e
u, j = 1, .., k , obtemos os análogos amostrais:

∑i =1 ubi = 0
n
De E (ui ) = 0,

∑i =1 xij ubi = 0, j = 1, ..., k,


n
De E (xij ui ) = 0,
ou seja, equações idênticas às condições de primeira ordem do
problema de MQO.
No entanto, ao proceder desta forma, os estimadores devem ser
chamados de estimadores Método dos Momentos (MM).

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 20 / 30


4. Interpretação da Equação de Regressão MQO

Na equação geral da RLM estimada por MQO

ybi = b
β0 + b
β1 xi 1 + ... + b
βk xik , i = 1, .., n

1. ybi é o valor previsto ou estimado ou estimativa MQO de y para a


observação i da amostra.
2. bβ0 é a estimativa MQO de y se xi 1 = xi 2 = = xik = 0.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 21 / 30


Interpretação da Equação de Regressão MQO

3. A variação prevista ou estimada de y devido às variações ∆x1 , ..., ∆xk


é
∆ŷ = bβ1 ∆x1 + ... + b
βk ∆xk
tal que, para ∆x1 6= 0 e ∆x2 = = ∆xk = 0, ou seja, para uma
variação ceteris paribus em x1 ,

∆ŷ = b
β1 ∆x1

eb
β1 é a variação estimada de y devido à variação ceteris paribus
∆x1 = 1.
4. Por analogia, o mesmo pode ser dito para b
βj , j = 2, ..., k.
5. Como o resíduo da observação i é ûi yi ybi , se ûi > 0, então
yi > ybi , yi está acima do hiperplano da RLM estimada; caso
contrário, se ûi < 0, então yi < ybi , yi está abaixo do hiperplano da
RLM estimada.
Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 22 / 30
Interpretação da Equação de Regressão MQO

Assim, considerando a RLM estimada por MQO

\ i = 5, 658 + 0, 039educi + 0, 006QIi , i = 1, 2, ..., 935, temos que:


lsalario

O variação ceteris paribus no salário estimada para um ano de estudo


é 100 b βeduc = 3, 9%.
Pensando em termos de um experimento, tomando dois indivíduos A
e B de iguais QIs, se B tem um ano a mais de escolaridade que A,
esperaríamos que o salário de B fosse 3, 9% maior que o de A.
A RLM estimada por MQO nos permite fazer interpretações ceteris
paribus sem que necessariamente estejam na amostra dois indivíduos
de mesmo QI , mas com um ano de escolaridade de diferença entre
eles.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 23 / 30


5. Propriedades Algébricas da RLM Estimada por MQO

1 A média dos resíduos é zero pela primeira CPO de MQO ∑ni=1 ûi = 0
e, consequentemente, como ∑ni=1 ûi /n = ∑ni=1 (yi ybi ) /n = 0,
então ∑ni=1 yi /n = ∑ni=1 ybi /n, ou seja, ȳ = yb.
2 A covariância entre cada variável explicativa e o resíduo é zero ou
b) = 0, j = 1, ..., k , pois ∑ni=1 xj u
Cov (xj , u bi = 0, j = 1, ..., k pelas k
últimas CPOs de MQO, o que garante Cov (yb, u b) = 0.
3 O hiperplano da regressão estimada passa pelo ponto
(x 1 , x 2 , ..., x k , y ), ou seja, substituindo as médias amostrais das
variáveis explicativas na RLM estimada obtemos uma estimativa de y
igual à média de y , ou seja, ȳ = b β0 + b
β1 x̄1 + ... + b
βk x̄k .

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 24 / 30


6. Grau de Ajuste da Regressão Linear Múltipla

Como ∑ni=1 u
bi (ybi y ) = 0,

SQT = SQE + SQR (10)

em que SQT ∑ni=1 (yi y )2 , SQE ∑ni=1 (ybi y )2 e


n 2
SQR ∑i =1 (yi ybi ) são a soma dos quadrados total, explicada e
dos resíduos.
Como no caso da RLS, R-dois, R-quadrado ou coe…ciente de
determinação da regressão é
SQE SQR
R2 =1 (11)
SQT SQT
tal que se ∑ni=1 ûi = 0, por exemplo, se o modelo inclui intercepto,
0 R 2 1.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 25 / 30


Grau de Ajuste da Regressão Linear Múltipla

O valor do R 2 nunca diminui com a adição de variáveis explicativas à


RLM.
Como os bβ0 , b
β1 , ..., b
βk de MQO minimizam a SQR, no pior cenário
dos coe…cientes das novas variáveis serem zeros obteríamos a mesma
SQR de antes e, consequentemente, o mesmo SQE de antes.
Como a SQR nunca aumenta, no máximo permanece a mesma de
SQR
antes da adição de variáveis, o R 2 = 1 SQT nunca diminui com a
adição de variáveis à RLM.
De fato, o R 2 normalmente aumenta com a inclusão de variáveis na
RLM, somente permanecendo o mesmo, no caso das estimativas dos
coe…cientes das variáveis adicionadas serem zeros.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 26 / 30


Grau de Ajuste da Regressão Linear Múltipla

O R 2 é o quadrado do coe…ciente de correlação de y e yb, ou seja,

d (y , yb)2
R 2 = Corr

d (y , yb) 2 [ 1, 1] e
em que Corr

d (y , yb)
Cov
d (y , yb)
Corr q q
d (y ). Var
Var d (yb)

Por exemplo, se R 2 = 0, 25 dizemos que 25% da variação total em y


é explicada pelo modelo de regressão estimado.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 27 / 30


7. RLM no Stata
Com os comandos Stata: bcuse wage2, clear ; reg lwage c.educ##c.IQ
c.exper##c.exper, cformat(%9.4f) pformat(%5.2f) sformat(%8.2f),
obtemos
. reg lwage c.educ##c.IQ c.exper##c.exper, cformat(%9.4f) pformat(%5.2f) sformat(%8.2f)

Source SS df MS Number of obs = 935


F(5, 929) = 36.01
Model 26.894766 5 5.3789532 Prob > F = 0.0000
Residual 138.761528 929 .149366554 R-squared = 0.1624
Adj R-squared = 0.1578
Total 165.656294 934 .177362199 Root MSE = .38648

lwage Coef. Std. Err. t P>|t| [95% Conf. Interval]

educ 0.0651 0.0434 1.50 0.13 -0.0201 0.1503


IQ 0.0068 0.0054 1.25 0.21 -0.0038 0.0174

c.educ#c.IQ -0.0001 0.0004 -0.18 0.86 -0.0009 0.0007

exper 0.0157 0.0133 1.18 0.24 -0.0104 0.0418

c.exper#c.exper 0.0002 0.0006 0.30 0.76 -0.0009 0.0013

_cons 5.1125 0.5725 8.93 0.00 3.9890 6.2359

ou seja,
\ = 5.1125 + 0.0651educ + 0.0068QI + 0.0157exper +
lsalario
+0.0002exper 2 0.0001(educ QI )
Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 28 / 30
RLM no Stata
Com o comando no Stata: sum lwage educ IQ exper, obtemos as
estatísticas descritivas:
. sum lwage educ IQ exper

Variable Obs Mean Std. Dev. Min Max

lwage 935 6.779004 .4211439 4.744932 8.032035


educ 935 13.46845 2.196654 9 18
IQ 935 101.2824 15.05264 50 145
exper 935 11.56364 4.374586 1 23

O retorno estimado da escolaridade de um indivíduo com o QI médio


da amostra é:
5, 4972% = 100 b
β1 + b
β5 QI = 100(0.0651 0.0001 101.2824).
O retorno estimado da experiência de um indivíduo com a experiência
média da amostra é 6, 1955% = 100 b
β3 + 2 b
β4 exper =
100 (0.0157 + 2 0.002 11.56364).

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 29 / 30


RLM no Stata

Com os comando no Stata: predict yhat, xb; correlate lwage yhat,


obtemos:
. correlate lwage yhat
(obs=935)

lwage yhat

lwage 1.0000
yhat 0.4029 1.0000

d (y , yb)2 = 0, 40292 = 0, 1624, como está na saída da


tal que, R 2 = Corr
regressão do Stata.

Moisés Resende Filho (ECO/UnB) Estimação de Regressão Múltipla 06/07/2022 30 / 30

Você também pode gostar