Você está na página 1de 71

Análise

de
Regressão Linear Múltipla I

Aula 25

Gujarati e Porter, 2011 – Capítulos 7 e 10 – tradução da 5ª ed.

Wooldridge, 2011 – Capítulo 3 – tradução da 4ª ed.


Introdução
Como pode ser visto anteriormente, o modelo de regressão
linear simples, com uma variável explicativa (independente),
aplica-se a várias situações.

Entretanto, diversos problemas envolvem dois ou mais


regressores influenciando o comportamento da variável
resposta (dependente), y.

Chamamos Modelo de Regressão Linear Múltipla a qualquer


modelo de regressão linear com duas ou mais variáveis
explicativas. 2
Introdução
x3
x1
y •
variável resposta


x2
xk

x1, x2, ..., xk: variáveis explicativas 3


Exemplo

O departamento de RH da empresa TEMCO objetiva


estudar o comportamento dos salários dos
funcionários dos mais diversos setores da empresa.

Para tanto, o gerente de RH, baseando-se numa


amostra aleatória de 46 empregados, coletou
informações sobre as seguintes variáveis:

4
Exemplo (cont.)

id – número cadastral do funcionário;


salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual atua (Compras = 1,
Engenharia = 2, Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do
empregado.
5
Exemplo (cont.)

Quadro 1 - Parte de uma planilha que contem informações sobre os


6
empregados da empresa TEMCO.
Exemplo (cont.)
Utilizando as informações coletadas:

a) Há evidências de que o salário dependa do


tempo na empresa (anosemp)?

b) Há evidências de que o salário dependa dos


anos de estudos (educ)?

7
Salário vs Anosemp

70000

60000

50000
Correlação: 0,77
SALARIO

40000

30000

20000
0 10 20 30

ANOSE MP
8
Salário vs Educ
70000

60000
Salário (US$)

50000
Correlação: 0,78
40000

30000

20000
0 5 10 15

Anos de es c olaridade após o 2o grau


9
Exemplo (cont.)

c) Dando prosseguimento às análises, o gerente de


RH ajustou dois modelos de regressão linear
simples, cujas saídas obtidas com base no uso do
software Eviews encontram-se a seguir. Escreva os
modelos estimados na forma usual e interprete os
resultados obtidos.

10
Exemplo (cont.)

Salário (y) vs Anosemp (x2)


Exemplo (cont.)

salˆário  28394,16 1107,22 anosemp


( 1793,95 ) ( 140,45 )

R  58,55%
2
n  46 σˆ  7161,60

Salário (y) vs Anosemp (x2)


Exemplo (cont.)

Salário (y) vs Educ (x1)


Exemplo (cont.)

salˆário  24581,70 3009,88 educ


( 2129,19 ) ( 367, 63 )

R  60,37%
2
n  46 σˆ  7002,39

Salário (y) vs Educ (x1)


Perguntas
Com base nos modelos estimados anteriormente:

(d) Qual é o salário médio estimado para pessoas


que estão há 5 anos na empresa?

salˆário  28394,16 1107,22 anosemp


( 1793,95 ) ( 140,45 )

R 2  58,55% n  46 σˆ  7161,60

ANOSEMP  5 : ŷ  33.930,25
Perguntas
Com base nos modelos estimados anteriormente:

(e) Qual o salário médio estimado para pessoas com


3 anos de estudo após o segundo grau?

salˆário  24581,70 3009,88 educ


( 2129,19 ) ( 367, 63 )

R  60,37%
2
n  46 σˆ  7002,39

EDUC  3 : ŷ  33.611,33
Problema

Um grupo de pessoas pode ter


5 anos na empresa
e
3 anos de educação após o 2o grau.

Como obter uma única resposta?

17
Modelo de regressão linear múltipla
Vamos admitir que X1, X2, ..., Xk sejam as variáveis
independentes e Y a variável dependente.

Dada uma amostra de n observações,

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

o modelo de regressão linear múltipla é dado por:


18
Modelo de regressão linear múltipla
E[yi | x1i, x2i, ..., xki] = 0 + 1x1i + 2x2i + ... + k xki ,

i = 1, 2, ..., n

ou

yi = 0 + 1x1i + 2x2i + ... + k xki + ui ,

i = 1, 2, ..., n.

em que
n > k+1. 19
Estimação
e
Interpretação dos Parâmetros
Estimação
Método dos mínimos quadrados

Para determinarmos os estimadores de mínimos


quadrados de 0, 1, ..., k, devemos minimizar o erro
quadrático total (ui2):

n n

 u     y  β  β1 x1i    βk xki 
2 2
i i 0
i 1 i 1

21
Método de Mínimos Quadrados

O mínimo da função
n n
S(β0 , β1, , βk )   ui     yi  β0  β1 x1i    βk xki 
2 2

i 1 i 1

é obtido derivando-a em relação a 0, 1, ..., k, e


igualando o resultado a zero. Ou seja,

 
S(β0 , β1, , βk )  0  S(β0 , β1, , βk )  0
β0 βk
Equações Normais

 
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki 0
β0 i 1


  
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki x1i 0
β1 i 1



  
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki xki 0
βk i 1

23
Modelo de regressão linear múltipla

Modelo Estimado

yˆ  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk


Abuso de notação

24
Interpretação

̂ 0 : valor estimado para E(y|x1 = x2 = ... = xk = 0)

yˆ  ˆ1x1  ˆ2 x2  ...  ˆk xk


Por exemplo, se x2 = ... = xk = 0 (ou seja, as outras
variáveis são mantidas constantes), então, o efeito parcial
da variação de x1 em E(y|x1, x2, ..., xk) pode ser visto como

yˆ
 ̂1
x1
25
Voltando ao Exemplo
O gerente do departamento de RH propôs o seguinte modelo
de regressão linear múltipla

yi = 0 + 1 x1i + 2 x2i + u
em que
y: salário
x1: educ
x2: anosemp
Com base nas informações coletadas dos funcionários da
TEMCO, estime os parâmetros do modelo de interesse e
interprete as estimativas.
Voltando ao Exemplo
Voltando ao Exemplo

Qual a estimativa para o salário médio dos


funcionários da TEMCO com 5 anos na empresa e 3
anos de educação após o 2o grau?

yˆ i  23.177 ,47  1.916,49 * 3  672,33 *5


yˆ i  32288,562

28
Coeficiente de Determinação
Coeficiente de determinação – R2

Resultado: SQT = SQE + SQR

Parcela da variabilidade Parcela da variabilidade


de y que é explicada pelos de y que não é explicada
regressores inseridos no pelos regressores
modelo inseridos no modelo

Proporção da variabilidade total


SQE de y que é explicada pelos
R 2
regressores inseridos no modelo.
SQT Também é conhecido como
coeficiente de explicação
Coeficiente de determinação – R2
n SQT: soma de quadrados
SQT   y - y
2
i total: medida da variabilidade
i 1 total de y.

SQE   yi - y  SQR   yi - yi 


n n
ˆ 2
ˆ 2

i 1 i 1

SQE: variabilidade de y SQR: variabilidade de y


explicada pelo modelo. que não é explicada pelo
modelo.

31
Coeficiente de determinação – R2
Fato: Em geral, quanto maior o número de regressores
acrescentados ao modelo de regressão, maior será o
valor de R2.

Isso pode vir a ser um problema ao se comparar


modelos, já que modelos com um número maior de
variáveis tenderão a ter um R2 maior do que um modelo,
eventualmente equivalente, em termos de qualidade,
com um número menor de variáveis.
32
Voltando ao Exemplo
Qual o coeficiente de determinação
associado aos modelos de regressão
anteriormente estimados?

Variáveis explicativas no modelo R2


Educ 60,3%
Anosemp 58,6%
Educ e Anosemp 73,9%
33
Voltando ao Exemplo

O gerente do departamento de RH desconfia que,


além de EDUC e ANOSEMP, a variável EXPPREV
(experiência anterior, em anos) é relevante para
explicar o comportamento médio dos salários dos
funcionários.

34
Salário vs EXPPREV
70000

60000

50000
Salário

40000 Correlação: 0,03


30000

20000
0 5 10 15 20

Experiênc ia prévia
35
Voltando ao Exemplo

O gerente de RH acrescentou a variável expprev ao


modelo de regressão linear múltipla anterior.

Pergunta:
O que aconteceu com o R2?

36
Voltando ao Exemplo

37
Voltando ao Exemplo

Variáveis explicativas no modelo R2


Educ 60,3%
Anosemp 58,6%
Educ e Anosemp 73,9%
Educ, Anosemp e Expprev 74,1%

38
R2 – ajustado
Valor ajustado pelo número de variáveis

n 1
R  1  1  R 
2 2

n  k  1
a

O acréscimo de variáveis não acarreta


necessariamente um aumento em R2a.

39
Voltando ao Exemplo

Variáveis explicativas no modelo R2 Ra2


Educ 60,3% 59,5%
Anosemp 58,6% 57,6%
Educ e Anosemp 73,9% 72,8%
Educ, Anosemp e Expprev 74,1% 72,2%

40
Suposições e Propriedades
Suposições e Propriedades

MLR.1 – O modelo de regressão é linear nos parâmetros

O modelo na população pode ser escrito como

y = 0 + 1 x1 + 2 x2 + ... + k xk + u

em que

 0, 1, ..., k – são parâmetros desconhecidos


(constantes);

u – erro aleatório não observável.


Suposições e Propriedades
MLR.2 – Amostragem Aleatória

Temos uma amostra aleatória de n observações

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

do modelo populacional descrito em MLR.1.

MLR.3 – Ausência de Colinearidade Perfeita

Na amostra (e, portanto, na população) nenhum regressor é


constante e não há relação linear PERFEITA entre os
regressores.
Suposições e Propriedades
MLR.4 – Média Condicional Zero

O termo de erro aleatório, u, tem valor esperado igual a zero,


dados quaisquer valores dos regressores. Ou seja,

E(u | x1, x2, ..., xk) = E(u) = 0.

Teorema 1. Sob as suposições MLR.1 a MLR.4, os


estimadores de mínimos quadrados ordinários (MQO) para
os parâmetros do modelo de regressão múltipla são não-
viesados, ou seja, E(βˆ j )  β j , j = 0, 1, 2, ..., k.
Suposições e Propriedades

SUPOSIÇÃO FUNDAMENTAL:

E(ux1, x2, ..., xk) = E(u) = 0

Ou seja, todos os fatores contidos em u devem ser


não correlacionados com as variáveis explicativas, e
deve ter sido usada a forma funcional correta.

45
Suposições e Propriedades

SUPOSIÇÃO FUNDAMENTAL: (cont)

Como pode falhar?


 Omissão de variável explicativa importante,
correlacionada com x1, x2, ... ou xk;
 Forma funcional especificada incorretamente;
 Erro de medida em x1, x2, ... ou xk;
 Simultaneidade entre y e x1, x2, ...ou xk;

46
Inclusão e Exclusão de Regressores
ANÁLISE DE DOIS CASOS ESPECIAIS:

A) Inclusão de variável irrelevante


 não prejudica a propriedade de ausência de viés

B) Omissão de variável relevante


 modelo correto tem k = 2, mas usamos k = 1
Resultado:
~
E( 1 )  1   2
 ( xi1  x1 )xi 2
 1
 i1 1
( x  x ) 2 47
Inclusão e Exclusão de Regressores

Direção do Viés

Corr(x1, x2) > 0 Corr(x1, x2) < 0

2 > 0 Viés Positivo Viés Negativo

2 < 0 Viés Negativo Viés Positivo

48
Inclusão e Exclusão de Regressores
Observações

 viés depende tanto dos sinais quanto das magnitudes;


 em geral, se k > 1, omissão de qualquer variável relevante
faz com que todos os estimadores de mínimos quadrados
sejam viesados;
 a menos que a variável omitida seja irrelevante ou não-
correlacionada com as demais variáveis explicativas
presentes no modelo, os estimadores de mínimos quadrados
serão viesados.
49
Suposições e Propriedades

MLR.5 – Homocedasticidade

O termo de erro aleatório tem a mesma variância dado


quaisquer valores dos regressores. Ou seja,

Var (u | x1, x2, ..., xk) = 2.

Observação

As suposições MLR.1 a MLR.5 conjuntamente são


conhecidas como suposições de Gauss-Markov.
50
Variância dos Estimadores de MQO
Teorema 2. Sob as suposições MLR.1 a MLR.5,
condicionadas aos valores amostrais das variáveis
explicativas

 2
Var ( ˆ j )  , j  1, 2, ..., k
SQTx (1  Rx )
j
2
j

em que
2 = variância do erro;
SQTxj = SQT do j-ésimo regressor na amostra;
R2xj = R2 da regressão de xj contra todas as outras
variáveis explicativas (incluindo um intercepto).
51
Componentes da Variância dos Estimadores
de Mínimos Quadrados
 2
Var( ˆ j ) 
SQTx j (1  R )
2
xj

 Variância da v.a. u: 2 alto implica num estimador de


mínimos quadrados com alta variância;

 SQTxj : se a j-ésima variável explicativa apresentar uma


variação total alta, então, a variância do i-ésimo
estimador, associado à esta variável explicativa, será
pequena;
52
Componentes da Variância dos Estimadores
de Mínimos Quadrados
 2
Var( ˆ j ) 
SQTx j (1  R )
2
xj

 Relações lineares entre as variáveis explicativas: altos


valores de R2xj implicam numa alta variância para os
estimadores.

 1/(1R2xj) – conhecido como fator de inflação de variância


ou, em inglês, VIF.

 Inclusão de variável irrelevante geralmente aumenta as


variâncias dos demais estimadores de MQO 53
Estimação de 2
QMR (Quadrado Médio devido aos Resíduos)

SQR
ˆ  QMR 
2

n-(k  1 )
SQR perde k+1 graus de liberdade, uma vez que k+1
parâmetros são estimados

 ˆ  βˆ x    βˆ x 
n n
 
 i i  i o 1 1i
2
SQR  ˆ  
2
y -y y β k ki
i 1 i 1

54
Estimação de 2
Teorema 3. Sob as suposições de Gauss-Markov (MLR.1 a
MLR.5),
E(σˆ )  E(QMR)  σ .
2 2

Observação

̂  QMR : erro padrão da regressão.

55
Erro Padrão dos Estimadores de MQO

Como 2 é desconhecida, utilizaremos seu


estimador. Assim, o erro-padrão dos estimadores de
mínimos quadrados podem ser obtidos através da
expressão

ˆ 2
ˆ ˆ 
j
SQTx j (1  R ) 2
xj

56
Eficiência dos Estimadores de MQO

 Sob as suposições MLR.1 a MLR.4, sabemos que


os estimadores de mínimos quadrados são não-
viesados para j, j = 0, 2, ..., k;

 Entretanto, há mais de um estimador não viesado


de j, j = 0, 2, ..., k;

57
Eficiência dos Estimadores de MQO

Teorema 4. (TEOREMA DE GAUSS-MARKOV)

Sob as suposições MLR.1 a MLR.5,

ˆ0 , ˆ1 , ..., ˆk


são os melhores estimadores, na classe dos lineares não-
viesados (BLUE) para 0, 1, ..., k, respectivamente.

58
Eficiência dos Estimadores de MQO

 Restringindo a classe de estimadores não viesados a


todos os estimadores lineares de j, o teorema de
Gauss-Markov prova que o estimador de mínimos
quadrados é o “melhor” (no sentido em que apresenta
variância mínima)

 Diz-se que, sob as suposições MLR.1 a MLR.5, os


estimadores de mínimos quadrados são BLUEs (best
linear unbiased estimators)
59
Leitura Complementar
(Multicolinearidade)

Gujarati e Porter, 2011, Capítulo 10 60


Multicolinearidade
Perguntas:

1) Há relação entre a produtividade e o salário?

2) Ajuste um modelo de regressão linear múltipla para


prever o salário com base em anosemp, educ e
produtividade. Interprete os resultados.

61
Salário vs Produtividade
70000

60000
Salário anual (US$)

50000

40000

30000

20000
Correlação: 0,78
10 20 30 40 50 60 70

Produtividade
62
Modelo Estimado
PROBLEMA!!!!!

63
Problemas

1) O sinal do coeficiente da produtividade é


negativo quando deveria ser positivo;

2) O efeito correspondente à produtividade foi


não significante.

64
Origem dos problemas

Correl(anosemp, produtividade) = 0,90


Correl(educ, produtividade) = 0,74

Existência de correlações entre variáveis


independentes recebe o nome de
multicolinearidade. Essa anomalia
acarretou os problemas encontrados.

65
Conseqüências Práticas da
Multicolinearidade
1) No caso de perfeita multicolinearidade, as
estimativas dos parâmetros 0, 1 , ..., k são
indeterminadas.

2) As estimativas dos coeficientes se tornam


muito sensíveis a pequenas alterações nos
dados amostrais.

3) A precisão dos estimadores decresce.


66
Conseqüências Práticas da
Multicolinearidade
4) Como conseqüência do fato da variância dos
estimadores ser alta, variáveis podem ser
eliminadas por se concluir que seus
coeficientes não são significativamente
diferentes de zero quando, na verdade, estas
variáveis são necessárias e o conjunto de
dados não foi eficiente para detectar isso.

5) Embora a razão t de um ou mais coeficientes


seja estatisticamente insignificante, R2 pode
ser bastante alto.
67
As fontes Mais Comuns De
Multicolinearidade
a) O método de coleta de dados – quando o pesquisador
toma a amostra apenas num subespaço da região
definida pelos possíveis valores das variáveis
independentes.
b) Relações naturais existentes entre as variáveis
independentes na população – se tivermos, por
exemplo, consumo de eletricidade = f(renda familiar,
tamanho da casa), as variáveis explicativas serão
altamente correlacionadas, pois quanto maior a renda
familiar, maior se espera que seja o tamanho da casa.
Neste caso existirá multicolinearidade qualquer que
seja a amostra tomada. 68
As fontes Mais Comuns De
Multicolinearidade
c) Especificação do modelo – se adotarmos o modelo

y =  0 +  1 x +  2 x2 + u

e o domínio de X for pequeno, X e X2 tendem a ser


altamente correlacionados.

d) Modelos com mais parâmetros que observações.


Usualmente, n > k + 1. Se n < k + 1, não é possível
estimarmos 0, 1 , ..., k.

69
Indicativos de
Multicolinearidade
a) Alto R2, porém poucas razões t significativas.
b) Altas correlações duas a duas entre as variáveis
explicativas.
Observação: A multicolinearidade pode existir mesmo que
as correlações duas a duas sejam relativamente
baixas.
c) Se R2 é alto, mas os coeficientes de correlação parcial
são baixos, temos indicações de multicolinearidade.
d) Altos valores de R2xj.

70
Possíveis Soluções
a) Usar informações externas para saber a forma da relação entre
as variáveis explicativas.
b) Eliminação de variáveis. Se a multicolinearidade afeta variáveis
pouco importantes, devemos eliminá-las do modelo.
Observação: Porém, ao excluir uma variável do modelo, podemos
estar cometendo um viés de especificação ou erro de
especificação. Um viés de especificação resulta da especificação
incorreta do modelo usado na análise.
c) Aumento do tamanho da amostra. Este procedimento é indicado
quando a multicolinearidade é uma decorrência do conjunto de
dados observados e não da natureza das variáveis.
d) Uso de técnicas estatísticas multivariadas, como análise fatorial
e componente principais.
71