Você está na página 1de 62

Análise

de
Regressão Linear Múltipla II

Aula 26

Gujarati e Porter, 2011 – Capítulos 8 – tradução da 5ª ed.

Wooldridge, 2011 – Capítulo 4 – tradução da 4ª ed.


Distribuição Amostral dos
Estimadores dos Parâmetros do
Modelo de Regressão Linear Múltipla
Suposições e Propriedades

MLR.6 – u ~ N(0; 2) (Normalidade)

A v.a. u, que denota o termo de erro estocástico do


modelo de regressão linear múltipla, é independente
dos regressores e é normalmente distribuído, com
média zero e variância 2.

3
Suposições e Propriedades
Observações
1) Para aplicações de regressão com dados do tipo cross-
sectional, as suposições MLR.1 a MLR.6 são conhecidas
como suposições do modelo linear clássico (suposições
CLM).
2) Uma maneira sucinta de resumir as suposições CLM na
população é
y | (x1, x2, ..., xk) ~ N(0+1 x1+2 x2+ ... +k xk; 2).
3) Sob as suposições CLM os estimadores de mínimos
quadrados são estimadores não-viesados de variância
mínima.
Distribuição amostral de β̂ j

Teorema 4.1 – Sob as suposições CLM (MLR.1 a MLR.6),


condicionado nos valores amostrais das
variáveis explicativas,

  2 
βˆ j ~ N  β j ; 
 SQT (1  R 2
) 
 x j x j 

5
Distribuição amostral de β̂ j

Observação
Tais estimadores são normalmente distribuídos,
pois, são combinações lineares dos y´s, que são
independentes e normalmente distribuídos.

6
Distribuição amostral de β̂ j
Do teorema anterior segue que,

βˆ j  β j
~ N 0; 1 
 2

SQTx j (1  R ) 2
xj

Sendo 2 um parâmetro desconhecido, vamos trabalhar,


em breve, com seu valor estimado e, portanto, deveremos
estudar a distribuição de probabilidades da nova v.a. que
será gerada.
INFERÊNCIA
Voltando ao Exemplo (TEMCO)

Conduza um teste de hipóteses adequado, cujo


objetivo é verificar a significância do seguinte
modelo de regressão linear múltipla:

salário  0  1educ   2 anosemp  3expprev  u

9
Teste de Hipóteses
(significância geral de uma regressão)
Teste F
No modelo com k variáveis explicativas e intercepto
podemos ter interesse na seguinte hipótese nula:

H0 : β1    βk  0
A qual podemos traduzir como: os regressores
conjuntamente são irrelevantes na explicação da variável
resposta.
Já a hipótese alternativa pode ser formulada da
seguinte maneira:
HA : pelo menos um parâmetro difere de zero
Teste F
SQR, SQE e SQT são v.a. e prova-se que:

SQR 2
1. ~χ n k 1;
σ 2

SQE 2
2. Se β1  β2    βk  0, ~χ(k) ;
σ 2

3. SQR e SQE são independen tes.


12
Teste F
Consequências:

 SQR   SQR 
(a) E 2   n  k  1  E   EQMR   σ2
 σ   n  k  1 
QMR é um estimador não-viesado de 2;

 SQE   SQE 
(b) Se β1    βk  0, E 2   k  E   EQME   σ 2

    k 
QME é um estimador não-viesado de 2
13
Teste F
Consequências: (cont.)

(c) Se β1  β2    βk  0,

2
SQE/ σ SQE
k k QME
F   ~ Fk ,n-k 1
SQR/ σ 2
SQR QMR
n-k  1 n-k  1

14
Teste F
Consequências: (cont.)

(d) Se β1  β2    βk  0,

   
E(SQT)  E(SQR)  E(SQE)  n  k  1 σ  k σ  (n-1 )σ
2 2 2

Logo, SQT/(n-1) é um estimador não-viesado de 2

15
Teste F
Ainda, os resultados anteriores podem ser colocados
numa tabela, que na área de Estatística é conhecida
como Tabela de Análise de Variâncias (ANOVA):

Fontes de
SQ gl QM F
variação
Explicação SQE k QME QME/QMR
Resíduo SQR n-(k+1) QMR
Total SQT n-1

16
Teste F
A hipótese nula
H0 : β1    βk  0
será rejeitada se o valor da estatística F for superior ao
valor crítico obtido na cauda da direita da distribuição F,
com k graus de liberdade no numerador e n-k-1 graus
de liberdade no denominador, segundo o desenho a
seguir:

Região crítica: 

Fc
Observação
Ainda, a estatística F, para testar a hipótese de
interesse
H0 : β1    βk  0
pode ser escrita como

R2 sob H0
F k ~ Fk; n-(k 1) 
2
(1- R )
(n - k - 1)
18
Voltando ao Exemplo (TEMCO)

Conduza um teste de hipóteses adequado, cujo


objetivo é verificar a significância do seguinte
modelo de regressão linear múltipla:

salário  0  1educ   2 anosemp  3expprev  u

19
Modelo Estimado (Exemplo)

20
Voltando ao Exemplo (TEMCO)
Utilizando os resultados da estimação dos
parâmetros do modelo proposto anteriormente:

a) Formule e conduza um teste de hipóteses para


verificar se educ é relevante.
b) Formule e conduza um teste de hipóteses para
verificar se anosemp é relevante.

21
Teste de Hipóteses
(individuais)
Teste de Hipóteses
Para testar as hipóteses

H0: j = b (em particular b = 0)


HA: j  b (HA: j < b ou HA: j > b),

utilizaremos o fato que, sob H0 (e sob as suposições


CLM),

βˆ j  b
~ t n-(k 1 )
ep(βˆ ) j
23
Teste de Hipóteses
em que

ˆ 2
ep( ˆ j ) 
SQTx j (1  R )
2
xj

Ainda, a região crítica deve ser construída de acordo com a


hipótese alternativa adotada.

24
Voltando ao Exemplo (TEMCO)
Utilizando os resultados da estimação dos
parâmetros do modelo proposto anteriormente:

a) Formule e conduza um teste de hipóteses para


verificar se educ é relevante.
b) Formule e conduza um teste de hipóteses para
verificar se anosemp é relevante.

25
Modelo Estimado (Exemplo)

26
Intervalo de Confiança

27
Intervalo de Confiança para j

ˆ
IC ( β j ;  )  ( β j  t n-(k 1 )  ep( ˆ j ))
 /2

É um I.C. para j com coeficiente  = 1- de confiança

28
Voltando ao Exemplo (TEMCO)

Utilizando os resultados da estimação dos


parâmetros do modelo proposto anteriormente:

c) verifique, a partir da construção de um intervalo


de confiança, a 95%, se expprev é um regressor
relevante.

29
Modelo Estimado (Exemplo)

30
Inclusão e Exclusão de Variáveis
(teste conjunto)
Teste F-parcial

Objetivo
O teste F-parcial verifica a contribuição de
uma ou mais variáveis explicativas como se
estas tivessem sido as últimas variáveis
explicativas a entrar no modelo.

32
Teste F-parcial

Observação
É um critério útil para acrescentar ou
remover um conjunto de variáveis de um
modelo, sendo bastante utilizado em
critérios de seleção da melhor equação de
regressão.

33
Voltando à empresa TEMCO
No modelo de regressão linear múltipla que objetiva estimar
o comportamento médio do log(salário), já tendo educ como
regressor, a entrada da variável explicativa anosemp é
relevante? Interprete os resultados. Para tanto, considere em
suas análises:

x1 = educ

x2 = anosemp

y = log(salário)
34
Voltando à empresa TEMCO

Interpretação das Hipóteses de Interesse

H0: A inclusão de x2 não traz informações adicionais num


modelo que já tem x1
HA: A inclusão de x2 traz informações adicionais num
modelo que já tem x1

35
Teste F-parcial
Sob H0 (e admitindo a validade das suposições CLM), não é
provar que

SQR r   SQR ur 


glr   glur 
Fp  ~ Fglr   glur ; glur 
SQR ur 
glur 
em que
r – resultados provenientes do modelo sob H0 (modelo
restrito);
ur - resultados provenientes do modelo sem restrições
(completo ou irrestrito)
Teste F-parcial

Podemos trabalhar com a estatística Fp, anterior, em


função dos valores de R2:

R2 R2
ur  r 
glr   glur 
Fp  ~ Fglr   glur ; glur 
(1- R 2 )
ur 
glur 

37
Voltando à empresa TEMCO

No modelo de regressão linear múltipla que


objetiva estimar o comportamento médio do
log(salário), já tendo educ como regressor, a
entrada da variável explicativa anosemp é
relevante? Interprete os resultados.

38
Voltando à empresa TEMCO

Modelo completo (irrestrito):


y = 0 + 1 x1 +  2 x2 + 

Modelo reduzido (construído sob H0)


y = 0R + 1R x1 + R

39
Voltando à empresa TEMCO
Modelo com x1: R2 = 61%
SQR(x1) = 1,1730 gl = 44

Modelo com x1 e x2: R2 = 75%


SQR(x1, x2) = 0,7545 gl = 43

SQR x 1   SQR x 1, x 2 
glx 1   glx 1, x 2 
Fp   23,85
SQR x 1, x 2 
glx 1, x 2 

p-valor = 1,48017E-05 F(1,43)


Relação teste t e F-parcial

Inclusão de ANOSEMP (x2) num modelo que já tem EDUC (x1):


Fp=23,85 = (4,883702)2 = t2 41
Voltando à empresa TEMCO

No modelo de regressão linear múltipla que


objetiva estimar o comportamento médio do
log(salário), já tendo educ e anosemp como
regressores, a entrada da variável explicativa
produtividade (x3) é importante? Interprete os
resultados.

42
Voltando à empresa TEMCO
11.2

11.0

10.8
LOGSALARIO

10.6

10.4
Correlação: 0,81
10.2

10.0
10 20 30 40 50 60 70

PRODUT IVIDADE
43
Voltando à empresa TEMCO

Modelo Completo
Voltando à empresa TEMCO

Modelo Restrito
Voltando à empresa TEMCO
A inclusão de x3 num modelo que já tem x1 e
x2 é necessária?

Fp=0,260 p=0,6127

Ou seja, a inclusão não traz informações


adicionais significativas.

46
Comentários
Neste caso a inclusão da produtividade no modelo
acrescentaria muito pouco em termos de
interpretação.

O efeito de uma variável pode ser significante


quando ela é a única no modelo, mas pode, no
entanto, ser redundante quando outras variáveis
já estão incluídas.

47
Exercício

A introdução de educ e anosemp num


modelo que já possui produtividade,
acrescenta alguma informação significativa
ao modelo?

48
Resolução

Variáveis no modelo SQR gl


x3 1,0594 44
x1 x2 x3 0,7499 42

1,0594  0,7499
Fp  44  42  8,67 p = 0,0007
0,7499
42
49
Comentários
É importante observarmos que, quando passamos
de um modelo de regressão linear simples para um
modelo de regressão linear múltipla, estamos
trabalhando com um modelo mais complicado.
Assim sendo, o ganho com a introdução de novas
variáveis deve compensar a “complicação” do
modelo.
50
Exemplo
Baseando-se no seguinte modelo de regressão linear
múltipla,
salário  0  1educ   2 anosemp  
auxilie o gerente de RH da TEMCO a verificar se a sua
desconfiança sobre o fato do impacto no valor médio da
variável resposta devido à variação da variável educ em uma
unidade, mantendo tudo o mais constante, ser superior ao
impacto no valor médio da variável resposta devido à
variação da variável anosemp em uma unidade, mantendo
tudo o mais constante, procede, a partir da condução de um
teste de hipóteses adequado.
Exemplo (cont.)
Em termos do problema:
H 0 : 1   2
H A : 1   2 .
Modelo Estimado e Matriz Estimada de Var-Cov dos Estimadores de MQO
Teste de Hipóteses sobre uma única
Combinação Linear de Parâmetros
(teste t)

53
Teste de Hipóteses Sobre uma Única
Combinação Linear de Parâmetros
Sejam as hipóteses

H0 : βi  β j  βi  β j  0
HA : βi  β j ( βi  β j ou βi  β j )

Prova-se que, sob H0 (e sob as suposições CLM):

(βˆi  βˆ j )  0
tobs  ~ t n  k 1
^

Var βˆi  βˆ j 
em que
^
  ^
  ^
  ^
Var βˆi  βˆ j  Var βˆi  Var βˆ j  2 Cov βˆi , βˆ j  
Teste de Hipóteses Sobre uma Única
Combinação Linear de Parâmetros

ALTERNATIVAS DE SOLUÇÃO

A) Calcular todos os componentes do erro padrão (diversos


softwares estatísticos geram a matriz de variâncias e
covariâncias estimada para os estimadores dos
parâmetros do modelo de regressão).
No exemplo:
^
  ^
  ^
  ^

Var βˆ1  βˆ2  Var βˆ1  Var βˆ2  2 Cov βˆ1 , βˆ2 
Observação: Note que no exemplo de interesse foi fornecida
a matriz de variâncias e covariâncias.
Teste de Hipóteses Sobre uma Única
Combinação Linear de Parâmetros

ALTERNATIVAS DE SOLUÇÃO

B) Estimar os parâmetros do modelo irrestrito (no exemplo)


salário  0  1educ   2 anosemp  
e do modelo restrito (no exemplo)
salário  1   2 educ  anosemp  
e, através dos coeficientes de determinação de ambos os
modelos, conduzir o teste F-parcial.
Observação: A HA do exemplo é unicaudal, o que invalida,
neste caso, tal alternativa de solução.
Teste de Hipóteses Sobre uma Única
Combinação Linear de Parâmetros

ALTERNATIVAS DE SOLUÇÃO

C) Trabalhar com um modelo transformado para obter o


resultado diretamente

Inicialmente, defina  = i – j. Assim, j pode ser escrito, por


exemplo, como j = i –  e, substituindo este resultado na
equação de regressão linear múltipla de interesse, podemos
testar H0:  = 0, que é equivalente a testar H0: i – j = 0,
contra uma alternativa apropriada.
Voltando ao Exemplo
Baseando-se no seguinte modelo de regressão linear
múltipla,
salário  0  1educ   2 anosemp  
auxilie o gerente de RH da TEMCO a verificar se a sua
desconfiança sobre o fato do impacto no valor médio da
variável resposta devido à variação da variável educ em uma
unidade, mantendo tudo o mais constante, ser superior ao
impacto no valor médio da variável resposta devido à
variação da variável anosemp em uma unidade, mantendo
tudo o mais constante, procede, a partir da condução de um
teste de hipóteses adequado.
Voltando ao Exemplo (cont.)
Em termos do problema:

H 0 : 1   2  1   2  0
H A : 1   2 .

Baseando-se na Alternativa (c), anteriormente citada, vem


que:
1   2

H 0: θ  0
H A: θ  0
Voltando ao Exemplo (cont.)
Mas,  = 1 – 2  1 =  + 2, e substituindo este resultado no
modelo proposto, vem que

salário   0  1educ   2 anosemp  



salário   0  (   2 )educ   2 anosemp  

salário   0   educ   2 educ   2 anosemp  

salário   0   educ   3 (educ  anosemp)  
60
Voltando ao Exemplo (cont.)

61
Voltando ao Exemplo
Hipóteses
H0 :   0
HA :   0

Sob H0 1244,164  0
tobs   2 ,598802
478,7452


tcrítico  t n-k 1  t 43  1,681
0 , 05

0,0128
p  valor  62
2

Você também pode gostar