Você está na página 1de 41

Análise de Regressão Linear Múltipla I

Aula 04

Gujarati e Porter, 2011 – Capítulos 7 e 10 – tradução da 5ª ed.

Heij et al., 2004 – Capítulo 3

Wooldridge, 2011 – Capítulo 3 – tradução da 4ª ed.


Introdução
Como pode ser visto anteriormente, o modelo de regressão linear

simples, com uma variável explicativa (regressor), aplica-se a várias

situações.

Entretanto, diversos problemas envolvem dois ou mais regressores

influenciando o comportamento da variável resposta (dependente), y.

Chamamos Modelo de Regressão Linear Múltipla a qualquer modelo de

regressão linear com duas ou mais variáveis explicativas.


2
Introdução

x3
x1
y •
variável resposta


x2
xk

x1, x1, ..., xk: variáveis explicativas (regressores)


Modelo de regressão linear múltipla

Vamos admitir que X1, X2, ..., Xk sejam as variáveis


independentes e Y a variável dependente.

Dada uma amostra de n observações,

(x1i, x2i, ..., xki, yi), i = 1, 2, ..., n,

o modelo de regressão linear múltipla será dado por:


4
Modelo de regressão linear múltipla

E[yi | x1i, x2i, ..., xki] = 0 + 1 x1i + 2 x2i + ... + k xki ,

i = 1, 2, ..., n

ou

yi = 0 + 1 x1i + 2 x2i + ... + k xki + i ,

i = 1, 2, ..., n.

em que n > (k+1).


5
Mínimos Quadrados Ordinários
Método dos Mínimos Quadrados

Para determinarmos os estimadores de mínimos


quadrados de 0, 1, ..., k, devemos minimizar o erro
quadrático total (i2):

n n

      y  β
i 1
i
2

i 1
i 0  β1 x1i    βk xki 
2

7
Método dos Mínimos Quadrados

O mínimo da função
n n
S(β0 , β1, , βk )    i     yi  β0  β1 x1i    βk xki 
2 2

i 1 i 1

é obtido derivando-a em relação a 0, 1, ..., k, e


igualando o resultado a zero. Ou seja,

 
S(β0 , β1, , βk )  0  S(β0 , β1, , βk )  0
β0 βk
Equações Normais


 
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki 0
β0 i 1


  
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki x1i 0
β1 i 1



  
n
S(β0 , β1, , βk )  2 yi  βˆ0  βˆ1 x1i    βˆk xki xki 0
βk i 1

9
Abordagem Matricial

Devido à complexidade das fórmulas envolvidas,


utilizaremos a abordagem matricial, que nos permitirá, entre
outras coisas:

i. encontrar o vetor de estimadores;

ii. verificar as propriedades estatísticas de (i);

iii. obter a distribuição de probabilidades de (i);

qualquer que seja o número de regressores presentes no


modelo.
10
Abordagem Matricial
Assim, a equação

yi = 0 + 1 x1i + 2 x2i + ... + k xki + i , i = 1, 2, ..., n.

também pode ser escrita como


y1 = 0 + 1 x11 + 2 x21 + ... + k xk1 + 1
y2 = 0 + 1 x12 + 2 x22 + ... + k xk2 + 2
y3 = 0 + 1 x13 + 2 x23 + ... + k xk3 + 3
.
.
.
yn = 0 + 1 x1n + 2 x2n + ... + k xkn + n
Abordagem Matricial

As igualdades anteriores podem ser alocadas facilmente em


dois vetores colunas (n1), descritos a seguir:

 y1   0  1 x11     k xk1  1 
   
 y2   0  1 x12     k xk 2   2 
     
   
 y      x    x   
 n 0
1 1n
 
k kn n

n1 n1

12
Abordagem Matricial

Ainda,

 y1   0  1 x11     k xk1   1 
     
 y2   0  1 x12     k xk 2    2 
    

 
     
 y      x    x   
 n 0
 
1 1n k kn   n 
  
n1 n1 n1

13
Abordagem Matricial

Finalmente,

 y1  1 x11  xk1   0   1 
       
 y2  1 x12  xk 2   1    2 
             
 
       
 y  1 x  x       
 n  
1n kn   k 
   n
n1 nk 1 k 11 n1

14
Abordagem Matricial
Vamos definir:

 y1  1 x11  xk1 
   
 y2  1 x12  xk 2 
y   X
      i  1 x1i  xki 
 
~
 
~
y  1 x  x 
 kn 
 n 1n
~

 0   1 
   
 1   2 
β  ε 
 ~ 
   
~
   
 k  n 15
Modelo de regressão linear múltipla

Assim, utilizando os resultados do slide anterior, podemos


escrever o modelo de regressão linear múltipla como:

y  X β  ε,
~ ~ ~ ~

que é chamado Modelo Linear Geral.

16
Estimação
Método dos Mínimos Quadrados Ordinários

(MQO)
Estimação
Método dos Mínimos Quadrados Ordinários

Para determinarmos os estimadores de MQO de 0,


1, ..., k, devemos minimizar
n
S    i 2  12     n2  ε' ε
~ ~
i 1

ou, ainda,

   
S  ε' ε   y  X β '  y  X β 
~ ~ ~ ~ ~~ ~ ~ 18
Estimação
Método dos Mínimos Quadrados Ordinários

Abrindo a expressão anterior, vem que

      
S   y  X β '  y  X β    y'  β' X'  y  X β  
 ~ ~ ~   ~ ~ ~   ~ ~ ~  ~ ~ ~ 

 y' y  y' X β β' X' y  β' X' X β


~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

19
Estimação
Método dos Mínimos Quadrados Ordinários
Como
y' X β e β' X' y
~ ~ ~ ~ ~
~

são escalares e
y' X β   β' X' y '
~ ~ ~ ~ ~ ~
então
y' X β  β' X' y
~ ~ ~ ~ ~ ~ 20
Estimação
Método dos Mínimos Quadrados Ordinários
Assim

S  y ' y  2 y ' X β  β' X' X β


~ ~ ~ ~ ~ ~ ~ ~ ~

Logo, nosso interesse, agora, é encontrar o


resultado para

S
β
21
~
Derivadas
de
Formas Lineares
e
Formas Quadráticas
22
Derivadas de Formas Lineares e Quadráticas

Definição.

Considere o vetor coluna x   x1 , x 2 , ..., x n ' e f x , uma função real


~ ~

de x1, x2, ..., xn. Assim, a derivada parcial de f x com relação a x é


~ ~

dada por:  f ( x) 
 ~ 
 x1 
 f ( x) 
f ( x)  ~ 
~
  x 
x  2

~
  
 f ( x )
~ 
 x 
 n 
23
Derivadas de Formas Lineares e Quadráticas

Teorema 1.(forma linear)

~

Se a  a1, a 2 , ..., a n  ' um vetor coluna de constantes e se f x  a ' x , x ' a
~ ~ ~ ~ ~
f ( x )
então ~
 a.
x ~
~

Teorema 2. (forma quadrática)



Se f x  x ' A x (forma quadrática, e A matriz simétrica de constantes),
~ ~ ~ ~
f ( x )
então ~
 2 A x , que é um vetor coluna de n elementos.
x ~ ~
~ 24
Voltando à Estimação (MQO)

Lembrando que objetivamos minimizar

S  β   y ' y  2 y ' X β  β ' X ' X β


~ ~ ~ ~ ~ ~ ~ ~ ~ ~

e, utilizando os resultados vistos anteriormente, temos que

S  β 
 ~   2 X ' y  2 X ' X β
β ~ ~ ~ ~ ~
~
25
Voltando à Estimação (MQO)

E, igualando o resultado anterior a zero, vem que

 2 X ' y  2 X ' X βˆ  0  X ' X βˆ  X ' y


~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~

que é o sistema de equações normais na forma matricial.

Para encontrarmos o resultado de interesse, precisaremos


supor que a matriz X’X admite inversa (ou seja, precisaremos
supor que X’X é não-singular). Para tanto, assumiremos que
os regressores não apresentam relação linear perfeita.
26
Estimação (MQO)

Assim, assumindo que X’X é não-singular, a solução do


sistema de equações normais é dada por

~
 
βˆ  X ' X
~ ~
1
X'y
~ ~

que é o vetor de estimadores de mínimos quadrados do vetor


de parâmetros de interesse.

27
Regressão Múltipla
EY | X1  x1 , , X k  xk   0  1 x1    k xk

Modelo Estimado
ˆ
y  ˆ0  ˆ1 x1   ˆk xk
abuso de notação

Interpretação do Intercepto
Valor médio estimado para a variável resposta, condicionado
a x1 = x2 = ... = xk = 0.

Muitas vezes pode não ter significado!!!


Interpretação dos demais parâmetros

Considerando

yˆ  ˆ1x1  ˆ2 x2    ˆk xk

se x2 = ... = xk = 0 (ou seja, as outras variáveis são


mantidas constantes), então o efeito parcial de x1 no valor
médio estimado para a variável resposta é dado por

yˆ ˆ
 1
x1
29
Aplicação

O departamento de RH da empresa TEMCO objetiva estudar o


comportamento dos salários dos funcionários dos mais
diversos setores da empresa.

Para tanto, o gerente de RH, baseando-se numa amostra


aleatória de 46 empregados, coletou informações sobre as
seguintes variáveis:

30
Aplicação

id – número cadastral do funcionário;


salario – anual, em dólares;
anosemp – tempo (em anos) na empresa;
expprev – experiência anterior (em anos);
educ – anos de estudo após o segundo grau;
sexo – (feminino = 0, masculino = 1);
dept – departamento no qual atua (Compras = 1,
Engenharia = 2, Propaganda = 3, Vendas = 4);
super – número de empregados sob responsabilidade do
empregado.
31
Aplicação

Quadro 1 - Parte de uma planilha que contem informações sobre os


32
empregados da empresa TEMCO.
Aplicação
Como parte do estudo, a gerente de RH propôs a estimação
dos parâmetros do seguinte modelo de regressão múltipla:

salario = 0 + 1 educ + 2 anosemp + 

a) Em termos do problema, 0 apresenta algum significado


prático?
b) Qual o sinal esperado para 1? E para 2?
c) Encontre as estimativas dos parâmetros, via mínimos
quadrados ordinários, escreva a equação estimada e
interprete os resultados obtidos, em termos do problema
de interesse. 33
Aplicação
Interpretação dos parâmetros do modelo proposto, em
termos do problema:

0 – salário médio dos funcionários da empresa TEMCO, que


acabaram de entrar na empresa (ou que ainda não completaram um
ano) e que não apresentam nenhum ano de escolaridade após o
segundo grau;
1 – efeito no salário médio dos funcionários da empresa TEMCO,
dada a variação de um ano no tempo de escolaridade após o
segundo grau, mantendo constante a variável anosemp; e
2 – efeito no salário médio dos funcionários da empresa TEMCO,
dada a variação de um ano no tempo de empresa, mantendo
constante a variável educ.
Aplicação

35
Aplicação

Modelo estimado

salˆário  23177,47  1916,49 educ 672,32 anosemp

Pergunta: qual o salário médio estimado para pessoas com 3 anos de


escolaridade após o 2º grau e com 5 anos na empresa?

salˆario  23.177,47  1.916,49 * 3  672,33 *5


salˆario  32288,54
36
Exercício (para entrega na próxima aula)
Considere o seguinte modelo de regressão linear:

yi = 0 + 1 x1i + i

Ainda, sabendo que o vetor de estimadores de MQO para o


vetor de parâmetros do modelo de interesse é dado por

~
 
ˆβ  X' X 1 X ' y
~ ~ ~ ~

Encontre as expressões analíticas para o estimador do


intercepto e do coeficiente angular.
37
Leitura Complementar

38
Posto de uma Matriz

Posto de uma Matriz: Seja A uma matriz n x k. O posto de A,


denotado por r(A), é a ordem da “maior” submatriz quadrada não
singular de A.

Propriedades:
(i) O determinante de uma matriz quadrada é diferente de
zero se, e somente se, a matriz tiver posto completo;
(ii) Caso uma matriz quadrada apresente determinante
igual a zero, então tal matriz será dita singular;
(iii) r(A) = r(AA’) = r(A’A). 39
Posto de uma Matriz
Conseqüências:
(i) Se r(A) = p, então A contém pelo menos um menor p x p não
nulo e nenhum menor não nulo de dimensão maior que p;
(ii) Se n > k, r(A) é o número de colunas linearmente
independentes de A, portanto r(A)  k:
• Se r(A) = k, A é de posto completo;
(iii) Se n < k, r(A) é o número de linhas linearmente
independentes de A, portanto r(A)  n:
• Se r(A) = n, A é de posto completo.
40
Observação

Tecnicamente, foi feita a suposição de que não existe colinearidade

perfeita entre os regressores, que formam as colunas da matriz X. Ou

seja, nenhum dos regressores pode ser expresso como uma combinação

linear exata dos demais regressores do modelo. Assim, o posto de X é

igual a k (como k é o número de colunas da matriz X, estamos supondo

que a matriz X é de posto completo, ou seja, as colunas de X são

linearmente independentes).
41

Você também pode gostar