Você está na página 1de 26

Regressão Linear Múltipla

O modelo de regressão linear múltipla


Introdução
Definição e terminologia
Interpretação
Estimação
Interpretação revisitada
Prof. Lorí Viali, Dr. Qualidade do ajuste
http://www.pucrs.br/famat/viali/ Propriedades estatísticas
viali@pucrs.br Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Modelo de Regressão Linear Simples Modelo de Regressão Linear Múltipla


Outros
fatores
Definição relevantes
y = β0 + β1 x + u permanecem Ajuda a encontrar relações Ceteris
fixos.
Paribus entre variáveis;
variáveis;
Maior desvantagem:
desvantagem:
Não é muito adequado para modelar Melhora o ajuste ao dados;
dados;
relações Ceteris Paribus entre variáveis, Maior flexibilidade.
flexibilidade.
pois dificilmente E( u| x ) = E( u ) = 0
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

D efinição e T erminologia Problemas


Sejam Y e X1 ,...,
..., Xk – “k + 1” variáveis Como não há uma relação precisa entre Y e
populacionais
populacionais.. X1 ,...,
..., Xk, como levar em conta outros fatores
que afetam Y?
O objetivo é explicar Y em função de Qual a verdadeira relação funcional entre Y e
X1 ,...,
..., Xk , isto é, como Y se altera se uma Xi, i = 1, 2, ...,
..., k?
ou todas as variáveis X1, ...,
..., Xk se Como capturar uma relação ceteris paribus
alteram..
alteram entre Y e Xi, i = 1, 2, ...,
..., k (se este for o caso)?
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

1
O M odelo T erminologia
Y: variável dependente, variável explicada,
O (MLRM) Modelo Linear de variável de resposta, variável prevista,
Regressão Múltipla é dado pela seguinte regressando, saída, efeito.
efeito.
Xi: variáveis independentes, variáveis
equação::
equação
explicativas, variáveis de controle, preditores,
preditores,
Y = β0 + β1 X 1 + β2 X 2 + L + βk X k + U regressores,, entradas, causas.
regressores causas.
U: erro, distúrbio ou ruído.
ruído.

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O termo U representa: Hipóteses Adicionais Sobre U


erros de medida;
Média nula
forma funcional inadequada;
variabilidade inerente das variáveis E(U) = 0
envolvidas; Média condicional nula
outros fatores além de X1 ,..., Xk que afetam E(U| X1, X2, ..., Xk) = E(U) = 0
a variável Y.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O Método dos Mínimos Quadrados


Para estimar os parâmetros Considere uma amostra aleatória de
tamanho n da população.
β0, β1,..., βk da equação de regressão
Supondo que esta amostra satisfaça o
múltipla é necessário uma amostra da
modelo pode-se escrever:
população! Y i = β0 + β1 X 1 i + β2 X 2 i + L + βk X ki + U i

{( x 1i , x 2i ,K, x ki , yi ) : i = 1,K,n } Onde a letra i refere-se a i-ésima


observação.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

2
A descrição do modelo de regressão
múltipla é normalmente apresentado de Y 1   X 11 X 12 ... X 1k   β0  U 1 
Y   X X ... X  β  U 
forma matricial. Y=  2
X=  21 22 2k 
β=  1
U = 
2
 ...   ... ... ... ...   ...   ... 
A equação anterior pode ser escrita        
como: Y n   X n1 X n 2 ... X nk   β k  U n 
Y = Xβ + U
Y → ( nx 1 ) X → (nxk) β → kx1 U → (nx1)
Onde:
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Note-se que cada linha da matriz X As hipóteses vistas para a regressão linear
representa um conjunto de valores das variações simples podem ser colocadas na forma
independentes referentes a uma observação,
observação ao matricial da seguinte forma:
passo cada coluna representa um conjunto de
U ~ N ( 0 ,Σ )
valores de uma variável independente nas n
Onde “0” é um vetor-coluna de zeros e Σ é
observações amostrais. A primeira coluna de X é
uma matriz nxn.
composta inteiramente de valores iguais a um.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Σ = σ2In Os elementos da matriz X são não


estocásticos com valores fixados em
Onde In é uma matriz-identidade amostras repetidas, e a matriz
de ordem nxn, com unidades na (1/n)(X’X) é não singular e tal que, para
diagonal principal e zeros em todo o qualquer tamanho amostral, seus
resto. elementos são finitos.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

3
Estimação dos Parâmetros
Da mesma forma que na regressão linear Diferenciando Φ em relação aos parâmetros de
simples os estimadores de mínimos quadrados regressão: β1, β2, ..., βk, tem-se:
dos coeficientes de regressão podem ser n
∂Φ
= −2 ∑ ( Y i − β0 − β1 X 1 i − L − βk X ki )
obtidos, minimizando a soma dos quadrados ∂ β1 i =1
n
dos resíduos, isto é: ∂Φ
= −2 ∑ X 1i ( Y i − β0 − β1 X 1i − L − βk X ki )
∂ β2 i =1
n n ... ... .... ....
Φ= ∑Ui2 = ∑ ( Y i − β0 − β1 X 1 i − L − βk X ki ) 2 ∂Φ n
i =1 i =1 = −2 ∑ X ki ( Y i − β0 − β1 X 1i − L − βk X ki )
∂ βk i =1

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Igualando cada derivada a zero e Para resolver as equações normais de


reagrupando os termos, tem-se: mínimos quadrados, escreve-se a primeira
n n n equação da seguinte forma:
∑Y i = nβ̂0 + β̂1 ∑ X 1 i + ... + β̂k ∑ X ki
i =1 i =1 i =1 ˆβ = Y − β̂1 X − ˆβ X − L − β̂k X
n n n n 0 1 2 2 k
∑ X 2 i Y i = β̂0 ∑ X 2 i + β̂1 ∑ X 22 i + ... + β̂k ∑ X 2 i X ki
i =1 i =1 i =1 i =1
Onde:
... ... .... ....
n n n n 1 n 1 n
∑ X ki Y i = ˆβ0 ∑ X ki + ˆβ1 ∑ X 2 i X ki + ... + ˆβk ∑ X 2ki Y = ∑ Y i e X k = ∑ X ki
i =1 i =1 i =1 i =1 n i =1 n i =1
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Estimação dos Parâmetros


Substituindo a equação anterior nas demais
Onde:
equações, obtém-se após algumas simplificações:
n

m Y 2 = m 12 β̂1 − m 22 β̂2 − L − m k 2 β̂k m Yk = ∑ (Y i − Y ) X ki − X k ( )


i =1

m Y 3 = m 13 β̂1 − m 23 β̂2 − L − m k 3 β̂k m jk = ∑ X ij − X


n
( j
)(X ik −Xk )
... ... ... ... i =1

m Yk = m 1k β̂1 − m 2 k β̂2 − L − m kk β̂k j ,k = 1 ,2 ,..,K

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

4
Estimação dos Parâmetros Estimação dos Parâmetros
mY 1 m 12
mY 2 m 22 m Y 1m 22 − m12 m Y 2
Estas equações podem ser resolvidas β̂1 = =
m11 m 12 m 11m 22 − m 12m 12
para β̂1 , β̂2 , .., β̂k. A solução é simples, m 12 m 22
m 11 mY 1
porém trabalhosa. Se K = 2, isto é, para o m12 m Y 2 m Y 2 m 11 − m Y 1m 12
β̂2 = =
caso de duas variáveis, tem-se: m11 m 12 m 11m 22 − m 12m 12
m 12 m 22

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Exemplo Um
Q (kg) Preço (R$) Investimento (R$ mil)
Considere os dados como sendo das 55 100 550
70 90 630
variáveis: Y = Quantidade vendida de um 90 80 720
100 70 700
produto, X1 = Preço do produto e X2 = Gasto 90 70 625
105 70 735
com a divulgação do produto. Determinar a 80 70 560
110 65 715
equação de regressão de Y em função de X1 e 125 60 750
115 60 690
de X2. 130 55 715
130 50 650
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Y X1 X2 Y2 X 12 X 22 Y X1 YX2 X1 X2
55 100 550
70 90 630
Onde:
90 80 720
100 70 700
Y = 100 m 11 = 2250 mY1 = −3550
90 70 625
105 70 735
X 1 = 70 m 22 = 49000 mY 2 = 125 ,75
m 12 = −5400 mYY = 6300
80 70 560
110 65 715 X 2 = 670
125 60 750
115 60 690
130 55 715
130 50 650
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

5
Então: Assim a equação procurada, será:

− 3550.49000 − ( − 5400 ).125 ,75 Ŷ = 116,16 - 1,31 X 1 + 0 ,11 X 2


β̂1 = = −1 ,3077
2250.49000 − ( −5400 2 ) Desta forma, uma redução de R$10 no preço
2250.125 ,75 − ( −5400 ).( −3550 ) do produto, sem investimento em publicidade,
β̂ 2 = = 0 ,1125
2250.49000 − ( −5400 2 ) aumentaria as vendas em em aproximadamente 13
β̂ 0 = 100 − ( −1 ,3077 ).70 − 0 ,1125 = 116 ,1578 kg. Um aumento na publicidade de 100 mil, sem
alteração no preço, aumenta as vendas em 11 kg.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Exercício Um (Gujarati – 7.18) Ano Y X1 X2


1958 8911,4 281,5 120753
A tabela apresenta dados sobre o produto bruto 1959 10873,2 284,4 122242
real, trabalho e capital real no setor industrial de 1960 11132,5 289,0 125263
1961 12086,5 375,8 128539
Taiwan. 1962 12767,5 375,2 131427
1963 16347,1 402,5 134267
(a) Ajuste os seguintes modelos aos dados da 1964 19542,7 478,0 139038
tabela: Y t = β0 + β1 X 1t + β2 X 2t + U t 1965 21075,9 553,4 146450
1966 23052,0 616,7 153714
ln Y t = α 0 + α 1 ln X 1t + α 2 ln X 2 t + U't 1967 26128,2 695,7 164783
1968 29563,7 790,3 176864
(b) Qual modelo oferece melhor ajuste e por 1969 33376,6 816,0 188146
1970 38354,3 848,4 205841
quê? 1971 46868,3 873,1 221748
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística 1972 54308,0 999,2 239715

Exercício Um (Gujarati – 7.18) Solução do Exercício Um (Gujarati – 7.18)


Onde
Y = Produto Bruto real (em milhões de NT $*)
X1 = Trabalho (por mil pessoas)
X2 = Capital Real (em milhões deNT $)
(*) Dólares Novos de Taiwan
Fonte: Thomas Pei-Fan Chen”, “Economic Growth and Structural
Change in Taiwan - 1952/1972, A Production Function Approach”, tese de
doutorado não-publicada, Departamento de Economia, Centro de
Graduação, City University of New York, Junho de 1976, Tabela II.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

6
Forma Matricial
Onde:
As equações normais do método dos
mínimos quadrados podem (e devem) ser  ∑Y i  n X i2 ... X ik   β̂ 0 
apresentadas em notação matricial, da ∑ X Y  X X X   
... X i 2 X ik
X' Y = 
i1 i 
X' X = 
i1 i 2 i2  β̂ =  β̂ 1 
seguinte forma:  ...   ... ... ... ...   ... 
 X Y    
∑ ik i 
X ... X ik X ik 
X ik X i 2 ik   β̂ k 
X ' Y = ( X ' X ) ˆβ

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A Solução Exemplo Dois

A solução para ˆβ será, então:


Considere os dados como sendo de três
variáveis, sendo uma dependente Y e duas
ˆβ = ( −1
X' X ) ( X' Y ) independentes X1 e X2. Determinar a
equação de regressão de Y em função de X1
e de X2.

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Y X1 X2
Substituindo os valores temos:
3 2 1
2 3 5
4 5 3 Y 1 = 3 = 1. β̂0 + 2. β̂1 + 1. β̂ 2 + E 1
5 7 6 Y 2 = 2 = 1. β̂0 + 3. β̂1 + 5. β̂2 + E 2
8 8 7
Y 3 = 4 = 1. β̂0 + 5. β̂1 + 3. β̂2 + E 3
O modelo para este caso será dado por: Y 4 = 5 = 1. β̂0 + 7. β̂1 + 6. β̂ 2 + E 4
Y i = β0 + β1 X 1 + β2 X 2i + Ui Y 5 = 8 = 1. β̂0 + 8. β̂1 + 7 β̂ 2 + E 5

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

7
As equações podem ser expressas de Tem-se, então:
forma matricial, fazendo: 3  1 2 1 e 1 
2  1 3 5   β̂ 0  e 2 
3  1 2 1 e 1       
2  1 3 5  β̂    y = 4  = 1 5 3   β̂  + e 3 
     0 e 2      1   
Y = 4  X = 1 5 3  β̂ =  ˆ  E = e 3  5  1 7 6   β̂  e 4 
  β 8  1  2  
   1   8 7  e 5 
5  1 7 6
 β̂  e 4 
8  1 8 7    2 e 5 
A forma matricial é, então: y = β x + e
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

−1
A solução é dada por: β̂ = ( X' X ) Xy' Resolvendo por partes:
 22 
Assim, para os valores dados, tem-se: 5 25 22   
' X = 25  X ' y = 131 
X  151 130 
 1 2 1 
−1
111 
3  22 130 120 
 
1 1 1 1 1  1 3 5  1 1   2 
  1 1 1
ˆ = 2 
8  1 3   
8 4 
β  3 5 7 5 2 3 5 7
 1220 − 140 − 72 
   
1 5 3 6 7  1 7 6  1 5 3 6 7  5  −1 1  
  ( X' X ) = − 140 116 − 100 
 1 8 7  8  1016 
   − 72 − 100 130 

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Qualidade do Ajuste
Os coeficientes serão: Na ANOVA a variabilidade entorno da
média geral é decomposta em variabilidade
 1220 − 140 − 72   22   0 ,50  dentro e entre tratamentos. Na Análise de
ˆ = 1     
β − 140 116 − 100  131  =  1 ,00 
1016  Regressão a variabilidade total é decomposta
 − 72 − 100 130  111   − 0 ,25 
em variabilidade sobre a regressão (Explicada)
A equação de regressão, será: e variabilidade devido a regressão (Não-
Explicada). Para mostrar esta decomposição
Ŷ i = 0 ,50 + X 1 − 0 ,25. X 2
vamos partir da seguinte identidade:
E i = Y i − Ŷ i Y i − Ŷ i = ( Y i − Y ) − ( Ŷ i − Y )
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

8
Elevando os dois lados ao quadrado, tem-se:
SQT (Soma dos Quadrados Total )
2 2
( Y i −Ŷ i ) = [ ( Y i −Y ) −( Ŷ i −Y )]
(TSS = Total Sum of Squares)
Manipulando algebricamente, tem-se:
n
n 2 n 2 n 2 VT = SQT = ∑ ( Y i − Y ) 2
∑ ( Y i −Y ) = ∑( Y i −Ŷ i ) + ∑( Ŷ i −Y ) i =1
i =1 i =1 i =1

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

SQE (SSoma dos Quadrados E xplicados ou SSR (SSoma dos Quadrados dos Resíduos)
Ajustados)
(RSS = Residual Sum of Squares)
(ESS = Explained Sum of Squares)

n 2 n n
VE = SQE = ∑ ( Ŷ i − Y ) 2 VR = SQR = ∑ E i2 = ∑ ( Y i −Ŷ i )
i =1 i =1 i =1

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Assim: Soma dos Média dos


n n n
Fonte
Quadrados
GL Quadrados
F
2 2 2
∑ ( Y i −Y ) = ∑( Y i −Ŷ i ) + ∑( Ŷ i −Y )
i =1 i =1 i =1 Regressão SQE k MQE=SQE/k
SQT = SQR + SQE
G.L. n -1 MQS =
= (n - k - 1) + k SQR SQR/
Resíduo
n– k-1 MQE/MQS
Assim, a tabela da ANOVA para a (Erro) (n – k – 1)

Análise de Regressão, fica:


Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

9
Como na regressão simples pode- pode-se
definir o coeficiente de determinação ou R2
SQE SQR
R2 = =1 −
SQT SQT
2
∑n
 ( )
 (Y i − Y ) Ŷ i − Y 
R 2
= n  i =1 
 ∑ (Y − Y )2  ∑ n
( ) 
2
 i  Ŷ i − Y
 i =1  i =1
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

R2 é uma função não decrescente do n


(
∑ Y i −Ŷ i )2 n
∑ E 2i
número de regressores. Conforme aumenta o R 2 =1 − i =1
n =1 − n
i =1

∑ (Y i − Y ) ∑ (Y i − Y )
2 2

número de variáveis explicativas R2 i =1 i =1

geralmente também aumenta. Para verificar


n
VT = ∑ (Y i − Y )
2
isto, basta lembrar que: Então é
i =1

VE VR independente do número de variáveis X


R2= =1 −
VT VT no modelo.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

n n
Mas VR = ∑ E 2i = ∑ Y i −Ŷ i
i =1 i =1
( ) 2
Assim R2, conforme definido irá
depende do número de variáveis aumentar. Desta forma ao se comparar dois
independentes existentes no modelo. modelos de regressão com a mesma variável
Assim, pelo menos intuitivamente, a dependente mas diferente número de variáveis
medida que aumenta o número de variáveis independentes, deve-se ter cautela na
X, VR deve diminuir ou não aumentar. interpretação de R2.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

10
Assim para comparar dois modelos com 2 VR /( n − k )
R =1 −
VT /( n − 1 )
números diferentes de variáveis explicativas é
conveniente levar em conta esta diferença. Onde k = número de parâmetros do

Para fazer isto define-se um coeficiente de modelo incluindo o intercepto. Esta medida é

determinação alternativo, denominado de R2 ajustada para o número de g.l. associados às


ajustado, da seguinte forma: variações que fazem parte do seu cálculo.

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

n
(
∑ Y i −Ŷ i )2
n
Onde o numerador é a variância residual,
i =1
n −k
( n − 1 ) ∑ Y i −Ŷ i ( )2

isto é, uma estimativa dos termos erro e o


R 2 =1 − n =1 − i =1
n
∑ (Y i − Y ) ( n − k ) ∑ (Y i − Y )
2 2

i =1 i =1 denominador a variância da variável Y.


n −1

Ou ainda: R 2 pode ser determinado a partir de R2 da


2 σ̂ 2 seguinte forma:
R =1 − 2 n −k
S 2Y R 2 =R
n −1
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Desta forma se existir apenas uma variável


explicativa os dois coeficientes são iguais. A
partir de k = 2, o coeficiente ajustado será
sempre menor do que o coeficiente não ajustado.
Observe que se R2 = 1, então R 2 também será
um e se R2 = 0, R 2 poderá ser menor do que 1
se k > 1.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

11
Não--Tendenciosidade
Não Variância dos Estimadores
Os estimadores de mínimos quadrados Três fatores influenciam a variância dos
ordinários da regressão linear múltipla são estimadores
não-tendenciosos, isto é: E( β̂ ) = β Variância do erro
0 0

E( β̂1 ) = β1 Variação de Xi
E( β̂2 ) = β2
Grau de relação linear entre as
...
variáveis explicativas
E( β̂k ) = βk

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Como estimar σ2? Variância dos Estimadores


Teorema 3: sob as hipótese já mencionadas, A variância dos estimadores β j é dada
tem
tem--se
se:: por
por::
σ2
Var( β j ) =
n SST j ( 1 − R 2j )
2 1 SQR
2
σ̂ = S = ∑ Ei2 = onde n
∑( X ji − X j )
2
( n − k − 1 ) i =1 ( n −k −1 ) SST j =
i =1
n
e SSE j ∑( X̂ ji −X j )2
E( σ̂ 2 ) = σ 2 R 2
j =
SST j
= i =1
n
∑( X ji −X j )2
i =1
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Teorema de Gauss-
Gauss-Markov
Todos os estimadores
Sob as hipóteses (H1) - (H5) os estimadores
de MQO são BLUE (Best Linear Unbiased Estimadores lineares
Estimadores não-tendenciosos
Estimators), isto é, são os melhores
estimadores, no sentido de possuírem menor MQO
variância (maior eficiência), dentro da classe
dos estimadores lineares e não-viesados..
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

12
Teorema
Inferência em modelos de regressão linear múltipla. Sob as hipóteses (H1) - (H6) e
Distribuição dos estimadores de MQO;
condicionalmente nos valores observados das
variáveis independentes.
Testes de hipóteses sobre um único parâmetro:
o teste t; β̂ j ~ N β j ,Var( β̂ j ) ( )
Intervalos de confiança; Logo
Testando restrições lineares nos parâmetros: o β̂ j − β j
~ N (0 ,1 )
teste F. Var( β̂ j )
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Testes de Hipóteses Sobre um Único Parâmetro Intervalos de Confiança


Considere o modelo
Da mesma forma podem ser criados
Y = β0 + β1 X 1 + β2 X 2 + L + βk X k + U
intervalos de confiança para os parâmetros
Hipóteses sobre o parâmetro bj podem ser estimados, através das seguintes expressões:
testadas por
por::
β̂ j − β j β̂ j ± t n −k −1 ⋅ σ̂ β̂
= t n −k −1 j

σ̂ β̂ j

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Testando Hipóteses Sobre uma


Combinação Linear de Parâmetros
Se quisermos verificar se um ano a mais de
Considere a regressão, abaixo, onde sal é
salario, sec é o número de anos em escola escola secundária equivale a um ano adicional
secundária, uni é o número de anos na na universidade, qual hipótese deveria ser
universidade e exp é o número de anos de testada?
experiência profissional.
profissional.
H0: β 1 = β 2
log( sal ) = β0 + β1 sec + β2 uni + β3exp + U Como testar H0?

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

13
Solução
Redefina H0 da seguinte forma:
forma: O erro padrão da diferença dos dois
H0: β 1 - β 2 = 0
estimadores, será
será::
A estatística do teste será:
V( β̂1 − β̂2 ) = V( β̂1 ) + V( β̂2 ) − 2 Cov( β̂1 , β̂2 )
β̂ − β̂2
t n −k −1 = 1
σ̂ β̂1 − β̂2

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Propriedades assintóticas
Até o momento foram estudadas as
propriedades em amostras pequenas dos estimadores
de mínimos quadrados.
quadrados.
Consistência dos estimadores
Por exemplo, a propriedade de não não--
tendenciosidade dos estimadores de MQO vale para
Normalidade assintótica qualquer tamanho de amostra.
amostra.
Estas propriedades são conhecidas como
propriedades exatas dos estimadores.
estimadores.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Consistência

O próximo passo é estudar quais são as Relembrando que sob as hipóteses de


propriedades dos estimadores de MQO quando Gauss--Markov E[ βˆ j ] = β j
Gauss
o tamanho da amostra cresce.
cresce. Para cada tamanho de amostra n, o
Estas propriedades são conhecidadas como estimador possui uma distribuição de
propriedades assintóticas
assintóticas.. probabilidade..
probabilidade

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

14
Consistência Definição

Como o estimador é não


não--tendencioso,
tendencioso, a Seja β̂ j um estimador do parâmetro β j
^
média de cada distribuição é simplesmente para uma amostra de tamanho n. β̂ j será um
β j. estimador consistente se, para um número ε
qualquer:
Se o estimador for consistente, a medida
que n cresce a distribuição fica mais lim Pr(| β̂ j − β j |> ε ) = 0
n →∞
concentrada em torno da média.
média.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Normalidade
Teorema: sob as hipóteses de Gauss-
Teorema: Gauss-
^
^ Markov (H1 a H5) os estimadores de MQO
Teorema:
Teorema: sob as hipóteses (H1) - (H4), são assintoticamente normais onde:
onde:

os estimadores de mínimos quadrados 1 n 


a 2j = plim 
 ∑r̂ij2 
n →∞  n i =1 
ordinários são consistentes.
 ˆ
βj − βj  D
n → N (0 ,1 )
 se ˆ
 βj ( ) 

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Para os parâmetros de inclinação O que acontece quando variáveis


s2 é um estimador consistente de irrelevantes são incluídas no modelo?
σ2 = V(Uj), para todo j
Considere que o modelo abaixo tenha
 σ2 
→ N 0 , 2 
n ( ˆβ j − β j ) 
D sido especificado.
 aj 
  Y = β0 + β1 X 1 + β2 X 2 + β3 X 3 + U

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

15
Considere ainda que o efeito de X3 em Y, O que acontece quando variáveis
após a inclusão de X1 e X2 no modelo, seja relevantes não são incluídas no modelo?
nulo. Isto é:
Os estimadores serão viesados
β 3 = 0 ⇒ E( y| x 1 , x 2 , x 3 ) = E( y| x 1 , x 2 ) (tendenciosos)..
(tendenciosos)
E( y| x 1 , x 2 ) = β0 + β1 x 1 + β2 x 2 O viés é geralmente chamado de viés de
Mas na prática não se sabe a priori que variáveis omitidas.
omitidas.
β 3 = 0. O que acontecerá com os estimadores? Y = β0 + β1 X 1 + β2 X 2 + U
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Considere o seguinte modelo populacional:


populacional :
Agora, suponha que no modelo estimado a
variável X2 não foi incluída.
incluída.
~ ~ ~
Y = β0 + β1 X 1

n
∑ (X 1i − X 1 )Y i
~ i =1
β1 = n
∑ (X 1 i − X 1 )
2

i =1
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Nem sempre se quer testar os coeficientes


O modelo de Regressão Múltipla Geral é
individuais da regressão. Pode ser necessário e é
dado por:
conveniente testar o modelo como um todo, isto é
Yi = β 1 + β 2X1i + β 3X2i + …+β kXki + Ui
testar se:
H 0 : β 2 = β 3 = ... = β k = 0 Para testar a hipótese nula de que:
Este caso pode ser tratado através da análise H 0 : β 2 = β 3 = ... = β k = 0
de variância (ANOVA).

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

16
Isto é, todos os coeficientes são nulos, SQE /( k − 1 ) ( n − k ) SQE
F= = =
contra a alternativa de que nem todos são SQR /( n − k ) ( k − 1 ) SQR
( n − k ) SQE
simultaneamente nulos, determina-se: = =
( k − 1 )( SQT − SQE )
SQE /( k − 1 )
F= =
( n − k )( SQE / SQT )
=
SQR /( n − k ) ( k − 1 )[ 1 − ( SQE / SQT )]
A expressão tem uma distribuição F com ( n −k ) R 2 R 2 /( k − 1 )
= =
k - 1 e n - k graus de liberdade. ( k − 1 )( 1 − R 2 ) ( 1 − R 2 ) /( n − k )
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Onde:
SQE (SSoma dos Quadrados E xplicados)
SSR (SSoma dos Quadrados dos Resíduos) (ESS = Explained Sum of Squares)
(RSS = Residual Sum of Squares)
n 2
n n 2
VE = SQE = ∑ ( Ŷ i −Y )
VR = SQR = ∑ E i2 = ∑ ( Y i −Ŷ i ) i =1
i =1 i =1

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

e: O resultado anterior mostra que F e R2

n 2 n n 2
variam diretamente. Assim se R2 = 0, então F é
2
∑ ( Y i −Y ) = ∑( Y i −Ŷ i ) + ∑( Ŷ i −Y )
i =1 i =1 i =1 zero. Quanto maior o valor de R2 maior será o
valor de F. Desta forma o teste F que é de
SQT = SQR + SQE
G.L. ajuste do modelo também testa a significância
n -1 = (n - k - 1) + k
do coeficiente de determinação.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

17
Decidindo entre modelos competitivos
A decisão entre um modelo linear ou um O teste MWD foi proposto por
modelo log-linear (o lagaritmo do regressor é MacKinnon, White e Davidson e envolve as
uma função dos logaritmos dos regressores) é seguintes etapas:
uma questão básica na análise empírica. Para
Estimar o modelo linear e determinar os
testar:
valores Ŷ ;
H0: Modelo Linear;
Estimar o modelo log-linear e obter os
^
H1: Modelo Log-Linear. valores ln Y ;
Pode-se utilizar o teste MWD.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

^
Obtenha Z1 = ln Ŷ − ln Y ;
Fazer uma regressão de Y sobre os valores de X e Z
otidos como acima. Rejeitar H0 se o coeficiente de Z1 for
estatisticamente significativo através do teste t
tradicional;
^ )
Obter Z2 = ( anti ln ln Y − Y )
Regredir o ln de Y sobre os logaritmos de Xs e Z2.
Rejeitar H1 se o coeficiente de Z2 for significativo pelo
teste t.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O modelo clássico de Regressão Linear é baseado Se Ui não são autocorrelacionados;


em um conjunto de hipóteses simplificadoras: Se os Xi são aleatórios eles são
independentes ou não-correlacionados com Ui;
É linear nos parâmetros;
O número de observações (n) deve ser maior
Os regressores Xi são fixos em amostragens
que o número de regressoes (k);
repetidas;
Não há relação linear entre os regressoes,
A expectância dos Ui é zero; isto é, multicolinearidade;
A variância de Ui é constante e homocedástica. Os termos Ui são normais.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

18
Três questões devem ser respondidas:
Qual o desvio mínimo em relação a uma
hipótese, para que isto faça diferença?
Como verificar se uma hipótese foi, de fato,
violada, numa situação específica?
Que correção adotar quando uma ou mais
hipóteses não forem verdadeiras?
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

O termo multicolinearidade foi cunhado por


Assim para uma regressão que envolva “k”
Ragnar Frisch na obra “Statistical Confluence
variáveis explicativas: X1, X2, …, Xk, diremos que
Analysis by Means of Complete Regression existe uma relação linear exata se:
Systems” do Instituto de Economia da
λ 1 X1 + λ 2 X2 + λ k Xk = 0
Universidade de Oslo que foi publicada em 1934.
Onde λ1, λ 2, …, λk são constantes não
O termo significa a existência de uma relação simultaneamente nulos.
“perfeita” linear entre algumas ou todas as A idéia de multicolinearidade inclui ainda:
variáveis explicativas do modelo.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A existência da multicolinearidade
λ 1 X1 + λ 2 X2 + λ k Xk + V i = 0
pefeita torna os coeficientes da regressão
Onde o termo Vi é estocástico. indeterminados e seus erros padrão
O termo multicolinear como definido inclui infinitamente grandes. Se a
multicolinearidade não for alta (não perfeita)
apenas relacionamento linear mas isto não exclui
os coeficientes de regressão poderão ser
outras relações como por exemplo: X2 = X1.X1
determinados mas os erros padrão serão
grandes.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

19
Conseqüências da multicolinearidade

Se as hipóteses do modelo são satisfeitas os As estimativas apresentarem grandes


estimadores de MQO dos coeficientes da variâncias e como resultante ter-se-á:
regressão são MELNV. Pode-se mostrar que Intevalos de confiança maiores;
mesmo que as variáveis sejam altamente Alguns coeficientes podem ser não
colineares os MQO ainda mantém a significativos;
propriedade MELNV. Assim as conseqüências O R2 ainda ser alto, mesmo com coeficientes
práticas podem ser: não significativos.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Percepção da multicolinearidade

Este é um fenômeno essencialmente Um R2 alto com poucos regressores


amostral, conseqüência decorrente em boa parte significativos;
de dados não-experimentais coletados na Altas correlações dois a dois entre os
maioria das Ciências Sociais. A seguir algumas regresssores;
regras práticas para detectar sua presença:
Índice de Condição (IC)

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Índice de Condição
Pode-se adotar, então, a seguinte regra
O número de condição “k” é definido
empírica. Se k estiver entre 100 e 1000 existe
como: Autovalor Máximo
k = multicolinearidade de moderada a forte. Se
Autovalor Mínimo
estiver acima de 1000 a multicolinearidade é
O Índice de Condição (IC) é definido, grave. Da mesma pode-se utilizar o IC. Se ele
então, como: estiver entre 10 e 30 colinearidade moderada a
Autovalor Máximo
IC = = k
Autovalor Mínimo forte e acima de 30 grave.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

20
Uma hipótese importante do modelo
clássico de regressão linear é a de que a
variância de cada termo residual (Ui) é
constante e igual a σ2.
Homo (igual) scedasticidade (dispersão) ,
ou
E( U 2i ) = σ 2 i = 1, 2, ..., n
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Alternativamente a homoscedasticidade Alguns causas da heteroscedasticidade


pode ser expressa por: podem ser:
Situações de aprendizagem e erro;
V( Y i / x ) =σ2
Aumento de renda com aumento da liberdade
A heteroscedasticidade é, então dada por: de escolha de como dispor a renda;
Melhora nas técnicas de coleta de dados,
V ( Y i / x ) = σ 2i
menos erros, menor variabilidade;
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Vamos supor o modelo de Regressão


A heteroscedasticidade é mais comum Linear Simples: Yi = α + β Xi + Ui e que:
quando os dados são provenientes de cortes de
E( U 2i ) = σ 2i
séries temporais. O que acontece com os
A inclinação da linha de regressão é dada
estimadores dos MQO e com suas variâncias na
por: S ∑ XY − nXY
presença de heteroscedasticidade?
heteroscedasticidade? b = XY =
S XX ∑ X 2 − n X 2
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

21
Neste caso, a variância do estimador será Neste caso o estimador MQO continua
dada por: 2 2 linear e não tendencioso, mas não será mais
∑( X i − X ) σ i de variância mínima.
V(b ) = 2
[ ∑( X i − X ) 2 ] Ele não é eficiente,
eficiente, pois não leva em
consideração a informação de que para cada x
Se σ 2i = σ 2 , então a expressão acima a variância de Y é diferente.
diferente. Para obter um
ficará reduzida ao caso usual. estimador eficiente é preciso fazer uso do
método dos MQG.
MQG.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

MQG (Mínimos Quadrados Generalizados) Detectando a Heterocedasticidade


O MQO não leva em conta as diferentes Como saber se existe heteroscedasticidade
variabilidades dos resíduos, conferindo a nos dados? Não existe um método seguro com
mesma importância para cada observação. O valores amostrais. Como, em geral, só existe
MQG leva em conta explicitamente tal um Y para cada X, dectetar a presença de
informação e por isto é capaz de produzir heroscedasticidade não é simples.
estimadores eficientes na presença de A maioria dos métodos se baseia no exame
heteroscedasticidade. dos resíduos.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Testes formais Medidas Corretivas


Teste de Park;
Teste de Glejser; As medidas corretivas devem levar em
conta as duas seguintes situações:
Teste de Spearman de correlação da ordem;
Quando as variabilidades resíduais forem
Teste de Goldfeld-Quandt;
conhecidas e
Teste de Breusch-Pagan-Godfrey;
Quando elas não forem conhecidas.
Teste Geral de Heteroscedasticidade de
White;
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

22
Se as variabilidades residuais Se as variabilidades residuais não forem
forem conhecidas então deve-se conhecidas pode-se adotar os seguintes
utilizar o Método dos Mínimos 1 procedimentos:
wi = 2
Quadrados Generalizados ou σi Variâncias e erros-padrão consistentes em
Ponderados, onde a ponderação é heteroscedasticidade segundo White;
dada por: Hipóteses plausíveis a respeito do padrão de
heteroscedasticidade;
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Uma hipótese importante do modelo


clássico de regressão linear é a de que não
existe autocorrelação ou correlação serial entre
os resíduos Ui.
No entanto, a correlação pode ocorrer,
então deve-se responder:

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

A Natureza
O termo autocorrelação pode ser entendido
Qual a sua natureza? como a “correlação entre os termos de observações
Quais as conseqüências teóricas e no tempo” [séries temporais} ou “espaciais” [dados
de corte].
práticas?
No modelo clássico a suposição é de que:
Como corrigir o problema quando ele
E(UiUj) = 0 se i ≠ j
ocorre? Isto é, um dado resíduo “i” não é influenciado
por um outro dado resíduo “j”.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

23
Causas da Autocorrelação
Inércia ou rigidez. Séries como PNB, A oferta de produtos agrícolas reflete um
Índices de Preços, Produção, Emprego e fenômeno denominado de Teia de Aranha, em
Desemprego são cíclicas;
que a oferta reage ao preço como uma
Viés de especificação: variáveis excluídas.
defasagem de um período de tempo, pois as
Viés de especificação: forma funcional
incorreta; decisões relativas à oferta levam um certo

Fenômeno da Teia de Aranha. tempo para serem implementadas.


Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Estimativas por MQO com Autocorrelação

Defasagens. Em uma regressão de série temporal O que ocorre com os estimadores de MQO
do consumo sobre a renda, não é raro verificar
se E(UiUj) ≠ 0 (para i ≠ j) e as demais
que o consumo no período corrente depende,
entre outras coisas, do consumo no período hipóteses forem mantidas?
anterior; Neste caso os estimadores, a exemplo, do
Manipulações de dados. Dados trimestrais
caso heteroscedástico, são ainda lineares e não
agregados de médias de dados mensais;
tendeciosos.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

No entanto sua variância será afetada. Para isto será necessário utilizar
Neste caso eles não mais terão variância MQG – Mínimos Quadrados
mínima, isto é, eles não serão eficientes. Generalizados, que incorpora qualquer
Aqui, também, a exemplo da informação adicional que tivermos através
heteroscedasticidade pode-se encontrar um
da transformação das variáveis.
estimador que seja eficiente.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

24
Detectando a Autocorrelação

A autocorrelação é um problema
Método Gráfico. Representar
potencialmente sério e medidas corretivas graficamente os resíduos (Ut) e os
devem ser tomadas. Entretanto, resíduos padronizados (Ut/s);
inicialmente, é necessário, verificar se ela Teste das carreiras ou de Geary.
existe. Alguns testes para detectar a
O teste d de Durbin-Watson
autocorrelação.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Medidas Corretivas
Quando o autocorrelação não é conhecida.
Quando a estrutura da autocorrelação
Embora simples de aplicar a regressão de
é conhecida utilizar a transformação de diferença generalizada é geralmente difícil de
Prais-Winsten e a Equação de Diferença rodar, pois, na prática, poucas vezes se
Generalizada ou de Quase-Diferença. conhece o valor de ρ. Por isto foram criados
métodos alternativos.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

Método da primeira diferença. Para O método de Cochrane-Orcutt em duas


aplicá-lo é necessário fazer o teste de etapas. É uma versão abreviada do
Berenblutt-Webb de que ρ = 1. processo iterativo.
O processo iterativo de Cochrane- Método de Durbin em duas etapas
Orcutt para estimar ρ. para estimar ρ.

Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

25
PARK, R. E. Estimation with Heteroscedastic Error BREUSCH, T., PAGAN, A. A Simple Test for
Terms. Econometrica. v. 34, n. 34, Out de 1966. p. Heteroscedasticity and Random Coefficient
888. Variation. Econometrica. v. 47, 1979. p. 1287-94.
GLEJSER, H. A New Test for Heteroscedasticity. GODFREY, L. Testing for Multiplicative
Journal of the American Statistical Association. v. Heteroscedasticity. Jornal of Econometrics. v. 8,
64, 1969. p. 316-23. 1978. p. 227-36.
GOLDFELD, S. M., QUANDT, R. E. Nonlinear WHITE, H. A Heteroscedasticity Consistent
Methods of Econometrics. Amesterdã: North- Covariance Matrix Estimator and a Direct Test of
Holland, 1972. Heteroscedasticity. Econometrica. v. 48, 1980. p. 817-
18.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

GEARY, R. C. Relative Efficiency of Count of Sign


Changes for Assessing Residual Autoregression in Least COCHRANE, D. ORCUTT, G. H. Application of Least
Squares Regression. Biometrika, v. 57, 1970. P. 123-27. Squares Regressions to Relationships Containing
DURBIN, J., WATSON, G. S. Testing for Serial Autocorrelated Error Terms. Journal of the Royal
Correlation in Least-Squares Regression. Biometrika. v. Statistical Society. v . 44, 1949. P. 32-61.
38, 1951. p. 159-71. DURBIN, J. Estimation of Parameters in Time-Series
BERENBLUTT, I. I., WEBB, G. I. A New Test for Regression Models. Journal of the Royal Statistical
Autocorrelated Errors in the Linear Regression Model. Society. Série B. v. 22, 1960. p. 139-153.
Journal of the Royal Statistical Society. Série B, v. 35,
n. 1, 1973. P. 33-50.
Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística Curso: Engenharia de Processos e de Sistemas de Produção - Prof. Lorí Viali, Dr. – PUCRS – FAMAT: Departamento de Estatística

26

Você também pode gostar