Escolar Documentos
Profissional Documentos
Cultura Documentos
Analise de Regressão - Livro PDF
Analise de Regressão - Livro PDF
ANLISE DE REGRESSO
Uma Introduo Econometria
ANLISE DE REGRESSO
Uma Introduo
Econometria
Piracicaba
Edio do Autor
2016
DOI: 10.11606/9788592105709
Dados Internacionais de Catalogao na Publicao
DIVISO DE BIBLIOTECA DIBD/ESALQ/USP
Hoffmann, Rodolfo
Anlise de regresso: uma introduo econometria [recurso eletrnico] / Rodolfo
Hoffmann. - - 5. ed. Piracicaba: O Autor, 2016.
393 p. : il.
ISBN: 978-85-921057-0-9
CDD 330.18
H711a
DOI: 10.11606/9788592105709
Y = f ( X 1 , X 2 ,K, X k )
1
Figura 1.1. Modelo matemtico: Yi = f ( X i )
comum, entretanto, que a varivel dependente seja afetada por outros fatores,
alm dos considerados no modelo adotado. Admitamos que a varivel dependente sofra
a influncia de k + m variveis, isto ,
Y = f ( X 1 , X 2 , K , X k , X k +1 , K , X k + m )
Yi = f ( X 1i , X 2i , K , X ki ) + u i (i = 1, K , n)
Yi = f ( X i ) + u i
2
1.2. Dizemos que as duas variveis esto relacionadas de acordo com um modelo
estatstico.
Vi = f ( X 1i , X 2i , K , X ki )
(u i ) , isto ,
Yi = Vi + u i ,
Yi = f ( X 1i , X 2i , K , X ki ) + u i
3
Em casos reais geralmente existem tanto erros de mensurao como efeitos de
outras variveis. Nestes casos, o erro residual do modelo ser a soma desses dois tipos
de erro.
Desde que existam erros de mensurao, lgico admitir que os valores das
variveis explanatrias tambm so afetados; os problemas que isso acarreta sero
discutidos mais adiante; numa primeira etapa admitiremos apenas um erro residual
devido existncia de fatores no includos no modelo e/ou erros de mensurao apenas
na varivel dependente.
Nas prximas sees deste captulo faremos uma reviso de alguns conceitos
bsicos de estatstica.1
5
P( X = k ) = p k (1 p ) 5 k
k
P( X = k ) = 0
1
Um desenvolvimento mais detalhado da maioria dos temas abordados nesta reviso pode ser encontrado
em HOFFMANN (1980).
4
Entretanto, desde que seja definida a funo de densidade f ( X ) , podemos obter
a probabilidade de a varivel aleatria assumir valores no intervalo (a, b), isto ,
b
P(a < X < b) = f ( X )dX
a
1 ( X ) 2
f (X ) = exp
2 2 2 2
= E ( X ) = X i P( X i )
+
= E ( X ) = xf ( X )dX
a) E ( K ) = K
b) E ( X + K ) = E ( X ) + K
c) E ( KX ) = KE ( X )
d) E ( X + Y ) = E ( X ) + E (Y )
e, se X e Y so independentes,
e) E ( XY ) = E ( X ) E (Y )
5
2 = V ( X ) = E[ X E ( X )] 2 = E ( X ) 2
= E[ KX KE ( X )] 2 =
= E{K 2 [ X E ( X )] 2 } =
= K 2 E[ X E ( X )] 2 =
= K 2V ( X ), c.q.d.
cov( X , Y ) = E[ X E ( X )] [Y E (Y )] =
= E ( X X )(Y Y )
V ( X + Y ) = V ( X ) + V (Y ) + 2 cov( X , Y )
Temos
V ( X + Y ) = E[( X + Y ) E ( X + Y )] 2
Ento
V ( X + Y ) = E{[( X E ( X )] + [Y E (Y )]}2 =
= E[( X X ) 2 + (Y Y ) 2 + 2( X X )(Y Y )] =
= V ( X ) + V (Y ) + 2 cov( X , Y )
V ( X Y ) = V ( X ) + V (Y ) 2 cov( X , Y )
cov( X , Y ) = E ( X X )(Y Y ) =
= E ( X X ) E (Y Y ) = 0
6
Segue-se que, no caso de variveis independentes,
V ( X Y ) = V ( X ) + V (Y )
Consideremos, agora, que temos dois tetraedros, um azul e outro branco. Sejam
X e Y as variveis aleatrias que representam os valores obtidos nos tetraedros azul e
branco, respectivamente.
Temos
X = Y = 3
X2 = Y2 = 5
Uma vez que X e Y so, obviamente, variveis independentes, devemos verificar
que cov( X , Y ) = 0 .
X
Y
0 2 4 6
0 9 3 3 9
2 3 1 1 3
4 3 1 1 3
6 9 3 3 9
7
Verificamos ento que
cov( X , Y ) = E ( X X )(Y Y ) =
1 1 1
= 9 + 3 +K+ 9 = 0
16 16 16
Seja Z = X + Y
Ento V ( Z ) = V ( X ) + V (Y ) + 2 cov( X , Y ) = 5 + 5 = 10
Temos que
E ( Z ) = E ( X + Y ) = E ( X ) + E (Y ) = 3 + 3 = 6
Esse valor tambm pode ser obtido calculando a mdia dos valores obtidos na
tabela 1.2, como segue:
1 1 1 1
E(Z ) = 0 + 2 + 4 + K + 12 = 6
16 16 16 16
Finalmente, obtemos
V ( Z ) = E[ Z E ( Z )] 2 =
1 1 1
= (0 6) 2 + ( 2 6) 2 + K + (12 6) 2 = 10 ,
16 16 16
8
Devemos ressaltar que, embora cov( X , Y ) = 0 sempre que X e Y so variveis
aleatrias independentes, o inverso no verdadeiro, isto , se cov( X , Y ) = 0 , no
podemos concluir que X e Y so independentes. Na tabela 1.3 apresentamos uma
distribuio conjunta em que cov( X , Y ) = 0 e as variveis no so independentes, pois
P ( X i , Y j ) P ( X i ) P (Y j )
Y X
P(Y )
1 0 1
1 0,10 0,30 0,10 0,50
1 0,25 0 0,25 0,50
P( X ) 0,35 0,30 0,35 1,00
Temos que
E( X ) = 3 ,
E (W ) = 9 e
9
cov( X , W ) = [ X E ( X )] [W E (W )] =
1 1 1 1
= (9) + (1) + (1) + (9) = 5
4 4 4 4
cov( 1 + 1 X + 1Y , 2 + 2 X + 2 Y ) =
= 1 2V ( X ) + ( 1 2 + 1 2 ) cov( X , Y ) + 1 2V (Y )
cov( X , + X ) = V ( X )
Este ltimo resultado pode ser utilizado para obter a covarincia entre as
variveis X e W da tabela 1.4. Como a soma de todos os valores marcados no tetraedro
sempre igual a 12, temos que W = 12 X . Ento
E (a ) =
10
importante lembrar que o estimador a uma varivel, isto , ele representa
uma dada frmula de clculo que fornecer valores que sero diferentes, conforme a
amostra selecionada.
Para exemplificar, consideremos, novamente, a populao infinita gerada pelo
lanamento do tetraedro regular em cujas faces esto marcados os valores 0, 2, 4 e 6.
J vimos que = E ( X ) = 3 e 2 = V ( X ) = 5
Lanando o tetraedro duas vezes, podemos obter amostras com n = 2 elementos
dessa populao. Na tabela 1.5 apresentamos as dezesseis amostras de tamanho n = 2,
que podem ser obtidas, e as respectivas estimativas dos parmetros e 2 . Os
estimadores so
X i X1 + X 2
X = =
n 2
e
( X i X ) 2
s2 = = (X1 X )2 + (X 2 X )2
n 1
X2 = V ( X ) = E[ X E ( X )] 2
Temos
X + X 2 +K+ X n 1
V (X ) = V 1 = 2 V (X1 + X 2 +K+ X n )
n n
Uma vez que as observaes de uma amostra aleatria de uma populao infinita
so independentes, segue-se que
1 2
V (X ) = n 2
=
n2 n
s2
O estimador da varincia mdia s 2
X
=
n
Obviamente, cada uma das dezesseis amostras tem probabilidade 1/16 de ser
selecionada.
11
TABELA 1.5. Valores de X , s 2 , s X2 e ( X ) 2 para as 16 amostras que
Amostra X s2 s X2 (X )2
0e0 0 0 0 9
0e2 1 2 1 4
0e4 2 8 4 1
0e6 3 18 9 0
2e0 1 2 1 4
2e2 2 0 0 1
2e4 3 2 1 0
2e6 4 8 4 1
4e0 2 8 4 1
4e2 3 2 1 0
4e4 4 0 0 1
4e6 5 2 1 4
6e0 3 18 9 0
6e2 4 8 4 1
6e4 5 2 1 4
6e6 6 0 0 9
Verificamos que
1 1 1 1 1 48
E( X ) = 0 + 1 + 2 + K + 5 + 6 = =,
16 16 16 16 16 16
X + X 2 +K+ X n
E ( X ) = E 1 =
n
1 n
= [ E ( X 1 ) + E ( X 2 ) + K + E ( X n )] = =
n n
1 1 1 1 1 80
E(s 2 ) = 0 + 2 8 +K+ 2 0 = =5 = 2,
16 16 16 16 16 16
12
2 5
V ( X ) = X2 = =
n 2
1 1 1 1 1 40 5
E ( s X2 ) = 0 + 1 + 4 + K + 1 + 0 = = ,
16 16 16 16 16 16 2
1 m
V (X ) = S 2 =
m 1 i =1
( X i ) 2
S2 n
V ( X ) = X2 = 1
n m
13
n
X
i =1
i
X =
n
(X i X )2
s2 n
s2 = i =1
e s X2 = 1
n 1 n m
0+2+4+6
= =3
4
( X i ) 2 (0 3) 2 + (1 3) 2 + ( 4 3) 2 + (6 3) 2 20
S =
2
= =
m 1 3 3
4
Consideremos as = 6 diferentes amostras de 2 elementos (n = 2) que
2
podemos tirar dessa populao. Essas amostras esto discriminadas na tabela 1.6, com
os correspondentes valores de X , s 2 , s X2 e ( X ) 2 .
14
S 2 n 20 2 5
V (X ) = 2
X
= 1 = 1 =
n m 6 4 3
Verificamos que:
1 18
E( X ) = (1 + 2 + K + 5) = = 3,
6 6
ou seja, E ( X ) =
1 40 20
E(s 2 ) = ( 2 + 8 + K + 2) = = ,
6 6 3
ou seja, E ( s 2 ) = S 2
11 1 1 20 5
E ( s X2 ) = + 2 +K+ = =
62 2 6 2 3
ou seja, E ( s X2 ) = X2
15
Temos que
E ( m) = i E ( X i ) = i =
Isso mostra que qualquer mdia ponderada dos valores observados em uma
amostra aleatria um estimados no tendencioso de . Portanto, existem infinitos
estimadores no-tendenciosos de .
V ( a1 )
V (a 2 )
X1 + X 2 1 1
a) a mdia aritmtica X = = X1 + X 2 e
2 2 2
1 3
b) a mdia ponderada m = X1 + X 2
4 4
Temos
2
V (X ) =
2
e
1 2 9 2 5 2
V (m) = + =
16 16 8
A eficincia de m em relao a X
1 2
2 4
= = 0,8 ou 80%
5 2 5
8
16
fcil provar que, dada uma amostra com 2 observaes ( X 1 e X 2 ) , dentre os
estimadores da classe
m = X 1 + (1 ) X 2 ,
1
o mais eficiente a mdia aritmtica, ou seja, o caso em que = .
2
Temos
V ( m) = 2 2 + (1 ) 2 2 = (1 = 2 + 2 2 ) 2
2 + 4 = 0
Donde
1
=
2
Dizemos que um estimador linear quando ele uma combinao linear dos
valores da amostra. Como exemplo, consideremos o seguinte estimador linear de :
n
m = i X i
i =1
Temos que
E (m) = i
17
Para que m seja estimador no-tendencioso de , devemos ter
i = 1
V ( m) = 2 i2
= i2 ( i 1)
2 i = 0 , i = 1, 2, ..., n (1.1)
i = 1 (1.2)
De (1.1), obtemos
i = (1.3)
2
n
=1
2
Donde
1
=
2 n
1
i = , c.q.d.
n
18
No h necessidade de verificar a condio de 2a ordem para mnimo por se
tratar de uma soma de quadrados.
Pode parecer bvio que o estimador da mdia de uma varivel seja a mdia dos
valores observados em uma amostra. Mas em situaes um pouco mais complicadas
ser necessrio recorrer a um mtodo geral de determinao de estimadores, como o
mtodo dos mnimos quadrados ou o mtodo da mxima verossimilhana (que ser
descrito na prxima seo).
O mtodo dos mnimos quadrados consiste em adotar os estimadores que
minimizam a soma dos quadrados dos desvios entre valores estimados e valores
observados na amostra.
Mostraremos que a mdia aritmtica dos valores da amostra um estimador de
n
mnimos quadrados. Para tanto, determinemos o valor de a que minimiza (X
i =1
i a) 2 .
2 ( X i a )( 1) = 0
X i na = 0
Donde
Xi
a= = X , c.q.d.
n
19
TABELA 1.7. Distribuio de freqncias com 13 distribuies
X : 0 1 2 3 4 5 6 7 8
Freqncia: 1 5 1 1 1 1 2 0 1
Raciocnio semelhante mostra que a soma dos valores absolutos dos desvios em
relao a um ponto acima da mediana tambm maior do que 27. Conclumos, ento,
que essa soma mnima quando referida mediana.
Vejamos um exemplo onde o uso da mdia aritmtica, como medida de
tendncia central, parece ser mais razovel do que o uso da mediana, o que implica em
afirmar que o critrio de mnimos quadrados parece ser mais razovel do que a
minimizao da soma dos desvios absolutos. Consideremos uma amostra com 3
observaes, onde X 1 = X 2 = 0 e X 3 0 . A mediana igual a zero, qualquer que seja
1
aritmtica igual a X3.
3
Para uma outra ilustrao da aplicao do mtodo de mnimos quadrados,
consideremos a determinao do estimador do parmetro p de uma distribuio
binomial, sabendo que numa amostra de n observaes foram constatados X casos
favorveis e n X casos contrrios. Como os valores esperados so de np casos
20
favorveis e n(1 p ) casos contrrios, queremos, de acordo com o mtodo de mnimos
quadrados, o valor de p que minimize
( X np ) 2 + [(n X ) n(1 p )] 2
X
p =
n
21
TABELA 1.8. A funo de verossimilhana.
X n X
=0
p 1 p
X
cuja soluo p = , que o estimador j obtido na seo anterior pelo mtodo de
n
mnimos quadrados.
Como
22
d 2Z X n X
= 2 < 0,
dp 2
p (1 p ) 2
1 (X i )2
f (X i ) = exp
2 2 2 2
L( X 1 , X 2 , K , X n ; , 2 ) = f ( X 1 ) f ( X 2 ) K f ( X n ) =
n
1 ( X ) 2
= exp i 2 =
i =1 2 2 2
n ( X i ) 2
= (2 ) 2 2
exp
2 2
n n ( X i ) 2
ln L = ln 2 ln 2
2 2 2 2
23
2 ( X i )
=0 (1.4)
2 2
n + ( X i ) = 0
2
(1.5)
2 2 2 4
De (1.4) obtemos
Xi
= =X (1.6)
n
(X i X )
2
2 =
n
(X i X )
2
s =
2
n 1
{a n } = a1 , a 2 , K , a n , K (1.7)
{E (a n )} = E (a1 ), E (a 2 ), K , E (a n ), K (1.8)
24
c) a seqncia das varincias:
{V (a n )} = V (a1 ), V (a 2 ), K , V (a n ), K (1.9)
lim V ( X ) = 0
n
lim V ( m) = 0
n
n
{
n 1 lim E n [a n E (a n )] } 2
(1.11)
Para o estimador X temos
25
2
V ( X ) = E( X ) 2 =
n
Ento
E[ n ( X )] 2 = 2
e a varincia assinttica de X
2
n 1
lim E[ n ( X )] = 2
n n
Pode-se demonstrar que, se X tem distribuio normal, a varincia assinttica da
mediana (m) da amostra
2
n 1 lim E[ n (m )] 2 =
n 2n
indicando-se
p
an
ou
plim a n = ,
26
Dada uma amostra de n observaes, a n um estimador consistente do
< a n < + deve tender para um quando n tende para infinito. Em outras
palavras, dados e , positivos e arbitrariamente pequenos, deve existir n o tal que para
27
Prosseguindo no estudo das propriedades assintticas dos estimadores, vejamos
o conceito de convergncia em mdia quadrtica. Dizemos que uma srie de variveis
aleatrias {a n } = a1 , a 2 , K , a n , K converge em mdia quadrtica para uma constante
se
lim E (a n ) 2 = 0 (1.14)
n
Y = 0 , se Z <
e
Y = , se Z
Ento,
P (Y = 0) = P ( Z < )
P (Y = ) = P ( Z )
Segue-se que
E (Y ) = 0 P (Y = 0) + P (Y = ) = P ( Z ) (1.15)
Y Z
Ento,
E (Y ) E ( Z )
28
P( Z ) E ( Z )
ou
E (Z )
P( Z ) (1.16)
E( X ) 2 2
P[( X ) 2 k 2 ] = 2 (1.17)
k2 k
2
P (| X | k ) ,
k2
E (a n ) 2
P[(a n ) 2 2 ]
2
Ento
E (a n ) 2
lim P[(a n ) ] lim
2 2
n n 2
lim E (a n ) 2 = 0
n
Segue-se que
29
lim P[(a n ) 2 2 ] = 0
n
ou
lim P (| a n |) > ] = 0
n
isto ,
plim a n =
E (a n ) 2 = V (a n ) + [ E (a n ) ] 2 (1.18)
Temos
E (a n ) 2 = E{[ a n E (a n )] + [ E (a n ) ]}2 =
= E{[a n E (a n )] 2 + [ E (a n ) ] 2 + 2[a n E (a n )] [ E (a n ) ]} =
= V (a n ) + [ E (a n ) ] 2 , c.q.d.
plim a n = ,
suficiente que
lim E (a n ) 2 = 0
n
Para que isso acontea, por sua vez, suficiente, de acordo com (1.18), que
lim V ( a n ) = 0
n
30
e
E (a n ) =
ou
lim[ E ( a n )] =
n
lim V ( X ) = 0 ,
n
31
plim F ( a, b) = F ( , ) . Temos, por exemplo, plim ( a + b) = plim a + plim b ,
plim ( ab ) = ( plim a ) ( plim b) e, se plim b 0 , plim ( a / b) = ( plim a ) /( plim b) .
Essas propriedades facilitam a determinao do valor para o qual converge em
probabilidade uma funo de estimadores. Note que, conhecida a esperana matemtica
de vrias variveis, no geralmente to imediata a determinao da esperana
matemtica de expresses envolvendo tais variveis. Dado que E (a ) = e E (b) = ,
sabemos que E ( a + b) = + , mas nada podemos dizer, de imediato, sobre o valor de
E (a 2 ) , E (ab ) ou E ( a / b) .
Para introduzir a idia de convergncia em distribuio, vamos considerar,
novamente, a distribuio da mdia ( X ) de uma amostra aleatria com n observaes,
vimos que V ( X ) tende a zero quando n cresce. Dizemos que, no limite, a distribuio
d
n X N ( n, 2 )
32
n
L( X 1 , X 2 , K , X n ; ) = f ( X i )
i =1
1 1
V (a) = (1.19)
d ln L
2
d ln L
2
E 2
E
d d
1
n 1
L( X 1 , X 2 , K , X n ; ) = (2 ) 2
exp ( X i ) 2 =
i =1 2
n
1
= (2 ) 2
exp ( X i ) 2
2
Ento
n 1
ln L = ln 2 ( X i ) 2
2 2
Segue-se que
d ln L
= ( X i )
d
2
A demonstrao pode ser encontrada em Theil (1971), p. 384-387.
33
d 2 ln L
= n
d 2
1
V ( m)
n
Dada uma hiptese de nulidade ( H o ) , define-se como erro tipo I o erro que
consiste em rejeitar H o , dado que H o verdadeira. Define-se como erro tipo II o erro
3
A demonstrao deste teorema pode ser encontrada em Theil (1971), p. 392-395.
34
Evidentemente, o poder do teste igual a 1 .
Para exemplificar, consideremos 2 tetraedros regulares, feitos de material
homogneo, sendo que um deles tem uma face azul e 3 brancas e o outro tem 2 faces
azuis e 2 brancas. Quando esses tetraedros so lanados, o resultado considerado
sucesso se a face em contato com a mesa for azul. Ento, a probabilidade de obter
sucesso em um lanamento , para o primeiro tetraedro, p = 1/4 e, para o segundo
tetraedro, p = 1/2.
O nmero (X) de sucessos, obtidos em n lanamentos de um desses tetraedros
uma varivel aleatria discreta com distribuio binomial. A tabela 1.9 apresenta a
distribuio de X para cada um dos dois tetraedros, no caso de n = 2 lanamentos.
P(X)
X
para p = 1/4 para p = 1/2
0 9/16 1/4
1 6/16 2/4
2 1/16 1/4
H o : p = 1/ 4 e H A : p = 1/ 2
35
TABELA 1.10. Valores de e relativos s possveis regras de deciso e relao
Regra de deciso
Nunca rejeitar H o 0 1
4
Rejeitar H o se X = 2 1/16 = 0,0625 3/4 = 0,75
4/3
Rejeitar H o se X 1 7/16 = 0,4375 1/4 = 0,25 4/9
Sempre rejeitar H o 1 0
36
TABELA 1.11. A tabela de resultados
Deciso tomada
Situao real
no rejeitar H o rejeitar H o
H o verdadeira U 11 U 12
(probab. = ) p11 = (1 ) p12 =
H o falsa U 21 U 22
(probab. = 1 ) p 21 = (1 ) p 22 = (1 )(1 )
L = E (U ) = (1 )U 11 + U 12 + (1 ) U 21 + (1 )(1 )U 22 (1.20)
U 11 + (1 )U 22 L (U 11 U 12 )
= (1.21)
(1 )(U 22 U 21 ) (1 )(U 22 (U 21 )
C I
(1.22)
(1 )C II
37
CI
a) se 4 < < , o ponto timo A, isto , nunca devemos rejeitar H o .
C II
CI
b) se = 4 , indiferente utilizar a regra de deciso correspondente ao ponto
C II
A ou ao ponto B.
4 CI
c) se < < 4 , o ponto timo B, isto , devemos rejeitar H o se X = 2,
3 C II
fazendo um teste com nvel de significncia = 0,0625 .
CI 4
d) se = , indiferente utilizar a regra de deciso correspondente ao ponto
C II 3
B ou ao ponto C.
4 CI 4
e) se < < , o ponto timo C, isto , devemos rejeitar H o se X 1,
9 C II 3
fazendo um teste com nvel de significncia = 0,4375 .
CI 4
f) se = , indiferente utilizar a regra de deciso correspondente ao ponto
C II 9
C ou ao ponto D, e
CI 4
g) se 0 < < , o ponto timo D, isto , devemos rejeitar H o sempre,
C II 9
qualquer que seja o valor observado de X.
dL d
= (U 11 U 12 ) (1 )(U 22 U 21 ) =
d d
d
= C I (1 )C II (1.23)
d
dL
Segue-se que = 0 implica
d
d C I
= (1.24)
d (1 )C II
38
O ponto de = ( ) que satisfaz essa condio corresponde a um mximo de
L = E (U ) se
d 2L
<0
d 2
De (1.23) obtemos
d 2L d 2
= (1 )C ,
d 2 d 2
II
d 2
mostrando que a condio de segunda ordem para mximo satisfeita se > 0 , isto
d 2
, se a funo = ( ) for convexa em relao origem.
Sendo = ( ) uma funo decrescente e convexa em relao origem, o nvel
de significncia timo estabelecido atravs de (1.24) ser tanto menor quanto maior for
CI
(a probabilidade a priori de H o ser verdadeira) e quanto maior for a relao (o
C II
custo de cometer erro tipo I em comparao com o custo de cometer erro tipo II).
Em problemas prticos geralmente impossvel determinar o nvel de
significncia timo da maneira indicada, porque no se tem nem a probabilidade ( ) de
CI
H o ser verdadeira a priori, nem o valor exato da relao . Alm disso, a hiptese
C II
alternativa , geralmente, composta; a determinao rigorosa de um nvel de
significncia timo exigiria, neste caso, o conhecimento da distribuio a priori dos
valores possveis para a hiptese alternativa, com os respectivos valores do custo de
cometer erro tipo II.
Por isso, a escolha do nvel de significncia tem muito de arbitrrio.
A finalidade da discusso feita deixar claro o sentido em que deve ser ajustado
o nvel de significncia conforme mudem a probabilidade a priori de H o ser verdadeira
e a relao entre os custos de cometer erro tipo I e erro tipo II.
usual que a hiptese alternativa no se refira a um valor especfico. comum,
por exemplo, testar se um parmetro igual a zero ( H 0 : = 0) contra a hiptese
39
significncia do teste (), mas o poder do teste (1 ) no um valor nico. Pode-se
construir a curva de poder do teste, que mostra como esse varia em funo de valores
alternativos do parmetro. claro que o poder do teste se aproxima do nvel de
significncia quando o valor alternativo do parmetro se aproxima do valor estabelecido
pela hiptese da nulidade, fazendo com que, fixado um baixo nvel de significncia, o
poder do teste seja baixo para tais valores alternativos do parmetro. Note-se como,
nestas condies, no h simetria entre as decises de rejeitar e aceitar a hiptese da
nulidade. Ao rejeitar a hiptese da nulidade estaremos tomando uma deciso de maneira
que a probabilidade de estar cometendo erro (tipo I) conhecida e pequena. Mas se o
resultado do teste no-significativo e aceitamos a hiptese da nulidade, a
probabilidade de cometer erro tipo II desconhecida e tende a ser elevada para valores
do parmetro prximos ao estabelecido pela hiptese da nulidade. A linguagem usada
na interpretao do resultado de um teste de hipteses deve refletir essa assimetria. Se,
ao testar ( H 0 : = 0) contra ( H A : 0) , o resultado do teste significativo,
rejeitamos a hiptese da nulidade. Se o resultado for no-significativo, a concluso
que os dados da amostra utilizada no permitem rejeitar a hiptese da nulidade. Note-se
a natureza provisria da concluso. A afirmativa de que aceita-se H o no reflete
adequadamente a indeterminao da probabilidade de cometer erro tipo II quando a
hiptese alternativa composta (no estabelece um nico valor alternativo para o
parmetro).
Exerccios
40
1.2. Com base na distribuio conjunta de Valores de para a distribuio
X e Y, apresentada na tabela ao lado, conjunta das variveis e .
1.4. Temos duas urnas, aparentemente idnticas, com 63 bolas no interior de cada uma.
Essas bolas so marcadas com nmeros (X) de zero a 5. Na urna A h 2 X bolas
com o nmero X, isto , h uma bola com o no 0, duas bolas com o no 1, 4 bolas
com o no 2, e assim por diante, at 32 bolas com o no 5. Na urna B h 2 5 X bolas
com o nmero X, isto , h 32 bolas com o no 0, 16 bolas com o no 1, 8 bolas com
o no 2, e assim por diante, at uma bola com o no 5. Uma dessas urnas, escolhida
ao acaso, entregue a um estatstico, que deve decidir se a urna A ou se a urna
B, retirando, ao acaso, uma nica bola da urna. Ele especifica a hiptese da
nulidade como
H 0 : trata-se da urna A
e a hiptese alternativa como
H A : trata-se da urna B
O estatstico decide, tambm; que a regra de deciso ser rejeitar H 0 (em favor
41
Refaa o problema considerando, agora, que a regra de deciso rejeitar H 0 se
o nmero (X) marcado na bola retirada for menor ou igual a 1.
1.5. Temos duas urnas, aparentemente idnticas, com 55 bolas no interior de cada uma.
Na urna A h uma bola com o no 0, duas bolas com o no 1, 3 bolas com o no 2, e
assim por diante, at 10 bolas com o no 9. Na urna B h 1 bola com o no 9, 2 bolas
com o no 8, 3 bolas com o no 7, e assim por diante, at 10 bolas com o no 0. Uma
dessas urnas, escolhida ao acaso, entregue a um estatstico, que deve decidir se
a urna A ou se a urna B examinando uma nica bola retirada da urna, ao acaso.
Ele especifica a hiptese da nulidade como
H 0 : trata-se da urna A
e a hiptese alternativa como
H A : trata-se da urna B
O estatstico adota a seguinte regra de deciso: rejeitar H 0 (em favor de H A ) se
a bola retirada da urna apresentar nmero menor do que 5. Determine:
a) o nvel de significncia do teste
b) a probabilidade () de cometer erro tipo II
c) o poder do teste.
Refaa o problema considerando, agora, que a regra de deciso rejeitar H 0 se
o nmero marcado na bola retirada for menor ou igual a 3.
1.6. Temos dois tetraedros regulares de material homogneo. Um deles tem uma face
azul e trs faces brancas. O outro tem trs faces azuis e uma branca. Uma pessoa
pega, ao acaso, um desses tetraedros e o lana n vezes. Seja X o nmero de vezes
em que o resultado foi face azul. Com base no valor de X devemos testar a
hiptese
H 0 : foi utilizado o tetraedro com uma face azul
contra a hiptese alternativa
H A : foi utilizado o tetraedro com trs faces azuis
42
a) Considerando as diferentes regras de deciso, faa uma tabela e um grfico
mostrando como varia em funo de para n = 3.
b) Qual o nvel de significncia para um teste com n = 5, mantendo = ?
Respostas
17,5 1750
1.1. E ( X ) = 3,5 , V ( X ) = = 2,9167 , E(Y) = 350 e V (Y ) = = 291,67
6 6
1.2. E(X) = 2, E(Y) = 5,6 , V(X) = 0,6 , V(Y) = 3,84, cov (X, Y) = 0. As variveis X e
Y no so independentes.
1.4. Para a regra de deciso Rejeitar H 0 se X < 3 obtemos = 7/63 = 1/9 = 0,111,
1.6.
a) Regra de deciso:
rejeitar H 0 : p = 1 / 4 se
X 0 (sempre) 1 0
X1 37/64 1/64
X2 10/64 10/64
X3 1/64 37/64
X > 3 (nunca) 0 1
53
b) = = = 0,1035
512
43
2. REGRESSO LINEAR SIMPLES
2.1. O modelo estatstico de uma regresso linear simples
Yi = + X i + u i ,
E (u i2 ) = 2
ou
E[Yi E (Yi | X i )] 2 = 2
44
VI) Os erros tm distribuio normal.
ui ~ N (0, 2 )
E (a ) =
E (b) =
45
Quando no razovel supor que os erros so homocedsticos (pressuposio
IV), isto , quando existe heterocedasticia, devemos utilizar o mtodo dos mnimos
quadrados ponderados, que ser examinado no captulo 6.
Na figura 2.1 est representado o modelo estatstico de uma regresso linear
simples, considerando as pressuposies de I a IV. As pressuposies I, II e III
permitem escrever
E (Yi ) = + X i ,
E (u i u j ) = E (u i ) E (u j ) = 0
46
A pressuposio VI necessria para que possamos utilizar as distribuies de t
e de F para testar hipteses a respeito dos valores dos parmetros ou construir intervalos
de confiana. Em alguns casos, possvel justificar essa pressuposio com base no
teorema do limite central. Esse teorema, na sua verso mais geral, estabelece que a
soma de um grande nmero de variveis aleatrias independentes tem distribuio
aproximadamente normal, desde que nenhuma delas seja dominante. Vimos que o erro
(u i ) do modelo estatstico de uma regresso linear pode ser devido influncia de
todas as variveis que afetam a varivel dependente e que no foram includas no
modelo. Uma vez que as variveis que no foram consideradas devem ser as menos
importantes, seus efeitos devem ser todos relativamente pequenos. Considerando que o
nmero de fatores que podem afetar certa varivel dependente bastante grande, e
desde que seus efeitos sejam aditivos e independentes, podemos concluir, com base no
teorema do limite central, que o erro residual tem distribuio aproximadamente
normal.
Yi = a + bX i
ei = Yi Yi = Yi (a + bX i )
n n
Z = e i2 = [Yi ( a + bX i )] 2
i =1 i =1
47
A funo Z ter mnimo quando suas derivadas parciais em relao a a e b forem
nulas:
Z
= 2 [Yi ( a + bX i )] = 0 (2.1)
a
Z
= 2 [Yi ( a + bX i )] ( X i ) = 0 (2.2)
b
na + b X i = Yi (2.3)
a X i + b X i = X i Yi (2.4)
2
( X 2 )( Y ) ( X )( XY )
a=
n( X 2 ) ( X ) 2
n XY ( X )( Y )
b=
n X 2 ( X ) 2
Y X
a= b
n n
ou
a = Y bX
48
fcil verificar que a frmula para o clculo de b pode ser escrita de diversos
modos, quais sejam:
( X )( Y )
XY
n XY ( X )( Y ) n
b= = =
n X 2 ( X ) 2 ( X )2
X
2
( X X )(Y Y ) ( X X )Y
= = =
( X X ) 2 ( X X ) 2
X (Y Y ) xy xY Xy
= = = =
( X X ) 2 x 2 x 2 x 2
onde
X Y
X = ,Y = , x = X X e y = Y Y
n n
Assinalemos duas relaes bastante teis que podem ser obtidas a partir das
equaes (2.1) e (2.2). Lembrando que
ei = 0 (2.5)
X i ei = 0 (2.6)
Yi ei = (a + bX i )ei = a ei + b X i ei
Yi ei = 0 (2.7)
49
a) a soma dos desvios igual a zero,
b) a soma dos produtos dos desvios pelos correspondentes valores da varivel
independente igual a zero, e
c) a soma dos produtos dos desvios pelos respectivos valores estimados da
varivel dependente igual a zero.
Yi Yi
= =Y , (2.8)
n n
isto , a mdia dos valores observados de Y igual mdia dos valores estimados de Y.
varivel X i como origem do eixo das abcissas. Nesse caso, o modelo estatstico fica
Yi = A + x i + u i
Yi = A + bxi + ei
nA = Yi
b xi = xi Yi
2
Donde
Y
A = =Y
n
50
e
xY
b=
x2
Yi = Y + bx i
ou
y i = bx i (2.9)
onde
y i = Yi Y
Temos
y i ei = (Yi Y )ei = Yi ei Y ei
y i e i = 0 (2.10)
X Y X Y
0 3 3 4
1 2 4 7
1 3 5 6
2 5 5 7
3 4 6 9
51
X o respectivo preo, ou ainda, que Y o logaritmo do consumo semanal de carne de
uma famlia e X o logaritmo da renda mensal dessa famlia.
So dados, a seguir, os resultados de alguns clculos intermedirios para a
obteno das estimativas a e b.
X = 30 , X = 3
X 2 = 126
( X ) 2
x2 = X 2 = 126 90 = 36
n
Y = 50 , Y = 5
XY = 186
( X )( Y )
xy = XY = 186 150 = 36
n
Figura 2.2. Representao grfica dos pares de valores da tabela 2.1, a reta
ajustada (Y = a + bX ) e a reta verdadeira [ E (Y ) = + X ] .
Y = 5 + x
52
ou
Y = 2 + X
xi Y
Demonstraremos, inicialmente, que b= um estimador linear no-
x i2
tendencioso de .
Temos que
xi Y x1 x2 xn
b= = Y1 + Y2 + K + Yn
x 2
i x 2
i x 2
i x i2
xi
so, tambm, valores fixos. Ento, b uma combinao linear dos valores de Yi .
x i2
Como
Yi = + X i + u i ,
obtemos
1
b= x i ( + X i + u i ) =
x i2
=
1
(
xi + xi X i + xi u i )
x i2
Como x i = 0 e x i2 = x i X i ,
xi u i
b=+ (2.11)
x i2
53
E (b) =
xi Y
isto , b = um estimador no-tendenciosos ou imparcial de .
x i2
a = Y bX
Temos que
Yi xi Y 1 Xx i
a = Y bX = X = Yi
n xi 2
n xi
2
Essa ltima expresso mostra que a uma funo linear dos valores de Yi .
Como
Yi = + X i + u i ,
obtemos
1 Xx i
a = ( + X i + u i ) =
n xi
2
X x i Xi X xi X i 1 Xx i
= + + u i
x 2
i
n xi
2
n xi
2
e, como x i = 0 e x i2 = x i X i ,
1 Xx i
a = + u i
(2.12)
n xi
2
E (a ) =
54
2.5. Varincias e covarincias das estimativas dos parmetros
V (b) = E (b ) 2 (2.13)
De (2.11), obtemos
xi ui
b =
x i2
Mas
E ( x i u i ) 2 = E ( x1 u 1 + x 2 u 2 + K + x n u n ) 2 =
+ K + 2 x1 x n u1u n + K) =
= x12 2 + x 22 2 + K + x n2 2 =
= 2 x i2 (2.14)
i j.
Ento
2 x i2 2
V (b) = = (2.15)
( x i2 ) 2 x i2
1 Xx i
a = u i
n xi
2
55
Ento
2
1 Xx i
V (a ) = E (a ) 2 = E u i
n x i
2
2
1 Xx i 2
V (a ) = =
n xi
2
1 X 2 x i2 2 Xx i 2
= 2 + =
( x i2 ) 2 n x i2
n
1 X 2 2
= + (2.16)
n xi
2
Notando que
( X i ) 2
x =X
2
i i
2
= X i2 nX 2
n
tambm podemos obter
X i2 2
V (a) = (2.17)
n xi2
Temos que
Yi ( + X i + u i )
Y = = = + X + u
n n
onde u = ( u i ) n
E (Y ) = + X
56
Ento, fcil verificar que
Y E (Y ) = u , (2.18)
donde obtemos
2
ui
V (Y ) = E[Y E (Y )] = E (u ) = E
2 2
n
e, finalmente,
n 2 2
V (Y ) = = (2.19)
n2 n
cov(Y , b) = E[Y E (Y )] (b )
xi u i E ( u i xi u i )
cov(Y , b) = E u 2
= =
xi n xi2
E (u1 + u 2 + K + u n )( x1u1 + x 2 u 2 + K + x n u n )
= =
n xi2
2 xi
cov(Y , b) = =0 (2.20)
n xi2
57
X 2
cov(a, b) = (2.21)
xi2
B = ci Yi
Para que esse estimador seja no-tendencioso, isto , para que tenhamos
E (B ) = , as constantes c i devem ter certas propriedades, que sero deduzidas a
seguir.
Temos
B = ci Yi =
= ci ( + X i + u i ) =
= c i + c i X i + ci u i (2.22)
E ( B ) = ci + ci X i
ci = 0 (2.23)
ci X i = 1 (2.24)
B = + ci u i
ou
58
B = ci u i
Ento,
V ( B) = E ( B ) 2 = E ( c i u i ) 2
V ( B ) = 2 c i2
F = c i2 ci ( ci X i 1)
F
= 2ci X i = 0 (2.25)
ci
para i = 1, 2, ..., n
Somando essas n igualdades obtemos
2 c i n X i = 0
Pela condio (2.23) segue-se que
+ X = 0
2c i ( X i X ) = 0
2ci = xi
ci = xi , para i = 1, 2, ..., n (2.26)
2
59
Multiplicando cada uma dessas relaes pelo respectivo valor de X i e somando,
obtemos
ci X i = xi X i = xi2
2 2
1= xi2
2
ou
1
=
2 x i2
xi
ci = , i = 1, 2, ..., n
xi2
Conclumos ento que o estimador linear no-tendencioso de varincia mnima
que procuramos
xi Yi
B = ci Yi = ,
xi2
Demonstraremos que
60
(Yi Y ) 2 = (Yi Yi ) 2 + (Yi Y ) 2
ou
y i2 = ei2 + y i2 ,
isto , que a soma de quadrados total (S.Q.Total) igual soma de quadrados residual
(S.Q.Res.), tambm chamada soma de quadrados dos desvios, mais a soma de
quadrados da regresso (S.Q.Regr.).
Partimos da identidade
Yi Y = Yi Yi + Yi Y
ou
yi = ei + y i
y i2 = ei2 + y i2 + 2 y i ei
y i2 = ei2 + y i2 (2.27)
Essa relao mostra que a variao dos valores de Y em torno da sua mdia
( y i2 ) pode ser dividida em duas partes: uma ( y i2 ) que explicada pela regresso
e outra ( ei2 ) devida ao fato de que nem todos os pontos esto sobre a reta de
regresso, que a parte no explicada pela regresso. O coeficiente de determinao,
definido por
S.Q.Regr. y i2
r2 = = ,
S.Q.Total y i2
61
Se estamos interessados em estimar valores de Y a partir de valores de X, a
regresso ser tanto mais til quanto mais prximo de um estiver o valor de r 2 .
Verificamos, facilmente, que
y i2 2 x
2
( xy ) 2
r2 = = b = (2.28)
y i2 y 2 ( x 2 )( y 2 )
e que
( xy ) 2
S.Q.Regr. = y 2 = b 2 x 2 = b xy =
x2
valores y i = Yi Y , calculamos
S.Q.Regr. = y i2 = 36 ,
S.Q.Regr. = b xy
62
TABELA 2.2. Valores de X i , Yi , Yi , y i e ei
Xi Yi Yi = 2 + X yi ei = Yi Yi
0 3 2 3 +1
1 2 3 2 1
1 3 3 2 0
2 5 4 1 +1
3 4 5 0 1
3 4 5 0 1
4 7 6 +1 +1
5 6 7 +2 1
5 7 7 +2 0
6 9 8 +3 +1
S.Q.Res. = ei2 = 8
O leitor pode verificar que aplicando qualquer uma das frmulas de (2.28) o
valor do coeficiente de determinao obtido
9
r2 = = 0,818 ou 81,8%
11
Yi = + X i + u i
e
Y = + X + u
Subtraindo esta equao da anterior, obtemos
y i = x i + u i u (2.29)
63
Sabemos que
( xi y i ) 2
S.Q.Regr. = b xi y i =
xi2
E ( xi y i ) 2
E (S.Q.Regr.) = (2.30)
xi2
xi y i = xi2 + xi u i u xi = xi2 + xi u i
Ento
( x i y i ) 2 = 2 ( xi2 ) 2 + ( xi u i ) 2 + 2 x i2 xi u i
= [ 2 xi2 + (u i u ) 2 + 2 x i (u i u )] =
= 2 xi2 + (u i u ) 2 + 2 xi u i 2 u xi =
= 2 xi2 + (u i u ) 2 + 2 xi u i
Donde
E (S.Q.Total ) = 2 xi2 + E[ (u i u ) 2 ] (2.33)
Mas
(u i u ) 2 = (u i2 + u 2 2u i u ) =
64
2
ui ( u i ) 2
= u + n
2
i 2 =
n n
( u i ) 2
= u 2
i
n
Ento
n 2
E[(u i u ) 2 ] = n 2 = (n 1) 2
n
Substituindo esse resultado em (2.33) obtemos
E(S.Q.Res.) = (n 2) 2 (2.35)
Q.M.Regr. = SQ.Regr.
e
SQ.Res.
Q.M.Res. =
n2
65
E (Q.M.Regr.) = 2 xi2 + 2
E (Q.M.Res.) = 2
Anlise da Varincia
Causas de Graus de Somas de Quadrados Mdios
Variao Liberdade Quadrados
Regresso 1 b xi y i b xi y i
Resduo n2 y i2 b x i y i ( y i2 b xi y i ) /( n 2)
Total n1 y i2
Q.M.Regr.
F=
Q.M.Res.
H0 : = 0,
66
ao nvel de significncia adotado, podemos utilizar a estatstica F. Nesse caso, o
procedimento consiste em rejeitar H 0 para todo F maior ou igual ao F crtico, com 1 e
n 2 graus de liberdade, relativo ao nvel de significncia adotado.
Note que, se essa hiptese verdadeira, tanto o Q.M.Regr. como o Q.M.Res.
so, em mdia, iguais a 2 e o valor de F tende a 1. Para 0 teremos
E (Q.M.Regr.) > E (Q.M.Res.) , e o valor de F tende a ser superior a 1.
Para ilustrar a aplicao desses conceitos, voltemos a considerar o exemplo
numrico da tabela 2.1. Para este exemplo, obtemos a seguinte tabela de anlise da
varincia:
Anlise da Varincia
C.V. G.L. S.Q. Q.M. F
Regresso 1 36 36 36
Resduo 8 8 1
Total 9 44
4
Nos textos em ingls essa probabilidade denominada p-value, o que tem sido traduzido por valor-
p.
67
liberdade, 0,0003. O valor calculado , portanto, significativo ao nvel de 5% (
significativo mesmo que tivesse sido adotado um nvel de significncia de 0,1%).
S.Q.Regr. S.Q.Res.
1 r2 = 1 =
S.Q.Total S.Q.Total
1
(S.Q.Res.)
n 2 n 1
1 r =
2
= (1 r 2 ) (2.36)
1 n2
(S.Q.Total)
n 1
ou
1
r 2 = r2 (1 r 2 ) (2.37)
n2
Excluindo o caso em que r 2 = 1 , temos r 2 < r 2 . Note que r 2 pode ser negativo.
Um outro indicador da qualidade do ajustamento obtido o coeficiente de
variao, definido por
s
CV = , (2.38)
Y
68
em torno da reta (s) e o valor mdio da varivel dependente (Y ) . O resultado tanto
melhor quanto menor for o coeficiente de variao.
Veja o exerccio 2.23 para uma anlise comparativa dos valores do coeficiente
de determinao e do coeficiente de variao, em vrios casos.
2
V (b) =
xi2
e que
1 X 2 2
V (a) = +
n xi
2
s2
V (b) = s 2 (b) = (2.39)
xi2
1 X2 2
V (a) = s 2 (a) = + s (2.40)
n xi
2
b a
t (b) = e t (a) =
s (b) s (a)
69
tm distribuio de t com n 2 graus de liberdade.
Vamos indicar algumas das etapas da demonstrao no caso de t(b). De (2.11),
obtemos
x
b = i 2 u i ,
xi
mostrando que b uma combinao linear dos u i . Se os erros tm distribuio
normal com mdia zero, segue-se que b tambm tem distribuio normal com mdia
b
Z= ,
b
1 X2 2 1 9
V (a) = + s = + = 0,35
n xi
2
10 36
1
s (b ) =
6
s(a) = 0,35
70
1 0
t (b ) = =6
1/ 6
A regio de rejeio para este teste t < 1,860. Como o valor calculado no
pertence a esse intervalo, ele no significativo, ou seja, no rejeitamos, ao nvel de
significncia de 5%, a hiptese H 0 : = 3 .
71
1 1
1 1,860 < < 1 + 1,860
6 6
Yi = Y + bxi
Ento
2 xi2 2 1 xi2 2
V (Yi ) = + = + (2.41)
n xi2 n xi2
Donde
1 xi2 2
V (Yi ) = s (Yi ) = +
2
s
n xi
2
Yh = a + bX h = Y + bxh
e
1 x h2 2
V (Yh ) = s (Yh ) = +
2
s
n xi
2
72
Extraindo a raiz quadrada desse valor obtemos a estimativa dos desvio padro de
Yh . Sendo t 0 o valor crtico de t com n 2 graus de liberdade e ao nvel de confiana
Yh = + X h + u h Yh = a + bX h . O erro de previso
Yh Yh = (a ) + (b ) X h u h
esperana do erro de previso igual a zero. Verifica-se, tambm, que E (Yh ) = E (Yh ) .
1 x2 2
2 + V (Yh ) = 1 + + h2 (2.42)
n xi
O intervalo de previso para a nova observao ( Yh )
1/ 2 1/ 2
1 x2 2 1 x2 2
Yh t 0 1 + + h 2 s < Yh < Yh + t 0 1 + + h 2 s
n xi n x i
73
parmetro , por exemplo), o intervalo de previso se refere a uma varivel aleatria (
Yh , no caso).
Consideremos, para exemplificar a aplicao dessas frmulas, os pares de
valores da tabela 2.1. J vimos que para esses dados Y = 5 e b = 1.
Ento
Yh = 5 + xh (2.43)
1 x h2
Yh 2,306 + (2.44)
10 36
por
1 x h2
Yh 2,306 1 + +
(2.45)
10 36
74
TABELA 2.4 Valores de Yh , limites do intervalo de confiana para E (Yh ) , ao nvel de
confiana de 95%.
Intervalo de confiana Intervalo de previso
Xh Yh para E (Yh ) para Yh
0 2 0,64 3,36 0,68 4,68
1 3 1,94 4,06 0,46 5,54
2 4 3,18 4,82 1,55 6,45
3 5 4,27 5,73 2,58 7,42
4 6 5,18 6,82 3,55 8,45
5 7 5,94 8,06 4,46 9,54
6 8 6,64 9,36 5,32 10,68
7 9 7,30 10,70 6,13 11,87
8 10 7,94 12,06 6,91 13,09
9 11 8,58 13,42 7,66 14,34
A anlise da expresso
1/ 2
1 x h2
Yh t 0 +
2
s,
n x i
que nos d os limites do intervalo de confiana para E (Yh ) , permite afirmar que a
preciso da estimativa de Y tanto maior quanto:
a) menor for s, isto , quanto menor for a disperso dos valores observados de Y
em torno da reta de regresso.
b) maior for n
c) maior for xi2 , isto , quanto maior for a disperso dos valores de X em torno
da respectiva mdia.
Podemos ento concluir que:
a) O nmero de observaes (n) deve ser o maior possvel.
b) Se possvel, devemos escolher valores de X que conduzem a um elevado
valor para xi2 .
afasta de X .
75
Figura 2.3. A reta de regresso estimada, o intervalo de confiana para E (Yh ) e o
76
Figura 2.4. O perigo da extrapolao
I) Yi = + X i
II) Yi = X i
III) Yi = X i
IV) Yi = +
Xi
V) Yi = + X i + X i2
VI) Yi = + X i
77
b) Empregando o conhecimento adquirido pela inspeo dos dados numricos
disponveis. muito til fazer um grfico com os pontos (Xi, Yi) e,
eventualmente, grficos com os pontos (ln Xi, Yi), (Xi, lnYi) ou (lnXi, lnYi).
Fazendo
log Yi = Z i ,
log = A ,
log = B
e
log i = u i
temos
Z i = A + BX i + u i
78
No caso do modelo III (funo potncia), conhecido entre economistas como
funo de Cobb-Douglas, o correspondente modelo estatstico
Yi = X i i
A = log ,
Vi = log X i
e
u i = log i
Yi = + Vi + u i
79
2.14. Estimativa de mxima verossimilhana
Yi = + X i + u i (2.46)
u i N (0, 2 )
1 1
f (Y1 ) = exp [Y1 ( + X 1 )] 2
2 2
2
2
L( X 1 ,K , X n ; , , 2 ) =
1
n
1
= (2 2 )
2
exp [Yi ( + X i )]2 =
2
2
i =1
n
1 n
= (2 ) 2 2
exp
2
2 [Y
i =1
i ( + X i )] 2
(2.47)
80
O leitor pode verificar que a estimativa de mxima verossimilhana de 2
ei2
2 =
n
2.15. Anlise de regresso quando X uma varivel aleatria
Consideremos o modelo
Yi = + X i + u i
E[( X i X )u i ] = 0 .
81
Exerccios
82
So dados os seguintes valores, obtidos de uma amostra aleatria de 14
observaes:
X i = 140 Yi = 728
X i2 = 1456 Yi 2 = 39424
X i Yi = 7504
a) Determine as estimativas dos parmetros da regresso de Y em relao a X e
os respectivos desvios padres.
b) Calcule o coeficiente de determinao da regresso.
c) Teste a hiptese H 0 : = 0 contra a hiptese alternativa H A : > 0 , ao
nvel de significncia de 0,5%.
hiptese alternativa H A : 2 .
83
X Y
0 2
2 3
4 14
6 15
8 26
ui .
2.7. Com base em 52 pares de valores das variveis X e Y foi obtida a equao de
regresso
Yi = 0,4 + X i
84
2.9. A partir de n pares de valores X i , Yi obtemos, pelo mtodo de mnimos
Z i = c + dX i
Que relao existe entre b e d? E entre a e c? Sendo b e d as estimativas dos
parmetros e , respectivamente, demonstre que o valor de t relativo hiptese
da nulidade H 0 : = 0 igual ao valor de t relativo hiptese da nulidade
H 0 : = 1 , ou seja, que
b d 1
=
s (b) s (d )
2.10. Dados os pares de valores X e Y abaixo, qual o modelo que voc usaria e como
faria para obter uma relao que lhe permitisse estimar Y a partir de valores de
X?
X Y
10 2,0
12 8,2
14 31,0
16 130,0
18 510,0
2.11. A partir de uma amostra de 27 pares de valores foi obtida a equao de regresso
de Y em relao a X
Y = 25,0 + 2,00 X
85
2.12. Para aumentar a preciso da estimativa do coeficiente de regresso, que devemos
fazer com relao escolha dos valores X que sero utilizados na anlise de
regresso?
2.15. Com base em 11 pares de valores das variveis X e Y foi obtida a equao de
regresso
Y = 20 X ,
com r 2 = 0,64 . Sabe-se que a estimativa no-tendenciosa da varincia de X
16
r2 = ; s(X) = 3; s(Y) = 5; X = 3 e Y = 10
25
86
Yi = + + ui ,
Xi
X i = 10 X i2 = 2,1
87
2.19. So dados os seguintes valores, obtidos de uma amostra aleatria com 10
observaes:
X Y
0 2,5 3,5
1 1 3
2 2 4
3 0 2
4 0,5 1,5
88
(extrados de H.W. GUTHRIE. Statistical Methods in Economics. Richard D.
Irwin, 1966, p. 108-109):
X Y
(1 000 unidades) (Cr$ 1 000,00)
1 7
2 11
3 15
4 14
5 18
6 21
7 23
8 30
9 32
10 34
89
Admite-se que as variveis X e Y esto relacionadas de acordo com o modelo
Yi = + X i + u i , onde os u i so erros independentes, de mdia zero, varincia
constante e distribuio normal.
hiptese alternativa H A : 5 .
d) Determine a estimativa de Y para X = 2 e o intervalo de confiana para
E (Y | X = 2) , ao nvel de confiana de 95%.
90
2.23. So dados 3 conjuntos de 6 pares de valores ( X i , Yi , i = 1, ..., 6)
2.24. Dada uma amostra de n pares de valores X i , Yi (i = 1, ..., n), mostre que a
estimativa dos coeficiente angular da reta, obtida atravs do mtodo dos
mnimos quadrados (b), uma mdia ponderada das declividades das retas que
passam pelos pontos ( X i , Yi ) e pelo ponto central da amostra ( X , Y ) .
2.25. A partir de uma amostra de 7 pares de valores, foi obtida a equao de regresso
Y = 30 + 5 X ,
2
com um coeficiente de determinao r 2 =
3
A estimativa do desvio padro de X s(X) = 2.
a) Determine o intervalo de confiana do coeficiente de regresso, ao nvel de
confiana de 95%.
b) Teste, ao nvel de significncia de 5%, a hiptese de que o coeficiente de
regresso da populao 8,5, considerando a hiptese alternativa de que o
coeficiente de regresso da populao menor do que 8,5.
91
Admitindo que os custos totais de carregamento mecnico por ano sejam
constitudos por uma parte fixa (que no varia com X) e por uma parte varivel
(de tal maneira que o custo varivel por tonelada seja constante), que modelo
matemtico deve ser usado para estudar, por meio da anlise de regresso, a
variao do custo de carregamento por tonelada de cana-de-acar em funo do
nmero de toneladas carregadas? Que anamorfose dever ser feita?
92
mnimos quadrados? Sabendo que a estimativa do coeficiente de regresso
obtida 1,24, com um desvio padro estimado em 0,10, teste, ao nvel de
significncia de 5%, a hiptese de que a elasticidade-preo igual a 1.
2.32. a) Deduza, de acordo com o mtodo dos mnimos quadrados, a frmula para
estimar o parmetro do modelo
Yi = X i + u i com i = 1, ..., n,
onde
E (u i ) = 0 ,
E (u i2 ) = 2
e
E (u i u j ) = 0 para i j
93
( X i Yi ) 2
Yi 2 = Yi 2 b X i Yi
Xi 2
X Y
2 5
3 7
4 11
4 5
5 9
2.33. Dados um conjunto de pares de valores X ij , Yij (i = 1, ..., m; j = 1, ..., n), ajusta-
Mostre que as estimativas dos parmetros, de acordo com o mtodo dos mnimos
quadrados, so dadas por
( X ij X i )(Yij Yi )
b=
i j
( X ij X i ) 2
i j
e
ai = Yi bX i
1 n 1 n
onde X i = ij i n
n j =1
X e Y =
j =1
Yij
94
2.34. dada uma amostra de 12 pares de valores
Xi Yi Xi Yi
1 2 4 9
1 4 4 13
1 3 5 11
1 5 5 10
2 8 5 16
2 6 5 9
X = X 2 , respectivamente)
1 x x 2
cov(Y1 , Y2 ) = + 1 22
n xi
2.36. Seja X a quantidade de adubo colocada no solo, em doses por hectare, e seja Y a
produtividade obtida, em toneladas por hectare. Admite-se que essas variveis
esto relacionadas de acordo com a funo
95
Yi = + X i + u i ,
Xi Yi
0 2,7
1 4,4
4 5,3
9 5,4
16 7,2
E (u i u j ) = 0 para i j.
X i Yi
Sabe-se que o estimador de mnimos quadrados para b = , no-
X i2
2
tendencioso, com V (b) = (ver exerccio 2.32).
X i2
96
a) Prove que um estimador linear no-tendencioso.
h X1 X2
1 1 9
2 1,5 8,5
3 2 8
4 2,5 7,5
1 h 1 9
Y1 = Yi
h i =1
e Y2 = Yi
h i =10 h
Define-se o seguinte estimador de :
Y2 Y1
b*h =
X 2 X1
u 2 u1
a) Prove que b*h = + ,
X 2 X1
1 h 1 9
onde u1 = ui
h i =1
e u2 = ui
h i =10 h
b) Mostre que b*h um estimador no-tendencioso de .
2 2
c) Demonstre que V (b*h ) =
h( X 2 X 1 ) 2
97
d) Faa uma tabela mostrando os valores de V (b*h ) para h = 1, 2, 3, 4.
Respostas
2.1. a) Y = 4 + 1,9 X
b) F = 320,89, rejeita-se H 0 : = 0
c) r2 = 0,976
d) Y = 9,7 . Os limites do intervalo de confiana so 8,89 e 10,51.
98
2.10. Notando que os acrscimos relativos ( Y / Y ) de Y so aproximadamente
2.19. a) Y = 3 0,5X
1
b) r2 = ; F = 4, no-significativo
3
c) t = 2, no-significativo
d) t = 3,27, no-significativo
e) 2,84 a 3,68
f) X = 4; Y = 1; 0,41 a 2,41
2.20. a) Y = 4 + 3X
b) t = 17,23, significativo; rejeita-se H 0 : = 0
d) r 2 = 0,974
e) X = 12, isto , 12 000 unidades
f) 34 2,14
99
2.21. a) Y = 6 + 1,5X
27
b) r2 = = 0,519
52
c) t = 3,429, no-significativo ( t 0 = 4,303 )
d) Y = 9
3,62 < E( Y | X = 2) < 14,38
2.22. a) Y = 20 2X
14
b) s2 = = 4,667
3
c) F = 34,29, significativo ( F0 = 13,7 )
a 3 10 2
b 2 0 2
Y 10 10 5
S.Q.Res. 1 1 1
S.Q.Regr. 70 0 70
r2 98,6% 0 98,6%
CV 5% 5% 10%
2.28. Y = 10 X 0,5
2.29. Y = AX B
Anamorfoses: Z = log Y e V = log X
t = 2,40, no-significativo
2.30. Yi = X i i
100
Adotando como origem do tempo (X = 0) o ano em que foi efetuada a terceira das
observaes consideradas, obtemos
Y = 16 2 X
A taxa de crescimento 100% ao ano
F = 7,5
1
2.31. Anamorfoses: Z = ln Y e V =
X
2.32. g) Y = 2 X ; t = 7,303, significativo.
2.34. a) Y = 2 + 2 X
b) r 2 = 0,742 ; F = 28,8, significativo ( F0 = 10,04 )
n 2
2.37. b) V ( ) =
( X ) 2
c) As varincias so iguais apenas quando todos os valores de X forem iguais.
101
2
2.38. V (b) =
60
h X 2 X1 V (b*h ) Eficincia relativa
1 8 2 /32 0,533
2 7 2 /49 0,817
3 6 2 /54 0,900
4 5 2 /50 0,833
102
3. CORRELAO
103
Figura 3.1. Correlao Figura 3.2. Correlao
Positiva negativa
quadrantes, como ocorre na figura 3.3. Ento vi z i ser igual a zero ou ter valor
absoluto pequeno, pois as parcelas positivas (correspondendo a pontos no 1o e 3o
quadrantes) so anuladas pelas parcelas negativas (correspondendo a pontos no 2o e 4o
quadrantes).
104
Portanto, o valor de vi z i pode ser utilizado como medida de correlao.
Entretanto, em termos absolutos, esse valor tende a crescer com o nmero de
observaes. Ento, o coeficiente de correlao simples definido por
vi z i
r=
n 1
xi y i
r= (3.3)
xi2 y i2
105
Para exemplificar, consideremos os 6 pares de valores dados na tabela 3.1 e
representados na figura 3.5. Pode-se imaginar que cada par de valores so as notas
tiradas por um aluno em duas disciplinas.
Tabela 3.1 Amostra de 6 pares de valores X i , Yi
Xi Yi Xi Yi
4 6 6 8
4 7 8 7
6 6 8 8
Obtemos
36 42
X = = 6; Y = =7
6 6
( X i ) 2 36 2
x 2 = X i2 = 232 = 16
n 6
( Yi ) 2 42 2
y 2 = Yi 2 = 298 =4
n 6
X i Yi 36 42
xi y i = X i Yi = 256 =4
n 6
4
r= = 0,5
16 4
Vejamos a relao que existe entre o coeficiente de correlao e o coeficiente de
regresso.
Como
xy xy y2
b= = ,
x2 x2 y2 x2
y2 s (Y )
b=r =r (3.4)
x 2
s( X )
onde
xi2 y i2
s( X ) = e s (Y ) =
n 1 n 1
106
relao a Y. Representando essas estimativas por bY X e bX Y respectivamente, podemos
escrever
xy xy
bY X = e b X Y =
x 2
y2
Segue-se, imediatamente, que
r 2 = bY X b X Y (3.5)
xy 4 xy 4
bY X = = = 0,25 , b X Y = = =1
x 2 16 y2 4
e bY X b X Y = 0,25 = r 2
107
Para ilustrar melhor o conceito de correlao, consideremos um outro exemplo.
A tabela 3.2, transcrita de Yule e Kendall (1940), apresenta as freqncias (em
centenas) de casamentos na Inglaterra e na Irlanda, em 1933, conforme as idades do
marido (X) e da mulher (Y).
X i 27,5
Vi = , i = 1, 2, ..., 13 (3.6)
5
e
Y j 27,5
Zj = , j = 1, 2, ..., 12 (3.7)
5
para cada classe de idade do marido e por Gi as freqncias totais para cada classe de
idade da mulher, temos:
108
Vi Fi 922
V = = = 0,2924
n 3153
Z jG j 742
Z = = = 0,2353
n 3153
( Vi Fi ) 2 922 2
vi2 Fi = Vi 2 Fi = 9708 = 9438,39
n 3153
( Z j G j ) 2 742 2
z Gj = Z Gj
2
j
2
j = 7090 = 6915,38
n 3153
( Vi Fi )( Z j G j ) 922(742)
vi z j f ij = Vi Z j f ij = 6256 = 6472,98
n 3153
vi z j f ij
r= = 0,8012
( vi2 Fi )( z 2j G j )
109
3.2. Aplicao da anlise de regresso a uma populao com distribuio
normal bidimensional
X X Y Y cov( X , Y ) cov( X , Y )
= E = =
X Y XY V ( X )V (Y )
H A : 0 , utilizamos o teste
r 2 ( n 2)
F= , com 1 e n 2 graus de liberdade.
1 r2
Pode-se verificar que o valor de F, obtido por essa frmula, igual ao valor de F
da anlise de varincia da regresso, obtido dividindo o quadrado mdio de regresso
pelo quadrado mdio residual. Portanto, testar a hiptese H 0 : = 0 equivale a testar a
hiptese H 0 : = 0 .
A funo de densidade de uma distribuio normal bidimensional corresponde a
uma superfcie cujas sees, tanto na direo do eixo dos X como na direo do eixo dos
Y, so curvas normais. As sees horizontais dessa superfcie so elipses de
isoprobabilidade, duas das quais esto traadas na figura 3.6.
110
Vamos mostrar agora que os pontos C, E, F e G da figura 3.6, onde retas
paralelas ao eixo dos Y tangenciam elipses de isoprobabilidade, so os pontos mdios
das distribuies condicionais de Y. Consideremos, particularmente, o plano
perpendicular ao eixo dos X passando por A; esse plano seciona infinitas elipses de
isoprobabilidade, mas todas elas de nvel inferior ao da elipse de isoprobabilidade que
tangencia o plano em C, que , portanto, a moda da curva normal definida pela
interseco do plano em questo com a superfcie de densidade da populao
bidimensional. Como a moda de uma distribuio normal coincide com a mdia,
111
Figura 3.6. As elipses de isoprobabilidade de uma distribuio normal bidimensional e
as retas de regresso de Y em relao a X e de X em relao a Y.
EXERCCIOS
Xi Yi Xi Yi
5 1 7 7
5 3 8 5
6 1 8 9
6 5 9 7
7 3 9 9
112
3.2. Sendo o ngulo entre as retas de regresso de Y em relao a X e de X em
relao a Y, prove que
1 r2 1 r2 s ( X ) s (Y )
tg = = 2
bY X + b X Y r s ( X ) + s 2 (Y )
Com base nesta relao determine o ngulo formado pelas duas retas de regresso
no caso da amostra de 6 pares de valores da tabela 3.1.
3.3. Dados:
X Y
2 18
4 12
5 10
6 8
8 7
11 5
3.4. Com base no grfico dado a seguir, determine geometricamente (sem usar as
frmulas comuns de anlise de regresso):
a) A reta de regresso de Y em relao a X.
b) A reta de regresso de X em relao a Y.
c) O coeficiente de correlao (r).
d) O valor estimado de Y para X = 1.
e) O valor estimado de X para Y = 1.
113
3.5. Com base no grfico dado a seguir, determine geometricamente (sem usar as
frmulas comuns de anlise de regresso):
a) A reta de regresso de Y em relao a X.
b) A reta de regresso de X em relao a Y.
c) O coeficiente de correlao (r).
d) O valor estimado de Y para X = 60.
e) O valor estimado de X para Y = 30.
3.6. Os dados a seguir foram apresentados em defesa da tese de que dietas com alto
teor de protena reduzem a fertilidade. a) Estabelea, sem calcular, o sinal do
coeficiente de correlao entre as duas variveis. b) Discuta se dados desse tipo
so apropriados para estabelecer relaes de causa-e-efeito entre essas variveis.
114
Taxa de Teor de protena
Pais
Natalidade na dieta
Formosa 45,6 4,7
Malaia 39,7 7,5
ndia 33,0 8,7
Japo 27,0 9,7
Iugoslvia 25,9 11,2
Grcia 23,5 15,2
Itlia 23,4 15,2
Bulgria 22,2 16,8
Alemanha 20,0 37,3
Irlanda 19,1 46,7
Dinamarca 18,3 56,1
Austrlia 18,0 59,9
EUA 17,9 61,4
Sucia 15,0 62,6
3.7. Com base em uma amostra de 200 pares de valores para as variveis X e Y
obtivemos um coeficiente de correlao igual a 0,02. Podemos afirmar que no
existe relao entre essas variveis? Explique.
3.8. Com base nos valores de renda per capita ( X 1 ) e da porcentagem de analfabetos (
a b
3.10. So dados os valores de Z i (i = 1, ..., n). Definimos X i = e Yi = .
Zi Zi
Demonstre que, se a e b so constantes positivas, o coeficiente de correlao entre
X i e Yi igual a 1.
115
3.11. O coeficiente de correlao entre as variveis X e Y r = 0,60. Sabendo que
s(X) = 1,50, s(Y) = 2,00, X = 10 e Y = 20 , determine a equao de regresso de Y
em relao a X.
3.12. Com base em uma amostra de 27 pares de valores foi obtido o coeficiente de
correlao r = 0,40. Teste, ao nvel de significncia de 5%, a hiptese de que o
coeficiente de correlao das variveis zero.
3.14. A partir de uma amostra aleatria com n observaes, foi obtida a equao de
regresso
Y = 10 0,28 X
Determine o coeficiente de correlao entre X e Y sabendo que
x2 y2
s (X ) =
2
= 25 e s (Y ) =
2
=4
n 1 n 1
3.15. Para duas variveis negativamente correlacionadas, foram obtidos: X = 0 ,
Y = 12 , s(X) = 8, s(Y) = 10 e r 2 = 0,64 . Determine a equao de regresso de Y
em relao a X.
3.16. Dados
X Y
0 2
2 2
4 4
6 8
116
d) Demonstre que o coeficiente de determinao de uma regresso ( rYX2 ) sempre
igual ao quadrado do coeficiente de correlao entre os valores observados e
os valores estimados da varivel dependente ( rY2Y ).
x xi2
wi = i , com xi = X i X e s ( X ) = , e
s( X ) n 1
yi y i2
zi = , com y i = Yi Y e s (Y ) =
s(Y ) n 1
RESPOSTAS
3.2. = 30 o 58
3.3. a) r = 0,92
b) Y = 18,04 1,34 X
c) no se rejeita H 0 : = 1
3.4. a) Y = 2 + 0,5 X
b) X = 1 + Y
117
c) r = 0,7071
d) Y = 2,5
e) X = 0
3.5. a) Y = 10 + 0,25 X
b) X = 20 + Y
c) r = 0,5
d) Y = 25
e) X = 50
3.7. Correlao linear igual a zero no implica ausncia de relao entre as variveis.
118
b) S.Q.Total = z i2 = n 1
S.Q.Regr. = r 2 (n 1)
119
4. REGRESSO LINEAR MLTIPLA
4.1. O modelo estatstico de uma regresso linear mltipla
Temos uma regresso linear mltipla quando admitimos que o valor da varivel
dependente funo linear de duas ou mais variveis explanatrias. O modelo
estatstico de uma regresso linear mltipla com k variveis explanatrias :
Y j = + 1 X 1 j + 2 X 2 j + ... + k X kj + u j , j = 1, ..., n
ou
k
Y j = + i X ij + u j (4.1)
i =1
y = X + u (4.2)
onde
Y1 1 X 11 X 21 K X k1
Y 1 X 12 X 22 K X k2
y = 2 X=
M M M M M
Yn 1 X 1n X 2n K X kn
1 u1
u
= 2 u = 2
M
M
u
n
k
i = 1,..., k);
II) os valores das variveis explanatrias so fixos;
III) E (u j ) = 0 , ou seja, E (u) = 0 , onde 0 representa um vetor de zeros;
120
V) os erros so no-correlacionados entre si, isto , E (u j u h ) = 0 para j h;
E (uu ) = I 2 (4.3)
a
b e1
1 e
b = b2 e e = 2
M
M
bk e n
121
Temos
y = Xb + e = y + e (4.4)
e = y Xb = y y
onde
Y1
Y
y = 2
M
Yn
Z = e e = ( y b X )( y Xb ) = y y y Xb b X y + b X Xb
Z = y y 2b X y + b X Xb (4.5)
dZ = 2( db ) X y + ( db ) X Xb + b X X( db ) 0
2( db ) X y + 2( db ) X Xb 0
ou
( db )( X Xb X y ) 0
X Xb = X y (4.6)
122
b = ( XX) 1 Xy (4.7)
A primeira etapa dos clculos para obteno das estimativas dos parmetros a
construo das matrizes
n X1j X2j K X kj
X X 2
X1j X 2 j K X 1 j X kj
1j 1j
XX = X 2 j X1j X 2 j X 22 j K X 2 j X kj
M M M M
X kj X 1 j X kj X 2 j X kj X kj2
Yj
X Y
1j j
Xy = X 2 j Y j
M
X kj Y j
e
X ij e j = 0 para i = 1, ..., k
modelo ter um termo constante (), fazendo com que a primeira coluna de X seja um
vetor com todos os elementos iguais a 1.
123
Sendo nula a soma dos desvios, conclumos que
Y j = Y j (4.9)
b = ( XX) 1 X( X + u)
ou
b = + ( XX) 1 Xu (4.10)
Lembrando as pressuposies II e III, verificamos que
E (b) = , c.q.d.
A matriz
E[(b )(b ) ]
por definio, a matriz das varincias e covarincias das estimativas dos parmetros,
pois
E[(b )(b ) ] =
E (a ) 2 E (a )(b1 1 ) K E (a )(bk k )
E (a )(b1 1 ) E (b1 1 ) 2 K E (b1 1 )(bk k )
=
M M M
E (a )(bk k ) E (b1 1 )(bk k ) K E (bk k ) 2
ou
124
4.4. Varincia de uma combinao linear das estimativas dos parmetros
c = [c0 c1 c2 K ck ]
Determinemos a varincia de cb .
Sabemos que
E (b) =
Ento
E (cb ) = c
V (cb) = E (cb c) 2 =
= E[c(b )]2 =
= E[c(b )(b )c]
Considerando (4.11) obtemos
V (cb) = c( XX) 1 c 2 (4.12)
Uma aplicao importante desse resultado a determinao da varincia da
Y j = + 1 X 1 j + 2 X 2 j + K + k X kj + u j , j = 1, ..., n
ou
y = X + u ,
Yh = a + b1 X 1h + b2 X 2 h + K + bk X kh
ou
Yh = xh b , (4.13)
125
onde
x h = [1 X 1h X 2h K X kh ]
e e = y y 2b X y + b X y
ou
S.Q.Res. = e e = y y b X y (4.15)
( Y j ) 2 ( Y j ) 2
S.Q.Total = y = Y
2
j j
2
= y y (4.16)
n n
S.Q.Regr. = (Y j Y ) 2 = y 2j =
( Y j ) 2
= Y j2 =
n
( Y j ) 2
= y y =
n
( Y j ) 2
= ( Xb)Xb =
n
( Yj ) 2
= bXXb
n
Considerando (4.6) e (4.9) segue-se que
126
( Y j ) 2
S.Q.Regr. = bXy (4.17)
n
De (4.15), (4.16) e (4.17), conclumos que
S.Q.Res. = (S.Q.Total) (S.Q.Regr.)
H = X( XX) 1 X
M = I X( XX) 1 X = I H
H = H
'
M = M
'
HH = H
e MM = M (4.18)
Verifica-se, tambm que
HX = X ou X H = X
e
MX = 0 ou XM = 0 (4.19)
'
onde 0 uma matriz de zeros.
Temos que
e = y y = y Xb = y X( XX) 1 Xy =
= [I X( XX) 1 X]y =
= My = M ( X + u)
Considerando (4.19), segue-se que
e = Mu (4.20)
De (4.18) e (4.20) segue-se que
127
Como ee uma matriz com apenas um elemento temos que
e e = tr (u Mu )
e e = tr (uu M )
E(S.Q.Res.) = E (ee) = 2 tr (M )
Mas
tr(M) = tr [I X( XX) 1 X] = n (k + 1) = n p
Ento
E(S.Q.Res.) = (n p ) 2 , (4.22)
c.q.d.
( Y j ) 2
Regresso k=p1 b Xy
n
Resduo np y y b X y
( Y j ) 2
Total n1 y y
n
128
s 2 = Q.M.Res. na expresso (4.11) obtemos a matriz das estimativas das varincias e
covarincias das estimativas dos parmetros:
V (b) = ( X X) 1 s 2 (4.23)
2 = K = k = 0 , o cociente
Q.M.Regr.
F=
Q.M.Res.
H 0 : 1 = 2 = K = k = 0
bi i
t= , (4.24)
s(bi )
associado a n p graus de liberdade, para testar hipteses a respeito dos valores dos
parmetros.
confiana para i
S.Q.Regr.
R2 =
S.Q.Total
129
e mostra a proporo da soma de quadrados total que explicada pela regresso
mltipla.
Temos que
S.Q.Res.
1 R2 =
S.Q.Total
1
(S.Q.Res.)
n p n 1
1 R =
2
= (1 R 2 )
1 n p
(S.Q.Total)
n 1
ou
p 1
R 2 = R2 (1 R 2 )
n p
4.6. Demonstrao de que b um estimador linear no-tendencioso de
varincia mnima
V (cb) = c( XX) 1 c 2
Temos
= g y = g ( X + u ) = g X + g u (4.26)
g X = c (4.27)
130
De acordo com (4.12) e (4.27), obtemos
V (c b) = g X( X X) 1 X g 2 (4.28)
De (4.26), obtemos
E () = g u
Donde
V ( ) = E[ E ()] 2 =
= E (g uu g )
V ( ) = g g 2 (4.29)
V ( ) V (c b ) = [g g g X( X X) 1 X g ] 2 =
= g [I X( XX) 1 X]g 2 =
= g Mg 2
Vimos, em (4.21), que ee = uMu . Ora, ee 0 porque uma soma de
quadrados. Portanto M uma matriz semidefinida positiva e g Mg 0 . Conclumos
ento que
V ( ) V (c b ) , (4.30)
131
Esse resultado mostra que, dentre os estimadores lineares no-tendenciosos, bi
o que tem menor varincia, isto , os estimadores de mnimos quadrados so
estimadores lineares no-tendenciosos de varincia mnima.
xij = X ij X i , i = 1, 2, ..., k
onde
1 n
Xi = X ij
n j =1
Y j = 0 + 1 x1 j + K + k x kj + u j , j = 1, 2, ..., n
ou em notao matricial,
y = X + u
As matrizes X X e X y ficam
n 0 0 K 0
0 x12j x1 j x 2 j K x1 j x kj
XX = 0 x1 j x 2 j x 22 j K x 2 j x kj
M M M M
0 x1 j x kj x 2 j x kj K x kj2
e
Yj
x Y
1j j
Xy = x 2 j Y j
M
x kj Y j
132
Decompondo a matriz X X apropriadamente, o elemento igual a n pode ser
invertido separadamente. Ento a estimativa de 0
Y j
b0 = =Y
n
n n k n
S.Q.Res. = Y j2 Y Y j bi xij Y j
j =1 j =1 i =1 j =1
Como
( Y j ) 2
Y Y Yj = Y
j
2
j
2
= S.Q.Total,
n
conclumos que
k n
S.Q.Regr. = bi xij Y j (4.31)
i =1 j =1
onde
1
u= u j
n
Subtraindo (4.33) das relaes (4.1) obtemos
k
y j = i xij + u j u
i =1
133
ou
y = X + u u (4.34)
onde
y1 x11 x 21 K x k 1
1
y x x 22 K x k 2
y = 2 X = 12 = 2
M M M M M
k
yn x1n x 2 n K x kn
b Xy
R2 =
y y
134
E (b ) =
e
V (b) = ( XX) 1 2
Yj X1j X2j
16,5 1,0 2
14,0 3,5 3
6,0 4,0 4
10,0 7,5 5
3,5 9,0 6
Obtemos:
Y j = 50 X 1 j = 25 X 2 j = 20
Y = 10 X1 = 5 X2 = 4
x1 j Y j = 54 x 2 j Y j = 30 x1 j x 2 j = 20
Y j = 0 + 1 x1 j + 2 x 2 j + u j ,
construmos as matrizes
n 0 0 5 0 0
X X = 0 x12j x1 j x 2 j = 0 41,5 20
0 x1 j x 2 j x 22 j 0 20 10
135
Y j 50
X y = x1 j Y j = 54
x 2 j Y j 30
1 50 10
5 0 0
2 4
b = ( XX) 1 Xy = 0 54 = 4
3 3
0 4 83
3 30 30 11
Y j = 10 + 4 x1 j 11x 2 j
Como
x1 j = X 1 j 5
x2 j = X 2 j 4
obtemos
Y j = 34 + 4 X 1 j 11X 2 j
S.Q.Regr. = b1 x1 j Y j + b2 x 2 j Y j =
Ento
S.Q.Res. = y y b X y =
136
Com esses resultados podemos construir a tabela de anlise da varincia.
137
V (a ) = V (Y ) + X 12V (b1 ) + X 22V (b2 ) 2 X 1 cov(Y , b1 )
2 X 2 cov(Y , b2 ) + 2 X 1 X 2 cov(b1 , b2 )
e
5 83 5
V ( a ) = 0,25 + 5 2 + 4 2 + 2 5 4 = 9,75
6 24 3
Se tivssemos utilizado o modelo com as variveis no centradas, a estimativa
da varincia de a seria dada pelo primeiro elemento da diagonal principal de ( XX) 1 s 2 .
Podemos, agora, testar hipteses a respeito dos valores dos parmetros.
Adotando o nvel de significncia de 5%, consideremos as seguintes hipteses:
a) H 0 : = 50 contra H A : < 50
Temos
34 50
t= = 5,124
9,75
O resultado significativo, pois a regio de rejeio para esse teste unilateral
t 2,920 . Portanto, ao nvel de significncia de 5%, rejeitamos a hiptese
b) H 0 : 1 = 0 contra H A : 1 0
Calculamos
40
t= = 4,382
0,8333
Como o valor crtico de t para 2 graus de liberdade e ao nvel de significncia de
5% 4,303, o resultado obtido significativo, isto , rejeitamos, a esse nvel, a hiptese
de que 1 = 0 . Um bom programa de computador fornece a probabilidade caudal
associada ao t calculado (t = 4,382), isto , a probabilidade de, na distribuio de t com
2 graus de liberdade, essa varivel assumir valor absoluto maior do que 4,382. Essa
probabilidade 0,0483, permitindo concluir que o resultado significativo ao nvel de
5%, sem necessidade de obter o valor crtico de t.
c) H 0 : 2 = 0 contra H A : 2 0
Obtemos
11 0
t= = 5,915 , significativo
3,4583
138
Neste exemplo rejeitamos, ao nvel de significncia de 5%, a hiptese
H 0 : 1 = 2 = 0 e tambm rejeitamos, ao mesmo nvel de significncia, tanto a
bi
t= , i = 1, 2, ..., k
s(bi )
seja significativo, considerando-se um teste bilateral com o mesmo nvel de
significncia. Mas nem sempre isso acontece, podendo ocorrer que, apesar de o teste F
da anlise de varincia da regresso ser significativo, nenhum dos testes t para as
hipteses H 0 : i = 0 , (para i = 1, 2, ..., k) seja significativo, como mostra o exemplo
apresentado na seo 4.12, na qual esse assunto ser melhor analisado.
Y j = + 1 X 1 j + 2 X 2 j + K + k X kj + u j , j = 1, ..., n
ou
y = X + u
E (Yh ) = + 1 X 1h + 2 X 2 h + K + k X kh = xh
Yh = a + b1 X 1h + b2 X 2 h + K + bk X kh = xh b
onde
x h = [1 X 1h X 2h K X kh ]
Devemos ressaltar que o vetor x h pode ou no ser uma das linhas da matriz X.
139
V (Yh ) = xh ( XX) 1 x h s 2 (4.36)
Consideremos, mais uma vez, o exemplo numrico da tabela 4.1. Tendo em vista
o modelo5
Y j = 0 + 1 x1 j + 2 x 2 j + u j
1
0 0
5
2 4
( X X) 1 = 0
3 3
4 83
0
3 30
10
b = 4
11
x h = [1 2 3]
Ento,
5
Se considerarmos o modelo em que todas as variveis, incluindo a dependente, so centradas,
obteremos, atravs de (4.14), a varincia y h = Yh Y . Como as covarincias entre Y e bi (i = 1, 2, ..., k)
so nulas, a varincia de Yh dada por
2
V (Yh ) = V ( y h ) +
n
140
Yh = xh b = 51
V (Yh ) = xh ( XX) 1 x h s 2 =
1
5 0 0
1
4
= [1 2 3] 0
2
1,25 = 54,708
3 3 2
4 83
0
3 30 3
X 2 h , ..., X kh .
Yh Yh = xh (b ) u h (4.38)
141
V (Yh Yh ) = V [xh (b )] + 2
V (Yh Yh ) = 2 + xh ( XX) 1 x h 2 =
= [1 + x h ( X X) 1 x h ] 2
e o intervalo de previso, ao nvel de confiana de 95%, para uma nova observao com
esses valores de X 1h e X 2 h
142
onde
c = [0 2 1]
Para testar essa hiptese calculamos, de acordo com (4.12),
V (c b) = c ( X X) 1 cs 2 = 0,125
A seguir, obtemos
cb 0 3
t= = = 8,485
V (cb) 0,125
significncia de 5%, pois a regio de rejeio para esse teste unilateral t 2,920 .
y j = 1 x1 j + 2 x 2 j + u j u (4.39)
x 2 x1 j x 2 j x1 j y j
X X = 1 j , Xy =
x1 j x 2 j x 2 j x 2 j y j
2
1 x 22 j x1 j x 2 j
( X X) 1
=
x x ( x1 j x 2 j ) 2 x1 j x 2 j x12j
2 2
1j 2j
De b = ( XX) 1 Xy , obtemos
x 22 j x1 j y j x1 j x 2 j x 2 j y j
b1 = (4.40)
x12j x 22 j ( x1 j x 2 j ) 2
x12j x 2 j y j x1 j x 2 j x1 j y j
b2 = (4.41)
x12j x 22 j ( x1 j x 2 j ) 2
143
Vamos indicar os desvios da regresso de x1 j em relao a x 2 j por v j e os
X1 .
Sabemos que para uma regresso linear simples de y j em relao a x j temos
xj yj
desvio = y j y j = y j bx j = y j x j
x2
j
Segue-se que
x 2 j x1 j
v j = x1 j x2 j (4.42)
x2
2j
e
x2 j y j
zj = yj x2 j (4.43)
x2
2j
Como x1 j , x 2 j e y j tm mdia igual a zero, v j e z j tambm tm mdia igual a
vjz j
= (4.44)
v 2j
Mas
x 2 j x1 j x2 j y j
v j z j = x1 j x2 j y j x2 j
x2 x2
2j 2j
144
Desenvolvendo e simplificando, obtemos
x1 j x 2 j x 2 j y j
v j z j = x1 j y j (4.45)
x 22 j
Analogamente, obtemos
( x1 j x 2 j ) 2
v = x
2
j
2
1j (4.46)
x 22 j
x 22 j x1 j y j x1 j x 2 j x 2 j y j
= (4.47)
x12j x 22 j ( x1 j x 2 j ) 2
x 2 j , dados por
v j = x1 j 2 x 2 j
z j = y j + 3x 2 j
145
vjzj 6
= = = 4,
v 2
j 1,5
A anlise que fizemos para uma regresso com duas variveis explanatrias
pode ser generalizada para o caso de uma regresso linear mltipla com k variveis
explanatrias. Pode-se demonstrar que a estimativa ( b1 ) do coeficiente de uma varivel
X ij de uma regresso linear mltipla, normalmente obtida atravs de (4.7), poderia ser
variveis explanatrias;
b) clculo dos resduos ( z j ) da regresso de Y j em relao a essas mesmas
v j , que igual a bi .
isto ,
146
vjzj
rY 12 = (4.48)
v 2j z 2j
( x 2 j y j ) 2
z = y 2
j
2
j (4.49)
x 22 j
x1 j x 2 j x 2 j y j
x1 j y j
x 22 j
rY 12 = (4.50)
2 ( x1 j x 2 j ) 2 ( x 2 j y j ) 2
x1 j y j
2
x 22 j x 22 j
rY 1 r12 rY 2
rY 12 = (4.51)
(1 r122 )(1 rY22 )
Analogamente, temos
rY 2 r12 rY 1
rY 21 = (4.52)
(1 r122 )(1 rY21 )
x1 j y j 54
rY 1 = = = 0,776617
x y
2
1j
2
j
41,5 116,5
x2 j y j 30
rY 2 = = = 0,878938
x 22 j y 2j 10 116,5
x1 j x 2 j 20
r12 = = = 0,981761
x x 2
1j
2
2j
41,5 10
147
Essas correlaes simples so apresentadas com grande nmero de decimais
para evitar erros de arredondamento nos prximos clculos. Substituindo esses valores
em (4.51), obtemos
rY 12 = 0,952
vjzj 6
rY 12 = = = 0,952
v 2j z 2j 1,5 26,5
x1 j x2 j x2 j y j ( x1 j x2 j ) 2
x1 j y j x12j
x22 j x22 j
rY 12 =
2 ( x1 j x2 j ) 2 ( x2 j y j ) 2
x1 j y 2j
x22 j x22 j
( x1 j x2 j ) 2
x12j
x22 j (S.Q.Res. x1 j | x2 j )
rY 12 = b1 = b1
( x2 j y j ) 2 (S.Q.Res y j | x2 j )
y 2
j
x22 j
ou
(S.Q.Res. y j | x 2 j )
b1 = rY 12 (4.53)
(S.Q.Res x1 j | x 2 j )
Analogamente,
(S.Q.Res. y j | x1 j )
b2 = rY 21 (4.54)
(S.Q.Res x 2 j | x1 j )
148
Essas relaes mostram que um coeficiente de correlao parcial sempre tem
sinal igual ao do respectivo coeficiente de regresso na regresso mltipla. Mas o
correspondente coeficiente de correlao simples pode ter sinal oposto, como ocorre
com rY 1 e rY 12 no exemplo analisado. Vimos que rY 1 = 0,776617 e rY 12 = 0,952. O
esquema a seguir procura mostra como isso possvel
Y
O efeito direto de X 1 sobre Y positivo, como mostra o valor de b1 ou o valor
de rY 12 . Mas X 1 tem forte correlao positiva com X 2 que, por sua vez, tem forte
efeito direto positivo, fazendo com que a correlao simples ( rY 1 ) seja negativa.
Vamos considerar ainda o caso de uma regresso mltipla com duas variveis
explanatrias, ou seja, a regresso de y j em relao a x1 j e x 2 j . De acordo com (4.31),
(S.Q.Regr.de y j | x1 j e x 2 j ) = b1 x1 j y j + b2 x 2 j y j
(S.Q.Regr. de y j | x1 j e x 2 j ) = R 2 y 2j
isto ,
= R 2 y 2j rY22 y 2j (4.55)
149
Para medir a importncia da contribuio de x1 j , comparamos seu valor com a
cociente
no mximo, igual a um. Isso ocorre quando a introduo da varivel x1 j explicar (em
termos de soma de quadrados) tudo o que x 2 j deixou de explicar. Est claro que, neste
que pode ser obtida (aps vrias passagens algbricas que podem ser desenvolvidas,
como exerccio) substituindo (4.40) e (4.41) em
b1 x1 y1 + b2 x 2 j y j
R2 =
y 2j
(rY 1 r12 rY 2 ) 2
=
(1 r122 )(1 rY22 )
(Contribuio de x1 j ) R 2 rY22
rY212 = = (4.58)
(S.Q.Res. de y j | x 2 j ) 1 rY22
Analogamente,
150
(Contribuio de x 2 j ) R 2 rY21
rY221 = = (4.59)
(S.Q.Res. de y j | x1 j ) 1 rY21
( x 2 j y j ) 2 (30) 2
(S.Q.Regr.d e y j | x 2 j ) = = = 90
x 22 j 10
(S.Q.Regr.d e y j | x1 j e x 2 j ) = 114
Ento
(Contribuio de x1 j ) = 114 90 = 24
24
rY212 = = 0,905660
26,5
rY 12 = 0,952
151
Dividindo o quadrado mdio referente contribuio de x1 j (que igual
respectiva soma de quadrados, pois esta tem 1 grau de liberdade) pelo quadrado mdio
residual da regresso mltipla obtivemos F = 19,2.
Ao nvel de significncia de 5%, o valor crtico de F, para 1 e 2 graus de
liberdade, 18,51. Portanto, o resultado obtido significativo.
importante observar que esse teste F equivalente ao teste t, feito
anteriormente na seo 4.8, para testar a hiptese H 0 : 1 = 0 contra H A : 1 0 . Note
que o valor de F obtido (19,2) igual ao quadrado do valor de t calculado para testar
essa hiptese (4,382).
At aqui analisamos o conceito de correlao parcial para o caso de uma
regresso linear com duas variveis explanatrias. O conceito pode, entretanto, ser
generalizado para o caso de uma regresso linear mltipla com k variveis
explanatrias. Apenas para facilidade de notao, consideremos o coeficiente de
correlao parcial entre y j e x1 j ( rY 123...k ). Sendo v j os desvios da regresso mltipla
onde
(Contribuio de x1 j ) =
6
Ver a seo 5.3 (p. 132-135) de Johnston (1972), para uma outra maneira de obter os coeficientes de
correlao parcial.
152
Esquema da Anlise de Varincia
C.V. G.L.
Regr. de y j | x 2 j , x3 j ,..., x kj k1
Contribuio de x1 j 1
t h = bh / s (bh ) , temos
(Contribuio de x hj )
t h2 =
s2
e (Contribuio de x hj ) = t h2 s 2
(Contribuio de x hj )
rYh2 i h =
(n p ) s 2 + (Contribuio de x hj )
Segue-se que
t h2 s 2
rYh2 i h =
(n p ) s 2 + t h2 s 2
ou
t h2
rYh2 i h =
t h2 + n p
Essa expresso permite obter com facilidade um coeficiente de determinao
parcial a partir do valor de t referente hiptese de nulidade do coeficiente
correspondente na regresso mltipla.
153
4.12. Intervalos de confiana e regies de confiana para os parmetros
Yj X1j X2j yj x1 j x2 j
1,5 0 0 8,0 1,5 3
6,5 1 2 3,0 0,5 1
10,0 1 4 0,5 0,5 1
11,0 2 2 1,5 0,5 1
11,5 2 4 2,0 0,5 1
16,5 3 6 7,0 1,5 3
x12j x1 j x 2 j 5,5 9
X X = = ,
x1 j x 2 j x 22 j 9 22
x1 j y j 25,5
Xy = = ,
x 2 j y j 49
11 9
0,225
20 40
0,55
( X X) 1 = =
9 11 0,225 0,1375
40 80
3
e b = ( XX) 1 Xy =
1
A equao estimada
y j = 3 x1 j + x 2 j
ou
154
Y j = 2 + 3 X 1 j + X 2 j
Como s 2 = 1 , temos
V (b1 ) = 0,55 e V (b2 ) = 0,1375
Seguindo o procedimento apresentado na seo a 4.8, verifica-se que
37
V ( a ) =
60
Adotando um nvel de significncia de 1%, o valor crtico de F, com 2 e 3 graus
de liberdade, 30,82. Portanto, o resultado significativo, isto , rejeita-se, a esse nvel
de significncia, a hiptese H 0 : 1 = 2 = 0 .
3
t= = 4,045
0,55
Como o valor crtico de t para 3 graus de liberdade, ao nvel de significncia de
1%, 5,841, o resultado obtido no significativo, isto , no rejeitamos a hiptese
H 0 : 1 = 0 .
1
t= = 2,697 , no significativo
0,1375
interessante notar que neste exemplo, embora se rejeite, ao nvel de
significncia de 1%, a hiptese H 0 : 1 = 2 = 0 , no se rejeita, ao mesmo nvel de
155
bi t 0 s (bi ) < i < bi + t 0 s (bi )
Vamos determinar os intervalos de confiana, ao nvel de confiana de 99%,
para os parmetros , 1 e 2 , com base nos dados da tabela 4.5. O valor crtico de t ,
neste caso, 5,841.
Temos
a = 2 , b1 = 3 e b2 = 1 .
O intervalo de confiana para
37 37
2 5,841 < < 2 + 5,841
60 60
ou
2,59 < < 6,59
O intervalo de confiana para 1
156
Figura 4.1. A regio de confiana para os parmetros 1 e 2 .
157
H 0 : C = 0
b XXb
F=
ks 2
Lembrando que b = ( X X) 1 X y , obtemos
b X y
b X y Q.M.Regr.
F= 2
= k2 = ,
ks s Q.M.Res.
a hiptese H 0 : 1 = 0 .
Fazemos
C = [1 0 0 K 0] , cuja caracterstica m = 1.
Ento, a hiptese da nulidade pode ser escrita como segue:
H 0 : C = 0
b1 ( w11 ) 1 b1 b12
F= =
s2 w11 s 2
| b1 |
| t |= F =
s(b1 )
158
Uma vez que o quadrado de um teste t sempre igual a um teste F com
numerador associado a um grau de liberdade, pode-se verificar que a relao (4.60)
engloba, como caso particular, qualquer t relativo a uma hiptese sobre o valor de um
parmetro ou sobre o valor de uma combinao linear de parmetros, incluindo-se, neste
ltimo caso, um teste a respeito de E (Yh ) .
Se, escolhido um nvel de confiana, substituirmos F, em (4.60), pelo seu valor
crtico F0 , essa relao nos fornecer os limites de um intervalo ou de uma regio de
confiana (dependendo de como definida a matriz C). Os pontos pertencentes ao
intervalo ou regio de confiana obedecem desigualdade
C = [1 0 0 K 0] , cuja caracterstica m = 1.
Ento,
Cb = b1 , C = 1 e C( XX) 1 C = w11
Substituindo esses resultados em (4.62), obtemos
(b1 1 )( w11 ) 1 (b1 1 ) < F0 s 2
( 1 b1 ) 2 < F0 w11 s 2
fazemos
159
0 1 0
C=
0 0 1
cuja caracterstica m = 2. Ento
b
Cb = 1
C = 1 e
2 b2
Fazendo
1 b1 = q1 e 2 b2 = q 2 (4.63)
segue-se que
q
Cb C = 1 (4.64)
q 2
Temos, tambm, que
C( X X) 1 C =
1
0 0 0 0
0 1 0 n w w12
= 0 w11 w12 1 0 = 11
0 0 1 0 w w22
w12 w22 0 1 12
Donde
x12j x1 j x 2 j
[C( X X) C] =
1 1
(4.65)
x1 j x 2 j x 22 j
x12j x1 j x 2 j q1
[q1 q2 ] < 2 F0 s
2
(4.66)
x1 j x 2 j x 2 j q 2
2
x1 j x 2 j = 9 s2 = 1
160
5,5 9 q1
[q1 q2 ] < 2 30,82
9 22 q 2
ou
5,5q12 + 18q1 q 2 + 22q 22 61,64 < 0
4
H 0 : C =
2
Como
b 3
Cb = 1 = ,
b2 1
temos que
3 4 1
Cb C = = (4.67)
1 2 1
[1 1]
1 5,5 9 1
F= = 22,75
2 9 22 1
161
Como o valor crtico de F com 2 e 3 graus de liberdade e ao nvel de
significncia de 5% 9,55, o resultado significativo, isto , rejeita-se a hiptese
H 0 : 1 = 4 e 2 = 2 .
Se tivssemos adotado o nvel de significncia de 1%, no rejeitaramos
H 0 : 1 = 4 e 2 = 2 , pois, neste caso, o valor crtico de F 30,82. Isso pode ser
Yj X 1 j = x1 j X 2 j = x2 j X 3 j = x3 j
8,5 2 2 2
1,0 1 1 0
4,0 1 0 0
4,0 1 0 0
5,0 1 1 0
3,0 1 1 0
6,0 1 0 0
6,0 1 0 0
7,0 1 1 0
5,0 0 0 1
5,0 0 0 0
5,0 0 0 0
3,0 0 0 1
0,5 2 2 2
162
Os valores bsicos a serem calculados so:
Y j = 63 x12j = 16 Y = 4,5
x 22 j = 12 y 2j = 61 x32 j = 10
x1 j Y j = 8 x1 j x 2 j = 8 x 2 j Y j = 24
x1 j x3 j = 8 x 3 j Y j = 18 x 2 j x 3 j = 8
construmos as matrizes
14 0 0 0 63
0 16 8
8 8
XX = e Xy =
0 8 12 8 24
0 8 8 10 18
A seguir, obtemos
1
14 0 0 0
7 1 1
0
64 32 16
( XX) =
1
1 3 1
0
32 16 8
0 1 1 1
16 8 4
e
b0 4,5
b 1
b= 1
= ( XX) Xy =
1
b2 2
b3 1
A equao estimada
Y j = 4,5 + x1 j + 2 x 2 j x3 j
163
Y j = 4,5 + X 1 j + 2 X 2 j X 3 j
Temos
S.Q.Regr. = bi xij Y j =
i j
= 1 ( 8) + 2 24 + ( 1) ( 18) = 58
9
s(b2 ) = = 0,237
160
O intervalo de confiana para 2 , ao nvel de confiana de 95%,
164
Para testar, ao nvel de significncia de 1%, a hiptese H 0 : 2 = 0 , contra a
b2 0 2
t= = = 8,433
s (b2 ) 9
160
Y j = c 0 + c1 x1 j + c 2 x 2 j + z j
1
14 0 0
63 4,5
1
8 = 0,75
3
=0
32 16
24 2,5
1 1
0
16 8
Ento
(S.Q.Res. de Y j | x1 j , x2 j ) = 61 54 = 7
Como
(S.Q.Regr. de Y j | x1 j , x 2 j , x3 j ) = 58,
165
segue-se que
(Contribuio de x 3 j ) = 58 54 = 4
(contribuio de x3 j ) 4
rY2312 = =
(S.Q.Res. de Y j | x1 j , x 2 j ) 7
parcial entre Y j e X 3 j
4
rY 312 = = 0,756
7
Os demais coeficientes de correlao parcial podem ser obtidos de maneira
anloga.
Faamos, agora, o teste da hiptese
H 0 : 1 + 2 + 3 = 1
contra a hiptese alternativa
H A : 1 + 2 + 3 1 ,
ao nvel de significncia de 5%.
Fazendo
c = [0 1 1 1] ,
a hiptese da nulidade fica
H 0 : c = 1
De acordo com (4.12) temos
V (c b ) = c ( X X) 1 cs 2 =
1
14 0 0 0 0
0 7 1 1 1
64 32 16
= [0 1]
141
1 1 0,30 =
1 3 1 640
0 1
32 16 8
1 1 1
0 1
16 8 4
A seguir, obtemos
166
cb c 2 1
t= = = 2,130
V (cb) 141
640
2
C = 2 , Cb =
3 1
e
3 1
16 18
C( XX) C =
1
1 1
8 4
1
3 1
16 8
2 2 2 2
1 1 < F0 2 0,30
3 3
1 1
8 4
2 2 8 4 2 2
+ 1 4 < 4,10 2 0,30
3 6 3 + 1
167
Sabemos que essa regio de confiana delimitada por uma elipse com centro no
ponto 2 = 2 e 3 = 1 .
y = X + u (4.68)
168
g = (V V ) 1 V X + (V V ) 1 V u
e
E (g) = P , (4.70)
onde
P = (V V ) 1 V X (4.71)
y j = 1 x1 j + 2 x 2 j + 3 x3 j + u j u
y j = g 1 x1 j + g 2 x 2 j
Neste caso
x12j x1 j x 2 j
VV=
x1 j x 2 j x 22 j
x 2 x1 j x 2 j x1 j x3 j
V X = 1 j
x1 j x 2 j x x 2 j x3 j
2
2j
1 0 1
P = (V V ) 1 V X =
(4.72)
0 1 2
1 0 1 1 1 + 1 3
E (g ) = =
2
0 1 2 2 + 2 3
3
ou seja,
E ( g1 ) = 1 + 1 3
e
169
E ( g 2 ) = 2 + 2 3
variveis includas.
Consideremos, agora, o caso em que o modelo correto seria
y j = 1 x1 j + 2 x 2 j + u j u
Neste caso
x12j x1 j x 2 j x1 j x3 j
V V = x1 j x 2 j x 22 j x 2 j x3 j
x1 j x3 j x 2 j x3 j x32 j
e
x12j x1 j x 2 j
V X = x1 j x 2 j x 22 j
x1 j x3 j x 2 j x3 j
Ento, de acordo com (4.71),
1 0
P = (V V ) 1 V X = 0 1
0 0
ou seja,
E ( g1 ) = 1 ,
E(g 2 ) = 2
e
E(g3 ) = 0
170
interessante notar que quando inclumos uma varivel desnecessria, as
estimativas dos coeficientes permanecem no-tendenciosas, diferentemente do que
ocorre quando deixamos de incluir uma das variveis explanatrias importantes. Isso
mostra que prefervel incluir uma varivel desnecessria que no incluir uma varivel
relevante. Entretanto, a incluso de variveis desnecessrias tambm prejudicial, pois
em geral faz com que aumente a varincia dos estimadores.
H, tambm, o perigo de um controle inapropriado mascarar o efeito que se
deseja captar. Considere um pesquisador que deseja avaliar o efeito das transferncias
de renda do Programa Bolsa Famlia sobre a pobreza, utilizando dados por Unidade de
Federao. A varivel dependente a reduo da pobreza e a varivel explanatria
fundamental o montante de transferncias per capita em certo perodo. Devem ser
controladas caractersticas especficas de cada Unidade da Federao que condicionam
o efeito das transferncias sobre a pobreza, mas um absurdo incluir, nesses controles,
mudanas na renda mdia e no ndice de Gini da distribuio da renda em cada Unidade
da Federao. Aumentando a renda dos pobres, as transferncias contribuem para
reduzir a desigualdade e aumentar um pouco a renda mdia da populao. Usando uma
medida de desigualdade e a renda mdia como controles o pesquisador torna
praticamente impossvel captar o efeito das transferncias sobre a pobreza7. O exerccio
4.39 apresenta dados numricos artificiais que ilustram a questo.
O problema dos maus controles discutido em Angrist e Pischke (2009, p. 64-
68). Eles assinalam que nem sempre mais controle melhor, que variveis medidas
antes que a varivel explanatria de interesse tenha sido determinada so geralmente
bons controles e que necessrio verificar se alguma varivel de controle , ela prpria,
determinada pela varivel explanatria de interesse.
Consideremos o modelo
y j = i xij + u j u
i
7
Como ocorre frequentemente, isso pode parecer bvio depois de assinalado. Mas em dois artigos
publicados na Revista Brasileira de Economia h erro de especificao semelhante, incluindo o ndice de
Gini e o PIB per capita de cada Unidade da Federao em modelos destinados a captar o efeito de
transferncias do governo federal sobre a pobreza: Marinho e Araujo (2010) e Marinho et al. (2011).
171
ou
z j = i vij + j + (4.73)
i
onde
yj xij
zj = , vij = , i = 1, 2, ..., k (4.74)
y 2j xij2
xij2
i = i , (4.75)
y 2j
uj u
j = e =
y 2
j y 2j
c = (V V ) 1 V z
Geralmente, os programas de computador para ajuste de regresses mltiplas
fazem, no incio, as transformaes (4.74). Note que os elementos das matrizes V V e
V z , que passam a ser utilizadas em lugar de X X e X y , variam apenas de 1 a +1.
Isso contribui para diminuir os efeitos dos erros de arredondamento. Obtidas as
estimativas de i , as estimativas dos parmetros i so, de acordo com (4.75), dadas
por
y 2j
bi = ci
xij2
172
4.16. Regresses que se tornam lineares por anamorfose
pode ser encarada como uma regresso linear mltipla com duas variveis
explanatrias, fazendo X j = X 1 j e X 2j = X 2 j .
De maneira anloga, qualquer regresso polinomial pode ser ajustada como uma
regresso linear mltipla.
Em pesquisas econmicas, freqentemente utilizado o modelo
Y j = X 1j1 X 1j2 ... X kj k j
que um modelo de regresso linear mltipla nos logaritmos das variveis. Neste caso,
desde que u j = log j obedea s pressuposies vistas na seo 4.1, as estimativas de
173
1
x2 0 0
1j
0 1
0
( X X) 1
= x 22 j
0 0
1
x kj2
e
x1 j y j
x1 j
2
x2 j y j
b = ( XX) Xy = x 22 j
1
x kj y j
x kj
2
, neste caso, igual soma das somas de quadrados de regresso das regresses lineares
simples de Y j contra cada uma das variveis explanatrias. O coeficiente de
com
( xij x 2 j ) 2
r =
2
12 =1
x12j x 22 j
174
| XX |= x12j x22 j ( x1 j x 2 j ) 2 = 0 ,
mnimos quadrados permite determinar apenas uma reta no plano ; qualquer que seja o
plano que contenha essa reta, a soma dos quadrados dos desvios assume o mesmo valor;
portanto, existe indeterminao.
importante compreender que no caso de uma regresso com mais de duas
variveis explanatrias pode existir multicolinearidade perfeita, mesmo que nenhum dos
coeficientes de determinao simples seja igual a um (ver exerccio 4.12).
Freqentemente, a matriz X apresenta multicolinearidade elevada, embora no
perfeita. As principais conseqncias desse fato so as seguintes:
1) As varincias e covarincias das estimativas dos parmetros sero muito elevadas,
isto , as estimativas obtidas podem ter erros muito grandes e esses erros podem
estar altamente correlacionados entre si. A baixa preciso das estimativas torna
difcil, ou at mesmo impossvel, distinguir as influncias das diversas variveis
explanatrias;
2) Um pesquisador pode ser levado a eliminar variveis da anlise porque os
coeficientes no se mostraram estatisticamente diferentes de zero; essas variveis
podem, na realidade, ser importantes e a amostra disponvel que no permite
detectar sua influncia;
3) As estimativas dos coeficientes variam muito de amostra para amostra. A adio de
algumas observaes amostra pode alterar muito o valor da estimativa obtida.
y j = i xij + u j + u
i
Fazendo
175
yj x1 j x2 j
zj = , v1 j = , v2 j = ,
y 2j x12j x 22 j
x12j x 22 j
1 = 1 , 2 = 2 ,
y 2j y 2j
uj u
j = e = ,
y 2
j y 2j
obtemos
z j = 1v1 j + 2 v 2 j + j + (4.76)
1
v12j v1 j v 2 j
,
2
v1 j v 2 j v 2 j
2
1 r12
1 1 r 2 1 r122
1 r12 12 2
r 2
= ,
12 1
r12 1
1 r 2 1 r122
12
Conclumos que
2
V (c1 ) = V (c 2 ) = (4.77)
1 r122
r12 2
cov(c1 , c 2 ) = (4.78)
1 r122
176
As expresses (4.77) e (4.78) mostram que as varincias e o valor absoluto da
covarincia das estimativas dos parmetros crescem rapidamente quando r122 se
aproxima de um, isto , quando aumenta o grau de multicolinearidade.
Se r12 for positivo, verifica-se, pela expresso (4.78), que a covarincia das
estimativas dos parmetros negativa.
1 r12
1 r 2 1 r122 v
c1 1 12
c = =
1j j
v (4.79)
c 2 2 r12 1 2j j
1 r 2 1 r122
12
v1 j d j = 0
v 2 j j = r12 v1 j j + d j j (4.81)
r12 v1 j j + r12 v1 j j + d j j d j j
c2 2 = = (4.83)
1 r 2
12 1 r122
177
essas expresses mostram que, se r12 positivo e se aproxima de um, os erros de
c2 subestima 2 , e vice-versa.
8
Ver Johnston (1972), p. 163.
178
Para saber se a diferena S R SU ou no substancial, o respectivo quadrado
mdio comparado com o quadrado mdio residual do modelo irrestrito, calculando-se
S R SU
g gU
F= R , (4.85)
SU
gU
Y j = + 1 X 1 j + 2 X 2 j + u j
Yj = + 2 X j + u j
179
Na seo 4.8 j obtivemos a soma de quadrados residual para o modelo original
(irrestrito), que
SU = 2,5 , com g U = 2 (4.87)
Na seo 4.11 (tabela 4.4) vimos que a soma de quadrados de regresso de uma
regresso de Y contra X 2 igual a 90, podendo-se verificar, ento, que a soma de
quadrados residual do modelo restrito
S R = 26,5 , com g R = 3 (4.88)
Substituindo os resultados (4.87) e (4.88) em (4.85), obtemos
26,5 2,5
F = 32 =
24
= 19,2
2,5 1,25
2
Como no podia deixar de ser, esse o valor de F para contribuio de X 1 na tabela
4.4, que o quadrado do valor de t referente hiptese H 0 : 1 = 0 obtido na seo 4.8
(t = 4,382).
Como segundo exemplo, vamos usar (4.85) para testar a hiptese
H 0 : 1 = 4 e 2 = 2 (4.89)
com base nos dados da tabela 4.5 (seo 4.12). O modelo irrestrito
Y j = + 1 X 1 j + 2 X 2 j + u j (4.90)
Na seo 4.12 vimos que a soma de quadrados residual para esse modelo
SU = 3, com g U = 3 (4.91)
O modelo restrito fica
Yj = + 4X1j + 2X 2 j + u j
ou
Yj 4X1j 2X 2 j = + u j (4.92)
Note-se que o modelo sempre deve ser escrito de maneira que no segundo
membro fiquem apenas o erro e os termos com parmetros a serem estimados.
Fazendo
W j = Yj 4X1j 2X 2 j , (4.93)
180
Wj = + u j (4.94)
temos
X 1 11
x = X 2 = 2 (4.97)
X 3 10
pode ser representado, graficamente, por uma seta que vai da origem do sistema de
eixos ao ponto (11, 2, 10), num espao tridimensional, como mostra a figura 4.2.
181
Figura 4.2. Representao grfica de um vetor no espao tridimensional.
X1 Y1
X Y
x = 2 e y = 2
M M
X n Yn
| x |= 112 + 2 2 + 10 2 = 15
Por definio, dois vetores so ortogonais se seu produto escalar igual a zero,
isto , x ortogonal a y se, e somente se, x y = 0 . Assim, por exemplo, os vetores
182
2 1
x= e y=
1 2
so ortogonais entre si, pois x y = 0 . Esses vetores esto representados na figura 4.3,
que mostra que as setas representativas de dois vetores ortogonais so perpendiculares
entre si.
isto , so vetores colineares (as setas esto sobre a mesma reta-suporte). Se > 0, a
orientao ou sentido dos vetores x e x o mesmo e, se < 0, esses vetores tm
sentidos opostos.
Temos
| x |= (x) (x) = 2 x x =| | | x | ,
183
TABELA 4.9. Valores de X i e Yi para uma amostra com 3 observaes.
X i = xi Yi = y i
0 2
2 2
2 4
0 2
x = 2 e y = 2
(4.98)
2 4
| x |= 8 = 2 2 e o comprimento do vetor y | y = 24 = 2 6 .
Na figura 4.4, seja o plano dos vetores x e y. O plano um subespao
bidimensional do espao tridimensional. Qualquer que seja o nmero de observaes da
amostra, isto , qualquer que seja a dimenso (n) de x e y, desde que esses vetores no
184
sejam colineares, eles definem um plano (um subespao bidimensional) no espao n-
dimensional. Na figura 4.5 os vetores x e y esto representados nesse subespao
bidimensional.
OA = y * = x (4.99)
Temos
y * + AB = y
ou
AB = y y *
x (y y * ) = 0
Ento
x y = x y* (4.100)
x y = (x x)
ou
xy
= (4.101)
xx
185
| y* | y* y*
cos = =
|y| yy
xx
cos = (4.102)
yy
xi y i
cos = = r, (4.104)
xi2 y i2
12 3
cos = r = =
8 24 2
Donde
= 30 o
Vamos agora considerar a anlise de regresso de Y contra X de acordo com o
modelo
Yi = X i + u i
ou
y = x + u ,
onde
Y1 X1
Y2 X
y = e x = 2
M M
Yn X n
186
Para dar um exemplo numrico, vamos considerar os valores de X i e Yi dados
na tabela 4.9. Ento x e y so os vetores tridimensionais definidos em (4.98) e
representados nas figuras 4.4 e 4.5. Devemos ressaltar que o raciocnio apresentado a
seguir no depende da dimenso dos vetores x e y, pois estaremos considerando apenas
o plano (subespao bidimensional) definido por esses vetores (admitindo que x e y no
sejam colineares).
Se b a estimativa de , o vetor dos desvios
e = y bx
De acordo com o mtodo de mnimos quadrados, devemos determinar o valor de
b que minimiza a soma dos quadrados dos desvios, dada por ee ou e e . Mas e e e,
tambm, o quadrado do comprimento do vetor e = y bx . Devemos, portanto,
determinar o valor de b que minimiza o comprimento do vetor e = y bx .
Uma vez que b um escalar, bx um vetor colinear com x, como os vetores
b = 12 / 8 = 1,5 .
AB = e = y OA = y y
No tringulo retngulo OAB da figura 4.5, o teorema de Pitgoras estabelece que
187
2 2 2
OB = OA + AB
ou
y y = y y + e e
Tambm podemos escrever
y y = y y + e e
ou
S.Q.total = (S.Q.Regr.) + (S.Q.Res.),
u1
u
= 1 e u = 2
2
u n
Se indicarmos por x1 e x 2 os vetores constitudos pela primeira e pela segunda
coluna da matriz X, respectivamente, isto , se fizermos
X 11 X 21
X X
x1 = 12 e x 2 = 22 ,
X 1n X 2n
temos
y = 1 x1 + 2 x 2 + u (4.106)
188
Vamos admitir que os vetores y, x1 e x 2 tm dimenso igual ou superior a 3,
no so colineares nem esto todos em um mesmo plano, isto , vamos admitir que y,
x1 e x 2 so linearmente independentes.9 Observada esta condio, qualquer que seja a
dimenso (n 3) dos vetores x1 , x 2 e y, tais vetores geram um espao tridimensional.
9
Dado um conjunto de vetores, dizemos que eles so linearmente independentes se nenhum deles pode
ser expresso como uma combinao linear dos demais. Dados dois vetores linearmente independentes
(no colineares), x 1 e x 2 , uma combinao linear 1 x 1 + 2 x 2 sempre um vetor no plano definido por
x 1 e x 2 e, reciprocamente, todo vetor (ponto) neste plano uma combinao linear de x 1 e x 2 ;
dizemos, ento, que os vetores x 1 e x 2 geram o plano (subespao bidimensional). Analogamente, 3
vetores linearmente independentes geram um subespao tridimensional.
189
y = OA = OA1 + OA2 ,
OA1 = b1x1
e
OA 2 = b2 x 2
OA 2 pelo comprimento de x 2 . No caso da figura 4.6 verifica-se que b1 > 1 e 0 < b2 < 1
. O vetor dos desvios da regresso
AB = e = y y
x1 e = x1 e = 0
e
x 2 e = x2 e = 0
De acordo com essas relaes, podemos escrever
Xe = 0 , (4.107)
190
Substituindo (4.108) em (4.107), obtemos
X (y Xb) = 0
ou
X Xb = X y ,
que o sistema de equaes normais.
interessante examinar o que ocorre quando os vetores x1 e x 2 so colineares.
Nesse caso esses vetores geram apenas um subespao unidimencional, que a reta que
OA = 2x1 + 0x 2 ,
2
OA = 0x 1 + x2
3
ou
OA = x1 + x 2
10
Uma exposio didtica do assunto pode ser encontrada em Wonnacott e Wonnacott (1976), parte II.
191
linear simples de Yi contra X i com a anlise de regresso linear simples de Z i contra
z = y + x1
y = ax 0 + bx 1
e
z = cx 0 + dx1
OA = y
e
2
AB = (S.Q.Res. y | x 0 e x1 ) (4.109)
OA 0 = ax 0 e OA1 = bx1 ,
OA == y = ax 0 + bx1
192
OA1
b= (4.111)
| x1 |
OC = z
e
2
CD = (S.Q.Res. z | x 0 e x1 ) (4.112)
segmento de reta A0 A .
(S.Q.Res. z | x 0 e x1 ) = (S.Q.Res. y | x 0 e x1 ).
A1C1 = AC =| x 1 | (4.113)
e
OC = z = OA 0 + OC 1 ,
com
OA 0 = cx 0
e
OC 1 = dx1
193
Uma vez que neste caso c e d so positivos, segue-se que
OA0
c= (4.114)
| x0 |
e
OC1
d= (4.115)
| x1 |
OA1
d= +1
| x1 |
d = b + 1, c.q.d.
Exerccios
4.1. Mostre que as frmulas para regresso linear simples, deduzidas no Captulo 2, so
casos particulares das expresses gerais:
a) b = ( X X) 1 X y
d) V (Yh ) = x h ( XX) 1 x h 2
194
X1 X2 Y
0 0 1
0 2 3
0 4 5
0 6 5
2 0 4
2 2 10
2 4 12
2 6 10
X1 X2 X3 Y
1 1 0 5
1 0 0 7
1 1 0 3
1 1 0 7
1 0 0 9
1 1 0 5
0 0 1 3
0 0 0 8
0 0 1 7
195
4.4. Idem para
X1 X2 Y
0 1 1
1 0 1
1 1 4
1 2 5
1 3 4
E (Y | X 1 = 1 e X 2 = 2 ).
g) Idem, para X 1 = 2 e X 2 = 4 (uma extrapolao).
X1 X2 X3 Y
1 1 0 5
1 0 0 7
1 1 0 3
1 1 0 7
1 0 0 9
1 1 0 5
0 0 1 3
0 0 0 8
0 0 1 7
1 1 0 6
196
Admite-se que as variveis esto relacionadas de acordo com o modelo
Y j = + 1 X 1 j + 2 X 2 j + 3 X 3 j + u j ,
varincia 2 .
a) Determine as estimativas dos parmetros.
b) Faa a anlise de varincia da regresso.
c) Teste a hiptese H 0 : = 0 contra H A : 0 , ao nvel de significncia de
1%.
d) Teste a hiptese H 0 : 3 = 0 contra H A : 3 > 0 , ao nvel de significncia de
5%.
e) Determine os valores dos coeficientes de determinao parcial rY21.23 , rY22.13 e
rY23.12 .
Y j = + 1 X 1 j + 2 X 2 j + u j u ,
197
2r 2
R2 =
1+ r
4.9. Considerando o modelo do problema 4.7 mostre que, se rY 1.2 = 1 , temos rY22.1 = 1 e
R 2 = 1.
Yj X1j X2j
3 0 0
0 0 3
6 1 1
9 3 0
Y X1 X2
4 0 3
5 1 1
4 2 2
11 3 0
198
Admite-se que as variveis esto relacionadas de acordo com o modelo
Y j = + 1 X 1 j + 2 X 2 j + u j (j = 1, ..., 4), onde os u j so erros independentes,
hiptese H A : 1 > 2 .
X1 X2 X3 X4
1 1 1 3
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 3
199
Verifique que, embora o valor dos coeficientes de correlao entre pares de
variveis independentes seja sempre inferior a 0,58, existe multicolinearidade
perfeita.
200
d) Teste, ao nvel de significncia de 5%, a hiptese H 0 : = 0 contra
H A : < 0.
e) Determine o valor da contribuio do termo quadrtico para a soma de
quadrados de regresso. Verifique se o respectivo testes F significativo ao
nvel de 5% (note que o valor de F obtido igual ao quadrado do valor de t
calculado no item anterior).
4.16. Com base em uma amostra com 34 observaes foi estimada a equao de
regresso de Y contra X 1 , X 2 e X 3 , considerando o modelo
Y j = + 1 X 1 j + 2 X 2 j + 3 X 3 j + u j
facilitar a demonstrao considere que a regresso tenha sido ajustada com todas
as variveis centradas).
Y j = + 1 X 1 j + 2 X 2 j + u j
x 22 = 4 y 2 = 42 x1 x2 = 0 Y =6
201
e) Teste a hiptese H 0 : = 10 e 1 2 2 = 0 .
Adote, nos testes, o nvel de significncia de 5%.
Yi = 0 + 1 X 1i + 2 X 2i + ui (i = 1, ..., n)
12 8 10
XX = Xy = yy = 10
8 12 8
202
a) Determine as estimativas dos coeficientes de regresso e dos respectivos
desvios padres
b) Calcule o valor de R 2 .
observaes:
X1 j X2j Yj
0 0 0,5
1 1 3,5
1 2 7,0
2 1 7,0
2 2 7,5
3 3 11,5
a) Determine a equao de regresso linear de Y em relao a X1 e X 2 .
b) Calcule o valor do coeficiente de determinao da regresso.
c) Teste, ao nvel de significncia de 5%, a hiptese H 0 : 1 = 2 + 4 contra a
4.22. Numa anlise da demanda de certo produto, baseada em dados anuais para um
perodo de 17 anos, foram obtidos os seguintes valores, referentes s variveis Y
(logaritmo da quantidade consumida per capita), X1 (logaritmo da renda per
203
Estimativas dos Coeficiente de
Mdias
desvios padres correlao
5
Y = 4,5 sy = 3 5 rY 1 =
30
4
X1 = 1 s1 = 6 rY 2 =
30
X2 = 1 s2 = 6 r12 = 0,5
Y j = + X j + T j + u j ,
4.24. Numa anlise da demanda de certo produto, baseada numa srie temporal de
dados, foram estimados os parmetros da regresso de Y (logaritmo da
quantidade consumida per capita) em relao a X (logaritmo do preo do produto)
e T (tempo, em anos).
Explique o significado econmico da incluso do tempo como varivel
explanatria.
1
A=I ,
n
204
onde I uma matriz unitria de ordem n e um vetor-coluna com n elementos,
todos iguais a 1.
y = X + u ,
Demonstre que:
a) S.Q.Total = yAy
b) S.Q.Total = u Au + X AX + 2 X Au
c) S.Q.Total = tr ( Auu) + X AX + 2 X Au
d) E(S.Q.Total) = (n 1) 2 + X AX
Finalmente, considerando (4.22) e lembrando que
Deduza que
E(S.Q.Regr.) = X AX + (p 1) 2
Verifique, ainda, que (2.32) um caso particular desse resultado e que o valor de
X AX no depende de .
de H
205
h j = xj ( XX) 1 x j
V (e) = E (ee) = M 2
V (e j ) = (1 h j ) 2
V (e j ) = (1 h j ) s 2
com
E (u t u s ) = 0 se t s
e x 2 t = x 3t = 0
t t
206
onde b32 a estimativa do coeficiente angular da regresso linear simples de x3t
em relao a x 2t .
4.29. Foi proposto o seguinte modelo para analisar o crescimento de uma espcie
vegetal (baseado em AIGNER, 1971, p. 107-108):
Y j = + 1 X 1 j + 2 X 2 j + u j ,
Y = 32 y 2j = 3640 rY 1 = 0,90
X 2 = 14 x22 j = 2002
207
a) Utilizando os dados da tabela a seguir, teste, ao nvel de significncia de 5%, a
hiptese H 0 : 1 = 2 .
X1 X2 Y
0 1 0
0 1 0
0 1 1
0 1 3
1 0 5
1 0 3
S 2 S1
=
S1 /(n 2)
e compare com o valor de F relativo ao teste de hiptese da parte (a).
4.32. Com base em uma amostra aleatria com n observaes foi estimada, pelo mtodo
de mnimos quadrados, a equao de regresso linear mltipla de Y contra X 1 e
2, ..., n.
Y j = + Y j + j
208
Yj X1 j X2j
10 6 28
20 12 40
17 10 32
12 8 36
11 9 34
Fonte: S.R. SEARLE. Linear Models. Wiley, 1971.
Verifica-se que
Y j = 70 , Y = 14 , X 1 j = 45 , X1 = 9 ,
X 2 j = 170 , X 2 = 34 , x12j = 20 ,
x22 j = 80 e x1 j x 2 j = 32
209
h) possvel, com base na amostra dada, estimar os parmetros do modelo a
seguir? Justifique a resposta.
Y j = + 1 X 1 j + 2 X 2 j + 3 X 12j + 4 X 22 j + u j
Pj Wj Qj
1 1 10
1 10 100
10 1 10
10 10 100
10 100 100
100 100 100
100 10 10
100 1000 100
1000 1000 10
1000 100 10
210
b) Obtenha as estimativas de , 1 e 2 (utilize logaritmos decimais).
c) Faa a anlise de varincia da regresso e calcule o valor do coeficiente de
determinao mltipla. Teste, ao nvel de significncia de 5%, a hiptese
H 0 : 1 = 2 = 0 .
d) Teste, ao nvel de significncia de 5%, a hiptese de que o coeficiente de
elasticidade-preo da demanda do produto igual a 1, contra a hiptese
alternativa de que o coeficiente de elasticidade-preo da demanda , em valor
absoluto, menor do que 1.
e) Teste, ao nvel de significncia de 5%, a hiptese de que o coeficiente de
elasticidade-renda da demanda do produto igual a 0,85, contra a hiptese
alternativa de que esse coeficiente diferente de 0,85.
f) Calcule a estimativa da variao percentual na quantidade, demandada quando
o preo aumenta de 1% e a renda per capita cresce 3%. Obtenha, tambm, a
estimativa do desvio padro dessa estimativa.
Sugesto: (1o) Mostre que as estimativas de 1 e 2 no so alteradas se
mudarmos a base dos logaritmos utilizados; portanto, essas estimativas seriam
as mesmas se fossem utilizados logaritmos neperianos; (2o) Lembre que, com
Q
logaritmos neperianos temos = (log Q) , desde que as variaes
Q
consideradas sejam pequenas.
Y j = + 1 X 1 j + 2 X 2 j + u j (1)
211
Sejam a, b1 e b2 as estimativas de mnimos quadrados de , 1 e 2 ,
respectivamente.
O modelo (2) pode ser obtido de (1) dividindo os dois membros da equao por
W1 j . Verifica-se que = , 1 = 1 + 2 1 e 2 = 2 .
(Y j X 1 j ) = + 1 X 1 j + 2 ( X 2 j X 1 j ) + u j (2)
a) Demonstre que d 2 = b2 , d1 = b1 + b2 1 e c = a.
b) Prove que o quadrado mdio do resduo relativo regresso (1) igual ao
quadrado mdio do resduo relativo regresso (2).
c) No modelo (1), para testar a hiptese de que a funo de produo
linearmente homognea (rendimentos constantes escala), ou seja, para testar
H 0 : 1 + 2 = 1 , devemos calcular
b1 + b2 1
t1 =
V (b + b )
1 2
d1
t2 =
V (d1 )
212
4.37. Admite-se que as variveis X 1 , X 2 e Y esto relacionadas de acordo com o
modelo
Y j = + 1 X 1 j + 2 X 2 j + u j ,
amostra:
X1 X2 Y
6 24 2
10 16 24
13 10 50
15 6 64
Y j = + 1 X 1 j + 2 X 2 j + 3 X 3 j + u j ,
24 32 0 16
XX = 32 96 0 , Xy = 32 e y y = 180
0 0 14 28
213
d) Teste, ao nvel de significncia de 1%, a hiptese H 0 : 3 = 0 .
X1 X2 X3 Y
13 32 5 116
3 4 45 8
8 18 23 63
13 34 5 118
8 18 27 61
3 2 45 6
8 18 23 69
8 18 27 55
Respostas
4.2. a) Y = 3 X 1 + X 2
b) F = 14
c) (Contribuio de X 1 ) = 72; F = 18
(Contribuio de X 2 ) = 40; F = 10
214
4.3. a) Y = 6 + X 1 X 2 + 2 X 3
b) F = 5/3
c) (Contribuio de X 1 ) = 6; F = 5/3
(Contribuio de X 2 ) = 4; F = 10/9
(Contribuio de X 3 ) = 8; F = 20/9
4.4. a) Y = 2 X 1 + X 2
b) F = 2,5
c) (Contribuio de X 1 ) = 40/13; F = 20/13
(Contribuio de X 2 ) = 5; F = 2,5
10 5
d) rY 1.2 = = 0,659 ; rY 2.1 = = 0,745
23 3
e) 6,67 < < 6,67 ; 4,94 < 1 < 8,94 ; 1,72 < 2 < 3,72
f) 4 3,33
g) 8 10,18
4.5. a) Y = 6 + X 1 X 2 + 2X 3 , s 2 = 3
b) F = 2
c) t = 10,792, significativo ( t 0 = 3,707)
55 55 4
e) rY21.23 = ; rY22.13 = e rY23.12 =
202 262 13
f) 7 3,73
4.6. t = 3,65, significativo
6,5 1,095
4.10. a) Y = 3,5 + 2 X 1 X 2
b) F = 7
14 6
c) R 2 = = 0,9333 ; rY21.2 = = 0,8571
15 7
d) t = 3,67, no-significativo
e) 5,5 10,47
215
4.11. a) Y = 5,5 + 2 X 1 3 X 2
113
c) R 2 = = 0,9912
114
36
d) rY21.2 = = 0,8780
41
e) t = 9,39, no-significativo
f) F = 274,50, significativo
g) A regio de confiana delimitada pela elipse 5q12 8q1q 2 + 5q 22 = 400
onde q1 = 1 2 e q 2 = 2 + 3
h) t = 10,607, significativo
i) 3 9,47 ou 6,47 < E (Y | X 1 = X 2 = 2,5) < 12,47
4.15. a) Y = 9 + 2 X X 2 , s 2 = 0,35
b) F = 77,14, significativo
c) R 2 = 0,9872
d) t = 6,325, significativo
e) (Contribuio de X 2 ) = 14
F = 40, significativo
4.16. F = 10, significativo ( F0 = 7,56)
4.18. a) a = 6, b1 = 1 e b2 = 2
1 / 3 0 0
b) ( XX) s = 0 3 / 8 0
1 2
0 0 3 / 4
4.19. a) Y = 7 + 14 X 4 X 2
b) F = 52,5; R 2 = 0,9545
c) 1,5 doses
d) t = 8,944, significativo (A regio de rejeio t 3,365)
e) F = 11,11, no-significativo ( F0 = 16,26)
216
4.20. a) b1 = 0,7 , b2 = 0,2 , s(b1 ) = s(b2 ) = 0,1025
b) R 2 = 0,86
c) t = 1,195, no-significativo ( t 0 = 2,086)
4.21. a) Y = 2 X 1 + 2 X 2
b) R 2 = 0,964 .
c) t = 2,828, significativo (A regio de rejeio t 2,353)
d) F = 41, significativo ( F0 = 30,82)
80
e) rY221 = = 0,708 ;F = 7,27, no-significativo ( F0 = 34,12)
113
f) Y = 6
2,54 < E (Y | X 1 = 0,5; X 2 = 2,5) < 9,46
g) No exerccio anterior temos r12 = 0,67 e neste temos r12 = 0,82 .
Portanto, a multicolinearidade mais forte no exerccio 4.21.
4.22. a) b1 = 2 e b2 = 1
4.24. O tempo, em anos, , neste caso, uma varivel proxy (varivel representativa) para
vrias variveis scio-econmicas, como a renda per capita e as mudanas nos
hbitos de consumo (estas, por sua vez, associadas crescente urbanizao etc.).
b) R 2 = 0,85 .
4.31. a) b1 = 4 e b2 = 1 ; s 2 = 2
F = 6, no-significativo ( F0 = 7,71)
4.32. d= 1 e c = 0
217
4.33. a) 1,75
b) 0,625
7 25 5
c) a = , b1 = e b2 =
3 12 24
d) t = 3,796, significativo ( t 0 = 2,353)
e) t = 2,331, no-significativo ( t 0 = 2,920)
f) A incluso de X 2 afeta o valor da estimativa do coeficiente de regresso, o
b) c = 10 10 , b1 = 0,5 e b2 = 0,5 .
d) t = 3, significativo ( t 0 = 1,895).
f) Y = 0,01 ou um crescimento de 1% em Q.
4.37. Os parmetros no podem ser estimados com base nessa amostra pois h
multicolinearidade perfeita. Verifica-se que para as 4 observaes 2 X 1 + X 2 = 36
.
4.38. a) X 2 = 6 b) b = [ 2 1 2]
40
c) F = = 6,67 , significativo ( F0 = 6,55)
6
d) t = 3,06, no-significativo ( t 0 = 3,169)
32
e) F= = 5,33 , significativo ( F0 = 4,10)
6
218
5. USO DE VARIVEIS BINRIAS
219
a mdia). Para uma escala ordinal podemos determinar tanto a moda como a mediana,
mas no a mdia da varivel.
Com uma varivel binria ocorre algo interessante. Como ela tem apenas dois
valores distintos, h um nico intervalo e no podemos dizer que ela contrarie a
condio para ser considerada intervalar. Isso permite que uma varivel binria seja
usada como varivel explanatria em anlise de regresso.
Cabe ressaltar que o modelo usual de regresso no permite que a varivel
dependente (Y) seja binria. bvio que uma varivel que inclui um erro com
distribuio normal no pode ser binria. H mtodos especiais (como os modelos de
lgite e prbite) para analisar variveis dependentes binrias.
Vamos admitir que uma varivel nominal tenha k categorias. Podemos usar k
1 variveis binrias para distinguir as k categorias.
A tabela 5.1 mostra uma maneira de distinguir as 5 regies do Brasil usando 4
variveis binrias, adotando o Nordeste como base.
Y j = + X j + 1 Z 1 j + 2 Z 2 j + 3 Z 3 j + 4 Z 4 j + u j (5.1)
220
Para dado valor de X j , a diferena entre o valor esperado de Y j no Centro-
Oeste e no Sudeste 4 2 .
Cabe assinalar que h vrias outras maneiras corretas de distinguir as 5 regies
por meio de variveis binrias. Uma alternativa, mantendo o Nordeste como base,
apresentada na tabela 5.2.
221
com Z it = 1 para o i-simo ms do ano e
na tabela 5.3.
Perodo Xj Yj
1 8
2 7
I
3 7
4 6
1 6
2 5
II
3 3
4 2
O modelo estatstico
Y j = + Z j + X j + u j (5.5)
222
Ento, no perodo I a relao fica
Y j = ( + ) + X j + u j
e
7 1 1
8
4 4
1 1
( X X) 1 = 0
4 2
1 1
0
4 10
a 6,5
b = c = ( XX) Xy = 3
1
b 1
223
Y j = 6,5 + 3Z j X j
224
1
V (c ) = 0,4 = 0,2
2
e
c 30
t= = = 6,708
s (c ) 0,2
Os clculos para ajustar um par de retas paralelas aos dados apresentados, com
nmero igual de observaes em cada perodo, ficam mais simples se considerarmos o
modelo com a varivel independente centrada:
Y j = + Z j + x j + u j ,
1
8 0 0
1
( X X) 1 = 0 0
8
1
0 0
10
e
5,5
b = ( XX) Xy = 1,5
1
A equao estimada
Y j = 5,5 + 1,5Z j x j
ou
Y j = 8 + 1,5Z j X j
225
No perodo I, com Z j = 1 , temos
Y j = 9,5 X j ,
Y j = 6,5 X j
e
Z hj = 1 para X j > h
(5.7)
A figura 5.2 mostra como poderia ser a forma da poligonal que mostra como
E (Y j ) varia em funo de X j com 1 < 0 e 2 < 0 .
226
X
Z1 = 0 Z1 = 1 Z1 = 1
Z2 = 0 Z2 = 0 Z2 = 1
E (Y j ) = + X j (5.8)
E (Y j ) = 1 1 + ( + 1 ) X j (5.9)
E (Y j ) = 1 1 2 2 + ( + 1 + 2 ) X j (5.10)
interessante verificar que tanto (5.8) como (5.9) produzem a mesma ordenada
para X j = 1 (que a ordenada do 1o vrtice). Analogamente, (5.9) e (5.10) produzem a
Para obter a poligonal da figura acima devemos ter > 0 , > 0 , 1 < 0 ,
Y j = + X j + Z j ( X j ) + u j , (5.11)
227
Consideremos, por simplicidade, que estamos analisando a tendncia de uma
varivel ( Y j ) qualquer, ou seja, consideremos que a varivel explanatria ( X j ) o
observao. Desejamos, portanto, ajustar uma poligonal com um vrtice cuja abcissa
igual abcissa da 3a observao.
Para facilitar os clculos, vamos considerar que no instante correspondente 3a
observao temos X j = 0. Dessa maneira temos = 0 e o modelo estatstico do
ou, fazendo W j = Z j X j ,
Y j = + X j + W j + u j
Tempo ( X j ) Zj Yj
2 0 5,5
1 0 5,0
0 0 1,0
1 1 3,5
2 1 4,5
3 1 4,5
E (Y j ) = + X j ,
E (Y j ) = + ( + ) X j
228
1 2 0
1 1 0
24
1 0 0
X= , Xy = 10 ,
1 1 1
1 2 2 26
1 3 3
6 3 6 70 42 72
1
XX = 3 19 14 , ( XX) 1 = 42 48 66
114
6 14 14 72 66 105
e
a 2
b = b = ( XX) 1 Xy = 2
c 3
A equao ajustada
Y j = 2 2 X j + 3Z j X j
A seguir calculamos
229
S.Q.Res. = y y b X y = 109 ( 2 24 2 10 + 3 26) = 3
e temos duas situaes (dois perodos, duas regies ou duas categorias). Seja n1 o
observaes da situao II. Admitindo que tanto o nvel como a inclinao da relao
entre X j e Y j sejam diferentes nas duas situaes, um modelo apropriado
Y j = + X j + Z j + Z j X j + u j (5.13)
230
A equao estimada com base nas n1 + n 2 observaes
Y = a + bX + cZ + dZX (5.14)
E (Y j ) = + X j
E (Y j ) = + + ( + ) X j
H0 : = = 0 (5.15)
S R SU
FE = 2 (5.16)
SU
n1 + n2 4
231
Pode-se provar que a1 = a , b1 = b , a 2 = a + c e b2 = b + d , isto , que as duas
retas estimadas separadamente so idnticas ao conjunto de duas retas estimado por
meio do modelo (5.13). Consequentemente
S1 + S 2 = S U
S R ( S1 + S 2 )
FE = 2 (5.17)
S1 + S 2
n1 + n2 4
Y j = + x j + Z j + Z j x j + u j (5.19)
A tabela 5.7 mostra os valores das variveis que sero utilizadas para estimar a
equao.
232
TABELA 5.7. Valores da varivel Y j e das variveis explanatrias
utilizados para ajustar um par de retas.
Tempo em
meses ( X j ) Yj xj Zj Z jxj
1 1,0 4 0 0
2 4,0 3 0 0
3 6,0 2 0 0
4 7,0 1 0 0
5 9,5 0 1 0
6 11,0 1 1 1
7 11,5 2 1 2
8 13,0 3 1 3
9 13,5 4 1 4
9 0 5 10 76,5
0 60 10 30 92
XX = , Xy =
5 10 5 10 58,5
10 30 10 30 127
Ento
a 9,5
b 2
b = = ( XX) 1 X y =
c 0,2
d 1
233
No primeiro perodo, com Z j = 0, a reta estimada
Y j = 9,5 + 2 x j ou Y j = 0,5 + 2 X j
Y j = 9,7 + x j ou Y j = 4,7 + X j
234
TABELA 5.9.Estimativas dos parmetros do modelo (5.19) e dos respectivos
desvios padres, o teste t e a correspondente probabilidade caudal.
Desvio Probabilidade
Parmetro Estimativa Teste t
Padro caudal
9,5 0,6245 15,21 < 0,01%
2 0,2280 8,77 0,03%
0,2 0,7389 0,27 79,75%
obtemos
Y j = 0,5 + 2 X j (5.21)
com S.Q.Res. = 1.
Considerando os 5 ltimos pares de valores para as variveis Y j e X j obtemos
Y j = 4,7 + X j (5.22)
235
com S.Q.Res. = S R = 5,4333 , associada a 7 graus de liberdade. De acordo com (5.17),
obtemos
5,4333 (1 + 0,3)
2 2,0667
FE = = = 7,95
1 + 0,3 0,26
5
Ao nvel de significncia de 5%, com 2 e 5 graus de liberdade, o valor crtico de
F 5,79. Portanto, rejeita-se a hiptese de que no houve mudana estrutural a partir do
5o ano, isto , rejeita a hiptese H 0 : = = 0 . Cabe assinalar que o teste dessa
hiptese tambm pode ser feito usando (4.60), obtendo-se exatamente o mesmo
resultado.
Tendo concludo que h mudana estrutural, o ajustamento do modelo (5.19)
permite que se especifique melhor a natureza da mudana. Nesse exemplo numrico,
tendo em vista a tabela 5.9, verifica-se que a mudana ocorre, basicamente, no
coeficiente angular da relao linear entre Y j e X j .
Th = Yhi (5.24)
i
O total geral
G = Th = Yhi (5.25)
h h i
236
As linhas da matriz X desse modelo tm todas um nico elemento igual a 1, e os
demais elementos iguais a zero. Assim, em todas as linhas temos
Z1 + Z 2 + ... + Z H = 1 (5.27)
1 T1
n 0 0 n
1 1
T
0
1
( XX) 1 =0 e b = ( XX) X y = 2
1
n2 n
2
0 0
1 T3
n3 n
3
Segue-se que
Th2
S.Q.Res. = y y b Xy = Yhi2 =
h i h nh
G 2 Th2 G 2
= Yhi2 (5.28)
h i n h nh n
Na primeira expresso entre parnteses podemos reconhecer a soma de
quadrados total:
2
G G2
S.Q.Total = Yhi = Yhi2 (5.29)
h i
n h i n
237
A soma de quadrados de tratamentos representa a parte da variao dos Yhi
devida s diferenas entre tratamentos, ou diferenas entre mdias de Yhi nos vrios
tratamentos ou categorias consideradas.
Note-se que, dados os valores de Yhi , as expresses (5.28), (5.29) e (5.30)
permitem calcular S.Q.Trat., S.Q.Total e S.Q.Res. sem que seja necessrio estimar os
parmetros do modelo (5.26).
(5.26) podem ser substitudos por + X h . Com essa restrio, o modelo fica
Yhi = ( + X h )( Z 1 + Z 2 + ... + Z H ) + u hi
Yhi = + X h + u hi , (5.31)
238
Neste contexto, a diferena S R SU denominada soma de quadrados de falta
de ajustamento e o correspondente teste F denominado teste para falta de
ajustamento, pois um valor elevado de S R SU indica que o modelo onde se impe a
linearidade do efeito das variveis explanatrias no se ajusta bem aos dados.
S razovel utilizar o modelo de regresso linear de Yhi contra as k variveis
explanatrias se esse teste for no-significativo. Um valor de F significativo indica que
devemos rejeitar a hiptese de linearidade do efeito das variveis explanatrias sobre
Yhi . Neste caso deveremos nos limitar ao modelo (5.26) ou experimentar outras formas
Xh nh Yhi Th
2 4 14, 11, 12 e 13 50
3 2 18 e 17 35
5 2 22 e 21 43
Y = 7 + 3 X (5.35)
239
exemplo numrico no possvel fazer o teste de falta de ajustamento para esse novo
modelo, pois o nmero de parmetros (p = 3) igual ao nmero de tratamentos (H = 3).
A soma de quadrados residual da equao de segundo grau ser, necessariamente, igual
a SU . Mas, se o nmero de tratamentos fosse maior, poderamos fazer o teste de falta
de ajustamento para a equao de regresso de segundo grau e verificar se esse novo
modelo seria aceitvel ou se seria necessrio experimentar outras formas funcionais.
Cabe assinalar que o teste de falta de ajustamento s pode ser feito quando h,
na amostra, mais de um valor de Y para determinadas combinaes de valores das
variveis explanatrias (que definem os tratamentos), isto , devemos ter n > H. Isso
comum em dados experimentais, mas no comum em dados de amostras de
levantamentos scio-econmicos.
Exerccios
5.1. Na anlise da oferta de certo produto, admite-se que a funo tem, conforme o
perodo do ano, 2 posies distintas, mas com a mesma declividade. Foram observados os
valores
Perodo X = preo Y = quantidade
1 2,0
I 2 1,5
3 2,5
1 3,0
II 2 5,5
3 6,5
5.2. Uma varivel Y assume, em 5 anos consecutivos, os seguintes valores: 2,5; 3,0; 0; 3,0 e
2,5.
240
Ajuste a esses dados uma poligonal com vrtice num ponto de abcissa igual abcissa da
3a observao.
a) Qual a estimativa da declividade no 1o perodo (da 1a 3a observao)?
b) Qual a estimativa da declividade no 2o perodo (da 3a 5a observao)?
c) Teste, ao nvel de significncia de 10%, a hiptese de que essas duas declividades so
iguais.
5.3. Dois ensaios de adubao forneceram os seguintes resultados:
5.4. Dispomos de medidas da varivel Y durante 5 anos consecutivos, com duas medidas
(repeties) para cada ano.
Ano Valores de Y
1 1e2
2 5e5
3 5e6
4 7e9
5 6e8
241
Admite-se que h uma tendncia linear do 1o ao 4o ano e uma outra tendncia linear do 4o para o
5o ano.
a) Usando um modelo de regresso mltipla apropriado, ajuste aos dados uma linha
poligonal com vrtice no 4o ano. Qual o significado das estimativas dos parmetros
obtidas?
b) Faa a anlise de varincia da regresso testando falta de ajustamento.
c) Teste a hiptese de que a declividade da linha no 2o perodo (4o ao 5o ano) igual
declividade da linha no 1o perodo (1o ao 4o ano), considerando um nvel de
significncia de 5%.
5.5. Consideremos duas amostras aleatrias, uma da varivel Y1 , com n1 observaes, e outra
Y1 Y2
t= ,
1 1
+ s 2
n1 n2
onde
n1 n2
(Y1i Y1 ) 2 + (Y2i Y2 ) 2
s2 = i =1 i =1
n1 + n 2 2
Demonstre que este teste igual ao teste t relativo hiptese H 0 : = 0 , sendo o coeficiente
de regresso do modelo
Yki = + Z ki + u ki ,
onde:
a) Z ki uma varivel binria que assume valor 1 para as observaes de uma das
amostras e valor +1 no caso da outra amostra;
b) o ndice k = 1, 2 indica que se trata de uma observao da varivel Y1 ou da varivel
Y2 , e
c) o ndice i varia de 1 a n1 se k = 1 e de 1 a n 2 se k = 2
5.6. Mostre que o teste t descrito no exerccio anterior , tambm, igual ao teste t relativo
hiptese H 0 : = , sendo e os coeficientes de regresso do modelo
Yki = Z ki + Vki + u ki ,
242
onde Z ki = 1 e Vki = 0 no caso das observaes da amostra de Y1 , e Z ki = 0 e Vki = 1
quando se trata das observaes da amostra de Y2 .
Yki = 1 Z 1k + 2 Z 2 k + 1 Z 1k X ki + 2 Z 2 k X ki + u ki ,
k = 1, 2 e i = 1, 2, ..., n1 ou n 2
com
Z11 = 1, Z12 = 0, Z 21 = 0 e Z 22 = 1
Demonstre que o valor de t para testar a hiptese H 0 : 1 = 2
b1 b2
t=
1 1 Q1 + Q2
x +
n +n 4
2
1i x 22i 1 2
onde, para k = 1, 2,
x ki y ki
bk = i
,
x ki2
i
x ki = X ki X k ,
y ki = Yki Yk
5.8. Dados:
Valores de Y no
X
Tratamento 1 Tratamento 2 Tratamento 3
0 4 3 3
1 7 4 2
2 6 6 4
3 9 5 5
Totais 26 18 14
Admitimos que para cada tratamento existe uma relao linear entre X e Y, com o mesmo
coeficiente angular, isto , admitimos que a relao funcional entre Y e X pode ser representada
por um feixe de 3 retas paralelas. Sejam h (h = 1, 2, 3) os coeficientes lineares das retas e seja
o coeficiente angular comum. Admitimos, tambm, que Yi = E (Yi ) + u i , com i = 1, 2, ..., 12,
243
onde u i so variveis aleatrias independentes, com mdia zero, varincia 2 e distribuio
normal.
mnimos quadrados.
b) Quais as propriedades dessas estimativas?
c) Teste a hiptese H 0 : = 0 .
1
e) Teste a hiptese H 0 : 1 = ( 2 + 3 )
2
2 + 3
f) Teste a hiptese H 0 : 2 = 3 e 1 = + 2.
2
Considere um nvel de significncia de 1%.
Sugesto: Adote, inicialmente, o modelo
3
Yi = h Z hi + X i + ui ,
h =1
onde h = h + X e xi = X i X
5.9. Faa o teste para falta de ajustamento para a regresso linear simples do exerccio 2.1.
5.10. Faa o teste para falta de ajustamento para a reta estimada no exerccio 2.19.
244
Admite-se que as variveis estejam relacionadas de acordo com o modelo Y j = + X j + u j ,
onde os u j so erros independentes, com E (u j ) = 0 , varincia constante e distribuio
normal.
a) Determine a reta de regresso de Y em relao a X, de acordo com o mtodo dos
mnimos quadrados.
b) Calcule o coeficiente de determinao e faa a anlise de varincia da regresso,
adotando um nvel de significncia de 1%.
c) Verifique se h razes para rejeitar o modelo linear inicialmente proposto,
considerando um nvel de significncia de 1%.
5.12. Verifique se h razes para rejeitar o modelo linear proposto no exerccio 2.34.
5.13. Com base nos 8 pontos cujas coordenadas so dadas na tabela a seguir, ajuste um plano
que passe pela origem dos eixos, considerando Y como varivel dependente. Faa o teste
para falta de ajustamento. Verifique se o coeficiente de X 2 estatisticamente
diferente de zero, considerando um nvel de significncia de 5%
X1 X2 Y
1 1 3,5
1 1 4,5
1 2 5,5
1 2 4,5
2 1 4,5
2 1 3,5
2 2 5,0
2 2 6,0
245
c) Teste, ao nvel de significncia de 5%, a hiptese de que no h variaes estacionais
[caso em que se tem E (Y ) = ].
d) Determine o intervalo de previso para o valor de Y no 2o quadrimestre do 4o ano, ao
nvel de confiana de 95%.
Ano Y
5.15. dada uma srie de 9 valores anuais da varivel Y.
Admite-se que Y varia linearmente em funo do 1o 39
2o 54
tempo (em anos), mas acredita-se que ocorreu uma
3o 63
mudana estrutural entre a 4a e a 5a observao, de
4o 66
maneira que haveria uma tendncia linear durante os 4 5o 96
primeiros anos da srie e uma tendncia linear distinta 6o 108
durante os 5 ltimos anos. 7o 111
8o 120
9o 135
5.16. Vamos admitir que temos os resultados de uma pesquisa de oramentos familiares, sendo
W a renda per capita e Q o consumo per capita de determinado alimento. Os respectivos
logaritmos neperianos so
Y = ln Q e X = ln W
Admite-se que a elasticidade-renda do consumo maior para os relativamente pobres do que
para os relativamente ricos. Considera-se relativamente pobres as pessoas com X 4. Para
analisar como Y varia em funo de X ser adotado, ento, um modelo que corresponde a uma
poligonal com dois segmentos e vrtice no ponto de abcissa (X) igual a 4.
246
c) Teste, ao nvel de significncia de 1%, a hiptese de que a elasticidade-renda do
consumo desse alimento para os relativamente pobres igual a zero, contra a hiptese
alternativa de que essa elasticidade positiva.
d) Faa um teste bilateral, ao nvel de significncia de 1%, para a hiptese de que a
elasticidade-renda para os relativamente ricos igual a 1.
247
c) Considerando a regresso linear simples ajustada no item (a) como um modelo
restrito em comparao com o modelo do item (b), faa um teste de falta de
ajustamento, isto , verifique, ao nvel de significncia de 1%, se deve ser
rejeitada a hiptese de que o efeito de X sobre Y linear.
d) Ajustando uma equao de segundo grau aos dados, foi obtida a equao
Y = 7 + 34 X 3 X 2 ,
com S.Q.Res. = 60. Faa um teste de falta de ajustamento para essa equao,
isto , verifique se podemos admitir que o efeito de X sobre Y obedece a uma
equao de segundo grau, adotando um nvel de significncia de 5%.
e) Qual a soma de quadrados dos desvios de uma equao de terceiro grau
ajustada a esses dados? possvel fazer um teste de falta de ajustamento
para a equao de terceiro grau? Justifique a resposta.
5.20. So dados os valores de X 2 e Y para uma srie de 13 anos, como mostra a tabela
a seguir. Admitindo que haja uma mudana estrutural entre a 7a e a 8a
observao (posio assinada na tabela pela linha tracejada), consideramos o
modelo
Y = + 1 X 1 + 2 X 2 + Z + 1 ZX 1 + 2 ZX 2 + u
248
Ano ( X 1 ) ( X2 ) Y
1 12 70
2 4 50
3 8 54
4 8 66
5 8 62
6 4 66
7 12 94
8 8 114
9 14 134
10 2 76
11 2 78
12 14 140
13 8 124
A equao estimada
Y = 26 + 4 X 1 + 3 X 2 + 24 Z + 2 ZX 1 + 2 ZX 2 ,
R 2 = 0,9434 .
Y = 9,6923 + 6 X 1 + 4,3846 X 2 ,
249
Z X Y
0 1 35
0 3 57
0 5 73
0 7 83
1 3 73
1 5 91
1 7 115
1 9 145
Para o modelo
Y j = + X j + Z j + Z j X j + u j
obteve-se
8 40 4 24 672
40 248 24 164 3936
XX = Xy =
4 24 4 24 424
24 164 24 164 2784
Y = 30 + 8 X + 4Z + 4ZX , S.Q.Res. = 72 e s 2 = 18 .
250
Respostas
5.1. a) Yi = 1,5 + X + 1,5Z
b) 3 unidades
c) t = 3,674, no-significativo ( t 0 = 5,841)
5.4. a) Sendo X o ano e Z uma varivel binria que assume valor zero at o 4o ano e
valor 1 no 5o ano, definimos V1 = (1 Z )( X 4) e V2 = Z ( X 4) . Ento V1
cresce de 3 para 0 nos primeiros anos e V2 cresce de 0 para 1 do 4o para o 5o
ano. Obtemos
Y = 8 + 2V1 V2
5.8. a) b = 1, a1 = 5 , a 2 = 3 e a3 = 2 .
b) So estimativas lineares no-tedenciosas de varincia mnima, e consistentes.
So, tambm, estimativas de mxima verossimilhana.
c) t = 3,873, significativo ( t 0 =3,355)
d) t = 7,906, significativo ( t 0 =2,896)
e) t = 4,082, significativo ( t 0 = 3,355)
251
f) F = 1,33, no-significativo ( F0 = 8,65)
5.11. a) Y = 2 + 0,5 X
b) r 2 = 4 / 9 = 0,444 ; F = 8, no-significativo ( F0 =10,04)
c) F = 13,5, significativo ( F0 = 10,56).
5.13. Y = X 1 + 2 X 2
5.15. a) b1 = b2 = 9 .
b) F = 6,25, significativo ( F0 = 5,79)
c) As estimativas so iguais: t = 0, obviamente no-significativo.
a = 1, b = 0,9 e c = 0,8.
252
As estimativas de E (Y ) nas regies A e B so, respectivamente, 13 4 = 9 e
13 + 4 = 17.
c) s 2 = 8 , com 4 graus de liberdade.
d) t = 3,464 , significativo (t 0 = 2,776) .
5.20. a) Y = 26 + 4 X 1 + 3 X 2 .
b) Y = 50 + 2 X + 5 X
1 2
5.21. a) Y = 30 + 8 X , S.Q.Res. = 36
b) Y = 34 + 12 X , S.Q.Res. = 36
c) t = 0,535, no-significativo (t 0 = 4,604)
560
e) F = = 31,11 , significativo ( F0 = 18,0)
18
24
f) H 0 : + 5 = 0 , com t = = 7,303 , significativo (t 0 = 4,604)
10,8
253
6. HETEROCEDASTICIA
Veremos, neste captulo, como obter as estimativas dos parmetros de uma
regresso linear quando a varincia do erro no constante, isto , quando h
heterocedasticia.
com
E (u 2j ) = 2j = X 2j 2
Yj 1 u
= ++ j
Xj Xj Xj
ou
Z j = + V j + j , (6.2)
onde
Yj 1 uj
Zj = , Vj = e j =
Xj Xj Xj
ou seja, a varincia do erro no modelo (6.2) constante. O clculo das estimativas dos
parmetros, a determinao de intervalos de confiana e os testes de hipteses relativos ao
254
modelo (6.2) podem, portanto, ser feitos da maneira usual, utilizando as frmulas de
mnimos quadrados ordinrios.
Os mesmos resultados podem ser obtidos atravs do raciocnio exposto a seguir.
Sabemos que, no caso de um modelo homocedstico, as estimativas dos parmetros so os
valores que minimizam
(Y j a bX j ) 2
devem ser ponderados, sendo que o fator de ponderao deve ser inversamente
proporcional varincia, isto , devemos dar peso maior s observaes de menor
varincia. As estimativas dos parmetros so, ento, os valores que minimizam
1
(Y j a bX j ) 2
2
j
v1 0 K 0
0 v2 K 0
E (uu) = V 2 =
2
M M M
0 0 K vn
Note que V uma matriz diagonal. Vamos admitir que sejam conhecidos os valores
de v j , que mostram como varia o valor da varincia do erro. O fato de serem nulos os
255
ausncia de covarincia entre os erros das vrias observaes, isto , que E (u j u h ) = 0 para
j h.
Definimos a matriz diagonal
1 0 K 0
0 2 K 0
=
M M M
0 0 K n
onde
1
j = , j = 1, ..., n
vj
= V 1 (6.4)
e
V = 1 1 (6.5)
Pr-multiplicando cada um dos termos de (6.3) por , obtemos o modelo
y = X + u (6.6)
No modelo (6.6) o vetor dos erros = u e uma vez que E (u) = 0 , temos
E ( ) = 0 .
E () = E ( uu ) = V 2
E ( ) = 1 1 2 = I 2
256
E[(b )(b )] = ( XX) 1 2 = ( XV 1 X) 1 2 (6.9)
b* = ( XX) 1 Xy (6.10)
b* = ( XX) 1 X( X + u)
ou
b* = + ( XX)1 Xu (6.11)
E (b* ) = ,
b* = ( XX) 1 Xu
Ento
257
Por simplicidade, consideremos o modelo
Y j = X j + u j , j = 1, ..., n (6.13)
com
E (u j ) = 0 , E (u 2j ) = v j 2 e E (u j u h ) = 0 para h j.
e
2 v j X 2j
V (b* ) = (6.17)
( X 2j ) 2
V (b) ( X 2j ) 2
= =
V (b* ) v j 1 X 2j v j X 2j
258
Outros exemplos, considerando o modelo Y j = + X j + u j , podem ser
2
E ( s*2 ) = tr{V[I X( XX) 1 X]} =
n p
2
= {tr(V ) tr[ XVX( XX) 1 ]} (6.22)
n p
Analogamente, de (6.21) obtemos
259
2
E(s 2 ) = tr{V[V 1 V 1 X( XV 1 X) 1 XV 1 ]} =
n p
2
= {tr(I n ) tr[ XV 1 X( X V 1 X) 1 ]} =
n p
2
= [tr(I n ) tr(I p )] = 2 (6.23)
n p
Esse resultado j era esperado, pois (6.19) o quadrado mdio do resduo relativo
ao modelo (6.6), cujo vetor de erros ( ) tal que E ( ) = I 2 , que , de acordo com o
que vimos na seo 4.5, a condio necessria para demonstrar que o quadrado mdio do
resduo um estimador no-tendencioso da varincia residual.
Por simplicidade, consideremos, novamente, o modelo (6.13). O pesquisador que,
inadvertidamente, no considerasse a existncia de heterocedasticia, calcularia b* , dado
por (6.15), e, de acordo com (4.23), obteria
s2
V* (b* ) = * 2 (6.24)
Xj
1 ( X j Y j ) 2
s =
2
Y j
2
n 1
*
X 2j
2 v j X 2j
E[V* (b* )] = vj (6.25)
(n 1) X 2j X 2j
s 2 v j X 2j
V (b* ) = , (6.26)
( X 2j ) 2
s =
2
v j Y j
n 1 v j 1 X 2j
260
Comparando (6.27) com (6.17), verificamos que (6.26) um estimador no-
tendencioso da varincia de b* .
De (6.17) e (6.25) obtemos a tendenciosidade ou vis de (6.24) como estimador de
V (b* ) , que
2 1 v j X 2j v j X 2j
= vj =
X j n 1
2 2
X j 2
X j
n 2 v j v j X 2j
= (6.28)
(n 1) X 2j n X 2
j
Nesta expresso temos, entre parnteses, a diferena entre a mdia aritmtica e a mdia
ponderada dos v j , com X 2j como fatores de ponderao. Se, por exemplo, os maiores
valores dos v j estiverem associados aos maiores valores absolutos dos X j , a mdia
ponderao e com ponderao por X 2j ) em (6.28) tendem a ser iguais. Neste caso o
261
Vamos admitir, inicialmente, que, na amostra disponvel, temos repeties de
conjuntos de valores das variveis explanatrias, ou seja, dispomos de n h > 1 valores de Y
matriz X), os n = n h valores da varivel dependente podem ser indicados por Yhj (j = 1,
1
onde g h = n h 1 e Yh = Yhj
nh
Sejam
g h s h2
U = ( g h ) ln g h ln s h2 (6.30)
gh
e
1 1 1
G = 1+ (6.31)
3( H 1) g h g h
Pode-se demonstrar que, se a varincia de Y homognea, a varivel U / G tem,
aproximadamente, distribuio de qui-quadrado com H 1 graus de liberdade. Ento, o
valor de U / G pode ser utilizado para testar a hiptese H 0 : 12 = 22 = K = H2 , isto , a
11
Ver Hoel (1962, p. 225-227).
262
Se o teste resultar significativo, devemos usar o mtodo de mnimos quadrados
ponderados. Para isso, como a matriz V desconhecida, ela substituda por uma matriz
modelo) ou de alguma outra varivel cujos valores, para cada uma das observaes da
amostra, so conhecidos.
So as seguintes as etapas do teste:
a) Ordenamos as observaes de acordo com valores crescentes de X ij
(j = 1, ..., n).
b) Eliminamos m observaes centrais e ajustamos, pelo mtodo de mnimos
quadrados ordinrios, uma equao de regresso para as primeiras ( n m) / 2 observaes
e uma outra equao de regresso para as ltimas ( n m) / 2 observaes. Simulaes
realizadas por Goldfeld e Quandt, considerando o caso em que v j = X ij2 , indicam que o
12
Ver Theil (1971), p. 399.
263
calculamos T2 = S1 / S 2 se a hiptese alternativa que os v j decrescem com X ij . Se H 0
1).
O teste descrito pode ser utilizado para verificar se determinada hiptese a respeito
da forma da heterocedasticia razovel.
Consideremos, por exemplo, que no modelo
Y j = + 1 X 1 j + 2 X 2 j + u j
regresso de Y j / X 1 j contra 1 / X 1 j e X 2 j / X 1 j .
mnimos quadrados ordinrios. Admitindo que a varincia do erro do modelo uma funo
monotnica do valor da varivel X ij , ajustamos alguns modelos simples de regresso do
| e j |= 0 + 1 X ij + j ,
264
razovel, ento, pressupor que o desvio padro de u j proporcional a X ij ,
, ..., Z Kj , ou seja:
K
2j = 0 + h Z hj ,
h =1
com sendo uma funo qualquer para a qual so definidas as duas primeiras derivadas.
A hiptese de nulidade, que estabelece a homocedasticia dos erros, corresponde a
H 0 : 1 = 2 = ... = K = 0
O procedimento para efetuar esse teste pode ser dividido em 3 etapas.
a) Estimamos o modelo y = X + u por mnimos quadrados ordinrios e obtemos o
vetor dos desvios e = y Xb , com elementos e j ( j = 1,..., n ) . Determinamos a estimativa
265
c) Se os erros u j do modelo original tiverem distribuio normal e varincia
produtos de duas variveis ( X 1 j X 2 j , ..., X 1 j X kj , ...). Pode-se verificar que em geral essa
266
assinalar, ainda, que um resultado significativo pode ser conseqncia de um erro de
especificao no modelo original.
Antes de encerrar esta seo, vejamos o procedimento a ser seguido se admitirmos
que o desvio padro do erro do modelo proporcional a E (Y j ) , isto ,
de X por x j ), temos
1 n
Q=
n j =1
x j xj v j 2
ou
1 n
Q=
n j =1
x j x j 2j (6.35)
267
com 2j = v j 2 = E (u 2j )
1 n
Qe = x j xj e 2j
n j =1
(6.36)
Exerccios
6.1. Considere o modelo
Y j = + X j + u j ,
com E (u j ) = 0 , E (u 2j ) = X 2j 2 e E (u j u h ) = 0 para h j.
observaes:
268
Xj Yj
1 13
2 10
5 20
5 15
10 50
269
1 0 0 0 0
0 1 0 0 0
Sabe-se que E (uu ) = 0 0 0,5 0 0 2 ,
0 0 0 1 0
0 0 0 0 0,5
com, E (u i2 ) = X i 2 , E (u i u j ) = 0 para i j
6.6. dada uma amostra com n observaes das variveis X i e Yi . Considere o seguinte
modelo:
Yi = + u i (i = 1, ..., n)
270
onde os u j so erros aleatrios independentes, com mdia zero e varincia W j 2 .
Note que h heterocedasticia e que o modelo no tem termo constante. dada uma
amostra de 3 valores de X j , W j e Y j :
Xj Wj Yj
2 1 2
6 0,5 16
8 0,25 25
Xi Yi
1 2
2 6
3 6
4 12
5 10
6.9. Temos uma amostra de 100 famlias de mesmo tamanho. Essas famlias foram
classificadas em quatro estratos de renda familiar, como mostra a tabela a seguir:
Nmero de famlias ( f i ) , renda familiar mdia (Wi ) e valor mdio do logaritmo
271
Estrato fi Wi ln Ci
1 40 1 0,9
2 30 2 2,3
3 20 5 2,6
4 10 10 2,3
Na ltima coluna dessa tabela est o valor do logaritmo neperiano do consumo de
determinado produto, por famlia, para cada estrato.
Admite-se que o consumo desse produto varia com a renda familiar de acordo com o
modelo
ln C i = + + ui ,
Wi
onde u i um erro aleatrio com valor esperado igual a zero, varincia inversamente
proporcional ao nmero de famlias do estrato e ausncia de covarincia entre erros
de diferentes observaes.
a) Qual a renda mdia das 100 famlias?
b) Obtenha estimativas apropriadas de e , levando em considerao o nmero de
famlias de cada estrato.
c) Qual a estimativa da elasticidade-renda do consumo desse produto quando
W = 2? E quando W = 5?
d) Teste, ao nvel de significncia de 5%, a hiptese de que igual a zero.
272
X Y
3 10
4 10
6 19
7 17
8 17
Respostas
6.1. a) a = 10 e b = 2
b) t = 0,777, no-significativo (t 0 = 1,638)
6.2. Y = 3 X
t= 4,243, no-significativo ( t 0 = 6,314)
6.3. Y = 6 0,5 X
t = 1,245, no-significativo ( t 0 = 2,353)
Yi Y
6.4. b= =
Xi X
1
X iYi n Yi
Xi
6.5. a=
1
Xi n2
Xi
273
X i Yi n X i Yi
b=
1
Xi n2
Xi
Yi
Xi 2
6.6. a= , V (a) =
1 1
Xi Xi
6.7. a) b = 3
b) t = 14,61, significativo ( t 0 = 9,925)
1 Yi
6.8. b= = 2,4
n Xi
6.9. a) 3
b) a = 3 e b = 2
c) 1 e 0,4
d) t = 4,209, no-significativo ( t 0 = 4,303).
274
7. MNIMOS QUADRADOS GENERALIZADOS E AUTOCORRELAO NOS
RESDUOS
= V 1 (7.2)
y = X + u (7.3)
Para o modelo de regresso (7.3), de y contra X , com = u , temos
E ( ) = 0
E ( ) = E ( u u ) =
= V 2 =
= ( ) 1 2 =
= 1 ( ) 1 2 = I 2
275
b = ( X X) 1 X y = ( XV 1 X) 1 XV 1y , (7.4)
( X X) 1 2 = ( XV 1 X) 1 2 (7.5)
A estimativa no-tendenciosa de 2
y V 1 y bXV 1 y
s2 = (7.6)
n p
= V 1 .
b * = ( XX) 1 Xy
b * = ( XX) 1 X( X + u) =
= + ( XX) 1 Xu (7.7)
276
De (7.7) obtemos
b * = ( XX) 1 Xu
Segue-se que
y y b * X y
s*2 = (7.9)
n p
Ento
E (y y b* Xy ) = E (uMu) = E[ tr (uMu)] =
= E[ tr (Muu )] = 2 tr (MV ) =
= 2 {tr(V ) tr[ X( X X) 1 X V ]} =
277
mnimos quadrados generalizados na qual todos os elementos de V so funo de um nico
parmetro.
com
u t = u t 1 + t (7.12)
E ( t2 ) = 2 ,
E ( t t h ) = 0 se h 0
Para que o modelo (7.11) tenha um termo constante devemos ter X 0t = 1 para
t = 1, ..., n.
Aqui utilizamos a letra t para indicar o ndice associado s diferentes observaes
porque o problema da autocorrelao dos resduos surge, geralmente, quando estamos
trabalhando com sries cronolgicas de dados; ento cada observao corresponde a um
certo perodo de tempo (ano, ms ou semana, geralmente).
A relao (7.12) mostra que estamos admitindo que o erro da observao relativa a
um perodo est correlacionado com o erro da observao anterior. Se > 0 dizemos que
os erros esto positivamente autocorrelacionados e se < 0 dizemos que h autocorrelao
negativa.
Se = 0 teremos, obviamente, o modelo de regresso linear mltipla estudado no
captulo 4, isto , podemos aplicar mnimos quadrados ordinrios.
Consideremos, inicialmente, o caso particular em que = 1. Ento
u t = u t 1 + t
ou
u t u t 1 = t (7.13)
278
De (7.11) podemos obter
k
Yt Yt 1 = i ( X it X i ,t 1 + u t u t 1 (t = 2, ..., n)
i =0
n 1. Note que, se houver um termo constante no modelo original ( X 0t = 1 para todo t),
ele desaparece na equao (7.14). O modelo (7.14) ter um termo constante somente se
uma das variveis explanatrias do modelo original (7.11) for igual a t.
fcil verificar que, para = 1 , obteramos o modelo
k
Yt + Yt 1 = i ( X it + X i ,t 1 ) + t
i =0
= ( u t 2 + t 1 ) + t =
= 2 u t 2 + t 1 + t =
= 3u t 3 + 2 t 2 + t 1 + t =
=L=
= t + t 1 + 2 t 2 + 3 t 3 + K =
= r t r
t =0
Ento
E (u t ) = 0 , (7.15)
E (u t2 ) = (1 + 2 + 4 + 6 + K) 2 =
2
= = u2 (7.16)
1 2
279
e, com h 0,
E (u t u t h ) =
= h 2 + h + 2 2 + h + 4 2 + K =
2
= h
= h u2 (7.17)
1 2
1 2 K n 1
1 K n 2
1 2
V= 1 K n 3 (7.18)
1 2
M M M M
n 1 n 2 n 3 K 1
Verifica-se que
1 0 K 0 0
1+ 2 K 0 0
1
0 1+ 2 K 0 0
V =
M M M M M
0 0 0 K 1+ 2
0 0 0 K 1
e que V 1 = com
1 2 0 0 K 0 0
1 0 K 0 0
0 1 K 0 0
=
M M M M M
0 0 0 K 1 0
0 0 0 K 1
Sabemos que o mtodo de mnimos quadrados generalizados corresponde a aplicar
mnimos quadrados ordinrios ao modelo transformado
y = X + u (7.19)
280
Essa relao matricial representa um sistema de n equaes. A primeira equao,
para t = 1,
( 1 )Y = ( 1 )X + ( 1 )u
2
1
i =0
k
i
2
i1
2
1 (7.20)
k
Yt Yt 1 = i ( X it X i ,t 1 ) + t (7.21)
i =0
mnimos quadrados ordinrios. A partir dos desvios dessa regresso, indicados por et ,
calculamos a estimativa de :
1 n n
et et 1 et et 1
= n 1 t =2 n = t =2
1 (n 1)(Q.M.Res.)
et2
n p t =1
281
A seguir, a estimativa de , assim obtida, usada para aplicar o mtodo dos
mnimos quadrados generalizados.
Vejamos, a seguir, o que ocorre se, erroneamente, aplicarmos mnimos quadrados
ordinrios ao modelo (7.11).
Uma vez que E (u t ) = 0 , o estimador
b * = ( XX) 1 Xy
no-tendencioso; ele no , entretanto, eficiente.
Para comparar a varincia incorreta, obtida de ( XX) 1 2 , com varincia correta,
dada, de acordo com (7.8), por ( XX) 1 XVX( XX) 1 2 , consideremos o modelo
Yt = X t + u t
u t = u t 1 + t
1
Neste caso ( X X) 1 = e o estimador de mnimos quadrados ordinrios para
X t2
X t Yt
b* =
X t2
A varincia incorreta ficaria
u2
V* (b* ) = ( XX) 1 u2 = n
(7.22)
X t
2
t =1
V (b* ) = ( X X) 1 X VX( X X) 1 2 =
2 1 n 2 n n
= X + 2 X X t 1 + 2 2
X t X t 2 + K + 2 n 1 X n X 1
1 n 2 t =1
t t
2 2
t =2 t =3
Xt
t =1
n n
2 X t X t 1 X t X t 2 X X
= n u
1 + 2 t = 2 n + 2 2 t =3 n + K + 2 n 1 n n 1 (7.23)
X t2 X t2 X t2 X t2
t =1 t =1 t =1 t =1
Se positivo e se, como comum, os valores de X t so positivamente
autocorrelacionados, o valor da expresso entre parnteses em (7.23) ser maior do que 1.
282
A comparao de (7.22) e (7.23) mostra que, neste caso, a expresso ( XX) 1 2 leva a
n
2 X t X t 1 X X
= n 1 + 2 t =2
+ K + 2 n 1 n 1
=
1 2 n
Xt
n
2
X t
2
t =1 t =1
n
X t X t 1
= u2 n 1 + 2 t =2 n + K (7.24)
X t2
t =1
O pesquisador que estivesse, erroneamente, aplicando mnimos quadrados
ordinrios estimaria u2 por meio de
y y b * Xy
s*2 = (7.25)
n 1
Se >0 e se os valores X t so positivamente autocorrelacionados, a expresso
tende a subestimar u2 .
283
onde os et so os desvios da regresso ajustada pelo mtodo de mnimos quadrados
ordinrios.
De (7.26) obtemos
n n n
et2 et21 et et 1
d= t =2
n
+ t =n2 2 t =2n
et2 et2 et2
t =1 t =1 t =1
se compararmos 4 d com d L e d U .
Atualmente j existem programas de computador que fornecem a probabilidade
caudal associada ao valor calculado do teste de Durbin-Watson. Neste caso basta comparar
a probabilidade caudal com o nvel de significncia adotado para decidir se o resultado
ou no significativo, evitando-se o problema do resultado inconclusivo.
A validade do teste depende de os erros terem distribuio normal com mdia zero
e varincia constante e das variveis explanatrias no serem aleatrias. Devemos ressaltar
284
que no se deve aplicar o teste de Durbin-Watson quando h variveis explanatrias
aleatrias, como o caso de modelos onde valores de Y defasados aparecem entre as
variveis explanatrias. Nestes casos, outros testes devem ser usados. (Ver Johnston, 1972,
p. 309-313).
Draper e Smith (1966, p. 95-99) recomendam o uso de um teste no-paramtrico,
baseado no agrupamento dos sinais dos desvios, para analisar os resduos da regresso.
Para uma apresentao do teste do agrupamento dos sinais, ou teste da ordenao casual,
ver, tambm, Hoel (1968, p. 220-223) ou Hoffmann (2006, seo 13.4).
interessante notar que podemos obter um teste significativo, indicando a
existncia de autocorrelao positiva nos resduos, quando existe erro na especificao do
modelo. Consideremos, por exemplo, que as variveis Y e X esto relacionadas de acordo
com o modelo Yt = + X t + X t2 + u t , onde os u t so erros independentes com mdia
zero e varincia constante. Consideremos, ainda, que, dada uma amostra de n pares de
valores dessas variveis, foi ajustada uma regresso linear simples, isto , em lugar da
parbola, ajustamos uma reta. Se antes de estimar a reta de regresso, as observaes
tiverem sido ordenados conforme valores crescentes de X t , fcil perceber que os desvios
tendero a apresentar autocorrelao positiva.
Exerccios
7.1. Admite-se que as variveis X t e Yt esto relacionadas de acordo com o modelo
Yt = + X t + u t ,
Xt Yt
5 10
7 14
11 30
17 46
a) Estime .
b) Teste, ao nvel de significncia de 5%, a hiptese de que = 0.
285
7.2. So dados os 4 pares de valores observados em uma amostra aleatria:
Xt Yt
2 19
7 50
12 75
7 40
Admite-se que Y e X esto relacionados de acordo com o modelo
Yt = + X t + u t ,
alternativa H A : > 0 .
7.4. So dados os valores de Yt para 4 semestres consecutivos:
Ano Semestre Yt
1 1o 23
2o 8
2 1o 31
2o 10
Admite-se que essa varivel tem variaes cclicas estacionais e que ela no tem
tendncia (crescimento ou decrscimo monotnico no tempo). Admite-se, tambm,
286
que o termo aleatrio ( u t ) apresenta autocorrelao de 1a ordem com = 0,5 , isto
onde ut = ut 2 + t ,
0 < < 1 , E ( t ) = 0 , E ( t2 ) = 2 e
E ( t t h ) = 0 para h 0.
Note que o erro de uma observao est correlacionado com o erro da observao
defasada de dois perodos. Isso pode ocorrer se os dados so semestrais e o valor de u t em
um semestre afetado pelo valor do erro no mesmo semestre do ano anterior.
Sendo u um vetor coluna cujos elementos so os u t (t = 1, ..., n), determine:
a) E(u)
b) E (uu ) , em funo de e 2
u1 1 K
1 K
u = u 2 V=
M
e
M M M M
u
n K 1
Os clculos, entretanto, so feitos tendo em vista o modelo com as variveis centradas:
y j = 1 x1 j + 2 x 2 j + u j u ,
287
1
onde u = u j , ou, em notao matricial,
n
y = X + u u
onde
y1 x11 x 21 u
y x x 22 u
= 1 , y = 2 , X = 12 u=
M
e
2
M
M
M
yn x1n x2n u
Demonstre que b = ( XV 1 X) 1 XV 1 y um estimador no-tendencioso e que a
1 1
com d = 1 1 + ( n 1) e f =
1 1 1 + ( n 1)
Yj X1j X2j
4 0 3
5 1 1
4 2 2
11 3 0
Admite-se que essas variveis esteja relacionadas de acordo com o modelo
Y j = + 1 X 1 j + 2 X 2 j + u j (j = 1, ..., 4),
288
Obtenha as estimativas de 1 , de 2 e das respectivas varincias e covarincias, de
acordo com o mtodo de mnimos quadrados generalizados.
Verifique, preliminarmente, que
1,6 0,4 0,4 0,4
0,4 1,6 0,4 0,4
V 1 =
0,4 0,4 1,6 0,4
0,4 0,4 0,4 1,6
Respostas
7.1. a) b = 3
b) t= 6,481, significativo ( t 0 = 4,303 )
7.2. a) a = 3 e b = 6
b) s2 = 25
1 0 1 0
7.4. a) X = 1 1 e b = 27 ou X = 0 1 e b = 27
1 0 19 1 0 8
1 1 0 1
7.5. a) E (u) = 0
2
b) Temos E (u ) =2
,
1 2
t
E (u t u t h ) = 0 se h um nmero mpar e
2 0,5 h
E (u t u t h ) = se h um nmero par positivo.
1 2
Ento
289
1 0 0 2 0 K
0 1 0 0 2
K
2 0 1 0 0 K
E (uu ) = 0 0 1 0 K
1 2 2 0 0 1 0 K
0 2
0 0 1 K
M M M M M M L
7.7. b1 = 2 e b2 = 3
com i j, para todo i. Aplica-se, ento, o teorema de McElroy (1967) (Ver Theil,
1971, p. 241-243). De acordo com esse teorema, em caso de equicorrelao, e desde
que o modelo tenha um termo constante, as estimativas dos parmetros obtidas pelo
mtodo de mnimos quadrados generalizados so iguais s estimativas obtidas
aplicando mnimos quadrados ordinrios. Com exceo da varincia da estimativa do
termo constante, sero, tambm, iguais, as estimativas das varincias e covarincias
das estimativas dos parmetros, obtidas pelos dois mtodos. Compare os resultados
obtidos aplicando mnimos quadrados generalizados com os obtidos aplicando
mnimos quadrados ordinrios (Ver resultados do exerccio 4.11).
290
8. VARIVEIS INSTRUMENTAIS E ERROS NAS VARIVEIS
EXPLANATRIAS
8.1. Introduo
onde i = E ( X ij )
291
pelos limites em probabilidade de cada um de seus elementos, desde que as dimenses
da matriz no dependam de n. Assim, por exemplo, se
a a12
plim A =
plim a11 plim a12
A = 11 ,
a 21 a 22 plim a 21 plim a 22
, a matriz de valores das variveis independentes para um ensaio. Ento, para m ensaios
temos n = mn 0 ,
X 0
X
X = 0 e XX = mX0 X 0
M
X 0
1 1
Segue-se que XX = X0 X 0 . Conclumos ento que
n n0
1 1
lim XX = X0 X0 = Q
n n
n0
isto , a pressuposio (8.2) vlida neste caso.
292
1
1 1
b = + ( X X) X u = + X X
1
X u
n n
1
plim b = + Q 1 plim X u (8.3)
n
1
E Xu = 0 (8.4)
n
1
e a matriz de varincias e covarincias do vetor X u
n
1 1 2
V Xu = 2 E ( XuuX) = 2 XX
n n n
1 2 1
lim V X u = lim lim XX = 0 (8.5)
n
n n n n n
1
De (8.4) e (8.5) conclumos que X u converge em mdia quadrtica para uma
n
matriz nula e, consequentemente, que
1
plim X u = 0 (8.6)
n
plim b = , (8.7)
293
1
plim X X = Q ,
n
1
plim b = + Q 1 plim X u (8.8)
n
1
plim X u = 0 (8.9)
n
considerar (8.9) como pressuposio do modelo. Essa pressuposio pode ser expressa
dizendo que as variveis X ij so assintoticamente no-correlacionadas com u j .
1
plim XX = Q
n
294
importante notar que a covarincia assinttica no-nula entre X hj e u j no
1
expresso (8.3), que se houver um nico elemento no-nulo no vetor plim X u , isso
n
pode tornar inconsistentes todos os elementos de b, devido pr-multiplicao pela
matriz Q 1 .
pressupondo que E (u j ) = 0 , E (u 2j ) = 2 , E (u j u h ) = 0 se h j,
1 1
lim X 2j = Q e plim X j u j 0 .
n n
n
O estimador de mnimos quadrados de
X jY j
b=
X 2j
valor de , pois Q > 0 , por tratar-se de uma soma de quadrados. Por outro lado, se X j
1
plim Z j X j 0 (8.11)
n
e
1
plim Z j u j = 0 (8.12)
n
295
A condio (8.12) significa que Z j e uj devem ser assintoticamente no-
instrumental.
A seguir demonstraremos que
Z jY j
= ,
ZjX j
1
plim Z j Y j
plim = + n
1
plim Z j X j
n
plim =
y = X + u , (8.14)
1
pressupondo que E (u) = 0 , E (uu ) = I 2 e plim X u 0 .
n
1
a) plim Z u = 0 (8.15)
n
b) a matriz
296
1
plim Z X = (8.16)
n
existe e no singular.
c) existe a matriz
1
plim Z Z = (8.17)
n
correlacionadas com o erro, tais variveis podem ser utilizadas como variveis
instrumentais, isto , podem constituir colunas da matriz Z. entretanto, ser necessrio
dispor das observaes de uma varivel instrumental adicional para cada varivel
explanatria que admitirmos correlacionada com o erro.
O vetor das estimativas dos parmetros, de acordo com o mtodo das variveis
instrumentais,
= ( Z X) 1 Z y (8.18)
297
s 2 = ( y X ) ( y X ) /( n p )
modelo
j = + j + j , (8.20)
1
onde os j so erros aleatrios independentes de mdia zero e plim 2j = 2
n
X j = j + vj (8.21)
Yj = j + wj , (8.22)
1 1
plim v 2j v2 e plim w 2j = w2 .
n n
Yj wj = + (X j v j ) + j
ou
Y j = + X j + j v j (8.23)
298
1
plim 2j = 2 + w2
n
De (8.23), fazendo
u j = j v j (8.24)
obtemos
Y j = + X j + u j (8.25)
1
plim v j j = 0 , (8.26)
n
1
plim v j j = 0 , (8.27)
n
1
plim j j = 0 , (8.28)
n
1 1 1
X j u j = j j + v j j v j j v 2j
n n n n n
1 1
plim X j u j = plim v 2j
n n
1
Como plim v 2j = v2 , obtemos
n
299
1
plim X j u j = v2 (8.29)
n
negativa. De acordo com o que foi visto na seo 8.3, sabemos que o estimador de
mnimos quadrados no consistente.
x jY j
b= (8.30)
x 2j
x jY j
b=+
x 2j
Ento
1
plim x j Y j
plim b = + n (8.31)
1
plim x 2j
n
1
plim x j Y j = v2 (8.32)
n
e que
1
plim x 2j = 2 + v2 , (8.33)
n
1
onde 2 = plim ( ) 2
n
300
v2
plim b = 2
+ v2
ou
plim b = (8.34)
2
1 + v2
na seo 8.3.
De acordo com o que vimos na seo 8.4, o mtodo da varivel insrumental nos
fornece um estimador consistente de , no modelo (8.25). Para isso precisamos dispor
de uma varivel instrumental Z j . Podemos, ento, constituir a matriz
1 Z1
1 Z 2
Z=
M M
1 Zn
301
1 X1
1 X 2
X=
M M
1 Xn
1
a) plim Z u = 0
n
b) a matriz
1
plim Z X = ,
n
1
plim z j x j 0
n
zj yj
= e = Y X
zjxj
Y2 Y1
= (8.35)
X 2 X1
302
onde X 1 e Y1 so as mdias dos valores de X j e Y j , respectivamente, para as primeiras
O estimador (8.35) foi proposto por Wald (1940). Uma vez que esse estimador
obtido a partir das mdias de X e de Y para dois conjuntos de observaes, o mtodo
denominado mtodo do agrupamento das observaes.
Y3 Y1
=
X 3 X1
Com Y j = + X j + u j , obtemos
1 1 1
x j Y j = x 2j + x j u j
n n n
303
Lembrando (8.32) e (8.33), conclumos que o numerador de (8.36) converge em
probabilidade para
1
plim x j Y j = 2
n
1
x jY j
= n (8.37)
1
x 2j v2
n
O mtodo pode ser estendido para o caso de regresses mltiplas, como consta
em Johnston (1972, p. 289-290).
2 v = log 1,2
304
Donde
2
1
= log 1,2
2
v
2
Exerccios
305
8.3. dada a seguinte amostra de valores das variveis X, Y e Z.
X Y Z
4 6 1
2 4 5
2 0 1
0 2 3
0 4 1
2 2 3
2 6 1
4 8 5
correlacionado com X j .
com u j .
de medida de X v2 = 1 .
306
onde os u j so erros aleatrios indepedentes, identicamente distribudos, com
1
mdia zero e E (u 2j ) = plim u 2j = 2 . Admite-se que os X j so fixos e que
n
1
lim X 2j = Q .
n n
a) Demonstre que o limite em probabilidade de
Y j2
=
X jY j
2
+
Q
Respostas
8.1. a) = 2
b) O estimador de mnimos quadrados ordinrios (b) inconsistente, com
tendenciosidade assinttica negativa (tende a subestimar ).
b) ou c) Y = 8 + 2 X
8.3. a) 5/3
b) negativo
c) 2
d) 2
Observao: O fato dos itens (c) e (d) terem a mesma resposta uma coincidncia,
devida ao carter artificial dos dados desse exerccio. Em geral os vrios mtodos
de estimao daro resultados diferentes.
307
9. EQUAES SIMULTNEAS
9.1. Introduo
(9.1)
Ct = + Yt + u t
(9.2)
Yt = Ct + Z t
1
com E (u t ) = 0 , E (u t2 ) = plim u t2 = 2 e E (u t u t +h ) = 0 para h 0.
n
E{[ Z t E ( Z t )]u t } = 0
ou
E (Z t ut ) = 0 (9.3)
308
Diz-se que um sistema completo quando o nmero de equaes igual ao
nmero de variveis endgenas, de maneira que o sistema pode ser resolvido para essas
variveis. A soluo chamada forma reduzida do sistema. Uma equao na forma
reduzida mostra como uma varivel endgena varia em funo das variveis exgenas e
dos erros aleatrios. As equaes originais so chamadas equaes estruturais.
1
Ct = + Zt + ut (9.4)
1 1 1
1 1
Yt = + Zt + ut (9.5)
1 1 1
1
E (Yt ) = + Zt
1 1
e que
1
Yt E (Yt ) = ut
1
Ento
u2 2
= E t =
1 1
309
Como 0 < < 1 , temos que cov (Yt , u t ) > 0 , isto , na relao (9.1) o resduo e a
varivel explanatria esto positivamente correlacionados.
yt Ct
b= (9.6)
yt2
De acordo com o que foi visto na seo 8.3, a existncia de covarincia entre Yt
yt ut
b=+
y t2
Ento
1
plim y t u t
plim b = + n (9.7)
1
plim y t2
n
1 1
yt = zt + (u t u ) (9.8)
1 1
1
plim z t u t = 0
n
310
1
2
plim y t u t = (9.9)
n 1
1 Q 2
plim y t2 = + , (9.10)
(1 ) (1 ) 2
2
n
1
onde Q = plim z t2
n
(1 ) 2
plim b = + (9.11)
Q + 2
C = 30 e Y = 150 .
Zt zt = Z t Z Ct ct = C t C Yt y t = Yt Y
16 4 119 11 135 15
14 6 126 4 140 10
18 2 132 2 150 0
20 0 125 5 145 5
24 4 131 1 155 5
28 8 147 17 175 25
311
C t e Yt . Dessa maneira, nesse exemplo artificial, os mtodos consistentes de estimao
ct y t 660
= = 0,66
yt 2
1000
De acordo com o que foi visto na seo 8.4, o mtodo das variveis
instrumentais pode ser usado para obter estimativas consistentes dos parmetros quando
uma varivel explanatria est correlacionada com o erro do modelo.
De acordo com (8.18), utilizando Z t como varivel instrumental para Yt , as
estimativas dos parmetros da equao estrutural (9.1) so dadas por
zt ct
= (9.12)
zt yt
e
= C Y (9.13)
204
Ento = = 0,6 e = 130 0,6 150 = 40 .
340
312
1
t = ut
1
Como cov (u t , Z t ) = 0 , temos cov ( t , Z t ) = 0 . Ento o mtodo de mnimos
quadrados ordinrios fornecer estimadores lineares no-tendenciosos de varincia
mnima e consistentes dos parmetros A e B. Tais estimadores so
z t ct
B = (9.16)
z t2
e
A = C B Z (9.17)
De (9.14) e (9.15) obtemos
B
= (9.18)
1+ B
e
= (1 ) A (9.19)
Substituindo, em (9.18) e (9.19), A e B pelas suas estimativas consistentes, dadas
por (9.16) e (9.17), obtemos estimativas consistentes de e . Apesar de A e B serem
estimadores no-tendenciosos de A e B, as estimativas de e , obtidas da maneira
descrita, sero tendenciosas porque a no-tendenciosidade s preservada em
transformaes lineares.
De acordo com (9.16) e (9.18) o estimador de
z t ct
z t2 z t ct
=
z t ct z t2 + z t ct
1+
z t2
z t ct
= ,
zt yt
313
(1 )(C B Z ) = C C (1 ) B Z =
= C C (1 ) Z =
1
= C (C + Z ) =
= C Y ,
ou seja,
= C Y ,
que o estimador anteriormente obtido pelo mtodo da varivel instrumental.
O aluno deve verificar que, se em lugar de utilizarmos a equao (9.4),
utilizarmos a equao (9.5) da foram reduzida, os estimadores de e obtidos atravs
do mtodo de mnimos quadrados indiretos sero os mesmos, isto , sero iguais a
z t ct
=
zt yt
e
= C Y
B
= = 0,6
1 + B
= (1 ) A = 0,4 100 = 40
314
9.5. Mnimos quadrados em dois estgios
zt yt
2 =
z t2
1 = Y 2 Z
Yt = t + 2 Z t (9.20)
contra Z t , obtemos
Ct = + (Yt + et ) + u t
ou
Ct = + Yt + (u t + et ) (9.21)
315
correlacionado com o erro (u t + et ) . Podemos, portanto, aplicar a essa questo o
ct y t
y t2
zt yt
Como y t = 2 z t e 2 = ,
z t2
ct y t 2 z t ct z t ct z t ct
= 2 = =
y t2
2 z t2
2 z t z t y t
2
zt ct
=
zt yt
Temos
z t yt 340
2 = = = 2,5
z t2 136
316
Tabela 9.2. Os valores de Yt obtidos no 1o estgio
Zt Yt yt
16 140 10
14 135 15
18 145 5
20 150 0
24 160 10
28 170 20
Temos Yt = Yt = 900 ,
Yt
= Y = 150
n
e
y t2 = 850
ct y t 510
= = = 0,6
y t2 850
e
= C Y = 130 0,6 150 = 40
317
No caso mais geral, ento, a forma reduzida descreve o comportamento das
variveis conjuntamente determinadas em termos das variveis predeterminadas e dos
erros.
equao.
Em notao matricial temos
Y + XB = E (9.22)
e que
E ( j h ) = I jh ,
318
De (9.22), que representa as equaes estruturais, obtemos a forma reduzida
Y = XB 1 + E 1 (9.23)
Essa notao mais geral no cmoda para a anlise dos mtodos de estimao
que vamos considerar a seguir.
Em princpio cada uma das equaes estruturais pode ser colocada na forma
y j = Z j j + j (9.24)
onde:
a) y j um vetor-coluna com os n valores da varivel endgena que aparece no
(Zj Z j ) 1 Zj y j
y = X + u
X y = X X + X u
319
1 1
O valor de Xu desconhecido, mas se plim X u = 0 e plim X X
n n
uma matriz no-singular, podemos, para uma amostra suficientemente grande, desprezar
Xu obtendo Xy = X X .
1
Se plim X u 0 , mas dispusermos de uma matriz de variveis instrumentais
n
1 1
W, com n linhas, sendo que plim W u = 0 e plim W X uma matriz no-
n n
singular, obteramos, analogamente, o sistema de equaes
W y = W X ,
estimador consistente = ( WX ) 1 W y .
Vamos aplicar o mtodo das variveis instrumentais para estimar os parmetros
de (9.24).
A matriz X, com todas as K variveis predeterminadas do sistema, uma matriz
de variveis instrumentais apropriada se pudermos admitir que14
1
plim X j = 0 (9.25)
n
De (9.24), considerando X como matriz de variveis instrumentais, obtemos
X y j = X Z j j + X j (9.26)
e
Xy j = XZ j (9.27)
j = ( X Z j ) 1 Xy j (9.28)
14
Se X incluir variveis endgenas defasadas, s podemos admitir a validade de (9.25) se os erros no
forem autocorrelacionados. Uma exposio didtica do problema de ajuste de equaes simultneas
quando h variveis endgenas defasadas e autocorrelao nos erros pode ser encontrada em Kelejian e
Oates (1978, p. 321-325).
320
9.9. Identificao
K Nj (9.29)
K K j + Lj
ou
K K j Lj (9.30)
321
Se o sistema de equaes (9.27) for possvel e determinado, isto , se existir
apenas uma soluo para esse sistema, dizemos que a j-sima equao estrutural
exatamente identificvel. Isso ocorre, por exemplo, se N j = K e XZ j for uma matriz
qt = 0 + 1 pt + u t (demanda)
qt = 0 + 1 pt + t (oferta)
das duas equaes identificvel j que para ambas K < N j . A relao (9.27), isto ,
Xy j = XZ j ,
consiste, tanto no caso da demanda (j = 1) como no caso da oferta (j = 2), de uma nica
redor do ponto de interseco das 2 funes (o ponto de equilbrio). Tais pontos no nos
permitem estimar nenhuma das duas funes.
322
Figura 9.1.
Figura 9.1
Figura 9.1
correspondentes aos pares de valores ( p t , qt ), que esto ao redor dos vrios pontos de
equilbrio, se distribuiro ao longo da funo de demanda, como mostra a figura 9.2.
Tais pontos podero, portanto, ser utilizados para obter uma estimativa da funo de
demanda, isto , essa funo , neste caso, identificvel.
323
Figura 9.2
(1 + )qt = 0 + 0 + ( 1 + 1 ) pt + 2 x1t + t + u t
ou
0 + 0 1 + 1 + u t
qt = + pt + 2 x1t + t (9.32)
1+ 1+ 1+ 1+
y1t = 1 y 2t + 2 y 3t + 3 x1t + 1t
y1t = + 2 y3t + 3 x1t + 4 x 2t + 5 x3t + 2t (9.33)
y1t = 1 y 2t + 3 x1t + 4 x 2t + 5 x3t + 3t
324
admitindo que se sabe, de acordo com a teoria que serviu de base para a construo do
modelo, que
4 5
= = (9.34)
4 5
Nesse sistema y1t , y 2t e y 3t so variveis endgenas e x1t , x 2t e x3t so
variveis exgenas. Temos, portanto, K = 3 variveis (exgenas) predeterminadas no
sistema.
Para a primeira equao temos N1 = 3 = K , ou seja, satisfeita a condio de
ordem para identificao dessa equao.
Entretanto, subtraindo da segunda equao do sistema a terceira multiplicada
por e considerando (9.34), obtemos
(1 ) y1t = 1 y 2t + 2 y 3t + ( 3 3 ) x1t + 2t 3t
ou
1 3 3t
y1t = y 2t + 2 y 3t + 3 x1t + 2t
1 1 1 1
Essa equao no se distingue da primeira equao do sistema, uma vez que
ambas tm as mesmas variveis. A primeira equao do sistema no , portanto,
identificvel, apesar de ser obedecida a condio de ordem K N j .
A = [ B ] (9.35)
325
Essa matriz ter L 1 linhas e um nmero de colunas igual ao nmero de zeros
na 1a linha de A.
A condio necessria e suficiente para identificao da 1a equao do sistema
(por meio de restries de excluso) que a caracterstica da matriz A 0 seja igual a L
1. Como essa matriz tem L 1 linhas, a condio de identificao que essas L 1
linhas sejam linearmente independentes.
Como a condio (9.29) ou (9.30), denominada condio de ordem para
identificao, uma condio necessria, sendo verificado que ela no obedecida para
determinada equao, podemos concluir que a equao no identificvel, sendo
dispensvel examinar a condio necessria e suficiente baseada na caracterstica da
matriz A 0 = [ 0 B 0 ] . Por outro lado, se a condio de ordem para identificao for
satisfeita, isso no garante que a equao seja efetivamente identificvel, devendo-se
verificar se atendida a condio necessria e suficiente.
Para exemplificar, consideremos a 1a equao do sistema (9.33) J vimos que ela
atende condio de ordem para identificao. Obtemos
5
A0 = 4
4 5
primeira vista essa matriz tem caracterstica 2, sendo atendida a condio suficiente
para identificao da 1a equao. Mas, dada a relao (9.34), conclumos que essa
matriz A 0 tem caracterstica igual a 1 e que a 1a equao do sistema (9.33) no
identificvel.
O leitor pode verificar que para todos os demais exemplos apresentados, quando
a condio de ordem indica que uma equao identificvel, isso confirmado pelo
exame da condio necessria e suficiente.
Vejamos, finalmente, um exemplo em que o exame da condio necessria e
suficiente altera radicalmente o que sugerido pela condio de ordem (Phillips e
Wickens, 1978, p. 283):
Y1t = 12Y2t + 13Y3t + 11 X 1t + 12 X 2t + 1t
Y2t = 21Y1t + 23Y3t + 2t (9.37)
Y3t = 31Y1t + 32Y2t + 3t
326
tanto a 2a como a 3a equao so exatamente identificveis (pois N 2 = N 3 = 2 = K ).
Vejamos a condio necessria e suficiente. Passando todos os termos com parmetros
para o primeiro membro, a matriz com todos os coeficientes fica
1 12 13 11 12
A = [ B] = 21 1 23 0 0
31 32 1 0 0
12
A 0 = 11
0 0
Xy j = XZ j j ,
no se aplica.
Encaremos a relao (9.26), isto ,
X y j = X Z j j + X j ,
E ( X j j X) = XX 2j
327
j = [Z j X( XX) 1 XZ j ]1 Z j X( XX) 1 Xy j (9.38)
[Z j X( XX) 1 XZ j ] 1 2j (9.39)
j = ( XZ j ) 1 XX(Z j X) 1 Z j X( XX) 1 Xy j = ( XZ j ) 1 Xy j
Isso mostra que (9.28) pode ser encarado, simplesmente, como um caso
particular de (9.38).
[Z j X( XX) 1 XZ j ] 1 s 2j (9.40)
com
(y j Z j j )(y j Z j j )
s 2j = (9.41)
nNj
escrita
( XZ j ) 1 XX( XZ j ) 1 s 2j (9.42)
328
y j = Z j j + j ,
= X( XX) 1 XZ
Z (9.43)
j j
Z j y j = Z j Z j *j
e
Z ) 1 Z
*j = (Z y (9.44)
j j j j
obtendo
j = (Z
Z
j
) 1 Z y
j j j (9.45)
j = *j = j ,
isto , qualquer um dos trs caminhos leva ao estimador de mnimos quadrados em dois
estgios.
Lembrando (9.43), verifica-se facilmente que a matriz de varincias e
covarincias assintticas das estimativas dos parmetros, dada por (9.39), pode ser
escrita
Z ) 1 2
(Z j j j
329
Y1t = X 1t + Y2t + u t
Y2t = Y1t + X 2t
onde X 1t uma varivel fictcia ( X 1t = 1 ), X 2t o valor do investimento, Y1t a
X 1t X 2t Y1t Y2t
1 16 119 135
1 14 126 140
1 18 132 150
1 20 125 145
1 24 131 155
1 28 147 175
330
A matriz X com as variveis predeterminadas
1 16
1 14
1 18
X=
1 20
1 24
1 28
Obtemos
6 900
XZ1 =
120 18340
Neste exemplo temos identificao exata, com matriz XZ1 quadrada e no-
singular.
40
1 = ( XZ 1 ) 1 Xy 1 =
0,6
ou seja, = 40 e = 0,6 .
2
2
2
y 1 Z1 1 =
2
2
2
24
s12 = =6
4
331
De acordo com (9.42), a matriz das estimativas das varincias e covarincias
assintticas das estimativas dos parmetros ( XZ j ) 1 XX(Z j X) 1 s 2j .
6 120
Como XX =
120 2536
pode-se verificar que a matriz das estimativas das varincias e covarincias assintticas
fica
1 67925 450 2
s1
2550 450 3
ou
1 67925 450
425 450 3
0,6 0,6
t= = = 7,14
0,00706 0,0840
332
Assinale-se que os mtodos de estimao analisados podem ser aplicados a uma
equao se essa equao for exatamente identificvel, mesmo que outras equaes do
sistema sejam superidentificadas ou no identificveis.
endgenas ( y1t e y 2 t ).
Os valores observados em uma amostra hipottica esto na tabela 9.4.
x1t x 2t y1t y 2t
3 1 1 2
3 1 2 0
1 1 1 2
1 1 0 0
1 1 0 0
1 1 2 0
3 1 1 2
3 1 1 2
Temos
x 22t = 8 x 2t y1t = 6 x 2 t y 2 t = 4
x1t x 2t = 0 y1t y 2t = 0
333
Neste exemplo, as duas equaes so exatamente identificveis ( N j = K = 2 ).
Podemos, ento, obter as estimativas dos parmetros por qualquer um dos trs
mtodos analisados (uso de variveis instrumentais, mnimos quadrados indiretos e
mnimos quadrados em dois estgios).
Deixamos para o aluno verificar, como exerccio, que qualquer um dos trs
mtodos levar s seguintes estimativas:
1 = 1 , 2 = 1 , 1 = 1,5 e 2 = 0,5 .
onde Y1t a quantidade transacionada, Y2t o preo, X 1t o tempo (em anos ou meses),
Y1t Y2t X 1t X 2t X 3t
7 0 3 1 2
9 0 3 1 2
10 1 1 1 2
10 3 1 1 2
11 6 1 2 1
11 8 1 2 1
16 5 3 2 3
18 5 3 2 3
334
Obtemos
Y1t = 92 Y2t = 28 X 1t = 0 X 2t = 12 X 3t = 16
x1t y 2t = 40 x 2t y 2t = 10 x 3 t y 2 t = 4
X 1t X 2t = 8 X 2 t X 3t = 4 X 2t X 3t = 24
335
X = [x1 x2 x3 ]
x3t y1t = 1 x3t y 2t + 2 x1t x3t + 3 x 2t x3t
Resolvendo, obtemos 1 = 1 , 2 = 2 e 3 = 2 .
evidente que o mesmo resultado seria obtido se utilizssemos a relao (9.28).
A equao de demanda estimada
y1t = y 2t + 2 x1t + 2 x 2t
ou
336
Y1t = 12 Y2t + 2 X 1t + 2 X 2t
Verifica-se que 0 = 12 .
Vejamos, a seguir, como as estimativas dos parmetros da equao de demanda
poderiam ser obtidas pelo mtodo de mnimos quadrados em dois estgios.
No primeiro estgio, obtemos a regresso de y 2 t (a varivel endgena que
A seguir obtemos
1
= ( XX) Xy 2 = 1
1
3,5
3,5
1,5
1,5
ou y 2 = X =
3,5
3,5
1,5
1,5
337
1 = ( Z 1 Z 1 ) 1 Z 1 y 1
Obtemos
y 22t x1t y 2t x 2 t y 2t 58 40 10
Z 1 Z 1 = x1t y 2 t x12t x1t x 2 t = 40 40 8 ,
x 2t y 2t x1t x 2t x 22t 10 8 2
1 0 5 y1t y 2t 42
1 y = x y = 56
(Z 1 Z 1 ) 1
= 0 1 4 e Z 1 1 1t 1t
8
5 4 45 x 2t y1t 10
Ento
1 1
1 = 2 = 2
3 2
(y 1 Z 1 1 )(y 1 Z1 1 )
s12 =
n N1
Temos n = 8, N1 = 4 e
1
1
1
1
y 1 Z 11 =
1
1
1
1
Ento
8
s12 = =2
4
e a matriz das estimativas das varincias e covarincias assintticas de 1 , 2 e 3
338
1 5
4 0
4
0 1
1
4
5 45
1
4 4
Z ) 1 Z y
2 = ( Z 2 2 2 1
Obtemos
y 22t x3 y 2t 58 4
Z2Z2 =
= ,
x3 y 2t x32t 4 4
1 2 2 y = y1t y 2t = 42
(Z 2 Z 2 ) 1 = e Z
108 2
x3t y1t 12
2 1
29
Ento
1
2 = 1 =
2 4
Y1t = Y2t + 4 X 3t
339
Verifica-se que 0 = 0
Z 1 2 2 2
2 2) 2 = 2
(Z 1 2
108 2 29
(y 1 Z 2 2 )(y 1 Z 2 2 )
s 22 =
n N2
Temos n = 8, N 2 = 3 e
1
1
1
1
y1 Z 2 2 =
1
1
1
1
assintticas de 1 e 2
4 4
135 135
4 58
135 135
E (uu ) = I 2
E ( X u ) = 0 ,
340
Entretanto, freqentemente uma ou mais dessas pressuposies no so
obedecidas. Consideremos 2 casos gerais:
E (uu ) = V 2 , com V I
= ( X V 1 X) 1 X V 1 y ,
mesma observao (u t ) .
Exemplo disso um modelo com variveis defasadas
Yt = + X t + Yt 1 + u t ,
341
Nessa situao o estimador de mnimos quadrados ordinrios inconsistente.
Isto ocorre, por exemplo, quando variveis importantes no so includas no
modelo, quando h erros de observao nas variveis independentes e no caso de
sistemas de equaes simultneas.
Exerccios
9.1. Considere um modelo muito simples de determinao da renda nacional, constitudo por
apenas duas equaes simultneas:
Ct = + Yt + u t
Yt = Ct + Z t
As variveis endgenas so a renda nacional ( Yt ) e a despesa com consumo (
correlacionada com u t ).
Ct Yt Zt
14 15 1
12 15 3
20 25 5
38 45 7
t .
a) Analise a identificao de cada equao.
b) Quando a equao for identificvel, obtenha estimativas (apropriadas) dos
seus parmetros.
c) Teste, ao nvel de significncia de 5%, a hiptese de que = 0 , contra a
hiptese alternativa de que > 0 .
1
plim u t t < 0 . Admite-se, tambm que u t e t no so assintoticamente
n
correlacionados com Z t e que o erro de uma observao ( u t ou t )
343
Pode-se verificar que
Yt = 400 X t = 120 Z t = 90
Y = 40 X = 12 Z =9
Yt 2 = 21016 X t2 = 1788 Z t2 = 1060
344
X 1t X 2t Y1t Y2t
1 1 2 1
1 1 1 3
3 3 4 1
3 3 3 3
5 3 3 3
5 3 5 3
7 1 2 5
7 1 4 5
Y2t = + Y1t + u 2 t
onde X t uma varivel exgena, Y1t e Y2t so variveis endgenas e os erros u1t
Xt Y1t Y2t
10 26 120
10 22 96
2 6 35
10 18 81
345
9.6. Considere o seguinte modelo (extremamente simples) de determinao da renda
nacional (Y1t ) e do consumo (Y2t ) , com duas equaes:
com o erro ut .
Zt Y1t Y2t
10 60 50
12 68 56
10 64 54
11 76 65
12 72 60
t .
a) Analise a identificao de cada equao.
b) Quando a equao for identificvel, obtenha estimativas consistentes dos seus
parmetros.
c) Se possvel, obtenha uma estimativa do desvio padro da estimativa de .
346
9.8. Considere o seguinte sistema de equaes simultneas, no qual Y1 e Y2 so
347
X 1t X 2t X 3t Y1t Y2t
5 130 30 18,5 7,5
6 110 20 20,0 8,0
7 120 26 19,5 7,5
7 120 26 18,5 8,5
8 110 30 19,5 12,5
9 130 24 24,0 10,0
X 01 X 11 K X k1 0
X X 12 K
X k2
X = 02 e =
1
M M M M
X 0n X 1n K X kn k
Admite-se que:
a) E (vt ) = E (u t ) = E (vt vt + h ) = E (u t u t + h ) = 0 para h 0.
1
b) E (vt2 ) = plim vt2 = v2
n
348
1
c) E (u t2 ) = plim u t2 = u2
n
1
d) E (u t v t ) = plim u t vt = uv2
n
1 1
e) plim X u = plim X v = 0
n n
1
f) plim X X = Q
n
Seja c = (y 1 y 2 ) /(y 2 y 2 ) o estimador de mnimos quadrados ordinrios de .
Mostre que
1 1
Xv + u v
c=+ n n
1 2 1
XX + Xu + u u
n n n
e que
uv2
plim c = +
Q + u2
neste caso, o modelo dado constituiria um sistema recursivo (Ver Johnston, 1972,
p. 377-380 ou Wonnacott e Wonnacott, 1876, p. 180-182).
Verifique que o estimador de mnimos quadrados em dois estgio de
y 2 Ny1
= , onde N = X( XX) 1 X
y 2 Ny 2
Mostre que
1
1 1 1 1
Xv + u X XX Xv
= + n n n n
1
1 1 1 1 1
XX + 2 Xu + u X XX Xu
n n n n n
e que plim = , se Q 0 .
Respostas
9.1. a) b = 5 / 6 = 0,833 e a = 1 / 6 = 0,167
b) = 0,8 e = 1
349
c) So estimadores inconsistentes, com b tendendo a superestimar .
9.2. a) A 1a equao exatamente identificvel. A segunda equao no tem varivel
endgena no segundo membro e, consequentemente, identificvel e pode ser
estimada por mnimos quadrados ordinrios.
b) Y2 = 33 Y1 e Y1 = 4 + 3 X
c) t = 6,364, significativo (a regio de rejeio t 2,920 ).
s12 = 1,6
c) 2 = 0,5 ; 2 = 0,5 ; 2 = 1
s12 = 1,6
9.5. c = 11 e d = 4
9.6. a) b = 0,9 b) Estimador inconsistente, tendendo a superestimar .
c) = 0,75 e = 6 s) s ( ) = 0,1768
c) s ( ) = 0,433
350
b) = 5 e = 2
9.9. a) H superidentificao se 2 0 e 3 0 .
b) exatamente identificvel se 2 0 .
c) Equao de demanda estimada
Y1 = 15 Y2 + 2 X 1
s12 = 4
1 160 152
259 152 248
d) Equao de oferta estimada:
Y1 = Y2 + 0,2 X 2 0,5 X 3
s 22 = 1
351
10. SRIES TEMPORAIS
10.1. Processos estocsticos
352
Y(t)
b) as varincias t2 = V [Y (t )] = E[Y (t ) (t )] 2
Note que t2 = (t , t )
Um processo estocstico estritamente estacionrio se as distribuies
conjuntas de Y (t1 ) , Y (t 2 ) , ..., Y (t n ) no so afetadas por translaes no tempo, isto ,
353
se a distribuio conjunta de Y (t1 ) , Y (t 2 ) , ..., Y (t n ) idntica distribuio conjunta
de Y (t1 + k ) , Y (t 2 + k ) , ..., Y (t n + k ) .
No caso de um processo estacionrio, a escolha da origem no eixo t no afeta
nenhuma caracterstica do processo.
Na prtica impossvel conhecer todas as distribuies conjuntas de Y (t1 ) ,
Denomina-se rudo branco uma srie temporal (at ) com mdia igual a zero,
varincia constante e sem covarincia entre valores referentes a dois momentos
distintos, isto ,
E (a t ) = 0
E ( a t2 ) = a2
k = cov(at , at +k ) = 0 para k 0
354
10.3. Modelos de regresso
Yt = Dt S t at
Uma exposio da tcnica usada para separar o componente estacional pode ser
encontrada no captulo 20 do livro Estatstica para Economistas (Hoffmann, 2006).
355
Jenkins, intitulado Time Series Analysis: Forecasting and Control, cuja 1a edio foi
publicada em 1970. H uma 3a edio, com Reinsel como novo co-autor, publicada em
1994.
O modelo de um processo auto-regressivo de primeira ordem, indicado por
AR (1) ,
Yt = + Yt 1 + a t , (10.1)
ou
ou, sinteticamente,
( B)Yt = + a t
Por definio, o modelo de um processo de mdias mveis de primeira ordem,
indicado por MA(1) (devido expresso em ingls moving average),
Yt = + a t a t 1 (10.3)
ou
Yt = + (1 1 B 2 B 2 ... q B q )at (10.4)
ou
Yt = + ( B)a t
356
Combinando (10.2) e (10.4) obtemos o modelo de um ARMA ( p, q ) :
Yt 1 = + Yt 2 + at 1
Yt = + + 2 Yt 2 + a t + a t 1
Yt = + + 2 + 3Yt 3 + a t + at 1 + 2 a t 2
m)
Yt = + a t + at 1 + 2 at 2 + ... (10.7)
1
Como a t um rudo branco, obtemos
E (Yt ) = (10.8)
1
e
V (Yt ) = (1 + 2 + 4 + ...) a2
ou
1
V (Yt ) = a2 (10.9)
1 2
Pode-se verificar que
357
k
cov(Yt , Yt k ) = a2 = k (10.10)
1 2
As expresses (10.8), (10.9) e (10.10) mostram que um AR (1) com < 1 tem
Yt = Yt 1 + + at (10.11)
Yt = Yt 1 + a t (10.12)
Y2 = Y0 + 2 + a1 + a 2
e, generalizando,
t
Yt = Y0 + t + a j (10.13)
j =1
358
A expresso (10.13) mostra que E (Yt ) cresce linearmente com t e que a
varincia da parcela aleatria tambm cresce sempre com t, mostrando que um AR (1)
com = 1 no estacionrio.
Se substituirmos por , o modelo do passeio aleatrio com deslocamento fica
Yt = Yt 1 + + a t (10.14)
t
Se, alm disso, definirmos u t = a j , a expresso (10.13) fica
j =1
Yt = Y0 + t + u t (10.15)
Esse modelo enganadoramente semelhante ao modelo
Yt = + t + a t (10.16)
1 1 1 1 K 1
1 2 2 2 K 2
1 2 3 3 K 3
W= (10.17)
1 2 3 4 K 4
M M M M M
1 2 3 4 K n
Yt = Yt Yt 1 = + a t (10.18)
1 n
b=Z = Zt (10.19)
n 1 t =2
359
Pode-se verificar que
n n
Z t = (Yt Yt 1 ) = Yn Y1
t =2 t =2
Ento
Yn Y1
b= (10.20)
n 1
Essa equao mostra que a estimativa de depende apenas dos valores inicial e
final de Yt . Isso ocorre porque todas as variaes de Yt em perodos intermedirios
foram sendo acumuladas, sem nenhuma perda, e esto contidas no valor final Yn .
t=X Yt
1 10
2 11
3 17
4 19
360
xY 16,5
b= = = 3,3 (10.21)
x2 5
O quadrado mdio do resduo
58,75 54,45
s2 = = 2,15 (10.22)
2
Para testar a hiptese H 0 : = 0 calculamos
3,3
t= = 5,032 (10.23)
2,15
5
Ao nvel de significncia de 5%, o valor crtico de t 4,303. O resultado
significativo. A esse nvel de significncia, rejeita-se H 0 : = 0 .
Vamos admitir, agora, que a srie de 4 valores de Yt foi gerada pelo modelo
9
b=Z = =3 (10.24)
3
Pode-se verificar que o mesmo resultado obtido utilizando a expresso (10.20).
A estimativa de a2 dada por
z 2 14
s =
2
= =7 (10.25)
2 2
Lembrando a frmula para varincia de uma mdia, obtemos
7
V (b) = (10.26)
3
Para testar H 0 : = 0 , calculamos
3
t= = 1,964 (10.27)
7
3
O resultado no significativo. No se rejeita H 0 : = 0 .
361
1 1 1 1 1 1
1
2 1 2 2 2
X= W=
1 3 1 2 3 3
1 4 1 2 3 4
Verifica-se que
2 1 0 0
1 2 1 0
W 1 =
0 1 2 1
0 0 1 1
1 1 1 4 1
XW 1 X = ( X W 1 X) 1 =
1 4 3 1 1
10 7
XW 1y = b = ( XW 1 X) 1 XW 1 y =
19 3
1 1
s2 = ( y W 1 y b X W 1 y ) = (141 127) = 7
n2 2
A estimativa de igual a 3, reproduzindo o resultado obtido em (10.24), e a
estimativa da respectiva varincia 7/3, reproduzindo o resultado obtido em (10.26).
bvio que para testar H 0 : = 0 seria obtido o mesmo valor j calculado em (10.27).
mais simples. A finalidade da exposio foi deixar claro que quando se estima o
parmetro no modelo (10.15) fazendo uma regresso por mnimos quadrados
ordinrios o erro consiste em utilizar um procedimento inapropriado estrutura dos
erros u t , no havendo nenhuma incompatibilidade entre a anlise de sries temporais e
(1 B)Yt = + a t (10.28)
362
Se esse processo for estacionrio, isto , se < 1 , de acordo com a expresso
Yt = + a t + at 1 + 2 at 2 + K (10.29)
1
Cabe ressaltar que a relao (10.31) no permite concluir que a relao (10.30)
correta, pois B um operador, e no uma grandeza algbrica. Pode-se verificar,
entretanto, que, a relao (10.30) vlida sempre que < 1 .
(1 + B + 2 B 2 + K)Yt = + at (10.33)
1
Esse resultado mostra que um MA(1) um AR de ordem infinita cujos
coeficientes so todos potncias de .
Um MA(1) com < 1 denominado invertvel. H uma clara simetria formal
363
10.9. Raiz unitria e modelos ARIMA
(1 B)Yt = + a t
1 B = 0
1
B=
1 1 B 2 B 2 = 0
Neste caso as razes podem ser nmeros complexos e pode-se provar que a
condio de estacionariedade que as duas razes estejam fora do crculo unitrio (na
representao geomtrica dos nmeros complexos h vi em que h e v so,
respectivamente, a abscissa e a ordenada do ponto em um sistema de eixos cartesianos
ortogonais).
364
estacionria mas as diferenas Z t = Yt formarem uma srie estacionria, dizemos que
cov(Yt , Yt k )
k = (10.35)
V (Yt )V (Yt k )
k
k = (10.36)
0
A funo de autocorrelao da srie mostra como k varia com a defasagem k.
k = k , (10.37)
mostrando que neste caso o valor absoluto da autocorrelao cai exponencialmente com
a defasagem .
365
Yt = + at a t 1
1 = e k = 0 para k > 1 (10.38)
1+ 2
temos
ck
rk = , (10.39)
c0
com
1 n
ck = (Yt Y )(Yt k Y ) (10.40)
n t = k +1
366
10.11. Os testes de Dickey-Fuller
Yt = + ( 1)Yt 1 + at
Fazendo 1 = , obtemos
Yt = + Yt 1 + at (10.41)
Yt = + t + Yt 1 + at (10.43)
Os valores crticos (com sinal negativo, para lembrar que se trata de teste
unilateral esquerda) so apresentados na tabela 10.2
TABELA 10.2. Valores crticos do teste de Dickey-Fuller
Modelo Nvel de significncia
10% 5% 1%
Yt = Yt 1 + at 1,62 1,94 2,56
367
Vamos admitir que o modelo subjacente seja um AR(2):
(1 1 B 2 B 2 )Yt = + a t (10.44)
ou
Yt = + (1 + 2 1)Yt 1 + 2 Yt 1 + at
ou
Yt = + Yt 1 + 2 Yt 1 + at (10.46)
Vamos considerar que temos duas variveis econmicas, Y1t e Y2t , estreitamente
associadas entre si, sendo que ambas so I(1), isto , so integradas de primeira ordem.
interessante imaginar que Y1t e Y2t sejam os logaritmos dos preos de dois produtos
substitutos prximos no consumo, como o preo, no varejo, da lata de leo de milho e
da lata de leo de arroz. Outra alternativa imaginar que se trata dos logaritmos dos
preos de um mesmo produto em dois mercados prximos, como, por exemplo, o preo
do feijo em Curitiba e em So Paulo. Nestes casos, embora tanto Y1t como Y2t sejam
sries no-estacionrias, a diferena entre elas est limitada pela relao econmica
entre ambas. Se uma delas subir ela puxa a outra. A imagem fsica seria de um
elstico ou uma mola ligando as duas variveis.
368
Generalizando um pouco, vamos considerar duas variveis I(1) relacionadas pela
equao
Y2t = + Y1t + t (10.47)
Se o erro
t = Y2t Y1t (10.48)
for elevado, indicando que o valor de Y2t est relativamente elevado, Y2t tende a
e
Y1t = 1 (Y2 ,t 1 Y1,t 1 ) + u1t (10.50)
369
Y1t = 1 (Y2,t 1 Y1,t 1 ) + 11 Y1,t 1 + 12 Y2 ,t 1 + u1t (10.52)
370
TABELA 10.3. Valores crticos para o teste da estacionariedade do erro de uma equao
de co-integrao de duas variveis, incluindo termo constante.
Nvel de significncia
Equao incluindo
10% 5% 1%
Constante 3,04 3,34 3,90
Constante e tendncia 3,50 3,78 4,32
Fonte: Davidson e Mackinnon (1993).
O fato de a varivel utilizada na equao estimada para obter o valor do teste ser
o resduo da possvel equao de co-integrao faz com que, para a realizao do teste,
seja indiferente (assintoticamente) que o termo constante tenha sido includo na
primeira ou na segunda equao, o mesmo valendo para a incluso de uma tendncia.
testes para a srie dos Y1t obtemos = 3,88 , = 4,52 e = 4,42 , significativos
371
ao nvel de 1%, rejeitando-se a hiptese de raiz unitria na srie das diferenas. Conclui-
se que Y1t uma srie I(1).
= 6,90 , todos significativos a 1%. Conclumos que a srie Y2t tambm I(1).
Cabe ressaltar que a natureza artificial dos dados desse exemplo fez com que os
diversos testes conduzissem claramente construo de um modelo de correo de
erros. Na prtica, os resultados geralmente no so to evidentes e a construo de um
modelo apropriado vai depender bastante do discernimento do pesquisador, combinando
o conhecimento de tcnicas estatsticas, de teoria econmica e das qualidades e
limitaes dos dados utilizados.
372
Exerccios
10.1. Admite-se que a varivel Yt um passeio aleatrio com deslocamento:
Yt = Yt 1 + + t ,
10.2. dada uma srie de 5 valores consecutivos de Yt : 17, 20, 32, 38 e 41.
Admite-se que esses valores foram gerados pelo modelo
Yt = Yt 1 + + t ,
a) Estime .
b) Estime 2 .
c) Teste, ao nvel de significncia de 5%, a hiptese de que = 0 , contra a
hiptese alternativa de que > 0 .
10.3. Admite-se que a varivel Yt um passeio aleatrio com deslocamento:
Yt = Yt 1 + + t , (1)
O modelo (1) permite deduzir que Yt varia no tempo de acordo com a equao
Yt = + t + u t
E (uu ) = V 2 .
dada uma srie de 9 valores consecutivos de Yt (para t = 1, 2, ..., 9): 12, 12, 18,
27, 32, 33, 43, 49 e 60.
a) Quais os valores dos elementos v 22 e v 48 da matriz V?
373
10.4. Sendo at um rudo branco, verifique, para cada um dos modelos a seguir, se ele
gera um processo estacionrio ou no, justificando sumariamente sua resposta:
a) Yt = 18 2,3Yt 1 + a t
b) Yt = 144 + a t + 2at 1
c) Yt = 0,9Yt 1 + at
d) Yt = 7 + Yt 1 + a t
e) Yt = 11 + 1,8Yt 1 0,8Yt 2 + a1
Mostre, inicialmente, que essa equao pode ser escrita como
(1 0,8 B)(1 B)Yt = 11 + at
d) O que se pode concluir sobre a ordem de integrao das sries Y1t e Y2t ?
374
Respostas
10.1 a) b = 5, s 2 (b) = 2 , t = 3,536, significativo ( t 0 = 2,365 )
10.2. a) b = 6
b) s 2 = 18
c) t = 2,828, significativo (regio de rejeio: t 2,353)
10.3. a) v 22 = 2 e v 48 = 4
b) b = 6
c) t = 4,243, significativo ( t 0 = 3,499 )
Para a srie dos desvios dessa regresso obtm-se = 5,05 . Como o valor
crtico ao nvel de 1%, na tabela 10.3, 4,32, conclui-se que Y1t e Y2t so
sries co-integradas.
375
APNDICE
TABELA I. Distribuio de t de Student. Valor crtico t 0 tal que
P(t > t 0 ) = P(t < t 0 ) = / 2
Nmero de Nvel de significncia para o teste bilateral ()
Graus de
Liberdade 0,20 0,10 0,05 0,02 0,01 0,005
1 3,078 6,314 12,706 31,821 63,657 127,32
2 1,886 2,920 4,303 6,965 9,925 14,089
3 1,638 2,353 3,182 4,541 5,841 7,453
4 1,533 2,132 2,776 3,747 4,604 5,598
5 1,476 2,015 2,571 3,365 4,032 4,773
6 1,440 1,943 2,447 3,143 3,707 4,317
7 1,415 1,895 2,365 2,998 3,499 4,029
8 1,397 1,860 2,306 2,896 3,355 3,832
9 1,383 1,833 2,262 2,821 3,250 3,690
10 1,372 1,812 2,228 2,764 3,169 3,581
11 1,363 1,796 2,201 2,718 3,106 3,497
12 1,356 1,782 2,179 2,681 3,055 3,428
13 1,350 1,771 2,160 2,650 3,012 3,372
14 1,345 1,761 2,145 2,624 2,977 3,326
15 1,341 1,753 2,131 2,602 2,947 3,286
16 1,337 1,746 2,120 2,583 2,921 3,252
17 1,333 1,740 2,110 2,567 2,898 3,222
18 1,330 1,734 2,101 2,552 2,878 3,197
19 1,328 1,729 2,093 2,539 2,861 3,174
20 1,325 1,725 2,086 2,528 2,845 3,153
21 1,323 1,721 2,080 2,518 2,831 3,135
22 1,321 1,717 2,074 2,508 2,819 3,119
23 1,319 1,714 2,069 2,500 2,807 3,104
24 1,318 1,711 2,064 2,492 2,797 3,090
25 1,316 1,708 2,060 2,485 2,787 3,078
26 1,315 1,706 2,056 2,479 2,779 3,067
27 1,314 1,703 2,052 2,473 2,771 3,056
28 1,313 1,701 2,048 2,467 2,763 3,047
29 1,311 1,699 2,045 2,462 2,756 3,038
30 1,310 1,697 2,042 2,457 2,750 3,030
40 1,303 1,684 2,021 2,423 2,704 2,971
60 1,296 1,671 2,000 2,390 2,660 2,915
120 1,289 1,658 1,980 2,358 2,617 2,860
1,282 1,645 1,960 2,326 2,576 2,807
Interpolaes devem ser feitas com base nos recprocos dos graus de liberdade (interpolao harmnica).
Fonte: Theil (1971), p. 717, e Hoel (1968), p. 295.
376
TABELA II. Distribuio de qui-quadrado. Valor crtico 02 tal que
P ( k2 > 02 ) =
Nmero de
Graus de
Liberdade 0,995 0,975 0,050 0,025 0,010 0,005
(k)
1 3927.108 9821.107 3,841 5,024 6,635 7,879
2 0,010025 0,05064 5,991 7,378 9,210 10,60
3 0,07172 0,2158 7,815 9,348 11,34 12,84
4 0,2070 0,4844 9,488 11,14 13,28 14,86
5 0,4117 0,8312 11,07 12,83 15,09 16,75
6 0,6757 1,237 12,59 14,45 16,81 18,55
7 0,9893 1,690 14,07 16,01 18,48 20,28
8 1,344 2,180 15,51 17,53 20,09 21,96
9 1,735 2,700 16,92 19,02 21,67 23,59
10 2,156 3,247 18,31 20,48 23,21 25,19
11 2,603 3,816 19,68 21,92 24,72 26,76
12 3,074 4,404 21,03 23,34 26,22 28,30
13 3,565 5,009 22,36 24,74 27,69 29,82
14 4,075 5,629 23,68 26,12 29,14 31,32
15 4,601 6,262 25,00 27,49 30,58 32,80
16 5,142 6,908 26,30 28,85 32,00 34,27
17 5,697 7,564 27,59 30,19 33,41 35,72
18 6,265 8,231 28,87 31,53 34,81 37,16
19 6,844 8,907 30,14 32,85 36,19 38,58
20 7,434 9,591 31,41 34,17 37,57 40,00
21 8,034 10,28 32,67 35,48 38,93 41,40
22 8,643 10,98 33,92 36,78 40,29 42,80
23 9,260 11,69 35,17 38,08 41,64 44,18
24 9,886 12,40 36,42 39,36 42,98 45,56
25 10,52 13,12 37,65 40,65 44,31 46,93
377
TABELA III Distribuio de F. Valor crtico F0 tal que P( F > F0 ) = 0,01 .
No de graus de Nmero de graus de liberdade do numerador
liberdade do
denominador
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
1 4052 5000 5403 5625 5764 5859 5928 5982 6022 6056 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 98,50 99,00 99,17 99,25 99,30 99,33 99,36 99,37 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,47 99,48 99,49 99,50
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,35 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,22 26,13
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,56 13,46
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,11 9,02
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,97 6,88
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,74 5,65
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,95 4,86
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,40 4,31
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,00 3,91
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,69 3,60
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,45 3,36
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,25 3,17
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,09 3,00
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,96 2,87
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,84 4,75
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,75 2,65
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,66 2,57
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,58 2,49
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,52 2,42
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,46 2,36
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,40 2,31
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,35 2,26
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,31 2,21
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,27 2,17
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,11 2,01
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,92 1,80
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,73 1,60
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,53 1,38
6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,32 1,00
Interpolaes devem ser feitas com base nos recprocos dos graus de liberdade (interpolao harmnica).
Fonte: Christ (1966, p. 671) e Pimentel Gomes (1966, p. 408-409).
378
TABELA IV Distribuio de F. Valor crtico F0 tal que P( F > F0 ) = 0,05 .
No de graus de Nmero de graus de liberdade do numerador
liberdade do
denominador
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
1 161 200 216 225 230 234 237 239 241 242 244 246 248 249 250 251 252 253 254
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4.62 4,56 4,53 4,50 4,46 4,43 4,40 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,70 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,75 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,58 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,45 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,25 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,18 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,11 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,06 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,01 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,97 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,93 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,90 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,87 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,84 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
24 4,26 2,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,79 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,77 1,71
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,68 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58 1,51
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47 1,39
120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35 1,25
3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,22 1,00
Interpolaes devem ser feitas com base nos recprocos dos graus de liberdade (interpolao harmnica).
Fonte: Christ (1966, p. 670) e Pimentel Gomes (1966, p. 406-407).
379
Tabela V. Distribuio de F. Valor crtico F0 tal que P( F > F0 ) = 0,10 .
No de graus de Nmero de graus de liberdade do numerador
liberdade do
denominador 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120
1 39,9 49,5 53,6 55,8 57,2 58,2 58,9 59,4 59,9 60,2 60,7 61,2 61,7 62,0 62,3 62,5 62,8 63,1 63,3
2 8,53 9,00 9,16 9,24 9,29 9,33 9,35 9,37 9,38 9,39 9,41 9,42 9,44 9,45 9,46 9,47 9,47 9,48 9,49
3 5,54 5,46 5,39 5,34 5,31 5,28 5,27 5,25 5,24 5,23 5,22 5,20 5,18 5,18 5,17 5,16 5,15 5,14 5,13
4 4,54 4,32 4,19 4,11 4,05 4,01 3,98 3,95 3,94 3,92 3,90 3,87 3,84 3,83 3,82 3,80 3,79 3,78 3,76
5 4,06 3,78 3,62 3,52 3,45 3,40 3,37 3,34 3,32 3,30 3,27 3,24 3,21 3,19 3,17 3,16 3,14 3,12 3,10
6 3,78 3,46 3,29 3,18 3,11 3,05 3,01 2,98 2,96 2,94 2,90 2,87 2,84 2,82 2,80 2,78 2,76 2,74 2,72
7 3,59 3,26 3,07 2,96 2,88 2,83 2,78 2,75 2,72 2,70 2,67 2,63 2,59 2,58 2,56 2,54 2,51 2,49 2,47
8 3,46 3,11 2,92 2,81 2,73 2,67 2,62 2,59 2,56 2,54 2,50 2,46 2,42 2,40 2,38 2,36 2,34 2,32 2,29
9 3,36 3,01 2,81 2,69 2,61 2,55 2,51 2,47 2,44 2,42 2,38 2,34 2,30 2,28 2,25 2,23 2,21 2,18 2,16
10 3,29 2,92 2,73 2,61 2,52 2,46 2,41 2,38 2,35 2,32 2,28 2,24 2,20 2,18 2,16 2,13 2,11 2,08 2,06
11 3,23 2,86 2,66 2,54 2,45 2,39 2,34 2,30 2,27 2,25 2,21 2,17 2,12 2,10 2,08 2,05 2,03 2,00 1,97
12 3,18 2,81 2,61 2,48 2,39 2,33 2,28 2,24 2,21 2,19 2,15 2,10 2,06 2,04 2,01 1,99 1,96 1,93 1,90
13 3,14 2,76 2,56 2,43 2,35 2,28 2,23 2,20 2,16 2,14 2,10 2,05 2,01 1,98 1,96 1,93 1,90 1,88 1,85
14 3,10 2,73 2,52 2,39 2,31 2,24 2,19 2,15 2,12 2,10 2,05 2,01 1,96 1,94 1,91 1,89 1,86 1,83 1,80
15 3,07 2,70 2,49 2,36 2,27 2,21 2,16 2,12 2,09 2,06 2,02 1,97 1,92 1,90 1,87 1,85 1,82 1,79 1,76
16 3,05 2,67 2,46 2,33 2,24 2,18 2,13 2,09 2,06 2,03 1,99 1,94 1,89 1,87 1,84 1,81 1,78 1,75 1,72
17 3,03 2,64 2,44 2,31 2,22 2,15 2,10 2,06 2,03 2,00 1,96 1,91 1,86 1,84 1,81 1,78 1,75 1,72 1,69
18 3,01 2,62 2,42 2,29 2,20 2,13 2,08 2,04 2,00 1,98 1,93 1,89 1,84 1,81 1,78 1,75 1,72 1,69 1,66
19 2,99 2,61 2,40 2,27 2,18 2,11 2,06 2,02 1,98 1,96 1,91 1,86 1,81 1,79 1,76 1,73 1,70 1,67 1,63
20 2,97 2,59 2,38 2,25 2,16 2,09 2,04 2,00 1,96 1,94 1,89 1,84 1,79 1,77 1,74 1,71 1,68 1,64 1,61
21 2,96 2,57 2,36 2,23 2,14 2,08 2,02 1,98 1,95 1,92 1,88 1,83 1,78 1,75 1,72 1,69 1,66 1,62 1,59
22 2,95 2,56 2,35 2,22 2,13 2,06 2,01 1,97 1,93 1,90 1,86 1,81 1,76 1,73 1,70 1,67 1,64 1,60 1,57
23 2,94 2,55 2,34 2,21 2,11 2,05 1,99 1,95 1,92 1,89 1,84 1,80 1,74 1,72 1,69 1,66 1,62 1,59 1,55
24 2,93 2,54 2,33 2,19 2,10 2,04 1,98 1,94 1,91 1,88 1,83 1,78 1,73 1,70 1,67 1,64 1,61 1,57 1,53
25 2,92 2,53 2,32 2,18 2,09 2,02 1,97 1,93 1,89 1,87 1,82 1,77 1,72 1,69 1,66 1,63 1,59 1,56 1,52
26 2,91 2,52 2,31 2,17 2,08 2,01 1,96 1,92 1,88 1,86 1,81 1,76 1,71 1,68 1,65 1,61 1,58 1,54 1,50
27 2,90 2,51 2,30 2,17 2,07 2,00 1,95 1,91 1,87 1,85 1,80 1,75 1,70 1,67 1,64 1,60 1,57 1,53 1,49
28 2,89 2,50 2,29 2,16 2,06 2,00 1,94 1,90 1,87 1,84 1,79 1,74 1,69 1,66 1,63 1,59 1,56 1,52 1,48
29 2,89 2,50 2,28 2,15 2,06 1,99 1,93 1,89 1,86 1,83 1,78 1,73 1,68 1,65 1,62 1,58 1,55 1,51 1,47
30 2,88 2,49 2,28 2,14 2,05 1,98 1,93 1,88 1,85 1,82 1,77 1,72 1,67 1,64 1,61 1,57 1,54 1,50 1,46
40 2,84 2,44 2,23 2,09 2,00 1,93 1,87 1,83 1,79 1,76 1,71 1,66 1,61 1,57 1,54 1,51 1,47 1,42 1,38
60 2,79 2,39 2,18 2,04 1,95 1,87 1,82 1,77 1,74 1,71 1,66 1,60 1,54 1,51 1,48 1,44 1,40 1,35 1,29
120 2,75 2,35 2,13 1,99 1,90 1,82 1,77 1,72 1,68 1,65 1,60 1,55 1,48 1,45 1,41 1,37 1,32 1,26 1,19
2,71 2,30 2,08 1,94 1,85 1,77 1,72 1,67 1,63 1,60 1,55 1,49 1,42 1,38 1,34 1,30 1,24 1,17 1,00
Interpolaes devem ser feitas com base nos recprocos dos graus de liberdade (interpolao harmnica).
Fonte: Scheff (1959), p. 424-425.
380
ANLISE DE REGRESSO Uma Introduo Econometria
Tabela VI. Valores crticos do teste de Durbin-Watson para o nvel de significncia de 5%.
No de Nmero de variveis explanatrias
obser- k =1 k=2 k=3 k=4 k=5
vaes
(n) dL dU dL dU dL dU dL dU dL dU
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
16 1,10 1,37 0,98 1,54 0,86 1,73 0,74 1,93 0,62 2,15
17 1,13 1,38 1,02 1,54 0,90 1,71 0,78 1,90 0,67 2,10
18 1,16 1,39 1,05 1,53 0,93 1,69 0,82 1,87 0,71 2,06
19 1,18 1,40 1,08 1,53 0,97 1,68 0,86 1,85 0,75 2,02
20 1,20 1,41 1,10 1,54 1,00 1,68 0,90 1,83 0,79 1,99
21 1,22 1,42 1,13 1,54 1,03 1,67 0,93 1,81 0,83 1,96
22 1,24 1,43 1,15 1,54 1,05 1,66 0,96 1,80 0,86 1,94
23 1,26 1,44 1,17 1,54 1,08 1,66 0,99 1,79 0,90 1,92
24 1,27 1,45 1,19 1,55 1,10 1,66 1,01 1,78 0,93 1,90
25 1,29 1,45 1,21 1,55 1,12 1,66 1,04 1,77 0,95 1,89
26 1,30 1,46 1,22 1,55 1,14 1,65 1,06 1,76 0,98 1,88
27 1,32 1,47 1,24 1,56 1,16 1,65 1,08 1,76 1,01 1,86
28 1,33 1,48 1,26 1,56 1,18 1,65 1,10 1,75 1,03 1,85
29 1,34 1,48 1,27 1,56 1,20 1,65 1,12 1,74 1,05 1,84
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
31 1,36 1,50 1,30 1,57 1,23 1,65 1,16 1,74 1,09 1,83
32 1,37 1,50 1,31 1,57 1,24 1,65 1,18 1,73 1,11 1,82
33 1,38 1,51 1,32 1,58 1,26 1,65 1,19 1,73 1,13 1,81
34 1,39 1,51 1,33 1,58 1,27 1,65 1,21 1,73 1,15 1,81
35 1,40 1,52 1,34 1,58 1,28 1,65 1,22 1,73 1,16 1,80
36 1,41 1,52 1,35 1,59 1,29 1,65 1,24 1,73 1,18 1,80
37 1,42 1,53 1,36 1,59 1,31 1,66 1,25 1,72 1,19 1,80
38 1,43 1,54 1,37 1,59 1,32 1,66 1,26 1,72 1,21 1,79
39 1,43 1,54 1,38 1,60 1,33 1,66 1,27 1,72 1,22 1,79
40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79
45 1,48 1,57 1,43 1,62 1,38 1,67 1,34 1,72 1,29 1,78
50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77
55 1,53 1,60 1,49 1,64 1,45 1,68 1,41 1,72 1,38 1,77
60 1,55 1,62 1,51 1,65 1,48 1,69 1,44 1,73 1,41 1,77
65 1,57 1,63 1,54 1,66 1,50 1,70 1,47 1,73 1,44 1,77
70 1,58 1,64 1,55 1,67 1,52 1,70 1,49 1,74 1,46 1,77
75 1,60 1,65 1,57 1,68 1,54 1,71 1,51 1,74 1,49 1,77
80 1,61 1,66 1,59 1,69 1,56 1,72 1,53 1,74 1,51 1,77
85 1,62 1,67 1,60 1,70 1,57 1,72 1,55 1,75 1,52 1,77
90 1,63 1,68 1,61 1,70 1,59 1,73 1,57 1,75 1,54 1,78
95 1,64 1,69 1,62 1,71 1,60 1,73 1,58 1,75 1,56 1,78
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,57 1,78
Fonte: Johnston (1972), p. 430.
381
ANLISE DE REGRESSO Uma Introduo Econometria
382
ANLISE DE REGRESSO Uma Introduo Econometria
BIBLIOGRAFIA
BARTLETT, M.S. (1949). Fitting a Straight Line when Both Variables are subject to
Error. Biometrics, 5: 207-242.
CARTER, H.O. e HARTLEY, H.O. (1958). A Variance Formula for Marginal Productivity
Estimates Using the Cobb-Douglas Function. Econometrica, 26: 306-313.
CHRIST, C.F. (1966). Econometric Models and Methods. New York, John Wiley.
CROXTON, F.E. e COWDEN, D.J. (1955). Apllied General Statistics. New York,
Prentice-Hall.
DRAPER, N. e SMITH, H. (1966). Applied Regression Analysis. New York, John Wiley.
ENDERS, W. (1995). Applied Econometric Time Series. New York, John Wiley.
GLEJSER, H. (1969). A New Test for Heteroscedasticity. J. Am. Statist. Assoc., 64: 316-
323.
GOLDFELD, S.M. e QUANDT, R.E. (1965). Some Tests for Homoscedasticity. J. Am.
Statist. Assoc., 60: 539-547.
383
ANLISE DE REGRESSO Uma Introduo Econometria
HEADY, E.O. e DILLON, J.L. (1961). Agricultural Production Functions. Ames, Iowa
State University Press.
HILL, R.C.; GRIFFITHS, W.E. e JUDGE, G.G. (2003). Econometria. 2a ed. So Paulo,
Editora Saraiva.
HOEL, P.G. (1962). Introduction to Mathematical Statistics, 3aed. New York, John Wiley.
HOEL, P.G. (1968). Estatstica Elementar, 2a ed. Rio de Janeiro, Fundo de Cultura.
HOOD, W.C. e KOOPMANS, T.C., ed. (1953). Studies in Econometric Method. New
Haven, Yale University Press.
HUANG, D.S. (1970). Regression and Econometric Methods. New York, John Wiley.
384
ANLISE DE REGRESSO Uma Introduo Econometria
SILVA LEME, R.A. da (1965). Curso de Estatstica. 2a ed. Rio de Janeiro, Livro Tcnico.
WALD, A. (1940). The Fitting of Straight Lines in both Variables are Subject to Error.
Ann. Math. Statist., 11:284-300.
WALLIS, K.F. (1967). Lagged Dependent Variables and Serially Correlated Errors: A
Reappraisal of three-Pass Least Squares. Rev. Economics and Statistics, 49:555-567.
385
ANLISE DE REGRESSO Uma Introduo Econometria
YAMANE, T. (1967). Statistics, an Introductory Analysis. 2a ed. New York, Harper and
Row.
YULE, G.U. e KENDALL, M.G. (1940). An introduction to the Theory of Statistics. 12a
ed. London, Griffin.
386
ANLISE DE REGRESSO Uma Introduo Econometria
NDICE ANALTICO
A
ADF, 368
Anamorfose, 77-79, 173
AR (p), 356
ARIMA (p, d, q), 365
ARMA (p, q), 357
Auto-regressivo, 356
Autocorrelao, 46, 278
B
Bartlett, 303, 383
Basmann, 328
Binria (ver Varivel binria)
Box, 355, 383
Breusch-Pagan/Godfrey, 265
C
Chebyshev, 28
Christ, 378, 379, 383
Cochran, 13, 383
Coeficiente de correlao
parcial, 146-153
simples, 103-104, 186
Coeficiente de determinao, 61, 68, 105, 129-130
Coeficiente de determinao parcial, 150-153
Coeficiente de variao, 68-69
Consistente (ver Estimador consistente)
Co-integrao, 368-371
Convergncia em mdia quadrtica, 28
387
ANLISE DE REGRESSO Uma Introduo Econometria
Convergncia em probabilidade, 26
Covarincia
Definio, 6
Propriedades, 10
Cramr-Rao, 32-34
D
Davidson, 268, 367, 371, 383
Desigualdade de Chebyshev, 28
Draper, 232, 285, 383
DSP, 360
Dummy variable (ver Varivel binria)
Durbin-Watson, 284-286, 381, 382
Dickey-Fuller, 367-368
E
Econometria, 1
Eficincia relativa, 16
Engle, 370, 383
Equaes estruturais, 309, 318-319
Erro tipo I, 34
Erro tipo II, 34
Especificao, 77-79, 168-171
Esperana matemtica
Definio, 5
Propriedades, 5
Estimador
assintoticamente eficiente, 25-26
assintoticamente no-tendencioso, 25
consistente, 27, 31, 291-294
de mxima verossimilhana, 21-24, 32-34, 80
de mnimos quadrados, 19-21
388
ANLISE DE REGRESSO Uma Introduo Econometria
F
Falta de ajustamento, 236-239
Forma reduzida (de um sistema de equaes simultneas), 309, 319
G
Gauss-Markov, 60, 121
Glejser, 264-265
Goldfeld, 263-266
Granger, 370, 383
H
Heterocedasticia, 46, 254
Hiptese (ver teste de hipteses)
Hoel, 262, 285, 376, 384
Hoffmann, 4, 285, 355, 384
Homocedasticia, 44
Homocedsticos, 44, 120
I
Identificao, 321-327
Intervalo de confiana, 71, 73, 75-76, 129, 140-141
Intervalo de previso, 73-76, 141-142
389
ANLISE DE REGRESSO Uma Introduo Econometria
J
Jenkins, 356, 383
Johnston, 281, 285, 297, 304, 381, 382, 384
K
Kendall, 108, 386
L
Limite em probabilidade, 26
Limite inferior de Cramr-Rao, 32-34
M
Mackinnon, 268, 367, 371, 383
MA (q), 356
Matriz de varincias e covarincias, 124
Mdias mveis, 356
Mtodo
das variveis instrumentais (ver Varivel instrumental)
de mxima verossimilhana, 19, 21-24
dos mnimos quadrados, 19-21, 47, 121-123
dos mnimos quadrados em dois estgios, 315-317, 328-329
dos mnimos quadrados generalizados, 275-278
dos mnimos quadrados indiretos, 312-313
dos mnimos quadrados ordinrios, 256, 257-261, 282-283
dos mnimos quadrados ponderados, 46, 256-258
Modelo de correo de erros, 368-370
Modelo
Estatstico, 2-3
Matemtico, 1-2
390
ANLISE DE REGRESSO Uma Introduo Econometria
N
Nvel de significncia, 34-40
O
Ortogonalidade, 173, 182-183
P
Passeio aleatrio, 358
Perez, 304, 385
Pimentel Gomes, 378, 385
Poder do teste, 34
Poligonal, 226-229
Probabilidade caudal do teste, 67-71, 137, 138, 284
Processo estacionrio, 353-354
Processo estocstico, 352-353
Q
Quandt, 263-266
R
Raiz unitria, 364
Regresso linear mltipla, 120-121
Regresso linear simples, 44-47
Rudo branco, 354
391
ANLISE DE REGRESSO Uma Introduo Econometria
S
Scheff, 380, 385
Smith, 232, 285, 383
T
Teorema de Gauss-Markov (ver Gauss-Markov)
Teste de Breusch-Pagan/Godfrey, 265
Teste de Chow, 232
Teste de Dickey-Fuller, 367-368
Teste de Durbin-Watson, 284-286
Teste de Glejser, 264
Teste de Goldfeld e Quandt, 263-266
Teste de hipteses (conceitos bsicos), 34-40
Teste de hipteses no modelo linear, 157, 178-181
Teste de White, 266
Teste para falta de ajustamento (Ver Falta de ajustamento)
Teste para homocedasticia, 261-267
Theil, 33, 34, 263, 267, 281, 328, 376, 377, 385
Trajetria (de um processo estocstico), 352-353
TSP, 360
V
Varincia
Definio, 5-6
Propriedades, 6-7
Varincia assinttica, 25
Variveis conjuntamente determinadas, 317
Varivel
aleatria, 4-5
binria, 219-240
392
ANLISE DE REGRESSO Uma Introduo Econometria
W
Wald, 303, 385
White, 266-268, 385
Wonnacott, 191, 385
Y
Yule, 108, 386
393