Escolar Documentos
Profissional Documentos
Cultura Documentos
Unidade II
5 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)
O modelo de regressão linear simples (MRLS), no qual a variável Y é explicada pela variável X, foi
a base inicial da disciplina. Agora, iremos introduzir o modelo de regressão linear múltipla (MRLM), no
qual a variável Y pode ser explicada por mais de uma variável, pressupondo uma relação linear entre
cada uma das variáveis independentes e a variável dependente.
O modelo de regressão múltipla, por exemplo, com k variáveis independentes, é expresso na equação:
Em que:
y é a variável dependente;
Os parâmetros β1, β2, β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, novamente,
o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos β’s que minimizam a
soma dos quadrados dos erros.
5.1 Hipóteses
• Linearidade:
• Exogeneidade:
E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável explicativa sejam não correlacionados.
55
Unidade II
• Homocedasticidade:
Var[ei | x11, x21, x31, ... xki] = E[ei2 | x1i, x2i, x3i, ... xki] = σ2. A variância do erro é constante, igualdade de
variâncias, ou homocedasticidade. Requer que a variância dos erros (ei) seja constante em relação a todos
os valores de X, isto é, a variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando
X é um valor elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos
parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos
utilizar os modelos de mínimos quadrados ponderados ou as transformações de dados.
Cov[ei, ej | xi, xj] = E[ei, ej | xi, xj] = 0. O erro de uma observação não pode estar correlacionado com
o erro de outra observação. Portanto, covariância é igual a zero (o resultado em qualquer experimento
não tem efeito no termo do erro de qualquer outro experimento). Os erros (ei) devem ser independentes
entre si.
Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável explicativa
não é função linear perfeita da outra. Não podemos ter, por exemplo, x1 = 3x2 ou x3 = 2x1 + x2 .
3
Observação
56
ECONOMETRIA
Em que:
α = intercepto de Y;
Observação
A partir do resultado dos diversos testes, encontramos uma especificação de modelo que resista bem
a todos eles e pareça fazer sentido do ponto de vista da teoria e da experiência prévia do pesquisador –
nesta etapa atingimos o objetivo de uma representação “exata” da relação entre determinadas variáveis
no qual podemos utilizá-lo para fins de controle ou de formulação de políticas.
Os procedimentos de teste partem da definição de uma “hipótese nula” a ser testada (estimar a
probabilidade, na suposição de que a hipótese nula é verdadeira). Os testes de regressão são de três
tipos: de coeficientes, de resíduos e de estabilidade:
— Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam
ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas).
— Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas
sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas
na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as
variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer
o nível de explicação da variável dependente.
57
Unidade II
• Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis ao
longo do intervalo de estimativa:
— Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que podem
ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros
de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável
dependente quando os resíduos têm correlação serial.
A solução desse sistema (modelagem da regressão linear múltipla) se torna mais complexa do que a
estimação do parâmetro β do modelo de regressão linear simples.
Depois de atendidos os pressupostos (hipóteses) do MRLM pelo MMQO e estando ele já estimado,
seguiremos para o processo de concepção do modelo econométrico. Entre os diversos softwares
existentes no mercado, contaremos com o apoio da planilha Excel através da ferramenta Análise
58
ECONOMETRIA
de Dados, pois não há necessidade de elaborarmos os procedimentos de cálculos algébricos que são
complexos. Faz-se necessário, portanto, avaliar a adequação do modelo aos dados. Os parâmetros mais
relevantes para diagnóstico de modelos de regressão são R2, estatística t-Student, estatística F-Fisher,
p-valor e o coeficiente (β) de cada variável independente.
Observação
Vamos elaborar tais procedimentos com base em uma regressão múltipla padrão, aquela em que as variáveis
independentes são acrescidas uma a uma, cada uma delas sendo avaliada conforme o quanto adiciona ao poder
preditivo do modelo – poder de explicação do comportamento, da variação encontrada na variável dependente.
De forma direta, é o grau de variação alcançado no coeficiente de determinação R2(∆%R2), decorrente da retirada
de uma variável do conjunto de variáveis independentes consideradas no modelo.
O governo Collor, em março de 1990, desregulamentou o setor sucroalcooleiro, que por mais de
três décadas esteve sob tutela do estado, vindo este a ser o marco inicial para a sua entrada em um
regime de livre-mercado (condições mais competitivas, em especial o mercado de açúcar, por ser uma
commodity internacional).
A expectativa, principalmente pelo aumento acentuado das exportações brasileiras, era de que os
preços internos do açúcar no mercado doméstico passassem a ter correlação muito forte com os preços
do mercado externo.
59
Unidade II
Utilizando as técnicas de regressão linear pelo método dos mínimos quadrados, vamos analisar as hipóteses
com o intuito de extrair o máximo proveito possível dos dados a nossa disposição – neste caso, em especial, a
hipótese da sustentabilidade da expansão açucareira e a existência de relações significativas da evolução da
produção de açúcar (variável dependente), tendo como variável explicativa (independente) os preços dos mercados
externo e interno dos produtos finais da cana-de-açúcar (açúcar e etanol, respectivamente). Contextualizados
nesse modelo básico, conduzimos nossa investigação seguindo os procedimentos clássicos metodológicos da
Econometria (vide figura da metodologia de pesquisa econométrica anteriormente apresentada).
Nossa hipótese básica de trabalho está focada na existência de correlação entre a evolução da
produção de açúcar (Y) e as demais variáveis explicativas (X) em questão: a evolução de produção do
etanol hidratado e os preços do mercado externo de açúcar.
Observação
Após o modelo ter sido ajustado por metodologia adequada de regressão linear, é necessário
desenvolver os critérios adequados para que nossas expectativas teóricas estejam satisfeitas
(teoria e empiria: inferência estatística ou teste de hipótese do coeficiente de correlação e dos
parâmetros do modelo).
60
ECONOMETRIA
Observação
Partimos da premissa verdadeira de que o preço do mercado externo (dólar) é o grande formador de
preço do mercado interno.
A relação da produção de açúcar no Brasil (Y) com o preço do açúcar VHP no mercado externo (X)
tende a verificar a sensibilidade do incremento de produção aos preços praticados, isto é, o quanto a
variável preço no mercado externo explica a variação ou incremento da produção de açúcar. O que
se espera é que aumentos de preço no produto provoquem aumento na produção – como o açúcar
para exportação é negociado em dólar, isso representa mais reais para os vendedores no momento da
conversão de moedas –, o que explica a prioridade dada ao alimento em detrimento do etanol. Além disso,
a alta do açúcar está relacionada à elevação dos custos de produção no país e à queda de produtividade
das lavouras ligadas à baixa de investimentos do setor sucroenergético. O comportamento do mercado
internacional, pelo lado tanto da oferta como da demanda, influencia o comportamento dos preços –
por exemplo, problemas climáticos na Índia, um dos principais produtores mundiais de açúcar, tendem a
encarecer os produtos no mercado internacional. Com uma liquidez maior, o etanol terá uma produção
elevada, e isso diminui a produção de açúcar, contribuindo com o déficit do mercado internacional.
61
Unidade II
A elevação do preço do açúcar afeta diretamente o custo de alimentos como pães e doces, já
que o açúcar é o segundo item mais usado como matéria-prima da padaria, pois compõe quase
todos os produtos.
O aumento na energia elétrica e nos combustíveis é um dos fatores que mais impulsionaram o preço
do açúcar.
Entre os modelos de regressão que foram testados e analisados, usando o software Excel (opções
Análise de Dados e Regressão), conforme metodologia de investigação econométrica, serão apresentados
a seguir os procedimentos metodológicos de apenas dois modelos, sendo os mais significativos no que
se refere à regressão simples e à regressão múltipla. Repare que a tabela a seguir, apresentada pelo Excel,
fornece os mesmos valores já calculados (pelas fórmulas) anteriormente.
62
Tabela 11 – Análise da variância do modelo de regressão (Anova): produção de açúcar (Y)
63
Unidade II
Descrição e comentários:
Estatística de regressão
R múltiplo 0,8778 = raiz quadrada de R2
R-quadrado 0,7705 = coeficiente de determinação: R2 = 1 - (SQE / SQT)
R-quadrado ajustado 0,7450 = 1 - (1 - R2) * (n - 1) / (n - k - 1)
Erro-padrão 2.005,9137 = erro-padrão da regressão = raiz quadrada da variância estimada (residual)
Observações 11 = n é o número de observações (tamanho da amostra)
Cov ( X, Y ) =
∑ ( x − média de X ) × (y − média de Y)
n −1
183.300,23
Cov ( X, Y )
= = 18.330,02
10
64
ECONOMETRIA
O coeficiente de correlação mede o grau de relação entre duas variáveis. A correlação (representada
por r) está sempre entre -1 e 1. O valor -1 corresponde à correlação negativa perfeita e o valor de +1
corresponde à correlação positiva perfeita; já o coeficiente de correlação (zero) indica que as duas
variáveis não estão correlacionadas linearmente:
Cov(X, Y) 18.330,02
=r = ≅ 0,8778
σX σY 5,2569 × 3.972,3408
Vamos descrever e testar a significância da correlação entre duas variáveis quando os dados são
apresentados como pares ordenados, onde X é a variável independente ou explicativa e Y é a variável
dependente ou resposta. O gráfico de pares ordenados (x, y) é chamado de diagrama de dispersão, que
pode ser usado para determinar se existe uma correlação linear entre as duas variáveis. O que se espera
é que aumentos de preço no produto provoquem aumento na produção.
35.000
33.000
31.000
29.000
27.000
25.000
0 5 10 15 20 25 30
US$/saca de 50 kg
Figura 22 – Diagrama de dispersão: preço do açúcar VHP X produção do açúcar (período 2005-2015)
65
Unidade II
n∑xy − ∑x ∑y
r=
n∑x2 − ( ∑x )2 n∑y2 − ( ∑y )2
11 × 6.120.374,1 − 174,47 × 374.322,9
=
11 × 3.043,6 − (174,47) × 11 × 12.895.764.620,1 − ( 374.322,9)
2 2
2.015.998,74 2.015.998,74
= ≅ 0,8778
55,13 × 41.662,3 2.296.842,6
Precisamos determinar se existe evidência suficiente para decidir que o coeficiente de correlação
populacional ρ é representativo em um nível especificado de significância α (por exemplo, α = 0,01
significa que em 1% das vezes podemos dizer que o coeficiente de correlação populacional é significante
quando ele realmente não é, ou seja, é o erro que podemos cometer).
Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou bicaudal. O nosso interesse é no
teste bicaudal, a seguir especificado:
66
ECONOMETRIA
r r
=t =
σr 1 − r2
n−2
No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 0,8778.
Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01:
A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. Temos
11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -2,26 e 2,26 e as
regiões de rejeição são t < - 2,26 e t > 2,26. Com base no teste t, a estatística teste padronizada é:
r r 0,8778 0,8778
=t = = = ≅ 5,55
σr 1 r2
− 1 − ( 0,8778)
2 0,0638
n−2 9
O gráfico a seguir mostra a posição das regiões de rejeição e a estatística teste padronizada:
α α
2 2
-tc tc t
-2,26 +2,26
67
Unidade II
Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há
evidência suficiente para concluir que existe uma correlação linear significante entre o preço e a
produção de açúcar.
Observação
( Yˆ − média de Y )
2
=r2
∑
=
Variação explicada
∑ ( Y − média de Y )
2 Variação total
68
ECONOMETRIA
∑ ( Yˆ=
− média de Y )
2
121.581.704,10
=r2 ≅ 0,7705
∑ ( Y − média de Y )
2 V157.794.912,66
Esse resultado nos mostra que 77,05% das variações da variável dependente y podem ser explicadas
por variações da variável independente x.
A análise de correlação se dedica a inferências estatísticas das medidas de associação linear que
se seguem:
∑ ( yˆ i=
− y)
2
2 SQReg 121.581.704,10
=r = ≅ 0,7705
∑ ( yi − y )
2 SQRTot 157.794.912,66
Teremos uma relação de quanto o modelo de regressão está sendo útil para explicar toda a
variabilidade que aparece em cada uma das observações (é a porcentagem da variância total de y que é
explicada pela variável x). Veja o gráfico com dados do IBGE:
45.000 y = 663,29x + 23509
R2 = 0,7705
40.000
mil toneladas
35.000
30.000
25.000
0 5 10 15 20 25 30
US$/saca de 50 kg
Figura 24 – Ajuste da reta de regressão: preço do açúcar VHP X produção do açúcar (período 2005-2015)
69
Unidade II
n −1
raj2 =−
1 (1 − r2 ) ×
n − k − 1
Onde:
n = 11 (número de observações);
n −1 10
raj2 =1 − (1 − r2 ) × =1 − 1 − 0,7705) × =0,7450
n − k − 1 9
∑ ( yi − yˆ i )
2
se =
n−2
70
ECONOMETRIA
∑ ( yi − yˆ i )
22
36.213.208,56
=se = = 2.005,9137
n−2 9
Temos como erro-padrão da estimativa 2.006. Isso significa que o desvio-padrão da produção de
açúcar para um preço específico no mercado externo é de cerca de 2.006 mil toneladas.
Esse valor deve ser interpretado como um desvio-padrão; portanto, é medido na mesma unidade da
variável dependente y.
Com base nas fórmulas a seguir, podemos calcular, então, os coeficientes de regressão:
Sxy
b=
Sxx
a =y − bx =
∑y − b ∑x
n n
71
Unidade II
Em que, com base nos dados da tabela do resumo dos resultados, calculamos:
=∑xi 174,47
= ∑yi 374.322,9
= ∑xiyi 6.120.374,1
∑xi2 = 3.043,6 ∑yi2 = 12.895.764.620,1
( ∑xi )( ∑yi )
=
Sxy ∑xiyi − n
Sxy =
6.120.374,1 −
(174,47 × 374.322,9) =
183.272,61
11
( ∑x i ) 2
Sxx ∑i
= x2 −
n
=
Sxx =3.043,6 −
(174,47)
2
=276,35
11
( ∑yi )
2
=
Syy ∑ yi2 −
n
Syy= 12.895.764.620,1 −
( 374.322,9)
=
2
157.794.912,7
11
Valores ajustados
X
Xi
72
ECONOMETRIA
a =y − bx =
∑y − b ∑x =374.322,9 − 663,29 × 174,47 =
n n 11 11
95% 95%
Coeficientes Erro-padrão Stat t valor-P inferiores superiores
(dos (teste t-Student (limites do intervalo de
Prob. (tcrítico > t)
coeficientes) calculado) confiança)
Interseção (α) 23.508,98 2.007,15 11,71 0,0000009 18.968,50 28.049,46
Preço do açúcar
663,29 120,67 5,50 0,0003817 390,33 936,26
VHP (X1) (β)
Y = α + βX + e >>>>> Y = 23.508,98 + 663,29X
y^ = 23.508,98 + 663,29X
Observação
1 (média X )2
=
Sαˆ Se +
n Sxx
73
Unidade II
Onde:
( ∑xi )
2
Sxx =∑ xi2 −
n
=
Sxx =3.043,6 −
(174,47)
2
=276,3472
11
Portanto:
Se
Sβ =
Sxx
2.005,9137
=Sβ ≅ 120,67
276,3472
74
ECONOMETRIA
^
α β^ = 0
O gráfico mostra o não relacionamento entre X e Y. Portanto, para que possamos verificar se as
variáveis na população são mesmo relacionadas, devemos testar as seguintes hipóteses:
H1 : β ≠ 0 (teste bilateral).
Diferentes tipos de testes podem ser empregados para esse propósito. Uma das maneiras consiste
em elaborar um intervalo de confiança para o coeficiente angular β. Esse intervalo é definido como:
β^ - t . S β^ < β < β^ + t . S β^
Onde:
n = número de observações;
Temos:
Então podemos calcular o intervalo de confiança para β com 95% de confiança: ICβ (95%):
Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de
confiança de 95%.
Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. Caso o
intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro (5%), de que há
relação significativa entre as variáveis.
No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese nula
(H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação significativa entre as
variáveis na população.
β − β
t=
Sβ
Onde:
S β^ = erro-padrão e β^ .
β
t=
Sβ
Observação
O Excel dispõe da função estatística INVT, por meio da qual pode ser
obtido o valor do t crítico. No nosso caso, INVT(α; n - k - 1) = INVT(0,05; 9)
retorna o valor 2,26.
76
ECONOMETRIA
O valor t de Student pode ser interpretado como o número de desvios-padrões que o estimador
^β dista do ponto zero. Quanto maior for essa distância, maior será a chance de β^ ser diferente de 0,
portanto, garantindo a existência do modelo de regressão (relação entre X e Y).
β 663,29
=
t = = 5,50
Sβ 120,67
O valor de t crítico calculado no item anterior é de 2,26. Assim, concluímos que devemos rejeitar
a hipótese nula H0, pois o valor em módulo do t teste é maior do que o valor t crítico da tabela
(t = |5,50 | = 5,50 > 2,26).
α α
2 2
-2,26 0 +2,26 t
5,50
Região de Região de não Região de
rejeição rejeição ou rejeição
aceitação
Valor crítico Valor crítico
Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse valor,
vamos utilizar a função estatística do Excel (DISTT).
Onde:
• teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo);
77
Unidade II
O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa rejeitarmos a
hipótese nula (H0 : β = 0) de que não há associação entre X e Y.
A hipótese nula é: os valores de x não têm qualquer relacionamento com os valores de y. Veja:
H0 : β = 0;
H1 : β ≠ 0 (teste bilateral).
A hipótese nula é confirmada pela equação Y^i = a + bXi + ei, quando se constata que não haverá
qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero.
b−β
t=
∑ ( yi − yˆ ) / (n − 2)
2
∑ ( xi − x )
2
A equação tem distribuição t com n - 2 graus de liberdade. Assim, decorre que, se β = 0, então a
estatística será:
b
t=
∑ ( yi − yˆ ) / (n − 2)
2
∑ ( xi − x )
2
Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre duas
variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa
é aquela que contempla a regressão.
Hipótese nula H0 : β = 0
b
tobs =
∑ ( yi − yˆ ) / (n − 2)
2
Valor da estatística de teste
∑ ( xi − x )
2
No teste para β, calculamos a região crítica (RC) ao nível de significância de 5%. Podemos calcular
o valor dessa estatística:
b 663,29
=t = = 5,50
∑ ( yi − yˆ ) / (n − 2)
2
∑36.213.208,56 / (11 − 2)
276,35
∑ ( xi − x )
2
Para um teste bilateral no nível de significância de 5%, o valor crítico de uma distribuição t com
9 graus de liberdade é 2,26. Como 5,50 está na região de rejeição, bem acima do valor crítico, podemos
rejeitar com segurança a hipótese nula de que o coeficiente angular seja zero.
α α
2 2
-tc tc t
-2,26 +2,26
79
Unidade II
Exemplo: podemos usar essa equação para prever a expectativa de produção de açúcar com base no
preço a seguir: US$ 15,00.
Solução: devemos substituir cada renda em x na equação. Calculando o valor previsto y^:
Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas.
Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 25,00 dólares)
ou próximos a eles.
Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se que
x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de previsão para o
verdadeiro valor de y.
Observação
Duas variáveis terão uma distribuição normal bivariada se, para cada
valor fixo de x, os valores correspondentes de y tiverem distribuição
normal e, para cada valor fixo de y, os valores correspondentes de x
forem normalmente distribuídos.
Para construir o intervalo de previsão, usa-se uma distribuição t de Student com n - 2 graus de liberdade.
Portanto, dada uma equação de regressão linear y^ = a + bx e x0, um valor específico de x, podemos
construir um intervalo de previsão c para y:
y^ - E < y^ < y^ + E
Em que:
1 n(x 0 − x)2
=
E t c Se 1 + +
n n x2 −
∑ ∑x ( )2
A estimativa pontual é y^, e o erro máximo de estimativa é E. A equação anterior define o intervalo
de previsão para uma resposta individual, Y, em um determinado valor, x0.
80
ECONOMETRIA
Exemplo: construa um intervalo de previsão de 95% para as mil toneladas de açúcar produzidas
quando o preço no mercado externo for de US$ 15,00.
g.l. = n - 2 = 11 - 2 = 9
y^ = 23.508,98 + 663,29X
y^ = 33.458,33
tc = 2,26
O erro-padrão da estimativa é:
se = 2.005,9137
1 n(x 0 − x)2
=
E t c Se 1+ +
n n x2 −
∑ ∑x ( )2
1 11 × (15 − 15,86)2
E= (2,26 × 2.005,91) × 1 + +
11 3.039,82
E = 4.850,5
y^ - E < y^ < y^ + E
81
Unidade II
Portanto, pode-se ter 95% de confiança de que, se o preço do açúcar no mercado externo for de
US$ 15, a produção em mil toneladas estará entre R$ 28.608 e 38.309 mil toneladas.
Observação
100
80 Em xp = x^ a
amplitude do
60 intervalo de
40 confiança é menor
20 x^ = 14
x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de
um modelo de regressão.
82
ECONOMETRIA
Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são lineares
através de uma reta ajustada aos pontos observados. Entre as causas de autocorrelação, se erramos
na escolha da equação a ser ajustada aos pontos observados e em vez de escolhermos uma relação
não linear optamos por ajustar uma reta, o gráfico dos resíduos irá mostrar uma tendência positiva
(ou negativa), significando que uma outra função (não linear) deveria ser escolhida. Outra situação é
a seguinte: se por acaso uma variável explicativa (X) de grande importância for omitida do modelo, a
tendência dessa variável passará a constar, a refletir no comportamento do resíduo.
83
Unidade II
Resíduos
Observação
• se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da
reta de regressão é uniforme;
• se há ou não uma variável não identificada que deve ser incluída no modelo;
• se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem algum
efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo;
84
ECONOMETRIA
Inicialmente, iremos ressaltar uma representação gráfica que é obtida plotando os pares (xi, ei).
Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis causas que comprometem a
confiabilidade do modelo. A situação ideal para os resíduos é estarem distribuídos aleatoriamente em
torno do zero, sem nenhuma observação muito discrepante.
y - y^
Resíduo
0 Bom padrão
• descobrir se as hipóteses do modelo de regressão linear são válidas para o caso em questão;
• analisar se a correlação entre as duas variáveis é ou não forte, na qual utilizamos a relação
SQReg (1 − SQRes )
ou .
SQT SQT
85
Unidade II
Tomemos, pois, os resíduos das produções de açúcar em relação ao preço do mercado externo.
Podemos analisar a evolução dos resíduos para saber se a variância σ2 é ou não constante ao longo do
intervalo x, além de apresentar distribuição normal em torno da reta de regressão.
Temos, a seguir, os resíduos para cada valor de x observado e os gráficos de resíduos para analisarmos
a consistência das hipóteses do modelo de regressão, a partir de dados do IBGE:
SQRes 36.213.208,56
=S2 = = 4.023.689,84
n−2 9
Uma maneira simples de obtermos informações importantes sobre um modelo de regressão consiste
em elaborarmos um gráfico dos resíduos para cada ponto dos dados observados (Xi, Yi). Portanto,
calculamos o resíduo:
Outra maneira de obtermos informações preciosas sobre um modelo de regressão consiste em fazer
um gráfico dos resíduos. Para cada ponto dos dados (Xi e Yi), calculamos o resíduo. A equação da reta
estimada é a seguinte:
Y^ = 23.508,98 + 663,26X
86
ECONOMETRIA
Tabela 21 – Resíduos
Vamos elaborar o gráfico de dispersão, com os valores de Xi dispostos no eixo horizontal e os resíduos
ei ao longo do eixo vertical. Temos:
4.000,0
3.000,0
2.000,0
1.000,0
Resíduos
0
-1.000,0 5,0 10,0 15,0 20,0 25,0 30,0
-2.000,0
-3.000,0
-4.000,0 Preço açúcar VHP (x1)
Como podemos observar, os resíduos não se concentram acima ou abaixo da linha horizontal. Eles se
distribuem aleatoriamente ao longo da reta, pressupondo-se portanto que não há haja autocorrelação.
Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson.
87
Unidade II
Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve
mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva
ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem
nenhuma observação discrepante.
Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos resíduos,
um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com
base nos resíduos.
µ µ
0 0
x x
µ µ
0 0
x x
Conhecido como autocorrelação residual, existente nos exemplos dos gráficos anteriores,
esse pressuposto é às vezes violado quando os dados são coletados ao longo do tempo (períodos
sequenciais), e podem existir concentrações de resíduos com o mesmo sinal (autocorrelação positiva,
a mais frequente) ou quando os resíduos tendem a alternar de sinal – de positivo para negativo,
depois para positivo, e assim sucessivamente (autocorrelação negativa, mais rara) –, se existe de
fato um padrão cíclico.
88
ECONOMETRIA
0
x
Figura 36 – Resíduos
Como podemos observar no gráfico anterior, os resíduos não estão concentrados nem acima nem
abaixo da linha horizontal. Eles se encontram distribuídos aleatoriamente ao longo da reta, pressupondo-se
portanto que não haja autocorrelação. Para verificar se de fato não há correlação, utilizaremos o teste
Durbin-Watson.
A estatística de Durbin-Watson analisa a dispersão dos resíduos em torno da sua média. É um teste
utilizado para detectar se há presença significativa de autocorrelação entre os resíduos em um modelo
de regressão. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo
da observação anterior:
Segue-se a fórmula:
∑ i=2 ( ei − ei−1 )
n 2
DW = n
∑ i=1ei2
onde ei é o resíduo para o período de tempo i.
89
Unidade II
Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes
e apresentam maior erro-padrão.
• inércia;
• viés de especificação:
— falta de variáveis;
Seq. Ano Xi observado Yi observado Yi previsto ei = (Yi prev - Yiob) ei2 ei - 1 ei - ei - 1 (ei - ei - 1)2
1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55 8.943.375,88
2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65 8.217.663,21 -2.990,55 123,90 15.351,48
3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67 1.108.107,36 -2.866,65 3.919,31 15.361.018,06
4 2008/09 11,1508 31.620,2000 30.905,2 714,95 511.153,51 1.052,67 -337,72 114.052,62
5 2009/10 14,5258 33.074,7000 33.143,9 -69,16 4.783,50 714,95 -784,11 614.832,96
6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05 2.569.776.79 -69,16 1.672,22 2.796.303,61
7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69 3.915.219,38 1.603,05 -3.581,74 12.828.887,70
8 2012/13 23,3375 38.336,8761 38.988,6 -651,70 424.714,03 -1.978,69 1.326,99 1.760.903,66
9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52 7.532.403,18 -651,70 3.396,22 11.534.332,52
10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77 1.366.032,30 2.744,52 -1.575,75 2.482.983,50
11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78 1.619.979,43 1.168,77 104,01 10.818,14
∑ 0,00 36.213.208,56 -1.272,78 4.263,33 47.519.484,24
90
ECONOMETRIA
∑=
n
( e − ei−1 )
i=2 i
2
47.519.484,24
=DW n
≅ 1,31
∑ i=1ei2 36.213.208,56
Para determinarmos se a autocorrelação é grande o suficiente para que se conclua que existe uma
correlação positiva, devemos comparar o valor de DW calculado (DW = 1,31) aos valores críticos da
estatística de Durbin-Watson encontrados na tabela a seguir. Os valores críticos dependem do nível de
significância do teste (α) e de (n), o tamanho da amostra, e de (k), o número de variáveis independentes
no modelo de regressão.
K=1 K=2
n di du di du
6 0,610 1,400
7 0,700 1,356 0,467 1,896
8 0,763 1,332 0,559 1,777
9 0,824 1,320 0,629 1,699
10 0,879 1,320 0,697 1,641
11 0,927 1,324 0,758 1,604
12 0,971 1,331 0,812 1,579
13 1,010 1,340 0,861 1,562
14 1,045 1,350 0,905 1,551
15 1,077 1,361 0,946 1,543
16 1,106 1,371 0,982 1,539
17 1,133 1,381 1,015 1,536
18 1,158 1,391 1,046 1,535
19 1,180 1,401 1,074 1,536
20 1,201 1,411 1,100 1,537
0 di du 4 - du 4 - di 4
O primeiro valor, di = 0,927, representa o valor crítico inferior. Caso DW = 1,31 esteja abaixo de di,
conclui-se que existem evidências de autocorrelação positiva entre os resíduos (MMQ não é apropriado).
O segundo valor, du = 1,324, representa o valor crítico superior de DW, acima do qual se conclui que
não existe nenhuma evidência de autocorrelação positiva entre os resíduos.
91
Unidade II
Caso DW se posicione entre di e du, fica-se impossibilitado de se chegar a uma conclusão definitiva,
que é o nosso caso.
Como DW de 1,31 situa-se dentro desse intervalo, podemos aceitar a hipótese da ausência de
autocorrelação residual e, consequentemente, utilizar o método dos mínimos quadrados.
41.000
Prod. açúcar (mil toneladas)
39.000
37.000
35.000
33.000
31.000
29.000
27.000
25.000
0 20 40 60 80 100
Percentil da amostra
Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos resíduos
é igual a uma constante para todos os valores de X. A variância dos resíduos é indicada pela largura da
dispersão dos resíduos, quando o valor de x aumenta. Se essa largura aumentar ou diminuir quando o
valor de x aumentar, a variância não será constante. Esse problema é denominado heterocedasticidade.
A violação do pressuposto da homocedasticidade compromete a eficiência das estimativas do modelo de
92
ECONOMETRIA
regressão. A seguir, encontram-se dois gráficos que vão demonstrar a diferença entre homocedasticidade
e hetorocedasticidade.
Resíduos Resíduos
0 0
x x
No gráfico (à esquerda), os resíduos parecem aleatórios (sem padrão): observamos uma variância
constante à medida que x cresce. No gráfico (à direita), observamos que a variância residual está
crescendo à medida que a variável x cresce.
Tabela 26 – Resíduos
93
Unidade II
Observação
0
-1.000,000 25.000 27.000 29.000 31.000 33.000 35.0000 37.000 39.000 41.000
-2.000,000
-3.000,000
-4.000,000
Yi observado
Graficamente, observamos que os valores estão bem dispersos. Podemos concluir que há
homocedasticidade. Usando a ferramenta de regressão do Excel, vamos calcular a regressão
desses dados:
Estatística de regressão
R múltiplo 0,1363
R-quadrado 0,0186
R-quadrado ajustado -0,0905
Erro-padrão 3.512.278,65
Observações 11
94
ECONOMETRIA
Anova
F de
gl SQ MQ F
significação
Regressão 1 2.100.943.198.308,7 2.100.943.198.308,7 0,1703 0,689495411
Resíduo 9 111.024.911.656.028,0 12.336.101.295.114,3
Total 10 113.125.854.854.337,0
95% Superior
Coeficientes Erro-padrão Stat t valor-P 95% inferiores Inferior 95,0%
superiores 95,0%
Interseção 7.765.397,31 10.891.091,76 0,7130 0,493914 -16.871.963,94 32.402.758,56 -16871963,94 32402758,56
Yi projetado -131,45 318,53 -0,4127 0,689495 -852,03 589,12 -852,0261707 589,1186329
O coeficiente de determinação, ou R-quadrado, nos diz que há pouca correlação entre as variáveis e
o valor-P = 0,3189 ou 31,89% (e o F de significação) > 5%.
Hipóteses:
Dn = máx(i / n - Zi)
Onde:
95
Unidade II
Geralmente, quando Dn for menor que 0,3, isso indica que a distribuição está apropriada (aproxima
de uma normal). Para realização do teste, procedemos da seguinte maneira:
Dn = máx(D+, D-)
Se Dn é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com (1 - α)100%
de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.
96
ECONOMETRIA
Portanto, como o valor de Dn = 0,4871 é maior que o Dcrítico = 0,41 (da tabela) para um nível de
confiança de 95%, concluímos que os resíduos não se comportam seguindo uma distribuição normal
de probabilidades.
JB = n . [A2/6 + (C-3)2/24]
Onde:
A = assimetria;
C = curtose.
A = assimetria (A = - 0,3757);
C = curtose (C = - 0,9185).
97
Unidade II
Se JBcalculado ≤ JBcrítico, aceitará a hipótese nula. Portanto, rejeitamos a hipótese nula, ou seja, a
distribuição dos resíduos não se comporta como uma distribuição de probabilidade normal.
Observação
x = x1
x = x2
Observação
98
ECONOMETRIA
Quando calculamos o valor de y^ considerando um valor para a variável X, há duas alternativas que
levam ao mesmo resultado para y^, mas que produzem resultados diferentes com relação ao intervalo de
confiança. Essas duas alternativas e as fórmulas de cálculo de seus desvios-padrões para o cálculo dos
intervalos são as seguintes:
1 ( x − média x )
2
Smédia=
de y Se . +
n Sxx
1 ( x − média x )
2
S=
y S e . 1 + +
n Sxx
ICy^médio = y^ ± t . Smédia de y
ICy^individual = y^ ± t . Sy
Vamos retomar o nosso caso inicial (da produção de açúcar) para demostrarmos o cálculo dos
dois intervalos de confiança, estimando y^: produção de açúcar a partir de X: preço em dólar no
mercado externo.
Construamos um intervalo de previsão de 95% para as mil toneladas produzidas de açúcar quando
o preço no mercado externo for de US$ 15.
Solução:
g.l. = n - 2 = 11 - 2 = 9
y^ = 23.508,98 + 663,29X
99
Unidade II
y^ = 33.458,33
tc = 2,26
O erro-padrão da estimativa é:
se = 2.005,9137
( ∑x i ) 2
Sxx ∑i
= x2 −
n
=
Sxx =3.043,6 −
(174,47)
2
=276,35
11
100
ECONOMETRIA
Vamos compreender os três tipos de variação em torno de uma reta de regressão. São eles:
• Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado e a
média de y.
• Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a
média de y (explicada pela relação X e Y).
• Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada par
ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x e y e
isso ocorre devido ao acaso ou a outras variáveis).
y
{
(xi ; yi)
Desvio
{ inexplicado
yi - y^i
Desvio total
yi - y {
(xi ; y^i)
y Desvio
explicado
(xi ; y)
y^i - y
x
x
Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas partes:
• uma, devida aos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada experimento,
que será definida como variabilidade residual;
101
Unidade II
Podemos conduzir a análise de variância da regressão linear simples, conforme a tabela a seguir:
Ao nível de significância de 5% e para 1 e 9 graus de liberdade, o valor crítico de F é 5,2 (vide tabela
da distribuição F de Fisher-Snedecor no AVA). O valor de F calculado (30,22), sendo superior ao valor
crítico, é significativo ao nível de 5%. Consequentemente, rejeitamos a hipótese H0 : β = 0 em favor da
hipótese alternativa H1 : β ≠ 0 a esse nível de significância.
102
ECONOMETRIA
Resumo
103
Unidade II
Exercícios
Questão 1. (Enade 2009) Considere o modelo de regressão linear múltipla, com variável dependente
y e variáveis explicativas X1, X2, ..., Xk, que pode ser expresso como:
É correto afirmar que o modelo clássico de regressão linear ou modelo de Gauss de regressão linear
supõe que
A) a relação linear entre pelo menos duas variáveis explicativas seja exata.
B) a variância dos erros varie na amostra: E 2t E 2z para t z
E) os valores das variáveis explicativas, X2, X3,..., Xk variem de amostra para amostra.
A) Alternativa incorreta.
Justificativa. É pressuposto que a relação entre duas ou mais variáveis explicativas não
apresente nenhuma relação linear exata.
B) Alternativa incorreta.
Justificativa. O modelo supõe que a variância dos erros seja constante, ou seja, que tenhamos
erros independentes.
104
ECONOMETRIA
C) Alternativa incorreta.
Justificativa. É suposto pelo modelo que o valor esperado para o fator de erro seja zero.
D) Alternativa correta.
Justificativa. Tal como na regressão linear simples, é um pressuposto do modelo que os erros
sejam independentes, ou seja, não correlacionados.
E) Alternativa incorreta.
yt = ρ · yt-1 + vt
A) Alternativa incorreta.
Justificativa: o modelo pressupõe a condição -1 < ρ < 1 em sua própria especificação, pois tal
condição garante que a variância da série de tempo seja um valor positivo e finito. Tal restrição é
intuitivamente chamada de condição de estacionariedade.
105
Unidade II
B) Alternativa incorreta.
C) Alternativa correta.
D) Alternativa incorreta.
Justificativa: na análise de séries de tempo, é aplicável o modelo de médias móveis, que guarda
relação com o próprio modelo autorregressivo. Todavia, sua especificação é distinta da apresentada na
questão, uma vez que, conforme nas médias móveis a série yt resulta da combinação linear dos choques
aleatórios (ruídos brancos) ocorridos no período corrente e nos períodos passados. Por conseguinte,
vemos que sua formulação é totalmente distinta da apresentada na questão (yt = vt - θvt-1, sendo θ
um parâmetro).
E) Alternativa incorreta.
106