Você está na página 1de 52

ECONOMETRIA

Unidade II
5 MODELO DE REGRESSÃO LINEAR MÚLTIPLA (MRLM)

O modelo de regressão linear simples (MRLS), no qual a variável Y é explicada pela variável X, foi
a base inicial da disciplina. Agora, iremos introduzir o modelo de regressão linear múltipla (MRLM), no
qual a variável Y pode ser explicada por mais de uma variável, pressupondo uma relação linear entre
cada uma das variáveis independentes e a variável dependente.

O modelo de regressão múltipla, por exemplo, com k variáveis independentes, é expresso na equação:

yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n

Em que:

y é a variável dependente;

x1, x2, . . . , xk são as variáveis independentes;

k é o número de variáveis independentes no modelo;

i denota as n observações da amostra.

Os parâmetros β1, β2, β1 ... βk são desconhecidos, e teremos que estimá-los utilizando, novamente,
o método dos mínimos quadrados ordinários (MMQO), que busca os valores dos β’s que minimizam a
soma dos quadrados dos erros.

5.1 Hipóteses

Para estimarmos os parâmetros desconhecidos do nosso modelo em questão, precisamos elaborar


algumas hipóteses. São elas:

• Linearidade:

yi = α + β1X1i + β2X2i + β3X3i + ... + βkXki + ei, i = 1, ..., n

• Exogeneidade:

E[ei | x11, x21, x31, ... xki] = 0. A exigência de que o erro e a variável explicativa sejam não correlacionados.
55
Unidade II

• Homocedasticidade:

Var[ei | x11, x21, x31, ... xki] = E[ei2 | x1i, x2i, x3i, ... xki] = σ2. A variância do erro é constante, igualdade de
variâncias, ou homocedasticidade. Requer que a variância dos erros (ei) seja constante em relação a todos
os valores de X, isto é, a variabilidade dos valores de Y é a mesma quando X é um valor baixo ou quando
X é um valor elevado. A igualdade das variâncias é importante para se realizar inferências em relação aos
parâmetros α, βs. Havendo problemas na não confirmação da hipótese de homocedasticidade, podemos
utilizar os modelos de mínimos quadrados ponderados ou as transformações de dados.

• Não autocorrelação dos erros:

Cov[ei, ej | xi, xj] = E[ei, ej | xi, xj] = 0. O erro de uma observação não pode estar correlacionado com
o erro de outra observação. Portanto, covariância é igual a zero (o resultado em qualquer experimento
não tem efeito no termo do erro de qualquer outro experimento). Os erros (ei) devem ser independentes
entre si.

Devemos incluir mais uma hipótese:

Não existe colinearidade perfeita entre as variáveis explicativas. Ou seja, uma variável explicativa
não é função linear perfeita da outra. Não podemos ter, por exemplo, x1 = 3x2 ou x3 = 2x1 + x2 .
3

Observação

O pressuposto da normalidade requer que os erros (ei) sejam


normalmente distribuídos para cada um dos valores de X. A análise
de regressão é relativamente robusta em relação a afastamentos do
pressuposto da normalidade, isto é, desde que a distribuição dos erros
em cada um dos níveis de X não seja extremamente diferente de uma
distribuição normal, inferências em relação aos parâmetros α, βs não
serão seriamente afetadas.

Ao desenvolvermos um modelo de regressão múltipla, desejamos utilizar somente aquelas


variáveis independentes que reduzam significativamente o erro ao prevermos o valor de uma
variável dependente.

No modelo de regressão linear simples, a inclinação β1 representa a alteração na média aritmética de


Y para cada unidade de alteração em X e não leva em consideração nenhuma outra variável. Entretanto,
no modelo de regressão linear múltipla com duas variáveis independentes, a inclinação β1 representa a
alteração na média aritmética de Y para cada unidade de alteração em X1, levando-se em consideração o
efeito de X2. A equação a seguir define o modelo de regressão múltipla com duas variáveis independentes:

yi = α + β1X1i + β2X2i + ei, i = 1, ..., n

56
ECONOMETRIA

Em que:

α = intercepto de Y;

β1 = inclinação de Y em relação à variável X1, mantendo-se constante a variável X2;

β2 = inclinação de Y em relação à variável X2, mantendo-se constante a variável X1;

ei = erro aleatório em Y para a observação i.

Observação

Os quatro pressupostos de regressão: LINI (Linearidade, Independência


dos erros, Normalidade de erros e Igualdade de variâncias).

A partir do resultado dos diversos testes, encontramos uma especificação de modelo que resista bem
a todos eles e pareça fazer sentido do ponto de vista da teoria e da experiência prévia do pesquisador –
nesta etapa atingimos o objetivo de uma representação “exata” da relação entre determinadas variáveis
no qual podemos utilizá-lo para fins de controle ou de formulação de políticas.

Os procedimentos de teste partem da definição de uma “hipótese nula” a ser testada (estimar a
probabilidade, na suposição de que a hipótese nula é verdadeira). Os testes de regressão são de três
tipos: de coeficientes, de resíduos e de estabilidade:

• Teste de coeficientes: tipos de testes sobre os coeficientes de uma regressão:

— Variável omitida: determina se uma ou mais variáveis omitidas de uma regressão deveriam
ter sido incluídas ou não (através de uma regressão auxiliar incluindo as variáveis omitidas).

— Variável redundante: determina se uma ou mais variáveis da regressão podem ser excluídas
sem maiores consequências. A hipótese nula é que os coeficientes das variáveis selecionadas
na regressão não são todos estatisticamente diferentes de zero. Se a hipótese for rejeitada, as
variáveis não são redundantes, isto é, não podem ser excluídas da regressão sem comprometer
o nível de explicação da variável dependente.

• Teste de resíduos: tipos de testes sobre os resíduos de uma regressão:

— Normalidade: em geral, os testes existentes para modelos de regressão só são válidos em


amostras pequenas quando se assume que os distúrbios aleatórios têm distribuição normal,
mas há sempre que se ter cuidados com a possibilidade de viés em amostras pequenas.

57
Unidade II

— Correlograma do resíduo (do resíduo quadrado): esta opção apresenta as autocorrelações


e autocorrelações parciais dos resíduos (ao quadrado) da equação estimada para um número
especificado de defasagens.

— Heterocedasticidade: uma das hipóteses do modelo de regressão é a de homocedasticidade, isto


é, a de que a variância teórica do termo de distúrbio aleatório, condicional em relação às variáveis
independentes, seja constante. Caso contrário, se a variância muda ao longo de diferentes intervalos
de tempo ou em função de variáveis independentes, temos o caso de heterocedasticidade
que acaba invalidando todos os testes de hipóteses baseados em estatísticas t (Student), F
(Snedecor) e qui-quadrado.

• Teste de estabilidade: tipos de teste para avaliar se os parâmetros da regressão são estáveis ao
longo do intervalo de estimativa:

— Teste Chow: a estabilidade dos parâmetros é verificada dividindo-se o intervalo da amostra em


duas partes e estimando-se novamente os parâmetros em cada subamostra. O teste compara a
soma dos quadrados dos resíduos da regressão original com a soma dos quadrados dos resíduos
das novas regressões feitas a partir das subamostras. Caso haja uma diferença significativa
nas estimativas, pode-se concluir que houve, a partir do ponto de quebra da amostra, uma
mudança estrutural no relacionamento entre as variáveis do modelo.

— Teste de estabilidade Ramsey RESET: é um teste geral para erros de especificação que podem
ter diversas origens, como variáveis independentes omitidas, forma funcional incorreta, erros
de medida em variáveis, erros de simultaneidade e inclusão de valores defasados da variável
dependente quando os resíduos têm correlação serial.

Já discutimos a modelagem e os pressupostos tratados em regressão simples. Na regressão


múltipla, devemos atentar para que as variáveis independentes não sejam correlacionadas entre si
(a utilização de variáveis que explicam a mesma coisa, o que prejudica a performance do modelo).
Isso implica a ocorrência de multicolinearidade, algo indesejável na construção de um modelo
econométrico. O problema é que os valores dos βs associados às variáveis independentes podem
estar viesados; assim, comprometem as projeções do modelo e as conclusões e até mesmo não
permitem realizar os testes de regressão.

O procedimento simples e prático de verificar a ocorrência de problemas que envolvem a correlação


entre variáveis (multicolinearidade) se dá pela obtenção da matriz de correlação entre as variáveis que
compõem o modelo de regressão linear múltipla.

A solução desse sistema (modelagem da regressão linear múltipla) se torna mais complexa do que a
estimação do parâmetro β do modelo de regressão linear simples.

Depois de atendidos os pressupostos (hipóteses) do MRLM pelo MMQO e estando ele já estimado,
seguiremos para o processo de concepção do modelo econométrico. Entre os diversos softwares
existentes no mercado, contaremos com o apoio da planilha Excel através da ferramenta Análise
58
ECONOMETRIA

de Dados, pois não há necessidade de elaborarmos os procedimentos de cálculos algébricos que são
complexos. Faz-se necessário, portanto, avaliar a adequação do modelo aos dados. Os parâmetros mais
relevantes para diagnóstico de modelos de regressão são R2, estatística t-Student, estatística F-Fisher,
p-valor e o coeficiente (β) de cada variável independente.

Observação

Entre os softwares existentes, encontramos gratuitamente o pacote


econométrico que realiza análise de regressão Gretl, porém os mais conhecidos
e completos são: EViews, SPSS, SAS, TSP, Minitab, R Statistics e SAP APO.

Vamos elaborar tais procedimentos com base em uma regressão múltipla padrão, aquela em que as variáveis
independentes são acrescidas uma a uma, cada uma delas sendo avaliada conforme o quanto adiciona ao poder
preditivo do modelo – poder de explicação do comportamento, da variação encontrada na variável dependente.
De forma direta, é o grau de variação alcançado no coeficiente de determinação R2(∆%R2), decorrente da retirada
de uma variável do conjunto de variáveis independentes consideradas no modelo.

Veja a seguir um exemplo de análise de regressão – complexo agroindustrial canavieiro – seguindo


o passo a passo na sua elaboração.

Teoria Modelo Modelo Estimação Teste de Aplicação


econômica matemático econométrico Dados do modelo hipóteses Previsão do modelo

Figura 18 – Primeiro passo para a elaboração de um modelo econométrico

Essa é a análise de regressão de um modelo, em caráter exploratório, utilizando conceitos e técnicas


econométricas, para melhor compreender de que maneira está se processando a expansão da indústria
açucareira brasileira voltada para o mercado interno e basicamente para o mercado externo, no período
entre 2005 e 2015.

O complexo agroindustrial canavieiro (cuja matéria-prima é a cana-de-açúcar e os produtos finais


são açúcar e álcool) é a mais antiga atividade econômica do Brasil.

O governo Collor, em março de 1990, desregulamentou o setor sucroalcooleiro, que por mais de
três décadas esteve sob tutela do estado, vindo este a ser o marco inicial para a sua entrada em um
regime de livre-mercado (condições mais competitivas, em especial o mercado de açúcar, por ser uma
commodity internacional).

A expectativa, principalmente pelo aumento acentuado das exportações brasileiras, era de que os
preços internos do açúcar no mercado doméstico passassem a ter correlação muito forte com os preços
do mercado externo.

59
Unidade II

Teoria Modelo Modelo Estimação Teste de Aplicação


econômica matemático econométrico Dados do modelo hipóteses Previsão do modelo

Figura 19 – Segundo e terceiro passos para a elaboração de um modelo econométrico

Utilizando as técnicas de regressão linear pelo método dos mínimos quadrados, vamos analisar as hipóteses
com o intuito de extrair o máximo proveito possível dos dados a nossa disposição – neste caso, em especial, a
hipótese da sustentabilidade da expansão açucareira e a existência de relações significativas da evolução da
produção de açúcar (variável dependente), tendo como variável explicativa (independente) os preços dos mercados
externo e interno dos produtos finais da cana-de-açúcar (açúcar e etanol, respectivamente). Contextualizados
nesse modelo básico, conduzimos nossa investigação seguindo os procedimentos clássicos metodológicos da
Econometria (vide figura da metodologia de pesquisa econométrica anteriormente apresentada).

Nossa hipótese básica de trabalho está focada na existência de correlação entre a evolução da
produção de açúcar (Y) e as demais variáveis explicativas (X) em questão: a evolução de produção do
etanol hidratado e os preços do mercado externo de açúcar.

Observação

O sucesso de qualquer análise econométrica, segundo Gujarati (2000),


depende basicamente da disponibilidade de dados apropriados e confiáveis,
com respeito à natureza e fontes adequadas.

Após o modelo ter sido ajustado por metodologia adequada de regressão linear, é necessário
desenvolver os critérios adequados para que nossas expectativas teóricas estejam satisfeitas
(teoria e empiria: inferência estatística ou teste de hipótese do coeficiente de correlação e dos
parâmetros do modelo).

Teoria Modelo Modelo Estimação Teste de Aplicação


econômica econométrico edonometrico Dados do modelo hipóteses Previsão do modelo

Figura 20 – Quarto passo para a elaboração de um modelo econométrico

Apresentamos na tabela a seguir, elaborada a partir de dados do IBGE, a evolução da produção de


açúcar e do etanol hidratado no Brasil e o preço do açúcar VHP no mercado externo. O açúcar VHP
– do inglês very high polarization (polarização muito alta) – é utilizado como matéria-prima para a
produção de açúcar refinado ou em outros processos de industrialização, podendo ser usado para o
consumo, mas geralmente é exportado a vários países a fim de ser transformdo em diferentes tipos
de açúcar para consumo.

60
ECONOMETRIA

Observação

O etanol anidro é misturado em 27% à gasolina. Já o etanol hidratado


é usado diretamente no tanque dos veículos.

Partimos da premissa verdadeira de que o preço do mercado externo (dólar) é o grande formador de
preço do mercado interno.

Tabela 10 – Produção de açúcar e etanol hidratado e preços do açúcar VHP


(mercado externo) no período de 2005 a 2015 (Brasil)

Produção de açúcar Preço do açúcar VHP


mil toneladas US$/saca de 50 quilos
n Ano Yi Xi
1 2005/06 26.420,0827 8,8975
2 2006/07 30.223,6000 14,4450
3 2007/08 31.279,7000 10,1283
4 2008/09 31.620,2000 11,1508
5 2009/10 33.074,7000 14,5258
6 2010/11 38.168,4000 19,6842
7 2011/12 38.271,8000 25,2400
8 2012/13 38.336,8761 23,3375
9 2013/14 37.878,2633 17,5258
10 2014/15 35.560,1797 16,4067
11 2015/16 33.489,1427 13,1275

A relação da produção de açúcar no Brasil (Y) com o preço do açúcar VHP no mercado externo (X)
tende a verificar a sensibilidade do incremento de produção aos preços praticados, isto é, o quanto a
variável preço no mercado externo explica a variação ou incremento da produção de açúcar. O que
se espera é que aumentos de preço no produto provoquem aumento na produção – como o açúcar
para exportação é negociado em dólar, isso representa mais reais para os vendedores no momento da
conversão de moedas –, o que explica a prioridade dada ao alimento em detrimento do etanol. Além disso,
a alta do açúcar está relacionada à elevação dos custos de produção no país e à queda de produtividade
das lavouras ligadas à baixa de investimentos do setor sucroenergético. O comportamento do mercado
internacional, pelo lado tanto da oferta como da demanda, influencia o comportamento dos preços –
por exemplo, problemas climáticos na Índia, um dos principais produtores mundiais de açúcar, tendem a
encarecer os produtos no mercado internacional. Com uma liquidez maior, o etanol terá uma produção
elevada, e isso diminui a produção de açúcar, contribuindo com o déficit do mercado internacional.

61
Unidade II

A elevação do preço do açúcar afeta diretamente o custo de alimentos como pães e doces, já
que o açúcar é o segundo item mais usado como matéria-prima da padaria, pois compõe quase
todos os produtos.

O aumento na energia elétrica e nos combustíveis é um dos fatores que mais impulsionaram o preço
do açúcar.

Teoria Modelo Modelo Estimação Teste de Aplicação


econômica matemático econométrico Dados do modelo hipóteses Previsão do modelo

Figura 21 – Quinto e sexto passos para a elaboração de um modelo econométrico

Entre os modelos de regressão que foram testados e analisados, usando o software Excel (opções
Análise de Dados e Regressão), conforme metodologia de investigação econométrica, serão apresentados
a seguir os procedimentos metodológicos de apenas dois modelos, sendo os mais significativos no que
se refere à regressão simples e à regressão múltipla. Repare que a tabela a seguir, apresentada pelo Excel,
fornece os mesmos valores já calculados (pelas fórmulas) anteriormente.

62
Tabela 11 – Análise da variância do modelo de regressão (Anova): produção de açúcar (Y)

Resumo dos resultados INVF(0,05;1;9) = 5,12 (consulta tabela F)


Estatística de regressão (Valor crítico de F)
2
R múltiplo 0,8778 = raiz quadrada de R F(α; gl_I; gl_II)
R-quadrado 0,7705 = coeficiente de determinação: R2 = 1 - (SQE / SQT)
ECONOMETRIA

R-quadrado ajustado 0,7450 = 1 - (1 - R2) * (n - 1) / (n - k - 1)


Erro-padrão 2.005,9137 = erro-padrão da regressão = raiz quadrada da variância estimada (residual)
Observações 11 = n é o número de observações ( tamanho da amostra)

Anova (análise de variância)


gl SQ MQ F F de significação
(graus de liberdade) (soma de quadrados) (média de quadrados) (F-Fisher/Snedecor)
Regressão 1 121.581.704,10 121.581.704,10 30,22 0,000382
(gl I = k : nº variáveis
(variação explicada) independentes ou numerador (SQR) (MQR = SQR / k) (MQR / MQE) Prob. (Fcrítico > F)
do teste F)
Resíduo 9 36.213.208,56 4.023.689,84
(gl II = n-k-1 : denominador
(variação inxeplicada) (SQE) MQE = SQE / (n-k-1) INVT(0,05;9) = 2,26 (consulta tabela t) 2,2622
do teste F)
(variância estimada)
Total 10 157.794.912,66 (valor crítico de t-Student)
gl I + gl II = k + (n-k-1) = (SQT) t (α; gl_I)
n-1

Coeficientes Erro-padrão Stat t valor-P 95% inferiores 95% superiores


(dos coeficientes) (teste t-Student calculado) Prob. (t crítico > t) (limites do intervalo de confiança)
Interseção (α) 23.508,98 2.007,15 11,71 0,0000009 18.968,50 28.049,46

Preço açúcar VHP (X1)


(β) 663,29 120,67 5,50 0,0003817 390,33 936,26

Y = α + βX + e >>>>> Y = 23.508,98 + 663,29X

63
Unidade II

Descrição e comentários:

Tabela 12 – Resumo dos resultados

Estatística de regressão
R múltiplo 0,8778 = raiz quadrada de R2
R-quadrado 0,7705 = coeficiente de determinação: R2 = 1 - (SQE / SQT)
R-quadrado ajustado 0,7450 = 1 - (1 - R2) * (n - 1) / (n - k - 1)
Erro-padrão 2.005,9137 = erro-padrão da regressão = raiz quadrada da variância estimada (residual)
Observações 11 = n é o número de observações (tamanho da amostra)

5.2 Covariância e coeficiente de correlação

A covariância mede a força do relacionamento entre duas variáveis em termos absolutos


através da seguinte equação:

Cov ( X, Y ) =
∑ ( x − média de X ) × (y − média de Y)
n −1

Tabela 13 – Covariância (força do relacionamento entre X e Y em termos absolutos)

(a) (b) (a) x (b)


Seq. Ano Xi Yi (Xi - média de X) (Yi - média de y) (Xi - média de X) x (Yi - média de y)
1 2005/06 8,8975 26.420,0827 -6,96 -7.609,28 52.985,92
2 2006/07 14,4450 30.223,6000 -1,42 -3.805,76 5.388,32
3 2007/08 10,1283 31.279,7000 -5,73 -2.749,66 15.762,42
4 2008/09 11,1508 31.620,2000 -4,71 -2.409,16 11.347,14
5 2009/10 14,5258 33.074,7000 -1,34 -954,66 1.274,47
6 2010/11 19,6842 38.168,4000 3,82 4.139,04 15.824,93
7 2011/12 25,2400 38.271,8000 9,38 4.242,44 39.790,57
8 2012/13 23,3375 38.336,8761 7,48 4.307,52 32.205,87
9 2013/14 17,5258 37.878,2633 1,67 3.848,90 6.408,43
10 2014/15 16,4067 35.560,1797 0,55 1.530,82 835,57
11 2015/16 13,1275 33.489,1427 -2,73 -540,22 1.476,59
Média 15,86 34.029,36 0,00 00 183.300,23
Desvio- 5,2569 3972,3408
padrão

183.300,23
Cov ( X, Y )
= = 18.330,02
10

64
ECONOMETRIA

O coeficiente de correlação mede o grau de relação entre duas variáveis. A correlação (representada
por r) está sempre entre -1 e 1. O valor -1 corresponde à correlação negativa perfeita e o valor de +1
corresponde à correlação positiva perfeita; já o coeficiente de correlação (zero) indica que as duas
variáveis não estão correlacionadas linearmente:

Cov(X, Y) 18.330,02
=r = ≅ 0,8778
σX σY 5,2569 × 3.972,3408

O R múltiplo = 0,8778 representa o coeficiente de correlação múltiplo. Lembre-se de que na


regressão linear simples o R múltiplo representa o coeficiente de correlação simples (r), que mede
o grau de relacionamento linear entre duas variáveis, e nos modelos de regressão linear múltipla o R
múltiplo representa o coeficiente de correlação múltiplo (r), que mede o grau de relacionamento
linear entre uma variável e um conjunto de outras variáveis. As técnicas de análise de correlação e
regressão estão intimamente ligadas.

Vamos descrever e testar a significância da correlação entre duas variáveis quando os dados são
apresentados como pares ordenados, onde X é a variável independente ou explicativa e Y é a variável
dependente ou resposta. O gráfico de pares ordenados (x, y) é chamado de diagrama de dispersão, que
pode ser usado para determinar se existe uma correlação linear entre as duas variáveis. O que se espera
é que aumentos de preço no produto provoquem aumento na produção.

Veja os dados a seguir, extraídos de pesquisas do IBGE:


41.000
39.000
37.000
mil toneladas

35.000
33.000
31.000
29.000
27.000
25.000
0 5 10 15 20 25 30
US$/saca de 50 kg

Figura 22 – Diagrama de dispersão: preço do açúcar VHP X produção do açúcar (período 2005-2015)

Para facilitar o cálculo do coeficiente de correlação, podemos utilizar uma tabela:

65
Unidade II

Tabela 14 – Produção e preços do açúcar (Brasil)

Produção de Preço do açúcar


açúcar VHP (mercado)
US$/saca de 50
mil toneladas quilos
Ano Y X XY X2 Y2
2005/06 26.420,0827 8,8975 235.072,7 79,17 698.020.769,9
2006/07 30.223,6000 14,4450 436.579,9 208,66 913.465.997,0
2007/08 31.279,7000 10,1283 316.811,2 102,58 978.419.632,1
2008/09 31.620,2000 11,1508 352.591,6 124,34 999.837.048,0
2009/10 33.074,7000 14,5258 480.437,6 211,00 1.093.935.780,1
2010/11 38.168,4000 19,6842 751.313,1 387,47 1.456.826.758,6
2011/12 38.271,8000 25,2400 965.980,2 637,06 1.464.730.675,2
2012/13 38.336,8761 23,3375 894.686,8 544,64 1.469.716.069,1
2013/14 37.878,2633 17,5258 663.848,1 307,15 1.434.752.832,5
2014/15 35.560,1797 16,4067 583.424,0 269,18 1.264.526.380,1
2015/16 33.489,1427 13,1275 439.628,7 172,33 1.121.522.677,6
∑ 374.322,9 174,47 6.120.374,1 3.043,6 12.895.764.620,1

O cálculo será o seguinte:

n∑xy − ∑x ∑y
r=
n∑x2 − ( ∑x )2 n∑y2 − ( ∑y )2
11 × 6.120.374,1 − 174,47 × 374.322,9
=
11 × 3.043,6 − (174,47) × 11 × 12.895.764.620,1 − ( 374.322,9)
2 2

2.015.998,74 2.015.998,74
= ≅ 0,8778
55,13 × 41.662,3 2.296.842,6

5.3 Teste de hipótese para um coeficiente de correlação populacional

Precisamos determinar se existe evidência suficiente para decidir que o coeficiente de correlação
populacional ρ é representativo em um nível especificado de significância α (por exemplo, α = 0,01
significa que em 1% das vezes podemos dizer que o coeficiente de correlação populacional é significante
quando ele realmente não é, ou seja, é o erro que podemos cometer).

Utiliza-se o teste de hipótese para ρ, que pode ser monocaudal ou bicaudal. O nosso interesse é no
teste bicaudal, a seguir especificado:

66
ECONOMETRIA

{ H0 : ρ = 0 (não existe correlação significativa)


H0 : ρ ≠ 0 (existe correlação significativa)

A estatística de teste padronizada é:

r r
=t =
σr 1 − r2
n−2

A distribuição amostral para r é uma distribuição t de Student com n - 2 graus de liberdade.

No exemplo que envolve as duas variáveis, utilizamos onze pares de dados para obtermos r = 0,8778.
Vamos testar a significância desse coeficiente de correlação utilizando α = 0,01:

H0 : ρ = 0 (não existe correlação significativa);

H0 : ρ ≠ 0 (existe correlação significativa).

A distribuição amostral para r = 0,8778 é uma distribuição t com n - 2 graus de liberdade. Temos
11 - 2 = 9. Uma vez que o teste é bicaudal, α = 0,01 e g. l. = 6, os valores críticos são -2,26 e 2,26 e as
regiões de rejeição são t < - 2,26 e t > 2,26. Com base no teste t, a estatística teste padronizada é:

r r 0,8778 0,8778
=t = = = ≅ 5,55
σr 1 r2
− 1 − ( 0,8778)
2 0,0638
n−2 9

O gráfico a seguir mostra a posição das regiões de rejeição e a estatística teste padronizada:

α α
2 2

-tc tc t
-2,26 +2,26

Figura 23 – Região crítica para o teste t

67
Unidade II

Rejeitamos a hipótese nula, visto que t calculado está na região de rejeição. Ao nível de 1%, há
evidência suficiente para concluir que existe uma correlação linear significante entre o preço e a
produção de açúcar.

Observação

Correlação e causalidade: é possível que a relação das variáveis tenha


sido causada por uma terceira variável, ou por uma combinação de
muitas outras variáveis, mas neste caso a causalidade se confirma com a
base teórica.

5.4 Coeficiente de determinação (r2)

O coeficiente de determinação mede o grau de ajustamento da reta de regressão aos dados


observados. Indica a proporção da variação total da variável dependente, que é explicada pela variação
da variável independente.

A equação que permite calcular o coeficiente de determinação é a seguinte:

( Yˆ − média de Y )
2

=r2

=
Variação explicada
∑ ( Y − média de Y )
2 Variação total

Veja a tabela, elaborada a partir de dados do IBGE:

Tabela 15 – Coeficiente de correlação

Seq. Ano Xi Yi Y^ (Y^ - média de Y)2 (Y - média de Y)2


1 2005/06 8,8975 26.420,0827 29.410,6 21.332.649,59 57.901.079,59
2 2006/07 14,4450 30.223,6000 33.090,2 881.931,18 14.483.798,45
3 2007/08 10,1283 31.279,7000 30.227,0 14.457.678,27 7.560.622,37
4 2008/09 11,1508 31.620,2000 30.905,2 9.760.054,52 5.804.045,12
5 2009/10 14,5258 33.074,7000 33.143,9 784.102,72 911.373,03
6 2010/11 19,6842 38.168,4000 36.565,3 6.431.240,57 17.131.663,78
7 2011/12 25,2400 38.271,8000 40.250,5 38.702.492,56 17.998.309,11
8 2012/13 23,3375 38.336,8761 38.988,6 24.593.847,00 18.554.707,08
9 2013/14 17,5258 37.878,2633 35.133,7 1.219.660,35 14.514.067,64
10 2014/15 16,4067 35.560,1797 34.391,4 131.078,22 2.343.413,26
11 2015/16 13,1275 33.489,1427 32.216,4 3.286.969,12 291.833,23
Média 15,86 34.029,36 ∑ 121.581.704,10 157.794.912,66

68
ECONOMETRIA

∑ ( Yˆ=
− média de Y )
2
121.581.704,10
=r2 ≅ 0,7705
∑ ( Y − média de Y )
2 V157.794.912,66

Esse resultado nos mostra que 77,05% das variações da variável dependente y podem ser explicadas
por variações da variável independente x.

A análise de correlação se dedica a inferências estatísticas das medidas de associação linear que
se seguem:

• coeficiente de correlação simples: mede a “força” ou “grau” de relacionamento linear entre


duas variáveis;

• coeficiente de correlação múltiplo: mede a “força” ou “grau” de relacionamento linear entre


uma variável e um conjunto de outras variáveis.

As técnicas de análise de correlação e regressão estão intimamente ligadas.

O R-quadrado = 0,7705 é um coeficiente de correlação múltiplo (R múltiplo = 0,8778) ao quadrado.


Representa o coeficiente de determinação (r2), é a razão entre a variação explicada (SQR) e a variação
total (SQT). Portanto, r2 é uma medida descritiva da qualidade do ajustamento obtido, indicando a
proporção real da variância explicada para os preditores usados no modelo em análise:

∑ ( yˆ i=
− y)
2
2 SQReg 121.581.704,10
=r = ≅ 0,7705
∑ ( yi − y )
2 SQRTot 157.794.912,66

Teremos uma relação de quanto o modelo de regressão está sendo útil para explicar toda a
variabilidade que aparece em cada uma das observações (é a porcentagem da variância total de y que é
explicada pela variável x). Veja o gráfico com dados do IBGE:
45.000 y = 663,29x + 23509
R2 = 0,7705
40.000
mil toneladas

35.000

30.000

25.000
0 5 10 15 20 25 30
US$/saca de 50 kg

Figura 24 – Ajuste da reta de regressão: preço do açúcar VHP X produção do açúcar (período 2005-2015)

69
Unidade II

Anteriormente calculamos o coeficiente de correlação (r). O quadrado desse coeficiente é o


coeficiente de determinação (r2). Para um número fixo n de observações, quanto melhor for o ajuste
dos dados, tanto maior será o valor de r2. Portanto, r2 pode ser visto como uma medida descritiva da
qualidade do ajuste obtido – isto é, a variável independente (X: preço) explica 77% das variações da
produção de açúcar.

O R-quadrado ajustado = 0,7450 é uma medida semelhante ao coeficiente de determinação (r2),


porém ajustada para refletir tanto o número de variáveis independentes (k) no modelo quanto o tamanho
da amostra (n). Ao considerar modelos de regressão múltipla, esse procedimento evita uma característica
do R-quadrado que tende a aumentar sempre que adicionamos novas variáveis independentes, mesmo
que a sua contribuição seja pouca para o poder explicativo da regressão. Utilizar o R-quadrado ajustado
é de extrema importância quando se está comparando dois ou mais modelos de regressão que
estão prevendo a mesma variável dependente, mesmo tendo um número diferente de variáveis
independentes. Veja:

 n −1 
raj2 =−
1 (1 − r2 ) ×
 n − k − 1

Onde:

n = 11 (número de observações);

k = 1 (número de variáveis independentes na equação de regressão).

 n −1   10 
raj2 =1 − (1 − r2 ) ×  =1 − 1 − 0,7705) ×  =0,7450
 n − k − 1  9

No erro-padrão = 2.005,9137, quando um valor de y^ é previsto a partir de um valor de x, a


previsão é uma estimativa pontual. Pretendemos, agora, calcular uma estimativa intervalar para um
valor previsto y. Primeiramente devemos calcular o erro-padrão da estimativa Se, que é o desvio-padrão
dos valores de yi, observados em torno do valor y previsto para um dado valor de xi. Intuitivamente
sabemos que quanto maior é a dispersão entre uma série de números ou população, maior será a
dificuldade de se ajustar uma reta aos pontos. A dispersão pode ser estimada pela dispersão dos dados
amostrais em relação à reta de regressão. O erro-padrão da estimativa (Se) é uma medida que avalia o
grau de precisão da reta de regressão. O erro-padrão da estimativa é dado por:

∑ ( yi − yˆ i )
2
se =
n−2

em que n é o número de pares ordenados no conjunto de dados.

70
ECONOMETRIA

Veja a tabela a seguir, que apresenta dados do IBGE:

Tabela 16 – Erro-padrão da estimativa

Produção de Preço do açúcar


açúcar VHP (mercado)
US$/saca de 50
mil toneladas quilos
Ano Yi Xi Y^ (Y - Y^)2 (X - X)2
2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49
2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00
2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86
2008/09 31.620,2000 11,1508 30.905,2 511.153,51 22,18
2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78
2010/11 38.168,4000 19,6842 36.565,3 2.569.776.79 14,62
2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97
2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90
2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77
2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30
2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47
∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35

Usando n = 11 e ∑(yi - y^i)2 = 36.213.208,56, o erro-padrão da estimativa é:

∑ ( yi − yˆ i )
22
36.213.208,56
=se = = 2.005,9137
n−2 9

Temos como erro-padrão da estimativa 2.006. Isso significa que o desvio-padrão da produção de
açúcar para um preço específico no mercado externo é de cerca de 2.006 mil toneladas.

Esse valor deve ser interpretado como um desvio-padrão; portanto, é medido na mesma unidade da
variável dependente y.

Com base nas fórmulas a seguir, podemos calcular, então, os coeficientes de regressão:

Sxy
b=
Sxx

a =y − bx =
∑y − b ∑x
n n

71
Unidade II

Em que, com base nos dados da tabela do resumo dos resultados, calculamos:

=∑xi 174,47
= ∑yi 374.322,9
= ∑xiyi 6.120.374,1
∑xi2 = 3.043,6 ∑yi2 = 12.895.764.620,1

( ∑xi )( ∑yi )
=
Sxy ∑xiyi − n

Sxy =
6.120.374,1 −
(174,47 × 374.322,9) =
183.272,61
11

( ∑x i ) 2

Sxx ∑i
= x2 −
n
=

Sxx =3.043,6 −
(174,47)
2
=276,35
11

( ∑yi )
2

=
Syy ∑ yi2 −
n

Syy= 12.895.764.620,1 −
( 374.322,9)
=
2
157.794.912,7
11

Linha dos mínimos quadrados


Yi Y^ = a + bX
Desvio: Yi - Y^i
}
Y^i

Valores ajustados

X
Xi

Figura 25 – Plano cartesiano

72
ECONOMETRIA

n∑xy − ∑x ∑y 11 × 6.120.374,1 − 174,47 × 374.322,9 2.015.998,74


=b = = ≅ 663,29
n∑x − ∑x
2
( )
2
11 × 3.043,6 − (174,47)
2 3.039,82

a =y − bx =
∑y − b ∑x =374.322,9 − 663,29 × 174,47 =
n n 11 11

= 34.029,35 − 10.520,38 ≅ 23.508,98

Tabela 17 – Coeficientes estimados

95% 95%
Coeficientes Erro-padrão Stat t valor-P inferiores superiores
(dos (teste t-Student (limites do intervalo de
Prob. (tcrítico > t)
coeficientes) calculado) confiança)
Interseção (α) 23.508,98 2.007,15 11,71 0,0000009 18.968,50 28.049,46
Preço do açúcar
663,29 120,67 5,50 0,0003817 390,33 936,26
VHP (X1) (β)
Y = α + βX + e >>>>> Y = 23.508,98 + 663,29X

Portanto, a equação da reta de regressão é:

y^ = 23.508,98 + 663,29X

Observação

A reta de regressão passa sempre pelo ponto (x , y). A inclinação da reta b


deve ter sempre o mesmo sinal que os dados no coeficiente de correlação r.

5.5 Erro-padrão do coeficiente linear (ou do intercepto)

O erro-padrão do intercepto (coeficiente linear da reta α) indica aproximadamente a distância


entre os coeficientes estimados α^ e o coeficiente linear populacional α, devido à dispersão dos dados
amostrais. Assim, quanto menor for o erro Sα^ , melhor será a precisão da estimativa. Note a equação:

 1 (média X )2 
=
Sαˆ Se  + 
n Sxx 

73
Unidade II

Onde:

Se= erro-padrão da estimativa = 2.005,9137;

n = número de observações = 11;

média X = média da variável independente X = 15,8609.

( ∑xi )
2

Sxx =∑ xi2 −
n
=

Sxx =3.043,6 −
(174,47)
2
=276,3472
11

Portanto:

 1 (média X)2  (15,8609)2


Sαˆ =Se  +  =2.005,9137 × 0,0909 + ≅ 2.007,15
n Sxx  276,3472

5.6 Erro-padrão do coeficiente angular

Analogamente ao S α^ , o erro do coeficiente S b^ é a medida aproximada da distância entre a estimativa


b^ e o coeficiente angular populacional b^ . Veja:

Se
Sβ =
Sxx

2.005,9137
=Sβ ≅ 120,67
276,3472

5.7 Inferências sobre o coeficiente angular

Em algumas situações, mesmo não havendo relacionamento (causalidade) entre as variáveis na


população, os dados amostrais podem sugerir a existência de relação. Isso ocorre quando, devido a
fatores aleatórios, os dados extraídos da população dispõem-se de forma que seja possível traçar uma
reta em que se ajustam esses pontos. Por essa razão, sempre é preciso verificar se o modelo linear obtido
é realmente significativo (base teórica, a lógica de causa e efeito).

74
ECONOMETRIA

^
α β^ = 0

Figura 26 – Reta ajustada (constante)

O gráfico mostra o não relacionamento entre X e Y. Portanto, para que possamos verificar se as
variáveis na população são mesmo relacionadas, devemos testar as seguintes hipóteses:

H0 : β = 0 (não há associação entre X e Y);

H1 : β ≠ 0 (teste bilateral).

Diferentes tipos de testes podem ser empregados para esse propósito. Uma das maneiras consiste
em elaborar um intervalo de confiança para o coeficiente angular β. Esse intervalo é definido como:

β^ - t . S β^ < β < β^ + t . S β^

Onde:

b^ = estimativa do coeficiente angular da reta = 663,29;

t = valor crítico, distribuição de probabilidade (t de Student) = 2,26;

S β^ = erro-padrão do coeficiente angular β = 120,67;

n = número de observações;

k = número de variáveis independentes X.

Temos:

β^ = 663,29 t0,05; 9 = 2,26 Sβ^ = 120,67 n = 11 k = 1

Estabelecendo um grau de confiança de 95%, isto é, um nível de significância de 5% (α = 0,05), e calculando os


graus de liberdade, o que é obtido pela expressão n – k – 1 (9), obtemos o valor do t crítico (tα; n – k – 1 = t0,05; 9 = 2,26)
usando a distribuição t de Student – veja a tabela da distribuição t-Student (bilateral) no AVA.
75
Unidade II

Então podemos calcular o intervalo de confiança para β com 95% de confiança: ICβ (95%):

ICβ(95%): 663,29 - 2,26 x 120,67 < β < 663,29 + 2,26 x 120,67

ICβ(95%): 390,33 < β < 936,26

Estimamos que o coeficiente angular β pertence ao intervalo [390,33; 936,26] com um nível de
confiança de 95%.

Se o intervalo de confiança para β incluir o zero, não poderemos rejeitar a hipótese nula. Caso o
intervalo definido não inclua o zero, rejeitamos a hipótese nula, admitindo um de erro (5%), de que há
relação significativa entre as variáveis.

No nosso cálculo, o intervalo definido não inclui o zero. Podemos, portanto, rejeitar a hipótese nula
(H0 : β = 0), concluindo, com um nível de confiabilidade de 95%, que há relação significativa entre as
variáveis na população.

Outra maneira de testarmos a hipótese nula (β = 0) é analisar a significância do coeficiente de regressão.


Para isso, comparamos, em termos relativos, o valor da estimativa β^ com seu desvio-padrão S β^ :

β − β
t=
Sβ

Onde:

β^ = estimativa do coeficiente angular β;

β = coeficiente angular da população;

S β^ = erro-padrão e β^ .

Como a hipótese nula β = 0, essa equação resulta em:

β
t=
Sβ

Observação

O Excel dispõe da função estatística INVT, por meio da qual pode ser
obtido o valor do t crítico. No nosso caso, INVT(α; n - k - 1) = INVT(0,05; 9)
retorna o valor 2,26.

76
ECONOMETRIA

O valor t de Student pode ser interpretado como o número de desvios-padrões que o estimador
^β dista do ponto zero. Quanto maior for essa distância, maior será a chance de β^ ser diferente de 0,
portanto, garantindo a existência do modelo de regressão (relação entre X e Y).

β 663,29
=
t = = 5,50
Sβ 120,67

O valor de t crítico calculado no item anterior é de 2,26. Assim, concluímos que devemos rejeitar
a hipótese nula H0, pois o valor em módulo do t teste é maior do que o valor t crítico da tabela
(t = |5,50 | = 5,50 > 2,26).

α α
2 2

-2,26 0 +2,26 t
5,50
Região de Região de não Região de
rejeição rejeição ou rejeição
aceitação
Valor crítico Valor crítico

Figura 27 – Região crítica para o teste t

Para calcular a probabilidade (valor - P) de obtermos uma estatística t igual ou superior a esse valor,
vamos utilizar a função estatística do Excel (DISTT).

Para o nosso caso, valor - P = DISTT (teste; graus de liberdade; caudas).

Onde:

• teste = t teste (Stat-t deve ser inserido com seu valor em módulo, isto é, positivo);

• graus de liberdade = n - k - 1 (graus de liberdade dos resíduos, sendo n o número de observações


e k o número de variáveis independentes);

• caudas = o teste do valor-P bicaudal deve ser sempre igual a 2.

77
Unidade II

Nível de significância do teste α (erro permitido):

• valor - P = DISTT (5,50; 9; 2) retorna o valor 0,0003817, de modo que:

— se o valor - P for ≤ α, rejeitaremos a hipótese nula;

— se o valor - P for > α, aceitaremos a hipótese nula.

O erro permitido é de 5% (α = 0,05). Assim, o valor-P é bem menor que 0,05. Significa rejeitarmos a
hipótese nula (H0 : β = 0) de que não há associação entre X e Y.

5.8 Teste de hipótese

É importante também aplicarmos o teste de hipótese ao nosso modelo de regressão.

A hipótese nula é: os valores de x não têm qualquer relacionamento com os valores de y. Veja:

H0 : β = 0;

H1 : β ≠ 0 (teste bilateral).

A hipótese nula é confirmada pela equação Y^i = a + bXi + ei, quando se constata que não haverá
qualquer relação entre x e y se o verdadeiro valor do coeficiente angular for zero.

b−β
t=
∑ ( yi − yˆ ) / (n − 2)
2

∑ ( xi − x )
2

A equação tem distribuição t com n - 2 graus de liberdade. Assim, decorre que, se β = 0, então a
estatística será:

b
t=
∑ ( yi − yˆ ) / (n − 2)
2

∑ ( xi − x )
2

Podemos calcular o valor dessa estatística. Testamos a existência do efeito de regressão entre duas
variáveis em estudo. A hipótese nula é de não existência de regressão, enquanto a hipótese alternativa
é aquela que contempla a regressão.

Assim, o teste de hipótese será delineado:


78
ECONOMETRIA

Tabela 18 – Teste de hipótese (H0 : β = 0)

Hipótese nula H0 : β = 0

b
tobs =
∑ ( yi − yˆ ) / (n − 2)
2
Valor da estatística de teste
∑ ( xi − x )
2

Hipótese alternativa Intervalo de rejeição (nível α)


H1 : β ≠ 0 tobs > tn - 2;

No teste para β, calculamos a região crítica (RC) ao nível de significância de 5%. Podemos calcular
o valor dessa estatística:

b 663,29
=t = = 5,50
∑ ( yi − yˆ ) / (n − 2)
2
∑36.213.208,56 / (11 − 2)
276,35
∑ ( xi − x )
2

Para um teste bilateral no nível de significância de 5%, o valor crítico de uma distribuição t com
9 graus de liberdade é 2,26. Como 5,50 está na região de rejeição, bem acima do valor crítico, podemos
rejeitar com segurança a hipótese nula de que o coeficiente angular seja zero.

α α
2 2

-tc tc t
-2,26 +2,26

Figura 28 – Região crítica para o teste t

Teoria Modelo Modelo Estimação Teste de Aplicação


econômica matemático econométrico Dados do modelo hipóteses Previsão do modelo

Figura 29 – Sétimo e oitavo passos para a elaboração de um modelo econométrico

79
Unidade II

Exemplo: podemos usar essa equação para prever a expectativa de produção de açúcar com base no
preço a seguir: US$ 15,00.

Solução: devemos substituir cada renda em x na equação. Calculando o valor previsto y^:

y^ = 23.508,98 + 663,29X = 23.508,98 + 663,29 x 15,00 = 33.458,33

Quando o preço for de US$ 15,00, a produção de açúcar chegará a 33.458 mil toneladas.

Os valores previstos têm sentido somente para valores de x no intervalo de dados (8,00 a 25,00 dólares)
ou próximos a eles.

5.9 Intervalos de previsão

Uma vez que as equações de regressão são determinadas usando dados amostrais e supõe-se que
x e y tenham uma distribuição normal bivariada, podemos construir um intervalo de previsão para o
verdadeiro valor de y.

Observação

Duas variáveis terão uma distribuição normal bivariada se, para cada
valor fixo de x, os valores correspondentes de y tiverem distribuição
normal e, para cada valor fixo de y, os valores correspondentes de x
forem normalmente distribuídos.

Para construir o intervalo de previsão, usa-se uma distribuição t de Student com n - 2 graus de liberdade.

Portanto, dada uma equação de regressão linear y^ = a + bx e x0, um valor específico de x, podemos
construir um intervalo de previsão c para y:

y^ - E < y^ < y^ + E

Em que:

1 n(x 0 − x)2
=
E t c Se 1 + +
n n x2 −
∑ ∑x ( )2
A estimativa pontual é y^, e o erro máximo de estimativa é E. A equação anterior define o intervalo
de previsão para uma resposta individual, Y, em um determinado valor, x0.

80
ECONOMETRIA

Exemplo: construa um intervalo de previsão de 95% para as mil toneladas de açúcar produzidas
quando o preço no mercado externo for de US$ 15,00.

Solução: temos que n = 11. O número de graus de liberdade é:

g.l. = n - 2 = 11 - 2 = 9

Tendo a equação de regressão e x0 = 15,00 (valor específico de x):

y^ = 23.508,98 + 663,29X

Então a estimativa pontual é:

y^ = 23.508,98 + 663,29 x 15,00 = 33.458,33

y^ = 33.458,33

Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student


(bilateral) no AVA –, o valor crítico é:

tc = 2,26

O erro-padrão da estimativa é:

se = 2.005,9137

Baseados nesses valores, o erro máximo da estimativa é:

1 n(x 0 − x)2
=
E t c Se 1+ +
n n x2 −
∑ ∑x ( )2

1 11 × (15 − 15,86)2
E= (2,26 × 2.005,91) × 1 + +
11 3.039,82

E = 4.850,5

Utilizando y^ = 33.458,33 e E = 4.850,5, o intervalo de confiança é:

y^ - E < y^ < y^ + E

81
Unidade II

Limite inferior (y^ - E) Limite superior (y^ + E)


33.458,33 + 4.850,5 = 28.607,8 33.458,33 + 4.850,5 = 38.308,8

28.608 < y^ < 38.309

Portanto, pode-se ter 95% de confiança de que, se o preço do açúcar no mercado externo for de
US$ 15, a produção em mil toneladas estará entre R$ 28.608 e 38.309 mil toneladas.

Observação

Quanto maior for a diferença entre x e x, maior será o intervalo de previsão.


y
220 Limite superior
200 5x
Os limites de intervalo 0+
de confiança ^y = 6
180 dependem de Xp
160
Limite inferior
140
120

100
80 Em xp = x^ a
amplitude do
60 intervalo de
40 confiança é menor
20 x^ = 14

x
0 2 4 6 8 10 12 14 16 18 20 22 24 26

Figura 30 – Intervalos de confiança da média de y para determinados valores de x

5.10 Anova (análise de variância)

É a análise dos pressupostos básicos e validação dos testes estatísticos no grau de ajustamento de
um modelo de regressão.

Veja os dados a seguir, extraídos de pesquisas do IBGE:

82
ECONOMETRIA

Tabela 19 – Resultado de resíduos

Observação Previsto(a) prod. açúcar (Y) Resíduos Resíduos padrão


1 29.410,63 -2.990,55 -1,57
2 33.090,25 -2.866,65 -1,51
3 30.227,03 1.052,67 0,55
4 30.905,25 714,95 0,38
5 33.143,86 -69,16 -0,04
6 36.565,35 1.603,05 0,84
7 40.250,49 -1.978,69 -1,04
8 38.988,58 -651,70 -0,34
9 35.133,74 2.744,52 1,44
10 34.391,41 1.168,77 0,61
11 32.216,36 1.272,78 0,67

Premissas da regressão (MMQO) e o grau de ajuste do modelo econométrico:

Quadro 2 – Premissas da regressão

Linearidade Teste A relação entre X e Y é linear

Os valores dos erros são


estatisticamente independentes. Os
Independência dos erros ou resíduos devem estar distribuídos
Durbin-Watson
autocorrelação residual aleatoriamente em torno da reta
de regressão e não devem estar
correlacionados entre si.

Os erros são normalmente distribuídos


Normalidade dos erros Kolmogorov-Smirnov para cada valor de X.

Igualdade de variâncias ou A variância dos erros é constante para


Pesaran-Pesaran
homocedasticidade todos os valores de X.

Pelo diagrama de dispersão, é possível visualizar se as relações entre as variáveis X e Y são lineares
através de uma reta ajustada aos pontos observados. Entre as causas de autocorrelação, se erramos
na escolha da equação a ser ajustada aos pontos observados e em vez de escolhermos uma relação
não linear optamos por ajustar uma reta, o gráfico dos resíduos irá mostrar uma tendência positiva
(ou negativa), significando que uma outra função (não linear) deveria ser escolhida. Outra situação é
a seguinte: se por acaso uma variável explicativa (X) de grande importância for omitida do modelo, a
tendência dessa variável passará a constar, a refletir no comportamento do resíduo.

83
Unidade II

Resíduos

Figura 31 – Diagrama de dispersão dos resíduos

Observação

A autocorrelação serial se baseia na ideia de que os resíduos contêm mais


informação sobre a variável dependente do que aquilo que foi “filtrado”
pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser
sistematizado. Exemplos de autocorrelação são normalmente encontrados
em trabalhos que utilizam séries de tempo como dados de análise.

6 AVALIAÇÃO DO CONTEÚDO INFORMACIONAL DOS RESÍDUOS

A análise de resíduos revela:

• se a presunção de normalidade da distribuição dos resíduos se confirma;

• se a variância dos resíduos é realmente constante, ou seja, se a dispersão dos dados em torno da
reta de regressão é uniforme;

• se há ou não uma variável não identificada que deve ser incluída no modelo;

• se a ordem em que os dados foram coletados (por exemplo, tempo da observação) tem algum
efeito sobre os dados, ou se a ordem deve ser incorporada como uma variável no modelo;

• se a presunção de que os resíduos não são correlacionados está satisfeita.

Premissas dos testes estatísticos em relação:

84
ECONOMETRIA

Dados Modelo linear nos Resíduos São aleatórios com


parâmetros distribuição normal?
São independentes entre si?
Têm valor esperado = 0?
Possuem variância
constante?

Figura 32 – Premissas dos testes: dados e resíduos

Portanto, antes de utilizarmos o modelo de regressão, é necessário verificarmos se essas premissas


são verdadeiras para os dados que estão sendo analisados. Uma vez que os dados foram coletados ao
longo de um período consecutivo de 11 anos, além de verificarmos os pressupostos de linearidade,
normalidade e igualdade das variâncias, é necessário investigar o pressuposto da independência dos
erros (autocorrelação dos resíduos).

Inicialmente, iremos ressaltar uma representação gráfica que é obtida plotando os pares (xi, ei).
Obtido o gráfico dos resíduos, precisamos saber como identificar possíveis causas que comprometem a
confiabilidade do modelo. A situação ideal para os resíduos é estarem distribuídos aleatoriamente em
torno do zero, sem nenhuma observação muito discrepante.

y - y^
Resíduo

0 Bom padrão

Figura 33 – Diagrama de resíduos: situação ideal

A análise de resíduos nos permite:

• descobrir se as hipóteses do modelo de regressão linear são válidas para o caso em questão;

• analisar se a correlação entre as duas variáveis é ou não forte, na qual utilizamos a relação
SQReg (1 − SQRes )
ou .
SQT SQT
85
Unidade II

Tomemos, pois, os resíduos das produções de açúcar em relação ao preço do mercado externo.
Podemos analisar a evolução dos resíduos para saber se a variância σ2 é ou não constante ao longo do
intervalo x, além de apresentar distribuição normal em torno da reta de regressão.

Temos, a seguir, os resíduos para cada valor de x observado e os gráficos de resíduos para analisarmos
a consistência das hipóteses do modelo de regressão, a partir de dados do IBGE:

Tabela 20 – Variância residual

Produção de Preço do açúcar


açúcar VHP (mercado)
US$/saca de 50
mil toneladas quilos
Ano Yi Xi Y^ (Y - Y^)2 (X - X)2
2005/06 26.420,0827 8,8975 29.410,6 8.943.375,88 48,49
2006/07 30.223,6000 14,4450 33.090,2 8.217.663,21 2,00
2007/08 31.279,7000 10,1283 30.227,0 1.108.107,36 32,86
2008/09 31.620,2000 11,1508 30.905,2 511.153,51 22,18
2009/10 33.074,7000 14,5258 33.143,9 4.783,50 1,78
2010/11 38.168,4000 19,6842 36.565,3 2.569.776,79 14,62
2011/12 38.271,8000 25,2400 40.250,5 3.915.219,38 87,97
2012/13 38.336,8761 23,3375 38.988,6 424.714,03 55,90
2013/14 37.878,2633 17,5258 35.133,7 7.532.403,18 2,77
2014/15 35.560,1797 16,4067 34.391,4 1.366.032,30 0,30
2015/16 33.489,1427 13,1275 32.216,4 1.619.979,43 7,47
∑ 374.322,9 174,47 374.322,9 36.213.208,56 276,35

Assim, a variância residual (estimada) é:

SQRes 36.213.208,56
=S2 = = 4.023.689,84
n−2 9

Uma maneira simples de obtermos informações importantes sobre um modelo de regressão consiste
em elaborarmos um gráfico dos resíduos para cada ponto dos dados observados (Xi, Yi). Portanto,
calculamos o resíduo:

Outra maneira de obtermos informações preciosas sobre um modelo de regressão consiste em fazer
um gráfico dos resíduos. Para cada ponto dos dados (Xi e Yi), calculamos o resíduo. A equação da reta
estimada é a seguinte:

Y^ = 23.508,98 + 663,26X

86
ECONOMETRIA

Resíduo (ei) = (Y - Y^)

Resíduo (ei) = (Y - 23.508,98 + 663,29X)

A seguir, calculamos a tabela dos resíduos, de acordo com números IBGE:

Tabela 21 – Resíduos

Seq. Ano Xi Yi Y^ = 23.508,98 + 663,29X Resíduo(ei)

1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55


2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65
3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67
4 2008/09 11,1508 31.620,2000 30.905,2 714,95
5 2009/10 14,5258 33.074,7000 33.143,9 -69,16
6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05
7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69
8 2012/13 23,3375 38.336,8761 38.988,6 -651,70
9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52
10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77
11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78

Vamos elaborar o gráfico de dispersão, com os valores de Xi dispostos no eixo horizontal e os resíduos
ei ao longo do eixo vertical. Temos:
4.000,0
3.000,0
2.000,0
1.000,0
Resíduos

0
-1.000,0 5,0 10,0 15,0 20,0 25,0 30,0
-2.000,0
-3.000,0
-4.000,0 Preço açúcar VHP (x1)

Figura 34 – Preço açúcar VHP (x1) plotagem de resíduos

Como podemos observar, os resíduos não se concentram acima ou abaixo da linha horizontal. Eles se
distribuem aleatoriamente ao longo da reta, pressupondo-se portanto que não há haja autocorrelação.
Para verificar se de fato não há correlação, utilizaremos o teste Durbin-Watson.

87
Unidade II

Na plotagem dos resíduos, para que os dados atendam às premissas, o gráfico anterior deve
mostrar uma faixa horizontal centrada em torno do zero, sem mostrar uma tendência positiva
ou negativa, ou seja, os resíduos devem estar distribuídos aleatoriamente em torno de zero, sem
nenhuma observação discrepante.

Existe um tópico dentro dos estudos econométricos que trata especificamente da análise dos resíduos,
um conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com
base nos resíduos.

µ µ

0 0
x x

µ µ

0 0
x x

Figura 35 – Plotagem dos resíduos

Conhecido como autocorrelação residual, existente nos exemplos dos gráficos anteriores,
esse pressuposto é às vezes violado quando os dados são coletados ao longo do tempo (períodos
sequenciais), e podem existir concentrações de resíduos com o mesmo sinal (autocorrelação positiva,
a mais frequente) ou quando os resíduos tendem a alternar de sinal – de positivo para negativo,
depois para positivo, e assim sucessivamente (autocorrelação negativa, mais rara) –, se existe de
fato um padrão cíclico.

88
ECONOMETRIA

0
x

Figura 36 – Resíduos

Como podemos observar no gráfico anterior, os resíduos não estão concentrados nem acima nem
abaixo da linha horizontal. Eles se encontram distribuídos aleatoriamente ao longo da reta, pressupondo-se
portanto que não haja autocorrelação. Para verificar se de fato não há correlação, utilizaremos o teste
Durbin-Watson.

O modelo pressupõe que:

• a correlação entre os resíduos seja zero;

• o efeito de uma observação seja nulo sobre a outra;

• não haja causalidade entre os resíduos e a variável X e, por consequência, a variável Y.

A estatística de Durbin-Watson analisa a dispersão dos resíduos em torno da sua média. É um teste
utilizado para detectar se há presença significativa de autocorrelação entre os resíduos em um modelo
de regressão. O coeficiente de Durbin-Watson mede a correlação entre cada um dos resíduos e o resíduo
da observação anterior:

• H0: não existe correlação serial dos resíduos.

• H1: existe correlação serial dos resíduos.

Segue-se a fórmula:

∑ i=2 ( ei − ei−1 )
n 2
DW = n
∑ i=1ei2
onde ei é o resíduo para o período de tempo i.

89
Unidade II

Se os resíduos forem correlacionados, significa que as estimativas dos parâmetros não são eficientes
e apresentam maior erro-padrão.

São possíveis causas em séries temporais:

• inércia;

• viés de especificação:

— falta de variáveis;

— forma funcional incorreta.

• defasagem nos efeitos das variáveis;

• manuseio dos dados: interpolação/extrapolação.

A solução é formular corretamente a relação funcional ou tornar a série estacionária.

Construímos a planilha, a partir de dados do IBGE, para proceder aos cálculos:

Tabela 22 – Cálculo do teste Durbin-Watson

Seq. Ano Xi observado Yi observado Yi previsto ei = (Yi prev - Yiob) ei2 ei - 1 ei - ei - 1 (ei - ei - 1)2
1 2005/06 8,8975 26.420,0827 29.410,6 -2.990,55 8.943.375,88
2 2006/07 14,4450 30.223,6000 33.090,2 -2.866,65 8.217.663,21 -2.990,55 123,90 15.351,48
3 2007/08 10,1283 31.279,7000 30.227,0 1.052,67 1.108.107,36 -2.866,65 3.919,31 15.361.018,06
4 2008/09 11,1508 31.620,2000 30.905,2 714,95 511.153,51 1.052,67 -337,72 114.052,62
5 2009/10 14,5258 33.074,7000 33.143,9 -69,16 4.783,50 714,95 -784,11 614.832,96
6 2010/11 19,6842 38.168,4000 36.565,3 1.603,05 2.569.776.79 -69,16 1.672,22 2.796.303,61
7 2011/12 25,2400 38.271,8000 40.250,5 -1.978,69 3.915.219,38 1.603,05 -3.581,74 12.828.887,70
8 2012/13 23,3375 38.336,8761 38.988,6 -651,70 424.714,03 -1.978,69 1.326,99 1.760.903,66
9 2013/14 17,5258 37.878,2633 35.133,7 2.744,52 7.532.403,18 -651,70 3.396,22 11.534.332,52
10 2014/15 16,4067 35.560,1797 34.391,4 1.168,77 1.366.032,30 2.744,52 -1.575,75 2.482.983,50
11 2015/16 13,1275 33.489,1427 32.216,4 1.272,78 1.619.979,43 1.168,77 104,01 10.818,14
∑ 0,00 36.213.208,56 -1.272,78 4.263,33 47.519.484,24

Quando resíduos sucessivos são positivamente correlacionados, o valor de DW se aproxima de 0. Se os


resíduos não forem correlacionados, o valor de DW estará próximo de 2. Se existir uma autocorrelação
negativa, caso mais raro, DW será maior do que 2 (podendo aproximar de seu valor máximo, que é 4).
Para os dados da produção de açúcar, os resultados mostram que a estatística de Durbin-Watson (DW)
é igual a 1,31, conforme fórmula a seguir:

90
ECONOMETRIA

∑=
n
( e − ei−1 )
i=2 i
2
47.519.484,24
=DW n
≅ 1,31
∑ i=1ei2 36.213.208,56

Para determinarmos se a autocorrelação é grande o suficiente para que se conclua que existe uma
correlação positiva, devemos comparar o valor de DW calculado (DW = 1,31) aos valores críticos da
estatística de Durbin-Watson encontrados na tabela a seguir. Os valores críticos dependem do nível de
significância do teste (α) e de (n), o tamanho da amostra, e de (k), o número de variáveis independentes
no modelo de regressão.

Tabela 23 – Tabela Durbin-Watson

K=1 K=2
n di du di du
6 0,610 1,400
7 0,700 1,356 0,467 1,896
8 0,763 1,332 0,559 1,777
9 0,824 1,320 0,629 1,699
10 0,879 1,320 0,697 1,641
11 0,927 1,324 0,758 1,604
12 0,971 1,331 0,812 1,579
13 1,010 1,340 0,861 1,562
14 1,045 1,350 0,905 1,551
15 1,077 1,361 0,946 1,543
16 1,106 1,371 0,982 1,539
17 1,133 1,381 1,015 1,536
18 1,158 1,391 1,046 1,535
19 1,180 1,401 1,074 1,536
20 1,201 1,411 1,100 1,537

Tabela 24 – Critérios de avaliação Durbin-Watson

Autocorrelação Região não Ausência de Região não Autocorrelação


positiva conclusiva autocorrelação conclusiva negativa

0 di du 4 - du 4 - di 4

O primeiro valor, di = 0,927, representa o valor crítico inferior. Caso DW = 1,31 esteja abaixo de di,
conclui-se que existem evidências de autocorrelação positiva entre os resíduos (MMQ não é apropriado).

O segundo valor, du = 1,324, representa o valor crítico superior de DW, acima do qual se conclui que
não existe nenhuma evidência de autocorrelação positiva entre os resíduos.

91
Unidade II

Caso DW se posicione entre di e du, fica-se impossibilitado de se chegar a uma conclusão definitiva,
que é o nosso caso.

Como DW de 1,31 situa-se dentro desse intervalo, podemos aceitar a hipótese da ausência de
autocorrelação residual e, consequentemente, utilizar o método dos mínimos quadrados.

6.1 Avaliando a homocedasticidade

Se o gráfico da plotagem de probabilidade normal for aproximadamente linear, poderemos assumir


que os resíduos tenham distribuição normal. Veja a tabela e o gráfico com dados do IBGE:

Tabela 25 – Resultados de probabilidade

Percentil Prod. açúcar (Y)


4,55 26.420,08
13,64 30.223,60
22,73 31.279,70
31,82 31.620,20
40,91 33.074,70
50,00 33.489,14
59,09 35.560,18
68,18 37.878,26
77,27 38.168,40
86,36 38.271,80
95,45 38.336,88

41.000
Prod. açúcar (mil toneladas)

39.000
37.000
35.000
33.000
31.000
29.000
27.000
25.000
0 20 40 60 80 100
Percentil da amostra

Figura 37 – Plotagem de probabilidade normal

Quando o pressuposto da homocedasticidade está satisfeito, significa que a variância dos resíduos
é igual a uma constante para todos os valores de X. A variância dos resíduos é indicada pela largura da
dispersão dos resíduos, quando o valor de x aumenta. Se essa largura aumentar ou diminuir quando o
valor de x aumentar, a variância não será constante. Esse problema é denominado heterocedasticidade.
A violação do pressuposto da homocedasticidade compromete a eficiência das estimativas do modelo de

92
ECONOMETRIA

regressão. A seguir, encontram-se dois gráficos que vão demonstrar a diferença entre homocedasticidade
e hetorocedasticidade.
Resíduos Resíduos

0 0

x x

Figura 38 – Resíduos: homocedasticidade e heterocedasticidade

No gráfico (à esquerda), os resíduos parecem aleatórios (sem padrão): observamos uma variância
constante à medida que x cresce. No gráfico (à direita), observamos que a variância residual está
crescendo à medida que a variável x cresce.

O teste de Pesaran-Pesaran consiste em detectar a presença de heterocedasticiade com base nos


resultados da regressão em que a variável dependente representa os valores dos quadrados dos resíduos
(e2) e a variável independente é constituída pelos valores estimados da variável dependente (y^).

Veja a tabela a seguir, elaborada a partir de dados do IBGE:

Tabela 26 – Resíduos

Seq. Ano Yi projetado ei2


1 2005/06 29.410,6 8.943.375,9
2 2006/07 33.090,2 8.217.663,2
3 2007/08 30.227,0 1.108.107,4
4 2008/09 30.905,2 511.153,5
5 2009/10 33.143,9 4.783,5
6 2010/11 36.565,3 2.569.776,8
7 2011/12 40.250,5 3.915.219,4
8 2012/13 38.988,6 424.714,0
9 2013/14 35.133,7 7.532.403,2
10 2014/15 34.391,4 1.366.032,3
11 2015/16 32.216,4 1.619.979,4

93
Unidade II

Observação

No teste de Pesaran-Pesaran podemos optar por regredir o quadrado


2
 (ei − média ei ) 
( ei_padronizado )
2
dos resíduos padronizados =
 desvio − padrão de ei 
como função do quadrado dos valores estimados padronizados
2
 (yˆ i − média yˆ i ) 
( Yˆi_padronizado )
2
= . É uma regressão simples com
 desvio − padrão de yˆ i 
o quadrado dos resíduos padronizados como variável dependente e o
quadrado dos valores estimados padronizados como variável independente.
6.000,000
5.000,000
4.000,000
3.000,000
2.000,000
1.000,000
Resíduos

0
-1.000,000 25.000 27.000 29.000 31.000 33.000 35.0000 37.000 39.000 41.000
-2.000,000
-3.000,000
-4.000,000
Yi observado

Figura 39 – Yi observado: plotagem de resíduos

Graficamente, observamos que os valores estão bem dispersos. Podemos concluir que há
homocedasticidade. Usando a ferramenta de regressão do Excel, vamos calcular a regressão
desses dados:

Tabela 27 – Análise de variância (Anova)

Estatística de regressão
R múltiplo 0,1363
R-quadrado 0,0186
R-quadrado ajustado -0,0905
Erro-padrão 3.512.278,65
Observações 11

94
ECONOMETRIA

Anova
F de
gl SQ MQ F
significação
Regressão 1 2.100.943.198.308,7 2.100.943.198.308,7 0,1703 0,689495411
Resíduo 9 111.024.911.656.028,0 12.336.101.295.114,3
Total 10 113.125.854.854.337,0

95% Superior
Coeficientes Erro-padrão Stat t valor-P 95% inferiores Inferior 95,0%
superiores 95,0%
Interseção 7.765.397,31 10.891.091,76 0,7130 0,493914 -16.871.963,94 32.402.758,56 -16871963,94 32402758,56
Yi projetado -131,45 318,53 -0,4127 0,689495 -852,03 589,12 -852,0261707 589,1186329

O coeficiente de determinação, ou R-quadrado, nos diz que há pouca correlação entre as variáveis e
o valor-P = 0,3189 ou 31,89% (e o F de significação) > 5%.

Portanto, podemos aceitar a hipótese nula (β = 0) e a ausência de heterocedasticidade.

6.2 Avaliando a normalidade

Os testes de significância e os intervalos de confiança das estimativas do modelo de regressão são


baseados no pressuposto da normalidade, isto é, que os resíduos apresentam distribuição normal. A
violação da normalidade gera estimativas não eficientes, de maior erro-padrão, e suas causas podem
estar ligadas a alguns aspectos relacionados ao modelo, tais como omissão de variáveis explicativas
importantes, inclusão de variável explicativa irrelevante para o modelo e utilização de relação matemática
incorreta (forma funcional) para análise entre as variáveis do modelo.

Utilizaremos o teste não paramétrico do Kolmogorov-Smirnov para avaliar a normalidade e testar a


proximidade ou a diferença entre a frequência observada e a esperada.

Hipóteses:

H0: distribuição normal;

H1: distribuição não é normal.

A estatística do teste de Kolmogorov-Smirnov usa a distribuição D, cuja estatística de teste


é a seguinte:

Dn = máx(i / n - Zi)

Onde:

n = tamanho da amostra, sendo i = 1, 2, 3 ... n;

95
Unidade II

Zi = probabilidade acumulada da distribuição normal padronizada, considerando os valores


e
hi = i , onde ei são os resíduos ordenados de forma crescente e Se é o desvio-padrão dos ei, onde
n
Zi = DISTNORMP(hi), calculado pela função no Excel.

Se Dn ≤ Dcrítico, aceita a hipótese nula.

Geralmente, quando Dn for menor que 0,3, isso indica que a distribuição está apropriada (aproxima
de uma normal). Para realização do teste, procedemos da seguinte maneira:

Dn = máx(D+, D-)

O valor do Dcrítico é obtido a partir da tabela a seguir. Os parâmetros são:

• o valor do nível significância, que é de 5% (a = 0,05);

• o tamanho da amostra. Em nosso caso, n = 11.

Se Dn é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com (1 - α)100%
de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.

A tabela de valores críticos para a estatística do teste de Kolmogorov-Smirnov é dada a seguir:

Tabela 28 – Teste de Kolmogorov-Smirnov

Nível de Significância (α)


n 0,2 0,1 0,05 0,01
5 0,45 0,51 0,56 0,67
10 0,32 0,37 0,41 0,49
15 0,27 0,3 0,34 0,4
20 0,23 0,26 0,29 0,36
25 0,21 0,24 0,27 0,32
30 0,19 0,22 0,24 0,29
35 0,18 0,2 0,23 0,27
40 0,17 0,19 0,21 0,25
45 0,16 0,18 0,2 0,24
50 0,15 0,17 0,19 0,23
1, 07 122
, 1, 36 166
,
Valores maiores
n n n n

96
ECONOMETRIA

Construindo a planilha de cálculo, temos:

Tabela 29 – Calculo Kolmogorov-Smirnov

i Ano ei hi = ei / s Zi i/n D = (i / n - Zi)


1 2005/06 -2.990,55 -1,5715 0,0580 0,0909 0,0329
2 2006/07 -2.866,65 -1,5064 0,0660 0,1818 0,1158
3 2007/08 1.052,67 0,5532 0,7099 0,2727 -0,4372
4 2008/09 714,95 0,3757 0,6464 0,3636 -0,2828
5 2009/10 -69,16 -0,0363 0,4855 0,4545 -0,0310
6 2010/11 1.603,05 0,8424 0,8002 0,5455 -0,2548
7 2011/12 -1.978,69 -1,0398 0,1492 0,6364 0,4871
8 2012/13 -651,70 -0,3425 0,3660 0,7273 0,3613
9 2013/14 2.744,52 1,4422 0,9254 0,8182 -0,1072
10 2014/15 1.168,77 0,6142 0,7305 0,9091 0,1786
11 2015/16 1.272,78 0,6688 0,7482 1,0000 0,2518
∑ 0,00
Desvio-padrão (s) 1.902,98

Portanto, como o valor de Dn = 0,4871 é maior que o Dcrítico = 0,41 (da tabela) para um nível de
confiança de 95%, concluímos que os resíduos não se comportam seguindo uma distribuição normal
de probabilidades.

Para a identificação da normalidade nos resíduos, compara-se a distribuição dos resíduos


com a curva normal através do teste de Jarque-Bera envolvendo a estatística qui-quadrado com
2 graus de liberdade:

JB = n . [A2/6 + (C-3)2/24]

Onde:

A = assimetria;

C = curtose.

Neste nosso caso, temos:

n = número de observações (n = 11);

A = assimetria (A = - 0,3757);

C = curtose (C = - 0,9185).

97
Unidade II

Calcula-se a estatística JB:

 A2 (C − 3)2   ( −0,3757)2 ( −0,9185 − 3)2 


JB =
n×  +  =×
11  +  ≅ 7,3
 6 24   6 24 

Consultando a tabela da distribuição qui-quadrado (vide tabela da distribuição qui-quadrado no


2
AVA), obtemos JBcrítico = estatística qui-quadrado ( X 0,05; 2 ) ao nível de significância de 5% e com
2 graus de liberdade = 0,10.

Se JBcalculado ≤ JBcrítico, aceitará a hipótese nula. Portanto, rejeitamos a hipótese nula, ou seja, a
distribuição dos resíduos não se comporta como uma distribuição de probabilidade normal.

Observação

Os resíduos devem apresentar distribuição normal.

x = x1

x = x2

Figura 40 – Resíduos, distribuição de probabilidade normal

Observação

Os resíduos devem apresentar a mesma variância para cada


observação de X.

98
ECONOMETRIA

6.3 Intervalo de confiança para a regressão: duas alternativas

Quando calculamos o valor de y^ considerando um valor para a variável X, há duas alternativas que
levam ao mesmo resultado para y^, mas que produzem resultados diferentes com relação ao intervalo de
confiança. Essas duas alternativas e as fórmulas de cálculo de seus desvios-padrões para o cálculo dos
intervalos são as seguintes:

Alternativa 1: considerando y^ como valor médio para dado X:

1 ( x − média x )
2
Smédia=
de y Se . +
n Sxx

Alternativa 2: considerando y^ como valor individual para dado X:

1 ( x − média x )
2
S=
y S e . 1 + +
n Sxx

Os intervalos de confiança para essas duas situações estão descritos a seguir:

ICy^médio = y^ ± t . Smédia de y

ICy^individual = y^ ± t . Sy

Vamos retomar o nosso caso inicial (da produção de açúcar) para demostrarmos o cálculo dos
dois intervalos de confiança, estimando y^: produção de açúcar a partir de X: preço em dólar no
mercado externo.

Construamos um intervalo de previsão de 95% para as mil toneladas produzidas de açúcar quando
o preço no mercado externo for de US$ 15.

Solução:

Temos que n = 11. O número de graus de liberdade é:

g.l. = n - 2 = 11 - 2 = 9

Tendo a equação de regressão e x0 = 15,00 (valor específico de x):

y^ = 23.508,98 + 663,29X

99
Unidade II

Então a estimativa pontual é:

y^ = 23.508,98 + 663,29 x 15,00 = 33.458,33

y^ = 33.458,33

Com base na distribuição de probabilidade t de Student – veja a tabela da distribuição t-Student


(bilateral) no AVA –, o valor crítico é:

tc = 2,26

O erro-padrão da estimativa é:

se = 2.005,9137

( ∑x i ) 2

Sxx ∑i
= x2 −
n
=

Sxx =3.043,6 −
(174,47)
2
=276,35
11

Alternativa 1: considerando y^ como valor médio para dado X:

1 (x − média x)2 1 (15 − 15,86)2


Smédia de y = Se . + = 2.005,9137 × + = 613,66
n Sxx 11 276,35

Alternativa 2: considerando y^ como valor individual para dado X:

1 (x − média x)2 1 (15 − 15,86)2


S=
y Se . 1 + + = 2.005,9137 × 1 + + = 2.097,68
n Sxx 11 276,35

Os intervalos de confiança para essas duas situações estão descritos a seguir:

ICy^médio = y^ ± t . Smédia de y = 33.458,33 ± 1.386,87

ICy^individual = y^ ± t . Sy = 33.458,33 ± 4.740,76

100
ECONOMETRIA

6.4 Variação em torno de uma reta de regressão

Vamos compreender os três tipos de variação em torno de uma reta de regressão. São eles:

Tabela 30 – Tipos de variação em torno da reta

Variação total = Variação explicada + Variação inexplicada


∑(yi - y) 2
= ∑(y^i - y)2 + ∑(yi - y^i)2
Soma do quadrado Soma do quadrado
Soma do quadrado total = +
da regressão do resíduo
SQTot = SQReg + SQRes
Syy bSxy = b Sxx2
+ Syy - bSxy = Syy - b2Sxx

• Variação total: é a soma dos quadrados das diferenças entre o valor y de cada par ordenado e a
média de y.

• Variação explicada: é a soma dos quadrados das diferenças entre cada valor previsto de y e a
média de y (explicada pela relação X e Y).

• Variação inexplicada: é a soma dos quadrados das diferenças entre cada valor de y de cada par
ordenado e cada valor de y previsto correspondente (não pode ser explicada pela relação x e y e
isso ocorre devido ao acaso ou a outras variáveis).
y

{
(xi ; yi)
Desvio
{ inexplicado
yi - y^i
Desvio total
yi - y {
(xi ; y^i)
y Desvio
explicado
(xi ; y)
y^i - y

x
x

Figura 41 – Desvios para cada par de ponto (xi, yi)

Uma propriedade importante é a de que a variabilidade total poderá ser decomposta em duas partes:

• uma, devida aos possíveis efeitos aleatórios (não controlados) que recaiam sobre cada experimento,
que será definida como variabilidade residual;
101
Unidade II

• outra, a variabilidade atribuída ao efeito da regressão, se este realmente existir.

Podemos conduzir a análise de variância da regressão linear simples, conforme a tabela a seguir:

Tabela 31 – Análise da variância

Causas de variação Graus de liberdade Soma de quadrados Quadrados médios


Regressão 1 b∑xiyi b∑xiyi
Resíduo n-2 ∑yi - b∑xiyi
2
(∑yi - b∑xiyi) / (n - 2)
2

Total n-1 ∑yi2

Considerando o exemplo anterior, obtemos a seguinte tabela de análise de variância:

Tabela 32 – Análise de variância

Causas de variação Graus de liberdade Soma de quadrados Quadrados médios F


Regressão 1 121.581.704,10 121.581.704,10 30,22
Resíduo 9 36.213.208,56 4.023.689,84
Total 10 157.794.912,66

Tabela 33 – Análise de variância (Anova)

Anova (análise de variância)


gl SQ MQ F F de significação
(soma de
(graus de liberdade) (média de quadrados) (F-Fisher/Snedecor)
quadrados)
Regressão 1 121.581.704,10 121.581.704,10 30,22 0,000382
(gl I = k : nº variáveis
(variação explicada) independentes ou numerador (SQR) (MQR = SQR / k) (MQR / MQE) Prob. (Fcrítico > F)
do teste F)
Resíduo 9 36.213.208,56 4.023.689,84
(variação (gl II = n-k-1 : denominador do
(SQE) MQE = SQE / (n-k-1) 2,2622
inexplicada) teste F)
(variância estimada)
Total 10 157.794.912,66
gl I + gl II = k + (n-k-1) = n - 1 (SQT)

Ao nível de significância de 5% e para 1 e 9 graus de liberdade, o valor crítico de F é 5,2 (vide tabela
da distribuição F de Fisher-Snedecor no AVA). O valor de F calculado (30,22), sendo superior ao valor
crítico, é significativo ao nível de 5%. Consequentemente, rejeitamos a hipótese H0 : β = 0 em favor da
hipótese alternativa H1 : β ≠ 0 a esse nível de significância.

102
ECONOMETRIA

Resumo

Esta unidade abordou o modelo de regressão linear múltipla. Nesse


modelo, a variável dependente pode ser explicada por mais de uma variável,
partindo do princípio de que há uma relação linear entre as variáveis
independentes e dependentes. Ainda nesse modelo, os parâmetros são
desconhecidos e sua estimativa utiliza o método dos mínimos quadrados
ordinários, que procuram os valores dos parâmetros que minimizem a
soma dos quadrados dos erros. Aprendemos que, para a estimativa dos
parâmetros desconhecidos, é necessário o uso das hipóteses de linearidade,
exogeneidade, homocedasticidade, não autocorrelação dos erros e da não
existência de colinearidade perfeita entre as variáveis explicativas.

A unidade tratou também dos diferentes tipos de testes sobre os


coeficientes de uma regressão. São eles o da variável omitida e o da variável
redundante. Quanto aos testes dos resíduos, eles estão divididos entre os
da normalidade, do resíduo quadrado e da heterocedasticidade. Ainda
temos os diferentes testes de estabilidade, que servem para avaliar se os
parâmetros da regressão são estáveis ao longo do intervalo de estimativa.
Quanto ao modelo de regressão múltipla, um problema deve ser evitado:
o da multicolinearidade, em que a obtenção da matriz de correlação entre
as variáveis que compõem o modelo de regressão linear múltipla ajuda em
sua identificação.

Contribuição relevante da unidade foi a apresentação dos passos para


a elaboração de um modelo econométrico agora relacionado à análise de
regressão múltipla. A elaboração inicia pela teoria econômica, seguida da
escolha do modelo matemático e do modelo econométrico. A próxima etapa
é a da busca e tratamento dos dados, seguida da estimação do modelo de
regressão. O teste de hipótese deve ser efetuado para que se possa passar à
próxima etapa – a da previsão – e, por fim, à aplicação do modelo.

Para medir a força do relacionamento entre duas variáveis em termos


absolutos, aprendemos o que vem a ser covariância e o coeficiente
de correlação. O teste de hipótese para um coeficiente de correlação
populacional também foi apresentado no sentido de determinar se
existe evidência suficiente para que seja possível decidir se o coeficiente
de correlação populacional é representativo a determinado nível de
significância. De igual importância, temos o coeficiente de determinação,
que mede o grau de ajustamento da reta de regressão aos dados observados
e indica a proporção da variação total da variável dependente, que é
explicada pela variação da variável independente. A unidade avançou para

103
Unidade II

o tratamento do erro-padrão do coeficiente linear e do coeficiente angular,


bem como das inferências sobre o coeficiente angular. A importância
do teste de hipóteses no modelo de regressão também foi objeto de
investigação da unidade.

Exercícios

Questão 1. (Enade 2009) Considere o modelo de regressão linear múltipla, com variável dependente
y e variáveis explicativas X1, X2, ..., Xk, que pode ser expresso como:

yt = b1 + b2 X2t + b3 X3t + . . .+ bk Xkt + εt

no qual εt significa o fator de erro e t = 1, 2, ..., no índice relativo às observações amostrais.

É correto afirmar que o modelo clássico de regressão linear ou modelo de Gauss de regressão linear
supõe que

A) a relação linear entre pelo menos duas variáveis explicativas seja exata.

   
B) a variância dos erros varie na amostra: E 2t  E 2z para t  z

C) o valor esperado do fator de erro seja diferente de zero: E  t   0

D) os erros não sejam correlacionados: E  t z   0 para t  z

E) os valores das variáveis explicativas, X2, X3,..., Xk variem de amostra para amostra.

Resposta correta: alternativa D.

Análise das alternativas

A) Alternativa incorreta.

Justificativa. É pressuposto que a relação entre duas ou mais variáveis explicativas não
apresente nenhuma relação linear exata.

B) Alternativa incorreta.

Justificativa. O modelo supõe que a variância dos erros seja constante, ou seja, que tenhamos
erros independentes.

104
ECONOMETRIA

C) Alternativa incorreta.

Justificativa. É suposto pelo modelo que o valor esperado para o fator de erro seja zero.

D) Alternativa correta.

Justificativa. Tal como na regressão linear simples, é um pressuposto do modelo que os erros
sejam independentes, ou seja, não correlacionados.

E) Alternativa incorreta.

Justificativa. É esperado que os valores das variáveis explicativas sejam fixos.

Questão 2. (Enade 2006) Considere o modelo autorregressivo AR(1) dado por:

yt = ρ · yt-1 + vt

onde E(v t )  Q, var (v t )  2v e E( v t v s )  0, s  t e E(.) a esperança incondicional.

É correto afirmar que

A) se -1<ρ<1, o processo y é não estacionário.

B) se lρl>1, o processo é estacionário.


2v
C) a variância incondicional de y é dada por 2v  , se lρl < 1.
1  2
D) o processo não é autorregressivo, mas de média móvel.

E) um ρ negativo significa que yt guarda pouca relação com o seu passado.

Resposta correta: alternativa C.

Análise das alternativas

A) Alternativa incorreta.

Justificativa: o modelo pressupõe a condição -1 < ρ < 1 em sua própria especificação, pois tal
condição garante que a variância da série de tempo seja um valor positivo e finito. Tal restrição é
intuitivamente chamada de condição de estacionariedade.

105
Unidade II

B) Alternativa incorreta.

Justificativa: na alternativa, apresenta-se a mesma expressão -1 < ρ < 1, mas na forma de


módulo. Precisaríamos ter o módulo do coeficiente ρ menor do que 1 para que fosse observada
a estacionariedade.

C) Alternativa correta.

Justificativa: é a correta definição da variância do modelo, valendo ressaltar a mesma


advertência feita na análise da alternativa (B) acerca da condição -1 < ρ < 1, agora corretamente
observada (|ρ| < 1).

D) Alternativa incorreta.

Justificativa: na análise de séries de tempo, é aplicável o modelo de médias móveis, que guarda
relação com o próprio modelo autorregressivo. Todavia, sua especificação é distinta da apresentada na
questão, uma vez que, conforme nas médias móveis a série yt resulta da combinação linear dos choques
aleatórios (ruídos brancos) ocorridos no período corrente e nos períodos passados. Por conseguinte,
vemos que sua formulação é totalmente distinta da apresentada na questão (yt = vt - θvt-1, sendo θ
um parâmetro).

E) Alternativa incorreta.

Justificativa: a baixa relação com o passado ocorreria frente à estimação de um parâmetro ρ


que tendesse a zero. Portanto, não é uma questão de sinal, conforme afirmado.

106

Você também pode gostar