Você está na página 1de 112

Introdução à

ECONOMETRIA
Prof. Helio Otsuka

Versão 2013
Sumário
. Capítulo 1: Introdução .............................................................................................................................. 1

. Capítulo 2: Conceitos iniciais .................................................................................................................... 3


2.1. Objetivo da econometria ..................................................................................................................... 3
2.2. Definição de modelo ............................................................................................................................ 3
2.3. Estrutura de um modelo econométrico ............................................................................................... 4

. Capítulo 3: Análise de regressão linear simples de duas variáveis ............................................................ 6


3.1. Expressão do modelo ........................................................................................................................... 8
3.2. Pressupostos básicos............................................................................................................................ 8
3.3. Estimação dos parâmetros ................................................................................................................... 9
3.4. Equações normais (equações simultâneas) ......................................................................................... 10

. Capítulo 4: Regressão linear múltipla ....................................................................................................... 22


4.1. Introdução ............................................................................................................................................ 22
4.2. Pressupostos do modelo ...................................................................................................................... 23
4.2.1. Teorema de Gauss-Markov....................................................................................................... 23
4.3. Estimação dos parâmetros ................................................................................................................... 24
4.4. Estimação da equação de regressão múltipla ...................................................................................... 25
4.5. Previsão de valores com base na equação de regressão ..................................................................... 25
4.6. Erro padrão da estimativa .................................................................................................................... 26
4.7. Intervalos de predição (IP) ................................................................................................................... 26
4.8. Erro padrão dos estimadores ............................................................................................................... 26
4.9. Intervalo de confiança dos estimadores .............................................................................................. 27
4.10. Coeficiente de determinação (poder explicativo da regressão) ........................................................ 27
4.11. Teste de hipóteses ............................................................................................................................. 28

. Capítulo 5: Correlação .............................................................................................................................. 45


5.1. Objetivo para economia ....................................................................................................................... 45
5.2. Conceito de correlação ........................................................................................................................ 45
5.3. Medida de correlação .......................................................................................................................... 46
5.4. O coeficiente de correlação r e sua interpretação............................................................................. 46
5.5. Imagens de r no plano cartesiano em função do seu valor ............................................................... 47
5.6. Diferença entre correlação e regressão ............................................................................................... 48

. Capítulo 6: Violação dos pressupostos básicos ......................................................................................... 54


6.1. Heteroscedasticidade e homoscedasticidade ...................................................................................... 54
6.2. Natureza da heteroscedasticidade....................................................................................................... 55
6.3. Consequências da heteroscedasticidade ............................................................................................. 57
6.4. Detecção da heteroscedasticidade ...................................................................................................... 57

. Capítulo 7: Autocorrelação ou Correlação Serial ....................................................................................... 69


7.1. Natureza da autocorrelação................................................................................................................. 69
7.2. Padrões gráficos de autocorrelação ..................................................................................................... 69
7.3. Causa da autocorrelação ...................................................................................................................... 70
7.4. Consequências da autocorrelação ....................................................................................................... 70
7.5. Diagnóstico (identificação) da autocorrelação .................................................................................... 71
7.6. Medidas corretivas visando a remoção da autocorrelação ................................................................. 76
. Capítulo 8: Utilização de variáveis especiais ............................................................................................. 82
8.1. Variáveis dummy (dummies, binárias, artificiais, dicotômicas, etc.) ................................................... 82
8.2. Incorporação da variável (d ) ao modelo de regressão linear ............................................................. 83
A) Incorporação da variável (d ) pela forma aditiva .......................................................................... 83
B) Incorporação da variável (d ) pela forma multiplicativa ............................................................... 87

. Capítulo 9: Análise das séries temporais ................................................................................................... 92


9.1. Introdução ............................................................................................................................................ 92
92. Conceito de séries temporais ................................................................................................................ 92
9.3. Análise de uma série temporal ............................................................................................................ 94

. Tabelas ..................................................................................................................................................... 104


Tabela normal ............................................................................................................................................. 104
Distribuição t de Student ............................................................................................................................ 105
Tabela da distribuição F (nível de significância 1%) .................................................................................... 106
Tabela da distribuição F (nível de significância 5%) .................................................................................... 107
Tabela de Durbin-Watson ........................................................................................................................... 108

. Bibliografia ............................................................................................................................................... 109


ECONOMETRIA
(Noções Básicas)

Capítulo 1: INTRODUÇÃO

Uma imensa gama de relações teóricas existentes entre variáveis de natureza econômica podem
ser expressas e formuladas através de modelos matemáticos. Assim, nota-se que cada vez mais
estudiosos em economia se valem de metodologias estatísticas para estimar parâmetros
desconhecidos, testar hipóteses, efetuar simulações sobre as mais diversas relações entre
variáveis econômicas, visando efetuar previsões de caráter quantitativo de inúmeros eventos. É
exatamente nesse contexto que se torna imprescindível a efetiva participação da econometria
como ferramenta necessária na verificação, por exemplo, de teorias e políticas econômicas,
previsão de valores de variáveis de natureza econômica, influenciando sobremaneira na tomada
de decisões.

O objetivo dessa apostila é procurar transmitir aos estudantes de economia, de forma clara e
resumida, os principais conceitos que entendemos serem relevantes para a sua formação.

Dado o número exíguo de horas/aulas disponíveis, procuramos abranger o máximo do nosso


conteúdo programático, dando ênfase à parte prática/operacional de cada capítulo com aplicação
de exercícios já desenvolvidos com a consequente interpretação dos seus resultados, deixando a
parte teórica de maior profundidade, como trabalho de consulta, análise e interpretação por parte
do aluno junto a bibliografia recomendada. Contem ainda exercícios complementares que deverão
ser desenvolvidos no decurso das aulas

Assim, entendemos que o conteúdo programático apresentado na sequencia será suficiente para
dar uma ideia da importância do conhecimento de econometria como base na formação dos
futuros profissionais em economia.

Vale deixar aqui registrado, contudo, que a econometria, como também ocorre em outras
ciências, apresenta suas limitações, principalmente de natureza estatística e econômica.

Poderíamos citar algumas de natureza estatística, como por exemplo:

− utilização de amostras pequenas, não representativas;

− falhas nas observações das variáveis;

− dificuldade de dar tratamento adequado a alguns modelos não lineares;

− o problema da multicolinearidade, etc.

Entre os de natureza econômica temos:

1
− dificuldades na classificação de variáveis em endógenas e exógenas o que tornaria tendencioso
o efeito das mesmas;

− dificuldade de incorporar nos modelos os fatores de natureza qualitativa e subjetiva como


opiniões; expectativas; intenções; etc.

− problemas de especificação da teoria e dos erros, etc.

Os problemas citados já vêm sendo analisados há algum tempo por econometristas, entretanto
alguns pontos não foram totalmente solucionados como o problema da multicolinearidade
(intercorrelação entre variáveis explicativas) e mensuração de variáveis subjetivas.

Para o aprendizado suave da matéria pressupõe-se que o alunado tenha algum conhecimento de
estatística básica e de inferência estatística.

Apresentamos abaixo, os assuntos abordados nesta apostila, acompanhados de exercícios ao fim


de cada capitulo, procurando, na medida do possível, alinhar-se com o programa de econometria
instituído pela Faculdade.

− Conceito de econometria e o seu objetivo;

− Conceito de modelo (classificação, estrutura, pressupostos básicos, etc.);

− Análise da regressão linear simples de duas variáveis (estimação e interpretação dos


parâmetros; o método dos mínimos quadrados ordinários; conceito de regressão; previsão de
valores; erro padrão da estimativa; erro máximo de estimação; intervalo de predição; erro
padrão dos estimadores; qualidade do ajuste e sua interpretação; teste de hipóteses aplicados
à regressão pela distribuição “t” de Student e pela distribuição “F” de Fisher/Snedecor com a
elaboração do quadro ANOVA (Analysis of Variance);

− Análise da regressão linear múltipla, onde serão abordados todos os itens já comentados na
análise de regressão simples;

− Covariância e correlação (determinação, interpretação e verificação da sua existência);

− Violação dos pressupostos básicos (heteroscedasticidade e homoscedasticidade; natureza,


consequência e detecção da heteroscedasticidade); autocorrelação serial (causas,
consequências e diagnóstico da autocorrelação);

− Utilização de variáveis especiais como extensão dos modelos de regressão (variáveis dummy,
binária, artificial ou dicotômica); utilização da variável tempo como variável explicativa numa
série temporal de informações numéricas;

− Modelos não lineares;

− Análise de séries temporais.


2
Para finalizar, gostaríamos de lembrá-los de que a presente apostila não é uma receita de bolo,
onde o estudante pensa que aprendendo o que está nela contida, já sabe tudo sobre econometria.
Muito pelo contrário. O nosso objetivo, ao preparar a matéria dessa forma, foi com a intenção de
facilitar e maximizar o processo de aprendizado, dando ênfase aos itens de maior relevância
dentro do conteúdo programático adotado pela Faculdade, contendo aplicações práticas de fácil
entendimento.

Certamente um dos mais poderosos instrumentos utilizados na análise de problemas econômicos


são as aplicações de técnicas estatísticas à economia, denominada de econometria.
A econometria em si, é muito mais abrangente com uma diversidade de tópicos que não estão
aqui comentados.

Capítulo 2: CONCEITOS INICIAIS

2.1. OBJETIVO DA ECONOMETRIA

A econometria trata da mensuração das relações entre variáveis de natureza econômica com base
em ferramental estatístico e tem como alguns de seus objetivos a verificação empírica das leis e
das teorias econômicas, a avaliação das políticas econômicas, a previsão dos valores das variáveis
de natureza econômica, etc.

Alguns autores como Artur S. Goldberger, em seu livro “Econometric Theory”, define econometria
como a ciência social no qual o ferramental estatístico, tais como inferência estatística e a
estatística matemática, são aplicadas à análise dos fenômenos econômicos.

2.2. DEFINIÇÃO DE MODELO

Entende-se como modelo em econometria a um conjunto de hipóteses estabelecidas à priori,


acerca do comportamento de um dado fenômeno, com base numa teoria já existente e podem ser
classificados em teóricos e econométricos.

Um modelo é teórico quando expressam leis de natureza econômica sem conter necessariamente
tratamento estatístico; já os econométricos, contém necessariamente tratamento estatístico com
as devidas especificações como, por exemplo: a definição das variáveis, a forma funcional, o nº de
equações, etc. como veremos a seguir.

 Exemplo de modelo teórico:


 Função liquidez: M= L (i;x) , onde M= meios de pagamento; L=liquidez; i=taxa de juro; x =
renda

 Exemplo de modelo econométrico:


 Função consumo: C= a+bx+e, onde C= consumo agregado; a e b = parâmetros linear e angular;
x= renda; e= erro aleatório

3
Os modelos podem ainda ser classificados quanto a sua forma funcional e quanto ao número de
equações:

 Quanto a forma funcional

- Lineares: quando é expressa por uma função linear

y = β1 + β 2 .xi

- Não lineares: quando é expressa por uma função não linear

y = β1 ⋅ β 2xi , que é uma função exponencial simples

 Quanto ao número de equações:

- Uniequacionais: quando contêm apenas uma equação

y = a + bx + cx x

- Pluriequacionais: quando contêm pelo menos duas equações como, por exemplo, uma função
linear (1) e a função (2) onde x representa o resultado da diferença entre a função (1) e o
resultado dos investimentos (w)

y = β1 + β 2 .xi (1)

x = y − w (2)

Onde y = despesa em função da renda, x = renda e w = resultado dos investimentos

2.3. ESTRUTURA DE UM MODELO ECONOMÉTRICO

Estruturalmente um modelo econométrico envolve quatro elementos básicos que são: Variáveis
(dependente e independente), Equações, Parâmetros ou Coeficientes (intercepto e o parâmetro
responsável pela declividade, além do termo aleatório ou perturbações).

Por exemplo: na estrutura de um modelo linear encontramos a variável dependente (ou endógena
ou explicada), a variável independente x (ou exógena ou explicativa), os parâmetros linear ou
intercepto β1 e o angular β 2 , conforme esquema a seguir, além do termo aleatório e .
y = β1 + β 2 .xi + e

Onde:
y = variável dependente β1 = parâmetro intercepto
4
xi = variável independente β 2 = parâmetro angular
e = termo aleatório

 O que são regressores?

O conjunto de variáveis exógenas ou explicativas mais o termo constante ou linear ou intercepto


são denominados de regressores. Assim, na equação acima, os regressores seriam:

β1 e β 2 .xi
Cabe lembrar que o comportamento da economia resulta da interdependência de diversos fatores
e ao explicá-lo os economistas evitam a complexidade do mundo real através da construção de
modelos que apesar de retratarem de forma aproximada a realidade, destacando apenas os
elementos ou variáveis consideradas relevantes, permitem alcançar a essência do fenômeno em
questão. Apesar do avançado estágio em que se encontra a teoria econômica, ocorrem situações
onde a formulação das hipóteses do modelo e a identificação dos elementos relevantes é um
tanto arbitrária, não havendo garantias de que elas sejam realistas, portanto, é preciso verificar se
o modelo proposto é capaz de explicar o fenômeno a que se propõe.

Através do confronto do modelo com as observações do mundo real é que se pode concluir ou
não a validade do modelo. Um poderoso instrumento neste sentido são os modelos
econométricos analisados pela econometria, uma técnica que agrega a estatística, a matemática e
a teoria econômica.

Conforme indicado na figura 1 a seguir, um modelo econométrico resulta de um processo que se


inicia com uma análise econômica que envolve a consulta da teoria econômica e percepção da
realidade para auxiliar na identificação das variáveis dependentes e independentes a serem
incluídas no modelo, bem como na especificação da forma funcional que relaciona estas variáveis.
Uma característica dos modelos econométricos é a consideração de um termo estocástico, com
uma distribuição de probabilidade hipotética, para representar a incerteza inerente ao
comportamento da economia e também outras variáveis, omitidas na formulação do modelo, mas
que explicam a realidade.

Uma vez especificado o modelo econométrico e estabelecidas às hipóteses pertinentes, são


coletadas observações das variáveis dependentes e independentes, para em seguida, através da
aplicação da inferência estatística, estimar e testar a validade do modelo econométrico. A validade
de um modelo econométrico não será apenas julgada por técnicas de inferência estatística, mas
também pela coerência com a teoria econômica. Caso o modelo especificado não seja o aceito
deve ser corrigido, seja retirando ou incluindo variáveis independentes ou ainda modificando a
forma funcional que relaciona as variáveis.

Quanto à aplicação, os modelos econométricos podem ser utilizados na obtenção de evidências


empíricas que modifiquem, refinem ou refutem as conclusões contidas na teoria econômica ou
novas proposições teóricas e também na avaliação de políticas econômicas, sendo uma
ferramenta muito útil para fazer previsões de alguma variável econômica ou ainda estimar
5
parâmetros como elasticidades, multiplicadores, coeficientes técnicos e custos marginais,
portanto trata-se de uma valiosa ferramenta em um processo de tomada de decisão.

Figura 1 – sugestão de roteiro para construção de modelos econométricos

Capítulo 3: ANÁLISE DE REGRESSÃO LINEAR SIMPLES DE DUAS VARIÁVEIS

O gerente de vendas de uma empresa varejista do ramo de calçados está interessado em obter
uma equação que sintetize a relação existente entre o investimento em propaganda e o volume
de vendas da empresa, com a finalidade de realizar projeções do volume de vendas.

6
Tabela 3.1 Dados de investimento em propaganda e vendas em milhares de reais da empreza Z.

Investimento em Propaganda milhares de Venda em milhares de Reais


Reais (x) (y)
30 40
20 34
35 52
40 49
38 47
18 21
10 20
15 27
35 41
24 48

60
Venda em milhares de reais

50

40

30

20

10

0
0 10 20 30 40 50
Investimento em propraganda milhares de Reais

Figura 3.1 Dados de investimento em propaganda e vendas em milhares de reais da empreza Z.

A figura 3.1 apresenta um gráfico com os valores de uma amostra levantada pelo departamento
de vendas da empresa Z. O gráfico revela uma tendência de crescimento entre o volume de
vendas e o investimento em propaganda, ou seja, um incremento no investimento em propaganda
resulta em um aumento no volume de vendas.

7
60
Venda em milhares de reais
50

40

30

20

10

0
0 10 20 30 40 50
Investimento em propraganda milhares de Reais

Figura 3.2 Reta ajustada entre Volume de vendas e investimento com propaganda em milhares de
reais.

O exemplo anterior constitui uma aplicação de regressão linear simples, onde a relação existente
entre a variável dependente ou endógena (volume de vendas) e a variável independente ou
exógena (investimento em propaganda) é modelada através de uma reta ajustada aos dados
amostrais, conforme mostra a Figura 3.2

3.1. EXPRESSÃO DO MODELO:

y = β1 + β 2 .xi + e (3)

O modelo é chamado de regressão linear simples porque há apenas uma variável econômica (x ) ,
no lado direito da equação. Quando houver mais de uma variável explicativa (x ) é chamada de
regressão múltipla. É chamado de linear porque a expectativa condicional de y é uma função
linear de x , ou seja:

E ( y x ) = β 1 + β 2 .x + e

3.2. PRESSUPOSTOS BÁSICOS:

O termo regressão mostra o efeito da variável explicativa x sobre a variável explicada y , através
das estimativas dos parâmetros β i .

Num modelo de regressão linear deverão ser considerados alguns pressupostos conforme abaixo:

a) O valor de y para cada valor de x é definido pela expressão acima (3), onde “ e ” é o erro ou
termo aleatório.
8
b) A esperança matemática do erro aleatório é igual a zero, pois admite-se que E ( y ) = β1 + β 2 .xi ,
donde se conclui que: E (e ) = 0 .

c) A variância do erro aleatório é igual à variância de y , pois y e “ e ” diferem apenas pelo


intercepto, que é um fator constante que não altera a variância, V (e ) = V ( y ) . Portanto, a
variância do erro aleatório é finita e constante.

d) A covariância entre qualquer par de erros aleatórios e1 e e2 é igual à covariância do par y1 e


y2 que é igual à zero, ou seja: cov(e1 ; e2 ) = cov( y1 ; y2 ) = 0 . Assim, temos que os termos
aleatórios são independentes.

e) O Erro aleatório (e) segue distribuição normal com média igual a zero e variância constante;

 OBS:
Significado do termo erro aleatório ou perturbação estocástica (e ) : resumidamente podemos
conceituar como sendo o substituto ou representante de todas as variáveis omitidas ou
desconsideradas que podem afetar a variável dependente y , mas que não estão no modelo de
regressão ou que não puderam ser incluídos no citados modelo.

3.3. ESTIMAÇÃO DOS PARÂMETROS

O problema de regressão consiste em, dado o modelo teórico (como o linear, por exemplo),
estimar os parâmetros desconhecidos β1 e β 2 que são respectivamente os parâmetros intercepto
e o angular, com base nas informações amostrais de um dado fenômeno como, por exemplo,
despesas com alimentação e renda (no caso de uma regressão linear simples).

Apesar de existirem vários métodos para sua obtenção (polinômios ortogonais, máxima
verossimilhança, mínimos quadrados ordinários, etc.), o mais recomendado, por ser não
tendencioso, consistente, eficiente, de fácil obtenção e de maior confiabilidade, é o método dos
mínimos quadrados ordinários, que sugere como princípio que devemos obter uma reta tal que a
soma dos quadrados das distancias verticais de cada ponto à reta seja o menor possível ou em
outras palavras, que a soma dos quadrados das diferenças entre cada valor conhecido e ajustado
pela função ( ŷ ) seja o menor possível, isto é:

∑ ( y − yˆ ) = mínimo (4)
2

i =1

O valor do intercepto (β1 ) e o valor do parâmetro angular (β 2 ) dessa reta que melhor se ajusta
aos dados conhecidos ( y ) , pelo método dos mínimos quadrados ordinários (m.q.o.) são b1 e b2
que são as estimativas de β1 e β 2 do modelo linear simples: y = b1 + b2 .xi .

9
3.4. EQUAÇÕES NORMAIS (Equações simultâneas)

Para obtermos os valores de b1 e b2 , utilizamos a forma recursiva, denominada de equações


normais que são obtidas derivando-se parcialmente a igualdade (4) acima e igualando-a a zero,
obtendo-se:

- Forma geral

∑ y = bi .n + b2 .∑ x
 (5)
∑ xy = bi .∑ x + b2 .∑ x
2

- Forma reduzida

n.(∑ xy ) − (∑ x )(
. ∑ y)
b2 = (6)
( )
n. ∑ x 2 − (∑ x )
2

b1 = y − b2 .x (7)

As fórmulas (4), (5) e (6) e (7) são denominadas de estimadores de mínimos quadrados e são
utilizadas para estimar os parâmetros b1 e b2 da função.

Na sequência daremos um exemplo com várias perguntas. O desenvolvimento, a interpretação e


a natureza das mesmas estão explicitados no decurso das resoluções das questões.

 Exemplo 1:
A tabela abaixo mostra a evolução da poupança pessoal ( y ) e renda pessoal ( x ) em unidades
monetárias (U.M.) por um período de 12 anos (Colunas (1), (2) e (3)). Pressupõe-se que a trajetória
das variáveis assume um comportamento linear.

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
Poupança Renda
Anos
(y) (x ) x. y x2 ŷ ( y − ŷ )2 (x − x )2 ( y − y )2 ( yˆ − y )2
1 6 8 48 64 6,15 0,023 49 16 14,82
2 7 8 56 64 6,15 0,723 49 9 14,82
3 6 9 54 81 6,70 0,490 36 16 10,89
4 8 11 88 121 7,80 0,040 16 4 4,84
5 9 12 108 144 8,35 0,422 9 1 2,72
6 10 13 130 169 8,90 1,210 4 0 1,21
7 9 14 126 196 9,45 0,202 1 1 0,30
8 9 16 144 256 10,55 2,402 1 1 0,30
9 11 18 198 324 11,65 0,422 9 1 2,72
10 12 20 240 400 12,75 0,002 25 4 7,56
11 15 11 165 121 13,85 1,322 49 25 14,82
12 18 29 522 841 17,70 0,090 196 64 59,29
∑ 120 180 2044 3144 - 7,911 444 142 134,29
10
Nota: as colunas (1) a (3) são dados informados e as colunas (4) a (10) são colunas auxiliares para
desenvolvimento das questões.

Com base nas informações pede-se:

1) Estimar pelo método dos mínimos quadrados ordinários a equação da poupança em função
da renda;
2) Calcular e interpretar o resultado dos estimadores obtidos;

3) Estimar a poupança provável, se a renda pessoal num determinado ano for de 35 U.M.

4) Avaliar o erro padrão de estimativa

5) Obter o intervalo de predição para a poupança estimada em (3)

6) Determinar o erro padrão dos estimadores;

7) Obter o intervalo de confiança dos estimadores com α = 0,05 e interpretá-los;

8) Verificar a qualidade do ajuste e interpretá-lo;

9) Determinar o intervalo de predição em função do erro máximo do valor estimado e o


intervalo de predição dela decorrente.

10) Testar a hipótese da existência de regressão entre o par x e y (por Student e por Fische

 Desenvolvimento:

1) Equação de regressão do modelo ( y = β1 + β 2 .x )

n.(∑ xy ) − (∑ x )(
. ∑ y)
bˆ2 =
( )
n. ∑ x 2 − (∑ x )
2

12 × 2044 − 180 × 120


bˆ2 = ∴ bˆ2 = 0,55
12 × 3144 − (180 )
2

bˆ1 = y − bˆ2 .x = 10 − 0,55 × 15 ∴ bˆ1 = 1,75

- Equação de regressão da poupança:

yˆ = 1,75 + 0,55 x

2) Interpretação de b̂1 e b̂2


11
No contexto econômico, o valor bˆ1 = 1,75 , significa que mesmo que a renda x seja zero, a
poupança pessoal y teria um crescimento de 1,75 U.M.

Quanto ao estimador b̂2 , significa aumento de 0,55 na poupança pessoal ( y ) , quando a renda
pessoal ( x ) (parâmetro angular) aumentar de uma unidade monetária.

3) Valor estimado da poupança quando a renda for de 35 U.M.


Com a ajuda da equação obtida na questão (1), ou seja, yˆ = 1,75 + 0,55 x , podemos estimar o
provável valor da poupança pessoal ( y ) , bastando para tanto substituir a variável explicativa ( x )
por 35 U.M. que é a renda conhecida, ou seja:

yˆ = 1,75 + 0,55 x
yest = 1,75 + 0,55 × 35 ∴ yest = 21 U.M.

4) Erro padrão de estimativa


O erro padrão da estimativa tem como uma de suas finalidades estabelecer o intervalo de
predição (margem de desvio) para mais ou para menos do valor estimado de ( y ) em função de
(x ) .
Portanto, nada mais é do que a dispersão em termos absolutos dos valores residuais. Como
se sabe, os valores residuais são aqueles valores resultantes da diferença entre os dados
conhecidos e os ajustados por uma função qualquer.

O erro padrão da estimativa, geralmente representado por Sˆ y:x é calculado pela expressão:

∑ ( y − yˆ )
2

Sˆ y:x = (8)
n−k

Sendo:
y = dados conhecidos (coluna 2 da tabela)
ŷ = dados ajustados pela equação (coluna 6)
n = tamanho da amostra ( n = 12 )
k = número de parâmetros (intercepto + angular)

∑ ( y − yˆ )
2
7,911
Sˆ y:x = =∴ Sˆ y:x = 0,89
n−k 12 − 2
5) Intervalo de Predição (IP) para o valor estimado da poupança de 21 U.M.
O Intervalo de Predição (IP) nada mais é do que a margem de erro do valor estimado, o que sugere
diminuir e posteriormente somar ao valor estimado o erro padrão da estimativa, calculado na
questão anterior, ou seja, quanto menor o seu valor, menor é a margem de erro.

IP = valor estimado (VE) ± erro padrão da estimativa

12
IP = VE ± Sˆ y:x
IP = (VE - Sˆ y:x ; VE + Sˆ y:x ) (9)
IP = 21 + 0,89
IP = (21 - 0,89 ; 21 + 0,89)
IP = (20,11 ; 21,89)

6) Erro padrão dos estimadores b̂1 e b̂2


( )
No estudo da regressão, a determinação do erro padrão dos estimadores Sˆb1 tem como uma de
suas finalidades básicas auxiliar na obtenção do intervalo de confiança dos estimadores, pois é de
fundamental importância que os estimadores sejam não tendenciosos.

No caso da regressão linear simples, vimos que os estimadores são b̂1 e b̂2 , assim, temos:

 Cálculo do erro padrão do estimador b̂1 :

Sˆb1 = Sˆ y:x .
∑x 2
(10)
n.∑ ( x − x )
2

 Cálculo do erro padrão do estimador b̂2 :

Sˆ y:x
Sˆb2 = (11)
∑ (x − x )
2

 No exemplo em questão temos:

6.1) Erro padrão do estimador b1 Sˆb1 ( )

Sˆb1 = Sˆ y:x .
∑x 2
(12)
n.∑ ( x − x )
2

3144
Sˆb1 = 0,89. ∴ Sˆb1 = 0,68
12 × 444

6.2) Erro padrão do estimador b2 Sˆb2 ( )


Sˆ y:x
Sˆb2 = (13)
∑ (x − x )
2

0,89
Sˆb1 = ∴ Sˆb2 = 0,042
444

13
7) Intervalo de confiança dos estimadores
A construção de um intervalo de confiança (IC) para um estimador tem como finalidade,
principalmente em econometria, medir o nível de precisão do citado estimador, ou seja, se há
sintomas de tendenciosidade.

Para a construção do IC, o pesquisador deverá levar em consideração algumas informações


relevantes como, por exemplo:

− ( )
Valor do erro padrão dos estimadores Sˆb1 , conforme mencionado no item anterior;
− O nível de confiança α desejado na pesquisa, com base na distribuição t de Student;
− O número de graus de liberdade ( g.l. = n − k ) .
n = tamanho da amostra e k = número de parâmetros

Assim, observadas as condições acima, o intervalo de confiança de um dado estimador poderá ser
construído com base no modelo genérico a seguir:

bi − tα (n − k ).Sˆbi < β i < bi + tα (n − k ).Sˆbi (14)

7.1) Intervalo para b̂1

1,75 − t0, 05 (12 − 2 ).0,68 < β1 < 1,75 + t0, 05 (12 − 2 ).0,68
0,23 < β1 < 3,27

O intervalo acima definido significa que existe a probabilidade 0,95 ou 95% de chance de que o
valor de β1 esteja entre 0,23 e 3,27.

7.2) Intervalo para b̂2

0,55 − 2,2281× 0,042 < β 2 < 0,55 + 2,2281× 0,042


0,4564 < β 2 < 0,644

O intervalo acima significa que existe a chance de 95% de que β 2 esteja entre 0,4564 e 0,644.

8) Avaliação da qualidade do ajuste


A qualidade do ajuste ou poder explicativo da regressão pode ser avaliado pelo coeficiente de
( )
determinação R 2 e tem como finalidade verificar em quantos por centos a variável dependente
(y)é explicada pela variável independente ( x ) . Quanto mais o valor de R 2 se aproximar de
100%, melhor é a qualidade do ajuste.

14
 Expressão para cálculo:

R 2
=
∑ ( yˆ − y )2

(15)
∑ (y − y)
2

Substituindo com os resultados encontrados nas colunas (9) e (10) do exemplo,

134,29
R2 = ∴ R 2 = 0,946 ou 94,6%
142

O resultado indica que 94,6% da variável y é explicada pela variável X, que sugere uma boa
qualidade do ajuste, pois quanto mais se aproximar de 100% ou de 1, melhor é a qualidade do
ajuste.

9) Erro máximo do valor estimado


Para obtermos o intervalo de predição com base no erro máximo do valor estimado, devemos
inicialmente determinar o valor do erro (E ) pela expressão:

n.( x − x )
2
1
E = tα .Sˆ y 1 + + (16)
n n.∑ x 2 − (∑ x )2

Onde:
tα = distribuição t de Student com (n − k )g.l. , com α = 0,05 ou 95% ou outro nível qualquer
Ŝ y = erro padrão da estimativa
n = tamanho da amostra e k = nº de parâmetros da função sob análise
. As estatísticas acima são conhecidas:
tα (n − k ) = t0, 05 (10 ) = 2,228 (tabelado)
Sˆ y = 0,89
n = 12
x = variável explicativa utilizada na época ti para estimativa de y . No exemplo em questão
x = 35 U.M.
x = 15

∑x 2
= 3144

. Daí temos:

12.(35 − 15)
2
1
E = 2,228 × 0,89. 1 + +
12 12 × 3144 − 180 2

15
4800
E = 1,982. 1 + 0,083 +
5328

E = 1,982. 1,984 ∴ E = ±2,79

Obtido E , o intervalo de predição será conhecido, somando-se e subtraindo-se ao valor estimado


o valor de E , ou seja:

IP = VE ± E (17)

IP = (21 − 2,79;21 + 2,79)

IP = (18,21;23,79)

Observe que a diferença em relação ao intervalo de predição encontrado na questão 5 anterior é


que no 2º procedimento foi introduzido o fator probabilístico (distribuição t de Student).

10) Teste de hipótese da existência de regressão por t de Student e Fisher

Um recurso estatístico para se verificar a existência de regressão entre variáveis de uma dada
função é a aplicação do teste de hipóteses.

Existem inúmeras formas para efetuar o teste. Serão abordados, neste caso, o de Student e o de
Fisher/Snedecor, por serem os mais usuais.

10.1) Teste t de Student


Por este teste calculamos inicialmente o valor de tc pela função:

bi − β i
tc = (18)
Sˆbi

Onde:
tc = t calculado
bi = parâmetros intercepto e angular
β i = hipótese a ser testada
Ŝbi = erro padrão dos estimadores

No exemplo são conhecidos:

- A equação de regressão: y = 1,75 + 0,55 x


b1 b2

- Erro padrão do estimador b2 → Sˆb2 = 0,042

16
0,55 − 0
Assim: tc = ∴ tc = 13,09
0,042

Na sequência, formulamos as hipóteses:

H 0 = β 2 = 0 (ausência de regressão)
H1 = β 2 ≠ 0 (presença de regressão)

Verificamos na tabela da distribuição t o valor de tα (n − k ) = t0, 05 (12 − 2 ) = 2,228 .

Comparamos tc com tα (n − k ) .

Se tc (calculado) for maior que tα (n − k ) (tabelado), ou seja, diferente de zero, significa presença
de regressão entre as variáveis x e y .

No teste em questão, as decisões a serem apresentadas são:

a) Decisão estatística = rejeita-se a hipótese H 0 ;


b) Decisão econômica = a população da qual foi extraída a amostra de 12 observações sobre
poupança ( y ) e renda (x ) ) sugere a existência de regressão entre elas com 95% de
probabilidade de que a decisão tomada esteja correta.

10.2) Teste F de Fisher


Uma outra forma de verificar a existência de regressão é através do teste F com auxílio do quadro
de análise da variância (ANOVA), cujo desenho para determinar o F calculado (Fc ) é o que se
segue:

Fonte da Soma dos Graus de Média


Liberdade (g.l.)
Fc
variação quadrados Quadrática
Devido a ∑ ( yˆ − y )
2

∑ ( yˆ − y ) k =1
2
(a)
regressão 1 a
Fc =
Devido a
∑ ( y − ŷ )
2
n − k −1 ∑ ( y − yˆ )2 (b)
b
resíduos n − k −1

No exemplo em questão já foram calculadas as estatísticas necessárias ao cálculo de Fc (na tabela


do exemplo 1). Encontrado o valor de Fc , este é comparado ao Fα (n − k − 1) (tabelado), na
distribuição de Fisher/Snedecor.

Se o valor de Fc for maior que Fα (n − k − 1) , rejeitamos a hipótese nula H 0 , o que sugere


presença de regressão entre as variáveis x e y , que são respectivamente a renda e a poupança.

Conforme visto no teste anterior por Student, as hipóteses deverão ser formuladas como se segue:
17
H 0 : ausência de regressão
H1 : presença de regressão

Finalmente, enunciamos as decisões estatística e econômica.

Dessa forma, aplicando-se o teste F ao exemplo 1 temos:

Elaboração do quadro ANOVA com base nas estatísticas conhecidas:

Fonte da Média
variação
∑ dos quadrados (g.l.) Quadrática
Fc
Regressão 134,29 1 134,29 134,29
= 169,75
Resíduos 7,911 12-1-1 = 10 0,79 0,79

Fc = 169,75 Fα (n − k − 1) = F0, 05 (10 ) = 4,96

- Formulação das hipóteses:


H 0 : ausência de regressão
H1 : presença de regressão

Nota-se que Fc > F0, 05 (10 ) o que sugere rejeitar a hipótese H 0 , o que nos leva as seguintes
decisões:

a) Decisão estatística = rejeitar H 0

b) Decisão econômica = a população da qual foram extraídas as 12 amostras sugere a existência


de regressão entre o par de valores x e y , com 95% de probabilidade de que a decisão esteja
correta.

18
 Exemplo 2:

Com base nos dados de despesas com alimentação (y i ) e renda mensal (x i ), levantados durante 10
periodos consecutivos (t i ), desenvolver as questões 1 a 11. Os valores estão em unidades
monetárias (U.M.)

ti yi xi
1 5 10
2 6 15
3 8 17
4 12 20
5 13 25
6 10 20
7 12 22
8 18 30
9 13 25
10 18 26
∑ 115 210

1) Estimar a equação da reta que exprime a relação entre y e x ;

2) Interpretar os resultados obtidos dos estimadores no contexto do modelo econômico em


questão;

3) Estimar, com base na equação obtida em (1), a despesa com alimentação ( y ) , sabendo-se
que a renda mensal ( x ) é de 30 U.M.;

4) Determinar o erro padrão da estimativa;

5) Determinar o intervalo de predição com base nos resultados encontrados em (3) e (4);

6) Determinar o intervalo de predição com base no erro máximo do valor estimado;

7) Determinar o erro padrão dos estimadores b1 e b2 ;

8) Determinar o intervalo de confiança dos estimadores b1 e b2 ;

9) Avaliar a qualidade do ajuste (poder explicativo da regressão), interpretando-o;

10) Testar a hipótese da existência de regressão entre as variáveis x e y pela distribuição t ;

11) Idem acima pela distribuição F . Elaborar o quadro ANOVA.

19
 Exemplo 3:

O par de valores yi e xi referem-se a índice de quantidade demandada e tarifa real média,


respectivamente, de energia elétrica. Os valores da tarifa foram deflacionados por um indicador
adequado, tendo como base o ano t 6 .

Anos yi xi
t1 74 145
t2 76 134
t3 81 117
t4 90 111
t5 94 109
t6 100 100
t7 103 137
t8 108 122
t9 113 85
t 10 115 90

1) Estimar a equação da demanda;

2) Tendo por base a equação obtida em (1), estimar a demanda esperada em t 11 se a tarifa real
em t 1 for de 98;

3) Determinar o intervalo de predição do valor estimado da demanda em t 11 ;

4) Determinar o intervalo de predição com base no erro máximo do valor estimado;

5) Determinar o intervalo de confiança dos estimadores b1 e b2 ;

6) Avaliar a qualidade do ajuste;

7) Testar a hipótese da existência de regressão entre as duas variáveis (por Student e por
Fisher);

20
 Exemplo 4:

Considere os dados amostrais de um estudo da relação entre o número de anos que os candidatos
a empregos em um determinado banco comercial estudaram inglês na faculdade e as notas
obtidas em um teste de proficiência nessa língua.
Número de anos (x) Nota do teste (y)
3 5,2
4 7,7
4 7,4
2 5,3
5 9,1
3 6,4
4 7,3
5 8,6
3 7,4
2 4,3

 Exemplo 5:
Uma empresa, com a finalidade de determinar a relação entre gastos anuais com propaganda
(X), em R$1.000,00 e lucro anual (Y), em R$1.000,00, optou por utilizar o modelo linear
simples Yi = α + βX + ε i , em que Y i é o valor do lucro bruto auferidono ano i, X i é o valor
gasto com propaganda no ano i e ε , o erro aleatório com as respectivas hipóteses
consideradas para a regessão linear simples ( α e β são parâmetros desconhecidos).
Considerou, para o estudo, as seguintes informações referentes às observações nos últimos
10 anos da empresa
10 10 10

∑ Yi = 100 ;
i =1
∑ X i = 60 ;
i =1
∑XY
i =1
i i = 650 ;

10 10

∑ X i2 = 400 ;
i =1
∑Y
i =1
i
2
= 1080 ;

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que,caso
haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, em mil
reais será de:
a) 84 b) 102,5 c) 121 d) 128,4 e) 158

 Exemplo 6:
Utilizou-se um modelo de regressão linear para avaliar a relação entre o preço do litro da
gasolina e o do pretróleo Brent, ambos em reais, compreendendo o período de janeiro de 2002
a dezembro de 2006. Os resultados obtidos foram:
( ) ( )
60
1 60
∑ ∑
2 2
Yi − Y = 18; Yi − Yˆi = 0,052 e Fsig = 2,78 E − 4
i =1 58 i =1

21
Considere o quadro a seguir:
ANOVA
Soma dos Graus de Média dos F Fsig
quadrados liberdade quadrados
Modelo
(regressão)
Residual X Y
Total

Os valores de X , Y e Z , no quadro acima, respectivamente são:


a) 3,016 ; 0,052 e 2,78E-4;
b)3,016; 0,052 e 288,154;
c) 14,98; 3,016 e 288,154;
d) 18 ; 0,052 e 2,78E-4;
e) 18 ; 0,052 e 288,154

Capítulo 4: REGRESSÃO LINEAR MÚLTIPLA

4.1. INTRODUÇÃO

Já vimos que na regressão linear simples consideramos apenas uma variável econômica,
explicativa ou exógena, na parte direita da equação ( y = β1 + β 2 .x + e ) .

Na regressão múltipla são consideradas duas ou mais variáveis explicativas (xi ) , como por
exemplo: salário (x1 ) , renda de aluguel (x2 ) , renda de investimento (x3 ) , etc. que influenciam a
variável dependente yi .

Trata-se, portanto, de uma extensão do modelo de regressão linear simples.

Genericamente, em n observações de variáveis amostrais ( y, x1 , x2 ,..., xn ) , o modelo assumirá a


forma:

y1 = β1 + β 2 .x1 + β 3 .x2 + ... + β n .xn−1 + e (19)

Ou, sob a forma de estimadores:

y1 = b1 + b2 .x1 + b3 .x2 + ... + bn .xn−1 + e (20)

Se chamarmos a variável endógena y de nível de investimento, ele dependerá de fatores a ela


agregados como, por exemplo: taxa de juros, variável de renda, etc. que são respectivamente as
variáveis explicativas xi .

22
Os estimadores da equação (20) são os bi (b1 , b2 , b3 ,..., bn ) e as estimativas desses estimadores são
os β i (β1 , β 2 , β 3 ,..., β n ) da equação (19).

O erro aleatório ou resíduo (e ) apontado nas duas equações é o resultado da diferença que
porventura venha a ocorrer entre os valores conhecidos y i e os valores esperados ou ajustados
pelo modelo ŷ i .
e = yi − yˆ i (resíduo)
yi = volume real de venda
ŷi = volume esperado de venda

Alguns outros fatores que poderiam influenciar no valor de (e ) , no caso da variável venda, são os
comportamentos dos concorrentes, fatores meteorológicos, etc. denominadas eventos de
natureza qualitativa, que veremos no capítulo 8.

4.2. PRESSUPOSTOS DO MODELO

Alguns pressupostos deverão ser considerados nos modelos de regressão múltipla, assim como
foram no modelo de regressão simples, tais como:

a) O valor de y para cada valor de x é definido por yi = β1 + β 2 .x1 + β 3 .x2 + ... + β n .xn −1
b) A esperança do erro aleatório E (e ) é igual a zero
c) A variância do erro aleatório V (e ) é igual a σ 2 , o que significa que variância do erro aleatório
é constante
d) O erro aleatório e tem distribuição normal cuja média é zero, E (e ) = 0, e variância igual a σ 2
finito e constante.
e) A covariância entre qualquer par de erros aleatórios e1 e e2 é igual à covariância do par y1 e
y2 que é igual à zero, ou seja: cov(e1 ; e2 ) = cov( y1 ; y2 ) = 0 , significando que os termos
aleatórios são independentes.
f) O valor esperado ou a esperança matemática da variável dependente y , E ( y ) , depende dos
valores das variáveis explicativas xi e dos parâmetros desconhecidos β i , ou seja:
E ( y ) = β1 + β 2 .x1 + β 3 .x2 + ... + β n .xn−1

4.2.1. Teorema de Gauss-Markov

Este teorema nos diz que se os estimadores de mínimos quadrados atenderem as hipóteses acima
relacionadas (letras “a” a “f”) serão os melhores estimadores lineares não-tendenciosos dos
parâmetros, ou seja, eles são BLUE (best linear unbiesed estimators) em um modelo de regressão
múltipla.

23
4.3. ESTIMAÇÃO DOS PARÂMETROS

Para a estimação dos parâmetros intercepto e angulares, podemos recorrer a dois caminhos.

a) Pela aplicação do princípio dos mínimos quadrados ordinários (conhecido como equações
normais), comentado no capítulo anterior;

b) Pela forma matricial


Geralmente recomendado para modelos com mais de três parâmetros a serem estimados.
Conceitualmente, o modelo de n variáveis é uma extensão dos modelos de duas e três
variáveis, objeto de abordagem do presente curso. Assim, salvo a notação matricial, poucos
conceitos serão acrescentados, razão pela qual abordaremos apenas o primeiro
procedimento, ou seja, pelo critério dos mínimos quadrados.

A vantagem da aplicação da álgebra matricial sobre a escalar é que ela se aplica a uma, duas,
três ou qualquer número de varáveis, mas exigirá do estudante total intimidade com a álgebra
matricial.

 Estimação dos parâmetros pela aplicação dos Mínimos Quadrados Ordinários (M.Q.O.)

 Procedimentos operacionais:

a) Determinar inicialmente os desvios em relação à média aritmética de cada uma das


variáveis amostrais informadas (tanto dependentes quanto as independentes), ou seja:

Para valores de Yi ⇒ yi = Yi − Y
Para valores de X i ⇒ xi = X i − X
Este procedimento tem como finalidade facilitar os cálculos, pois operamos com valores
reduzidos de yi e xi .

b) Aplicar os valores reduzidos de yi e xi nos modelos abaixo:

1º) Cálculo do estimador b2

b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2
(21)
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

2º) Cálculo do estimador b3

b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1
(22)
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

24
3º) Cálculo do estimador b1 (intercepto)

Para este cálculo utilizamos os valores já conhecidos de b2 e b3 além da média aritmética dos
valores reais de Yi e X i .

b1 = Y − b2 . X 1 − b3 . X 2 (23)

 Representação:

Yi ; X 1 ; X 2 ;...; X n (são os dados numéricos conhecidos)

Yi ; X 1 ; X 2 (são as médias dos mesmos dados)

As variáveis yi e xi em letras minúsculas são os afastamentos ou desvios em relação à média


de Yi e X i , ou seja:

yi = Yi − Yi ; x1 = X 1 − X 1 ; x2 = X 2 − X 2 ; etc.

4.4. ESTIMAÇÃO DA EQUAÇÃO DE REGRESSÃO MÚLTIPLA

Encontrados os estimadores b1 , b2 e b3 pelas equações (21), (22) e (23) para obter a equação de
regressão da variável dependente ( yi ) em função das variáveis explicativas (x1 ) e ( x2 ) , pelo
método dos mínimos quadrados ordinários, basta substituir no modelo de regressão múltipla
representado em (20) os parâmetros obtidos, ou seja:

yˆ = b1 + b2 .x1 + b3 .x2

Onde:

b1 obtido em (19)
b2 obtido em (17)
b3 obtido em (18)

4.5. PREVISÃO DE VALORES COM BASE NA EQUAÇÃO DE REGRESSÃO

Definida a equação de regressão acima, poderemos efetuar previsões ou estimação de valores


com a ajuda da citada equação.

25
Se forem conhecidos os valores de x1 e de x2 , poderemos estimar ŷ . Como b1 (intercepto) é
constante, basta multiplicar x1 e x2 por b2 e de b3 , respectivamente, e adicionar o valor constante
de b1 para termos o ŷ estimado.

4.6. ERRO PADRÃO DA ESTIMATIVA

Conforme já visto na regressão simples, o erro padrão da estimativa na regressão múltipla tem a
mesma finalidade, ou seja, avaliar a margem de erro (desvio padrão) do valor estimado, podendo
ser calculado pela expressão:

∑ ( y − yˆ )
2

Sˆ y:xi = ± (24)
n−k

Onde:
y = dados numéricos conhecidos
ŷ = dados ajustados pelo modelo
n = tamanho da amostra
k = número de parâmetros (intercepto + angulares)

4.7. INTERVALOS DE PREDIÇÃO (IP )

Conhecido o valor estimado (VE ) , para determinarmos a margem de variação do citado valor
( )
basta subtrair e adicionar ao mesmo o erro padrão da estimativa Sˆ y:xi que nada mais é do que o
desvio padrão dos resíduos, conforme explicitado em (24).

Assim:

(
IP = VE ± Sˆ y:xi ) (25)

(
IP = VE − Sˆ y:xi ;VE + Sˆ y:xi )

4.8. ERRO PADRÃO DOS ESTIMADORES

Os estimadores b2 e b3 também devem ser analisados quanto a sua variabilidade, pois quanto
menor o erro, melhor será a qualidade do ajuste. A qualidade do ajuste, como veremos em 4.10, é
também denominada Coeficiente de Determinação.

A obtenção do erro padrão do estimador b2 é feita pela expressão:

26
Sˆ y:x
Sˆb2 = (26)
[∑ (x .x )] 2

∑x 2
− 1 2

∑x
1 2
2

Quanto ao estimador b3 , a expressão para cálculo é:

Sˆ y:x
Sˆb3 = (27)
[∑ (x .x )] 2

∑x 2
− 1 2

∑x
2 2
1

4.9. INTERVALO DE CONFIANÇA DOS ESTIMADORES

Assim como calculamos o intervalo de predição do valor estimado, podemos também determinar
o intervalo de confiança dos estimadores com base no erro padrão e em função do nível de
significância desejado na distribuição tα de Student e tem como finalidade avaliar o nível de
precisão dos estimadores de fundamental importância para análise de regressão.

A expressão para determinar o intervalo de confiança de um dado estimador é:

{
1 − α = P bi − tα (n − k ).Sˆbi ≤ β i ≤ bi + tα (n − k ).Sˆbi } (28)

Onde:
bi = estimadores (b2 ; b3 ;...)
tα (n − k ) = valor tabelado na distribuição t
α = nível de significância (0,01;0,05;...)
n = tamanho da amostra
k = número de parâmetros, inclusive intercepto
Ŝ b = erro padrão do estimador bi
i

4.10. COEFICIENTE DE DETERMINAÇÃO (poder explicativo da regressão)

Na análise de regressão é importante para o pesquisador verificar a qualidade do ajuste, ou seja,


uma medida que indique a proporção da variação de y que a equação de regressão consegue
explicar. Essa medida por ser avaliada pelo coeficiente de determinação, também conhecido
como poder explicativo da regressão, cuja expressão é:
∑ ( yˆ − y )2
R =
2
(29)
∑ (y − y)
2

27
O valor de R 2 , por ser uma proporção, estará compreendido entre 0 e 1 e quanto mais se
aproximar de 1, mais forte é a associação entre variáveis envolvidas na equação de regressão.
Costuma também ser apresentado em termos percentuais e, nesse caso, o campo de definição de
R 2 será de 0 a 100%, conforme já comentado no capítulo anterior.

4.11. TESTE DE HIPÓTESES

O teste de hipóteses pode ser aplicado à análise de regressão com o objetivo de verificar a
existência de regressão entre variáveis x e y no caso de uma regressão simples, conforme já
visto no capítulo anterior. No caso de uma regressão múltipla, o teste pode ser utilizado para
verificar a influência das variáveis explicativas x1 e x2 sobre a explicada y .

Os testes que poderão ser utilizados são de Student (t ) e o de Fisher/Snedecor (F ) .

Os procedimentos operacionais para a realização dos testes seguem os mesmos critérios aos já
explicitados para a regressão simples, o que torna desnecessária a sua repetição. Os detalhes, se
houverem, são mínimos e de fácil entendimento.

 Exemplo 6:

Os dados abaixo se referem ao índice de quantidade demandada de energia elétrica (Y ) , da tarifa


real média ( X 1 ) e do produto real ( X 2 ) .

Y X1 X2 y x1 x2 y.x1 y.x2 x1 .x2 x12 x22 ŷ ( y − ŷ )2 ( y − y )2 ( yˆ − y )2


69 143 84 -26 28 -11 -728 286 -308 784 121 74,46 29,81 676 421,89
76 134 85 -19 19 -10 -361 190 -190 361 100 77,89 3,57 361 292,75
81 117 82 -4 2 -13 -28 182 -26 4 169 78,28
90 111 86 -5 -4 -9 20 45 36 97,22
94 109 93 -1 -6 -2 6 2 12 97,71
... ... ...
100 100 100 5 -15 5 -75 25 -75 104,89
... ...
103 137 104 8 22 9 176 72 198 100,89
108 122 104 13 7 9 91 117 63 104,54
113 85 107 18 -30 12 -540 216 -360 117,28 18,32 324 496,40
115 92 105 21 -23 10 -483 210 -230 529 100 113,08 8,53 441 326,89
950 1150 950 0 0 0 -1922 1345 -880 3388 906 - 173,86 2282 1924,13

Desenvolver as questões:

1) Estimar a equação da demanda por energia elétrica pelo MQO;

2) Com base na equação da demanda obtida, estimar a demanda provável quando a tarifa real
média (x1 ) for de 87 e o produto real ( x2 ) for de 105;

3) Obter o intervalo de predição do valor estimado da demanda;

4) Calcular e interpretar o valor do coeficiente de determinação (poder explicativo da regressão);


28
5) Testar o efeito conjunto das variáveis explicativas ao nível de 5% pelo teste F, com o auxílio do
quadro ANOVA;

6) Testar, com base em Student, o efeito de cada variável explicativa ( x1 e x2 ) sobre os


parâmetro a elas associadas ( b1 e b2 ) a nível de 5%.

 Desenvolvimento:

1) Equação da demanda (forma linear)

Inicialmente calculamos os estimadores:

1.1) Estimador β 2

β 2 = b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2

(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

b2 =
(− 1922 × 906) − (− 880 × 1345) = − 557.732
(3388 × 906) − (− 880)2 2.295.128

b2 = −0,243

1.2) Estimador β 3

β 3 = b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1

(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

b3 =
(1345 × 3388) − (− 880 × 1922) = 2.865.500
(3388 × 906) − (− 880)2 2.295.128

b3 = 1,249

1.3) Estimador β1

β1 = b1 = y − b2 .x1 − b3 .x2

b1 = 95 − (− 0,243 × 115) − 1,249 × 95

b1 = 4,29

29
A equação da demanda será então:

yˆ = 4,29 − 0,243.x1 + 1,249.x2

2) Previsão da demanda quando:


x1 = 87 (tarifa real média)
x2 = 105 (produto real)

Substituindo na equação anterior, encontramos:

yˆ (est ) = 4,29 − 0,243 × 87 + 1,249 × 105

yˆ (est ) = 114,3

3) Intervalo de predição

3.1) Pelo critério normal


É necessário calcular inicialmente o erro padrão da estimação

∑ ( y − yˆ )
2
170,86
Sˆ y = =
n−k 10 − 2

Sˆ y = 4,66

O intervalo de predição será então

VE ± Sˆ y
114,3 ± 4,66
109,64 < IP < 118,96

4) Coeficiente de determinação

O coeficiente de determinação (Poder explicativo da regressão), tem por objetivo medir a


qualidade do ajuste, podendo ser avaliado pela relação:

∑ ( yˆ − y )
2
1924,13
R 2
= = = 0,84
∑ (y − y)
2
2282

O resultado R 2 = 0,84 ou 84% sugere uma boa qualidade de ajuste.

30
5) Estatística F (ou teste F)

Pode ser obtido pelo quadro da análise da variância (ANOVA – Analisys of Variance)

A aplicação da estatística F ao problema é verificar se as variáveis explicativas x1 e x2 (tarifa real e


produto real), respectivamente, exercem conjuntamente efeito significativo sobre a variável
dependente y (demanda de energia elétrica).

Quadro ANOVA
Fonte de Soma dos Graus de Média E
Variação quadrados liberdade quadrática
∑ ( yˆ − y )2
Regressão ∑ ( yˆ − y )
2
k SR =
2

k S R2
E= 2
∑ ( y − yˆ )
2
SE
Resíduos ∑ ( y − ŷ ) n − k −1
2
S E2 =
n − k −1
S R2 = variância explicada ou variância da regressão
S E2 = variância residual
k = número de variáveis explicativas

Retirando as estatísticas da tabela auxiliar e substituindo, encontramos:

Fonte de Média E
∑ dos quadrados g.l.
Variação quadrática
Regressão 1924,13 2 S R2 = 962,07 962,07
E= = 38,73
Resíduos 173,86 10 − 2 − 1 S = 24,84
2
E
24,84

Logo,

Fc = 38,73 (valor calculado de F)

No caso de regressão múltipla, ou seja, duas ou mais variáveis explicativas, a formulação das
hipóteses pode ser feita conforme abaixo:

H 0 :b 2 = b3 = 0 (ausência de efeito)
H 1 :b 2 ≠ b3 ≠ 0 (presença de efeito)

Se Fc > Fα (n − k − 1) , rejeitamos H 0
Fc < Fα (n − k − 1) , aceitamos H 0

No exemplo em questão, Fc > F0, 05 (10 − 2 − 1)

31
F0, 05 (7 ) = 4,74 (na distribuição F, deve-se observar que o g.l. é igual a 2 no numerador e 7 no
denominador.

Como Fc = 38,73 > F0, 05 = 4,74 , devemos rejeitar a hipótese H 0 , o que sugere que pelo menos
uma das variáveis explicativas x1 ou x2 exerce influência significativa sobre a variável dependente
y , com probabilidade de erro 5%.

6) Estatística t com relação aos parâmetros β 2 e β 3

bi − β i
Sabe-se que: tc =
Sˆbi

6.1) Estatística t para β 2 = 0


O teste de significância para o efeito da variável explicativa x1 (tarifa real) pode ser:
H 0 :β 2= 0 (ausência de efeito)
H 1 :β 2< 0 (presença de efeito negativo)

Sabemos que: b 2 = −0,243 ; Sˆb2 = 0,093


Sˆ = 4,66 ;
y t 0, 05 (n − k ) = 2,3646

Sˆ y 4,66
Sˆb2 = = = 0,093
(∑ x .x ) 2
(− 880)2
∑x 2

1 2 3388 −
∑x
1 2
2
906

− 0,243 − 0
tc = = −2,62
0,093
t c = 2,62

Como t c > tα (2,62 > 2,3646 ) , rejeitamos H 0 , o que sugere a presença de efeito negativo da
variável x sobre y .

6.2) Estatística t para β 3


O teste t para o efeito da variável explicativa x2 (produto real) pode ser:

H 0 :β 3= 0 (ausência de efeito)
H 1 :β 3> 0 (presença de efeito positivo)

Sabemos que: b 3 = 1,249 ; Sˆb3 = 0,179

32
Sˆ y = 4,66 ; t 0, 05 (7 ) = 2,3646

Sˆ y 4,66
Sˆb3 = = = 0,179
(∑ x .x ) 2
(− 880 )
2

∑x − 2 1 2 906 −
∑x
2 2 3388
1

1,249 − 0
tc = = 6,977
0,179
Verifica-se que t c > tα (6,977 > 2,3646) , o que sugere rejeitar a hipótese H 0 , significando a
presença de efeito positivo da variável explicativa x2 (produto real) sobre a demanda y .

Pelo teste t, nota-se que os parâmetros β 2 e β 3 exercem influência sobre y , primeira


negativamente e a segunda positivamente.

 Exemplo 7:

Considere o quadro abaixo com informações sobre investimentos (Y ) , lucro esperado ( X 1 ) e o


estoque de capital desejado ( X 2 ) durante 15 anos (valores em R$ milhões).

ti Yi X1 X2 yi x1 x2 x1. y x1 .x2 x2 . y x12 x22 ŷ ( y − ŷ )2 ( yˆ − y )2 ( y − y )2


1 2 60 3 -3 -9 -3 27 27 9 81 9 2,48 0,23 6,35 9
2 2 62 3 -3 -7 -3 21 21 9 49 9 2,47 0,22 6,40 9
3 4 65 4 -1 -4 -2 4 8 2 16 4 3,32 0,46 2,82 1
4 6 68 5 1 -1 -1 -1 1 -1 1 1 4,16 3,39 1
5 4 65 5 -1 -4 -1 4 4 1 16 1 4,17 0,03 1
6 3 62 4 -2 -7 -2 14 14 4 49 4 3,32 0,10 4
7 5 66 6 0 -3 0 0 0 0 9 0 5,01 0,01 0
8 6 70 7 1 1 1 1 1 1 1 1 5,85 0,02 1
...
9 5 68 6 0 -1 0 0 0 0 1 0 5,86 0,74 0
10 3 65 4 -2 -4 -2 8 8 4 16 4 3,32 0,10 4
11 4 69 5 -1 0 -1 0 0 1 0 1 4,15 0,02 1
12 5 72 6 0 3 0 0 0 0 9 0 4,99 0,00 0
13 6 78 8 1 9 2 9 18 2 81 4 6,68 0,46 1
14 8 80 10 3 11 4 33 44 12 121 16 8,37 0,14 11,36 9
15 12 85 14 7 16 8 112 128 56 256 64 11,76 0,06 45,70 49
∑ 75 1035 90 0 0 0 232 274 100 706 118 - 5,98 84,67 90

Pedidos:

1) Obter a função de regressão do investimento;

2) Interpretar os resultados dos parâmetros, pelo MQO;

3) Estimar o investimento esperado quando o lucro esperado for 90 e o estoque de capital for
12;

33
4) Obter o intervalo de predição ou previsão do valor estimado em (3), com base no erro padrão
da estimativa;

5) Obter o intervalo de confiança dos estimadores β 2 e β 3 ;

6) Obter e interpretar o resultado da qualidade do ajuste (poder explicativo da regressão);

7) Verificar pelo teste F se as variáveis X 1 e X 2 exercem conjuntamente efeito significativo


sobre Y (dependente);

8) Verificar pelo teste t se as variáveis X 1 e X 2 exercem separadamente efeito sobre Y .

 Desenvolvimento:

1) Função Investimento

O modelo é: yˆ = β1 + β 2 .x1 + β 3 .x2 + e , cujos estimadores são b1 , b2 e b3 .

As estatísticas calculadas com base no quadro auxiliar são:

Y =5 X 1 = 69 X2 = 6
∑ x1. y = 232 ∑ x12 = 706
∑ x . y = 100
2 ∑ x = 118
2
2

∑ x .x = 2747 ∑ (x .x ) = 75076
2
1 2 1 2

yi = Y − Y xi = X 1 − X 1 x2 = X 2,i − X 2

b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2

(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

b2 =
(232 ×118) − (274 ×100) = − 24 = −0,003
(706 ×118) − 75076 8232

b2 = −0,003

b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1

(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2

34
b3 =
(100 × 706) − (274 × 232) = 7032 = 0,85 ; b3 = 0,85
(706 × 118) − 75076 8232

b1 = y − b2 .x1 − b3 .x2

b1 = 5 − (− 0,003 × 69) − 0,85 × 6

b1 = 5 − (− 0,21) − 5,10

b1 = 0,11

yˆ = 0,11 − 0,003.x1 + 0,85.x2

2) Interpretação dos parâmetros

2.1) O valor 0,11 do intercepto significa que se o lucro esperado ( X 1 ) e o estoque de capital
desejado ( X 2 ) forem zero, o investimento seria de R$0,11.

2.2) A variável explicativa X 1 (lucro esperado) sendo negativa, um aumento de R$1,00 no lucro
esperado acarreta um decréscimo de R$0,003 no investimento.

2.3) A variável explicativa X 2 (estoque de capital desejado) sendo positiva, significa que um
aumento de R$1,00 nessa variável acarreta um aumento de R$0,85 no investimento.

3) Investimento esperado

yˆ (esperado ) = 0,11 − 0,003.x1 + 0,85.x2

yˆ (esperado ) = 0,11 − 0,27 + 10,20

yˆ (esperado ) = R$10,04

4 ) Intervalo de predição do valor estimado

Sˆ y =
∑ ( y − yˆ )2

IP = VE ± Sˆ y
n−k

∑ ( y − yˆ ) = 5,98 ; n = 15 ; k =3
2

5,98
Sˆ y = = 0,71
15 − 3

35
Sˆ y = 0,71

IP = VE − Sˆ y < IP < VE + Sˆ y

10,04 − 0,71 < IP < 10,04 + 0,71

9,33 < IP < 10,75

5) Intervalo de confiança dos estimadores

5.1) Intervalo de β 2 = b2
Calculamos inicialmente o erro padrão de β 2
Sˆ y
Sˆ β 2 = ∑x
2
= 706 ; ∑x 2
= 118
(∑ x1 .x2 )
2 1 2

∑ x1 −
2

∑ x22
0,71
Sˆ β 2 = = 0,085
706 −
(274 )
2

118

Sˆ β 2 = 0,085

O intervalo de confiança de Sˆ β 2 baseia-se na igualdade probabilística.

( )
1 − P = P bi − tα (n − k ).Sˆ βi ≤ β i ≤ bi + tα (n − k ).Sˆ βi

1 − P = −0,003 − t 0, 05 (15 − 3).0,085 ≤ β 2 ≤ −0,003 + t 0, 05 (15 − 3).0,085

1 − P = −0,003 − 2,1788 × 0,085 ≤ β 2 ≤ −0,003 + 2,1788 × 0,085

0,95 = −0,1882 ≤ β 2 ≤ 0,1822

O resultado significa que existe uma probabilidade de 0,95 de que o estimador β 2 esteja entre
− 0,1882 e 0,1822 .

5.2) Intervalo de β 3 .
Cálculo inicial de erro padrão de β 3

36
Sˆ y
Sˆb3 =
(∑ x .x ) 2

∑x − 2 1 2

∑x
2 2
1

Estatísticas:
∑ x22 = 118 (∑ x .x ) 1 2
2
= 274 2 = 75.076

Sˆ y = 0,71 ∑x 2
1 = 706
0,71 0,71
Sˆb3 = =
75.076 11,66
118 −
706

Sˆb3 = 0,21

Calculado o erro padrão de Sˆb3 , o intervalo de confiança baseia-se na igualdade probabilística

( )
1 − P = P b3 − tα (n − k ).Sˆ β3 ≤ β 3 ≤ b3 + tα (n − k ).Sˆ β3

Sabemos que:

β 3 = 0,85 , S β = 0,21 e t0,05 (12) = 2,1788 , então teremos:


3

0,95 = 0,85 − 0,21 × 2,1788 ≤ β 3 ≤ 0,85 + 0,21 × 2,1788

0,95 = 0,39 ≤ β 3 ≤ 1,31

O intervalo encontrado de β 3 sugere que existe uma probabilidade de 0,95 de que β 3 esteja
entre 0,39 e 1,31 .

6) Qualidade do ajuste

O poder explicativo da regressão ou coeficiente de determinação tem por objetivo avaliar a


qualidade do ajuste e é medido pela expressão R 2 .

∑ ( yˆ − y )
2

R 2
=
∑(y − y)
2

Onde: 0 ≤ R 2 ≤ 1 ou 0 ≤ R 2 ≤ 100%

Da tabela extraímos as estatísticas:


37
∑ ( yˆ − y ) = 84,67 ; ∑ (y − y) =90
2 2

84,67
R2 = ∴ R 2 = 0,94 ou 94%
90

O resultado obtido sugere uma boa qualidade de ajuste na função de regressão.

7) Verificação pelo teste F se as variáveis explicativas X 1 e X 2 exercem influência conjunta sobre


a variável dependente Y .

Do quadro auxiliar de cálculos retiramos as estatísticas:

∑ ( yˆ − y ) = 84,67 ; n = 15 (amostra)
2

∑ ( y − yˆ ) = 5,98 ; k = 2 (variáveis explicativas)


2

Utilizando ANOVA para obter Fc :

Fonte de Média
∑ dos quadrados g.l. Fc
Variação quadrática
Regressão 84,67 2 42,34 42,34
Fc = = 170,48
Resíduos 5,98 15 − 2 − 1 0,25 0,25

Hipóteses:

H 0 :b 2 = b3 = 0 (ausência de efeito)
H 1 :b 2 ≠ b3 ≠ 0 (presença de efeito)

Conclusão:

Fc = 170,48 ; F0, 05 (13) = 3,89


Fc > Fα

Como Fc > Fα rejeitamos a hipótese H 0 , o que sugere que pelo menos uma das variáveis
explicativas exerce efeito sobre a variável Y . Com a probabilidade de 95% de que a assertiva
esteja correta.

8) Avaliação da influência pelo teste t (Student)

- Formulação das hipóteses:

38
H 0 : b2 = 0 (ausência de influência)
H 1 : b2 ≠ 0 (presença de influência)

bi − β i
tc = (Geral)

bi

- Teste para o estimador b2 (estimativa de β 2 )

b2 − β 2 0,003 − 0
tc = = = 0,035
Sˆb2 0,085

t c = 0,035

Tabela (t) = t 0, 05 (12 ) = 2,1788

Verifica-se que t c < tα , o que sugere aceitar H 0 , ou seja, ausência de influência.

- Teste para o estimador b3 (estimativa de β 3 )

0,85 − 0
tc = = 4,04
0,21

t c = 4,04

t 0, 05 (12 ) = 2,1788

Verifica-se que t c > tα , o que sugere rejeitar a hipótese H 0 , ou seja, a variável estoque de capital
( X 2 ) exerce influência positiva sobre os investimentos.
Nota-se pelo teste t que apenas β 3 exerce influência sobre a variável y .

39
 Exemplo 8:

A tabela abaixo representa as observações semanais sobre receitas (Yi ) , em R$1000,00, sobre
preço de venda ( X 1 ) , em R$1,00, e gastos com propaganda ( X 2 ) , em R$1000,00, durante 12
semanas para uma cadeia de lanchonetes.

ti Yi X1 X2
1 120 2,0 10
2 122 2,0 8
3 90 1,5 23
4 123 2,0 11
5 122 2,0 10
6 108 2,5 6
7 150 2,5 18
8 90 1,8 19
9 140 2,5 21
10 125 1,2 18
11 110 1,8 16
12 116 2,2 20
∑ 1416 24 180

- Desenvolver:

1) Obter a equação de regressão múltipla estimada da receita ( ŷi ) ;

2) Obter a previsão da receita quando x1 = 2,30 e x2 = 22 , em t13 ;

3) Obter o intervalo de predição da receita prevista no item anterior;

4) Determinar o erro padrão de estimativa;

5) Calcular o erro padrão dos estimadores β 2 e β 3 ;

6) Obter o intervalo de confiança dos estimadores β 2 e β 3 ;

7) Avaliar a qualidade do ajuste;

8) Verificar pelo teste F se as variáveis explicativas x1 e x2 exercem influência conjunta sobre a


variável receita (Yi ) .

 Exemplo 9:

Dez pessoas sadias entre 20 e 40 anos, do sexo masculino, foram submetidas a um teste de
avaliação física, quanto ao peso total (Yi ) , peso magro ( X 1 ) e as calorias diárias ingeridas ( X 2 ) ,
como se segue:
40
Yi X1 X2
77 52 2.000
62 42 1.600
65 45 1.800
76 51 2.000
74 45 1.800
61 41 1.600
64 42 1.700
61 41 1.500
67 47 1.600
63 44 1.400

- Considerando que a série de valores apresenta comportamento linear, obter:

a) A equação de regressão múltipla;

b) O peso total estimado, quando X 1 = 50 e X 2 = 1.450 ;

c) O erro padrão da estimativa;

d) O erro padrão dos estimadores β 2 e β 3 ;

e) Analisar pelo teste F se as variáveis explicativas x1 e x2 exercem, conjuntamente, influência


sobre o peso total y ;

 Exemplo 10:

Considere as assertivas abaixo:

A) A função consumo: C= a+bx+e, onde C= consumo agregado; x= renda e e= erro aleatório, é um


exemplo clássico de modelo teórico;

B) O conjunto de variáveis exófenas mais o termo constante é denominado de regressor;

C) Com relação a regressão linear múltipla, a variável dependente y deve variar linearmente com
o conjunto de variáveis x i e não com cada uma destas;

D) Se comparamos a regressão linear múltipla com a regressão linear simples, os resíduos


daquele são sempre menores;

E) Numa análise de regressão, o termo erro aleatório ou perturbação estocástica (e), nada mais é
do que o representante de todas as variáveis omitidas que podem eventualmente afetar a
variável endógena, mas que não puderam ser incluídas no modelo.

41
Estão corretas as afirmativas:

a) A e B b) C e D c)A e E d) B eE e) A,B e E

 Exemplo 11:

Com relação à regressão linear múltipla, assinale a afirmativa correta:

A) A representação geométrica é sempre de um plano: y = β1 + β 2 x1 + β 3 x2 + ..... + β n xn−1 + e

B) Quando comparados com a regressão linear simples, os resíduos são sempre menores;

C) A variável y dependente deve variar linearmente com o conjunto de variáveis x i e não com
cada uma delas;

D) Funções como y = a ⋅ b1 1 ⋅ b2 2 .....bk são sempre linearizáveis ;


x x xk

E) Na aplicação de logaritmos sempre permite a lenearização, culminando na representação


geométrica por hiperplano.

 Exemplo 12:

Considerando o modelo de regressão linear simples, tendo x como variável aleatória e


independente e y como variável dependente, é correto afirmar que:

a) A variável x não é isenta de erro;

b) A função de regressão fornece a média de x para cada y considerado;

c) A variável não é isenta de erro;

d) A variação residual de y é distribuída normalmente com desvio padrão constante e média


diferente de zero;

e) A variação residual de y é constante com x.

42
 Exemplo 13:

Dentre as afirmativas abaixo, assinale a(s) correta(s)

a) Quando o pesquisador encontra dificuldades para incorporar a um dado modelo e fatos de


natureza não quantitativa, podemos dizer que está diante de umalimitação de natureza
estatística;

b) A função consumo do tipo β1 + β 2 .x + e , onde y= consumo agregado; x= renda e e = erro


aleatório , pode ser considerado um modelo econométrico, dada a necessidade de aplicar
tratamento estatístico na sua análise;

c) O conjunto de variáveis exógenas mais o termo entercepto são denominados de regressores;

d) Num modelo de regressão linear deverão ser levados em consideração alguns pressupostos
básicos, como por exemplo: “A covariância entre qualquer par de erros aleatórios e 1 e e 2 é
sempre diferente da covariância do par y e y 2 que é igual a unidade”

 Exemplo 14:

Uma série temporal de 15 termos foi ajustada a uma função do tipo y = β1 + β 2 .x + µ , tendo sido
encontradas as seguintes estatísticas de avaliação:

a) yˆ = 4,5 + 1,8 x

b) Sˆb 2 = 0,696

c) ∑ ( yˆ − y ) = 113,4
2

d) ∑(y − y) = 300
2

e) ∑ ( y − yˆ ) = 186,6
2

14.1. Determinando o intervalo de confiança com o estimador β 2 , com α = 0,05 , encontramos ...

a) 0,316 ≤ β 2 ≤ 3,283

b) 0,307 ≤ β 2 ≤ 3,292

c) 0,302 ≤ β 2 ≤ 5,983

43
d) 2,996 ≤ β 2 ≤ 6,003

e) 0,296 ≤ β 2 ≤ 3,303

14.2. Determinando o valor do poder explicativo da regressão (R2) obtemos:

a) 0,608 b)0,622 c)0,378 d)0,806 e)2,645

14.3. Testando a hipótese quanto a ausencia ou a presença de regressão da função yˆ = 4,5 + 1,8 x
pelo teste F, com base em ANOVA, obtemos para F 0 (calculado) o valor de .......; e assim podemos
concluir que .....

a) 7,9 ; sugere ausência de regressão entre x e y;

b) 7,9 ; os dados são insuficientes para aplicação do teste;

c) 9,1 ; sugere ausência de linearidade da função;

d) 7,9 ; sugere presença de regressão entre x e y;

e) N.R.A

 Exemplo 15:

Qual das afirmações abaixo faz referencia correta ao modelo de regressão linear simples?
a) Toda regressão apresenta heterocedasticidade.
b) Se a variância é constante, os dados são homocedásticos.
c) O intercepto α representa a inclinação da reta de regressão.
d) Os erros do modelo não são aleatórios, com a esperança igual a 1.
e) A constante α é sempre positiva.

 Exemplo 16 :

Com relação à Regressão Linear Múltipla, assinale a afirmativa correta:


a) A variável Y dependente deve variar linearmente com o conjunto de variáveis X 1 e não com
cada uma destas.
b) A representação geométrica é sempre de um plano: y=a 1 +b 2 x 1 +b 3 x 2 +.......b n x n-1 +e 1 .
c) Funções como y = ab1x1b2x 2 .....bkxk são sempre linearizáveis.
d) A aplicação de logaritmos sempre permite a linearização, culminando na representação
geométrica por hiperplano.
e) Quando comparados com a Regressão Linear Simples, os resíduos são sempre menores.
44
Exemplo 17:

Suponha que o custo de produção de energia por kilowatt/hora(Y) seja uma função linear do fator
de carga (X1), em % e do custo do carvão (XZ) em centavos de dólar por milhão de Btu. Assumindo
normalidade dos dados, um modelo de regressão linear múltipla foi adotado para uma amostra de
tamanho 12.

O modelo estimado foi:


Y= 6,14 – 0,04X1 + 0,09X2
(0,91) (0,01) (0,01)

Sendo os erros padrões indicados entre parênteses.


A tabela da análise de variância, incompleta, encontra-se a seguir

TABELA ANOVA
FV Graus de Soma dos Média dos F F de significação
liberdade quadrados quadrados
Regressão 31,15 9,02E-05
Residuo 0,6
Total

Com base nesses dados, considere as afirmações a seguir:


I. Para cada aumento de uma unidade na variável X1 corresponderá um decréscimo de 0,04 na
variável Y, permanecendo inalterada a variável X2.
II. A variância residual do modelo considerado é 0,6 (Kilowatt/hora)2.
III. O intervalo bilateral de 95% de confiança para o custo do carvão é, aproximadamente, (0,07;
0,11)

Está correto o que se afirma em:

a) II apenas b) III apenas c) I e II apenas d) I e III apenas e ) I,II e III .

Capítulo 5: CORRELAÇÃO

5.1. OBJETIVO PARA A ECONOMIA

É de grande importância para a Economia explorar e verificar os inter-relacionamentos existentes


entre as variáveis econômicas. Essa avaliação, bem como seu grau de intensidade, pode ser
medida através do coeficiente de correlação que veremos a seguir.

5.2. CONCEITO DE CORRELAÇÃO

Correlacionar é verificar com base em técnicas especiais se existe inter-relacionamento entre


variáveis (econômicas ou não).
45
Quando esta avaliação é feita entre duas variáveis como, por exemplo, consumo médio e renda
média, é denominada correlação simples.

Quando a avaliação é feita entre três ou mais variáveis é chamada de múltipla como, por exemplo,
temperatura, umidade, índice pluviométrico, patrimônio, faturamento, vendas, etc...Os princípios
básicos que regem os problemas da correlação múltipla são semelhantes aos da correlação
simples.

Quando é feita entre três ou mais variáveis permanecendo fixa (constante), as demais variáveis do
conjunto observado é chamada de parcial. Dessa forma, a correlação parcial estima a relação
funcional entre a variável dependente e outras variáveis independentes.
No nosso curso, serão detalhadas apenas a avaliação e interpretação da correlação simples.

5.3. MEDIDA DE CORRELAÇÃO

O instrumento de medida de correlação é dado pelo coeficiente de correlação de Pearson,


representado por r , e as expressões para o cálculo geralmente utilizadas são:

( x )(. y )
∑ xy − ∑ n ∑
r= (30)
 x − (∑ x )  . y − (∑ y )
  2 2


∑ ∑
2 2

n  n 
  
Outra forma de cálculo:

r=
∑ [(x − x )(. y − y )] (31)
n ×σ x ×σ y

Onde:
x e y = variáveis sob análise
σ x e σ y = desvios padrão das variáveis x e y
n = tamanho amostral

5.4. O COEFICIENTE DE CORRELAÇÃO r E SUA INTERPRETAÇÃO

O valor de r pode apresentar-se de forma positiva ou negativa.

Quando r é positivo significa que as duas variáveis em estudo ( x e y ), por exemplo, crescem ou
decrescem no mesmo sentido.

Quando r é negativo significa que as duas variáveis em análise seguem sentidos inversos, ou seja,
quando os valores de x evoluem crescentemente, os de y tendem a evoluir decrescentemente e
vice-versa.
46
Genericamente, a interpretação do valor de r pode ser obtida com base na tabela seguinte:

r (± ) Correlação
0 Nula
0,00 0,30 Fraca
0,30 0,60 Média
0,60 0,90 Forte
0,90 0,99 Fortíssima
1 Máxima

O domínio de r é portanto:
− 1 ≤ r ≤ +1

Depreende-se pela tabela de avaliação que quanto mais próximo for o valor de r de 1 ou -1, mais
acentuado é o inter-relacionamento entre as variáveis ( x e y ). Ressalve-se que tais valores são
arbitrários , razão pela qual deverão ser usados apenas para se ter uma idéia da magnitude da
correlação e não como medida decisória.

5.5. IMAGENS DE r NO PLANO CARTESIANO EM FUNÇÃO DO SEU VALOR

y y

0 < r <1 −1 < r < 0


x x
(correlação (correlação negativa)

y y

r =0
x x
(correlação nula) (circular)

47
r = +1 r = −1

( r = máxima positiva) ( r = máxima negativa)

5.6. DIFERENÇA ENTRE CORRELAÇÃO E REGRESSÃO

Vale deixar registrado que existe uma diferença entre correlação e regressão. Como já vimos, a
correlação mede o grau de inter-relacionamento ou associação entre variáveis, ao passo que a
regressão mostra o efeito da variável explicativa xi sobre a variável explicada yi . Se analisarmos
os dois procedimentos, podemos sugerir que a análise de regressão apresenta algumas vantagens
em relação à análise de correlação, quais sejam:

- A regressão indica o sentido da relação de dependência entre x e y ;

- Os parâmetros intercepto e angular podem ser estimados e utilizados para fins de previsão.

 Exemplo 18:

O par y e x se refere a demanda de energia elétrica ( y ) e tarifa ( x ) .

ti y (1000kw) x x. y y2 x2 (x − x ) ( y − y ) a×b a2 b2
1 30 4 120 900 16 -2 8 -16 4 64
2 28 4 112 784 16 -2 6 -12 4 36
3 24 3 -3 2 -6 9 4
4 23 5 -1 1 -1 1 1
5 22 5 -1 0 0 1 0
6 22 5 ... ... ... -1 0 0 1 0
7 20 6 0 -2 0 0 4
8 18 8 2 -4 -8 4 16
9 18 9 3 -4 -12 9 16
10 15 11 165 225 121 5 -7 -35 25 49
∑ 220 60 1230 5030 418 0 0 -90 58 190

48
Perguntas:

1) Calcular o coeficiente de correlação (r ) pelos dois procedimentos, interpretando o resultado;

2) Traçar o diagrama de dispersão e verificar se o citado diagrama corresponde ao valor


encontrado de r ;

3) Testar a hipótese da existência de correlação entre y e x por Student, com α = 0,05 .

 Desenvolvimento:

1) Cálculo de r

1.1) Pela expressão (30)


( x )(. y )
∑ xy − ∑ n ∑
r=
 x − (∑ x )  . y − (∑ y )
  2 2


 ∑ 2

n 
∑ n
2

  

60 × 220
1230 −
r= 10
 3600   48400 
 418 −  . 5030 − 
 10   10 

r = −0,86

Pela expressão (31)

r=
∑ [(x − x )(. y − y )]
n ×σ x ×σ y

− 90
r=
10 × 4,359 × 2,408

r = −0,86

. Interpretação:

É fácil verificar que os resultados obtidos pelos dois critérios são os mesmos, sugerindo uma forte
correlação inversa, o que significa que, à medida que o consumo de energia elétrica decresce,
aumenta o valor da tarifa.

49
2) Diagrama de dispersão

O diagrama de dispersão nada mais é do que a colocação de pontos coordenados de y e x no


plano cartesiano, o que nos permite visualizar a relação entre essas variáveis. Além disso, ajuda-
nos a identificar a presença de outliers que, se ocorrer, pode distorcer acentuadamente o
resultado da correlação.

Outliers são dados atípicios que diferem significativamente do conjunto sob análise.

A imagem gráfica abaixo sugere que as duas variáveis nela consideradas (consumo de energia
elétrica x tarifa) são negativamente relacionadas, sem presença de outliers

y
30

25

20

15

10

5
x
2 4 6 8 10 12

3) Teste de hipótese da existência de (r )

Nem sempre o valor de (r ) garante a existência de correlação devido a fatores diversos, tais como
número insuficiente de dados amostrais, variáveis com informações distorcidas, etc.

Uma forma para se verificar a existência de correlação é a aplicação do teste de hipóteses, como a
distribuição t de Student, por exemplo.

Recomenda-se aplicar o teste para variáveis com tamanho da amostra igual ou superior a 30
informações, pois se deve atender a hipótese que as mesma apresentam tendência de
normalidade.

Para testar a hipótese por Student, devemos inicialmente determinar o valor de t calculado (t c )
pela expressão:
50
r. n − k
tc = (32)
1− r 2

Onde:
r = resultado do coeficiente de correlação
n = tamanho da amostra
K = número de variáveis

O valor de tc deve ser comparado com o valor de tα (n − k ) tabelado.

Se t c > tα (n − k )
ou t c < −tα (n − k )

Em contra partida se:

− tα (n − k ) ≤ t c ≤ tα (n − k ) , aceita a hipótese H 0

A formulação das hipóteses deverá acompanhar o seguinte esquema:


H 0 : ρ = 0 , ausência de correlação
H 1 : ρ ≠ 0 , presença de correlação

No exemplo em questão temos:

r. n − k
tc =
1− r 2

− 0,86. 10 − 2
tc =
1 − (0,86 )
2

Consultando a tabela para t 0, 05 (10 − 2 ) = 2,31 , nota-se que t c = −4,7 é maior que tα (8) = 2,31 , o
que sugere rejeitar a hipótese H 0 e aceitar H 1 , que indica presença de correlação, conforme
hipóteses abaixo formuladas.
H 0 : ρ = 0 , ausência de correlação
H 1 : ρ ≠ 0 , presença de correlação

4) Formas alternativas para o cálculo de r (coeficiente de correlação) e de R2 (coeficiente de


determinação)

Conhecendo-se o valor de r, pode-se rapidamente estimar o valor de R2, bastanto para tanto
elevar ao quadrado o valor de r, ou seja: se r = 0,75, R2=0,56. Da mesma forma, como decorrência,
se R2 =0,56, r = 0,56 = ±0,75
51
 Exemplo 19:
Considere o par abaixo referente a taxa efetiva de inflação ( y % ) e a taxa de desemprego (x% ) .

(ti ) yi xi
t1 6 5
t2 11 6
t3 9 8
t4 6 8
t5 6 7
t6 8 6
t7 11 6
t8 13 7
t9 10 8
t 10 10 9

1) Calcular o coeficiente de correlação pelos modelos conhecidos, interpretando o resultado;

2) Traçar o diagrama de dispersão no plano cartesiano. Verificar se há coerência com o valor de


r encontrado;

3) Testar a hipótese da existência de correlação entre inflação e taxa de desemprego. Utilize


Student com α = 0,05 .

 Exemplo 20:

Com base nos dados do índice de quantidade demandada e tarifa real do exemplo 3, obter:

a) O coeficiente de correlação, interpretando o seu resultado;

b) Traçar o diagrama de dispersão;

c) Testar a hipótese da existência de correlação, utilizando Student, com α = 0,05 .

 Exemplo 21:

Sobre a avaliação da correlação linear, analise as assertivas:

A) O coeficiente de correlação deverá ser testado quanto à diferença para nulidade, através do
teste t de Student;

B) A correlação parcial estima a relação funcional entre a variável dependente e outras variáveis
independentes;
52
C) Na correlação linear múltipla, R2 indica a parcela de variação total de y explicada pelo
hiperplano de regressão.

D) A presença de outliers suaviza o efeito da correlação.

Está (ão) correta (s) apenas a(s) afirmativa (s) :

1) A 2) B e C 3) A, B e C 4) A,C e D 5) A e B

 Exemplo 22:

Utilizou-se um modelo de regressão linear para avaliar a relação entre o preço do litro da
gasolina e o do petróleo Brent, ambos em reais, compreendendo o período de janeiro de 2002
a dezembro de 2006.
Os resultados obtidos foram:

∑ (Y − Y ) ( )
60
1 60
∑ Yi − Yˆi
2 2
i = 18; = 0,052 e Fsig . = 2,7 E − 4
i =1 58 i =1

Considere o quadro a seguir.

ANOVA
FV Soma dos quadrados Graus de liberdade Média dos quadrados F Fsig

Modelo (regressão) z

Residual x Y

Total

Os valores de X , Y e Z, no quadro acima, respectivamente, são:


a) 3,016; 0,052 e 2,78E-4;
b) 3,016; 0,052 e 288,154;
c) 14,98; 3,016 e 288,154;
d) 18; 0,052 e 2,78E-4
e) 18; 0,052 e 288,154.

53
 Exemplo 23:

As estatísticas a seguir foram obtidas de observações realizadas em 100 individuos com


relação a duas características X e Y.

100 100

∑Y
i =1
i = −58; ∑ X i = 248 ;
i =1

∑ (X − X ) = 25; ∑ (Yi − Y ) = 144 ;


100 100
2 2
i
i =1 i =1

∑ (X − X )(Yi − Y ) = 43,2;
100

i
i =1

O coeficiente de correlação amostral entre X e Y é igual a :


a) -0,36 b) -0,18 c) 0,44 d) 0,72 e) 0,80

 Exemplo 24:

A partir de uma amostra aleatória (X 1 , Y 1 ), (X 2 , Y 2 ) ........., (X 20 , Y 20 ) foram obtidas as estatísticas:


médias X = 12,5 e Y = 19 , variâncias amostrais S x2 = 30 e S y2 = 54 e covariância S xy2 = 36
Qual a reta de regressão estimada de Y em X?
a) Yˆi = 19 + 0,667 X i ; b) Yˆi = 12,5 + 1,2 X i ;
c) Yˆ = 4 + 1,2 X ;
i i d) Yˆ = 19 + 1,2 X ; i i e) Yˆi = 80 + 22,8 X i ;

Capítulo 6: VIOLAÇÃO DOS PRESSUPOSTOS BÁSICOS

Neste capítulo serão abordados alguns aspectos relacionados com a estimação de modelos
quando os resíduos (ei ) não são constantes, ou seja, quando tais resíduos associados com
observações em um dado período de tempo se mantiverem, por transferência, nos períodos
subsequentes.

Na ocorrência desses casos, estamos diante de uma violação aos pressupostos básicos já
comentados.

Assim, nos itens 6.1 a 6.5 deste capítulo falaremos sobre heteroscedasticidade e no capítulo 7
sobre autocorrelação que é uma outra forma de violação.

54
6.1. HETEROSCEDASTICIDADE E HOMOSCEDASTICIDADE

Já vimos que na análise de regressão era necessário levar em consideração algumas hipóteses, tais
como:

- o valor de y para cada valor de x é dado por: y = β1 + β 2 .x1 + e ;


- a esperança do erro aleatório deverá ser igual a zero → E (e ) = 0 ;
- a variância do erro aleatório deverá ser igual a variância de y (variável explicada) →
V (e ) = V ( y ) ;
- as variáveis explicativas (xi ) são fixas e não estocásticas;
- a variância do erro aleatório deverá ser constante → V (e ) = constante;
- além de outros.

Quando os pressupostos citados ou hipóteses básicas não se verificam, estamos diante de uma
violação ou transgressão.

Na ocorrência desses casos algumas indagações vêm à mente do pesquisador, tais como: o que
provoca tais distorções? Quais as consequências para as estimações dos parâmetros? O que fazer
para minimizar tais problemas? Quais os procedimentos para diagnosticá-los?

Para melhor entender a matéria é necessário conhecer o significado de alguns termos, como
heteroscedasticidade e homoscedasticidade.

6.2. NATUREZA DA HETEROSCEDASTICIDADE

Conforme comentado acima, uma importante hipótese no modelo de regressão é que a variância
de cada erro aleatório V (e ) seja um número constante igual a σ 2 .

Essa é a hipótese do princípio da homoscedasticidade.

Quando isso não se verifica, ou seja, quando a variância do erro aleatório V (e ) é algum número
não constante, para todas as informações numéricas dizemos que o modelo de regressão é
heteroscedástico e, nesse caso, estaremos diante de uma série numérica que apresenta
problemas heteroscedásticos.

Para melhor esclarecer a diferença entre homoscedasticidade e heteroscedasticidade suponha


que no modelo yˆ = β1 + β 2 .x1 + e , y represente poupança e x a renda.

Na prática, à medida que a renda aumenta a poupança também tende a aumentar, em média.

Quando a variância, em relação à média da poupança, permanece a mesma em todos os níveis de


renda, ou seja, mesmo que a renda aumente, a variância da poupança permanece constante,
dizemos que este comportamento é homoscedástico.
55
Diagramaticamente, um comportamento homoscedástico de pontuações aleatórias pode ser
observado no diagrama 1. Por esse diagrama, mesmo quando o nível (ni ) de renda aumenta, a
variância condicional da poupança permanece a mesma.

Diagrama 1 (homoscedástico)

Função densidade
de probabilidade
Poupança (y)

n1

n2 yˆ = β1 + β 2 .xi

n3

n i = nível de renda Renda (x )

Nota-se que a variância da poupança permanece constante, mesmo com o aumento da renda.

Quando a variância condicional de y (poupança) aumenta, quando a renda (ni ) aumenta, ou seja,
quando as variâncias não são mais as mesmas, quando os níveis de renda aumentam, como se
pode verificar no diagrama 2, dizemos que existe heteroscedasticidade.

56
Diagrama 2 (heteroscedástico)

Função densidade
de probabilidade
Poupança (y)

n1

n2 yˆ = β1 + β 2 .xi

n3

n i = nível de renda
Renda (x )

OBS: Nota-se que a variância da poupança vai se modificando à medida que o nível de renda
aumenta.

Alguns autores definem heteroscedasticidade como sendo a existência de não-imutabilidade nos


resultados da variância dos erros, ou também, quando os desvios-padrão dos resíduos não são
constantes. Como o desvio padrão é a raiz quadrada da variancia, procede a definição.

6.3. CONSEQUÊNCIAS DA HETEROSCEDASTICIDADE

Uma das consequências de maior relevância é que os estimadores (bi ) obtidos (principalmente
pelo M.Q.O.) não são eficientes ou não apresentam variância mínima, o que significa violar um dos
princípios do método dos mínimos quadrados, tendo como consequências:

- erros padrão viesados;


- incorreção nos testes t e F;
- intervalos de confiança não confiável;
- etc.

6.4. DETECÇÃO DA HETEROSCEDASTICIDADE

Para verificação da existência de heteroscedasticidade existem dois métodos (formais e informais)

57
 Detecção pelo método informal ou por observação visual:

Os métodos informais podem ser utilizados quando se desconhece a natureza da


heteroscedasticidade e, nesse caso, efetuamos a análise de regressão partindo-se da hipótese de
que não há nenhuma violação aos pressupostos.

 Procedimentos operacionais:

1) Obter a equação de regressão;


2) Determinar os resíduos (êi ) ;
3) Representar graficamente os valores residuais no plano cartesiano;
4) Comparar o diagrama assim obtido com os diagramas padronizados de resíduos
reconhecidamente heteroscedásticos, cujos formatos são os diagramas d 1 , d 2 , d 3 e d 4
adiante;
5) Se o diagrama obtido assemelhar-se ao da figura (d 1 , d 2 e d 3 ) é provável que a série seja
heteroscedástica; caso se assemelhe ao da figura d 4 é provável que a série seja
homoscedástica.

Diagramas padrão de resíduos heteroscedásticos

êi êi
d1 d2

xi xi

êi êi
d3 d4

xi xi

 d 1 , d 2 e d 3 são resíduos heteroscedásticos.


 d 4 é um resíduo homoscedástico.

58
 Exemplo 25:

O par xi ; yi apresenta a seguinte equação de regressão: yˆ = −0,22 + 0,77 x .


Verificar, com base em análise visual dos resíduos (êi ) , se a série apresenta tendência
heteroscedástica.

x y êi
6 4 -0,4
9 6 -0,7
11 10 1,5
15 14 2,5
16 9 -3,3
22 13 -3,9
23 21 3,3
102 77

 Desenvolvimento:

Pelo método informal, calculamos os resíduos (êi ) com base na equação de regressão já
informada, yˆ = −0,22 + 0,77 x , resultando na coluna êi do quadro. Na sequência plotamos esses
valores no plano cartesiano, cuja imagem é a que se segue.
êi

4,0
3,5
3,0
2,5
2,0 x
1,5
1,0
0,5

-0,5 5 10 15 20 25

-1,0
-1,5
-2,0
-2,5
-3,0
-3,5

-4,0

59
Conclusão:
Fazendo a comparação gráfica nota-se que o diagrama residual êi do par de valores ( x e y )
assemelha-se ao da figura d1 que é um padrão de resíduo heteroscedástico. Dessa forma, com
base em análise visual dos resíduos, conclui-se que a série em questão é heteroscedástica.

 Exemplo 26:

O par xi ; yi de tendência linear tem equação de regressão yˆ = −0,1342 + 77,94 xi . Verificar, com
base em análise visual dos resíduos se a mesma é heteroscedástica.

xi yi
0,060 4
0,086 6
0,107 10
0,146 14
0,156 9
0,215 13
0,230 21
1,00 77

 Detecção da heteroscedasticidade pelo método formal

Existem inúmero testes para verificar a presença de heteroscedasticidade pelo método formal,
tais como os métodos de:

- Goldfeld e Quandt;
- Pesaran e Pesaran;
- Gledjiser;
- Etc.

Apesar desses métodos apresentarem fundamentos teóricos assemelhados, o mais recomendado


é o teste de Goldfeld e Quandt. Neste método, conhecido um dado par de valores de yi e xi , os
procedimentos operacionais para sua verificação sãos os seguintes:

 Teste de Goldfeld e Quandt

1) Ordenar os valores da variável explicativa xi , de forma crescente, ou seja, segundo a sua


magnitude;

2) Os valores de y deverão acompanhar o deslocamento de x ;

3) Eliminar alguns dados centrais da série após a ordenação. Geralmente é da ordem de, no
máximo, ⅓ do tamanho amostral ( c = dados eliminados);
60
4) As observações restantes, ou seja, aquelas correspondentes a (n − c ) observações deverão
ser divididas em dois subgrupos de igual tamanho. Por exemplo, se n = 30 e tendo sido
desconsiderado c = 10 (⅓ de 30), restando n = 20 , formando dois subgrupos de 10
informações cada;

5) Obter a função de regressão dos dois subgrupos;

6) Obter a soma dos quadrados dos resíduos dos dois subgrupos, respectivamente SQR1 e SQR2,
ou seja:
SQR1 = ∑ ( y1 − ŷ1 ) (33)
2

SQR2 = ∑ ( y 2 − ŷ 2 ) (34)
2

7) Obter F calculado (Fc ) , que é a relação entre SQR2 e SQR1, dividido pelo número de graus de
liberdade.
∑ ( y2 − yˆ 2 )
2

0,5.(n − c − 2k )
Fc = (35)
∑ ( y1 − yˆ1 )
2

0,5.(n − c − 2k )

O número de graus de liberdade (g.l.) é dado pela expressão:

g.l. =
(n − c − 2k ) = 0,5.(n − c − 2k ) (36)
2
Onde:
n = tamanho da amostra inicial
c = número de itens amostrais desprezados
k = número de parâmetros (intercepto + angulares)

8) Comparar o valor de Fc com o valor tabelado de F de Fisher, com o g.l. obtido em (36), ou
seja: Fα (n − c − 2k ).0,5

9) Se Fc > Fα rejeitamos a hipótese de que a série de resíduos é homoscedástica, o que significa


sugerir que, provavelmente, a série é heteroscedástica. Em caso contrário, se Fc < Fα a série
é homoscedástica.

OBSERVAÇÃO:

A finalidade de se desprezar alguns dados centrais da série é acentuar a diferença entre o


subgrupo de variância maior. A omissão de dados deverá ser feita em função do tamanho da
amostra. Via de regra costuma-se desprezar:
- para n = 30 → ±8 dados
- para n = 60 → ±16 dados, etc.
61
 Exemplo 27:

Verificar, com base no teste de Goldfeld e Quandt, se o par de valores abaixo apresenta sintomas
de heteroscedasticidade.

Dados originais
y1 x1
33 44
37 49
41 54
46 62
51 68
57 71
65 78
72 82
81 86
91 92
100 100
103 97
114 98
122 95
136 101
141 109
150 117
155 121
163 121
170 125
172 119

 Desenvolvimento:

1) Dados ordenados
y2 x2 y2 x2 y2 x2
33 44 122 95 170 125
37 49 103 97
41 54 114 98
46 62 100 100
51 68 136 101
57 71 141 109
65 78 150 117
72 82 172 119
81 86 155 121
91 92 163 121

62
OBS:
Os dados foram ordenados em função da magnitude de xi

2) Obtenção da função de regressão e do número de graus de liberdade da série 1 (S1)

y1 x1 ŷ1 ( y1 − yˆ1 )2 = (eˆ1 )2


33 44 31,90 1,20
37 49 36,83 0,03
41 54 41,76 0,58
46 62 49,65 13,32
51 68 55,57 20,88
57 71 58,52 2,31
65 78 65,43 0,18
72 82 69,37 6,91
402 508 - 45,42 (SQR1)

- Estatísticas obtidas para a série 1:

a) Função de regressão: yˆ = −11,48 + 0,986.x1

b) Número de graus de liberdade:


g.l.(S1 ) =
(n − c − 2k ) = 21 − 5 − 2 × 2 = 6
2 2

c) Soma dos quadrados dos resíduos:


SQR1 = 45,42

3) Obtenção da função de regressão e do número de graus de liberdade da série 2.

y2 x2 y 2 .x2 x22 ŷ 2 ( y2 − yˆ 2 )2 = (eˆ22 )


100 100 10.000 10.000
148,74 2.375,59
136 101 10.201
149,47 181,44
141 109 155,31 204,78
150 117 161,15 124,32
...
172 119 ... 162,61 88,17
155 121 164,07 82,26
163 121 164,07 1,15
170 125 21.250 15.625 166,99 9,06
1.187 796 136.851 104.839 - 3.066,77 (SQR2)

63
n.(∑ x2 . y 2 ) − (∑ x2 )(
. ∑ y2 ) 8 ×136.851 − 796 ×1.187
b2 = = = 0,73
( 2
)
n. ∑ x − (∑ x )
2
8 ×104.839 − (796 )
2

b1 = y 2 − b2 .x2 = 148,38 − 0,73 × 99,5 = 75,74

− Estatísticas obtidas para a série 2:

a) Função de regressão: yˆ 2 = 75,74 + 0,73.x2

b) Graus de liberdade da S2
g.l.(S 2 ) = 0,5.(21 − 5 − 4) = 6

c) SQR2 = 3.066,77 (Soma do quadrado dos resíduos)

4) Cálculo do Fc
SQR2 3.066,72
g .l.(S 2 ) 6
Fc = = = 67,52
SQR1 45,42
g .l.(S1 ) 6

Fc = 67,52

5) Fc (tabelado). Consultando a tabela obtemos:


(n − c − 2k ) ∴ F0, 05 (6 ) = 4,28
2

6) Conclusão:
Fc = 67,52 > F0, 05 (6 ) = 4,28

Constata-se que Fc > Fα o que sugere que a série sob estudo é heteroscedástica.

 Exemplo 28:

Verificar se o par de valores abaixo, referentes às despesas com alimentação y e renda mensal x ,
apresenta violação aos pressupostos básicos pelo método de Goldfeld e Quandt. Faça α = 0,05 .

64
Dados informados
y1 x1 y1 x1
58 343 122 607
82 425 129 611
120 467 93 605
126 483 118 659
100 480 82 664
n = 22
122 496 182 704
100 519 139 700
128 543 98 720
105 540 124 722
107 560 126 722
98 555
181 591

 Desenvolvimento:

1) Dados ordenados

y1 x1
58 343
82 425
120 467
100 480
126 483
122 496
100 519
105 540
128 543
98 555
107 560 Dados eliminados
181 591 c=6
93 605
122 607
129 611
118 659
82 664
139 700
182 704
98 720
124 722
126 722

n = 22
65
2) Determinação da equação de regressão da amostra 1

yi xi y.x x2 ŷ ( y − yˆ )2 = (eˆ12 )
58 343 19.894 117.649 66,4 71,18
82 425 89,3 53,51
120 467 101,0 359,75
100 480 104,7 21,71
... ...
126 483 105,5 420,37
122 496 109,1 165,79
100 519 115,5 241,52
105 540 56.700 291.600 121,4 268,96
813 3.753 388.754 1.787.029 - 1.602,79 (SQR1)

n.(∑ x. y ) − (∑ x )(
. ∑ y) 8 × 388.754 − 813 × 3.753 58.843
b2 = = = = 0,279
( 2
)
n. ∑ x − (∑ x )
2
8 × 1.787.029 − 14.085.009 211.223

bˆ2 = 0,279

bˆ1 = 101,63 − 0,279 × 469,13 = −29,26

yˆ = −29,26 + 0,279.xi (Função de regressão da série 1)

3) Determinação da equação de regressão da amostra 2

y2 x2 y 2 .x2 x2 ŷ ( y − yˆ )2 = (eˆ22 )
129 611 78.819 373.321 116,8 147,79
118 659 121,8 14,34
82 664 1.624,25
139 700 168,74
... ...
182 704 ... 3.088,91
98 720 904,20
124 722 18,28
126 722 90.972 521.284 128,3 5,18
998 5.502 687.517 3.795.082 - 5.067,49 (SQR2)

8 × 687.517 − 998 × 5.502 9.140


bˆ2 = = = 0,103
8 × 3.795.082 − 30.272.004 88.652

bˆ1 = y − b2 .x = 124,75 − 0,103 × 687,75 = 53,91

66
yˆ 2 = 53,91 + 0,103.xi (Regressão da amostra 2)

4) Determinação dos graus de liberdade das amostras 1 e 2

g.l1 = 0,5.(n − c − 2k )

g.l1 = 0,5.(22 − 6 − 2 × 2 ) = 6

5) Determinação do F calculado:

SQR2 5.067,49
g.l 6 = 3,16
Fc = =
SQR1 1.602,79
g.l 6

Fc = 3,16

6) Comparação com o Fα (tabelado)

F0, 05 (6) = 4,28

. Conclusão:

Nota-se que Fc < Fα , o que sugere aceitar a hipótese H 0 , ou seja, a série de resíduos é
homoscedástica.

Hipóteses:
H 0 : a série de resíduos é homoscedástica
H1 : tal não ocorre

 Exemplo 29:

O par de valores abaixo mostra o consumo (Y) e renda (X). Aplicar o teste de Goldfeld-Quandt
e verificar se há presença de violação aos pressupostos básicos (heteroscedasticidade). Faça
α = 0,05 .

67
ti Yi Xi
t1 6 8
t2 7 10
t3 7 9
t4 8 11
t5 8 12
t6 9 12
t7 10 13
t8 10 14
t9 9 13
t10 8 9
t11 8 11
t12 11 16
t13 11 15
t14 13 17
t15 11 15
t16 12 18
t17 14 23
t18 12 22
t19 15 24
t20 18 19

 Exemplo 30:
Dentre os itens abaixo, identifique as premissas básicas para o modelo de regressão.
I. Linearidade do fenômeno medido.
II. Variancia não constante dos termos de erro (heteroscedasticidade).
III. Normalidade dos erros.
IV. Erros correlacionados.
V. Presença de colinearidade.

a) I e III;
b) II e III;
c) I,III e IV;
d) I,III e V;
e) I,II, III e V.

 Exemplo 31:
Heterocedasticidade refere-se à situação onde a variância dos erros é:
a) constante e igual a 1;
b) constante;
c) variável;
d) variável entre 0 e 1;
e) infinita sempre.
68
 Exemplo 32:
Após a estimativa de um modelo de regressão linear, foi constata a presença de
heterocedasticidade. Isto significa que os (as):
a) resíduos são auto-correlacionados;
b) resíduos somados não dão um resultado nulo;
c) desvios padrões dos resíduos não são constantes;
d) dados usados são transversais (cross-section);
e) variáveis independentes são fortemente correlacionadas.

 Exemplo 33:
Na estimativa de uma regressão linear, o problema da heterocedasticidade ocorre quando:
a) os dados são transversais;
b) há autorrelação dos resíduos;
c) há correlação positiva entre as variáveis independentes;
d) a variância dos erros não é constante;
e) as variáveis independentes são negativas.

Capítulo 7: AUTOCORRELAÇÃO OU CORRELAÇÃO SERIAL

7.1. NATUREZA DA AUTOCORRELAÇÃO

O termo autocorrelação numa série histórica de informações pode ser interpretado como sendo a
presença de correlação entre resíduos (êi ) de uma dada série temporal.

Por exemplo, se uma variável xt é sistematicamente correlacionada com a variável da época


imediatamente anterior xt −1 , dizemos que xt é uma variável autocorrelacionada e, nesse caso,
pode-se concluir que o valor da correlação entre as variáveis xt e xt −1 é diferente de zero.

7.2. PADRÕES GRÁFICOS DE AUTOCORRELAÇÃO

êi Fig. 1 êi Fig. 2

xt
xt

Presença de
Ausência de autocorrelação
autocorrelação

69
Autocorrelação Positiva

êi Fig. 3 êi Fig. 4

xt xt

Autocorrelação Negativa

êi Fig. 5 êi Fig. 6

xt xt

Geralmente uma autocorrelação costuma ser positiva, dado que a maioria das séries temporais
econômicas se move mais para cima do que para baixo por um período relativamente longo (como
o da fig. 3) e não de forma sistemática de curta duração (como o da fig. 5).

7.3. CAUSAS DA AUTOCORRELAÇÃO

a) Omissão de variáveis relevantes na especificação do modelo;

b) Escolha inadequada do modelo funcional, ou seja, as informações a serem analisadas podem


sugerir, a título de exemplo, a aplicação de um modelo exponencial ao invés de um modelo
quadrático.

7.4. CONSEQUÊNCIAS DA AUTOCORRELAÇÃO

a) Os parâmetros estimados (β1; β 2 ; etc.) podem não ser eficientes;

70
b) A estimativa do erro padrão pode apresentar-se viezada, ou seja, um valor que não reflete a
realidade, conduzindo os resultados dos testes e intervalos de confiança incoerentes.

7.5. DIAGNÓSTICO (IDENTIFICAÇÃO) DA AUTOCORRELAÇÃO

Para verificar a existência da autocorrelação, podemos recorrer ao teste de Durbin & Watson
mediante aplicação da equação abaixo:

∑ (eˆ − eˆ )
2
t t −1
dc = t =1
n (37)
∑ et2
t =1

êt = valor do resíduo na época t;


eˆt −1 = valor do resíduo na época imediatamente anterior

Devendo-se ressaltar que, quando a análise é feita com esta concepção, ou seja, considerando a
época imediatamente anterior, a autocorrelação é chamada de 1ª ordem (maioria dos casos).
Quando a análise da época não é a imediatamente anterior, diz-se que a autocorrelação é de
ordem superior.

O valor de d c é compreendido no intervalo 0 a 4, ou seja, (0 ≤ d c ≤ 4 ) .

- se d c = 0 indica ausência de autocorrelação


- se d c > 2 indica a presença de autocorrelação negativa
- se d c < 2 indica a presença de autocorrelação positiva

Para fazer o diagnóstico, o valor de d c (d calculado) é comparado com o valor tabelado de Durbin
& Watson, levando sempre em consideração o nível de significância α desejado e o número de
variáveis explicativas.

A tabela de Durbin/Watson apresenta suas limitações, pois não foi desenvolvida com base em
modelos funcionais, como é o caso da distribuição normal, razão pela qual existe um intervalo de
valores em que o teste de Durbin/Watson (d ) é inconclusivo. Nestes casos outros meios poderão
ser usados, como veremos mais à frente.

Na tabela de Durbin/Watson, os limites Di (inferior) e Du (superior), que passaremos a chamar de


d i e d S , respectivamente, são utilizados para testar a autocorrelação positiva (d < 2) , enquanto
que os limites (4 − d s ) e (4 − di ) para testar a autocorrelação negativa (d > 2 ) .

Assim, d i e d s são valores críticos da estatística de Durbin/Watson (tabelados).

71
 Realização do teste:

1) Quando a autocorrelação é positiva (d c < 2 ) .

1.1) Se d c < di → sugere presença de autocorrelação positiva (Região I do gráfico).

1.2) Se di < d c < d s → o teste é não conclusivo, ou seja, não podemos afirmar se a série é ou não
autocorrelacionada (Região II do gráfico).

1.3) Se d c > d s → ausência de autocorrelação (Região III).

2) Quando a autocorrelação é negativa (d c > 2) .

2.1) Se d c < (4 − d s ) → ausência de autocorrelação (Região III)

2.2) Se (4 − d s ) < d c < (4 − di ) → o teste é inconclusivo (Região IV)

2.3) Se d c > (4 − di ) → sugere presença de autocorrelação negativa (Região V).

(dc < 2)
(d c > 2)
Autocorrelação positiva
Autocorrelação negativa

(dc < 2) sugere presença


Pres. Não Ausência Não Pres.
AC (+) Conc. AC Conc. AC (-)
de autocorrelação positiva

Região Região Região Região Região


I II III IV V (dc < 2) sugere presença
de autocorrelação negativa

0
di ds 2 (4 − d s ) (4 − di ) 4

72
 Exemplo 34:
Verificar a existência de autocorrelação no par de valores referente a dados de consumo (Yi ) e
renda X i . O modelo funcional é linear. Faça α = 0,05 .
(1) (2) (3) (4) (5) (6) (7) (8)
ti Yi Xi ŷi êt eˆt − eˆt −1 (eˆt − eˆt −1 )
2
(eˆt )2
1 745 988 708,11 36,89 - - 1.360,87
2 652 812 648,97 3,03 -33,86 1.146,50 9,18
3 709 892 675,85 33,15 30,12 907,21 1.098,92
4 692 911 682,24 9,76 -23,38 547,09 95,26
5 668 904
6 671 920
7 698 934
8 661 956
9 685 959
... ... ... ... ...
10 675 966
11 673 989
12 693 997
13 748 1.011
14 740 997
15 715 999 711,80 3,20 -25,67 658,95 10,24
∑ 10.425 14.235 - - - 10.288,95 8.663,40

 Procedimentos operacionais:

a) Equação de regressão do consumo em função da renda.


yˆ = 376,14 + 0,336.xi

b) Valores ajustados com base na equação anterior.


Ver coluna (4) → ŷi

c) Valores residuais (êt ) → coluna (5)

d) Cálculo das diferenças sucessivas residuais da época t em relação à época imediatamente


anterior (t − 1) → eˆt − eˆt −1 . Coluna (6)

e) Soma dos quadrados das diferenças residuais. Coluna (7)


∑ (eˆ − eˆt −1 ) = 10.288,95
2
t

f) Soma dos quadrados dos resíduos eˆi2 . Coluna (8).


15

∑ eˆ
i =1
2
i = 8.663,40

g) Cálculo de d .

73
10.288,95
dc = = 1,1876 = 1,19
8.663,40

h) Comparar o valor de d c = 1,19 com o valor tabelado de Durbin/Watson, com α = 0,05 e com o
tamanho da amostra n = 15 para o exercício em questão e ainda considerando uma variável
explicativa, dado que a forma funcional é linear simples. Daí obtemos para d i = 1,08 e
d s = 1,36 .

Como o valor calculado de d (d c = 1,19 ) está entre os dois valores tabelados, ou seja,
1,08 < 1,19 < 1,36 , conclui-se que o resultado do teste é inconclusivo, o que significa que não
podemos afirmar se há ou não autocorrelação.

 Exemplo 35:

Uma amostra de 10 observações de um dado fenômeno foi ajustado a um modelo econométrico


contendo 2 variáveis explicativas. O valor obtido de d c = 1,17 . Verificar pelo teste DW se a série é
autocorrelacionada. Faça α = 0,05 .

 Solução:

n = 10 ; d c = 1,17 ; k = 2 ; α = 0,05

Verifica-se que d c < 2 , o que significa que a autocorrelação, se existir, será positiva. Como
d i < d c < d s (0,697 < 1,17 < 1,641) sugere inconclusão, não se podendo afirmar se é
autocorrelacionada ou não.

 Exemplo 36:

Com uma amostra de 80 observações foi estimada uma equação com três variáveis explicativas.
Considerando que o valor obtido para d c = 2,92 , testar a presença de autocorrelação pelo teste
de DW com α = 0,05 .

 Solução:

n = 80 ; d c = 2,92 ; k = 3 ; α = 0,05
Considerando a tabela, obtemos: d i = 1,56 ; d s = 1,715 .

Como d c > 2 , a autocorrelação é negativa.

4 − d s = 4 − 1,715 = 2,285

74
4 − d i = 4 − 1,56 = 2,44

Como d c = 2,92 é maior do que 4 − d i = 2,44 (d c > 4 − d i ) , pertence a região de aceitação da


hipótese da existência de autocorrelação (Região V) no gráfico ilustrativo, o que sugere a presença
de autocorrelação negativa.

 Exemplo 37:

São conhecidas as estatísticas:


a) Tamanho da amostra n = 50 observações;
b) Número de variáveis explicativas: k = 4 variáveis;
c) Nível de significância desejado α = 0,05 .

Testar a presença de autocorrelação para os valores de d c a seguir:


1) d c = 1,40
2) d c = 2,50
3) d c = 3,97
4) d c = 2,115

 Exemplo 38:

Verificar a existência de autocorrelação no par de valores abaixo. O modelo funcional é


linear.Faça α = 0,05

ti Yi Xi
t1 20 12
t2 26 13
t3 30 15
t4 28 18
t5 32 24
t6 30 30
t7 35 40
t8 48 64
t9 41 88
t10 50 96
∑ 330 400

75
7.6. MEDIDAS CORRETIVAS VISANDO A REMOÇÃO DA AUTOCORRELAÇÃO

Detectada a presença de autocorrelação é possível removê-la. Entretanto, a operação de remoção


deverá ser precedida de algum tipo de análise com o objetivo de verificar a sua causa. Por
exemplo, poderá ser ocasionada pela má especificação na formatação do modelo. Uma vez
detectada a causa, poderá ser corrigida com a inclusão de variáveis adicionais ou com a
substituição do modelo funcional. Se a causa é parte integrante do modelo estimado pelo
pesquisador, ela deverá ser removida.

Para melhor entendimento do problema, mostraremos, inicialmente, o desenvolvimento da


equação de Durbin/Watson (DW) para a obtenção do valor de d c .

 Desenvolvimento da equação de Durbin/Watson para obtenção do valor de d c .

Já vimos que:
n

∑ (eˆ − eˆt −1 )
2
t
dc = i =1

∑ (eˆ )
n
2
t
i =1
Desenvolvendo o numerador da equação, obtemos:

dc =
∑ (eˆ 2
t − 2.eˆt × eˆt −1 + eˆt2−1 )
∑ eˆt2

dc =
∑ eˆ 2
t − 2.∑ eˆt × eˆt −1 + ∑ eˆt2−1
(38)
∑ eˆt2
Se o tamanho da amostra da série sob estudo for relativamente grande, a diferença entre eˆt2 e
eˆt2−1 , segundo leis estatísticas, é muito pequena, podendo considerá-las como sendo iguais.

Aplicando esse princípio em (38), obtemos:

dc =
∑ eˆ 2
t − 2.∑ eˆt × eˆt −1
∑ eˆt2
Dividindo os dois membros do numerador por eˆt2 , obtemos:

 ∑ eˆt2 ∑ eˆt × eˆt −1 


dc = 2 ×  − 
 ∑ eˆ 2 ∑ t 
ˆ
e 2
 t

76
 ∑ eˆt × eˆt −1 
d c = 2 × 1 −  (39)

 ∑ eˆt2 

Sabe-se que a relação


∑ eˆ × eˆ
t t −1
é um estimador do coeficiente de correlação de erros, podendo
∑ eˆ 2
t

assim ser denominado de r . Assim, a equação (39) transformar-se-á em:

d c = 2 × (1 − r ) (40)

Esta equação também poderá ser usada para verificar a presença de autocorrelação. Por exemplo:

Se o valor de r = 0 , d c terá um valor próximo de 2, o que sugere ausência de autocorrelação.


Se r = (± 1) , ou no entorno desse valor, d c terá um valor próximo de zero, o que indica presença
de autocorrelação positiva.

Se r = (− 1) , ou próximo desse valor, d c terá um valor próximo de quatro, o que indica presença
de autocorrelação negativa, pois, conforme já foi visto, valores acima de 2 indicam autocorrelação
negativa e inferiores a 2 autocorrelação positiva.

Contudo, para verificação da existência de autocorrelação, DW desenvolveu uma tabela contendo


os valores críticos dos limites inferiores e limites superiores em função do número de observações
(n ) , número de variáveis explicativas (k ) e do nível de significância desejado (α ) , já do nosso
conhecimento e utilizados em exemplos anteriores.

Para a remoção da autocorrelação, tomaremos como base a equação (40) para estimar o valor de
r que nada mais é do que o estimador do coeficiente de correlação de erros, ou seja:
n

∑ eˆ × eˆt t −1
r= i =1
n

∑ eˆ
i =1
2
t

Efetuando-se os desenvolvimentos, obteremos o valor de d c = 2.(1 − r ) , colocando r em evidência


obtemos d c = 2 − 2r , dividindo ambos os membros por 2 obtemos:

d c 2 2r
= −
2 2 2

dc d
=1− r ∴ r =1− c (41)
2 2

77
Assim, conhecido o valor de d c , pode-se estimar o valor de r através da igualdade (41) acima e,
uma vez estimado r , podemos efetuar a correlação dos valores conhecidos das variáveis,
obtendo-se as variáveis transformadas.

Por exemplo: Se y é a variável dependente e x a variável explicativa e chamando yc e xc de


variáveis transformadas em função de r , temos:
yc ,t = yt − r × yt −1 (42)

xc ,t = xt − r × xt −1 (43)

Exemplo:

Suponhamos que: d c = 1,188 ; yt1 = 745 ; y = 652

O valor de y corrigido em t 2 será:

dc 1,188
r =1− =1− = 0,4060
2 2

yc , 2 = y2 − 0,4060 × 745

yc , 2 = 652 − 302,47

yc , 2 = 349,53
Procedimento idêntico deverá ser observado para as variáveis explicativas x .

 Exemplo 39:

No exemplo 34 da página 73 verificamos que o par de valores y e x eram autocorrelacionados e


concluímos, pelo teste de Durbin/Watson, que não podemos afirmar se há ou não autocorrelação
pois, segundo o teste, caiu na região de inconclusão.

78
Com base nos dados do mesmo exemplo 34, aplicar medidas corretivas junto às variáveis yi e xi e
verificar se a nova série permanece inconclusiva.
(1) (2) (3) (4) (5) (6) (7) (8) (9)
ti yi yc , t xt xc ,t (3) × (5) (5)2
yˆ c ,t eˆc ,t
1 745 - 988 - - - - -
2 652 349,53 812 410,87 143.611,39 168.814,16 347,04 2,48
3 709 444,29 892 562,33 409,82 34,47
4 692 404,15 911 548,85 404,23 -0,08
5 668 387,05 904 534,13 398,13 -11,08
6 671 399,79 920 552,97 405,06 -6,15
7 698 425,57 934 560,48 409,06 16,51
8 661 377,61 956 576,79 415,81 -38,20
... ...
9 685 416,63 959 570,86 413,36 3,97
10 675 396,89 966 576,65 415,76 -18,87
11 673 398,95 989 596,80 424,11 -25,16
12 693 419,76 997 595,47 423,56 -3,80
13 748 466,64 1.011 606,22 428,01 38,63
14 740 436,31 997 586,53 419,85 16,46
15 715 414,56 999 594,22 246.339,84 353.097,41 423,04 -8,48
∑ 10.425 5.737,73 - 7.873,17 3.239.285,87 4.457.939,38 - -

. Continuação da tabela:

(1) (10) (11) (12)


ti eˆc ,t i = eˆc ,t − eˆc ,t −1 (10) 2
(9)2
1 - - -
2 - - 6,15
3 31,99 1.023,36 1.188,18
4 -34,55 1.193,70 0,006
5 -11,00 121,00 122,77
6 4,93 24,30 37,82
7 22,66
8 -54,71
9 41,47
10 -22,14
... ...
11 -6,29
12 21,36
13 42,43
14 -22,17
15 -24,94 622,00 71,91
∑ - 11.488,60 5.936,10

 Desenvolvimento:

1) Valor de d já obtido anteriormente

d = 1,188 ≅ 1,19

79
2) Cálculo do valor de r

d 1,1876
r =1− ⇒ r =1− = 0,4060
2 2

3) Transformação da variável yt em yc ,t

yc ,t = y − r × yt −1 (coluna 3 da tabela)

yc ,t1 = 652 − 0,4060 × 745 = 349,53


...

yc ,t15 = 715 − 0,4060 × 740 = 414,56

4) Transformação da variável xt em xc ,t

xc ,t = xt − r × xt −1 (coluna 5 da tabela)
xc ,t1 = 812 − 0,4060 × 988 = 410,87
...

xc ,t15 = 999 − 0,4060 × 997 = 594,22

5) Determinação da função consumo, tendo por base os dados transformados (colunas 3 e 5)

n.∑ ( yc ,t × xc ,t ) − (∑ yc ,t )(
. ∑ xc ,t )
β2 =
n.∑ (xc ,t ) − (∑ xc ,t )
2 2

β 2 = 0,4145

β1 = yc ,t − xc ,t × β 2

β1 = 176,74

∴ yˆ c ,t = 176,74 + 0,4145.xc ,t

6) Ajustamento dos valores de yc ,t com base na função encontrada na questão anterior (coluna
8 da tabela)

yˆ c ,t 2 = 176,74 + 0,4145 × 410,87 = 347,04


80
OBS: reparar que a yˆ c ,t1 desaparece, pois t1 não existe mais.

yˆ c ,t15 = 176,74 + 0,4145 × 594,22 = 423,04

7) Determinação dos resíduos, efetuando-se a diferença entre os dados de yt (conhecido) e os


yˆ c ,t (ajustados), ou seja

eˆc ,t = yc ,t − yˆ c ,t

eˆc 2 ,t 2 = yc ,t 2 − yˆ c ,t 2 ⇒ 349,52 − 347,04 = 2,48


...

eˆc15 ,t15 = yc ,t15 − yˆ c ,t15 ⇒ 414,56 − 423,04 = −8,48

8) Determinação das diferenças sucessivas dos resíduos, ou seja, entre os resíduos da época t
pelas da época imediatamente anterior (t − 1) .

eˆc ,t = eˆc ,t − eˆc ,t −1 (coluna 10)

Observar que os resíduos da época t1 e t2 não existirão mais, iniciando-se pela época t3 .

eˆc ,t 3 = eˆc ,t 3 − eˆc ,t 2 ⇒ 34,47 − 2,48 = 31,98


...

eˆc ,t15 = eˆc ,t15 − eˆc ,t14 ⇒ −8,48 − 16,46 = −24,94

9) Determinação da soma dos quadrados das diferenças sucessivas residuais

∑ (eˆ − eˆc ,t −1 ) = 11.488,60 (coluna 11)


n
2
c ,t
i =1

10) Determinação da soma dos quadrados dos resíduos

∑ eˆ 2
c ,t = 5.936,10 (coluna 12)

81
11) Determinação do novo valor de d

∑ (eˆ − eˆ )
2
c , t −1 11.488,60
dc = c ,t
= = 1,94
∑ eˆ 2
c ,t 5.936,10

12) Consulta ao valor tabelado de d com: n = 14 ; α = 0,05 e k = 1

Encontramos d i = 1,045 e d s = 1,350 que são os intervalos críticos.

13) Comparação com o valor de d c = 1,94

Verifica-se que o valor calculado de d (d c = 1,94) é exterior aos intervalos críticos da tabela de
Durbin/Watson, cujos valores são, respectivamente, d i = 1,045 e d s = 1,350 .

Verifica-se também que o valor de d é menor que 2 (d < 2 ) , o que sugere, em princípio, que a
série é autocorrelacionada positivamente.

Contudo, como d c = 1,94 , ou seja, maior do que o d s = 1,350 , cai na Região III da ilustração gráfica,
o que sugere ausência de autocorrelação, significando que a autocorrelação foi removida.

Capítulo 8: UTILIZAÇÃO DE VARIÁVEIS ESPECIAIS

8.1. VARIÁVEIS DUMMY (DUMMIES, BINÁRIAS, ARTIFICIAIS, DICOTÔMICAS, ETC.)

Nos capítulos anteriores lidamos exclusivamente com variáveis que podíamos medir,
denominadas variáveis quantitativas como, por exemplo: nível de renda, variação salarial, taxa de
desemprego, etc.

Entretanto, algumas variáveis consideradas relevantes para fins de pesquisas não são numéricas,
elas são de natureza qualitativa, tais como: sexo, religião, nível de instrução, etc.

Em certos estudos, é fundamental o uso das variáveis qualitativas denominadas dummy (d ) na


análise de regressão, pois permite expandir os objetivos da mesma, de forma a levar em
consideração variáveis relevantes que não podem ser avaliadas em termos quantitativos. Com a
aplicação da variável (d ) é possível considerar os efeitos de natureza qualitativa que influenciam
os valores da variável dependente ( y ) .

A variável (d ) , para fins operacionais, assume dois valores: 1 (um), indicando uma situação e 0
(zero), a outra situação como, por exemplo:
82
1 = ocorrência de um evento e 0 = não ocorrência

Por ser uma variável qualitativa, tem como alguns de seus objetivos, na análise de regressão,
absorver os efeitos temporais, tais como: mudança nas políticas econômicas, efeitos decorrentes
de sexo, religião, nacionalidade, etc. conforme acima comentado.

8.2. INCORPORAÇÃO DA VARIÁVEL (d ) AO MODELO DE REGRESSÃO LINEAR

Pode ser incorporada de forma aditiva, multiplicativa ou mista (conjugação dos dois primeiros).

Abordaremos nesse módulo as formas aditiva e multiplicativa.

A) INCORPORAÇÃO DA VARIÁVEL d PELA FORMA ADITIVA

Quando os efeitos citados anteriormente alteram apenas o termo constante (intercepto), a


variável é incorporada aditivamente.

Assim, incorporando ao modelo de regressão uma variável qualitativa e chamando de d = 1 um


determinado período da série e d = 0 o outro período, cuja condição é normal, teremos na
equação geral de regressão a seguinte expressão:

y = β1 + β 2 .x1 + β 3 .x2 + e

Fazendo x2 = d , temos: y = β1 + β 2 .x1 + β 3 .d + e

Fazendo d = 0 , obtemos: y = β1 + β 2 .x1 + e

Fazendo d = 1 temos: y = β1 + β 2 .x1 + β 3 + e

Sabemos que β1 e β 3 são constantes e nessa condição temos: y = (β1 + β 3 ) + β 2 .x1 + e

Assim, chegamos a duas equações de regressão.

A primeira com base na condição d = 0 , obtendo-se y = β1 + β 2 .x1 + e e a segunda na condição


d = 1 , obtendo-se y = (β1 + β 3 ) + β 2 .x1 + e .

Verifica-se que quando d = 1 o valor do intercepto se modifica, passando a ser (β1 + β 3 ) e quando
d = 0 o intercepto não se altera.

83
Com a incorporação da variável (d ) ao modelo, criamos um deslocamento paralelo de (d ) que
pode ser para cima (forma aditiva) ou para baixo (forma subtrativa), conforme o valor de β 3
resulte de forma positiva ou negativa, respectivamente.

Um exemplo numérico poderá explicitar melhor.

 Exemplo 40:

Considere a série de valores, em milhões de dólares, referente ao gasto de um dado país com
esforço de guerra (Y ) e a renda nacional ( X ) . Introduzir a variável (d ) no período de t8 a t13,
considerado período de convulsão.

Mostrar o efeito causado pela interação da variável (d ) , pela forma aditiva, bem como a imagem
gráfica das duas equações de regressão.

ti Y X1 X2 = D y x1 d x. y d2 x.d y.d x2
1 2,6 2,4 0 -4,16 -4,44 -0,35 18,47 0,1225 1,554 1,456 19,714
2 3,0 2,8 0 -3,76 -4,04 -0,35 15,19 0,1225 1,41
3 3,6 3,1 0 -3,16 -3,74 -0,35 11,82 0,1225 1,31
4 3,7 3,4 0 -3,06 -3,44 -0,35 10,53 0,1225 1,20
5 3,8 3,9 0 -2,96 -2,94 -0,35 8,70 0,1225 1,03
6 4,1 4,0 0 -2,66 -2,84 -0,35 7,55 0,1225 0,99
7 4,4 4,2 0 -2,36 -2,64 -0,35 6,23 0,1225 0,92
8 7,1 5,1 1 0,34 -1,74 0,65 -0,59 0,4225 -1,13
9 8,0 6,3 1 1,24 -0,54 0,65 -0,67 0,4225 -0,35
10 8,9 8,1 1 2,14 1,26 0,65 2,70 0,4225 0,82
11 9,7 8,8 1 2,94 1,96 0,65 5,76 0,4225 1,27
12 10,2 9,6 1 3,44 2,76 0,65 9,49 0,4225 1,79
13 10,1 9,7 1 3,34 2,86 0,65 9,55 0,4225 1,86
14 7,9 9,6 0 1,14 2,76 -0,35 3,15 0,1225 -0,97
15 8,7 10,4 0 1,94 3,56 -0,35 6,91 0,1225 -1,25
16 9,1 12,0 0 2,34 5,16 -0,35 12,07 0,1225 -1,81
17 10,1 12,9 0 3,34 6,06 -0,35 20,24 0,1225 -2,12 -1,169 36,724
∑ 115 116,3 6 147,10 3,8825 6,52 13,425 193,76

OBS: Para a determinação dos parâmetros β1 , β 2 e β 3 , recomendamos inicialmente efetuar a


transformação das variáveis Υ , Χ1 e D em y , x1 e d , calculando-se os afastamentos em torno
da média de cada variável, ou seja:
y = Y −Y
x1 = X 1 − X 1
d = D−D

No exemplo: Y = 6,76 ; X 1 = 6,84 ; D = 0,35

84
Cálculo dos parâmetros:

b2 =
(∑ x . y ).(∑ d ) − (∑ x.d )(. ∑ y.d )
1
2

(∑ x ).(∑ d ) − (∑ x .d )
1
2 2
1
2

147,10 × 3,885 − 6,52 × 13,425 483,585


b2 = =
193,76 × 3,885 − (6,52 )
2
709,763

b2 = 0,68

( y.d ).(∑ x ) − (∑ x.d )(. ∑ x. y )


= ∑
2

(∑ x )(. ∑ d ) − (∑ x.d )
b3 2 2 2

13,425 × 193,76 − 6,52 × 13,425 1642,14


b3 = =
193,76 × 3,8825 − (6,52 )
2
709,763

b3 = 2,31

b1 = y − b2 .x1 − b3 .D

b1 = 6,76 − 0,68 × 6,84 − 2,31 × 0,35

b1 = 1,3

∴ yˆ = 1,3 + 0,68.x + 2,31.d

- Fazendo d = 0 , encontramos:

yˆ1 = 1,3 + 0,68.x (1)

- Para d = 1

yˆ 2 = 1,3 + 0,68.x + 2,31

yˆ 2 = (1,3 + 2,31) + 0,68.x

yˆ 2 = 3,61 + 0,68.x (2)

- Conclusão:

Para a época normal de paz, a equação de regressão é a (1), ou seja, yˆ1 = 1,3 + 0,68.x .
Para a época de guerra a equação de regressão é a (2), ou seja, yˆ1 = 3,61 + 0,68.x .

85
O efeito aditivo da interação é a diferença entre os interceptos de ŷ2 e ŷ1 , ou seja,
3,61 − 1,30 ⇒ 2,31 (milhões).

- Imagem gráfica:

12

yˆ 2 = 3,61 + 0,68.x
10
Efeito da interação (3,61 − 1,30 ) = 2,31

4
yˆ1 = 1,3 + 0,68.x
2

2 4 6 8 10 12

Na regressão (1) para x = 0 → yˆ1 = 1,3


x = 10 → yˆ1 = 8,1

Na regressão (2) para x = 0 → yˆ 2 = 3,61


x = 10 → yˆ 2 = 10,41

 Exemplo 41:

Considere o par de valores X e Y levantados durante 10 períodos. Introduzir a variável dummy


no período de t1 a t5 pela forma aditiva e avaliar o efeito da interação, retratando inclusive a sua
imagem no plano cartesiano.

ti Yi Xi
1 6 2
2 13 1
3 15 5
4 12 4
5 9 3
6 14 13
7 16 18
8 18 20
9 15 25
10 22 29
∑ 140 120

86
B) INCORPORAÇÃO DA VARIÁVEL (d ) PELA FORMA MULTIPLICATIVA

Geralmente, a incorporação da variável (d ) pela forma multiplicativa é utilizada quando ocorre


alguma mudança na capacidade de gerar efeito de uma ou mais variáveis explicativas do modelo.

Ex: Produção de um determinado bem agrícola em função da área plantada e da aplicação de


fertilizante ao solo.

Sabemos que a aplicação de fertilizante intensifica o efeito da área plantada, o que sugere a
introdução da variável (d ) multiplicativa para captar o efeito interativo das duas variáveis (área
plantada e aplicação de fertilizante).

O modelo de regressão poderá ser especificado da forma a seguir:

y = β1 + β 2 .x1 + β 3 .(x1.d )

Onde:

d = dummy d = 1 = se for utilizado fertilizante e


d = 0 = em caso contrário

O termo ( x1.d ) indica a mudança provocada pela influência de x1 após a aplicação de fertilizante.
Assim, se for aplicado fertilizante, temos d = 1 e teremos:

y = β1 + β 2 .x1 + β 3 .(x1.1) , o que implica em:

y = β1 + x1.(β 2 + β 3 )

Em caso contrário, ou seja, área não fertilizada, temos d = 0 .

y = β1 + β 2 .x1 + β 3 .(x1.0) , o que implica em:

y = β1 + β 2 .x1

Pode-se observar que o coeficiente angular β 2 se altera caso d = 1 , significando que o efeito
sobre a área plantada se intensifica com o emprego do fertilizante.

Resumindo: ( x1.d ) é uma variável interativa e (β 2 + β 3 ) é o efeito da interação.

O exemplo a seguir explicitará melhor.

87
 Exemplo 42:

Os dados a seguir referem-se a produção agrícola (Y ) , em milhões de toneladas, e a quantidade


de fertilizantes aplicados ( X ) , em toneladas, durante dez períodos consecutivos. Verificar o efeito
da aplicação de fertilizantes na produção agrícola com a introdução da variável dummy pela forma
multiplicativa, sabendo-se que o período da aplicação de fertilizantes foi durante a época t5 a t10.

Traçar a equação no plano cartesiano, ilustrando a imagem gráfica do efeito.

ti Y X D y x X .D = D' x. y d2 x.d y.d x2


1 9 8 0 -5 -1 0 5 32,49 5,7 28,5 1
2 8 7 0 -6 -2 0 12 32,49 11,4 34,2 4
3 11 8 0 -3 -1 0 3 32,49 5,7 17,1 1
4 13 10 0 -1 1 0 -1 32,49 -5,7 5,7 1
5 10 7 1 -4 -2 7 8 1,69 -2,6 -5,2 4
6 14 6 1 0 -3 6 0 0,09 -0,9 0 9
7 15 12 1 1 3 12 3 39,69 18,9 6,3 9
8 18 11 1 4 2 11 8 28,09 10,6 21,2 4
9 20 10 1 6 1 10 6 18,49 4,3 25,8 1
10 22 11 1 8 2 11 16 28,09 10,6 42,4 2
∑ 140 90 6 0 0 57 60 246,1 58 176 36
57
y = 14 X =9 D '= = 5,7 D'= X .D d = D'− D '
10

( x . y ).(∑ d ) − (∑ x .d )(. ∑ y.d )


= ∑ 1
2
1

(∑ x )(. ∑ d ) − (∑ x.d )
b2 2 2 2

b2 =
(60 × 246,1) − (58 × 176) = 4558 = 0,83
(36 × 246,1) − (58)2 5495,6

( y.d ).(∑ x ) − (∑ x.d )(. ∑ x. y )


= ∑
2

(∑ x )(. ∑ d ) − (∑ x.d )
b3 2 2 2

2856
b3 = = 0,52
5495,6

b1 = y − b2 .x − b3 .5,7

b1 = 14 − 0,83 × 9 − 0,52 × 5,7

b1 = 3,57

∴ yˆ = 3,57 + 0,83x + 0,52 x.d (geral)


variável de interação
d = 0 → yˆ = 3,57 + 0,83.x

88
d = 1 → yˆ = 3,57 + (0,83 + 0,52).x = 3,57 + 1,35.x
efeito da interação
- Imagem Gráfica

Com fertilizante

25 yˆ1 = 3,57 + 1,35.x


yˆ1 = 1,3 + 0,68.x Sem fertilizante

20

15 Efeito da interação

10
yˆ1 = 3,57 + 0,83.x
5

5 10 15 20 25

yˆ1 = 3,57 + 0,83.x

Para x = 0 → y1 = 3,57
x = 10 → y1 = 11,87

yˆ 2 = 3,57 + 1,35.x

Para x = 0 → y2 = 3,57
x = 10 → y2 = 17,1

89
 Exemplo 43:

Dado o par de valores xi e yi de tendência linear, aplicar a variável binária pela forma
multiplicativa. Introduzir a variável d nos 6 primeiros períodos da série.

ti Y X1 D′ D = X .D′ y x1 d x1. y x12 d2 x1.d y.d


1 5 12 1 12 -7 -4 2 28 16 4 -8 -14
2 6 15 1 15 -6 -1 5 6 1 25 -5 -30
3 7 22 1 22 -5 6 12 -30 36 144 72 -60
4 12 20 1 20 0 4 10 0 16 100 40 0
5 14 15 1 15 2 -1 5 -2 1 25 -5 10
6 10 16 1 16 -2 0 6 0 0 36 0 -12
7 15 19 0 0 3 3 -10 9 9 100 -30 -30
8 18 20 0 0 6 4 -10 24 16 100 -40 -60
9 13 12 0 0 1 -4 -10 -4 16 100 40 -10
10 20 9 0 0 8 -7 -10 -56 49 100 70 -80
∑ 120 160 - 100 0 0 0 -25 160 734 134 -286

Y = 12 y = Y − 12

X 1 = 16 x1 = X 1 − 16

D = 10 d = D − 10

− Estatísticas:

∑ x . y = −25
1 ∑ x .d = 134
1

∑x 2
1 = 160 ∑ y.d = −286
∑d 2
= 734

b2 =
(∑ x . y ).(∑ d ) − (∑ x .d )(. ∑ y.d )
1
2
1

(∑ x )(. ∑ d ) − (∑ x .d )
2
1
2
1
2

b2 =
(− 25 × 734) − 134 × (− 286) = 19.974 = 0,2
(160 × 734) − 1342 99.484

b3 =
(∑ y.d ).(∑ x ) − (∑ x.d )(. ∑ x. y )
2
1

(∑ x )(. ∑ d ) − (∑ x .d )
2
1
2
1
2

90
− 45.760 − 3.350 − 42.410
b3 = = = −0,43
99.484 99.484

bˆ1 = 12 − 0,2 × 16 − (− 0,43 × 10 ) = 13,1

yˆ = 13,1 + 0,2 x1 − 0,43 x1.d

− Para d = 0

yˆ1 = 13,1 + 0,2 x1 ( 1 )

− Para d = 1

yˆ 2 = 13,1 + 0,2 x1 − 0,43 x1

yˆ 2 = 13,1 + x1.(0,2 − 0,43)

yˆ 2 = 13,1 − 0,23 x1 ( 2 )

- Imagem gráfica:

20 (1)

15 α = efeito da interação (efeito subtrativo)

10
(2)
5

5 10 15 20

− Regressão (1)
yˆ1 = 13,1 + 0,2 x1 x = 0 → y1 = 13,1
x = 20 → y1 = 4,0 + 13,1 = 17,1

− Regressão (2)

91
yˆ 2 = 13,1 − 0,23 x1 x = 0 → y2 = 13,1
x = 20 → y2 = 8,5

 Exemplo 44:

Os dados abaixo referem-se a consumo de energia elétrica (Y ) , produção real ( X i ) e variável


dummy (D ) , levantados no horário de verão durante 10 anos (dados hipotéticos). Verificar o
efeito da variável (D ) pela forma multiplicativa.

ti Y Xi (D )
1990 7 8 0
1991 8 9 0
1992 8 8 0
1993 9 9 0
1994 9 9 0
1995 10 10 1
1996 10 12 1
1997 11 13 1
1998 12 15 1
1999 16 17 1
∑ 100 110 5

Capítulo 9: ANÁLISE DAS SÉRIES TEMPORAIS

9.1. INTRODUÇÃO

O objetivo deste módulo é fazer uma abordagem superficial sobre análise de uma série temporal,
não tendo como objetivo o aprofundamento teórico e operacional deste importante segmento da
estatística, em função da reduzida carga horária disponível.

9.2. CONCEITO DE SÉRIES TEMPORAIS


Uma série temporal é um conjunto de observações de um determinado fenômeno variável com o
tempo. Por exemplo, constituem séries temporais, os índices de preços mensais de um bem,
exportação brasileira de manufaturados no período de t1 a tn , etc.
Se representarmos os termos da série em um plano cartesiano, representado pelo eixo de
ordenadas (y) pelo eixo das abscissas (x), acompanhando os dados da série, obter-se-á uma
configuração como o da figura abaixo:
y

Figura 1

x 92
Onde y é uma variável função do tempo ∴ y = f(x)

Numa série temporal costumamos distinguir quatro componentes (tendência, variações sazonais;
variações cíclicas e variações aleatórias ou irregulares), cuja análise é importante para o perfeito
conhecimento do fenômeno representado pelos mesmos. Os componentes citados podem ser
definidos conforme abaixo:

a) Tendência

Também chamada de tendência secular ou movimento a longo prazo, pode ser conceituada como
sendo a função média de seu processo gerador, entendendo-se por processo gerador, ou processo
estocástico, uma família infinita de variáveis Xi (i= 0; ±1; ±2; ±3;......) tal que os diversos termos da
série são considerados como observações das variáveis aleatórias x1; x2; ......xn, , o que significa
dizer que X1 é uma observação de x1; X2 é uma observação de x2; Xn de xn......etc. Em outras
palavras, é a tendência provável do comportamento da série num intervalo de tempo
razoavelmente longo em relação a unidade de tempo considerada. Nota-se na figura 1 a provável
tendência crescente da série.

b) Variações sazonais ou estacionais

São flutuações que se verificam aproximadamente nas mesmas épocas de cada ano resultantes de
fenômenos cíclicos exteriores ao conjunto principal de causas que atuam sobre os termos da série.

São exemplos de variações sazonais: a venda de artigos para crianças na época natalina; índice de
precipitação pluviométrica acompanhada mensalmente numa determinada cidade num período
de cinco anos.

c) Variações cíclicas

Os movimentos cíclicos são formados por ciclos. Basicamente um ciclo consiste de um período de
expansão das atividades econômicas, seguidas de recessão, contração e recuperação que se
confunde com a fase de expansão do novo ciclo.
Na componente cíclica, o mais importante é o denominado ciclo de negócios que são tipos de
flutuações encontradas nas atividades econômicas agregada de nações que organizam seu
trabalho principalmente em empresas comerciais.

Os ciclos econômicos são tipos de flutuações que perduram por mais de um ano e tendem a se
repetir com certa regularidade.

O ciclo de negócios, por exemplo, costuma ter duração superior a um ano podendo alcançar até
10 a 12 anos. Em média, um ciclo costuma oscilar em torno de 4 anos.

93
d) Variações irregulares

São flutuações esporádicas da série ocasionadas por eventos inesperados.

São exemplos de variações irregulares: enchentes; greves; terremotos; incêndios, etc.. que afetam
a maioria das atividades produtivas dependendo da sua intensidade.

Este componente, face as suas características imprevisíveis, é de difícil análise.

Sob o ponto de vista econômico, é comum afirmar-se que a componente tendência , comentado
em a) e a componente sazonal comentado em (b) são as de maior relevância, ou seja, aquelas que
mais se sobressaem se comparadas com as outras componentes.

9.3. ANÁLISE DE UMA SÉRIE TEMPORAL

Já vimos que os principais componentes de uma série temporal podem ser: Tendência (T);
Variações estacionais (E); Variações cíclicas (C) e Variações irregulares (I).

Analisar uma série temporal consiste em investigar, utilizando-se de técnicas especiais, as


componentes T; E; C e I, podendo ser feito duas formas: por soma Y= T + E + C + I , ou por
multiplicação Y= T x E x C x I.

Na prática, o método a ser considerado depende da significância do sucesso alcançado com a


aplicação da hipótese.

Para melhor compreensão, daremos a sequencia normal dos procedimentos operacionais que
deverão ser adotados para analisar uma série temporal:

a. Preparar a série quando se tratar de valores monetários, deflacionando-a convenientemente


em relação a um ano ou período básico adequado, com vistas a eliminar as distorções
inflacionárias;

b. Traçar o gráfico conveniente (linhas ou curvas) , no plano cartesiano, dos valores


deflacionados para examinar a tendência provável da série;

c. Analisar a tendência da série baseado no exame anterior, utilizando-se dos procedimentos


explicitados na sequência

c.1. Processo gráfico, geométrico ou a mão livre:


Consiste em traçar sobre o gráfico da série estudada, curva que melhor representa a sua
tendência. A interpretação deste método é estritamente pessoal e não apresenta uma
justificativa teórica onde possa apoiar-se, portanto este método apresenta as suas falhas, razão
pela não será exemplificada.

94
c.2. Processo das semi-médias:
Consiste em dividir a série em duas partes aproximadamente iguais, determinando a média
aritmética de ambas. A seguir marcamos sobre o gráfico as duas médias obtidas. Ligando-a
convenientemente teremos a reta ajustada. (ver figura 2)

 Exemplo 45:

Considere a série de valores abaixo, já deflacionados. Avaliar a sua tendência pelo método das
semi-médias
TABELA 1

ANOS VALOR VALOR MÉDIO


t1 30
t2 36 33,3 ( x1 )
t3 40
t4 27
t5 46
t6 42 42,5 ( x2 )
t7 40
t8 42

Procedimentos:
- Dividir a série em dois subgrupos de tamanhos iguais;
- Tirar a Média do 1º grupo (t1 a t4) : x1 = 33,3
- Tirar a Média do 2ºgrupo (t5 a t8) : x2 = 42,5
- Traçar o gráfico no plano cartesiano
- Unir os dois pontos x1 e x2 obtendo-se assim a reta de tendência T.

(Figura 2)

R$

50
T
x2
45

40
x1

35

30
(ti )
t1 t2 t3 t4 t5 t6 t7 t8
95
O ponto xi poderá ser colocado entre o período t2 e t3 e o ponto x2 entre t6 e t7.
T= linha de tendência sugerida pelo método das semi-médias.

c.3) Processo das médias móveis


Consiste em calcular as médias sucessivas de igual número de termos denominado de “período”. A
série assim constituída caracteriza-se pela regularização ou suavização dos valores originais da
série eliminando em alguns casos a influencia das componentes cíclica e estacional.

Uma das inconveniências deste processo é a perda dos valores extremos da série de acordo com a
periodicidade adotada.

 Exemplo 46:

Construção de uma média móvel de ordem ou períiodicidade 2 e 3 do exemplo anterior.

TABELA 2

1 2 3 4
ANOS VALOR (R$) MÉDIA MÓVEL DE 2 ANOS MÉDIA MÓVEL DE 3 ANOS
y1 y2 (N=2) y3 (N=3)
t1 30
t2 36 33,0 35,7
t3 40 38,0 38,3
t4 37 38,5 41,1
t5 46 41,6 41,9
t6 42 44,0 42,9
t7 41 41,5 41,4
t8 42 41,5

Figura 3

96
Nota-se pela figura 3 que, com a aplicação das médias móveis, os dados originais sofrem processo
de suavização. A linha 1 (contínua), refere-se a dados originais e a linha 2 (tracejada) é o resultado
da aplicação da média móvel de periodicidade 2 (y2).

d. Determinação da equação de tendência pelo processo analitico


Consiste em analisar a série utilizando-se de conceitos matemáticos, sendo por esta razão
apresentar um bom índice de confiabilidade no estudo da tendência.
Basicamente neste processo poderá recorrer-se a três métodos para a caracterização da função
ajustante: método dos mínimos quadrados; método dos momentos e método da máxima
verossimilhança.
Para o presente caso, será adotado o método dos mínimos quadrados por ser de fácil
compreensão e de largo emprego na prática.

e. Ajuste da série
Consiste em promover o ajustamento da série observada, através de uma função que melhor
represente aqueles dados.

f. Obtenção do coeficiente de determinação (R2) ou poder explicativo da regressão


Tem por objetivo avaliar o nível de representatividade da variável explicativa x sobre a explicada y.

g. Estacionariedade da série
Significa verificar se a função valor médio e a função covariância são constantes ao longo do
tempo, ou seja: se E ( yt ) e v( yt ) são constantes para todo t, além de cov( yt ; yt − j ) = cov( yt ; yt + j )

 Exemplo 47:

Considere a série temporal de valores investidos em ativos fixos, em milhões de reais, no período
de 2000 a 2010
Tabela 3

(1) (2) (3) (4)


ANOS INVESTIMENTOS INFLAÇÃO INVESTIMENTOS
(a preços correntes) (deflacionados)
2000 28 96 29,2
2001 30 99 30,3
2002 32 100 32,0
2003 34 110 30,9
2004 49 128 38,3
2005 54 136 39,7
2006 56 150 37,3
2007 91 180 50,6
2008 99 185 53,5
2009 117 228 51,3
2010 140 286 50,0
97
Obter:

a) Equação de tendência pelo método analitico


b) O poder explicativo da regressão
c) Efetuar o teste de estacionariedade

 Solução:

Inicialmente devemos deflacionar os dados de investimentos, escolhendo-se um indicador


inflacionário e um ano base adequado, à escolha do pesquisador. Os dados inflacionários
hipotéticos são os que estão relacionados na coluna (3) da tabela 3.
Tomando-se como base o ano de 2002, obtemos na coluna (4) da tabela 3, os investimentos
deflacionados que servirão de base para o desenvolvimento das questões solicitadas.
Dando sequencia aos procedimentos, traçamos no plano cartesiano o gráfico evolutivo da série
deflacionada para verificar se sugere uma tendência linear (figura 4).

Figura 4

98
Nota-se pela figura 4, que a série de investimentos deflacionados sugere aplicação do modelo
linear, o que nos permite dar sequencia para obtenção da equação de tendência, com a utlização
de variáveis explicativas especiais, como representada na coluna 3 da tabela 4.

Tabela 4

(1) (2) (3) (4) (5) (6) (7) (8) (9)


ANOS INVEST (x1) X2 y.x ŷ ( yˆ − y )2 ( y − y )2 ( y − ŷ )2
(Y)
2000 29,2 -5 25 -146 27,1 174,2 123,2 4,4
2001 30,3 -4 16 -121,2 29,7 112,4 100,0 0,4
2002 32,0 -3 9 -96 32,4 62,4 68,9 0,2
2003 30,9 -2 4 -61,8 35,0 28,1 88,4 16,8
2004 38,3 -1 1 -38,3 37,7 6,8 4,0 0,4
2005 39,7 0 = = 40,3 0 0,4 0,4
2006 37,3 1 1 37,3 42,9 6,3 9,0 31,3
2007 50,6 2 4 101,2 45,6 28,1 106,1 25
2008 53,5 3 9 160,5 48,2 7,9 174,2 28
2009 51,3 4 16 205,2 50,9 62,4 121,0 0,2
2010 50,0 5 25 250,0 53,5 174,2 94,1 12,3
TOTAL 443,1 = 110 290,0 = 662,8 889,3 119,4

Desenvolvimento:

a) Determinação dos parâmetros intercepto (â) e angular (bˆ) com auxílio das equações normais,
pelo método dos minimos quadrados ordinários:

n(∑ xy ) − (∑ x )⋅ (∑ y )
bˆ =
( )
b ∑ x 2 − (∑ x )
2

aˆ = y − bˆ ⋅ x

bˆ =
(11⋅ 290) − 0 ⋅ 443,1 = 2,64
11 ⋅110 − 0 2

aˆ = 40,3 − 2,64 ⋅ 0 ∴ aˆ = 40,3

b) Equação de tendência:

yˆ = 40,3 + 2,64 xi

99
Para verificar o posicionamento da equação de tendencia no plano, basta substituir na função
yˆ = 40,3 + 2,64 xi atribuindo a x os valores -5 e 5 para os anos de 2000 e 2010 respectivamente,
obtendo-se assim, os extremos da função. (ver a representação na figura 4)

yˆ1 = 40,3 + 2,64 ⋅ (− 5) = 27,1

yˆ 2 = 40,3 + 2,64 ⋅ 5 = 53,5

Com base nessa equação, podemos efetuar previsões. No exemplo em questão, trata-se de
estimar os investimentos em ativos fixos para épocas futuras, bastando para tanto, multiplicar o
parâmetro angular da função pelo valor sequencial da variável especial xi, constante na coluna (3)
da tabela 4. Por exemplo, se quisermos estimar o investimento esperado para 2011, basta atribuir
a x o valor 6:

yˆ (2011) = 40,3 + 2,64 ⋅ xi

yˆ (2011) = 40,3 + 2,64 ⋅ 6

yˆ (2011) = 56,1

c) Determinação do poder explicativo da regressão (R2)

Essa medida, também denominada de coeficiente de determinação, tem como finalidade avaliar o
grau de dependência da variável endógena y em relação a variável independente x. Quanto maior
o valor de R2 melhor é a qualidade do ajuste. Por exemplo, se R2=0,75 indica que 75% da variável
y é explicada pela variável x, sugerindo portanto, uma boa qualidade do ajuste .

Expressão para cálculo:

∑ ( yˆ − y )
2

R 2
=
∑(y − y)
2

Onde: ŷ = dados ajustados pela função;


y = média aritmética da variável y;
Y = dados observados ou conhecidos de y.

662,8
R2 = = 0,75 ou 75%
889,3

O valor de R2 obtido sugere que a equação de tendência explica algo em torno de 75% o
comportamento da série.

100
d) Teste de estacionariedade

Ao analisar uma série temporal devemos verificar ainda se a mesma não apresenta sintomas de
tendenciosidade. Diz-se que uma série é estacionária quando não apresenta esse sintoma, ou seja,
quando sua média e sua variância são constantes ao longo do tempo, então:
E ( yi ) = constante para todo i
V ( yi ) = constante para todo i
cov( y ) = cov( y ) , significa que a covariância só depende do afastamento (distância) no tempo que
separa os dois valores e não do momento em que estamos no tempo.

Assim como existem séries estacionárias, vale lembrar que também existem séries não
estacionárias. Estes tipos de série são denominadas de “passeios aleatórios” (random walks),
dado que os pontos na linha do tempo passeiam vagarosamente para cima e para baixo, sem um
padrão definido.

Para avaliar a estacionariedade de uma série existem vários caminhos, tais como o teste de raiz
unitária. O teste da raiz unitária mais utilizado é o de Dickey-Fuller, que não será explicitado nessa
apostila.

Um outro teste comumente utilizado é o teste de Mann, objeto do nosso estudo. Assim, na tabela
5, a seguir, será aplicado esse teste. Observar, com cuidado, o significado de cada coluna.

Tabela 5

(1) (2) (3) (4) (5) (6)


ANOS ti r1 r2 Pi ωi
2000 1 2,1 -5,6 7 4
2001 2 0,6 -4,1 4 6
2002 3 -0,4 -3,5 11 0
2003 4 -4,1 -0,6 6 3
2004 5 0,6 -0,4 3 4
2005 6 -0,6 0,4 10 0
2006 7 -5,6 0,6 2 3
2007 8 5,0 0,6 5 2
2008 9 5,3 2,1 1 2
2009 10 0,4 5,0 8 1
2010 11 -3,5 5,3 9 0
∑ - - - - 25

Significado das colunas:

(2) ordenação unitária dos anos (ti)

101
(3) Residuos (ri) calculados com base na função de regressão já obtida.
r1= yi - ŷi (diferença entre os dados conhecidos e os dados ajustados pela função
yˆ = 40,3 + 2,64 xi
(4) ordenação dos resíduos de forma crescente (r2)
(5) enumeração dos resíduos já ordenados na posição em que se encontrava primitivamente (Pi).
Exemplo: o valor -5,6 estava posicionado em 2000, ou seja, na posição 7 ; -4,1 na posição 4 e
assim sucessivamente.
(6) refere-se ao número de elementos da série com valores superiores a cada Pi. Por exemplo:
valores superiores a P1=7 encontramos : (11,10,8 e 9), ou seja, 4 elementos. Etc.... (Pi)

Na sequencia , calculamos o valor de S pela expressão:


n(n − 1)
S = 2 ⋅ ∑ ωi −
2

11(11 − 1)
S = 2 ⋅ 25 −
2

S = 50 − 55 = −5

Para amostras superiores a 10 (n>10), partimos da hipótese de que a distribuição dos resíduos
(S ) é assintóticamente normal com média zero: E (S ) = 0 e desvio padrão
n(n − 1) ⋅ (2n + 5) n(n − 1) ⋅ (2n + 5)
σ (s ) = ou variância σ 2 (s ) =
18 18
Nesses casos recomenda-se ainda aplicar a correção de continuidade, adicionando-se uma
unidade ao resultado de S , quando esta for negativa e subtraindo-se 1 quando for positiva. No
exemplo : S = - 5 + 1= - 4 .

A seguir calculamos o desvio padrão pela expressão acima citada

n ⋅ (n − 1) ⋅ (2n + 5))
σ (S ) =
18

11 ⋅ (11 − 1) ⋅ (2 ⋅11 + 5)
σ (S ) = = 12,84
18

Conhecido o valor de σ (S), o próximo passo é determinar o valor de t calculado (tc)pela


expressão:

S −5
tc = = = −0,39
σ ( S ) 12,84

Este valor é comparado com o valor tabelado de t com nivel de confiança desejado. No presente
estudo foi adotado 95% (1,96). Vale lembrar que a estatistica t pode ser aproximada a distribuição

102
normal quando o tamanho da amostra n for relativamente grande. Assim, se o valor de tc estiver
compreendido no intervalo ±1,96, aceitamos a hipótese H0 de que a série é estacionária.

-1,96 ≤ tc ≤ 1,96 (série é estacionária)

No exemplo em estudo, nota-se que tc = - 0,39, portanto menor do que 1,96 estando
compreendido no intervalo citado, o que sugere que a série é estacionária.
A formulação das hipóteses no teste de Mann é:
H0: a série de resíduos é estacionária
H1: a série de resíduos apresenta tendência

Pelo resultado acima obtido, concluímos pela aceitação da hipótese nula ,.H0

Para amostras inferiores ou iguais a 10 (4 ≤ n ≤ 10), pode-se recorrer a tabela de Kendall.

Devido a exiguidade da carga horária, exercícios contendo aplicações dessa tabela não serão aqui
abordados.

Conforme comentado inicialmente, este tópico mostra de forma apenas superficial o problema
envolvendo séries temporais. A matéria sobre este assunto é muito mais abrangente, razão pela
qual, deixaremos de abordar uma série de tópicos inerentes a análise das séries temporais, tais
como: Modelos Autorregressivos (AR), Modelos de Média Móvel (MA); Modelo Autorregressivo e
Média Móvel (ARMA), que é a combinação de Média Móvel e Autorregressivo, Processo de
Periodicidades Ocultas, etc.

103
104
105
106
107
108
 BIBLIOGRAFIA:

 DAMODAR N. GUJARATI Econometria Básica, Makron Books Ltda., São Paulo


 HILL, R. CARTER Econometria, Saraiva, São Paulo, 1999
 KELEIJIAN, HARRY H. Introdução à Econometria: princípios e aplicações, Campus, Rio de
Janeiro
 SCHRÖDER, BRUNO Econometria para Concursos, Rio de Janeiro – Elsevier, 2012.

109

Você também pode gostar