Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila Econometria 2013 PDF
Apostila Econometria 2013 PDF
ECONOMETRIA
Prof. Helio Otsuka
Versão 2013
Sumário
. Capítulo 1: Introdução .............................................................................................................................. 1
Capítulo 1: INTRODUÇÃO
Uma imensa gama de relações teóricas existentes entre variáveis de natureza econômica podem
ser expressas e formuladas através de modelos matemáticos. Assim, nota-se que cada vez mais
estudiosos em economia se valem de metodologias estatísticas para estimar parâmetros
desconhecidos, testar hipóteses, efetuar simulações sobre as mais diversas relações entre
variáveis econômicas, visando efetuar previsões de caráter quantitativo de inúmeros eventos. É
exatamente nesse contexto que se torna imprescindível a efetiva participação da econometria
como ferramenta necessária na verificação, por exemplo, de teorias e políticas econômicas,
previsão de valores de variáveis de natureza econômica, influenciando sobremaneira na tomada
de decisões.
O objetivo dessa apostila é procurar transmitir aos estudantes de economia, de forma clara e
resumida, os principais conceitos que entendemos serem relevantes para a sua formação.
Assim, entendemos que o conteúdo programático apresentado na sequencia será suficiente para
dar uma ideia da importância do conhecimento de econometria como base na formação dos
futuros profissionais em economia.
Vale deixar aqui registrado, contudo, que a econometria, como também ocorre em outras
ciências, apresenta suas limitações, principalmente de natureza estatística e econômica.
1
− dificuldades na classificação de variáveis em endógenas e exógenas o que tornaria tendencioso
o efeito das mesmas;
Os problemas citados já vêm sendo analisados há algum tempo por econometristas, entretanto
alguns pontos não foram totalmente solucionados como o problema da multicolinearidade
(intercorrelação entre variáveis explicativas) e mensuração de variáveis subjetivas.
Para o aprendizado suave da matéria pressupõe-se que o alunado tenha algum conhecimento de
estatística básica e de inferência estatística.
− Análise da regressão linear múltipla, onde serão abordados todos os itens já comentados na
análise de regressão simples;
− Utilização de variáveis especiais como extensão dos modelos de regressão (variáveis dummy,
binária, artificial ou dicotômica); utilização da variável tempo como variável explicativa numa
série temporal de informações numéricas;
A econometria trata da mensuração das relações entre variáveis de natureza econômica com base
em ferramental estatístico e tem como alguns de seus objetivos a verificação empírica das leis e
das teorias econômicas, a avaliação das políticas econômicas, a previsão dos valores das variáveis
de natureza econômica, etc.
Alguns autores como Artur S. Goldberger, em seu livro “Econometric Theory”, define econometria
como a ciência social no qual o ferramental estatístico, tais como inferência estatística e a
estatística matemática, são aplicadas à análise dos fenômenos econômicos.
Um modelo é teórico quando expressam leis de natureza econômica sem conter necessariamente
tratamento estatístico; já os econométricos, contém necessariamente tratamento estatístico com
as devidas especificações como, por exemplo: a definição das variáveis, a forma funcional, o nº de
equações, etc. como veremos a seguir.
3
Os modelos podem ainda ser classificados quanto a sua forma funcional e quanto ao número de
equações:
y = β1 + β 2 .xi
y = a + bx + cx x
- Pluriequacionais: quando contêm pelo menos duas equações como, por exemplo, uma função
linear (1) e a função (2) onde x representa o resultado da diferença entre a função (1) e o
resultado dos investimentos (w)
y = β1 + β 2 .xi (1)
x = y − w (2)
Estruturalmente um modelo econométrico envolve quatro elementos básicos que são: Variáveis
(dependente e independente), Equações, Parâmetros ou Coeficientes (intercepto e o parâmetro
responsável pela declividade, além do termo aleatório ou perturbações).
Por exemplo: na estrutura de um modelo linear encontramos a variável dependente (ou endógena
ou explicada), a variável independente x (ou exógena ou explicativa), os parâmetros linear ou
intercepto β1 e o angular β 2 , conforme esquema a seguir, além do termo aleatório e .
y = β1 + β 2 .xi + e
Onde:
y = variável dependente β1 = parâmetro intercepto
4
xi = variável independente β 2 = parâmetro angular
e = termo aleatório
β1 e β 2 .xi
Cabe lembrar que o comportamento da economia resulta da interdependência de diversos fatores
e ao explicá-lo os economistas evitam a complexidade do mundo real através da construção de
modelos que apesar de retratarem de forma aproximada a realidade, destacando apenas os
elementos ou variáveis consideradas relevantes, permitem alcançar a essência do fenômeno em
questão. Apesar do avançado estágio em que se encontra a teoria econômica, ocorrem situações
onde a formulação das hipóteses do modelo e a identificação dos elementos relevantes é um
tanto arbitrária, não havendo garantias de que elas sejam realistas, portanto, é preciso verificar se
o modelo proposto é capaz de explicar o fenômeno a que se propõe.
Através do confronto do modelo com as observações do mundo real é que se pode concluir ou
não a validade do modelo. Um poderoso instrumento neste sentido são os modelos
econométricos analisados pela econometria, uma técnica que agrega a estatística, a matemática e
a teoria econômica.
O gerente de vendas de uma empresa varejista do ramo de calçados está interessado em obter
uma equação que sintetize a relação existente entre o investimento em propaganda e o volume
de vendas da empresa, com a finalidade de realizar projeções do volume de vendas.
6
Tabela 3.1 Dados de investimento em propaganda e vendas em milhares de reais da empreza Z.
60
Venda em milhares de reais
50
40
30
20
10
0
0 10 20 30 40 50
Investimento em propraganda milhares de Reais
A figura 3.1 apresenta um gráfico com os valores de uma amostra levantada pelo departamento
de vendas da empresa Z. O gráfico revela uma tendência de crescimento entre o volume de
vendas e o investimento em propaganda, ou seja, um incremento no investimento em propaganda
resulta em um aumento no volume de vendas.
7
60
Venda em milhares de reais
50
40
30
20
10
0
0 10 20 30 40 50
Investimento em propraganda milhares de Reais
Figura 3.2 Reta ajustada entre Volume de vendas e investimento com propaganda em milhares de
reais.
O exemplo anterior constitui uma aplicação de regressão linear simples, onde a relação existente
entre a variável dependente ou endógena (volume de vendas) e a variável independente ou
exógena (investimento em propaganda) é modelada através de uma reta ajustada aos dados
amostrais, conforme mostra a Figura 3.2
y = β1 + β 2 .xi + e (3)
O modelo é chamado de regressão linear simples porque há apenas uma variável econômica (x ) ,
no lado direito da equação. Quando houver mais de uma variável explicativa (x ) é chamada de
regressão múltipla. É chamado de linear porque a expectativa condicional de y é uma função
linear de x , ou seja:
E ( y x ) = β 1 + β 2 .x + e
O termo regressão mostra o efeito da variável explicativa x sobre a variável explicada y , através
das estimativas dos parâmetros β i .
Num modelo de regressão linear deverão ser considerados alguns pressupostos conforme abaixo:
a) O valor de y para cada valor de x é definido pela expressão acima (3), onde “ e ” é o erro ou
termo aleatório.
8
b) A esperança matemática do erro aleatório é igual a zero, pois admite-se que E ( y ) = β1 + β 2 .xi ,
donde se conclui que: E (e ) = 0 .
e) O Erro aleatório (e) segue distribuição normal com média igual a zero e variância constante;
OBS:
Significado do termo erro aleatório ou perturbação estocástica (e ) : resumidamente podemos
conceituar como sendo o substituto ou representante de todas as variáveis omitidas ou
desconsideradas que podem afetar a variável dependente y , mas que não estão no modelo de
regressão ou que não puderam ser incluídos no citados modelo.
O problema de regressão consiste em, dado o modelo teórico (como o linear, por exemplo),
estimar os parâmetros desconhecidos β1 e β 2 que são respectivamente os parâmetros intercepto
e o angular, com base nas informações amostrais de um dado fenômeno como, por exemplo,
despesas com alimentação e renda (no caso de uma regressão linear simples).
Apesar de existirem vários métodos para sua obtenção (polinômios ortogonais, máxima
verossimilhança, mínimos quadrados ordinários, etc.), o mais recomendado, por ser não
tendencioso, consistente, eficiente, de fácil obtenção e de maior confiabilidade, é o método dos
mínimos quadrados ordinários, que sugere como princípio que devemos obter uma reta tal que a
soma dos quadrados das distancias verticais de cada ponto à reta seja o menor possível ou em
outras palavras, que a soma dos quadrados das diferenças entre cada valor conhecido e ajustado
pela função ( ŷ ) seja o menor possível, isto é:
∑ ( y − yˆ ) = mínimo (4)
2
i =1
O valor do intercepto (β1 ) e o valor do parâmetro angular (β 2 ) dessa reta que melhor se ajusta
aos dados conhecidos ( y ) , pelo método dos mínimos quadrados ordinários (m.q.o.) são b1 e b2
que são as estimativas de β1 e β 2 do modelo linear simples: y = b1 + b2 .xi .
9
3.4. EQUAÇÕES NORMAIS (Equações simultâneas)
- Forma geral
∑ y = bi .n + b2 .∑ x
(5)
∑ xy = bi .∑ x + b2 .∑ x
2
- Forma reduzida
n.(∑ xy ) − (∑ x )(
. ∑ y)
b2 = (6)
( )
n. ∑ x 2 − (∑ x )
2
b1 = y − b2 .x (7)
As fórmulas (4), (5) e (6) e (7) são denominadas de estimadores de mínimos quadrados e são
utilizadas para estimar os parâmetros b1 e b2 da função.
Exemplo 1:
A tabela abaixo mostra a evolução da poupança pessoal ( y ) e renda pessoal ( x ) em unidades
monetárias (U.M.) por um período de 12 anos (Colunas (1), (2) e (3)). Pressupõe-se que a trajetória
das variáveis assume um comportamento linear.
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
Poupança Renda
Anos
(y) (x ) x. y x2 ŷ ( y − ŷ )2 (x − x )2 ( y − y )2 ( yˆ − y )2
1 6 8 48 64 6,15 0,023 49 16 14,82
2 7 8 56 64 6,15 0,723 49 9 14,82
3 6 9 54 81 6,70 0,490 36 16 10,89
4 8 11 88 121 7,80 0,040 16 4 4,84
5 9 12 108 144 8,35 0,422 9 1 2,72
6 10 13 130 169 8,90 1,210 4 0 1,21
7 9 14 126 196 9,45 0,202 1 1 0,30
8 9 16 144 256 10,55 2,402 1 1 0,30
9 11 18 198 324 11,65 0,422 9 1 2,72
10 12 20 240 400 12,75 0,002 25 4 7,56
11 15 11 165 121 13,85 1,322 49 25 14,82
12 18 29 522 841 17,70 0,090 196 64 59,29
∑ 120 180 2044 3144 - 7,911 444 142 134,29
10
Nota: as colunas (1) a (3) são dados informados e as colunas (4) a (10) são colunas auxiliares para
desenvolvimento das questões.
1) Estimar pelo método dos mínimos quadrados ordinários a equação da poupança em função
da renda;
2) Calcular e interpretar o resultado dos estimadores obtidos;
3) Estimar a poupança provável, se a renda pessoal num determinado ano for de 35 U.M.
10) Testar a hipótese da existência de regressão entre o par x e y (por Student e por Fische
Desenvolvimento:
n.(∑ xy ) − (∑ x )(
. ∑ y)
bˆ2 =
( )
n. ∑ x 2 − (∑ x )
2
yˆ = 1,75 + 0,55 x
Quanto ao estimador b̂2 , significa aumento de 0,55 na poupança pessoal ( y ) , quando a renda
pessoal ( x ) (parâmetro angular) aumentar de uma unidade monetária.
yˆ = 1,75 + 0,55 x
yest = 1,75 + 0,55 × 35 ∴ yest = 21 U.M.
O erro padrão da estimativa, geralmente representado por Sˆ y:x é calculado pela expressão:
∑ ( y − yˆ )
2
Sˆ y:x = (8)
n−k
Sendo:
y = dados conhecidos (coluna 2 da tabela)
ŷ = dados ajustados pela equação (coluna 6)
n = tamanho da amostra ( n = 12 )
k = número de parâmetros (intercepto + angular)
∑ ( y − yˆ )
2
7,911
Sˆ y:x = =∴ Sˆ y:x = 0,89
n−k 12 − 2
5) Intervalo de Predição (IP) para o valor estimado da poupança de 21 U.M.
O Intervalo de Predição (IP) nada mais é do que a margem de erro do valor estimado, o que sugere
diminuir e posteriormente somar ao valor estimado o erro padrão da estimativa, calculado na
questão anterior, ou seja, quanto menor o seu valor, menor é a margem de erro.
12
IP = VE ± Sˆ y:x
IP = (VE - Sˆ y:x ; VE + Sˆ y:x ) (9)
IP = 21 + 0,89
IP = (21 - 0,89 ; 21 + 0,89)
IP = (20,11 ; 21,89)
No caso da regressão linear simples, vimos que os estimadores são b̂1 e b̂2 , assim, temos:
Sˆb1 = Sˆ y:x .
∑x 2
(10)
n.∑ ( x − x )
2
Sˆ y:x
Sˆb2 = (11)
∑ (x − x )
2
Sˆb1 = Sˆ y:x .
∑x 2
(12)
n.∑ ( x − x )
2
3144
Sˆb1 = 0,89. ∴ Sˆb1 = 0,68
12 × 444
0,89
Sˆb1 = ∴ Sˆb2 = 0,042
444
13
7) Intervalo de confiança dos estimadores
A construção de um intervalo de confiança (IC) para um estimador tem como finalidade,
principalmente em econometria, medir o nível de precisão do citado estimador, ou seja, se há
sintomas de tendenciosidade.
− ( )
Valor do erro padrão dos estimadores Sˆb1 , conforme mencionado no item anterior;
− O nível de confiança α desejado na pesquisa, com base na distribuição t de Student;
− O número de graus de liberdade ( g.l. = n − k ) .
n = tamanho da amostra e k = número de parâmetros
Assim, observadas as condições acima, o intervalo de confiança de um dado estimador poderá ser
construído com base no modelo genérico a seguir:
1,75 − t0, 05 (12 − 2 ).0,68 < β1 < 1,75 + t0, 05 (12 − 2 ).0,68
0,23 < β1 < 3,27
O intervalo acima definido significa que existe a probabilidade 0,95 ou 95% de chance de que o
valor de β1 esteja entre 0,23 e 3,27.
O intervalo acima significa que existe a chance de 95% de que β 2 esteja entre 0,4564 e 0,644.
14
Expressão para cálculo:
R 2
=
∑ ( yˆ − y )2
(15)
∑ (y − y)
2
134,29
R2 = ∴ R 2 = 0,946 ou 94,6%
142
O resultado indica que 94,6% da variável y é explicada pela variável X, que sugere uma boa
qualidade do ajuste, pois quanto mais se aproximar de 100% ou de 1, melhor é a qualidade do
ajuste.
n.( x − x )
2
1
E = tα .Sˆ y 1 + + (16)
n n.∑ x 2 − (∑ x )2
Onde:
tα = distribuição t de Student com (n − k )g.l. , com α = 0,05 ou 95% ou outro nível qualquer
Ŝ y = erro padrão da estimativa
n = tamanho da amostra e k = nº de parâmetros da função sob análise
. As estatísticas acima são conhecidas:
tα (n − k ) = t0, 05 (10 ) = 2,228 (tabelado)
Sˆ y = 0,89
n = 12
x = variável explicativa utilizada na época ti para estimativa de y . No exemplo em questão
x = 35 U.M.
x = 15
∑x 2
= 3144
. Daí temos:
12.(35 − 15)
2
1
E = 2,228 × 0,89. 1 + +
12 12 × 3144 − 180 2
15
4800
E = 1,982. 1 + 0,083 +
5328
IP = VE ± E (17)
IP = (18,21;23,79)
Um recurso estatístico para se verificar a existência de regressão entre variáveis de uma dada
função é a aplicação do teste de hipóteses.
Existem inúmeras formas para efetuar o teste. Serão abordados, neste caso, o de Student e o de
Fisher/Snedecor, por serem os mais usuais.
bi − β i
tc = (18)
Sˆbi
Onde:
tc = t calculado
bi = parâmetros intercepto e angular
β i = hipótese a ser testada
Ŝbi = erro padrão dos estimadores
16
0,55 − 0
Assim: tc = ∴ tc = 13,09
0,042
H 0 = β 2 = 0 (ausência de regressão)
H1 = β 2 ≠ 0 (presença de regressão)
Comparamos tc com tα (n − k ) .
Se tc (calculado) for maior que tα (n − k ) (tabelado), ou seja, diferente de zero, significa presença
de regressão entre as variáveis x e y .
∑ ( yˆ − y ) k =1
2
(a)
regressão 1 a
Fc =
Devido a
∑ ( y − ŷ )
2
n − k −1 ∑ ( y − yˆ )2 (b)
b
resíduos n − k −1
Conforme visto no teste anterior por Student, as hipóteses deverão ser formuladas como se segue:
17
H 0 : ausência de regressão
H1 : presença de regressão
Fonte da Média
variação
∑ dos quadrados (g.l.) Quadrática
Fc
Regressão 134,29 1 134,29 134,29
= 169,75
Resíduos 7,911 12-1-1 = 10 0,79 0,79
Nota-se que Fc > F0, 05 (10 ) o que sugere rejeitar a hipótese H 0 , o que nos leva as seguintes
decisões:
18
Exemplo 2:
Com base nos dados de despesas com alimentação (y i ) e renda mensal (x i ), levantados durante 10
periodos consecutivos (t i ), desenvolver as questões 1 a 11. Os valores estão em unidades
monetárias (U.M.)
ti yi xi
1 5 10
2 6 15
3 8 17
4 12 20
5 13 25
6 10 20
7 12 22
8 18 30
9 13 25
10 18 26
∑ 115 210
3) Estimar, com base na equação obtida em (1), a despesa com alimentação ( y ) , sabendo-se
que a renda mensal ( x ) é de 30 U.M.;
5) Determinar o intervalo de predição com base nos resultados encontrados em (3) e (4);
19
Exemplo 3:
Anos yi xi
t1 74 145
t2 76 134
t3 81 117
t4 90 111
t5 94 109
t6 100 100
t7 103 137
t8 108 122
t9 113 85
t 10 115 90
2) Tendo por base a equação obtida em (1), estimar a demanda esperada em t 11 se a tarifa real
em t 1 for de 98;
7) Testar a hipótese da existência de regressão entre as duas variáveis (por Student e por
Fisher);
20
Exemplo 4:
Considere os dados amostrais de um estudo da relação entre o número de anos que os candidatos
a empregos em um determinado banco comercial estudaram inglês na faculdade e as notas
obtidas em um teste de proficiência nessa língua.
Número de anos (x) Nota do teste (y)
3 5,2
4 7,7
4 7,4
2 5,3
5 9,1
3 6,4
4 7,3
5 8,6
3 7,4
2 4,3
Exemplo 5:
Uma empresa, com a finalidade de determinar a relação entre gastos anuais com propaganda
(X), em R$1.000,00 e lucro anual (Y), em R$1.000,00, optou por utilizar o modelo linear
simples Yi = α + βX + ε i , em que Y i é o valor do lucro bruto auferidono ano i, X i é o valor
gasto com propaganda no ano i e ε , o erro aleatório com as respectivas hipóteses
consideradas para a regessão linear simples ( α e β são parâmetros desconhecidos).
Considerou, para o estudo, as seguintes informações referentes às observações nos últimos
10 anos da empresa
10 10 10
∑ Yi = 100 ;
i =1
∑ X i = 60 ;
i =1
∑XY
i =1
i i = 650 ;
10 10
∑ X i2 = 400 ;
i =1
∑Y
i =1
i
2
= 1080 ;
Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que,caso
haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro bruto anual, em mil
reais será de:
a) 84 b) 102,5 c) 121 d) 128,4 e) 158
Exemplo 6:
Utilizou-se um modelo de regressão linear para avaliar a relação entre o preço do litro da
gasolina e o do pretróleo Brent, ambos em reais, compreendendo o período de janeiro de 2002
a dezembro de 2006. Os resultados obtidos foram:
( ) ( )
60
1 60
∑ ∑
2 2
Yi − Y = 18; Yi − Yˆi = 0,052 e Fsig = 2,78 E − 4
i =1 58 i =1
21
Considere o quadro a seguir:
ANOVA
Soma dos Graus de Média dos F Fsig
quadrados liberdade quadrados
Modelo
(regressão)
Residual X Y
Total
4.1. INTRODUÇÃO
Já vimos que na regressão linear simples consideramos apenas uma variável econômica,
explicativa ou exógena, na parte direita da equação ( y = β1 + β 2 .x + e ) .
Na regressão múltipla são consideradas duas ou mais variáveis explicativas (xi ) , como por
exemplo: salário (x1 ) , renda de aluguel (x2 ) , renda de investimento (x3 ) , etc. que influenciam a
variável dependente yi .
22
Os estimadores da equação (20) são os bi (b1 , b2 , b3 ,..., bn ) e as estimativas desses estimadores são
os β i (β1 , β 2 , β 3 ,..., β n ) da equação (19).
O erro aleatório ou resíduo (e ) apontado nas duas equações é o resultado da diferença que
porventura venha a ocorrer entre os valores conhecidos y i e os valores esperados ou ajustados
pelo modelo ŷ i .
e = yi − yˆ i (resíduo)
yi = volume real de venda
ŷi = volume esperado de venda
Alguns outros fatores que poderiam influenciar no valor de (e ) , no caso da variável venda, são os
comportamentos dos concorrentes, fatores meteorológicos, etc. denominadas eventos de
natureza qualitativa, que veremos no capítulo 8.
Alguns pressupostos deverão ser considerados nos modelos de regressão múltipla, assim como
foram no modelo de regressão simples, tais como:
a) O valor de y para cada valor de x é definido por yi = β1 + β 2 .x1 + β 3 .x2 + ... + β n .xn −1
b) A esperança do erro aleatório E (e ) é igual a zero
c) A variância do erro aleatório V (e ) é igual a σ 2 , o que significa que variância do erro aleatório
é constante
d) O erro aleatório e tem distribuição normal cuja média é zero, E (e ) = 0, e variância igual a σ 2
finito e constante.
e) A covariância entre qualquer par de erros aleatórios e1 e e2 é igual à covariância do par y1 e
y2 que é igual à zero, ou seja: cov(e1 ; e2 ) = cov( y1 ; y2 ) = 0 , significando que os termos
aleatórios são independentes.
f) O valor esperado ou a esperança matemática da variável dependente y , E ( y ) , depende dos
valores das variáveis explicativas xi e dos parâmetros desconhecidos β i , ou seja:
E ( y ) = β1 + β 2 .x1 + β 3 .x2 + ... + β n .xn−1
Este teorema nos diz que se os estimadores de mínimos quadrados atenderem as hipóteses acima
relacionadas (letras “a” a “f”) serão os melhores estimadores lineares não-tendenciosos dos
parâmetros, ou seja, eles são BLUE (best linear unbiesed estimators) em um modelo de regressão
múltipla.
23
4.3. ESTIMAÇÃO DOS PARÂMETROS
Para a estimação dos parâmetros intercepto e angulares, podemos recorrer a dois caminhos.
a) Pela aplicação do princípio dos mínimos quadrados ordinários (conhecido como equações
normais), comentado no capítulo anterior;
A vantagem da aplicação da álgebra matricial sobre a escalar é que ela se aplica a uma, duas,
três ou qualquer número de varáveis, mas exigirá do estudante total intimidade com a álgebra
matricial.
Estimação dos parâmetros pela aplicação dos Mínimos Quadrados Ordinários (M.Q.O.)
Procedimentos operacionais:
Para valores de Yi ⇒ yi = Yi − Y
Para valores de X i ⇒ xi = X i − X
Este procedimento tem como finalidade facilitar os cálculos, pois operamos com valores
reduzidos de yi e xi .
b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2
(21)
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1
(22)
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
24
3º) Cálculo do estimador b1 (intercepto)
Para este cálculo utilizamos os valores já conhecidos de b2 e b3 além da média aritmética dos
valores reais de Yi e X i .
b1 = Y − b2 . X 1 − b3 . X 2 (23)
Representação:
yi = Yi − Yi ; x1 = X 1 − X 1 ; x2 = X 2 − X 2 ; etc.
Encontrados os estimadores b1 , b2 e b3 pelas equações (21), (22) e (23) para obter a equação de
regressão da variável dependente ( yi ) em função das variáveis explicativas (x1 ) e ( x2 ) , pelo
método dos mínimos quadrados ordinários, basta substituir no modelo de regressão múltipla
representado em (20) os parâmetros obtidos, ou seja:
yˆ = b1 + b2 .x1 + b3 .x2
Onde:
b1 obtido em (19)
b2 obtido em (17)
b3 obtido em (18)
25
Se forem conhecidos os valores de x1 e de x2 , poderemos estimar ŷ . Como b1 (intercepto) é
constante, basta multiplicar x1 e x2 por b2 e de b3 , respectivamente, e adicionar o valor constante
de b1 para termos o ŷ estimado.
Conforme já visto na regressão simples, o erro padrão da estimativa na regressão múltipla tem a
mesma finalidade, ou seja, avaliar a margem de erro (desvio padrão) do valor estimado, podendo
ser calculado pela expressão:
∑ ( y − yˆ )
2
Sˆ y:xi = ± (24)
n−k
Onde:
y = dados numéricos conhecidos
ŷ = dados ajustados pelo modelo
n = tamanho da amostra
k = número de parâmetros (intercepto + angulares)
Conhecido o valor estimado (VE ) , para determinarmos a margem de variação do citado valor
( )
basta subtrair e adicionar ao mesmo o erro padrão da estimativa Sˆ y:xi que nada mais é do que o
desvio padrão dos resíduos, conforme explicitado em (24).
Assim:
(
IP = VE ± Sˆ y:xi ) (25)
(
IP = VE − Sˆ y:xi ;VE + Sˆ y:xi )
Os estimadores b2 e b3 também devem ser analisados quanto a sua variabilidade, pois quanto
menor o erro, melhor será a qualidade do ajuste. A qualidade do ajuste, como veremos em 4.10, é
também denominada Coeficiente de Determinação.
26
Sˆ y:x
Sˆb2 = (26)
[∑ (x .x )] 2
∑x 2
− 1 2
∑x
1 2
2
Sˆ y:x
Sˆb3 = (27)
[∑ (x .x )] 2
∑x 2
− 1 2
∑x
2 2
1
Assim como calculamos o intervalo de predição do valor estimado, podemos também determinar
o intervalo de confiança dos estimadores com base no erro padrão e em função do nível de
significância desejado na distribuição tα de Student e tem como finalidade avaliar o nível de
precisão dos estimadores de fundamental importância para análise de regressão.
{
1 − α = P bi − tα (n − k ).Sˆbi ≤ β i ≤ bi + tα (n − k ).Sˆbi } (28)
Onde:
bi = estimadores (b2 ; b3 ;...)
tα (n − k ) = valor tabelado na distribuição t
α = nível de significância (0,01;0,05;...)
n = tamanho da amostra
k = número de parâmetros, inclusive intercepto
Ŝ b = erro padrão do estimador bi
i
27
O valor de R 2 , por ser uma proporção, estará compreendido entre 0 e 1 e quanto mais se
aproximar de 1, mais forte é a associação entre variáveis envolvidas na equação de regressão.
Costuma também ser apresentado em termos percentuais e, nesse caso, o campo de definição de
R 2 será de 0 a 100%, conforme já comentado no capítulo anterior.
O teste de hipóteses pode ser aplicado à análise de regressão com o objetivo de verificar a
existência de regressão entre variáveis x e y no caso de uma regressão simples, conforme já
visto no capítulo anterior. No caso de uma regressão múltipla, o teste pode ser utilizado para
verificar a influência das variáveis explicativas x1 e x2 sobre a explicada y .
Os procedimentos operacionais para a realização dos testes seguem os mesmos critérios aos já
explicitados para a regressão simples, o que torna desnecessária a sua repetição. Os detalhes, se
houverem, são mínimos e de fácil entendimento.
Exemplo 6:
Desenvolver as questões:
2) Com base na equação da demanda obtida, estimar a demanda provável quando a tarifa real
média (x1 ) for de 87 e o produto real ( x2 ) for de 105;
Desenvolvimento:
1.1) Estimador β 2
β 2 = b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
b2 =
(− 1922 × 906) − (− 880 × 1345) = − 557.732
(3388 × 906) − (− 880)2 2.295.128
b2 = −0,243
1.2) Estimador β 3
β 3 = b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
b3 =
(1345 × 3388) − (− 880 × 1922) = 2.865.500
(3388 × 906) − (− 880)2 2.295.128
b3 = 1,249
1.3) Estimador β1
β1 = b1 = y − b2 .x1 − b3 .x2
b1 = 4,29
29
A equação da demanda será então:
yˆ (est ) = 114,3
3) Intervalo de predição
∑ ( y − yˆ )
2
170,86
Sˆ y = =
n−k 10 − 2
Sˆ y = 4,66
VE ± Sˆ y
114,3 ± 4,66
109,64 < IP < 118,96
4) Coeficiente de determinação
∑ ( yˆ − y )
2
1924,13
R 2
= = = 0,84
∑ (y − y)
2
2282
30
5) Estatística F (ou teste F)
Pode ser obtido pelo quadro da análise da variância (ANOVA – Analisys of Variance)
Quadro ANOVA
Fonte de Soma dos Graus de Média E
Variação quadrados liberdade quadrática
∑ ( yˆ − y )2
Regressão ∑ ( yˆ − y )
2
k SR =
2
k S R2
E= 2
∑ ( y − yˆ )
2
SE
Resíduos ∑ ( y − ŷ ) n − k −1
2
S E2 =
n − k −1
S R2 = variância explicada ou variância da regressão
S E2 = variância residual
k = número de variáveis explicativas
Fonte de Média E
∑ dos quadrados g.l.
Variação quadrática
Regressão 1924,13 2 S R2 = 962,07 962,07
E= = 38,73
Resíduos 173,86 10 − 2 − 1 S = 24,84
2
E
24,84
Logo,
No caso de regressão múltipla, ou seja, duas ou mais variáveis explicativas, a formulação das
hipóteses pode ser feita conforme abaixo:
H 0 :b 2 = b3 = 0 (ausência de efeito)
H 1 :b 2 ≠ b3 ≠ 0 (presença de efeito)
Se Fc > Fα (n − k − 1) , rejeitamos H 0
Fc < Fα (n − k − 1) , aceitamos H 0
31
F0, 05 (7 ) = 4,74 (na distribuição F, deve-se observar que o g.l. é igual a 2 no numerador e 7 no
denominador.
Como Fc = 38,73 > F0, 05 = 4,74 , devemos rejeitar a hipótese H 0 , o que sugere que pelo menos
uma das variáveis explicativas x1 ou x2 exerce influência significativa sobre a variável dependente
y , com probabilidade de erro 5%.
bi − β i
Sabe-se que: tc =
Sˆbi
Sˆ y 4,66
Sˆb2 = = = 0,093
(∑ x .x ) 2
(− 880)2
∑x 2
−
1 2 3388 −
∑x
1 2
2
906
− 0,243 − 0
tc = = −2,62
0,093
t c = 2,62
Como t c > tα (2,62 > 2,3646 ) , rejeitamos H 0 , o que sugere a presença de efeito negativo da
variável x sobre y .
H 0 :β 3= 0 (ausência de efeito)
H 1 :β 3> 0 (presença de efeito positivo)
32
Sˆ y = 4,66 ; t 0, 05 (7 ) = 2,3646
Sˆ y 4,66
Sˆb3 = = = 0,179
(∑ x .x ) 2
(− 880 )
2
∑x − 2 1 2 906 −
∑x
2 2 3388
1
1,249 − 0
tc = = 6,977
0,179
Verifica-se que t c > tα (6,977 > 2,3646) , o que sugere rejeitar a hipótese H 0 , significando a
presença de efeito positivo da variável explicativa x2 (produto real) sobre a demanda y .
Exemplo 7:
Pedidos:
3) Estimar o investimento esperado quando o lucro esperado for 90 e o estoque de capital for
12;
33
4) Obter o intervalo de predição ou previsão do valor estimado em (3), com base no erro padrão
da estimativa;
Desenvolvimento:
1) Função Investimento
Y =5 X 1 = 69 X2 = 6
∑ x1. y = 232 ∑ x12 = 706
∑ x . y = 100
2 ∑ x = 118
2
2
∑ x .x = 2747 ∑ (x .x ) = 75076
2
1 2 1 2
yi = Y − Y xi = X 1 − X 1 x2 = X 2,i − X 2
b2 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
1
2
2 1 2 2
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
b2 =
(232 ×118) − (274 ×100) = − 24 = −0,003
(706 ×118) − 75076 8232
b2 = −0,003
b3 =
(∑ x . y ).(∑ x ) − (∑ x .x )(. ∑ x . y )
2
2
1 1 2 1
(∑ x )(. ∑ x ) − (∑ x .x )
2
1
2
2 1 2
2
34
b3 =
(100 × 706) − (274 × 232) = 7032 = 0,85 ; b3 = 0,85
(706 × 118) − 75076 8232
b1 = y − b2 .x1 − b3 .x2
b1 = 5 − (− 0,21) − 5,10
b1 = 0,11
2.1) O valor 0,11 do intercepto significa que se o lucro esperado ( X 1 ) e o estoque de capital
desejado ( X 2 ) forem zero, o investimento seria de R$0,11.
2.2) A variável explicativa X 1 (lucro esperado) sendo negativa, um aumento de R$1,00 no lucro
esperado acarreta um decréscimo de R$0,003 no investimento.
2.3) A variável explicativa X 2 (estoque de capital desejado) sendo positiva, significa que um
aumento de R$1,00 nessa variável acarreta um aumento de R$0,85 no investimento.
3) Investimento esperado
yˆ (esperado ) = R$10,04
Sˆ y =
∑ ( y − yˆ )2
IP = VE ± Sˆ y
n−k
∑ ( y − yˆ ) = 5,98 ; n = 15 ; k =3
2
5,98
Sˆ y = = 0,71
15 − 3
35
Sˆ y = 0,71
IP = VE − Sˆ y < IP < VE + Sˆ y
5.1) Intervalo de β 2 = b2
Calculamos inicialmente o erro padrão de β 2
Sˆ y
Sˆ β 2 = ∑x
2
= 706 ; ∑x 2
= 118
(∑ x1 .x2 )
2 1 2
∑ x1 −
2
∑ x22
0,71
Sˆ β 2 = = 0,085
706 −
(274 )
2
118
Sˆ β 2 = 0,085
( )
1 − P = P bi − tα (n − k ).Sˆ βi ≤ β i ≤ bi + tα (n − k ).Sˆ βi
O resultado significa que existe uma probabilidade de 0,95 de que o estimador β 2 esteja entre
− 0,1882 e 0,1822 .
5.2) Intervalo de β 3 .
Cálculo inicial de erro padrão de β 3
36
Sˆ y
Sˆb3 =
(∑ x .x ) 2
∑x − 2 1 2
∑x
2 2
1
Estatísticas:
∑ x22 = 118 (∑ x .x ) 1 2
2
= 274 2 = 75.076
Sˆ y = 0,71 ∑x 2
1 = 706
0,71 0,71
Sˆb3 = =
75.076 11,66
118 −
706
Sˆb3 = 0,21
( )
1 − P = P b3 − tα (n − k ).Sˆ β3 ≤ β 3 ≤ b3 + tα (n − k ).Sˆ β3
Sabemos que:
O intervalo encontrado de β 3 sugere que existe uma probabilidade de 0,95 de que β 3 esteja
entre 0,39 e 1,31 .
6) Qualidade do ajuste
∑ ( yˆ − y )
2
R 2
=
∑(y − y)
2
Onde: 0 ≤ R 2 ≤ 1 ou 0 ≤ R 2 ≤ 100%
84,67
R2 = ∴ R 2 = 0,94 ou 94%
90
∑ ( yˆ − y ) = 84,67 ; n = 15 (amostra)
2
Fonte de Média
∑ dos quadrados g.l. Fc
Variação quadrática
Regressão 84,67 2 42,34 42,34
Fc = = 170,48
Resíduos 5,98 15 − 2 − 1 0,25 0,25
Hipóteses:
H 0 :b 2 = b3 = 0 (ausência de efeito)
H 1 :b 2 ≠ b3 ≠ 0 (presença de efeito)
Conclusão:
Como Fc > Fα rejeitamos a hipótese H 0 , o que sugere que pelo menos uma das variáveis
explicativas exerce efeito sobre a variável Y . Com a probabilidade de 95% de que a assertiva
esteja correta.
38
H 0 : b2 = 0 (ausência de influência)
H 1 : b2 ≠ 0 (presença de influência)
bi − β i
tc = (Geral)
Sˆ
bi
b2 − β 2 0,003 − 0
tc = = = 0,035
Sˆb2 0,085
t c = 0,035
0,85 − 0
tc = = 4,04
0,21
t c = 4,04
t 0, 05 (12 ) = 2,1788
Verifica-se que t c > tα , o que sugere rejeitar a hipótese H 0 , ou seja, a variável estoque de capital
( X 2 ) exerce influência positiva sobre os investimentos.
Nota-se pelo teste t que apenas β 3 exerce influência sobre a variável y .
39
Exemplo 8:
A tabela abaixo representa as observações semanais sobre receitas (Yi ) , em R$1000,00, sobre
preço de venda ( X 1 ) , em R$1,00, e gastos com propaganda ( X 2 ) , em R$1000,00, durante 12
semanas para uma cadeia de lanchonetes.
ti Yi X1 X2
1 120 2,0 10
2 122 2,0 8
3 90 1,5 23
4 123 2,0 11
5 122 2,0 10
6 108 2,5 6
7 150 2,5 18
8 90 1,8 19
9 140 2,5 21
10 125 1,2 18
11 110 1,8 16
12 116 2,2 20
∑ 1416 24 180
- Desenvolver:
Exemplo 9:
Dez pessoas sadias entre 20 e 40 anos, do sexo masculino, foram submetidas a um teste de
avaliação física, quanto ao peso total (Yi ) , peso magro ( X 1 ) e as calorias diárias ingeridas ( X 2 ) ,
como se segue:
40
Yi X1 X2
77 52 2.000
62 42 1.600
65 45 1.800
76 51 2.000
74 45 1.800
61 41 1.600
64 42 1.700
61 41 1.500
67 47 1.600
63 44 1.400
Exemplo 10:
C) Com relação a regressão linear múltipla, a variável dependente y deve variar linearmente com
o conjunto de variáveis x i e não com cada uma destas;
E) Numa análise de regressão, o termo erro aleatório ou perturbação estocástica (e), nada mais é
do que o representante de todas as variáveis omitidas que podem eventualmente afetar a
variável endógena, mas que não puderam ser incluídas no modelo.
41
Estão corretas as afirmativas:
a) A e B b) C e D c)A e E d) B eE e) A,B e E
Exemplo 11:
B) Quando comparados com a regressão linear simples, os resíduos são sempre menores;
C) A variável y dependente deve variar linearmente com o conjunto de variáveis x i e não com
cada uma delas;
Exemplo 12:
42
Exemplo 13:
d) Num modelo de regressão linear deverão ser levados em consideração alguns pressupostos
básicos, como por exemplo: “A covariância entre qualquer par de erros aleatórios e 1 e e 2 é
sempre diferente da covariância do par y e y 2 que é igual a unidade”
Exemplo 14:
Uma série temporal de 15 termos foi ajustada a uma função do tipo y = β1 + β 2 .x + µ , tendo sido
encontradas as seguintes estatísticas de avaliação:
a) yˆ = 4,5 + 1,8 x
b) Sˆb 2 = 0,696
c) ∑ ( yˆ − y ) = 113,4
2
d) ∑(y − y) = 300
2
e) ∑ ( y − yˆ ) = 186,6
2
14.1. Determinando o intervalo de confiança com o estimador β 2 , com α = 0,05 , encontramos ...
a) 0,316 ≤ β 2 ≤ 3,283
b) 0,307 ≤ β 2 ≤ 3,292
c) 0,302 ≤ β 2 ≤ 5,983
43
d) 2,996 ≤ β 2 ≤ 6,003
e) 0,296 ≤ β 2 ≤ 3,303
14.3. Testando a hipótese quanto a ausencia ou a presença de regressão da função yˆ = 4,5 + 1,8 x
pelo teste F, com base em ANOVA, obtemos para F 0 (calculado) o valor de .......; e assim podemos
concluir que .....
e) N.R.A
Exemplo 15:
Qual das afirmações abaixo faz referencia correta ao modelo de regressão linear simples?
a) Toda regressão apresenta heterocedasticidade.
b) Se a variância é constante, os dados são homocedásticos.
c) O intercepto α representa a inclinação da reta de regressão.
d) Os erros do modelo não são aleatórios, com a esperança igual a 1.
e) A constante α é sempre positiva.
Exemplo 16 :
Suponha que o custo de produção de energia por kilowatt/hora(Y) seja uma função linear do fator
de carga (X1), em % e do custo do carvão (XZ) em centavos de dólar por milhão de Btu. Assumindo
normalidade dos dados, um modelo de regressão linear múltipla foi adotado para uma amostra de
tamanho 12.
TABELA ANOVA
FV Graus de Soma dos Média dos F F de significação
liberdade quadrados quadrados
Regressão 31,15 9,02E-05
Residuo 0,6
Total
Capítulo 5: CORRELAÇÃO
Quando a avaliação é feita entre três ou mais variáveis é chamada de múltipla como, por exemplo,
temperatura, umidade, índice pluviométrico, patrimônio, faturamento, vendas, etc...Os princípios
básicos que regem os problemas da correlação múltipla são semelhantes aos da correlação
simples.
Quando é feita entre três ou mais variáveis permanecendo fixa (constante), as demais variáveis do
conjunto observado é chamada de parcial. Dessa forma, a correlação parcial estima a relação
funcional entre a variável dependente e outras variáveis independentes.
No nosso curso, serão detalhadas apenas a avaliação e interpretação da correlação simples.
( x )(. y )
∑ xy − ∑ n ∑
r= (30)
x − (∑ x ) . y − (∑ y )
2 2
∑ ∑
2 2
n n
Outra forma de cálculo:
r=
∑ [(x − x )(. y − y )] (31)
n ×σ x ×σ y
Onde:
x e y = variáveis sob análise
σ x e σ y = desvios padrão das variáveis x e y
n = tamanho amostral
Quando r é positivo significa que as duas variáveis em estudo ( x e y ), por exemplo, crescem ou
decrescem no mesmo sentido.
Quando r é negativo significa que as duas variáveis em análise seguem sentidos inversos, ou seja,
quando os valores de x evoluem crescentemente, os de y tendem a evoluir decrescentemente e
vice-versa.
46
Genericamente, a interpretação do valor de r pode ser obtida com base na tabela seguinte:
r (± ) Correlação
0 Nula
0,00 0,30 Fraca
0,30 0,60 Média
0,60 0,90 Forte
0,90 0,99 Fortíssima
1 Máxima
O domínio de r é portanto:
− 1 ≤ r ≤ +1
Depreende-se pela tabela de avaliação que quanto mais próximo for o valor de r de 1 ou -1, mais
acentuado é o inter-relacionamento entre as variáveis ( x e y ). Ressalve-se que tais valores são
arbitrários , razão pela qual deverão ser usados apenas para se ter uma idéia da magnitude da
correlação e não como medida decisória.
y y
y y
r =0
x x
(correlação nula) (circular)
47
r = +1 r = −1
Vale deixar registrado que existe uma diferença entre correlação e regressão. Como já vimos, a
correlação mede o grau de inter-relacionamento ou associação entre variáveis, ao passo que a
regressão mostra o efeito da variável explicativa xi sobre a variável explicada yi . Se analisarmos
os dois procedimentos, podemos sugerir que a análise de regressão apresenta algumas vantagens
em relação à análise de correlação, quais sejam:
- Os parâmetros intercepto e angular podem ser estimados e utilizados para fins de previsão.
Exemplo 18:
ti y (1000kw) x x. y y2 x2 (x − x ) ( y − y ) a×b a2 b2
1 30 4 120 900 16 -2 8 -16 4 64
2 28 4 112 784 16 -2 6 -12 4 36
3 24 3 -3 2 -6 9 4
4 23 5 -1 1 -1 1 1
5 22 5 -1 0 0 1 0
6 22 5 ... ... ... -1 0 0 1 0
7 20 6 0 -2 0 0 4
8 18 8 2 -4 -8 4 16
9 18 9 3 -4 -12 9 16
10 15 11 165 225 121 5 -7 -35 25 49
∑ 220 60 1230 5030 418 0 0 -90 58 190
48
Perguntas:
Desenvolvimento:
1) Cálculo de r
n
∑ n
2
60 × 220
1230 −
r= 10
3600 48400
418 − . 5030 −
10 10
r = −0,86
r=
∑ [(x − x )(. y − y )]
n ×σ x ×σ y
− 90
r=
10 × 4,359 × 2,408
r = −0,86
. Interpretação:
É fácil verificar que os resultados obtidos pelos dois critérios são os mesmos, sugerindo uma forte
correlação inversa, o que significa que, à medida que o consumo de energia elétrica decresce,
aumenta o valor da tarifa.
49
2) Diagrama de dispersão
Outliers são dados atípicios que diferem significativamente do conjunto sob análise.
A imagem gráfica abaixo sugere que as duas variáveis nela consideradas (consumo de energia
elétrica x tarifa) são negativamente relacionadas, sem presença de outliers
y
30
25
20
15
10
5
x
2 4 6 8 10 12
Nem sempre o valor de (r ) garante a existência de correlação devido a fatores diversos, tais como
número insuficiente de dados amostrais, variáveis com informações distorcidas, etc.
Uma forma para se verificar a existência de correlação é a aplicação do teste de hipóteses, como a
distribuição t de Student, por exemplo.
Recomenda-se aplicar o teste para variáveis com tamanho da amostra igual ou superior a 30
informações, pois se deve atender a hipótese que as mesma apresentam tendência de
normalidade.
Para testar a hipótese por Student, devemos inicialmente determinar o valor de t calculado (t c )
pela expressão:
50
r. n − k
tc = (32)
1− r 2
Onde:
r = resultado do coeficiente de correlação
n = tamanho da amostra
K = número de variáveis
Se t c > tα (n − k )
ou t c < −tα (n − k )
− tα (n − k ) ≤ t c ≤ tα (n − k ) , aceita a hipótese H 0
r. n − k
tc =
1− r 2
− 0,86. 10 − 2
tc =
1 − (0,86 )
2
Consultando a tabela para t 0, 05 (10 − 2 ) = 2,31 , nota-se que t c = −4,7 é maior que tα (8) = 2,31 , o
que sugere rejeitar a hipótese H 0 e aceitar H 1 , que indica presença de correlação, conforme
hipóteses abaixo formuladas.
H 0 : ρ = 0 , ausência de correlação
H 1 : ρ ≠ 0 , presença de correlação
Conhecendo-se o valor de r, pode-se rapidamente estimar o valor de R2, bastanto para tanto
elevar ao quadrado o valor de r, ou seja: se r = 0,75, R2=0,56. Da mesma forma, como decorrência,
se R2 =0,56, r = 0,56 = ±0,75
51
Exemplo 19:
Considere o par abaixo referente a taxa efetiva de inflação ( y % ) e a taxa de desemprego (x% ) .
(ti ) yi xi
t1 6 5
t2 11 6
t3 9 8
t4 6 8
t5 6 7
t6 8 6
t7 11 6
t8 13 7
t9 10 8
t 10 10 9
Exemplo 20:
Com base nos dados do índice de quantidade demandada e tarifa real do exemplo 3, obter:
Exemplo 21:
A) O coeficiente de correlação deverá ser testado quanto à diferença para nulidade, através do
teste t de Student;
B) A correlação parcial estima a relação funcional entre a variável dependente e outras variáveis
independentes;
52
C) Na correlação linear múltipla, R2 indica a parcela de variação total de y explicada pelo
hiperplano de regressão.
1) A 2) B e C 3) A, B e C 4) A,C e D 5) A e B
Exemplo 22:
Utilizou-se um modelo de regressão linear para avaliar a relação entre o preço do litro da
gasolina e o do petróleo Brent, ambos em reais, compreendendo o período de janeiro de 2002
a dezembro de 2006.
Os resultados obtidos foram:
∑ (Y − Y ) ( )
60
1 60
∑ Yi − Yˆi
2 2
i = 18; = 0,052 e Fsig . = 2,7 E − 4
i =1 58 i =1
ANOVA
FV Soma dos quadrados Graus de liberdade Média dos quadrados F Fsig
Modelo (regressão) z
Residual x Y
Total
53
Exemplo 23:
100 100
∑Y
i =1
i = −58; ∑ X i = 248 ;
i =1
∑ (X − X )(Yi − Y ) = 43,2;
100
i
i =1
Exemplo 24:
Neste capítulo serão abordados alguns aspectos relacionados com a estimação de modelos
quando os resíduos (ei ) não são constantes, ou seja, quando tais resíduos associados com
observações em um dado período de tempo se mantiverem, por transferência, nos períodos
subsequentes.
Na ocorrência desses casos, estamos diante de uma violação aos pressupostos básicos já
comentados.
Assim, nos itens 6.1 a 6.5 deste capítulo falaremos sobre heteroscedasticidade e no capítulo 7
sobre autocorrelação que é uma outra forma de violação.
54
6.1. HETEROSCEDASTICIDADE E HOMOSCEDASTICIDADE
Já vimos que na análise de regressão era necessário levar em consideração algumas hipóteses, tais
como:
Quando os pressupostos citados ou hipóteses básicas não se verificam, estamos diante de uma
violação ou transgressão.
Na ocorrência desses casos algumas indagações vêm à mente do pesquisador, tais como: o que
provoca tais distorções? Quais as consequências para as estimações dos parâmetros? O que fazer
para minimizar tais problemas? Quais os procedimentos para diagnosticá-los?
Para melhor entender a matéria é necessário conhecer o significado de alguns termos, como
heteroscedasticidade e homoscedasticidade.
Conforme comentado acima, uma importante hipótese no modelo de regressão é que a variância
de cada erro aleatório V (e ) seja um número constante igual a σ 2 .
Quando isso não se verifica, ou seja, quando a variância do erro aleatório V (e ) é algum número
não constante, para todas as informações numéricas dizemos que o modelo de regressão é
heteroscedástico e, nesse caso, estaremos diante de uma série numérica que apresenta
problemas heteroscedásticos.
Na prática, à medida que a renda aumenta a poupança também tende a aumentar, em média.
Diagrama 1 (homoscedástico)
Função densidade
de probabilidade
Poupança (y)
n1
n2 yˆ = β1 + β 2 .xi
n3
Nota-se que a variância da poupança permanece constante, mesmo com o aumento da renda.
Quando a variância condicional de y (poupança) aumenta, quando a renda (ni ) aumenta, ou seja,
quando as variâncias não são mais as mesmas, quando os níveis de renda aumentam, como se
pode verificar no diagrama 2, dizemos que existe heteroscedasticidade.
56
Diagrama 2 (heteroscedástico)
Função densidade
de probabilidade
Poupança (y)
n1
n2 yˆ = β1 + β 2 .xi
n3
n i = nível de renda
Renda (x )
OBS: Nota-se que a variância da poupança vai se modificando à medida que o nível de renda
aumenta.
Uma das consequências de maior relevância é que os estimadores (bi ) obtidos (principalmente
pelo M.Q.O.) não são eficientes ou não apresentam variância mínima, o que significa violar um dos
princípios do método dos mínimos quadrados, tendo como consequências:
57
Detecção pelo método informal ou por observação visual:
Procedimentos operacionais:
êi êi
d1 d2
xi xi
êi êi
d3 d4
xi xi
58
Exemplo 25:
x y êi
6 4 -0,4
9 6 -0,7
11 10 1,5
15 14 2,5
16 9 -3,3
22 13 -3,9
23 21 3,3
102 77
Desenvolvimento:
Pelo método informal, calculamos os resíduos (êi ) com base na equação de regressão já
informada, yˆ = −0,22 + 0,77 x , resultando na coluna êi do quadro. Na sequência plotamos esses
valores no plano cartesiano, cuja imagem é a que se segue.
êi
4,0
3,5
3,0
2,5
2,0 x
1,5
1,0
0,5
-0,5 5 10 15 20 25
-1,0
-1,5
-2,0
-2,5
-3,0
-3,5
-4,0
59
Conclusão:
Fazendo a comparação gráfica nota-se que o diagrama residual êi do par de valores ( x e y )
assemelha-se ao da figura d1 que é um padrão de resíduo heteroscedástico. Dessa forma, com
base em análise visual dos resíduos, conclui-se que a série em questão é heteroscedástica.
Exemplo 26:
O par xi ; yi de tendência linear tem equação de regressão yˆ = −0,1342 + 77,94 xi . Verificar, com
base em análise visual dos resíduos se a mesma é heteroscedástica.
xi yi
0,060 4
0,086 6
0,107 10
0,146 14
0,156 9
0,215 13
0,230 21
1,00 77
Existem inúmero testes para verificar a presença de heteroscedasticidade pelo método formal,
tais como os métodos de:
- Goldfeld e Quandt;
- Pesaran e Pesaran;
- Gledjiser;
- Etc.
3) Eliminar alguns dados centrais da série após a ordenação. Geralmente é da ordem de, no
máximo, ⅓ do tamanho amostral ( c = dados eliminados);
60
4) As observações restantes, ou seja, aquelas correspondentes a (n − c ) observações deverão
ser divididas em dois subgrupos de igual tamanho. Por exemplo, se n = 30 e tendo sido
desconsiderado c = 10 (⅓ de 30), restando n = 20 , formando dois subgrupos de 10
informações cada;
6) Obter a soma dos quadrados dos resíduos dos dois subgrupos, respectivamente SQR1 e SQR2,
ou seja:
SQR1 = ∑ ( y1 − ŷ1 ) (33)
2
SQR2 = ∑ ( y 2 − ŷ 2 ) (34)
2
7) Obter F calculado (Fc ) , que é a relação entre SQR2 e SQR1, dividido pelo número de graus de
liberdade.
∑ ( y2 − yˆ 2 )
2
0,5.(n − c − 2k )
Fc = (35)
∑ ( y1 − yˆ1 )
2
0,5.(n − c − 2k )
g.l. =
(n − c − 2k ) = 0,5.(n − c − 2k ) (36)
2
Onde:
n = tamanho da amostra inicial
c = número de itens amostrais desprezados
k = número de parâmetros (intercepto + angulares)
8) Comparar o valor de Fc com o valor tabelado de F de Fisher, com o g.l. obtido em (36), ou
seja: Fα (n − c − 2k ).0,5
OBSERVAÇÃO:
Verificar, com base no teste de Goldfeld e Quandt, se o par de valores abaixo apresenta sintomas
de heteroscedasticidade.
Dados originais
y1 x1
33 44
37 49
41 54
46 62
51 68
57 71
65 78
72 82
81 86
91 92
100 100
103 97
114 98
122 95
136 101
141 109
150 117
155 121
163 121
170 125
172 119
Desenvolvimento:
1) Dados ordenados
y2 x2 y2 x2 y2 x2
33 44 122 95 170 125
37 49 103 97
41 54 114 98
46 62 100 100
51 68 136 101
57 71 141 109
65 78 150 117
72 82 172 119
81 86 155 121
91 92 163 121
62
OBS:
Os dados foram ordenados em função da magnitude de xi
63
n.(∑ x2 . y 2 ) − (∑ x2 )(
. ∑ y2 ) 8 ×136.851 − 796 ×1.187
b2 = = = 0,73
( 2
)
n. ∑ x − (∑ x )
2
8 ×104.839 − (796 )
2
b) Graus de liberdade da S2
g.l.(S 2 ) = 0,5.(21 − 5 − 4) = 6
4) Cálculo do Fc
SQR2 3.066,72
g .l.(S 2 ) 6
Fc = = = 67,52
SQR1 45,42
g .l.(S1 ) 6
Fc = 67,52
Fα
(n − c − 2k ) ∴ F0, 05 (6 ) = 4,28
2
6) Conclusão:
Fc = 67,52 > F0, 05 (6 ) = 4,28
Constata-se que Fc > Fα o que sugere que a série sob estudo é heteroscedástica.
Exemplo 28:
Verificar se o par de valores abaixo, referentes às despesas com alimentação y e renda mensal x ,
apresenta violação aos pressupostos básicos pelo método de Goldfeld e Quandt. Faça α = 0,05 .
64
Dados informados
y1 x1 y1 x1
58 343 122 607
82 425 129 611
120 467 93 605
126 483 118 659
100 480 82 664
n = 22
122 496 182 704
100 519 139 700
128 543 98 720
105 540 124 722
107 560 126 722
98 555
181 591
Desenvolvimento:
1) Dados ordenados
y1 x1
58 343
82 425
120 467
100 480
126 483
122 496
100 519
105 540
128 543
98 555
107 560 Dados eliminados
181 591 c=6
93 605
122 607
129 611
118 659
82 664
139 700
182 704
98 720
124 722
126 722
n = 22
65
2) Determinação da equação de regressão da amostra 1
yi xi y.x x2 ŷ ( y − yˆ )2 = (eˆ12 )
58 343 19.894 117.649 66,4 71,18
82 425 89,3 53,51
120 467 101,0 359,75
100 480 104,7 21,71
... ...
126 483 105,5 420,37
122 496 109,1 165,79
100 519 115,5 241,52
105 540 56.700 291.600 121,4 268,96
813 3.753 388.754 1.787.029 - 1.602,79 (SQR1)
n.(∑ x. y ) − (∑ x )(
. ∑ y) 8 × 388.754 − 813 × 3.753 58.843
b2 = = = = 0,279
( 2
)
n. ∑ x − (∑ x )
2
8 × 1.787.029 − 14.085.009 211.223
bˆ2 = 0,279
y2 x2 y 2 .x2 x2 ŷ ( y − yˆ )2 = (eˆ22 )
129 611 78.819 373.321 116,8 147,79
118 659 121,8 14,34
82 664 1.624,25
139 700 168,74
... ...
182 704 ... 3.088,91
98 720 904,20
124 722 18,28
126 722 90.972 521.284 128,3 5,18
998 5.502 687.517 3.795.082 - 5.067,49 (SQR2)
66
yˆ 2 = 53,91 + 0,103.xi (Regressão da amostra 2)
g.l1 = 0,5.(n − c − 2k )
g.l1 = 0,5.(22 − 6 − 2 × 2 ) = 6
5) Determinação do F calculado:
SQR2 5.067,49
g.l 6 = 3,16
Fc = =
SQR1 1.602,79
g.l 6
Fc = 3,16
. Conclusão:
Nota-se que Fc < Fα , o que sugere aceitar a hipótese H 0 , ou seja, a série de resíduos é
homoscedástica.
Hipóteses:
H 0 : a série de resíduos é homoscedástica
H1 : tal não ocorre
Exemplo 29:
O par de valores abaixo mostra o consumo (Y) e renda (X). Aplicar o teste de Goldfeld-Quandt
e verificar se há presença de violação aos pressupostos básicos (heteroscedasticidade). Faça
α = 0,05 .
67
ti Yi Xi
t1 6 8
t2 7 10
t3 7 9
t4 8 11
t5 8 12
t6 9 12
t7 10 13
t8 10 14
t9 9 13
t10 8 9
t11 8 11
t12 11 16
t13 11 15
t14 13 17
t15 11 15
t16 12 18
t17 14 23
t18 12 22
t19 15 24
t20 18 19
Exemplo 30:
Dentre os itens abaixo, identifique as premissas básicas para o modelo de regressão.
I. Linearidade do fenômeno medido.
II. Variancia não constante dos termos de erro (heteroscedasticidade).
III. Normalidade dos erros.
IV. Erros correlacionados.
V. Presença de colinearidade.
a) I e III;
b) II e III;
c) I,III e IV;
d) I,III e V;
e) I,II, III e V.
Exemplo 31:
Heterocedasticidade refere-se à situação onde a variância dos erros é:
a) constante e igual a 1;
b) constante;
c) variável;
d) variável entre 0 e 1;
e) infinita sempre.
68
Exemplo 32:
Após a estimativa de um modelo de regressão linear, foi constata a presença de
heterocedasticidade. Isto significa que os (as):
a) resíduos são auto-correlacionados;
b) resíduos somados não dão um resultado nulo;
c) desvios padrões dos resíduos não são constantes;
d) dados usados são transversais (cross-section);
e) variáveis independentes são fortemente correlacionadas.
Exemplo 33:
Na estimativa de uma regressão linear, o problema da heterocedasticidade ocorre quando:
a) os dados são transversais;
b) há autorrelação dos resíduos;
c) há correlação positiva entre as variáveis independentes;
d) a variância dos erros não é constante;
e) as variáveis independentes são negativas.
O termo autocorrelação numa série histórica de informações pode ser interpretado como sendo a
presença de correlação entre resíduos (êi ) de uma dada série temporal.
xt
xt
Presença de
Ausência de autocorrelação
autocorrelação
69
Autocorrelação Positiva
xt xt
Autocorrelação Negativa
xt xt
Geralmente uma autocorrelação costuma ser positiva, dado que a maioria das séries temporais
econômicas se move mais para cima do que para baixo por um período relativamente longo (como
o da fig. 3) e não de forma sistemática de curta duração (como o da fig. 5).
70
b) A estimativa do erro padrão pode apresentar-se viezada, ou seja, um valor que não reflete a
realidade, conduzindo os resultados dos testes e intervalos de confiança incoerentes.
Para verificar a existência da autocorrelação, podemos recorrer ao teste de Durbin & Watson
mediante aplicação da equação abaixo:
∑ (eˆ − eˆ )
2
t t −1
dc = t =1
n (37)
∑ et2
t =1
Devendo-se ressaltar que, quando a análise é feita com esta concepção, ou seja, considerando a
época imediatamente anterior, a autocorrelação é chamada de 1ª ordem (maioria dos casos).
Quando a análise da época não é a imediatamente anterior, diz-se que a autocorrelação é de
ordem superior.
Para fazer o diagnóstico, o valor de d c (d calculado) é comparado com o valor tabelado de Durbin
& Watson, levando sempre em consideração o nível de significância α desejado e o número de
variáveis explicativas.
A tabela de Durbin/Watson apresenta suas limitações, pois não foi desenvolvida com base em
modelos funcionais, como é o caso da distribuição normal, razão pela qual existe um intervalo de
valores em que o teste de Durbin/Watson (d ) é inconclusivo. Nestes casos outros meios poderão
ser usados, como veremos mais à frente.
71
Realização do teste:
1.2) Se di < d c < d s → o teste é não conclusivo, ou seja, não podemos afirmar se a série é ou não
autocorrelacionada (Região II do gráfico).
(dc < 2)
(d c > 2)
Autocorrelação positiva
Autocorrelação negativa
0
di ds 2 (4 − d s ) (4 − di ) 4
72
Exemplo 34:
Verificar a existência de autocorrelação no par de valores referente a dados de consumo (Yi ) e
renda X i . O modelo funcional é linear. Faça α = 0,05 .
(1) (2) (3) (4) (5) (6) (7) (8)
ti Yi Xi ŷi êt eˆt − eˆt −1 (eˆt − eˆt −1 )
2
(eˆt )2
1 745 988 708,11 36,89 - - 1.360,87
2 652 812 648,97 3,03 -33,86 1.146,50 9,18
3 709 892 675,85 33,15 30,12 907,21 1.098,92
4 692 911 682,24 9,76 -23,38 547,09 95,26
5 668 904
6 671 920
7 698 934
8 661 956
9 685 959
... ... ... ... ...
10 675 966
11 673 989
12 693 997
13 748 1.011
14 740 997
15 715 999 711,80 3,20 -25,67 658,95 10,24
∑ 10.425 14.235 - - - 10.288,95 8.663,40
Procedimentos operacionais:
∑ eˆ
i =1
2
i = 8.663,40
g) Cálculo de d .
73
10.288,95
dc = = 1,1876 = 1,19
8.663,40
h) Comparar o valor de d c = 1,19 com o valor tabelado de Durbin/Watson, com α = 0,05 e com o
tamanho da amostra n = 15 para o exercício em questão e ainda considerando uma variável
explicativa, dado que a forma funcional é linear simples. Daí obtemos para d i = 1,08 e
d s = 1,36 .
Como o valor calculado de d (d c = 1,19 ) está entre os dois valores tabelados, ou seja,
1,08 < 1,19 < 1,36 , conclui-se que o resultado do teste é inconclusivo, o que significa que não
podemos afirmar se há ou não autocorrelação.
Exemplo 35:
Solução:
n = 10 ; d c = 1,17 ; k = 2 ; α = 0,05
Verifica-se que d c < 2 , o que significa que a autocorrelação, se existir, será positiva. Como
d i < d c < d s (0,697 < 1,17 < 1,641) sugere inconclusão, não se podendo afirmar se é
autocorrelacionada ou não.
Exemplo 36:
Com uma amostra de 80 observações foi estimada uma equação com três variáveis explicativas.
Considerando que o valor obtido para d c = 2,92 , testar a presença de autocorrelação pelo teste
de DW com α = 0,05 .
Solução:
n = 80 ; d c = 2,92 ; k = 3 ; α = 0,05
Considerando a tabela, obtemos: d i = 1,56 ; d s = 1,715 .
4 − d s = 4 − 1,715 = 2,285
74
4 − d i = 4 − 1,56 = 2,44
Exemplo 37:
Exemplo 38:
ti Yi Xi
t1 20 12
t2 26 13
t3 30 15
t4 28 18
t5 32 24
t6 30 30
t7 35 40
t8 48 64
t9 41 88
t10 50 96
∑ 330 400
75
7.6. MEDIDAS CORRETIVAS VISANDO A REMOÇÃO DA AUTOCORRELAÇÃO
Já vimos que:
n
∑ (eˆ − eˆt −1 )
2
t
dc = i =1
∑ (eˆ )
n
2
t
i =1
Desenvolvendo o numerador da equação, obtemos:
dc =
∑ (eˆ 2
t − 2.eˆt × eˆt −1 + eˆt2−1 )
∑ eˆt2
dc =
∑ eˆ 2
t − 2.∑ eˆt × eˆt −1 + ∑ eˆt2−1
(38)
∑ eˆt2
Se o tamanho da amostra da série sob estudo for relativamente grande, a diferença entre eˆt2 e
eˆt2−1 , segundo leis estatísticas, é muito pequena, podendo considerá-las como sendo iguais.
dc =
∑ eˆ 2
t − 2.∑ eˆt × eˆt −1
∑ eˆt2
Dividindo os dois membros do numerador por eˆt2 , obtemos:
76
∑ eˆt × eˆt −1
d c = 2 × 1 − (39)
∑ eˆt2
d c = 2 × (1 − r ) (40)
Esta equação também poderá ser usada para verificar a presença de autocorrelação. Por exemplo:
Se r = (− 1) , ou próximo desse valor, d c terá um valor próximo de quatro, o que indica presença
de autocorrelação negativa, pois, conforme já foi visto, valores acima de 2 indicam autocorrelação
negativa e inferiores a 2 autocorrelação positiva.
Para a remoção da autocorrelação, tomaremos como base a equação (40) para estimar o valor de
r que nada mais é do que o estimador do coeficiente de correlação de erros, ou seja:
n
∑ eˆ × eˆt t −1
r= i =1
n
∑ eˆ
i =1
2
t
d c 2 2r
= −
2 2 2
dc d
=1− r ∴ r =1− c (41)
2 2
77
Assim, conhecido o valor de d c , pode-se estimar o valor de r através da igualdade (41) acima e,
uma vez estimado r , podemos efetuar a correlação dos valores conhecidos das variáveis,
obtendo-se as variáveis transformadas.
xc ,t = xt − r × xt −1 (43)
Exemplo:
dc 1,188
r =1− =1− = 0,4060
2 2
yc , 2 = y2 − 0,4060 × 745
yc , 2 = 652 − 302,47
yc , 2 = 349,53
Procedimento idêntico deverá ser observado para as variáveis explicativas x .
Exemplo 39:
78
Com base nos dados do mesmo exemplo 34, aplicar medidas corretivas junto às variáveis yi e xi e
verificar se a nova série permanece inconclusiva.
(1) (2) (3) (4) (5) (6) (7) (8) (9)
ti yi yc , t xt xc ,t (3) × (5) (5)2
yˆ c ,t eˆc ,t
1 745 - 988 - - - - -
2 652 349,53 812 410,87 143.611,39 168.814,16 347,04 2,48
3 709 444,29 892 562,33 409,82 34,47
4 692 404,15 911 548,85 404,23 -0,08
5 668 387,05 904 534,13 398,13 -11,08
6 671 399,79 920 552,97 405,06 -6,15
7 698 425,57 934 560,48 409,06 16,51
8 661 377,61 956 576,79 415,81 -38,20
... ...
9 685 416,63 959 570,86 413,36 3,97
10 675 396,89 966 576,65 415,76 -18,87
11 673 398,95 989 596,80 424,11 -25,16
12 693 419,76 997 595,47 423,56 -3,80
13 748 466,64 1.011 606,22 428,01 38,63
14 740 436,31 997 586,53 419,85 16,46
15 715 414,56 999 594,22 246.339,84 353.097,41 423,04 -8,48
∑ 10.425 5.737,73 - 7.873,17 3.239.285,87 4.457.939,38 - -
. Continuação da tabela:
Desenvolvimento:
d = 1,188 ≅ 1,19
79
2) Cálculo do valor de r
d 1,1876
r =1− ⇒ r =1− = 0,4060
2 2
3) Transformação da variável yt em yc ,t
yc ,t = y − r × yt −1 (coluna 3 da tabela)
4) Transformação da variável xt em xc ,t
xc ,t = xt − r × xt −1 (coluna 5 da tabela)
xc ,t1 = 812 − 0,4060 × 988 = 410,87
...
n.∑ ( yc ,t × xc ,t ) − (∑ yc ,t )(
. ∑ xc ,t )
β2 =
n.∑ (xc ,t ) − (∑ xc ,t )
2 2
β 2 = 0,4145
β1 = yc ,t − xc ,t × β 2
β1 = 176,74
∴ yˆ c ,t = 176,74 + 0,4145.xc ,t
6) Ajustamento dos valores de yc ,t com base na função encontrada na questão anterior (coluna
8 da tabela)
eˆc ,t = yc ,t − yˆ c ,t
8) Determinação das diferenças sucessivas dos resíduos, ou seja, entre os resíduos da época t
pelas da época imediatamente anterior (t − 1) .
Observar que os resíduos da época t1 e t2 não existirão mais, iniciando-se pela época t3 .
∑ eˆ 2
c ,t = 5.936,10 (coluna 12)
81
11) Determinação do novo valor de d
∑ (eˆ − eˆ )
2
c , t −1 11.488,60
dc = c ,t
= = 1,94
∑ eˆ 2
c ,t 5.936,10
Verifica-se que o valor calculado de d (d c = 1,94) é exterior aos intervalos críticos da tabela de
Durbin/Watson, cujos valores são, respectivamente, d i = 1,045 e d s = 1,350 .
Verifica-se também que o valor de d é menor que 2 (d < 2 ) , o que sugere, em princípio, que a
série é autocorrelacionada positivamente.
Contudo, como d c = 1,94 , ou seja, maior do que o d s = 1,350 , cai na Região III da ilustração gráfica,
o que sugere ausência de autocorrelação, significando que a autocorrelação foi removida.
Nos capítulos anteriores lidamos exclusivamente com variáveis que podíamos medir,
denominadas variáveis quantitativas como, por exemplo: nível de renda, variação salarial, taxa de
desemprego, etc.
Entretanto, algumas variáveis consideradas relevantes para fins de pesquisas não são numéricas,
elas são de natureza qualitativa, tais como: sexo, religião, nível de instrução, etc.
A variável (d ) , para fins operacionais, assume dois valores: 1 (um), indicando uma situação e 0
(zero), a outra situação como, por exemplo:
82
1 = ocorrência de um evento e 0 = não ocorrência
Por ser uma variável qualitativa, tem como alguns de seus objetivos, na análise de regressão,
absorver os efeitos temporais, tais como: mudança nas políticas econômicas, efeitos decorrentes
de sexo, religião, nacionalidade, etc. conforme acima comentado.
Pode ser incorporada de forma aditiva, multiplicativa ou mista (conjugação dos dois primeiros).
y = β1 + β 2 .x1 + β 3 .x2 + e
Verifica-se que quando d = 1 o valor do intercepto se modifica, passando a ser (β1 + β 3 ) e quando
d = 0 o intercepto não se altera.
83
Com a incorporação da variável (d ) ao modelo, criamos um deslocamento paralelo de (d ) que
pode ser para cima (forma aditiva) ou para baixo (forma subtrativa), conforme o valor de β 3
resulte de forma positiva ou negativa, respectivamente.
Exemplo 40:
Considere a série de valores, em milhões de dólares, referente ao gasto de um dado país com
esforço de guerra (Y ) e a renda nacional ( X ) . Introduzir a variável (d ) no período de t8 a t13,
considerado período de convulsão.
Mostrar o efeito causado pela interação da variável (d ) , pela forma aditiva, bem como a imagem
gráfica das duas equações de regressão.
ti Y X1 X2 = D y x1 d x. y d2 x.d y.d x2
1 2,6 2,4 0 -4,16 -4,44 -0,35 18,47 0,1225 1,554 1,456 19,714
2 3,0 2,8 0 -3,76 -4,04 -0,35 15,19 0,1225 1,41
3 3,6 3,1 0 -3,16 -3,74 -0,35 11,82 0,1225 1,31
4 3,7 3,4 0 -3,06 -3,44 -0,35 10,53 0,1225 1,20
5 3,8 3,9 0 -2,96 -2,94 -0,35 8,70 0,1225 1,03
6 4,1 4,0 0 -2,66 -2,84 -0,35 7,55 0,1225 0,99
7 4,4 4,2 0 -2,36 -2,64 -0,35 6,23 0,1225 0,92
8 7,1 5,1 1 0,34 -1,74 0,65 -0,59 0,4225 -1,13
9 8,0 6,3 1 1,24 -0,54 0,65 -0,67 0,4225 -0,35
10 8,9 8,1 1 2,14 1,26 0,65 2,70 0,4225 0,82
11 9,7 8,8 1 2,94 1,96 0,65 5,76 0,4225 1,27
12 10,2 9,6 1 3,44 2,76 0,65 9,49 0,4225 1,79
13 10,1 9,7 1 3,34 2,86 0,65 9,55 0,4225 1,86
14 7,9 9,6 0 1,14 2,76 -0,35 3,15 0,1225 -0,97
15 8,7 10,4 0 1,94 3,56 -0,35 6,91 0,1225 -1,25
16 9,1 12,0 0 2,34 5,16 -0,35 12,07 0,1225 -1,81
17 10,1 12,9 0 3,34 6,06 -0,35 20,24 0,1225 -2,12 -1,169 36,724
∑ 115 116,3 6 147,10 3,8825 6,52 13,425 193,76
84
Cálculo dos parâmetros:
b2 =
(∑ x . y ).(∑ d ) − (∑ x.d )(. ∑ y.d )
1
2
(∑ x ).(∑ d ) − (∑ x .d )
1
2 2
1
2
b2 = 0,68
(∑ x )(. ∑ d ) − (∑ x.d )
b3 2 2 2
b3 = 2,31
b1 = y − b2 .x1 − b3 .D
b1 = 1,3
- Fazendo d = 0 , encontramos:
- Para d = 1
- Conclusão:
Para a época normal de paz, a equação de regressão é a (1), ou seja, yˆ1 = 1,3 + 0,68.x .
Para a época de guerra a equação de regressão é a (2), ou seja, yˆ1 = 3,61 + 0,68.x .
85
O efeito aditivo da interação é a diferença entre os interceptos de ŷ2 e ŷ1 , ou seja,
3,61 − 1,30 ⇒ 2,31 (milhões).
- Imagem gráfica:
12
yˆ 2 = 3,61 + 0,68.x
10
Efeito da interação (3,61 − 1,30 ) = 2,31
4
yˆ1 = 1,3 + 0,68.x
2
2 4 6 8 10 12
Exemplo 41:
ti Yi Xi
1 6 2
2 13 1
3 15 5
4 12 4
5 9 3
6 14 13
7 16 18
8 18 20
9 15 25
10 22 29
∑ 140 120
86
B) INCORPORAÇÃO DA VARIÁVEL (d ) PELA FORMA MULTIPLICATIVA
Sabemos que a aplicação de fertilizante intensifica o efeito da área plantada, o que sugere a
introdução da variável (d ) multiplicativa para captar o efeito interativo das duas variáveis (área
plantada e aplicação de fertilizante).
y = β1 + β 2 .x1 + β 3 .(x1.d )
Onde:
O termo ( x1.d ) indica a mudança provocada pela influência de x1 após a aplicação de fertilizante.
Assim, se for aplicado fertilizante, temos d = 1 e teremos:
y = β1 + x1.(β 2 + β 3 )
y = β1 + β 2 .x1
Pode-se observar que o coeficiente angular β 2 se altera caso d = 1 , significando que o efeito
sobre a área plantada se intensifica com o emprego do fertilizante.
87
Exemplo 42:
(∑ x )(. ∑ d ) − (∑ x.d )
b2 2 2 2
b2 =
(60 × 246,1) − (58 × 176) = 4558 = 0,83
(36 × 246,1) − (58)2 5495,6
(∑ x )(. ∑ d ) − (∑ x.d )
b3 2 2 2
2856
b3 = = 0,52
5495,6
b1 = y − b2 .x − b3 .5,7
b1 = 3,57
88
d = 1 → yˆ = 3,57 + (0,83 + 0,52).x = 3,57 + 1,35.x
efeito da interação
- Imagem Gráfica
Com fertilizante
20
15 Efeito da interação
10
yˆ1 = 3,57 + 0,83.x
5
5 10 15 20 25
Para x = 0 → y1 = 3,57
x = 10 → y1 = 11,87
yˆ 2 = 3,57 + 1,35.x
Para x = 0 → y2 = 3,57
x = 10 → y2 = 17,1
89
Exemplo 43:
Dado o par de valores xi e yi de tendência linear, aplicar a variável binária pela forma
multiplicativa. Introduzir a variável d nos 6 primeiros períodos da série.
Y = 12 y = Y − 12
X 1 = 16 x1 = X 1 − 16
D = 10 d = D − 10
− Estatísticas:
∑ x . y = −25
1 ∑ x .d = 134
1
∑x 2
1 = 160 ∑ y.d = −286
∑d 2
= 734
b2 =
(∑ x . y ).(∑ d ) − (∑ x .d )(. ∑ y.d )
1
2
1
(∑ x )(. ∑ d ) − (∑ x .d )
2
1
2
1
2
b2 =
(− 25 × 734) − 134 × (− 286) = 19.974 = 0,2
(160 × 734) − 1342 99.484
b3 =
(∑ y.d ).(∑ x ) − (∑ x.d )(. ∑ x. y )
2
1
(∑ x )(. ∑ d ) − (∑ x .d )
2
1
2
1
2
90
− 45.760 − 3.350 − 42.410
b3 = = = −0,43
99.484 99.484
− Para d = 0
− Para d = 1
yˆ 2 = 13,1 − 0,23 x1 ( 2 )
- Imagem gráfica:
20 (1)
10
(2)
5
5 10 15 20
− Regressão (1)
yˆ1 = 13,1 + 0,2 x1 x = 0 → y1 = 13,1
x = 20 → y1 = 4,0 + 13,1 = 17,1
− Regressão (2)
91
yˆ 2 = 13,1 − 0,23 x1 x = 0 → y2 = 13,1
x = 20 → y2 = 8,5
Exemplo 44:
ti Y Xi (D )
1990 7 8 0
1991 8 9 0
1992 8 8 0
1993 9 9 0
1994 9 9 0
1995 10 10 1
1996 10 12 1
1997 11 13 1
1998 12 15 1
1999 16 17 1
∑ 100 110 5
9.1. INTRODUÇÃO
O objetivo deste módulo é fazer uma abordagem superficial sobre análise de uma série temporal,
não tendo como objetivo o aprofundamento teórico e operacional deste importante segmento da
estatística, em função da reduzida carga horária disponível.
Figura 1
x 92
Onde y é uma variável função do tempo ∴ y = f(x)
Numa série temporal costumamos distinguir quatro componentes (tendência, variações sazonais;
variações cíclicas e variações aleatórias ou irregulares), cuja análise é importante para o perfeito
conhecimento do fenômeno representado pelos mesmos. Os componentes citados podem ser
definidos conforme abaixo:
a) Tendência
Também chamada de tendência secular ou movimento a longo prazo, pode ser conceituada como
sendo a função média de seu processo gerador, entendendo-se por processo gerador, ou processo
estocástico, uma família infinita de variáveis Xi (i= 0; ±1; ±2; ±3;......) tal que os diversos termos da
série são considerados como observações das variáveis aleatórias x1; x2; ......xn, , o que significa
dizer que X1 é uma observação de x1; X2 é uma observação de x2; Xn de xn......etc. Em outras
palavras, é a tendência provável do comportamento da série num intervalo de tempo
razoavelmente longo em relação a unidade de tempo considerada. Nota-se na figura 1 a provável
tendência crescente da série.
São flutuações que se verificam aproximadamente nas mesmas épocas de cada ano resultantes de
fenômenos cíclicos exteriores ao conjunto principal de causas que atuam sobre os termos da série.
São exemplos de variações sazonais: a venda de artigos para crianças na época natalina; índice de
precipitação pluviométrica acompanhada mensalmente numa determinada cidade num período
de cinco anos.
c) Variações cíclicas
Os movimentos cíclicos são formados por ciclos. Basicamente um ciclo consiste de um período de
expansão das atividades econômicas, seguidas de recessão, contração e recuperação que se
confunde com a fase de expansão do novo ciclo.
Na componente cíclica, o mais importante é o denominado ciclo de negócios que são tipos de
flutuações encontradas nas atividades econômicas agregada de nações que organizam seu
trabalho principalmente em empresas comerciais.
Os ciclos econômicos são tipos de flutuações que perduram por mais de um ano e tendem a se
repetir com certa regularidade.
O ciclo de negócios, por exemplo, costuma ter duração superior a um ano podendo alcançar até
10 a 12 anos. Em média, um ciclo costuma oscilar em torno de 4 anos.
93
d) Variações irregulares
São exemplos de variações irregulares: enchentes; greves; terremotos; incêndios, etc.. que afetam
a maioria das atividades produtivas dependendo da sua intensidade.
Sob o ponto de vista econômico, é comum afirmar-se que a componente tendência , comentado
em a) e a componente sazonal comentado em (b) são as de maior relevância, ou seja, aquelas que
mais se sobressaem se comparadas com as outras componentes.
Já vimos que os principais componentes de uma série temporal podem ser: Tendência (T);
Variações estacionais (E); Variações cíclicas (C) e Variações irregulares (I).
Para melhor compreensão, daremos a sequencia normal dos procedimentos operacionais que
deverão ser adotados para analisar uma série temporal:
94
c.2. Processo das semi-médias:
Consiste em dividir a série em duas partes aproximadamente iguais, determinando a média
aritmética de ambas. A seguir marcamos sobre o gráfico as duas médias obtidas. Ligando-a
convenientemente teremos a reta ajustada. (ver figura 2)
Exemplo 45:
Considere a série de valores abaixo, já deflacionados. Avaliar a sua tendência pelo método das
semi-médias
TABELA 1
Procedimentos:
- Dividir a série em dois subgrupos de tamanhos iguais;
- Tirar a Média do 1º grupo (t1 a t4) : x1 = 33,3
- Tirar a Média do 2ºgrupo (t5 a t8) : x2 = 42,5
- Traçar o gráfico no plano cartesiano
- Unir os dois pontos x1 e x2 obtendo-se assim a reta de tendência T.
(Figura 2)
R$
50
T
x2
45
40
x1
35
30
(ti )
t1 t2 t3 t4 t5 t6 t7 t8
95
O ponto xi poderá ser colocado entre o período t2 e t3 e o ponto x2 entre t6 e t7.
T= linha de tendência sugerida pelo método das semi-médias.
Uma das inconveniências deste processo é a perda dos valores extremos da série de acordo com a
periodicidade adotada.
Exemplo 46:
TABELA 2
1 2 3 4
ANOS VALOR (R$) MÉDIA MÓVEL DE 2 ANOS MÉDIA MÓVEL DE 3 ANOS
y1 y2 (N=2) y3 (N=3)
t1 30
t2 36 33,0 35,7
t3 40 38,0 38,3
t4 37 38,5 41,1
t5 46 41,6 41,9
t6 42 44,0 42,9
t7 41 41,5 41,4
t8 42 41,5
Figura 3
96
Nota-se pela figura 3 que, com a aplicação das médias móveis, os dados originais sofrem processo
de suavização. A linha 1 (contínua), refere-se a dados originais e a linha 2 (tracejada) é o resultado
da aplicação da média móvel de periodicidade 2 (y2).
e. Ajuste da série
Consiste em promover o ajustamento da série observada, através de uma função que melhor
represente aqueles dados.
g. Estacionariedade da série
Significa verificar se a função valor médio e a função covariância são constantes ao longo do
tempo, ou seja: se E ( yt ) e v( yt ) são constantes para todo t, além de cov( yt ; yt − j ) = cov( yt ; yt + j )
Exemplo 47:
Considere a série temporal de valores investidos em ativos fixos, em milhões de reais, no período
de 2000 a 2010
Tabela 3
Solução:
Figura 4
98
Nota-se pela figura 4, que a série de investimentos deflacionados sugere aplicação do modelo
linear, o que nos permite dar sequencia para obtenção da equação de tendência, com a utlização
de variáveis explicativas especiais, como representada na coluna 3 da tabela 4.
Tabela 4
Desenvolvimento:
a) Determinação dos parâmetros intercepto (â) e angular (bˆ) com auxílio das equações normais,
pelo método dos minimos quadrados ordinários:
n(∑ xy ) − (∑ x )⋅ (∑ y )
bˆ =
( )
b ∑ x 2 − (∑ x )
2
aˆ = y − bˆ ⋅ x
bˆ =
(11⋅ 290) − 0 ⋅ 443,1 = 2,64
11 ⋅110 − 0 2
b) Equação de tendência:
yˆ = 40,3 + 2,64 xi
99
Para verificar o posicionamento da equação de tendencia no plano, basta substituir na função
yˆ = 40,3 + 2,64 xi atribuindo a x os valores -5 e 5 para os anos de 2000 e 2010 respectivamente,
obtendo-se assim, os extremos da função. (ver a representação na figura 4)
Com base nessa equação, podemos efetuar previsões. No exemplo em questão, trata-se de
estimar os investimentos em ativos fixos para épocas futuras, bastando para tanto, multiplicar o
parâmetro angular da função pelo valor sequencial da variável especial xi, constante na coluna (3)
da tabela 4. Por exemplo, se quisermos estimar o investimento esperado para 2011, basta atribuir
a x o valor 6:
yˆ (2011) = 56,1
Essa medida, também denominada de coeficiente de determinação, tem como finalidade avaliar o
grau de dependência da variável endógena y em relação a variável independente x. Quanto maior
o valor de R2 melhor é a qualidade do ajuste. Por exemplo, se R2=0,75 indica que 75% da variável
y é explicada pela variável x, sugerindo portanto, uma boa qualidade do ajuste .
∑ ( yˆ − y )
2
R 2
=
∑(y − y)
2
662,8
R2 = = 0,75 ou 75%
889,3
O valor de R2 obtido sugere que a equação de tendência explica algo em torno de 75% o
comportamento da série.
100
d) Teste de estacionariedade
Ao analisar uma série temporal devemos verificar ainda se a mesma não apresenta sintomas de
tendenciosidade. Diz-se que uma série é estacionária quando não apresenta esse sintoma, ou seja,
quando sua média e sua variância são constantes ao longo do tempo, então:
E ( yi ) = constante para todo i
V ( yi ) = constante para todo i
cov( y ) = cov( y ) , significa que a covariância só depende do afastamento (distância) no tempo que
separa os dois valores e não do momento em que estamos no tempo.
Assim como existem séries estacionárias, vale lembrar que também existem séries não
estacionárias. Estes tipos de série são denominadas de “passeios aleatórios” (random walks),
dado que os pontos na linha do tempo passeiam vagarosamente para cima e para baixo, sem um
padrão definido.
Para avaliar a estacionariedade de uma série existem vários caminhos, tais como o teste de raiz
unitária. O teste da raiz unitária mais utilizado é o de Dickey-Fuller, que não será explicitado nessa
apostila.
Um outro teste comumente utilizado é o teste de Mann, objeto do nosso estudo. Assim, na tabela
5, a seguir, será aplicado esse teste. Observar, com cuidado, o significado de cada coluna.
Tabela 5
101
(3) Residuos (ri) calculados com base na função de regressão já obtida.
r1= yi - ŷi (diferença entre os dados conhecidos e os dados ajustados pela função
yˆ = 40,3 + 2,64 xi
(4) ordenação dos resíduos de forma crescente (r2)
(5) enumeração dos resíduos já ordenados na posição em que se encontrava primitivamente (Pi).
Exemplo: o valor -5,6 estava posicionado em 2000, ou seja, na posição 7 ; -4,1 na posição 4 e
assim sucessivamente.
(6) refere-se ao número de elementos da série com valores superiores a cada Pi. Por exemplo:
valores superiores a P1=7 encontramos : (11,10,8 e 9), ou seja, 4 elementos. Etc.... (Pi)
11(11 − 1)
S = 2 ⋅ 25 −
2
S = 50 − 55 = −5
Para amostras superiores a 10 (n>10), partimos da hipótese de que a distribuição dos resíduos
(S ) é assintóticamente normal com média zero: E (S ) = 0 e desvio padrão
n(n − 1) ⋅ (2n + 5) n(n − 1) ⋅ (2n + 5)
σ (s ) = ou variância σ 2 (s ) =
18 18
Nesses casos recomenda-se ainda aplicar a correção de continuidade, adicionando-se uma
unidade ao resultado de S , quando esta for negativa e subtraindo-se 1 quando for positiva. No
exemplo : S = - 5 + 1= - 4 .
n ⋅ (n − 1) ⋅ (2n + 5))
σ (S ) =
18
11 ⋅ (11 − 1) ⋅ (2 ⋅11 + 5)
σ (S ) = = 12,84
18
S −5
tc = = = −0,39
σ ( S ) 12,84
Este valor é comparado com o valor tabelado de t com nivel de confiança desejado. No presente
estudo foi adotado 95% (1,96). Vale lembrar que a estatistica t pode ser aproximada a distribuição
102
normal quando o tamanho da amostra n for relativamente grande. Assim, se o valor de tc estiver
compreendido no intervalo ±1,96, aceitamos a hipótese H0 de que a série é estacionária.
No exemplo em estudo, nota-se que tc = - 0,39, portanto menor do que 1,96 estando
compreendido no intervalo citado, o que sugere que a série é estacionária.
A formulação das hipóteses no teste de Mann é:
H0: a série de resíduos é estacionária
H1: a série de resíduos apresenta tendência
Pelo resultado acima obtido, concluímos pela aceitação da hipótese nula ,.H0
Devido a exiguidade da carga horária, exercícios contendo aplicações dessa tabela não serão aqui
abordados.
Conforme comentado inicialmente, este tópico mostra de forma apenas superficial o problema
envolvendo séries temporais. A matéria sobre este assunto é muito mais abrangente, razão pela
qual, deixaremos de abordar uma série de tópicos inerentes a análise das séries temporais, tais
como: Modelos Autorregressivos (AR), Modelos de Média Móvel (MA); Modelo Autorregressivo e
Média Móvel (ARMA), que é a combinação de Média Móvel e Autorregressivo, Processo de
Periodicidades Ocultas, etc.
103
104
105
106
107
108
BIBLIOGRAFIA:
109