Escolar Documentos
Profissional Documentos
Cultura Documentos
ISBN 978-85-7173-141-7
CDU 330.43
As opinies emitidas neste livro so de exclusiva responsabilidade dos autores, no exprimindo, necessariamente, um posicionamento oficial da FEE ou da Secretaria do
Planejamento, Mobilidade e Desenvolvimento Regional.
Capa: Laura Wottrich.
I Parte Um
1 EViews
R
...................................................... 9
1.1 Programando no Eviews 10
1.1.1 Exemplo de Programao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Como abrir dados no EViews
R
12
1.3 Do Excel para o EViews
R
13
1.4 Criando um Workfile 15
1.5 Abrindo os dados do FRED 16
2 Grficos no EViews
R
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Dados Categricos 28
2.2 Exemplos de programas.prg 29
3 Funes de Distribuio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1 A Curva Normal 33
3.2 A curva t-student 40
3.3 A Curva Qui-Quadrado 42
3.4 Curva F 49
3.5 Distribuio de Poisson 51
3.6 Exerccios 52
3.7 Sites teis 54
4 Estatsticas, testes de hiptese e ANOVA . . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Histograma e Estatsticas 56
4.2 Estatsticas por classificao (Statistics by Classification) 59
4.3 Testes de Hiptese 60
4.4 Teste de Igualdade por Classificao 61
4.5 Teste de Distribuio Emprica (KolmogorovSmirnov) 62
4.6 Teste de Igualdade (Test of Equality) 64
4.7 Grficos Analticos Fazendo a distribuio dos dados 64
4.8 Teste de Razo de Varincia 65
4.9 Exerccios 72
5 Sries de tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.1 Ajuste Sazonal 75
5.1.1 Mtodo das Mdias Mveis (Moving Average Methods) . . . . . . . . . . . . . . . . 77
5.1.2 TRAMO/SEATS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.1.3 Mtodo Census X-12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.1.4 Mtodo Census X-13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.1.5 Alisamento Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2 ETS-ERROR-trend-seasonal 93
5.3 Ciclo 98
5.3.1 Filtro Hodrick-Prescott . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.3.2 Filtros de Frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3.3 O Filtro Corbae-Ouliaris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.4 Autocorrelao (Correlograma) 105
5.5 Anlise Espectral 108
5.6 Exerccios 111
5.7 Bibliografia 112
I
R
1.3 Do Excel para o EViews
1.4
1.5
Criando um Workfile
Abrindo os dados do FREDParte Um
2 Grficos no EViews
R
. . . . . . . . . . . . . . . . 19
2.1 Dados Categricos
2.2 Exemplos de programas.prg
3 Funes de Distribuio . . . . . . . . . . . . . 31
3.1 A Curva Normal
3.2 A curva t-student
3.3 A Curva Qui-Quadrado
3.4 Curva F
3.5 Distribuio de Poisson
3.6 Exerccios
3.7 Sites teis
5 Sries de tempo . . . . . . . . . . . . . . . . . . . . . 75
5.1 Ajuste Sazonal
5.2 ETS-ERROR-trend-seasonal
5.3 Ciclo
5.4 Autocorrelao (Correlograma)
5.5 Anlise Espectral
5.6 Exerccios
5.7 Bibliografia
nos possibilita duas maneiras, a primeira pela janela de comando em branco logo abaixo da barra
de menus. Nesta podemos executar instrues de somente uma linha, como por exemplo, wfcreate
u 1000 e pressionar enter, pronto: criamos um workfile com 1000 observaes. Torna-se til e
veloz quando se est trabalhando com a interface grfica e quer executar comandos simples. A
ltima maneira por um arquivo de programa no formato .prg. Atravs dos programas podemos
mandar instrues mais complexas, trabalhar com um conjunto superior de dados, salvar nossas
linhas de programao para aplicaes futuras e conectar oEViews
R
a diferentes bancos de dados
10 Captulo 1. EViews
R
ou outros softwares. Nesse captulo faremos uma breve introduo sobre essas trs diferentes
formas de usar o EViews
R
.
Uma vez salvo, os programas podem ser abertos atravs da barra de menus em File, Open e,
ento, Programs. Para execut-los basta pressionar Run na barra de menu da janela do programa
aberto. Porm, muito cuidado ao fazer isso, pois se o caminho do programa no coincidir com o
banco de dados ou se as variveis que foram nomeadas no forem iguais, ser retornado erro.
Programao 1.1.1 As linhas de comando a seguir criam um workfile, uma srie aleatria,
denominada dados e salva o valor da mdia no escalar a.
alterarmos a linha 2 para series dados = 2 a srie dados ir tomar o valor 2 em cada observao.
Depois de criarmos dados utilizado o comando @mean(x) para calcular sua mdia. Ento,
guardarmos esse valor dentro de um escalar denominado "a". O comando show apresenta
qualquer objeto na tela, nesse caso "a".
Partindo do nosso programa inicial, podemos extrair mais informaes da srie dados. Por
exemplo, para o nmero de observaes, desvio padro, valor mximo e mnimo utilizamos
respectivamente os comandos @obs(x), @stdev(x), @max(x) e @min(x).
wfcreate u 100
series dados = rnd
vector(5) a
a(1) = @obs(dados)
a(2) = @stdev(dados)
a(3) = @mean(dados)
a(4) = @max(dados)
a(5) = @min(dados)
show a
Note que, no lugar do escalar "a" utilizamos um vetor "a", isso nos possibilita guardamos
mais posies de informaes. Esse vetor foi includo para ter 5 linhas.
Na mesma linha de raciocnio, podemos desenvolver um programa que crie um workfile com,
agora, cinco sries aleatrias e guarde o nmero de observaes, desvio padro, valor mdio,
mximo e mnimo.
wfcreate u 100
matrix(5,5) a
for !a = 1 to 5
series dados!a = rnd
a(1,!a) = @obs(dados!a)
a(2,!a) = @stdev(dados!a)
a(3,!a) = @mean(dados!a)
a(4,!a) = @max(dados!a)
a(5,!a) = @min(dados!a)
next
show a
Diferente do programa anterior, utilizamos uma matriz 5x5 "a"ao invs do vetor "a", para
acomodar mais de uma coluna. Note que usamos o comando !a. Esse para permitir que
uma varivel tenha um intervalo numrico. Tambm aplicada a instruo for, que abre o loop
encerrado pelo next. Este lao possibilita criarmos um circuito onde a varivel "!a"tomar
inicialmente o valor 1, proceder as linhas seguintes at o comando next, que aumenta "!a"em 1
e retorna a execuo do programa para a linha do for at que "!a"guarde o valor 5 e quebre o
circuito. Desta forma, sempre que houver um for existir um next correspondente.
Para finalizar nosso programa, podemos adicionar um cabealho nossa matriz "a". O
EViews
R
no permite o uso de texto dentro de matrizes e por isso utilizamos table(linha,coluna)
que cria um objeto tabela. Na terceira at a oitava linha adicionamos o cabealho na primeira
coluna da tabela "a". Note que, textos so armazenados sendo colocados dentro de aspas.
12 Captulo 1. EViews
R
wfcreate u 100
table(6,6) a
a(1,1) = "Estatsticas/Srie"
a(2,1) = "Obs"
a(3,1) = "Desvio Padro"
a(4,1) = "Mdia"
a(5,1) = "Mximo"
a(6,1) = "Mnimo"
for !a = 1 to 5
series dados!a = rnd
a(1,1+!a) = "dados"+@str(!a)
a(2,1+!a) = @obs(dados!a)
a(3,1+!a) = @stdev(dados!a)
a(4,1+!a) = @mean(dados!a)
a(5,1+!a) = @max(dados!a)
a(6,1+!a) = @min(dados!a)
next
show a
Outro detalhe a ser observado na linha 11, onde preenchido a primeira linha de " a"com
o nome das sries. Para a tabela aceitar o "dados"seguido dos valores de "!a"(1,2,3,4 e 5) em
forma de texto utilizado o comando @str(nmero) que transforma os valores numricos em
texto.
Note que as variveis de controle iniciadas com exclamao (!) so utilizadas para armazenar
nmeros. J as variveis iniciadas com o smbolo de porcentagem (%) guardam informaes de
texto.
group g *
g.drop resid
%a = g.@seriesname(1)
scalar b = @mean{%a}
show b
Na quarta linha, gravamos a mdia de "%a"dentro do escalar "b"e ento exibimos "b". Note
que adicionamos colchetes em "{%a}", isso faz com que o EViews
R
execute o texto dentro da
varivel. No se esquea de salvar.
Ao longo desse livro iremos exemplificar diversas aes que podem ser feitas criando seu
prprio programa. A idia que, ao final do livro, voc tenha desenvolvido as habilidades mnimas
para criar um programa.
mas, para os propsitos desse livro, precisaremos apenas aprender como abrir ou criar os chamados
workfile.
Para tanto, iremos dividir essa anlise em duas partes. Primeiro abordando sobre a criao de
um conjunto de dados no Excel que, posteriormente, so lidos noEViews
R
. A seguir, criando um
workfile e copiando e colando dados. Qual das duas alternativas escolher fica a seu critrio.
Vamos supor que se tenha um conjunto de sries de tempo de periodicidade trimestral, com
incio em 2006Q1 e trmino em 2014Q2. Essas podem ser vistas no arquivo em Excel de nome
dados/exemplo1.
Como primeiro passo, abra o EViews
R
.
Note que, por hora, no h nada disponvel,
nem dados, informao sobre a periodicidade e
etc. A seguir, v em File/Open/Foreign Data
as Workfile (ver figura 1.3). E selecione o ar-
quivo em Excel (v at a pasta onde o mesmo
foi salvo). Depois clique em Ok.
A janela de opes que se abre a seguir
Figura 1.3: Importando dados do Excel consiste de trs passos. muito comum que
no se mudem as informaes no primeiro e no
segundo passos. Nesse caso, podemos clicar em avanar nesses dois primeiros passos. Porm, no
terceiro passo, caso no se modifique algumas opes, pode ser que o arquivo final no fique tal
como desejado. Em especial se no especificarmos a periodicidade e as datas.
Sendo assim, no passo trs, selecione Dated - regular frequency, que sempre ser utilizado
quando tivermos uma srie de tempo e, depois, a periodicidade trimestral (Quarterly), conforme a
figura 1.4a. Por vezes, o arquivo do Excel j tem uma srie com os dados. Nesses casos, a opo
Dated - specified by date series identifica automaticamente a frequncia e o incio da srie, basta
informar no campo Date series o nome da srie que tem essa informao (ver figura 1.4b). Por fim,
digite a data inicial como 2006Q1 e clique em Finish.
Pronto, agora temos um workfile de 30 trimestres contendo cinco sries de tempo com os
respectivos nomes que estavam no Excel: J30D, INF, PIB e DES.
Programao 1.3.1 Uma forma de fazer a abertura de um workfile via programao, que d
muita agilidade ao trabalho. Basta aplicarmos o comando wfopen seguido do caminho onde se
encontra o arquivo com as sries.
wfopen c:/exemplo1.xlsx
Um ltimo ponto importante para salientar nesse momento sobre a forma que as datas so
inseridas no EViews
R
. Como pode ser visto no exemplo acima, especificamos primeiro o ano,
seguido da letra que compem a periodicidade, no caso de trimestre Q e, no caso de meses M
para ento, colocar o perodo. Como os dados comeam no primeiro trimestre, colocamos 1.
Se os dados tivessem como incio maro de 1996, especificaramos 1996M3. Note que os dados
esto no formato Ingls, onde os decimais so separados por ponto. Caso seu computador estiver
no formato Portugs (Brasil), teremos problema na hora que o EViews
R
abrir esses dados do
excel. Ele ir confundir os pontos com as vrgulas. A sugesto reconfigurar o computador para
o Ingls americano. A localizao desta opo pode variar ligeiramente conforme a verso do
Windows. Para o Windows 7, acesse Painel de Controle/Relgio, Idioma e Regio/Regio e
Idioma na aba Formatos selecione o Formato Ingls (Estados Unidos). Ento clique em Aplicar
14 Captulo 1. EViews
R
e Ok.
Programao 1.3.2 Sempre que for iniciar um programa pode digitar os comandos abaixo
para que seu banco de dados seja aberto automaticamente.
%path = @runpath
cd %path
Ao rodar os comandos acima, o caminho utilizado para abrir os dados, mostrado na barra de
status no canto inferior da tela, ser alterado para o caminho que foi salvo o programa. Sendo
assim, recomenda-se colocar o arquivo ".prg"na mesma pasta em que se encontra o ".wf1". Desta
forma, se salvarmos o exemplo1.xlsx dentro da mesma pasta do programa podemos importar
os dados por programao.
%path = @runpath
cd %path
wfopen exemplo1.xlsx
Tambm possvel definirmos um caminho diferente do que o programa est salvo. Alterando a
primeira linha de comando.
wfopen exemplo1.xlsx
wfcreate u 100
wfcreate m 1990m1 2015m12
wfcreate q 1990q1 2015q4
wfcreate a 1990 2015
O arquivo que est sendo criado ainda no possui os dados, apenas criamos o chamado workfile.
Para inserir os dados temos que, primeiro, criar um objeto (figura 1.6a). V em Object/New Object
e selecione a opo Group. Do lado direito escolha um nome para o grupo (evite acentos, espaos
e etc, seja bem simples nessas escolhas). A seguir, depois de clicar em Ok, o EViews
R
ir abrir
uma janela que bem semelhante com planilhas do Excel. V no Excel, selecione apenas os dados,
no pegando as datas nem os nomes das sries, copie e cole no EViews
R
. A seguir feche o mesmo.
Note que agora temos um workfile e os dados, mas, as sries ficaram com nomes diferentes.
Isso pode ser resolvido clicando com o boto direito na srie e renomeando a mesma.
Aps ter os dados no EViews
R
, h diversas outras formas de trabalhar com eles de forma
a tornar a pesquisa mais fcil, em especial quando se trabalha com uma grande quantidade de
informao e diversos testes e estimativas.
Uma opo interessante do EViews
R
o uso de diversas planilhas ao mesmo tempo, sendo
possvel preservar o vnculo entre as variveis. Tal recurso permite trabalhar com diversos modelos,
separados por planilhas, sem poluir o workfile principal. Selecione as variveis des, inf, j30d
e pib. A seguir, clique com o boto direito do mouse na planilha de nome New Page, selecione
Copy/Extract from Current Page e depois By Link to New Page.
Na janela que ser aberta, ao escrever @all, o EViews
R
ir copiar todo o perodo amostral. Em
Objects to copy, selecione Listed Series, como mostrado na figura 1.7, e deixe a opo Include
Links selecionada. Caso queira dar um nome para a nova planilha, clique emPage Destination e,
em Page: escreva o nome que quiser.
Note que ser criada uma nova planilha com os dados selecionados com cores diferentes. Agora,
sempre que os dados nas sries da planilha original forem modificados, o mesmo ir ocorrer com
essas sries na nova planilha.
1.8b, e em name MATCHES, escreva o nome da srie. No nosso caso, GDPC1 e clique em ok. A
seguir, d dois cliques na srie e exporte a mesma para um banco de dados. Posteriormente iremos
mostrar como possvel voc mesmo criar um link entre o EViews
R
e um banco de dados que
se queira para atualizao automtica. Tambm possvel criar um add-in que faz essa seleo
automtica.
2. Grficos no EViews
R
O recurso de grficos em econometria muito til para uma deteco prvia das caractersticas de
um conjunto de dados como, por exemplo, sua distribuio, a existncia de tendncia, movimentos
cclicos, sazonalidade, outliers, quebra estrutural, clusters dentre outras. No EViews
R
possvel
personalizar a construo de grficos, escolhendo cores, tamanho e estilo de letra, linhas de
tendncia, combinar diferentes tipos de grficos, vincular os mesmos aos dados e demais aspectos.
H outras opes disponveis em Options/Graphics Default. Deixamos para o leitor explorar esse
ponto consultando o manual que acompanha o software.
Nesse captulo iremos utilizar o arquivo do EViews
R
de nome exemplo1.wf1. Abra o mesmo.
Ali ir ver cinco sries de dados de nome qx, y, px, pm, qm. Inicialmente, d dois cliques
na srie de nome qx. O EViews
R
ir abrir uma janela que se parece com as planilhas do Excel. A
sequncia de dados que vemos denominada de srie de tempo. Note que, na primeira coluna,
temos as respectivas datas que, para esse exemplo, trimestral, com incio no primeiro trimestre
de 1997 e terminando no segundo trimestre de 2015. Porm, o intervalo vai at 2015Q4, o que
resulta em uma sequencia de clulas que esto vazias, com o termo NA. Isso ir facilitar quando
quisermos prever o comportamento dos dados para alguns perodos a frente. Veremos isso no
captulo de regresso simples.
A seguir, a partir do menu View/Graph.... Note que h vrias opes de grficos. O mais
comum, e que ser mais explorado aqui, fazer um grfico de linha. Selecione esse e o resultado
como aparece na figura 2.1. Alternativamente, podemos fazer um grfico de barras para esse
conjunto de dados. Clique com o boto direito do mouse sobre o grfico e depois Options e
selecione Bar. O mesmo pode ser aplicado a cada uma das outras opes. Outra alternativa usar
o menu opes, localizado logo acima do grfico.
Note que ao fazer o grfico aparece na parte inferior do mesmo uma barra de rolagem. A partir
dessa podemos deslizar o grfico para diferentes datas, basta que mova o cursor na barra para a
esquerda ou para a direita.
O EViews
R
permite que se escolha entre diferentes maneiras de apresentar os grficos, mudando
o fundo para cor branca, tornando as linhas mais ntidas, mudando a cor das linhas e etc. Para
verificar todas essas opes, com o grfico aberto clique com o boto direito do mouse e selecione
20 Captulo 2. Grficos no EViews
R
Templates. A seguir, escolha cada um dos modelos e, antes de clicar em Ok, clique em Apply
para ver se te agrada.
Programao 2.0.1 Para fazer um grfico, usamos o comando graph. Para o exemplo de um
grfico de linha, aplicado srie qx colocamos o termo abaixo criando um grfico de nome gqx.
A seguir, especificamos que a linha tem cor vermelha, dado pelo RGB(255,0,0)a .
graph gqx.line qx
gqx.setelem linecolor(255,0,0)
Dentre as vrias opes a serem utilizadas em um grfico de linha, uma das mais teis para a
econometria a padronizao dos dados. Nesse caso, o que fazemos criar um grfico onde cada
informao subtrada da mdia e depois dividida pelo desvio-padro. Assim, o resultado final
uma nova sequencia de dados onde a mdia zero e o desvio-padro 1. Para essa opo use :
graph gqx.line(n) qx
a Se quiser outra cor, consulte os cdigos de cores RGB
Aps criar o grfico, como mostrado no box de programao, o produto final um grfico
no estilo congelado ou frozen. Esse uma espcie de grfico desvinculado dos dados. O
inconveniente dessa opo que toda vez que os dados originais forem atualizados isso no ser
feito no nosso grfico, ou seja, ao aplicar o freeze no grfico, o mesmo perde o vnculo com os
dados.
Para contornar esse problema devemos voltar a vincular os dados ao grfico. D dois cliques no
grfico gqx. A seguir selecione Graph Updating e, do lado direito as opes Automatic e, mais
abaixo, Update when data or the workfile sample changes.
graph gqx.line(n) qx
gqx.setupdate(a)
Vimos anteriormente que tambm temos a opo de criar um grfico de barra. Porm, essa no
muito interessante quando h uma srie de dados com muitas informaes, isso porque as barras
acabam ficando muito finas, fazendo com que o grfico de barras se aproxime de um grfico de
rea. Para o exemplo da srie qx, selecione a opo de grfico de barra e veja como fica. Caso a sua
escolha seja para um grfico de barra h vrias opes interessantes. Clique duas vezes no grfico e
selecione Graph Elements/Bar-Area-Pie. Ali ser possvel escolher entre grficos com efeito de
cores, 3D, colocar os respectivos valores em cada barra e diversas outras opes.
Outra possibilidade de uso dos grficos no EViews
R
combinar diferentes informaes. Por
exemplo, vamos ver como fazer um grfico que mostre simultaneamente a evoluo dos dados no
tempo e a distribuio dos mesmos.
Com a srie qx aberta, v em View/Graph..., selecione Line&Symbol e depois, na opo Axis
borders, escolha Histogram. Tambm h a opo de usar a densidade de kernel. Note que a srie
mostrada considerando as datas no eixo horizontal e as escalas no vertical. A distribuio de
frequncia dos dados colocada nesse eixo.
Programao 2.0.3 Esse grfico tambm pode ser feito a partir da opo ab=hist no comando
line, como mostrado a seguir:
graph gqx.line(ab=hist) qx
graph gqx.line(ab=k) qx
Alm disso, podemos adicionar um texto para identificar nosso grfico. No exemplo abaixo
colocamos um ttulo srie de dados qx, entre aspas, com uma fonte de tamanho 12, do tipo
ubuntu light. Por fim, o comando t especifica que o texto centralizado.
Outra opo que pode ser utilizada mostrar duas sries de dados no mesmo grfico, em
especial quando as mesmas possuem escalas diferentes. Nesse caso, se fizermos esse grfico com
apenas um eixo vertical, visualmente podemos ter uma informao de baixa qualidade. O EViews
R
permite que se faa um grfico com dois eixos, cada um com escala diferente.
23
Isso pode ser feito depois de se criar um grupo com as sries que se quer ilustrar. Selecione
primeiro a srie qx. Com o boto Ctrl do teclado pressionado, selecione a srie px. A seguir, clique
com o boto direito do mouse e Open as Group. O EViews
R
ir abrir as duas sries em conjunto,
uma em cada coluna. A seguir, clique em View/Graph... e depois em Ok.
Note que temos uma nica escala do lado esquerdo do grfico. Agora, clique com o boto
direito do mouse, v em options e Axes & Scaling e, depois Data scaling. A seguir, do lado direito
da tela, para cada srie selecionada, escolha a escala que quer coloc-la, se esquerda ou direita.
Nesse exemplo, escolhemos deixar a srie qx no eixo esquerdo e a px no direito. Como exerccio,
veja se consegue tambm inserir a informao da distribuio de freqncia para cada conjunto de
dados como mostrado na figura 2.4.
Programao 2.0.5 Um grfico com duas linhas em duas colunas de escalas diferentes pode
ser obtido a partir de uma instruo por linha de comando. Nesse caso, usamos d, que permite
criar um grfico com duas colunas. No se esquea de especificar qual a segunda srie de
dados que se quer colocar junto. No exemplo abaixo usamos a srie px. Note que tambm
especificamos a opo de histograma.
graph gqx.line(ab=hist,d) qx px
Outra forma de usar os recursos grficos para identificar caractersticas estatsticas dos
dados, uma possvel relao entre diferentes variveis dentre outras opes. Vamos iniciar essa
discusso mostrando como so as funes de distribuio. Selecione a srie qx. A seguir, v em
View/Graph... e, em Graph Type, selecione Distribution. Do lado direito, em Details, poder ver
que h diversas opes de grfico. Selecionando Histogram, o EViews
R
ir retornar a distribuio
dos dados de acordo com intervalos pr determinados.
Essa anlise pode ser complementada com um grfico que tem o mesmo formato, mas que, ao
invs de ser uma distribuio de frequncia, seja uma funo de densidade ou ento uma funo
de frequncia relativa. Essas trs opes podem ser selecionadas ao lado da opo Histogram na
caixa Options. V em Scaling e selecione Density. O desenho no ir mudar, mas, note que a
escala vertical sim. Isso porque, no caso da frequncia temos, no eixo vertical, a informao do
nmero de dados encontrados para cada intervalo. No caso da densidade estamos falando da rea, o
que tambm ser diferente para o caso de se selecionar Relative frequency.
Vamos agora adicionar uma estimativa da funo de distribuio utilizando uma funo de
Kernel. Com a srie de dados qx aberta, faa o grfico de distribuio e a seguir clique em Options.
24 Captulo 2. Grficos no EViews
R
A seguir, na caixa Details, selecione Options e depois em Add. Escolha Kernel density e clique
em ok. A figura 2.6 mostra o resultado1 .
Note que h vrias opes para a densidade de kernel. A figura 2.7 a seguir, mostra a comparao
entre essas diversas funes utilizadas para estimar a funo de densidade de kernel. Note que h
pouca diferena entre os resultados.
Programao 2.0.6 Para fazer um grfico de distribuio conjugado com uma estimativa via
densidade de Kernel, podemos usar o seguinte comando.
1 A ferramenta de determinar a densidade de kernel uma forma no-paramtrica utilizada para determinar a densidade
de uma funo de distribuio de dados aleatrios, onde no conhecemos a funo de distribuio verdadeira. Nesse
caso, fazemos inferncia sobre essa distribuio utilizando estatsticas da amostra que temos. H vrias funes de
kernel disponveis no EViews
R
: Epanechnikov, uniforme,triangular, normal, biweight, triweight e cosinus. Se a opo
utilizar a kernel normal, ento, na sua estimativa utilizada uma funo de densidade normal padro.
25
kernel, usamos:
Programao 2.0.7 Para inserir um grfico com distribuio terica junto com o histograma
podemos usar o seguinte comando:
26 Captulo 2. Grficos no EViews
R
(b) Quantis
Programao 2.0.8 Para ver o grfico da empirical CDF usamos o comando abaixo:
qx.distplot cdf
qx.distplot quantile
Alm dos grficos para uma srie de dados apenas, podemos ver como se d a relao entre
dois conjuntos de dados, uma investigao prvia dos resultados da regresso simples. Nesse caso,
vamos comparar o resultado da srie y com a srie qx, considerando que qx=f(y).
Primeiro selecione a varivel y e depois qx e clique com o boto direito do mouse abrindo
ambas como grupo. A ordem das variveis aqui importa na hora de verificar o resultado final.
Selecione sempre a varivel independente e depois a dependente para esse tipo de grfico. A seguir,
em View/Graph... selecione o grfico tipo Scatter e em Fit lines escolha Regression Line. Isso
ir adicionar uma linha de regresso entre as duas variveis. Depois, para mostrar o resultado da
linha de regresso clique em Options e, em Legend Labels selecione Detailed. Por fim, em Axis
borders selecione Kernel density para termos a informao da distribuio de kernel para cada
um dos dados. O grfico resultante ir indicar a relao positiva entre os dois conjuntos de dados e,
em cada eixo, a estimativa da distribuio de kernel para cada um desses conjuntos. Tambm ser
mostrado o resultado da equao de regresso simples.
Programao 2.0.9 Para fazer um grfico do tipo scatter plot entre duas variveis, inserindo
uma curva de regresso e mostrando o resultado da equao de regresso, devemos primeiro
fazer o grupo com as variveis de interesse e depois pedir o grfico. Por fim, usamos a opo
kernel para mostrar a distribuio de kernel nos eixos:
group g1 y qx
g1.scat(ab=kernel) linefit(leg=det)
Programao 2.0.10 Para fazer um grfico do tipo scatter plot entre diversas variveis, inse-
28 Captulo 2. Grficos no EViews
R
rindo uma curva de regresso, devemos primeiro fazer o grupo com as variveis de interesse e
depois pedir o grfico. Por fim, usamos a opo kernel para mostrar a distribuio de kernel nos
eixos. O comando m especifica que so mltiplos grficos. O comando mult=l especifica que
uma matriz de grficos triangular inferior.
group g1 y qx px pm qm
g1.scat(m, mult=l,ab=kernel) linefit(leg=det)
gulfcoast.wf1. Nesse esto informaes sobre demografia de distritos localizados em uma regio dos
EUA. So 234 informaes com 117 distritos, cada qual com duas informaes em dois momentos
do tempo. Os dados esto organizados no formato Unstructured/Undated. So quatro series: pop-
populao em 1.000 para cada distrito, pdiff, pop_previous e year. Como so dois momentos
no tempo, a organizao dos dados segue uma lgica de primeiro mostrar os 117 resultados para o
ano de 2005 e depois os 117 resultados para o ano de 2006. Note que so criados identificadores
para os indivduos. O County_code mostra o cdigo de cada municpio, County_name o nome dos
2.2 Exemplos de programas.prg 29
municpios, que se repetem a partir da observao de nmero 118. O id mostra o estado associado
ao distrito; state_code o cdigo do estado e state_name o nome do estado.
Vejamos como seria um grfico que compara o total da populao dos 117 distritos em cada um
dos dois anos analisados. Abra a srie pop e depois v em View/Graph... e mude para a opo
Categorical graph. A seguir selecione a opo Bar, para fazermos um grfico de barras, e depois
em Betails use Sums, para termos a soma da populao em cada um dos anos. Note no detalhe que
especificamos na opo Within graph a srie year. Isso ir fazer com que o programa entenda
que h dois momentos no banco de dados.
for %a y qx px pm qm
graph g{%a}.line(n) {%a}
g{%a}.setelem linecolor(0,0,0)
g{%a}.draw(dashline, left, rgb(172,172,172)) 0
g{%a}.options size(6,2)
show g{%a}
next
Programao 2.2.2 Abaixo a sequncia de comandos que utilizamos para abrir automatica-
mente o exemplo1.wf1, criar um grfico com as sries qx e px, uma em cada eixo, com as
respectivas funes de distribuio. Alm de pintar na cor vermelha qx e px em azul, adicionar a
barra cinza vertical, entre 2008Q2 e 2009Q1, e adicionar o ttulo ao grfico.
%path = @runpath
30 Captulo 2. Grficos no EViews
R
cd %path
load exemplo1.wf1
graph gqx.line(ab=hist,d) qx px
gqx.setelem(1) linecolor(255,0,0)
gqx.setelem(2) linecolor(132,112,255)
gqx.draw(shade,bottom,color(gray)) 2008Q2 2009Q1
gqx.addtext(pt=12,face="ubuntu light",t) "Series QX e PX"
show gqx
Com a utilizao de sub-rotinas podemos sofisticar nossos programas. A criao destas feita
da mesma forma que um programa, File/New/Program. Para "chamar"uma sub-rotina dentro de
um programa necessrio especificar o caminho exato da mesma. Caso o caminho inteiro no
seja especificado o programa.prg deve estar salvo dentro do mesmo diretrio da sub-rotina a ser
excutada.
Programao 2.2.3 A sub-rotina sub_recessoescodace.prg descrita a seguir destaca as reces-
ses do ciclo de negcios brasileiro datado pelo Comit de Datao de Ciclos Econmicos
(CODACE), em 30 de Julho de 2015.
O EViews
R
permite a construo de diversas curvas de distribuio, que podem tanto serem
discretas quanto contnuas. As mais utilizadas em testes de econometria so as funes normal,
t-student, log-normal, F e qui-quadrado, que aqui iremos ilustrar1 .
Ao trabalhar com funes de distribuio, devemos compreender dois pontos importantes. O
primeiro se a varivel em questo categrica ou numrica e, o segundo, as diferenas que existem
entre uma funo de probabilidade, ou densidade, uma distribuio cumulativa e uma distribuio
inversa, que a inversa da funo cumulativa. As variveis categricas so fceis de identificar. Ao
aplicar um questionrio com perguntas que contenham respostas como do tipo, sexo, nacionalidade
e etc, obtemos como resposta caractersticas e no nmeros. Essa classificao ser importante
para definir que tipo de teste ir usar para avaliar os resultados. Por exemplo, se perguntarmos o
sexo dos entrevistados, temos respostas categricas como homem ou mulher. Por outro lado, se
perguntarmos a idade teremos respostas numricas. Essas podem tanto serem discretas, ou seja, 25
anos, 35 anos, ou contnuas, expressando a idade inclusive em minutos, 13.140.325 minutos de
vida.
A funo de densidade representa a distribuio de probabilidade de uma varivel aleatria.
como a probabilidade ir se comportar de acordo com os valores que essa varivel aleatria ir
assumir. comum no conhecermos a funo de densidade que ir representar o nosso conjunto
de dados. Por isso que fazemos testes para ver se os nossos dados possuem uma distribuio que
pode ser aproximada, por exemplo, por uma curva normal, uma curva t-student, uma curva F ou
qualquer outra. Dada a nossa funo de densidade, toda a rea abaixo da curva dever somar 1, que
a probabilidade da varivel assumir qualquer valor. No EViews
R
, supondo uma curva normal, a
funo densidade utilizada a partir do comando @dnorm(), onde dentro do parnteses podemos
colocar os valores do banco de dados2 . A funo de densidade pode ser determinada fazendo a
derivada da funo de distribuio cumulativa. Em termos matemticos uma funo densidade de x
1 H diversas outras distribuies contnuas em estatstica como a Beta, de Cauchy, Exponencial, Gamma, Gum-
bel, Logstica, Uniforme e de Weibull. Dentre as distribuies contnuas, destaque para a Binomial, Geomtrica,
Hipergeomtrica, Multinomial e de Poisson.
2 Os cdigos das diferentes funes de densidade no EViews so precedidos da letra d. Por exemplo:
Por fim, a distribuio inversa ir representar a rea da curva que complementar funo
de distribuio cumulativa. Agora fazemos o procedimento inverso da cumulativa, especificamos
a rea desejada e, com isso, obtemos o ponto na curva que representa essa rea. Aqui, temos
conhecimento da rea da curva que estamos avaliando e queremos encontrar o ponto associado. No
EViews
R
o comando utilizado para a distribuio inversa, para o exemplo de uma curva normal,
@qnorm().
Todas essas trs formas de avaliar uma funo de distribuio esto disponveis noEViews
R
e
sero aplicadas a diferentes formas de distribuio a seguir. Nesse caso, para cada uma das opes
de uma distribuio o EViews
R
fornece cdigos diferentes. Por exemplo, para uma funo de
distribuio cumulativa, tambm denominada de CDF, usa-se o comando @c. Para uma funo de
probabilidade (densidade), usa-se @d e, por fim, para uma funo inversa, @q. Tambm possvel
criar funes de distribuio aleatrias a partir do comando @r, que gera nmeros aleatrios.
Veremos isso nas aplicaes para as diferentes distribuies a serem analisadas nos tpicos a seguir.
3 De maneira anloga ao visto, na funo de densidade cumulativa precedida da letra c nos comandos do EViews
R
Voc pode modificar a qualquer momento o tamanho desse banco de dados, basta clicar duas
vezes em Range e aumentar ou diminuir o intervalo. Note que, nesse momento, no h nenhuma
informao, ou seja, nenhum dado associado. Como primeiro passo, vamos simular uma varivel
aleatria que tenha 1 milho de dados definindo que a mesma tenha uma distribuio normal. Para
fazer isso vamos usar o comando @rnorm como mostrado no box de programao.
rndseed 10
series z=@rnorm
34 Captulo 3. Funes de Distribuio
(a) Distribuio
(b) Com densidade de Karnel
Programao 3.1.2 Para fazer um grfico que tenha o histograma de uma srie e mais duas
curvas tericas com diferentes valores para a mdia, podemos usar o comando abaixo. O termo
p1=1 representa a mdia=1:
Para fazer o mesmo grfico, mas com diferentes valores para o desvio-padro, especificando trs
diferentes curvas, que o segundo parmetro na curva normal, usamos:
Podemos mudar os parmetros dessa densidade terica para que ela fique mais ntida. Repita
os passos a seguir e, em theoretical density especifique mdia = 1 e desvio padro = 1. Note que
agora a curva de cor verde se desloca para a direita na Figura 3.4a.
Esse procedimento pode ser repetido para diferentes valores de mdia e desvio padro e, dessa
3.1 A Curva Normal 35
(b)
(a)
forma, podemos encontrar diferentes formatos para a curva normal. Para exemplificar isso, com o
grfico aberto clique em options. A seguir, em options novamente e, do lado esquerdo, apague os
grficos histogram e kernel. Acrescente mais duas curvas normais tericas. No total, teremos trs
curvas (figura 3.4b). Agora, deixe todas com mdia igual a zero e faa para a primeira curva desvio
padro igual a 1, depois para a segunda um desvio padro igual a 2 e, para a terceira curva, desvio
padro igual a 3. Clique em ok e voc ir gerar o grfico da Figura 3.4b.
Ao especificar diferentes valores para o desvio-padro na curva, estamos determinando o que se
conhece como curtose. Note que, para a curva azul no grfico 3.4b, temos uma maior concentrao
de dados em torno da mdia e, na curva verde, mais achatada, os dados so mais espalhados. Iremos
ver como obter o resultado estatstico da curtose a partir da mdia e do desvio padro no prximo
captulo. Mas, o leitor j pode ir se familiarizando com o formato de uma distribuio de dados
com diferentes desvios em torno da mdia.
Programao 3.1.3 Para avaliar a funo de densidade em um ponto qualquer da nossa funo
de distribuio podemos usar o comando d antes da distribuio que est sendo avaliada. Para
o caso de uma distribuio normal, com mdia 0 e desvio-padro 1, usamos:
scalar r=@dnorm(0)
Aqui, o comando scalar cria a caixa de nome r para receber o valor da distribuio. A seguir,
especificamos d, para determinar que queremos a funo de densidade, seguido de norm, que a
curva normal com mdia 0 e desvio-padro 1 e, por fim, o valor 0 entre parnteses especifica
que estamos avaliando a densidade naquele valor.
Agora que j sabemos como gerar uma curva normal aleatoriamente, vamos testar outras opes.
Suponha que se queira um conjunto de dados que segue determinados parmetros, por exemplo,
mdia igual a 0 e desvio-padro igual a 1. Nesse caso, podemos criar a srie x usando apenas o
comando nrnd.
Por outro lado, se queremos especificar uma mdia diferente, como por exemplo, 100 e
varincia igual a 22 o melhor usar uma equao. Nesse caso, criamos a srie y e o comando @sqr
representa a raiz de 22, que seria o desvio-padro. A seguir, multiplicamos esse por uma srie
gerada aleatoriamente com distribuio normal.
Programao 3.1.4 Tambm podemos gerar uma srie de dados que segue uma distribuio
36 Captulo 3. Funes de Distribuio
Series x=nrnd
Alternativamente, para gerar uma srie de dados que tem mdia igual a 100 e varincia igual a
22, usa-se:
Series y=100+@sqr(22)*nrnd
O comando que especifica uma distribuio inversa tambm pode ser utilizado para gerar uma
sequncia de nmeros aleatrios porm, partindo de probabilidades. Vamos escolher a distribuio
normal para exemplificar, criando uma srie de nome t, e usando o comando q.
Programao 3.1.5 Por fim, podemos gerar dados com distribuio, como, por exemplo, uma
normal, com mdia zero e varincia igual 1 usando uma funo inversa. Para tanto, usamos o
termo q que representa que estamos construindo uma funo quantlica, ou seja, a inversa da
funo de distribuio cumulativa. O termo rnd especificado para o parmetro de probabilidade.
Esse tem que ser entre 0 e 1. Nesse caso, ao colocar rnd construmos a curva normal a partir de
diversos valores aleatrios para a probabilidade.
series t=@qnorm(rnd)
O comando q antes da especificao da curva tambm til para determinar o ponto da curva
que associado a uma determinada rea. Para o exemplo de uma curva normal padro sabemos
que o ponto 0, que representa a mdia dos dados, divide a rea em duas partes iguais, 50% antes e
50% depois. Se usarmos scalar a=@qnorm(0.5) encontraremos o valor 0, ou seja, o ponto a = 0
representa 50% da curva acumulada. Teste scalar a=@qnorm(0.025), que uma rea de 2,5%.
O resultado ser -1,959, ou seja, o ponto no qual a rea a esquerda de x representa 2,5% do total.
O que est dizendo esse comando? Primeiro que a funo utilizada qnorm() ir retornar um
valor. Sendo assim, especificamos a como um escalar, exatamente porque ir receber um nmero.
Em segundo lugar, o valor 0.5 representa uma probabilidade de 50% que ser aplicada funo
normal. Nesse caso, queremos saber qual o valor na curva normal que ir resultar em uma rea de
50%. Essa rea especificada como toda a rea a esquerda do valor.
Agora, se estamos interessados em saber qual o valor associado a uma curva normal padro
que ir determinar 95% da rea, como podemos proceder? Usamos scalar a = @qnorm(0.95)
o que ir retornar o valor 1,644854.
A informao sobre a funo inversa similar ao que obtemos ao usar a funo cumulativa.
Porm, enquanto que na funo inversa usando o comando @q especificamos a rea e obtemos o
ponto, com a funo cumulativa a partir de @c especificamos o ponto e obtemos a rea.
Exerccio 3.1 Encontre a rea entre dois pontos de curva normal padro que preencha entre
2,05 desvios padro.
Exerccio 3.2 Determine o formato de diferentes curvas normais variando apenas o desvio
padro. Para uma mdia igual a zero, use os seguintes valores para os desvios padro: curva 1:
1,3; curva 2: 2,1; curva 3: 2,9.
Nesse momento podemos inserir os conceitos de quantis. Seja a curva normal padro, imagine
que se queira dividir sua rea em 4 partes iguais. O que queremos obter aqui o quantil de uma
distribuio normal padro. Nesse caso, quais seriam os respectivos pontos que permitem ter, em
3.1 A Curva Normal 37
cada quantil, 25% da rea da curva normal? Isso pode facilmente ser obtido usando o comando
scalar quantil = @qnorm() como valores 0.25; 0.5; 0.75 o que ir retornar os pontos -0,67; 0;
0,67 respectivamente. Assim, entre e -0,67 h 25% da rea de uma curva normal padro. Entre
(-0,67; 0) h 25%, entre (0; 0,67) outros 25% e entre (0,67; ) tem 25%.
(b)
(a)
F(z) = P(z r)
38 Captulo 3. Funes de Distribuio
onde F(z) a rea da curva acumulada at o ponto r, ou seja, a estatstica F(z) representa a funo
cumulativa. No exemplo da curva normal, temos que 50% dos dados se encontram abaixo da
mdia e 50% acima. Como a mdia zero para uma curva normal padro ento, a probabilidade
acumulada at o valor 0 50% ou ento, expresso de outra forma: F(z) = P(z 0) = 0, 5
Programao 3.1.6 Usando como exemplo a nossa curva normal com mdia 0 e varincia
unitria, sabemos que o valor 0 divide ao meio a funo de distribuio, colocando 50% da rea
para cada lado da distribuio. Nesse caso, isso pode ser verificado a partir de um comando do
EViews
R
que usa o valor para encontrar a rea a partir de:
Scalar r=@cnorm(0)
Aqui, primeiro criamos um scalar de nome r e que ir receber o valor da funo. A seguir,
o comando c usado antes da especificao da curva normal norm serve para determinar que
estamos avaliando a funo CDF cumulativa. Por fim, o valor 0 entre parnteses significa
que queremos avaliar a probabilidade de um valor no exceder o valor 0. Isso ir retornar o
valor 0,5. Ou seja, o total da distribuio acumulada at o valor 0 de 50%.
Programao 3.1.7 Para conseguir determinar a rea entre dois pontos da curva, podemos
combinar duas funes cumulativas. Primeiro determinamos a rea at o ponto maior e, depois,
retiramos a rea at o ponto menor.
Considerando uma curva normal padro, vamos avaliar a rea entre -1 e 1 desviopadro
usando o comando a seguir:
scalar area=@cnorm(1)-@cnorm(-1)
Esse ir retornar o valor de 0,682, que o mesmo que dizer que 68,2% dos dados esto entre
-1 e 1. Alm desse, um intervalo muito utilizado de z = 2 e tambm 3. Esses podem ser
encontrados apenas mudando o valor entre parnteses do comando acima.
No incio desse tpico aprendemos a gerar uma srie de nmeros aleatrios usando o comando
vector e dando o nome z para esse vetor. Porm, muitas vezes til que se tenha uma matriz de
nmeros aleatrios, ou seja, diversos vetores. Isso pode ser gerado no EViews
R
de forma simples
usando o comando m e, ao invs de criar um scalar, especificando matrix.
Programao 3.1.8 A seguir, podemos criar uma matriz de nmeros aleatrios que seguem
uma distribuio normal, usando os comandos mostrados abaixo. Para uma matriz de 1.000.000
linhas e 30 colunas, usamos:
matrix b=@mnrnd(1000000,30)
At esse ponto ilustramos o uso da curva normal considerando que a mdia zero e o desvio-
padro 1, porm, o mais comum em investigaes estatsticas que os dados possuem mdia
diferente de 0 e desvio padro diferente de 1. No se preocupe se seu banco de dados no possuir
essa caracterstica, isso fcil de ser contornado a partir da padronizao dos dados. Nesse caso,
transformamos a distribuio de nossos dados que podem ter qualquer mdia e desvio padro, em
uma distribuio que tenha mdia=0 e desvio padro=1. Isso feito facilmente a partir de:
x x
z=
Onde z o novo valor, x o valor da srie original, x a mdia dos dados e o desvio padro
dos dados. Isso pode ser feito no EViews
R
especificando um comando.
Programao 3.1.9 Suponha que tenhamos um conjunto de dados com mdia 35 e varincia
de 3,5. Podemos gerar esses dados utilizando:
Series n=35+@sqrt(3.5)*nrnd
Podemos transformar essa distribuio em mdia 0 e desvio padro 1 usando o seguinte comando:
series y=(x-@mean(x))/@stdev(x)
Para o nosso exemplo, onde a srie n tem mdia 35 e desvio-padro de @sqrt(3.5), fazemos:
Series n1=(n-35)/@sqrt(3.5)
Suponha que temos uma srie de dados Z com distribuio normal padro e um outro conjunto
de dados Q(20) com distribuio q-quadrado com 20 graus de liberdade (veremos essa curva mais
a frente). Alm disso, suponha que Z e Q so sries de dados independentes. Se dividirmos uma
srie pela outra, teremos um conjunto de dados resultante com uma distribuio t-student com 20
graus de liberdade. Na frmula abaixo o parmetro v representa os graus de liberdade.
z
t(v) = r
Q(v)
v
Para montar isso vamos especificar z=rnorm e q = @qchisq(rnd,20) a seguir use o comando
series zq = z/@sqrt(q,20) e compare com uma curva encontrada a partir de series t =
@rtdist(20).
Programao 3.2.1 Para criar uma varivel aleatria que tenha distribuio t-student, usamos
o comando abaixo. Note que h um parmetro adicional a ser especificado, v, que representa os
3.2 A curva t-student 41
series z=@rtdist(v)
Tal qual na curva normal tambm podemos usar aqui o comando que especifica uma distribuio
inversa para gerar uma sequncia de nmeros aleatrios. Alm de ser til para gerar uma curva
qualquer, o comando q til para determinar o ponto da curva que associado a uma determinada
rea. Para o exemplo de uma distribuio t-student a mdia dos dados divide a rea em duas partes
iguais, 50% antes e 50% depois. Se usarmos o termo scalar a=@qtdist(0.5,50) encontraremos
o valor 0. Note que aqui no faz diferena os graus de liberdade, a mdia sempre ir dividir a rea
ao meio. Teste scalar a=@qtdist(0.025,50), que uma rea de 2,5%. O resultado ser -2,008,
ou seja, o ponto no qual a rea a esquerda representa 2,5% do total para uma curva t-student com
50 graus de liberdade. Esse resultado para uma curva normal seria -1,959 comprovando que a curva
t-student til para representar dados com valores extremos.
Programao 3.2.2 Para gerar uma distribuio de dados t-student tambm podemos recorrer
a funo inversa usando o termo q, a inversa da funo de distribuio cumulativa. Como esse
comando usa uma rea para determinar os pontos, ao usar o comando rnd, teremos valores entre
0 e 1, exatamente o que precisamos para especificar as reas da distribuio. Aqui usamos um
exemplo com 50 graus de liberdade.
series t=@qtdist(rnd,50)
Lembre-se que, sempre que quiser encontrar um ponto que esteja associado a uma rea da
curva t-student, usamos o comando q. Anlogo a esse comando, temos a distribuio cumulativa,
que representa a probabilidade de se observar um valor de uma srie de dados que no excede
determinado valor especfico. Tal como fizemos na curva normal, esse clculo pode ser representado
a partir de:
F(z) = P(z r)
onde F(z) a rea da curva acumulada at o ponto z. Na curva t-student temos que 50% dos dados
se encontram abaixo da mdia e 50% acima. Com a mdia zero ento, a probabilidade acumulada
at o valor 0 50% ou ento, expresso de outra forma:
F(z) = P(z 0) = 0, 5
Scalar z=@ctdist(0,50)
O resultado aqui ser 0,5, mostrando que toda a rea da curva acumulada at o ponto 0 de 50%.
Note que isso independe de colocarmos o valor dos graus de liberdade em 100 ou 200. Isso
porque estamos avaliando a curva em seu ponto mdio. Agora, se avaliarmos a curva em outro
ponto, os graus de liberdade produziro resultados diferentes.
Note que a informao sobre a funo inversa, dado por q, similar ao que obtemos ao usar a
funo cumulativa. Porm, enquanto que na funo inversa usando o comando @q e especificamos
42 Captulo 3. Funes de Distribuio
a rea para obtemos o ponto, no caso da funo cumulativa usa-se @c e especificamos o ponto para
obtermos a rea.
Programao 3.2.4 Para avaliar a funo de densidade de uma curva t-student usamos:
scalar r=@dtdist(x,v)
Aqui, o comando scalar cria a caixa de nome r para receber o valor da distribuio. A seguir,
especificamos d, para determinar que queremos a funo de densidade, seguido do nome da
distribuio tdist. Por fim, escolhemos o valor do ponto na distribuio x e os graus de liberdade
em v.
O mais importante ao estudar a curva t-student a construo de intervalos de confiana. Para
tanto precisamos saber qual a rea definida entre dois pontos. Por exemplo, como podemos saber
a rea de uma curva t-student com 50 graus de liberdade entre -1 e 1? Veja no box de programao.
Programao 3.2.5 Para encontrar a rea entre dois pontos na curva t-student combinamos
duas funes cumulativas. Suponha que se queira avaliar entre -1 e 1:
Scalar area=@ctdist(1,50)-@ctdist(-1,50)
O resultado ser 67,78%, o que menor que os 68,2% da curva normal. Agora vejamos no
extremo da curva, quando consideramos entre 3 e -3. O resultado para a t-student ser 99,57%
enquanto que para a curva normal ser de 99,73%.
Exerccio 3.3 Encontre a rea entre dois pontos +2,50 e -2,50 para uma curva t-student com 50
graus de liberdade.
Exerccio 3.4 Encontre a rea entre 3 e -3 para diferentes curvas t-student usando:
Curva 1: 15 graus de liberdade;
Curva 2: 30 graus de liberdade;
Curva 3: 60 graus de liberdade.
Diferena (O E) 8 -8 0
(O E)2 64 64 128
Figura 3.9
Como pode ser visto, temos duas categorias, cara e coroa. Nesse caso, a estatstica qui-
quadrado dada pela soma da diferena das duas possibilidades em relao ao valor esperado, ou
seja, 2 = 1, 28. O passo seguinte determinar a probabilidade associada a esse valor. Mas, antes
de fazer isso, vamos entender como a distribuio qui-quadrado.
No EViews
R
, essa funo de distribuio encontrada a partir do comando chisq. Com o
arquivo de antes aberto, vamos gerar uma distribuio aleatria com 1000000 de dados usando
o comando @qchisq(). Um ponto importante a destacar que o teste 2 s pode ser aplicado a
nmeros, no sendo aplicvel a propores, percentuais, mdias e etc.
Programao 3.3.1 A curva qui-quadrado tem um formato diferente. Usando o mesmo arquivo
de antes, com 1000000 de dados vamos construir uma curva qui-quadrado com 1 grau de liberdade
a partir do comando q, que fornece a inversa da curva:
rndseed 2
series q=@qchisq(rnd,1)
Aqui, o termo rnd utilizado para gerar nmeros aleatrios entre 0 e 1 e, nesse caso, representa
diferentes valores para a probabilidade. Note que a probabilidade deve ficar entre 0 e 1.
Agora que conhecemos como a distribuio qui-quadrado podemos retornar ao nosso exemplo
das moedas e descobrir a probabilidade associada ao nosso teste. Pelos clculos, obtemos 2 = 1, 28.
Esse o valor que tem que ser colocado na curva para avaliar a probabilidade associada. Assim, o
total da curva entre 0 e 1,28 pode ser encontrado fazendo uso da opo de distribuio cumulativa
CDF at o ponto 1,28.
Programao 3.3.2 Para encontrar a rea da curva entre o valor 0 e um ponto especificado,
podemos usar o comando @cchisq(). Para o nosso exemplo, temos o valor de 1,28 com 1 grau
de liberdade. Sendo assim, usamos:
scalar qq=@cchisq(1.28,1)
Fazendo isso, encontramos o valor de 0,7421, que representa 74,21% da curva entre 0 e 1,28.
Ou seja, h uma probabilidade de 74% de nossa moeda ser viciada. O famoso p-valor associado
a esse teste, que ir determinar se aceitamos ou rejeitamos a hiptese nula, obtido a partir de
1 0, 7421 = 0, 2579. Ou seja, p-valor = 0,25 e, dependendo do nosso critrio de significncia
podemos aceitar ou rejeitar a hiptese nula. Com um critrio de 0,05 (ou 5%), ento aceitamos
a hiptese nula. Recorde-se que a nossa hiptese nula de que o valor observado fosse igual ao
esperado, ou seja, que a moeda era honesta. Portanto, podemos aceitar essa hiptese.
Aqui deve surgir a dvida: porque 1 grau de liberdade? No nosso exemplo, estamos trabalhando
com duas classes, cara e coroa. Nesse teste, sempre subtramos o valor do total de classes de 1,
portanto n 1 = 2 1 e, nesse caso, temos 1 grau de liberdade.
Exemplo 3.2 Vejamos outra aplicao de um teste qui-quadrado do tipo Goodness of fit onde
comparamos frequncias. Nesse caso, vamos ver se um dado honesto. Como se sabe, h a
possibilidade de sair seis diferentes nmeros e, nesse caso, a expectativa que cada um tenha uma
probabilidade igual. Ou seja, a probabilidade de sair o nmero 1 de 1/6, a mesma para sair o
nmero 4 e assim por diante. Definimos as nossas hipteses de teste como:
H0 : o dado honesto (as propores so iguais)
H1 : o dado no honesto (as propores so diferentes)
Agora, vamos lanar um dado 120 vezes e anotar os resultados observados junto com o esperado
em uma tabela como mostrado abaixo.
Note que o resultado para alguns nmeros supera em muito o valor que se esperava. Um
indcio de que o dado pode ser viciado. Para verificar isso, podemos usar o teste qui-quadrado
comparando o valor observado com o esperado a partir da frmula:
46 Captulo 3. Funes de Distribuio
(OE)2
Resultado Esperado E
1 30 20 5
2 12 20 3,2
3 27 20 2,45
4 18 20 0,20
5 17 20 0,45
6 16 20 0,80
Total 120 120 12,10
(O E)2
2 =
E
que aplicada para cada um dos resultados. Ao final, somamos todos os seis. Essa a estatstica
qui-quadrado. Para o nosso exemplo, 2 = 12, 1.
Para testar se esse valor corresponde ou no a aceitar ou rejeitar a hiptese nula, precisamos ter
o nmero de graus de liberdade. Temos um procedimento com seis termos que foram utilizados
para calcular a estatstica, ou seja, nosso nmero de linhas. Sabemos que o nmero de graus de
liberdade desse tipo de teste dado por esse valor menos 1 (No de linhas 1). Sendo assim, nosso
experimento tem 5 graus de liberdade, (5)2 = 12, 10.
Vimos acima duas aplicaes do teste qui-quadrado para o que se conhece como Goodness
of fit. Esses testes so aplicados quando temos uma situao onde possvel determinar um valor
esperado, ou seja, a nossa hiptese baseada em uma teoria.
Outra possibilidade de aplicao desse teste para exerccios do tipo teste de independncia,
ou ento, como conhecido, via tabela de contingncia. Nesse caso queremos ver se duas variveis
so independentes e, para tanto, tambm fazemos uso do valor esperado. Mas, nesse tipo de teste,
no conhecemos o valor esperado e, para tanto, devemos construir o mesmo utilizando os dados
observados.
Como regra de formulao das hipteses a serem testadas, definimos como hiptese nula o fato
de que no h associao entre os grupos, ou distribuies, que esto sendo testadas, ou seja, as
variveis so independentes. Dessa forma, na hiptese alternativa teremos que as variveis so
dependentes, ou seja, h relao entre elas.
Vejamos um exemplo de teste de independncia usando a funo de distribuio qui-quadrado.
Exemplo 3.3 Teste de Independncia. Considere que se tenha um experimento e que se queira
(g + h + i)(c + f + i)
N
Onde N dado por (a + b + c + d + e + f + g + h + i). Usando esse procedimento, podemos
produzir a matriz de valores esperados dos nossos resultados:
Depois de encontrar esses valores esperados o procedimento seguinte encontrar a estatstica
qui-quadrado, que ir seguir exatamente os passos dados anteriormente quando do clculo da
moeda honesta. Primeiro encontra-se a diferena entre cada valor observado e o esperado. A seguir,
eleva-se ao quadrado e divide pelo valor esperado da clula para, ao final, somar todos os resultados.
Esse ltimo valor a estatstica qui-quadrado. Esses resultados so mostrados na tabela a seguir,
2
onde o resultado de cada clula dado por (OE)
E .
2
Observe que = 118, 34. Agora falta determinar o nmero de graus de liberdade. A regra
para testes do tipo tabela de contingncia usar:
O que ir nos gerar um total de 4 graus de liberdade. Portanto, o nosso teste envolve uma
2 = 118, 34. Usando a mesma funo de antes para encontrar o p-valor no
estatstica da forma (4)
EViews
R
, ou seja, scalar qq=1-@cchisq(118.34,4), teremos pvalor=0,000. Para um critrio
de 5%, podemos concluir pela rejeio de H0 . Ou seja, no possvel aceitar H0 e, portanto,
podemos afirmar que existe uma relao entre os trs diferentes estados e as pragas que foram
observadas em determinado ano.
Exemplo 3.4 Muito se escuta falar que o fator jogar em casa costuma ser determinante para
uma equipe de futebol no decorrer de um campeonato. Para comprovar esse fato, vamos testar essa
hiptese para a equipe do Grmio durante o campeonato brasileiro de 2003 a 2012. A tabela a
seguir traz a diviso dos resultados, separados entre jogos em casa e fora e resultados de vitria ou
no vitria, que pode tanto ser derrota quanto empate.
Tal como estruturado, as nossas hipteses so assim dadas:
H0 : O fator joga em casa no faz diferena (variveis so independentes)
H1 : Jogar em casa faz diferena (variveis so dependentes)
Como temos uma tabela 2x2, para encontrar o valor do teste qui-quadrado no necessrio
encontrar a diferena entre cada valor observado e esperado, podemos usar, de forma direta, a
frmula:
2 (ad bc)2 (a + b + c + d)
(1) =
(a + b)(c + d)(a + c)(b + d)
Como temos uma tabela 2x2, h 1 grau de liberdade. Dessa forma, (1)2 = 43, 13. Usamos o
Apesar de termos comentado sobre o uso de tabelas de contingncia com o nmero de linhas
igual ao nmero de colunas, frequente termos tabelas de contingncia que no so quadradas.
Suponha um nmero de linhas r e de colunas c. De forma geral, a frmula para calcular a
frequncia esperada para cada clula dada por:
( da lina r)( da lina c)
E=
N
onde N o tamanho da amostra.
O ltimo ponto de discusso sobre a aplicao do teste qui-quadrado sobre amostras e valores
esperados pequenos. Em algumas situaes comum nos depararmos com um experimento onde o
nmero de resultados menor do que 40. Nesse caso, claramente teremos um problema no teste.
Alm disso, tambm podemos ter uma situao onde o valor esperado de um evento, uma das
clulas da tabela encontrada, tem um resultado menor do que 5.
Apesar de ser um problema, mesmo assim, podemos fazer o teste, basta que se faa uma
correo que, na literatura de estatstica, denominada de Correo de Yates. E isso simples.
Quando for calcular o valor esperado de cada uma das clulas, ao invs de utilizar a frmula:
(O E)2
2 =
E
Usamos a seguinte expresso:
(|O E| 0, 5)2
2 =
E
3.4 Curva F
Outra funo de distribuio muito til a F, comumente conhecida como distribuio de Fisher, ou
distribuio de Snedecor onde seu uso mais comum na anlise de varincia, tambm conhecido
como teste ANOVA. A distribuio F uma distribuio encontrada a partir da razo da varincia
de duas populaes independentes. Nesse caso, como estamos com duas populaes, ou amostras,
temos dois graus de liberdade. Por isso que a funo F aparece sempre com F(v1 ,v2 ) onde v1 so os
graus de liberdade dados pelo nmero de amostras menos 1 e v2 o nmero de tipos de medidas.
A funo densidade de probabilidade de uma varivel aleatria que tem distribuio F, comv2
e v1 graus de liberdade dada por:
v21
v1 + v2 v1 v1
x( 2 )1
2 v2
F(x) = (m+n) (3.4)
hv i hv i v 2
1 2 1
x+1
2 2 v2
onde o valor de x dado no intervalo x [0, ), ou seja, assume valores positivos e () uma
funo gamma. De forma geral, a curva F() mede a razo entre duas distribuies qui-quadrado
que sejam independentes.
Dentre as suas principais propriedades, temos que ela assimtrica direita, ou seja, seus
valores sempre sero positivos. Dentre seus principais usos podemos destacar o teste para identificar
se duas amostras independentes foram geradas por uma populao com distribuio normal com
a mesma varincia e tambm se duas amostras independentes possuem mesma varincia. Como
hiptese principal tem o fato de que a distribuio da populao no qual se est gerando a amostra
normal e que as duas populaes so independentes.
Vejamos como podemos gerar 1.000.000 nmeros aleatrios que descrevem uma distribuio F.
Nesse caso, usamos, no EViews
R
, o comando @qfdist(), onde o termo q representa a distribuio
inversa, usada para gerar a curva procurada.
50 Captulo 3. Funes de Distribuio
Programao 3.4.1 A curva F tambm muito til para testes em estatstica e econometria.
Para simular essa curva no EViews
R
podemos usar os comandos a seguir:
rndseed 10
series f=@qfdist(rnd,10,10)
Para essa funo temos 3 parmetros a determinar dentro dos parnteses. O primeiro a
probabilidade associada. Como queremos 1.000.000 de nmeros, usamos o termo rnd, que
utilizado para gerar nmeros aleatrios entre 0 e 1 e, nesse caso, representa diferentes valores
para a probabilidade. A seguir temos o nmero de graus de liberdade do numerador e o nmero
de graus de liberdade do denominador. O mesmo grfico pode ser gerado a partir de:
Series f=@rfdist(10,10)
Note que, ao especificar valores pequenos para os graus de liberdade, temos uma curva mais
assimtrica (conforme a figura 3.11a). Na medida em que vamos aumentando os graus de liberdade,
a curva F vai tendo outro formato, at que, ao ter um nmero grande de graus de liberdade, ir se
aproximar da distribuio normal (conforme a figura 3.11b).
Da mesma forma que para as demais curvas aqui avaliadas, para se encontrar a rea abaixo
da curva F podemos usar a funo de distribuio cumulativa CDF. Por exemplo, para uma curva
F(50,10) qual seria a rea acumulada at o valor 2?
Programao 3.4.2 Para encontrar a rea da curva acumulada at determinado valor usamos a
funo abaixo:
scalar f4=@cfdist(x,v1,v2)
series f4=@cfdist(2,50,10)
3.5 Distribuio de Poisson 51
e3 (3)0
P(0) = = 0, 049
0!
Assim, a probabilidade de que em 1 hora no chegue nenhum cliente de 4,9%. Outra pergunta
interessante seria se, ao invs de querer saber o nmero exato, trabalharmos com um valor mnimo.
Sendo assim, qual a probabilidade de que chegue pelo menos um cliente? Nesse caso, podemos
estimar via diferena de no chegar nenhum com o total da curva. O total de 100% e ento:
scalar p=@cpoisson(x,m)
Para o nosso exemplo acima usamos, para medir a probabilidade de no chegar nenhum cliente:
scalar p=@cpoisson(0,3)
Exerccio 3.5 Suponha que em uma esquina ocorram, em mdia, 4 acidentes por semana.
Encontre a probabilidade de que, em qualquer semana, ocorram 6 acidentes. Depois qual a
probabilidade de ocorrncia de pelo menos 2 acidentes por semana?
Dica: na primeira pergunta x = 6, = 4, t = 1. Na segunda pergunta P( 2) = 1 P(1),
x = 1, = 4, t = 1
Vimos nesse captulo as curvas de distribuio e aplicao de testes, sejam esses paramtricos
ou no paramtricos. Nesse ponto importante entender a diferena entre esses dois tipos de
52 Captulo 3. Funes de Distribuio
testes. Quando fazemos uso de estatsticas dos dados da amostra e da distribuio dos mesmos em
algum teste como, por exemplo, o teste t, teste F, dentre outros, dizemos que o teste em questo
paramtrico. Ou ento, denominados de testes clssicos. Nesse tipo de teste assumimos que a
distribuio dos dados conhecida.
Porm, h tambm os testes no paramtricos, onde no feita nenhuma hiptese sobre o
tipo de distribuio de probabilidade dos dados que estamos usando. Ou seja, nesse tipo de teste
dizemos que estamos livres de especificar o tipo de distribuio. Portanto, usamos os testes no
paramtricos quando desconhecemos essa distribuio ou os dados no satisfazem s suposies
que so assumidas pelas tcnicas tradicionais.
3.6 Exerccios
Exerccio 3.6 Sua namorada te liga, em mdia, 2 vezes por dia, considerando 24 horas. Qual
a probabilidade de ela no te ligar em 1 dia? Qual a probabilidade dela te ligar pelo menos 1 vez
por dia?
Exerccio 3.7 Probabilidade Considerando uma curva normal padronizada, encontre a proba-
bilidade de se ter um valor tal como:
(a) P(z) = (0 < z < 1, 18) = 30, 10%
(b) P(z) = (0 < 2) = 97, 72%
(c) P(z) = (3, 4 < z) = 99, 96%
(d) P(z) = (2, 45 < z) = 0, 71%
Exerccio 3.8 Probabilidade. Supondo que a renda da populao do Brasil (r) de R$ 6.200
por ms com um desvio padro de R$ 954. Imagine que a distribuio dessa renda seja
normal. Responda aos itens a seguir. Dica: note que no temos uma distribuio normal padro.
Padronize os dados primeiro usando:
r r
z=
(a) P(r < 3.200) = P(z < r
r
) = 0, 08%
(b) P(r < 9.000) = 0, 16%
(c) P(3.560 < r < 6.340) = 55, 55%
Exerccio 3.9 Considerando uma t-student, encontre a probabilidade de se ter um valor tal
como:
(a) use 20 graus de liberdade: P(z) = (0 < z < 1, 18) = 37, 40%
(b) use 30 graus de liberdade: P(z) = (0 < z < 1, 18) = 37, 63%
(c) use 300 graus de liberdade: P(z) = (0 < z < 1, 18) = 38, 05%
(d) use 20 graus de liberdade: P(z) = (z < 2) = 97, 03%
(e) use 30 graus de liberdade: P(z) = (z < 2) = 97, 26%
(f) use 20 graus de liberdade: P(z) = (3, 4 < z) = 99, 85%
(g) use 30 graus de liberdade: P(z) = (3, 4 < z) = 99, 90%
(h) use 20 graus de liberdade: P(z) = (2, 45 < z) = 0, 11%
(i) use 30 graus de liberdade: P(z) = (2, 45 < z) = 0, 10%
3.6 Exerccios 53
Exerccio 3.10 Teste de independncia. Em uma pesquisa foram entrevistados 340 alunos de
uma escola. Os entrevistados, separados por faixa de idade, deveriam apontar a preferncia
por uma cor. Sendo assim, estamos interessados em testar se existe uma relao entre idade e
preferncia por cor. Use como critrio de significncia 5%.
Escolha a hiptese nula H0 ;
Encontre a estatstica qui-quadrado 2 ;
Encontre o p-valor;
Conclua.
Exerccio 3.11 Teste de independncia. Nas eleies para prefeito de 2012 tivemos vrios
votos nulos e brancos. Esses podem ser interpretados como uma forma de protesto. Com dados
das eleies de 2012 no 1o turno para prefeito em todo o Brasil, separamos os mesmos entre
capital e interior. A pergunta : possvel afirmar que os eleitores das capitais esto mais
revoltados do que os eleitores do interior?
Exerccio 3.12 Teste de independncia. Suponha que se queira testar se a faixa etria real-
mente faz diferena em relao a forma de dirigir. Nesse caso, com dados de jovens, adultos e
idosos, separados entre nmeros de acidentes e sem acidentes em um determinado ano, teste se
h relao entre idade e conduo ao volante.
Exerccio 3.13 Teste de independncia. Na tabela abaixo foram coletados dados sobre casa-
mentos no Brasil no ano de 2011. Naquele ano ocorreram pouco mais de 1 milho de casamentos
divididos no estado civil do homem e da mulher na data do casamento. Por exemplo, 818.300
casamentos ocorreram entre homens e mulheres solteiros.
54 Captulo 3. Funes de Distribuio
Fazer uma avaliao prvia de como um conjunto de dados se comporta um dos procedimentos
mais comuns em estatstica e econometria, e deve ser feito antes de qualquer outra ao, pois ir
permitir ter informaes importantes sobre os passos a serem dados posteriormente.
Nesse caso, h diversas formas de se avaliar os dados, e que depende de como os mesmos so
compostos, e que so classificados tanto em estatsticas descritivas como de inferncia. No primeiro
caso, h estatsticas que podem ser utilizadas para qualquer formato de conjunto de dados, como,
por exemplo, a mdia, a moda e a mediana, referidas como medidas de tendncia central. Por
outro lado, quantis, varincia e o desvio-padro, por exemplo, so classificadas como medidas de
disperso. Como o nome diz, no procedimento de estatstica descritiva o que temos apenas uma
descrio do comportamento dos dados. No geral, os resultados gerados pela estatstica descritiva
aparecem no formato de grficos ou de tabelas.
Portanto, enquanto que na estatstica descritiva estamos apenas preocupados com a descrio
dos dados, na inferncia estatstica estamos preocupados com a consistncia dos mesmos.
Como exemplo, vamos usar a srie z gerada na seo 3.1. Recorde-se que a mesma foi
gerada para ter uma distribuio normal com mdia zero e varincia unitria. A seguir, v em
view/descriptive statistics & tests e poder ver que h diversas opes para se aplicar s sries de
dados (conforme Figura 4.1). A seguir, mostraremos como interpretar cada uma dessas.
56 Captulo 4. Estatsticas, testes de hiptese e ANOVA
Programao 4.1.1 Podemos fazer todas essas estatsticas descritivas utilizando os comandos
de programao do EViews
R
. Abaixo, vamos utilizar o scalar para apresentar a funes tpicas
para obter as estatstica descritivas de uma srie x:
scalar m = @mean(x)
scalar md = @median(x)
scalar mx = @max(x)
scalar min = @min(x)
scalar std = @stdev(x)
scalar assimetria = @skew(x)
scalar curt = @kurt(x)
Como vimos acima, o valor mximo e mnimo dos dados so muito prximos em mdulo, o que
acaba no gerando caudas para a nossa distribuio. Sendo assim, podemos esperar que os nossos
1 Skewness e Kurtosis
4.1 Histograma e Estatsticas 57
dados tivessem uma distribuio simtrica, tal como sinalizado, por exemplo, pela igualdade entre
a mdia e a mediana. Valores negativos para a assimetria indicam uma distribuio assimtrica para
a esquerda, enquanto um valor positivo indica assimetria a direita. Os grficos da Figura 4.2 mostra
como se comporta a assimetria direita e esquerda. Para comprovar isso, calculamos a assimetria
no EViews
R
com a seguinte frmula:
1 N yi y 3
S=
N i=1
onde N o nmero de observaes que, no nosso caso 1 milho, yi cada uma das i observaes,
y a mdia dessas observaes e o desvio-padro amostral. Para o nosso exemplo, a assimetria
muito prxima do valor zero, o que esperado para uma curva com distribuio normal.
Podemos facilmente mostrar como que apenas alguns valores extremos contribuem para gerar
assimetria no banco de dados. V em View e depois SpreadSheet. Com a srie aberta mude os
cinco primeiros valores para nmeros elevados, como 6, 7 e 8. Para tanto clique em Edit +/- na
barra superior. Refaa o histograma e poder ver como os dados apresentam assimetria direita. Se
repetir esse exemplo colocando elevados valores negativos, poder ver que o histograma apresentar
assimetria esquerda.
A curtose, por outro lado, uma medida relacionada concentrao dos dados, influenciando no
desenho da curva verticalmente. Um conjunto de dados com um valor alto para a curtose concentra
os dados na mdia, diminuindo bastante rapidamente quando se afasta da mdia. Por outro lado,
dados com curtose baixa tendem a ser mais planos, com os dados mais distribudos. Distribuies
com curtose alta podem ser chamados de leptocrticos, como os retornos das aes na bolsa de
valores, enquanto distribuies com curtose mais baixa podem ser denominadas platicrticas. Para
o nosso exemplo, observamos na Figura 4.3 uma curtose com valor 3,0008, um valor muito prximo
ao que se espera de uma curva normal, que 3. O clculo da curtose pode ser feito a partir de:
1 N yi y 4
Z=
N i=1
note que, tambm para esse clculo, usamos apenas as estatsticas de mdia e desvio-padro.
As duas ltimas informaes esto relacionadas a um teste de funo de distribuio. At ento,
fizemos uma avaliao na forma de estatstica descritiva. Porm, somente a assimetria e curtose no
so suficientes para confirmar que os dados possuem ou no uma distribuio normal. H diversas
formas para testar a possibilidade de um conjunto de dados terem uma distribuio normal ou no.
Alm disso, h testes que so aplicados para conjunto de dados multivariados, e tambm podemos
testar outras distribuies. Nesse resumo de estatstica descritiva, o EViews
R
retorna o resultado
58 Captulo 4. Estatsticas, testes de hiptese e ANOVA
100,000
Series: Z
Sample 1 1000000
80,000
Observations 1000000
Mean 0.001053
Median 0.001563
60,000
Maximum 4.918970
Minimum -4.696525
Std. Dev. 0.998978
40,000
Skewness -0.005350
Kurtosis 3.000846
0
-4 -3 -2 -1 0 1 2 3 4 5
x.hist
freeze(G1) = x.hist
Scalar jb=((@obs(x))/6)*((@skew(x))^2+((@kurt(x)-3)\^2)/4)
Scalar testejb=@chisq(jb,2)
(b)
(a)
testando:
H0 : mdia = 0, 01
H0 : mdia 6= 0, 01
O resultado mostrado para o p-valor nos leva a rejeitar a hiptese nula de igualdade inclusive a
menos de 1% de significncia. Ou seja, a mdia de x estatisticamente diferente de 0,01. O teste
realizado usando os valores amostrais para a mdia e o desvio padro, e a frmula:
x
t-statistic = .
s/ n
0.00043 0.01
t-statistic = = 10.4265.
(1.00031)2 / 1000000
Por fim, o probability dado usando prob = @ctdist(-10.4265, 999999). Lembre que os
graus de liberdade so dados por N 1 e que esse um teste bicaudal.
Segue-se o mesmo procedimento para testar a igualdade da varincia ou da mediana. Podemos
refazer o teste especificando o desvio-padro. Nesse caso so reportados dois resultados, um para a
estatstica Z, que segue uma distribuio normal, e outro para uma estatstica t, com desvio padro
desconhecido. Se esse teste for aplicado para identificar se a varincia igual a determinado valor,
2
a hiptese nula de igualdade, e usa-se a estatstica (N1) para o teste. Sendo assim, aplicada a
frmula
(N 1)s2
2 = (4.1)
2
onde s2 a varincia amostral.
(b)
(a)
(a)
(b)
para a mdia e desvio-padro, so iguais aos obtidos quando pedimos o Histogram & Statistics
(Figura 4.3). A seguir, em Prob. temos o teste para identificar se esses valores so estatisticamente
iguais a zero. No primeiro caso, o p-valor=0,2918 sinaliza que o valor da mdia estatisticamente
igual a zero, esse foi encontrado usando z = 0.0010530
0.000999 = 1.054. Logo abaixo temos p-valor=0,0000
que significa que o valor de SIGMA, ou seja, o desvio-padro, estatisticamente diferente de zero,
o que era esperado. Lembre-se que simulamos um conjunto de dados com desvio-padro igual a 1.
Se tentar testar outras distribuies tericas, ir perceber que muitas no so possveis, pois temos
valores negativos.
Agora, faa o mesmo teste para identificar se a srie de dados q, simulada para ter uma
distribuio qui-quadrado, possui uma distribuio normal. O resultado como mostrado na Figura
4.9a. Note que, agora, rejeitamos fortemente a hiptese nula de igualdade da distribuio emprica
e a terica. Nesse caso, pela segunda tabela de resultados, podemos ver que os parmetros de mdia
estimados para a distribuio terica, nesse caso a normal, so mdia igual a 1,000459 e desvio
padro igual a 1,416870. Pelos resultados dos testes na primeira parte da tabela na Figura 4.9a
rejeitamos a hiptese nula de distribuio normal dos dados.
De fato, como a srie q foi gerada de acordo com uma distribuio qui-quadrado, podemos
testar essa distribuio. Refazendo o teste EDF s que, agora, especificando como funo terica
a curva qui-quadrado (deixe o EViews
R
estimar o nmero de graus de liberdade), teremos um
resultado diferente. Nesse caso, pelo p-valor, todos <1, aceitamos a hiptese nula de igualdade das
distribuies. Mais abaixo, na segunda tabela, podemos ver a estimativa dos graus de liberdade5
(NU") =0,999453, praticamente o mesmo utilizado para formar a srie, onde consideramos = 1).
Programao 4.5.1 Para fazer o teste de distribuio emprica no eviews via programao
podemos usar o comando abaixo. Nesse caso, o default testar se a srie de dados em questo
possui uma distribuio normal onde os parmetros de mdia e desvio padro so estimados.
x.edftest
q.edftest(dist=chisq)
(a) (b)
(a)
(b)
superior da classe e, na segunda coluna, sua respectiva densidade. Faa o grfico da coluna 2 (C2)
e ver que temos uma distribuio prxima da curva normal.
A ltima opo interessante usar em Data Type a funo de densidade terica, selecionando
Theoretical Density. Do lado esquerdo h diversas funes que podem ser selecionadas e que iro
retornar os resultados para a estimativa de uma funo.
x.distdata(dtype=hist) histograma_x
x.distdata(dtype=kernel) kernel_x
A opo Unit Root Test . . . ser vista quando estudarmos sries de tempo, bem como o teste
de razo de varincia. O BDS Independence Test . . . ser visto em regresso simples, bem como
o correlograma
Ao fazer o teste temos que ter em mente que a hiptese nula assumida sempre ser de que a
mdia das amostras selecionadas igual. Alm disso, como estamos trabalhando com a razo de
varincia nos dados, usamos a distribuio F para o teste.
Vamos ver um exemplo simples para fixar o conceito, e que se encontra no arquivo de nome
distribuio na planilha ANOVA. Suponha que uma empresa aplicou trs diferentes mtodos para a
produo de um produto e, para cada um desses mtodos, coletou os resultados encontrados de
forma aleatria durante um ms. Ou seja, pro mtodo 1, temos 10 informaes de produtividade,
para o mtodo 2 e 3 de forma similar, completando um universo de 30 resultados. Esses mtodos
so descritos como c1, c2 e c3.
O natural nessa avaliao responder se a mdia de produo difere entre os trs mtodos. Em
uma avaliao prvia, podemos ver que o mtodo 1 tem uma mdia de produtividade de 5,44, ao
passo que para o segundo mtodo 3,99 e o terceiro mtodo 4,48. Para ver as estatsticas dos dados,
selecione as trs sries, clique com o boto direito, abra como grupo. A seguir, v em Stats, na
barra de ferramentas.
Mas, ser que essa mdia estatisticamente diferente entre c1, c2 e c3? Qual o melhor mtodo
e qual o pior? Ou, reformulando a pergunta, ser que o mtodo de produo utilizado influencia
na produo? Para responder a esses pontos vamos usar o mtodo ANOVA.
Para tanto, iremos fazer uso de trs estatsticas que representam a variabilidade dos dados, seja
dentro do grupo ou entre grupos: (i) SQT Soma ao quadrado total; (ii) SQE Soma ao quadrado
do erro; (iii) SQG Soma ao quadrado dos grupos.
De uma forma geral, uma tabela de teste ANOVA apresentada da seguinte forma, onde n
representa o nmero total de dados, m o nmero de grupos.
4.8 Teste de Razo de Varincia 67
Origem da varia- Soma dos qua- Graus de liber- Varincia do qua- Razo F
bilidade drados dade drado mdio
Entre mdias 10,82 2 5,41 5,70
Dados dos 25,62 27 0,95
grupos (within
groups)
Total 36,44 29
Tabela 4.2: Resultados das estatsticas para anlise da varincia dos dados
Origem da varia- Soma dos quadra- Graus de li- Varincia do qua- Razo F
bilidade dos berdade drado mdio
SQG
Entre mdias SQG = m1 MSG = m1 Fratio = MSG
MSE
m 2
n j=1 (x j x)
SQE
Dados dos grupos SQE = nm MSE = nm
(within groups) ni=1 mj=1 (xi j
xj )2
Total SQT = n1
SQE + SQG
Para encontrar a primeira estatstica, SQT, devemos calcular a mdia de todos os 30 dados,
denominada mdia total (x). Para o nosso exemplo, essa 4,643. A seguir, encontrar o desvio de
cada dado x j em relao a essa mdia, elevar ao quadrado e somar. a medida de variabilidade
total de todo o conjunto de dados. Assim, SQT=36,44.
A segunda estatstica, SQE, uma medida de variabilidade que deve ser encontrada para cada
grupo (within group). Nesse caso, para o primeiro mtodo, temos a mdia dos 10 dados que o
integram e, encontramos o desvio de cada dado em relao a essa mdia, elevamos ao quadrado
e, depois, somamos. Sendo assim, para o nosso exemplo, teremos trs valores de SQE, um para
cada um dos mtodos que estamos usando. Para o mtodo 1 temos um SQE de 8,57, para o mtodo
2 um SQE de 8,49 e, para o mtodo 3 um SQE de 8,55. A seguir, ao somar os trs resultados,
encontramos que SQE=25,62.
Por fim, a terceira estatstica, SQG, uma medida de variabilidade entre os diferentes grupos
(between group), e que tambm referida como entre mdias. Nesse caso, ela representa a soma
do quadrado dos desvios da mdia de cada grupo em relao a mdia total. Ou seja, encontramos
a variabilidade da mdia do grupo que representa o mtodo 1 em relao a mdia total, elevado
ao quadrado. Isso feito para cada uma das informaes. Assim, no nosso exemplo teremos um
resultado que se repete por 10 vezes no grupo 1. Depois fazemos o mesmo para o mtodo 2 e para
o mtodo 3. Sendo assim, teremos 30 resultados para SQG. Ao fim, somamos todos e obtemos
SQG=10,82.
De forma geral, essas trs estatsticas so encontradas sempre que se vai fazer o teste ANOVA,
independente de quantos grupos se est trabalhando. Outro ponto interessante a relao que existe
entre elas, dada a partir de:
SQT = SQE + SQG
Note que a variabilidade total pode ser dividida em duas partes, uma (SQE) que representa
as caractersticas de cada grupo, ou seja, representa a diferena dos grupos, cada qual com seu
tratamento e, a segunda (SQG), as diferenas entre os grupos, a partir de um tratamento comum,
que seria considerando a mdia global. Portanto, a origem da variabilidade total pode estar ligada a
cada uma dessas duas causas.
No nosso exemplo, cada grupo tem 10 dados. Dessa forma, no h problema em usar a medida
de variabilidade. Porm, pode ocorrer de compararmos grupos que possuem uma quantidade
diferente de dados. Nesse caso, o grupo com maior nmero de dados ir ter, naturalmente, um
maior valor para a variabilidade. Aqui que entra um ponto importante no uso da ANOVA, devemos
computar os graus de liberdade.
Para o conjunto total de dados, usamos n-1, onde n o nmero de dados. Sendo assim, com
30 dados, os graus de liberdade de SQT 29. No caso do SQE usamos n-m, onde n o nmero
de dados e m o nmero de grupos. No nosso exemplo, n-3=30-3=27. Sendo assim, SQE (within
group) tem 27 graus de liberdade. Por fim, para SQG temos a diferena entre os graus de liberdade
de SQT e SQE, ou seja, SQG tem 2 graus de liberdade.
De posse dos valores referentes aos graus de liberdade, podemos agora fazer a respectiva
ponderao nas variabilidades, chegando a uma medida mais prxima da varincia. Isso feito
simplesmente dividindo os valores pelos seus graus de liberdade. Em livros de estatstica essa
medida denominada de MS Mean Square. Assim, temos MST, para representar a estatstica SQT
ponderada pelos graus de liberdade, MSE=0,949 relativa a SQE e MSG=5,411 que se relaciona
com SQG.
Por fim, encontramos a estatstica F, que dada por:
MSG 5, 411
Fratio = = = 5, 70
MSE 0, 949
Se essa razo for igual a 1, ento, a parcela de variao explicada entre os grupos e a explicada
pelo respectivo grupo igual, ou seja, as mdias so iguais. Porm, podemos chegar a essa mesma
concluso para valores diferentes de 1. Lembre-se, isso estatstica e, nesse caso, podemos ter um
resultado que seja estatisticamente significante.
Porque estamos usando a estatstica F para esse teste? Na discusso sobre funes de distri-
buies, ilustramos que a distribuio F dada a partir da razo de varincias sob a hiptese nula.
Portanto, a curva F ir ter todos os resultados possveis para as razes de varincia. A seguir,
calculamos o Fratio e identificamos se seu valor pode ser considerado estatisticamente significante
comparando o mesmo com a distribuio F.
No nosso exemplo, temos uma distribuio F(2,27) , ou seja, com 2 graus de liberdade no
numerador e 27 no denominador. Podemos encontrar seu desenho a partir de um conjunto de
1000000 de dados aleatrios para ver como seria essa distribuio.
Programao 4.8.1 Para encontrar a forma como os dados de uma distribuio F se compor-
tam, com 1000000 de dados aleatrios, 2 graus de liberdade no numerador e 27 no denominador,
podemos usar:
Para fazer essa estimativa no se esquea de usar uma planilha que tenha uma dimenso de
1000000 de dados, como a usada no exemplo distribuio.
Note na Figura 4.12 que, como temos 27 graus de liberdade no denominador, a curva tem sua
rea um pouco menos concentrada perto do valor zero. O prximo passo seria determinar qual o
4.8 Teste de Razo de Varincia 69
p-valor associado a estatstica Fratio = 5, 7 que foi encontrada no nosso teste. Para tanto, podemos
fazer uso da funo cumulativa @cfdist() - veja o box de programao 4.8.2.
Esse ir produzir como resultado p-valor=0,008, que a rea da curva direita do valor F=5,7.
Sendo assim, podemos concluir que os trs mtodos apresentam diferena no resultado final, ou
seja, rejeitamos a hiptese nula a 0,8%.
Programao 4.8.2 Para encontrar o p-valor associado ao valor do teste F, devemos ter em
mente que a funo cumulativa fornece a rea at determinado valor. Sendo assim, devemos
subtrair de 1, a partir de:
mdia t95%
Como obtemos esse resultado para t? Usando a funo do EViews que descreve o ponto a partir
da rea. Lembre-se que a curva t bicaudal. Como queremos 95% de intervalo de confiana, sobra
70 Captulo 4. Estatsticas, testes de hiptese e ANOVA
5% para ser dividido nas duas reas, uma esquerda com 2,5% e outra direita com 2,5%. Assim,
usamos a funo scalar intervalo = @qtdist(0.025,27). Aplicando isso para os nossos
valores da tabela anterior, podemos encontrar os resultados apresentados na Tabela 4.3.
Exemplo 4.1 Tambm h outra forma de fazer o teste ANOVA conhecendo apenas o nmero
de observaes, a mdia e a varincia dos dados em questo. Suponha, por exemplo, que se
queira verificar se o nvel de qualificao de um trabalhador em determinada empresa influencia
na sua produtividade. Nesse caso, selecionamos trs tipos de trabalhadores: estagirios, formado,
ps-graduado para serem avaliados. Os resultados so mostrados na tabela.
No Mdia Varincia
Estagirio 23 29,1 18,3
Graduado 21 28,1 16,9
Ps-graduado 16 21,3 15,2
SQG = n1 (x1 x)
+ n2 (x2 x)
+ n3 (x3 x)
SQG = 23(29, 1 26, 16) + 21(28, 1 26, 16) + 16(21, 3 26, 16)
SQG = 655, 34
A seguir encontramos a estatstica SQE, que uma medida de variabilidade de cada grupo (within
group) usando a formula do SQE, onde (s2i ) a varincia do grupo i, temos:
Agora, devemos fazer o ajuste para cada uma das estatsticas pelos graus de liberdade. No caso
da SQG, os graus de liberdade so dados pela diferena entre o nmero de argumentos menos um.
Como temos trs diferentes argumentos, estagirio, graduado e ps-graduado ento, h 2 graus de
liberdade para SQG. No caso de SQE, os graus de liberdade so dados pela diferena entre o total
de dados utilizados e o nmero de argumentos. Como temos um total de 60 dados ento, os graus
de liberdade de SQE sero 57.
Podemos, assim, encontrar a estatstica F:
SQG/m1 655,34/2
F= = = 19, 2828
SQE/(nm) 968,60/57
Com esse resultado rejeitamos fortemente a hiptese nula, basta ver em scalar f= 1-@cfdist
(19.2828, 2,57) no EViews
R
, que produz um p-valor=0,000. Sendo assim, o nvel de qualifica-
o importante para determinar diferenas na produtividade.
Descobrimos que existe diferena, mas, no de onde vem essa diferena. Para responder a esse
ponto, aplicamos um teste de diferena de mdia que usa a curva t. Como temos trs argumentos,
para descobrir a origem da diferena temos que testar aos pares. Nesse tipo de teste temos que
determinar apenas qual o nvel de significncia procurado para que se construa o intervalo de
confiana.
Como regra geral, ao avaliar a diferena entre a mdia do grupo 1 com a mdia do grupo 2,
usamos: s
SQE 1 1
1 2 t/2c +
(m n) n1 n2
onde 1 a mdia do grupo 1, t/2c a estatstica t avaliada em um ponto, o nvel de significncia,
(m n) o nmero de graus de liberdade n1 o total de dados do grupo 1 e c dado por:
m(m 1)
c=
2
Como regra de deciso, se o intervalo de confiana no contiver o valor 0 ento, rejeitamos
a hiptese nula. Primeiro vamos descobrir se tem diferena entre o resultado para estagirio e
graduado:
H0: estagirio = graduado ;
Ha: As mdias so diferentes
Nesse caso temos:
3(3 1)
c= =3
2
72 Captulo 4. Estatsticas, testes de hiptese e ANOVA
e, para = 0, 05 temos que encontrar o valor de t/2c = t0,05/6 = 0, 0083. Isso pode ser feito no
EViews
R
utilizando scalar t=@qtdist(0.0083,57). Com isso, temos um valor de 2,46. Agora
s determinar o intervalo:
s
1 1
29, 1 28, 1 2, 46 16, 992 +
23 21
Dessa forma, no rejeitamos a hiptese nula. Ou seja, a mdia entre estagirios e graduados
estatisticamente igual. Faa a mesma conta para verificar a diferena de mdia entre estagirio e
ps-graduado. O resultado ser: 4, 49 < 1 3 < 11, 10, fazendo com que se rejeita a hiptese
nula, ou seja, h diferena de mdia entre estagirios e ps-graduados. Por fim, podemos fazer para
verificar a diferena entre graduado e ps-graduado, o que ir resultar em: 3, 43 < 1 3 < 10, 16.
Tambm apontando para a rejeio da hiptese nula, ou seja, temos diferena entre as mdias.
4.9 Exerccios
Exerccio 4.1 Trs tipos de baterias esto sendo testadas sob condies de alta presso. Na
tabela abaixo est o tempo, em horas, que 10 baterias de cada marca funcionou antes de ficar
sem energia.
4.9 Exerccios 73
Marca da bateria
1 2 3
5,60 5,38 6,40
5,43 6,63 5,91
4,83 4,60 6,56
4,22 2,31 6,64
5,78 4,55 5,59
5,22 2,93 4,93
4,35 3,90 6,30
3,63 3,47 6,77
5,02 4,25 5,29
5,17 7,35 5,18
(a) Use a anlise de varincia para determinar se as baterias de cada marca levaram tempos
significativamente diferentes para descarregar por completo. Se o tempo de descargamento for
significativamente diferente (ao nvel de confiana de 0,05) determine qual marca de bateria
diferem uma das outras. Especifique e verifique os pressupostos do modelo.
(b) Podemos dizer que resultados da marca 1 tem distribuio normal a 5% de significncia?
Testando 5% de significncia, a regio crtica inclui os valore superiores a F2,27 (0, 95) = 3, 354.
O resultado da Razo F 4,79 fica na regio crtica, portanto, rejeitamos a hiptese das mdias serem
iguais. O teste indica que no h diferena entre as marcas 1 e 2, mas a marca 3 difere-se da marca
2.
O resultado do teste de Jarque-Bera foi 5,0603 e, aplicando uma distribuio qui-quadrado
com 2 graus de liberdade temos que (2)2 = 0.0796. Portanto, no podemos rejeitar a hiptese nula
Exerccio 4.2 Uma siderrgica est testando a eficincia do seus alto-fornos. Para a produo
de uma pea especfica, o forno precisa alcanar rapidamente a temperatura de 900 C. Quatro
fornos foram testados vrias vezes para determinar o tempo (em minutos) que levavam para
atingir essa temperatura e foram obtidos os seguintes resultados:
Forno ni xi si
1 15 14,21 0,52
2 15 13,11 0,47
3 10 15,17 0,60
4 10 12,42 0,43
O tempo mdio de aquecimento dos fornos so diferentes? Caso sejam, qual forno o mais
rpido? E qual o mais lento?
Testando um nvel de 5% de significncia, F3,46 (0, 95) = 2, 802. Considerando que 61, 303 >
2, 806 rejeitamos a hiptese nula. Assim, consideramos que o tempo mdio de aquecimento dos
fornos diferem-se. Realizando mltiplas comparaes, conclumos que o forno nmero 4 o mais
rpido e o nmero 3 o mais lento.
5. Caractersticas dos dados de sries de tempo
Um banco de dados pode ser organizado de vrias formas e os testes e modelos aplicados seguem
esse desenho. Para dados com periodicidade definida, como ms, trimestre ou ano, usamos os
conceitos de srie de tempo. Por outro lado podemos ter dados que descrevem as caractersticas,
em um dado momento, de vrios indivduos, denominados de cross section. Tambm h a opo
de dados em painel que agrega informaes de indivduos com o tempo. Nesse captulo sero
apresentadas as principais caractersticas de uma srie de tempo, assim como os ajustes e filtros
possveis de serem aplicados com o EViews
R
. Com conjunto de dados de srie de tempo possvel
extrair vrias informaes que ajudam a compreender o comportamento desses ao longo do perodo.
yt = Tt +Ct + St + It
Ou ento, multiplicativo:
yt = Tt Ct St It
De incio, os modelos que procuravam determinar o comportamento sazonal de uma srie
de tempo assumiam que esse era constante ao longo do tempo. Porm, h diversos fatores,
1 Uma boa referncia para essa discusso histrica est em Hylleberg(1986).
76 Captulo 5. Sries de tempo
Note que em seasonal type, temos duas opes, a primeira, quando selecionado Paneled
lines & means, ir mostrar como a srie de dados se comporta para cada ms ou trimestre e, na
segunda opo, em Multiple overlayed lines, os dados so divididos em diferentes linhas, cada
qual representando o perodo especfico, para todo o perodo amostral. Vai da opo de cada um ver
qual dos dois grficos melhor descreve o comportamento dos dados, no havendo regra. Ambos os
grficos so mostrados na figura 5.2. O primeiro, 5.2a, indica doze linhas de cor azul lembre-se
que estamos usando dados mensais e que sinalizam como evoluram os dados em cada ms
durante todo o perodo de anlise. Esse complementado com a informao da mdia para cada
ms, indicada pela linha vermelha. Por exemplo, a primeira informao relacionada ao ms de
5.1 Ajuste Sazonal 77
fevereiro ocorre em 2002M02, e tem valor 99, ao passo que a ltima, em 2015M2, tem valor 138.
A mdia dos valores do ms de fevereiro 121, e exatamente a linha vermelha horizontal. Para
identificar esse valor o leitor deve deixar o mouse posicionado sobre a linha vermelha no grfico
no EViews
R
. Note que a mdia de valores do ms est bem longe dos extremos, sinalizando que,
durante o perodo de anlise, a sazonalidade do ms teve forte modificao, tendo atingido um
mnimo de 99 e um mximo de 144. Certamente seria um erro considerar a sazonalidade mdia
como representativa de tudo.
A segunda forma de ver o comportamento dos dados separados para cada um dos meses
selecionando a opo de mltiplos grficos: Multiple overlayed lines, cujo resultado est mostrado
na figura 5.2b. Note que h uma tendncia de crescimento dos valores para cada ms ao longo
do tempo. Isso tem uma implicao importante como comentado acima, em especial pelo fato
de que usar a mdia de cada ms para identificar e corrigir padro sazonal estaria incorreto, ou
seja, a mdia de cada trimestre no constante ao longo do tempo. Uma parte da literatura em
econometria usa a mdia como fator de dessazonalizao. Isso conhecido como sazonalidade
determinstica e sua correo feita com o uso de variveis dummy (valores zero e um).
Mas h outros mtodos mais sofisticados e especficos que podem ser utilizados, e oEViews
R
permite seu uso. Com a srie ibcbr aberta, v em Proc/Seasonal Adjustment. Note que so
fornecidas cinco diferentes opes para se dessazonalizar os dados. Vamos discutir os aspectos
gerais do mtodo X-12 comparativamente ao mtodo das mdias mveis e TRAMO/SEATS, sem
entrar no detalhe tcnico, que pode ser visto em outros livros de econometria.
Onde S o nmero de perodos, se dados mensais S=12 e se forem trimestrais S=4; st assume
valores 1 para o respectivo perodo sazonal em questo e zero caso contrrio; ms o valor da mdia
desses perodos e, por fim t estacionrio com mdia zero. Sendo assim, a equao geral que ir
medir a sazonalidade por mdias para dados trimestrais, dada por:
qxt = 1t m1 + 2t m2 + 3t m3 + 4t m4 + t
78 Captulo 5. Sries de tempo
No caso de uma srie de dados com periodicidade mensal teremos 12 variveis st Para encontrar
os respectivos valores devemos criar sries de dados usando variveis dummy de valor 1 e 0, tal
como mostrado abaixo no caso trimestral:
A seguir, rodamos a regresso para encontrar os respectivos valores de ms . Note que essa
regresso feita sem o uso da constante. Caso contrrio seria encontrado cinco valores para a mdia
em dados trimestrais e treze em dados mensais, e a matriz no seria simtrica. Vejamos como o EVi-
ews
R
faz essa estimativa. Com a srie ibcbr aberta, v em Proc/Seasonal Adjustment/Moving
Average Methods. Escolha o mtodo multiplicativo e um nome para a srie resultante (aqui no
exemplo colocamos o nmero 1 na frente para diferenciar esse mtodo de dessazonalizao do
X-12 a ser visto a seguir).
Programao 5.1.1 Tambm pode ser usado um comando para se fazer a dessazonalizao.
Nesse caso, para o mtodo multiplicativo, podemos escrever:
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
next
A seguir, aperte o enter e o programa ser executado. Esse procedimento vlido para
todas as demais aplicaes a seguir que envolvem a construo de um programa.
Uma forma interessante de representar esse comportamento sazonal via uma funo trigono-
mtrica:
S/2
2kt 2kt
qxt = 0 + k cos + t sen + t
k=1 S S
Onde o 0 uma constante que representa a mdia e S o nmero de componentes sazonais.
Suponha o exemplo de uma srie trimestral. Nesse caso S=4 e teremos:
2
2kt 2kt
qxt = 0 + k cos + t sen + t
k=1 4 4
2t 2t 22t 22t
qxt = 0 + 1 cos + 1 sen + 2 cos + 2 sen + t
4 4 4 4
t t
qxt = 0 + 1 cos + 1 sen + 2 cos (t) + 2 sen (t) + t
2 2
Mas,sen (t) = 0, sendo assim, teremos:
t t
qxt = 0 + 1 cos + 1 sen + 2 cos (t) + t
2 2
80 Captulo 5. Sries de tempo
1
1 =
(m2 + m4 )
2
1
1 = (m1 m3 )
2
1
2 = (m1 + m2 m3 + m4 )
2
Vejamos para o nosso um onde m1 = 0.9479, m2 = 1.0105, m3 = 1.035, m4 = 1.0078. Sendo
assim, teremos:
1 1
1 = (m2 + m4 ) = (1.0105 + 1.0078) = 0.00133
2 2
1 1
1 = (m1 m3 ) = (0.9479 1.035) = 0.0438
2 2
1 1
2 = (m1 + m2 m3 + m4 ) = (0.9479 + 1.0105 1.035 + 1.0078) = 0.0086
2 2
E o ciclo que domina todo o processo o anual ( 1 e 1 so maiores que 2 ). Ou seja, a
frequncia mais forte no ciclo anual. Os valores so pequenos pois o conjunto de dados tem uma
pequena sazonalidade, como mostrado pelas mdias de cada trimestre. Para construir a srie do
fator sazonal podemos usar o fato de que: 0 = 1, 1 = 0.00133, 1 = 0.0438 e 2 = 0.0086
em:
t t
qxt = 1 0.00133cos 0.0438sen + 0.0086cos (t) + t
2 2
5.1.2 TRAMO/SEATS
Na tcnica TRAMO/SEATS2 de dessazonalizao combina dois mtodos TRAMO e SEATS para
decompor a srie em seus componentes no observados. A primeira similar a uma regresso
ARIMA, e utilizada antes como uma espcie de ajuste dos dados3 . Ao passo que o SEATS
usado para extrair os sinais da srie de tempo, ou seja, os componentes no observados a partir de
um modelo aditivo:
yt = TCt + St + It
Sendo que TCt o componente tendncia-ciclo e os demais como dito anteriormente, o
componente sazonal e o irregular. Para selecionar esse mtodo, com a srie de dados ibcbr
aberta, v em Proc/Seasonal Adjustment/TRAMO/SEATS.... O EViews
R
ir abrir uma caixa
que contm trs diferentes opes. A primeira delas refere-se s especificaes bsicas. No
2 TRAMO Time Series Regression with ARIMA Noise, Missing Observation and Outliers. SEATS Signal
extraction in ARIMA time series.
3 Mais a frente iremos aprender como so os modelos ARIMA.
5.1 Ajuste Sazonal 81
primeiro bloco, podemos escolher rodar apenas o filtro TRAMO, somente o SEATS ou ento esse
aps o TRAMO, mtodo mais recomendado. Normalmente deixamos o horizonte de previso tal
como o default do EViews
R
, sem prejuzo dos resultados finais. Na escolha do modelo ARIMA,
podemos determinar que a mesma feita via seleo de dados em nvel, com transformao log
ou uma seleo automtica. No ltimo bloco podemos deixar o filtro TRAMO escolher a melhor
especificao ARIMA ou, ento, fazermos a escolha do modelo especificando os parmetros.
Esse ponto interessante pois muitas sries de dados que so dessazonalizadas por institutos de
pesquisas j contm o modelo ARIMA e so fornecidos para uso por parte de terceiros. Nesse
caso, se quisermos reproduzir o mesmo modelo, basta imputar os dados, tal que D o nmero de
diferenciaes, AR o nmero do componente autorregressivo e MA o de mdias mveis. Do lado
direito esto as opes para salvar as sries de dados. Podemos escolher todas as opes, encontrar
as sries de tendncia e do fator sazonal e depois fazer o grfico. Para extrair o componente
sazonal, temos que encontrar o fator sazonal pelo mtodo aditivo. H duas outras abas com opes
que podem ser uteis. A Regressors para especificar se no processo de identificao queremos
colocar alguma varivel exgena. Na aba Outliers podemos escolher se tem algum, especificando
o perodo, ou ento deixar que o programa faa a identificao.
Ao clicar em OK o EViews
R
ir mostrar um relatrio que contm todos os procedimentos,
testes e ajustes necessrios no processo de estimativa. Podemos salvar esse relatrio clicando em
Freeze. Atualizando o mesmo poder ver que o modelo final da forma (2,1,1)(0,1,1) sem mdia,
sem correes para dias da semana ou pscoa. A ordem dos nmeros mostrados acima (AR, D,
MA)(SAR, SD, SMA) ou seja, temos um modelo ARIMA (2,1,1) com sazonalidade SARIMA
(0,1,1). Veremos isso mais a frente. A seguir o EViews
R
salva todos os resultados em um grupo
de sries. Salve esse como grupo 1 para consulta futura. Agora selecione a srie ibcbr_trd e
ibcbr_sf e faa um grfico com dois eixos como mostrado em 5.5.
opo Seasonal Filter, que ir gerar os fatores sazonais, est selecionado como default o mtodo
X-12. Sugere-se fortemente seu uso4 .
Na opo Trend Filter, o leitor poder notar que o default deixar o EViews
R
determinar
quantos termos sero utilizados nas mdias mveis para extrair a tendncia. Em Component
Series to Save, pode-se especificar o nome da srie que ser salva alm de outros seis componentes.
A primeira opo retorna a serie ajustada sazonalmente. Alm disso, a aplicao do filtro X-12
permite que se tenha a informao de trs importantes caractersticas dos dados: os fatores sazonais;
a tendncia cclica; o componente irregular. Nos dois ltimos esto as opes de ajuste dos fatores
ao efeito calendrio de dias de negociao no mercado ou para feriados. Esses esto definidos
no EViews
R
para os feriados dos EUA e pscoa no Canad. Quando aplicados, duas opes so
selecionadas, abre outras opes na aba Trading Day/Holiday.
H trs outras abas com diferentes opes. Em Outliers podemos especificar se em determinada
data haver um outlier. Na opo ARIMA Options escolhemos se h ou no transformao dos
dados se teremos repressores exgenos ou se queremos usar alguma amostra de dados na estimativa.
Por fim, na aba Diagnostics podemos pedir para que seja feita uma anlise da sazonalidade e que
seja mostrado o diagnstico dos resduos, deteco de outliers ou grficos.
Na aba Seasonal Adjustment vamos selecionar o mtodo multiplicativo, selecionando as
quatro opes de componentes, como mostra a figura 5.6a, e ento clique em Ok. No esquea
de mudar o nome base para ibcbr2 para que a nova estimativa no apague a anterior. Ao
fazer a dessazonalizao, o EViews
R
retorna uma pgina com diversas descries do processo
implementado. Essa pode ser fechada sem prejuzo da anlise futura ou ento salva com clicando
em Freeze. Ao voltar para a pgina do workfile, poder ver que foram criadas quatro novas sries
de dados, todas com o nome da srie original mais os termos que representam cada uma dos
componentes. No nosso caso: ibcbr2_sa, ibcbr2_sf, ibcbr2_tc, ibcbr2_ir.
A figura 5.6b mostra a evoluo do fator sazonal para a srie qx. Note que o mesmo no
constante ao longo do tempo, sugerindo que a correo pela sazonalidade deve preservar essa
diferena.
Esse fator sazonal pode ento ser utilizado para dessazonalizar os dados originais. Para tanto, no
workfile, clique em Genr/Generate Series by Equation. Essa opo abre uma janela e permite que
4O mtodo X-12 ARIMA melhor do que o X-11, e incorpora diversos pontos interessantes, como por exemplo,
a possibilidade de detectar outliers, mudanas no padro sazonal, mudanas de nvel na srie, melhor para tratar com
sries de dados com falhas de informao, efeito calendrio e testes de diagnstico.
5.1 Ajuste Sazonal 83
se crie uma srie nova a partir de outras existentes. Vamos usar um nome teste para representar
essa dessazonalizao, tal como mostrado na Figura 5.7, onde vamos dividir a srie original pelo
ibcbr
fator sazonal: teste = . A seguir, clique em Ok e confira os dados com os obtidos em
ibcbr2s f
ibcbr_sa. O leitor poder ver que so idnticos.
Os dois outros componentes so a tendncia cclica descrito como ibcbr_tc e o componente
irregular ibcbr_ir, cujos grficos esto dispostos na figura 5.8. Note que, juntamente com os
mesmos, foi escolhida a opo Kernel density em Axis borders. Isso ajuda a compreender como
os dados esto distribudos, possibilitando observar que os resduos do modelo X-12 ARIMA
possuem distribuio normal, tal como esperado.
De forma geral, o que obtemos aqui uma decomposio da nossa srie original em 3 impor-
tantes fatores: (i) fator sazonal; (ii) tendncia cclica; (iii) componente irregular. Assim, tambm
podemos obter a srie original a partir desses 3 fatores, basta fazer:
Nesse caso, escolhemos um nome para essa nova srie teste, e construmos uma frmula para
ela a partir da multiplicao dos trs componentes anteriores. A seguir, o leitor poder ver que foi
criada uma srie de nome teste no workfile.
Alm de determinar os componentes de uma srie de tempo, o EViews
R
tambm faz a correo
sazonal dos dados, como o leitor pode ver no workfile a partir da srie ibcbr2_sa. Essa obtida
dividindo-se a srie original pelo seu fator sazonal:
ibcbr2t
ibcbr2_sat =
ibcbr2s ft
84 Captulo 5. Sries de tempo
Programao 5.1.2 O mtodo de dessazonalizao X-12 possui muitas opes. A forma mais
bsica pode ser aplicada como a seguir, seguindo o exemplo utilizado para as mdias mveis.
Assim, usamos um procedimento para aplicar tanto o mtodo das mdias mveis quanto o X12 a
vrias sries ao mesmo tempo. Abra o mesmo programa de antes e agora acrescente o termo
para a dessazonalizao pelo X-12. Depois, v ao arquivo original e rode o mesmo.
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}_x12
next
Nesse caso, usamos o mtodo multiplicativo (se quiser usar o mtodo aditivo mude de m para
a), como filtro selecione o X-12 e salvamos, respectivamente, os fatores sazonais (d10), as
sries ajustadas sazonalmente (d11) e a tendncia cclica (d12). Ao final, o termo {%a} serve
para usar o nome da srie como nome base. Por exemplo, quando o programa estiver aplicando a
dessazonalizao para a srie qx, ir salvar a srie de fatores sazonais como qx_sf.
Uma alternativa de dessazonalizao via mtodo aditivo. Nesse caso, tambm podemos
selecionar a opo de obter os trs fatores: (i) fator sazonal; (ii) tendncia; (iii) componente
irregular, alm da srie ajustada sazonalmente. Algumas diferenas de resultado aparecero entre
o mtodo multiplicativo e aditivo, como por exemplo, o fator sazonal e o irregular. Mas, a srie
ajustada sazonalmente ir produzir resultados semelhantes. Porm, ao invs de dividir a srie
original pelo seu fator sazonal, como feito no mtodo multiplicativo, agora diminumos a mesma
de seu fator sazonal.
5.1 Ajuste Sazonal 85
Programao 5.1.3 Como forma de complementar a anlise das sries quando se tem mais de
uma, pode ser mais til agrupar as mesmas. Nesse caso, recorremos ao comando group, como
mostrado abaixo, onde agrupamos todas as sries ajustadas sazonalmente no seu banco de dados
feitas anteriormente em um grupo de nome ajustada.
Para ver como isso ocorre repita os passos anteriores mas escolha o mtodo aditivo. Para que
as sries salvas sejam diferentes das anteriores, use um subndice ad, tal como mostrado na figura
5.10a:
Note que o resultado do fator sazonal oscila em torno do valor zero, ao invs de oscilar em
torno de 1, como no mtodo multiplicativo mas, o resultado o mesmo. A seguir, use:
Para encontrar a srie ajustada sazonalmente. Por fim, para obter a srie original no multiplicamos
os trs fatores tal como no caso do mtodo multiplicativo e, sim, somamos os mesmos:
Programao 5.1.4 O grfico do fator sazonal para cada uma das sries do seu banco de dados
pode ser solicitado. Nesse caso, usamos o objeto graph. Como queremos um grfico de linha,
usamos o comando line. Por fim, especificada a srie que ser feito o grfico. Nesse caso,
{%a}_x12_sf.
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}_x12
graph gra {%a}x12.line {%a}_x12_sf
next
86 Captulo 5. Sries de tempo
Programao 5.1.5 Alternativamente, podemos estar interessados em avaliar como fica cada
uma das sries ajustadas sazonalmente a partir de dois diferentes mtodos. Nesse caso, aplicamos
o mtodo das mdias mveis e depois o X-12. Em ambos, fazemos tanto a sazonalidade aditiva
quanto multiplicativa. A seguir, calculada a correlao entre as sries ajustadas sazonalmente e
o resultado armazenada em uma tabela de nome correl.
scalar sum=1
table(3,4) correl
correl(2,1)="aditivo"
correl(3,1)="multiplicativo"
correl(1,2)="ctotal"
correl(1,3)="preco"
correl(1,4)="renda"
for %a qx y px pm qm
seas(a) {%a} {%a}asa {%a}asf
seas(m) {%a} {%a}msa {%a}msf
{%a}.x12(mode=a, filter=msr, save= "d10 d11 d12") {%a}a
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}m
correl(2,sum+1)=@cor({%a}asa,{%a}a_sa)
correl(3,sum+1)=@cor({%a}msa,{%a}m_sa)
sum=sum+1
next
em OK. Na pgina de resultados so mostradas as estimativas para o outlier do tipo TC. Primeiro
veja o valor crtico, |t| 3, 91. A data com o resultado do t-valor mais alto dezembro/2008
com t = 3, 60. Note que esse resultado fica dentro do intervalo de confiana especificado
3, 91 t 3, 91 e, com isso, aceitamos a H0 de no existncia do outlier do tipo TC. Dado que
ele no significativo, as estimativas seguintes so testes sem a presena do outlier.
o objetivo apenas prever, tudo bem, podemos usar como data a ltima observao. Por outro lado,
se o objetivo testar essa previso, o melhor seria determinar uma data anterior ao final, reservando
dados para comparao.
Por fim, tem a opo do Cycle for seasonal. Note que, para esse exemplo, temos o nmero
4, que representa a quantidade de trimestres no ano. Se os dados forem mensais, o EViews
R
ir
retornar o nmero 12. Caso o leitor tenha dados sem periodicidade, ou ento dados dirios do
mercado financeiro, pode escolher um nmero diferente. Como exemplo, vamos estimar cada um
dos cinco mtodos para a srie qx. Para o primeiro mtodo, selecionamos a srie de resultado como
qxsm1. Para o segundo mtodo, qxsm2 e assim sucessivamente. Alm disso, vamos deixar quatro
trimestres de dados para comparar com as previses, digitando como data final em estimation
sample, 2014q4. Os resultados so mostrados na tabela 5.2.
para o fim do perodo so usados para fazer a previso, bem como a estimativa da sazonalidade. A
figura 5.15 mostra o comportamento da estimativa (entre 1997Q1 e 2014Q4) e tambm da previso
para os quatro trimestres frente 2015Q1 a 2015Q4, usando esses cinco mtodos, juntamente com
o resultado de verdadeiro de qx.
Note que, pelo mtodo mais simples, que no considera a presena de tendncia e sazonalidade,
as previses so constantes, e refletem exatamente o valor da mdia (87,7719) obtido para o ltimo
perodo da estimativa (2014Q4). J o mtodo Duplo tem a influncia de uma tendncia de valor
1,0167. Nesse caso, o resultado para a primeira previso dado por:
Ou ento:
duplo2015q2 = 87, 8750 + 2 0, 9136 = 89, 7022
E assim sucessivamente para mais perodos a frente:
No modelo Holt-Winters sem sazonalidade, tambm h dois resultados para se fazer a previso, a
mdia e a tendncia. E basta fazer a previso para os trimestres a frente como fizemos no mtodo
duplo. Porm, os dois ltimos mtodos contemplam a presena da sazonalidade. Nesse caso,
as previses devem considerar essa influncia em seus respectivos trimestres. Por exemplo, no
Holt-Winters aditivo, a previso para 2014Q1 dada pela soma da mdia, da tendncia e tambm
da sazonalidade do primeiro trimestre:
Programao 5.1.6 O mtodo de alisamento exponencial permite que sejam escolhidas cinco
diferentes alternativas (s,d,n,a,m), e que seguem respectivamente as opes de escolha entre
os modelos simple, duplo, Holt-winters no seasonal, Holt-winters seasonal aditivo e, por
ltimo o multiplicativo.
Para usar o mtodo multiplicativo em uma nica srie de dados, como por exemplo, qx,
deixando que os parmetros sejam estimados, usamos:
qx.smooth(m,e,e,e) qxsm1
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}_x12
graph gra {%a}x12.line {%a}_x12_sf
{%a}.smooth(m,e,e,e) {%a}sm1
next
Alternativamente, para uma nica srie de dados, podemos ver como se comportam as
previses a partir dos cinco diferentes mtodos de alisamento exponencial. Nesse caso, usando a
srie qx de exemplo, o loop pode se modificar para:
for %a s d n a m
smooth({%a},e,e,e) qx qx{%a}
next
Ou ento, podemos pedir que os cinco mtodos sejam aplicados para cada uma das sries
de dados que temos. Nesse caso, podemos usar um comando for dentro de outro comando for:
5.2 ETS-ERROR-trend-seasonal 93
for %b qx y px pm qm
for %a s d n a m
smooth({%a},e,e,e) {%b} {%b}{%a}
next
next
5.2 ETS-ERROR-trend-seasonal
Os modelos ETS so bem mais complexos e eficientes que a proposta anterior (ES) e se diferenciam
por incorporar o erro de previso do passo anterior para melhorar a estimativa no momento presente.
Aqui a ideia decompor a srie de dados em trs componentes T - tendncia; S - sazonalidade e I -
componente irregular, ou resduo. Tal como visto anteriormente nos mtodos de dessazonalizao,
aqui podemos ter modelos aditivos e multiplicativos, ou ento combinados totalizando 30 diferentes
tipos de modelos. Em resumo temos:
Modelo aditivo puro: y = T + S + I
Modelo multiplicativo puro: y = T S I
Modelo misto: y = (T S) + I
Modelo ANN
Vejamos como o modelo mais simples de todos, dado por A, N, N (erro aditivo, sem tendn-
cia, sem sazonalidade) aplicado ao IBC-Br. Para estim-lo, abrimos a srie ibcbr e vamos em
Proc /Exponential Smoothing /ETS Exponential Smoothing . . . , abrindo a caixa de dilogo
apresentada Figura 5.16a, a qual tambm j apresenta as configurao utilizadas para o modelo
mais simples. O resultado tal como mostrado na figura 5.16b. De forma geral, teremos que
94 Captulo 5. Sries de tempo
yt = yt1 + t1 . Dito de outra forma, nossa previso corrigida pelo erro de previso do passo
anterior.
Ali temos a estimativa do parmetro x=0,624931 e o valor inicial de 97.65847. Logo abaixo
temos diversas estatsticas de comparao de modelos. Voc deve estar se perguntando: de onde
vem esse valor inicial?. E o alfa? Aqui comeamos a ter o primeiro contato com o processo de
maximizao em srie de tempo e iterao. Para comear o modelo precisamos de um valor inicial,
a semente, e um valor de x. O valor inicial para representar a previso do primeiro ms que,
no nosso exemplo, de y1=96,15. O valor de para encontrar a evoluo da nossa estimativa.
Suponha um valor inicial de y1 = 97, 6584. Com esse encontramos um erro de previso de:
y1 y1 = 1
96, 15 97, 65 = 1, 508
y2 = y1 + (1 )y1
y2 = (0, 62) 96, 15 + (0, 38) 97, 65 = 96, 71
Como podemos prever o momento y2 ? Precisaremos do valor de . Veja que, para prever o
passo atual, usamos a informao verdadeira em t 1 e a estimada ou ento, a previso em t + 1
pode ser encontrada aplicando y2 = y1 + 1 ou y2 = 97, 65 + 0, 62(1, 508). Agora podemos
encontrar o erro de previso no passo 2 (2 ) da mesma forma que antes,
2 = y2 y2
= 98, 67 96, 71
= 1, 954,
ou ento, usando o erro de previso anterior: y3 = y2 + 2 = 96, 71 + 0, 62(1, 95) = 97, 93.
5.2 ETS-ERROR-trend-seasonal 95
yt = (yt1 + Tt1 ) + t1
Quando a taxa de crescimento do componente tendncia for zero, ou seja, = 0. O valor inicial
estimado para a tendncia T = 0, 312577 e o valor do nvel inicial 97, 44160. Sendo assim,
nosso valor inicial dado por:
y1 = N1 + T1
= 97, 4416 + 0, 312577 = 97, 7541
Como temos uma tendncia, essa deve ser incorporada na previso dos passos seguintes e,
tambm devemos usar o erro de previso do passo anterior para melhorar o modelo no passo
96 Captulo 5. Sries de tempo
seguinte. Sendo assim, nossa previso para o passo dois dada por:
y2 = (y1 + T1 ) + 1
= (97, 75 + 0, 3125) + 0, 54(1, 604)
= 97, 2003
2 = y2 y2
= 98, 67 97, 20
= 1, 47,
que ser til para corrigir a previso no passo trs. Fazemos isso at a ltima observao. A partir
de ento, a previso passa a evoluir de acordo com a tendncia, como mostra a Figura 5.19.
5.2 ETS-ERROR-trend-seasonal 97
Modelo MAM
Esse o descrito pela presena de erro multiplicativo, tendncia aditiva e sazonalidade multiplicativa.
Com a srie ibcbr aberta selecione ETS e depois as opes como mostrado na Figura 5.20a. Note
que agora abre a opo de especificao cclica. Como estamos com dados mensais, temos um
valor cycle=12.
Os resultados agora possuem estimativa de 3 parmetros (, , ). O primeiro para atualizao
do erro de previso, o para a tendncia e o para a sazonalidade. Logo abaixo esto os valores
iniciais para o nvel, a tendncia e os 12 estados, cada qual representando um ms; ver Figura 5.20b.
O valor inicial estimado corresponder soma de valor do nvel, da tendncia e, como temos
uma sazonalidade multiplicativa, essa soma multiplicada pelo respectivo estado que corresponde
ao ms anterior:
y1 = (N1 + T1 ) St1
= (101, 0184 + 0, 3372) 0, 9503
= 96, 322.
Como o primeiro ms janeiro, usamos estado dezembro = 0,950338. Lembre-se que esses valores
de estado correspondem aos fatores sazonais vistos anteriormente. Com base em y1 podemos
determinar o erro de previso no primeiro passo usando:
1 = y1 y1
= 96, 15 96, 32 = 0, 172
98 Captulo 5. Sries de tempo
A seguir, para prever o passo seguinte usamos o erro de previso do passo anterior, o valor de
e, como = 0, 021679, temos que considerar a taxa de crescimento da tendncia. O grfico de
previso pode ser visto na Figura 5.21.
5.3 Ciclo
Outra caracterstica observada nas sries de tempo o componente cclico, (Ct ). Entender como
o comportamento cclico de uma srie de tempo tem sido objeto de estudo com aplicaes
principalmente na macroeconomia. H diversas tcnicas paramtricas e no paramtricas que foram
desenvolvidas para esse fim. A seguir so apresentados os diferentes filtros disponveis no EViews
R
qxciclo = qx qxhp
Ou seja, o ciclo representa a diferena da srie original em relao a sua tendncia de longo
prazo e o resultado de qxciclo muitas vezes visto como gap. Valores acima de zero significam
que estamos acima da tendncia de longo prazo. No caso de usar o PIB, esse seria um exemplo
de produo acima do potencial, uma informao til para avaliao de conjuntura e que o leitor
interessado pode ver em relatrios de bancos, corretoras e tambm do Banco Central. Por outro
lado, valores abaixo de zero so indicaes de que estamos abaixo da tendncia de longo prazo.
5.3 Ciclo 99
Na figura 5.22 estimamos trs tendncias de longo prazo para diferentes valores de : (i) = 0
nome qxhp1; (ii) = 1600 nome qxhp; (iii) = 100000 nome qxhp2. Como pode ser visto, para
um valor de = 0, a tendncia de longo prazo igual srie em questo (linha azul). No valor
sugerido de de = 1600 , a tendncia de longo prazo oscila um pouco (linha verde). Por fim, para
um valor muito alto, = 100000 , a tendncia de longo prazo se aproxima de uma reta.
Um ponto interessante que o leitor poder notar que, ao se escolher como parmetro de
alisamento a alternativa de Ravn e Uhlig(2002) mas, deixando o valor 2 em power, os resultados
sero idnticos ao aplicado o parmetro = 1600 sugerido por Hodrick e Prescott(1997).
Programao 5.3.1 O mtodo de Hodrick-Prescott tambm pode ser aplicado a partir de uma
programao. Nesse caso, usamos:
qx.hpf(lambda=1600) qx_hp @qx_ciclo
Entre parnteses colocado o lambda e o valor que se pretende para o parmetro. Nesse
exemplo, escolhemos 1600. A seguir esto os nomes das duas sries que sero geradas, a primeira
o componente de tendncia de longo prazo e, a segunda, o componente cclico. Note que,
nessa funo, exigido que se tenha @ antes do nome da segunda srie de dados. Seguindo a
mesma linha de raciocnio, podemos juntar, em uma nica funo, a dessazonalizao dos dados,
o alisamento exponencial e a aplicao do filtro HP a partir de:
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}_x12
{%a}.smooth(m,e,e,e) {%a}sm1
{%a}.hpf(lambda=1600) {%a}_hp @{%a}_ciclo
next
2 = 13.93 e 1 = 133107.94.
Note que, em primeiro lugar, definimos o valor dos 1 e 2 dentro das variveis de nome
lambda1 e lambda2 pelo comando scalar. Isso facilita visualmente na hora de reescrever a
programao para testar diferentes lambdas. Em seguida, declaramos um loop onde indicamos
que %a tomar os valores de qx.Ento, utilizando duas vezes o comando .hpf aplicamos o filtro
HP, com os lambdas definidos anteriormente. Alm de rodarmos a dupla filtragem, padronizamos
o ciclo e adicionamos mdia 100, conforme sugerido OECD(2008). A programao pode incluir
diversas sries e testes, abaixo trazemos um exemplo da dessazonalizao pelo mtodo X-12
multiplicativo seguido da extrao do ciclo de crescimento sugerido em OECD(2008).
Como procedimento na estimativa vemos que, primeiro, encontrada a matriz de pesos bppeso.
Como escolhemos Lead/lags igual a 12, a matriz ter 13 colunas (ser sempre uma a mais que o
nmero de Lead/lags). Destaca-se que essa matriz posteriormente utilizada para gerar a srie
qxbpciclo a partir de:
q+1 q+1
qxbpciclot = w(1, c)yt+1c + w(1, c)yt+c1
c=1 c=2
Uma ltima informao fornecida diz respeito resposta que a srie filtrada qxbp, responde srie
qx, em uma dada frequncia,
ver figura 5.24. A linha vermelha mostra a resposta ideal que deve
1 1
estar no intervalo PU , PL , onde PU o maior perodo e PL o menor. No nosso exemplo, PU = 32
e PL = 6, e o intervalo timo entre (0,031;0,167).
102 Captulo 5. Sries de tempo
Programao 5.3.3 Podemos fazer a estimativa do filtro Baxter-King via programao. Nesse
caso, a funo utilizada dada por:
Dentre as vrias opes que podem ser especificadas, o termo type=bk refere-se ao filtro
Baxter-King. Se quiser escolher o filtro Christiano-Fitzgerald fixo, coloque type=cffix e, para
o filtro assimtrico use type=cfasym. A seguir est o perodo mnimo do ciclo e o mximo.
Depois, a srie de dados ajustada pelo ciclo. Por fim, podemos selecionar os resultados a serem
mostrados. Ainda no conjunto de opes, podemos escolher o nome da srie ajustada pelo
ciclo a partir de noncyc=qxbpfciclo. Podemos especificar a matriz de pesos do ciclo usando
weight=wqxbp. A seguir, colocamos o nome da srie do ciclo, qxbpf. Se o nome da srie
do ciclo (qxbpf) for omitido, o EViews
R
ir criar uma srie de nome BPFILTER01. Assim,
possvel agregar essa estimativa s anteriores, a partir de:
for %a qx y px pm qm
seas(m) {%a} {%a}_sa {%a}_sf
{%a}.x12(mode=m, filter=msr, save= "d10 d11 d12") {%a}_x12
{%a}.smooth(m,e,e,e) {%a}sm1
{%a}.hpf(lambda=1600) {%a}_hp @{%a}_ciclo
{%a}.bpf(type=bk,low=6,high=32,noncyc={%a}bpfciclo,w=w{%a}bp) {%a}bpf
next
O segundo filtro simtrico que pode ser utilizado o CF. Ao fazer essa escolha, ser habilitada
a opo de estacionriedade dos dados, alm do mtodo de diferenciao da srie8 . Ao selecionar
a opo I(0), h trs alternativas para se proceder diferenciao dos dados. Por outro lado, ao
8 Para maiores esclarecimentos sobre o grau de integrao de uma srie de dados, o leitor deve consultar a seo sobre
Raiz Unitria.
5.3 Ciclo 103
escolher que o processo um random walk, h uma opo adicional. Assuma por hora que a
srie qx um processo I(0) e que vamos usar o mtodo Remove linear trend. Mantenha todas as
demais opes como anteriormente, ou seja, Lead/lags igual a 12, a mesma periodicidade para o
ciclo e d nomes para as variveis, como mostra a figura 5.25a. A forma de clculo de qxcfciclo
a mesma de antes, usando a matriz de pesos.
(a) Opes filtro CF simtrico (b) Ciclo comparado pelos dois mtodos
No geral, os resultados so muito parecidos. A matriz de pesos em pouco difere (no foi aqui
mostrada, mas o leitor pode comparar bppeso com cfpeso) e, como mostrado na figura 5.25b, o
componente cclico, resultante da srie filtrada, tambm similar.
O ganho maior no Band-Pass filter est em usar o mtodo assimtrico. Nesse caso, no
perdemos informaes com o uso de lead/lags. Alis, como pode ser visto, a opo do terceiro filtro
no habilita a escolha do nmero de lead/lags. Escolha a opo Full sample asymmetric, mantenha
a periodicidade cclica de 6 e 32, I(0) e use o mtodo remove linear trend. Escolha nomes
diferentes para os resultados para no coincidir com as estimativas anteriores. Tal procedimento
mostrado na figura 5.26.
A determinao da periodicidade cclica pode variar de acordo com a percepo sobre a durao
do ciclo. O menor valor a ser especificado em Low 2, o que ir produzir uma estimativa de
ciclo bem errtica. Obviamente, a durao mxima em High tem que ter um valor maior que o
especificado em Low. Outra opo que precisa ser avaliada em Stationarity Assumption se a
srie em questo que estamos extraindo o ciclo estacionria I(0) ou ento possui raiz unitria I(1)
e, por fim, tem-se que especificar o mtodo para eliminar essa no estacionariedade.
Note que o ciclo agora estimado para todo o conjunto de dados. Alm disso, o leitor poder
ver que, ao analisar a matriz de pesos, a mesma de dimenso 74x74, refletindo o fato de que os
pesos variam no tempo. Para encontrar o resultado do primeiro trimestre, usa-se o primeiro vetor
linha, multiplicado pelo vetor coluna de qx. Isso ir produzir como resultado, a primeira informao
do ciclo, no nosso exemplo, a srie qxcfciclo2. Na linha 1, as primeiras 13 informaes de pesos
so idnticas s encontradas pelo mtodo CF simtrico. Na figura 5.27, comparamos os resultados
da estimativa pelo filtro HP com a obtida pelo mtodo CF assimtrico. Note que esse tem uma
estimativa de ciclo mais suavizada.
scalar num=4
for %a qx y px pm qm
{%a}.bpf(type=cfasym,low=num,high=60,detrend=t,iorder=1,nogain,
noncycle={%a}cf) {%a}bpf
num=num+1
next
Programao 5.3.5 Uma vez que o add-in FDfilter esteja instalado no EViews
R
possvel
aplicar o filtro a partir do menu ou ento a partir de um comando da sub-rotina. Para o exemplo
do IBCBR teremos:
call ideal bandpass (ibcbr, 0.0625, 0.033, ibcbr_cicle, data inicial,
data final)
Caso tenha vrias sries de dados podemos usar um loop para aplicar o filtro a todas elas:
For %a a1 a2 a3
%name = ciclo + %a
call ideal bandpass (%a, 0.062, 0.333, %name, 2003MOI, 2016MI)
next
Como primeira opo colocamos a extenso do nome da srie do ciclo que ser calculada.
Nesse exemplo usamos _FD. As duas opes seguintes se referem aos valores dos perodos iniciais
e finais ou, frao de , que ser usado na determinao da frequncia do ciclo. Como default
usamos 0.0625 e 0.3333. Por fim especifique o perodo de anlise dos dados. Como queremos uma
estimativa para todo o perodo escrevemos @all. A Figura 5.28b mostra a estimativa do ciclo do
IBCBr.
qx, ou seja, na primeira diferena da varivel em questo. A opo dos lags a incluir apenas para
o teste e a visualizao grfica. O programa nos retorna dois grficos de barras (correlogramas) e
quatro estatsticas vinculadas: autocorrelao (AC), autocorrelao parcial (PAC), estatstica Q e a
probabilidade, conforme figura 5.29b.
(a) Opes
(b) Correlograma de qx
A funo de autocorrelao (AC) mensura a correlao de uma varivel e suas defasagens. Seu
clculo obtido atravs da diviso da covarincia com a defasagem k pela varincia da amostra.
Ligeiramente diferente da definio terica o EViews
R
estima autocorrelao pela seguinte frmula:
n
t=k+1 (xt x)(x
tk x)
tk = n 2
,
t=1 (xt x)
tal que, quando k = 1, estamos medindo a autocorrelao de ordem um e assim sucessivamente.
J a autocorrelao parcial (PAC) calcula a autocorrelao da defasagem k descontando o poder
preditivo das defasagens anteriores, t1 ,t2 , ...tk1 . Os resultados de AC e PAC so apresentados
de forma grfica nos dois correlogramas, onde a linha vertical continua indica o zero e as duas
linhas pontilhadas aproximadamente dois desvios padro, computados por 2/( n). Ou seja,
para que o coeficiente, tk , seja significativamente diferente de zero, ao nvel de significncia de
aproximadamente 5%, este no pode estar entre as linhas pontilhadas.
No exemplo apresentado na figura 5.29b, qx tem 74 observaes ento 2/( 74) = 0.2325.
Logo, para que o coeficiente seja significativo e estatisticamente diferente de zero, no pode
pertencer ao intervalo de confiana de 95%:
k 2j
QLB = T (T + 2) .
j=1 T j
5.4 Autocorrelao (Correlograma) 107
Alm disso, a estatstica Q e seu p-valor, apresentados nas ltimas duas colunas do correlograma,
so comumente utilizados para testar se a srie rudo branco. Cabe destacar nesse caso que,
considerando uma srie qualquer yt = t , tal que o choque t no serialmente correlacionado, esse
processo, com mdia zero e varincia constante, ser denominado rudo branco. Adicionalmente,
se t e, consequentemente, yt , forem serialmente independentes, podemos dizer que y rudo
branco independente escrevendo yt iid(0, 2 ), ou seja, y independentemente e identicamente
distribudo com mdia zero e varincia constante.
O correlograma tambm nos permite algumas consideraes sobre modelagem das sries
de tempo. Se a autocorrelao apresentar coeficientes significativos que diminuem lentamente
de forma geomtrica e a autocorrelao parcial for para zero depois da defasagem p, podemos
evidenciar que a srie obedece um processo autorregressivo puro de ordem p, AR(p). Como o
correlograma na figura 5.29b, que nos sugeri que a srie qx segue um processo autorregressivo de
primeira ordem AR(1).
Enquanto processos puros de mdias moveis (MA) apresentam autocorrelao prxima a zero
depois de algumas defasagens, junto de autocorrelao parcial persistente caindo gradualmente
para zero, conforme figura 5.30a. Da mesma forma, um correlograma que apresente um padro
sazonal de movimentos recorrentes como ondas sugeri a presena de sazonalidade, figura 5.30b.
Vale ressaltar, o padro de sries no-estacionrias mostram coeficientes de autocorrelao altos e
persistentes em diversas defasagens, como qx na figura 5.29b.
scalar k = 25
table corres
!j=0
for %a qx y px
for !i = 1 to k
freeze(mode = overwrite, temp) {%a}.correl(k)
corres(1,1+!j) = %a
corres(2,1+!j) = "k"
corres(2,2+!j) =temp(5,4)
corres(2,3+!j) =temp(5,5)
corres(2,4+!j) =temp(5,6)
corres(2,5+!j) =temp(5,7)
corres(2+!i,1+!j) =temp(6+!i,3)
corres(2+!i,2+!j) =temp(6+!i,4)
corres(2+!i,3+!j) =temp(6+!i,5)
corres(2+!i,4+!j) =temp(6+!i,6)
corres(2+!i,5+!j) =temp(6+!i,7)
next
!j = !j+5
next
Note que inicialmente criamos o escalar k, que recebe o nmero de defasagens, a tabela
resumo corres, que receber as estatsticas calculadas, e a varivel de contagem !j, que organizar
as colunas em corres quando houver mais de uma srie de tempo. Ento, aplicado o comando
.correl em qx,y epx e guardamos as informao dentro da tabela temporria, temp, usando o
comando freeze. Para preenchermos corres com os dados contidos em temp.
Uma vez identificada a densidade espectral podemos avaliar os picos de frequncia e os perodos
associados a ele. Suponha uma srie de dados mensal e que na anlise espectral tenha-se encontrado,
por exemplo, um pico na frequncia "a". Nesse caso, o perodo associado a esse ciclo, medido em
meses, dado por 1/a. normal termos mais de um pico na densidade espectral e veja que quanto
maior for o valor de a, menor ser o perodo, em tempo, associado a essa frequncia.
O Eviews faz anlise espectral, mas necessrio instalar o add-in Spectral Analysis. Vejamos
como a aplicao desse mtodo a srie mensal IBCBR do Banco Central do Brasil sem ajuste
sazonal. Lembre-se que essa anlise deve ser feita com a srie estacionria. Como a nossa srie
possui tendncia, primeiro temos que eliminar essa tendncia, o que feito a partir de uma regresso
simples tendo como varivel independente o tempo e uma constante. A seguir, analisamos os
resduos dessa equao.
Com a srie residuo aberta v em Proc/Add-ins/Spectral Analysis. A janela que ser aberta
como mostrado na figura 5.31. Note que h vrias opes de escolha para o processo de alisamento
do periodograma. Vamos usar como default o ponto 20 como de truncagem e, por enquanto, no
vamos selecionar as demais opes, apenas deixe output table.
Aps clicar em ok perguntado se queremos gerar o ciclo timo. Clique, novamente, em
ok. A seguir aberta uma janela que pergunta o p-valor e o nmero de ciclos. Digite 0.05.
Deixe selecionada a opo weighted cycle e selecione individual-cycles. Clique em ok. Diversos
resultados so reportados, mas vamos olhar primeiro para o grfico do periodograma, como
mostrado na figura 5.32. Note que o mesmo no foi alisado e apresenta diversos picos. Cada um
desses picos, na respectiva frequncia, possui um ciclo no tempo.
Mas, tal como colocado no grfico no seria possvel identificar essas frequncias. Felizmente
esses resultados so salvos em uma tabela no workfile de nome "data". Abra e poder ver que
o mesmo possui quatro colunas, como mostrado na figura 5.33. A segunda coluna corresponde
ao eixo horizontal do grfico do periodograma e traz a relao ciclo/tempo. A ltima coluna,
de nome periodogram, corresponde ao eixo vertical do grfico, e permite identificar os picos da
nossa densidade espectral. Veja por exemplo que a primeira frequncia, de valor 0,006369 tem
o maior pico encontrado, de valor 4,65. A terceira coluna nos mostra a relao tempo/ciclo, ou
seja, o perodo de ocorrncia do ciclo, dado por 1/frequncia. Sendo assim, para a frequncia
0,006369 temos um perodo cclico de 157 meses. Note que h um pico no periodograma de valor
2,89 associado com a frequncia 0,025478 e que gera um perodo de 39 meses. H outro pico
na frequncia 0,082803 e que gera um perodo cclico de 12 meses, revelando a existncia de
sazonalidade no nosso banco de dados.
110 Captulo 5. Sries de tempo
5.6 Exerccios
Exerccio 5.1 Aplique os quatro diferentes mtodos de dessazonalizao na srie qx, agrupe
em um grfico e discuta as diferenas.
112 Captulo 5. Sries de tempo
Exerccio 5.3 Utilize os diferentes mtodos de alisamento exponencial para prever 6 trimestres
de px.
Exerccio 5.4 Monte um grfico de y que compare os trs diferentes mtodos da opo detren-
ding method para o filtro CF simtrico em I(0).
Exerccio 5.5 Monte um grfico de y que compare os trs diferentes mtodos da opo detren-
ding method para o filtro CF assimtrico I(0).
Exerccio 5.6 Monte um grfico de y que compare os quatro diferentes mtodos da opo
detrending method para o filtro CF assimtrico I(1).
Exerccio 5.7 Extraia o ciclo de y pelo mtodo de dupla filtragem HP, utilizado pela OECD(2008),
e compare aos resultados encontrados com uma nica filtragem.
Exerccio 5.8 Compare as melhores estimativas para y encontradas nos exerccios 5.5, 5.6 e
5.7.
Exerccio 5.9 Quais so as caractersticas de uma srie de rudo branco? E por que a estatstica
Q til para identific-la?
Exerccio 5.10 Crie uma srie de rudo branco e prove as afirmaes feitas no exerccio 5.9
utilizando o correlograma e a estatstica Q.
Exerccio 5.11 Por que consideramos o calculo de autocorrelao feito pelo EViews
R
diferente
da definio terica?
5.7 Bibliografia
Christiano, L. J. e Fitzgerald, T. J. (2003), The Band Pass Filter. International Economic
Review, 44: 435465.
Corbae, Dean e Ouliaris, Sam (2006). Extracting Cycles from Nonstationary Data. In: Dean
5.7 Bibliografia 113
Corbae et al. (eds.) Econometric Theory and Practice. Cambridge: Cambridge University
Press, pp. 167-177.
Gyomai, G., e Guidetti, E. (2008). OECD system of composite leading indicators. Organisa-
tion for Economic Co-Operation and Development (OECD). Disponvel em:
http://www.oecd.org/std/leading-indicators/41629509.pdf.
Hodrick, R. J., e Prescott, E. C. (1997). Postwar US business cycles: an empirical investiga-
tion. Journal of Money, credit, and Banking, 1-16.
Hylleberg, Svend (1986). Seasonality in Regression.
Morais, I.A.C., Bertoldi, A., Anjos, A.T.M. (2010), Um modelo no-linear para as exporta-
es de borracha. Revista Sober.
Nilsson, R., e Gyomai, G. (2011). Cycle extraction: A comparison of the Phase-Average
Trend method, the Hodrick-Prescott and Christiano-Fitzgerald filters.
6. Regresso Simples
O primeiro contato com modelos de econometria comea agora. Entretanto esse livro no tem
a inteno de esgotar o assunto do ponto de vista metodolgico, e sim com aplicaes. Nesse
sentido, se o leitor precisar de fundamento s e discusses tcnicas sobre o tema, diversos livros
tcnicos podem se consultados. O procedimento aqui simples. Comeamos com a estimao
de um modelo com apenas uma varivel independente e explicamos todas as opes de testes e
identificao de problemas que por ventura possam aparecer e que esto disponveis noEViews
R
.
Entendido esse ponto, o captulo seguinte passa a explicar um modelo de regresso mltipla.
O primeiro passo na estimativa de um modelo de regresso definir as variveis dependentes
e independentes. No nosso exemplo a ideia trabalhar com uma curva de demanda aplicada a
exportao de mveis (qx) e que pode ser explicada pela varivel renda (yw), que representa o
nmero ndice do PIB mundial. Vejamos como estimar uma regresso simples. Abra o arquivo do
EViews
R
regresso simples.wf1. H um conjunto de variveis, mas usaremos apenas duas nesse
momento. Nesse caso, vamos rodar a seguinte equao de regresso 1 :
qxt = 1 + 1 ywt + t
1 Note que h dados com e sem ajuste sazonal, onde esses so representados por _sa. Aqui foi usado o mtodo X-12.
Logo abaixo do campo onde se especifica as equaes, na figura 6.1, est o mtodo de estimao,
que no nosso caso o LS Least Squares, tambm conhecido como mnimos quadrados, e o
Sample que o perodo amostral onde sero feitas as estimativas. Clique em OK. Qualquer que
seja a forma utilizada para rodar essa regresso, o resultado ser o mesmo, como mostrado na
figura 6.2. Diversas estatsticas podem ser visualizadas. Na primeira linha est descrita a varivel
dependente, seguido do mtodo de estimao, a data em que foi feita essa estimativa(tilpara ver
se os alunos fizeram o exerccio na data certa), o perodo utilizado para gerar os resultados e o
total de dados. Note que so usados 187 dados que vo de janeiro de 2000 a julho de 2015. Logo
abaixo, em uma tabela, so mostrados os resultados da nossa equao e que, normalmente, so
assim representados em livros e artigos de econometria:
onde, entre parnteses, ficam descritos os valores dos respectivos desvio-padro. A terceira forma de
estimar uma equao no eviews via programao e pode ser visualizado no box 6.0.1.
A segunda maneira seria escrever o comando equation seguido do nome a ser dado para a
equao e da lista das variveis. H algumas vantagens nesse segundo mtodo que vo ficar mais
claras mais a frente. Uma delas o fato de j especificarmos o nome da nossa regresso como
eq1:
117
qx.x12(mode=m) qx
yw.x12(mode=m) yw
smpl 2000M1 2015M7
equation eq1.ls qx_sa yw_sa c
Os resultados para a nossa primeira estimativa de regresso simples podem ser visualizados na
figura 6.2.
Aps os valores dos coeficientes (parmetros), esto os desvios-padro (StdError) e, na coluna
seguinte da tabela est a estatstica t (t-statistic) e o p-valor (Prob). A primeira utilizada para
testar se o seu respectivo coeficiente estatsticamente diferente de zero, a partir da frmula:
x
t=
Por exemplo, podemos testar se 1 = 0 que a nossa constante. Nesse caso, a estatstica t
dada por:
1 0 18.389 0
t= = = 2.779
6.616
O mesmo podendo ser feito para testar se 1 = 0, onde:
1 0 0.647 0
t= = = 10.216
0.063
118 Captulo 6. Regresso Simples
Por fim, o resultado do Prob ir indicar se aceitamos ou rejeitamos a hiptese nula de que o
coeficiente em questo estatsticamente igual a zero. O Prob aqui o mesmo que o P-valor.
Destaca-se que, para esse teste, estamos assumindo uma distribuio t-student e que bicaudal. No
nosso exemplo, tanto para o coeficiente da constante, quanto para o da renda, rejeitamos a hiptese
nula de que so estatsticamente iguais a zero.
O valor Prob tambm pode ser encontrado a partir da funo tdist. Nesse caso, como o resultado
um nmero, criamos primeiro um escalar e especificamos os valores para a funo tdist a partir
de scalar pvalor=@tdist(10.216,187). O valor 10.216 o valor da estatstica t e 187 representa o
nmero de graus de liberdade do teste, equivalente ao nmero de observaes utilizadas aps o
ajuste (veja no incio dos resultados na fig. 6.2).
Programao 6.0.3 Dando sequencia nossa regresso simples, os comandos abaixo podem
ser usados para testar se o parmetro da elasticidade-renda igual a zero 1 = 0 . Nesse caso,
primeiro especificamos a estatstica t e armazenamos a mesma em um escalar de nome valort,
salvamos o nmero de observaes no escalar obs e, a seguir, aplicamos o teste para encontrar
seu respectivo p-valor e armazenar o resultado em um escalar de nome pvalor:
Alm desses resultados bsicos, h diversos outros que so mostrados logo abaixo e que servem
para avaliar o modelo em questo. Por exemplo, no caso do R-squared, conhecido como R2 ou R2 ,
o valor de 0.360 deve ser interpretado como: cerca de 36% das variaes em qx so explicadas por
variaes em yw. Alguns costumam afirmar que esse resultado, na verdade, estaria se referindo ao
grau de explicao do modelo, o que no deixa de ser verdade. A frmula dada por:
T 2
t=1 t
R2 = 1 T
t=1 (Yt Y )2
T
O termo t=1 t 2 denominado de soma do quadrado dos resduos, e que est mostrado na
tabela como Sum squared resid. t=1T
t 2 = 36438.21.
Esse resultado pode ser feito manualmente. Primeiro pegue todos os resduos da regresso e
eleve cada um deles ao quadrado e depois some todos.
Esse termo tambm poderia ser expresso da seguinte forma:
T
( )2
t=1
Onde a mdia dos resduos. Porm, por definio, a mdia dos resduos igual a zero,
uma vez que a reta de regresso foi estimada de forma a passar exatamente na mdia de todos os
pontos. Sendo assim, tudo o que se erra na estimativa para cima, tambm se erra para baixo. Ou
seja, teremos valores positivos e negativos que se anulam e, sua mdia daria zero. Sendo assim,
acabamos por fazer:
T T T
( )2 = ( 0)2 = 2
t=1 t=1 t=1
Caso queira verificar a srie de resduos,com a equao aberta, v em View/Actual,Fitted,Residual.
Ou ento, se quiser gerar a srie dos resduos, v em Proc/Make Residual Series..., e escolha um
nome para essa srie.
119
Programao 6.0.4 Uma alternativa interessante rodar vrias regresses com uma janela
fixa de, por exemplo, 60 dados, ou seja, 5 anos. Nesse caso, iniciamos uma regresso em
2000M1 que vai at 2004M12. A seguir, a segunda regresso vai de 2000M2 at 2005M1 e
assim sucessivamente. Isso ir representar 99 regresses no total, com a ltima indo de 2008M4
a 2013M3. Para tanto, podemos declarar um loop usando o comando for:
for !i=1 to 99
smpl 2000M1+!i 2004M12+!i
equation eq2.ls qx_sa yw_sa c
next
Porm, isso ir gerar apenas um resultado para as nossas estimativas, qual seja, a ltima
regresso. Nesse caso, no iramos saber como evoluiu, por exemplo, ao longo dessas 99
regresses, o valor do coeficiente da elasticidade renda-demanda. O ideal seria comparar essa
estimativa com a que envolve todos os dados, como feito anteriormente em eq1. Para tanto,
podemos usar o comando matrix, para criar uma matriz de 100 linhas de nome coef e, depois,
pedir para salvar esse coeficiente nessa matriz.
Como ltimo complemento, note que, aps fazer isso, seu conjunto de dados amostral se reduziu
para 60 dados, mostrado na parte superior do workfile em sample. Para fazer o banco de dados
contemplarem todos os dados escreva no final do programa:
smpl @all
A figura 6.3a mostra como so os resduos e a 6.3b a distribuio dos mesmos. Veja que a
mdia zero, satisfazendo a premissa do modelo de regresso E() = 0. Mas no possuem uma
distribuio normal, sinalizando que podemos melhorar essa estimativa no futuro.
120 Captulo 6. Regresso Simples
T
A seguir, o termo t=1 (Yt Y )2 representa o quanto a varivel dependente desvia em relao
sua mdia. O termo elevado ao quadrado exatamente para evitar que desvios positivos sejam
anulados por desvios negativos. A mdia da varivel dependente mostrada na tabela como Mean
dependent var e, para o nosso exemplo, tem valor qxt = 85.168.Para encontrar esse valor podemos
usar o comando scalar media = eq1.@meandep. Isso tambm pode ser feito manualmente,
T
onde teremos t=1 (Yt Y )2 = 85.168. Por fim, no nosso exemplo, basta encontrar:
36438.21
R2 = 1 = 0.360
56994.139
Veja que, independente do modelo que for utilizado, o denominador da equao acima nunca se
modifica. Porm, o numerador, ou seja, o desvio dos erros em relao a sua mdia, que igual a
zero, ser diferente para cada modelo. Ou seja, tem modelos que erram mais que outros. Dessa
forma, quanto maior for o numerador, relativamente ao resultado do denominador, mais o modelo
estar errando e, com isso, menor ser o valor de R2 . Um modelo que tem erro prximo a zero ir
produzir um R2 prximo ao valor 1.
Logo abaixo dessa estatstica h outra que deve ser considerada mais til, a Adjusted R-
squared. Nessa, o valor do R2 corrigido pelo nmero de coeficientes que esto sendo utilizadas
no modelo. Sua frmula geral dada por:
T 1
R 2 = 1 (1 R2 )
T k
Onde T o nmero de observaes utilizadas e k o nmero de coeficientes. No nosso exemplo,
temos 187 dados e dois coeficientes, um para a constante e outro para a varivel independente.
Sendo assim:
187 1
R 2 = 1 (1 0.360) = 0.357
187 2
Porque utilizar o R 2 e no o R2 ? Em regresso simples os dois valores so bem parecidos, pois
termos no mximo dois coeficientes a utilizar, a constante e o . Mas em modelos de regresso
mltipla onde k maior as estimativas podem diferir de forma significativa.
Programao 6.0.5 Seguindo no exemplo das nossas 100 regresses, podemos pedir agora
para que seja criada uma srie com todos os valores dos R2 . Isso ser til para identificar em
qual sequncia de regresses obtemos a melhor estimativa. Assim, criamos mais uma matriz, s
que agora de nome explicado e pedimos para salvar os valores nela. Note que os valores da
regresso com o conjunto total dos dados ficam na ltima linha dessa matriz:
121
Veja que o valor do R2 obtido usando o comando .@r2 logo depois do nome da equao
(nesse exemplo eq1 e eq2). Caso queira determinar a srie de valores do R2 ajustado use
.@rbar2.
A seguir, na tabela com o resultado da regresso, h a informao do desvio padro da regresso,
ou ento, S.E. of regression. Seu resultado dado de forma direta a partir do conhecimento da
varincia dos resduos, visto anteriormente:
T
( )2
t=1
Ou seja, como a mdia dos resduos igual a zero, = 0, a varincia pode ser encontrada a partir
de: s
T
t=1 t2
s=
(T k)
No nosso exemplo, s = 14.034. O comando para obter esse valor dado por scalar desvio =
eq1.@se.
A estatstica seguinte mostrada na tabela de resultados a log likelihood, ou ento, o log da
verossimilhana, onde os erros so avaliados supondo-se uma distribuio normal a partir de:
T
t=1 ( )2
T
l= 1 + ln(2) + ln
2 T
Para os dados do nosso exemplo, temos que T = 187 e, sendo assim:
187 36438.213
l= 1 + ln(2) + ln = 758.298
2 187
O comando no EViews
R
para determinar o valor do log da verossimilhana dado por scalar
logver = eq1.@logl.
A seguir, est a estatstica F. Essa tem como objetivo testar se todos coeficientes das variveis
independentes no modelo, em conjunto, so estatsticamente iguais a zero. Esse teste no inclui a
constante. usada a seguinte frmula geral para o teste:
R2 T k
F=
(k 1) (1 R2 )
122 Captulo 6. Regresso Simples
E, com base no p-valor, podemos rejeitar a hiptese nula de que 1 = 0.O Prob pode ser encon-
trado usando scalar probf = 1- @fdist(104.364,1,185). E usando scalar f = eq1.@f
encontramos o teste F.
Programao 6.0.6 O teste F pode ser feito via programao. Primeiro criamos o scalar
de nome f que calcula o valor da estatstica. A seguir, criamos o scalar de nome testef para
especificar o p-valor dessa estatstica que tem k-1 graus de liberdade no numerador e T-k graus
de liberdade no denominador:
scalar f= (eq1.@r2)*(eq1.@npers-eq1.@ncoef)/(eq1.@ncoef-1)*(1-eq1.@r2)
scalar testef=(1-@cfdist(f,eq1.@ncoef-1,eq1.@npers-eq1.@ncoef))
Programao 6.0.7 Ao rodar as 100 regresses, podemos estar interessados em criar uma srie
de dados que mostre a evoluo dos critrios de comparao. Como iremos usar os trs critrios,
a nova matriz que usaremos, de nome criterio, tem que ter 3 colunas. Criamos a mesma e
salvamos os valores desses critrios para a eq1. A seguir, ao rodar o loop, fazemos o mesmo para
cada uma das outras 99 regresses:
At esse momento vimos como avaliar os resultados das estatsticas do modelo de regresso e
como as mesmas so calculadas. A figura 6.4 traz um resumo das funes utilizadas at o presente
momento. Esses comandos devem ser aplicadas em uma equao. Por exemplo, para determinar a
nmero de observaes do modelo de de nome eq1, utilizado o comando eq1.@regobs.
Aps avaliar esses resultados, podemos ver, graficamente, como o nosso modelo, para o
conjunto de dados, se comportou. Para tal, com a janela de resultados da nossa regresso aberta,
124 Captulo 6. Regresso Simples
Tal como citado na legenda do grfico, a linha vermelha mostra os verdadeiros valores da
varivel dependente, no nosso caso, qx. A linha verde so as estimativas obtidas a partir do modelo
de regresso. E, por fim, a linha azul a srie de resduos que nada mais que a diferena entre
o verdadeiro valor e o estimado. Note que o nosso modelo no to bom para reproduzir o
comportamento de qx em determinados momentos, errando muito.
Nesse momento, o leitor pode estar se perguntando como feita a estimativa dos valores para
cada perodo. Vamos recordar a equao encontrada:
Com base nela podemos determinar qualquer valor de qx ao longo do tempo. Por exemplo, a
estimativa para janeiro de 2000 pode ser dada a partir da substituio do respectivo valor da varivel
independente naquela data. Ou seja, olhando a srie de ywt , ajustada sazonalmente, vemos que, em
janeiro de 2000 tem-se yw jan/2000 = 76.333. Sendo assim, podemos encontrar o valor de qx jan/2000
fazendo:
qx jan/2000 = 18.389 + 0.647(76.333) = 67.850
Esse procedimento pode ser repetido para qualquer ms que se queira avaliar, modificando apenas o
respectivo valor de ywt e mantendo fixo o coeficiente da constante, 18,389, e da inclinao, 0,647.
Aps fazer a regresso necessrio proceder a uma investigao detalhada sobre os resultados.
H no EViews
R
3 blocos de testes que so explorados nas sees a seguir. Primeiro feita a
investigao sobre os coeficientes. A seguir sobre os resduos e, por fim, sobre a estabilidade do
modelo.
Na primeira coluna esto as variveis, na segunda coluna o valor dos coeficientes estimados.
Na terceira coluna os coeficientes padronizados e, por fim, a estimativa das respectivas elasticidades
no ponto mdio.Essa tabela tambm pode ser encontrada usando o comando eq1.coefscale .
Note que, ao no marcar a opo Arrange in pairs, os resultados mostrados so mais fceis
de interpretar, com o intervalo mnimo esquerda, no meio a mdia do coeficiente e, depois, o
intervalo mximo. A tabela com os instervalos de confiana pode ser obtida usando o comando
eq1.cinterval(nopair) .95 . Para encontrar esses valores a um nvel de significncia de 95%
e uma distribuio t-student, o resultado para o coeficiente de ywt ser dado por:
126 Captulo 6. Regresso Simples
Programao 6.1.1 Para o nosso exemplo de 100 regresses, podemos pedir para que seja
criado, a cada passo, o intervalo de confiana para o primeiro coeficiente. Nesse caso, mudamos
a matriz coef para 3 colunas onde, na primeira, temos o intervalo inferior, a 95%; na segunda
coluna temos a estimativa do coeficiente; na terceira coluna o intervalo superior a 95%. Note que
tambm modificada a parte do loop:
scalar ponto=@qtdist(0.95,185)
Alternativamente podemos pedir uma estimativa de intervalo de confiana com vrios nveis de
significncia. Para tanto podemos usar o comando eq1.cinterval(nopair) .90 .95 .99 que
ir produzir os resultados da figura 6.8.
Como temos que c(1) = 0.647, ento c(1) 2 = 1.353. Esse o valor reportado no sumrio da
hiptese nula e que dever ser testado. O Std. Error, ou seja, o desvio-padro a ser usado nesse
teste o mesmo da estimativa de regresso para o coeficiente em questo. Nesse caso,c(1) = 0.063.
Sendo assim, podemos encontrar a estatstica t-student a partir de:
x
t=
1.353
t= = 21.316
0.063
No caso da estatstica t o probability dado a partir de (1-@ctdist(-21.316,185)). Lembre-
se que esse um teste bicaudal. Note que tambm mostrado o resultado para um teste F. No geral,
o teste F que compara dois modelos dado por:
h i
SSE2 SSE1
k1 k2
F= h i
SSE1
nk1
Onde n o nmero de observaes de um modelo no restrito, que no nosso caso o resultado com
c e yw_sa e dado por 187; k1 o nmero de parmetros do modelo no restrito, k1 = 2 no nosso
exemplo, dado pelo parmetro da constante e do coeficiente de yw_sa; SSE1 a soma ao quadrado
dos resduos de um modelo no restrito, que para o nosso exemplo dado por 36438, 2. Esse
modelo no restrito combinado ao modelo restrito onde teramos que testar a hiptese de C(1) = 2.
Para tanto vamos estimar uma equao onde qxt = c(1) + 2ywt o resultado ser qxt = 120, 9 + t ,
128 Captulo 6. Regresso Simples
uma equao com apenas um parmetro, ou seja, k2 = 1. Tendo a SSE2 = 125934, 7. Substituindo
esses valores no teste F encontramos:
h i
125934,736438,2
21
F= h i = 454, 3817
36438,2
1872
Como mostra a figura 6.11, h um ponto central na cor vermelha. Esse representa a es-
timativa dos dois coeficientes na equao de regresso, com c(1) = 0, 647 e c(2) = 18, 389.
Para conferir isso coloque o mouse sobre o ponto vermelho que esses valores iro aparecer.
A rea que est na cor cinza representa o intervalo de confiana individual para um teste a
95% de significncia, ou seja, para cada um dos coeficientes. Note que, para o coeficiente
130 Captulo 6. Regresso Simples
c(1) esse dado por 0, 522 < c(1) < 0, 773 no eixo horizontal. Lembre-se que encontramos
esse valor do intervalo de confiana anteriormente. Para a constante, que o segundo coefi-
ciente, 5, 335 < c(2) < 31, 443 e est no eixo vertical. Dentro do crculo est o resultado do
teste conjunto. No nosso caso, testando se c(1) = c(2) = 0. Esse grfico pode ser gerado
usando o seguinte comando no EViews
R
: eq1.cellipse(ind=shade) C(1)=0, C(2)=0 .
modelo de regresso simples, esses dois valores so iguais, resultando em um VIF centrado emyw
de 1. Veja na figura 6.13.
A segunda medida o VIF no-centrado. Esse dado pela razo da varincia do coeficiente
obtida a partir de um modelo completo (0, 004023) e um modelo sem constante (faa uma regresso
qx_sa c(2)yw_sa e encontrar = 0, 82211 com varincia de 0, 00010028). Esse resultado
pode ser acessado a partir de eq1.varinf na janela de comando.
Agora, vamos investigar se a omisso, por exemplo, da varivel pxt foi ruim para o modelo.
Nesse caso, com a janela da equao acima aberta, v em View/Coefficient Diagnostics/Omitted
Variables Test.... A seguir, digite o nome da varivel em questo (ela tem que existir no workfile).
Os resultados so apresentados na figura 6.15. Ao final ser possvel identificar a regresso na
forma:
Esse o primeiro contato com a ideia de regresso mltipla. O resultado dessa regresso
aparece na parte final da tabela. A estatstica t e o Prob so avaliados como anteriormente.
Ou seja, para poder fazer o teste, primeiro rodada uma regresso com a presena da varivel
que est supondo ter sido omitida. Posteriormente, so feitos os testes e apresentados no incio da
tabela. O primeiro resultado para o teste t-statistic, refere-se apenas hiptese de o coeficiente
da nova varivel, no nosso caso, pxt , ser estatsticamente igual a zero. Pelo p-valor, rejeitamos a
hiptese nula e, individualmente, o coeficiente diferente de zero. Ou seja, desse ponto de vista, ele
seria importante para o modelo. Veja a primeira parte da tabela na figura 6.15. Aqui desnecessrio
mostrar como chegamos no Probability, pois j comentamos isso anteriormente.
Logo abaixo est o teste F-statistic, que representa o teste conjunto para ver se todas as variveis
so estatsticamente iguais a zero, ou seja, se c(1) = c(2) = c(3) = 0 . Porm, esse teste feito
com base em um modelo restrito (sem a varivel pxt ) relativamente a um modelo no-restrito, com
a presena da varivel pxt . O conjunto de informaes em F-test summary mostra os resultados
para a soma do quadrado dos resduos para os dois modelos, o restrito(sem a varivel px) e o no
restrito (com a varivel px).
(SSRR SSRUR )
q
Fstat = SSRUR
(T k)
Onde SSRR a soma dos resduos ao quadrado do modelo restrito, SSRUR a soma ao quadrado do
modelo no-restrito, com todas as variveis, q o nmero de restries impostas, T o nmero de
observaes e k o nmero de parmetros presentes no modelo no restrito. A hiptese nula que a
varivel que foi omitida no significativa para o modelo. Substituindo esses valores encontramos:
(36438,2132031,26)
1
Fstat = 32031,26
= 25, 315
(1873)
Assim, o valor de F = 25, 315[0, 000] sinaliza que rejeitamos a hiptese nula e, os coeficientes no
so iguais e, dessa forma, adicionar a varivel pxt no modelo representa ganhos. Note que o teste F
para variveis omitidas tem distribuio Xq2 onde q o nmero de restries impostas. Nesse caso,
podemos encontrar o p-valor diretamente no EViews
R
.
scalar testef
testef=@chisq(25.315,1)
6.1 Diagnstico Dos Coeficientes 133
Note que devido ao fato de executarmos as linhas de programao pela janela de comandos,
devemos executar cada linha de uma vez.
Por fim, temos o teste de razo de verossimilhana, conhecido como LR. Esse tambm tem
como objetivo comparar o modelo restrito e o no-restrito e tem, como hiptese nula, que adicionar
uma nova varivel no seria significante para o modelo. De forma geral, o teste dado por:
LR = 2(lrestrito lnaorestrito )
Onde lrestrito o log da verossimilhana para o modelo restrito. No nosso exemplo, olhando os
resultados das estimativas, temos que:
E, pelo resultado do p-valor, mostrado no incio da tabela, rejeitamos a hiptese nula de que inserir
a varivel no estatsticamente significativo para o modelo. Portanto, conclumos pela importncia
de inserir a varivel pxt . Um lembrete importante: esse teste no se aplica quando usamos variveis
dependentes defasadas. Isso ficar mais claro aps ter estudado os modelos autoregressivos.A
tabela com os resultados para o teste de variveis omitidas pode ser facilmente encontrada usando:
eq1.testadd px_sa para o nosso exemplo.
Tambm podemos testar a omisso de mais de uma varivel. Seja por exemplo, o modelo
bsico, restrito, dado por:
Para fazer esse teste, com a janela da equao acima aberta, v em View/Coefficient Diagnos-
tics/Omitted Variables Test.... A seguir, digite o nome das variveis que esto sendo omitidas, tal
como mostrado na figura 6.16.
134 Captulo 6. Regresso Simples
Note que no mostrado o resultado para o teste t. Isso ocorre pois estamos testando mais
de uma varivel. Tanto pelo teste F quanto pelo LR rejeitamos a hiptese nula de que inserir as
variveis no estatisticamente significativo para o modelo. Ou seja, a incluso dessas variveis no
nosso modelo deve resultar em melhora nas estimativas. Nesse caso, o teste F dado a partir de:
(36438.21323656.802)
2
Fstat = 23656.802
= 49.436
(1874)
Programao 6.1.4 Podemos fazer o teste LR para variveis omitidas a partir da programao.
Nesse caso, de acordo com o nosso exemplo, especifique a equao restrita, que tem apenas uma
varivel independente e a no-restrita, com duas variveis independentes. Aps estimar, calcule
o teste usando o comando do log da verossimilhana.
(b) Resultados
Note que primeiro escreve-se a varivel dependente, seguida das demais independentes e, se
for o caso, a constante. A figura 6.17b mostra os resultados dessa regresso. Nomeie-a como
eq2. A seguir v em View/Coefficient Diagnostics/Redundant Variables Test... e especifique as
variveis que quer investigar se podem ser excludas do modelo. No nosso exemplo vamos escolher
pm_sa e qm_sa, como mostrado na figura 6.18a. Os resultados dos testes aparecem como mostrado
na figura 6.18b.
Na parte inferior do resultado aparece a regresso sem os dois parmetros de restrio que
estamos testando. Veja que, da mesma forma do teste de variveis omitidas, sa fornecido os
resultados par o teste LR e F. Seus valores so calculados como anteriormente, dispensando
apresentao. Esse resultado tambm pode ser obtido usando o comandoeq2 .testdrop pm_sa
qm_sa .
modelos via soma dos resduos ao quadrado em um tpico teste F. Fizemos isso anteriormente ao
comparar o SSE de um modelo restrito com outro no restrito.
Alm do teste F tambm reportado o teste LR. Onde a hiptese nula de ausncia de quebra
estrutural e tem distribuio X2 com (m 1)k graus de liberdade. Aqui k o nmero de parmetros
na equao e m o nmero de subamostras. Por fim tem o teste de Wald, onde a hiptese nula
de ausncia de mudana estrutural. Esse um teste que, para ser feito, tem que ter uma varivel
dummy especificando as datas em que possivelmente tenha ocorrido uma quebra estrutural. At
esse momento o leitor no foi apresentado ao conceito de quebra estrutural nem variveis dummy.
Uma varivel dummy uma varivel indicador, que assume valores 0(zero) e 1(um). uma tpica
varivel categrica, e que veremos sua aplicao em vrias reas da econometria, como modelos
probit, logit, em quebra estrutural e etc. Vamos criar uma variveldummy no nosso banco de dado
que separe dois intervalos de tempo. Nesse caso, o objetivo testar se os anos eleitorais no Brasil
resultaram em problemas para o nosso modelo. O box de programao 6.1.5 mostra como criar
essa dummy.
Programao 6.1.5 Para criar uma varivel dummy podemos usar vrios recursos; digitar
os valores diretamente no EViews
R
; criar a srie no Excel e copiar para o EViews
R
; usar
programao. Abaixo mostramos como criar uma dummy de valor 1 para os anos eleitorais e
0(zero) para os demais anos.
series dummy=0
smpl 1998m1 1998m12 2002m1 2002m12 2006m1 2006m12 2010m1 2010m12 2014m1
2014m12
dummy=1
smpl @all
A figura 6.19a mostra como ficou nosso grfico da varivel dummy. Veja que nos anos eleitorais
esta assume o valor 1. Agora vamos ver se esses perodos tm impacto no modelo. Vamos
usar a equao eq1 como base. Abra ela e depois v em View/Coefficient Diagnostics/Factor
Breakpoint Test... e insira a varivel dummy no quadro, como mostrado na 6.19b.
O resultado tal como mostrado na figura 6.20. Nas primeiras linhas esto descritas a varivel
considerada como fator no teste, a hiptese nula e o fato de que estamos testando um impacto em
todos os parmetros do modelo. So fornecidas trs estatsticas, em todas no possvel rejeitar a
hiptese nula de ausncia de quebra estrutural. Sendo assim, no podemos afirma que os ciclos
eleitorais estejam afetando o nosso modelo.
t NIID(0, 2 )
Note que foram criados m pares que possuem cm () probabilidades associadas. Assim, como temos
m pares, ento,
H0 : cm () = cm
1 () = independncia
Com a eq1 aberta v em Proc/Make Residual Series... e escolha um nome para a srie dos
resduos da equao 1. Abra a srie de resduos e, a seguir, v em View/BDS Independence test.
A seguir, selecione como mostrado na figura 6.21 e clique em OK.
Para o nosso exemplo, o teste de Ljung-Box para 36 lags sinaliza que, pelo menos at o lag
7 no possvel aceitar a hiptese nula de ausncia de autocorrelao nos resduos. Ou seja, h
evidncia de autocorrelao. Podemos usar a frmula acima para encontrar o valor do teste Q onde
T=187 e a autocorrelao de ordem 1 t1 = 0.825:
1
0.8252
Q = 187(187 + 2) = 129.270
j=1 (187 1)
Fazendo esse teste para os resduos ao quadrado da equao 1, figura 6.23, podemos ver que
no possvel aceitar a hiptese nula de ausncia de autocorrelao nos resduos ao quadrado,
sinalizando que os mesmos podem ter heteroscedasticidade.
scalar testef
testef=@chisq(142.223,2)
6.2 Diagnstico Dos Resduos 141
Dica: lembre de executar uma linha por vez, quando utilizar a janela de comandos.
Alternativamente, podemos fazer um loop para que sejam testados vrios lags no teste LM e
armazenar os resultados em uma tabela:
smpl 2000M1 2015M7
table(11,2) teste_lm
teste_lm(1,1)="valor do teste"
teste_lm(1,2)="p-valor"
equation eq1.ls qx_sa yw_sa c
eq1.makeresid resid1
for !i=1 to 10
equation eq10.ls resid1 yw_sa c resid1(-1 to -!i)
teste_lm(!i+1,1)=eq10.@regobs*@r2
teste_lm(!i+1,2)=@chisq(eq10.@regobs*@r2,!i)
next
Breusch-Pagan-Godfrey
Esse teste feito a partir de uma regresso auxiliar dos resduos ao quadrado relativamente a todas
as variveis independentes. Nesse caso, suponha que se tenha feito a seguinte regresso:
Programao 6.2.3 Os testes de heteroscedasticidade so aplicados aps ter rodado uma re-
gresso. Dessa forma, s solicitado aps a equao de regresso ter sido especificada. Para
aplicar um teste eq1 usamos a funo abaixo.
Utilizando essa funo, aberta uma janela com o resultado. Alternativamente, podemos
aplicar o teste BPG por uma equao de regresso. Note que construmos o teste a partir da
regresso original, fazendo a srie dos resduos e aplicando uma nova regresso de nome bpg.
A seguir, armazenamos a estimativa do teste no escalar bpgtest e, depois, o p-valor no escalar
quiteste.
Agora que sabemos como fazer o teste para uma nica equao, podemos inserir o mesmo
no loop de 100 regresses que usamos anteriormente. Note que, nesse caso, no usamos mais
o termo scalar e, sim, criamos a matriz que ir armazenar os resultados dos vrios testes de
heteroscedasticidade heterosc. Nesse caso, na primeira coluna esto os vrios resultados para
o valor do teste e, na segunda coluna, o p-valor do mesmo, seguindo um teste qui-quadrado.
coef(!i,2)=eq2.@coefs(1)
coef(!i,1)=eq2.@coefs(1)-1.975*eq2.@stderrs(1)
coef(!i,3)=eq2.@coefs(1)+1.975*eq2.@stderrs(1)
eq2.makeresid res2
equation bpg.ls res2^2 yw_sa c
heterosc(!i,1)=bpg.@r2*@regobs
heterosc(!i,2)=@chisq(bpg.@r2*@regobs,bpg.@ncoef-1)
next
smpl @all
Harvey
Para fazer esse teste primeiro rodamos a regresso normal, tal como mostrado abaixo:
Programao 6.2.4 Para fazer o teste de Harvey usamos o mesmo comando de antes, hettest
mas, modificamos o tipo para harvey.
Como a diferena entre o mtodo de Harvey e o de BPG est apenas no fato de que aquele usa
logt2 , podemos usar a mesma sequencia de comandos de antes e modificar apenas a estimativa
de regresso do teste, como mostrado abaixo.
Glejser
Para fazer esse teste primeiro rodamos a regresso normal, tal como mostrado abaixo:
|t | = c(1) + c(2)ywt
A figura 6.28 mostra os resultados para esse teste. Na primeira linha est o teste F, que testa se
todos os coeficientes da regresso dos resduos so iguais a zero. A seguir est o teste que considera
T R2 , tal como feito anteriormente nos dois outros testes.
Programao 6.2.5 O teste de Glejser pode ser feito modificando no comando hettest o tipo
para glejser.
Nesse teste, usamos o valor absoluto dos resduos, e no os resduos ao quadrado. E isso pode
facilmente ser modificado no nosso comando usando @abs, tal como mostrado a seguir.
ARCH
Sem dvida esse um dos testes mais recomendados para identificar a presena de heteroscedasti-
cidade nos resduos de uma regresso. Partindo do nosso modelo de regresso:
Salvamos os resduos e fazemos uma nova regresso no qual, diferentemente dos testes anterio-
res, tambm usamos os resduos ao quadrado em defasagens como varivel explicativa, tal como
mostrado a seguir:
146 Captulo 6. Regresso Simples
t2 = c(1) + c(2)t1
2
Programao 6.2.6 Para fazer o teste ARCH via programao, modificamos no comando
hettest o tipo de teste para arch. Porm, nesse caso, devemos especificar quantos lags sero
utilizados para o teste. Como exemplo, usamos uma defasagem para os resduos ao quadrado,
como mostrado a seguir:
Programao 6.2.7 O loop a seguir faz 100 regresses acrescentando, a cada passo, um novo
ms na amostra. A seguir, faz os quatro testes de heteroscedasticidade apresentados, BPG,
Glejser, Harvey e ARCH, e salva o p-valor em uma matriz com 100 linhas e quatro colunas.
Esse exerccio ir permitir avaliar, para qual sequncia de dados, possvel aceitar ou rejeitar a
hiptese nula de ausncia de heteroscedasticidade.
6.3 Diagnstico De Estabilidade 147
E que se quer verificar se ocorreu uma mudana estrutural em 2008M1, tanto na constante
quanto no coeficiente de inclinao. Nesse caso, especificamos essa data e o EViews
R
ir rodar
duas regresses da forma:
Onde a primeira usa os dados entre a data inicial e 2007M12 e, a segunda entre 2008M1 e a data
final. Note que a data escolhida utilizada na segunda regresso. A seguir, feito um teste F para
148 Captulo 6. Regresso Simples
comparar os dois modelos com a estimativa para todo o perodo amostral. Esse teste utiliza a soma
ao quadrado dos resduos (SSR) de cada uma das trs regresses.
(SSR(SSR1 +SSR2 ))
k
Fstat = (SSR1 +SSR2 )
(T 2k)
Onde SSR a soma ao quadrado dos resduos da regresso que usa todo o conjunto de dados. SSR1
a soma dos resduos ao quadrado para a regresso do perodo pre mudana estrutural e SSR2 a
soma dos resduos ao quadrado da segunda regresso, que usa o perodo pos quebra estrutural. Por
fim, T o nmero de dados e k o nmero de parmetros da regresso. A hiptese nula de que as
duas subamostras so iguais, ou seja, no tem mudana estrutural. Um ponto importante nesse teste
que, caso no seja especificado, o EViews
R
ir testar a instabilidade em todos os parmetros.
Vejamos como isso pode ser feito no EViews
R
. Aps estimar a equao de regresso para todo
o perodo amostral, v em View/Stability Diagnostics/Chow Breakpoint Test.... Na janela que
vai abrir, escreva a data de mudana estrutural que, para o nosso exemplo, 2008M1 (janeiro de
2008). Abaixo esto os parmetros que se quer testar a mudana estrutural, tanto para a constante
quanto para a elasticidade-renda. Nesse nosso exemplo vamos testar uma mudana estrutural na
constante e elasticidade-renda. Na janela de resultados, figura 6.30, primeiro especificada a data
de quebra estrutural, a seguir a hiptese nula e os parmetros onde ocorreram a mudana. Por fim,
a amostra de dados utilizada.
Para encontrar a estatstica F, vamos especificar cada uma das 3 regresses. Para a que contempla
todo o conjunto amostral, temos que SSR = 36438.213. J na regresso que vai de 2000M1 at
2007M12, encontra-se SSR1 = 2816.406 e, para a da segunda parte de dados, SSR2 = 8719.257. O
conjunto amostral T=187 e o nmero de parmetros k=2. Portanto, a estatstica F :
(36438.213(2816.406+8719.257))
2
Fstat = (2816.406+8719.257)
= 197.525
(1874)
Programao 6.3.1 O teste de Chow tem distribuio qui-quadrado para o teste LR e de Wald,
considerando como graus de liberdade q = mkv . Por isso utilizamos o comando @chisq(valor
do teste, graus de liberdade) . Para o teste F, a distribuio a F. Logo, seu p-valor
dado por 1-@cfdist(F-stat,q,T-(q+k)), onde F-stat o valor do teste F, q = mkv o
nmero de restries sob a hiptese nula e T (q + k) o nmero de observaes menos as
restries e os parametros da regresso original.
Assim, para encontrar o respectivo p-valor dos testes no EViews
R
, clique em Window e
depois selecione Command.... A seguir, escreva os comandos abaixo e execute um de cada vez.
scalar testeF=1-@cfdist(197.525,2,183)
scalar testeLR=@chisq(215.082,2)
scalar testeWald=@chisq(395.050,2)
Um aspecto ruim do teste de Chow que devemos especificar a data da quebra estrutural, o
que dificulta encontrar o ponto ideal da quebra. Uma forma de contornar isso usar um loop.
No exemplo abaixo, comeamos com a primeira data de quebra em 2008M1 e, a seguir, so
rodadas 50 regresses. Note que, a cada momento, aps escolher as datas de quebra, so feitas
duas regresses restritas, uma para a primeira parte e outra para a parte final. A seguir, feito os
testes F e de Wald, calculados os p-valores e armazenados os resultados em uma tabela chamada
chowresult.
chowwaldteste=(@transpose(@identity(eq5.@ncoef)*(eq6.@coefs- eq7.@coefs
))*@inverse(eq6.@cov/(eq6.@se)^2+eq7.@cov/(eq7.@se)^2)*@identity
(eq5.@ncoef)*(eq6.@coefs-eq7.@coefs))*((eq5.@regobs-2*eq5.@ncoef)
/(eq6.@ssr+eq7.@ssr))
chowwaldpvalor=@chisq(chowwaldteste,eq5.@ncoef)
chowresult(!i+1,1)=@otods(1)
chowresult(!i+1,2)= chowfteste
chowresult(!i+1,3)=chowfpvalor
chowresult(!i+1,4)=chowwaldteste
chowresult(!i+1,5)=chowwaldpvalor
next
smpl @all
O teste de Chow tambm pode ser especificado de forma a identificar a presena de quebra
estrutural apenas em um dos parmetros ou em parte. Com a equao aberta, v em View/Stability
Diagnostics/Chow Breakpoint Test... e a seguir, para testar mudanas na constante especifica-se
a data e depois deixa escrito apenas c na parte de baixo da janela.
Programao 6.3.3 Para especificar em quais parmetros queremos aplicar o teste de Chow,
adicionamos ao comando chow, depois declarao da data de mudana estrutural, a instruo @
seguido do nome das variveis.
ter todos os resultados, a data da quebra escolhida a partir do valor mximo do teste, como em:
podemos ver que rejeitamos a hiptese nula de ausncia de quebra estrutural. Nesse caso, h uma
mudana estrutural e essa especificamente em agosto de 2008.
As duas estatsticas so mostradas no grfico 6.32. Note que ambas revelam que o valor mximo
para o teste, tanto o LR quanto Wald, em agosto de 2008. Com a escolha de um trimming de 15%
foram eliminados 29 dados do incio e outros 28 do final da srie, restando 130 datas para serem
testadas.
152 Captulo 6. Regresso Simples
Programao 6.3.4 Para fazer o teste de Quandt-Andrews, usamos a funo ubreak e que pode
ser aplicada a qualquer equao. No exemplo abaixo, aplicamos a mesma regresso simples.
Uma opo interessante pedir a srie dos testes de wald e de LR, usados para selecionar o
ponto de quebra estrutural. O nmero aps a funo se refere ao tamanho da parte da amostra
que retirada do teste. No caso de 15, estamos escolhendo 15% dos dados.
Onde SSR a soma dos resduos ao quadrado da regresso completa, SSR1 a soma dos resduos
ao quadrado da regresso com dados que vo at T1 , que o nmero de dados utilizados nesse
perodo. T1 o nmero de dados da segunda parte da regresso e k o nmero de parmetros da
regresso completa. A hiptese nula de ausncia de quebra estrutural.
LR = 2(lrestrito lnaorestrito )
Note que temos k=2, onde k o nmero de coeficientes. Assim, a primeira regresso feita
considerando os 2 primeiros dados da amostra. O resultado para esses coeficientes utilizado
para prever o valor da varivel dependente no perodo seguinte. Depois calculada a diferena
entre o valor previsto e o verdadeiro valor e dividida pela varincia da previso. Esse resultado
denominado de recursive residual e seu valor armazenado em um vetor.
A seguir, acrescentamos o terceiro dado da amostra e fazemos novamente a regresso, en-
contrando os coeficientes, fazendo a previso para um passo frente, dividindo pela varincia
da previso e encontrando o resduo. Esse resduo armazenado no vetor de resduos. Esse
procedimento continua at que se utilize todo o conjunto amostral, ou seja, as T observaes. Sendo
assim, fazemos um total de T k + 1 regresses e obtemos um total de T k + 1 estimativas para
os resduos. Vejamos como fica esse processo a partir dos dados da equao acima. A primeira
regresso, com apenas os dois primeiros dados, ou seja, usando 2000M1 a 2000M2, produz o
seguinte resultado:
qxt = 640, 656 + 9, 106ywt + t
Se usarmos esses coeficientes para prever o valor de qx para 2000M3, encontramos:
O verdadeiro valor qx2000M3 = 55, 747, gerando um resduo de valor 6,335. A seguir, temos que
calcular a varincia da previso e depois:
6, 335
recursive residual2000M3 = = 2.920
2, 169
Esse procedimento repetido at o fim da amostra, gerando uma sequncia de valores para os
resduos recursivos. O EViews
R
retorna o grfico dessa sequncia com o respectivo intervalo de
confiana, conforme apresentado na figura 6.35. Valores que esto fora do intervalo sinalizam
instabilidade nos parmetros da equao. Note que a data entre 2008M8 e 2009M6 est fora do
intervalo de confiana, sinalizando possvel quebra estrutural nesse perodo.
Teste CUSUM
Os resduos recursivos obtidos do teste anterior recursive residual, so usados para produzir o
teste CUSUM, ou seja, esse teste nada mais que a soma cumulativa dos resduos encontrados
no teste anterior. Nesse caso, esse dividido pelo seu respectivo desvio-padro e depois feita
6.3 Diagnstico De Estabilidade 155
a soma desses resduos. Se o valor ficar fora do intervalo crtico de 5% do teste, ento, h uma
sinalizao de instabilidade nos coeficientes da equao. Ao aplicar esse teste nossa equao
acima, encontramos o seguinte resultado, mostrado na figura 6.36. Note que, em 2009M9, o teste
ultrapassa o valor crtico a 5%, sinalizando uma instabilidade no modelo.
novamente, com seus valores no eixo direito. Alm desse, tambm mostrado o p-valor do teste, ou
seja, a probabilidade associada rejeio da hiptese de estabilidade dos parmetros. Nos pontos
com valores menores, significa a no aceitao da hiptese nula de estabilidade. Como pode ser
visto, h vrios desses pontos, em especial entre 2007 e 2015
Coeficientes Recursivos
Esse teste pode ser utilizado para identificar como o comportamento de cada um dos coeficientes
ao longo do tempo. Para tanto, o mtodo segue a estimativa feita anteriormente, quando foram
obtidos os resduos recursivos para encontrar o valor a cada momento do tempo, adicionando, a
cada passo, uma nova observao.
Para o nosso modelo, o teste foi feito para os dois coeficientes e seus resultados sinalizam
6.3 Diagnstico De Estabilidade 157
ywt = c + t
De acordo com o nosso exemplo, sero gerados dois grficos de disperso. O primeiro, mostrado na
figura 6.42a, representa a relao entre a srie c_lv e qx_sa_p_c_lv. A seguir, o segundo grfico,
figura 6.42b, representa a relao entre a srie yw_sa_lv e qx_sa_p_yw_sa_lv
qxt = 1 + 1 ywt + t
2
2 1 yw
V ( ) = + T
2
T i=1 yw2 T yw
2
V ( ) =
Ti=1 yw2 T yw
2
yw
cov( , ) = 2
Ti=1 yw2 T yw
2
Ento, temos que a varincia do erro de previso pode ser calculada a partir de:
2 2 2 yw
1 yw
V (qx t qxt ) = 2 + T +yw2
t T +2ywt T + 2
2
T i=1 yw2 T yw i=1 yw 2 T
yw 2
i=1 yw 2 T
yw 2
2)
2 1 (yw yw
V (qx t qxt ) = 1 + + T
T i=1 yw2 T yw 2
Essa equao mostra para cada informao de ywt+n prevista, a varincia dessa previso.
Sendo assim, para qualquer valor de ywt+n que utilizarmos, o correspondente valor de qxt+n ir se
encontrar exatamente na reta de regresso que estimamos. Seria como se estivssemos prolongando
a nossa reta de regresso para poder fazer uma previso dos valores futuros4 .
Mas essa uma estimativa por ponto e, uma vez que estamos diante de incerteza, o que acaba
por incorporar a presena de probabilidade de ocorrncia de um evento e devemos ter cuidado ao
trabalhar com essa informao. Sendo assim, recorremos estimativa de um intervalo para a nossa
previso. E, como vimos anteriormente, para construir esse intervalo, precisamos do clculo da
varincia.
3O leitor deve prestar bastante ateno diferena que existe entre a equao conhecida y = + x e a estimada
y = + x + .
4 Considere que a escolha de um modelo economtrico para fazer previso resulta em um casamento com a relao
entre as variveis independentes e a dependente. Com a vantagem de ser menos burocrtico troc-lo.
6.4 Previso - Forecast 161
A segunda estatstica o erro mdio absoluto, tambm referido como MAE. Esse dado a
partir de:
T +h
t=T +1 |qx t qxt |
MAE =
h
Nesse caso, para cada erro de previso aplicado o operador mdulo, que transforma valores
negativos em positivos e, a seguir, cada um desses erros absolutos so divididos pelo total de dados.
Por fim, somam-se todos esses erros. A terceira estatstica o erro percentual mdio absoluto,
tambm referido como MAPE, e que dado por:
T +h qx t qxt
|
t=T +1 qxt |
MAPE = 100
h
Nesse caso, cada erro de previso dividido pelo valor observado, extrado o valor absoluto e
dividido pelo nmero de dados. Por fim, esses resultados so somados e multiplicados por 100.
Programao 6.4.1 A terceira forma de fazer previso via programa. A primeira linha
determina a equao de regresso de nome eq1. A seguir, especificado o perodo para a
previso. Por fim, feita a previso para a equao e o resultado colocado na srie qx_saf.
Tambm pedido que seja fornecido o S.E., e damos o nome ao mesmo de qx_sase. Por fim,
construmos outras duas sries de dados, uma para especificar o intervalo de previso mnimo,
com 2 desvios-padro e outra srie para o intervalo mximo, tambm com 2 desvios-padro.
Por fim, h um bloco de resultados que se refere ao coeficiente de desigualdade de Theil onde
os resultados oscilam entre 0 e 1, sendo que um modelo com resultado 0 considerado como um
que faz a perfeita previso dos dados. A primeira estatstica uma relao do RMSE total com
suas partes, a prevista junto com a observada. Note que no numerador temos o resultado para a
estatstica RMSE que calcula o erro para cada ponto de previso. Por outro lado, no denominador,
essa estatstica quebrada em duas partes. Na primeira, cada valor previsto da varivel dependente
elevado ao quadrado e dividido pelo nmero total de dados. Ao final, esses valores so somados e
extrados a raiz. Na segunda parte do denominador esto os valores observados, onde os mesmos
so elevados ao quadrado, divididos pelo total de dados e, por fim, somados e extrada a raiz.
q T +h
(t=T +1 (qx t qxt )2 )
h
T heil = q T +h q T +h
(t=T +1 (qx t )2 ) (t=T +1 (qxt )2 )
h + h
As trs estatsticas seguintes de previso so propores. A primeira delas, denominada de Bias
Proportion, relaciona duas medidas. No numerador temos a diferena entre o valor previsto mdio
(valor previsto dividido pelo total de dados) e a mdia do valor observado. A seguir, esse valor
T +h
elevado ao quadrado. Note que t=T t /h a mdia do valor previsto. No denominador temos a
+1 qx
estatstica de RMSE sem a extrao da raiz. Essa estatstica mostra o quanto a mdia da previso se
distancia da mdia da srie atual. Ela ir oscilar entre 0 e 1. Se for 0, significa que a mdia dos
valores previstos igual mdia dos valores observados. Por outro lado, se for 1, significa que
a mdia dos valores previstos so bem diferentes dos valores observados. Portanto, quanto mais
prximo de 0 for o valor de bias, melhor o modelo estimado.
6.4 Previso - Forecast 163
2
T +h qx t
(t=T +1 h )
qx t
bias = T +h
(t=T t qxt )2 )
+1 (qx
h
A segunda estatstica a Variance Proportion, justamente porque relaciona a varincia. Nesse caso,
no numerador temos a diferena entre a varincia da previso com a varincia do valor observado.
A seguir, essa diferena elevada ao quadrado. Essa estatstica mostra o quanto a varincia do erro
de previso se distancia da varincia do erro do valor observado. Quando esse valor for prximo de
0, menor a diferena das varincias entre o valor previsto e observado, ou seja, o modelo melhor
do que aquele que apresenta uma estatstica de variance mais prxima de 1.
(y y )2
variance = T +h
(t=T t qxt )2 )
+1 (qx
h
A terceira estatstica a Covariance Proportion, que considera a estimativa da covarincia entre os
valores previstos e observados. No numerador temos que r a correlao entre o valor previsto e
observado. Essa estatstica mede os erros de previso restante. Quanto melhor for o modelo, menor
deve ser a estatstica bias e variance o que, por sua vez, faz com que a maioria do vis do modelo
esteja concentrado na estatstica de covarincia. Essa estatstica tambm vai de 0 a 1.
2(1 r)y y
covariance = T +h
(t=T t qxt )2 )
+1 (qx
h
Vamos agora juntar os conhecimentos adquiridos com a regresso simples e a estimativa por
alisamento exponencial para produzir uma previso da varivel qx alguns meses frente. No
arquivo regresso simples.wf1 as sries j esto ajustadas sazonalmente e nomeadas com o sufixo
"_sa". A ideia fazer uma regresso simples com todos os dados disponveis. Como no sabemos a
trajetria futura das variveis independentes, usamos o mtodo do alisamento exponencial para
prever vrios passos a frente. A seguir, fazemos uma previso da varivel dependente considerando
essas trajetrias.
Programao 6.4.2 Podemos usar a tcnica de alisamento exponencial para definir uma traje-
tria para as variveis independentes e, de posse desses valores, usar o recurso de previso do
EViews
R
para prever o comportamento da varivel dependente.
eq1.fit qx_saf
smpl @first @last
(ni=1 i2 ) n
= 2(yi xi ) = 0
i=1
yi + n + xi = 0
n = yi xi
yi xi
=
n n
= y x
Para facilitar o clculo de , podemos substituir o valor de encontrado na equao dos
resduos:
i = yi xi
xi
i = yi (y x)
(xi x)
i = (yi y)
O termo (yi y) representa o desvio de cada yi em relao mdia amostral y.
Dessa forma,
teremos i desvios, que podem ser representados por yi . O mesmo se aplica para os desvios de xi ,
no qual temos, xi . Assim, elevando esse termo ao quadrado e somando para todos os valores i:
n n
(i )2 = (yi xi )2
i=1 i=1
( 2 )
= 2(yi xi )xi = 0
yi xi + (xi )2 = 0
6.5 ANEXO ESTATSTICO 165
(xi )2 = yi xi
yi xi
=
(xi )2
cov(y, x)
=
var(x)
Exerccio 6.1 Utilizando o arquivo regresso simples.wf1, repita os testes e confirme os resul-
tados apresentados nesse captulo.
Exerccio 6.2 Imagine duas regresses distintas, eq1 e eq2, que possuem a mesma varivel
dependente, y. Onde, eq1 uma regresso simples, eq2 possui trs variveis independentes,
estatisticamente diferentes de zero, e a soma dos resduos ao quadrado de eq2 maior que a
de eq1. Podemos dizer que o R2 de eq2 maior que o R2 de eq1, pois eq2 explica melhor os
movimentos de y? Por qu?
Exerccio 6.3 Em posse do arquivo regresso simples.wf1, adote qx_sa como varivel depen-
dente e rode cinco regresses simples, utilizando as variveis px_sa, pm_sa, qm_sa, y_sa e
yw_sa como explicativa. Ento, escolha o melhor modelo pelo R2 .
Exerccio 6.4 Em posse do arquivo regresso simples.wf1, adote qx_sa como varivel depen-
dente e rode cinco regresses simples, utilizando as variveis px_sa, pm_sa, qm_sa, y_sa e
yw_sa como explicativa. Ento, escolha o melhor modelo pelo critrio de Schwartz.
Exerccio 6.5 Em posse do arquivo regresso simples.wf1, adote qm_sa como varivel depen-
dente e rode cinco regresses simples, utilizando as variveis px_sa, pm_sa, qx_sa, y_sa e
yw_sa como explicativa. Ento, escolha o melhor modelo pelo critrio de Hannan-Quinn.
Exerccio 6.7 A partir da equao da quantidade importada como funo da renda, teste se a
incluso de px_sa, pm_sa, qm_sa, y_sa e yw_sa so significativas para o modelo.
Exerccio 6.9 Preencha a tabela a seguir com os resultados dos testes de heteroscedasticidade,
apresentados nesse captulo. Ento, conclua sobre o padro de comportamento dos resduos da
166 Captulo 6. Regresso Simples
Exerccio 6.10 Utilize o teste Quandt-Andrews para verificar a possvel existncia de quebra
estrutural na regresso qmt = 1 + 1 yt + t .
Exerccio 6.11 Com o teste de Chow, comprove o resultado sobre a existncia ou no de quebra
estrutural encontrado no exerccio anterior.
Exerccio 6.14 Baseado no coeficiente de desigualdade de Theil escolha qual dos modelos a
seguir apresenta o menor erro de previso.
A) qmt = 1 + 1 ywt + t
B) qmt = 1 + 1 yt + t
C) qmt = 1 + 1 yt + 2 pmt + t
D) qmt = 1 yt + t
6.6 Bibliografia
Hodrick, R. J., e Prescott, E. C. (1997). Postwar US business cycles: an empirical investiga-
tion. Journal of Money, credit, and Banking, 1-16.
Morais, I.A.C., Bertoldi, A., Anjos, A.T.M. (2010), Um modelo no-linear para as exporta-
es de borracha. Revista Sober.
Ramsey, J. B. (1969). Tests for specification errors in classical linear least-squares regression
analysis. Journal of the Royal Statistical Society. Series B (Methodological), 350-371.
7. Regresso Mltipla
A passagem da anlise de regresso simples para mltipla nada mais do que acrescentar mais
variveis independentes (x), resultando em um modelo da forma:
yt = + 1 x1 + 2 x2 + + n xn + t
Aqui assumimos as mesmas hipteses relativas aos resduos que foram feitas anteriormente, ou
seja, que possuem uma mdia zero E(t ) = 0, varincia constante E(t2 ) = 2 , so independentes
entre eles E(t ti ) = 0 e tambm entre as diversas variveis independentes E(t xt ) = 0 e so
distribudos normalmente t N(0, 2 ).
Uma hiptese adicional importante a ser feita aqui que as variveis independentes no possuem
uma relao linear determinstica. Ou seja, que as mesmas no possam ser combinadas de maneira
a se produzir uma outra srie. Para exemplificar essa questo, suponha um modelo com duas
variveis do tipo:
yt = + 1 x1 + 2 x2 + t
se existir colinearidade entre as duas variveis independentes (x1 , x2 ), como por exemplo ax1 +
bx2 = c, ento podemos dizer que x2 = bc ab x1 , e o modelo final seria diferente do original:
c a
yt = + 1 x1 + 2 x1 + t
b b
c2 a
yt = + 1 x1 + 2 x1 + t
b b
c2 a
yt = + 1 2 x1 + t
b b
ou seja, ao invs de estimar , podemos ento estimar + cb2 . Alm disso, ao invs de estimar
, seria encontrado 1 ab 2 . Portanto, se as variveis independentes forem correlacionadas, o
yt = a + 1 x1 + 2 x2 + t ,
t = yt 1 x1 2 x2
Q = (t2 )
min Q = min (yt 1 x1 2 x2 )2
= y 1 x1 + 2 x2 ,
S22 S1y S12 S2y
1 = 2
,
S11 S22 S12
S11 S2y S12 S1y
2 = 2
,
S11 S22 S12
S2y = x2 y nx2 2 e
onde defini-se S11 = x12 nx1 2 , S22 = x22 nx2 2 , S1y = x1 y nx1 y,
2 2
Syy = y ny .
Da mesma forma que para a regresso simples, alm dos coeficientes estimados, na regresso
mltipla tambm possvel encontrar as seguintes estatsticas:
Soma ao quadrado dos resduos (RSS) = Syy 1 S1y 2 S2y
quadrado3 que, no caso de duas variveis, dado por r122 = 2 . O conjunto de equaes que ir
(a) (b)
Por fim, o resultado do Prob ir indicar se aceitamos ou rejeitamos a hiptese nula de que o
coeficiente em questo estatisticamente igual a zero. Destaca-se que, para esse teste, estamos
assumindo uma distribuio t-student. No nosso exemplo, tanto para o coeficiente da constante,
quanto para o da renda, rejeitamos a hiptese nula de que so estatisticamente iguais a zero.
Programao 7.1.1 Tal qual na regresso simples, a outra forma de estimar um modelo de
regresso mltipla via programao, apenas acrescentando o nome das novas variveis a
serem utilizadas. Vejamos o exemplo de se ter uma regresso com duas variveis independentes,
adicionando apenas os preos internacionais pxt
7.1 O modelo com duas variveis independentes 171
A estatstica t e seu respectivo teste podem ser aplicados a partir de uma programao, tal qual
mostrado na regresso simples. Nesse caso, queremos testar se 2 = 0. Primeiro especificamos
a estatstica t e armazenamos a mesma em um escalar de nome estatisticat. A seguir, criamos
uma tabela com trs linhas e uma coluna de nome testet, e armazenamos na primeira linha o
valor de estatisticat, na segunda linha o p-valor e, na terceira linha uma varivel string que ir
nos dizer se aceitamos ou rejeitamos a hiptese nula. Para fazer isso, usamos o comando if e
tambm como nvel de significncia 5%.
scalar estatisticat=eq1.@tstats(2)
table(3,1) testet
testet(1,1)=estatisticat
teste(2,1)=@tdist(estatisticat,157)
if testet(2,1)>0.05 then
estet(3,1)="aceitamos h0
else
estet(3,1)="rejeitamos h0
endif
Alm desses resultados bsicos, tal qual no modelo de regresso simples, h diversos outros
que so mostrados logo abaixo e que servem para avaliar o modelo em questo. O R-squared,
conhecido como R2, tem um valor de 0,437990 mas, deve ser interpretado de maneira diferente ao
valor encontrado para o R2 do modelo de regresso simples. Aqui, dizemos que: cerca de 43,80%
das variaes em qx so explicadas por variaes em yw e px. A frmula tal como antes, e dada
por:
T 2
t=1 t
R2 = 1 T ,
2
t=1 (yt y)
T 2
onde t=1 t denominado de soma do quadrado dos resduos (sum squared resid) e, no nosso
T
exemplo tem valor de 32031,26. Tal qual na regresso simples, o termo t=1 2 representa
(yt y)
o quanto a varivel dependente desvia em relao sua mdia, ou ento, mantendo a notao
anterior, o mesmo que Syy = y2 ny2 . Antes de prosseguir no clculo, cabe destacar que para
realizar a regresso o EViews
R
precisou ajustar a amostra, como visto na Figura 7.2 em Sample
(adjusted): 2000M01 2015M07. Essa alterao feita pois em algumas das sries utilizadas
faltam as observaes anteriores a janeiro de 2000, como a srie yw_sa. Assim, para encontrar
o valor de Syy , utiliza-se a mdia da varivel dependente nesse perodo, representada na Figura
7.2 por Mean dependent var. No presente caso, a mdia da varivel dependente 85,16810. E,
se fizermos o quadrado da diferena de cada observao da varivel dependente em relao a sua
mdia e somarmos, encontraremos 56.994,14. Assim:
32031, 26
R2 = 1 = 0, 437990284.
56994, 14
O valor de R2 ajustado, Adjusted R-squared corrigide pelo nmero de coeficientes (k) que
esto sendo utilizadas no modelo. Sua frmula geral dada por:
T 1
R 2 = 1 (1 R2 ) ,
T k
172 Captulo 7. Regresso Mltipla
tx2
R2y,x = ,
tx2 + (T k)
onde tx a estatstica t do coeficiente x, T o nmero de observaes e k o nmero de parmetros
do modelo completo.
Suponha, por exemplo, que na nossa regresso acima, se queira determinar o efeito da
elasticidade-renda da demanda (yw_sa), mantendo todas as demais variveis independentes cons-
tantes, eliminando o impacto que 2 tem sobre 1 . Assim, usamos:
2
tyw
R2qx,yw = 2 ,
tyw + (T k)
8, 25922
R2qx,yw = = 0, 270460.
8.25922 + (187 3)
Para o caso de se querer saber o impacto apenas da elasticidade-preo usamos:
5, 03142
R2qx,px = = 0, 120943.
5, 03142 + (187 3)
Portanto, note que a elasticidade tem uma capacidade explicativa mais do que o dobro da varivel
preo. A soma de ambas d 0,39 de um total de 0,43 do valor de R2 .
O desvio-padro da regresso (S.E. of regression na Figura 7.2) dado por:
r
RSS
= 2 =
T k
onde, alm do nmero de observaes (T) e do nmero de parmetros (k), temos RSS como a soma
ao quadrado dos resduos. Na regresso representada pela Equao 7.1, que temos como exemplo,
o desvio-padro da regresso ser dado por:
r
32031, 26
= = 13, 19405
187 3
A estatstica do log da verossimilhana (log likelihood) e os critrios de comparao de Akaike,
Schwarz e Hannan-Quinn so feitos da mesma forma que para a regresso simples. Por isso
no entramos no detalhe desses resultados. E estatstica F tambm calculada da mesma forma,
mas, sua interpretao feita de maneira diferente. Nesse caso, como a nossa regresso tem trs
parmetros, o teste-F est testando, na hiptese nula, se:
1 = 1 = 2 = 0
Pelos resultados apresentados no teste F, onde seu p-valor=0, no podemos aceitar a hiptese
nula. Nesse caso, os parmetros em conjunto so estatisticamente diferentes de zero.
7.1 O modelo com duas variveis independentes 173
Programao 7.1.2 Como forma de ilustrar cada uma das funes que so utilizadas para gerar
as estatsticas apresentadas acima, essa rotina monta uma tabela com quatro colunas e 8 linhas e,
a seguir, especifica cada estatstica e coloca a mesma de tal forma que seja possvel comparar
com os resultados apresentados pelo EViews
R
. Note que, na ltima linha (oitava linha) foi
colocada a correlao parcial, primeiro da elasticidade-renda e depois da elasticidade-preo.
Com os resultados da equao abertos, podemos ver o grfico clicando em Resids ou View
/Actual, Fitted, Residual /Actual, Fitted, Residual Graph . . . . Observando a Figura 7.3, note
que, agora, nosso modelo erra menos do que no modelo de regresso simples, demonstrado na
Figura 6.5, e que tambm pode ser comprovado pelo resultado do R2.
A estimativa dos valores para cada perodo feita tal como no modelo de regresso simples. S
que, agora, temos uma varivel a mais para especificar, como demonstrado pela Equao 7.1 do
modelo de regresso mltipla. Nesse caso, vejamos como a estimativa do valor de qx para janeiro
174 Captulo 7. Regresso Mltipla
de 2003:
Naquela data, temos os seguintes valores para as variveis independentes yw jan/2003 = 1, 917077 e
px jan/2003 = 1, 904287. Substituindo esses valores na equao acima encontramos:
qx jan/2003 = 21, 6254 + 1, 5312(1, 917077) 0, 4280 (1, 904287) = 19, 5050.
(10,0968) (0,1854) (0.0851)
A seguir, todos os procedimentos de diagnsticos dos coeficientes ou ento dos resduos pode
ser feito tal como no modelo de regresso simples. Por isso, no iremos apresent-los aqui.
Programao 7.1.3 O loop a seguir pode ser usado para rodar vrias regresses e colocar os
resultados em uma tabela, permitindo que se faa a escolha do melhor modelo atravs do R2 e
dos critrios de comparao.
for !i=1 to 4
modelos(2,!i+1)=eq!i.@r2
modelos(3,!i+1)=eq!i.@aic
modelos(4,!i+1)=eq!i.@schwarz
modelos(5,!i+1)=eq!i.@hq
next
Os testes de diagnstico de estabilidade, tal como o Teste de Chow, Teste de Quandt-Andrews,
Teste de Previso de Chow, Teste de Ramsey, estimativas recursivas e estatsticas de influncia,
podem ser aplicados da mesma forma apresentada no captulo de Regresso Simples. A sua
interpretao tambm feita da mesma forma.
Programao 7.2.1 Tambm podemos fazer uma previso de um modelo de regresso mltipla
via programa. A primeira linha determina a equao de regresso, onde colocamos primeiro
a varivel dependente e, a seguir, as independentes. A seguir, especificado o perodo para a
previso. No exemplo abaixo colocamos para todo o perodo amostral. Por fim, feita a previso
para a equao e o resultado colocado na srie qx_saf, juntamente com o desvio padro com
nome qx_sef. Esse ltimo ir permitir que seja construdo o intervalo de confiana da previso,
referente aos comonados series min e series max.
176 Captulo 7. Regresso Mltipla
qxt = c + t .
7.3 Mtodo STEPLS 177
(a) Estimando regresso pelo mtodo STEPLS (b) Opes do mtodo STEPLS
A seguir, inserida uma varivel independente gerando mais quatro regresses simples, cada uma
com uma constante. Por exemplo, ser feita uma regresso com o seguinte formato abaixo, onde a
varivel independente yw:
qxt = c + 1 yw_sa + t .
As demais regresses simples iro ter uma constante e uma varivel independente diferente.
Dessa forma, teremos uma regresso apenas com px_sa como varivel independente e assim
sucessivamente. De acordo com os nossos dados o modelo final sugerido dado por:
No resultado (Figura 7.6) da estimativa podemos ver que o mtodo manteve apenas uma
varivel em todas as regrees (Number of always included regressors), a constante, e que o total de
variveis independentes foi 4. O mtodo de seleo o Stepwise forwards e o critrio de incluso
o p-valor ao nvel de 0,001. Note que todos os coeficientes so estatisticamente diferentes de
zero e as demais estatsticas podem ser interpretadas de forma igual ao que vimos em modelos de
regresso por mnimos quadrados. Alm disso, percebemos que a varivel pm_sa no foi adicionada
regresso, pois o p-valor ficava acima do critrio determinado. Em comparao com as outras
regresses apresentadas, destacamos o resultado do R2 de 0,8659, maior que a regresso simples e
a regresso mltipla apenas com as variveis yw_sa e px_sa.
Programao 7.3.1 O mtodo STEPLS pode ser feito via programao. O default o mtodo
stepwise, para utilizar as outras opes utilizamos method = uni (para o uni-directional), text
(swapwise) ou comb (combinatorial). De qualquer forma, vamos utilizar o padro stepwise.
O procedimento forward tambm default, no sendo necessrio especificar o mesmo. Caso
contrrio, podemos especificar back. No critrio de seleo o p-valor default e, de outra forma,
podemos escolher tstat. Para definir os critrio, utilizamos ftol=0.001 para o critrio forward, sem
termos que utilizar btol = 0.5 para o critrio backward, pois este o valor padro. O procedimento
acima pode ser feito via:
Uni-direcional
Esse processo pode ser utilizado tanto para adicionar variveis ao modelo (forward) quanto para
retirar (backward) e, nesse caso, a deciso feita com base ou no p-valor ou na estatstica t, sendo
necessrio escolher qual o critrio de deciso para essas duas estatsticas.
Suponha que seja o p-valor. Com essa opo o modelo comea como uma regresso simples,
rodando vrias regresses com diferentes combinaes, sempre tendo apenas uma varivel. A
varivel com menor p-valor fica. A seguir, so feitas regresses mltiplas adicionando mais uma
varivel dentre todas as que foram especificadas. Aquela que atender o critrio estabelecido e tiver o
menor p-valor, acrescentada ao modelo. O procedimento continua at que no seja mais possvel
adicionar varivel que atenda aos critrios especificados, p-valor e nmero de passos Maximum
steps.
J no mtodo unidirecional backwards o procedimento se inicia com todas as variveis e vai
retirando aquelas com maior p-valor at que restem apenas aquelas que atendam aos critrios
especificados. Nesse caso, como o mtodo backward, utilizado o critrio Maximum steps
backwards.
Esse procedimento complementado com a escolha da opo User Number of Regressors, que
7.3 Mtodo STEPLS 179
determina quantas variveis devem constar no modelo final. Se no selecionar essa opo, o modelo
ir conter o mximo de variveis que atendem as especificaes anteriores. Caso contrrio, se o
mesmo for selecionado, podemos especificar quantas variveis queremos que o modelo final tenha.
Stepwise
Da mesma forma que no mtodo unidirecional o mtodo Stepwise pode ser escolhido com a opo
de forwards e backwards. Independente da escolha da opo, o fato que o mtodo Stepwise
uma combinao do mtodo unidirecional forward com o unidirecional backward. O que muda a
ordem de execuo da seleo e escolha das variveis.
Por exemplo, suponha que se tenha escolhido o mtodo Stepwise forward com opo de p-valor.
Aqui, o processo comea sem varivel, so feitas diversas regresses simples, ou seja, adicionando
apenas uma varivel. A seguir, aquela que apresentar o menor p-valor mantida no modelo.
O procedimento se repete, testando todas as demais variveis e escolhendo aquela que tambm
ir ter o menor p-valor. Nesse momento teremos um modelo com duas variveis independentes.
Antes de testar a terceira varivel, feito o procedimento backward no modelo com duas variveis
independentes. Se alguma delas no atender ao critrio do p-valor ou estatstica t, removida.
No passo seguinte escolhida a terceira varivel a ser adicionada no modelo e que deve
atender aos critrios especificados (p-valor ou estatstica t). Escolhida essa terceira varivel,
feito novamente o procedimento backward com o modelo tendo trs variveis para confirmar as
mesmas. A seguir, para toda e qualquer varivel que se queira acrescentar ao modelo feito o
mesmo procedimento, primeiro testando forward e, a seguir, backward.
Podemos comparar o resultado do mtodo Stepwise forward com o mtodo backward para ver
se encontramos o modelo com o mesmo nmero de variveis. Pra tanto selecione backward e o
critrio de seleo, que pode tanto ser o p-valor quanto a estatstica t. Destaca-se que o mtodo
Stepwise backward exatamente o contrrio do Stepwise forward. Primeiro todas as variveis so
inseridas no modelo e a que tiver o maior p-valor excluda. A seguir, dentro daquelas que ficaram
no modelo feita a investigao forward para confirmar a presena das mesmas.
O procedimento se repete e, as variveis que foram excludas so verificadas pelo mtodo
forward. Se alguma delas tiver um p-valor mais baixo ou uma estatstica t maior, inserida
novamente no modelo. O procedimento se repete at que todos os critrios sejam atendidos.
Swapwise
Esse mtodo utiliza dois importantes critrios de escolha, a estimativa do R quadrado para fazer a
seleo do melhor modelo dividindo a escolha entre um incremento mximo ou mnimo e o nmero
de variveis independentes a considerar.
Vejamos como o exemplo do mtodo via R quadrado mximo. O procedimento se inicia sem
varivel independente e, aps feitas vrias regresses simples, escolhida aquela que maximiza
o R quadrado. A seguir, so testadas as demais variveis adicionando uma a uma no modelo. A
que gerar o maior incremento no R quadrado permanece. Para confirmar a presena dessas duas
variveis, as mesmas so comparadas com cada uma das que esto fora do modelo. Ou seja, imagina
que temos uma regresso do tipo:
yt = c + 1 x1t + 2 x2t + t .
yt = c + 1 x1t + 3 x3t + t
e tambm
yt = c + 2 x2t + 3 x3t + t ,
180 Captulo 7. Regresso Mltipla
e assim sucessivamente para todas as variveis que no estavam no modelo bsico. Isso feito para
ver se as diferentes combinaes no gera um R quadrado incremental maior. Uma vez descoberta
a melhor combinao com duas variveis, o procedimento continua para a terceira varivel que
gera o melhor incremento no R quadrado.
A seguir, partindo de um modelo de trs variveis independentes, so feitas vrias combinaes
para descobrir qual gera o melhor incremento no R quadrado. De outra forma, se escolhermos o
mtodo Swapwise com R quadrado mnimo, o procedimento parecido com o que considera o R
quadrado mximo. A diferena que, na hora de testar as diferentes combinaes o procedimento
feito escolhendo aquela que gera o menor incremento no R quadrado.
Combinatorial
Nesse mtodo devemos especificar quantas variveis independentes queremos testar no modelo e
as mesmas so testadas em vrias combinaes e selecionada aquela combinao que produz o
maior R quadrado. Esse mtodo o que requer o maior nmero de estimativas e, dependendo do
nmero de variveis a serem especificadas, o resultado pode demorar em ser fornecido.
7.4 Bibliografia
Hamilton, J. (1994). Linear Regression Model. In: _______. Time Series Analysis. Prince-
ton University Press, pp. 200 - 232.
Wansbeek, T., e Meijer, E. (2008). Measurement error and latent variables. In: Baltagi, B. H.
(Ed.). A companion to theoretical econometrics. John Wiley & Sons, pp. 162 - 179.
Referncias Bibliogrficas
[1] Lawrence J. Christiano and Terry J. Fitzgerald. The band pass filter*. International Economic
Review, 44(2):435465, 2003.