Análise espectral e filtragem de séries temporais

16/02/23, 19:52 Análise espectral e filtragem
Análise de Séries Temporais

Última atualização: 25 de janeiro de 2023.
Capítulo IV. Análise espectral e filtragem

Vamos nos concentrar na abordagem do domínio da frequência para análise de séries temporais.
Argumentamos que o conceito de regularidade de uma série pode ser melhor expresso em termos de
variações periódicas do fenômeno subjacente que produziu a série. Muitos dos exemplos na Seção I.1 são
séries temporais que são orientadas por componentes periódicos. Por exemplo, a gravação da fala no
Exemplo I.3 contém uma mistura complicada de frequências relacionadas à abertura e ao fechamento da
glote. O SOI mensal exibido no Exemplo I.5 contém duas periodicidades, um componente periódico sazonal
de 12 meses e um componente El Niño de cerca de três a sete anos. De interesse fundamental é o período de
retorno do fenômeno El Niño, que pode ter efeitos profundos no clima local.
Uma parte importante da análise de dados no domínio da frequência, bem como no domínio do tempo, é a
investigação e exploração das propriedades do filtro linear invariante no tempo. Essa transformação linear
especial é usada de forma semelhante à regressão linear na estatística convencional e usamos muitos dos
mesmos termos no contexto de séries temporais.
Também introduzimos a coerência como uma ferramenta para relacionar o comportamento periódico comum
de duas séries. A coerência é uma medida baseada na frequência da correlação entre duas séries em uma
dada frequência, e mostramos posteriormente que ela mede o desempenho do melhor filtro linear
relacionado às duas séries.
Muitas escalas de frequência coexistem, dependendo da natureza do problema. Por exemplo, no conjunto de
dados da Johnson & Johnson no Exemplo I.1, a frequência predominante de oscilação é de um ciclo por ano,
4 trimestres, ou ω = 0.25 ciclos por observação. A frequência predominante nas séries de SOI e populações de
peixes no Exemplo I.5 é também um ciclo por ano, mas isso corresponde a 1 ciclo a cada 12 meses ou
ω = 1 / 12 = 0.083 ciclos por observação. Ao longo do texto, medimos a frequência ω em ciclos por ponto de
tempo, em vez da alternativa λ = 2πω isso daria radianos por ponto. De interesse descritivo é o período de
uma série temporal, definida como o número de pontos em um ciclo, ou seja, 1 / ω. Assim, o período
predominante da série de Johnson & Johnson é 1 / 0.25 ou 4 trimestres por ciclo, enquanto o predominante
período da série SOI é de 12 meses por ciclo.
Capítulo IV. Análise espectral e filtragem

1. Comportamento cíclico e periodicidade
2. A densidade espectral
3. Periodograma e transformada discreta de Fourier
4. Estimação espectral não paramétrica
5. Estimação espectral paramétrica
6. Múltiplas séries e cross-espectra
7. Filtros lineares
8. Modelos de regressão defasada
9. Extração de sinal e filtragem ótima
10. Análise espectral de séries multidimensionais
11. Exercícios
IV.1 Comportamento cíclico e periodicidade
Já encontramos a noção de periodicidade em numerosos exemplos nos Capítulos I, II e III. A noção geral
de periodicidade pode ser tornada mais precisa introduzindo alguma terminologia. Para definir a taxa na qual
uma série oscila, primeiro definimos um ciclo como um período completo de uma função seno ou cosseno
definida ao longo de um intervalo de tempo unitário. Como no Exemplo I.12, consideramos o processo
periódico
X t = Acos (2πωt + ϕ ),
Processing math: 87%
para t = 0, ± 1, ± 2, ⋯ onde ω é um índice de frequência, definido em ciclos por unidade de tempo com A
leg.ufpr.br/~lucambio/STemporais/STemporaisIV.html 1/72
determinando a altura ou amplitude da função e ϕ, chamada fase, determinando o ponto inicial da função
cosseno. Podemos introduzir variação aleatória nesta série temporal permitindo a amplitude e fase para
variar aleatoriamente.
Como discutido no Exemplo II.10, para fins de análise de dados, é mais fácil usar a identidade trigonométrica
cos(α ± β) = cos(α)cos(β) ∓ sin(α)sin(β) e escrever a expressão acima como
X t = U 1cos (2πωt ) + U 2sin (2πωt ),
onde U 1 = Acos(ϕ) e U 2 = − Asin(ϕ) são frequentemente considerados como variáveis aleatórias normalmente
2 2
distribuídas. Neste caso, a amplitude é A =
√U 1 + U 2 e a fase é ϕ = tan − 1 ( − U 2 / U 1 ).
A partir desses fatos podemos mostrar que se, e somente se, A e ϕ são variáveis aleatórias independentes,
onde A 2 é qui-quadrado com 2 graus de liberdade e ϕ uniformemente distribuído em ( − π, π), então U 1 e U 2
são variáveis aleatórias normais padronizadas.
Se assumirmos que U 1 e U 2 são variáveis aleatórias não correlacionadas com média 0 e variância σ 2, então X t
é estacionária com média E(X t) = 0 e, escrevendo c t = cos (2πωt ) e s t = sin (2πωt ), a função de autocovariância
assume a forma
γ (h) = Cov(X t + h, X t) = Cov (U 1c t + h + U 2s t + h, U 1c t + U 2s t )

X
= Cov (U 1c t + h, U 1c t ) + Cov (U 1c t + h, U 2s t )
+ Cov (U 2s t + h, U 1c t ) + Cov (U 2s t + h, U 2s t )
= σ c t + hc t + 0 + 0 + σ 2s t + hs t = σ 2cos(2πωh),
2
utilizando a relação cos(α ± β) mencionada acima e notando que Cov (U 1, U 2 ) = 0. Então, vemos que
Var(X t) = γ (0) = σ 2 ⋅
X
Assim, se observarmos U 1 = a e U 2 = b, uma estimativa de σ 2 é a variância amostral dessas duas observações,

que neste caso é simplesmente
a2 + b2
S2 = = a2 + b2 ⋅
2−1
O processo aleatório X t = U 1cos (2πωt ) + U 2sin (2πωt ), é função da sua frequência ω. Para ω = 1, a série faz um
ciclo por unidade de tempo; para ω = 0.50, a série faz um ciclo a cada duas unidades de tempo; para ω = 0.25,
a cada quatro unidades e assim por diante. Em geral, para dados que ocorrem em pontos de tempo
discretos, precisaremos de pelo menos dois pontos para determinar um ciclo, então a maior frequência de
interesse é 0.5 ciclos por ponto. Essa frequência é chamada de frequência de dobra e define a frequência
mais alta que pode ser vista na amostragem discreta. Frequências mais altas amostradas dessa maneira
aparecerão em frequências mais baixas, chamadas aliases. Um exemplo é o modo como uma câmera faz a
amostragem de uma roda giratória em um automóvel em movimento em um filme, no qual a roda parece
estar girando a uma taxa diferente, e às vezes para trás, o efeito da roda do vagão. Por exemplo, a maioria
dos filmes são gravados a 24 quadros por segundo ou 24 Hertz. Se a câmera estiver filmando uma roda que
esteja girando a 24 Hertz, a roda parecerá ficar parada.
Considere uma generalização de X t = U 1cos (2πωt ) + U 2sin (2πωt ), que permite misturas de séries periódicas com
múltiplas frequências e amplitudes,
Xt = ∑ (U k1cos (2πω kt ) + U k2sin (2πω kt ) ),

k=1
2
onde U k1 e U k2, para k = 1, 2, ⋯, q são variáveis aleatórias de média zero não correlacionadas com variâncias σ k
e as ω k são frequências distintas. Observe que X t acima exibe o processo como uma soma de componentes
2
não correlacionados, com variância σ k para frequência ω k.
Pode-se mostrar que a função de autocovariância do processo é
γ (h) =
X
∑ σ 2k cos (2πωh ),
k=1
e notamos que a função de autocovariância é a soma de componentes periódicos com pesos proporcionais às
2
variâncias σ k . Portanto, X t é um processo estacionário com média zero com variância
γ (0) = Var(X t) =
X
∑ σ 2k ,
k=1
exibindo a variância global como uma soma de variâncias de cada uma das partes componentes.
Como no caso simples, se observarmos U k1 = a k e U k2 = b k para k = 1, ⋯, q, então uma estimativa do k-ésimo

2 2 2 2
componente de variância σ k de Var(X t), seria a variância amostral S k = a k + b k . Além disso, uma estimativa da
variância total de X t, a saber, γ̂ (0) seria a soma dos desvios amostrais,
X
q
^
γ̂ = Var(X t) =
X
∑ (a 2k + b 2k ) ⋅
k=1
Agarre-se a esta ideia porque vamos usá-la no Exemplo IV.2.
Exemplo IV.1. Uma série periódica.
A figura abaixo mostra um exemplo da mistura com q = 3 construído da seguinte maneira. Primeiro,
para t = 1, ⋯, 100, geramos três séries
X t1 = 2cos (2πt6 / 100 ) + 3sin (2πt6 / 100 )
X t2 = 4cos (2πt10 / 100 ) + 5sin (2πt10 / 100 )
X t3 = 6cos (2πt40 / 100 ) + 7sin (2πt40 / 100 )
Essas três séries são exibidas na figura, juntamente com as frequências correspondentes e as
amplitudes quadradas. Por exemplo, a amplitude quadrada de X t1 é A 2 = 2 2 + 3 2 = 13. Assim, os valores
máximo e mínimo que X t1 atingirá são ± √13 = ± 3.61.
Finalmente, construímos
X t = X t1 + X t2 + X t3,
e esta série também é exibida na figura. Observamos que X t parece comportar-se como algumas das
séries periódicas que vimos antes. A sistemática de seleção dos componentes de frequência
essencial em uma série temporal, incluindo suas contribuições relativas, constitui um dos
principais objetivos da análise espectral.
Figura IV.1: Componentes periódicos e sua soma conforme descrito neste exemplo.
Para mostrar os dados digite os seguintes comandos:
> x1 = 2*cos(2*pi*1:100*6/100) + 3*sin(2*pi*1:100*6/100)

> x2 = 4*cos(2*pi*1:100*10/100) + 5*sin(2*pi*1:100*10/100)
> x3 = 6*cos(2*pi*1:100*40/100) + 7*sin(2*pi*1:100*40/100)
> x = x1 + x2 + x3
> par(mfrow=c(2,2),mar=c(4,3,1,1),mgp=c(1.6,.6,0))
> plot.ts(x1, xlab="Tempo", ylim=c(-10,10), main=expression(omega==6/100~~~A^2==13))
> plot.ts(x, xlab="Tempo", ylim=c(-16,16), main="Soma")
O modelo de séries periódicas com múltiplas frequências e amplitudes, juntamente com a função de
autocovariância correspondente são construções populacionais. Embora, para obtermos γ̂ , tenhamos
X
sugerido como estimaríamos os componentes de variância, agora discutimos os aspectos práticos de como,
dadas as observações ou realizações de uma séria x 1, x 2, ⋯, x n, estimar realmente os componentes de
2
variância σ k .
Exemplo IV.2. Estimação e periodograma.
Para qualquer amostra de série temporal x 1, x 2, ⋯, x n, onde n é ímpar, podemos escrever, exatamente
(n−1) /2
Xt = a0 + ∑
j=1
(ajcos (2πt j / n ) + bjsin (2πt j / n ) ),
para t = 1, ⋯, n e coeficientes adequadamente escolhidos.
Se n é par, a representação acima pode ser modificada somando n / 2 − 1 e adicionando um componente

1
adicional dado por um a n / 2cos (2πt 2 ) = a n / 2( − 1) t. O ponto crucial aqui é que esta representação é
exata para qualquer amostra. Portanto, a série periódica com múltiplas frequências e amplitudes,
pode ser pensada como uma aproximação para a expressão acima, a ideia é que muitos dos
coeficientes a serem adequadamente escolhidos podem ser próximos de zero.
n n 2
Usando os resultados de regressão, os coeficientes a j e b j são da forma ∑ t = 1x tz tj / ∑ t = 1z tj, onde z tj é um
n 2
outro cos (2πt j / n ) ou sin (2πt j / n ). Pode-se demonstrar que ∑ t = 1z tj = n / 2, quando j / n ≠ 0, 1 / 2 então os
¯
coeficientes de regressão podem ser escritos como a 0 = x,
n n
2 2
aj = ∑ x cos (2πt j / n )
nt=1 t
e bj = ∑ x sin (2πt j / n ) ⋅
nt=1 t
Em seguida, definimos o periodograma escalonado como sendo
2 2
P(j / n) = a j + b j ,
e é de interesse porque indica quais componentes de frequência são grandes em magnitude e quais
componentes são pequenos.
O periodograma escalado é simplesmente a variância amostral em cada componente de frequência e,

2
consequentemente, é uma estimativa de σ j correspondente à sinusoide que oscila a uma frequência de
ω j = j / n. Essas frequências específicas são chamadas de frequências de Fourier ou frequências
fundamentais. Grandes valores de P(j / n) indicam quais frequências ω j = j / n são predominantes na
série, enquanto valores pequenos de P(j / n) podem estar associados a ruído. O periodograma foi
introduzido em Schuster (1898) e usado em Schuster (1906) para estudar as periodicidades na série
das manchas solares, mostrado na figura do Exercício IV.9.
Felizmente, não é necessário executar uma grande regressão para obter os valores de a j e b j, porque
eles podem ser calculados rapidamente se n for um inteiro altamente composto. Embora vamos
discuti-lo em mais detalhes na Seção IV.3, a transformada discreta de Fourier (DFT) é uma média
ponderada de valor complexo dos dados fornecidos, dada por
n
1
d(j / n) = ∑ x exp ( − 2π it j / n )
nt=1 t
( )
n n
1
=
n t=1
∑ x tcos (2π t j / n ) − i ∑ x tsin (2π t j / n )
t=1
para j = 0, 1, ⋯, n − 1, onde as frequências j / n são as frequências de Fourier ou frequências

fundamentais. Para encontrarmos a expressão acima utilizamos a fórmula de Euler e iα = cos(α) + isin(α),
da qual, por consequência temos que cos(α) = (e iα + e − iα) / 2 e sin(α) = (e iα − e − iα) / 2. Também 1 / i = − i, isto
porque − i × i = 1. Se z = a + ib é um número complexo, então | z | 2 = Zz ∗ = (a + ib)(a − ib) = a 2 + b 2, sendo que
z ∗ denota o conjugado complexo.
Devido a um grande número de redundâncias no cálculo, d(j / n) pode ser calculado rapidamente usando a
transformada rápida de Fourier (FFT). Observe que
( ) ( )
n 2 n 2
1 1
| d(j / n) | 2 =
n t=1
∑ x tcos (2π t j / n ) +
n t=1
∑ x tsin (2π t j / n )
e é essa quantidade chamada de periodograma.
Podemos calcular o periodograma escalonado, utilizando o periodograma como
4
P(j / n) = | d(j / n) | 2 ⋅
n
O periodograma escalado dos dados x t, simulado no Exemplo IV.1 é mostrado na figura abaixo e
identifica claramente os três componentes x t1, x t2 e x t3 de x t. Observe que
P(j / n) = P(1 − j / n), j = 0, 1, ⋯, n − 1,
então há um efeito de espelhamento na frequência de dobramento de 1/2; consequentemente, o

periodograma normalmente não é mostrado para frequências mais altas que a frequência de
dobramento. Além disso, note que as alturas do periodograma escalado mostrado na figura são
P(6 / 100) = P(94 / 100) = 13, P(10 / 100) = P(90 / 100) = 41, P(40 / 100) = P(60 / 100) = 85,
e P(j / n) = 0, caso contrário. Estes são exatamente os valores das amplitudes quadradas dos
componentes gerados no Exemplo IV.1.
Figura IV.2: O períodograma escalonado dos dados gerados no Exemplo IV.1.
Assumindo
Processing math: 87% que os dados simulados, x, foram retidos do exemplo anterior, o código R para reproduzir
a figura acima é:
> P = Mod(2*fft(x)/100)^2; Fr = 0:99/100

> par(mfrow=c(1,1),mar=c(4,3,1,1),mgp=c(1.6,.6,0))
> plot(Fr, P, type="o", xlab="Frequência", ylab="Periodograma escalonado", pch=19)
> grid()
Pacotes diferentes escalam a FFT de maneira diferente, por isso é uma boa idéia consultar a documentação.
O R calcula-o sem o fator n − 1 / 2 e com um fator adicional de e 2πiωj que pode ser ignorado porque estaremos
interessados no módulo ao quadrado.
Se considerarmos os dados x t no Exemplo IV.1 como uma cor (forma de onda) composta de cores primárias
x t1, x t2, x t3 em várias intensidades ou amplitudes, então podemos considerar o periodograma como um prisma
que decompõe a cor x t em suas cores primárias ou espectro. Daí o termo análise espectral. A seguir, um
exemplo usando dados reais.
Exemplo IV.3. Magnitude da Estrela.
Os dados na segunda figura embaixo são a magnitude de uma estrela tirada à meia-noite por 600 dias
consecutivos. Os dados são retirados do texto clássico: The Calculus of Observations, a Treatise
on Numerical Mathematics, por E.T. Whittaker e G. Robinson (1923, Blackie & Son, Ltd.).
O periodograma para frequências inferiores a 0.08 também é exibido na figura; as ordenadas do

periodograma para frequências superiores a 0.08 são essencialmente zero. Observe que o ciclo de
29 ≈ 1 / 0.035 dias e o ciclo de 24 ≈ 1 / 0.041 dias são os componentes periódicos mais proeminentes dos
dados.
Podemos interpretar esse resultado conforme estamos observando um sinal modulado em amplitude. Por
exemplo, suponha que estamos observando sinal-mais-ruído, X t = s t + V t, onde s t = cos(2πω t)cos(2πδ t) e δ é
muito pequeno. Neste caso, o processo irá oscilar na frequência ω, mas a amplitude será modulada
por cos(2πδ t). Como 2cos(α)cos(δ) = cos(α + δ) + cos(α − δ), o periodograma dos dados gerados como X t terá
dois picos próximos um do outro em. Observe isso na figura a seguir:
> t = 1:200
> plot.ts(x <- 2*cos(2*pi*.2*t)*cos(2*pi*.01*t), type="n", xlab="Tempo",
ylab=expression(2*cos(2*pi*0.2*t)*cos(2*pi*.01*t)))
> lines(cos(2*pi*.19*t)+cos(2*pi*.21*t), col=2) # the same
> Px = Mod(fft(x))^2; plot(0:199/200, Px, type='o', pch=19) # periodograma
Figura IV.3: Magnitudes de estrelas e parte do periodograma correspondente.
O código R para reproduzir a figura é
> n = length(star)
> par(mfrow=c(2,1), mar=c(3,3,1,1), mgp=c(1.6,.6,0))
> plot(star, ylab="Magnitude da Estrela", xlab="Dias")
> Per = Mod(fft(star-mean(star)))^2/n
> Freq = (1:n -1)/n
> plot(Freq[1:50], Per[1:50], type='h', lwd=3, ylab="Periodograma", xlab="Frequência")
> u = which.max(Per[1:50]) # 22 freq=21/600=.035 ciclos/dia
> uu = which.max(Per[1:50][-u]) # 25 freq=25/600=.041 ciclos/dia
> 1/Freq[22]; 1/Freq[26] # período = dias/ciclo
[1] 28.57143
[1] 24
> text(.05, 7000, "ciclo de 24 dias"); text(.027, 9000, "ciclo de 29 dias")
> ### outra maneira de encontrar os dois picos é ordenar Per
> y = cbind(1:50, Freq[1:50], Per[1:50]); y[order(y[,3]),]
[,1] [,2] [,3]
[1,] 1 0.000000000 9.443191e-29
[2,] 2 0.001666667 4.507982e-01
[3,] 3 0.003333333 6.383881e-01
[4,] 4 0.005000000 6.520257e-01
[5,] 42 0.068333333 8.665436e-01
[6,] 5 0.006666667 9.562050e-01
[7,] 6 0.008333333 1.102173e+00
[8,] 7 0.010000000 1.571938e+00
[9,] 8 0.011666667 1.919698e+00
[10,] 9 0.013333333 2.660354e+00
[11,] 50 0.081666667 2.716201e+00
[12,] 49 0.080000000 2.950864e+00
[13,] 48 0.078333333 3.131141e+00
[14,] 10 0.015000000 3.360490e+00
[15,] 41 0.066666667 3.434992e+00
[16,] 47 0.076666667 3.436210e+00
[17,] 46 0.075000000 3.727665e+00
[18,] 45 0.073333333 4.217734e+00
[19,] 40 0.065000000 4.333342e+00
[20,] 11 0.016666667 4.602068e+00
[21,] 44 0.071666667 4.961120e+00
[22,] 39 0.063333333 5.104726e+00
[23,] 38 0.061666667 5.787418e+00
[24,] 12 0.018333333 6.000647e+00
Processing math: 87% [25,] 37 0.060000000 6.609014e+00
[26,] 36 0.058333333 7.479905e+00
[27,] 43 0.070000000 7.759837e+00
[28,] 13 0.020000000 8.299324e+00
[29,] 35 0.056666667 8.579677e+00
[30,] 34 0.055000000 9.855970e+00
[31,] 14 0.021666667 1.130510e+01
[32,] 33 0.053333333 1.149882e+01
[33,] 32 0.051666667 1.354988e+01
[34,] 15 0.023333333 1.626158e+01
[35,] 31 0.050000000 1.627495e+01
[36,] 30 0.048333333 1.994590e+01
[37,] 16 0.025000000 2.384928e+01
[38,] 29 0.046666667 2.512683e+01
[39,] 28 0.045000000 3.282879e+01
[40,] 17 0.026666667 3.760709e+01
[41,] 27 0.043333333 4.499063e+01
[42,] 18 0.028333333 6.410010e+01
[43,] 25 0.040000000 1.085316e+02
[44,] 19 0.030000000 1.276647e+02
[45,] 24 0.038333333 2.152119e+02
[46,] 20 0.031666667 3.395142e+02
[47,] 23 0.036666667 6.436224e+02
[48,] 21 0.033333333 2.136963e+03
[49,] 26 0.041666667 9.011002e+03
[50,] 22 0.035000000 1.102080e+04
IV.2 A densidade espectral
Nesta seção, definimos a ferramenta do domínio de frequência fundamental, a densidade espectral. Além
disso, discutimos as representações espectrais para processos estacionários. Assim como a decomposição de
Wold (Teorema B.5) justifica teoricamente o uso de regressão para analisar séries temporais, os teoremas de
representação espectral fornecem as justificativas teóricas para a decomposição de séries temporais
estacionárias em componentes periódicos que aparecem em proporção às suas variâncias subjacentes. Este
material é aprimorado pelos resultados apresentados no Apêndice C.
Exemplo IV.4. Um processo estacionário periódico.
Considere um processo aleatório estacionário periódico, com uma frequência fixa ω 0,
X t = U 1cos (2πω 0 t ) + U 2sin (2πω 0 t ),
onde U 1 e U 2 são variáveis aleatórias de média zero não correlacionadas com igual variância σ 2. O
número de períodos necessários para a série acima para completar um ciclo é exatamente 1 / ω 0 e o
processo faz exatamente ω 0 ciclos por ponto para t = 0, ± 1, ± 2, ⋯. Temos então que
σ2 σ2
γ(h) = σ 2cos (2πω 0 h ) = exp ( − 2π iω 0 h ) + exp (2π iω 0 h )
2 2
1/2
= ∫ − 1 / 2exp (2π iω 0 h )dF(ω),
usando a integração de Riemann-Stieltjes (ver Seção C.4.1), onde F(ω) é a função definida por
{
0, caso ω < − ω0
σ2
F(ω) = , caso − ω0 ≤ ω < ω0 ⋅
2
σ 2, caso ω ≥ ω0
A função F(ω) se comporta como uma função de distribuição para uma variável aleatória discreta,
exceto que F(∞) = σ 2 = Var(X t) em vez de um. De fato, F(ω) é uma função de distribuição, não de
probabilidades, mas sim de variâncias, com F(∞) sendo a variância total do processo X t. Portanto,
denominamos F(ω) a função de distribuição espectral. Este exemplo será continuado no Exemplo IV.9.
Uma representação como a fornecida no Exemplo IV.4 sempre existe para um processo estacionário. Para
detalhes, veja o Teorema C.1 e sua prova. A integração de Riemann-Stieltjes é descrita na Seção C.4.1.
Teorema IV.1. Representação Espectral de uma Função de Autocovariância.
Se {X t} é um processo estacionário com autocovariância γ(h) = Cov(X t + h, X t), então existe uma função única
monotonicamente crescente F(ω), chamada de função de distribuição espectral, com F( − ∞) = F( − 1 / 2) = 0 e
F(∞) = F(1 / 2) = γ(0), de tal modo que
1
γ(h) = ∫ 2− 1 exp (2π iω h )dF(ω) ⋅

2
Demonstração Ver Teorema C.1 ▉
Uma situação importante que usamos repetidamente é o caso quando a função de autocovariância é
absolutamente sumável, em cujo caso a função de distribuição espectral é absolutamente contínua com
dF(ω) = f(ω)dω e a representação no Teorema IV.1 se torna a motivação para a propriedade dada abaixo.
Teorema IV.2. A Densidade Espectral.
Se a função de autocovariância γ(h), de um processo estacionário satisfaz
∑ | γ(h) | < ∞,
h= −∞
então tem a representação

1
γ(h) = ∫ 2− 1 exp (2π iω t )f(ω)dω, h = 0, ± 1, ± 2, ⋯,

2
como a transformação inversa da densidade espectral,
f(ω) = ∑ γ(h)exp ( − 2π iω t ), − 1/2 ≤ ω ≤ 1/2 ⋅

h= −∞
Essa densidade espectral é o análogo da função de densidade; o fato de γ(h) ser definido não negativo
garante que f(ω) ≥ 0, para todo ω. Segue imediatamente do Teorema IV.2 que f(ω) = f( − ω), verificando que a
densidade espectral é uma função par.
Por causa da uniformidade, tipicamente traçamos apenas f(ω) para 0 ≤ ω ≤ 1 / 2. Mais ainda, escolhendo h = 0 na
expressão acima, produz
1
γ(0) = Var(X t) = ∫ 2− 1 f(ω)dω,

2
que expressa a variância total como densidade espectral integrada em todas as frequências. Mostramos mais
adiante que um filtro linear pode isolar a variância em certos intervalos de frequência ou bandas.
Agora deve ficar claro que as funções de autocovariância e distribuição espectral contêm as mesmas
informações. Essa informação, no entanto, é expressa de maneiras diferentes. A função de autocovariância
expressa informações em termos de atrasos, enquanto a distribuição espectral expressa as mesmas

informações em termos de ciclos. Alguns problemas são mais fáceis de trabalhar quando consideramos as
informações defasadas e nós tenderíamos a lidar com esses problemas no domínio do tempo. No entanto,
outros problemas são mais fáceis de trabalhar quando consideramos informações periódicas e nós
tenderíamos a lidar com esses problemas no domínio espectral.
Observamos que a função de autocovariância γ(h) e a densidade espectral f(ω) são pares de transformada de
Fourier. Em particular, isto significa que se f(ω) e g(ω) são duas densidades espectrais para as quais
1 1
γ (h) =
f ∫ 2− 1 f(ω)exp (2π iω h )dω = ∫ 2− 1 g(ω)exp (2π iω h )dω = γ (h),
g
2 2
para h = 0, ± 1, ± 2, ⋯, então
f(ω) = g(ω) ⋅
∞
Finalmente, a condição de soma absoluta ∑ h = − ∞ | γ(h) | < ∞, no Teorema IV.2, não é satisfeita pela função
γ (h) = ∑ qk = 1σ 2k cos (2πωh ), no exemplo que usamos para introduzir a idéia de uma representação espectral. A
X
condição, no entanto, é satisfeita para os modelos ARMA.
É esclarecedor examinar a densidade espectral da série que examinamos em discussões anteriores.
Exemplo IV.5. Série de ruído branco.
Como um exemplo simples, considere o espectro do poder teórico de uma sequência de variáveis
2
aleatórias não correlacionadas W t, com variância σ . Um conjunto simulado de dados é exibido na
W
figura no Exemplo I.8. Porque a função de autocovariância foi computada no Exemplo I.16 como
2
γ (h) = σ para h = 0 e zero, caso contrário, segue que
W W
2
f (ω) = σ ,
W W
para − 1 / 2 ≤ ω ≤ 1 / 2. Portanto, o processo contém poder igual em todas as frequências. Esta

propriedade é vista na realização, que parece conter todas as frequências diferentes em uma
mistura aproximadamente igual. De fato, o nome ruído branco vem da analogia à luz branca, que
contém todas as frequências no espectro de cores no mesmo nível de intensidade. O topo da figura
2
do Exemplo IV.7 mostra um gráfico do espectro de ruído branco para σ = 1. O código R para
W
reproduzir a figura é dado no final do Exemplo IV.7.
Como o processo linear é uma ferramenta essencial, vale a pena investigar o espectro de tal processo. Em
geral, um filtro linear usa um conjunto de coeficientes especificados, digamos a j, quando j = 0, ± 1, ± 2, ⋯ para
transformar uma série de entrada, X t, produzindo uma série de saída, Y t, da forma
∞ ∞
Yt = ∑ a jX t − j, ∑ | aj | < ∞ ⋅
j= −∞ j= −∞
A forma acima também é chamada de convolução em alguns contextos estatísticos. Os coeficientes são
chamados coletivamente de função de resposta ao impulso e a transformada de Fourier
A(ω) = ∑ a je − 2π i ωj,
j= −∞
é chamada função de resposta de frequência. Se, na expressão de Y t acima, X t tiver densidade espectral f (ω),
X
temos o seguinte resultado.
Teorema IV.3. Espectro de saída de uma série estacionária filtrada.
∞ ∞
Para o processo em Y t = ∑ a jX t − j, quando ∑ | a j | < ∞, se X t tem espectro f (ω), então o espectro da saída
X
j= −∞ j= −∞
filtrada Y t, digamos f (ω), está relacionado com o espectro da entrada X t por
Y
f (ω) = | A(ω) | 2f (ω),

Y X
onde a função de resposta de frequência A(ω) é definida como A(ω) = ∑ a je − 2π i ωj, .

j= −∞
Demonstração Consideremos a saída filtrada dada por
Yt = ∑ a jX t − j,
j= −∞
sendo que ∑ | aj | < ∞ ⋅ .

j= −∞
A função de autocovariância da saída filtrada Y t é
γ (h)
Y
= Cov (X t + h, X t ) = Cov (r∑ arXt + h − r , s∑ asXt − s )
( )
1
= ∑ ∑ a rγ X(h − r + s)a s = ∑ ∑ a r ∫ 2− 1 e 2π i ω ( h − r + s ) f X(ω)dω as

r s r s 2
( )( )
1
= ∫ 2− 1 ∑ a re 2π i ωr ∑ a se 2π i ωs e 2π i ωhf (ω)dω
X
2 r s
1
= ∫ 2− 1 e 2π i ωh | A(ω) | 2f X(ω)dω
2
⏟
f (ω)
Y
O resultado vale explorando a exclusividade da transformada de Fourier ▉
O uso do Teorema IV.3 é explorado na Seção IV.7. Se X t é um processo ARMA, sua densidade espectral pode
∞ ∞
ser obtida explicitamente usando o fato de que é um processo linear, isto é, X t = ∑ j = 0ψ jW t − j, onde ∑ j = 0 | ψ j | < ∞
.
Teorema IV.4. A densidade espectral do ARMA.
Se X t é ARMA(p, q), ϕ(B)X t = θ(B)W t, sua densidade espectral é dada por
2
| θ(e − 2π i ω) | 2
f (ω) = σ ,
X W | ϕ(e − 2π i ω) | 2
p q
onde ϕ(z) = 1 − ∑ ϕ kz k e θ(z) = 1 + ∑ θ kz k.

k=1 k=1
Demonstração
Consequência direta do Teorema IV.3, usando os fatos adicionais de que a densidade espectral do ruído
2
branco é f (ω) = σ e, pelo Teorema III.1, ψ(z) = θ(z) / ϕ(z) ▉
W W
Exemplo IV.6. Série de médias móveis.
Como exemplo de uma série que não possui uma mistura igual de frequências, consideramos um modelo
de médias móveis. Especificamente, considere o modelo MA(1) dado por
X t = W t + 0.5W t − 1 ⋅
Uma realização amostral é mostrada no topo da figura do Exemplo III.5 e notamos que a série tem
menos frequências mais altas ou mais rápidas. A densidade espectral irá verificar esta observação.
A função de autocovariância foi exibida no Exemplo III.5 e para este exemplo em particular, temos
{
(1 + 0.5 2)σ 2 = 1.25σ 2 quando h=0
W W
2
γ(h) = 0.5σ quando h±1 ⋅
W
0 quando h>1
Substituindo isto diretamente na definição da densidade espectral, temos
f(ω) = ∑
h= −∞ W
(
γ(h)e − 2π i ωh = σ 2 1.25 + 0.5 (e − 2π i ω + e 2πω ) ) = σ2 (1.25 + cos(2π ω) ) ⋅
W
Podemos também calcular a densidade espectral usando o Teorema IV.4, que afirma que para uma MA,
2
f(ω) = σ
W
| θe − 2π i ω | 2 ⋅
Devido a que θ(z) = 1 + 0.5z, temos
| θ (e − 2π i ω ) | 2 = | 1 + 0.5e − 2π i ω | 2 = (1 + 0.5e − 2π i ω )(1 + 0.5e 2π i ω )

= 1.25 + 0.5 (e − 2π i ω + e 2πω )
o que leva a um acordo com o encontrado acima.
2
Mostrando o espectro para σ = 1, como no meio da figura do Exemplo IV.7, mostra que as frequências
W
mais baixas ou mais lentas têm maior potência do que as frequências mais altas ou mais rápidas.
Exemplo IV.7. Uma série autorregressiva de segunda ordem.
Consideramos agora o espectro de uma série AR(2) da forma
X t − ϕ 1X t − 1 − ϕ 2X t − 2 = W t,
para o caso especial ϕ 1 = 1 e ϕ 2 = − 0.9. A figura do Exemplo I.10 mostra uma realização amostral de
tal processo para σ = 1. Notamos que os dados exibem um forte componente periódico que faz um
W
ciclo a cada seis pontos.
Para usar o Teorema IV.4, observe que θ(z) = 1, ϕ(z) = 1 − z + 0.9z 2 e
| θ (e − 2π i ω ) | 2 =
= 2.81 − 1.9 (e 2π i ω + e − 2π i ω ) + 0.9 (e 4π i ω + e − 4π i ω )

= 2.81 − 3.8cos(2πω) + 1.8cos(4πω),
Então, a densidade espectral de X t é
2
σ
W
f (ω) = ⋅
X 2.81 − 3.8cos(2πω) + 1.8cos(4πω)
2
Definindo σ = 1, a parte inferior da figura abaixo exibe f (ω) e mostra um forte componente de
W X
potência em torno de ω = 0.16 ciclos por ponto ou um período entre seis e sete ciclos por ponto e
pouquíssima potência em outras frequências. Nesse caso, modificar a série de ruído branco
aplicando o operador AR de segunda ordem concentrou a potência ou a variação da série resultante
em uma faixa de frequência muito estreita.
A densidade espectral também pode ser obtida sem ter que usar o Teorema IV.4; isso porque
W t = X t − X t − 1 + 0.9X t − 2,
neste exemplo, do qual temos
γ (h) = Cov(W t + h, W t)
W
= Cov(X t + h − X t + h − 1 + 0.9X t + h − 2 , X t − X t − 1 + 0.9X t − 2)
= 2.81γ (h) − 1.9 (γ (h + 1) + γ (h − 1) ) + 0.9 (γ (h + 2) + γ (h − 2) ) ⋅

X X X X X
Agora, substituindo a representação espectral por γ (h) na equação acima produz

X
γ (h)
W
= ∫ 2− 1 (2.81 − 1.9 (e 2π i ω + e − 2π i ω ) + 0.9 (e 4π i ω + e − 4π i ω ) )e 2π i ωhf X(ω)dω
2
1
12
= −
2 (2.81 − 3.8cos(2πω) + 1.8cos(4πω) )e2π i ωhf (ω)dω ⋅
X
Se o espectro do processo de ruído branco W t, for g (ω), a unicidade da transformada de Fourier nos
W
permite identificar
g (ω) =
W
(2.81 − 3.8cos(2πω) + 1.8cos(4πω) )f (ω) ⋅ X
2
Mas, como já vimos, g (ω) = σ , do qual deduzimos que
W W
σ2
W
f (ω) = ,
X 2.81 − 3.8cos(2πω) + 1.8cos(4πω)
é o espectro da série autoregressiva.
Figura IV.4: Espectros teóricos do ruído branco (superior), médias móveis de primeira
ordem (meio) e processo autorregressivo de segunda ordem (inferior).
O código R para reproduzir a figura utiliza arma.spec em astsa:
> par(mfrow=c(3,1))
> arma.spec(log="no", main="Ruído branco")
> arma.spec(ma=.5, log="no", main="Médias móveis")
> arma.spec(ar=c(1,-.9), log="no", main="Autoregressões")
Exemplo IV.8. Toda explosão tem uma causa (continuação).
No Exemplo III.4, discutimos o fato de que os modelos explosivos têm contrapartes causais. Nesse
exemplo, também indicamos que era mais fácil mostrar esse resultado em geral no domínio espectral.
Neste exemplo, damos os detalhes para um modelo AR(1), mas as técnicas usadas aqui indicarão como
generalizar o resultado.
Como no Exemplo III.4, supomos que X t = 2X t − 1 + W t, onde W t ∼ N(0, σ 2 ) independentes. Então, a

W
densidade espectral de X t é
2
f (ω) = σ
X W
| 1 − e − 2π i ω | − 2 ⋅
Mas,
| 1 − e − 2π i ω | = | 1 − e 2π i ω |
1
= | (2e 2π i ω )( 2 e − 2π i ω − 1 ) |
1 − 2π i ω
= 2 |1 − e |⋅
2
Assim, podemos escrever
1 2 1
f (ω) = σ | 1 − e − 2π i ω | − 2,
X 4 W 2
1 1 2
o que implica que X t = 2 X t − 1 + V t, com V t ∼ N (0, 4 σ ) é uma forma equivalente do modelo.
W
Terminamos esta seção mencionando outra representação espectral que lida diretamente com o processo. Em
termos não técnicos, o resultado sugere que

k=1
é aproximadamente verdadeiro para qualquer série temporal estacionária e isso fornece uma justificativa
teórica adicional para a decomposição de séries temporais em componentes harmônicos.
Exemplo IV.9. Um processo estacionário periódico (continuação).
No Exemplo IV.4, consideramos o processo periódico estacionário com uma frequência fixa ω 0, dado
como
X t = U 1cos (2πω 0 t ) + U 2sin (2πω 0 t ) ⋅
Podemos escrever isso como
1 1
Xt = (U + iU 2 )e − 2π i ω0t + 2 (U 1 − iU 2 )e 2π i ω0t,
2 1
onde nos lembramos que U 1 e U 2 são variáveis aleatórias não correlacionadas, com média zero, cada
uma com variância σ 2.
1 1
Chamemos Z = 2 (U 1 + iU 2), então Z ∗ = 2 (U 1 − iU 2), onde ∗ denota o complexo conjugado. Neste caso,
1
Z = 2 (E(U 1) + iE(U 2) ) = 0 e, similarmente, E(Z ∗ )
= 0. Para variáveis aleatórias complexas com média
∗
zero, digamos X e Y, Cov(X, Y) = E(XY ). Portanto
1
Var(Z) = E( | Z | 2) = E(ZZ ∗ ) = E ((U 1 + iU 2)(U 1 − iU 2) )
4
1 σ2
=
4
(E(U 21) + E(U 22) ) =
2
⋅
σ2
Similarmente Var(Z ∗ ) = .
2
Além disso, desde que Z ∗ ∗ = Z,
1 1
Cov(Z, Z ∗ ) = E(ZZ ∗ ∗ ) =
4
E ((U 1 + iU 2)(U 1 − iU 2) ) =
4
(E(U 21) − E(U 22) ) = 0⋅
Portanto, (4.13) pode ser escrito como
X t = Ze − 2π iω 0t + Z ∗ e 2π iω 0t = ∫ 2− 1 e 2π iωtdZ(ω),
2
onde Z(ω) é um processo aleatório de valor complexo que faz saltos não correlacionados em − ω 0 e ω 0
com média-zero e variância σ 2 / 2. A integração estocástica é discutida em mais detalhes na Seção
C.4.2.
Teorema IV.5. Representação espectral de um processo estacionário.
Se X t é um processo estacionário de média zero, com distribuição espectral F(ω) como dado na Proposição
IV.1, então existe um processo estocástico de valor complexo Z(ω), no intervalo ω ∈ [ − 1 / 2, 1 / 2], com
incrementos estacionários não-correlacionados não-sobrepostos, tal que X t pode ser escrito como a
integral estocástica (ver Seção C.4.2)
1
Xt = ∫ 2− 1 e 2π i ωtdZ(ω),
2
onde, para − 1 / 2 ≤ ω ≤ 1 / 2,
Var (Z(ω 2) − Z(ω 1) ) = F(ω 2) − F(ω 1) ⋅
IV.3 Periodograma e transformada discreta de Fourier
Agora estamos pronto para unir o periodograma, que é o conceito amostral apresentado na Seção IV.1, com
a densidade espectral, que é o conceito populacional da Seção IV.2.
Definição
Processing math: 87% IV.1 Transformada discreta de Fourier.
Dada a amostra X 1, ⋯, X n definimos a Transformada Discreta de Fourier (DFT) como sendo
n
1
d(ω j) =
n
∑ X te − 2π i ωjt,
t=1
para j = 0, 1, ⋯, n − 1, onde as frequências ω j = j / n, são chamadas de frequências fundamentais ou

frequências de Fourier.
Se n é um inteiro altamente composto, isto é, tem muitos fatores o DFT pode ser calculado pela transformada
rápida de Fourier (FFT) introduzida em Cooley and Tukey (1965). Além disso, diferentes pacotes escalonam a
FFT de maneira diferente, por isso é uma boa ideia consultar a documentação. R calcula o DFT definida acima
1
sem o fator n , mas com um fator adicional de e 2π i ω j que pode ser ignorado porque estaremos interessados no
quadrado do módulo da DFT. Às vezes, é útil explorar o resultado da inversão para DFTs, o que mostra que a
transformação linear é de um para um. Para o DFT inverso temos,
n−1
1
Xt =
n t=1
∑ d(ω j)e 2π i ωjt,
para t = 1, ⋯, n. O exemplo a seguir mostra como calcular o DFT e seu inverso em R para o conjunto de dados
{1, 2, 3, 4}; note que R escreve um número complexo z = a + ib como a+bi.
> (dft = fft(1:4)/sqrt(4))

[1] 5+0i -1+1i -1+0i -1-1i
> (idft = fft(dft, inverse=TRUE)/sqrt(4))
[1] 1+0i 2+0i 3+0i 4+0i
> (Re(idft)) # parte Real
[1] 1 2 3 4
Agora definimos o periodograma como o quadrado do módulo da DFT.
Definição IV.2 Periodograma.
Dada a amostra X 1, ⋯, X n definimos o periodograma como sendo
I(ω j) = | d(ω j) | 2,
para j = 0, 1, 2, ⋯, n − 1.
¯2 ¯
Note que I(0) = nX , sendo X é a média amostral. Também
∑ e − 2π i tj / n = 0, para j ≠ 0,
t=1
1−zn
n
ist porque ∑ t = 1z t = z 1 − z , para z ≠ 1, neste caso z n = e − 2π i j = 1. Podemos então escrever a DFT como
n
1 ¯
d(ω j) =
n
∑ (X t − X)e − 2π i ωjt,
t=1
para j ≠ 0
Portanto,
n n
1 ¯ ¯
I(ω j) = | d(ω j) | 2 = n
∑ ∑ (X t − X)(X s − X)e − 2π i ωj ( t − s )
t = 1s = 1
n−1 n− |h|
1 ¯ ¯
=
n
∑ ∑ (X t + | h | − X)(X t − X)e − 2π i ω jh
h= − (n−1)t=1
n−1
= ∑ γ̂(h)e − 2π i ω jh,
h= − (n−1)
para j ≠ 0, onde colocamos h = t − s, com γ̂(h) como dado na Definição I.14. Note que a expressão acima pode
ser usado para obter γ̂(h) tomando o DFT inverso de I(ω j). Esta abordagem foi usada no Exemplo I.31 para
obter um ACF bidimensional. Em vista da expressão acima, o periodograma, I(ω j) é a versão amostral de f(ω j),
a densidade espectral. Ou seja, podemos pensar no periodograma como a densidade espectral amostral de X t
.
Inicialmente, a expressão acima parece ser uma maneira óbvia de estimar uma densidade espectral, ou seja,
basta colocar um chapéu em γ(h) e somar até onde o tamanho da amostra permitir. No entanto, após uma
análise mais aprofundada, verifica-se que este não é um bom estimador, porque usa algumas estimativas
ruins de γ(h). Por exemplo, há apenas um par de observações, (X 1, X n) para estimar γ(n − 1) e apenas dois pares
(X 1, X n − 1) e (X 1, X n) que podem ser usados para estimar γ(n − 1), e assim por diante. Discutiremos esse
problema ainda mais à medida que progredirmos, mas uma melhoria óbvia seria algo como
f̂(ω) = ∑ γ̂(h)e − 2π i ωh,

|h| ≤m
onde m é muito menor que n.
às vezes é útil trabalhar com as partes real e imaginária da DFT individualmente. Para este fim, definimos as
seguintes transformações.
Definição IV.3 Transformações coseno e seno.
Dada a amostra X 1, ⋯, X n definimos a transformação coseno
n
1
d c(ω j) =
n
∑ X tcos(2πω jt),
t=1
e a transformação seno
n
1
d s(ω j) = ∑ X sin(2πω jt),
nt=1 t
onde ω j = j / n para j = 0, 1, ⋯, n − 1.
Notemos que d(ω j) = d c(ω j) − id s(ω j) e, portanto
2 2
I(ω j) = d c (ω j) + d s (ω j) ⋅
Também discutimos o fato de que a análise espectral pode ser pensada como uma análise de variância. O
próximo exemplo examina essa noção.
Exemplo IV.10. ANOVA espectral.
Seja X 1, ⋯, X n uma amostra de tamanho n, onde para facilidade, n é ímpar. Então, lembrando o Exemplo
IV.2,
Xt = a0 + ∑ (a jcos(2πω jt) + b jsin(2πω jt) ),

j=1
onde m = (n − 1) / 2, é exato para t = 1, ⋯, n. Em particular, usando fórmulas de regressão múltipla,

¯
temos a 0 = X,
n n
2 2 2 2
aj =
n
∑ X tcos(2πω jt) = d c(ω j), b j =
n
∑ X tsin(2πω jt) = d s(ω j) ⋅
t=1 √n t=1 √n
Portanto, podemos escrever
m
¯ 2
(X t − X) =
n
∑ (d c(ω j)cos(2πω jt) + d s(ω j)sin(2πω jt) ),
j=1
para t = 1, ⋯, n. Tomando o quadrado em ambos os lados e somando obtemos
m m
¯
∑ n(X t − X) 2 = 2 ∑ (d c (ω j) + d s (ω j) ) = 2 ∑ I(ω j),
2 2
t=1 j=1 j=1
usando os resultados do Exercício IV.1.
Assim, particionamos a soma dos quadrados em componentes harmônicos representados pela freqüência
ω j com o periodograma, I(ω j), sendo a regressão quadrada média. Isso leva à tabela ANOVA para n
ímpar:
Fonte g.l. Soma de Quadrados Quadrados Médios

ω1 2 2I(ω 1) I(ω 1)
ω2 2 2I(ω 2) I(ω 2)
⋮ ⋮ ⋮ ⋮
ωm 2 2I(ω m) I(ω m)
n
¯
Total n − r ∑ (X t − X) 2
t=1
O seguinte é um exemplo R para ajudar a explicar este conceito. Consideramos n = 5 observações

dadas por x 1 = 1, x 2 = 2, x 3 = 3, x 4 = 2 e x 5 = 1. Observe que os dados completam um ciclo, mas não em
uma rota sinusoidal. Assim, devemos esperar que o componente ω 1 = 1 / 5 seja relativamente grande,
mas não exaustivo, e que o componente ω 2 = 2 / 5 seja pequeno.
> x = c(1, 2, 3, 2, 1)
> c1 = cos(2*pi*1:5*1/5); s1 = sin(2*pi*1:5*1/5)
> c2 = cos(2*pi*1:5*2/5); s2 = sin(2*pi*1:5*2/5)
> omega1 = cbind(c1, s1); omega2 = cbind(c2, s2)
> anova(lm(x~omega1+omega2)) # ANOVA Table
Analysis of Variance Table
Response: x
Df Sum Sq Mean Sq F value Pr(>F)
omega1 2 2.74164 1.37082
omega2 2 0.05836 0.02918
Residuals 0 0.00000
> Mod(fft(x))^2/5 # o periodograma
[1] 16.20000000 1.37082039 0.02917961 0.02917961 1.37082039
# I(0) I(1/5) I(2/5) I(3/5) I(4/5)
¯2
Observe que I(0) = nx = 5 × 1.8 2 = 16.2. Além disso, a soma dos quadrados associados aos resíduos (SSE)
é zero, indicando um ajuste exato.
Exemplo IV.11. Análise espectral como Análise de Componentes Principais.
Também é possível pensar em análise espectral como uma Análise de Componentes Principais. Na Seção
C.5, mostramos que a densidade espectral pode ser considerada como os autovalores aproximados da
matriz de covariância de um processo estacionário. Se X = (X 1, ⋯, X n) são n valores de uma série
temporal de média zero X t com densidade espectral f (ω), então
X
( )
γ(0) γ(1) ⋯ γ(n − 1)
γ(1) γ(0) ⋯ γ(n − 2)
Cov(X) = Γ n = ⋅
⋮ ⋮ ⋱ ⋮
γ(n − 1) γ(n − 2) ⋯ γ(0)
Para n suficientemente grande, os autovalores de Γ n são
A j ≈ f(ω j) = ∑ γ(h)e − 2π i hj / n,
h= −∞
com autovetores aproximados
1
∗
gj =
√n
(e − 2π i 0j / n, e − 2π i 1j / n, ⋯, e − 2π i ( n − 1 ) j / n ),
para j = 0, 1, ⋯, n − 1. Considerando G ser a matriz complexa com colunas g j, então o vetor complexo
Y = G ∗ X tem elementos que são as DFTs,
n
1
yj = ∑ X te − 2π i tj / n,
√n t = 1
para j = 0, 1, ⋯, n − 1. Neste caso, os elementos de Y são variáveis aleatórias complexas
assintoticamente não correlacionadas, com média zero e variância f(ω j). Além disso, X pode ser
recuperado como X = GY, de modo que
n−1
1
Xt = ∑ Y je 2π i tj / n ⋅
√n j = 0
Agora estamos prontos para apresentar algumas propriedades em amostras grandes do periodograma.
Primeiro, seja μ a média de um processo estacionário X t com função de autocovariância absolutamente
convergente γ(h) e densidade espectral f(ω). Podemos escrever
n−1 n− |h|
I(ω j) = ∑ ∑ (X t + | h | − μ )(X t − μ )e − 2π i ω ) jh
h= − (n−1) t=1
onde ω j é uma frequência fundamental diferente de zero. Tomando esperança acima obtemos
n−1 n− |h|
E (I(ω j) ) = ∑
h= − (n−1) t=1
∑ ( n − |h|
n ) γ(h)e − 2π i ω ) jh ⋅
Para qualquer dado ω ≠ 0, escolha uma sequência de frequências fundamentais ω j : n → ∞, isto significa que
ω j : n = j n / n, onde {j n} é uma seqëência de inteiros escolhidos de modo que j n / n é a frequência de Fourier mais
1
próxima de ω; consequentemente | j n / n − ω | ≤ 2n . Disto, segue que, c/quando n → ∞
∞ ∞

E (I(ω j) ) → f(ω) = ∑ ∑ γ(h)e − 2π i hω ⋅
h = − ∞h = − ∞
¯2
Da Definição IV.2, temos I(0) = nX , então o resultado análogo deste anterior para o caso ω = 0 é
¯
E (I(0) ) − nμ 2 = nVar (X ) → f(0), quando n → ∞ ⋅
Em outras palavras, sob a soma absoluta de γ(h), a densidade espectral é a média de longo prazo do
periodograma.
Propriedades assintóticas adicionais podem ser estabelecidas sob a condição de que a função de
autocovariância satisfaça
θ = ∑ | h | | γ(h) | < ∞ ⋅
h= −∞
Primeiro, notamos que cálculos diretos levam a
n n
1
Cov (d c(ω j) , d c(ω k) ) =
n
∑ ∑ γ(s − t)cos(2πω js)cos(2πω kt),
s = 1t = 1
n n
1
Cov (d c(ω j) , d s(ω k) ) =
n
∑ ∑ γ(s − t)cos(2πω js)sin(2πω kt),
s = 1t = 1
n n
1
Cov (d s(ω j) , d s(ω k) ) = ∑ ∑ γ(s − t)sin(2πω js)sin(2πω kt),
n s = 1t = 1
onde as variâncias são obtidas configurando ω j = ω k nos termos acima. No Apêndice C, Seção C.2,
mostramos que os termos os termos acima possuem propriedades interessantes sob a suposição de que θ < 0
é válida. Em particular, para ω j, ω k ≠ 0 ou 1 / 2,
{
1
2
f(ω j) + ϵ n ωj = ωk
Cov (d c(ω j) , d c(ω k) ) = Cov (d s(ω j) , d s(ω k) ) = ,
ϵn ωj ≠ ωk
Cov (d c(ω j) , d s(ω k) ) = ϵ n,
onde o termo de erro ϵ n nas aproximações podem ser limitados,
θ
| ϵn | ≤ ,
n
e θ dado como anteriormente. Se ω j = ω k = 0 ou 1 / 2, o multiplicador 1/2 desaparece; observe que

d s(0) = d s(1 / 2) = 0, então Cov (d s(ω j), d s(ω k) ) dado acima não se aplica nestes casos.
Exemplo IV.12. Covariância das transformações seno e cosseno.
Para a série de médias móveis de três pontos do Exemplo I.9 e n = 256 observações, a matriz de
covariância teórica do vetor D = (d c(ω 26), d s(ω 26), d c(ω 27), d s(ω 27) ) ⊤ é
( )
0.3752 − 0.0009 − 0.0022 − 0.0010
− 0.0009 0.3777 − 0.0009 0.0003
Cov(D) = ⋅
− 0.0022 − 0.0009 0.3667 − 0.0010
− 0.0010 0.0003 − 0.0010 0.3692
Os elementos diagonais podem ser comparados com metade dos valores espectrais teóricos de
1 1
2
f(ω 26) = 0.3774 para o espectro na frequência ω 26 = 26 / 256 e de 2 f(ω 27) = 0.3689 para o espectro em
ω 27 = 27 / 256. Assim, as transformações de cosseno e seno produzem variáveis quase não
correlacionadas com variâncias aproximadamente iguais a metade do espectro teórico. Para este caso
particular, o limite uniforme é determinado de θ = 8 / 9, rendendo | ϵ 256 | ≤ 0.0035 para o limite no erro
de aproximação.
Se X t forem independentes identicamente distribuídas com média zero e variância σ 2 e utilizando o Teorema
do Limite Central, obtemos que
d c(ω j : n) ∼ N(0, σ 2 / 2) e d s(ω j : n) ∼ N(0, σ 2 / 2),
aproximadamente, de forma conjunta e independente, e independente de d c(ω k : n) e d s(ω k : n) desde que

ω j : n → ω 1 e ω k : n → ω 2 sendo que 0 < ω ≠ ω 2 < 1 / 2. Lembremos que se {Y j} forem variáveis aleatórias
independentes identicamente distribuídas de médai zero e variância σ 2 e {a j} uma sequência de constantes
n
1
para os quais 2
∑ 2
aj → ∞ quando n → ∞, então
max 1 ≤ j ≤ na j j = 1
n n
∑ a jY j ∼ N (0, ∑ a 2j ),
j=1 j=1
assintoticamente, veja a Definição A.5.
Notamos que neste caso f (ω) = σ 2. Em vista do resultado anterior, segue-se imediatamente que, quando
X
n→∞
2 D 2 P
2 2
I(ω j : n) ⟶ χ 2 e I(ω k : n) ⟶ χ 2,
σ2 σ2
2
com I(ω j : n) e I(ω k : n) sendo assintoticamente independentes, onde χ v denota uma variável aleatória qui-
quadrado com ν graus de liberdade. Se o processo também for gaussiano, as declarações acima serão
verdadeiras para qualquer tamanho de amostra.
Usando a teoria do limite central da Seção C.2, é razoavelmente fácil estender os resultados do caso
independentes igualmente distribuídas para o caso de um processo linear.
Teorema IV.6. Distribuição das ordenadas do periodograma.
Seja
Xt = ∑ ψ jW t − j,
j= −∞
sendo que ∑ | ψ j | < ∞ e W t variáveis aleatórias independentes e igualmente distribuídos de média zero e
j= −∞
∞
variância σ
2
W
satisfazendo que θ = ∑ | h | | γ(h) | < ∞. Então, para qualquer coleção de m distintas
h= −∞
frequências ω j ∈ (0, 1 / 2), com ω j : n → ω j
I(ω j : n) D
2
2 ⟶ χ 2,
f(ω j)
independentes e igualmente distribuídas desde que f(ω j) > 0, para j = 1, ⋯, m.
Demonstração Este resultado é indicado mais precisamente no Teorema C.7 ▉
Outras abordagens para a normalidade em amostras grandes das ordenadas do periodograma são em termos
de cumulantes, como em Brillinger (1981) ou em termos de condições de mistura, como em Rosenblatt
(1956a). Aqui, adotamos a abordagem usada por Hannan (1970), Fuller (1996) e Brockwell e Davis (1991).
O resultado assintótico no Teorema IV.6 pode ser usado para derivar um intervalo de confiança aproximado
2
para o espectro da maneira usual. Seja χ ν denotando a cauda de probabilidade α mais baixa para a
distribuição qui-quadrado com ν graus de liberdade; isso é,
2
P (χ ν ≤ χ nu 2(α) ) = α ⋅
Então, um intervalo de confiança aproximado de 100 × (1 − α) para a função de densidade espectral seria da
forma
2I(ω j : n) 2I(ω j : n)
2
≤ f(ω) ≤ 2
⋅
χ 2(1 − α / 2) χ 2(α / 2)
Muitas vezes, as tendências estão presentes e devem ser eliminadas antes do cálculo do periodograma. As
tendências introduzem componentes de frequência extremamente baixa no periodograma que tendem a
obscurecer a aparência em frequências mais altas. Por esta razão, é usualmente convencional centralizar os
¯
dados antes de uma análise espectral usando dados ajustados à média da forma X t − X para eliminar o
componente zero ou d − c ou usar dados retificados da forma X t − β̂ 1 − β̂ 2t para eliminar o termo que será
considerado meio ciclo pela análise espectral. Observe que as regressões polinomiais de ordem mais alta em t
ou suavização não paramétrica (filtragem linear) podem ser usadas nos casos em que a tendência é não-
linear.
Como indicado anteriormente, muitas vezes é conveniente calcular os DFTs e, portanto, o periodograma,
usando o algoritmo da transformação rápida de Fourier (FFT). A FFT utiliza um número de redundâncias no
cálculo da DFT quando n é altamente composto; isto é, um inteiro com muitos fatores de 2, 3 ou 5, sendo o
melhor caso quando n = 2 p é um fator de 2. Detalhes podem ser encontrados em Cooley e Tukey (1965). Para
acomodar essa propriedade, podemos preencher os dados centralizados ou retificados de comprimento n até
c c c
o próximo composto altamente inteiro n ′ adicionando zeros, ou seja, definindo X n + 1 = X n + 2 = ⋯ = X n ′ = 0, onde
c
X t denota os dados centralizados. Isto significa que as ordenadas da frequência fundamental serão ω j = l / n ′
em vez de j / n. Ilustramos considerando o periodograma das séries de IOS e Recrutamento mostradas na
figura do Exemplo I.5. Lembre-se de que são séries mensais e n = 453 meses. Para encontrar n ′ em R, use o
comando nextn(453) para ver que n ′ = 480 será usado nas análises espectrais por padrão.
Exemplo IV.13. Periodograma da série SOI e Recrutamento.
A figura abaixo mostra os periodogramas de cada série, onde o eixo da frequência é rotulado em
múltiplos de ∆ = 1 / 12. Como indicado anteriormente, os dados centralizados foram preenchidos com
uma série de comprimento de 480. Notamos um pico de banda estreita no óbvio ciclo anual (12 meses)
ω = 1 ∆ = 1 / 12. Além disso, há uma potência considerável em uma banda larga nas frequências mais
1
baixas, centradas no ciclo de quatro anos (48 meses) ω = 4 ∆ = 1 / 48 representando um possível efeito
El Niño. Essa atividade de banda larga sugere que o possível ciclo El Niño é irregular, mas tende
a ser em torno de quatro anos em média. Continuaremos abordando esse problema à medida que
avançamos para análises mais sofisticadas.
2 2
Observando que χ 2(0.025) = 0.05 e χ 2(0.975) = 7.38, podemos obter intervalos de confiança aproximados de
95% para as frequências de interesse. Por exemplo, o periodograma da série SOI é I SOI(1 / 12) = 0.97 no
ciclo anual. Um intervalo de confiança aproximado de 95% para o espectro f SOI(1 / 12) é então
(2
0.97
7.38
,2
0.97
0.05 ) = (0.26, 38.4),
que é muito grande para ser de muito uso. Notamos, entretanto, que o valor mais baixo de 0.26 é
maior do que qualquer outro periodograma ordenado, então é seguro dizer que este valor é
significativo. Por outro lado, um intervalo de confiança de 95% para o espectro no ciclo de quatro
anos, f SOI(1 / 48) é
(2
0.05
7.38
,2
0.05
0.05 ) = (0.01, 2.12),
que novamente é extremamente amplo e com o qual somos incapazes de estabelecer significância do
pico.
Figura IV.5: Periodograma das séries SOI e Recrutamento, n = 453 e n ′ = 480, onde o eixo da
frequência é rotulado em múltiplos de ∆ = 1 / 12. Observe os picos comuns em ω = 1 ∆ = 1 / 12
1
ou um ciclo por ano (12 meses) e alguns valores maiores próximos ω = 4 ∆ = 1 / 48 ou um
ciclo a cada quatro anos (48 meses).
Mostramos agora os comandos R que podem ser usados para reproduzir a figura acima. Para calcular e
representar graficamente o periodograma, usamos o comando mvspec disponível em astsa. Notamos que
o valor de ∆ é o recíproco do valor frequency para os dados de um objeto de série temporal. Se os
dados não são um objeto de série temporal, frequency é definida como 1. Além disso, definimos log
= "no" porque o periodograma é plotado na escala log 10 por padrão. A figura acima exibe uma largura
de banda ou bandwidth. Vamos discutir a largura de banda na próxima seção, então ignore isso por
enquanto.
> library(astsa)
> par(mfrow=c(2,1))
> soi.per = mvspec(soi, log="no")
> abline(v=1/4, lty=2)
> rec.per = mvspec(rec, log="no")
> abline(v=1/4, lty=2)
O exemplo anterior deixou claro que o periodograma como um estimador é suscetível a grandes incertezas e
precisamos encontrar uma maneira de reduzir a variância. Não surpreendentemente, este resultado segue se
considerar no Teorema IV.6 o fato de que, para qualquer n, o periodograma é baseado em apenas duas
observações. Lembre-se de que a esperança e a variância da distribuição χ 2(ν) são ν e ν 2, respectivamente.
1
Assim, usando o resultado do Teorema IV.6, temos I(ω) ∼ 2 f(ω)χ 2(2), implicando que
E (I(ω) ) ≈ f(ω) e Var (I(ω) ) ≈ f(ω) 2 ⋅
Consequentemente, Var (I(ω) ) ↛ 0 quando n → ∞ e, portanto, o periodograma não é um estimador consistente

da densidade espectral. A solução para este dilema pode ser resolvida suavizando o periodograma.

IV.4 Estimação espectral não paramétrica
Para continuar a discussão que terminou a seção anterior, introduzimos uma banda de frequência B de L ≪ n
frequências fundamentais contíguas, centradas em torno da frequência ω j = j / n, que é escolhido perto de uma
frequência de interesse ω. Para frequências da forma ω ∗ = ω j + k / n, seja
B = { ω ∗ : ωj −
m
n
≤ ω ∗ ≤ ωj +
m
n
, }
onde
L = 2m + 1
é um número ímpar, escolhido de tal forma que os valores espectrais no intervalo B,
f(ω j + k / n), k = − m, ⋯, 0, ⋯, m
são aproximadamente iguais a f(ω). Essa estrutura pode ser realizada para tamanhos de amostra grandes,
conforme mostrado formalmente na Seção C.2. Os valores do espectro nesta faixa devem ser relativamente
constantes para que os espectros suavizados definidos abaixo serem bons estimadores. Por exemplo, para
ver uma pequena seção do espectro AR(2), próximo ao pico, mostrado na figura do Exemplo IV.13, use

> arma.spec(ar=c(1,-.9), xlim=c(.15,.151), n.freq=100000)
que é exibido na figura a seguir.
Figura IV.6: Uma pequena seção, perto do pico, do espectro do modelo AR(2) mostrado na figura
do Exemplo IV.13.
Definimos agora o periodograma médio ou suavizado como a média dos valores do periodograma, digamos,
m
¯ 1
f(ω) = ∑ I(ω + k / n),
Lk= −m j
sobre a banda B. Sob a suposição de que a densidade espectral é razoavelmente constante na banda B, e em
vista da conclusão do Teorema IV.6 podemos mostrar que sob condições apropriadas, para n grande, o
2
periodograma tem distribuição aproximadamente como variáveis aleatórias independentes f(ω)χ 2 / 2, para
0 < ω < 1 / 2, contanto que mantenhamos L relativamente pequeno em relação a n. Este resultado é discutido
¯
formalmente na Seção C.2. Assim, sob essas condiçõs, L f(ω) é a soma de aproximadamente L variáveis
2
aleatórias independentes f(ω)χ 2 / 2. Daqui resulta que, para n grande
¯
L f(ω) 2
2 ∼ χ 2L ⋅
Processing math: 87% f(ω)
As condições à quais fazemos referência acima, que são suficientes, são que X t seja um processo linear, como
descrito na Proposição IV.6, com ∑ j√ | j | | ψ j | < ∞ e que W t tenha quarto momento finito.
Neste cenário, onde suavizamos o periodograma pela média simples, parece razoável chamar a largura do
intervalo de frequência definido por B,
L
B= ,
n
a largura de banda ou bandwidth. Existem muitas definições de largura de banda e uma excelente discussão
pode ser encontrada em Percival and Walden (1993, §6.7). O valor de largura de banda usado em R para
spec.pgram é baseado em Grenander (1951). A ideia básica é que a largura de banda pode estar
relacionada ao desvio padrão da distribuição de ponderação. Para a distribuição uniforme na faixa de
frequência − m / n a m / n, o desvio padrão é L / n√12, usando uma correção de continuidade. Consequentemente,
¯
no caso de f(ω), o R irá reportar uma largura de banda de L / n√12, o que equivale a dividir nossa definição por
√12. Note que no caso extremo L = n, teríamos B = 1 indicando que tudo foi usado na estimação. Nesse caso,
o R relataria uma largura de banda de 1 / √12 ≈ 0.29, o que parece perder o ponto.
O conceito de largura de banda, no entanto, torna-se mais complicado com a introdução de estimadores
espectrais que suavizam com pesos desiguais. Note que a expressão acima implica que os graus de liberdade
podem ser expressos como
2L = 2Bn,
ou o dobro do tempo de largura de banda do produto.
¯
L f(ω) 2
O resultado 2 ∼ χ 2L pode ser rearranjado para obter uma aproximação do intervalo de confiança com
f(ω)
100(1 − α) probabilidade de cobertura, da forma
¯ ¯
2L f(ω) 2L f(ω)
2
≤ f(ω) ≤ 2 ,
χ 2L(1 − α / 2) χ 2L(α / 2)
para o verdadeiro espectro f(ω).
Muitas vezes, o impacto visual de um gráfico de densidade espectral será melhorado ao traçar o logaritmo do
espectro em vez do espectro propriamente, a transformação logarítmica é a transformação estabilizadora da
variância nesta situação. Esse fenômeno pode ocorrer quando as regiões do espectro existem com picos de
interesse muito menores do que alguns dos principais componentes de potência. Tomando logaritmos no
intervalos de confiança acima, obtemos um intervalo para o logaritmo do espectro dado por
{ }
¯ ¯
log ( f(ω) ) − a , log ( f(ω) ) + b ,
L L
onde
2 2
a = − log(2L) + log (χ 2L(1 − α / 2) ) e b = log(2L) − log (χ 2L(α / 2) )
L L
não dependem de ω.
Se forem acrescentados zeros antes de calcular os estimadores espectrais precisamos ajustar os graus de
liberdade, porque não se obtém mais informações por preenchimento, e uma aproximação é substituir 2L por
2Ln / n ′ . Assim, definimos os graus de liberdade ajustados como
2Ln
df = ⋅
n′
Assim, os intervalos de confiança são
¯ ¯
df f(ω) df f(ω)
2
≤ f(ω) ≤ 2 ⋅
χ df(1 − α / 2) χ df(α / 2)
Várias suposições são feitas no cálculo dos intervalos de confiança aproximados acima, que podem não se
manter na prática. Nesses casos, pode ser razoável empregar técnicas de reamostragem, como um dos
bootstraps paramétricos propostos por Hurvich and Zeger (1987) ou um bootstrap não paramétrico proposto
por Paparoditis and Politis (1999). Para desenvolver as distribuições bootstrap, assumimos que as
transformadas discretas de Fourier contíguas em uma banda de frequências vieram todas de uma série
temporal com espectro idêntico f(ω). Isso, na verdade, é exatamente a mesma suposição feita ao derivar a
teoria de grandes amostras. Podemos, então, simplesmente re-amostrar as L transformadas diiscretas de
Fourier na banda, com a substituição, calculando uma estimativa espectral de cada amostra de bootstrap. A
distribuição amostral dos estimadores bootstrap aproxima a distribuição do estimador espectral não
paramétrico. Para mais detalhes, incluindo as propriedades teóricas de tais estimadores, ver Paparoditis and
Politis (1999).
Antes de prosseguir, consideramos o cálculo dos periodogramas médios para as séries SOI e Recrutamento.
Exemplo IV.14. Periodograma médio para SOI e Recrutamento.
Geralmente, é uma boa idéia tentar várias larguras de banda que parecem ser compatíveis com a
forma geral geral do espectro, conforme sugerido pelo periodograma. Discutiremos esse problema com
mais detalhes após o exemplo. Os periodogramas das séries SOI e Recrutamento, previamente
calculados no gráfico do Exemplo IV.13, sugerem que a potência na frequência mais baixa do El Niño
precisa de suavização para identificar o período geral predominante. A tentativa de valores de L
leva à escolha L = 9 como um valor razoável, e o resultado é exibido na figura abaixo.
> soi.ave = mvspec(soi, kernel('daniell',4), log='no')

> abline(v=c(.25,1,2,3), lty=2)
> soi.ave$bandwidth
[1] 0.225
> rec.ave = mvspec(rec, kernel('daniell',4), log='no')
> abline(v=c(.25,1,2,3), lty=2)
> rec.ave$bandwidth
[1] 0.225
Figura IV.7: Periodograma médio da série SOI e Recrutamento n = 453, n ′ = 480, L = 9, df = 17,
1
mostrando picos comuns no período de quatro anos, ω = 4 Δ = 1 / 48 ciclos/mês, o período
anual, ω = 1Δ = 1 / 12 ciclos/mês e alguns de seus harmônicos ω = kΔ para k = 2, 3.
Os espectros suavizados mostrados fornecem um meio-termo razoável entre a versão ruidosa, mostrada
na Figura IV.5 e um espectro mais suavizado, que pode perder alguns dos picos. Um efeito
indesejável da média pode ser observado no ciclo anual ω = 1Δ, onde os picos de banda estreita que
apareceram nos periodogramas na Figura IV.5 foram achatados e espalhados para frequências
proacute;ximas. Também notamos e marcamos o aparecimento de harmônicos do ciclo anual, isto é,
frequências da forma ω = kΔ para k = 1, 2, ⋯. Os harmônicos normalmente ocorrem quando um componente
não sinusoidal periódico está presente; veja o Exemplo IV.15.
A Figura IV.7 pode ser reproduzida em R usando os seguintes comandos:
> library(astsa)
> soi.ave = mvspec(soi, kernel('daniell',4), log='no')
> abline(v=c(.25,1,2,3), lty=2)
> soi.ave$bandwidth
[1] 0.225
> rec.ave = mvspec(rec, kernel('daniell',4), log='no')
> abline(v=c(.25,1,2,3), lty=2)
> rec.ave$bandwidth
[1] 0.225
Para calcular periodogramas médios, use o kernel de Daniell e especifique m, onde L = 2m + 1 logo,
L = 9 e m = 4 neste exemplo). Explicaremos o conceito de kernel posteriormente nesta seção,
especificamente antes do Exemplo IV.16.
A largura de banda exibida 0.225 é ajustada para o fato de que a escala de frequência do gráfico é
em termos de ciclos por ano em vez de ciclos por mês. Usando que B = L / n, a largura de banda em
termos de meses é 9 / 480 = 0.01875; o valor exibido é simplesmente convertido em anos:
0.01875 × 12 = 0.225.
Os graus de liberdade ajustados são df = 2(9)(453) / 480 ≈ 17. Podemos usar este valor para os intervalos
2 2
de confiança de 95%, com χ df(0.025) = 7.56 e χ df(0.975) = 30.17. Substituindo na expressão do intervalo de
confiança fornece os intervalos na Tabela IV.1 para as duas bandas de frequência identificadas
como tendo a potência máxima.
Para examinar as duas possibilidades de potência de pico, podemos olhar para os intervalos de
confiança de 95% e ver se os limites inferiores são substancialmente maiores do que os níveis
espectrais de linha de base adjacentes.
Por exemplo, a frequência do El Niño de 48 meses tem limites inferiores que excedem os valores que
o espectro teria se houvesse simplesmente uma função espectral subjacente suave sem os picos. A
distribuição relativa de potência nas frequências é diferente, com o SOI tendo menos potência na
frequência mais baixa, em relação aos períodos sazonais e a série Recrutamento tendo mais potência
na frequência mais baixa ou El Niño.
As entradas na Tabela IV.1 para SOI e REC podem ser obtidas no R da seguinte forma:
> df = soi.ave$df; df
[1] 16.9875
> U = qchisq(.025, df); U
[1] 7.555916
> L = qchisq(.975, df); L
[1] 30.17425
> soi.ave$spec[10]
[1] 0.04952026
> soi.ave$spec[40]
[1] 0.11908
> # intervalos
> df*soi.ave$spec[10]/L
[1] 0.02787891
> df*soi.ave$spec[10]/U
[1] 0.1113333
> df*soi.ave$spec[40]/L
[1] 0.06703963
> df*soi.ave$spec[40]/U
[1] 0.2677201
> df = rec.ave$df; df
[1] 16.9875
> U = qchisq(.025, df); U
[1] 7.555916
> L = qchisq(.975, df); L
[1] 30.17425
> rec.ave$spec[10]
[1] 658.9607
> rec.ave$spec[40]
[1] 219.3919
> # intervalos
> df*rec.ave$spec[10]/L
[1] 370.9816
> df*rec.ave$spec[10]/U
[1] 1481.501
> df*rec.ave$spec[40]/L
[1] 123.5133
> df*rec.ave$spec[40]/U
[1] 493.2453
Tabela IV.1. Intervalos de confiança para os espectros

das séries SOI e Recrutamento.
Séries ω Período Potência Inferior Superior
SOI 1 / 48 4 anos 0.05 0.03 0.11
1 / 12 1 ano 0.12 0.07 0.27
Recrutamento 1 / 48 4 anos 6.59 3.71 14.82
× 10 2 1 / 12 1 ano 2.19 1.24 4.93
Finalmente, a Figura IV.8 mostra os periodogramas médios na Figura IV.7 plotados em uma escala
log 10. Isto pode ser obtido colocando a instrução log = "y". Observe que o gráfico padrão também
mostra um intervalo de confiança genérico. Notamos que exibir as estimativas em uma escala
logarítmica tende a enfatizar os componentes harmônicos.
Figura IV.8: Figura IV.7 com as ordenadas do periodograma médio plotadas em uma escala
log 10. A tela no canto superior direito representa um intervalo de confiança genérico de
95%, onde o a marca de escala do meio é a largura da largura de banda.
> soi.ave = mvspec(soi, kernel('daniell',4), log = "y")

> abline(v=c(.25,1,2,3), lty=2)
> soi.ave$bandwidth
[1] 0.225
> #
> rec.ave = mvspec(rec, kernel('daniell',4), log = "y")
> abline(v=c(.25,1,2,3), lty=2)
> rec.ave$bandwidth
[1] 0.225
Exemplo IV.15. Harmônicos.
No exemplo anterior, vimos que os espectros dos sinais anuais exibiam picos menores nos
harmônicos; ou seja, o espectro do sinal teve um grande pico em ω = 1Δ = 1 / 12 ciclos/mês o ciclo de
um ano e picos menores em seus harmônicos ω = kΔ para k = 2, 3, ⋯, dois, três e assim por diante,
ciclos por ano. Geralmente, esse será o caso porque a maioria dos sinais não são sinusóides
perfeitos ou perfeitamente cíclicos. Nesse caso, os harmônicos são necessários para capturar o
comportamento não senoidal do sinal. Como exemplo, considere o sinal formado na Figura IV.9 a
partir de uma sinusóide, fundamental, oscilando em dois ciclos por unidade de tempo junto com o
segundo ao sexto harmônico em amplitudes decrescentes. Em particular, o sinal foi formado como
X t = sin(2π 2t) + 0.5sin(2π 4t) + 0.4sin(2π 6t) + 0.3sin(2π 8t) + 0.2sin(2π 10t) + 0.1sin(2π 12t),
para 0 ≤ t ≤ 1. Observe que o sinal não é sinusoidal na aparência e aumenta rapidamente, em seguida,
diminui lentamente.
A Figura IV.9 pode ser gerada em R como segue:
> library(astsa)
> t = seq(0, 1, by=1/200)
> amps = c(1, .5, .4, .3, .2, .1)
> x = matrix(0, 201, 6)
> for (j in 1:6){ x[,j] = amps[j]*sin(2*pi*t*2*j) }
> x = ts(cbind(x, rowSums(x)), start=0, deltat=1/200)
> ts.plot(x, lty=c(1:6, 1), lwd=c(rep(1,6), 2), ylab="Sinusoids", col = 1:7)
> names = c("Fundamental","2nd Harmonic","3rd Harmonic","4th Harmonic", "5th
Harmonic", "6th Harmonic", "Formed Signal")
> legend("top", names, xpd = TRUE, horiz = FALSE, lty=c(1:6, 1), lwd=c(rep(1,6), 2),
col = 1:7, inset = c(1.4, 0), bty = "n", pch = c(4, 2, 15, 19), ncol = 2)
> grid()
Figura IV.9: Um sinal (linha sólida espessa) formado por uma senoide fundamental (linha
sólida fina) oscilando a dois ciclos por unidade de tempo e seus harmônicos conforme
especificado acima.
O Exemplo IV.14 aponta a necessidade de se ter algum procedimento relativamente sistemático para decidir
se os picos são significativos. A questão de decidir se um único pico é significativo geralmente repousa em
estabelecer o que poderíamos pensar como um nível de linha de base para o espectro, definido vagamente
como a forma que se esperaria ver se nenhum pico espectral estivesse presente. Geralmente, esse perfil
pode ser adivinhado observando-se a forma geral do espectro que inclui os picos; normalmente, um tipo de
nível de linha de base será aparente, com os picos parecendo emergir desse nível de linha de base. Se o
limite de confiança inferior para o valor espectral ainda for maior do que o nível da linha de base em algum
nível predeterminado de significância, podemos reivindicar esse valor de frequência como um pico
estatisticamente significativo. Para ser consistente com nossa indiferença declarada aos limites superiores,
podemos
Processing math: 87% usar um intervalo de confiança unilateral.
Um aspecto importante da interpretação da importância dos intervalos de confiança e testes envolvendo

espectros é que tipicamente, mais de uma frequência será de interesse; de modo que estaremos
potencialmente interessados em declarações simultâneas sobre toda uma coleção de frequências. Por
exemplo, seria injusto reivindicar na Tabela IV.1 as duas frequências de interesse como sendo
estatisticamente significativas e todos os outros candidatos potenciais como não significativos no nível geral
de α = 0.05. Nesse caso, seguimos a abordagem estatística usual, observando que se K afirmações S 1, S 2, ⋯, S k
são feitas em nível de significância α, ou seja, P({S k}) = 1 − α, então a probabilidade geral de todas as
afirmações serem verdadeiras satisfaz a desigualdade de Bonferroni
P({todos os S k verdadeiros}) ≥ 1 − Ka ⋅
Por esta razão, é desejável definir o nível de significância para testar cada frequência em K se houver K
frequências potenciais de interesse. Se, a priori, potencialmente K = 10 frequências forem de interesse, definir
α = 0.01 daria um nível de significância geral do limite de 0.10.
O uso dos intervalos de confiança e a necessidade de suavização requerem que tomemos uma decisão sobre
a largura de banda B na qual o espectro será essencialmente constante. Usar uma banda muito ampla
tenderá a suavizar os picos válidos nos dados quando a suposição de variância constante não for atendida ao
longo da banda. Usar uma banda muito estreita levará a intervalos de confiança tão amplos que os picos não
serão mais estatisticamente significativos. Assim, notamos que há um conflito aqui entre propriedades de
variância ou estabilidade de largura de banda, que pode ser melhorada aumentando ou diminuindo B. Uma
abordagem comum é tentar várias larguras de banda diferentes e olhar qualitativamente nos estimadores
espectrais para cada caso.
Para tratar do problema de resolução da largura de banda, deve ser evidente que o achatamento dos picos na
¯
Figura IV.7 e na Figura IV.8 foi devido ao fato de que a média simples foi usada no cálculo de f(ω). Não há
nenhuma razão particular para usar a média simples e podemos melhorar o estimador empregando uma
média ponderada, digamos
f̂(ω) = ∑ h kI(ω j + k / n),

k= −m
onde os pesos h k > 0 satisfazem ∑ h k = 1.

k= −m
Em particular, parece razoável que a resolução do estimador melhore se usarmos pesos que diminuem à
medida que a distância do peso central h 0 aumenta; voltaremos a essa ideia em breve. Para obter o
¯
periodograma médio f(ω), defina h k = L − 1, para todo k, onde L = 2m + 1. A teoria assintótica estabelecida para
¯
f(ω) ainda é válida para f̃(ω) desde que os pesos satisfaçam a condição adicional de que se m → ∞ quando
n → ∞ mas m / n → 0, então
∑ 2
hk → 0 ⋅
k= −m
Sob estas condições, quando n → ∞,
(i) E (f̂(ω) ) → f(ω),
{
f 2(ω), quando ω = λ ≠ 0, 1 / 2
1
(ii)
∑m 2 (
Cov f̂(ω), f̂(λ) ) → 0, quando ω≠λ .
k = − mh k 2
2f (ω), quando ω = λ = 0 ou 1 / 2
¯
Já vimos esses resultados no caso de f(ω), onde os pesos são constantes, h k = L − 1, caso em que
m 2
∑ k = − mh k = L − 1. As propriedades de distribuição de f̂(ω) são mais difíceis agora porque este estimador é uma
combinação linear ponderada de variáveis aleatórias χ 2 assintoticamente independentes.
( )
m −1
Uma aproximação que parece funcionar bem é substituir L por ∑ h 2k . Ou seja, defina
k= −m
( )
m −1
Lh = ∑ 2
hk
k= −m
2
e use a seguinte aproximação: se f̂ ∼ cχ ν , onde c é uma constante, então
Var (f̂ ) ≈ f 2 ∑ h k ≈ c 22ν ⋅

2
E (f̂ ) ≈ cν e
k
Resolvendo, c ≈ f ∑ kh k / 2 = f / 2L h e ν = 2 ( ∑ h k ) − 1 = 2L h. Significa que

2 2
2L hf̂(ω)
2
≈ χ 2L ⋅
f(ω) h
Em analogia a resultados anteriores, definiremos a largura de banda neste caso como
Lh
B = ⋅
n
Utilizando a aproximação anterior, obtemos um intervalo de confiança aproximado de 100(1 − α)% da forma
2L hf̂(ω) 2L hf̂(ω)
2
≤ f(ω) ≤ 2
χ 2L (1 − α / 2) χ 2L (α / 2)
h h
para o espectro verdadeiro f(ω). Se os dados forem preenchidos com n ′ , então substitua 2L h acima por
df = 2L hn / n ′ .
Uma maneira fácil de gerar os pesos em R é pelo uso repetido do kernel Daniell. Por exemplo, com m = 1 e
1 1 1
L = 2m + 1 = 3, o kernel Daniell tem pesos {h k} = { 3 , 3 , 3 }; aplicando este kernel a uma sequência de números
{u t}, produz
1 1 1
û t = u + u + u ⋅
3 t−1 3 t 3 t+1
Podemos aplicar o mesmo kernel novamente ao û t,
1 1 1
ûˆ t = û t − 1 + û t + û t + 1,
3 3 3
que simplifica para
1 2 3 2 1
ûˆ t = u t − 2 + u t − 1 + u t + u t + 1 + u t + 2 ⋅
9 9 9 9 9
1 2 1
O kernel Daniell modificado coloca meio peso nos pontos finais, então com m = 1 os pesos são {h k} = {4, 4, 4 }
e
1 2 1
û t = u + u + u ⋅
4 t−1 4 t 4 t+1
Aplicando o mesmo kernel novamente para û t rende
1 4 6 4 1
ûˆ t = ut − 2 + ut − 1 + ut + ut + 1 + u ⋅
16 16 16 16 16 t + 2
Esses coeficientes podem ser obtidos em R emitindo o comando kernel. Por exemplo,
> kernel("modified.daniell", c(1,1))
produziria os coeficientes do último exemplo. Outros kernels que estão atualmente disponíveis no R são o
kernel Dirichlet e o kernel Fejér, que discutiremos em breve.
É interessante notar que esses pesos do kernel formam uma distribuição de probabilidade. Se X e Y são
1
uniformes discretos independentes nos inteiros { − 1, 0, 1}, cada com probabilidade 3 , então a convolução X + Y
1 2 3 2 1
é discreta nos inteiros { − 2, − 1, 0, 1, 2} com as probabilidades correspondentes { 9 , 9 , 9 , 9 , 9 }.

Exemplo IV.16. Periodograma suavizado para SOI e Recrutamento.
Neste exemplo, estimamos os espectros das séries SOI e Recrutamento usando a estimativa do
periodograma suavizado em f̂(ω). Usamos um kernel Daniell modificado duas vezes, com m = 3 nas duas
m
vezes. Isso resulta em L h = 1 / ∑

2
h k = 9.232, que é próximo ao valor de L = 9 usado no Exemplo IV.14.
k= −m
Nesse caso, a largura de banda é B = 9.232 / 480 = 0.019 e os graus de liberdade modificados são
df = 2L h453 / 480 = 17.43.
Os pesos h k, podem ser obtidos e representados graficamente em R da seguinte forma:
> library(astsa)
> kernel("modified.daniell", c(3,3))
mDaniell(3,3)
coef[-6] = 0.006944
coef[-5] = 0.027778
coef[-4] = 0.055556
coef[-3] = 0.083333
coef[-2] = 0.111111
coef[-1] = 0.138889
coef[ 0] = 0.152778
coef[ 1] = 0.138889
coef[ 2] = 0.111111
coef[ 3] = 0.083333
coef[ 4] = 0.055556
coef[ 5] = 0.027778
coef[ 6] = 0.006944
> plot(kernel("modified.daniell", c(3,3)))
> grid()
As estimativas espectrais resultantes podem ser vistas na Figura IV.10 e notamos que as
estimativas são mais atraentes do que as da Figura IV.7. A Figura IV.10 foi gerada em R como
segue; também mostramos como obter a largura de banda associada e os graus de liberdade.
> k = kernel("modified.daniell", c(3,3))

> soi.smo = mvspec(soi, kernel=k, taper=.1, log="no")
> abline(v=c(.25,1), lty=2)
> df = soi.smo$df; df
[1] 15.61029
> soi.smo$bandwidth # B = 0.2308103
[1] 0.2308103
Processing math: 87% > mtext("1/4", side=1, at=1/4)

> rec.smo = mvspec(rec, kernel=k, taper=.1, log="no")
> abline(v=c(.25,1), lty=2)
> df = rec.smo$df; df
[1] 15.61029
> rec.smo$bandwidth # B = 0.2308103
[1] 0.2308103
> mtext("1/4", side=1, at=1/4)
Figura IV.10: Estimativas espectrais suavizadas (afiladas) das séries SOI e Recrutamento;
consulte o Exemplo IV.16 para obter detalhes.
Observe que uma redução gradual foi aplicada no processo de estima¸ão; discutiremos a redução
gradual na próxima parte. A reemissão dos comandos mvspec com log="no" removido resultará em uma
figura semelhante à Figura IV.8. Finalmente, mencionamos que o kernel de Daniell modificado é
usado por padrão e uma maneira mais fácil de obter soi.smo é emitir o comando:
> soi.smo = mvspec(soi, taper = .1, spans = c (7,7))
Observe que spans é um vetor de inteiros ímpares, dados em termos de L = 2m + 1 em vez de m.
Tem havido muitas tentativas de lidar com o problema de alisar o periodograma de maneira automática; uma
referência anterior é Wahba (1980). Fica evidente a partir do Exemplo IV.16 que a largura de banda de
suavização para o comportamento do El Niño de banda larga (perto do ciclo de 4 anos), deve ser muito maior
do que a largura de banda para o ciclo anual (o ciclo de 1 ano). Consequentemente, talvez seja melhor
realizar a suavização adaptativa automática para estimar o espectro. Referimos os leitores interessados a Fan
and Kreutzberger (1998) e as inúmeras referências contidas nele.
Redução gradual (Tapering)
Agora estamos prontos para introduzir o conceito de redução gradual (tapering); uma discussão mais
detalhada pode ser encontrada em Bloomfield (2000). Suponha que X t seja um processo estacionário de méia
zero com densidade espectral f (ω). Se substituírmos a série original pela série reduzida
X
Y t = h tX t,
para t = 1, 2, ⋯, n, usando a Transformada Discreta de Fourier (DFT) modificada
n
1
d (ω j) = ∑ h tX te − 2π iω jt
Y nt=1
e fazendo I (ω j = | d (ω j) | 2, obtemos que

Y Y
E(I (ω j)) =
Y ∫ 2− 1 W n(ω j − ω)f X(ω)dω,
2
onde
W n(ω) = | H n(ω) | 2
n
1
H n(ω) = ∑ h te − 2π iωt ⋅
√n t = 1
O valor W n(ω) é denominado janela espectral porque ele determina qual parte da densidade espectral f (ω)
X
está sendo vista pelo estimador I (ω j) em média. No caso em que h t = 1 para todo t, I (ω j) = I (ω j) é
Y Y X
simplesmente o periodograma dos dados e a janela é
sin 2(nπω)
W n(ω) = ,
nsin 2(πω)
com W n(0) = n, que é conhecido como kernel de Fejér ou kernel Bartlett modificado.
Se considerarmos o periodograma médio
m
¯ 1
f (ω) =
X Lk= −m
∑ I (ω j + k / n),
X
a janela W n(ω), em E(I (ω)), assumirá a forma

Y
m
1 sin 2 (nπ(ω + k / n) )
W n(ω) = ∑
nL k = − m sin 2 (π(ω + k / n) )
⋅
Os cones geralmente têm uma forma que realça o centro dos dados em relação às extremidades, como um
sino cosseno da forma
( ( ))
¯
2π(t − t)
h t = 0.5 1 + cos ,
n
¯
onde t = (n + 1) / 2, preferido por Blackman and Tukey (1959). A forma desse cone é mostrada na inserção da
Figura IV.12.
Na Figura IV.11, traçamos as formas de duas janelas W n(ω), para n = 480 e L = 9, quando
m 2
1 sin (nπ(ω + k / n) )
(i) h t = 1, caso em que W n(ω) = ∑
nL k = − m sin 2 (π(ω + k / n) )
se aplica, e
( ( ))
¯
2π(t − t)
(ii) h t é o afilamento do cosseno em h t = 0.5 1 + cos .
n
Em ambos os casos, a largura de banda prevista deve ser B = 9 / 480 = 0.01875 ciclos por ponto, o que
corresponde à “largura” das janelas mostradas na Figura IV.11. Ambas as janelas produzem um espectro
médio integrado sobre esta banda, mas a janela afunilada nos painéis superiores mostra ondulações
consideráveissobre a banda e fora da banda.
As ondulações fora da banda são chamadas de lóbulos laterais e tendem a introduzir frequências de fora do
intervalo que podem contaminar a estimativa espectral desejada dentro da banda. Por exemplo, uma grande
faixa dinâmica para os valores no espectro introduz espectros em intervalos de frequência contíguos várias
ordens de magnitude maiores do que o valor no intervalo de interesse. Esse efeito às vezes é chamado de
vazamento. A Figura IV.11 enfatiza a supressão dos lóbulos laterais no kernel de Fejér quando uma
conicidade cosseno é usada.
The Pulpit Rock [1]
Figura IV.11: Janela Fejér média (linha superior) e a janela cosseno cônica correspondente (linha
inferior) para L = 9; n = 480. As marcas de tiques extras no eixo horizontal dos gráficos à esquerda
exibem a largura de banda prevista, B = 9 / 480 = 0.01875.
Exemplo IV.17. O efeito da redução gradual da série SOI.
As estimativas no Exemplo IV.16 foram obtidas diminuindo os 10% superior e inferior dos dados.
Neste exemplo, examinamos o efeito do tapering na estimativa do espectro da série SOI, os
resultados para a série de Recrutamento são semelhantes. A Figura IV.12 mostra duas estimativas
espectrais mostradas em uma escala logarítmica. A linha tracejada na Figura IV.12 mostra a
estimativa sem qualquer redução. A linha sólida mostra o resultado com afilamento total. Observe
que o espectro cônico faz um trabalho melhor em separar o ciclo anual ω = 1 e o ciclo El Niño
ω = 1 / 4.
A seguinte sessão R foi usada para gerar a Figura IV.12. Observamos que, por padrão, o mvspec não
faz a redução gradual. Para a gerarmos a redução gradual completa, usamos o argumento taper = 0.5
na instrução mvspec para diminuir 50% de cada extremidade dos dados; qualquer valor entre 0 e 0.5
é aceitável.
No Exemplo IV.16, usamos taper = 0.1.
> s0 = mvspec(soi, spans=c(7,7), plot=FALSE) # no taper
Processing math: 87% > s50 = mvspec(soi, spans=c(7,7), taper=.5, plot=FALSE) # full taper
> plot(s50$freq, s50$spec, log="y", type="l", ylab="spectrum",
+ xlab="frequency") # solid line
> lines(s0$freq, s0$spec, lty=2) # dashed line
> abline(v=1/4, lty=2, lwd=2)
> mtext("1/4", side=1, at=1/4)
> arrows(1.5,0.045,0.78,0.009, length = 0.1, col = "red", lwd = 2)
> arrows(1.5,0.045,1.23,0.007, length = 0.1, col = "red", lwd = 2)
> text(1.5,0.05, labels = "vazamento")
> grid()
> par(fig = c(.65, 1, .65, 1), new = TRUE) # the insert
> x = seq(-0.5,0.5,by=1/200)
> ht = 0.5*(1+cos(2*pi*(x-mean(x))/n))
Figura IV.12: Estimativas espectrais suavizadas do SOI sem afilamento (linha tracejada) e
com afilamento total (linha contínua); veja o Exemplo IV.17. A inserção mostra uma
¯
conicidade completa em sino, com eixo horizontal (t − t) / n, para t = 1, ⋯, n.
Encerramos esta seção com uma breve discussão sobre os estimadores da janela de latência. Primeiro,
considere o periodograma I(ω j), que foi mostrado acima como sendo
I(ω j) = ∑ γ̂(h)e − 2π iω jh ⋅
|h| <n
Assim, podemos escrever
f̂(ω) = ∑ h kI(ω j + k / n) = ∑ hk ∑ γ̂(h)e − 2π i ( ω j + k / n ) h

|h| ≤n |h| ≤n |h| <n
= ∑ g(h / n)γ̂(h)e − 2π iω jh,

|h| <n
onde
g(h / n) = ∑ h ke − 2π ikh / n ⋅
|h| ≤m
A equação acima sugere estimadores da forma
f̃(ω) = ∑ w(h / r)γ̂(h)e − 2π iωh

|h| ≤r
onde w( ⋅ ) é uma função de peso, chamada janela de latência, que satisfaz
(i) w(0) = 1.
Processing math: 87% (b) | w(x) | ≤ 1 e w(x) = 0 para | x | > 1.
(iii) w(x) = w( − x).
Observe que se w(x) = 1 para | x | < 1 e r = n, então f̃(ω j) = I(ω j), o periodograma. Este resultado indica que o
problema com o periodograma como um estimador da densidade espectral é que ele dá muito peso aos
valores de γ̂(h) quando h é grande e, portanto, não é confiável, por exemplo, há apenas um par de
observações usados para estimar γ̂(n − 1), e assim por diante. A janela de suavização é definida sendo
W(ω) = ∑ w(h / r)e − 2π iωh,

h= −r
e determina qual parte do periodograma será usado para formar a estimativa de f(ω).
A teoria assintótica para f̂(ω) é válida para f̃(ω) nas mesmas condições e desde que r → ∞ quando n → ∞ mas
com r / n → 0. Ou seja,
E (f̃(ω) ) → f(ω),
n 1
Cov (f̃(ω), f̃(λ) ) → f 2(ω)∫ − 1w 2(x)dx, ω = λ ≠ 0, 1 / 2 ⋅
r
Acima substitua f 2(ω) por 0 se ω ≠ λ e por 2f 2(ω) se ω = λ = 0 ou 1 / 2.
Muitos autores desenvolveram várias janelas e Brillinger (2001) e Brockwell and Davis (1991) são boas
fontes de informações detalhadas sobre este tópico.
IV.5 Estimação espectral paramétrica
Os métodos da seção anterior levam ao que é geralmente referido como estimadores espectrais não
paramétricos porque nenhuma suposição é feita sobre os parâmetros de forma da densidade espectral. No
Teorema IV.4, exibimos o espectro de um processo ARMA e podemos considerar basear um estimador
espectral nesta função, substituindo as estimativas dos parâmetros de um ARMA(p, q) ajustado nos dados na
fórmula para a densidade espectral f (ω) dada no Teorema IV.4.
X
Esse estimador é chamado de estimador paramétrico espectral. Por conveniência, um estimador espectral
paramétrico é obtido ajustando um modelo AR(p) aos dados, onde a ordem p é determinada por um dos
critérios de seleção, como AIC, AICc e BIC, definidos anteriormente. Estimadores espectrais paramétricos
autoregressivos muitas vezes têm resolução superior em problemas quando vários picos espectrais estreitos
e próximos estão presentes e são preferidos por engenheiros para uma ampla variedade de problemas (ver
Kay, 1988). O desenvolvimento de estimadores espectrais autorregressivos foram resumidos por Parzen
(1983).
2
Sejam ϕ̂ 1, ϕ̂ 2, ⋯, ϕ̂ p e σ̂ os estimadores do modelo AR(p) ajustado à X t, então segundo o Teorema IV.4, uma
W
estimativa espectral paramétrica de f (ω) é obtida substituindo essas estimativas na expressão do teorema
X
mencionado, ou seja,
2
σ̂
W
f̂ (ω) = ,
X
| ϕ̂(e − 2πiω) | 2
onde
ϕ̂(z) = 1 − ϕ̂ 1z − ϕ̂ 2z 2 − ⋯ − ϕ̂ pz p ⋅
A distribuição assintótica do estimador espectral autoregressivo foi obtida por Berk (1974) nas condições
p → ∞, p 3 / n → 0 quando p, n → ∞, que pode ser muito grave para a maioria das aplica¸ões. Os resultados
limites implicam em um intervalo de confiança da forma
f̂ (ω) f̂ (ω)
X X
≤ f (ω) ≤ ,
(1 + Cz α / 2 ) X
(1 − Cz α / 2 )
onde C = √2p / n e z α / 2 é o quantil α / 2 superior da distribuição normal padrão.
Se a distribuição amostral deve ser verificada, sugerimos a aplicação do estimador bootstrap para obter a
distribuição amostral de f̂ (ω) usando um procedimento semelhante ao usado para p = 1 no Exemplo III.36.
X
Uma alternativa para séries autoregressivas de ordem superior é colocar o modelo AR(p) na forma de espaço
de estado e usar o procedimento de bootstrap discutido na Seção VI.7.
Um fato interessante sobre os espectros racionais da forma descritos no Teorema IV.4 é que qualquer
densidade espectral pode ser aproximada, arbitrariamente próxima, pelo espectro de um processo AR.
Teorema IV.7. Aproximação espectral de um processo AR.
Seja g(ω) a densidade espectral de um processo estacionário. Então, dado ϵ > 0, há uma série temporal
com a representação
Xt = ∑ ϕ kX t − k + W t,
k=1
2
onde W t é um ruído branco com variância σ , tal que,
W
| f X(ω) − g(ω) | <ϵ ∀ ω ∈ [ − 1 / 2, 1 / 2] ⋅
Além disso, p é finito e as raízes de ϕ(z) = ∑ ϕ kz k estão fora do círculo unitário.

k=1
Demonstração
1 1
Se g(ω) = 0, então p = 0 e σ = 0. Quando g(ω) > 0 sobre alguns ω ∈
W
( − 2 , 2 ), seja ϵ > 0 e definamos
d(ω) =
{ g − 1(ω) caso
2/ϵ caso
g(ω) > ϵ / 2,
g(ω) ≤ ϵ / 2,
de modo que d − 1(ω) = max {g(ω), ϵ / 2}. Definamos G = max ω{g(ω)} e seja 0 < δ < ϵ (G(2G + ϵ) ) − 1.
Definamos a soma S n (d(ω) ) = ∑ < d, e j > e j(ω) onde e j(ω) = e 2π i jω e < d, e j >= ∫ 2− 1 d(ω)e − 2π i jωdω. Agora definimos
|j| ≤n 2
a soma Cesaro
m−1
1
C m(ω) = ∑ S (d(ω) ),
m n=0 n
|j|
que é uma média cumulativa de S n( ⋅ ). Nesse caso C m(ω) = ∑ c je − 2π i jω onde c j = (1 − m ) < d, e j > . A soma
|j| ≤m
1 1
Cesaro converge uniformemente em ( − 2 , 2 ) para d ∈ L 2, consequentemente, existe um p finito tal que
|∑
|j| ≤p
|
c je − 2π i jω − d(ω) < δ para todo ω∈
1 1
( − 2, 2 ) ⋅
Observe que C p(ω) é uma densidade espectral. Na verdade, é a densidade espectral de um processo MA(p)
com γ(h) = c h para | h | ≤ p e γ(h) = 0 para | h | > p; pode-se verificar que γ(h) definido desta forma é definido não
negativo. Portanto, é um processo MA(p) invertível, digamos
Y t = U t + α 1U t − 1 + ⋯ + α pU t − p,
2
onde U t ∼ N n(0, σ ) e α(z) tem raízes fora do círculo unitário. Por isso,
U
C p(ω) = ∑ c je − 2π i jω = σ 2 | α(e − 2π i ω) | 2
U
|j| ≤p
| 2
|
σ | α(e − 2π i ω) | 2 − d(ω) < δ < ϵ (G(2G + ϵ) ) − 1 = ϵ ∗ ⋅
U
2 − 2π i ω 2 −1
Definamos agora f (ω) = (σ | α(e )| ) . Mostraremos que | f (ω) − g(ω) | < ϵ, caso em que o resultado segue
X U X
2 −2
com α 1, ⋯, α p sendo estes os coeficientes AR(p) exigidos e σ = σ sendo a variância do ruído. Considere que
W U
| f (ω) − g(ω) | ≤ | f (ω) − d − 1(ω) | + | d − 1(ω) − g(ω) | < | f (ω) − d − 1(ω) | + ϵ / 2 ⋅

X X X
Também
| f (ω) − d − 1(ω) |
X
= | 2
σ | α(e − 2π i ω) | − 2 − d − 1(ω)
W |
= | σ
−2
W | |
2
| α(e − 2π i ω) | 2 − d(ω) × σ | α(e − 2π i ω) | − 2 − d − 1(ω)
W |
2
< δσ | α(e − 2π i ω) | − 2G ⋅
W
Mas
−2
ϵ ∗ − d(ω) < σ | α(e − 2π i ω) | 2 < ϵ ∗ + d(ω),
W
de maneira que
1 1 1
σ 2 | α(e − 2π i ω) | − 2 < < −1
= = G + ϵ/2 ⋅
W ∗
ϵ − d(ω) ϵ −G∗
ϵ (G(2G + ϵ) ) − 1 − G − 1
Agora temos que
| f (ω) − d − 1(ω) | < ϵ (G(2G + ϵ) ) − 1G + ϵ / 2G = ϵ / 2 ⋅

X
Finalmente,
| f (ω) − g(ω) | < ϵ / 2 + ϵ / 2 = ϵ,

X
como era para ser mostrado ▉
Uma desvantagem desta propriedade é que ela não nos diz quão grande p deve ser antes que a aproximação
seja razoável; em algumas situações, p pode ser extremamente grande. Este teorema permance válido para
processos MA e ARMA. Mostramos a técnica no exemplo a seguir.
Exemplo IV.18. Estimador espectral autoregressivo para SOI.
Considere a obtenção de resultados comparáveis aos estimadores não paramétricos mostrados na

Figura IV.7 para a série SOI. Ajustando modelos AR(p) de ordem sucessivamente mais alta para
p = 1, 2, ⋯, 30 resulta em um BIC mínimo e um AIC mínimo em p = 15, conforme mostrado na Figura IV.13.
Podemos ver na Figura IV.13 que o BIC é muito preciso sobre o modelo que escolhe; ou seja, o BIC
mínimo é muito distinto. Por outro lado, não está claro o que vai acontecer com a AIC; ou seja, o
mínimo não é tão claro e há alguma preocupação de que o AIC comece a diminuir após p = 30. O AICc
mínimo seleciona o modelo p = 15, mas sofre da mesma incerteza que o AIC.
Figura IV.13: Critérios de seleção de modelos AIC e BIC em função da ordem p para modelos
autorregressivos ajustados à série SOI.
No R, o comando spec.ar pode ser usado para ajustar o melhor modelo via AIC e mostrar o espectro
resultante. Uma maneira rápida de obter os valores AIC é executar o comando ar da seguinte
maneira:
> library(astsa)
> (soi.ar = ar(soi, order.max=30)) # estimates and AICs
Call:
ar(x = soi, order.max = 30)
Coefficients:
1 2 3 4 5 6 7 8 9 10 11 12 13
0.4237 0.0803 0.1411 0.0750 -0.0446 -0.0816 -0.0686 -0.0640 0.0159 0.1099 0.1656 0.1482 0.0231
14 15
-0.1814 -0.1406
Order selected 15 sigma^2 estimated as 0.07575

> plot(1:30, log(soi.ar$aic[-1]), type="o", xlab="p", ylab="AIC / BIC") # plot AICs
> grid()
> n = length(soi)
> AIC = rep(0, 30) -> AICc -> BIC
> for (k in 1:30){
+ sigma2 = ar(soi, order=k, aic=FALSE)$var.pred
+ BIC[k] = log(sigma2) + (k*log(n)/n)
+ AICc[k] = log(sigma2) + ((n+k)/(n-k-2))
+ AIC[k] = log(sigma2) + ((n+2*k)/n) }
> IC = cbind(AIC, BIC+1)
> ts.plot(IC, type="o", xlab="p", ylab="AIC / BIC")
> text(15,-1.35, "BIC"); text(15,-1.47, "AIC")
> grid()
> spaic = spec.ar(soi, log="no") # min AIC spec
> abline(v=frequency(soi)*1/52, lty=3, lwd=2, col="red") # El Nino peak
> grid()
O espectro é mostrado na Figura IV.14, e notamos os fortes picos próximos aos ciclos de quatro e
um ano, como nas estimativas não paramétricas obtidas na Seção IV.4. Além disso, as harmônicas do
período anual são evidentes no espectro estimado.
Figura IV.14: Estimador espectral autoregressivo para a série SOI usando o modelo AR(15)
selecionado por AIC, AICc e BIC.
Finalmente, deve ser mencionado que qualquer espectro paramétrico f(ω; θ), dependendo do vetor de
parâmetros pode ser estimado através da verossimilhaça de Whittle (Whittle, 1961), usando as propriedades
aproximadas da transformada discreta de Fourier derivadas no Apêndice C.
Temos que as transformadas discretas de Fourier d(ω j), são aproximadamente complexas normalmente
distribuídas com média zero e variância f(ω j; θ) e são aproximadamente independentes para ω j ≠ ω k. Isso
implica que a log-verossimilhança aproximada pode ser escrita na forma
ln (L(x; θ) ) ≈ − ∑
0 < ωj < 1 / 2(ln (f (ω j; θ) ) +
X f (ω j; θ)
X
)
| d(ω j) | 2
,
onde a soma às vezes é expandida para incluir as frequências ω j = 0, 1 / 2. Se a forma com as duas frequências
adicionais for usada, o multiplicador da soma será a unidade, exceto para os pontos puramente reais em
ω j = 0, 1 / 2 para o qual o multiplicador é 1/2.
Para uma discussão sobre a aplicação da aproximação de Whittle ao problema de estimar parâmetros em um
espectro ARMA, consulte Anderson (1978). A verossimilhança de Whittle é especialmente útil para ajustar
modelos de memória longa que serão discutidos no Capíítulo V.
IV.6 Múltiplas séries e cross-espectra
A noção de analisar flutuações de frequência usando idéias estatísticas clássicas se estende ao caso em que
existem várias séries estacionárias conjuntamente, por exemplo, X t e Y t.
Nesse caso, podemos introduzir a ideia de uma correlação indexada por frequência, chamada de coerência.
Os resultados na Seção C.2 implicam que a função de covariância
γ (h) = E ((X t + h − μ )(Y t − μ ) )

XY X Y
tem a representação
1
γ (h) =
XY ∫ 2− 1 f XY(ω)e 2π i ωhdω h = 0, ± 1, ± 2, ⋯,
2
onde o espectro cruzado é definido como a transformada de Fourier
f (ω) =
XY
∑ γ (h)e − 2π i ωh,
XY
− 1 / 2 ≤ ω ≤ 1 / 2,
h= −∞
assumindo que a função de covariância cruzada é absolutamente somatável, como foi o caso da
autocovariância.
O espectro cruzado é geralmente uma função de valor complexo e muitas vezes é escrito como
f (ω) = c (ω) − iq (ω),

XY XY XY
onde
c (ω) =
XY
∑ γ (h)cos (2πωh )
XY
h= −∞
q (ω) =
XY
∑ γ (h)sin (2πωh )
XY
h= −∞
são chamados como o cospectro e o quadspectrum, respectivamente.
Por causa da relação γ (h) = γ ( − h), segue-se, substituindo em

YX XY
f (ω) =
XY
∑ γ (h)e − 2π i ωh,
XY
− 1 / 2 ≤ ω ≤ 1 / 2,
h= −∞
e reorganizando, que
∗
f (ω) = f (ω),
YX XY
com ∗ denotando conjugação. Este resultado, por sua vez, implica que o cospectro e o quadspectrum
satisfazem
c (ω) = c (ω)
YX XY
q (ω) = − q (ω) ⋅
YX XY
Um exemplo importante da aplicação do espectro cruzado é o problema de prever uma série de saída Y t de
alguma série de entrada X t por meio de uma relação de filtro linear, como a média móvel de três pontos
considerada abaixo.
Uma medida da força de tal relação é a função de coerência ao quadrado, definida como
| f (ω) | 2
2 YX
ρ (ω) = ,
YX f (ω)f (ω)
XX YY
onde f (ω) e f (ω) são os espectros individuais das séries X t e Y t, respectivamente.

XX YY
Embora consideremos uma forma mais geral disso que se aplica a várias entradas posteriormente, é
instrutivo exibir o caso de entrada única para enfatizar a analogia com a correlação quadrática convencional,
que assume a forma
2
σ
2 YX
ρ = 2 2
,
YX σ σ
XX YY
2 2
para variáveis aleatórias com variâncias σ e σ e covariância σ = σ . Isso motiva a interpretação da
X Y YX XY
coerência quadrada e a correlação quadrada entre duas séries temporais na frequência ω.
Exemplo IV.19. Média móvel de três pontos.
Como um exemplo simples, calculamos o espectro cruzado entre X t e a média móvel de três pontos
1
Y t = 3 (X t − 1 + X t + X t + 1), onde X t é um processo de entrada estacionário com densidade espectral f (ω).
XX
Primeiro,
1
γ (h) = Cov (X t + h, Y t ) = Cov (X t + h , X t − 1 + X t + X t + 1 )
XY 3
1
=
3 (γ XY
(h + 1) + γ (h) + γ (h + 1)
XY XY
)
1
1
3∫ − (
= 2
1 e
2π i ω
+ 1 + e − 2π i ω )e 2π i ωhf (ω)dω
XX
2
1
1
+ 2cos(2πω))f (ω)e 2π i ωhdω,
3∫ − 2
2
= 1 (1
XX
onde usamos a representação do Teorema IV.2. Usando a singularidade da transformada de Fourier,

argumentamos a partir da representação espectral que
1
f (ω) = (1 + 2cos(2πω))f (ω),
XY 3 XX
de modo que o espectro cruzado é real neste caso. Usando o Teorema IV.3, a densidade espectral de
Yt é
1 2π i ω 1
f (ω) =
YY 9 |
e
2
XX 9 |
+ 1 + e − 2π i ω f (ω) = |1 + 2cos (2πω )| 2f (ω) ⋅
XX
Substituindo adequadamente temos,
ρ
2
=
|(
1
3
1 + 2cos (2πω ) f (ω) ) XX | 2
= 1;
1
YX
(
f (ω) 9 1 + 2cos (2πω ) 2f (ω)
XX XX
)
isto é, a coerência quadrada entre X t e Y t é a unidade em todas as frequências.
Esta é uma característica herdada por filtros lineares mais gerais. No entanto, se algum ruído for
adicionado à média móvel de três pontos, a coerência não será unidade; esses tipos de modelos
serão considerados em detalhes posteriormente.
Teorema IV.8. Representação espectral de um processo estacionário vetorial
Seja X t = (X t1, X t2, ⋯, X tp) ⊤ um processo p × 1 estacionário com matriz de autocovariâncias
Γ(h) = E ((X t + h − μ)(X t − μ) ⊤ ) = {γ (h)},

jk
satisfazendo
∑ | γ (h) | < ∞,
jk
k= −∞
para todos j, k = 1, ⋯, p. Então, Γ(h) tem a representação

1
Γ(h) = ∫ 2− 1 e 2π i ωhf(ω)dω, h = 0, ± 1, ± 2, ⋯,
2
como a transformação inversa da matriz de densidade espectral
f(ω) = {f (ω)},
jk
para j, k = 1, ⋯, p. A matrix f(ω) tem a representação
∞
f(ω) = ∑ Γ(h)e − 2π i ωh, − 1/2 ≤ ω ≤ 1/2 ⋅

h= −∞
A matriz espectral f(ω) é Hermitiana, f(ω) = f ∗ (ω), onde ∗ significa transposto conjugado.
Demonstração. Ver Seção C. ▉
Exemplo IV.20. Matriz espectral de um processo bivariado.
Considere um processo bivariado conjuntamente estacionário (X t, Y t). Organizamos as autocovariâncias

na matriz
( )
γ (h) γ (h)
XX XY
Γ(h) = ⋅
γ (h) γ (h)
YX YY
A matriz espectral seria dada por
( )
f (h) f (h)
XX XY
f(ω) = ,
f (h) f (h)
YX YY
onde as transformadas de Fourier no Teorema IV.8 relacionam a autocovariância e as matrizes

espectrais.
A extensão da estimativa espectral para séries de vetores é bastante clara. Para a série vetorial
X t = (X t1, X t2, ⋯, X tp) ⊤ podemos usar o vetor de DFTs d(ω j) = (d 1(ω j), d 2(ω j), ⋯, d p(ω j)) ⊤ e estimar a matriz espectral
por
∞
¯ 1
f(ω) = ∑ I(ω + k / n),
Lk= −∞ j
onde agora
I(ω j) = d(ω j)d ∗ (ω j)
é uma matriz complexa p × p.
¯
A série pode ser reduzida antes que o DFT f(ω) e podemos usar a estimativa ponderada,
f̂(ω) = ∑ h kI(ω j + k / n),

k= −∞
onde {h k} são pesos conforme definido pela função de coerência quadrada. A estimativa da coerência
quadrada entre duas séies, Y t e X t é
| f̂ (ω) | 2
2 YX
ρ̂ (ω) = ⋅
YX f̂ (ω)f̂ (ω)
XX YY
¯
Se as estimativas espectrais acima forem obtidas usando pesos iguais, escreveremos ρ (ω) para a estimativa.
YX
2
Sob condições gerais, se ρ (ω) > 0 então
YX
(
| ρ̂ (ω) | ∼ N | ρ (ω) | , (1 − ρ (ω) ) 2 / 2L h ,
YX YX
2
YX
)
m 2
onde L h = ( ∑ k = − mh k ) − 1; os detalhes desse resultado podem ser encontrados em Brockwell and Davis (1991).
Podemos usar o resultado acima para obter intervalos de confiança aproximados para a coerência quadrada
2
ρ (ω).
YX
¯2
2
Também podemos testar a haip&ocute;tese nula de que ρ (ω) = 0 se usarmos ρ (ω) para a estimativa com
YX YX
¯2
L > 1, caso L = 1 então ρ (ω) = 1; ou seja,
YX
¯
¯2 | f (ω) | 2
YX
ρ (ω) = ¯ ¯
⋅
YX
f (ω) f (ω)
XX YY
Neste caso, sob a hipótese nula, a estatística
¯2
ρ (ω)
YX
F = (L − 1)
¯2
1 − ρ (ω)
YX
tem distribuição F aproximada com 2 e 2L − 2 graus de liberdade.
Quando a série foi estendida ao comprimento n ′ , substituímos 2L − 2 por df − 2, onde df = 2Ln / n ′ . Resolver F
acima para um determinado nível de significância leva a
F 2 , 2L − 2(α)
Cα = ,
L − 1 + F 2 , 2L − 2(α)
como o valor aproximado que deve ser excedido para que a coerência quadrada original seja capaz de
2
rejeitar ρ (ω) = 0 em uma frequência especificada a priori.
YX
Exemplo IV.21. Coerência entre SOI e Recrutamento.
Figura IV.15: Coerência quadrática entre as séries SOI e Recrutamento; L = 19, n = 453;
n ′ = 480 e α = 0.001. A linha horizontal é C 0.001.
A Figura IV.15 mostra a coerência quadrática entre as séries SOI e Recrutamento em uma banda mais
ampla do que a usada para o espectro. Nesse caso, ao nível de significância α = 0.001, usamos L = 19,
df = 2(19)(453 / 480) ≈ 36 e F 2 , df − 2(0.001) ≈ 8.53. Portanto, podemos rejeitar a hipótese de nenhuma
¯2
coerência para valores de ρ (ω) que exceda C 0.001 = 0.32.
YX
Enfatizamos que este método é bruto porque, além do fato da estatística F ser aproximada, estamos
examinando a coerência quadrada em todas as frequências com a desigualdade de Bonferroni em mente.
A Figura IV.15 também exibe bandas de confiança como parte da rotina de gráfico do R. Enfatizamos
¯2
que essas bandas são válidas apenas para ω onde ρ (ω) > 0 .
YX
> library(astsa)
> sr = mvspec(cbind(soi,rec), kernel("daniell",9), plot=FALSE)
> sr$df # df = 35.8625
[1] 35.8625
> f = qf(.999, 2, sr$df-2) # = 8.529792
> C = f/(18+f) # = 0.321517
> plot(sr, plot.type = "coh", ci.lty = 2)
> abline(h = C)
> grid()
Nesse caso, as duas séries são obviamente fortemente coerentes na frequência sazonal anual. As
séries também são fortemente coerentes em frequências mais baixas que podem ser atribuídas ao
ciclo El Niño, que afirmamos ter um período de 3 a 7 anos. O pico na coerência, entretanto, ocorre
próximo ao ciclo de 9 anos. Outras frequências também são coerentes, embora a coerência forte seja
menos impressionante porque o espectro de potência subjacente nessas frequências mais altas é
bastante pequeno. Finalmente, notamos que a coerência é persistente nas frequências harmônicas
sazonais.
IV.7 Filtros lineares
Alguns dos exemplos das seções anteriores sugeriram a possibilidade de que a distribuição de poder ou
variação em uma série temporal pode ser modificada por meio de uma transformação linear. Nesta seção,
exploramos essa noção ainda mais, mostrando como os filtros lineares podem ser usados para extrair sinais
de uma série temporal. Esses filtros modificam as características espectrais de uma série temporal de
maneira previsível e o desenvolvimento sistemático de métodos para aproveitar as propriedades especiais
dos filtros lineares é um tópico importante na análise de série temporal.
Recordando que o Teorema IV.3 afirmou se
∞ ∞
Yt = ∑ a jX t − j, ∑ | a j | < ∞,
j= −∞ j= −∞
e X t tem espectro f (ω), então Y t tem espectro

XX
f (ω) =
YY
| A YX(ω) | 2f XX(ω),
onde
A (ω) =
YX
∑ a je − 2π iωj
j= −∞
é a função de resposta em frequência. Este resultado mostra que o efeito de filtragem pode ser caracterizado
como uma multiplicação de frequência por frequência pela magnitude quadrada da função da resposta em
frequência.
Exemplo IV.22. Filtros de primeira diferença e média móvel.
Ilustramos o efeito da filtragem com dois exemplos comuns, o primeiro filtro de diferença
Y t = ∇X t = X t − X t − 1
e o filtro de média móvel simétrica anual,
5
1 1
Yt =
24
(X t − 6 + X t + 6 ) + ∑X ,
12 r = − 5 t − r
que é um kernel Daniell modificado com m = 6.
Os resultados da filtragem da série SOI usando os dois filtros são mostrados nos painéis do meio e
inferior da Figura IV.16. Observe que o efeito da diferenciação é tornar a série mais áspera
porque tende a reter as frequências mais altas ou mais rápidas. A média móvel centralizada suaviza
a série porque retém as frequências mais baixas e tende a atenuar as frequências mais altas. Em
geral, a diferenciação é um exemplo de filtro alto porque retém ou passa as frequências mais
altas, enquanto a média móvel é um filtro baixo porque passa as frequências mais baixas ou mais
lentas.
Figura IV.16: Série SOI (topo) comparada com o SOI diferenciado (meio) e uma média móvel
de 12 meses centralizada (parte inferior).
> library(astsa)
> plot(soi) # gráfico dos dados
> plot(diff(soi)) # mostrando a primeira diferença
> k = kernel("modified.daniell", 6) # calculando os pesos dos filtros
> plot(soif <- kernapply(soi, k)) # mostrando o filtro de 12 meses
> grid()
Observe que os períodos mais lentos são realçados na média móvel simétrica e as frequências
sazonais ou anuais são atenuadas. A série filtrada faz cerca de 9 ciclos na duração dos dados,
cerca de um ciclo a cada 52 meses, e o filtro das médias móveis tende a aumentar ou extrair o
sinal do El Niño. Além disso, ao filtrar os dados com um filtro baixo temos uma melhor noção do
efeito do El Niño e de sua irregularidade.
> library(astsa)
> spectrum(soif, spans=9, log="no") # análise espectral
> abline(v=12/52, lty="dashed")
> grid()
Agora, feita a filtragem, é essencial determinar a maneira exata como os filtros alteram o
∞
espectro de entrada. Usando que A(ω) = ∑ j = − ∞a je − 2π i ωi e o resultado da Teorema IV.3 para este
propósito. O primeiro filtro de diferença pode ser escrito como
∞ ∞
Yt = ∑ A jX t − j com ∑ | a j | < ∞,
j= −∞ j= −∞
considerando a 0 = 1, a 1 = − 1 e a r = 0 caso contrário. Isso implica que
A (ω) = 1 − e − 2π i ω,
YX
e a resposta de frequência quadrada torna-se
| A (ω) | 2 = (1 − e − 2π i ω )(1 − e 2π i ω ) = 2 (1 − cos(2πω) ) ⋅

YX
Figura IV.17: Funções de resposta de frequência ao quadrado da primeira diferença (topo)

Processing math: 87% e filtros de média móvel de doze meses (parte inferior).
> ##-- frequency responses --##

> w = seq(0, .5, by=.01)
> FRdiff = abs(1-exp(2i*pi*w))^2
> plot(w, FRdiff, type='l', xlab='frequency')
> grid()
> u = cos(2*pi*w)+cos(4*pi*w)+cos(6*pi*w)+cos(8*pi*w)+cos(10*pi*w)
> FRma = ((1 + cos(12*pi*w) + 2*u)/12)^2
> plot(w, FRma, type='l', xlab='frequency')
> grid()
O painel superior da Figura IV.17 mostra que o primeiro filtro de diferença atenuará as
frequências mais baixas e aumentará as frequências mais altas porque o multiplicador do espectro
| A (ω) | 2 é grande para as frequências mais altas e pequeno para as frequências mais baixas.
YX
Geralmente, o aumento lento desse tipo de filtro não o recomenda particularmente como um
procedimento para reter apenas as altas frequências.
Para a média móvel centrada de 12 meses, podemos tomar a − 6 = a 6 = 1 / 24, a k = 1 / 12 para − 5 ≤ k ≤ 5 e

a k = 0 caso contrário. Substituindo e reconhecendo o termos cosseno dá
( )
5
1
A (ω) = 1 + cos (12πω ) + 2 ∑ cos (2πω k ) ⋅
YX 12 k=1
Traçando o quadrado da resposta de frequência desta função como na parte inferior da Figura IV.17
mostra que podemos esperar que este filtro corte a maior parte do conteúdo de frequência acima de
0.05 ciclos por ponto e quase todo o conteúdo de frequência acima de 1 / 12 ≈ 0.083. Em particular,
isso reduz os componentes anuais com períodos de 12 meses e aumenta a frequência do El Niño, que é
um pouco menor. O filtro não é completamente eficiente na atenuação de altas frequências; algumas
contribuições de potência são deixadas em frequências mais altas, conforme mostrado na função
| A (ω) | 2.
YX
Os dois filtros discutidos no exemplo anterior eram diferentes porque a função de resposta em frequência da
primeira diferença era de valor complexo, enquanto a resposta em frequência da média móvel era puramente
real. Uma derivação direta mostra que, quando X t e Y t estão relacionados pela relação de filtro linear, o
espectro cruzado satisfaz
f (ω) = A (ω)f (ω),

YX YX XX
então a resposta em frequência é da forma
f (ω) c (ω) q (ω)

YX YX YX
A (ω) = = −i ,
YX f (ω) f (ω) f (ω)
XX XX XX
onde usamos que f (ω) = c (ω) − iq (ω) para obter a último relação. Então, podemos escrever A (ω) em
XY XY XY YX
coordenadas polares como
A (ω) = | A (ω) | exp ( − iϕ (ω) ),

YX YX YX
onde a amplitude e a fase do filtro são definidas por
2 2
√c YX
(ω) + q (ω)
YX
| A (ω) | =
YX f (ω)
XX
( )
q (ω)
YX
ϕ (ω) = tan − 1 − ⋅
YX c (ω)
YX
Uma interpretação simples da fase de um filtro linear é que ele exibe atrasos de tempo em função da
frequência, da mesma forma que o espectro representa a variância em função da frequência. Uma visão
adicional pode ser obtida considerando o filtro de atraso simples
Y t = AX t − D,
onde a série é substituída por uma versão amplificada pela multiplicação por A e atrasada por D pontos.
Para este caso,
f (ω) = Ae − 2π iωDf (ω),

YX XX
a amplitude é | A | e a fase é
ϕ (ω) = − 2πωD,
YX
ou apenas uma função linear da frequência ω. Para este caso, a aplicação de um atraso de tempo simples
causa atrasos de fase que dependem da frequência do componente periódico que está sendo atrasado. A
interpretação é ainda mais aprimorada pela configuração
X t = cos (2πωt ),
caso no qual
Y t = Acos (2π ωt − 2π ωD ) ⋅
Assim, a série de saída Y t, tem o mesmo período que a série de entrada X t, mas a amplitude da saída
aumentou por um fator de | A | e a fase foi alterada por um fator de − 2πωD.
Exemplo IV.23. Filtros de diferença e médias móveis.
Consideramos o cálculo da amplitude e da fase dos dois filtros discutidos no Exemplo IV.22. O caso
da média móvel é fácil porque A (ω) é puramente real. Portanto, a amplitude é apenas | A (ω) | e a
YX YX
fase é ϕ (ω) = 0. Em geral, os filtros simétricos a j = a − j têm fase zero.

YX
A primeira diferença, entretanto, muda isso, como poderíamos esperar do exemplo acima envolvendo o
filtro de atraso de tempo. Nesse caso, a amplitude ao quadrado é dada por
| A (ω) | 2 = (1 − e − 2π i ω )(1 − e 2π i ω ) = 2 | 1 − cos (2πω ) | ⋅

YX
Para calcular a fase, escrevemos
A (ω)
YX
= (
1 − e − 2π i ω = e − π i ω e iπω − e − iπω )
= 2ie − iπωsin(πω) = 2sin 2(πω) + 2icos(πω)sin(πω)
c (ω) q (ω)
YX YX
= −i ,
f (ω) f (ω)
XX XX
então
( )
q (ω)
YX cos(πω)
ϕ (ω) = tan − 1 − = tan − 1 ⋅
YX c (ω) sin(πω)
YX
Notar que
cos(πω) = sin( − πω + π / 2)
e que
sin(πω) = cos( − πω + π / 2),
ϕ (ω) = − πω + π / 2,
YX
e a fase é novamente uma função linear da frequência.
A tendência acima das frequências de chegarem em momentos diferentes na versão filtrada da série
permanece como uma das duas características irritantes dos filtros de tipo de diferença. A outra fraqueza é o
aumento suave na função de resposta de frequência. Se as baixas frequências não são realmente
importantes e as altas frequências devem ser preservadas, gostaríamos de ter uma resposta um pouco mais
nítida do que é óbvio na Figura IV.17. Da mesma forma, se as frequências baixas são importantes e as
frequências altas não, os filtros de médias móveis também não são muito eficientes em passar as frequências
baixas e atenuar as frequências altas. A melhoria é possível projetando filtros melhores e mais longos, mas
não discutiremos isso aqui.
Ocasionalmente, usaremos resultados para séries multivariadas X t = (X t1, ⋯, X tp) que são comparáveis à
propriedade simples mostrada no Teorema IV.3. Considere o filtro matricial
Yt = ∑ A jX t − j,
j= −∞
∞
onde {A j} denota uma sequência de matrizes q × p tais que ∑ j = − ∞ | | A j | | < ∞ e | | ⋅ | | denota qualquer norma
de matriz, X t = (X t1⋯, X tp) ⊤ é um processo vetorial estacionário p × 1 com vetor médio μ , função p × p de matriz
X
de covariâncias Γ (h), matriz espectral f (ω) e Y t é o processo de saída q × 1. Então, podemos obter a seguinte
XX XX
propriedade.
Teorema IV.9. Matriz espectral de saída da série de vetores filtrados.
A matriz espectral da saída filtrada Y t em
Yt = ∑ A jX t − j,
j= −∞
está relacionada ao espectro da entrada X t por
f (ω) = A(ω)f (ω)A ∗ ,

YY XX
onde a função de resposta de frequência matricial A(ω) é definida por
A = ∑ A jexp ( − 2π i ωj ) ⋅
j= −∞
Demonstração Ver Seção C.6 ▉
IV.8 Modelos de regressão defasada
Uma das possibilidades intrigantes oferecidas pela análise de coerência da relação entre as séries de SOI e
Recrutamento discutidas no Exemplo IV.21 seria estender a regressão clássica à análise de modelos de
regressão defasados da forma
Yt = ∑ β rX t − r + V t ,
r=∞
onde V t é um processo de ruído estacionário, X t é a série de entrada observada e Y t é a série de saída

observada. Estamos interessados em estimar os coeficientes de filtro β r relacionando os valores defasados
adjacentes de X t à série de saída Y t.
No caso das séries SOI e Recrutamento, podemos identificar a série de condução do El Niño, SOI, como a
entrada, X t e Y t, a série de Recrutamento, como a saída. Em geral, haverá mais de uma série de entradas
possíveis e podemos imaginar um vetor q × 1 de séries de condução. Essa situação de entrada multivariada é
abordada no Capítulo VII. O modelo acima é útil sob vários cenários diferentes, correspondendo a
diferentes suposições que podem ser feitas sobre os componentes.
Assumimos que as entradas e saídas têm médias zero e são conjuntamente estacionárias, de dimensão 2 × 1,
com o processo vetorial (X t, Y t) ⊤ tendo uma matriz espectral da forma
( )
f (ω) f (ω)
X,X X,Y
f(ω) = ⋅
f (ω) f (ω)
Y,X Y,Y
Aqui, f (ω) é o espectro cruzado relacionando a entrada X t com a saída Y t, e f (ω) e f (ω) são os espectros
X,Y X,X Y,Y
das séries de entrada e saída, respectivamente. Geralmente, observamos duas séries, consideradas como
entrada e saída e procuramos por funções de regressão para relacionar as entradas às saídas. Presumimos
que todas as funções de autocovariância satisfazem as condições de soma absoluta.
Então, minimizando o erro quadrático médio
( )
∞ 2
MSE = E Y t − ∑ β rX t − r ,
r=∞
leva às condições usuais de ortogonalidade
(( )
∞
E Yt − ∑ β rX t − r ) X t − s = 0
r=∞
para todos os s = 0, ± 1, ± 2, ⋯. Tomando as esperanças dentro leva às equações normais
∑ β rγ
X,X
(s − r) = γ
Y,X
(s),
r= −∞
para s = 0, ± 1, ± 2, ⋯. Estas equações podem ser resolvidas, com algum esforço, se as funções de covariância
forem conhecidas exatamente. Se os dados (X t, Y t) para t = 1, ⋯, n estão disponíveis, podemos usar uma
aproximação finita das equações acima com γ̂ (h) e γ̂ (h) substituídos nas equações normais acima. Se os
X,X Y,X
vetores de regressão forem essencialmente nulos para | s | ≥ M / 2 e M < n, o sistema de equações normais
seria de total alcance e a solução envolveria inverter uma matriz (M − 1) × (M − 1).
Uma solução aproximada de domínio de frequência é mais fácil neste caso por dois motivos. Primeiro, os
cálculos dependem de espectros e espectros cruzados que podem ser estimados a partir de dados amostrais
usando as técnicas da Seção IV.5. Além disso, nenhuma matriz terá que ser invertida, embora a razão do
domínio da frequência tenha que ser calculada para cada frequência. Para desenvolver a solução do domínio
da frequência, substitua a representação na Proposição IV.8 de Γ(h) pelas equações normais. O lado esquerdo
das equações normais pode então ser escrito na forma
1 ∞ 1
∫−1 ∑ β re 2π i ω ( s − r ) f 2π i ωs
2
X,X
(ω)dω = ∫ 2− 1 e B(ω)f
X,X
(ω)dω,
2r= −∞ 2
onde
B(ω) = ∑ β re 2π i ωr
r= −∞
é a transformada de Fourier dos coeficientes de regressão β t. Agora, como γ (s) é a transformada inversa do
Y,X
espectro cruzado f (ω), podemos escrever o sistema de equações no domínio da frequência, usando a
Y,X
unicidade da transformada de Fourier, como
B(ω)f (ω) = f (ω),

X,X Y,X
que então se tornam os análogos das equações normais usuais.
Então, podemos escrever
f̂ (ω k)
Y,X
B̂(ω k) = ,
Processing math: 87% f̂ (ω k)
X,X
como estimador da transformada de Fourier dos coeficientes de regressão, avaliados em algum subconjunto
de frequências fundamentais ω k = k / M com M ≪ n.
Geralmente, assumimos suavidade de B( ⋅ ) sobre intervalos da forma {ω k + ℓ : ℓ = − m, ⋯, 0, ⋯, m}, com

L = 2m + 1. A transformada inversa da função B̂(ω) nos daria β̂ t e observamos que a aproximação discreta pode
ser tomada como
M−1
1
β̂ t = ∑ B̂(ω k)e 2π i ωkt,
M k=0
para t = 0, ± 1, ± 2, ⋯, ± (M / 2 − 1). Se tivéssemos que usar a expressão acima para definir β̂ t para | t | ≥ M / 2,
acabaríamos com uma sequência de coeficientes que é periódica com um período de M. Na prática, definimos
β̂ t = 0 para | t | ≥ M / 2.
Exemplo IV.24. Regressão retardada para SOI e Recrutamento.
A alta coerência entre as séries SOI e Recrutamento observada no Exemplo IV.21 sugere uma relação
de regressão defasada ou retardada entre as duas séries. Uma direção natural para a implicação
nesta situação está implícita porque sentimos que a temperatura da superfície do mar ou SOI deve
ser a entrada e a série de Recrutamento deve ser a saída. Com isto em mente, seja X t a série SOI e
Y t a série Recrutamento.
Embora pensemos naturalmente no SOI como a entrada e o Recrutamento como a saída, duas
configurações de entrada-saída são de interesse. Com o SOI como entrada, o modelo é
Yt = ∑ a rX t − r + W t ,
r= −∞
considerando que um modelo que inverte os dois papéis seria
Xt = ∑ b rY t − r + V t ,
r= −∞
onde W t e V t são processos de ruído branco. Embora não exista uma explicação ambiental plausível
para o segundo desses dois modelos, a exibição de ambas as possibilidades ajuda a estabelecer um
modelo de função de transferência parcimoniosa, mas não será mostrado.
Baseado no script LagReg no pacote astsa, a função de regressão estimada ou resposta ao impulso
para SOI, com M = 32 e L = 15 é:
> library(astsa)
> resultado = LagReg(soi, rec, L=15, M=32, threshold=6)
INPUT: soi OUTPUT: rec L = 15 M = 32
The coefficients beta(0), beta(1), beta(2) ... beta(M/2-1) are
3.463141 2.088613 2.688139 -0.3515829 0.3717705 -18.47931 -12.2633 -8.539368 -6.984553 -4.978238 -4.526358 -4.223713
-3.239262 -1.372815 1.489903 3.744727
The coefficients beta(0), beta(-1), beta(-2) ... beta(-M/2+1) are
3.463141 2.835444 1.628129 2.726815 0.6330645 -1.256092 -0.05458373 1.722774 4.925481 5.440352 6.877381 5.141606
4.479202 3.796848 4.004762 3.184184
The positive lags, at which the coefficients are large

in absolute value, and the coefficients themselves, are:
lag s beta(s)
[1,] 5 -18.479306
[2,] 6 -12.263296
[3,] 7 -8.539368
[4,] 8 -6.984553
The prediction equation is

rec(t) = alpha + sum_s[ beta(s)*soi(t-s) ], where alpha = 65.96584
MSE = 414.0847
Observe o pico negativo em um atraso de cinco pontos na figura acima. A queda após o desfasamento
cinco parece ser aproximadamente exponencial e um possível modelo é
Y t = 65.96584 − 18.479306X t − 5 − 12.263296X t − 6 − 8.539368X t − 7 − 6.984553X t − 8 + W t ⋅
Se examinarmos a relação inversa, ou seja, um modelo de regressão com a série Recrutamento Y t como
entrada obtemos um modelo muito mais simples:

> resultado1 = LagReg(rec, soi, L=15, M=32, inverse=TRUE, threshold=.01)
INPUT: rec OUTPUT: soi L = 15 M = 32
The coefficients beta(0), beta(1), beta(2) ... beta(M/2-1) are
0.004461216 0.001061309 -0.002206203 0.001890203 -0.0005578082 -0.003021943 -0.0004643641 -0.00137669 0.002186134

0.001726505 0.002637365 -0.003106259 0.003181714 0.001085057 -0.001040998 -0.003780144
The coefficients beta(0), beta(-1), beta(-2) ... beta(-M/2+1) are
0.004461216 -0.003535525 0.001851014 -0.001654371 0.01593167 -0.02120013 0.001450279 0.001901667 0.000181094

-0.001796688 0.0001158145 0.0006828962 0.00107619 0.0005235587 -0.000145583 -0.0001296385
The negative lags, at which the coefficients are large

in absolute value, and the coefficients themselves, are:
lag s beta(s)
[1,] 4 0.01593167
[2,] 5 -0.02120013
The prediction equation is

soi(t) = alpha + sum_s[ beta(s)*rec(t+s) ], where alpha = 0.4080661
MSE = 0.07023683
dependendo de apenas dois coeficientes, ou seja,
X t = 0.4080661 + 0.01593167Y t + 4 − 0.02120013Y t + 5 + V t ⋅
Multiplicando ambos os lados por 50B 5 e rearranjando, temos
(1 − 0.8B)Y t = 20.5 − 50B 5X t + ϵ t ⋅
Finalmente, verificamos se o ruído ϵ t é branco. Além disso, neste ponto, simplifica a questão se
voltarmos a executar a regressão com erros autocorrelacionados e reestimar os coeficientes. O
modelo é chamado de modelo ARMAX, o X significa exógeno; consulte a Seção V.6 e a Seção VI.6.1:
> fish = ts.intersect(R=rec, RL1=lag(rec,-1), SL5=lag(soi,-5))

> (u = lm(fish[,1]~fish[,2:3], na.action=NULL))
Call:
lm(formula = fish[, 1] ~ fish[, 2:3], na.action = NULL)
Coefficients:
(Intercept) fish[, 2:3]RL1 fish[, 2:3]SL5
11.3136 0.8434 -20.3004
> acf2(resid(u)) # suggests ar1

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16] [,17] [,18] [,19]
ACF 0.4 0.10 -0.04 -0.15 -0.03 0.06 -0.02 0.00 -0.07 -0.11 -0.10 -0.10 -0.10 -0.07 -0.08 -0.08 0.01 0.01 -0.02
PACF 0.4 -0.08 -0.06 -0.13 0.11 0.05 -0.10 0.03 -0.07 -0.05 -0.06 -0.04 -0.07 -0.04 -0.05 -0.05 0.05 -0.04 -0.04
[,20] [,21] [,22] [,23] [,24] [,25] [,26] [,27] [,28] [,29] [,30] [,31] [,32] [,33] [,34] [,35] [,36] [,37] [,38]
ACF -0.02 0.02 0.03 0.04 0.03 0.00 0.03 0.09 0.07 0.08 0.05 0.00 -0.12 -0.13 -0.03 0.06 0.10 0.07 -0.07
Processing math: 87% PACF -0.03 0.05 -0.01 -0.02 -0.01 -0.02 0.03 0.06 -0.01 0.05 0.01 -0.01 -0.14 -0.02 0.06 0.05 0.03 0.03 -0.09
[,39] [,40] [,41] [,42] [,43] [,44] [,45] [,46] [,47] [,48]
ACF -0.13 -0.03 0.05 0.08 0.04 -0.02 -0.09 -0.08 -0.04 0.01
PACF -0.05 0.10 0.06 0.00 -0.04 0.00 -0.07 -0.02 0.01 -0.01
> sarima(fish[,1], 1, 0, 0, xreg=fish[,2:3]) # modelo ARMAX

initial value 2.047606
iter 2 value 1.958908
final value 1.951724
converged
initial value 1.951922
final value 1.951914
converged
$fit
Call:
stats::arima(x = xdata, order = c(p, d, q), seasonal = list(order = c(P, D,
Q), period = S), xreg = xreg, transform.pars = trans, fixed = fixed, optim.control = list(trace = trc,
REPORT = 1, reltol = tol))
Coefficients:
ar1 intercept RL1 SL5
0.4489 14.6838 0.7902 -20.9988
s.e. 0.0495 1.5605 0.0229 1.0812
sigma^2 estimated as 49.57: log likelihood = -1510.14, aic = 3030.28
$degrees_of_freedom
Processing math: 87% [1] 444
$ttable
Estimate SE t.value p.value
ar1 0.4489 0.0495 9.0591 0
intercept 14.6838 1.5605 9.4098 0
RL1 0.7902 0.0229 34.4532 0
SL5 -20.9988 1.0812 -19.4218 0
$AIC
[1] 6.764027
$AICc
[1] 6.764229
$BIC
[1] 6.80984
Nosso modelo ajustado final e parcimonioso é com arredondamento é
Y t = 14.6838 + 0.7902Y t − 1 − 20.9988X t − 5 + ϵ t, ϵ t = 0.4489ϵ t − 1 + W t,
2
onde W t é ruído branco com σ̂ = 49.57. Este exemplo também é examinado no Capítulo V e os valores
W
ajustados para o modelo final podem ser visualizados na figura no Exemplo V.9.
O exemplo mostra que podemos obter um estimador limpo para as funções de transferência relacionando as
2
duas séries se a coerência ρ̂ é grande. A razão é que podemos escrever o erro quadrático médio como
x,y
( )
∞ ∞
MSE = E (Y t − ∑ )
β rX t − r Y y = γ
Y,Y
(0) − ∑ β rγ
X,Y
( − r),
r= −∞ r= −∞
usando o resultado sobre a ortogonalidade dos dados e o termo de erro no Teorema da Projeção. Então,
substituindo
as representações espectrais das funções de autocovariância e de covariância cruzada e
identificando a transformada de Fourier no resultado
B(ω) = ∑ β re 2π i ωr,
r= −∞
leva a
1 1
MSE = ∫−
2
1
2
(
f
Y,Y
(ω) − B(ω)f
X,Y )
(ω) d(ω) = ∫ 2− 1 f Y , Y(ω)
2
(
1−ρ
2
Y,X )
(ω) d(ω),
2
onde ρ (ω) é apenas a coerência quadrada. A semelhança do MSE dado acima com o erro quadrático médio
Y,X
usual resulta da previsão de y de x. Nesse caso, teríamos
2 2
E (Y − βX ) 2 = σ (1 − ρ ),
Y X,Y
2 2
para variáveis aleatórias com distribuição conjunta X e Y com m&eacdias;dias zero, variâncias σ e σ e
X Y
covariância σ =ρ σ σ . Como o erro quadrático médio satisfaz MSE ≥ 0 com f (ω) uma função não-
X,Y X,Y X Y Y,Y
negativa, segue-se que a coerência satisfaz
2
0≤ρ ≤ 1,
X,Y
para todo ω. Assim, a coerência múltipla fornece uma medida da associação ou correlação entre as séries de
entrada e saída em função da frequência.
A questão de verificar se a distribuição F será válida quando os valores da coerência amostral forem
substituídos por valores teóricos ainda permanece. Novamente, a forma da estatística F é exatamente
análoga ao teste t usual para nenhuma correlação em um contexto de regressão. Daremos um argumento
que leva a essa conclusão mais tarde usando os resultados da Seção C.3.
Outra questão que não foi resolvida nesta seção é a extensão para o caso de múltiplas entradas X t , X t , ⋯, X t .
1 2 q
Frequentemente, há mais do que apenas uma única série de entrada que pode possivelmente formar um
preditor defasado da série de saída Y t. Um exemplo é a série de mortalidade cardiovascular que dependia
possivelmente de várias séries de poluição e temperatura. Discutimos essa extensão particular como parte
das técnicas de séries temporais multivariadas consideradas no Capítulo VII.
IV.9 Extração de sinal e filtragem ótima
Um modelo intimamente relacionado à regressão pode ser desenvolvido assumindo novamente que
Yt = ∑ β rX t − r + V t ,
r=∞
mas onde os βs são conhecidos e X t é algum sinal aleatório desconhecido que não está correlacionado com o
processo de ruído V t. Neste caso, observamos apenas Y t e estamos interessados em um estimador para o
sinal X t da forma
X̂ t = ∑ a rY t − r ⋅
r=∞
No domínio da frequência é conveniente fazer as suposições adicionais de que as séries X t e V t são ambas
séries estacionárias de média zero com espectros f (ω) e f (ω), frequentemente referidos como o espectro
X,X V,V
de sinal e o espectro de ruído, respectivamente. O caso especial β t = δ t, em que δ t é o delta de Kronecker, é de

interesse porque o modelo assumido para Y t acima se reduz ao modelo simples de sinal mais ruído
Yt = Xt + Vt
nesse caso. Em geral, buscamos o conjunto de coeficientes de filtro que minimizam o erro quadrático médio
de estimativa,
( )
∞ 2
MSE = E X t − ∑ β rY t − r ⋅
r=∞
Lembremos que a delta de Kronecker, nomeado em homenagem a Leopold Kronecker, é uma função de duas
variáveis, geralmente apenas inteiros não negativos. A função é 1 se as variáveis forem iguais e 0 caso
contrário, definida como:
δ ij =
{ 0
1
se i ≠ j,
se i = j.
Este problema foi originalmente resolvido por Kolmogorov (1941) e por Wiener (1949), que derivou o
resultado em 1941 e o publicou em relatórios confidenciais durante a Segunda Guerra Mundial.
Podemos aplicar o princípio da ortogonalidade para escrever
(( )
∞
E Xt − ∑ a rY t − r )Y t − s = 0
r=∞
para todos os s = 0, ± 1, ± 2, ⋯, o que leva a
∑ a rγ
Y,Y
(s − r) = γ
X,Y
(s),
r= −∞
a ser resolvido para os coeficientes do filtro. Substituindo as representações espectrais para as funções de
autocovariância acima e identificar as densidades espectrais através da exclusividade da transformada de
Fourier produz
A(ω)f (ω) = f (ω),

Y,Y X,Y
onde A(ω) e o filtro ótimo a t são pares de transformada de Fourier para B(ω) e β t. Agora, uma consequência
especial do modelo é que
f (ω) = B ∗ (ω)f (ω)

X,Y X,X
f (ω) = | B(ω) | 2f (ω) + f (ω),

Y,Y X,X V,V
implicando que o filtro ideal seria a transformada de Fourier de
B ∗ (ω)
A(ω) = ,
f (ω)
V,V
2
| B(ω) | +
f (ω)
X,Y
onde o segundo termo no denominador é apenas o inverso da relação sinal-ruído, digamos
f (ω)
V,V
SNR(ω) = ⋅
f (ω)
X,Y
O resultado mostra que os filtros ideais podem ser calculados para este modelo se os espectros de sinal e
ruído forem conhecidos ou se pudermos assumir o conhecimento da relação sinal-ruído SNR(ω) em função da
frequência. No Capítulo VII, mostramos alguns métodos para estimar esses dois parâmetros em conjunto
com os modelos de análise de variância de efeitos aleatórios, mas assumimos aqui que é possível especificar
a razão sinal-ruído a priori.
Se a relação sinal-ruído for conhecida, o filtro ideal pode ser calculado pela transformada inversa da função
A(ω). É mais provável que a transformada inversa seja intratável e uma aproximação de filtro finito como a
usada na seção anterior possa ser aplicada aos dados. Neste caso, teremos
M−1
1
M
at =
M k=0
∑ A(ω k)e 2π i ωkt,
como a função de filtro estimada. Freqüentemente, a forma da resposta de frequência especificada terá
algumas transições bastante nítidas entre regiões onde a relação sinal-ruído é alta e regiões onde há pouco
sinal.
Nestes casos, a forma da função de resposta em frequência terá ondulações que podem introduzir
frequências em diferentes amplitudes. Uma solução estética para este problema é introduzir a redução
gradual como foi feito com a estimação espectral não paramétrica.
Usamos abaixo o filtro cônico ã t = h ta t onde h t é o cosseno dado por
( ( ))
¯
2π(t − t)
h t = 0.5 1 + cos ⋅
n
A resposta de frequência quadrada do filtro resultante será | Ã(ω) | 2, onde
Ã(ω) = ∑ a th te − 2π i ωt ⋅
t= −∞
Os resultados são ilustrados no exemplo a seguir que extrai o componente El Niño da série de temperaturas
da superfície do mar.
Exemplo IV.25. Estimando o sinal do El Niño por meio de filtros óptimos.
A Figura IV.7 mostra o espectro da série SOI e notamos que essencialmente dois componentes têm
energia: a frequência do El Niño de cerca de 0.02 ciclos por mêês, o ciclo de quatro anos, e uma
frequência anual de cerca de 0.08 ciclos por mês, ciclo anual. Assumimos, para este exemplo, que
desejamos preservar a frequência inferior como sinal e eliminar as frequências de ordem superior
e, em particular, o ciclo anual. Neste caso, assumimos o modelo simples de sinal mais ruído
Y t = X − t + V t,
de modo que não há função convolvente β t.
Além disso, a relação sinal-ruído é considerada alta para cerca de 0.06 ciclos por mês e zero
depois disso. A resposta de frequência ótima foi assumida como unitária a 0.05 ciclos por ponto e,
em seguida, decai linearmente até zero em várias etapas. A Figura IV.19 à esquerda mostra os
M
coeficientes conforme especificados por a t com M = 64, bem como a função de resposta em frequência
dada por Ã(ω), dos coeficientes cosseno cônicos; lembre-se da Figura IV.11, onde demonstramos a
necessidade da redução gradual para evitar ondulações severas na janela. A função de resposta
construída é comparada com a janela ideal na Figura IV.19.
Figura IV.19. Esquerda: coeficientes do filtro (parte superior) e funções de resposta de

frequência (parte inferior) para filtros SOI projetados. Direita: espectros da séria original e da
série filtrada.
A Figura IV.20 mostra o índice SOI original e filtrado e vemos um sinal extraído suave que
transmite a essência do sinal El Niño subjacente. A resposta de frequência do filtro projetado
pode ser comparada com aquela da média móvel simétrica de 12 meses aplicada à mesma série no
Exemplo IV.22. A série filtrada, mostrada na Figura IV.16, mostra uma boa quantidade de vibração
de frequência mais alta na versão suavizada, que foi introduzida pelas frequências mais altas que
vazam na resposta de frequência quadrada, como na Figura IV.17.
Figura IV.20. Série SOI original (parte superior) em comparação com a versão filtrada
mostrando o sinal estimado de temperatura do El Niño (parte inferior).
A análise pode ser replicada usando o script:
> library(astsa)
> par(mfrow=c(1,1), mar=c(3,3,1,2)+.5, mgp=c(1.6,.6,0))
> SigExtract(soi, L=9, M=64, max.freq=.05)
O projeto de filtros finitos com uma resposta de frequência especificada requer alguma experimentação com
várias funções de resposta de frequência alvo e apenas tocamos na metodologia aqui. O filtro projetado aqui,
às vezes chamado de filtro passa-baixa, reduz as frequências altas e mantém ou passa as frequências baixas.
Como alternativa, poderíamos projetar um filtro passa-alta para manter as altas frequências se for onde o
sinal está localizado. Um exemplo de um filtro passa-alta simples é a primeira difereça com uma resposta de
frequência que é mostrada na Figura IV.17. Também podemos projetar filtros passa-banda que mantêm as
frequências em bandas especificadas. Por exemplo, filtros de ajuste sazonal são freqüentemente usados em
economia para rejeitar frequências sazonais, enquanto mantêm frequências altas, frequências mais baixas e
tendência (ver, por exemplo, Grether and Nerlove, 1970).
Os filtros que discutimos aqui são todos filtros simétricos de dois lados, porque as funções de resposta de
frequência projetadas eram puramente reais. Alternativamente, podemos projetar filtros recursivos para
produzir uma resposta desejada. Um exemplo de filtro recursivo é aquele que substitui a entrada X t pela
saída filtrada
p q
Yt = ∑ ϕ kY t − k + X t − ∑ θ kX t − k ⋅
k=1 k=1
Observe a semelhança entre a expressão acima e o modelo ARMA(p, q), em que o componente de ruído branco
é substituído pela entrada. Transpor os termos envolvendo Y t e usando o resultado do filtro linear básico no
Teorema IV.3 leva a
| θ(e − 2π i ω) | 2
f (ω) = f (ω),
Y | ϕ(e − 2π i ω) | 2 X
onde
θ(e − 2π i ω) = 1 − ∑ ϕ ke − 2π i k ω
k=1
θ(e − 2π i ω) = 1 − ∑ θ ke − 2π i k ω ⋅
k=1
Filtros recursivos, como os fornecidos por f (ω), distorcem as fases das frequências de chegada e não
Y
consideramos o problema de projetar tais filtros em detalhes.
IV.10 Análise espectral de séries multidimensionais
Uma séries multidimensional da forma X s, onde s = (s 1, s 2, …, s r) ⊤ é um vetor r-dimensional de coordenadas

espaciais ou uma combinação de coordenadas de espaço e tempo, foi introduzida na Seção I.6. O exemplo
dado ali, mostrado na Figura I.18, foi uma coleção de medições de temperatura em um campo retangular.
Estes dados formaram um processo bidimensional, indexado por linhas e colunas no espaço. Nessa seção, a
função de autocovariância multidimensional de uma série estacionária r-dimensional foi dada como
γ (h) = E (X s + hX s ), onde o vetor de atraso multidimensional é h = (h 1, h 2, ⋯, h r) ⊤ .
X
O espectro multidimensional é dado como a transformada de Fourier da autocovariância,
f (ω) =
X
∑ ⋯ ∑ hγ X(h)e − 2π i ω⊤h ⋅
Novamente, o resultado inverso
1 1
⊤h
γ (h) =
X ∫ 2− 1 ⋯∫ 2− 1 f X(ω)e 2π i ω dω
2 2
se mantém, onde a integral acima é calculada no intervalo multidimensional do vetor ω. Temos como
interpretação intuitiva a taxa de ciclagem ω i por distância percorrida s i na i-ésima direção.
Processos bidimensionais ocorrem frequentemente em aplicações práticas e as representações acima se

reduzem a
∞ ∞
f (ω 1, ω 2) =
X
∑ ∑ γ (h 1, h 2)e − 2π i ( ω 1h 1 + ω 2h 2 )
X
h = − ∞h = − ∞
e
1 1
γ (h 1, h 2) =
X ∫ − ∫ 2− 1 f X(ω 1, ω 2)e 2π i ( ω1h1 + ω2h2 ) dω 1dω 2
2
1
2 2
no caso r = 2. A noção de filtragem linear generalizada para o caso bidimensional, definindo a função de
resposta ao impulso a s , s e a saída do filtro espacial como
1 2
Ys , s =
1 2
∑ ∑ a u 1 , u 2X s 1 − u 1 , s 2 − u 2 ⋅
u1 u2
O espectro da saída deste filtro pode ser derivado como
f (ω 1, ω 2) = | A(ω 1, ω 2) | 2f (ω 1, ω 2)
Y X
onde
A(ω 1, ω 2) = ∑ ∑ a u1 , u2e − 2π i ( ω1u1 + ω2u2 ) ⋅

u1 u2
Esses resultados são análogos aos do caso unidimensional, descritos pelo Teorema IV.3.
O Transformada Discreta de Fourier multidimensional também é uma generalização direta da expressão

univariada. No caso bidimensional com dados em uma grade retangular {X s , s : s 1 = 1, ⋯, n 1 , s 2 = 1, ⋯, n 2},
1 2
vamos escrever, para − 1 / 2 ≤ ω 1, ω 2 ≤ 1 / 2,
n1 n2
1
d(ω 1, ω 2) = ∑ ∑ X s1 , s2e − 2π i ( ω1s1 + ω2s2 )
n 1n 2 s 1 = 1s 2 = 1
√
como a Transformada Discreta de Fourier bidimensional, onde as frequências ω 1, ω 2 são avaliados em
múltiplos de (1 / n 1, 1 / n 2) na escala de frequência espacial. O espectro bidimensional pode ser estimado pelo
espectro amostral suavizado
¯ 1
f (ω 1, ω 2) =
X
∑ |d (ω 1 + ℓ 1 / n 1, ω 2 + ℓ 2 / n 2 ) |2,
L 1L 2 ℓ ℓ
1 2
onde a soma é obtida ao longo da grade { − m j ≤ ℓ j ≤ m j : j = 1, 2} onde L 1 = 2m 1 + 1 e L 2 = 2m 2 + 1. A estatística
¯
2L 1L 2 f (ω 1, ω 2)
X 2
∼ χ 2L L
f (ω 1, ω 2) 1 2
X
pode ser usado para definir intervalos de confiança ou fazer testes aproximados contra um espectro fixo
assumido f (ω 1, ω 2).
0
Exemplo IV.26. Temperaturas na superfície do solo.
Como exemplo, considere o periodograma da série bidimensional de temperaturas mostrada na Figura

I.18 e analisada por Bazza et al. (1988). Lembramos que as coordenadas espaciais neste caso serão
(s 1, s 2), que definem as coordenadas espaciais linhas e colunas para que as frequências nas duas
direções sejam expressas em ciclos por linha e ciclos por coluna. A Figura IV.21 mostra o
periodograma da série bidimensional de temperatura e notamos a crista de fortes picos espectrais
correndo sobre linhas com uma frequência de coluna zero. Um componente periódico óbvio aparece nas
frequências de 0.0625 e -0.0625 ciclos por linha, o que corresponde a 16 linhas ou cerca de 272
pés. Em uma investigação mais aprofundada dos padrões de irrigação anteriores neste campo, os
níveis de tratamento de sal variaram periodicamente nas colunas.
Figura IV.21. Periodograma bidimensional do perfil da temperatura do solo mostrando pico
em 0.0625 ciclos/linha. O período é de 16 linhas e isso corresponde a 16 × 17pés = 272
pés.
A análise pode ser replicada usando o script:
> library(astsa)
> per = Mod(fft(soiltemp-mean(soiltemp))/sqrt(64*36))^2
> per2 = cbind(per[1:32,18:2], per[1:32,1:18])
> per3 = rbind(per2[32:2,],per2)
> par(mfrow=c(1,1), mar=c(1,2.5,0,0)+.15, mgp=c(1.6,.6,0))
> persp(-31:31/64, -17:17/36, per3, phi=30, theta=30, expand=.6,
ticktype="detailed", xlab="cycles/row", ylab="cycles/column", zlab="Periodogram Ordinate")
Outra aplicação da análise espectral bidimensional é no campo agrícola foi dada em McBratney and Webster
(1981), que a usou para detectar padrões de cristas e sulcos no campo. A necessidade de amostras regulares
e igualmente espaçadas em grades bastante grandes tende a limitar o entusiasmo pela análise espectral
bidimensional estrita. Uma exceção é quando um sinal de propagação de uma dada velocidade e azimute
está presente, de forma que a previsão do espectro do número de onda em função da velocidade e do
azimute se torna viável (ver Shumway et al., 1999).
IV.11 Exercícios
1. Verifique se para qualquer número inteiro positivo n e j, k = 0, 1, ⋯, [n / 2], onde [ ⋅ ] denota a função
maior inteiro:
(a) Exceto para j = 0 ou j = n / 2,
n n
n
∑ cos 2(2π tj / n) = ∑ sin 2(2π tj / n) =
2
⋅
t=1 t=1
Dica:
n n
1
∑ cos 2
(2π tj / n) =
4t=1
∑ (e 2π itj / n + e − 2π itj / n )(e 2π itj / n + e − 2π itj / n )
t=1
n
1 n
=
4
∑ ((e 4π itj / n + 1 + 1 + e − 4π itj / n )) =
2
⋅
t=1
(b) Quando j = 0 ou j = n / 2,
n n
∑ cos 2(2π tj / n) = n mas ∑ sin 2(2π tj / n) = 0⋅

t=1 t=1
(c) Para j ≠ k,
n n
∑ cos(2π tj / n)cos(2π tk / n) = ∑ sin(2π tj / n)sin(2π tk / n) = 0⋅

t=1 t=1
Também, para qualquer j e k
∑ cos(2π tj / n)sin(2π tk / n) = 0⋅
t=1
2. Repita as simulações e análises nos Exemplos IV.1 e IV.2 com as seguintes alterações:
(a) Mude o tamanho da amostra para n = 128, gere e mostre gráficamente na mesma série do
Exemplo IV.1:
X t1 = 2cos(2π 0.06t) + 3sin(2π 0.06t),

X t2 = 4cos(2π 0.10t) + 5sin(2π 0.10t),
X t3 = 6cos(2π 0.40t) + 7sin(2π 0.40t),
Xt = X t1 + X t2 + X t3 ⋅
Qual é a principal diferença entre essas séries e as séries geradas no Exemplo IV.1?
Dica: a resposta é fundamental. Mas não é aceito como resposta que a série é mais longa.
(b) Como no Exemplo IV.2, calcule e mostre gráficamente o periodograma da série X t, gerado em
(a) e comente.
(c) Repita as análises de (a) e (b), mas com n = 100, como no Exemplo IV.1, e adicionando ruído
a X t; isso é
X t = X t1 + X t2 + X t3 + W t,
onde W t ∼ N(0, 25) independentes identicamente disrtibuídas. Ou seja, você deve simular e
mostrar os dados e então traçar o periodograma de X t e comentar.
3. Considere o processo periódico
X t = Acos (2πωt + ϕ ),
para t = 0, ± 1, ± 2, ⋯, o qual pode-se escrever como
X t = U 1cos (2πωt ) + U 2sin (2πωt ),
onde U 1 = Acos(ϕ) e U 2 = − Asin(ϕ). Sejam Z 1 = U 1 e Z 2 = − U 2 variáveis normais padrão independentes.

Considere as coordenadas polares do ponto (Z 1, Z 2), isto é,
2 2
A2 = Z1 + Z2 e ϕ = tan − 1(Z 2 / Z 1) ⋅
(a) Encontre a densidade conjunta de (A 2, ϕ). Conclua que A 2 e ϕ são independentes, sendo que
A 2 ∼ χ 2(2) e ϕ ∼ U( − π, π).
(b) Indo no sentido inverso, das coordenadas polares às coordenadas retangulares. Suponha
assumimos que A 2 e ϕ sejam variáveis aleatórias independentes, onde A 2 ∼ χ 2(2) e ϕ ∼ U( − π, π).
Com Z 1 = Acos(ϕ) e Z 2 = Asin(ϕ), onde A é a raiz quadrada positiva de A 2, mostre que Z 1 e Z 2 são
variáveis aleatórias normais padrão independentes.
4. Considere o processo periódico

k=1
onde U k1 e U k2, para k = 1, 2, ⋯, q são variáveis aleatórias de média zero não correlacionadas com
2
variâncias σ k . Prove que a função de autocovariância do processo é
γ (h) =
X
∑ σ 2k cos (2πωh ) ⋅
k=1
5. Uma série temporal foi gerada desenhando primeiro a série de ruído branco W t de uma distribuição
normal com média zero e variância um. A série observada X t foi gerada a partir de
X t = W t − θW t − 1, t = 0, ± 1, ± 2, ⋯,
onde θ é o parâmetro.
(a) Derive as esperanças e as funções de autocovariância para as séries X t e W t. As séries X t e W t
são estacionárias? Dê suas razões.
(b) Forneça uma fórmula para o espectro de potência de W t, expresso em termos de θ e ω.
6. Um modelo autoregressivo de primeira ordem é gerado a partir da série de ruído branco W t usando as
equações geradoras
X t = ϕX t − 1 + W t,
onde ϕ, para | ϕ | < 1 é o parâmetro e W t são variáveis aletórias independentes de média zero e
2
variância σ .
W
(a) Mostre que o espectro de potência de X t é dado por
2
σ
W
f (ω) = ⋅
X 1 + ϕ 2 − 2ϕcos(2πω)
(b) Verifique se a função de autocovariância do processo é
2
σ ϕ |h|
W
γ (h) = ,
X 1 − ϕ2
h = 0, ± 1, ± 2, ⋯, mostrando que a transformada inversa de γ (h) é o espectro derivado no item

X
(a).
7. Nas aplicações, frequentemente observaremos séries contendo um sinal que foi atrasado por algum
tempo D desconhecido, ou seja,
X t = S t + AS t − D + η t,
onde S t e η t são estacionários e independentes com médias zero e densidades espectrais f (ω) e f (ω),
S η
respectivamente. Observe que o sinal atrasado é multiplicado por alguma constante desconhecida A.
Mostre que
f (ω) =
X
(1 + A2 + 2Acos(2π ωD) )f (ω) + f (ω) ⋅
S η
8. Suponha que X t e Y t sejam séries temporais de média zero estacionárias com X t independente de Y s,
para todos os s e t. Considere a série dos produtos
Zt = Xt × Yt ⋅
Prove que a densidade espectral de Z t pode ser escrita como
f (ω) =
Z ∫ 2− 1 f X(ω − ν)f Y(ν)dν ⋅
2
9. A Figura IV.22 mostra o número de manchas solares suavizadas bi-ano (média móvel de 12 meses)
de junho de 1749 a dezembro de 1978 com n = 459 pontos que foram obtidos duas vezes por ano; os
dados estão contidos em sunspotz. Com o Exemplo IV.13 como guia, execute uma análise de
periodograma identificando os períodos predominantes e obtendo intervalos de confiança para os
períodos identificados. Interprete suas descobertas.
Figura IV.22: Números suavizados de manchas solares, média móvel de 12 meses,

(sunspotz) amostradas duas vezes por ano.
10. Os níveis de concentração de sal que se sabe ocorreram ao longo das linhas, correspondendo aos
níveis de temperatura média para os dados científicos do solo considerados na Figura I.18 e na Figura
I.19, estão em salt e saltemp. Trace as séries e, em seguida, identifique as frequências dominantes
realizando análises espectrais separadas nas duas séries. Inclua intervalos de confiança para as
frequências dominantes e interprete suas descobertas.
11. Considere a série observada X t ser composta de um sinal periódico e ruído, podendo ser escrita como
X t = β 1cos(2π ω kt) + β 2sin(2π ω kt) + W t,
2
onde W t é um processo de ruído branco com variância σ . Suponha que consideremos estimar β 1, β 2 e
W
2
σ por mínimos quadrados ou equivalentemente, por máxima verossimilhança se W t for assumido
W
como Gaussiano.
(a) Prove, para ω k fixo, o erro quadrático mínimo é atingido por
() ( )
β̂ 1
β̂ 2
=
√n
2 d c(ω k)
d s(ω k)
,
onde as transformadas cosseno e seno na Definição IV.3 aparecem no lado direito.

(b) Prove que a soma dos quadrados dos erros pode ser escrita como
SSE = ∑ x 2t − 2I X(ω k),

t=1
de modo que o valor de ω k que minimiza o erro quadrático é o mesmo que o valor que maximiza
o estimador do periodograma I(\omega_j) = \big| d(\omega_j)\big|^2.
(c) Sob a suposição Gaussiana e com \omega_k fixo, mostre que o teste F de nenhuma
regressão leva a uma estatística F que é uma função monótona de I_X(\omega_k).
12. Prove a propriedade de convolução da tranformada discreta de Fourier, ou seja \begin{equation*}

\sum_{s=1}^n a_s X_{t-s} \, = \, \sum_{k=0}^{n-1} d_A(\omega_k)d_X(\omega_k)\exp( 2\pi \,
\omega_k t), \end{equation*} para t = 1,2,\cdots,n, onde d_A(\omega_k) e d_X(\omega_k) são as
transformadas discretas de Fourier de a_t e X_t, respectivamente e assumimos que X_t = X_{t + n}
é periódica.
13. Analise os dados do preço do frango (chicken) usando um procedimento de estimação espectral não
paramétrica. Além do ciclo anual óbvio descoberto no Exemplo II.5, que outros ciclos interessantes
são revelados?
14. Repita o Problema IV.3.1 usando um procedimento de estimação espectral não paramétrica. Além de
discutir suas descobertas em detalhes, comente sobre sua escolha de uma estimação espectral com
relação a suavização e redução.
15. Repita o Problema IV.3.2 usando um procedimento de estimação espectral não paramétrica. Além de
discutir suas descobertas em detalhes, comente sobre sua escolha de uma estimação espectral com
relação a suavização e redução.
16. Análise Cepstral. O comportamento periódico de uma série temporal induzida por ecos também
pode ser observado no espectro da série; este fato pode ser visto a partir dos resultados declarados
no Exercício IV.2.3. Usando a notação desse problema, suponha que observamos \begin{equation}
X_t \, = \, S_t + A S_{t-D} + \eta_t, \end{equation} o que implica que os espectros satisfazem
\begin{equation} f_{_X}(\omega) \, = \, \Big(1 + A^2 + 2A\cos\big(2\pi \omega D\big)\Big)f_{_S}
(\omega) + f_{\eta}(\omega)\cdot \end{equation} Se o ruído for insignificante, ou seja, se f_{\eta}
(\omega)\approx 0, então \log\big(f_{_X}(\omega)\big) é aproximadamente a soma de um
componente periódico, \begin{equation} \log\Big(1 + A^2 + 2A\cos\big(2\pi \omega D\big)\Big)
\end{equation} e \begin{equation} \log\big(f_{_S}(\omega)\big)\cdot \end{equation} Bogart et al.
(1962) propuseram tatar o espectro do logaritmo sem tendência como uma pseudo série temporal e
calcular seu espectro ou cepstrum, que deve mostrar um pico em uma quefrência correspondente a
1/D. O cepstrum pode ser plotado como uma função da quefrência, a partir do qual o atraso D pode
ser estimado.
Para a série de fala apresentada no Exemplo I.3, estime o período de pico usando a análise cepstral
Processing math: 87% como segue. Os dados estão na spreech.
(a) Calcule e exiba o log-periodograma dos dados. O periodograma é periódico, conforme

previsto?
(b) Realize uma análise cepstral ou espectral no periodograma registrado sem tendência e use os
resultados para estimar o atraso D. Como sua resposta se compara à análise do Exemplo I.27,
que foi baseado na ACF?
17. Utilize o Teorema IV.2 para demonstrar que \begin{equation} \mbox{E}(I_{_Y}(\omega_j)) \, = \,

\int_{-\frac{1}{2}}^\frac{1}{2} W_n(\omega_j-\omega)f_{_X}(\omega)\mbox{d}\omega\cdot
\end{equation}
18. Demonstre que \begin{equation*} W_n(\omega) \, = \, \dfrac{\sin^2(n\pi\omega)}

{n\sin^2(\pi\omega)}, \end{equation*} com W_n(0)=n, que é conhecido como kernel de Fejér ou
kernel Bartlett modificado. Prove também que \begin{equation*} W_n(\omega) \, = \, \frac{1}
{nL}\sum_{k=-m}^m \dfrac{\sin^2\big(n\pi(\omega+k/n) \big)}{\sin^2\big(
\pi(\omega+k/n)\big)}\cdot \end{equation*}
19. Considere as duas séries temporais \begin{equation} X_t \, = \, W_t - W_{t-1}, \end{equation} e
\begin{equation} Y_t \, = \, \frac{1}{2}\big( W_t+W_{t-1}\big), \end{equation} formadas a partir
da série de ruído branco W_t com variância \sigma^2_{_W} = 1.
(a) São X_t e Y_t conjuntamente estacionárias? Lembre-se de que a função de covariância
cruzada também deve ser uma função apenas da defasagem h e não pode depender do tempo.
(b) Calcule os espectros f_{_Y}(\omega) e f_{_X}(\omega) e comente sobre a diferença entre
os dois resultados.
(c) Suponha que o estimador espectral amostral \overline{f}_{_Y}(0.10) seja calculado usando
L = 3. Encontre a e b tais que \begin{equation} P\left(a\leq \overline{f}_{_Y}(0.10)\leq b
\right) \, = \, 0.90\cdot \end{equation} Esta expressão fornece dois pontos que conterão 90%
dos valores espectrais da amostra. Coloque 5% da área em cada cauda.
20. Os dados no arquivo climhyd contém 454 meses de valores medidos para as variáveis climáticas:
temperatura do ar (Temp), ponto de orvalho (DewPt), cobertura de nuvens (CldCvr), velocidade do
vento (WndSpd), precipitação (Precip) e influxo (Inflow), no Lago Shasta; os dados são exibidos na
Figura VII.3. Gostaríamos de examinar as possíveis relações entre os fatores climáticos e o influxo
para o Lago Shasta.
(a) Ajuste um modelo ARIMA(0,0,0)\times (0,1,1)_{12} para (i) a precipitação transformada P_t
= \sqrt{\mbox{Precip}} e (ii) influxo transformado I_t = \ln(\mbox{Inflow}).
(b) Calcule as coerências quadradas entre todas as variáveis meteorológicas e o influxo
transformado e argumente que o determinante mais forte da série de influxo é a precipitação
(transformada). Dica: se x contiver várias séries temporais, a maneira mais fácil de exibir todas
as coerências quadradas é graficar as coerências suprimindo os intervalos de confiança, por
exemplo, \begin{equation} \mbox{mvspec(x, spans=c(7,7), taper=.5, plot.type="coh",
ci=-1)}\cdot \end{equation}
(c) Ajuste um modelo de regressão defasada da forma \begin{equation} I_t =
\beta_0+\sum_{j=0}^\infty \beta_j P_{t-j}+\omega_t, \end{equation} usando limiarização e
depois comentar a capacidade preditiva da precipitação para o influxo.
21. Freqüentemente, as periodicidades nas séries de manchas solares são investigadas ajustando-se um
espectro autorregressivo de ordem suficientemente alta. A periodicidade principal costuma ser em
torno de 11 anos. Ajuste um estimador espectral autoregressivo aos dados de manchas solares
usando um método de seleção de modelos de sua escolha. Compare o resultado com um estimador
espectral não paramétrico convencional encontrado no Exercício 1, Seção IV.3.
22. Analise os dados do preço do frango (chicken) usando um procedimento de estimação espectral
paramétrica. Compare os resultados com os do Exercício 1, Seção IV.4.
23. Ajuste um estimador espectral autorregressivo à série de recrutamento e compare-o com os

resultados do Exemplo IV.16.
24. Suponha que uma série temporal amostrada com n = 256 pontos esteja disponível seguindo o modelo
autorregressivo de primeira ordem. Além disso, suponha que o espectro amostral calculado com L = 3
produza o valor estimado \overline{f}_{_X}(1/8) = 2.25. Este valor amostral é consistente com
\sigma_{_W}^2 = 1 e \phi =0.5? Repita usando L = 11 se apenas obtivermos o mesmo valor da
amostra.
25. Suponha que desejamos testar a hipótese de ruído sozinho H_0 \, : \, X_t = \eta_t contra a hipótese
de sinal mais ruído H_1 \, : \, X_t = S_t + \eta_t, onde S_t e \eta_t são processos estacionários de
média zero não correlacionados com espectros f_{_S}(\omega) e f_{_\eta}(\omega). Suponha que
você queira o teste em uma banda de L = 2m + 1 frequências da forma \omega_{j:n} + k/n; para k
= 0,\pm 1,\pm 2,\cdots,\pm m perto de alguma frequência fixa \omega. Suponha que os espectros
de sinal e ruído sejam aproximadamente constantes ao longo do intervalo.
(a) Prove que a estatística de teste baseada na verossimilhança aproximada para testar H_0
contra H_1 é proporcional a \begin{equation} T \, = \, \sum_k |d_X(w_{j:n}+k/n)|^2\left(
\dfrac{1}{f_{_\eta}(\omega)} -\dfrac{1}{f_{_S}(\omega)+f_{_\eta}(\omega)}\right)\cdot
\end{equation}
(b) Encontre as distribuições aproximadas de T sob H_0 e H_1.
(c) Defina as probabilidades de falso alarme e detecção de sinal como P_F = P(T> K \, | \, H_0)
e P_d = P(T> k \, | \, H_1), respectivamente. Expresse essas probabilidades em termos da razão
sinal-ruído f_{_S}(\omega)/f_{_\eta}(\omega) e integrais qui-quadradas apropriadas.
26. Analise a coerência entre os dados de temperatura e sal discutidos no Exercício 2 da Seção IV.3.
Discuta suas descobertas.
27. Considere dois processos: \begin{equation*} X_t \, = \, W_t \qquad \mbox{ e } \qquad Y_t \, = \,
\phi X_{t-D}+\nu_t, \end{equation*} onde W_t e \nu_t são processos de ruído branco
independentes com variância comum \sigma^2, \phi é uma constante e D é um atraso inteiro fixo.
(a) Calcule a coerência entre X_t e Y_t.
(b) Simule n = 1024 observações normais de X_t e Y_t para \phi =0.9, \sigma^2 = 1 e D = 0.
Em seguida, estime e mostre a coerência entre as séries simuladas para os seguintes valores de
L e comente:
(i) L=1, (ii) L=3, (iii) L=41 e (iv) L=101.
28. Considere o processo \begin{equation*} X_t \, = \, W_t \qquad \mbox{ e } \qquad Y_t \, = \, \phi
X_{t-D}+V_t \end{equation*} onde W_t e V_t são processos de ruído branco independentes com
variância comum \sigma^2, \phi é uma constante e D é um atraso inteiro fixo.
(a) Calcule a fase entre X_t e Y_t.
(b) Simule n=1024 observações de X_t e Y_t para \phi=0.9, \sigma^2=1 e D=1. Em seguida,
estime e mostre a fase entre as séries simuladas para os seguintes valores de L e comente:
(i) L=1, (ii) L=3, (iii) L=41 e (iv) L=101.
29. Considere os registros da série temporal bivariada contendo a produção mensal dos EUA (prod)
conforme medido pelo Índice de Produção do Federal Reserve Board e a série mensal de desemprego
(unemp).
(a) Calcule o espectro e o espectro do logaritm para cada série e identifique picos
estatisticamente significativos. Explique o que pode estar gerando os picos. Calcule a coerência e
explique o que significa quando uma alta coerência é observada em uma determinada
frequência.
(b) Qual seria o efeito da aplicação do filtro \begin{equation*} U_t \, = \, X_t - X_{t-1} \qquad
\mbox{seguido de} \qquad V_t \, = \, U_t-U_{t-12} \end{equation*} para a série dada acima?
Trace as respostas de frequência previstas do filtro de diferença simples e da diferença sazonal
da primeira diferença.
(c) Aplique os filtros sucessivamente a uma das duas séries e mostre a saída. Examine a saída
depois de fazer uma primeira diferença e comente se a estacionariedade é uma suposição
razoável. Por que ou por que não? Trace depois de tirar a diferença sazonal da primeira
diferença. O que pode ser notado sobre a saída que é consistente com o que voê previu a partir
da resposta de frequência? Verifique calculando o espectro da saída após a filtragem.
30. Determine o espectro de potência teórico da série formada combinando a série de ruído branco W_t
para formar \begin{equation*} Y_t \, = \, W_{t-2}+4 W_{t-1}+6 W_t + 4 W_{t+1} +
W_{t+2}\cdot \end{equation*} Determine quais frequências estão presentes traçando o espectro de
potência.
31. Seja X_t=\cos\big( 2\pi\omega t\big) e considere a saída \begin{equation*} Y_t \, = \, \sum_{k=-
\infty}^\infty a_k X_{t-k}, \end{equation*} onde \sum_k |a_k|<\infty. Prove que \begin{equation*}
Y_t \, = \, |A(\omega)|\cos\big( 2\pi \omega t+\phi(\omega)\big), \end{equation*} onde
|A(\omega)| e \phi(\omega) são a amplitude e a fase do filtro, respectivamente. Interprete o
resultado em termos da relação entre a série de entrada X_t e a série de saída Y_t.
32. Suponha que X_t seja uma série estacionária e aplicamos duas operações de filtragem em sucessão,
digamos, \begin{equation*} Y_t \, = \, \sum_r a_r X_{t-r} \qquad \mbox{ depois } \qquad Z_t \, =
\, \sum_s b_s Y_{t-s}\cdot \end{equation*}

(a) Mostre que o espectro da saída é \begin{equation*} f_{_Z}(\omega) \, = \, |A(\omega)|^2
|B(\omega)|^2 f_{_X}(\omega), \end{equation*} onde A(\omega) e B(\omega) são as
transformadas de Fourier das sequências de filtro a_t e b_t, respectivamente.
(b) Qual seria o efeito da aplicação do filtro \begin{equation*} U_t \, = \, X_t-X_{t-1}, \qquad
\mbox{seguido de} \qquad V_t \, = \, U_t-U_{t-12}, \end{equation*} para uma série temporal?
(c) Trace as respostas de frequência previstas do filtro de diferença simples e da diferença
sazonal da primeira diferença. Filtros como esses são chamados de filtros de ajuste sazonal em
economia porque tendem a atenuar frequências em múltiplos dos períodos mensais. O filtro de
diferença tende a atenuar tendências de baixa frequência.
33. Suponha que recebamos uma série de média zero estacionária X_t com espectro f_{_X}(\omega) e,
em seguida, construamos a série derivada \begin{equation*} Y_t \, = \, aY_{t-1}+X_t, \qquad
t=\pm 1,\pm 2,\cdots \cdot \end{equation*}
(a) Mostre como o espectro f_{_Y}(\omega) teórico está relacionado com f_{_X}(\omega).
(b) Trace a função que multiplica f_{_X}(\omega) na parte (a) para a =0.1 e para a =0.8. Este
filtro é denominado filtro recursivo.
34. Considere o problema de aproximar a saída do filtro \begin{equation*} Y_t \, = \, \sum_{k=-

\infty}^\infty a_k X_{t-k}, \qquad \sum_{-\infty}^\infty |a_k|<\infty, \end{equation*} por
\begin{equation*} Y_t^M \, = \, \sum_{|k| < M/2} a_k^M X_{t-k}, \end{equation*} para t=M/2-
1,M/2,\cdots,n-M/2, onde X_t está disponível para t=1,\cdots,n e \begin{equation*} a_t^M \, = \,
\dfrac{1}{M}\sum_{k=0}^{M-1} A(\omega_k)\exp\big(2\pi \, i\omega_k t \big), \end{equation*}
com \omega_k=k/M. Prove que \begin{equation*} \mbox{E}\big( (Y_t-Y_t^M)^2 \big) \, \leq \,
4\gamma_{_X}(0)\left( \sum_{|k| > M/2} |a_k|\right)^2\cdot \end{equation*}
35. Prove que a coerência quadrada \rho_{_{Y,X}}^2(\omega)=1, para todo \omega, quando
\begin{equation*} Y_t \, = \, \sum_{r=-\infty}^{\infty} a_r X_{t-r}, \end{equation*} isto é,
quando X_t e Y_t podem ser relacionados exatamente por um filtro linear.
36. O conjunto de dados climhyd contém 454 meses de valores medidos para seis variáveis climáticas:
(i) Temp: temperatura do ar,
(ii) DewPt: ponto de orvalho,
(iii) CldCvr: cobertura de nuvens,
(iv) WndSpd: velocidade do vento,
(v) Precip: precipitação,
(vi) Influxo: influxo,
no Lago Shasta na Califórnia; os dados são exibidos na Figura VII.3.
Gostaríamos de examinar as possíveis relações entre os fatores climáticos e entre os fatores
climáticos e o influxo para o Lago Shasta.
(a) Primeiro transforme as séries de influxo e precipitação da seguinte forma: I_t = \log(i_t),
onde i_t é o influxo e P_t =\sqrt{p_t}, onde p_t é a precipitação. Em seguida, calcule as
coerências quadradas entre todas as variáveis climáticas e o influxo transformado e argumente
que o determinante mais forte da série de influxo é a precipitação (transformada).
Dica: se x contiver várias séries temporais, a maneira mais fácil de exibir todas as coerências
quadradas é plotar as coerências suprimindo os intervalos de confiança, por exemplo,
> mvspec (x, spans = c(7,7), taper = .5, plot.type = "coh", ci = -1)
(b) Ajustar um modelo de regressão defasada da forma \begin{equation*} I_t \, = \, \beta_0 +

\sum_{j=0}^\infty \beta_j P_{t-j}+W_t, \end{equation*} usando limiares e, em seguida,
comente sobre a capacidade preditiva da precipitação para o influxo.
37. Considere o modelo de sinal mais ruído \begin{equation*} Y_t \, = \, \sum_{r=-\infty}^\infty

\beta_r X_{t-r} + V_t, \end{equation*} onde as séies de sinal e ruído, X_t e V_t são estacionárias
com espectros f_{_X}(\omega) e f_{_V}(\omega), respectivamente. Assumindo que X_t e V_t sejam
independentes um do outro para todo t, verifique que \begin{equation} f_{_{X,Y}}(\omega) \, = \,
B^*(\omega)f_{_{X,X}}(\omega) \end{equation} e \begin{equation} f_{_{Y,Y}}(\omega) \, = \,
|B(\omega)|^2f_{_{X,X}}(\omega)+f_{_{V,V}}(\omega)\cdot \end{equation}
38. Considere o modelo \begin{equation*} Y_t \, = \, X_{t}+V_t, \end{equation*} onde

\begin{equation} X_t \, = \, \phi X_{t-1}+W_t, \end{equation} tal que V_t é ruído branco gaussiano
Processing math: 87% e independente de X_t com \mbox{Var}(V_t) = \sigma^2_{_V} e W_t é ruíído branco gaussiano e
independente de V_t, com \mbox{Var}(W_t) = \sigma^2_{_W} e |\phi|<1 e \mbox{E}(X_0)=0.

Prove que o espectro da série observada Y_t é \begin{equation} f_{_Y}(\omega) \, = \, \sigma^2
\dfrac{|1-\theta e^{-2\pi \, i \, \omega}|^2}{|1-\phi e^{-2\pi \, i \, \omega}|^2}, \end{equation}
onde \begin{equation} \theta \, = \, \dfrac{c\pm \sqrt{c^2-4}}{2}, \qquad \sigma^2 \, = \,
\dfrac{\sigma^2_{_V}\phi}{\theta} \end{equation} e \begin{equation} c \, = \,
\dfrac{\sigma^2_{_W}+\sigma^2_{_V}(1+\phi^2)}{\sigma^2_{_V}\phi}\cdot \end{equation}
39. Considere o mesmo modelo do problema anterior.

(a) Prove o estimador suavizado ideal da forma \begin{equation} \widehat{X}_t \, = \,
\sum_{s=-\infty}^\infty a_s Y_{t-s} \end{equation} tem \begin{equation} a_s \, = \,
\dfrac{\sigma^2_{_W}\theta^{|s|}}{\sigma^2(1-\theta^2)}\cdot \end{equation}
(b) Mostre que o erro quadrético médio é dado por \begin{equation*} \mbox{E}\Big( \big(X_t-
\widehat{X}_t\big)^2\Big) \, = \, \dfrac{\sigma^2_{_W}\sigma^2_{_V}}{\sigma^2(1-
\theta^2)}\cdot \end{equation*}
(c) Compare o erro quadrático médio do estimador na parte (b) com aquele do estimador finito
ótimo da forma \begin{equation} \widehat{X}_t \, = \, a_1 Y_{t-1}+a_2 Y_{t-2},
\end{equation} quando \sigma^2_{_V}=0.053, \sigma^2_{_W}=0.172 e \phi_1=0.9.
40. Considere o filtro linear bidimensional \displaystyle Y_{s_1,s_2} = \sum_{u_1}\sum_{u_2}

a_{u_1,u_2}X_{s_1-u_1,s_2-u_2}.
(a) Expresse a função de autocovariância bidimensional \gamma_{_Y}(h_1,h_2), em termos de
uma soma infinita envolvendo a função de autocovariância de X_s e os coeficientes do filtro
a_{s_1,s_2}.
(b) Use a expressão derivada em (a), combinada com as expressões de \gamma_{_X}(h_1,h_2)
e A(\omega_1,\omega_2) para derivar o espectro da saída filtrado f_{_Y}
(\omega_1,\omega_2).

Análise espectral e filtragem de séries temporais

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise espectral e filtragem de séries temporais

Enviado por

Direitos autorais:

Formatos disponíveis

16/02/23, 19:52 Análise espectral e filtragem

Análise de Séries Temporais

Capítulo IV. Análise espectral e filtragem

Capítulo IV. Análise espectral e filtragem

IV.1 Comportamento cíclico e periodicidade

X t = U 1cos (2πωt ) + U 2sin (2πωt ),

γ (h) = Cov(X t + h, X t) = Cov (U 1c t + h + U 2s t + h, U 1c t + U 2s t )

Assim, se observarmos U 1 = a e U 2 = b, uma estimativa de σ 2 é a variância amostral dessas duas observações,

Xt = ∑ (U k1cos (2πω kt ) + U k2sin (2πω kt ) ),

Processing math: 87%

Pode-se mostrar que a função de autocovariância do processo é

Como no caso simples, se observarmos U k1 = a k e U k2 = b k para k = 1, ⋯, q, então uma estimativa do k-ésimo

Agarre-se a esta ideia porque vamos usá-la no Exemplo IV.2.

Exemplo IV.1. Uma série periódica.

X t1 = 2cos (2πt6 / 100 ) + 3sin (2πt6 / 100 )

X t2 = 4cos (2πt10 / 100 ) + 5sin (2πt10 / 100 )

X t3 = 6cos (2πt40 / 100 ) + 7sin (2πt40 / 100 )

Processing math: 87%

Para mostrar os dados digite os seguintes comandos:

> x1 = 2*cos(2*pi*1:100*6/100) + 3*sin(2*pi*1:100*6/100)

Exemplo IV.2. Estimação e periodograma.

Se n é par, a representação acima pode ser modificada somando n / 2 − 1 e adicionando um componente

Em seguida, definimos o periodograma escalonado como sendo

O periodograma escalado é simplesmente a variância amostral em cada componente de frequência e,

para j = 0, 1, ⋯, n − 1, onde as frequências j / n são as frequências de Fourier ou frequências

e é essa quantidade chamada de periodograma.

Podemos calcular o periodograma escalonado, utilizando o periodograma como

P(j / n) = P(1 − j / n), j = 0, 1, ⋯, n − 1,

então há um efeito de espelhamento na frequência de dobramento de 1/2; consequentemente, o

Figura IV.2: O períodograma escalonado dos dados gerados no Exemplo IV.1.

> P = Mod(2*fft(x)/100)^2; Fr = 0:99/100

Exemplo IV.3. Magnitude da Estrela.

O periodograma para frequências inferiores a 0.08 também é exibido na figura; as ordenadas do

Figura IV.3: Magnitudes de estrelas e parte do periodograma correspondente.

O código R para reproduzir a figura é

IV.2 A densidade espectral

Exemplo IV.4. Um processo estacionário periódico.

Considere um processo aleatório estacionário periódico, com uma frequência fixa ω 0,

X t = U 1cos (2πω 0 t ) + U 2sin (2πω 0 t ),

Processing math: 87%

Teorema IV.1. Representação Espectral de uma Função de Autocovariância.

γ(h) = ∫ 2− 1 exp (2π iω h )dF(ω) ⋅

Demonstração Ver Teorema C.1 ▉

Teorema IV.2. A Densidade Espectral.

Se a função de autocovariância γ(h), de um processo estacionário satisfaz

então tem a representação

γ(h) = ∫ 2− 1 exp (2π iω t )f(ω)dω, h = 0, ± 1, ± 2, ⋯,

como a transformação inversa da densidade espectral,

f(ω) = ∑ γ(h)exp ( − 2π iω t ), − 1/2 ≤ ω ≤ 1/2 ⋅

Demonstração Ver Teorema C.1 ▉

γ(0) = Var(X t) = ∫ 2− 1 f(ω)dω,

expressa informações em termos de atrasos, enquanto a distribuição espectral expressa as mesmas

condição, no entanto, é satisfeita para os modelos ARMA.

É esclarecedor examinar a densidade espectral da série que examinamos em discussões anteriores.

Exemplo IV.5. Série de ruído branco.

para − 1 / 2 ≤ ω ≤ 1 / 2. Portanto, o processo contém poder igual em todas as frequências. Esta

reproduzir a figura é dado no final do Exemplo IV.7.

temos o seguinte resultado.

Teorema IV.3. Espectro de saída de uma série estacionária filtrada.

Processing math: 87%

f (ω) = | A(ω) | 2f (ω),

onde a função de resposta de frequência A(ω) é definida como A(ω) = ∑ a je − 2π i ωj, .

Demonstração Consideremos a saída filtrada dada por

> x1 = 2cos(2pi1:1006/100) + 3sin(2pi1:1006/100)