Modelo Nelson Siegel

FUNDAÇÃO GETULIO VARGAS
ESCOLA DE PÓS GRADUAÇÃO EM ECONOMIA
Fernando Daitx
Dois modelos de controle de risco:
O modelo Nelson- Siegel dinâmico e o cálculo de VaR por

modelos GARCH
Rio de Janeiro
2015
FUNDAÇÃO GETULIO VARGAS
ESCOLA DE PÓS GRADUAÇÃO EM ECONOMIA
Fernando Daitx
Dois modelos de controle de risco:
O modelo Nelson- Siegel dinâmico e o cálculo de VaR por

modelos GARCH
Dissertação apresentada para obtenção
do grau de mestre à Escola de
Pós-Graduação em Economia
Orientador: Caio Ibsen
Rodrigues de Almeida
Rio de Janeiro
2015
Ficha catalográfica elaborada pela Biblioteca Mario Henrique Simonsen/FGV
Daitx, Fernando
Dois modelos de controle de risco: o modelo Nelson-Siegel dinâmico e o
cálculo de VaR por modelos GARCH / Fernando Daitx. – 2015.
58 f.
Dissertação (mestrado) - Fundação Getulio Vargas, Escola de Pós-Graduação

em Economia.
Orientador: Caio Ibsen Rodrigues de Almeida.
Inclui bibliografia.
1. Taxas de juros. 2. Risco (Economia). 3. Modelos matemáticos. I. Almeida,

Caio Ibsen Rodrigues de. II. Fundação Getulio Vargas. Escola de Pós-Graduação
em Economia. III.Título.
CDD – 332.8
Sumário
1. Resumo ............................................................................................................................. 1
2. Introdução ......................................................................................................................... 2
3. Dynamic Nelson Siegel ..................................................................................................... 6
3.1. Dinâmica dos fatores ................................................................................................. 7
3.2. A importância do lambda ........................................................................................... 9
3.3. Resultados do modelo que replicam fatos estilizados do mundo real ........................... 9
3.4. Métodos de estimação .............................................................................................. 10
3.4.1. Método por dois estágios .................................................................................. 10
3.4.2. Método por um estágio ..................................................................................... 11
3.5. Gerenciamento de risco............................................................................................ 11
3.6. Outras versões ......................................................................................................... 13
3.6.1. Svensson .......................................................................................................... 13
3.6.2. Svensson Ajustado ........................................................................................... 14
3.6.3. Björk & Christensen......................................................................................... 14
3.6.4. Bliss ................................................................................................................ 15
3.6.5. Introdução de componentes macro ................................................................... 15
3.6.6. DNS livre de arbitragem .................................................................................. 17
4. Estimação e Previsão do modelo Nelson-Siegel dinâmico ................................................ 22
5. Modelos autoregressivos de heterocedasticidade condicional ........................................... 30
5.1. ARCH ..................................................................................................................... 31
5.2. GARCH .................................................................................................................. 33
5.3. Extensões do modelo GARCH univariado................................................................ 34
5.3.1. IGARCH ......................................................................................................... 34
5.3.2. EGARCH ........................................................................................................ 35
5.3.3. TGARCH ........................................................................................................ 35
5.3.4. QGARCH ........................................................................................................ 35
5.3.5. GJR-GARCH ................................................................................................... 35
5.4. Modelos GARCH multivariados .............................................................................. 35
5.4.1 VEC ................................................................................................................ 36
5.4.2. DVEC .............................................................................................................. 37
5.4.3. BEKK .............................................................................................................. 37
5.4.4. CCC ................................................................................................................ 37
5.4.5. DCC ................................................................................................................ 38
5.4.6. AsyDCC .......................................................................................................... 38
5.5. Método de Estimação .............................................................................................. 39
6. VaR ................................................................................................................................ 41
7. Estimação e Previsão do VaR com modelos GARCH ...................................................... 44
8. Modelos conjuntos .......................................................................................................... 47
9. Conclusão ....................................................................................................................... 49
10. Bibliografia ................................................................................................................. 51
1. Resumo
A presente dissertação tem como objetivo apresentar dois importantes modelos usados na
análise de risco. Essa análise culmina em uma aplicação empírica para cada um deles.
Apresenta-se primeiro o modelo Nelson-Siegel dinâmico, que estima a curva de juros
usando um modelo paramétrico exponencial parcimonioso. É citada a referência criadora
dessa abordagem, que é Nelson & Siegel (1987), passa-se pela apresentação da mais
importante abordagem moderna que é a de Diebold & Li (2006), que é quem cria a
abordagem dinâmica do modelo Nelson-Siegel, e que é inspiradora de diversas extensões.
Muitas dessas extensões também são apresentadas aqui.
Na parte empírica, usando dados da taxa a termo americana de Janeiro de 2004 a Março
de 2015, estimam-se os modelos Nelson-Siegel dinâmico e de Svensson e comparam-se
os resultados numa janela móvel de 12 meses e comparamos seus desempenhos com
aqueles de um passeio aleatório.
Em seguida, são apresentados os modelos ARCH e GARCH, citando as obras originais
de Engle (1982) e Bolleslev (1986) respectivamente, discutem-se características destes
modelos e apresentam-se algumas extensões ao modelo GARCH, incluindo aí alguns
modelos GARCH multivariados.
Passa-se então por uma rápida apresentação do conceito de VaR (Value at Risk), que será
o objetivo da parte empírica. Nesta, usando dados de 02 de Janeiro de 2004 até 25 de
Fevereiro de 2015, são feitas uma estimação da variância de um portfólio usando os
modelos GARCH, GJR-GARCH e EGARCH e uma previsão do VaR do portfólio a partir
da estimação feita anteriormente.
Por fim, são apresentados alguns trabalhos que usam os dois modelos conjuntamente, ou
seja, que consideram que as taxas ou os fatores que as podem explicam possuem variância
variante no tempo.
Palavras-chave: Taxa a termo, Modelo Nelson-Siegel dinâmico, Modelo de Svensson,

VaR, GARCH
1
2. Introdução
A presente dissertação tem como objetivo apresentar dois importantes modelos usados na
análise de risco. Essa análise culmina em uma aplicação empírica para cada um deles.
Na primeira parte, apresenta-se o modelo Nelson-Siegel dinâmico e algumas de suas
extensões.
É inegável a importância da estimação da curva de juros para análises econômicas em
geral e muito especialmente na análise de risco. O modelo Nelson-Siegel dinâmico
consegue tal intento por meio de um modelo de três fatores parcimonioso.
Gerada no clássico trabalho de Nelson & Siegel (1987), essa abordagem foi melhorada e
conheceu sua mais exitosa versão por meio de Diebold & Li (2006). Esses autores usaram
as bases do modelo original e melhoraram-no ao torná-lo dinâmico. Propuseram para os
fatores latentes, que explicam a curva de juros, uma dinâmica autoregressiva, por meio
de um VAR(1).
Evidentemente que o êxito supracitado levou a diversos estudos complementares, críticas
e extensões ao modelo. Em relação a essas extensões, elas podem ser divididas
basicamente em três tipos: (i) Mudanças paramétricas, (ii) introdução de fatores
macroeconômicos e (iii) garantia de não arbitragem. Faz-se necessário aqui deixar claro
que essas extensões não são auto-excludentes, mas antes, que são complementares. De
fato, muitos dos trabalhos que apresentam novas extensões usam de alguma maneira
extensões apresentadas em período anterior.
As mudanças paramétricas buscam uma melhor performance de estimação do modelo
Nelson-Siegel dinâmico mudando os fatores e/ou os coeficientes, como pode-se supor.
A mais interessante e mais utilizada contribuição nesse sentido é a versão dinamizada de
Svensson (1994). Esta, apresenta uma estrutura similar ao modelo de Diebold & Li
(2006), salvo pela existência de um quarto fator na estimação da curva de juros. Este novo
fator serviria para aprimorá-la nas maturidades mais longínquas da curva, para além de
120 meses.
De Pooters (2007) ainda propôs sua própria extensão ao modelo de Svensson,
introduzindo restrições que evitassem erros de estimação.
Outras contribuições do tipo (i) foram dadas por inúmeros autores e são evidenciados
aqui com mais clareza os trabalhos de Bliss (1997) e de Björk & Christensen (1999), que,
por sua vez, tiveram impacto menor na literatura.
Sobre a introdução de fatores macroeconômicos, ela se deve basicamente à inegável
ligação entre macroeconomia e a curva a termo e inspiram-se sobretudo no já clássico
trabalho de Ang & Piazzesi (2003). Entre as numerosas versões existentes, são
apresentados duas que parecem ser mais relevantes para a literatura.
2
Diebold, Rudebusch e Aruoba (2006) apresentam um modelo tal como aquele de Diebold
& Li (2006), porém introduzem variáveis macroeconômicas, notadamente a capacidade
utilizada na indústria, a federal fund rate e a inflação anual, como fatores na equação da
curva de juros.
Diebold, Li e Yue (2008), por sua vez, mantém a estrutura original de Diebold & Li
(2006) na equação da taxa a termo. A inovação vem com a presença de fatores globais
que passam a influenciar todos os países individualmente.
Sobre (iii), é necessário contextualizar com a forte crítica de Filipovic (1999) sobre os
modelos que se originaram de Nelson & Siegel. De fato, foi provado que se dinamizado
como foi feito por Diebold & Li, o modelo Nelson-Siegel é incapaz de garantir não
arbitragem. Ora, a condição de não arbitragem é ferramenta essencial em finanças,
hipótese basilar para boa parte da teoria na área. Assim, buscou-se um modelo que unisse
os bons resultados empíricos, como aqueles obtidos pelo Nelson-Siegel dinâmico com a
solidez de uma base teórica que garanta não arbitragem.
Christensen, Diebold e Rudebusch (2011) respondem a essa demanda a partir de um
modelo afim livre de arbitragem, cujos parâmetros são manipulados de maneira a criar
uma curva de juros o mais próximo possível daquela apresentada por Diebold & Li
(2006). Eles chegam então a uma equação idêntica àquela, salvo por um termo de ajuste.
Na parte empírica, usando dados da taxa a termo americana de Janeiro de 2004 a Março
de 2015, estimam-se os modelos Nelson-Siegel dinâmico e Svensson numa janela móvel
de 12 meses e comparamos seus desempenhos com aqueles de um passeio aleatório.
Essa estimação parece interessante por duas razões básicas. Em primeiro lugar, contém
dados muito recentes da curva de juros e que portanto, dificilmente foram testados por
meio dessa modelagem. Em segundo lugar, contém uma variedade alta da taxa de juros,
partindo de um momento de taxas mais altas e chegando a taxas muito próximas do zero-
lower bound no final do período.
Na segunda parte, são apresentados os modelos ARCH e GARCH e algumas extensões,
tanto univariadas quanto multivariadas. Por fim, antes de apresentar a aplicação empírica,
é introduzido rapidamente o importante conceito de VaR, medida fundamental na
medição de risco.
A existência de clusterização das variâncias nas séries temporais em finanças sempre foi
um problema. De fato, sempre foi fato estilizado que os retornos diários de ativos
financeiros desviavam consistentemente da distribuição normal iid, que se supunha em
geral.
Nesse sentido, a literatura dos modelos ARCH surge com Engle (1982), que apresenta o
modelo ARCH e suas características, além de uma aplicação empírica no estudo da
inflação no Reino Unido.
Entretanto, é notório que o modelo ARCH, tal como apresentado por Engle, apresenta
alguns problemas empíricos, notadamente, o alto número de lags necessários para uma
boa estimação além da constante presença de termos de ajuste que impeçam que a
variância assuma valores negativos. Era necessário chegar a um modelo mais
parcimonioso que replicasse as boas características do ARCH.
3
Assim, Bollerslev (1986) apresenta o modelo GARCH, uma generalização do modelo
ARCH que além de ser mais geral, é mais parcimonioso. De fato, enquanto não era
incomum a utilização de 12 lags no modelo ARCH, o modelo GARCH mais usado é o
GARCH(1,1). Ele apresenta bons resultados de estimação além de ter boas características.
Em especial, implica que a curtose dos erros seja maior que a normal iid.
As extensões ao GARCH, e portanto ao ARCH, que surgem a partir daí, são introduzidas
como resposta a deficiências teóricas desse modelo. Em especial, podemos elencar duas
fontes de inovação, quais sejam, a inclusão de efeitos assimétricos nas variâncias
dependendo do sinal do erro e a generalização do GARCH para modelos multivariados.
O modelo GARCH original não consegue replicar o efeito assimetria que a variância
apresenta. É fato estilizado que choques negativos nos retornos, por exemplo, tendem a
gerar aumentos na variância maiores que choques positivos.
Nesse sentido surgiram uma série de extensões ao modelo GARCH que replicam esse
efeito. Entre eles, destacam-se o modelo EGARCH de Nelson (1990), o TGARCH de
Zakoian (1994), o Q-GARCH de Sentana(1995) e o GJR-GARCH de Glosten,
Jagannathan e Runkle (1993), que são aqui apresentados.
Em relação aos modelos multivariados, é necessário dizer que os modelos GARCH
univariados apresentam dificuldade em conseguir estimar a variância de portfolios. Em
especial, eles servem muito pouco a gerenciamento de risco, pois devem ser reestimados
a cada mudança de pesos nos ativos de um portfólio, por desconsiderarem as correlações
entre os ativos que o formam. Para resolver esse problema, propuseram-se vários modelos
GARCH multivariados que modelam a variância de um portfólio e dão mais flexibilidade
à estimação.
O modelo multivariado inicial foi o modelo VEC de Bollerslev, Engle & Wooldridge
(1988), é uma generalização direta do GARCH para o caso multivariado, que estima
diretamente a matriz de variância condicional considerando séries passadas de todas as
variâncias e covariâncias condicionais, além do quadrado e do produto cruzado dos
retornos na determinação da matriz de covariância condicional atual. Pelo alto número de
parâmetros envolvidos, ainda foram propostas simplificações nesse modelo, como o
modelo DVEC e o BEKK de Engle & Kroner (1995).
Há ainda os modelos multivariados que estimam a variância condicional indiretamente
por meio da matriz de correlação. O primeiro a seguir esse caminho foi Bollerslev (1990),
que apresentou um modelo CCC no qual a matriz de correlação é constante e que as
variâncias condicionais de cada ativo seguem um modelo GARCH. Depois disso, Engle
(2002) generalizou essa abordagem com o modelo DCC, que permite que a matriz de
correlação varie no tempo e a matriz de correlação dos erros padronizados siga uma forma
GARCH. Para fazer frente à mesma crítica do efeito assimetria, existe ainda o modelo
AsyDCC proposto por Cappiello, Engle & Sheppard (2006), que ademais, tem uma
estrutura similar com a do modelo DCC.
É importante evidenciar que esses modelos GARCH são utilizados sobretudo nos
processos de medição e gerenciamento de risco. Nesse contexto, apresenta-se como uma
das ferramentas mais importantes o conceito de VaR. De fato, há livros texto voltados
completamente a esse conceito, vide Jorion (1997). Ele é importante pela sua
4
simplicidade e pelo fato de ser o estimador de risco usado por diversas agências
regulatórias.
Dada a importância deste conceito, fazemos uma estimação e previsão de um VaR para
um portfólio com pesos constantes e iguais entre os ativos. Perceba que essa hipótese é
feita para que possamos fazer a estimação com modelos univariados. Usando dados de
02 de Janeiro de 2004 até 25 de Fevereiro de 2015, são feitas uma estimação da variância
de um portfólio usando os modelos GARCH, GJR-GARCH e EGARCH e uma previsão
do VaR do portfólio a partir da estimação feita anteriormente.
Essa estimação é interessante, não só por calcular o VaR para um período tão recente,
mas também por estimá-lo num período grande variabilidade do mercado, incluindo
períodos de grande choques e outros de calmaria, mas em especial prevendo num período
de alta volatilidade, por exemplo, para o IBOVESPA, um dos componentes do portfólio
considerado.
Por fim, apresentamos alguns trabalhos que usam os dois modelos conjuntamente, ou
seja, que consideram que as taxas ou os fatores que as podem explicam possuem variância
variante no tempo, em especial, os trabalhos de Koopman, Mallee e Wel (2007) e de
Caldeira, Moura e Santos (2013).
5
3. Dynamic Nelson Siegel
Antes de apresentar o modelo de estimação da curva de juros de Nelson-Siegel dinâmico,

é nteressante, como em Diebold & Li (2006), definir a relação entre taxa a termo, forward
e preço de um título sem cupom.
O preço de um ativo sem cupom com maturidade em 𝜏 e taxa a termo contínua 𝑦(𝜏) é:
𝑃(𝜏) = 𝑒 −𝜏𝑦(𝜏)
A definição básica de taxa forward é:
−𝑃′(𝜏)
𝑓 (𝜏 ) =
𝑃 (𝜏 )
As duas equações acima implicam que a taxa a termo tem a seguinte relação com a taxa
forward.
1 𝜏
𝑦(𝜏) = ∫ 𝑓(𝑢)𝑑𝑢
𝜏 0
Ou seja, a taxa a termo é uma média das taxas forward.
O modelo de Nelson Siegel dinâmico, doravante DNS, é um modelo de fatores latentes
que visa estimar e prever a curva de juros. Baseia-se principalmente no modelo
apresentado por Nelson & Siegel (1987)
1 − 𝑒 −𝜆𝜏
𝑦(𝜏) = 𝑏1 + 𝑏2 ( ) − 𝑏3 (𝑒 −𝜆𝜏 )
𝜆𝜏
que foi reformulado em Diebold & Li (2006) na sua versão dinâmica.
1 − 𝑒 −𝜆𝜏 1 − 𝑒 −𝜆𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆𝜏 )
𝜆𝜏 𝜆𝜏
Dado um período de tempo t, os modelos se equivalem com 𝛽1𝑡 = 𝑏1 , 𝑏2 = 𝛽2𝑡 + 𝛽3𝑡 e

𝑏3 = 𝛽3𝑡 .
Ele se diferencia dos modelos afins de não arbitragem, por eventualmente apresentar
oportunidades para que ela aconteça, mas oferece melhores resultados empíricos que
aqueles dos encontrados nos modelos afins. De qualquer forma, como será apresentado
adiante, já existe desde Christensen, Diebold e Rudebusch (2011), uma versão do modelo
de três fatores que exclui a possibilidade de arbitragem.
Esse modelo que faz uma aproximação exponencial, é também muito usado graças às
boas características que ela acarreta, em especial, ao fato de que a taxa a termo (forward)
relacionada a essa taxa (taxa a termo) pode ser vista como uma constante mais uma função
de Laguerre, que consiste num polinômio multiplicado por um termo exponencial que
decai, que tem um grande uso como função de aproximação.
É um modelo parcimonioso, com poucos fatores que consegue explicar segundo Diebold
& Rudebusch (2013), mais de 95% da dinâmica da curva de juros.
6
3.1. Dinâmica dos fatores
Dada a curva que define as taxas a termo para cada 𝑡 = 1, 2 … , 𝑇:
1 − 𝑒 −𝜆𝜏 1 − 𝑒 −𝜆𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆𝜏 ) + 𝜀𝑡 (𝜏)
𝜆𝜏 𝜆𝜏
Onde 𝜀𝑡 (𝜏)é um erro estocástico idiossincrático e chama-se:

𝜀𝑡 ′ = (𝜀𝑡 (𝜏1 ) 𝜀𝑡 (𝜏2 ) ⋯ 𝜀𝑡 (𝜏𝑁 ))
Deve-se ainda definir a dinâmica dos fatores latentes 𝛽1𝑡 , 𝛽2𝑡 e 𝛽3𝑡 . Supõe-se que seguem
um VAR(1):
(𝑓𝑡 − 𝜇) = 𝐴(𝑓𝑡−1 − 𝜇) + 𝜂𝑡
Onde 𝑓𝑡 é o vetor com os três fatores no período t, 𝑓𝑡 ′ = (𝛽1𝑡 𝛽2𝑡 𝛽3𝑡 ), 𝜇 é o vetor
com as médias, 𝐴 é a matriz que determina a dinâmica e 𝜂𝑡 é um erro, onde 𝜂𝑡′ =
(𝜂1𝑡 𝜂𝑡2 𝜂𝑡3 ).
Devem-se considerar dois fatores importantes em relação à dinâmica, quais sejam, qual a
correlação entre 𝜂𝑡 e 𝜀𝑡 e como se como se comporta a matriz A.
Em primeiro lugar, 𝜂𝑡 e 𝜀𝑡 seguem:
𝜂𝑡 0 𝑄 0
(𝜀 ) ∼ 𝑊𝑁 [( ) , ( )]
𝑡 0 0 𝐻
Onde H é uma matriz diagonal e Q pode ou não o ser. De fato, essa é uma questão
importante, porque muda inclusive a forma como o modelo é estimado. Especificamente
no modelo de Diebold & Li (2006), supõe-se que Q é diagonal.
Além disso, é importante saber como se comporta a matriz A. Essa questão é relacionada
com a questão anterior do formato de Q. Como em Christensen, Diebold e Rudebusch
(2011), pode-se definir um modelo DNS com fatores independentes, mais simples, que
segue:
𝛽1𝑡 − 𝜇1 𝑎11 0 0 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

(𝛽2𝑡 − 𝜇2 ) = ( 0 𝑎22 0 ) (𝛽2𝑡−1 − 𝜇2 ) + (𝜂𝑡 (𝛽2𝑡 ))
𝛽3𝑡 − 𝜇3 0 0 𝑎33 𝛽3𝑡−1 − 𝜇3 𝜂𝑡 (𝛽3𝑡 )
Onde Q tem formato:
2
𝑞11 0 0
2
𝑄=( 0 𝑞22 0 )
2
0 0 𝑞33
E um modelo DNS com fatores correlacionados, mais geral, que segue:
𝛽1𝑡 − 𝜇1 𝑎11 𝑎12 𝑎13 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

𝛽
( 2𝑡 − 𝜇2 ) = (𝑎21 𝑎22 𝑎23 ) (𝛽2𝑡−1 − 𝜇2 ) + (𝜂𝑡 (𝛽2𝑡 ))
𝛽3𝑡 − 𝜇3 𝑎31 𝑎32 𝑎33 𝛽3𝑡−1 − 𝜇3 𝜂𝑡 (𝛽3𝑡 )
Onde o Q tem um formato:
7
2
𝑞11 0 0
2 2
𝑄 = (𝑞21 𝑞22 0 )
2 2 2
𝑞31 𝑞32 𝑞33
É importante notar que a normalidade dos erros não foi imposta ao modelo, mas é
frequentemente utilizada.
Em geral, o primeiro fator 𝛽1𝑡 possui uma correlação muito alta, chegando muitas vezes
a apresentar raiz unitária. Isso também o torna altamente previsível. O segundo fator
também possui uma alta persistência, porém um pouco menor que o primeiro e portanto
sendo menos previsível. O terceiro fator é aquele que apresenta o comportamento mais
imprevisível, na medida em que sua persistência é muito baixa, ainda que sua variância
seja a menor dos três. Isso pode não ocorrer dependendo do período de análise, mas é um
resultado recorrente na literatura, muito especialmente, é apresentado em Diebold &
Rudebusch (2013).
Os fatores 𝛽1𝑡 , 𝛽2𝑡 e 𝛽3𝑡 têm interpretações interessantes. Como Nelson & Siegel (1987)
fazem, pode-se interpretá-los como influências de longo, médio ou curto prazo.
O primeiro fator, 𝛽1𝑡 , tem influência em toda a curva, pois seu coeficiente é unitário e
não decai para zero ao longo das maturidades. Nesse sentido, ele pode ser interpretado
como um fator de longo prazo.
O segundo fator, 𝛽2𝑡 , sai de 1 e decai rapidamente para zero, perdendo importância ao
longo das maturidades e portanto pode ser interpretado como um fator de curto prazo.
O terceiro fator, 𝛽3𝑡 , sai de zero, sobe e depois decai para zero com o passar das
maturidades, perdendo importância. Como parte de zero e portanto não tem efeito
imediato, não poderia ser considerado de curto prazo e seu decaimento é mais lento que
aquele do segundo, pode ser considerado de médio prazo.
Há ainda uma interpretação geométrica, feita em Diebold & Li (2006). Segundo essa
interpretação, o primeiro fator 𝛽1𝑡 pode ser interpretado como um nível, já que seu
coeficiente possui sempre o mesmo valor qualquer que seja a maturidade, ou seja, um
aumento nesse fator, gera um aumento no nível da curva, deslocando-a completamente.
O segundo fator 𝛽2𝑡 pode ser interpretado como um termo de inclinação, pois uma
variação nele provoca uma mudança maior nas taxas curtas que nas taxas longas,
provocando portanto uma mudança na inclinação da curva.
O terceiro, 𝛽3𝑡 pode ser interpretado como um termo de curvatura, pois como dito antes,
ele não tem quase nenhuma influência nas taxas longas ou curtas, variando mais as médias
e apresenta concavidade.
8
Figura 1 Coeficientes dos fatores do modelo DNS
No gráfico, representam-se os coeficientes dos fatores e sua dinâmica ao longo das maturidades.
Foram usados os nomes nível, inclinação e curvatura, que como dito antes, são movidas pelos
fatores 𝛽1𝑡 , 𝛽2𝑡 e 𝛽3𝑡 respectivamente.
3.2. A importância do lambda

O 𝜆 é um parâmetro de extrema importância nesse modelo. De fato, é ele quem define
qual será o máximo atingido pelo termo de médio prazo, ou seja, a curvatura.
A princípio, ele poderia ser estimado conjuntamente com os outros parâmetros do
modelo, em especial, a cada t, poderiam ser calculados por Mínimos Quadrados não
lineares. Ora, esse processo é custoso e segundo Diebold & Li (2006) gera estimativas
não confiáveis. O mais comum portanto é calibrar algum valor constante em t ou fazer
engenharia reversa. Diebold & Li (2006) especificamente dizem que o máximo no fator
de médio prazo costuma estar entre dois e três anos de maturidade. Eles então definem
um máximo em 30 meses e calculam um valor associado a essa maturidade de 𝜆 =
0,0609.
No entanto, pode-se citar Koopman, Mallee e Wel (2007) que estimam o modelo DNS de
três fatores variando o lambda e portanto o consideram como se fosse um quarto fator de
estimação. Em sua análise, acham melhoras substanciais na adequação do modelo aos
dados.
3.3. Resultados do modelo que replicam fatos estilizados do mundo real
Como dito antes, esse modelo apresenta, a princípio, bons resultados empíricos e entre
eles, além de boas previsões como encontradas em Diebold & Li (2006), estão o
9
ajustamento que o modelo faz da curva e os fatos estilizados que ele consegue replicar.
Entre eles:
 A curva a termo média é crescente e côncava
 A taxa a termo assume uma série de formatos ao longo do tempo
 A dinâmica das taxas a termo é maior que a dos spreads
A realização desses fatos estilizados não é garantida, pois depende dos fatores e de sua
dinâmica, mas que o modelo apresenta flexibilidade suficiente para sua replicação.
3.4. Métodos de estimação
Na escolha entre diferentes métodos de estimação, costuma aparecer um trade-off entre
precisão e simplicidade no cálculo contra correção teórica. Os métodos podem ser
divididos basicamente entre o método de dois estágios, mais simples, e o método de um
estágio, mais complexo, mas mais correto teoricamente.
3.4.1. Método por dois estágios
O método por dois estágios é o principal método utilizado na literatura e o sugerido por
Diebold & Rudebusch (2013). De fato, ele é uma aproximação do método teoricamente
superior que será apresentado a seguir, mas garante uma estimação muito mais rápida e
confiável.
Ele se baseia na estimação por OLS dos parâmetros 𝛽1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 a cada período t da
equação:
1 − 𝑒 −𝜆𝜏 1 − 𝑒 −𝜆𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆𝜏 )
𝜆𝜏 𝜆𝜏
De maneira que ao fim, será obtido um conjunto de parâmetros {𝛽̂ ̂ ̂ 𝑇

1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 }𝑡=1 .
Com eles, que são calculados a cada período como num cross-section normal, deve-se
fazer uma estimação em série temporal dos parâmetros que regem o VAR(1):
𝛽1𝑡 − 𝜇1 𝑎11 𝑎12 𝑎13 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

(𝛽2𝑡 − 𝜇2 ) = (𝑎21 𝑎22 𝑎23 ) (𝛽2𝑡−1 − 𝜇2 ) + (𝜂𝑡 (𝛽2𝑡 ))
𝛽3𝑡 − 𝜇3 𝑎31 𝑎32 𝑎33 𝛽3𝑡−1 − 𝜇3 𝜂𝑡 (𝛽3𝑡 )
2
𝑞11 0 0
2 2
𝑄 = (𝑞21 𝑞22 0 )
2 2 2
𝑞31 𝑞32 𝑞33
Esta estimação em série temporal ainda pode ser simplificada se supusermos fatores não
correlacionados, o que não é incomum na literatura. Neste caso, basta calcular um modelo
AR(1) para cada fator. Como dito anteriormente, as hipóteses feitas ex-ante sobre a
correlação dos fatores muda a forma de estimá-los.
Pode-se ainda estimar o 𝜆𝑡 , passando a estimar um vetor de quatro dimensões
(𝛽̂ ̂ ̂ ̂
1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 , 𝜆𝑡 ) a cada período t pelo método de mínimos quadrados não lineares na
𝑇
equação da curva e depois com {𝛽̂ ̂ ̂ ̂
1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 , 𝜆𝑡 }𝑡=1 , continuar a estimação, como dito
acima.
10
3.4.2. Método por um estágio
Esse é o método teoricamente mais correto, mas que leva a um cálculo muito mais
complexo e que eventualmente pode levar à não convergência do resultado. Basicamente,
ele aproveita a representação estado-espaço do problema, onde a equação
𝑦𝑡 = Λ(λ)𝑓𝑡 + 𝜀𝑡
Onde,
𝑦𝑡 ′ = (𝑦𝑡 (𝜏1 ) 𝑦𝑡 (𝜏2 ) ⋯ 𝑦𝑡 (𝜏𝑁 ))
⋯
1 − 𝑒 −𝜆𝜏1 1 − 𝑒 −𝜆𝜏1
1 ( ( ) ) − 𝑒 −𝜆𝜏1
𝜆𝜏1 𝜆𝜏1
⋯
1 − 𝑒 −𝜆𝜏2 −𝜆𝜏2
Λ(𝜆) = 1 ( ) (1 − 𝑒 ) − 𝑒 −𝜆𝜏2
𝜆𝜏2 𝜆𝜏2
⋯ ⋯
⋯ 1−𝑒 −𝜆𝜏𝑁
1−𝑒 −𝜆𝜏𝑁
1 ( ) ( ) − 𝑒 −𝜆𝜏𝑁
( 𝜆𝜏𝑁 𝜆𝜏𝑁 )
É a equação de estado e a equação

(𝑓𝑡 − 𝜇) = 𝐴(𝑓𝑡−1 − 𝜇) + 𝜂𝑡
é a equação de medição e propõe a estimação conjunta dos fatores por meio de um Filtro
de Kalman, podendo-se aí levar a cabo uma estimação por Máxima Verossimilhança ou
por métodos numéricos.
3.5. Gerenciamento de risco

A clássica definição de duration de Macaulay foi e ainda é muito utilizada como medida
de exposição de títulos à variações na taxa de juros. Entretanto, ela mede bem apenas
mudanças no nível da curva de juros.
Diebold, Li e Ji (2006) aproveitaram o modelo DNS para apresentar um vetor de medidas
de duration usando os fatores como medidas de risco 1. Nesse paper, os autores começam
com uma discussão sobre a capacidade dos fatores do DNS de representar riscos
sistemáticos precificados pelo mercado e chegam à conclusão que eles podem ser
utilizados para esse fim, e que além disso são diferentes fontes de risco que não podem
ser representados por um número menor de fatores. A vantagem óbvia de utilizá-los é que
representam mudanças não só no nível, mas também na inclinação e na curvatura da curva
de juros.
Sejam 𝐶1 , 𝐶2 , … , 𝐶𝐼 , os 𝐼 cash flows de um título com maturidades respectivamente
𝜏1 , 𝜏2 , … , 𝜏𝐼 . Suponha ainda que a curva a termo segue:
1
Willner (1996) apresentou o mesmo vetor de duration, mas de maneira menos rigorosa.
11
𝑦𝑡 (𝜏) = 𝐵1 (𝜏)𝑓1𝑡 + 𝐵2 (𝜏)𝑓2𝑡 + 𝐵3 (𝜏)𝑓3𝑡
Para fatores 𝑓1𝑡 , 𝑓2𝑡 , 𝑓3𝑡 .
Assim,
𝑑𝑦𝑡 (𝜏) = 𝐵1 (𝜏)𝑑𝑓1𝑡 + 𝐵2 (𝜏)𝑑𝑓2𝑡 + 𝐵3 (𝜏)𝑑𝑓3𝑡
O preço do título, supondo capitalização contínua, será igual a:
𝐼
𝑃 = ∑ 𝐶𝑖 𝑒 −𝜏𝑖𝑦𝑡 (𝜏𝑖)
𝑖=
Supondo que 𝑦𝑡 (𝜏𝑖 ) sejam independentes, isso implica que:

𝑑𝑃 𝐼 1 𝐼 1 𝐽
− = ∑ [ 𝐶𝑖 𝑒 −𝜏𝑖𝑦𝑡 (𝜏𝑖) 𝜏𝑖 ] 𝑑𝑦𝑡 (𝜏𝑖 ) = ∑ [ 𝐶𝑖 𝑒 −𝜏𝑖𝑦𝑡 (𝜏𝑖) 𝜏𝑖 ] ∑ 𝐵𝑗 (𝜏𝑖 )𝑑𝑓𝑗𝑡
𝑃 𝑖=1 𝑃 𝑖=1 𝑃 𝑗=1
Chamando de 𝑤𝑖 o peso associado ao 𝐶𝑖 :

𝑑𝑃 𝐽 𝐼
− = ∑ {∑ 𝑤𝑖 𝜏𝑖 𝐵𝑗 (𝜏𝑖 )} 𝑑𝑓𝑗𝑡
𝑃 𝑗=1 𝑖=1
E pode-se definir a duration associada ao fator de risco j:

𝐼
𝐷𝑗 = ∑ 𝑤𝑖 𝜏𝑖 𝐵𝑗 (𝜏𝑖 )
𝑖=1
Nesse caso, supuseram-se três fatores de risco, ou seja, 𝑗 = 1,2,3 e pode-se trocar cada
um dos 𝐵𝑗 pelo respectivo coeficiente que multiplica o fator. Assim, têm-se durations:
𝐼
𝐷1 = ∑ 𝑤𝑖 𝜏𝑖
𝑖=1
𝐼 1 − 𝑒 −𝜆𝜏𝑖
𝐷2 = ∑ 𝑤𝑖
𝑖=1 𝜆
𝐼 1 − 𝑒 −𝜆𝜏𝑖
𝐷3 = ∑ 𝑤𝑖 ( − 𝜏𝑖 𝑒 −𝜆𝜏𝑖 )
𝑖=1 𝜆
É importante notar que 𝐷1 é exatamente igual à duration de Macaulay. Isso significa que
essa nova medida de duration contém a medida de Macaulay, e explicita o porquê desta
medida explicar a exposição apenas variações no nível da curva de juros. Para entender
mudanças na curvatura ou inclinação, seria necessário ver as durations relacionadas a
cada um desses fatores.
Diebold, Li e Ji (2006) mostram ainda que sua medida é tal que:
 𝐷1 , 𝐷2 , 𝐷3 se movem na mesma direção. São crescentes na maturidade do título,
𝜏, e decrescentes na taxa do cupom e na taxa a termo.
 𝐷1 , 𝐷2 , 𝐷3 de um portfólio é igual a 𝐷1 , 𝐷2 , 𝐷3 médios dos títulos individuais, onde
o peso é igual ao valor relativo de cada título no portfólio.
12
Por fim, os autores comparam sua nova definição com as definições de Macaulay, a
duration estocástica de Cox, Ingersoll e Ross (1979), e a definição baseada em
polinômios. Seus resultados mostram que a nova definição é superior às duas primeiras e
que tem performance similar à última, sendo superior em situações extremas.
3.6. Outras versões
3.6.1. Svensson
A alteração mais famosa do modelo DNS é o modelo de Svensson, que foi baseado no
modelo de quatro fatores de Svensson (1994), só que na sua versão dinâmica:
1 − 𝑒 −𝜆1 𝜏 1 − 𝑒 −𝜆1 𝜏 1 − 𝑒 −𝜆2 𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆1 𝜏 ) + 𝛽4𝑡 ( − 𝑒 −𝜆2 𝜏 )
𝜆1 𝜏 𝜆1 𝜏 𝜆2 𝜏
+ 𝜀𝑡 (𝜏)
Ele consiste basicamente num modelo DNS com um fator a mais. Esse novo fator possui
um coeficiente que também decai para zero, só que apresentando decaimento mais lento
que aquele apresentado pelos coeficientes de 𝛽2𝑡 , 𝛽3𝑡 que já apareciam no modelo DNS.
Figura 2 Coeficientes dos fatores do modelo Svensson
Dentro de uma interpretação das influências nas taxas, Diebold & Rudebusch (2013)
afirmam que esse novo fator apresenta uma influência nas taxas mais longas, de 10 anos
ou mais. Ainda que seu coeficiente não altere o longo prazo, já que decai para zero, ele
consegue influenciar mais que os outros dois fatores, já que tem um decaimento mais
lento. Nesse sentido, também se pode dizer que ele representa mais um termo de
curvatura, pois como o terceiro fator, começa em zero, sobe até atingir um máximo
determinado pelo 𝜆2 e depois decai novamente para zero.
13
Supõe-se que a dinâmica dos fatores continue seguindo um VAR(1):
(𝑓𝑡 − 𝜇) = 𝐴(𝑓𝑡−1 − 𝜇) + 𝜂𝑡
Onde,
𝑓𝑡 ′ = (𝛽1𝑡 𝛽2𝑡 𝛽3𝑡 𝛽4𝑡 )
𝜈𝑡′ = (𝜂1𝑡 𝜂𝑡2 𝜂𝑡3 𝜂𝑡4 )
𝑎11 𝑎12 𝑎13 𝑎14
𝑎 𝑎22 𝑎23 𝑎24
𝐴 = (𝑎21 𝑎32 𝑎33 𝑎34 )
31
𝑎41 𝑎42 𝑎43 𝑎44
E como antes,
𝜂𝑡 0 𝑄 0
(𝜀 ) ∼ 𝑊𝑁 [( ) , ( )]
𝑡 0 0 𝐻
Com H diagonal.
Como antes, pode-se fazer hipóteses mais restritivas sobre as matrizes A e Q, como foi
mostrado anteriormente sobre o modelo DNS.
3.6.2. Svensson Ajustado
Esse modelo é proposto por De Pooter (2007). Ele afirma que quando se estimam os 𝜆1𝑡
e 𝜆2𝑡 conjuntamente com os fatores em vez de calibrá-los, pode-se chegar a uma situação
na qual seus valores ficam muito próximos. Se isso de fato ocorrer, não haveria diferença
entre os modelos DNS tradicional e o modelo de Svensson. Nesse caso, ele lança mão de
uma estratégia para garantir que isso não ocorra e a curva a termo passa a ser:
1 − 𝑒 −𝜆1 𝜏 1 − 𝑒 −𝜆1 𝜏 1 − 𝑒 −𝜆2 𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆1 𝜏 ) + 𝛽4𝑡 ( − 𝑒 −2𝜆2 𝜏 )
𝜆1 𝜏 𝜆1 𝜏 𝜆2 𝜏
O coeficiente correspondente ao quarto fator continua sendo interpretado como uma

curvatura, pois possui a característica de sair de zero, crescer até atingir um máximo e
depois voltar a decair a zero. No entanto, nesse caso, o coeficiente do quarto fator atinge
o máximo e passa a decair mais rapidamente o que coeficiente do quarto fator do
Svensson.
3.6.3. Björk & Christensen
Esse modelo aumenta a flexibilidade do modelo DNS tradicional, mas oferecendo menos
que o modelo de Svensson. Proposto por Björk & Christensen (1999), esse modelo
apresenta quatro fatores, mas um só parâmetro de decaimento.
1 − 𝑒 −𝜆𝜏 1 − 𝑒 −𝜆𝜏 1 − 𝑒 −2𝜆𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆𝜏 ) + 𝛽4𝑡 ( )
𝜆𝜏 𝜆𝜏 2𝜆𝜏
O quarto fator agora passa a ser um segundo termo de inclinação, pois como pode se
observar acima, seu coeficiente começa positivo e decai monotonicamente para zero,
afetando apenas as maturidades mais curtas. O fato de multiplicar o 𝜆 por dois implica
14
que esse coeficiente decai mais rapidamente que aquele do segundo fator que
tradicionalmente representava a inclinação.
Com essas alterações, a taxa instantânea passa a ser 𝑦(0) = 𝛽1𝑡 + 𝛽2𝑡 + 𝛽4𝑡 .
De Pooter (2007) acha evidências de que esse modelo serve muito bem tanto para análises
dentro da amostra quanto para previsões comparando com outros modelos, entre eles, o
DNS, o Svensson, o Svensson ajustado e o Bliss (que será apresentado a seguir). De
maneira geral, no trabalho de De Pooter (2007), este modelo apresentou os melhores
resultados de previsão.
3.6.4. Bliss
Outra opção para aumentar a flexibilidade do modelo DNS, mas sem toda a flexibilidade
do modelo de Svensson é aumentar o número de parâmetros de decaimento em vez de
aumentar o número de fatores. É isso que propõe Bliss (1997).
1 − 𝑒 −𝜆1 𝜏 1 − 𝑒 −𝜆2 𝜏
𝑦𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝛽3𝑡 ( − 𝑒 −𝜆2 𝜏 )
𝜆1 𝜏 𝜆2 𝜏
De Pooter (2007) acha que esse modelo tende a ter resultados dentro da amostra melhores
que o DNS, o que é razoável, já que se admite mais flexibilidade na curva a termo, mas
que costuma ter resultados piores que o modelo de quatro fatores de Björk & Christensen
(1999) tanto dentro da amostra quanto em previsão.
3.6.5. Introdução de componentes macro
O paper que inspira o uso de componentes macroeconômicos para a estimação da curva
de juros é Ang & Piazzesi (2003), onde utilizou-se o método dos componentes principais
para retirar informações de inflação e atividade e usá-las num modelo de fatores latentes.
É importante ressaltar que esse paper não utilizou o modelo DNS aqui apresentado, mas
como dito acima, foi uma inspiração para aqueles que o fizeram
Um paper que propõe esse uso de variáveis macroeconômicas diretamente como fatores
dentro do modelo DNS clássico é Diebold, Rudebusch e Aruoba (2006), onde a
capacidade utilizada no setor manufatureiro, a federal fund rate e a inflação anual entram
como fatores:
𝑦𝑡 = Λ𝑓𝑡 + 𝜀𝑡
(𝑓𝑡 − 𝜇) = 𝐴(𝑓𝑡−1 − 𝜇) + 𝜂𝑡
Onde agora,
𝑓𝑡 ′ = (𝛽1𝑡 𝛽2𝑡 𝛽3𝑡 𝐶𝑈𝑡 𝐹𝐹𝑅𝑡 𝐼𝑁𝐹𝐿𝑡 )
E 𝜂𝑡 e 𝜀𝑡 continuam seguindo:
𝜂𝑡 0 𝑄 0
( 𝜀 ) ∼ 𝑊𝑁 [( ) , ( )]
𝑡 0 0 𝐻
Só que agora, as dimensões de todos os vetores mudaram para se adequar aos novos
fatores.
15
É importante comentar que aqui se supõe que a matriz Q não é diagonal. Esta última
hipótese ocorre para que se permita que os fatores latentes tradicionais possam ser
correlacionadas com as variáveis macro e para que dentro de um cálculo VAR, possam
ser calculados os impulsos gerados por choques e sua persistência.
Separando as matrizes 6 × 6 A e Q em 4 blocos 3 × 3:
𝐴 𝐴2
𝐴=( 1 )
𝐴3 𝐴4
𝑄1 𝑄2
𝑄=( )
𝑄′2 𝑄4
São testadas as correlações entre os fatores tradicionais e os fatores macro adicionados
posteriormente. Eles atribuem toda a covariância em 𝑄2 ao efeito que as variáveis
tradicionais nas variáveis macro. Assim, os efeitos das variáveis macro nas variáveis
tradicionais são captados por 𝐴3 .
Os autores rejeitam de maneira acachapante a hipótese nula de 𝐴2 = 𝐴3 = 𝑄2 = 0, assim
como 𝐴2 = 0 e 𝐴3 = 𝑄2 = 0 separadamente. Isso dá evidências de um efeito cruzado entre a
macroeconomia e a curva a termo.
Outra direção nessa extensão macroeconômica do modelo DNS é a feita por Diebold, Li
e Yue (2008). Nele, apresentam-se fatores nacionais que dependem de fatores globais.
Perceba que os autores não colocaram o termo de curvatura seguindo o resultado de
Diebold, Rudebusch e Aruoba (2006), segundo o qual, o termo de curvatura não é
correlacionado com nenhuma variável macroeconômica de maneira confiável, além de
afirmarem que é um termo que é geralmente estimado com baixa precisão.
Cada país possui uma taxa a termo 𝑦𝑡𝑖 (𝜏) que segue:
𝑖 𝑖
1 − 𝑒 −𝜆𝜏
𝑦𝑡𝑖 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + 𝜀𝑡𝑖 (𝜏)
𝜆𝜏
𝑖 𝑖
Onde 𝛽1𝑡 e 𝛽2𝑡 são fatores nacionais.
Os fatores globais seguem:
1 − 𝑒 −𝜆𝜏
𝑌𝑡 (𝜏) = 𝛽1𝑡 + 𝛽2𝑡 ( ) + Ε𝑡 (𝜏)
𝜆𝜏
Onde os fatores globais seguem um VAR(1):

𝛽1𝑡 𝜙 𝜙12 𝛽1𝑡−1 𝑈𝑙
( ) = ( 11 )( ) + ( 𝑡𝑠 )
𝛽2𝑡 𝜙21 𝜙22 𝛽2𝑡−1 𝑈𝑡
Onde,
( 𝑛 )2 ′ ′
𝑈𝑖𝑡𝑛 𝑈𝑖′𝑡′
𝑛′
= { 𝜎 , 𝑠𝑒 𝑖 = 𝑖 , 𝑡 = 𝑡 , 𝑛 = 𝑛′
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Supõe-se ainda que os fatores nacionais dependam dos fatores globais mais algum erro
idiossincrático segundo:
𝑖
𝛽1𝑡 = 𝛼1𝑖 + 𝛾1𝑖 𝛽1𝑡 + 𝜀1𝑡
𝑖
16
𝑖
𝛽2𝑡 = 𝛼2𝑖 + 𝛾2𝑖 𝛽1𝑡 + 𝜀2𝑡
𝑖
Os erros idiossincráticos seguem a seguinte distribuição

𝑖 𝜑11 𝑖
𝜑12 𝜀1𝑡−1 𝑢1𝑡
𝜀1𝑡
( 𝑖
) = (𝜑 )
𝜑22 𝜀( 𝑖
) + ( 𝑢2𝑡 )
𝜀2𝑡 21 2𝑡−1
𝑛 𝑛′ (𝜎 𝑛 )2 , 𝑠𝑒 𝑖 = 𝑖 ′ , 𝑡 = 𝑡 ′ , 𝑛 = 𝑛′
𝐸𝑢𝑖𝑡 𝑢𝑖′𝑡′ = { 𝑖
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜
Com esse modelo, os autores acham fortes evidências da existência de tais fatores globais
e de sua importância na determinação das variações nas curvas a termo, além de citar a
relação entre esses fatores globais e fundamentos macroeconômicos.
3.6.6. DNS livre de arbitragem
Modelo proposto em Christensen, Diebold e Rudebusch (2011) na intenção de melhorar
o modelo tradicional de fatores latentes apresentado em Diebold & Li (2006). Para
resolver o problema apresentado por Filipovic (1999), segundo o qual o modelo de
Nelson-Siegel se dinamizado não seria capaz de impedir a arbitragem, os autores partem
de uma estrutura afim livre de arbitragem de Duffie & Kan (1996) e a modificam de
maneira a criar uma curva a termo que possua os mesmos coeficientes que aqueles
apresentados pelo DNS tradicional. O objetivo dessa abordagem era dar o suporte teórico
da inexistência de arbitragem do modelo afim com a boa capacidade empírica do modelo
DNS.
Os autores partem de um modelo afim em tempo contínuo livre de arbitragem de Duffie
& Kan (1996). Definem um espaço de probabilidade filtrado (Ω, ℱ, (ℱ𝑡 ), 𝑄), onde a
filtração (ℱ𝑡 ) = {ℱ𝑡 : 𝑡 ≥ 0} satisfaz as condições de Williams (1997) e a variável de
estado 𝑋𝑡 é um processo de Markov definido em 𝑀 ⊂ ℝ𝑛 que soluciona a seguinte
equação diferencial estocástica:
𝑑𝑋𝑡 = 𝐾 𝑄 (𝑡)[𝜃 𝑄 (𝑡) − 𝑋𝑡 ]𝑑𝑡 + Σ(𝑡)𝐷(𝑋𝑡 , 𝑡)𝑑𝑊𝑡𝑄
Onde 𝑊 𝑄 é um movimento Browniano padrão no ℝ𝑛 , cuja informação está contida na

filtração (ℱ𝑡 ). 𝜃 𝑄 ∶ [0, 𝑇] → ℝ𝑛 e 𝐾 𝑄 ∶ [0, 𝑇] → ℝ𝑛×𝑛 são funções contínuas e limitadas
limitadas, assim como a matriz de volatilidade Σ ∶ [0, 𝑇] → ℝ𝑛×𝑛 . 𝐷 ∶ 𝑀 × [0, 𝑇] →
ℝ𝑛×𝑛 tem estrutura:
𝐷(𝑋𝑡 , 𝑡)
√𝛾 1 (𝑡) + 𝛿11 (𝑡)𝑋𝑡1 + ⋯ + 𝛿𝑛1 (𝑡)𝑋𝑡𝑛 ⋯ 0
= ⋮ ⋱ ⋮
0 ⋯ √𝛾 𝑛 (𝑡) + 𝛿1𝑛 (𝑡)𝑋𝑡1 + ⋯ + 𝛿𝑛𝑛 (𝑡)𝑋𝑡𝑛
( )
Nele, supõe-se que a taxa livre de risco instantânea seja uma função afim das variáveis
de estado:
𝑟𝑡 = 𝜌0 (𝑡) + 𝜌1 (𝑡)′𝑋𝑡
Onde 𝜌0 ∶ [0, 𝑇] → ℝ e 𝜌1 ∶ [0, 𝑇] → ℝ𝑛 são funções contínuas e limitadas.
17
Segundo o resultado de Duffie & Kan (1996), um modelo desse tipo gera preços de títulos
sem cupom da forma:
𝑇
𝑄
𝑃 (𝑡, 𝑇) = 𝐸𝑡 [𝑒𝑥𝑝 (− ∫ 𝑟𝑢 𝑑𝑢)] = exp(𝐵 (𝑡, 𝑇)′ 𝑋𝑡 + 𝐶 (𝑡, 𝑇))
𝑡
Onde por sua vez, 𝐵 (𝑡, 𝑇) e 𝐶 (𝑡, 𝑇) são as soluções do seguinte sistema de equações
diferenciais ordinárias:
𝑑𝐵(𝑡, 𝑇) 1 𝑛 ′
= 𝜌1 + (𝐾 𝑄 )′ 𝐵(𝑡, 𝑇) − ∑ (Σ ′ 𝐵(𝑡, 𝑇)𝐵(𝑡, 𝑇)′ Σ)𝑗,𝑗 (𝛿 𝑗 ) , 𝐵(𝑇, 𝑇) = 0
𝑑𝑡 2 𝑗=1
𝑑𝐶 (𝑡, 𝑇) 1 𝑛
= 𝜌0 − 𝐵(𝑡, 𝑇)′(𝐾 𝑄 )𝜃 𝑄 − ∑ (Σ ′ 𝐵(𝑡, 𝑇)𝐵(𝑡, 𝑇)′ Σ)𝑗,𝑗 (𝛾 𝑗 ), 𝐶 (𝑇, 𝑇) = 0
𝑑𝑡 2 𝑗=1
Que gera para esses títulos sem cupons, taxas a termo da forma:
1 𝐵(𝑡, 𝑇)′ 𝐶 (𝑡, 𝑇)

𝑦(𝑡, 𝑇) = − log 𝑃(𝑡, 𝑇) = − 𝑋𝑡 −
𝑇−𝑡 𝑇−𝑡 𝑇−𝑡
A partir dessa estrutura, Christensen, Diebold e Rudebusch (2011) tentam parâmetros
para a estrutura acima tal que uma equação de taxa a termo fique o mais próximo possível
da equação de Nelson-Siegel tradicional, onde nesse caso, mais próximo o possível é
definido como ter três variáveis de estado e cada uma delas apresentar coeficientes iguais
aos da equação de Nelson-Siegel.
Eles então chegam ao resultado segundo o qual, supondo-se que a taxa livre de risco
instantânea seja igual à:
𝑟𝑡 = 𝑋𝑡1 + 𝑋𝑡2 sampl
E que as variáveis de estado 𝑋𝑡 = (𝑋𝑡1 , 𝑋𝑡2 , 𝑋𝑡3 ) são descritas pelo sistema de equações
diferenciais estocásticas:
𝑑𝑋𝑡1 0 0 0 𝜃1𝑄 𝑋𝑡1 𝑑𝑊𝑡1,𝑄

(𝑑𝑋𝑡2 ) = (0 𝜆 −𝜆) [(𝜃2𝑄 ) − (𝑋𝑡2 )] 𝑑𝑡 + Σ (𝑑𝑊𝑡2,𝑄 ) , 𝜆 > 0
𝑑𝑋𝑡3 0 0 𝜆 𝜃𝑄 𝑋𝑡3 𝑑𝑊 3,𝑄
3 𝑡
Então, as taxas a termo de um título sem cupom seguem:
1 − 𝑒 −𝜆(𝑇−𝑡) 2 1 − 𝑒 −𝜆(𝑇−𝑡)
𝑦(𝑡, 𝑇) = 𝑋𝑡1 + 𝑋𝑡 + [ − 𝑒 −𝜆(𝑇−𝑡) ] 𝑋𝑡3
𝜆 (𝑇 − 𝑡 ) 𝜆 (𝑇 − 𝑡 )
𝐶 (𝑡, 𝑇)
−
𝑇−𝑡
𝐶(𝑡,𝑇)
Onde − é um termo de ajuste que depende de 𝜃 𝑄 e Σ, e tem forma analítica:
𝑇−𝑡
18
𝑇
𝐶 (𝑡, 𝑇) 1 1 3
= ∫ ∑ (Σ′𝐵 (𝑠, 𝑇)𝐵(𝑠, 𝑇)′Σ)𝑗,𝑗 𝑑𝑠
𝑇−𝑡 2𝑇 −𝑡 𝑡 𝑗=1
(𝑇 − 𝑡 )2 1 1 1 − 𝑒 −𝜆(𝑇−𝑡) 1 1 − 𝑒 −2𝜆(𝑇−𝑡)
= 𝐴̅ + 𝐵̅ [ 2 − 3 + 3 ]
6 2𝜆 𝜆 (𝑇 − 𝑡 ) 4𝜆 (𝑇 − 𝑡 )
1 1 1 3
+ 𝐶̅ [ 2 + 2 𝑒 −𝜆(𝑇−𝑡) − (𝑇 − 𝑡)𝑒 −2𝜆(𝑇−𝑡) − 2 𝑒 −2𝜆(𝑇−𝑡)
2𝜆 𝜆 4𝜆 4𝜆
−𝜆(𝑇−𝑡) −2𝜆(𝑇−𝑡)
2 1−𝑒 5 1−𝑒
− 3 + 3 ]
𝜆 (𝑇 − 𝑡 ) 8𝜆 (𝑇 − 𝑡 )
1 1 1 1 − 𝑒 −𝜆(𝑇−𝑡)
+𝐷 ̅ [ (𝑇 − 𝑡) + 𝑒 −𝜆(𝑇−𝑡) − ]
2𝜆 𝜆2 𝜆3 (𝑇 − 𝑡)
3 1 1 3 1 − 𝑒 −𝜆(𝑇−𝑡)
+ 𝐸̅ [ 2 𝑒 −𝜆(𝑇−𝑡) + (𝑇 − 𝑡) + (𝑇 − 𝑡)𝑒 −𝜆(𝑇−𝑡) − 3 ]
𝜆 2𝜆 𝜆 𝜆 (𝑇 − 𝑡 )
1 1 −𝜆(𝑇−𝑡) 1 −2𝜆(𝑇−𝑡) 3 1 − 𝑒 −𝜆(𝑇−𝑡)
̅
+𝐹[ 2 + 2𝑒 − 2𝑒 − 3
𝜆 𝜆 2𝜆 𝜆 (𝑇 − 𝑡 )
3 1 − 𝑒 −2𝜆(𝑇−𝑡)
+ 3 ]
4𝜆 (𝑇 − 𝑡 )
Onde,
𝐴̅ = 𝜎11
2 2
+ 𝜎12 2
+ 𝜎13
𝐵̅ = 𝜎21
2 2
+ 𝜎22 2
+ 𝜎23
𝐶̅ = 𝜎31
2 2
+ 𝜎32 2
+ 𝜎33
̅ = 𝜎11 𝜎21 + 𝜎12 𝜎22 + 𝜎13 𝜎23
𝐷
𝐸̅ = 𝜎11 𝜎31 + 𝜎12 𝜎32 + 𝜎13 𝜎33
𝐹̅ = 𝜎21 𝜎31 + 𝜎22 𝜎32 + 𝜎23 𝜎33
Dada uma matriz de volatilidade geral do tipo:
𝜎11 𝜎12 𝜎13
Σ = (𝜎21 𝜎22 𝜎23 )
𝜎31 𝜎32 𝜎33
Porém, os nove parâmetros de volatilidade não estão identificados. De fato, apenas os seis
termos 𝐴̅, 𝐵̅, 𝐶̅ , 𝐷
̅ , 𝐸̅ e 𝐹̅ podem ser. Portanto, o modelo mais flexível possível é:
𝜎11 0 0
Σ = (𝜎21 𝜎22 0 )
𝜎31 𝜎32 𝜎33
Por último, Christensen, Diebold e Rudebusch (2011) apresentam a dinâmica dos fatores
na medida P de probabilidade, qual seja, a medida real, já que até aqui tudo foi definido
na medida neutra ao risco Q.
A equação de mudança de medida é:
19
𝑑𝑊𝑡𝑄 = 𝑑𝑊𝑡𝑃 + Γ𝑡 𝑑𝑡
Onde Γ𝑡 representa o prêmio de risco. Eles usam uma definição afim do mesmo para
preservar a dinâmica afim da medida P:
𝛾10 0
𝛾11 0
𝛾12 0
𝛾13 𝑋𝑡1
Γ𝑡 = (𝛾20 ) + (𝛾21
0 0
𝛾22 0 ) ( 2)
𝛾23 𝑋𝑡
𝛾30 0
𝛾31 0
𝛾32 0
𝛾33 𝑋𝑡3
Que definem a seguinte dinâmica para as variáveis de estado:
𝑑𝑋𝑡 = 𝐾 𝑃 [𝜃 𝑃 − 𝑋𝑡 ]𝑑𝑡 + Σ𝑑𝑊𝑡𝑃
Ele pode ser escrito mais detalhadamente como:
𝑑𝑋𝑡1 𝑃
𝜅11 0 0 𝜃1𝑃 𝑋𝑡1 𝜎1 0 0 𝑑𝑊𝑡1,𝑃
(𝑑𝑋𝑡2 ) = ( 0 𝑃
𝜅22 0 ) [(𝜃2𝑃 ) − (𝑋𝑡2 )] 𝑑𝑡 + ( 0 𝜎2 0 ) (𝑑𝑊𝑡2,𝑃 )
𝑑𝑋𝑡3 0 0 𝑃
𝜅33 𝜃3𝑃 𝑋𝑡3 0 0 𝜎3 𝑑𝑊 3,𝑃
𝑡
Se supuser fatores não correlacionados.

Se for considerado o caso mais geral, onde as variáveis de estado podem ser
correlacionadas:
𝑑𝑋𝑡1 𝑃
𝜅11 𝑃
𝜅12 𝑃
𝜅13 𝜃1𝑃 𝑋𝑡1 𝜎11 0 0 𝑑𝑊𝑡1,𝑃
(𝑑𝑋𝑡2 ) = (𝜅21
𝑃 𝑃
𝜅22 𝑃 )
𝜅23 [(𝜃2𝑃 ) − (𝑋𝑡2 )] 𝑑𝑡 + (𝜎21 𝜎22 0 ) (𝑑𝑊𝑡2,𝑃 )
𝑑𝑋𝑡3 𝑃
𝜅31 𝑃
𝜅32 𝑃
𝜅33 𝜃3𝑃 𝑋𝑡3 𝜎31 𝜎32 𝜎33 𝑑𝑊 3,𝑃𝑡
E a equação de medição é:
1 − 𝑒 −𝜆𝜏1 1 − 𝑒 −𝜆𝜏1 𝐶 (𝜏1 )
1 − 𝑒 −𝜆𝜏1
𝜆𝜏1 𝜆𝜏1 𝜏1
𝑦𝑡 (𝜏1 ) 𝑋 1 𝜀𝑡 (𝜏1 )
1 − 𝑒 −𝜆𝜏2 1−𝑒 −𝜆𝜏2 𝑡 𝐶 ( 𝜏2 )
𝑦 ( 𝜏 )
( 𝑡 ⋯2 ) = 1 − 𝑒 −𝜆𝜏2 (𝑋𝑡2 ) − + ( 𝜀𝑡 (⋯𝜏2 ) )
𝜆𝜏2 𝜆𝜏2 𝜏2
𝑦𝑡 (𝜏𝑁 ) ⋯ ⋯ 𝑋𝑡3 ⋯ 𝜀𝑡 (𝜏𝑁 )
⋯ 1 − 𝑒 −𝜆𝜏𝑁 1−𝑒 −𝜆𝜏𝑁 𝐶 ( 𝜏3 )
1 − 𝑒 −𝜆𝜏𝑁 ( 𝜏3 )
( 𝜆𝜏𝑁 𝜆𝜏𝑁 )
Usando essa nova estrutura livre de arbitragem, Christensen, Diebold e Rudebusch (2011)
acham bons resultados empíricos. De fato, comparando com o modelo DNS, tanto o que
tem fatores independentes quanto o que os têm correlacionados, ele acha que o modelo
correlacionado livre de risco proposto tem uma melhor performance dentro da amostra,
se adequando melhor aos dados. A justificativa apresentada é que o modelo livre de risco
com fatores correlacionados apresenta uma maior flexibilidade.
Quanto às previsões, comparando como foi feito anteriormente com o DNS tradicional,
ele acha que o modelo livre de arbitragem com fatores independentes proposto é
consistentemente melhor. Os autores justificam isso com um possível overfitting do
modelo livre de arbitragem com fatores correlacionados.
20
Em relação ao termo de ajuste que diferencia o modelo livre de arbitragem do DNS
tradicional, ele parece melhorar a adequação do modelo a maturidades mais longas, entre
15 e 20 anos, assim como das maturidades mais curtas. Além disso, leva a uma
diminuição da persistência do primeiro fator, o que seria explicado justamente pelo
melhor resultado dentro da amostra para as maturidades mais longas que ele gera.
21
4. Estimação e Previsão do modelo Nelson-Siegel dinâmico
Estimam-se o modelo de Nelson-Siegel dinâmico e o modelo de Svensson usando as taxas

a termo americanas de Janeiro de 2004 até Março de 2015. As maturidades usadas para a
estimação foram 3, 6, 12, 24, 36, 60, 74, 120 e 240 meses. A seguir, uma tabela que
apresenta algumas estatísticas descritivas das taxas a termo segundo as maturidades em
meses.
Desvio-
Maturidades Média padrão Mínimo Máximo 𝜌 (1) 𝜌 (6) 𝜌(12)
3 1.42 1.83 0.01 5.15 0.99 0.90 0.72
6 1.54 1.86 0.04 5.31 0.99 0.91 0.74
12 1.62 1.81 0.10 5.26 0.99 0.91 0.77
24 1.83 1.68 0.19 5.17 0.99 0.91 0.80
36 2.07 1.57 0.30 5.14 0.99 0.90 0.82
60 2.57 1.36 0.62 5.11 0.98 0.88 0.82
84 2.98 1.19 0.93 5.12 0.97 0.84 0.79
120 3.38 1.03 1.47 5.15 0.97 0.81 0.75
240 4.00 0.92 2.07 5.45 0.96 0.77 0.70
É possível perceber que como era esperado, as taxas médias são crescentes no número de
maturidades e que por sua vez os desvios-padrão são decrescentes na maturidade. Esta
última característica aliás pode ser vista pelo diferencial entre as taxas máxima e mínima
que é muito maior nas maturidades curtas que nas longas. 𝜌(𝑘) representa a k-ésima
autocorrelação amostral.
Para a estimação do modelo, foi usada uma janela móvel de 24 meses e feito o forecast
para os doze meses subsequentes. Deste modo, foram feitas 100 estimações e nesse
contexto, estimou-se tanto o modelo DNS quanto o modelo de Svensson, inclusive com
estimação dos lambdas, e ao final compararam-se os resultados achados com alguns
benchmarks.
Para o DNS, foi encontrado um lambda de 0,0701, ou seja, estimou-se um termo de
curvatura que tem o pico um pouco mais próximo da origem que aquele do DNS de
Diebold & Li (2006) e que decai mais rapidamente. Os fatores foram supostos
independentes e com dinâmica estimada por meio de um AR(1).
Para o Svensson, foram estimados o primeiro lambda igual a 0,002 e o segundo, 0,0521.
Ora, aqui o coeficiente 𝜆1 implica em uma curvatura mais distante da origem que aquela
mostradas anteriormente e o coeficiente 𝜆2 mostra uma curvatura mais próxima. Mais do
que isso, há uma inversão no decaimento das curvaturas, qual seja, a primeira passa a
atingir seu pico e a decair para zero mais devagar que a segunda. Como anteriormente, os
fatores foram supostos independentes e com dinâmica estimada por meio de um AR(1).
Os resultados encontrados são comparados por meio do erro médio quadrático com os
seguintes benchmarks:
 DNS de Diebold & Li
22
É o modelo DNS estimado usando o lambda de 0,0609 proposto por Diebold &
Li (2006).
 Svensson de Diebold & Rudebusch (2013)
É o modelo de Svensson dinâmico usando os lambdas propostos por Diebold &

Rudebusch (2013), quais sejam, 𝜆1 = 0.0609 e 𝜆2 = 0,0291.
 Passeio aleatório
Como no artigo de Diebold & Li (2006), quis-se comparar os resultados com

aqueles de um passeio aleatório, que supõe que a melhor previsão para o futuro
são as taxas de hoje, ou seja:
𝑦̂𝑡+ℎ|𝑡 (𝜏) = 𝑦𝑡 (𝜏)
Como na estimação dos modelos DNS e Svensson anteriores, com os lambdas estimados,
supuseram-se fatores independentes e com dinâmica AR(1) em separado para cada um.
A comparação que pode ser vista abaixo usa a média dos desvios, onde estes são definidos
segundo 𝑦̂𝑡+ℎ|𝑡 (𝜏) − 𝑦𝑡+ℎ (𝜏), e os erros quadráticos médios. Usamos além disso, como
em Diebold & Li (2006), maturidades de 3, 12, 36, 60 e 120 meses para horizontes de
forecast de 1, 6 e 12 meses.
Tabela 1 Resultados dos erros de estimação para horizonte de 1 mês
Maturidade
Média RMSE
(meses)
DNS 3 -0.032 0.492
12 -0.273 0.494
36 -0.069 0.474
60 -0.025 0.502
120 -0.235 0.528
Svensson 3 0.056 0.360
12 0.010 0.277
36 0.075 0.355
60 -0.002 0.379
23
120 -0.047 0.329
DNS Diebold&Li 3 -0.506 0.613
12 -0.610 0.624
36 -0.566 0.610
60 -0.657 0.632
120 -0.809 0.660
Svensson Diebold&Rudebusch 3 -0.506 1.114
12 -0.610 1.133
36 -0.566 1.167
60 -0.657 1.236
120 -0.809 1.330
Passeio Aleatório 3 -0.032 0.211
12 -0.273 0.189
36 -0.188 0.229
60 -0.025 0.260
120 -0.235 0.270
Tabela 2 Resultados dos erros de estimação para horizonte de 6 meses
Maturidade
Média RMSE
(meses)
DNS 3 0.012 1.087
12 -0.133 0.943
36 -0.005 0.873
60 -0.090 0.913
120 -0.461 1.030
Svensson 3 0.346 1.067
24
12 0.331 0.893
36 0.330 0.787
60 0.157 0.744
120 -0.046 0.729
12 -0.540 0.926
36 -0.586 0.890
60 -0.790 0.959
120 -1.118 1.109
12 -0.540 1.226
36 -0.586 1.287
60 -0.790 1.474
120 -1.118 1.749
Passeio Aleatório 3 0.012 0.739
12 -0.133 0.708
36 -0.005 0.702
60 -0.090 0.716
120 -0.461 0.674
Tabela 3 Resultados dos erros de estimação para horizonte de 12 meses
Maturidade
Média RMSE
(meses)
DNS 3 0.311 1.546
12 0.164 1.350
36 0.225 1.070
60 0.097 0.976
25
120 -0.318 0.976
Svensson 3 0.790 1.748
12 0.776 1.545
36 0.711 1.187
60 0.490 0.913
120 0.226 0.671
12 -0.217 1.269
36 -0.329 1.027
60 -0.577 0.978
120 -0.959 1.043
12 -0.217 1.325
36 -0.329 1.153
60 -0.577 1.252
120 -0.959 1.528
Passeio Aleatório 3 0.311 1.244
12 0.164 1.109
36 0.225 0.904
60 0.097 0.840
120 -0.318 0.767
Os resultados com os lambdas estimados são em geral superiores aqueles em que os

lambdas são fixos. Entretanto, chegou-se a um resultado inesperado e indesejado, no qual
o passeio aleatório supera as estimações DNS e Svensson.
Há aí dois efeitos diferentes que se juntam para criar a pior performance.
Por um lado, o período de estimação está sobretudo num momento de taxas curtas
próximas do zero lower bound. Ora, nesse caso, é natural que o passeio aleatório tenha
uma performance superior, pela simples razão das taxas estarem pequenas e terem
26
variações pequenas portanto. Supor que as taxas se manterão constantes nesse período
garante uma performance razoável.
Por outro lado, tem-se um período de análise muito grande, o que naturalmente implica
que as taxas variam muito. Mais do que isso, o período da crise em 2008/09 leva a uma
variação bruscas nas taxas, mas muito especialmente nas taxas curtas. Para se
contextualizar, as taxas com maturidade de 3 meses caíram de aproximadamente 5% para
0,85% em pouco mais de um ano. Ora, nesse cenário, mais uma vez o passeio aleatório
tem vantagem, por garantir uma espécie de “ajuste de expectativas” imediato, enquanto
os modelos estimados ainda estarem considerando taxas muito altas dos 24 meses
anteriores.
De fato, num exercício de comparação, colocamos abaixo os erros quadráticos médios
apenas para os últimos 60 meses da amostra para os modelos DNS e Svensson com os
lambdas estimados anteriormente e o passeio aleatório.
Tabela 4 Resultados dos erros de estimação para horizonte de 1 mês com amostra menor
Maturidade
Média RMSE
(meses)
DNS 3 0.172 0.176
12 -0.149 0.154
36 0.090 0.157
60 0.218 0.347
120 -0.062 0.325
Svensson 3 0.064 0.070
12 0.048 0.066
36 0.136 0.191
60 0.091 0.277
120 -0.041 0.291
12 -2.23 0.111
36 -8.83 0.604
60 -14.36 1.016
120 -18.15 1.222
27
Tabela 5 Resultados dos erros de estimação para horizonte de 6 meses com amostra
menor
Maturidade
Média RMSE
(meses)
DNS 3 0.202 0.215
12 -0.009 0.121
36 0.152 0.438
60 0.175 0.677
120 -0.134 0.760
Svensson 3 0.084 0.095
12 0.131 0.146
36 0.151 0.365
60 0.027 0.580
120 -0.113 0.727
12 -1.29 0.069
36 -3.78 0.437
60 -6.51 0.872
120 -8.89 1.123
Tabela 6 Resultados dos erros de estimação para horizonte de 12 meses com amostra
menor
Maturidade
Média RMSE
(meses)
DNS 3 0.212 0.236
12 0.047 0.182
36 0.131 0.570
28
60 0.114 0.721
120 -0.092 0.709
Svensson 3 0.095 0.110
12 0.149 0.186
36 0.072 0.441
60 -0.071 0.605
120 -0.060 0.704
12 -0.70 0.056
36 -1.33 0.371
60 -1.74 0.761
120 -2.57 0.974
Nesse caso, os resultados de DNS e Svensson são melhores que aqueles do passeio
aleatório para taxas longas, ainda que o resultado das taxas curtas, que por sua vez já são
melhores que os que se tinha anteriormente, continuem piores que o passeio aleatório.
29
5. Modelos autoregressivos de heterocedasticidade condicional
Tradicionalmente, os modelos de séries temporais em finanças supunham variância

constante ao longo do tempo, ou seja, informações passadas não mudavam a previsão da
variância futura. Essa hipótese seria muito prática se fosse correta, pois de fato, a
variância condicional seria igual à variância incondicional dos erros e constante no tempo,
podendo ser estimada de maneira não viesada por:
∑𝑇𝑡=0 𝜀𝑡2
𝐸ℎ𝑡2 =
𝑇
Isso porém não é observada no mundo real. É fato estilizado que as variâncias mudam ao
longo do tempo. Como exercício de análise, vale a pena observar o gráfico abaixo que
mostra os retornos do IBOVESPA de 02 de Janeiro de 2004 a 25 de Fevereiro de 2015.
Figura 3: Resíduos do IBOVESPA 02/01/2004 a 25/02/2015
Há nos resíduos acima uma clara clusterização da variância. Em especial, no período ao

redor da crise de 2008, há um período contínuo de alta volatilidade. Ao mesmo tempo,
no período de 2004 até o meio de 2008, há um período de volatilidade consistentemente
baixa.
É ainda interessante observar esses retornos agrupados no histograma abaixo, com
resultado do teste Jarque-Bera.
30
Figura 4 Histograma com os retornos do IBOVESPA de 01/02/2004 a 25/02/2015
Nele, a distribuição empírica dos retornos apresenta assimetria e é leptocúrtica. De fato,

o teste de Jarque-Bera rejeita fortemente a hipótese de normalidade dos retornos, o que
seria esperado, caso os erros não fossem serialmente correlacionados.
Os modelos apresentados nessa seção colocam o passado ajudando a definir a previsão
da variância de séries temporais e ao mesmo tempo, conseguem explicar parte do
processo de formação de clusters de variância que são observados na vida real, mas que
não eram nem explicados, nem previstos pelos modelos anteriores. Em outras palavras,
ao colocar dependência temporal na volatilidade dos retornos, por exemplo, os modelos
ARCH e GARCH conseguem criar esse ambiente onde um dia de alta volatilidade
costuma aparecer, não ao acaso, mas sim num período de vários dias de alta volatilidade.
O mesmo valendo para a baixa.
5.1. ARCH
O modelo ARCH foi proposto por Engle (1982), justamente para apresentar essa
diferenciação supracitada, qual seja, formar esses clusters de variância, com uma
aplicação específica na estimação da variância da inflação do Reino Unido.
Engle (1982) apresenta o modelo ARCH(p) da seguinte forma:
𝑦𝑡 |𝜓𝑡−1 ~𝑁(𝑥𝑡 𝛽𝑡 , ℎ𝑡2 )
𝑝
ℎ𝑡2 = 𝛼0 + 𝛼1 𝜀𝑡−1
2 2
+ ⋯ + 𝛼𝑝 𝜀𝑡−𝑝 = 𝛼0 + ∑ 2
𝛼𝑖 𝜀𝑡−𝑖
𝑖=1
𝜀𝑡 = 𝑦𝑡 − 𝑥𝑡 𝛽𝑡
𝛼0 > 0 𝛼𝑖 ≥ 0 𝑖 = 1, ⋯ , 𝑝
𝑝
Caso ∑𝑖=1 𝛼𝑖 < 1, o processo é estacionário e a variância incondicional será constante e
igual a:
31
𝛼0
𝐸ℎ𝑡2 = 𝑝
1 − ∑𝑖=1 𝛼𝑖
Onde num espaço de probabilidade filtrado (Ω, ℱ, {ℱ𝑡 }𝑇𝑡=0 , 𝑃) define-se 𝑦𝑡 , uma variável
aleatória seguindo uma série temporal, 𝑥𝑡 𝛽𝑡 é uma combinação linear de variáveis
endógenas passadas e variáveis exógenas incluídas no conjunto informacional ℱ𝑡−1 e 𝛽
é um vetor de parâmetros.
2 2
Nesse modelo, a volatilidade ℎ𝑡 é função dos erros 𝜀𝑡−1 até 𝜀𝑡−𝑝 . É assim que se constrói
a capacidade de gerar clusters de alta volatilidade. Ora, erros altos ontem tendem a gerar
alta volatilidade hoje.
Perceba que se pode generalizar um pouco esse modelo, relaxando a hipótese de
normalidade de 𝑦𝑡 |ℱ𝑡−1 . Em especial, como em Hamilton (1995):
𝜀𝑡 = ℎ𝑡 𝑣𝑡
𝐸 (𝑣𝑡 ) = 0 𝐸 (𝑣𝑡2 ) = 1
Onde {𝑣𝑡 }𝑇𝑡=0 é uma sequência iid e que a volatilidade ℎ𝑡 é variável aleatória independente
da mesma.
O modelo ARCH(p) apresenta ainda um comportamento leptocúrtico. De fato, se 𝑣𝑡
seguir uma normal, que por sua vez possui curtose igual a 3:
𝐸 (𝜀𝑡4 )
𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) = 2
(𝐸(𝜀𝑡2 ))
𝐸 (ℎ𝑡4 )𝐸 (𝑣𝑡4 )
𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) = 2
(𝐸(ℎ𝑡2 )𝐸 (𝑣𝑡2 ))
𝐸 (ℎ𝑡4 ) 𝐸 (ℎ𝑡4 )
𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) = 2 𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝑣𝑡 ) = 3 2
(𝐸(ℎ𝑡2 )) (𝐸(ℎ𝑡2 ))
2
Mas, pela desigualdade de Jensen, 𝐸 (ℎ𝑡4 ) > (𝐸(ℎ𝑡2 )) , ou seja, 𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) > 3 e
portanto o modelo ARCH é leptocúrtico.
Em termos de estimação, o método mais utilizado é o de maximização de verossimilhança
supondo normalidade condicional de 𝑦𝑡 |ℱ𝑡−1 , que alcança estimativas consistentes ainda
que esta hipótese não esteja correta (por quasi-maximum likelihood estimation), como
demonstrado em Bollerslev & Wooldridge (1992). A função de log-verossimilhança é:
𝑇 1 𝑇
log 𝐿(𝑦𝑇 , 𝑦𝑇−1 , … , 𝑦1 ; 𝛽, 𝜃) = − log(2𝜋) − ∑ [log(ℎ𝑡2 ) + (𝑦𝑡 − 𝑥′𝑡 𝛽 )ℎ𝑡−2 ]
2 2 𝑡=1
Basta maximizar a função acima com a especificação ARCH(p) apropriada, ou seja,
escrever ℎ𝑡2 como função dos 𝜀𝑡−𝑖
2
e definir os parâmetros 𝛽 e 𝜃=(𝛼0 , 𝛼1 , 𝛼2 , … , 𝛼𝑝 )′.
Engle (1982) ainda propôs um teste de multiplicadores de Lagrange para testar para
heterocedasticidade, e mais especificamente, para testar a existência de uma estrutura
32
ARCH nos resíduos. De fato, há quem o use para checar a existência de
heterocedasticidade, ainda que o modelo proposto siga um GARCH.
5.2. GARCH
Como o próprio nome já diz, esse modelo generaliza o modelo ARCH e foi proposto por
Bollerslev (1986). Apresenta uma formulação parecida com a anterior, mas adiciona as
próprias variâncias condicionais passadas na determinação da variância presente:
𝑦𝑡 |𝜓𝑡−1 ~𝑁(𝑥𝑡 𝛽𝑡 , ℎ𝑡2 )
𝜀𝑡 = 𝑦𝑡 − 𝑥𝑡 𝛽𝑡
𝜀𝑡 = ℎ𝑡 𝑣𝑡
𝑝 𝑞
ℎ𝑡2 = 𝛼0 + ∑ 2
𝛼𝑖 𝜀𝑡−𝑖 +∑ 2
𝛿𝑖 ℎ𝑡−𝑖
𝑖=1 𝑖=1
𝑝≥0 𝑞>0
𝛼0 > 0 𝛼𝑖 ≥ 0 𝑖 = 1, ⋯ , 𝑝
𝛽𝑖 ≥ 0 𝑖 = 1, ⋯ , 𝑞
𝑝 𝑞
É importante notar que similarmente ao modelo ARCH(p), caso ∑𝑖=1 𝛼𝑖 + ∑𝑖=1 𝛿𝑖 < 1,
então a variância incondicional do modelo será:
𝛼0
ℎ2 = 𝑝
1− ∑𝑖=1 𝛼𝑖 − ∑𝑞𝑖=1 𝛿𝑖
Além disso, como antes, a variância condicional dependerá dos erros, mas também das
variâncias condicionais do passado. Assim, a capacidade de ocorrer clusters de alta
volatilidade fica ainda mais intuitiva.
Como o ARCH(p), o GARCH(p,q) é leptocúrtico trivialmente.
Pode-se ainda escrever o modelo GARCH(p,q) como um modelo ARMA(𝑚𝑎𝑥 {𝑝, 𝑞 },q):
𝑚𝑎𝑥{𝑝,𝑞} 𝑞
𝜀𝑡2 = 𝛼0 + 𝜀𝑡−1
2
+∑ 2
(𝛼𝑖 + 𝛿𝑖 ) 𝜀𝑡−𝑖 −∑ 𝛿𝑗 𝜂𝑡−𝑖
𝑖=1 𝑖=1
Onde, 𝜂𝑡 = 𝜀𝑡2 − ℎ𝑡2 tal que, por definição, 𝐸𝑡−1 (𝜂𝑡 ) = 0

O modelo GARCH(p,q) obviamente aumenta a flexibilidade da estimação e segundo
Bolleslev (1986), o aumento de flexibilidade gerado pelo GARCH(p,q) em relação ao
ARCH(p), é similar ao aumento de flexibilidade do modelo ARMA em relação ao AR.
Isso dito, o modelo GARCH(p,q) permite estimações mais parcimoniosas tal que com
valores pequenos de p e q é possível gerar podem gerar resultados razoáveis, enquanto os
modelos ARCH(p) dependem do uso de valores de p muito altos.
Nesse sentido, a estimação mais comum é o uso do modelo GARCH(1,1).
GARCH(1,1)
ℎ𝑡2 = 𝛼0 + 𝛼1 𝜀𝑡−1
2 2
+ 𝛿1 ℎ𝑡−1
33
Com 𝛼0 > 0, 𝛼1 ≥ 0, 𝛿1 ≥ 0
Se 𝛼1 + 𝛿1 < 1, variância incondicional é:
𝛼0
𝐸ℎ𝑡2 =
1 − 𝛼1 − 𝛿1
Se 3𝛼1 + 2𝛼1 𝛿1 + 𝛿12 < 1, o quarto momento incondicional existe:
3𝛼02 (1 + 𝛼1 + 𝛿1 )
𝐸 (𝜀𝑡4 ) =
(1 − 𝛼1 − 𝛿1 )(1 − 𝛿12 − 2𝛼1 𝛿1 − 3𝛼12 )
Portanto a curtose para o GARCH(1,1) é:

𝐸 (𝜀𝑡4 ) 3(1 − 𝛼1 − 𝛿1 )(1 + 𝛼1 + 𝛿1 )
𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) = 2 =
(𝐸(𝜀𝑡2 )) (1 − 𝛿12 − 2𝛼1 𝛿1 − 3𝛼12 )
𝐸 (𝜀𝑡4 ) 3(1 − 𝛿12 − 2𝛼1 𝛿1 − 𝛼12 )

𝑐𝑢𝑟𝑡𝑜𝑠𝑒(𝜀𝑡 ) = 2 =
(𝐸(𝜀𝑡2 )) (1 − 𝛿12 − 2𝛼1 𝛿1 − 3𝛼12 )
Que é trivialmente maior que 3, a curtose da normal, ou seja, só ratificando o que vimos
para o caso geral, o modelo GARCH(1,1) é leptocúrtico.
As auto-correlações estacionárias são:
𝛼1 (1 − 𝛼1 𝛿1 − 𝛿12 )
𝜌 (1) =
(1 − 2𝛼1 𝛿1 − 𝛿12 )
E no caso geral, para k lags:

𝜌(𝑘) = (𝛼1 + 𝛽1 )𝑘−1 𝜌(1)
5.3. Extensões do modelo GARCH univariado
5.3.1. IGARCH
É o modelo GARCH tal que:
𝑞 𝑝
∑ 𝛼𝑖 + ∑ 𝛿𝑗 = 1
𝑖=1 𝑗=1
Nesse caso, o modelo não é estacionário na covariância.

É importante frisar que tanto o modelo ARCH quanto a sua generalização, GARCH
apresentam uma estrutura simétrica. O problema é que é fato estilizado da literatura que
retornos negativos tendem a gerar aumentos mais consideráveis na volatilidade que
retornos positivos, ou em outras palavras, 𝐶𝑜𝑣(𝜀𝑡−1 , ℎ𝑡 ) < 0. Como ARCH e GARCH
consideram apenas os efeitos quadrados de 𝜀, ou seja, 𝜀𝑡2 , são indiferente aos sinais dos
choques. Assim, foram desenvolvidos modelos GARCH que respondem diferentemente
a choques positivos e negativos para replicar essa assimetria apresentada nos dados. Os
seguintes quatro modelos foram criados nesse contexto:
34
5.3.2. EGARCH
Modelo proposto por Nelson (1990), ele usa a definição 𝜀𝑡 = ℎ𝑡 𝑣𝑡 e substitui os valores
de 𝜀𝑡2 por valores de 𝑣𝑡 . Perceba que os sinais de 𝜀𝑡 e 𝑣𝑡 são os mesmos e que o modelo
estima o log ℎ𝑡2 , no lugar de ℎ𝑡2 , segundo:
𝑝 𝑞
log ℎ𝑡2 = 𝛼0 + ∑ 𝛼𝑖 [𝜔𝑣𝑡−𝑖 + 𝛾(|𝑣𝑡−𝑖 | − 𝐸 |𝑣𝑡−𝑖 |)] + ∑ 2
𝛿𝑗 log ℎ𝑡−𝑗
𝑖=1 𝑗=1
2
Onde 𝐸 |𝑣𝑡−𝑖 | = √𝜋 para o caso em que 𝑣𝑡−𝑖 é normalmente distribuída. Esse modelo por
definir a estimação em log ℎ𝑡2 não precisa de restrições sobre os parâmetros para garantir
a positividade da variância.
5.3.3. TGARCH
Modelo proposto por Zakoian (1994) que define ℎ𝑡 e separa 𝜀𝑡 de acordo os sinais
assumidos por ele, tendo parâmetros diferentes para cada caso.
𝑝 𝑞
+
[𝛼𝑖 𝜀𝑡−𝑖 − ]
ℎ 𝑡 = 𝛼0 + ∑ − 𝛾𝑖 𝜀𝑡−𝑖 +∑ 𝛿𝑗 ℎ𝑡−𝑗
𝑖=1 𝑗=1
Há ainda uma versão desse modelo, apresentada por Rabemananjara e Zakoïan (1993)
que considera que os ℎ𝑡−𝑗 podem assumir valores negativos e divide sua estimação como
é feito com os 𝜀𝑡−𝑖 .
5.3.4. QGARCH
2
Modelo proposto por Sentana (1995), que considera apenas os valores de 𝜀𝑡−𝑖 e 𝜀𝑡−𝑖 como
outros modelos fazem, mas também os produtos cruzados entre os erros.
𝑝 𝑝 𝑝 𝑝
ℎ𝑡2 = 𝛼0 + ∑ 𝛼𝑖 𝜀𝑡−𝑖 + ∑ 2
𝛼𝑖𝑖 𝜀𝑡−𝑖 +2∑ ∑ 𝛼𝑖𝑘 𝜀𝑡−𝑖 𝜀𝑡−𝑘
𝑖=1 𝑖=1 𝑖=1 𝑘=𝑖+1
𝑞
2
+∑ 𝛿𝑗 ℎ𝑡−𝑗
𝑗=1
5.3.5. GJR-GARCH
Modelo proposto por Glosten, Jagannathan e Runkle (1993) que possui similaridades com
o modelo TGARCH proposto anteriormente, mas que faz a estimação a partir de ℎ𝑡2 .
𝑝 𝑝 𝑞
ℎ𝑡2 = 𝛼0 + ∑ 2
𝛼𝑖 𝜀𝑡−𝑖 +∑ 2
𝜔𝑗 𝐼(𝜀𝑡−𝑗 2
< 0)𝜀𝑡−𝑗 +∑ 2
𝛿𝑗 ℎ𝑡−𝑗
𝑖=1 𝑖=1 𝑗=1
Aqui, para valores 𝜔𝑗 > 0, tem-se o resultado esperado, qual seja, a variância condicional
responde mais a choques positivos.
5.4. Modelos GARCH mult ivariados

Os modelos GARCH univariados são importantes para entender melhor os movimentos
na volatilidade dos retornos, mas não conseguem explicá-los completamente. De fato,
justamente por serem univariados, desconsideram todos os efeitos cruzados entre os
35
ativos dentro de um portfólio, como as correlações entre as volatilidades mudam a
variância conjunta do portfólio. Na verdade, o uso dos modelos univariados para medir
volatilidade em portfólios com ativos cujos pesos mudam é incorreto e o uso de modelos
GARCH multivariados se torna necessário.
Isso dado, outra questão que surge diz respeito à escolha do modelo a ser estimado. Há
um trade-off claro entre flexibilidade e capacidade computacional. De fato, e isso será
apresentado mais à frente, os modelos multivariados mais flexíveis levam a aumentos
exponenciais na quantidade de parâmetros a serem estimados, de maneira que se torna
quase impossível estimá-los para um número muito grande de ativos em um portfólio e
tal que simplificações se fazem necessárias, ainda que sob o peso de perder parte do poder
explicativo da covariância entre os ativos. Ademais, deve-se ter sempre em mente que a
matriz de covariância por definição deve ser sempre positiva-definida e que portanto,
deve-se achar que condições são necessárias para que isso ocorra ou impor isso ao modelo
desde o princípio.
A estrutura básica do modelo multivariado é:
𝑌𝑡 = 𝜇𝑡 + 𝜀𝑡
1/2
𝜀𝑡 = 𝐻𝑡 𝜂𝑡
Onde 𝑌𝑡 é o vetor de retornos 𝑁 × 1, 𝜇𝑡 é um vetor 𝑁 × 1 de médias que a princípio pode
depender do tempo t, 𝐻𝑡 é a matriz 𝑁 × 𝑁 de covariância condicional dos retornos e 𝜂𝑡
é um vetor de erros iid tal que 𝐸𝜂𝑡 𝜂𝑡′ = 𝐼.
Há diversas formas de separar os modelos multivariados, mas uma das mais interessantes
os separa pela sua abordagem em relação à matriz 𝐻𝑡 . Há duas abordagens principais,
embora outras existam, que são basicamente definir diretamente 𝐻𝑡 como faz o modelo
VEC, por exemplo, ou definir 𝐻𝑡 por meio das variâncias condicionais e correlações entre
os retornos, como faz o modelo DCC.
5.4.1 VEC
Foi proposto por Bollerslev, Engle & Wooldridge (1988) e é uma generalização do
GARCH univariado que considera séries passadas de todas as variâncias e covariâncias
condicionais, além do quadrado e do produto cruzado dos retornos na determinação da
matriz de covariância condicional atual.
𝑝 𝑞
𝑣𝑒𝑐ℎ(𝐻𝑡 ) = 𝑐 + ∑ 𝐴𝑖 𝑣𝑒𝑐ℎ(𝜀𝑡−𝑖 𝜀′𝑡−𝑖 ) ∑ 𝐵𝑗 𝑣𝑒𝑐ℎ(𝐻𝑡−𝑗 )
𝑖=1 𝑗=1
Onde 𝑣𝑒𝑐ℎ é um operador que empilha a porção triangular inferior de uma matriz num
vetor 𝑁(𝑁 + 1)⁄2 × 1. Cada 𝐴𝑖 e 𝐵𝑗 são matrizes de parâmetros quadradas de ordem
𝑁(𝑁 + 1)⁄2 e 𝑐 é um vetor de parâmetros de ordem 𝑁(𝑁 + 1)⁄2 × 1.
Perceba que esse tipo de abordagem é muito flexível, mas isso vem a um custo
operacional altíssimo. De fato, o número de parâmetros a serem estimados pelo modelo
é de (𝑝 + 𝑞 )(𝑁(𝑁 + 1)⁄2)2 + 𝑁(𝑁 + 1)⁄2, um número enorme que dificulta a
estimação e a limita apenas a valores pequenos de N.
36
Além disso, para o modelo VEC, foram achadas apenas condições suficientes para que
𝐻𝑡 seja positiva-definida, sem haver aparentemente uma solução geral para esse
problema..
5.4.2. DVEC
Esse modelo é uma versão simplificada do modelo VEC e se diferencia do original ao
supor que as matrizes 𝐴𝑖 e 𝐵𝑗 são diagonais. A estimação nessa caso fica mais fácil, pois
a estimação de cada equação pode ser feita separadamente. O único problema é que o
número que parâmetros a serem estimados, ainda que tenha diminuído, continua alto, da
ordem de (𝑝 + 𝑞 + 1) 𝑁(𝑁 + 1)⁄2, além de não permitir interações entre diferentes
variâncias e covariâncias, pois cada elemento ℎ𝑖𝑗𝑡 da matriz 𝐻𝑡 passa a depender apenas
dos seus próprios valores passados e dos valores passados de 𝜀𝑖𝑡 𝜀𝑗𝑡 .
Aqui pode se achar condições necessárias para que a matriz 𝐻𝑡 seja positiva-definida.
5.4.3. BEKK
Modelo proposto por Engle & Kroner (1995), que é o modelo Baba-Engle-Kraft-Kroner
(BEKK) que também pode ser visto visto como uma versão mais restrita do VEC com a
interessante característica de ter a matriz 𝐻𝑡 positiva-definida por construção.
𝑝 𝐾 𝑞 𝐾
𝐻𝑡 = 𝐶𝐶 ′ + ∑ ∑ 𝐴′𝑘𝑖 𝜀𝑡−𝑖 𝜀′𝑡−𝑖 𝐴𝑘𝑖 ∑ ∑ 𝐵′𝑘𝑗 𝐻𝑡−𝑗 𝐵𝑘𝑗
𝑖=1 𝑘=1 𝑗=1 𝑘=1
Onde 𝐶 é uma matriz de parâmetros 𝑁 × 𝑁 triangular inferior, e 𝐴𝑘𝑖 e 𝐵𝑘𝑗 são matrizes
quadradas de parâmetros 𝑁 × 𝑁. Perceba que a definição de 𝐶 como uma matriz
triangular inferior cujo produto substitui a constante que havia antes serve para garantir
que a matriz de covariância condicional 𝐻𝑡 seja positiva-definida.
Há ainda uma simplificação possível no modelo BEKK que considera as matrizes 𝐴𝑘𝑖 e
𝐵𝑘𝑗 como sendo diagonais. Nesse caso, tem-se um modelo DVEC menos geral, mas que
garante que a matriz de covariância será positiva definida. O caso mais restrito do modelo
BEKK é quando se propõe escalares no lugar das matrizes 𝐴𝑘𝑖 e 𝐵𝑘𝑗 , ou seja, 𝐴𝑘𝑖 = 𝑎𝑘𝑖 𝐼
e 𝐵𝑘𝑗 = 𝑏𝑘𝑗 𝐼, onde 𝑎𝑘𝑖 , 𝑏𝑘𝑗 ∈ ℝ.
O número de parâmetros a serem estimados continua grande, da ordem de (𝑝 + 𝑞 )𝐾𝑁 2 +

𝑁(𝑁 + 1)⁄2 no modelo BEKK original e (𝑝 + 𝑞 )𝐾𝑁 + 𝑁 (𝑁 + 1)⁄2 no modelo
diagonal.
5.4.4. CCC
Modelo proposto por Bollerslev (1990) que baseia a matriz 𝐻𝑡 com a matriz de correlação.
É um modelo que decompõe a matriz 𝐻𝑡 em uma parte definida pela variância de cada
retorno mais a correlação entre os diferentes retornos, que nesse caso, são supostos
constantes no tempo. O modelo basicamente se apropria da forma:
𝐻𝑡 = 𝐷𝑡 𝑃𝐷𝑡
Onde 𝐷𝑡 é uma matriz diagonal tal que 𝐷𝑡 = 𝑑𝑖𝑎𝑔 (ℎ11𝑡 , ⋯ , ℎ𝑁𝑁𝑡 ), onde 𝑑𝑖𝑎𝑔(∙) é o
operador que transforma um vetor 𝑁 × 1 em uma matriz diagonal 𝑁 × 𝑁 e 𝑃 = (𝜌𝑖𝑗 ) é a
37
matriz simétrica positiva-definida de correlação condicional entre os retornos, tal que
𝜌𝑖𝑖 = 1, ∀𝑖.
Aqui, a estrutura do modelo é mais fortemente imposta na matriz 𝐷𝑡 , cujos elementos,
que são os desvios-padrões dos retornos, seguem um GARCH(p,q). Segundo Engle &
Sheppard (2001), é possível até usar alguma extensão do modelo GARCH univariado,
como algum dos apresentados acima, desde que apresentem erros normalmente
distribuídos que satisfaçam as condições de estacionariedade e as restrições de não
negatividade. No modelo CCC original, é usado um GARCH(1,1) para definir cada ℎ𝑖𝑖𝑡
separadamente.
Em relação à matriz 𝑃, segundo Engle (2002), basta fazer uma simples estimação da
matriz de correlação incondicional dos resíduos padronizados, ou seja, de 𝑧𝑡 = 𝐷𝑡−1 𝜀𝑡 ,
pois como se pode observar:
𝐸𝑡−1 (𝑧𝑡 𝑧𝑡 ′) = 𝐷𝑡−1 𝐻𝑡 𝐷𝑡−1 = 𝑃
5.4.5. DCC
Modelo proposto por Engle (2002), ele tenta resolver o problema teórico apresentado pelo
CCC que é apresentar correlações constantes ao longo do tempo. De fato, não há boas
razões para supor que sejam e mais do que isso, a evidência empírica vai justamente de
encontro a essa hipótese.
Aqui, a matriz 𝐻𝑡 apresenta a seguinte forma:
𝐻𝑡 = 𝐷𝑡 𝑃𝑡 𝐷𝑡
Onde agora a matriz quadrada simétrica de correlação 𝑃𝑡 varia com o tempo. É necessário
portanto propor algum tipo de estrutura que explique essa dinâmica. Engle (2002) propõe
que a matriz de correlação dos erros padronizados 𝑧𝑡 = 𝐷𝑡−1 𝜀𝑡 siga:
𝑄𝑡 = (1 − 𝑎 − 𝑏)𝑄̅ + 𝑎𝑧𝑡−1 𝑧𝑡−1
′
+ 𝑏𝑄𝑡−1
𝑎 + 𝑏 < 1, 𝑎 > 0, 𝑏 > 0
Onde 𝑄̅ é a matriz de correlação incondicional dos retornos dos erros padronizados 𝑧𝑡 e
𝑄0 é positiva-definida.
Uma dificuldade desse modelo é a estimação. Ao colocar toda a estrutura sobre 𝑄𝑡 , perde-
se a vantagem da simplicidade do modelo CCC. Ainda que o número de parâmetros a
serem estimados seja menor que no caso do VEC e BEKK, por exemplo, sendo da ordem
de (𝑁 + 4)(𝑁 + 1)⁄2 caso seja usado o GARCH(1,1) para se calcular 𝐷𝑡 , como será
visto mais a frente o custo operacional terá considerável aumento, graças ao aumento no
número de inversões de matrizes para a estimação. Além disso, o fato de 𝑎 e 𝑏 serem
constantes implica que todas as correlações seguem a mesma dinâmica.
5.4.6. AsyDCC
Esse modelo proposto por Cappiello, Engle & Sheppard (2006) leva em consideração
essa última limitação, qual seja, que todas as correlações seguem a mesma dinâmica, e ao
mesmo tempo considera os efeitos assimétricos que choques negativos tem na
38
volatilidade, numa discussão que parece aquela apresentada acima para as extensões
assimétricas para os modelos univariados. Nele, 𝑄𝑡 tem a seguinte estrutura:
𝑄𝑡 = (𝑄̅ − 𝐴′𝑄̅𝐴 − 𝐵′𝑄̅𝐵 − 𝐺′𝑄̅− 𝐺 ) + 𝐴′𝑧𝑡−1 𝑧′𝑡−1 𝐴 + 𝐵′𝑄𝑡−1 𝐵 + 𝐺′𝑧𝑡−1
− ′−
𝑧𝑡−1 𝐺
Onde 𝐴, 𝐵 e 𝐺 são matrizes de parâmetros quadradas de ordem 𝑁 × 𝑁, 𝑧𝑡− =
𝐼 (𝑧𝑡 < 0)⨀𝑧𝑡 , onde 𝐼 (∙) é a função indicadora, 𝑄̅ e 𝑄̅− são respectivamente as matrizes
−
de correlação incondicional de 𝑧′𝑡−1 e 𝑧𝑡−1 .
Há ainda a versão escalar do modelo, segundo a qual:
𝑄𝑡 = (𝑄̅ − 𝑎𝑄̅ − 𝑏𝑄̅ − 𝛿𝑄̅− ) + 𝑎𝑧𝑡−1 𝑧𝑡−1
′ −
+ 𝑏𝑄𝑡−1 + 𝛿𝑧𝑡−1 ′−
𝑧𝑡−1
Que volta a ter o problema da mesma dinâmica para todas as correlações, mas que impõe
assimetria de forma mais parcimoniosa.
5.5. Método de Estimação
Para estimar esses modelos GARCH, sejam eles univariados ou multivariados, utiliza-se
majoritariamente a estimação por Máxima Verossimilhança considerando erros iid
normalmente distribuídos.
A princípio, essa hipótese poderia ser criticado, pois é sabido que a maior parte dos
retornos apresenta curtose maior que a da normal e segundo Bawens, Laurent e Rumbouts
(2006) mesmo a dinâmica da variância que aumenta a curtose da distribuição, não é capaz
de aumenta-la o suficiente tal que se possa alcançar a curtose incondicional empírica.
Apesar disso, a normalidade é usada, pois além de ser uma função caracterizada por
apenas dois momentos, não compromete a qualidade dos estimadores. De fato, já foi
provado por Bollerslev & Wooldridge (1992) que os estimadores obtidos por esse método
são consistentes ainda que os erros não sejam normalmente distribuídos se os dois
primeiros momento condicionais estiverem corretamente especificados. Jeantheau (1998)
provou a consistência desses estimadores, que agora serão chamados estimadores de
Quasi-máxima Verossimilhança para o caso multivariado.
A função de log-verossimilhança para o caso univariado tem uma forma
(desconsiderando uma constante):
𝑇 1 𝑇 1 𝑇
∑ log 𝑙𝑡 (𝜃) = − ∑ log ℎ𝑡2 − ∑ 𝜀𝑡2 ℎ𝑡−2
𝑡=1 2 𝑡=1 2 𝑡=1
A função de log-verossimilhança para o caso multivariado tem uma forma:
𝑇 1 𝑇 1 𝑇
∑ log 𝑙𝑡 (𝜃) = − ∑ log|𝐻𝑡 | − ∑ (𝑌𝑡 − 𝜇𝑡 )′𝐻𝑡−1 (𝑌𝑡 − 𝜇𝑡 )
𝑡=1 2 𝑡=1 2 𝑡=1
Aqui fica mais claro o custo operacional de se calcular o modelo GARCH para o caso
multivariado. Caso o modelo seja o VEC, ou o BEKK, por exemplo, deve-se inverter uma
matriz a cada período de tempo e a cada iteração, o que pode possui um custo enorme e
tanto maior quanto maior for o N.
Para o caso específico CCC, a função de log-verossimilhança tem a forma:
39
𝑇
∑ log 𝑙𝑡 (𝜃)
𝑡=1
1 𝑇 𝑁
2
1 𝑇
= − ∑ ∑ log|ℎ𝑖𝑖𝑡 | − ∑ log|𝑃|
2 𝑡=1 𝑖=1 2 𝑡=1
1 𝑇
− ∑ (𝑌𝑡 − 𝜇𝑡 )′𝐷𝑡−1 𝑃𝑡−1 𝐷𝑡−1 (𝑌𝑡 − 𝜇𝑡 )
2 𝑡=1
O número de inversões de matriz é menor, sendo feita apenas uma vez por iteração.
Para o caso DCC, há ainda uma estimação em duas etapas possível. Engle & Sheppard
(2001) mostram que ela gera estimadores consistentes, ainda que sejam ineficientes.
Basicamente, esse método separa a função de log-verossimilhança em uma parte de média
e variância e uma parte de correlação.
Nesse caso, são estimados modelos GARCH univariados para cada série de resíduos.
Basicamente, isso é feito substituindo na função de quase log-verossimilhança a matriz
de correlação condicional 𝑃𝑡 , por uma matriz identidade de ordem 𝑁 × 𝑁, gerando a
seguite função de verossimilhança no primeiro passo:
𝑇 1 𝑇 1 𝑇
∑ log 𝑙1𝑡 (𝜃1 ) = − ∑ log|𝐻𝑡 | − ∑ (𝑌𝑡 − 𝜇𝑡 )′𝐻𝑡−1 (𝑌𝑡 − 𝜇𝑡 )
𝑡=1 2 𝑡=1 2 𝑡=1
1 𝑇 1 𝑇
= − ∑ log|𝐷𝑡 𝐼𝑁 𝐷𝑡 | − ∑ (𝑌𝑡 − 𝜇𝑡 )′(𝐷𝑡 𝐼𝑁 𝐷𝑡 )−1 (𝑌𝑡 − 𝜇𝑡 )
2 𝑡=1 2 𝑡=1
1 𝑇 𝑁
2 −2
= − ∑ ∑ log ℎ𝑖𝑖𝑡 + (𝑌𝑖𝑡 − 𝜇𝑖𝑡 )2 ℎ𝑖𝑖𝑡
2 𝑡=1 𝑖=1
Onde 𝜃1 é o conjunto de parâmetros estimados no primeiro passo que consiste em todos
os parâmetros de cada um dos modelos GARCH(p,q) univariados estimados.
No segundo passo, utilizam-se os parâmetros estimados no primeiro, que são
considerados constantes portanto, de maneira a calcular as correlações entre os retornos.
𝑇 1 𝑇 1 𝑇
∑ log 𝑙2𝑡 (𝜃2 ) == − ∑ log|𝐻𝑡 | − ∑ (𝑌𝑡 − 𝜇𝑡 )′𝐻𝑡−1 (𝑌𝑡 − 𝜇𝑡 )
𝑡=1 2 𝑡=1 2 𝑡=1
1 𝑇 1 𝑇
= − ∑ log|𝐷𝑡 𝑅𝑡 𝐷𝑡 | − ∑ 𝜀𝑡 ′(𝐷𝑡 𝑅𝑡 𝐷𝑡 )−1 𝜀𝑡
2 𝑡=1 2 𝑡=1
1 𝑇
= − ∑ log|𝑅𝑡 | − 𝑧𝑡 ′𝑅𝑡 −1 𝑧𝑡
2 𝑡=1
Ainda sobre a escolha da distribuição normal, é necessário dizer que a função t de |Student
pode ser uma opção na escolha da distribuição dos erros. Ela garante erros leptocúrticos,
mas ainda assim não consegue garantir a assimetria que são fatos estilizados dos retornos,
mas que nem ela, nem a normal conseguem reproduzir.
40
6. VaR
O Value at Risk é uma ferramenta de risco muito utilizada por agentes do mercado
financeiro que pode servir para medição e gerenciamento de risco. Os Acordos de Basiléia
por exemplo, usam o VaR como medida fundamental para regulamentação de risco e
obrigações de caixa. Ela mede dentro de um intervalo de tempo e a um determinado nível
de confiança, a maior perda possível dado pela combinação linear dos retornos dos ativos
em um portfólio.
Supondo que o retorno de um portfólio no período 𝜏 (denotado 𝑟𝜏 ) tenha uma distribuição
acumulada de probabilidade 𝐹𝜏 (𝑟𝜏 ) que possui uma inversa 𝐹𝜏−1 , e usando um nível de
confiança de 𝛾 para h dias, o Value at Risk no período t é:
−1 ( )
𝑉𝑎𝑅𝑡 (ℎ, 𝛾) = 𝐹𝑡+ℎ 𝛾
Em geral, usa-se ℎ = 1 dia e 𝛾 = 1%, 𝛾 = 2,5% ou 𝛾 = 5%. No caso dos Acordos de

Basiléia citados anteriormente, eles definem o h em 10 dias.
Perceba que uma questão fundamental para a medição do VaR é a distribuição acumulada
dos retornos do portfólio. Em geral, supõe-se alguma distribuição à priori ou utilizam-se
os valores históricos dos retornos para calculá-la.
Poder-se-ia para calcular o VaR, usar um método não paramétrico. Ele se baseia
basicamente na hipótese de retornos iid e no Teorema do Limite Central e propõe achar
o VaR a partir da distribuição empírica dos retornos
Figura 5 Retorno do SP&500 de 02/01/2004 a 25/02/2015
41
O gráfico acima apresenta os retornos do S&P 500 do dia 02 de Janeiro de 2004 ao dia
25 de Fevereiro de 2015. Nesse caso específico, o VaR dos retornos a 95% de confiança
seria de -1,82% e a 99%, seria de -3,82% a estar certa a hipótese de retornos iid.
Pode-se ainda supor uma distribuição específica para os retornos e seus parâmetros e
calculá-los.
A princípio, supondo uma distribuição iid normal para os retornos, ou seja, com média e
variância constantes, o cálculo do VaR, seria muito simples. Saber-se-ia a distribuição
das estimativas amostrais, e poder-se-ia calcular uma margem de erro para elas. Em
especial, usando novamente o teorema do limite central, as estimativas teriam distribuição
assimptótica normal e o cálculo do VaR seria muito simples. Os retornos teriam um
formato:
𝑦𝑡 = 𝜇𝑡 + ℎ𝑣𝑡
Onde 𝑦𝑡 é o retorno, 𝜇𝑡 , uma média que pode variar no tempo, ℎ2 é a variância dos
retornos (que é constante no tempo) e 𝑣𝑡 ~𝑁𝐼𝐷 (0,1).
O VaR, por sua vez, seria calculado da seguinte maneira:
𝑉𝑎𝑅𝑡 = 𝜇𝑡 + ℎ𝑞
Onde q é o 𝛾 −quantil da distribuição de 𝑣𝑡 .
Se for preferível, dada a distribuição empírica dos retornos que parece ser mais
leptocúrtica que uma normal, pode-se ainda supor uma distribuição t de Student e fazendo
pequenas modificações no método da normalidade iid acima, calcular o VaR.
Agora, é necessário dizer, que a hipótese iid não parece uma boa aproximação da
realidade. De fato, como foi mostrado antes, é notória a clusterização das volatilidades
dos retornos.
Ora, então as volatilidades devem variar e era preciso achar algum modelo que permitisse
a heterocedasticidade e o fizesse de maneira que fosse possível calcular o VaR. Nesse
sentido, pode-se fazer uso dos modelos ARCH e GARCH, que são o foco da presente
dissertação.
Antes de passar ao cálculo das volatilidades, é importante ressaltar que tendo elas
calculadas, o cálculo não muda muito daquele feito acima. De fato, a cada período, o
cálculo supondo distribuição normal para os retornos será:
𝑦𝑡 = 𝜇𝑡 + ℎ𝑡 𝑣𝑡
Onde 𝑣𝑡 ~𝑁𝐼𝐷(0,1).
E o VaR será:
𝑉𝑎𝑅𝑡 = 𝜇𝑡 + ℎ𝑡 𝑞
E para o caso da t de student com nível de confiança de 1% será:
42
𝑘−2
𝑉𝑎𝑅𝑡 = 𝜇𝑡 + 𝜎𝑡 √ 𝑞̃
𝑘
Onde 𝑞̃ é o primeiro percentil da distribuição t de Student com 𝑘 graus de liberdade.

Aqui, para saber quanto vale cada ℎ𝑡 , usa-se um dos modelos GARCH apresentados
anteriormente.
43
7. Estimação e Previsão do VaR com modelos GARCH
Para fazer a estimação e a análise fora da amostra de alguns modelos do GARCH para o
cálculo do VaR, foram usados os retornos diários de um portfólio com posições
compradas e pesos iguais no IBOVESPA, no S&P 500 e no Euro. Foram considerados
dados diários de fechamento de 02 de janeiro de 2004 até o dia 25 de março de 2015.
Figura 6 Histograma com a distribuição de retornos do portfólio 02/01/2004-25/02/2015
A distribuição dos retornos desse portfólio claramente não segue uma normal, como pode
ser visto pelo teste Jarque-Bera acima. Pode-se ver notadamente, o quanto a curtose
excede 3, que seria aquela de uma distribuição normal.
Além disso, é importante ver como se comportam os retornos e observa-se facilmente
uma tendência de clusterização de volatilidades, em especial, de meados de 2008 a
meados de 2009. De fato:
Figura 7 Retornos do portfólio 02/01/2004-25/02/2015
44
Para testar a possibilidade de modelagem desses retornos com um modelo GARCH, foi
feito um teste LM de Engle para saber da existência de fatores ARCH. Como o modelo
GARCH é mais parcimonioso, supôs-se que também pudesse ser utilizado.
Heteroskedasticity Test: ARCH

F-statistic 209.488 Prob. F(1,2681) 0
Obs*R-squared 194.4503 Prob. Chi-Square(1) 0
Os pesos dados a cada ativo são constantes, pois todos os modelos GARCH propostos
são univariados, e portanto, dependem dessa condição para bem funcionarem. De fato,
para garantir que se conhece a distribuição do portfólio, é preciso que, a cada período, a
combinação linear das distribuições escolhidas para cada ativo tenha a mesma
distribuição marginal dos retornos. Por isso mesmo, considerou-se apenas as distribuições
normal e t de Student para estimar os modelos.
Supôs-se, como é comum na literatura, que 𝜇𝑡 = 𝜇 = 0, ou seja, supôs-se que a média
dos retornos diários de cada um desses ativos e portanto do portfólio tem média zero. De
fato, ao estimar o modelo sem essa hipótese, todos os modelos propostos tiveram médias
não significantes.
Os retornos seguem:
𝑦𝑡 = 𝜀𝑡 = ℎ𝑡 𝑣𝑡
Seguindo notação similar àquela usada até agora.
Os modelos GARCH univariados estimados foram:
1. GARCH(1,1)
ℎ𝑡2 = 𝛼0 + 𝛼1 𝜀𝑡−1
2 2
+ 𝛿1 ℎ𝑡−1
2. GJR-GARCH(1,1,1)
ℎ𝑡2 = 𝛼0 + 𝛼1 𝜀𝑡−1
2 2
+ 𝛿1 ℎ𝑡−1 2
+ 𝜔1 𝜀𝑡−1 𝐼(𝜀𝑡 < 0)
3. EGARCH(1,1)
2
log ℎ𝑡 = 𝛼0 + 𝛼1 |𝑣𝑡−1 | + 𝜔1 𝑣𝑡−1 + 𝛿1 log ℎ𝑡−1
Para fazer a estimação do modelo e o exercício fora da amostra, foi usada uma janela
móvel de dois anos para a estimação do modelo e com os coeficientes encontrados fez-se
o forecast do VaR com significância de 1% dos três meses subsequentes. É importante
notar que para fazer o forecast, consideramos os coeficientes achados com a estimação
anterior aplicados sobre a variância de cada dia anterior aquele que foi previsto.
Dessa forma, usando uma amostra de 2684 dias, faz-se o forecast para 2200, indo de 03
de Janeiro de 2006 a 25 de Fevereiro de 2015.
45
Abaixo, o número de desvios e a taxa de desvio:
Desvios Taxa
GARCH 39 1.77%
Normal GJR 37 1.68%
EGARCH 39 1.77%
GARCH 29 1.31%
t de Student GJR 28 1.27%
EGARCH 33 1.50%
Nota-se que nenhum dos modelos conseguiu alcançar a taxa de desvios esperada de 1%.
De fato, todos as estimações resultaram em taxas de desvios maiores que 1%, chegando
a níveis razoavelmente altos, como nos casos dos modelos com distribuição Normal.
Como era esperado, a aplicação de distribuição t de Student aos erros resultou em uma
estimação mais conservadora e taxas de desvios mais baixas em todos os modelos
GARCH testados.
Na comparação entre os modelos GARCH, o melhor desempenho foi do modelo GJR,
que alcançou as taxas de desvios mais próximas de 1% para ambas as distribuições, o que
era esperado considerando que é um modelo assimétrico e que portanto é mais complexo
que o modelo GARCH tradicional. A grande surpresa foi o desempenho do modelo
EGARCH que curiosamente, apesar de também possuir assimetria, teve um desempenho
pior que o modelo GARCH tradicional.
46
8. Modelos conjuntos
Apresentados os dois modelos acima, faz-se necessário apresentar alguns trabalhos que
de alguma forma os juntem para melhorar a estimação. Aqui são discutidos basicamente
dois modelos como inspiração.
Koopman, Mallee e Wel (2007) apresentam duas extensões ao modelo DNS tradicional
de Diebold & Li (2006). Basicamente eles propõe separadamente e depois conjuntamente
a melhora do fitting ao variar no tempo o parâmetro lambda e a variância na equação de
observação do modelo DNS.
O modelo DNS nesse contexto é agora escrito:
𝑦𝑡 = Λ(𝜆𝑡 )𝑓𝑡 + 𝜀𝑡
Onde 𝑓𝑡 = (𝛽1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 ) e se define 𝛼𝑡 = (𝛽1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 , 𝛽4𝑡 , 𝜀𝑡∗ ) = (𝛽𝑡′ , 𝜀𝑡∗ ), em que obviamente
𝜆𝑡 = 𝛽4𝑡 .
𝐴 0 𝜂𝑡−1
𝛼𝑡 = 𝜇 + ( ) 𝛼𝑡−1 + ( 𝜀 ∗ )
0 0 𝑡−1
𝜂𝑡 Σ𝜂 0
Em que (𝜀 ∗ ) ~𝑁𝐼𝐷 (0, [ ]).
𝑡+1 0 ℎ𝑡+1
O foco aqui está no erro 𝜀𝑡 que passa a ter um fator GARCH comum. De fato, define-se 𝜀𝑡 :
𝜀𝑡 = Γ𝜀 𝜀∗𝑡 + 𝜀+𝑡
Em que Γ𝜀 é um vetor, 𝜀𝑡∗ é um erro escalar e 𝜀𝑡+ é um erro vetor de erros. Supõe-se que os termos
de erro são mutuamente independentes e vale que 𝜀𝑡∗ ~𝑁𝐼𝐷(0, ℎ𝑡 ) e 𝜀𝑡+ ~𝑁𝐼𝐷(0, Σ𝜀𝑡 ). Define-se
ℎ𝑡 tal que siga um GARCH(1,1) univariado tradicional.
Como dito antes, essa volatilidade é comum a todas as maturidades, variando apenas no tempo.
Com a presença desse termo GARCH, a variância do erro 𝜀𝑡 também passa a variar no tempo,
tendo um impacto em toda a estimação do modelo que é feita por um Filtro de Kalman.
Os autores produzem com essas alterações uma melhora significativa no fitting em relação ao
modelo DNS tradicional, em que pese, que boa parte da melhora, segundo eles próprios, vem da
adição do termo GARCH no erro 𝜀𝑡 .
Outro trabalho interessante nesse sentido é o de Caldeira, Moura e Santos (2013), que também
utiliza uma estrutura GARCH na estimação de um modelo DNS. De fato, sua análise varia
daquela apresentada anteriormente tanto no objetivo quanto no método. O objetivo da
análise é fazer forecast do VaR de um portfólio de renda fixa, e não melhorar o fitting
como feito anteriormente e o termo GARCH passa a aparecer na equação de estado,
impactando portanto a dinâmica dos fatores. Além disso, ele utiliza modelos GARCH
multivariados para a estimação.
De fato, seu modelo não muda em nada o DNS tradicional na equação de observação, que
continua:
𝑦𝑡 = Λ(λ)𝑓𝑡 + 𝜀𝑡
Com todas as características definidas anteriormente.
47
Por outro lado, a equação de estado agora passa a ser:
(𝑓𝑡 − 𝜇) = 𝐴(𝑓𝑡−1 − 𝜇) + 𝜂𝑡
𝜂𝑡 0 𝑄 0
Com erros seguindo, ( 𝜀 ) ∼ 𝑁𝐼𝐷 [( ) , ( 𝑡 )]
𝑡 0 0 𝐻
Onde 𝑄𝑡 segue um GARCH multivariado, em especial, os autores usam o CCC e o DCC em suas
versões mais simples. Perceba que aqui, o GARCH não é comum, mas antes afeta diferentemente
cada fator e mais que isso considera possíveis correlações.
O VaR, como se supõe erros normais, é calculado como:
𝑉𝑎𝑅𝑡 = 𝜇𝑡 + ℎ𝑝,𝑡 𝑞
Onde ℎ𝑝,𝑡 é a variância do portfolio dos ativos, q é a inversa da normal como definida
anteriormente. Os autores calculam o VaR para um dia depois para níveis de significância de 1%,
2,5% e 5%. Eles comparam as estimações do modelo variando a definição da equação de
observação entre as definições do DNS de Diebold & Li (2006) e de Svensson, variando a maneira
de estimar a dinâmica dos fatores, quais sejam, por meio de um AR(1) para cada ou conjuntamente
por meio de um VAR(1), e no modelo GARCH que rege a dinâmica de 𝑄𝑡 .
Esses dois modelos são importantes inspirações para modelos conjuntos que considerem a
variância variando no tempo quando estimando um modelo DNS ou alguma de suas extensões,
que a princípio não consideram essa possibilidade. De fato, isso parece ser ainda mais importante
quando os próprios resultados achados no presente trabalho parecem indicar que a variância das
taxas no tempo muda e mais do que isso, desconsiderar esses efeitos pode comprometer a
estimação desses modelos.
Ao mesmo tempo, fica claro que uma análise mais voltada para o problema apresentado aqui. Os
dois trabalhos supracitados, como dito antes, têm objetivos distintos daquele que aqui foi tentado.
Aqui foi tentado fazer um exercício de forecast das taxas de maneira que se alcançasse uma análise
que lograsse pelo menos um desempenho próximo daquele alcançado pelo passeio aleatório.
Em Koopman, Mallee e Wel (2007), o objetivo dos autores muito claramente é melhorar
a performance do fitting do modelo. Ora, essa análise é muito distinta, pois um bom fitting
para o passado não garante bons resultados fora da amostra e mais que isso, essa
preocupação só com o fitting pode levar ao problema do overfitting, ou seja, a resultados
até piores no forecast.
Em Caldeira, Moura e Santos (2013), o objetivo é tentar conseguir bons resultados no
forecast do VaR. Apesar da preocupação com o forecast que não havia no trabalho
anterior, ela ainda não garante que possíveis resultados positivos possam ser também
alcançados para a análise aqui apresentada. Aliás, não se sabe até que ponto esses
resultados achados por eles não seriam piores que aqueles caso se utilizasse o passeio
aleatório.
Assim, embora interessantes, não há muita garantia que tais mudanças possam melhorar
a performance do modelo DNS para que seja superior ao passeio aleatório. Ainda assim,
certamente são experiências que devem ser testadas mais a fundo por apresentarem uma
forma de solucionar um problema que parece piorar os resultados do DNS, qual seja, a
variância das taxas que varia no tempo.
48
9. Conclusão
São apresentados aqui dois importantes modelos para a medição e o gerenciamento de

risco. Dois modelos que nas suas respectivas versões originais já foram bem explorados
pela literatura e que por isso mesmo, já possuem diversas extensões.
Primeiro, são comentadas algumass características do modelo DNS de Diebold & Li
(2006), e de suas extensões: o modelo de Svensson (1994), Bliss (1997), Björk e
Christensen (1999) e o importante modelo teórico do DNS livre de risco de Christensen,
Diebold e Rudebusch (2011).
A estimação aqui apresentada parece ter resultados discutíveis, em geral piores que o
passeio aleatório para esses dados recentes, em especial ter tido uma performance ruim
para maturidades curtas. De qualquer forma, esse resultado já era esperado dado que essas
taxas estavam muito próximas do zero lower bound, onde o modelo não consegue
produzir boas previsões, além da variação brusca nas taxas também atrapalhar a estimação
do modelo. De fato, quando estudado um período mais curto dos últimos 60 meses da
amostra, os resultados são melhores e as previsões das taxas longas passam a serem
melhores que aquelas do passeio aleatório.
Torna-se evidente uma das possibilidades futuras de pesquisa nessa área, qual seja, a
atualização desse modelo para o caso em que as taxas fiquem próximas do zero lower
bound. Essa pesquisa já foi começado e envolve vários trabalhos como o de Christensen
& Rudebusch (2013).
Em relação aos modelos ARCH e GARCH, apresentam-se suas características,
especialmente as características do GARCH(1,1) que é o mais utilizado pela literatura e
citam-se diversas extensões teóricas a eles, em especial, os modelos univariados
assimétricos EGARCH de Nelson(1990), TGARCH de Zakoian (1994), QGARCH de
Sentana (1995) e o GJR-GARCH de Glosten, Jagannathan e Runkle (1993).
Além disso, são apresentados alguns dos modelos multivariados, entre os quais, o VEC
de Bollerslev, Engle & Wooldridge (1988), sua simplificação direta, o DVEC, o BEKK
de Engle & Kroner (1995), o CCC de Bollerslev (1990), o DCC de Engle (2002) e o
AsyDCC de Cappiello, Engle & Sheppard (2006).
Termina-se com uma rápida discussão sobre estimação dos modelos GARCH.
Na aplicação teórica proposta, são utilizados os modelos univariados GARCH, GJR-
GARCH e EGARCH para a estimação e previsão do VaR de um portfólio. Obtiveram-se
os resultados esperados, quais sejam, uma performance superior dos modelos que usam
erros seguindo distribuição t de Student e das distribuições GARCH assimétricas.
Apesar disso, é necessário dizer, que nenhuma das estimações conseguiu violar o VaR
estimado apenas 1% das vezes como seria esperado a um nível de significância de 1%.
De fato, todos tiveram uma taxa de violação um pouco maior que 1%, sendo a menor
delas 1,27%, alcançada pelo modelo GJR-GARCH para erros com distribuição t de
Student.
49
Para o futuro, é necessário ver quais as consequências e possibilidades de outras
distribuições para o erro, pois muitas vezes, a curtose garantida pela modelagem GARCH,
ou qualquer uma de suas extensões não consegue replicar a curtose gerada na vida real.
O mesmo ocorrendo com a distribuição t de Student, ainda que apresente curtose um
pouco maior que a normal.
Há ainda a necessidade de estudo de modelos multivariados que permitam uma estimação
mais fácil de portfólios grandes, com muitos ativos. Hoje, esses modelos são altamente
parametrizados o que torna sua estimação computacionalmente muito custosa e que
permite que os erros de estimação sejam inflados.
Ademais, é interessante notar a iniciativa de Caldeira, Moura e Santos (2013), que unem
os dois modelos aqui apresentados para estimar o risco em portfólios de renda fixa e de
Koopman, Mallee e Wel (2007). Esse tipo de análise conjunta dos modelos DNS e suas
extensões considerando variâncias variantes no tempo não foi devidamente estudada e
em especial deve-se entender como essa análise pode melhorar a capacidade preditiva.
Deve-se avançar nessa literatura, testando-o tanto empírica quanto teoricamente.
50
10. Bibliografia
Ang, A., and M. Piazzesi, 2003, A No-Arbitrage Vector Autoregression of Term

Structure Dynamics with Macroeconomic and Latent Variables, Journal of Monetary
Economics, 50, 4, 745-787.
Andersen, T.G., Bollerslev, T., Christoffersen, P.F., & Diebold, F.X. 2006. Volatility
and correlation forecasting. Vol. 1.
Bauwens, L., Laurent, S., & Rombouts, J.V.K. 2006. Multivariate GARCH models: a
survey. Journal of Applied Econometrics, 21(1), 79-109.
BIS. 2005. Zero-coupon yield curves: technical documentation. Tech. rept. Bank for
International Settlements.
Bjork, T. and Christensen, B. J. 1999. Interest rate dynamics and consistent forward rate
curves. Mathematical Finance 9 (4), 323-348.
Bliss, R.R. 1997. Testing term structure estimation methods. Advances in Futures and
Options Research. 9, 197-231.
Bollerslev, T. 1986. Generalized autoregressive conditional heteroskedasticity. Journal
of Econometrics, 31(3), 307-327.
Bollerslev, T. 1990. Modelling the coherence in short-run nominal exchange rates: a
multivariate generalized ARCH model. Review of Economics and Statistics, 72(3), 498-
505.
Bollerslev T., Engle RF, Nelson D.B. 1994. ARCH models. In Handbook of
Econometrics, Engle R, McFadden D (eds). North Holland Press: Amsterdam.
Bollerslev T, Engle R.F., Wooldridge J.M. 1988. A capital asset pricing model with
time varying covariances. Journal of Political Economy 96: 116–131.
Bollerslev, T., & Wooldridge, J.M. 1992. Quasi-maximum likelihood estimation and
inference in dynamic models with time-varying covariances. Econometric reviews,
11(2), 143-172.
Cappiello, L., Engle, R.F., & Sheppard, K. 2006. Asymmetric dynamics in the
correlations of global equity and bond returns. Journal of Financial Econometrics, 4(4),
537-572.
Christoffersen, P. 2009. Value-at-risk models. In: Andersen, T.G., Davis, R.A., Kreiss,
J.-P., & Mikosch, T. (eds), Handbook of Financial Time Series. Springer Verlag.
Christensen J.H.E, Diebold, F. X., & Rudebusch, G. D. 2011. The affine arbitrage-free
class of Nelson-Siegel term structure models. Journal of Econometrics, 164, 4-20.
Christensen, J.H. E. and Glenn D. Rudebusch, 2012, The Response of Interest Rates to
U.S. and U.K. Quantitative Easing, Economic Journal, Vol. 122, F385-F414.
51
Christensen, J.H. E. and Rudebusch G.D., 2013, Estimating Shadow-Rate Term
Structure Models with Near-Zero Yields, Working Paper 2013-07, Federal Reserve
Bank of San Francisco.
Christoffersen, P., Hahn, J., & Inoue, A. 2001. Testing and comparing value-at-risk
measures. Journal of Empirical Finance, 8(3), 325-342.
Christoffersen, P.F. 1998. Evaluating interval forecasts. International Economic
Review, 39(4), 841-862.
Cox, J. C., Ingersoll, J. E., & Ross, S. A. 1985. A theory of the term structure of interest
rates. Econometrica, 53(2), 385-407.
Cox, J., J. Ingersoll, and S. Ross, 1979, Duration and the Measurement of Basis Risk,”
Journal of Business, 52, 51-61.
De Goeij, Peter, & Marquering, Wessel. 2006. Macroeconomic announcements and
asymmetric volatility in bond returns. Journal of Banking & Finance, 30(10),
2659{2680.
De Pooter, M. 2007. Examining the Nelson-Siegel class of term structure models.
Tinbergen Institute Discussion Papers. Tinbergen Institute.
Diebold, F., & Li, C. 2006. Forecasting the term structure of government bond yields.
Journal of Econometrics, 130(2), 337-364.
Diebold, F.X., Piazzesi, M., Rudebusch, G.D., 2005. Modeling bond yields in finance
and macroeconomics. American Economic Review 95, 415–420.
Diebold, F. X., & Rudebusch, G. D. 2011. The Dynamic Nelson-Siegel Approach to
Yield Curve Modeling and Forecasting. mimeo.
Diebold, F. X., Rudebusch, G. D., & Aruoba, S. B. 2006. The macroeconomy and the
yield curve: a dynamic latent factor approach. Journal of Econometrics, 131(1-2), 309-
338.
Diebold, F. X., Rudebusch, G. D. 2013 (eds.). The Dynamic Nelson-Siegel Approach to
Yield Curve Modelling and Forecasting. Princeton, NJ: Princeton University Press.
Duffie, Darrell and Rui Kan, 1996, A Yield-Factor Model of Interest Rates,
Mathematical Finance, Vol. 6, 379-406.
Engle, R. F. 1982: Autoregressive conditional heteroscedasticity with estimates of the
variance of United Kingdom inflation, Econometrica, 50, 987–1006.
Engle, R. 2002. Dynamic conditional correlation: a simple class of multivariate
generalized autoregressive conditional heteroskedasticity models. Journal of Business &
Economic Statistics, 20(3), 339-350.
Engle, R.F. 1990. Stock volatility and the crash of '87: discussion. The Review of
Financial Studies, 3(1), 103-106.
52
Engle, R. F., and K. F. Kroner (1995): Multivariate simultaneous generalized ARCH,
Econometric Theory, 11, 122–150.
Engle, R.F., & Ng, V.K. 1993. Measuring and testing the impact of news on volatility.
Journal of Finance, 48(5), 1749-78.
Engle, R.F., & Sheppard, K. 2001. Theoretical and empirical properties of dynamic
conditional correlation multivariate GARCH. NBER Working Paper W8554.
Engle, R.F., Shephard, N., & Sheppard, K. 2008. Fitting vast dimensional time-varying
covariance models. Discussion Paper Series n.403, Department of Economics,
University of Oxford.
Filipovi´c, D., 1999, A Note on the Nelson-Siegel Family, Mathematical Finance, 9,
349-359.
Filipovic, D. 2009. Term Structure Models. Springer Finance.
Andersen, T.G., Davis, R.A., Kreiss, J.-P., & Mikosch, T. (eds), Handbook of Financial
Time Series. Springer Verlag.
Giacomini, R., & White, H. 2006. Tests of conditional predictive ability. Econometrica,
74(6), 1545-1578.
Glosten, L., Jagannathan, R., & Runkle, D.. 1993. On the relation between
the expected value and the volatility of the nominal excess return on stocks. Journal of
Finance, 48, 1779-1801.
Hamilton, J.D., 1995 (eds.). Time Series Analysis. Princeton NJ. Princeton University
Press.
He, C., and T. Terasvirta ¨ (2004): An extended constant conditional correlation
GARCH model and its fourth-moment structure, Econometric Theory, 20, 904–926.
Jeantheau T. 1998. Strong consistency of estimators for multivariate ARCH models.
Econometric Theory 14: 70–86.
Jorion, Phillip. 2006. Value at Risk: The new benchmark for managing nancial risk.
McGrawHill, NewYork.
Koopman, Siem Jan, Mallee, Max I.P., & van der Wel, Michel. 2010. Analyzing the
term structure of interest rates using the dynamic Nelson-Siegel model with time-
varying parameters. Journal of Business and Economic Statistics, 28(3), 329-343.
Kroner FK, Ng VK. 1998. Modelling asymmetric comovements of asset returns. The
Review of Financial Studies 11: 817–844.
McAleer, M. 2009. The ten commandments for optimizing value-at-risk and daily
capital charges. Journal of Economic Surveys, 23(5), 831-849.
McCulloch, J. H. 1971. Measuring the term structure of interest rates. The Journal of
Business, 44(1), 19-31.
53
McCulloch, J. H. 1975. The tax-adjusted yield curve. Journal of Finance, 30(3), 811-
30.
Nelson, C. R. N., & Siegel, A. F. 1987. Parsimonious modeling of yield curves. The
Journal of Business, 60(4), 473-489.
Nelson, D.B. 1991. Conditional heteroskedasticity in asset returns: a new approach.
Econometrica, 59(2), 347-370.
Santos, A. A. P., Nogales, F.J., & Ruiz, E. 2012. Comparing univariate and multivariate
models to forecast portfolio value-at-risk. Forthcoming, Journal of Financial
Econometrics.
Santos, A.A.P., Moura G.V. and Caldeira J.F., 2013 Measuring risk in fixed income
portfolios using yield curve models. Forthcoming, Computational Economics.
Sentana E. 1995. Quadratic ARCH models. Review of Economic Studies 62: 639–661.
Sentana E. 1998. The relation between conditionally heteroskedastic factor models and
factor GARCH models. Econometrics Journal 1: 1–9.
Rabemananjara, R. and J. M. Zakoian. 1993. Threshold Arch Models and Asymmetries
in Volatility. Journal of Applied Econometrics. January/March, 8:1, pp. 31–49.
Shiryaev, A.N. 1999 (eds.).Essentials of Stochastic Finance: Facts, Models, Theory.
World Scientific.
Svensson, L. O. 1994 (Sept.). Estimating and interpreting forward interest rates:
Sweden 1992-1994. IMF Working Papers 94/114. International Monetary Fund.
Tsay RS. 2002. Analysis of Financial Time Series. John Wiley: New York.
Williams, David, 1997, Probability with Martingales. Cambridge: Cambridge
University Press.
Willner, R., 1996, A New Tool For Portfolio Managers: Level, Slope, and Curvature
Durations, Journal of Fixed Income, June, 48-59.
Zaffaroni, P. 2007. Contemporaneous aggregation of GARCH processes. Journal of
Time Series Analysis, 28(4), 521-544.
Zakoian, J.M. 1994. Threshold heteroskedastic models. Journal of Economic Dynamics
and control, 18(5), 931-955.
Zivot, E. 2009. Practical issues in the analysis of univariate GARCH models. In:
Andersen, T.G., Davis, R.A., Kreiss, J.-P., & Mikosch, T. (eds), Handbook of Financial
Time Series. Springer Verlag
54

Modelo Nelson Siegel

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelo Nelson Siegel

Enviado por

Direitos autorais:

Formatos disponíveis

FUNDAÇÃO GETULIO VARGAS

ESCOLA DE PÓS GRADUAÇÃO EM ECONOMIA

Dois modelos de controle de risco:

O modelo Nelson- Siegel dinâmico e o cálculo de VaR por

ESCOLA DE PÓS GRADUAÇÃO EM ECONOMIA

Dois modelos de controle de risco:

O modelo Nelson- Siegel dinâmico e o cálculo de VaR por

Dissertação apresentada para obtenção

do grau de mestre à Escola de

Orientador: Caio Ibsen

Dissertação (mestrado) - Fundação Getulio Vargas, Escola de Pós-Graduação

1. Taxas de juros. 2. Risco (Economia). 3. Modelos matemáticos. I. Almeida,

Palavras-chave: Taxa a termo, Modelo Nelson-Siegel dinâmico, Modelo de Svensson,

Antes de apresentar o modelo de estimação da curva de juros de Nelson-Siegel dinâmico,

que foi reformulado em Diebold & Li (2006) na sua versão dinâmica.

Dado um período de tempo t, os modelos se equivalem com 𝛽1𝑡 = 𝑏1 , 𝑏2 = 𝛽2𝑡 + 𝛽3𝑡 e

Onde 𝜀𝑡 (𝜏)é um erro estocástico idiossincrático e chama-se:

𝛽1𝑡 − 𝜇1 𝑎11 0 0 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

𝛽1𝑡 − 𝜇1 𝑎11 𝑎12 𝑎13 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

3.2. A importância do lambda

De maneira que ao fim, será obtido um conjunto de parâmetros {𝛽̂ ̂ ̂ 𝑇

𝛽1𝑡 − 𝜇1 𝑎11 𝑎12 𝑎13 𝛽1𝑡−1 − 𝜇1 𝜂𝑡 (𝛽1𝑡 )

É a equação de estado e a equação

3.5. Gerenciamento de risco

Supondo que 𝑦𝑡 (𝜏𝑖 ) sejam independentes, isso implica que:

Chamando de 𝑤𝑖 o peso associado ao 𝐶𝑖 :

E pode-se definir a duration associada ao fator de risco j:

Figura 2 Coeficientes dos fatores do modelo Svensson

O coeficiente correspondente ao quarto fator continua sendo interpretado como uma

Onde os fatores globais seguem um VAR(1):

Os erros idiossincráticos seguem a seguinte distribuição

𝑑𝑋𝑡 = 𝐾 𝑄 (𝑡)[𝜃 𝑄 (𝑡) − 𝑋𝑡 ]𝑑𝑡 + Σ(𝑡)𝐷(𝑋𝑡 , 𝑡)𝑑𝑊𝑡𝑄

Onde 𝑊 𝑄 é um movimento Browniano padrão no ℝ𝑛 , cuja informação está contida na

1 𝐵(𝑡, 𝑇)′ 𝐶 (𝑡, 𝑇)

𝑑𝑋𝑡1 0 0 0 𝜃1𝑄 𝑋𝑡1 𝑑𝑊𝑡1,𝑄

Então, as taxas a termo de um título sem cupom seguem:

Se supuser fatores não correlacionados.

Estimam-se o modelo de Nelson-Siegel dinâmico e o modelo de Svensson usando as taxas

 Svensson de Diebold & Rudebusch (2013)

É o modelo de Svensson dinâmico usando os lambdas propostos por Diebold &

Como no artigo de Diebold & Li (2006), quis-se comparar os resultados com

𝑦̂𝑡+ℎ|𝑡 (𝜏) = 𝑦𝑡 (𝜏)

Tabela 1 Resultados dos erros de estimação para horizonte de 1 mês

DNS 3 -0.032 0.492

120 -0.235 0.528

Svensson 3 0.056 0.360

DNS Diebold&Li 3 -0.506 0.613

120 -0.809 0.660

Svensson Diebold&Rudebusch 3 -0.506 1.114

120 -0.809 1.330

Passeio Aleatório 3 -0.032 0.211

Tabela 2 Resultados dos erros de estimação para horizonte de 6 meses

DNS 3 0.012 1.087

120 -0.461 1.030

Svensson 3 0.346 1.067

120 -0.046 0.729

DNS Diebold&Li 3 -0.460 1.060

120 -1.118 1.109

Svensson Diebold&Rudebusch 3 -0.460 1.312

120 -1.118 1.749

Passeio Aleatório 3 0.012 0.739

Tabela 3 Resultados dos erros de estimação para horizonte de 12 meses

DNS 3 0.311 1.546