Escolar Documentos
Profissional Documentos
Cultura Documentos
Infer
(x
0
) +
(x x
0
)
2
2!
f
(x
0
) + +
+
(x x
0
)
n
n!
f
(n)
(x
0
) + R
n
(x), (2.1)
4
em que R
n
(x) e conhecido como resto de Lagrange e e dado por R
n
(x) =
(xx
0
)
n+1
(n+1)!
f
(n+1)
().
2.1.1 Aproxima cao de Taylor de Segunda Ordem
Um caso particular de interesse e obter uma aproxima cao polinomial de segundo grau.
Seja uma funcao f : de classe C
1
e duas vezes diferenciavel em x
0
. A aproximacao
de Taylor de segunda ordem para uma funcao f de uma variavel em torno de x
0
e dada por
f(x) f(x
0
) +
(x x
0
)
1!
f
(x
0
) +
(x x
0
)
2
2!
f
(x
0
) (2.2)
Considere, agora, uma fun cao f :
n
de classe C
1
e duas vezes diferenciavel em
x
0
n
. Denotando
f
(x) o vetor gradiente de f em x e H
f
(x) a matriz hessiana de f
em x, a aproximacao de Taylor de segunda ordem para uma funcao de varias variaveis em
torno de x
0
e dada por
f(x) f(x
0
) +
f
(x
0
)
T
(x x
0
) +
1
2!
(x x
0
)
T
H
f
(x
0
)(x x
0
) (2.3)
2.2 Otimiza cao Sem Restri coes
Nos problemas de otimizacao sem restric oes, o objetivo e minimizar uma fun cao objetivo
que depende de variaveis reais, com nenhuma restricao nessas variaveis. Matematicamente,
deseja-se
min
x
f(x), (2.4)
em que x
n
e um vetor real com n 1 componentes e f :
n
.
Todos os algoritmos de otimiza cao sem restric oes exigem o estabelecimento de um valor
inicial x
(0)
. Comecando em x
(0)
, tais algoritmos geram uma sequencia {x
(k)
}
k=0
que termina
conforme uma dada regra de parada. Para mover de uma iteracao x
(k)
para x
(k+1)
, os
algoritmos usam informacao sobre a fun cao f em x
(k)
e tambem informa cao sobre as iterac oes
anteriores x
(0)
, x
(1)
, . . . , x
(k1)
.
5
Uma das estrategias para se avancar de um ponto corrente x
(k)
para o pr oximo e a busca
em linha. Cada iteracao do metodo de busca em linha obtem uma dire cao p
(k)
e decide quao
longe se movera nesta direcao. Cada itera cao e dada por
x
(k+1)
= x
(k)
+ t
(k)
p
(k)
, (2.5)
em que o escalar positivo t
(k)
e chamado de tamanho do passo.
Com isso, pode-se resumir tal abordagem atraves do seguinte algoritmo:
Algoritmo 1 Algoritmo de Busca em Linha Generico
1. Assuma um valor inicial x
(0)
que pertence ao domnio da funcao objetivo.
2. Para k = 0, 1, 2, . . . , repita os itens abaixo ate que um dado criterio de parada seja
satisfeito.
(i) Determine uma direcao p
(k)
.
(ii) Busca em linha: Determine o tamanho do passo t
(k)
> 0.
(iii) Atualize x
(k+1)
= x
(k)
+ t
(k)
p
(k)
.
O item (ii) e chamado de busca em linha ja que a escolha do tamanho do passo na k-esima
iteracao t
(k)
determina o local ao longo da linha {x
(k)
+ t
(k)
p
(k)
|t
(k)
+
} que a pr oxima
iteracao estara.
Uma condicao de parada possvel e dada por ||
f
(x
(k)
)||
2
, xando-se uma tolerancia
pequena e positiva , sendo || ||
2
a norma Euclidiana.
6
A maior parte dos algoritmos de busca em linha requerem que p
(k)
tenha dire cao de
descida. A dire cao de Newton e dada por p
(k)
= H
1
f
(x
(k)
)
f
(x
(k)
). Esta direcao pode
ser utilizada no metodo de busca em linha quando H
f
(x
(k)
) e positiva denida. A maioria das
implementac oes do metodo de Newton utiliza um tamanho de passo t = 1 quando possvel e
ajusta t quando nao produz uma reducao satisfat oria na funcao f.
Quando H
f
(x) nao e positiva denida, a direcao de Newton pode nao estar denida ja
que H
1
f
(x
(k)
) pode nao existir. Neste caso, a direcao de Newton e dada por H
f
(x
(k)
)p
(k)
=
f
(x
(k)
). Fazendo modicac oes adequadas, pode-se executar o metodo de busca em linha
de Newton atraves do seguinte algoritmo:
Algoritmo 2 Algoritmo de Busca em Linha de Newton
(i) Assuma um valor inicial x
(0)
que pertence ao domnio da funcao objetivo. Para k =
0, 1, 2, . . . , repita os itens (ii)(iv) ate que uma dada condicao de parada seja satisfeita.
(ii) Fatorize a matriz B
(k)
= H
f
(x
(k)
) + E
(k)
, em que E
(k)
= 0 se H
f
(x
(k)
) e positiva
denida. Caso contrario, E
(k)
e denida para assegurar que B
(k)
e positiva denida.
(iii) Resolva o sistema B
(k)
p
(k)
=
f
(x
(k)
).
(iv) Faca x
(k+1)
x
(k)
+
(k)
p
(k)
e k = k + 1.
Metodos que usam a direcao de Newton tem uma rapida taxa de convergencia local,
tipicamente quadratica. Apos alcan cada uma vizinhanca da solucao, a convergencia de alta
acuracia e encontrada ap os poucas iterac oes. A desvantagem da dire cao de Newton e a
necessidade de se avaliar a matriz hessiana H
f
(x
(k)
) na k-esima iteracao do algoritmo. Este
calculo e sujeito a erros e custoso computacionalmente. Isto pode ser evitado obtendo a
matriz hessiana via diferencas nitas.
A maior parte dos algoritmos de busca em linha utilizados na pratica sao inexatos no
sentido de que, em geral, o tamanho do passo e escolhido para aproximadamente minimizar
f no raio {x
(k)
+ t
(k)
p
(k)
|t
(k)
0} ou para sucientemente reduzir f. Um metodo inexato
de busca em linha simples e eciente e o metodo de busca em linha retroativa. Este metodo
depende de duas constantes e , com (0, 0.5) e (0, 1). O algoritmo para a
execucao deste metodo e o que segue.
7
Algoritmo 3 Algoritmo de Busca em Linha Retroativa Generico
1. Assuma um valor inicial x
(0)
que pertence ao domnio da fun cao objetivo. Fixe
(0, 0.5) e (0, 1)
2. Faca t
(0)
= 1. Enquanto f(x + t
f
(x)
T
) > f(x) + t
f
(x)
T
, repita o item 3.
3. t
(k+1)
= t
(k)
O metodo acima e chamado de metodo de busca em linha retroativa pois inicia-se com
um tamanho de passo unitario t
(0)
= 1
2.3 Interpolacao
Interpolar uma funcao f(x) consiste em aproximar essa funcao por uma outra fun cao g(x),
escolhida entre uma classe de func oes denida a priori que satisfaca algumas propriedades,
segundo Ruggiero e Lopes (1996). Uma funcao g(x) e usada em substituicao `a funcao f(x).
A necessidade de se fazer esta substituicao pode ocorrer quando operacoes de diferenciacao
ou integracao sao difceis ou impossveis de serem realizadas atraves da funcao de estudo ou,
ainda, quando sao conhecidos apenas alguns valores da funcao e deseja-se obter o valor da
funcao em um ponto que nao e conhecido.
Atraves de amostragem ou experimentacao, em diversas aplicacoes, obtem-se um conjunto
de dados e tenta-se construir uma funcao que melhor se ajuste a este conjunto de dados. A
interpolacao e um caso especco de ajuste de curvas em que a funcao deve passar exatamente
pelos pontos dados.
Dados os (n + 1) pontos distintos em [a, b], a = x
0
< x
1
< x
2
< < x
n
= b,
a interpolacao polinomial aproxima uma dada funcao f(x) por um polin omio de p
n
(x) de
grau menor ou igual a n, tal que f(x
k
) = p
n
(x
k
), k = 0, 1, 2, . . . , n. Pode-se mostrar que
existe um unico polin omio p
n
(x) de grau menor ou igual a n que satisfaz f(x
k
) = p
n
(x
k
),
k = 0, 1, 2, . . . , n, desde que x
k
= x
j
, k = j.
8
Assim, o polinomio p
n
(x) e unico, no entanto, ha diversas formas de obte-lo, como por
exemplo as formas de Lagrange e de Newton. Sugere-se a leitura de Ruggiero e Lopes (1996)
ou Burden e Faires (2001), que sao as referencias principais desta secao, para obter mais
detalhes.
2.3.1 Forma de Lagrange
Considere novamente os (n + 1) pontos distintos em [a, b], a = x
0
< x
1
< x
2
< <
x
n
= b e que y
k
= f(x
k
), para k = 0, 1, 2, . . . , n. Seja p
n
(x) o polinomio de grau n que
interpola f em x
0
, x
1
, . . . , x
n
. A forma de Lagrange para o polin omio interpolador e dada por
p
n
(x) =
n
k=0
y
k
L
k
(x), (2.6)
em que
L
k
(x) =
(x x
0
)(x x
1
) . . . (x x
k1
)(x x
k+1
) . . . (x x
n
)
(x
k
x
0
)(x
k
x
1
) . . . (x
k
x
k1
)(x
k
x
k+1
) . . . (x
k
x
n
)
(2.7)
O erro em se aproximar f(x) por p
n
(x) e dado por E
n
(x) = f(x) p
n
(x), para todo x
no intervalo [x
0
, x
n
].
Um dos metodos mais simples de interpolacao e a interpolacao linear. A interpolacao
linear e frequentemente usada para aproximar o valor de alguma fun cao f em um dado ponto
x usando dois valores conhecidos da funcao, por exemplo, x
0
e x
1
. Utilizando-se a forma de
Lagrange, o polin omio interpolador de grau 1 e dado por:
p
1
(x) = f(x
0
) +
f(x
1
) f(x
0
)
x
1
x
0
(x x
0
). (2.8)
De forma mais geral, a interpolacao linear em um conjunto de pontos
(x
0
, f(x
0
)), (x
1
, f(x
1
)), . . . , (x
n
, f(x
n
)) e obtida fazendo-se a interpolacao linear entre cada
par de pontos dados.
9
2.3.2 Spline C ubica Interpolante
Atraves da forma de Lagrange, obtem-se um polin omio que interpola a fun cao f em pontos
dados. Trata-se, portanto, de uma aproximacao em intervalos fechados usando polinomios.
Os polinomios de ordem elevada tem natureza oscilatoria, no sentido de que uma utua cao
em uma pequena parte do intervalo pode levar a grandes utua coes em toda a amplitude do
intervalo.
Uma alternativa e interpolar f(x) em grupos de poucos pontos, obtendo polinomios
de graus menores, alem de impor condicoes para que sejam contnuas tanto a funcao de
aproxima cao como suas derivadas ate uma determinada ordem.
Neste caso, pode-se considerar uma interpolacao linear entre cada par de pontos dados.
A funcao obtida e contnua porem nao ha diferenciacao nos extremos dos subintervalos. Uma
outra possibilidade e aproximar um polin omio de grau 2 em cada trio de pontos dados. No
entanto, assim como no caso anterior, tambem s o seria garantida a continuidade da funcao
que aproxima f(x).
Considere novamente uma funcao f(x) nos seguintes pontos dados a = x
0
< x
1
< <
x
n
= b . Denota-se por S
p
(x) uma funcao spline de grau p. Em cada subintervalo [x
i
, x
i+1
],
i = 0, 1, . . . , n 1, S
p
(x) e um polinomio de grau p, sendo esta fun cao contnua e com
derivada contnua ate a ordem (p 1) em [a, b]. Se alem dessas condic oes a fun cao for
interpolante, ou seja, satiszer a condicao de que S
p
(x
i
) = f(x
i
), i = 0, 1, 2, . . . , n, entao
ela sera chamada de spline interpolante.
A funcao spline linear possui derivada primeira descontnua nos pontos dados. Ja a funcao
spline quadratica possui derivada contnua ate a ordem 1, o que pode levar o fato da curvatura
de S
2
(x) mudar nos pontos dados. Pelo que foi dito, a fun cao spline c ubica e mais utilizada
na pratica.
Supondo que se saiba os valores de f(x) nos pontos x
i
, i = 0, 1, 2, . . . , n, a funcao S
3
(x) e
chamada spline c ubica interpolante de f(x) nos pontos dados x
i
, i = 0, 1, 2, . . . , n se existem
n polinomios de grau 3 s
k
(x), k = 1, 2, . . . , n tais que sao validas as seguintes rela coes:
1. S
3
(x) = s
k
(x), x [x
k1
, x
k
], k = 1, 2, . . . , n
2. S
3
(x
i
) = f(x
i
), i = 0, 1, 2, . . . , n
10
3. s
k
(x
k
) = s
k+1
(x
k
), k = 1, 2, . . . , n 1
4. s
k
(x
k
) = s
k+1
(x
k
), k = 1, 2, . . . , n 1
5. s
k
(x
k
) = s
k+1
(x
k
), k = 1, 2, . . . , n 1
6. S
3
(x
0
) = e S
3
(x
n
) = . Quando = = 0, entao a funcao spline c ubica e
chamada de spline c ubica natural.
Assim, uma funcao spline c ubica e uma funcao polinomial por partes, contnua e com
derivada contnua. Pode-se escrever s
k
(x) por
s
k
(x) = a
k
(x x
k
)
3
+ b
k
(x x
k
)
2
+ c
k
(x x
k
) + d
k
, (2.9)
k = 1, 2, . . . , n.
Para determinar a funcao spline c ubica, e necessario obter a
k
, b
k
, c
k
e d
k
, para cada
k = 1, 2, . . . , n. Para isto, basta impor validas as relac oes anteriores.
2.4 Integra cao Numerica
Suponha que o interesse e em resolver integrais do tipo
_
b
a
f(x)dx. (2.10)
Por vezes, resolver tal integral pode nao ser facil ou, ainda, pode-se conhecer os valores
da funcao f(x) em apenas alguns pontos no intervalo [a, b]. Neste ultimo caso, como nao se
tem a expressao analtica de f(x), nao e possvel resolver (2.10).
Atraves da integracao numerica, o objetivo sera substituir a funcao f(x) por um polin omio
que a aproxime no intervalo [a, b]. Assim, tem-se que para , x
i
[a, b], i = 1, 2, . . . , n
_
b
a
f(x)dx
n
i=1
f(x
i
)
i
. (2.11)
11
2.4.1 Integra cao por Quadratura
Uma regra de quadratura e uma aproximacao de uma integral denida de uma fun cao por
uma soma ponderada da funcao em valores especcos dentro do domnio de integracao.
Em particular, considere a regra de quadratura gaussiana de n pontos. O domnio de
integracao de tal regra e tomado como [1, 1], de modo que
_
1
1
f(x)dx
n
i=1
w
i
f(x
i
). (2.12)
Caso seja possvel reescrever f(x) tal que f(x) = W(x)g(x), em que W(x) e conhecida
como funcao peso, entao os pesos w
i
sao tais que
_
1
1
f(x)dx =
_
1
1
W(x)g(x)dx
n
i=1
w
i
g(x
i
). (2.13)
Ja o metodo de integracao por quadratura conhecido por integracao de Gauss-Hermite e
um metodo de quadratura gaussiana no intervalo (, +), em que se considera a funcao
peso por W(x) = e
x
2
.
12
Captulo 3
Metodos Aproximados de Inferencia
Seja Y uma variavel aleat oria ou vetor aleat orio com funcao de probabilidade ou funcao de
densidade de probabilidade p(Y |), em que e um parametro ou vetor de parametros que
caracteriza a distribuicao de Y . Considerando a abordagem bayesiana, antes da observacao
dos dados, assume-se uma distribuicao de probabilidade para , chamada de distribuicao a
priori, referente `a incerteza inicial a respeito de . Tendo observado os dados y, atraves do
Teorema de Bayes, encontra-se a distribuicao a posteriori de , dada por
p(|y) =
p(y|)p()
_
p(y|)p()d
. (3.1)
A inferencia estatstica sob o enfoque bayesiano baseia-se na distribuicao a posteriori de ,
que contem toda a informacao probabilstica a respeito do parametro de interesse.
E possvel
resumir a informacao contida na distribuicao a posteriori atraves de estimacao pontual ou por
intervalo. Migon e Gamerman (1999) apresentam uma descricao detalhada sobre conceitos
de inferencia bayesiana.
Considere = (
1
, . . . ,
k
)
= (
1
,
2
) a moda a posteriori e menos o inverso da matriz Hessiana de (log(p()) +
log(l(; y)))/n na moda
. Para um dado
1
, seja
2
=
2
(
1
) o argumento que
maximiza a funcao h() = p(
1
, )l(
1
, ; y), , em que n e a dimensao dos dados, e seja
(
1
) menos o inverso da Hessiana de log(h())/n. Aplicando o metodo de Laplace
nas integrais do numerador de denominador da distribuicao marginal de
1
,
p(
1
| y) =
_
l((
1
,
2
); y)p(
1
,
2
)d
2
_
l(; y)p()d
, (3.4)
tem-se a seguinte aproximacao
p(
1
| y) =
_
|
(
1
)) |
2 | |
_
1/2
l((
1
,
2
); y)p(
1
,
2
)
l(
; y)p(
)
(3.5)
Esta aproximacao apresenta erro da ordem O(n
3/2
) e o tempo computacional necessario
para obter essa aproxima cao cresce `a medida que a dimensao do espaco parametrico cresce.
16
3.1.2 Variational Bayes
O metodo VB (do ingles, Variational Bayes) e uma forma de realizar inferencia de
forma aproximada. Este metodo foi desenvolvido na literatura de aprendizagem de maquina
(em ingles, machine learning). O metodo trata do problema de aproximar integrais
intrataveis provenientes de problemas em estatstica bayesiana e aprendizagem de maquina.
A metodologia VB ja produziu resultados em diversas areas, tais como modelos ocultos de
Markov (em ingles, hidden Markov models), modelos de mistura, modelos gracos e modelos
de espaco de estados.
Sendo y o vetor de observac oes, x o vetor de variaveis latentes e os hiperparametros,
considere a distribuicao a posteriori p(x, | y) de um modelo generico. O metodo VB
considera a seguinte aproximacao
p(x, | y) q(x, ) (3.6a)
= arg min
q(x,)
KL[q(x, ) || p(x, | y)] (3.6b)
A medida de divergencia de Kullback-Leibler (Kullback e Leibler, 1951) mede a
discrepancia entre p(x, | y) e q(x, ). O objetivo, entao, e achar a aproximacao q(x, ) que
minimiza KL(q || p), isto e, a divergencia de Kullback-Leibler de p(x, | y) com respeito a
q(x, ).
A minimiza cao e feita com restricao e, em geral, assume-se que os estados e os
hiperparametros sao independentes, ou seja, q(x, ) = q
x
(x)q
(j)
1
p(
1
|
(j1)
2
, . . . ,
(j1)
k
)
(j)
2
p(
2
|
(j)
1
,
(j1)
3
, . . . ,
(j1)
k
)
(j)
3
p(
3
|
(j)
1
,
(j)
2
,
(j1)
4
, . . . ,
(j1)
k
)
.
.
.
(j)
k
p(
k
|
(j)
1
,
(j)
2
, . . . ,
(j)
k1
).
(iii) Atualiza-se o contador de j para j +1 e retorna-se ao passo (ii) ate que a convergencia
seja obtida.
21
Captulo 4
Modelos de Espa co de Estados
Uma serie temporal e uma colecao de observacoes feitas sequencialmente ao longo do
tempo, em que ha dependencia entre observa coes vizinhas. Dados de series temporais surgem
em varias areas como na Economia com precos diarios de ac oes, na Atuaria com o n umero
diario de sinistros registrados por uma seguradora, na Epidemiologia com o n umero mensal
de novos casos de uma determinada doen ca, e em varias outras areas do conhecimento.
A modelagem via espa co de estados e uma metodologia exvel em problemas de analises
de series temporais. Assume-se que o desenvolvimento do sistema em estudo ao longo
do tempo pode ser determinado por componentes nao-observaveis (campo latente) que
se relacionam com a serie de observac oes. Assim, o objetivo da analise via espaco de
estados e inferir propriedades importantes sobre os componentes nao-observaveis atraves do
conhecimento das observac oes.
Na literatura Bayesiana, os modelos de espaco de estados sao tambem conhecidos como
modelos dinamicos. Tais modelos consideram uma variacao temporal em seus parametros.
Distribuic oes de probabilidade sao assumidas tanto para os dados como para a varia cao dos
parametros (de estado).
Dentre os componentes nao-observaveis mais comuns que uma serie temporal pode ser
decomposta, incluem tendencia, que se refere `a direcao geral segundo a qual a serie temporal
se desenvolve ao longo de um intervalo de tempo; sazonalidade, que se refere a padr oes
semelhantes que uma serie temporal pode apresentar durante intervalos sucessivos de tempo;
componente cclica, que se refere `as oscilac oes em longo prazo ou aos desvios da tendencia
22
ou, ainda, a componente aleat oria.
Os modelos latentes gaussianos e os nao-gaussianos sao subclasses dos modelos de espaco
de estados. Uma breve descricao desses modelos pode ser vista nas pr oximas secoes.
4.1 Modelos Latentes Gaussianos
Os modelos latentes gaussianos sao uma classe de modelos hierarquicos em que se
assume uma distribuicao normal multivariada para o campo latente x de dimensao n, sendo
esta controlada um vetor de parametros desconhecidos , denominados hiperparametros,
parametros estaticos ou parametros xos.
Muitas vezes, assume-se que as variaveis observadas {y
i
: i I} sao condicionalmente
independentes dado x e . Neste caso, tem-se a seguinte estrutura hierarquica:
y
i
|x, p(y
i
|x
i
, ) (4.1a)
x| p(x|) (4.1b)
p() (4.1c)
em que y = (y
1
, . . . , y
n
d
)
os elementos do campo
latente, e o vetor m-dimensional de hiperparametros, a distribuicao de y
i
|x, pertence `a
famlia exponencial e a distribuicao de x| e gaussiana.
A distribuicao a posteriori e dada por:
p(x, |y) p()p(x|)
iI
p(y
i
|x
i
, ) (4.2a)
p()|Q()|
1/2
exp
_
1
2
x
T
Q()x +
iI
log(p(y
i
|x
i
, ))
_
, (4.2b)
sendo a distribuicao a priori de x| dada por uma normal com media zero e matriz de precisao
Q().
Muitos modelos utilizados na literatura possuem estrutura hierarquica similar `a descrita
nesta secao, como por exemplo, os modelos de regressao, os modelos dinamicos e os modelos
espaco-temporais.
23
4.1.1 Modelos Lineares Dinamicos Normais
Um caso particular dos modelos latentes gaussianos e o modelo linear dinamico normal, em
que se assume uma distribuicao normal para as observa coes. Considere uma serie temporal
Y
1
, Y
2
, . . . em que Y
t
, para t = 1, 2, . . . , e o vetor de observac oes r-dimensional. Um
modelo linear dinamico normal pode ser caracterizado atraves das seguintes equac oes
Y
t
= F
t
x
t
+v
t
, v
t
N(0, V
t
) (4.3a)
x
t
= G
t
x
t1
+
t
,
t
N(0, W
t
), (4.3b)
em que, para t = 1, 2, . . . , x
t
e um vetor n-dimensional denominado vetor de estados; F
t
e
uma matriz (n r) cujos elementos sao valores conhecidos; G
t
e uma matriz quadrada de
ordem n conhecida que descreve a evolucao temporal dos parametros de estado; V
t
e uma
matriz de covariancia r r conhecida associada ao erro observacional v
t
e W
t
e uma matriz
de covariancia n n conhecida associada ao erro de evolucao dos estados
t
.
O modelo descrito em (4.3) e completamente especicado atraves da quadrupla
{F, G, V, W}
t
e de uma distribuicao a priori assumida para os parametros de estado. A
equacao (4.3a) e denominada equacao da observa cao e relaciona o vetor de observac oes Y
t
aos estados
t
, ja a equacao (4.3b) e denominada equacao do sistema ou equacao de estados,
responsavel pela evolu cao dos parametros de estado ao longo do tempo.
Assume-se que as observac oes Y
t
sao condicionalmente independentes dado x
t
, para
t = 1, 2, . . . . Ademais, assume-se que, para todo t = s, ha independencia entre os erros
observacionais v
t
e v
s
, entre os erros de evolu cao
t
e
s
e entre os erros v
t
e
s
. Note,
ainda, que nos modelos dinamicos lineares normais, sup oe-se que os erros de observacao e
de evolucao do sistema sao gaussianos, sendo a interferencia dos componentes latentes no
modelo dada de forma linear em ambas as equacoes. Uma descri cao detalhada desses modelos
pode ser vista em West e Harrison (1997).
24
4.2 Modelos Nao-Gaussianos
Os modelos de espaco de estados lineares gaussianos sao adequados em diversas aplicacoes
de series temporais. Entretanto, em muitas situac oes praticas, alternativas sao necessarias
para o tratamento de series temporais que nao satisfazem a suposicao de normalidade, como
e o caso de series temporais de contagem, por exemplo, em que a variavel resposta e um
inteiro nao-negativo representando o n umero de ocorrencias de determinado fen omeno. Neste
caso, pode-se considerar uma distribuicao na famlia exponencial para as observac oes e uma
distribuicao normal multivariada para o vetor de estados. Esta classe de modelos foi descrita
na Secao 4.1.
Nelder e Wedderburn (1972) propuseram uma famlia denominada de modelos lineares
generalizados, permitindo com que a distribuicao da variavel resposta perten ca `a famlia
exponencial de distribui coes. Sua aplicacao em modelos de espa co de estados foi introduzida
por West et al. (1985).
Outros tipos de modelos nao-gaussianos sao necessarios para lidar com a presen ca de
outliers na serie ou mudan cas estruturais na equacao de estados.
Os modelos latentes nao-gaussianos sao uma classe de modelos hierarquicos em que nao
se assume uma distribuicao normal multivariada para o campo latente x de dimensao n.
Muitas vezes, assume-se que as variaveis observadas {y
i
: i I} sao condicionalmente
independentes dado x e . Neste caso, tem-se a seguinte estrutura hierarquica:
y
i
|x, p(y
i
|x
i
, ) (4.4a)
x| p(x|) (4.4b)
p() (4.4c)
em que y = (y
1
, . . . , y
n
d
)
os elementos do campo
latente, e o vetor m-dimensional de hiperparametros, a distribuicao de y
i
|x, pertence `a
famlia exponencial e a distribuicao de x| e nao-gaussiana.
A distribuicao a posteriori e dada por:
25
p(x, |y) p()p(x|)
iI
p(y
i
|x
i
, ) (4.5)
Alguns trabalhos abordando modelos de espaco de estados nao-gaussianos podem ser
citados, como o de Kitagawa (1987), que trata da modelagem de series nao estacionarias,
em que a equacao de observacao e sistema nao necessariamente sao gaussianas, o de Durbin
e Koopman (2000) que discutem tecnicas baseadas no Filtro de Kalman e na simula cao de
Monte Carlo usando amostragem por importancia para estima cao em modelos de espaco de
estados nao-gaussianos, alem do trabalho de Smith e Miller (1986) em que e desenvolvida uma
classe de modelos de espaco de estados para dados censurados, assumindo que as observac oes
pertencem `a distribuicao exponencial e evolucao nao-gaussiana. Harvey e Fernandes (1989)
tratam de modelos de series temporais para dados de contagem em que a dinamica do nvel
e inicializada com uma especica cao a priori conjugada.
4.3 Famlia Gama de Modelos Dinamicos
Segundo Santos (2009), uma variavel aleatoria Y possui distribuicao na famlia gama de
distribuic oes se sua densidade ou funcao de probabilidade e escrita na forma:
p(y|, ) = a(y, )
b(y,)
exp(c(y, )) (4.6)
em que y H() e 0, caso contrario. As func oes a(), b(), c() e H() sao func oes
conhecidas.
Observe que se b(y, ) = b() ou c(y, ) = c() e H() nao depende de , a famlia
gama se torna um caso especial da famlia exponencial de distribuic oes.
Dene-se a famlia gama de modelos dinamicos da seguinte forma:
1. Relaciona-se o preditor com o parametro
t
atraves da relacao
t
=
t
g(r
t
, ), em que g
e a funcao de ligacao, r
t
e um vetor de covariaveis e os coecientes de regressao. Tais
coecientes sao um dos componentes de . O parametro responsavel pela descri cao
do nvel dinamico e dado por
t
.
26
2. A dinamica do nvel
t
evolui atraves da equa cao
t
=
t1
t
w
, em que
t
Beta(wa
t1
, (1 w)a
t1
) (4.7)
3. Inicializa-se a dinamica do nvel atraves de uma especicacao inicial a priori, dada por
0
|D
0
Gama(a
0
, b
0
), em que D
0
denota o conjunto de informacao inicial.
Santos (2009) mostrou que ao se denir o modelo da forma descrita anteriormente, os
seguintes resultados sao validos, para cada t = 1, 2, . . .
1.
t
|D
t1
Gama(wa
t1
, wb
t1
). Este resultado pode ser encontrado resolvendo a
seguinte integral:
p(
t
|D
t1
) =
_
p(
t
|
t1
, D
t1
)p(
t1
|D
t1
)d
t1
2.
t
|D
t1
Gama(wa
t1
, wb
t1
[g(r
t
, )]
1
), pela propriedade de escala da distribuicao
Gama.
3.
t
|D
t
Gama(a
t
, b
t
), sendo a
t
= wa
t1
+ b(y
t
, ) e b
t
= wb
t1
+ c(y
t
, )g(r
t
, ).
4.
t
|D
t
Gama(a
t
, b
t
), sendo a
t
= wa
t1
+b(y
t
, ) e b
t
= wb
t1
[g(r
t
, )]
1
+c(y
t
, )
em que, para cada t = 1, 2, . . . , D
t
= (D
0
, y
1
, . . . , y
t
) e a
t
e b
t
sao obtidos recursivamente.
Observe que
V ar(
t
| D
t1
) =
a
t1
wb
2
t1
= w
1
V ar(
t1
| D
t1
). (4.8)
Assim, devido `a passagem do tempo, apenas 100w% da informacao e preservada.
A utiliza cao desses modelos ao inves de modelos lineares dinamicos generalizados (West
e Harrison, 1997), cuja distribuicao das observac oes da serie pertence `a famlia exponencial
de distribui coes, tem uma vantagem que e a possibilidade de obter a equacao de evolucao
de forma exata. Como pode ser visto em Franco et al. (2009), alguns casos particulares da
famlia gama de distribuic oes incluem os modelos Poisson, Gama, Weibull, Pareto, Beta e
Normal com media conhecida.
27
4.4 Dengue na Regiao Metropolitana do Estado do Rio
de Janeiro
4.4.1 Introducao
Um dos grandes problemas de sa ude p ublica no mundo, especialmente em pases de
clima tropical como o Brasil, e a dengue. De acordo com a Organiza cao Mundial de Sa ude,
a incidencia de dengue tem aumentado signicativamente nas ultimas decadas, sendo que
cerca de dois bilhoes e meio de pessoas estao em exposicao ao risco de adquirir a doenca.
Na literatura, muitos autores sugerem diferentes formas de modelagem para casos de
dengue. Entre eles, pode-se citar Fernandes (2006) e Ferreira (2004), cuja abordagem e
baseada no n umero de noticac oes dos casos. O que geralmente ocorre nessas situac oes e
que o n umero de noticac oes e bastante inferior aos n umeros de casos. A isto chama-se
subnoticacao.
E possvel que obitos por dengue tenham sido classicados como obitos por outras doencas,
ja que existem muitas doencas cujos sintomas se confundem com os sintomas de uma pessoa
infectada com dengue. Por este motivo, neste trabalho, optou-se por analisar o n umero de
obitos causados pela dengue e por doencas infecciosas que fazem parte de seu diagnostico
diferencial na regiao metropolitana do Rio de Janeiro, diferente do que e feito usualmente,
em que se modela o n umero de casos noticados de dengue. O objetivo, e investigar a
ocorrencia de sobremortalidade durante perodos epidemicos, isto e, vericar excessos de
obitos nao esperados. Tal analise pode ser util para autoridades sanitarias a m de uma
possvel intervencao em futuros processos epidemicos.
4.4.2 Descri cao do Modelo
Como ja foi dito, o interesse e vericar se, em perodos epidemicos de dengue, ha um
excesso de mortalidade. A motivacao de se analisar os obitos ao inves dos casos noticados e
a ocorrencia da subnotica cao. Segundo a Organizacao Mundial de Sa ude, apenas 10% dos
casos de dengue sao realmente noticados. Considerando, ainda, a diculdade de diagn ostico,
pode-se levantar a hipotese da ocorrencia de obitos nao registrados como dengue.
28
Sendo assim, a analise da sobremortalidade de dengue na regiao metropolitana do Rio de
Janeiro e feita utilizando nao apenas o n umero de obitos causados pela dengue, mas tambem
os obitos causados por doencas infecciosas que fazem parte de seu diagn ostico diferencial.
Desta forma, seja Y
t
uma variavel aleat oria que representa o n umero de obitos no instante
t, t = 1, . . . , T. Suponha que
Y
t
|
t
Poisson(
t
N
t
), (4.9)
em que N
t
e assumido conhecido para todo t = 1, . . . , T e se refere `a populacao de expostos
ao risco de adquirir dengue ou doencas infecciosas de seu diagn ostico diferencial no instante
t, tal que
t
e interpretado como a taxa em que as obitos ocorrem no tempo t.
t
g(r
t
, ), em que g e uma funcao de ligacao e
t
e responsavel pela descricao do nvel
dinamico. No caso em questao, sera considerado g(r
t
, ) = exp{r
t
} e, portanto
t
=
t
exp{r
t
}. (4.10)
A utilizacao de modelos dinamicos e a inclusao de covariaveis que representem
caractersticas temporais sao uma tentativa de captar estruturas presentes nos dados que
modelos lineares generalizados poderiam nao captar, ja que ha uma dependencia temporal
em series de natureza epidemiol ogica, como as de estudo.
Considera-se que
t
=
t
exp{r
t,1
1
+ r
t,2
2
+ r
t,3
3
}, (4.11)
em que r
t,1
e uma variavel dummy informada pelos epidemiologistas que indica os perodos
epidemicos, r
t,2
e r
t,3
correspondem `as componentes sazonais sen(2t/12) e cos(2t/12),
para t = 1, 2, . . . , T, respectivamente.
29
As componentes sazonais foram includas pois a incidencia de dengue e inuenciada pelas
condic oes climaticas, que variam dependendo da esta cao do ano. A inclusao da variavel
indicadora dos perodos de epidemia de dengue se deve ao fato do interesse de ser vericar
se ha ocorrencia de sobremortalidade durante os perodos epidemicos.
Sendo assim, atraves da componente
1
correspondente `a variavel indicadora, pode-se
mensurar o efeito da ocorrencia de epidemia na serie de obitos em analise.
A dinamica do nvel
t
pode ser dada segundo a seguinte equacao de evolucao:
t
=
t1
t
w
, (4.12)
em que
t
Beta(wa
t1
, (1 w)a
t1
), (4.13)
sendo a
t
um parametro da distribui cao a posteriori de
t
|D
t
, em que D
t
denota o conjunto
de informacao no tempo t, t = 1, 2, . . . , T.
Neste caso, verica-se que log(
t
) = log(
t1
) +
t
, em que
t
= log(
t
w
). Este resultado
e similar `a equacao de evolucao descrita em (4.3).
Como ja foi dito na Se cao 4.3, w, que varia entre 0 e 1, desempenha um papel de aumentar
a variancia devido `a passagem de tempo.
Para completar a especicacao do modelo, considera-se a seguinte distribui cao a priori:
p(, , w) = p(|, w)p()p(w), (4.14)
em que se assume
N(0, cI), c grande. (4.15a)
w U(0, 1] (4.15b)
1
|w, D
0
Gama(wa
0
, wb
0
) (4.15c)
Nesta aplicacao, considera-se as seguintes especicac oes a priori: c = 1000, a
0
= 0.01 e
b
0
= 0.01.
30
Nas subse coes a seguir, observa-se que essa escolha leva a uma analise conjugada para os
parametros de estado, condicionalmente aos hiperparametros = (, w).
4.4.3 Procedimento de Inferencia
Todo o procedimento e realizado sob abordagem bayesiana. Diculdades surgem ja que a
distribuicao a posteriori p(, , w|y) nao pode ser obtido analiticamente. Aqui, sao utilizados
os metodos MCMC para construir amostras da distribuicao a posteriori.
Inferencia para os Parametros Estaticos
Considere = (, w). A distribui cao a posteriori de e
p(, w; y) =
l(, w; y)p()p(w)
_
l(, w; y)p()p(w)ddw
(4.16)
A verossimilhanca marginal e dada por l(, w; y) =
T
t=1
p(y
t
|, w, D
t1
), em que a
distribuicao preditiva p(y
t
|, w, D
t1
) pertence a uma distribuicao binomial negativa, o que
pode ser visto resolvendo a seguinte integral:
p(y
t
|, w, D
t1
) =
_
p(y
t
|
t
, )
. .
Poisson
p(
t
|, w, D
t1
)
. .
Gama
d
t
Neste caso, a distribuicao a posteriori nao esta disponvel em forma fechada, portanto sao
utilizados os metodos MCMC para aproximar p(, w; y).
Inferencia para os Parametros de Estado
Para a inferencia sobre os parametros de estado, considere os seguintes resultados,
condicionalmente a , embora nao esteja explcito na notacao.
Resultado 1: A distribuicao a priori
t
|D
t1
segue uma distribui cao Gama(a
t|t1
, b
t|t1
)
em que a
t|t1
= wa
t1
e b
t|t1
= wb
t1
.
31
Resultado 2: A distribuicao a posteriori
t
|D
t
segue uma distribuicao a Gama(a
t
, b
t
),
em que a
t
= a
t|t1
+ y
t
e b
t
= b
t|t1
+ N
t
e
r
t
.
Resultado 3:
t1
w
t
|
t
, D
t1
Gama((1 w)a
t1
, b
t1
), o que segue diretamente
do Resultado 1.
Estes resultados sao especialmente importantes. Ja que
p(
1
, . . . ,
T
|D
T
) = p(
T
|D
T
)
T1
t=1
p(
t
|
t+1
, D
t
) (4.17)
e que p(
t
|
t+1
, D
t
) e conhecido, e possvel construir amostras de (
1
, . . . ,
T
|D
T
) baseado
no seguinte algoritmo:
1. Faca t = T and amostre de p(
T
|D
T
);
2. Faca t t 1 e amostre de p(
t
|
t+1
, D
t
)
3. Se t > 1, retorne ao item 2. Caso contrario, a amostra de (
1
, . . . ,
T
|D
T
) esta
completa.
Previsoes
Para se fazer previsoes, para h = 1, 2, . . . , pode-se obter a densidade y
T+h
|D
T
atraves
de
p(y
T+h
| D
T
) =
_
p(y
T+h
| , , D
T
)p(, | D
T
)dd (4.18)
Esta distribui cao pode ser aproximada por
p(y
T+h
| D
T
)
1
L
L
i=1
p(y
T+h
|
(i)
,
(i)
, D
T
), (4.19)
em que L e referente ao n umero de simula coes de algoritmo MCMC, sendo
(i)
e
(i)
gerados pela distribuicao a posteriori p(, | D
T
).
32
4.4.4 Descri cao dos Dados
Uma serie de dados de obitos de dengue e doencas infecciosas que fazem parte de seu
diagn ostico diferencial na regiao metropolitana do Rio de Janeiro no perodo de 1986 a 2008
e analisada sob uma perspectiva bayesiana ap os a especicacao da distribuicao a priori para o
vetor de parametros. O objetivo geral e investigar a ocorrencia de sobremortalidade durante
a epidemia de dengue ocorrida na regiao metropolitana do Rio de Janeiro em 2008.
A regiao metropolitana do Estado do Rio de Janeiro e composta por dezesseis municpios:
Belford Roxo, Duque de Caxias, Guapimirim, Itabora, Japeri, Mage, Nilopolis, Niter oi,
Nova Igua cu, Paracambi, Queimados, Rio de Janeiro, Sao Goncalo, Sao Joao de Meriti,
Seropedica e Tangua. Entretanto, os municpios de Itagua, Mangaratiba, Marica e Mesquita
foram mantidos na presente analise, tendo em vista a sua forte relacao com a dinamica
metropolitana.
As doencas consideradas no diagnostico diferencial do dengue foram: hepatites virais,
salmonelose, escalarlatina, febre purp urica do Brasil, pneumonia, inuenza, enteroviroses,
septicemia, infeccao meningoc ocica, leptospirose, riquetsioses, febres recorrentes, malaria,
arboviroses (febre amarela, Mayaro, Oropuche e outras), hantaviroses, parvoviroses,
mononucleose infecciosa, exantema s ubito, sarampo, rubeola, citomegalovirose, outras
doencas exantematicas, encefalomielite, outras febres hemorragicas transmitidas por
mosquitos e carrapatos. Para mais detalhes, consultar Malhao (2010).
Por simplica cao de notacao, quando no texto houver referencia para o n umero de obitos,
entenda que se trata dos obitos de dengue e pelas doencas infecciosas que fazem parte de
seu diagnostico diferencial citadas acima.
Os dados sao oriundos de duas fontes de informacao: Sistema de Informacao de Agravos
de Noticacao (Sinan), por ser o sistema ocial brasileiro de noticacao, e o Sistema de
Informacao sobre Mortalidade (SIM), sistema de carater universal de ambito nacional, em
que devem constar todos os obitos ocorridos no pas. Os dados populacionais sao oriundos
do Instituto Brasileiro de Geograa e Estatstica (IBGE), com base nos censos demogracos
de 1991 e 2000. Estas informacoes foram gentilmente cedidas por Thaina Alves Malhao.
33
Devido `a falta de consenso sobre o metodo mais adequado para identicar os meses
epidemicos, arbitrou-se como sendo o incio e termino da epidemia, quando houvesse um
aumento ou decrescimo de no mnimo duas vezes o n umero de casos do mes de referencia
em relacao ao mes anterior com evidencia laboratorial de infeccao. Estas informac oes foram
gentilmente cedidas por Thaina Alves Malhao e Roberto de Andrade Medronho.
Os dados estao em frequencia mensal de janeiro de 1986 a dezembro de 2008 e apenas
sao considerados grupos de indivduos menores que 15 anos. As ultimas 12 observa coes que
correspondem ao ano de 2008 serao usadas para predicao.
Com isso, e de interesse investigar a ocorrencia de excesso de obitos por dengue e doencas
infecciosas que fazem parte do seu diagnostico diferencial, na populacao residente com menos
de 15 anos, durante a epidemia de dengue ocorrida na regiao metropolitana do Rio de Janeiro
em 2008.
A Figura 4.1 mostra os n umero de obitos para indivduos menores que 15 anos de 1986 a
2007.
34
Figura 4.1: N umero de obitos para indivduos menores que 15 anos de 1986 a 2007.
Tempo
N
m
e
r
o
d
e
b
i
t
o
s
Jan 86 Fev 90 Abr 94 Jun 98 Ago 02 Dez 07
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
3
5
0
4.4.5 Resultados
Esta secao consta os resultados obtidos ao se analisar o n umero de obitos por dengue e
doencas infecciosas que fazem parte do seu diagnostico diferencial, na populacao residente
com menos de 15 anos.
A especica cao a priori consta na Secao 4.15.
Para os parametros estaticos, foi utilizado o algoritmo de Metropolis-Hastings com
distribuicao proposta normal passeio aleat orio. Para os parametros de estado, a inferencia foi
baseada no esquema descrito no Resultado 3 da Secao 4.4.3.
Foram simuladas 50 000 iterac oes, sendo as primeiras 8 000 descartadas, consideradas
como perodo de aquecimento. Em seguida, foi considerado um espa camento de 30 iterac oes.
Com isso, a amostra nal a posteriori possui tamanho 1 400.
A Figura 4.2 mostra os tracos das cadeias de cada um dos parametros ap os o perodo de
aquecimento.
35
Figura 4.2: Tra cos das cadeias ap os perodo de aquecimento dos parametros xos
2
e
3
, que
sao referentes `as covariaveis que contem componentes sazonais,
1
, que se refere `a variavel
indicadora de epidemia de dengue e w.
0 200 400 600 800 1000 1400
0
.
0
6
0
.
0
2
0
.
0
2
0
.
0
4
Iteraes
2
(a)
2
0 200 400 600 800 1000 1400
0
.
1
2
0
.
1
4
0
.
1
6
0
.
1
8
0
.
2
0
Iteraes
3
(b)
3
0 200 400 600 800 1200
0
.
0
5
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
Iteraes
1
(c)
1
0 200 400 600 800 1000 1400
0
.
2
5
0
.
3
0
0
.
3
5
0
.
4
0
Iteraes
w
(d) w
36
Na Tabela 4.1 consta o resumo a posteriori e as Figuras 4.3 e 4.4 o histograma dos
parametros
1
,
2
,
3
e w.
Observe que, nos perodos epidemicos, estimou-se que ha um aumento de apenas cerca
de 5% no n umero de obitos mensais por dengue e doen cas infecciosas que fazem parte do
seu diagnostico diferencial em residentes da Regiao Metropolitana do Rio de Janeiro menores
de 15 anos de idade, no ano de 2008.
Observa-se, entretanto, que os parametros
1
,
2
nao se mostraram signicativos ao nvel
de 5%. O parametro
1
refere-se `a variavel indicadora de perodos epidemicos. Assim sendo,
verica-se que o fato de um determinado perodo ser considerado epidemico nao inuenciou
na mortalidade do ano de 2008. Ja o parametro
2
e uma das componentes sazonais, o que
indica que nao foi necessario inclui-la no modelo.
A estimativa a posteriori de w e pequena, ou seja, devido `a passagem de tempo, pouca
informacao esta sendo passada, o que implica que varia signicantemente de um instante
para outro.
Tabela 4.1: Resumo a posteriori dos parametros estaticos.
Parametro Media Mediana q
0.025
q
0.975
Desvio-Padrao
1
0.0504 0.0512 -0.0117 0.1075 0.0301
2
0.0041 0.0046 -0.0279 0.0359 0.0165
3
0.1674 0.1679 0.1382 0.1957 0.0152
w 0.3147 0.3138 0.2612 0.3767 0.0291
37
Figura 4.3: Histograma dos parametros estaticos a posteriori referentes `as componentes
sazonais para a serie de dados de indivduos menores que 15 anos de idade. A linha pontilhada
representa o intervalo de credibilidade de 95%.
2
D
e
n
s
i
d
a
d
e
0.10 0.05 0.00 0.05 0.10
0
5
1
0
1
5
2
0
2
5
(a)
2
3
D
e
n
s
i
d
a
d
e
0.10 0.15 0.20 0.25
0
5
1
0
1
5
2
0
2
5
(b)
3
38
Figura 4.4: Histograma dos parametros estaticos a posteriori para a serie de dados de
indivduos menores que 15 anos de idade. A linha pontilhada representa o intervalo de
credibilidade de 95%.
1
D
e
n
s
i
d
a
d
e
0.10 0.00 0.05 0.10 0.15 0.20
0
5
1
0
1
5
(a)
1
w
D
e
n
s
i
d
a
d
e
0.20 0.25 0.30 0.35 0.40 0.45
0
5
1
0
1
5
(b) w
Atraves da Figura 4.5, observa-se que o nvel estimado N
t
t
tem aproximadamente o
mesmo comportamento do n umero de obitos que realmente ocorreram.
Figura 4.5: Media a posteriori de N
t
t
e intervalo de credibilidade de 95%.
Tempo
Jan 86 Fev 90 Abr 94 Jun 98 Ago 02 Dez 07
0
5
0
1
0
0
2
0
0
3
0
0
4
0
0
Mdia
Nmero de bitos
IC 95%
39
Atraves da Figura 4.6, observa-se que de janeiro a maio de 2008, o n umero de obitos que
realmente ocorreram esta acima do esperado pelo modelo, apesar de nao ter ultrapassado os
limites do intervalo de credibilidade de 95%. De fato, neste perodo ocorreu uma epidemia
de dengue no Rio de Janeiro que, diferentemente de outras epidemias, afetou bastante as
criancas. A partir de julho de 2008, observa-se que o n umero de obitos que realmente
ocorreram seguem a mesma aproximadamente tendencia do esperado pelo modelo.
Cabe observar que a amplitude do intervalo de credibilidade da previsao do n umero de
obitos para o ano de 2008 e alta. Devido a estimativa de w ser pequena, considera-se que,
de um instante para outro, pouca informacao e passada, levando a um aumento signicativo
na incerteza, sendo assim reetido na amplitude do intervalode credibilidade.
Figura 4.6: Previsao do n umero de obitos para indivduos menores que 15 anos no ano de
2008.
Tempo
N
m
e
r
o
d
e
m
o
r
t
e
s
Jan 08 Abr 08 Jun 08 Ago 08 Out 08 Dez 08
0
2
0
4
0
6
0
8
0
1
0
0
Mediana
Nmero de bitos
IC 95%
De forma geral, entende-se que o modelo considerado nao captou nenhuma
sobremortalidade no ano de 2008. Mais ainda, conclui-se que, o modelo nao captou aumentos
da mortalidade em perodos epidemicos de dengue de 1986 a 2007.
40
Captulo 5
O Metodo de Aproximacao INLA
O metodo de aproximacao INLA (do ingles, integrated nested Laplace approximation)
foi proposto por Rue et al. (2009) como forma de realizar inferencia bayesiana de forma
aproximada em uma subclasse de modelos de regressao estruturados aditivos chamados
modelos latentes gaussianos. Os modelos latentes gaussianos foram discutidos na Secao
(4.1).
Este captulo explica detalhadamente toda a metodologia do INLA, alem de apresentar
ilustracao do metodo. Em particular, a Secao 5.1 apresenta uma denicao do metodo,
explicitando qual a estrutura hierarquica que um modelo deve ter para poder ser aplicado
o INLA, a Se cao 5.2 explicita quais as distribuic oes sao de interesse ao se aplicar o metodo
INLA, e as demais sec oes explicam detalhadamente a metodologia que deve ser empregada.
5.1 Deni cao
O metodo de aproxima cao INLA (Rue et al., 2009) realiza inferencia bayesiana de forma
aproximada de forma rapida nos modelos latentes gaussianos (ver Se cao 4.1). Este metodo
foi proposto como uma alternativa aos metodos de Monte Carlo via cadeias de Markov, que
tem sua forma de inferencia baseada em simula coes.
O metodo INLA, diferentemente, aproxima de forma direta as distribuic oes a posteriori
de interesse. Com isso, e possvel realizar inferencia com um custo computacional
consideravelmente inferior alem de nao ser preciso lidar com problemas de convergencia.
41
Alem da diculdade no diagn ostico da convergencia e o alto custo computacional, em
se tratando de inferencia em modelos latentes gaussianos, os metodos MCMC apresentam
desvantagem do ponto de vista computacional devido `a dependencia dos elementos do campo
latente entre si, alem da dependencia existente entre os hiperparametros e os parametros do
campo latente. Com isso, o metodo INLA surge como uma alternativa para lidar com esses
problemas.
Assume-se a seguinte estrutura hierarquica
y
i
|x, p(y
i
|x
i
, ) (5.1a)
x| p(x|) (5.1b)
p(), (5.1c)
em que y = (y
1
, . . . , y
n
d
)
os elementos do campo
latente, e o vetor m-dimensional de hiperparametros, a distribuicao de y
i
|x, pertence `a
famlia exponencial e a distribuicao de x| e gaussiana.
Assume-se que os dados observados sao condicionalmente independentes dado o campo
latente x. Com isso, tem-se que:
p(y|x, ) =
iI
p(y
i
|x
i
, ). (5.2)
A distribuicao a posteriori e dada por:
p(x, |y) p()p(x|)
iI
p(y
i
|x
i
, ) (5.3)
Rue et al. (2009) assumem que o campo latente x possui grande dimensao, mas que
admite propriedades de independencia condicional. Considera-se modelos que satisfazem a
propriedade de Markov, ou seja, x
i
|x
i
s o depende de um subconjunto de x
i
, em que
x
i
= (x
1
, . . . , x
i1
, x
i+1
, . . . , x
n
). Neste caso, o campo latente e um campo aleat orio
markoviano gaussiano e a matriz de precisao referente ao campo latente e esparsa.
42
Alem disso, assume-se que o n umero m de hiperparametros e pequeno, por exemplo,
m 6. Assim, e possvel fazer uso de metodos numericos para matrizes esparsas muito mais
rapidamente do que para calculos com matrizes densas (Rue e Held, 2005).
5.2 Distribui coes de Interesse
As distribuicoes de interesse sao as seguintes distribui coes a posteriori marginais:
p(x
i
|y) =
_
p(|y)p(x
i
|, y)d (5.4)
p(
j
|y) =
_
p(|y)d
i
, (5.5)
i = 1, . . . , n e j = 1, . . . , m.
5.3 Parametriza cao Adequada do Vetor Parametrico
Em geral, serao utilizados metodos numericos para a obtencao das distribuicoes de
interesse. Assim sendo, de acordo com Rue et al. (2009), e recomendado que seja feita
uma reparametriza cao de = (, x) de modo que
k
, sendo k a dimensao do espaco
parametrico. Esta transformacao facilitara a constru cao de grades otimizadas, em que as
regi oes com maior massa de probabilidade recebem mais pontos em relacao `as demais areas.
Do ponto de vista computacional, esta transformacao permite que sejam utilizados algoritmos
de otimizacao sem restricao, descritos na Se cao 2.2.
Primeiramente, sugere-se a reparametrizacao dos parametros individuais, de tal forma que
eles possuam suporte na reta real. Em seguida, deve ser encontrada a moda da distribuicao
a posteriori de
, cuja notacao e
Mo
, alem da matriz hessiana H e avalia-la nesta moda.
Assim, dene-se o vetor parametrico reparametrizado da seguinte forma:
(z) =
Mo
+V
1/2
z, (5.6)
em que = H
1
e = VV
j
p(x
i
|
j
, y) p(
j
|y)
j
(5.9)
p(
j
|y)
i
p(
i
|y)
ji
(5.10)
As demais sec oes descrevem como obter as aproximacoes necessarias.
5.5 Aproxima cao para p(|y)
A aproxima cao para p(|y) e equivalente `a aproximacao de Laplace para a distribui cao a
posteriori marginal proposta por Tierney e Kadane (1986). Tal aproxima cao e dada por:
p(|y)
p(x, , y)
p
G
(x|, y)
x=x
()
, (5.11)
em que p
G
(x|, y) e a aproximacao gaussiana da distribuicao condicional completa de x e
x
1
2
x
Q()x +
i
log(p(y
i
|x
i
, ))
_
. (5.12)
Obtendo a expansao de Taylor ate a segunda ordem em torno de x
, encontra-se
p(x|, y) exp
_
1
2
x
(Q() + diag(c))x +b
x
_
, (5.13)
sendo b e c os coecientes da expansao.
O fato desta aproximacao ser equivalente `a aproximacao de Laplace de Tierney e Kadane
(1986) sugere o erro desta aproxima cao e da ordem de O(n
3/2
d
), ap os renormalizacao. Cabe
ressaltar, entretanto, que a dimensao parametrica nao e xa, ja que depende de n
d
, o que faz
com que as suposicoes assintoticas utilizadas na aproxima cao de Laplace nao sejam validas.
Rue e Martino (2007) utilizaram a aproxima cao (5.11) em diversos modelos latentes
gaussianos e concluram que a aproximacao dada em (5.11) foi bem precisa no sentido de
que nem longas cadeias de MCMC foram capazes de detectar erros na aproximacao.
5.5.1 Explora cao da Grade de Pontos
Nao e necessario representar p(|y) parametricamente, mas sim explora-la sucientemente
bem a m de selecionar bons pontos para a integracao numerica.
Tal exploracao de p(|y), conforme sugerido em Rue et al. (2009), pode ser feito da
seguinte forma:
1. Comecar pela moda (z = 0 em (5.6)) e ir na dire cao positiva de z
1
com espacamento
z
, por exemplo,
z
= 1;
2. Parar quando a condi cao log{ p(0|y)} log{ p((z)|y)} <
x
i
=x
i
(x
i
,)
, (5.15)
em que p
GG
(x
i
|x
i
, , y) e a aproxima cao gaussiana para x
i
|x
i
, , y e x
i
(x
i
, ) e a moda
de p(x
i
|x
i
, , y).
46
Note que e necessario avaliar a expressao em (5.15) em diversos valores de x
i
para obter
a densidade, como por exemplo, {x
(1)
i
, . . . , x
(k)
i
}. Para selecionar estes pontos, considera-se
x
(j)
i
=
i
() +
i
()x
(j)
ab
, em que
i
() e
i
() sao a media e desvio-padrao da aproximacao
gaussiana descrita em (5.11) e x
(j)
ab
e um ponto da abcissa dado pela quadratura de Gauss-
Hermite (ver Se cao 2.4.1).
Assim, a densidade p
LA
(x
i
|, y) e representada por:
p
LA
(x
i
|, y) N{
i
(),
2
i
()}exp{h(x
i
)}, (5.16)
sendo a funcao h(x) uma fun cao spline c ubica ajustada `a diferenca da log-densidade de
p
LA
(x
i
|, y) e p
G
(x
i
|, y), avaliada nos pontos selecionados. Em seguida, a densidade e
normalizada utilizando integra cao por quadratura.
Um problema que surge e o fato de ser necessario avaliar p
GG
para cada valor diferente
de x
i
e , o que leva a um alto custo computacional.
Uma alternativa e evitar o passo de otimiza cao e computar p
GG
(x
i
|x
i
, , y) atraves de
uma aproximacao para a moda, dada por
x
i
(x
i
, ) E
p
G
(x
i
|x
i
). (5.17)
A outra modicacao proposta por Rue et al. (2009) baseia-se no fato de que e razoavel
assumir que apenas os elementos do campo latente x
j
que sao de uma certa forma pr oximos
de x
i
devem, de fato, ter alguma inuencia da distribuicao marginal de x
i
.
Denote a regiao de interesse com rela cao `a distribuicao marginal de x
i
por R
i
().
De fato, tem-se que:
E
p
G
(x
j
|x
i
)
j
()
j
()
= a
ij
()
x
i
i
()
i
()
(5.18)
para algum a
ij
(), j = i.
Pode-se considerar uma simples regra para construir R
i
() tal como:
R
i
() = {j : |a
ij
()| > 0, 001}. (5.19)
47
Com isso, usando a regiao de interesse R
i
(), apenas sera necessario fatorizar matrizes
esparsas de dimensao |R
i
()| |R
i
()|.
5.6.3 Metodo de Laplace Simplicado
O metodo de Laplace simplicado considera uma expansao de Taylor no numerador e
no denominador da expressao (5.15) em torno de x
i
=
i
(). Isso permitira corrigir a
aproxima cao gaussiana p
G
(x
i
|, y) em loca cao e assimetria.
A expansao no numerador e feita ate o termo de terceira ordem. Seja
x
s
i
= (x
i
i
())/
i
(). (5.20)
Dena
d
(3)
j
(x
i
, ) =
3
x
3
j
log{p(y
j
|x
j
, )}
x
j
=E
p
G
(x
j
|x
i
)
, (5.21)
em que se assume que existe.
Expandindo o numerador da expressao (5.15) em torno de x
i
=
i
() ate a terceira ordem,
obtem-se
log(p(x, , y)|
x
i
=E
p
G
(x
1
|x
i
)
=
1
2
(x
(s)
i
)
2
+
1
6
(x
(s)
i
)
3
(5.22)
jI\i
d
(3)
j
{
i
(), }{
j
()a
ij
()}
3
+ . . .
Os termos de primeira e segunda ordem dao a aproximacao gaussiana enquanto o termo
de terceira ordem corrige a assimetria.
O denominador da expressao (5.15) se reduz a
log{ p
GG
{x
i
|x
i
, , y}|
x
i
=E
p
G
(x
1
|x
i
)
= cte +
1
2
log |H+ diag{c(x
i
, )}|, (5.23)
em que He a matriz de precisao Qem que a i-esima linha e coluna sao deletadas e c(x
i
, ) e o
vetor de menos a segunda derivada do termo da verossimilhanca avaliada em x
j
= E
p
G
(x
j
|x
i
).
48
Assim, obtem-se que
log{ p
GG
{x
i
|x
i
, , y}|
x
i
=E
p
G
(x
1
|x
i
)
= cte x
(s)
i
1
2
jI\i
var
p
G
(x
j
|x
i
) (5.24)
d
(3)
j
{
i
(), }
j
()a
ij
() + . . .
Note que var
p
G
(x
j
|x
i
) =
2
j
(){1 corr
p
G
(x
i
, x
j
)
2
}, sendo corr
p
G
(x
i
, x
j
) a correlacao
entre x
i
e x
j
sob p
G
.
Denindo
(1)
i
() =
1
2
jI\i
2
j
(){1 corr
p
G
(x
i
, x
j
)
2
}d
(3)
j
{
i
(), }
j
()a
ij
() (5.25)
e
(3)
i
() =
jI\i
d
(3)
j
{
i
(), }{
j
()a
ij
()}
3
(5.26)
entao
log{ p
SLA
(x
s
i
|, y)} = cte
1
2
(x
(s)
i
)
2
+
(1)
i
()x
(s)
i
+
1
6
(x
(s)
i
)
3
(3)
i
() + . . . (5.27)
A equacao em (5.27) nao dene uma densidade ja que o termo de terceira ordem e
ilimitado. Uma solucao e ajustar uma densidade normal assimetrica (Azzalini e Capitanio,
1999) de modo que a terceira derivada avaliada na moda seja
(3)
i
, a media seja
(1)
i
e a
variancia seja igual a 1. Dessa forma,
(3)
i
corrigira a aproximacao gaussiana na simetria e
(1)
i
ajustara a locacao.
49
5.7 Algoritmo INLA
Pode-se resumir o metodo de aproximacao INLA nos seguintes passos:
1. Explorar p(|y).
Localizar a moda
i
p(
i
|y)
ji
. Uma
outra possibilidade e aproveitar os pontos calculados no item anterior e construir
um interpolante para log{p(|y)} e fazer a integracao numerica atraves deste
interpolante.
2. Obter p(x
i
|, y). Para cada
j
da grade, encontrar a aproximacao de Laplace para cada
elemento do campo latente.
3. Obter p(x
i
|y) por meio de integracao numerica, ou seja
j
p(x
i
|
j
, y) p(
j
|y)
j
.
5.8 Exemplo: Modelo Poisson Dinamico
Suponha variaveis aleatorias Y
1
, . . . , Y
T
condicionalmente independentes seguindo uma
distribuicao Poisson com media
t
. Assume-se que a media
t
varia no tempo atraves de
uma estrutura dinamica, ou seja,
Y
t
|
t
Poi(
t
) (5.28a)
log(
t
) =
t
(5.28b)
t
=
t1
+
t
,
t
N(0, W) (5.28c)
O modelo e completado apos uma especicacao a priori a respeito do processo no instante
inicial. Assume-se que
50
0
|D
0
N(m
0
, C
0
), (5.29)
sendo m
0
e C
0
valores conhecidos reetindo a incerteza a priori sobre o processo no instante
inicial.
Assume-se que o valor de W seja desconhecido. Neste caso, atribui-se uma especicacao
a priori para W, a qual considera-se
W
1
Gama(
0
, S
0
), (5.30)
sendo
0
e S
0
valores conhecidos.
Assim, as quantidades a serem estimadas sao = (W,
1
, . . . ,
T
), em que = W e o
parametro xo e (
1
, . . . ,
T
) parametros do campo latente.
A distribuicao conjunta dos parametros do campo latente (condicional a W, embora
omitido na notacao) e dada por:
p(
1
, . . . ,
T
) = p(
1
)
T
t=2
p(
t
|
t1
) (5.31a)
exp
_
1
2(C
0
+ W)
(
1
m
0
)
2
_
(5.31b)
t=2
exp
_
W
1
2
(
t
t1
)
2
_
,
devido `a estrutura de independencia condicional.
Assumindo m
0
= 0,
p(
1
, . . . ,
T
) exp
_
(C
0
+ W)
1
2
2
1
_
T
t=2
exp
_
W
1
2
(
t
t1
)
2
_
(5.32a)
= exp
_
(C
0
+ W)
1
2
2
1
_
(5.32b)
exp
_
W
1
2
T
t=2
(
2
t
2
t
t1
+
2
t1
)
_
51
Como
T
t=2
2
t
+
T
t=2
2
t1
=
2
1
+
2
T
+ 2
T1
t=2
2
t
, e possvel reescrever a distribuicao
conjunta dos parametros do campo latente por
p(
1
, . . . ,
T
) exp
_
1
2
_
(W
1
+ (C
0
+ W)
1
)
2
1
+ (5.33)
+ W
1
_
2
T
+ 2
T1
t=2
2
t
2
T
t=2
t1
___
(5.34)
Assim, condicionalmente a W, a distribuicao conjunta de (
1
, . . . ,
T
) e dada por
p(
1
, . . . ,
T
|W) exp
_
1
2
_
, (5.35)
em que
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
W
1
+ (C
0
+ W)
1
W
1
0 . . . 0 0
W
1
2W
1
W
1
. . . 0 0
0 W
1
2W
1
. . . 0 0
0 0 W
1
. . . 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . W
1
0
0 0 0 . . . 2W
1
W
1
0 0 0 . . . W
1
W
1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
TT
(5.36)
Considerando uma especicacao a priori nao informativa, C
0
, pode-se reescrever
da seguinte forma
52
= W
1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
1 1 0 . . . 0 0
1 2 1 . . . 0 0
0 1 2 . . . 0 0
0 0 1 . . . 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . . 1 0
0 0 0 . . . 2 1
0 0 0 . . . 1 1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
TT
(5.37)
5.8.1 Resultados
Uma serie temporal de dados articiais de tamanho T = 100 foi gerada de um modelo
Poisson dinamico descrito anteriormente, xando-se W = 0.1 e
0
= 1.
0 20 40 60 80 100
0
2
4
6
8
Tempo
Y
Figura 5.1: Serie temporal articial de tamanho T = 100.
Considerou-se a matriz de precisao a priori para o campo latente como descrita em (5.36)
e assumiu-se que, a priori, W
1
Gama(1, 0.1).
53
A aproxima cao da distribuicao a posteriori de W
1
pelo metodo INLA pode ser vista na
Figura 5.2. Ja a Figura 5.3 mostra os valores estimados para vetor de estados. Pode-se
observar que os parametros foram bem estimados.
Do ponto de vista computacional, a estima cao foi feita em segundos. Caso o mesmo
problema fosse aplicado utilizando MCMC, o tempo computacional seria signicativamente
superior.
10 20 30 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
W
1
Figura 5.2: Distribui cao a posteriori de W
1
aproximada pelo metodo INLA. A linha vertical
refere-se ao valor verdadeiro.
54
0 20 40 60 80 100
1
0
1
2
Tempo
Mediana
Valores reais
IC 95%
Figura 5.3: Valores estimados para
1
, . . . ,
100
pelo metodo INLA, valores reais (linha
tracejada) e intervalo de 95% de credibilidade (area preenchida).
55
Captulo 6
Extensoes
Como visto no captulo anterior, o metodo de inferencia proposto por Rue et al. (2009)
e aplicavel em uma classe especca de modelos, os modelos latentes gaussianos. Neste
captulo, uma proposta de extensao para viabilizar a aplicacao do metodo INLA em modelos
latentes nao-gaussianos e analisada.
6.1 INLA para Modelos Latentes Nao-Gaussianos
Para lidar com situac oes em que se assume que a distribui cao do campo latente nao
e gaussiana, e necessaria uma modica cao na abordagem proposta por Rue et al. (2009).
Agora, considera-se a realizacao de inferencia bayesiana aproximada via INLA em modelos
com a seguinte estrutura hierarquica:
y
i
|x, p(y
i
|x
I
i
, ) (6.1a)
x| p(x|) (6.1b)
p(), (6.1c)
em que y = (y
1
, . . . , y
n
d
)
os elementos do campo
latente, e o vetor m-dimensional de hiperparametros, a distribuicao de y
i
|x, pertence `a
famlia exponencial e a distribuicao de x| nao e necessariamente gaussiana.
56
Note que, na estrutura acima, alem de relaxar a hip otese de que o campo latente x|
tenha que ser necessariamente gaussiano, considera-se a possibilidade de que cada y
i
pode
estar relacionado com um conjunto I
i
de elementos do campo latente.
Assim como nos modelos latentes gaussianos, o interesse aqui sera nas seguintes
distribuic oes marginais
p(x
i
|y) =
_
p(|y)p(x
i
|, y)d (6.2a)
p(
j
|y) =
_
p(|y)d
i
, (6.2b)
i = 1, . . . , n e j = 1, . . . , m.
Uma abordagem natural seria considerar uma aproximacao gaussiana para o campo latente
e trabalhar com um campo latente gaussiano aproximado. Este trabalho traz uma outra
adaptacao proposta `a abordagem descrita em Rue et al. (2009), a qual pode ser vista nas
sec oes a seguir.
6.2 Esquema de Aproxima cao
O esquema de aproximacao se mantem similar ao proposto em Rue et al. (2009). Quando
as integrac oes em (5.2) nao podem ser resolvidas analiticamente, constr oi-se aproximac oes
para p(x
i
|, y) e p(|y) dadas respectivamente por p(x
i
|, y) e p(|y). Assim, e possvel
construir aproximac oes aninhadas:
p(x
i
|y) =
_
p(|y) p(x
i
|, y)d (6.3a)
p(
j
|y) =
_
p(|y)d
i
, (6.3b)
sendo as integrais resolvidas via integracao numerica.
As proximas sec oes mostram uma proposta de como obter essas aproximac oes necessarias.
57
6.3 Caso com Independencia Condicional
Considere a seguinte estrutura hierarquica:
y
i
|x, p(y
i
|x
i
, ) (6.4a)
x| p(x|) (6.4b)
p(), (6.4c)
em que y = (y
1
, . . . , y
n
d
)
os elementos do campo
latente, e o vetor m-dimensional de hiperparametros, a distribuicao de y
i
|x, pertence `a
famlia exponencial e a distribuicao de x| nao e gaussiana.
Note que esta estrutura e um caso particular da estrutura anterior. Neste caso, um
determinado y
i
esta conectado a apenas um elemento do campo latente. Assim sendo, este
caso considera apenas o relaxamento da hip otese de normalidade do campo latente como
proposto por Rue et al. (2009) e mantem a mesma estrutura de dependencia.
As subsec oes que seguem, tratam da adaptacao da abordagem do metodo INLA para
modelos com esta estrutura hierarquica.
6.3.1 Aproxima cao para p(|y)
A aproximacao para p(|y) e dada por:
p(|y)
p(x, , y)
p
G
(x|, y)
x=x
()
, (6.5)
em que p
G
(x|, y) e a aproximacao gaussiana da condicional completa de x e x
() e a
moda da condicional completa de x para um dado .
Tem-se que
p(x|, y) exp
_
log(p(x|)) +
i
log(p(y
i
|x
i
, ))
_
. (6.6)
58
Diferentemente do que ja foi visto, o n ucleo de log(p(x|)) nao e um termo quadratico.
Para se encontrar p
G
(x|, y), prop oe-se obter a aproximacao gaussiana de log(p(x|)), alem
de log(p(y
i
|x
i
, )).
Assim,
p(x|, y) exp
_
1
2
x
(Q
+ diag(c))x + (b
+b)
x
_
, (6.7)
em que b
e Q
x
i
=x
i
(x
i
,)
, (6.8)
em que p
GG
(x
i
|x
i
, , y) e a aproxima cao gaussiana para x
i
|x
i
, , y e x
i
(x
i
, ) e a moda
de p(x
i
|x
i
, , y).
59
O numerador da aproximacao e dado por p(x, , y) = p(y|x, )p(x|)p().
E importante
destacar que p(x|) se mantera em sua estrutura original nao-gaussiana.
Pode-se, tambem, evitar o passo de otimiza cao e computar p
GG
(x
i
|x
i
, , y) atraves de
uma aproximacao para a moda x
i
(x
i
, ) E
p
G
(x
i
|x
i
).
Acredita-se que esta modica cao na abordagem nao inuenciara em termos de tempo
computacional, ja que, neste caso, tambem pode-se tirar proveito da esparsidade matriz de
precisao da distribuicao aproximada p
GG
.
6.4 Caso Geral
Voltemos ao caso geral descrito no incio do captulo em que cada elemento y
i
se relaciona
com um conjunto I
i
de elementos do campo latente.
Neste caso, a matriz de precisao oriunda da aproximacao gaussiana na distribuicao
condicional completa do campo latente nao e mais esparsa. Esta situacao pode trazer
problemas computacionais, uma vez que e mais difcil lidar com matrizes densas.
Por vezes, ela pode vir a nao ser positiva denida, o que sera necessario fazer adapta coes
no algoritmo para lidar com essas situa coes. Mais ainda, pode-se vericar que o tempo
computacional dependera diretamente da dimensao parametrica. Em situac oes em que se ha
muitos parametros, a inferencia pode ser custosa computacionalmente, porem ainda menos
custoso que utilizar metodos MCMC.
Esta situacao foi considerada em Martins (2010) para modelos latentes gaussianos. Em
outras palavras, Martins (2010) considerou o caso em que y
i
se relaciona com um conjunto
I
i
de elementos de um campo latente gaussiano. Note que, neste trabalho, alem de relaxar
esta hipotese, o campo latente nao e mais gaussiano.
6.4.1 Aproxima cao para p(|y)
A aproximacao para p(|y) e dada por:
p(|y)
p(x, , y)
p
G
(x|, y)
x=x
()
, (6.9)
60
em que p
G
(x|, y) e a aproxima cao gaussiana da condicional completa de x e x
() e a
moda da condicional completa de x para um dado .
A distribuicao p(x|, y) e dada por
p(x|, y) exp{log(p(x|)) +
i
log(p(y
i
|x
I
i
, ))}. (6.10)
A proposta aqui e realizar uma aproximacao gaussiana, em log(p(x|)) alem de
log(p(y
i
|x
I
i
, )), para cada i = 1, . . . , n. Neste caso, assume-se que
p(x|, y) exp
_
1
2
x
(Q
+ C(x
))x + (b
+b)
x
_
, (6.11)
em que b
e Q
() pode ser obtida usando um dos metodos descritos na Secao 2.2. Para isso,
sera necessario avaliar a matriz de precisao Q
em diversos valores x
0
, x
1
, . . . , x
k
, em cada
uma das k-esimas iterac oes ate o algoritmo escolhido alcancar convergencia.
E importante
ressaltar, entretanto, que a matriz de precisao Q
x
i
=x
i
(x
i
,)
, (6.12)
em que p
GG
(x
i
|x
i
, , y) e a aproxima cao gaussiana para x
i
|x
i
, , y e x
i
(x
i
, ) e a moda
de p(x
i
|x
i
, , y).
O numerador da aproximacao e dado por p(x, , y) = p(y|x, )p(x|)p(). Considere
que p(x|) se mantem em sua estrutura original nao-gaussiana.
Pode-se, tambem, evitar o passo de otimiza cao e computar p
GG
(x
i
|x
i
, , y) atraves de
uma aproximacao para a moda x
i
(x
i
, ) E
p
G
(x
i
|x
i
).
6.5 Exemplo: Modelo Poisson nao-Gaussiano
6.5.1 Descri cao do Modelo
Suponha variaveis aleatorias Y
i
, para i = 1, . . . , n condicionalmente independentes
seguindo uma distribuicao Poisson com media
i
> 0. Assume-se que a media
i
varia
no tempo atraves de uma estrutura dinamica, ou seja,
Y
i
|
i
Poisson(
i
)
i
=
i1
i
w
62
em que
i
|w, D
i1
Beta(wa
i1
, (1 w)a
i1
),
0
|D
0
Gamma(a
0
, b
0
)
w p(w),
o parametro a
i
e oriundo da distribuicao a posteriori de
i
|D
i
, para i = 1, . . . , n, D
i
denota
o conjunto de informacao no tempo i, i = 1, 2, . . . , n e a
0
e b
0
sao constantes conhecidas.
Mais ainda, e valido que
i
|w, D
0
Beta(w
i
a
0
, (1 w)w
i1
a
0
), (6.13)
em que D
0
denota o conjunto de informacao inicial, anterior `a observacao dos dados.
De fato, tem-se que
p( | w, D
0
) =
i
p(
i
|
1
, . . . ,
i1
, D
0
) (6.14a)
=
i
p(
i
|
i1
, D
0
) (6.14b)
Sabendo-se que
w
1
0
|w,
0
, D
0
Beta(wa
0
, (1 w)a
0
) (6.15)
e
0
|D
0
Gama(a
0
, b
0
) (6.16)
conclui-se que
1
|w, D
0
Gama(wa
0
, wb
0
). (6.17)
63
De forma analoga,
w
2
1
|w,
1
, D
1
Beta(wa
1
, (1 w)a
1
) (6.18)
e
1
|D
1
Gama(a
1
, b
1
) (6.19)
conclui-se que
2
|w, D
1
Gama(wa
1
, wb
1
). (6.20)
Se D
i
= D
i1
= = D
1
= D
0
tem-se que
1
|w, D
0
Gama(wa
0
, wb
0
). (6.21)
Como (6.18) vale, consequentemente,
2
|w, D
0
Gama(w
2
a
0
, w
2
b
0
). (6.22)
De forma mais geral, tem-se que:
i
|w, D
0
Gama(w
i
a
0
, w
i
b
0
). (6.23)
Tambem e valido que
w
i
i1
|w,
i1
, D
i1
Beta(wa
i1
, (1 w)a
i1
). (6.24)
Ora, atraves da rela cao (6.23), como o caso considerado e aquele em que D
i1
= =
D
1
= D
0
e valido, pode-se reescrever (6.24) tal que
(
i
|w, D
0
)
_
w
i
i1
|w,
i1
, D
0
_
Beta(w
i
a
0
, (1 w)w
i1
a
0
), (6.25)
pois a
i1
= w
i1
a
0
.
64
6.5.2 Procedimento de Inferencia
Caso 1
Considere nesta secao o procedimento de inferencia para = (, ).
A verossimilhanca e dada por:
p(y
i
|
i
, ) =
e
y
i
i
y
i
!
, (6.26)
para y
i
= 0, 1, 2, . . . e
i
> 0, i = 0, 1, . . . , n.
A distribuicao a priori e dada por:
p() = p( | )p(), (6.27)
em que
p( | )
a
0
1
1
e
b
0
1
(6.28)
i=2
_
1
i1
_
w
i
i1
_
w
i
a
0
1
_
1
w
i
i1
_
w
i1
(1w)a
0
1
_
Pelo Teorema de Bayes, a distribui cao a posteriori e dada por:
p(|y) p()p( | )
i
p(y
i
|
i
, ) (6.29)
Considere o metodo de aproxima cao INLA.
A distribuicao condicional completa de e dada por:
p( | , y) exp{log(p( | )) +
i
log(p(y
i
|
i
, ))} (6.30)
Denote g
i
(
i
) = log(p(y
i
|
i
, ). Segundo Martins (2010), a expansao de Taylor realizada
ao redor da moda melhora a aproximacao gaussiana. Assim sendo, seja
(0)
um vetor de
65
valores iniciais a serem utilizados para inicializacao do algoritmo de busca da moda de p( | y).
Expandindo g
i
(
i
) em torno de
(0)
, obtem-se
i
log(p(y
i
|
i
, ))
1
2
C(
(0)
) + b
(
(0)
), (6.31)
em que
b(
(0)
) =
_
_
2y
1
(0)
1
2y
2
(0)
2
.
.
.
2y
n
(0)
n
_
_
(6.32)
e
C(
(0)
) = diag
_
y
1
(0)
1
,
y
2
(0)
2
, . . . ,
y
n
(0)
n
_
(6.33)
Ja a aproximacao gaussiana de log(p( | )) e dada por
log(p( | ))
1
2
Q(
(0)
) + b
(
(0)
), (6.34)
em que
b
(
(0)
) =
f
(
(0)
) H
f
(
(0)
)
(0)
(6.35)
e
Q(
(0)
) = H
f
(
(0)
) (6.36)
denotando f = log(p( | )).
Abaixo seguem as derivadas necessarias para obter
f
e H
f
.
66
log(p( | ))
1
= b
0
+
2w
2
a
0
+ w
3
a
0
1
1
+
a
0
1
1
+
(1 w)w
2
a
0
1
1
w
2
log(p( | ))
i
=
w
i
a
0
1
w((1 w)w
i
a
0
1)
i1
w
i
+
2w
i+1
a
0
w
i+2
a
0
+ 1
i
+
(1 w)w
i+1
a
0
1
i
w
i+1
,
para i = 2, . . . , n 1.
log(p( | ))
n
=
w
n
a
0
1
w((1 w)w
n
a
0
1)
n1
w
n
2
log(p( | ))
2
1
=
2w
2
a
0
+ w
3
a
0
1
2
1
wa
0
1
2
1
(1 w)w
2
a
0
1
(
1
w
2
)
2
2
log(p( | ))
2
i
=
w
i
a
0
1
2
i
w
2
[(1 w)w
i
a
0
1]
(
i1
wi)
2
2w
i+1
a
0
w
i+2
a
0
+ 1
2
i
(1 w)w
i+1
a
0
1
(
i
w
i+1
)
2
,
para i = 2, . . . , n.
2
log(p( | ))
2
=
w((1 w)w
2
a
0
1)
1
w
2
2
log(p( | ))
i+1
i
=
w((1 w)w
i+1
a
0
1)
(
i
w
i+1
)
2
,
para i = 2, . . . , n 1.
As derivadas necessarias para as aproximac oes acima podem ser feitas de forma
automatizada em programas estatsticos. Em geral, estas as derivadas sao obtidas
numericamente via diferen cas nitas. Ver Burden e Faires (2001) para mais detalhes.
Como o vetor de estados s o assume valores positivos, conforme discutido na Se cao 5.3,
e recomendavel transformar o vetor de estados para que ele varie na reta real. O motivo disto
e que, do ponto de vista computacional, esta transformacao permite que sejam utilizados
algoritmos de otimiza cao sem restricao, descritos na Secao 2.2.
Os Casos 2 e 3 citados a seguir consideram transformac oes no vetor de estados para que
este varie na reta real.
67
Caso 2
Uma transformacao razoavel para o vetor de estados que s o assume valores positivos e
a transformacao logartmica no vetor de estados. Agora, o interesse e em x
i
= log(
i
),
i = 1, . . . , n. Com isso, este caso considera que = (x, ).
A verossimilhanca e dada por:
p(y
i
| x
i
, ) =
e
e
x
i
e
x
i
y
i
y
i
!
, (6.37)
para y
i
= 0, 1, 2, . . . e i = 1, . . . , n.
A distribuicao a priori e dada por:
p() = p(x | )p(). (6.38)
Neste caso, tem-se que
p(x|) e
x
1
(a
0
1)
e
b
0
e
x
1
e
x
1
n
i=2
_
e
x
i
e
x
i1
_
we
x
i
e
x
i1
_
w
i
a
0
1
_
1
we
x
i
e
x
i1
_
(1w)w
i
a
0
1
_
(6.39)
Pelo Teorema de Bayes, a distribui cao a posteriori e dada por:
p(|y) p()p(x | )
i
p(y
i
| x
i
, ) (6.40)
Considere o metodo de aproxima cao INLA.
A distribuicao condicional completa de x e dada por:
p(x | , y) exp{log(p(x | )) +
i
log(p(y
i
| x
i
, ))} (6.41)
Considerando a transformacao logartmica, indiretamente assume-se que deva ser verdade
que e
x
i1
> we
x
i1
. Isto vem do fato de que, ao se aplicar o logaritmo em p(x | ) para
se obter a aproxima cao gaussiana da distribuicao condicional completa de x, tal relacao tem
que ser valida.
68
Em muitos casos, e possvel que essa relacao nao seja valida. Problemas decorrentes da
transformacao logartmica neste exemplo especco impedem a aplicacao do metodo INLA,
uma vez que seria necessario um algoritmo de otimizacao de buscas de moda em que e
necessario avaliar p(x | , y) para varios valores x
(0)
, x
(1)
, . . . , x
(k)
em cada uma da k-esima
iteracao.
Muitos erros numericos podem vir a surgir ao se considerar a transformacao logartmica
para este modelo especco.
Com isso, nota-se que muito cuidado deve ser tomado ao escolher as transformac oes
adequadas para o vetor parametrico.
Caso 3
Considere agora uma nova transformacao para o vetor de estados:
z
1
= log(
1
) (6.42a)
z
i
= logit(
i
) = log
_
w
i
i1
w
i
_
, i = 2, . . . , n (6.42b)
Com isso, tem-se que
1
= e
z
1
(6.43a)
i
=
e
z
1
/w
i1
i
j=2
(1 + e
z
j
)
, i = 2, . . . , n (6.43b)
A verossimilhanca e dada por:
p(y | z, ) =
i
p(y
i
| z
1:i
, ) (6.44)
A distribuicao a priori e dada por:
p(z, ) = p(z | )p(), (6.45)
em que
69
p(z | ) e
z
1
(wa
0
1)
e
wb
0
e
z
1
e
z
1
n
i=2
_
(1 + e
z
i
)
w
i1
a
0
+1
(6.46)
_
e
z
i
1 + e
z
i
_
(1w)w
i1
a
0
1
e
z
i
(1 + e
z
i
)
2
_
Considere novamente o metodo de aproximacao INLA.
A distribuicao condicional completa de z e dada por:
p(z | , y) exp{log(p(z | )) +
i
log(p(y
i
| z
1:i
, ))} (6.47)
A aproximacao gaussiana de log p(z | ) e dada por:
log p(z | )
1
2
z
Q(z
(0)
)z + b
(z
(0)
)
z (6.48)
em que
Q(z
(0)
) = H
f
(z
(0)
) (6.49)
e
b
(z
(0)
) =
f
(z
(0)
) H
f
(z
(0)
)z
(0)
(6.50)
denotando f = log p(z | ).
As derivadas necessarias para obter Q(z
(0)
) e b
(z
(0)
) sao dadas por
log(p(z | ))
z
1
= wa
0
wb
0
e
z
1
log(p(z | ))
z
i
= (w
i1
a
0
)
e
z
i
1 + e
z
i
((1 w)w
i1
a
0
),
70
para i = 2, . . . , n
2
log(p(z | ))
z
2
1
= wb
0
e
z
1
2
log(p(z | ))
z
2
i
= (w
i1
a
0
)
_
e
z
i
1 + e
z
i
e
2z
i
(1 + e
z
i
)
2
_
,
para i = 2, . . . , n
Para obter a aproximacao gaussiana de log(p(y | z, )), observe que este caso e um
caso particular do descrito na Secao 6.4, em que I
i
= {z
1
, . . . , z
i
}, i = 1, . . . , n, dena
g
i
(z
1
, . . . , z
i
) como sendo g
i
(z
1
, . . . , z
i
) = log(p(y
i
|z
1:i
, ))}, em que por simplica cao,
(z
1
, . . . , z
i
) foi denotado por z
1:i
.
Assim sendo, log(p(y|z, )) =
n
i=1
g
i
(z
1:i
).
A seguir, descreve-se como obter a aproxima cao gaussiana de log(p(y | z, )).
Atraves da aproxima cao de Taylor de segunda ordem, obtem-se
g
i
(z
1:i
) = g
i
(z
(0)
1:i
) + (z
1:i
z
(0)
1:i
)
g
i
+
1
2
(z
1:i
z
(0)
1:i
)
H
g
i
(z
1:i
z
(0)
1:i
) (6.51a)
= cte + b
i
(z
(0)
1:i
)z
1:i
1
2
z
1:i
C
i
(z
(0)
1:i
)z
1:i
, (6.51b)
em que
b
i
(z
(0)
1:i
) =
g
i
(z
(0)
1:i
) H
g
i
(z
(0)
1:i
)z
(0)
1:i
(6.52)
e
C
i
(x
(0)
1:i
) = H
g
i
(z
(0)
1:i
). (6.53)
Com isso, a aproximacao para
n
i=1
g
i
(z
1:i
) e dada por
n
i=1
g
i
(z
1:i
)
n
1=1
_
b
i
(z
(0)
1:i
)z
1:i
1
2
z
T
1:i
C
i
(z
(0)
1:i
)z
1:i
_
=
1
2
z
1:n
(C
+
)z
1:n
+ (b
+
)
z
1:n
. (6.54)
71
Esta aproximacao resulta em uma distribuicao normal com media (C
+
)
1
b
+
e matriz de
precisao C
+
, em que
C
+
=
n
1=1
_
_
C
i
0
0 0
_
_
nn
(6.55)
e
b
+
=
n
1=1
_
_
b
i
0
_
_
n1
, (6.56)
sendo 0 um vetor de zeros com dimensao apropriada.
Cabe ressaltar que a matriz de precisao da aproximacao gaussiana da distribui cao
condicional completa de z e uma matriz densa. Sendo assim, o metodo de aproximacao
INLA pode nao se mostrar tao eciente do ponto de vista computacional quanto no caso em
que e necessario lidar com matrizes esparsas.
Pode-se vericar que a transformacao feita no campo latente transformou o problema em
algo mais complexo e de implementacao computacional menos eciente. Por outro lado, esta
transformacao facilita a execucao dos algoritmos de otimizacao.
Tudo que foi visto corresponde ao necessario para implementar o metodo INLA no
caso nao-gaussiano, sob uma abordagem proposta. O intuito e se fazer uma verica cao
da qualidade da aproximacao sugerida empiricamente atraves de dados articiais e dados
reais usando o conjunto de dados da mortalidade de dengue descrito no Captulo 4.4.
Entretanto, problemas computacionais impediram com que o metodo fosse exemplicado
nesta dissertacao. Como trabalho futuro, tem-se a exemplicacao do metodo e a vericacao
emprica da qualidade da aproximacao.
72
Captulo 7
Considera coes Finais
Esta dissertacao iniciou com um captulo com conceitos preliminares de metodos
numericos. Em seguida, foram descritos algumas formas de se realizar inferencia bayesiana
de forma aproximada.
Uma aplicacao de metodos de Monte Carlo via cadeias de Markov a dados reais de
mortalidade dengue na regiao metropolitana do Rio de Janeiro foi apresentada. O objetivo
foi vericar se houve um excesso de mortalidade nos perodos epidemicos de dengue. Nao foi
vericado tal excesso de mortalidade.
Dentre diversos metodos aproximados de inferencia citados, esta dissertacao focou no
metodo de aproximacao INLA para uma classe especca de modelos, os modelos de espaco
de estados. Este metodo foi descrito de forma detalhada no Captulo 5 da forma que foi
proposto por Rue et al. (2009).
Uma ilustracao de aplicacao do metodo INLA em um modelo Poisson dinamico com
dados articiais foi apresentada. O metodo INLA se mostrou eciente do ponto de vista
computacional e o motivo disto e que metodo usufrui de vantagens que a estrutura markoviana
traz nesta classe de modelos latentes gaussianos. Entretanto, cabe ressaltar que o metodo
de aproxima cao INLA tem a desvantagem de ter seu custo computacional crescente `a medida
que cresce a dimensao parametrica.
O Captulo 6 tratou de uma proposta para a extensao do metodo INLA do captulo
anterior, a m de possibilitar sua aplicacao em modelos nao-gaussianos e em modelos com
uma estrutura hierarquica mais geral do que a inicialmente proposta por Rue et al. (2009).
73
Foi apresentado um exemplo ilustrativo te orico de como a abordagem deve ser executada.
Futuramente, ha um interesse em se vericar empiricamente se a modelagem proposta no
Captulo 6 se mostra eciente e precisa, tal como o resultado encontrado para o exemplo do
modelo Poisson descrito no Captulo 5.
O metodo proposto por Rue et al. (2009) trouxe de volta a atencao para o desenvolvimento
de metodologias estatsticas determinsticas para a obten cao de distribui coes a posteriori
marginais. Isto pode ser considerado um ponto de partida para trabalhos posteriores. Sobre
o metodo INLA, por exemplo, e de extrema importancia que mais pesquisa seja feita a m
de se saber mais sobre a acuracia de sua aproximacao.
Pode-se perceber que o metodo INLA e de difcil implementacao, requer calculos analticos
trabalhosos ou a utilizacao de diferenciacao numerica, que nao se pode conar inteiramente,
alem de otimizac oes numericas complexas. O tempo de analise do metodo por parte do
usuario, em geral, e consideravelmente alto. Contudo, a implementa cao computacional de
alguns modelos latentes gaussinos ja esta disponvel no pacote R-INLA (Rue e Martino, 2009)
que deve ser instalado no software R (R Development Core Team, 2010).
O tempo de analise necessario para a implementacao do INLA contrasta com a rapida
execucao computacional em alguns casos. Casos estes em que se assume independencia
condicional nos elementos do campo latente.
Cabe ressaltar, entretanto, que essa suposicao e de certa forma restritiva. Violac oes desta
suposicao fazem com que o metodo INLA perca em eciencia, uma vez que ela e crucial para
que seja possvel acelerar o tempo computacional, em que se tira proveito da esparsidade de
matrizes envolvidas.
Como trabalhos futuros, do ponto de vista te orico, pode-se considerar adaptacoes na
metodologia do INLA para viabilizar sua aplicacao em modelos nao-lineares.
Do ponto de vista pratico, ha uma vasta possibilidade de utilizacao do metodo em
problemas reais cuja modelagem considerada possui a mesma estrutura hierarquica dos
modelos descritos nesta dissertacao.
74
Referencias Bibliogracas
Azzalini, A. e Capitanio, A. (1999) Statistical applications for the multivariate skew normal
distribution. Journal of the Royal Statistical Society Series B, 61, 579602.
Beal, M. J. (2003) Variational Algorithms for Approximate Bayesian Inference. Tese de
Doutorado, University College London, Londres.
Bernardo, J. M., Bayarri, M. J., Berger, J. O., Dawid, A. P., Heckerman, D., Smith, A. F. M.,
West, M. e., Beal, M. J. e Ghahramani, Z. (2003) The variational bayesian em algorithm for
incomplete data: with application to scoring graphical model structures. Bayesian Statistics
7, Oxford University Press.
Bishop, C. M. (2006) Pattern Recognition and Machine Learning. New York: Springer.
Boyd, S. P. e Vandenberghe, L. (2004) Convex optimization. Cambridge University Press.
de Bruijn, N. G. (1961) Asymptotic Methods in Analysis. Amsterdam: North-Holland.
Burden, R. L. e Faires, J. D. (2001) Numerical analysis. Brooks/Cole Publishing Company.
Cheng, S. H. e Higham, N. J. (1998) A modied cholesky algorithm based on a symmetric
indenite factorization. SIAM Journal On Matrix Analysis And Applications, 19.
Dempster, A. P., Laird, N. M. e Rubin, D. B. (1977) Maximum likelihood from incomplete
data via the EM algorithm. Journal of the Royal Statistical Society Series B, 39.
Durbin, J. e Koopman, S. J. (2000) Time series analysis of non-gaussian observations based
on state space models from both classical and bayesian perspectives. Journal of the Royal
Statistical Society Series B, 62(1), 356.
75
Fernandes, M. V. M. (2006) Modelos para Processos Espacos-Temporais Inacionados de
Zeros. Dissertacao de Mestrado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
Ferreira, G. S. (2004) Analise Espaco-Temporal da Distribuicao dos Casos de Dengue na
Cidade do Rio de Janeiro no Perodo de 1986 a 2002. Dissertacao de Mestrado, Universidade
Federal do Rio de Janeiro, Rio de Janeiro.
Franco, G. C., Gamerman, D. e Santos, T. R. (2009) Modelos de Espacos de Estados:
Abordagens Classica e Bayesiana. Associacao Brasileira de Estatstica.
Gamerman, D. e Lopes, H. (2006) Markov Chain Monte Carlo: Stochastic Simulation for
Bayesian Inference. New York: Chapman & Hall / CRC.
Gelfand, A. E. e Smith, A. F. M. (1990) Sampling-based approaches to calculating marginal
densities. Journal of the American Statistical Association, 85, 398409.
Geman, S. e Geman, D. (1984) Stochastic relaxation, Gibbs distributions and the Bayesian
restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6,
721741.
Harvey, A. C. e Fernandes, C. (1989) A non-gaussian state space model and application to
prediction of records. Journal of Business and Economic Statistics, 7, 407417.
Hastings, H. (1970) Monte Carlo sampling methods using Markov chains and their
applications. Biometrika, 57, 97109.
Higham, N. J. (2002) Computing the nearest correlation matrix - a problem from nance.
IMA Journal of Numerical Analysis, 22, 329343.
Kitagawa, G. (1987) Non-gaussian state-space modeling of nonstationary time series. Journal
of the Americal Statistical Association, 82, 400, 10321041.
Knol, D. e ten Berge, J. (1989) Least-squares approximation of an improper correlation matrix
by a proper one. Psychometrika, 54, 5361.
Kullback, S. e Leibler, R. A. (1951) On information and suciency. The Annals of
Mathematical Statistics, 22.
76
Malhao, T. A. (2010) Sobremortalidade durante epidemia de dengue. Regiao Metropolitana
do Rio de Janeiro, 2007-2008. Disserta cao de Mestrado, Universidade Federal do Rio de
Janeiro, Rio de Janeiro.
Martins, T. G. (2010) Aproxima coes Determinsticas para Distribuic oes a Posteriori Marginais.
Dissertacao de Mestrado, Universidade Federal do Rio de Janeiro, Rio de Janeiro.
Metropolis, N., Rosenbulth, A., Rosenbulth, M., Teller, A. e Teller, E. (1953) Equation of
state calculations by fast computing machine. Journal of Chemical Physics, 21, 10871091.
Migon, H. e Gamerman, D. (1999) Statistical Inference: an Integrated Approach. London:
Arnold.
Minka, T. P. (2001) A family of algorithms for approximate Bayesian inference. Tese de
Doutorado, Massachusetts Institute of Technology, Cambridge.
Naylor, J. C. e Smith, A. F. M. (1982) Applications of a method for the ecient computation
of posterior distributions. Journal of the Royal Statistical Society Series C, 31, 214225.
Nelder, J. A. e Wedderburn, R. W. M. (1972) Generalized linear models. Journal of the Royal
Statistical Society A, 135, 370384.
Nocedal, J. e Wright, S. J. (2006) Numerical Optimization. Springer.
Pereira, J. B. M. (2010) Modelos para Dados de Contagem com Estrutura Temporal.
Dissertacao de Mestrado, Universidade Federal do Rio de Janeiro.
R Development Core Team (2010) R: A Language and Environment for Statistical Computing.
R Foundation for Statistical Computing, Vienna, Austria. URLhttp://www.R-project.
org/. ISBN 3-900051-07-0.
Rue, H. e Held, L. (2005) Gaussian Markov Random Fields: Theory and Applications. London:
Chapman and Hall/CRC Press.
Rue, H. e Martino, S. (2007) Approximate bayesian inference for hierarchical gaussian markov
random eld models. Journal of statistical planning and inference, 137(10), 31773192.
77
(2009) INLA: Functions which allow to perform a full Bayesian analysis of structured
additive models using Integrated Nested Laplace Approximation. R package version 0.0.
Rue, H., Martino, S. e Chopin, N. (2009) Approximate Bayesian inference for latent Gaussian
models by using integrated nested Laplace approximations. Journal of the Royal Statistical
Society Series B, 71, 319392.
Ruggiero, M. A. G. e Lopes, V. L. R. (1996) Calculo Numerico: Aspectos Te oricos e
Computacionais. MAKRON Books.
Ruiz-Cardenas, R., Krainski, E. T. e Rue, H. (2010) Fitting dynamic models using
integrated nested laplace approximations - inla. Preprint Statistics No 12/2010,
Department of Mathematical Sciences, Norwegian University of Science and Technology,
Trondheim, Norway. URLhttp://www.math.ntnu.no/inla/r-inla.org/papers/
Ruiz_Krainski_Rue_TR_23112010.pdf.
Santos, T. R. (2009) Inferencia sobre os Hiperparametros em Modelos Estruturais sob as
Perspectivas Classica e Bayesiana. Dissertacao de Mestrado, Universidade Federal de Minas
Gerais, Belo Horizonte.
Smith, A. F. M., Skene, A. M., Shaw, J. E. H. e Naylor, J. C. (1987) Progress with numerical
and graphical methods for practical bayesian statistics. Journal of the Royal Statistical
Society. Series D (The Statistician), 36, 7582.
Smith, R. L. e Miller, J. E. (1986) A non-gaussian state space model and application to
prediction of records. Journal of the Royal Statistical Society B, 48, 7988.
Tierney, L. e Kadane, J. B. (1986) Accurate approximations for posterior moments and
marginal densities. Journal of the American Statistics Association, 81, 8286.
Tierney, L., Kass, R. E. e Kadane, J. B. (1989) Approximate marginal densities of nonlinear
functions. Biometrika, 76, 425433.
West, M. e Harrison, J. (1997) Bayesian Forecasting and Dynamic Models. New York:
Springer-Verlag, 2a edn.
78
West, M., Harrison, J. e Migon, H. S. (1985) Dynamic generalized linear models and bayesian
forecasting. Journal of the Americal Statistical Association, 80, 387, 7397.
79