Você está na página 1de 80

INTRODUC

AO
`
A INFER

ENCIA BAYESIANA
RICARDO S. EHLERS
Laboratorio de Estatstica e Geoinforma cao
Universidade Federal do Parana
Primeira publica c ao em 2002
Segunda edi c ao publicada em 2004
Terceira edi c ao publicada em 2005
Quarta edi c ao publicada em 2006
Quinta edi c ao publicada em 2007
c RICARDO SANDES EHLERS 2003-2007
Prefacio
O objetivo principal deste texto e oferecer um material did atico basico para um curso
introdut orio de Inferencia Bayesiana a nvel de gradua c ao. Ele pode ser adotado em
cursos de Bacharelado em Estatstica bem como em outros cursos de gradua c ao e
de pos-gradua c ao aonde os alunos tenham conhecimentos b asicos de probabilidade e
c alculo. Algum conhecimento sobre estima c ao de m axima verossimilhan ca tambem e
util porem nao essencial.
O texto se originou de notas de aulas da disciplina de Inferencia Bayesiana minis-
trada no programa de Bacharelado em Estatstica da Universidade Federal do Paran a.
A ideia e apresentar o enfoque Bayesiano como alternativa `a abordagem classica
estabelecendo algumas compara c oes inevitaveis. O texto nao se prop oe a ser exaustivo
nem deve ser visto como um livro de receitas com solu c oes Bayesianas para problemas
de an alise de dados.
O manuscrito foi preparado usando o L
A
T
E
X e todas as ilustra c oes foram produzi-
das no pacote estatstico R (gratuito e de c odigo aberto) que pode ser obtido em
http://www.r-project.org/
Em v arios exemplos s ao fornecidos tambem os comandos do R que foram utilizados e
mostradas as sadas resultantes de modo que o leitor e encorajado a reproduzi-los.
Este texto certamente nao est a livre de erros, e comentarios e sugestoes dos leito-
res s ao bem vindos. Citar este texto como:
Ehlers, R.S. (2007) Introduc ao ` a Inferencia Bayesiana. Disponvel em
http://leg.ufpr.br/~ ehlers/bayes. Acesso em: ...
Ricardo S. Ehlers
Curitiba, novembro de 2007.
i
Sumario
1 Introdu cao 1
1.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Princpio da Verossimilhan ca . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Distribui c oes a Priori 11
2.1 Prioris Conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Conjuga c ao na Famlia Exponencial . . . . . . . . . . . . . . . . . . . 12
2.3 Principais Famlias Conjugadas . . . . . . . . . . . . . . . . . . . . . . 16
2.3.1 Distribui c ao normal com vari ancia conhecida . . . . . . . . . . 16
2.3.2 Distribui c ao de Poisson . . . . . . . . . . . . . . . . . . . . . . 17
2.3.3 Distribui c ao multinomial . . . . . . . . . . . . . . . . . . . . . 18
2.3.4 Distribui c ao normal com media conhecida e vari ancia desconhe-
cida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.5 Distribui c ao normal com media e vari ancia desconhecidos . . . 19
2.4 Priori nao Informativa . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Prioris Hier arquicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Estima cao 29
3.1 Introdu c ao `a Teoria da Decis ao . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Estimadores de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Estima c ao por Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Estima c ao no Modelo Normal . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.1 Vari ancia Conhecida . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.2 Media e Vari ancia desconhecidas . . . . . . . . . . . . . . . . . 34
3.4.3 O Caso de duas Amostras . . . . . . . . . . . . . . . . . . . . . 35
3.4.4 Vari ancias desiguais . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 Computa cao Bayesiana 40
4.1 Uma Palavra de Cautela . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 O Problema Geral da Inferencia Bayesiana . . . . . . . . . . . . . . . . 41
4.3 Metodo de Monte Carlo Simples . . . . . . . . . . . . . . . . . . . . . 41
ii
SUM

ARIO iii
4.3.1 Monte Carlo via Fun c ao de Import ancia . . . . . . . . . . . . . 45
4.4 Metodos de Reamostragem . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.1 Metodo de Rejei c ao . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2 Reamostragem Ponderada . . . . . . . . . . . . . . . . . . . . . 48
4.5 Monte Carlo via cadeias de Markov . . . . . . . . . . . . . . . . . . . . 50
4.5.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.5.2 Acuracia Numerica . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5.3 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . 52
4.5.4 Casos Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5.5 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 58
4.6 Problemas de Dimens ao Vari avel . . . . . . . . . . . . . . . . . . . . . 61
4.6.1 MCMC com Saltos Reversveis (RJMCMC) . . . . . . . . . . . 62
4.7 Topicos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.7.1 Autocorrela c ao Amostral . . . . . . . . . . . . . . . . . . . . . 66
4.7.2 Monitorando a Convergencia . . . . . . . . . . . . . . . . . . . 67
A Lista de Distribui c oes 68
A.1 Distribui c ao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
A.2 Distribui c ao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
A.3 Distribui c ao Wishart . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.4 Distribui c ao Gama Inversa . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.5 Distribui c ao Wishart Invertida . . . . . . . . . . . . . . . . . . . . . . 69
A.6 Distribui c ao Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.7 Distribui c ao de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.8 Distribui c ao t de Student . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.9 Distribui c ao F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.10 Distribui c ao Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.11 Distribui c ao Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.12 Distribui c ao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.13 Distribui c ao Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . 71
B Alguns Endere cos Interessantes 73
References 75
Captulo 1
Introdu cao
A informa c ao que se tem sobre uma quantidade de interesse e fundamental na
Estatstica. O verdadeiro valor de e desconhecido e a ideia e tentar reduzir este
desconhecimento. Alem disso, a intensidade da incerteza a respeito de pode assu-
mir diferentes graus. Do ponto de vista Bayesiano, estes diferentes graus de incerteza
s ao representados atraves de modelos probabilsticos para . Neste contexto, e na-
tural que diferentes pesquisadores possam ter diferentes graus de incerteza sobre
(especicando modelos distintos). Sendo assim, nao existe nenhuma distin c ao entre
quantidades observ aveis e os par ametros de um modelo estatstico, todos s ao consi-
derados quantidades aleat orias.
1.1 Teorema de Bayes
Considere uma quantidade de interesse desconhecida (tipicamente nao observ avel).
A informa c ao de que dispomos sobre , resumida probabilisticamente atraves de p(),
pode ser aumentada observando-se uma quantidade aleat oria X relacionada com . A
distribui c ao amostral p(x|) dene esta rela c ao. A ideia de que ap os observar X = x a
quantidade de informa c ao sobre aumenta e bastante intuitiva e o teorema de Bayes
e a regra de atualiza c ao utilizada para quanticar este aumento de informa c ao,
p(|x) =
p(, x)
p(x)
=
p(x|)p()
p(x)
=
p(x|)p()
_
p(, x)d
. (1.1)
Note que 1/p(x), que nao depende de , funciona como uma constante normalizadora
de p(|x).
Para um valor xo de x, a fun c ao l(; x) = p(x|) fornece a plausibilidade ou
verossimilhan ca de cada um dos possveis valores de enquanto p() e chamada
distribui c ao a priori de . Estas duas fontes de informa c ao, priori e verossimilhan ca,
s ao combinadas levando `a distribui c ao a posteriori de , p(|x). Assim, a forma usual
do teorema de Bayes e
p(|x) l(; x)p(). (1.2)
1
2 CAP

ITULO 1. INTRODUC

AO
Em palavras temos que
distribui c ao a posteriori verossimilhan ca distribui c ao a priori.
Note que, ao omitir o termo p(x), a igualdade em (1.1) foi substituda por uma
proporcionalidade. Esta forma simplicada do teorema de Bayes ser a util em pro-
blemas que envolvam estima c ao de par ametros ja que o denominador e apenas uma
constante normalizadora. Em outras situa c oes, como sele c ao de modelos, este termo
tem um papel crucial.

E intuitivo tambem que a probabilidade a posteriori de um particular conjunto


de valores de ser a pequena se p() ou l(; x) for pequena para este conjunto. Em
particular, se atribuirmos probabilidade a priori igual a zero para um conjunto de
valores de entao a probabilidade a posteriori ser a zero qualquer que seja a amostra
observada.
A constante normalizadora da posteriori pode ser facilmente recuperada pois
p(|x) = kp(x|)p() onde
k
1
=
_
p(x|)p()d = E

[p(X|)] = p(x)
chamada distribui c ao preditiva. Esta e a distribui c ao esperada para a observa c ao x
dado . Assim,
Antes de observar X podemos checar a adequa c ao da priori fazendo predi c oes
via p(x).
Se X observado recebia pouca probabilidade preditiva entao o modelo deve ser
questionado.
Em muitas aplica c oes (e.g. series temporais e geoestatstica) o maior interesse e
na previs ao do processo em pontos nao observados do tempo ou espa co. Suponha
entao que, ap os observar X = x, estamos interessados na previs ao de uma quanti-
dade Y , tambem relacionada com , e descrita probabilisticamente por p(y|x, ). A
distribui c ao preditiva de Y dado x e obtida por integra c ao como
p(y|x) =
_
p(y, |x)d =
_
p(y|, x)p(|x)d. (1.3)
Em muitos problemas estatsticos a hip otese de independencia condicional entre X e
Y dado est a presente e a distribui c ao preditiva ca
p(y|x) =
_
p(y|)p(|x)d.
Note no entanto que esta nao e uma hip otese razo avel para dados espacialmente
distribuidos aonde estamos admitindo que exista alguma estrutura de correla c ao no
espa co. De qualquer modo, em muitas aplica c oes praticas a integral em (1.3) nao tem
solu c ao analtica e precisara ser obtida por algum metodo de aproxima c ao.
1.1. TEOREMA DE BAYES 3
Note tambem que as previs oes s ao sempre veric aveis uma vez que Y e uma
quantidade observ avel. Finalmente, segue da ultima equa c ao que
p(y|x) = E
|x
[p(Y |)].
Fica claro tambem que os conceitos de priori e posteriori s ao relativos `aquela
observa c ao que est a sendo considerada no momento. Assim, p(|x) e a posteriori de
em rela c ao a X (que ja foi observado) mas e a priori de em rela c ao a Y (que nao
foi observado ainda). Ap os observar Y = y uma nova posteriori (relativa a X = x
e Y = y) e obtida aplicando-se novamente o teorema de Bayes. Mas ser a que esta
posteriori nal depende da ordem em que as observa c oes x e y foram processadas?
Observando-se as quantidades x
1
, x
2
, , x
n
, independentes dado e relacionadas a
atraves de p
i
(x
i
|) segue que
p(|x
1
) l
1
(; x
1
)p()
p(|x
2
, x
1
) l
2
(; x
2
)p(|x
1
)
l
2
(; x
2
)l
1
(; x
1
)p()
.
.
.
.
.
.
p(|x
n
, x
n1
, , x
1
)
_
n

i=1
l
i
(; x
i
)
_
p()
l
n
(; x
n
) p(|x
n1
, , x
1
).
Ou seja, a ordem em que as observa c oes s ao processadas pelo teorema de Bayes e
irrelevante. Na verdade, elas podem ate ser processadas em subgrupos.
Exemplo 1.1 : (Gamerman e Migon, 1993) Um medico, ao examinar uma pessoa,
descona que ela possa ter uma certa doen ca. Baseado na sua experiencia, no seu
conhecimento sobre esta doen ca e nas informa c oes dadas pelo paciente ele assume
que a probabilidade do paciente ter a doen ca e 0,7. Aqui a quantidade de interesse
desconhecida e o indicador de doen ca
=
_
1, se o paciente tem a doen ca
0, se o paciente nao tem a doen ca.
Para aumentar sua quantidade de informa c ao sobre a doen ca o medico aplica um
teste X relacionado com atraves da distribui c ao
P(X = 1 | = 0) = 0, 40 e P(X = 1 | = 1) = 0, 95
e o resultado do teste foi positivo (X = 1).

E bem intuitivo que a probabilidade de doen ca deve ter aumentado ap os este


resultado e a quest ao aqui e quanticar este aumento. Usando o teorema de Bayes
segue que
P( = 1 | X = 1) l( = 1; X = 1)p( = 1) = (0, 95)(0, 7) = 0, 665
4 CAP

ITULO 1. INTRODUC

AO
P( = 0 | X = 1) l( = 0; X = 1)p( = 0) = (0, 40)(0, 3) = 0, 120.
Uma vez que as probabilidades a posteriori somam 1, i.e.
P( = 0 | X = 1) +P( = 1 | X = 1) = 1,
a constante normalizadora e obtida fazendo-se k(0, 665) + k(0, 120) = 1 e entao k =
1/0, 785. Portanto, a distribui c ao a posteriori de e
P( = 1 | X = 1) = 0, 665/0, 785 = 0, 847
P( = 0 | X = 1) = 0, 120/0, 785 = 0, 153.
O aumento na probabilidade de doen ca nao foi muito grande porque a verossimilhan ca
l( = 0; X = 1) tambem era grande (o modelo atribuia uma plausibilidade grande
para = 0 mesmo quando X = 1).
Agora o medico aplica outro teste Y cujo resultado est a relacionado a atraves
da seguinte distribui c ao
P(Y = 1 | = 0) = 0, 04 e P(Y = 1 | = 1) = 0, 99.
Mas antes de observar o resultado deste teste e interessante obter sua distribui c ao
preditiva. Como e uma quantidade discreta segue que
p(y|x) =
1

=0
p(y|)p(|x)
e note que p(|x) e a priori em rela c ao a Y . Assim,
P(Y = 1 | X = 1) = P(Y = 1 | = 0)P( = 0 | X = 1)
+ P(Y = 1 | = 1)P( = 1 | X = 1)
= (0, 04)(0, 153) + (0, 99)(0, 847) = 0, 845
P(Y = 0 | X = 1) = 1 P(Y = 1 | X = 1) = 0, 155.
O resultado deste teste foi negativo (Y = 0). Neste caso, e tambem intuitivo que
a probabilidade de doen ca deve ter diminuido e esta redu c ao ser a quanticada por
uma nova aplica c ao do teorema de Bayes,
P( = 1 | X = 1, Y = 0) l( = 1; Y = 0)P( = 1 | X = 1)
(0, 01)(0, 847) = 0, 0085
P( = 0 | X = 1, Y = 0) l( = 0; Y = 0)P( = 0 | X = 1)
(0, 96)(0, 153) = 0, 1469.
A constante normalizadora e 1/(0,0085+0,1469)=1/0,1554 e assim a distribui c ao a
posteriori de e
P( = 1 | X = 1, Y = 0) = 0, 0085/0, 1554 = 0, 055
1.1. TEOREMA DE BAYES 5
P( = 0 | X = 1, Y = 0) = 0, 1469/0, 1554 = 0, 945.
Verique como a probabilidade de doen ca se alterou ao longo do experimento
P( = 1) =
_

_
0, 7, antes dos testes
0, 847, ap os o teste X
0, 055, ap os X e Y .
Note tambem que o valor observado de Y recebia pouca probabilidade preditiva. Isto
pode levar o medico a repensar o modelo, i.e.,
(i) Ser a que P( = 1) = 0, 7 e uma priori adequada?
(ii) Ser a que as distribui c oes amostrais de X e Y est ao corretas ? O teste X e tao
inexpressivo e Y e realmente tao poderoso?
Exemplo 1.2 : Seja Y Binomial(12, ) e em um experimento observou-se Y = 9.
A fun c ao de verossimilhan ca de e dada por
l() =
_
12
9
_

9
(1 )
3
, (0, 1).
Que distribui c ao poderia ser usada para resumir probabilisticamente nosso conheci-
mento sobre o par ametro ? Note que, como 0 < < 1 queremos que p() = 0 (e
consequentemente p(|y) = 0) fora deste intervalo.
Podemos por exemplo assumir que N(,
2
) truncada no intervalo (0,1).
Neste caso, denotando por f
N
(|,
2
) a fun c ao de densidade da distribui c ao N(,
2
)
segue que a fun c ao de densidade a priori de e dada por
p() =
f
N
(|,
2
)
_
1
0
f
N
(|,
2
)d
.
Na Figura 1.1(a) esta fun c ao de densidade est a representada para alguns valores de
e
2
. Note como informa c oes a priori bastante diferentes podem ser representadas.
Outra possibilidade e atraves de uma reparametriza c ao. Assumindo-se que
N(,
2
) e fazendo a transforma c ao
=
exp()
1 + exp()
a transforma c ao inversa e simplesmente
= log
_

1
_
.
Portanto a densidade a priori de ca
p() = f
N
(()|,
2
)

d
d

= f
N
(()|,
2
)
_
1

2
_
.
6 CAP

ITULO 1. INTRODUC

AO
Na Figura 1.1(b) esta fun c ao de densidade est a representada para alguns valores de
e
2
. Novamente note como informa c oes a priori bastante diferentes podem ser
representadas.
Finalmente, embora existam outras possibilidades, vamos atribuir uma distri-
bui c ao a priori Beta(a, b) i.e. (ver Apendice A),
p()
a1
(1 )
b1
, a, b > 0, (0, 1).
Esta distribui c ao e simetrica em torno de 0,5 quando a = b e assimetrica quando
a = b. Variando os valores de a e b podemos denir uma rica famlia de distribui c oes
a priori para . Algumas possibilidades est ao representadas na Figura 1.1(c).
Um outro resultado importante ocorre quando se tem uma unica observa c ao da
distribui c ao normal com media desconhecida. Se a media tiver priori normal entao
os par ametros da posteriori s ao obtidos de uma forma bastante intuitiva como visto
no teorema a seguir.
Teorema 1.1 Se X| N(,
2
) sendo
2
conhecido e N(
0
,
2
0
) ent ao
|x N(
1
,
2
1
) onde

1
=

2
0

0
+
2
x

2
0
+
2
e
2
1
=
2
0
+
2
.
Note que, denindo precis ao como o inverso da vari ancia, segue do teorema que
a precis ao a posteriori e a soma das precis oes a priori e da verossimilhan ca e nao
depende de x. Interpretando precis ao como uma medida de informa c ao e denindo
w =
2
0
/(
2
0
+
2
) (0, 1) entao w mede a informa c ao relativa contida na priori
com respeito `a informa c ao total. Podemos escrever entao que

1
= w
0
+ (1 w)x
ou seja,
1
e uma combina c ao linear convexa de
0
e x e portanto
min{
0
, x}
1
max{
0
, x}.
A distribui c ao preditiva de X tambem e facilmente obtida notando que podemos
reescrever as informa c oes na forma de equa c oes com erros nao correlacionados. Assim,
X = +, N(0,
2
)
=
0
+w, w N(0,
2
0
)
tal que Cov(, ) = Cov(, w) = 0. Portanto a distribui c ao (incondicional) de X e
normal pois ele resulta de uma soma de vari aveis aleat orias com distribui c ao normal.
Alem disso,
E(X) = E() +E() =
0
V ar(X) = V ar() +V ar() =
2
0
+
2
1.1. TEOREMA DE BAYES 7
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0

p
(

)
N(0.5,0.5)
N(0,0.5)
N(1,0.5)
N(2,0.5)
(a)
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4

p
(

)
N(1,0.5)
N(1,1)
N(0,4)
(b)
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4
5

p
(

)
Beta(1.5,4)
Beta(2,0.5)
Beta(7,1.5)
Beta(3,3)
(c)
Figura 1.1: Densidades a priori para o par ametro no Exemplo 1.2. (a) Normal truncada,
(b) transforma c ao logstica e (c) Beta(a, b).
8 CAP

ITULO 1. INTRODUC

AO
Conclus ao, X N(
0
,
2
0
+
2
).
Exemplo 1.3 : (Box & Tiao, 1992) Os fsicos A e B desejam determinar uma cons-
tante fsica . O fsico A tem mais experiencia nesta area e especica sua priori como
N(900, 20
2
). O fsico B tem pouca experiencia e especica uma priori muito mais
incerta em rela c ao `a posi c ao de , N(800, 80
2
). Assim, nao e difcil vericar que
para o fsico A: P(860 < < 940) 0, 95
para o fsico B: P(640 < < 960) 0, 95.
Faz-se entao uma medi c ao X de em laborat orio com um aparelho calibrado com
distribui c ao amostral X| N(, 40
2
) e observou-se X = 850. Aplicando o teorema
1.1 segue que
(|X = 850) N(890, 17, 9
2
) para o fsico A
(|X = 850) N(840, 35, 7
2
) para o fsico B.
Note tambem que os aumentos nas precis oes a posteriori em rela c ao `as precis oes
a priori foram,
para o fsico A: precis ao() passou de
2
0
= 0, 0025 para
2
1
= 0, 00312 (au-
mento de 25%).
para o fsico B: precis ao() passou de
2
0
= 0, 000156 para
2
1
= 0, 000781
(aumento de 400%).
A situa c ao est a representada gracamente na Figura 1.2 a seguir. Note como a
distribui c ao a posteriori representa um compromisso entre a distribui c ao a priori e a
verossimilhan ca. Alem disso, como as incertezas iniciais s ao bem diferentes o mesmo
experimento fornece muito pouca informa c ao adicional para o fsico A enquanto que
a incerteza do fsico B foi bastante reduzida. Os comandos do R abaixo podem ser
usados nos c alculos.
norm.norm=function(x,mu0,tau0,s0){
precisao = 1/tau0 + length(x)/s0
tau1 = 1/precisao
w = (1/tau0)/precisao
mu1 = w*mu0 + (1-w)*mean(x)
return(list(m=mu1,tau=tau1))
}
1.2 Princpio da Verossimilhanca
O exemplo a seguir (DeGroot, 1970, paginas 165 e 166) ilustra esta propriedade.
Imagine que cada item de uma popula c ao de itens manufaturados pode ser classicado
como defeituoso ou nao defeituoso. A propor c ao de itens defeituosos na popula c ao e
desconhecida e uma amostra de itens ser a selecionada de acordo com um dos seguintes
metodos:
1.3. EXERC

ICIOS 9
Figura 1.2: Densidades a priori e a posteriori e fun c ao de verossimilhan ca para o Exemplo
1.3.
700 750 800 850 900 950 1000
0
.
0
0
0
0
.
0
0
5
0
.
0
1
0
0
.
0
1
5
0
.
0
2
0

priori
posteriori
verossimilhanca
Fisico A
Fisico B
(i) n itens ser ao selecionados ao acaso.
(ii) Itens ser ao selecionados ao acaso ate que y defeituosos sejam obtidos.
(iii) Itens ser ao selecionados ao acaso ate que o inspetor seja chamado para resolver
um outro problema.
(iv) Itens ser ao selecionados ao acaso ate que o inspetor decida que ja acumulou
informa c ao suciente sobre .
Qualquer que tenha sido o esquema amostral, se foram inspecionados n itens
x
1
, , x
n
dos quais y eram defeituosos entao
l(; x)
y
(1 )
ny
.
O Princpio da Verossimilhan ca postula que para fazer inferencia sobre uma quan-
tidade de interesse s o importa aquilo que foi realmente observado e nao aquilo que
poderia ter ocorrido mas efetivamente nao ocorreu.
1.3 Exerccios
1. No Exemplo 1.3, obtenha tambem a distribui c ao preditiva de X e compare o
valor observado com a media desta preditiva para os 2 fsicos. Fa ca uma previs ao
para uma 2
a
medi c ao Y feita com o mesmo aparelho.
10 CAP

ITULO 1. INTRODUC

AO
2. Uma m aquina produz 5% de itens defeituosos. Cada item produzido passa por
um teste de qualidade que o classica como bom , defeituoso ou suspeito
. Este teste classica 20% dos itens defeituosos como bons e 30% como sus-
peitos. Ele tambem classica 15% dos itens bons como defeituosos e 25% como
suspeitos.
(a) Que propor c ao dos itens ser ao classicados como suspeitos ?
(b) Qual a probabilidade de um item classicado como suspeito ser defeituoso
?
(c) Outro teste, que classica 95% dos itens defeituosos e 1% dos itens bons
como defeituosos, e aplicado somente aos itens suspeitos.
(d) Que propor c ao de itens ter ao a suspeita de defeito conrmada ?
(e) Qual a probabilidade de um item reprovado neste 2
o
teste ser defeituoso ?
3. Uma empresa de credito precisa saber como a inadimplencia est a distribuda
entre seus clentes. Sabe-se que um cliente pode pertencer `as classes A, B, C
ou D com probabilidades 0,50, 0,20, 0,20 e 0,10 respectivamente. Um cliente
da classe A tem probabilidade 0,30 de estar inadimplente, um da classe B tem
probabilidade 0,10 de estar inadimplente, um da classe C tem probabilidade
0,05 de estar inadimplente e um da classe D tem probabilidade 0,05 de estar
inadimplente. Um cliente e sorteado aleatoriamente.
(a) Dena os eventos e enumere as probabilidades fornecidas no problema.
(b) Qual a probabilidade dele estar inadimplente ?
(c) Sabendo que ele est a inadimplente, qual a sua classe mais prov avel?
4. Suponha que seus dados x
1
, . . . , x
n
s ao processados sequencialmente, i.e. x
1
e
observado antes de x
2
e assim por diante. Escreva um programa que aplica
o Teorema 1.1 obtendo a media e a vari ancia a posteriori dado x
1
, use esta
distribui c ao como priori para obter a media e a vari ancia a posteriori dados
x
1
, x
2
e repita o procedimento sequencialmente ate obter a posteriori dados
x
1
, . . . , x
n
. Fa ca um gr aco com as medias a posteriori mais ou menos 2 desvios
padr ao a posteriori.
Captulo 2
Distribui coes a Priori
A utiliza c ao de informa c ao a priori em inferencia Bayesiana requer a especica c ao de
uma distribui c ao a priori para a quantidade de interesse . Esta distribui c ao deve re-
presentar (probabilisticamente) o conhecimento que se tem sobre antes da realiza c ao
do experimento. Neste captulo ser ao discutidas diferentes formas de especica c ao da
distribui c ao a priori.
2.1 Prioris Conjugadas
A partir do conhecimento que se tem sobre , pode-se denir uma famlia parametrica
de densidades. Neste caso, a distribui c ao a priori e representada por uma forma
funcional, cujos par ametros devem ser especicados de acordo com este conhecimento.
Estes par ametros indexadores da famlia de distribui c oes a priori s ao chamados de
hiperpar ametros para distingui-los dos par ametros de interesse .
Esta abordagem em geral facilita a an alise e o caso mais importante e o de pri-
oris conjugadas. A ideia e que as distribui c oes a priori e a posteriori perten cam a
mesma classe de distribui c oes e assim a atualiza c ao do conhecimento que se tem de
envolve apenas uma mudan ca nos hiperpar ametros. Neste caso, o aspecto sequencial
do metodo Bayesiano pode ser explorado denindo-se apenas a regra de atualiza c ao
dos hiperpar ametros ja que as distribui c oes permanecem as mesmas.
Deni cao 2.1 Se F = {p(x|), } e uma classe de distribui c oes amostrais ent ao
uma classe de distribui c oes P e conjugada a F se
p(x|) F e p() P p(|x) P.
Gamerman (1996, 1997 Cap. 2) alerta para o cuidado com a utiliza c ao indiscri-
minada de prioris conjugadas. Essencialmente, o problema e que a priori conjugada
nem sempre e uma representa c ao adequada da incerteza a priori. Sua utiliza c ao est a
muitas vezes associada `a tratabilidade analtica decorrente.
Uma vez entendidas suas vantagens e desvantagens a quest ao que se coloca agora
e como obter uma famlia de distribui c oes conjugadas.
11
12 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
(i) Identique a classe P de distribui c oes para tal que l(; x) seja proporcional a
um membro desta classe.
(ii) Verique se P e fechada por amostragem, i.e., se p
1
, p
2
P k tal que
kp
1
p
2
P.
Se, alem disso, existe uma constante k tal que k
1
=
_
l(; x)d < e todo
p P e denido como p() = k l(; x) entao P e a famlia conjugada natural ao
modelo amostral gerador de l(; x).
Exemplo 2.1 : Sejam X
1
, . . . , X
n
Bernoulli(). Entao a densidade amostral
conjunta e
p(x|) =
t
(1 )
nt
, 0 < < 1 onde t =
n

i=1
x
i
e pelo teorema de Bayes segue que
p(|x)
t
(1 )
nt
p().
Note que l(; x) e proporcional `a densidade de uma distribui c ao
Beta(t + 1, n t + 1). Alem disso, se p
1
e p
2
s ao as densidades das distribui c oes
Beta(a
1
, b
1
) e Beta(a
2
, b
2
) entao
p
1
p
2

a
1
+a
2
2
(1 )
b
1
+b
2
2
,
ou seja p
1
p
2
e proporcional a densidade da distribui c ao Beta(a
1
+a
2
1, b
1
+b
2
1).
Conclui-se que a famlia de distribui c oes Beta com par ametros inteiros e conjugada
natural `a famlia Bernoulli. Na pratica esta classe pode ser ampliada para incluir
todas as distribui c oes Beta, i.e. incluindo todos os valores positivos dos par ametros.
2.2 Conjugacao na Famlia Exponencial
A famlia exponencial inclui muitas das distribui c oes de probabilidade mais comu-
mente utilizadas em Estatstica, tanto contnuas quanto discretas. Uma caracterstica
essencial desta famlia e que existe uma estatstica suciente com dimens ao xa. Ve-
remos adiante que a classe conjugada de distribui c oes e muito facil de caracterizar.
Deni cao 2.2 A famlia de distribui c oes com fun c ao de (densidade) de probabilidade
p(x|) pertence ` a famlia exponencial a um par ametro se podemos escrever
p(x|) = a(x) exp{u(x)() +b()}.
Note que pelo criterio de fatora c ao de Neyman U(x) e uma estatstica suciente para
.
Neste caso, a classe conjugada e facilmente identicada como,
p() = k(, ) exp{() +b()}.
2.2. CONJUGAC

AO NA FAM

ILIA EXPONENCIAL 13
e aplicando o teorema de Bayes segue que
p(|x) = k( +u(x), + 1) exp{[ +u(x)]() + [ + 1]b()}.
Agora, usando a constante k, a distribui c ao preditiva pode ser facilmente obtida sem
necessidade de qualquer integra c ao. A partir da equa c ao p(x)p(|x) = p(x|)p() e
ap os alguma simplica c ao segue que
p(x) =
p(x|)p()
p(|x)
=
a(x)k(, )
k( +u(x), + 1)
.
Exemplo 2.2 : Uma estens ao direta do Exemplo 2.1 e o modelo binomial, i.e. X|
Binomial(n, ). Neste caso,
p(x|) =
_
n
x
_
exp
_
xlog
_

1
_
+nlog(1 )
_
e a famlia conjugada natural e Beta(r, s). Podemos escrever entao
p()
r1
(1 )
s1
exp
_
(r 1) log
_

1
_
+
_
s +r 2
n
_
nlog(1 )
_
exp {() +b()} .
A posteriori tambem e Beta com par ametros +x e +1 ou equivalentemente r +x
e s +n x, i.e.
p(|x) exp
_
(r +x 1)() +
_
s +r 2 +n
n
_
b()
_

r+x1
(1 )
s+nx1
.
Como ilustra c ao, no Exemplo 2.2 suponha que n = 12, X = 9 e usamos prioris conju-
gadas Beta(1,1), Beta(2,2) e Beta(1,3). As fun c oes de densidade desta distribui c oes
juntamente com a fun c ao de verossimilhan ca normalizada e as respectivas densidades
a posteriori est ao na Figura 2.1. A distribui c ao preditiva e dada por
p(x) =
_
n
x
_
B(r +x, s +n x)
B(r, s)
, x = 0, 1, . . . , n, n 1,
onde B
1
e a constante normalizadora da distribui c ao Beta, i.e. (ver Apendice A)
B
1
(a, b) =
(a +b)
(a)(b)
.
Esta distribui c ao e denominada Beta-Binomial.
No Exemplo 2.2 suponha novamente que n = 12, X = 9 e usamos as prioris conju-
gadas Beta(1,1), Beta(2,2) e Beta(1,3). Na Tabela 2.1 est ao listadas as probabilidades
preditivas P(X = k) associadas a estas prioris. Os comandos do R a seguir podem
ser usados no c alculo destas probabilidades.
14 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Figura 2.1: Densidades a priori, a posteriori e fun c ao de verossimilhan ca normalizada para
o Exemplo 2.2.
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0

veross
priori
posteriori
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0

veross
priori
posteriori
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0

veross
priori
posteriori
2.2. CONJUGAC

AO NA FAM

ILIA EXPONENCIAL 15
beta.binomial= function(n,a,b) {
m = matrix(0,n+1,2)
m[,1]= 0:n
for (x in 0:n)
m[x,2]=round(choose(n,x)*beta(a+x,b+n-x)/beta(a,b),4)
return(list(m=m))
}
Tabela 2.1: Probabilidades preditivas da Beta-Binomial para o Exemplo 2.2
k Beta(1,1) Beta(2,2) Beta(1,3)
0 0.0769 0.0527 0.1714
1 0.0769 0.0725 0.1451
2 0.0769 0.0879 0.1209
3 0.0769 0.0989 0.0989
4 0.0769 0.1055 0.0791
5 0.0769 0.1077 0.0615
6 0.0769 0.1055 0.0462
7 0.0769 0.0989 0.0330
8 0.0769 0.0879 0.0220
9 0.0769 0.0725 0.0132
10 0.0769 0.0527 0.0066
11 0.0769 0.0286 0.0022
12 0.0000 0.0000 0.0000
No caso geral em que se tem uma amostra X
1
, . . . , X
n
da famlia exponencial a na-
tureza sequencial do teorema de Bayes permite que a an alise seja feita por replica c oes
sucessivas. Assim a cada observa c ao x
i
os par ametros da distribui c ao a posteriori s ao
atualizados via

i
=
i1
+u(x
i
)

i
=
i1
+ 1
com
0
= e
0
= . Ap os n observa c oes temos que

n
= +
n

i=1
u(x
i
)

n
= +n
e a distribui c ao preditiva e dada por
p(x) =
_
n

i=1
a(x
i
)
_
k(, )
k( +

u(x
i
), +n)
.
16 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Finalmente, a deni c ao de famlia exponencial pode ser extendida ao caso multi-
parametrico, i.e.
p(x|) =
_
n

i=1
a(x
i
)
_
exp
_
_
_
r

j=1
_
n

i=1
u
j
(x
i
)
_

j
() +nb()
_
_
_
onde = (
1
, . . . ,
r
). Neste caso, pelo criterio de fatora c ao, temos que

U
1
(x
i
), . . . ,

U
r
(x
i
) e uma estatstica conjuntamente suciente para o vetor de
par ametros .
2.3 Principais Famlias Conjugadas
Ja vimos que a famlia de distribui c oes Beta e conjugada ao modelo Bernoulli e
binomial. N ao e difcil mostrar que o mesmo vale para as distribui c oes amostrais
geometrica e binomial-negativa (ver Exerccio 1). A seguir veremos resultados para
outros membros importantes da famlia exponencial.
2.3.1 Distribui cao normal com variancia conhecida
Para uma unica observa c ao vimos pelo Teorema 1.1 que a famlia de distribui c oes
normais e conjugada ao modelo normal. Para uma amostra de tamanho n, a fun c ao
de verssimilhan ca pode ser escrita como
l(; x) = (2
2
)
n/2
exp
_

1
2
2
n

i=1
(x
i
)
2
_
exp
_

n
2
2
(x )
2
_
onde os termos que nao dependem de foram incorporados `a constante de proporcio-
nalidade. Portanto, a verossimilhan ca tem a mesma forma daquela baseada em uma
unica observa c ao bastando substituir x por x e
2
por
2
/n. Logo vale o Teorema 1.1
com as devidas substitui c oes, i.e. a distribui c ao a posteriori de dado x e N(
1
,
2
1
)
onde

1
=

2
0

0
+n
2
x

2
0
+n
2
e
2
1
=
2
0
+n
2
.
Note que a media a posteriori pode ser reescrita como w
0
+ (1 w)x sendo w =

2
0
/(
2
0
+n
2
).
Uma fun c ao geral pode ser escrita no R para calcular estes par ametros e opcio-
nalmente fazer os gr acos das densidades.
2.3. PRINCIPAIS FAM

ILIAS CONJUGADAS 17
norm.norm = function(x,sigma,mu0,tau0,plot=F){
n = length(x)
xbar = mean(x)
ep = sigma/sqrt(n)
sigma2 = sigma**2
precisao = n*(1/sigma2)+(1/tau0)
mu1 = (n*(1/sigma2)*xbar+(1/tau0)*mu0)/precisao
if (plot) {
curve(dnorm(x,xbar,ep),xbar-3*ep,xbar+3*ep)
curve(dnorm(x,mu0,sqrt(tau0)),add=T,col=2)
curve(dnorm(x,mu1,1/sqrt(precisao)),add=T,col=3)
}
}
2.3.2 Distribui cao de Poisson
Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao de Poisson com par ametro .
Sua fun c ao de probabilidade conjunta e dada por
p(x|) =
e
n

x
i
!
e
n

t
, > 0, t =
n

i=1
x
i
.
O n ucleo da verossimilhan ca e da forma
a
e
b
que caracteriza a famlia de distri-
bui c oes Gama que e fechada por amostragem. Assim, a priori conjugada natural de
e Gama com par ametros positivos e , i.e.
p()
1
e

, , > 0 > 0.
A densidade a posteriori ca
p(|x)
+t1
exp {( +n)}
que corresponde `a densidade Gama( +t, +n). A distribui c ao preditiva tambem e
facilmente obtida pois
p(x|) =
_
n

i=1
1
x
i
!
_
exp {t log n}
e portanto
p(x) =
_
n

i=1
1
x
i
!
_

()
( +t)
( +n)
+t
.
Para uma unica observa c ao x segue entao que
p(x) =
1
x!

( +x)
() ( + 1)
+x
=
1
x!
_

+ 1
_

_
1
+ 1
_
x
( +x 1)!
( 1)!
=
_
+x 1
x
__

+ 1
_

_
1
+ 1
_
x
.
18 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Esta distribui c ao e chamada de Binomial-Negativa com par ametros e e sua media
e vari ancia s ao facilmente obtidos como
E(X) = E[E(X|)] = E() = /
V ar(X) = E[V ar(X|)] +V ar[E(X|)] = E() +V ar() =
( + 1)

2
.
2.3.3 Distribui cao multinomial
Denotando por X = (X
1
, . . . , X
p
) o n umero de ocorrencias em cada uma de p catego-
rias em n ensaios independentes, e por = (
1
, . . . ,
p
) as probabilidades associadas
deseja-se fazer inferencia sobre estes p par ametros. No entanto, note que existem
efetivamente k 1 par ametros ja que temos a seguinte restri c ao

p
i=1

i
= 1. Alem
disso, a restri c ao

p
i=1
X
i
= n obviamente tambem se aplica. Dizemos que X tem
distribui c ao multinomial com par ametros n e e fun c ao de probabilidade conjunta
das p contagens X e dada por
p(x|) =
n!

p
i=1
x
i
!
p

i=1

x
i
i
.
Note que esta e uma generaliza c ao da distribui c ao binomial que apenas duas catego-
rias. N ao e difcil mostrar que esta distribui c ao tambem pertence `a famlia exponen-
cial. A fun c ao de verossimilhan ca para e
l(; x)
p

i=1

x
i
i
que tem o mesmo n ucleo da fun c ao de densidade de uma distribui c ao de Dirichlet. A
famlia Dirichlet com par ametros inteiros a
1
, . . . , a
p
e a conjugada natural do modelo
multinomial, porem na pratica a conjuga c ao e extendida para par ametros nao inteiros.
A distribui c ao a posteriori e dada por
p(|x)
p

i=1

x
i
i
p

i=1

a
i
1
i
=
p

i=1

x
i
+a
i
1
i
.
Note que estamos generalizando a an alise conjugada para amostras binomiais com
priori beta.
2.3.4 Distribui cao normal com media conhecida e variancia desco-
nhecida
Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao N(,
2
), com conhecido e
=
2
desconhecido. Neste caso a fun c ao de densidade conjunta e dada por
p(x|, )
n/2
exp{

2
n

i=1
(x
i
)
2
}.
2.3. PRINCIPAIS FAM

ILIAS CONJUGADAS 19
Note que o n ucleo desta verossimilhan ca tem a mesma forma daquele de uma
distribui c ao Gama. Como sabemos que a famlia Gama e fechada por amostragem
podemos considerar uma distribui c ao a priori Gama com par ametros n
0
/2 e n
0

2
0
/2,
i.e.
Gama
_
n
0
2
,
n
0

2
0
2
_
.
Equivalentemente, podemos atribuir uma distribui c ao a priori qui-quadrado com n
0
graus de liberdade para n
0

2
0
. A forma funcional dos par ametros da distribui c ao a
priori e apenas uma conveniencia matem atica como veremos a seguir.
Denindo ns
2
0
=

n
i=1
(x
i
)
2
e aplicando o teorema de Bayes obtemos a distri-
bui c ao a posteriori de ,
p(|x)
n/2
exp
_

2
ns
2
0
_

n
0
/21
exp
_

2
n
0

2
0
_
=
(n
0
+n)/21
exp
_

2
(n
0

2
0
+ns
2
0
)
_
.
Note que esta expressao corresponde ao n ucleo da distribui c ao Gama, como era
esperado devido `a conjuga c ao. Portanto,
|x Gama
_
n
0
+n
2
,
n
0

2
0
+ns
2
0
2
_
.
Equivalentemente podemos dizer que (n
0

2
0
+ns
2
0
) | x
2
n
0
+n
.
2.3.5 Distribui cao normal com media e variancia desconhecidos
Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao N(,
2
), com ambos e
2
desconhecidos. Neste caso a distribui c ao a priori conjugada ser a especicada em dois
est agios. No primeiro est agio,
| N(
0
, (c
0
)
1
), =
2
e a distribui c ao a priori marginal de e a mesma do caso anterior, i.e.
Gama
_
n
0
2
,
n
0

2
0
2
_
.
A distribui c ao conjunta de (, ) e geralmente chamada de Normal-Gama com par ametros
(
0
, c
0
, n
0
,
2
0
) e sua fun c ao de densidade conjunta e dada por,
p(, ) = p(|)p()

1/2
exp
_

c
0

2
(
0
)
2
_

n
0
/21
exp
_

n
0

2
0

2
_
=
(n
0
+1)/21
exp
_

2
(n
0

2
0
+c
0
(
0
)
2
)
_
.
20 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
A partir desta densidade conjunta podemos obter a distribui c ao marginal de por
integra c ao
p() =
_
p(|)p()d

_

0

1/2
exp
_

c
0

2
(
0
)
2
_

n
0
/21
exp
_

n
0

2
0
2

_
d

_

0

(n
0
+1)/21
exp
_

2
[n
0

2
0
+c
0
(
0
)
2
]
_
d

_
n
0

2
0
+c
0
(
0
)
2
2
_

n
0
+1
2

_
1 +
(
0
)
2
n
0
(
2
0
/c
0
)
_

n
0
+1
2
,
que e o n ucleo da distribui c ao t de Student com n
0
graus de liberdade, par ametro
de loca c ao
0
e par ametro de escala
2
0
/c
0
(ver Apendice A). Denotamos
t
n
0
(
0
,
2
0
/c
0
). A distribui c ao condicional de dado tambem e facilmente obtida
como
p(|) p(|)p()

(n
0
+1)/21
exp
_

2
[n
0

2
0
+c
0
(
0
)
2
]
_
,
e portanto,
| Gama
_
n
0
+ 1
2
,
n
0

2
0
+c
0
(
0
)
2
2
_
.
A posteriori conjunta de (, ) tambeme obtida em 2 etapas como segue. Primeiro,
para xo podemos usar o resultado da Se c ao 2.3.1 de modo que a distribui c ao a
posteriori de dado ca
|, x N(
1
, (c
1
)
1
)
onde

1
=
c
0

0
+nx
c
0
+n
=
c
0

0
+nx
c
0
+n
e c
1
= c
0
+n.
Na segunda etapa, combinando a verossimilhan ca com a priori de obtemos que
|x Gama
_
n
1
2
,
n
1

2
1
2
_
onde
n
1
= n
0
+n e n
1

2
1
= n
0

2
0
+

(x
i
x)
2
+c
0
n(
0
x)
2
/(c
0
+n).
Equivalentemente, podemos escrever a posteriori de como n
1

2
1

2
n
1
. Assim, a
posteriori conjunta e (, |x) Normal-Gama(
1
, c
1
, n
1
,
2
1
) e portanto a posteriori
marginal de ca
| x t
n
1
(
1
,
2
1
/c
1
).
Em muitas situa c oes e mais facil pensar em termos de algumas caractersticas da
distribui c ao a priori do que em termos de seus hiperpar ametros. Por exemplo, se
E() = 2, V ar() = 5, E() = 3 e V ar() = 3 entao
2.4. PRIORI N

AO INFORMATIVA 21
(i)
0
= 2 pois E() =
0
.
(ii)
2
0
= 1/3 pois E() = 1/
2
0
.
(iii) n
0
= 6 pois V ar() = 2/(n
0

4
0
) = 18/n
0
.
(iv) c
0
= 1/10 pois V ar() =
_
n
0
n
0
2
_

2
0
c
0
=
1
2c
0
2.4 Priori nao Informativa
Esta se c ao refere-se a especica c ao de distribui c oes a priori quando se espera que a
informa c ao dos dados seja dominante, no sentido de que a nossa informa c ao a priori
e vaga. Os conceitos de conhecimento vago, n ao informa c ao, ou ignor ancia
a priori claramente nao s ao unicos e o problema de caracterizar prioris com tais
caractersticas pode se tornar bastante complexo.
Por outro lado, reconhece-se a necessidade de alguma forma de an alise que, em
algum sentido, consiga captar esta no c ao de uma priori que tenha um efeito mnimo,
relativamente aos dados, na inferencia nal. Tal an alise pode ser pensada como um
ponto de partida quando nao se consegue fazer uma elicita c ao detalhada do verda-
deiro conhecimento a priori. Neste sentido, ser ao apresentadas aqui algumas formas
de como fazer enquanto discuss oes mais detalhadas s ao encontradas em Berger
(1985), Box e Tiao (1992), Bernardo e Smith (1994) e OHagan (1994).
A primeira ideia de n ao informa c ao a priori que se pode ter e pensar em todos
os possveis valores de como igualmente prov aveis, i.e. com uma distribui c ao a
priori uniforme. Neste caso, fazendo p() k para variando em um subconjunto
da reta signica que nenhum valor particular tem preferencia (Bayes, 1763). Porem
esta escolha de priori pode trazer algumas diculdades tecnicas,
(i) Se o intervalo de varia c ao de for ilimitado entao a distribui c ao a priori e
impropria, i.e.
_
p()d = .
(ii) Se = g() e uma reparametriza c ao nao linear mon otona de entao p() e nao
uniforme ja que pelo teorema de transforma c ao de vari aveis
p() = p(())

d
d

d
d

.
Na pratica, como estaremos interessados na distribui c ao a posteriori nao daremos
muita import ancia `a impropriedade da distribui c ao a priori. No entanto devemos
sempre nos certicar de que a posterior e propria antes de fazer qualquer inferencia.
A classe de prioris nao informativas proposta por Jereys (1961) e invariante a
transforma c oes 1 a 1, embora em geral seja impropria e ser a denida a seguir. Antes
porem precisamos da deni c ao da medida de informa c ao de Fisher.
22 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Deni cao 2.3 Considere uma unica observac ao X com fun c ao de (densidade) de
probabilidade p(x|). A medida de informa c ao esperada de Fisher de atraves de X
e denida como
I() = E
_

2
log p(x|)

2
_
Se for um vetor parametrico dene-se ent ao a matriz de informa c ao esperada de
Fisher de atraves de X como
I() = E
_

2
log p(x|)

_
.
Note que o conceito de informa c ao aqui est a sendo associado a uma especie de
curvatura media da fun c ao de verossimilhan ca no sentido de que quanto maior a cur-
vatura mais precisa e a informa c ao contida na verossimilhan ca, ou equivalentemente
maior o valor de I(). Em geral espera-se que a curvatura seja negativa e por isso
seu valor e tomado com sinal trocado. Note tambem que a esperan ca matem atica e
tomada em rela c ao `a distribui c ao amostral p(x|).
Podemos considerar entao I() uma medida de informa c ao global enquanto que
uma medida de informa c ao local e obtida quando nao se toma o valor esperado na
deni c ao acima. A medida de informa c ao observada de Fisher J() ca entao denida
como
J() =

2
log p(x|)

2
e que ser a utilizada mais adiante quando falarmos sobre estima c ao.
Deni cao 2.4 Seja uma observac ao X com fun c ao de (densidade) de probabilidade
p(x|). A priori n ao informativa de Jereys tem fun c ao de densidade dada por
p() [I()]
1/2
.
Se for um vetor parametrico ent ao p() | det I()|
1/2
.
Exemplo 2.3 : Seja X
1
, . . . , X
n
Poisson(). Entao o logaritmo da fun c ao de
probabilidade conjunta e dado por
log p(x|) = n +
n

i=1
x
i
log log
n

i=1
x
i
!
e tomando-se a segunda derivada segue que

2
log p(x|)

2
=

_
n +

n
i=1
x
i

_
=

n
i=1
x
i

2
e assim,
I() =
1

2
E
_
n

i=1
x
i
_
= n/
1
.
2.4. PRIORI N

AO INFORMATIVA 23
Portanto, a priori nao informativa de Jereys para no modelo Poisson e p()
1/2
.
Note que esta priori e obtida tomando-se a conjugada natural Gama(, ) e fazendo-se
= 1/2 e 0.
Em geral a priori nao informativa e obtida fazendo-se o par ametro de escala da
distribui c ao conjugada tender a zero e xando-se os demais par ametros conveniente-
mente. Alem disso, a priori de Jereys assume formas especcas em alguns modelos
que s ao frequentemente utilizados como veremos a seguir.
Deni cao 2.5 X tem um modelo de locac ao se existem uma fun c ao f e uma quanti-
dade tais que p(x|) = f(x). Neste caso e chamado de par ametro de locac ao.
A deni c ao vale tambem quando e um vetor de par ametros. Alguns exemplos
importantes s ao a distribui c ao normal com vari ancia conhecida, e a distribui c ao nor-
mal multivariada com matriz de vari ancia-covari ancia conhecida. Pode-se mostrar
que para o modelo de loca c ao a priori de Jereys e dada por p() constante.
Deni cao 2.6 X tem um modelo de escala se existem uma fun c ao f e uma quan-
tidade tais que p(x|) = (1/)f(x/). Neste caso e chamado de par ametro de
escala.
Alguns exemplos s ao a distribui c ao exponencial com par ametro , com par ametro
de escala = 1/, e a distribui c ao N(,
2
) com media conhecida e escala . Pode-se
mostrar que para o modelo de escala a priori de Jereys e dada por p()
1
.
Deni cao 2.7 X tem um modelo de locac ao e escala se existem uma fun c ao f e as
quantidades e tais que
p(x|, ) =
1

f
_
x

_
.
Neste caso e chamado de par ametro de locac ao e de par ametro de escala.
Alguns exemplos s ao a distribui c ao normal (uni e multivariada) e a distribui c ao
de Cauchy. Em modelos de loca c ao e escala, a priori nao informativa pode ser obtida
assumindo-se independencia a priori entre e de modo que p(, ) = p()p()

1
.
Exemplo 2.4 : Seja X
1
, . . . , X
n
N(,
2
) com e
2
desconhecidos. Neste caso,
p(x|,
2
)
1

exp
_

1
2
_
x

_
2
_
,
portanto (, ) e par ametro de loca c ao-escala e p(, )
1
e a priori nao informa-
tiva. Entao, pela propriedade da invari ancia, a priori n ao informativa para (,
2
) no
modelo normal e p(,
2
)
2
.
Vale notar entretanto que a priori nao informativa de Jereys viola o princpio da
verossimilhan ca, ja que a informa c ao de Fisher depende da distribui c ao amostral.
24 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
2.5 Prioris Hierarquicas
A ideia aqui e dividir a especica c ao da distribui c ao a priori em est agios. Alem de
facilitar a especica c ao esta abordagem e natural em determinadas situa c oes experi-
mentais.
A distribui c ao a priori de depende dos valores dos hiperpar ametros e podemos
escrever p(|) ao inves de p(). Alem disso, ao inves de xar valores para os hiper-
par ametros podemos especicar uma distribui c ao a priori p() completando assim o
segundo est agio na hierarquia. Assim, a distribui c ao a priori conjunta e simplesmente
p(, ) = p(|)p() e a distribui c ao a priori marginal de pode ser entao obtida por
integra c ao como
p() =
_
p(, )d =
_
p(|)p()d.
A distribui c ao a posteriori conjunta ca
p(, |x) p(x|, )p(|)p() p(x|)p(|)p()
pois a distribui c ao dos dados depende somente de . Em outras palavras, dado , x
e s ao independentes.
Exemplo 2.5 : Sejam X
1
, . . . , X
n
tais que X
i
N(
i
,
2
) com
2
conhecido e quere-
mos especicar uma distribui c ao a priori para o vetor de par ametros = (
1
, . . . ,
n
).
Suponha que no primeiro est agio assumimos que
i
N(,
2
), i = 1, . . . , n. Neste
caso, se xarmos o valor de
2
=
2
0
e assumirmos que tem distribui c ao normal
entao ter a distribui c ao normal multivariada. Por outro lado, xando um valor para
=
0
e assumindo que
2
tem distribui c ao Gama implicar a em uma distribui c ao t
de Student multivariada para .
Teoricamente, nao ha limita c ao quanto ao n umero de est agios, mas devido `as
complexidades resultantes as prioris hierarquicas s ao especicadas em geral em 2 ou
3 est agios. Alem disso, devido `a diculdade de interpreta c ao dos hiperpar ametros
em est agios mais altos e pratica comum especicar prioris nao informativas para este
nveis.
Uma aplica c ao interessante do conceito de hierarquia e quando a informa c ao a
priori disponvel s o pode ser convenientemente resumida atraves de uma mistura de
distribui c oes. Isto implica em considerar uma distribui c ao discreta para de modo
que, se assume os possveis valores
1
, . . . ,
k
entao
p() =
k

i=1
p(|
i
)p(
i
).
N ao e difcil vericar que a distribui c ao a posteriori de e tambem uma mistura com
2.5. PRIORIS HIER

ARQUICAS 25
veremos a seguir. Aplicando o teorema de Bayes temos que,
p(|x) =
p()p(x|)
_
p()p(x|)d
=
k

i=1
p(x|)p(|
i
)p(
i
)
k

i=1
p(
i
)
_
p(x|)p(|
i
)d
.
Mas note que a distribui c ao a posteriori condicional de dado
i
e obtida via teorema
de Bayes como
p(|x,
i
) =
p(x|)p(|
i
)
_
p(x|)p(|
i
)d
=
p(x|)p(|
i
)
m(x|
i
)
e a distribui c ao a posteriori de
i
e obtida como
p(
i
) =
m(x|
i
)p()
p(x)
.
Portanto p(x|)p(|
i
)=p(|x,
i
)m(x|
i
). Assim, podemos escrever a posteriori de
como
p( |x) =
k

i=1
p(|x,
i
)m(x|
i
)p(
i
)
k

i=1
m(x|
i
)p(
i
)
=
k

i=1
p(|x,
i
)p(
i
|x)
Note tambem que p(x) =

m(x|
i
)p(
i
), isto e a distribui c ao preditiva, e uma
mistura de preditivas condicionais.
Exemplo 2.6 : Se (0, 1), a famlia de distribui c oes a priori Beta(a, b) e con-
veniente. Mas estas s ao sempre unimodais e (se a = b) assimetricas `a esquerda ou
`a direita. Outras formas interessantes, e mais de acordo com a nossa informa c ao a
priori, podem ser obtidas misturando-se 2 ou 3 elementos desta famlia. Por exemplo,
0, 25Beta(3, 8) + 0, 75Beta(8, 3)
representa a informa c ao a priori de que (0, 5; 0, 95) com alta probabilidade (0,71)
mas tambem que (0, 1; 0, 4) com probabilidade moderada (0,20). As modas desta
distribui c ao s ao 0,23 e 0,78. Por outro lado
0, 33Beta(4, 10) + 0, 33Beta(15, 28) + 0, 33Beta(50, 70)
representa a informa c ao a priori de que > 0, 6 com probabilidade desprezvel. Estas
densidades est ao representadas gracamente na Figura 2.2 a seguir. Note que a
primeira mistura deu origem a uma distribui c ao a priori bimodal enquanto a segunda
originou uma priori assimetrica `a esquerda com media igual a 0,35.
Para outros exemplos de misturas de prioris ver OHagan (1994). Para um exce-
lente material sobre modelos hierarquicos ver (Gelman et al. 2004).
26 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Figura 2.2: Misturas de fun c oes de densidade Beta(3,8) e Beta(8,3) com pesos 0,25 e 0,75 e
Beta(4,10), Beta(15,28) e Beta(50,70) com pesos iguais a 0,33.
0.0 0.2 0.4 0.6 0.8 1.0
0
1
2
3
4

.33B(4,10)+.33B(15,28)+.33B(50,70)
.25 B(3,8)+.75 B(8,3)
2.6 Problemas
1. Mostre que a famlia de distribui c oes Beta e conjugada em rela c ao `as distri-
bui c oes amostrais binomial, geometrica e binomial negativa.
2. Para uma amostra aleat oria de 100 observa c oes da distribui c ao normal com
media e desvio-padr ao 2 foi especicada uma priori normal para .
(a) Mostre que o desvio-padr ao a posteriori ser a sempre menor do que 1/5.
Interprete este resultado.
(b) Se o desvio-padr ao a priori for igual a 1 qual deve ser o menor n umero de
observa c oes para que o desvio-padr ao a posteriori seja 0,1?
3. Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao N(,
2
), com conhe-
cido. Utilizando uma distribui c ao a priori Gama para
2
com coeciente de
varia c ao 0,5, qual deve ser o tamanho amostral para que o coeciente de varia c ao
a posteriori diminua para 0,1?
4. Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao N(,
2
), com e
2
desconhecidos, e considere a priori conjugada de (, ).
2.6. PROBLEMAS 27
(a) Determine os par ametros (
0
, c
0
, n
0
,
2
0
) utilizando as seguintes informa c oes
a priori: E() = 0, P(|| < 1, 412) = 0, 5, E() = 2 e E(
2
) = 5.
(b) Em uma amostra de tamanho n = 10 foi observado X = 1 e

n
i=1
(X
i
X)
2
= 8. Obtenha a distribui c ao a posteriori de e esboce
os gr acos das distribui c oes a priori, a posteriori e da fun c ao de verossimi-
lhan ca, com xo.
(c) Calcule P(|Y | > 1|x) onde Y e uma observa c ao tomada da mesma po-
pula c ao.
5. Suponha que o tempo, em minutos, para atendimento a clientes segue uma dis-
tribui c ao exponencial com par ametro desconhecido. Com base na experiencia
anterior assume-se uma distribui c ao a priori Gama com media 0,2 e desvio-
padr ao 1 para .
(a) Se o tempo medio para atender uma amostra aleat oria de 20 clientes foi
de 3,8 minutos, qual a distribui c ao a posteriori de .
(b) Qual o menor n umero de clientes que precisam ser observados para que o
coeciente de varia c ao a posteriori se reduza para 0,1?
6. Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao de Poisson com par ametro
.
(a) Determine os par ametros da priori conjugada de sabendo que E() = 4
e o coeciente de varia c ao a priori e 0,5.
(b) Quantas observa c oes devem ser tomadas ate que a variancia a posteriori
se reduza para 0,01 ou menos?
(c) Mostre que a media a posteriori e da forma
n
x+(1
n
)
0
, onde
0
= E()
e
n
1 quando n . Interprete este resultado.
7. O n umero medio de defeitos por 100 metros de uma ta magnetica e desconhe-
cido e denotado por . Atribui-se uma distribui c ao a priori Gama(2,10) para .
Se um rolo de 1200 metros desta ta foi inspecionado e encontrou-se 4 defeitos
qual a distribui c ao a posteriori de ?
8. Seja X
1
, . . . , X
n
uma amostra aleat oria da distribui c ao Bernoulli com par ametro
e usamos a priori conjugada Beta(a, b). Mostre que a media a posteriori e da
forma
n
x + (1
n
)
0
, onde
0
= E() e
n
1 quando n . Interprete
este resultado.
9. Para uma amostra aleat oria X
1
, . . . , X
n
tomada da distribui c ao U(0, ), mostre
que a famlia de distribui c oes de Pareto com par ametros a e b, cuja fun c ao de
densidade e p() = ab
a
/
a+1
, e conjugada `a uniforme.
10. Para uma vari avel aleat oria > 0 a famlia de distribui c oes Gama-invertida tem
fun c ao de densidade de probabilidade dada por
p() =

()

(+1)
e
/
, , > 0.
28 CAP

ITULO 2. DISTRIBUIC

OES A PRIORI
Mostre que esta famlia e conjugada ao modelo normal com media conhecida
e vari ancia desconhecida.
11. Suponha que X = (X
1
, X
2
, X
3
) tenha distribui c ao trinomial com par ametros n
(conhecido) e = (
1
,
2
,
3
) com
1
+
2
+
3
= 1. Mostre que a priori nao
informativa de Jereys para e p() [
1

2
(1
1

2
)]
1/2
.
12. Para cada uma das distribui c oes abaixo verique se o modelo e de loca c ao,
escala ou loca c ao-escala e obtenha a priori nao informativa para os par ametros
desconhecidos.
(a) Cauchy(0,).
(b) t

(,
2
), conhecido.
(c) Pareto(a, b), b conhecido.
(d) Uniforme ( 1, + 1).
(e) Uniforme (, ).
13. Seja uma cole c ao de vari aveis aleat orias independentes X
i
com distribui c oes
p(x
i
|
i
) e seja p
i
(
i
) a priori nao informativa de
i
, i = 1, . . . , k. Mostre que a
priori nao informativa de Jereys para o vetor parametrico = (
1
, . . . ,
k
) e
dada por

k
i=1
p
i
(
i
).
14. Se tem priori nao informativa p() k, > 0 mostre que a priori de = a+b,
a = 0 tambem e p() k.
15. Se tem priori nao informativa p()
1
mostre que a priori de =
a
, a = 0
tambem e p()
1
e que a priori de = log e p() k.
16. No Exemplo 1.3, sejam
i
= (
i
,
2
i
), i = 1, 2, as medias e vari ancias a priori dos
fsicos A e B respectivamente. As prioris condicionais foram entao combinadas
como
p() = p(
1
)p(|
1
) +p(
2
)p(|
2
)
com p(
1
) = 0, 25 e p(
2
) = 0, 75. Usando as posterioris condicionais obtidas
naquele exemplo obtenha a distribui c ao a posteriori de (incondicional). Esboce
e comente os gr acos das densidades a priori e posteriori.
17. Se X Binomial Negativa(v, ) obtenha a priori de Jereys para .
18. Se X Geometrica() obtenha a priori de Jereys para .
Captulo 3
Estima cao
A distribui c ao a posteriori de um par ametro contem toda a informa c ao probabilstica
a respeito deste par ametro e um gr aco da sua fun c ao de densidade a posteriori e a
melhor descri c ao do processo de inferencia. No entanto, algumas vezes e necessario
resumir a informa c ao contida na posteriori atraves de alguns poucos valores numericos.
O caso mais simples e a estima c ao pontual de onde se resume a distribui c ao a
posteriori atraves de um unico n umero,

. Como veremos a seguir, ser a mais facil
entender a escolha de

no contexto de teoria da decis ao.
3.1 Introducao `a Teoria da Decisao
Um problema de decis ao ca completamente especicado pela descri c ao dos seguintes
espa cos:
(i) Espa co do par ametro ou estados da natureza, .
(ii) Espa co dos resultados possveis de um experimento, .
(iii) Espa co de possveis a c oes, A.
Uma regra de decis ao e uma fun c ao denida em que assume valores em A,
i.e. : A. A cada decis ao e a cada possvel valor do par ametro podemos
associar uma perda L(, ) assumindo valores positivos. Denimos assim uma fun c ao
de perda.
Deni cao 3.1 O risco de uma regra de decis ao, denotado por R(), e a perda espe-
rada a posteriori, i.e. R() = E
|x
[L(, )].
Deni cao 3.2 Uma regra de decis ao

e otima se tem risco mnimo, i.e. R(

) <
R(), . Esta regra ser a denominada regra de Bayes e seu risco, risco de Bayes.
Exemplo 3.1 : Um laborat orio farmaceutico deve decidir pelo lan camento ou nao de
uma nova droga no mercado.

E claro que o laborat orio s o lan cara a droga se achar
que ela e eciente mas isto e exatamente o que e desconhecido. Podemos associar um
29
30 CAP

ITULO 3. ESTIMAC

AO
par ametro aos estados da natureza: droga e eciente ( = 1), droga nao e eciente
( = 0) e as possveis a c oes como lan ca a droga ( = 1), nao lan ca a droga ( = 0).
Suponha que foi possvel construir a seguinte tabela de perdas levando em conta a
eciencia da droga,
ecientenao eciente
lan ca -500 600
nao lan ca 1500 100
Vale notar que estas perdas traduzem uma avalia c ao subjetiva em rela c ao `a gravi-
dade dos erros cometidos. Suponha agora que a incerteza sobre os estados da natureza
e descrita por P( = 1) = , 0 < < 1 avaliada na distribui c ao atualizada de (seja
a priori ou a posteriori). Note que, para xo, L(, ) e uma vari avel aleat oria dis-
creta assumindo apenas dois valores com probabilidades e 1 . Assim, usando a
deni c ao de risco obtemos que
R( = 0) = E(L(0, )) = 1500 + (1 )100 = 1400 + 100
R( = 1) = E(L(1, )) = (500) + (1 )600 = 1100 + 600
Uma quest ao que se coloca aqui e, para que valores de a regra de Bayes ser a de
lan car a droga. N ao e difcil vericar que as duas a c oes levar ao ao mesmo risco, i.e.
R( = 0) = R( = 1) se somente se = 0, 20. Alem disso, para < 0, 20 temos que
R( = 0) < R( = 1) e a regra de Bayes consiste em nao lan car a droga enquanto
que > 0, 20 implica em R( = 1) < R( = 0) e a regra de Bayes deve ser de lan car
a droga.
3.2 Estimadores de Bayes
Seja agora uma amostra aleat oria X
1
, . . . , X
n
tomada de uma distribui c ao com fun c ao
de (densidade) de probabilidade p(x|) aonde o valor do par ametro e desconhecido.
Em um problema de inferencia como este o valor de deve ser estimado a partir dos
valores observados na amostra.
Se entao e razo avel que os possveis valores de um estimador (X) tambem
devam pertencer ao espa co . Alem disso, um bom estimador e aquele para o qual,
com alta probabilidade, o erro (X) estar a proximo de zero. Para cada possvel
valor de e cada possvel estimativa a vamos associar uma perda L(a, ) de
modo que quanto maior a dist ancia entre a e maior o valor da perda. Neste caso,
a perda esperada a posteriori e dada por
E[L(a, )|x] =
_
L(a, )p(|x)d
e a regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada.
Aqui vamos discutir apenas fun c oes de perda simetricas, ja que estas s ao mais co-
mumente utilizadas (para outras fun c oes de perda ver por exemplo Bernardo e Smith,
3.2. ESTIMADORES DE BAYES 31
1994 e OHagan 1994). Dentre estas a mais utilizada em problemas de estima c ao e
certamente a fun c ao de perda quadr atica, denida como L(a, ) = (a )
2
. Neste
caso, pode-se mostrar que o estimador de Bayes para o par ametro ser a a media de
sua distribui c ao atualizada.
Exemplo 3.2 : Suponha que queremos estimar a propor c ao de itens defeituosos
em um grande lote. Para isto ser a tomada uma amostra aleat oria X
1
, . . . , X
n
de uma
distribui c ao de Bernoulli com par ametro . Usando uma priori conjugada Beta(, )
sabemos que ap os observar a amostra a distribui c ao a posteriori e Beta(+t, +nt)
onde t =

n
i=1
x
i
. A media desta distribui c ao Beta e dada por ( +t)/( + +n) e
portanto o estimador de Bayes de usando perda quadr atica e
(X) =
+

n
i=1
X
i
+ +n
.
A perda quadr atica e as vezes criticada por penalizar demais o erro de estima c ao.
A fun c ao de perda absoluta, denida como L(a, ) = |a |, introduz puni c oes que
crescem linearmente com o erro de estima c ao e pode-se mostrar que o estimador de
Bayes associado e a mediana da distribui c ao atualizada de .
Para reduzir ainda mais o efeito de erros de estima c ao grandes podemos conside-
rar fun c oes que associam uma perda xa a um erro cometido, nao importando sua
magnitude. Uma tal fun c ao de perda, denominada perda 0-1, e denida como
L(a, ) =
_
1 se |a | >
0 se |a | <
para todo > 0. Neste caso pode-se mostrar que o estimador de Bayes e a moda
da distribui c ao atualizada de . A moda da posteriori de tambem e chamado de
estimador de m axima verossimilhan ca generalizado (EMVG) e e o mais facil de ser
obtido dentre os estimadores vistos ate agora. No caso contnuo devemos obter a
solu c ao da equa c ao
p(|x)

= 0.
Note que isto equivale a obter a solu c ao de
p(x|)p()

= 0
e nao e necessario conhecer a expressao exata de p(|x).
Exemplo 3.3 : Se X
1
, . . . , X
n
e uma amostra aleat oria da N(,
2
) com
2
conhecido
e usarmos a priori conjugada, i.e. N(
0
,
2
0
) entao a posteriori tambem ser a
normal e neste caso media, mediana e moda coincidem. Portanto, o estimador de
Bayes de e dado por
(X) =

2
0

0
+n
2
X

2
0
+n
2
.
32 CAP

ITULO 3. ESTIMAC

AO
Exemplo 3.4 : No exemplo 3.2 suponha que foram observados 100 itens dos quais
10 eram defeituosos. Usando perda quadr atica a estimativa de Bayes de e
(x) =
+ 10
+ + 100
Assim, se a priori for Beta(1,1), ou equivalentemente U(0, 1), entao (x) = 0, 108. Por
outro lado se especicarmos uma priori Beta(1,2), que e bem diferente da anterior,
entao (x) = 0, 107. Ou seja, as estimativas de Bayes s ao bastante proximas, e isto
e uma consequencia do tamanho amostral ser grande. Note tambem que ambas as
estimativas s ao proximas da propor c ao amostral de defeituosos 0,1, que e a estimativa
de m axima verossimilhan ca. Se usarmos perda 0-1 e priori Beta(1,1) entao (x) = 0, 1.
3.3 Estimacao por Intervalos
Voltamos a enfatizar que a forma mais adequada de expressar a informa c ao que se tem
sobre um par ametro e atraves de sua distribui c ao a posteriori. A principal restri c ao
da estima c ao pontual e que quando estimamos um par ametro atraves de um unico
valor numerico toda a informa c ao presente na distribui c ao a posteriori e resumida
atraves deste n umero.

E importante tambem associar alguma informa c ao sobre o
qu ao precisa e a especica c ao deste n umero. Para os estimadores vistos aqui as
medidas de incerteza mais usuais s ao a vari ancia ou o coeciente de varia c ao para
a media a posteriori, a medida de informa c ao observada de Fisher para a moda a
posteriori, e a dist ancia entre quartis para a mediana a posteriori.
Nesta se c ao vamos introduzir um compromisso entre o uso da propria distribui c ao
a posteriori e uma estimativa pontual. Ser a discutido o conceito de intervalo de cre-
dibilidade (ou intervalo de conan ca Bayesiano) baseado no distribui c ao a posteriori.
Deni cao 3.3 C e um intervalo de credibilidade de 100(1-)%, ou nvel de credibi-
lidade (ou conan ca) 1 , para se P( C) 1 .
Note que a deni c ao expressa de forma probabilstica a pertinencia ou nao de
ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada e a
distribui c ao do par ametro, ou seja o tamanho do intervalo informa sobre a dispers ao
de . Alem disso, a exigencia de que a probabilidade acima possa ser maior do que o
nvel de conan ca e essencialmente tecnica pois queremos que o intervalo seja o menor
possvel, o que em geral implica em usar uma igualdade. No entanto, a desigualdade
ser a util se tiver uma distribui c ao discreta onde nem sempre e possvel satisfazer a
igualdade.
Outro fato importante e que os intervalos de credibilidade s ao invariantes a trans-
forma c oes 1 a 1, (). Ou seja, se C = [a, b] e um intervalo de credibilidade 100(1-)%
para entao [(a), (b)] e um intervalo de credibilidade 100(1-)% para (). Note
que esta propriedade tambem vale para intervalos de conan ca na inferencia classica.

E possvel construir uma innidade de intervalos usando a deni c ao acima mas


estamos interessados apenas naquele com o menor comprimento possvel. Pode-se
3.4. ESTIMAC

AO NO MODELO NORMAL 33
mostrar que intervalos de comprimento mnimo s ao obtidos tomando-se os valores
de com maior densidade a posteriori, e esta ideia e expressa matematicamente na
deni c ao abaixo.
Deni cao 3.4 Um intervalo de credibilidade C de 100(1-)% para e de m axima
densidade a posteriori (MDP) se C = { : p(|x) k()} onde k() e a maior
constante tal que P( C) 1 .
Usando esta deni c ao, todos os pontos dentro do intervalo MDP ter ao densidade
maior do que qualquer ponto fora do intervalo. Alem disso, no caso de distribui c oes
com duas caudas, e.g. normal, t de Student, o intervalo MDP e obtido de modo que
as caudas tenham a mesma probabilidade.
Um problema com os intervalos MDP e que eles nao s ao invariantes a trans-
forma c oes 1 a 1, a nao ser para transforma c oes lineares. O mesmo problema ocorre
com intervalos de comprimento mnimo na inferencia cl assica.
3.4 Estimacao no Modelo Normal
Os resultados desenvolvidos nos captulos anteriores ser ao aplicados ao modelo nor-
mal para estima c ao da media e vari ancia em problemas de uma ou mais amostras e
em modelos de regress ao linear. A an alise ser a feita com priori conjugada e priori
nao informativa quando ser ao apontadas as semelhan cas com a an alise classica. As-
sim como nos captulos anteriores a abordagem aqui e introdut oria. Um tratamento
mais completo do enfoque Bayesiano em modelos lineares pode ser encontrado em
Broemeling (1985) e Box e Tiao (1992).
Nesta se c ao considere uma amostra aleat oria X
1
, , X
n
tomada da distribui c ao
N(,
2
).
3.4.1 Variancia Conhecida
Se
2
e conhecido e a priori de e N(
0
,
2
0
) entao, pelo Teorema 1.1, a posteriori de
e N(
1
,
2
1
). Intervalos de conan ca Bayesianos para podem entao ser construdos
usando o fato de que

1

1
|x N(0, 1).
Assim, usando uma tabela da distribui c ao normal padronizada podemos obter o valor
do percentil z
/2
tal que
P
_
z
/2


1

1
z
/2
_
= 1
e ap os isolar , obtemos que
P
_

1
z
/2

1

1
+z
/2

1
_
= 1 .
Portanto
_

1
z
/2

1
;
1
+z
/2

1
_
e o intervalo de conan ca 100(1-)% MDP para
, devido `a simetria da normal.
34 CAP

ITULO 3. ESTIMAC

AO
A priori nao informativa pode ser obtida fazendo-se a vari ancia da priori tender
a innito, i.e.
2
0
. Neste caso, e facil vericar que
2
1
n
2
e
1
x, i.e.
a media e a precis ao da posteriori convergem para a media e a precis ao amostrais.
Media, moda e mediana a posteriori coincidem entao com a estimativa classica de
m axima verossimilhan ca, x. O intervalo de conan ca Bayesiano 100(1-)% e dado
por
_
x z
/2
/

n; x +z
/2
/

n
_
e tambem coincide numericamente com o intervalo de conanca classico. Aqui entre-
tanto a interpreta c ao do intervalo e como uma arma c ao probabilstica sobre .
3.4.2 Media e Variancia desconhecidas
Neste caso, usando a priori conjugada Normal-Gama vista no Captulo 2 temos que
a distribui c ao a posteriori marginal de e dada por
|x t
n
1
(
1
,
2
1
/c
1
).
Portanto, media, moda e mediana a posteriori coincidem e s ao dadas por
1
. De-
notando por t
/2,n
1
o percentil 100(1-/2)% da distribui c ao t
n
1
(0, 1) podemos obter
este percentil tal que
P
_
t
/2,n
1

c
1

1

1
t
/2,n
1
_
= 1
e ap os isolar , usando a simetria da distribui c ao t-Student obtemos que
_

1
t
/2,n
1

c
1

1
+t
/2,n
1

c
1
_
e o intervalo de conan ca Bayesiano 100(1-)% de MDP para .
No caso da vari ancia populacional
2
intervalos de conan ca podem ser obtidos
usando os percentis da distribui c ao qui-quadrado uma vez que a distribui c ao a pos-
teriori de e tal que n
1

2
1
|x
2
n
1
. Denotando por

2
/2,n
1
e
2
/2,n
1
os percentis /2 e 1 /2 da distribui c ao qui-quadrado com n
1
graus de liberdade
respectivamente, podemos obter estes percentis tais que
P
_

2
/2,n
1
n
1

2
1

2
/2,n
1
n
1

2
1
_
= 1 .
Note que este intervalo nao e de MDP ja que a distribui c ao qui-quadrado nao e
simetrica. Como
2
= 1/ e uma fun c ao 1 a 1 podemos usar a propriedade de
invari ancia e portanto
_
n
1

2
1

2
/2,n
1
;
n
1

2
1

2
/2,n
1
_
3.4. ESTIMAC

AO NO MODELO NORMAL 35
e o intervalo de conan ca Bayesiano 100(1-)% para
2
.
Um caso particular e quanto utilizamos uma priori nao informativa. Vimos na
Se c ao 2.4 que a priori nao informativa de loca c ao e escala e p(, ) 1/, portanto
pela propriedade de invari ancia segue que a priori nao informativa de (, ) e obtida
fazendo-se p(, )
1
pois p(,
2
)
2
. Note que este e um caso particular
(degenerado) da priori conjugada natural com c
0
= 0,
2
0
= 0 e n
0
= 1. Neste caso
a distribui c ao a posteriori marginal de ca
|x t
n1
(x, s
2
/n)
sendo s
2
= 1/(n 1)

n
i=1
(x
i
x)
2
a vari ancia amostral.
Mais uma vez media, moda e mediana a posteriori de coincidem com a media
amostral x que e a estimativa de m axima verossimilhan ca. Como

n( x)/s
t
n1
(0, 1) segue que o intervalo de conan ca 100(1-)% para de MDP e
_
x t
/2,n1
s

n
; x +t
/2,n1
s

n
_
que coincide numericamente com o intervalo de conan ca classico.
Para fazer inferencias sobre
2
temos que
|x Gama
_
n 1
2
,
(n 1)s
2
2
_
ou (n 1)s
2
|x
2
n1
.
A estimativa pontual de
2
utilizada e [E(|x)]
1
= s
2
que coincide com a estimativa
cl assica uma vez que o estimador de m axima verossimilhanca
(n 1)S
2
/n e viciado e normalmente substituido por S
2
(que e nao viciado). Os
intervalos de conan ca 100(1-)% Bayesiano e cl assico tambem coincidem e s ao da-
dos por
_
(n 1)s
2

2
/2,n1
;
(n 1)s
2

2
/2,n1
_
.
Mais uma vez vale enfatizar que esta coincidencia com as estimativas classicas e
apenas numerica uma vez que as interpreta c oes dos intervalos diferem radicalmente.
3.4.3 O Caso de duas Amostras
Nesta se c ao vamos assumir que X
11
, . . . , X
1n
1
e X
21
, . . . , X
2n
2
s ao amostras aleat orias
das distribui c oes N(
1
,
2
1
) e N(
2
,
2
2
) respectivamente e que as amostras s ao inde-
pendentes.
Para come car vamos assumir que as vari ancias
2
1
e
2
2
s ao conhecidas. Neste caso,
a fun c ao de verossimilhan ca e dada por
p(x
1
, x
2
|
1
,
2
) = p(x
1
|
1
)p(x
2
|
2
)
exp
_

n
1
2
2
1
(
1
x
1
)
2
_
exp
_

n
2
2
2
2
(
2
x
2
)
2
_
36 CAP

ITULO 3. ESTIMAC

AO
isto e, o produto de verossimilhan cas relativas a
1
e
2
. Assim, se assumirmos que

1
e
2
s ao independentes a priori entao eles tambem ser ao independentes a posteriori
ja que
p(
1
,
2
|x
1
, x
2
) =
p(x
1
|
1
)p(
1
)
p(x
1
)

p(x
2
|
2
)p(
2
)
p(x
2
)
.
Se usarmos a classe de prioris conjugadas
i
N(
i
,
2
i
) entao as posterioris
independentes ser ao
i
|x
i
N(

i
,

2
i
) onde

i
=

2
i

i
+n
i

2
i
x
i

2
i
+n
i

2
i
e

2
i
= 1/(
2
i
+n
i

2
i
), i = 1, 2.
Em geral estaremos interessados em comparar as medias populacionais, i.e quere-
mos estimar =
1

2
(por exemplo, testar se
1
= theta
2
). Neste caso, a posteriori
de e facilmente obtida, devido `a independencia, como
|x
1
, x
2
N(

2
,

2
1
+

2
2
)
e podemos usar

2
como estimativa pontual para a diferen ca e tambem construir
um intervalo de credibilidade MDP para esta diferen ca.
(

2
) z
/2
_

2
1
+

2
2
.
Note que se usarmos priori nao informativa, i.e. fazendo
2
i
, i = 1, 2 entao a
posteriori ca
|x
1
, x
2
N
_
x
1
x
2
,

2
1
n
1
+

2
2
n
2
_
e o intervalo obtido coincidir a mais uma vez com o intervalo de conan ca classico.
No caso de vari ancias populacionais desconhecidas porem iguais, temos que =

2
1
=
2
2
=
2
. A priori conjugada pode ser construda em duas etapas. No
primeiro est agio, assumimos que, dado ,
1
e
2
s ao a priori condicionalmente inde-
pendentes, e especicamos

i
| N(
i
, (c
i
)
1
), i = 1, 2.
e no segundo est agio, especicamos a priori conjugada natural para , i.e.
Gama
_
n
0
2
,
n
0

2
0
2
_
.
Combinando as prioris acima nao e difcil vericar que a priori conjunta de (
1
,
2
, )
e
p(
1
,
2
, ) = p(
1
|)p(
2
|)p()

n
0
/2
exp
_

2
_
n
0

2
0
+c
1
(
1

1
)
2
+c
2
(
2

2
)
2
__
.
Alem disso, tambem nao e difcil obter a priori condicional de =
1

2
, dado
, como
| N(
1

2
,
1
(c
1
1
+c
1
2
))
3.4. ESTIMAC

AO NO MODELO NORMAL 37
e portanto, usando os resultados da Se c ao 2.3.5 segue que a distribui c ao a priori
marginal da diferen ca e
t
n
0
(
1

2
,
2
0
(c
1
1
+c
1
2
)).
Podemos mais uma vez obter a posteriori conjunta em duas etapas ja que
1
e

2
tambem ser ao condicionalmente independentes a posteriori, dado . Assim, no
primeiro est agio usando os resultados obtidos anteriormente para uma amostra segue
que

i
|, x N(

i
, (c

i
)
1
), i = 1, 2
onde

i
=
c
i

i
+n
i
x
i
c
i
+n
i
e c

i
= c
i
+n
i
.
Na segunda etapa temos que combinar a verossimilhan ca com a priori de (
1
,
2
, ).
Denindo a vari ancia amostral combinada
s
2
p
=
(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+n
2
2
e denotando = n
1
+n
2
2, a fun c ao de verossimilhan ca pode ser escrita como
p(x
1
, x
2
|
1
,
2
, ) =
(n
1
+n
2
)/2
exp
_

2
_
s
2
+n
1
(
1
x
1
)
2
+n
2
(
2
x
2
)
2
__
e ap os algum algebrismo obtemos que a posteriori e proporcional a

(n
0
+n
1
+n
2
)/2
exp
_

2
_
n
0

2
0
+s
2
+
2

i=1
c
i
n
i
c

i
(
i
x
i
)
2
+c

i
(
i

i
)
2
_
_
.
Como esta posteriori tem o mesmo formato da priori segue por analogia que
|x Gama
_
n

0
2
,
n

2
0
2
_
onde n

0
= n
0
+ n
1
+ n
2
e n

2
0
= n
0

2
0
+ s
2
+

2
i=1
c
i
n
i
(
i
x
i
)
2
/c

i
. Ainda por
analogia com o caso de uma amostra, a posteriori marginal da diferen ca e dada por
|x t
n

0
(

2
,

2
0
(c

1
1
+c

1
2
)).
Assim, media, moda e mediana a posteriori de coincidem e a estimativa pontual
e

2
. Tambem intervalos de credibilidade de MDP podem ser obtidos usando
os percentis da distribui c ao t de Student. Para a vari ancia populacional a estima-
tiva pontual usual e

2
0
e intervalos podem ser construdos usando os percentis da
distribui c ao qui-quadrado ja que n

2
0
| x
2
n

0
Vejamos agora como ca a an alise usando priori nao informativa. Neste caso,
p(
1
,
2
, )
1
e isto equivale a um caso particular (degenerado) da priori conju-
gada com c
i
= 0,
2
0
= 0 e n
0
= 2. Assim, temos que c

i
= n
i
,

i
= x
i
, n

0
= e
38 CAP

ITULO 3. ESTIMAC

AO
n

2
0
= s
2
e a estimativa pontual concide com a estimativa de m axima verossimi-
lhan ca

= x
1
x
2
. O intervalo de 100(1 )% de MDP para tem limites
x
1
x
2
t

2
,
s
p
_
1
n
1
+
1
n
2
que coincide numericamente com o intervalo de conan ca classico.
O intervalo de 100(1 )% para
2
e obtido de maneira an aloga ao caso de uma
amostra usando a distribui c ao qui-quadrado, agora com graus de liberdade, i.e.
_
s
2
p

2
,
,
s
2
p

2
,
_
.
3.4.4 Variancias desiguais
Ate agora assumimos que as vari ancias populacionais desconhecidas eram iguais (ou
pelo menos aproximadamente iguais). Na inferencia cl assica a viola c ao desta su-
posi c ao leva a problemas te oricos e praticos uma vez que nao e trivial encontrar uma
quantidade pivotal para com distribui c ao conhecida ou tabelada. Na verdade, se
existem grandes diferen cas de variabilidade entre as duas popula c oes pode ser mais
apropriado analisar conjuntamente as consequencias das diferen cas entre as medias e
as vari ancias. Assim, caso o pesquisador tenha interesse no par ametro deve levar
em conta os problemas de ordem te orica introduzidos por uma diferen ca substancial
entre
2
1
e
2
2
.
Do ponto de vista Bayesiano o que precisamos fazer e combinar informa c ao a priori
com a verossimilhan ca e basear a estima c ao na distribuic ao a posteriori. A fun c ao de
verossimilhan ca agora pode ser fatorada como
p(x
1
, x
2
|
1
,
2
,
2
1

2
2
) = p(x
1
|
1
,
2
1
)p(x
2
|
2
,
2
2
)
e vamos adotar prioris conjugadas normal-gama independentes com par ametros (
i
, c
i
,
i
,
2
0i
)
para cada uma das amostras. Fazendo as opera c oes usuais para cada amostra, e
usando a conjuga c ao da normal-gama, obtemos as seguintes distribui c oes a posteriori
independentes

i
|x t
n

0i
(

i
,

2
0i
/c

i
) e
i
|x Gama
_
n

0i
2
,
n

0i

2
0i
2
_
, i = 1, 2.
Pode-se mostrar que tem uma distribui c ao a posteriori chamada Behrens-Fisher,
que e semelhante `a t de Student e e tabelada. Assim, intervalos de credibilidade
podem ser construdos usando-se estes valores tabelados.
Outra situa c ao de interesse e a compara c ao das duas vari ancias populacionais.
Neste caso, faz mais sentido utilizar a razao de vari ancias ao inves da diferen ca ja que
elas medem a escala de uma distribui c ao e s ao sempre positivas. Neste caso temos
que obter a distribui c ao a posteriori de
2
2
/
2
1
=
1
/
2
. Usando a independencia a
posteriori de
1
e
2
e ap os algum algebrismo pode-se mostrar que

2
01

2
02

2
F(n

01
, n

02
).
3.5. EXERC

ICIOS 39
Embora sua fun c ao de distribui c ao nao possa ser obtida analiticamente os valores
est ao tabelados em muitos livros de estatstica e tambem podem ser obtidos na maioria
dos pacotes computacionais. Os percentis podem entao ser utilizados na constru c ao
de intervalos de credibilidade para a razao de vari ancias.
Uma propriedade bastante util para calcular probabilidade com a distribui c ao F
vem do fato de que se X F(
2
,
1
) entao X
1
F(
1
,
2
) por simples invers ao na
razao de distribui c oes qui-quadrado independentes. Assim, denotando os quantis e
1 da distribui c ao F(
1
,
2
) por F

(
1
,
2
) e F

(
1
,
2
) respectivamente segue que
F

(
1
,
2
) =
1
F

(
2
,
1
)
.
Note que e usual que os livros forne cam tabelas com os percentis superiores da distri-
bui c ao F para v arias combina c oes de valores de
1
e
2
devido `a propriedade acima.
Por exemplo, se temos os valores tabelados dos quantis 0,95 podemos obter tambem
um quantil 0,05. Basta procurar o quantil 0,95 inverterndo os graus de liberdade.
Finalmente, a an alise usando priori nao informativa pode ser feita para
p(
1
,
2
,
2
1
,
2
2
)
2
1

2
2
e ser a deixada como exerccio.
3.5 Exerccios
1. Gere 2 amostras de tamanho 50 da distribui c ao N(0, 1). Agora construa um
intervalo MDP de 95% para a diferen ca entre as medias (assuma vari ancia co-
nhecida igual a 1). Qual a sua conclusao?
2. Repita a an alise da Se c ao 3.4.4 usando priori nao informativa para p(
1
,
2
,
2
1
,
2
2
)

2
1

2
2
.
Captulo 4
Computa cao Bayesiana
Existem v arias formas de resumir a informa c ao descrita na distribui c ao a posteriori.
Esta etapa frequentemente envolve a avalia c ao de probabilidades ou esperan cas.
Neste captulo ser ao descritos metodos baseados em simula c ao, incluindo Monte
Carlo simples, Monte Carlo com fun c ao de import ancia, metodos de reamostragem e
Monte Carlo via cadeias de Markov (MCMC). O material apresentado e introdut orio
e mais detalhes sobre os estes metodos podem ser obtidos por exemplo em Gamerman
(1997) e Robert and Casella (1999). Outros metodos computacionalmente intensivos
como tecnicas de otimiza c ao e integra c ao numerica, bem como aproxima c oes analticas
nao ser ao tratados aqui e uma referencia introdut oria e Migon and Gamerman (1999).
Todos os algoritmos que ser ao vistos aqui s ao nao determinsticos, i.e. todos
requerem a simula c ao de n umeros (pseudo) aleat orios de alguma distribui c ao de pro-
babilidades. Em geral, a unica limita c ao para o n umero de simula c oes s ao o tempo
de computa c ao e a capacidade de armazenamento dos valores simulados. Assim, se
houver qualquer suspeita de que o n umero de simula c oes e insuciente, a abordagem
mais simples consiste em simular mais valores.
4.1 Uma Palavra de Cautela
Apesar da sua grande utilidade, os metodos que ser ao apresentados aqui devem ser
aplicados com cautela. Devido `a facilidade com que os recursos computacionais podem
ser utilizados hoje em dia, corremos o risco de apresentar uma solu c ao para o problema
errado (o erro tipo 3) ou uma solu c ao ruim para o problema certo. Assim, os metodos
computacionalmente intensivos nao devem ser vistos como substitutos do pensamento
crtico sobre o problema por parte do pesquisador.
Alem disso, sempre que possvel deve-se utilizar solu c oes exatas, i.e. nao apro-
ximadas, se elas existirem. Por exemplo, em muitas situa coes em que precisamos
calcular uma integral m ultipla existe solu c ao exata em algumas dimens oes, enquanto
nas outras dimens oes temos que usar metodos de aproxima c ao.
40
4.2. O PROBLEMA GERAL DA INFER

ENCIA BAYESIANA 41
4.2 O Problema Geral da Inferencia Bayesiana
A distribui c ao a posteriori pode ser convenientemente resumida em termos de espe-
ran cas de fun c oes particulares do par ametro , i.e.
E[g()|x] =
_
g()p(|x)d
ou distribui c oes a posteriori marginais quando for multidimensional, i.e.
p(
1
|x) =
_
p(|x)d
2
onde = (
1
,
2
).
Assim, o problema geral da inferencia Bayesiana consiste em calcular tais valores
esperados segundo a distribui c ao a posteriori de . Alguns exemplos s ao,
1. Constante normalizadora. g() = 1 e p(|x) = kq(), segue que
k =
__
q()d
_
1
.
2. Se g() = , entao tem-se = E(|x), media a posteriori.
3. Quando g() = ( )
2
, entao
2
= var() = E(( )
2
|x), a vari ancia a
posteriori.
4. Se g() = I
A
(), onde I
A
(x) = 1 se x A e zero caso contrario, entao P(A | x) =
_
A
p(|x)d
5. Seja g() = p(y|), onde y x|. Nestas condi c oes obtemos E[p(y|x)], a
distribui c ao preditiva de y, uma observa c ao futura.
Portanto, a habilidade de integrar fun c oes, muitas vezes complexas e multidimensi-
onais, e extremamente importante em inferencia Bayesiana. Inferencia exata somente
ser a possvel se estas integrais puderem ser calculadas analiticamente, caso contrario
devemos usar aproxima c oes. Nas proximas se c oes iremos apresentar metodos aproxi-
mados baseados em simula c ao para obten c ao dessas integrais.
4.3 Metodo de Monte Carlo Simples
A ideia do metodo e justamente escrever a integral que se deseja calcular como um
valor esperado. Para introduzir o metodo considere o problema de calcular a integral
de uma fun c ao g() no intervalo (a, b), i.e.
I =
_
b
a
g()d.
42 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Esta integral pode ser reescrita como
I =
_
b
a
(b a)g()
1
b a
d = (b a)E[g()]
identicando como uma vari avel aleat oria com distribui c ao U(a, b). Assim, trans-
formamos o problema de avaliar a integral no problema estatstico de estimar uma
media, E[g()]. Se dispomos de uma amostra aleat oria de tamanho n,
1
, . . . ,
n
da distribui c ao uniforme no intervalo (a, b) teremos tambem uma amostra de valo-
res g(
1
), . . . , g(
n
) da fun c ao g() e a integral acima pode ser estimada pela media
amostral, i.e.

I = (b a)
1
n
n

i=1
g(
i
).
N ao e difcil vericar que esta estimativa e nao viesada ja que
E(

I) =
(b a)
n
n

i=1
E[g(
i
)] = (b a)E[g()] =
_
b
a
g()d.
Podemos entao usar o seguinte algoritmo
1. gere
1
, . . . ,
n
da distribui c ao U(a, b);
2. calcule g(
1
), . . . , g(
n
);
3. calcule a media amostral g =

n
i=1
g(
i
)/n
4. calcule

I = (b a)g
Exemplo 4.1 : Suponha que queremos calcular
_
3
1
exp(x)dx. A integral pode ser
reescrita como
(3 1)
_
3
1
exp(x)/(3 1)dx
e ser a aproximada usando 100 valores simulados da distribui c ao Uniforme no intervalo
(1,3) e calculando y
i
= e
x
i
, i = 1, . . . , 100. O valor aproximado da integral e
2

100
i=1
y
i
/100. Por outro lado, sabemos que exp(x) e a fun c ao de densidade de uma
v.a. X Exp(1) e portanto a integral pode ser calculada de forma exata,
_
3
1
exp(x)dx = Pr(X < 3) Pr(X < 1) = 0.3181.
Podemos escrever uma fun c ao mais geral no R cujos argumentos s ao o n umero de
simula c oes e os limites de integra c ao.
int.exp = function(n,a,b){
# Calcula a integral de exp(-x) no intervalo (a,b)
x = runif(n,a,b)
y = exp(-x)
int.exp = (b-a)*mean(y)
return(int.exp)
}
4.3. M

ETODO DE MONTE CARLO SIMPLES 43


Executando a fun c ao int.exp digamos 50 vezes com n = 10, a = 1 e b = 3 existir a
uma varia c ao consideravel na estimativa da integral. Isto se chama erro de Monte
Carlo e decresce conforme aumentamos o n umero de simula c oes. Repetindo o expe-
rimento com n = 1000 a varia c ao car a bem menor. Na Figura 4.1 a evolu c ao deste
erro conforme se aumenta o n umero de simula c oes ca bem evidente. Os comandos
do R a seguir foram utilizados.
n = c(20,50,100,200,500)
y = matrix(0,ncol=length(n),nrow=50)
for (j in 1:length(n)){
m=NULL
for (i in 1:50) m = c(m,int.exp(n[j],1,3))
y[,j] = m
}
boxplot(data.frame(y),names=n)
20 50 100 200 500
0
.
2
5
0
.
3
0
0
.
3
5
0
.
4
0
Figura 4.1: Boxplots para 50 estimativas da integral no Exemplo 4.1 com n=20, 50, 100,
200, e 500 simula c oes.
A generaliza c ao e bem simples para o caso em que a integral e a esperan ca ma-
tematica de uma fun c ao g() onde tem fun c ao de densidade p(), i.e.
I =
_
b
a
g()p()d = E[g()]. (4.1)
44 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Neste caso, podemos usar o mesmo algoritmo descrito acima modicando o passo 1
para gerar
1
, . . . ,
n
da distribui c ao p() e calculando

I = g =
n

i=1
g(
i
).
Uma vez que as gera c oes s ao independentes, pela Lei Forte dos Grandes N umeros
segue que

I converge quase certamente para I. Alem disso, temos uma amostra
g(
1
), . . . , g(
n
) tal que
E[g(
i
)] = E[g()] = I e V ar[g(
i
)] =
2
=
1
n

(g(
i
) g)
2
e portanto a vari ancia do estimador pode tambem ser estimada como
v =
1
n
2
n

i=1
(g(
i
) g)
2
,
i.e. a aproxima c ao pode ser tao acurada quanto se deseje bastando aumentar o valor
de n.

E importante notar que n est a sob nosso controle aqui, e nao se trata do
tamanho da amostra de dados.
O Teorema Central do Limite tambem se aplica aqui de modo que para n grande
segue que
g E[g()]

v
tem distribui c ao aproximadamente N(0, 1). Podemos usar este resultado para testar
convergencia e construir intervalos de conan ca.
No caso multivariado a extens ao tambem e direta. Seja = (
1
, . . . ,
k
)

um vetor
aleat orio de dimens ao k com fun c ao de densidade p(). Neste caso os valores gerados
ser ao tambem vetores
1
, . . . ,
n
e o estimador de Monte Carlo ca

I =
1
n
n

i=1
g(
i
)
Exemplo 4.2 : Suponha que queremos calcular Pr(X < 1, Y < 1) onde o vetor
aleat orio (X, Y ) tem distribui c ao Normal padr ao bivariada com correla c ao igual a
0,5. Note que esta probabilidade e a integral de p(x, y) denida no intervalo acima,
portanto simulando valores desta distribui c ao poderemos estimar esta probabilidade
como a propor c ao de pontos que caem neste intervalo. A Figura 4.2 apresenta um
diagrama de dispers ao dos valores simulados e foi obtida usando os camandos do R
abaixo.
Sigma = matrix(c(1,.5,.5,1),2,2)
m = c(0,0)
library(MASS)
y = mvrnorm(n=1000, m, Sigma)
plot(y[,1],y[,2],xlab=x,ylab=y)
abline(1,0)
abline(v=1)
4.3. M

ETODO DE MONTE CARLO SIMPLES 45


3 2 1 0 1 2 3

1
0
1
2
3
x
y
Figura 4.2: Diagrama de dispers ao de 1000 valores simulados da distribui c ao N(0,1) bivari-
ada.
Uma grande vantagem dos metodos de simula c ao e que ap os uma amostra de veto-
res aleat orios ser gerada podemos facilmente calcular caractersticas das distribui c oes
marginais e condicionais. No Exemplo 4.2, para calcular Pr(X < 1) basta calcular a
frequencia relativa de pontos (x
i
, y
i
) tais que x
i
< 1. Para calcular a probabilidade
condicional Pr(X < 1|Y < 1) basta selecionar somente aqueles pontos cuja segunda
coordenada e menor do que 1. Depois calcula-se a frequencia relativa dos pontos
restantes cuja primeira coordenada e menor do que 1.
4.3.1 Monte Carlo via Fun cao de Importancia
Em muitas situa c oes pode ser muito custoso ou mesmo impossvel simular valores da
distribui c ao a posteriori. Neste caso, pode-se recorrer `a uma fun c ao q() que seja de
facil amostragem, usualmente chamada de fun c ao de import ancia. O procedimento e
comumente chamado de amostragem por import ancia.
Se q() for uma fun c ao de densidade denida no mesmo espa co varia c ao de entao
a integral (4.1) pode ser reescrita como
I =
_
g()p()
q()
q()dx = E
_
g()p()
q()
_
onde a esperan ca agora e com respeito a distribui c ao q. Assim, se dispomos de uma
amostra aleat oria
1
, . . . ,
n
tomada da distribui c ao q o estimador de Monte Carlo da
integral acima ca

I =
1
n
n

i=1
g(
i
)p(
i
)
q(
i
)
.
e tem as mesmas propriedades do estimador de Monte Carlo simples.
46 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Em princpio nao ha restri c oes quanto `a escolha da densidade de import ancia
q, porem na pratica alguns cuidados devem ser tomados. Pode-se mostrar que a
escolha otima no sentido de minimizar a vari ancia do estimador consiste em tomar
q() g()p().
Exemplo 4.3 : Para uma unica observa c ao X com distribui c ao N(, 1), desconhe-
cido, e priori Cauchy(0,1) segue que
p(x|) exp[(x )
2
/2] e p() =
1
(1 +
2
)
.
Portanto, a densidade a posteriori de e dada por
p(|x) =
1
1 +
2
exp[(x )
2
/2]
_
1
1 +
2
exp[(x )
2
/2]d
.
Suponha agora que queremos estimar usando fun c ao de perda quadr atica. Como
vimos no Captulo 3 isto implica em tomar a media a posteriori de como estimativa.
Mas
E[|x] =
_
p(|x)d =
_

1 +
2
exp[(x )
2
/2]d
_
1
1 +
2
exp[(x )
2
/2]d
e as integrais no numerador e denominador nao tem solu c ao analtica exata. Uma
solu c ao aproximada via simula c ao de Monte Carlo pode ser obtida usando o seguinte
algoritmo,
1. gerar
1
, . . . ,
n
independentes da distribui c ao N(x, 1);
2. calcular g
i
=

i
1 +
2
i
e g

i
=
1
1 +
2
i
;
3. calcular

E(|x) =

n
i=1
g
i

n
i=1
g

i
.
Este exemplo ilustrou um problema que geralmente ocorre em aplica c oes Bayesia-
nas. Como a posteriori s o e conhecida a menos de uma constante de proporcionalidade
as esperan cas a posteriori s ao na verdade uma razao de integrais. Neste caso, a apro-
xima c ao e baseada na razao dos dois estimadores de Monte Carlo para o numerador
e denominador.
Exerccios
1. Para cada uma das distribui c oes N(0, 1), Gama(2,5) e Beta(2,5) gere 100, 1000
e 5000 valores independentes. Fa ca um gr aco com o histograma e a fun c ao de
densidade superimposta. Estime a media e a vari ancia da distribui c ao. Estime
a vari ancia do estimador da media.
4.4. M

ETODOS DE REAMOSTRAGEM 47
2. Para uma unica observa c ao X com distribui c ao N(, 1), desconhecido, quere-
mos fazer inferencia sobre usando uma priori Cauchy(0,1). Gere um valor de
X para = 2, i.e. x N(2, 1).
(a) Estime atraves da sua media a posteriori usando o algoritmo do Exemplo
4.3.
(b) Estime a vari ancia da posteriori.
(c) Generalize o algoritmo para k observa c oes X
1
, . . . , X
k
da distribui c ao N(, 1).
4.4 Metodos de Reamostragem
Existem distribui c oes para as quais e muito difcil ou mesmo impossvel simular va-
lores. A ideia dos metodos de reamostragem e gerar valores em duas etapas. Na
primeira etapa gera-se valores de uma distribui c ao auxiliar conhecida. Na segunda
etapa utiliza-se um mecanismo de corre c ao para que os valores sejam representativos
(ao menos aproximadamente) da distribui c ao a posteriori. Na pratica costuma-se to-
mar a priori como distribui c ao auxiliar conforme proposto em Smith e Gelfand (1992)
.
4.4.1 Metodo de Rejei cao
Considere uma densidade auxiliar q() da qual sabemos gerar valores. A unica res-
tri c ao e que exista uma constante A nita tal que p(|x) < Aq(). O metodo de
rejei c ao consiste em gerar um valor

da distribui c ao auxiliar q e aceitar este va-


lor como sendo da distribui c ao a posteriori com probabilidade p(|x)/Aq(). Caso
contrario,

nao e aceito como uma valor gerado da posteriori e o processo e repetido


ate que um valor seja aceito. O metodo tambem funciona se ao inves da posteriori,
que em geral e desconhecida, usarmos a sua vers ao nao normalizada, i.e p(x|)p().
Tomando a priori p() como densidade auxiliar a constante A deve ser tal que
p(x|) < A. Esta desigualdade e satisfeita se tomarmos A como sendo o valor m aximo
da fun c ao de verossimilhan ca, i.e. A = p(x|

) onde

e o estimador de m axima
verossimilhan ca de . Neste caso, a probabilidade de aceita c ao se simplica para
p(x|)/p(x|

).
Podemos entao usar o seguinte algoritmo para gerar valores da posteriori
1. gerar um valor

da distribui c ao a priori;
2. gerar u U(0, 1);
3. aceitar

como um valor da posteriori se u < p(x|

)/p(x|

), caso contrario
rejeitar

e retornar ao item 1.
Um problema tecnico associado ao metodo e a necessidade de se maximizar a
fun c ao de verossimilhan ca o que pode nao ser uma tarefa simples em modelos mais
complexos. Se este for o caso entao o metodo de rejei c ao perde o seu principal atrativo
que e a simplicidade. Neste caso, o metodo da proxima se c ao passa a ser recomendado.
48 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Outro problema e que a taxa de aceita c ao pode ser muito baixa, i.e. teremos que
gerar muitos valores da distribui c ao auxiliar ate conseguir um n umero suciente de
valores da posteriori. Isto ocorrer a se as informa c oes da priori e da verossimilhan ca
forem conitantes ja que neste caso os valores gerados terao baixa probabilidade de
serem aceitos.
Exemplo 4.4 : Suponha que X
1
, . . . , X
n
N(, 1) e assume-se uma priori Cau-
chy(0,1) para . A fun c ao de verossimilhan ca e
p(x|) exp[n( x )
2
/2]
e o estimador de m axima verossimilhan ca e

= x. Usando o algoritmo acima, gera-
se um valor da distribui c ao Cauchy(0,1) e a probabilidade de aceita c ao neste caso
ca simplesmente exp[n( x )
2
/2]. A fun c ao do R abaixo obtem uma amostra de
tamanho m de e como ilustra c ao vamos gerar 50 observa c oes da N(2,1).
rej = function(x,m){
x.bar = mean(x)
n = length(x)
# theta = rcauchy(m,2,1)
theta = rcauchy(m,0,1)
u = runif(m,0,1)
peso = exp(-0.5*n*(theta-x.bar)**2)
acc.theta = theta[u<peso]
acc=mean(u<peso)
cat(\nTaxa de aceitacao,acc,\n)
return(list(acc=acc,theta=theta,acc.theta=acc.theta))
}
x=rnorm(50,2,1)
m=rej(x,1000)
Taxa de aceitacao 0.018
Note que a taxa de aceita c ao e extremamente baixa, somente 18 dentre 1000
valores de foram aceitos o que constitui uma amostra muito pequena. Isto ocorreu
devido ao conito entre verossimilhan ca e priori. O problema e ilustrado na Figura
4.3 onde se pode notar que a maioria dos valores de foi gerada em regi oes de baixa
verossimilhan ca.
Mudando a priori para Cauchy(2,1) obtem-se uma taxa de aceita c ao em torno de
10% o que ainda constitui uma amostra pequena. Na verdade o n umero de simula c oes
deveria ser no mnimo 10000 neste caso.
4.4.2 Reamostragem Ponderada
Estes metodos usam a mesma ideia de gerar valores de uma distribui c ao auxiliar
porem sem a necessidade de maximiza c ao da verossimilhan ca. A desvantagem e que
os valores obtidos s ao apenas aproximadamente distribuidos segundo a posteriori.
4.4. M

ETODOS DE REAMOSTRAGEM 49
4 2 0 2 4 6
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
0
.
3
0
0
.
3
5

Figura 4.3: Verossimilhan ca normalizada e densidade a priori juntamente com valores simu-
lados.
Suponha que temos uma amostra
1
, . . . ,
n
gerada da distribui c ao auxiliar q e a
partir dela construimos os pesos
w
i
=
p(
i
|x)/q(
i
)

n
j=1
p(
j
|x)/q(
j
)
, i = 1, . . . , n
O metodo consiste em tomar uma segunda amostra (ou reamostra) de tamanho m da
distribui c ao discreta em
1
, . . . ,
n
com probabilidades w
1
, . . . , w
n
. Aqui tambem nao
e necessario que se conhe ca completamente a posteriori mas apenas o produto priori
vezes verossimilhan ca ja que neste caso os pesos nao se alteram.
Tomando novamente a priori como densidade auxiliar, i.e. q() = p() os pesos se
simplicam para
w
i
=
p(x|
i
)

n
j=1
p(x|
j
)
, i = 1, . . . , n
e o algoritmo para gera c ao de valores (aproximadamente) da posteriori entao ca
1. gerar valores
1
, . . . ,
n
da distribui c ao a priori;
2. calcular os pesos w
i
, i = 1, . . . , n;
3. reamostrar valores com probabilidades w
1
, . . . , w
n
.
Este metodo e essencialmente um bootstrap ponderado. O mesmo problema de in-
forma c oes conitantes da priori e da verossimilhan ca pode ocorrer aqui. Neste caso,
apenas poucos valores gerados da priori ter ao alta probabilidade de aparecerem na
reamostra.
50 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Exerccios
1. Em um modelo de regress ao linear simples temos que y
i
N(x
i
, 1). Os dados
observados s ao y = (2, 0, 0, 0, 2) e x = (2, 1, 0, 1, 2), e usamos uma priori
vaga N(0, 4) para . Fa ca inferencia sobre obtendo uma amostra da poste-
riori usando reamostragem ponderada. Compare com a estimativa de m axima
verossimilhan ca

= 0, 8.
2. Para o mesmo modelo do exerccio 1 e os mesmos dados suponha agora que a
vari ancia e desconhecida, i.e. y
i
N(x
i
,
2
). Usamos uma priori hierarquica
para (,
2
), i.e. |
2
N(0,
2
) e
2
G(0, 01, 0, 01).
(a) Obtenha uma amostra da posteriori de (,
2
) usando reamostragem pon-
derada.
(b) Baseado nesta amostra, fa ca um histograma das distribui c oes marginais de
e
2
.
(c) Estime e
2
usando uma aproxima c ao para a media a posteriori. Com-
pare com as estimativas de m axima verossimilhan ca.
4.5 Monte Carlo via cadeias de Markov
Em todos os metodos de simula c ao vistos ate agora obtem-se uma amostra da distri-
bui c ao a posteriori em um unico passo. Os valores s ao gerados de forma independente
e nao ha preocupa c ao com a convergencia do algoritmo, bastando que o tamanho da
amostra seja sucientemente grande. Por isso estes metodos s ao chamados n ao itera-
tivos (n ao confundir itera c ao com intera c ao). No entanto, em muitos problemas pode
ser bastante difcil, ou mesmo impossvel, encontrar uma densidade de import ancia
que seja simultaneamente uma boa aproxima c ao da posteriori e facil de ser amostrada.
Os metodos de Monte Carlo via cadeias de Markov (MCMC) s ao uma alterna-
tiva aos metodos nao iterativos em problemas complexos. A ideia ainda e obter uma
amostra da distribui c ao a posteriori e calcular estimativas amostrais de caractersticas
desta distribui c ao. A diferen ca e que aqui usaremos tecnicas de simula c ao iterativa,
baseadas em cadeias de Markov, e assim os valores gerados nao ser ao mais indepen-
dentes.
Nesta se c ao ser ao apresentados os metodos MCMC mais utilizados, o amostrador
de Gibbs e o algoritmo de Metropolis-Hastings. A ideia basica e simular um passeio
aleat orio no espa co de que converge para uma distribui c ao estacionaria, que e a
distribui c ao de interesse no problema. Uma discuss ao mais geral sobre o tema pode
ser encontrada por exemplo em Gamerman (1997) e Gamerman and Lopes (2006).
4.5.1 Cadeias de Markov
Uma cadeia de Markov e um processo estoc astico {X
0
, X
1
, . . . } tal que a distribui c ao
de X
t
dados todos os valores anteriores X
0
, . . . , X
t1
depende apenas de X
t1
. Ma-
4.5. MONTE CARLO VIA CADEIAS DE MARKOV 51
tematicamente,
P(X
t
A|X
0
, . . . , X
t1
) = P(X
t
A|X
t1
)
para qualquer subconjunto A. Os metodos MCMC requerem ainda que a cadeia seja,
homogenea, i.e. as probabilidades de transi c ao de um estado para outro s ao
invariantes;
irredutvel, i.e. cada estado pode ser atingido a partir de qualquer outro em um
n umero nito de itera c oes;
aperi odica, i.e. nao haja estados absorventes.
e os algoritmos que ser ao vistos aqui satisfazem a estas condi c oes.
Suponha que uma distribui c ao (x), x R
d
seja conhecida a menos de uma
constante multiplicativa porem complexa o bastante para nao ser possvel obter uma
amostra diretamente. Dadas as realiza c oes {X
(t)
, t = 0, 1, . . . } de uma cadeia de
Markov que tenha como distribui c ao de equilibrio entao, sob as condi c oes acima,
X
(t)
t
(x) e
1
n
n

t=1
g(X
(t)
i
)
n
E

(g(X
i
)) q.c.
Ou seja, embora a cadeia seja por deni c ao dependente a media aritmetica dos valores
da cadeia e um estimador consistente da media te orica.
Uma quest ao importante de ordem pratica e como os valores iniciais inuenciam
o comportamento da cadeia. A ideia e que conforme o n umero de itera c oes aumenta,
a cadeia gradualmente esquece os valores iniciais e eventualmente converge para uma
distribui c ao de equilbrio. Assim, em aplica c oes pr aticas e comum que as itera c oes
iniciais sejam descartadas, como se formassem uma amostra de aquecimento.
4.5.2 Acuracia Numerica
Na pratica teremos um n umero nito de itera c oes e tomando
g =
1
n
n

t=1
g(X
(t)
i
)
como estimativa da E(g(X
i
)) devemos calcular o seu erro padr ao. Como a sequencia
de valores gerados e dependente pode-se mostrar que
V ar( g) =
s
2
n
_
1 + 2
n

k=1
_
1
k
n
_

k
_
sendo s
2
a vari ancia amostral e
k
a autocorrela c ao amostral de ordem k. Se
k
> 0
k entao V ar( g) > s
2
/n. Uma forma muito utilizada para o c alculo da vari ancia do
estimador e o metodo dos lotes aonde os valores da cadeia sao divididos em k lotes
de tamanho m e cada lote tem media B
i
. O erro padr ao de g e entao estimado como

_
1
k(k 1)
k

i=1
(B
i
B)
2
52 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
sendo m escolhido de modo que a correla c ao serial de ordem 1 entre as medias dos
lotes seja menor do que 0,05.
Nas proximas se c oes ser ao apresentados e discutidos os algoritmos MCMC mais
comumente utilizados.
4.5.3 Algoritmo de Metropolis-Hastings
Os algoritmos de Metropolis-Hastings usam a mesma ideia dos metodos de rejei c ao
vistos no captulo anterior, i.e. um valor e gerado de uma distribui c ao auxiliar e aceito
com uma dada probabilidade. Este mecanismo de corre c ao garante que a convergencia
da cadeia para a distribui c ao de equilibrio, que neste caso e a distribui c ao a posteriori.
Suponha que a cadeia esteja no estado e um valor

e gerado de uma distribui c ao


proposta q(|). Note que a distribui c ao proposta pode depender do estado atual da
cadeia, por exemplo q(|) poderia ser uma distribui c ao normal centrada em . O
novo valor

e aceito com probabilidade


(,

) = min
_
1,
(

) q(|

)
() q(

|)
_
. (4.2)
onde e a distribui c ao de interesse.
Uma caracterstica importante e que s o precisamos conhecer parcialmente, i.e.
a menos de uma constante ja que neste caso a probabilidade (4.2) nao se altera. Isto
e fundamental em aplica c oes Bayesianas aonde nao conhecemos completamente a
posteriori. Note tambem que a cadeia pode permanecer no mesmo estado por muitas
itera c oes e na pratica costuma-se monitorar isto calculando a porcentagem media de
itera c oes para as quais novos valores s ao aceitos.
Em termos praticos, o algoritmo de Metropolis-Hastings pode ser especicado
pelos seguintes passos,
1. Inicialize o contador de itera c oes t = 0 e especique um valor inicial
(0)
.
2. Gere um novo valor

da distribui c ao q(|).
3. Calcule a probabilidade de aceita c ao (,

) e gere u U(0, 1).


4. Se u entao aceite o novo valor e fa ca
(t+1)
=

, caso contrario rejeite e


fa ca
(t+1)
= .
5. Incremente o contador de t para t + 1 e volte ao passo 2.
Embora a distribui c ao proposta possa ser escolhida arbitrariamente na pratica
deve-se tomar alguns cuidados para garantir a eciencia do algoritmo. Em aplica c oes
Bayesianas a distribui c ao de interesse e a propria posteriori, i.e. = p(|x) e a
probabilidade de aceita c ao assume uma forma particular,
(,

) = min
_
1,
p(x|

)
p(x|)
p(

)
p()
q(|

)
q(

|)
_
. (4.3)
O algoritmo ser a ilustrado nos exemplos a seguir.
4.5. MONTE CARLO VIA CADEIAS DE MARKOV 53
Exemplo 4.5 : Em uma certa popula c ao de animais sabe-se que cada animal pode
pertencer a uma dentre 4 linhagens geneticas com probabilidades
p
1
=
1
2
+

2
, p
2
=
1
4
, p
3
=
1
4
, p
4
=

4
.
sendo 0 < < 1 um par ametro desconhecido. Para qualquer (0, 1) e facil vericar
que p
i
> 0, i = 1, 2, 3, 4 e p
1
+ p
2
+ p
3
+ p
4
= 1. Observando-se n animais dentre
os quais y
i
pertencem `a linhagem i entao o vetor aleat orio Y = (y
1
, y
2
, y
3
, y
4
) tem
distribui c ao multinomial com par ametros n, p
1
, p
2
, p
3
, p
4
e portanto,
p(y|) =
n!
y
1
!y
2
!y
3
!y
4
!
p
y
1
1
p
y
2
2
p
y
3
3
p
y
4
4
(2 +)
y
1
(1 )
y
2
+y
3

y
4
.
Atribuindo uma priori U(0, 1) segue que a posteriori e proporcional `a expressao
acima. Tomando a distribui c ao U(0, 1) como proposta entao q() = 1, e a
probabilidade (4.3) se simplica para
(,

) = min
_
1,
p(x|

)
p(x|)
_
= min
_
1,
_
2 +

2 +
_
y
1
_
1

1
_
y
2
+y
3
_

_
y
4
_
.
Foram observados 197 animais com os n umeros de animais nas categorias dados por
y = (125, 18, 20, 34) e foi gerada uma cadeia de Markov com 1000 valores de . Os
valores simulados e as primeiras 30 autocorrela c oes amostrais de est ao na Figura
4.4. A cadeia parece ter convergido ap os algumas itera c oes e podemos descartar os
100 primeiros valores (esta foi a nossa amostra de aquecimento). Note tambem que a
cadeia e altamente correlacionada ao longo das itera c oes e isto e devido a alta taxa de
rejei c ao por causa da escolha de q. Os resultados foram obtidos usando os comandos
do R a seguir.
p = function(x,y) (2+x)^y[1] * (1-x)^(y[2]+y[3]) * x^y[4]
metr = function(n,y,p,start){
theta = matrix(NA, nrow=n)
theta[1] = start
for (i in 2:n) {
x = runif(1)
A = p(x,y)/p(theta[i-1],y)
prob = min(1,A)
u = runif(1)
taxa= 0
if (u < prob) {
theta[i] = x
taxa = taxa + 1
}
else theta[i] = theta[i-1]
54 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
}
taxa = taxa/n
return(list(theta=theta,taxa=round(taxa,2)))
}
0 200 400 600 800 1000
0
.
2
0
.
3
0
.
4
0
.
5
0
.
6
0
.
7
iteracoes

(a)
0 5 10 15 20 25 30
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
defasagens
a
u
t
o
c
o
r
r
e
l
a
c
o
e
s
(b)

f
r
e
q
u
e
n
c
i
a
s
0.50 0.55 0.60 0.65 0.70 0.75
0
5
1
0
1
5
(c)
Figura 4.4: (a) 1000 valores simulados de . (b) 30 primeiras autocorrela c oes amostrais ap os
aquecimento. (c) histograma dos valores simulados ap os aquecimento.
Exemplo 4.6 : Suponha que queremos simular valores X N(0, 1) propondo valores
Y N(x,
2
). Neste caso as densidades propostas no numerador e denominador de
(4.2) se cancelam e a probabilidade de aceita c ao ca
(x, y) = min
_
1, exp
_

1
2
(y
2
x
2
)
__
.
Fixando os valores = 0.5 e = 10 foram simuladas as cadeias que aparecem na
Figura 4.5. Note que o valor de teve um grande impacto na taxa de aceita c ao do
4.5. MONTE CARLO VIA CADEIAS DE MARKOV 55
algoritmo. Isto ocorre porque com = 0.5 a distribui c ao proposta est a muito mais
proxima da distribui c ao de interesse do que com = 10.
metrop = function(n,sigma){
x = matrix(NA,nrow=n)
x[1] = 0
for (i in 2:n){
y = rnorm(1,x[i-1],sigma)
prob = min(1,exp(-0.5*(y^2-x[i-1]^2)))
u = runif(1)
if (u < prob) x[i] = y else x[i] = x[i-1]
}
return(x)
}
Nos Exemplos 4.5 e 4.6 foram ilustrados casos especiais do algoritmo nos quais a
distribui c ao proposta nao depende do estado atual ou a dependencia e na forma de
um passeio aleat orio. Estes casos s ao formalizados a seguir.
4.5.4 Casos Especiais
Um caso particular e quando a distribui c ao proposta nao depende do estado atual da
cadeia, i.e. q(

|) = q(

). Em geral, q() deve ser uma boa aproxima c ao de (),


mas e mais seguro se q() tiver caudas mais pesadas do que (). A probabilidade de
aceita c ao agora ca,
(x, x

) = min
_
1,
(x

) q(x)
(x) q(x

)
_
. (4.4)
Note que embora os valores x

sejam gerados de forma independente a cadeia resul-


tante nao ser a iid ja que a probabilidade de aceita c ao ainda depende de x.
Outro caso particular e chamado algoritmo de Metropolis e considera apenas pro-
postas simetricas, i.e., q(

|) = q(|

) para todos os valores de e

. Neste caso a
probabilidade de aceita c ao se reduz para
(,

) = min
_
1,
(

)
()
_
.
Um algoritmo de Metropolis muito utilizado e baseado em um passeio aleat orio de
modo que a probabilidade da cadeia mover-se de para

depende apenas da dist ancia


entre eles, i.e. q(

|) = q(|

|). Neste caso, se usarmos uma distribui c ao proposta


com vari ancia
2
duas situa c oes extremas podem ocorrer,
1. se
2
for muito pequena os valores gerados estar ao proximos do valor atual e
quase sempre ser ao aceitos. Mas levar a muitas itera c oes ate o algoritmo cobrir
todo o espa co do par ametro;
2. valores grandes de
2
levam a uma taxa de rejei c ao excessivamente alta e a
cadeia se movimenta muito pouco.
56 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Nas duas situa c oes o algoritmo ca ineciente e na pratica temos que tentar v arios
valores de
2
.
De um modo geral = (
1
, . . . ,
d
)

ser a um vetor de par ametros de dimens ao


d. Neste caso, pode ser computacionalmente mais eciente dividir em k blocos
{
1
, . . . ,
k
} e dentro de cada itera c ao teremos o algoritmo aplicado k vezes. Denindo
o vetor x
i
= (x
1
, . . . , x
i1
, x
i+1
, . . . , x
k
) que contem todos os elementos de x exceto
x
i
suponha que na itera c ao t + 1 os blocos 1, 2, . . . , i 1 ja foram atualizados, i.e.
x
i
= (x
(t+1)
1
, . . . , x
(t+1)
i1
, x
(t)
i+1
, . . . , x
(t)
k
).
Para atualizar a i-esima componente, um valor de x
i
e gerado da distribui c ao proposta
q(|x
i
, x
i
) e este valor candidato e aceito com probabilidade
(x
i
, x

i
) = min
_
1,
(x

i
|x
i
) q(x
i
|x

i
, x
i
))
(x
i
|x
i
) q(x

i
|x
i
, x
i
)
_
. (4.5)
Aqui, (x
i
|x
i
) e chamada de distribui c ao condicional completa como ser a visto na
proxima se c ao.
Exerccios
1. Assumindo que a distribui c ao estacionaria e N(0, 1),
(a) fa ca 500 itera c oes do algoritmo de Metropolis com distribui c oes propostas
N(; 0, 5), N(; 0, 1) e N(, 10).
(b) fa ca os gr acos dos valores das cadeias ao longo das itera c oes. Existe
alguma indica c ao de convergencia nos gr acos?
(c) Calcule as taxas de aceita c ao.
2. Suponha que a distribui c ao estacionaria e N(0, 1).
(a) Para distribui c oes propostas Cauchy(0, ), selecione experimentalmente o
valor de que maximiza a taxa de aceita c ao.
(b) Para este valor de fa ca os gr acos dos valores simulados da cadeia ao
longo das itera c oes e verique se ha indica c ao de convergencia.
(c) Repita os itens anteriores com a distribui c ao proposta Cauchy(, ).
4.5. MONTE CARLO VIA CADEIAS DE MARKOV 57
0 100 200 300 400 500

1
0
1
2
3
(a)
0 100 200 300 400 500

1
0
1
2
(b)
Figura 4.5: 1000 valores simulados para o Exemplo 4.6 usando o algoritmo de Metropolis-
Hastings com (a) = 0.5 e (b) = 10.
58 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
4.5.5 Amostrador de Gibbs
No amostrador de Gibbs a cadeia ir a sempre se mover para um novo valor, i.e nao
existe mecanismo de aceita c ao-rejei c ao. As transi c oes de um estado para outro s ao
feitas de acordo com as distribui c oes condicionais completas (
i
|
i
), onde
i
=
(
1
, . . . ,
i1
,
i+1
, . . . ,
d
)

.
Em geral, cada uma das componentes
i
pode ser uni ou multidimensional. Por-
tanto, a distribui c ao condicional completa e a distribui c ao da i-esima componente de
condicionada em todas as outras componentes. Ela e obtida a partir da distribui c ao
conjunta como,
(
i
|
i
) =
()
_
()d
i
.
Assim, para obter a distribui c ao condicional completa de x
i
basta pegar os termos da
distribui c ao conjunta que nao dependem de x
i
.
Exemplo 4.7 : Em um modelo Bayesiano para os dados y que depende dos par ametros
, e suponha que a distribui c ao conjunta e dada por
p(y, , , ) p(y|, )p(|)p()p().
Ap os observar y as distribui c oes a posteriori de cada par ametro dados todos os outros
s ao
(|y, , ) p(y|, )p(|)
(|y, , ) p(|)p()
(|y, , ) p(y|, )p().
Em muitas situa c oes, a gera c ao de uma amostra diretamente de () pode ser
custosa, complicada ou simplesmente impossvel. Mas se as distribui c oes condicionais
completas forem completamente conhecidas, entao o amostrador de Gibbs e denido
pelo seguinte esquema,
1. inicialize o contador de itera c oes da cadeia t = 0;
2. especique valores iniciais
(0)
= (
(0)
1
, . . . ,
(0)
d
)

;
3. obtenha um novo valor de
(t)
a partir de
(t1)
atraves da gera c ao sucessiva
dos valores

(t)
1
(
1
|
(t1)
2
,
(t1)
3
, . . . ,
(t1)
d
)

(t)
2
(
2
|
(t)
1
,
(t1)
3
, . . . ,
(t1)
d
)
.
.
.

(t)
d
(
d
|
(t)
1
,
(t)
2
, . . . ,
(t)
d1
)
4.5. MONTE CARLO VIA CADEIAS DE MARKOV 59
4. Incremente o contador de t para t+1 e retorne ao passo 2 ate obter convergencia.
Assim, cada itera c ao se completa ap os d movimentos ao longo dos eixos coordenados
das componentes de . Ap os a convergencia, os valores resultantes formam uma
amostra de (). Vale notar que, mesmo em problema de grandes dimens oes todas
as simula c oes podem ser univariadas, o que em geral e uma vantagem computacional.
Note tambem que o amostrador de Gibbs e um caso especial do algoritmo de
Metropolis-Hastings, no qual os elementos de s ao atualizados um de cada vez (ou em
blocos), tomando a distribui c ao condicional completa como proposta e probabilidade
de aceita c ao igual a 1.
Mais detalhes sobre o amostrado de Gibbs e outros algoritmos relacionados podem
ser obtidos, por exemplo, em Gamerman (1997, Captulo 5) e Robert e Casella (1999,
Captulo 7).
Exemplo 4.8 : Suponha que Y
1
, . . . , Y
n
N(,
2
) com e
2
desconhecidos. De-
nindo =
2
a fun c ao de verossimilhan ca e dada por
p(y|, )
n/2
exp
_

2
n

i=1
(y
i
)
2
_
e especicando prioris independentes N(0, s
2
) e Gama(a, b) segue que
p(, |y) p(y|, )p()p()

n/2
exp
_

2
n

i=1
(y
i
)
2
_
exp
_

2
2s
2
_

a1
e
b
.
Esta distribui c ao conjunta nao tem forma padr ao mas as condicionais completas s ao
faceis de obter,
p(|y, ) exp
_

2
n

i=1
(y
i
)
2
_
exp
_

2
2s
2
_
exp
_

1
2
(n s
2
)
2
2 y)
_
exp
_

1
2C
( m)
2
_
onde C
1
= n +s
2
e m = C y e
p(|y, )
a+n/21
exp
_

_
b +
1
2
n

i=1
(y
i
)
2
__
.
Segue entao que
|y, N(m, C)
|y, Gama
_
a +n/2, b +
1
2
n

i=1
(y
i
)
2
_
e o amostrador de Gibbs pode ser implementado facilmente gerando valores destas
distribui c oes alternadamente.
60 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Exemplo 4.9 : Em um processo de contagem no qual foram observados Y
1
, . . . , Y
n
suspeita-se que houve um ponto de mudan ca m tal que
Y
i
Poisson(), i = 1, . . . , m
Y
i
Poisson(), i = m+ 1, . . . , n.
O objetivo e estimar o ponto de mudan ca m e os par ametros dos 2 processos de
Poisson. Assumindo-se as distribui c oes a priori independentes Gama(a, b),
Gama(c, d) e p(m) = 1/n, a densidade a posteriori ca
p(, , m|y)
m

i=1
e

y
i
n

i=m+1
e

y
i

a1
e
b

c1
e
d
1
n

a+t
1
1
e
(b+m)

c+t
2
1
e
(d+nm)
1
n
sendo t
1
=

m
i=1
y
i
e t
2
=

n
i=m+1
y
i
. Neste caso nao e difcil vericar que as
distribui c oes condicionais completas cam
p(|, m, y)
a+t
1
1
e
(b+m)
ou |, m, y Gama(a +t
1
, b +m)
p(|, m, y)
c+t
2
1
e
(d+nm)
ou |, m, y Gama(c +t
2
, d +n m)
p(m|, , y)
t
1
e
m

t
2
e
(nm)
, m = 1, . . . , n.
A fun c ao do R abaixo obtem uma amostra da posteriori conjunta simulando valores
destas condicionais completas.
Gibbs = function(a,b,c,d,y,n,nburn=n/2){
# Amostrador de Gibbs para dados Poisson com mudan ca de regime.
# n: num. de simulacoes, nburn: aquecimento
# a,b,c,d parametros das prioris Gama
N = length(y) # num. de observacoes
lambda = phi = m = matrix(0, nrow=n)
# valores iniciais
lambda[1] = 1; phi[1] = 1; m[1] = 10
for (i in 2:n){
t1 = sum(y[1:m[i-1]])
t2 = 0
if (m[i-1] < N) t2 = sum(y[(m[i-1]+1):N])
lambda[i] = rgamma(1,(a + t1), (b + m[i-1]))
phi[i] = rgamma(1,(c + t2), (d + N-m[i-1]))
prob = NULL
for (j in 1:N){
t1 = sum(y[1:j])
4.6. PROBLEMAS DE DIMENS

AO VARI

AVEL 61
t2 = 0
if (j < N) {t2 = sum(y[(j+1):N])}
aux=(lambda[i]^t1)*exp(-j*lambda[i])*(phi[i]^t2)*exp(-(N-j)*phi[i])
prob = c(prob,aux)
}
soma = sum(prob)
probm = prob/soma
m[i] = sample(x=N, size=1, prob=probm)
}
print(round(table(m[nburn+1:n])/(n-nburn),6))
return(list(lambda=lambda, phi=phi, m=m))
}
4.6 Problemas de Dimensao Variavel
Em muitas aplica c oes praticas e razo avel assumir que existe incerteza tambem em
rela c ao ao modelo que melhor se ajusta a um conjunto de dados. Do ponto de
vista Bayesiano esta incerteza e simplesmente incorporada ao problema de inferencia
considerando-se o proprio modelo como mais um par ametro desconhecido a ser esti-
mado. Assim os diferentes modelos ter ao uma distribui c ao de probabilidades.
Para isto vamos criar uma vari avel aleat oria discreta k que funciona como indica-
dor de modelo e atribuir probabilidades a priori p(k) para cada modelo. Alem disso,
para cada k existe um vetor de par ametros
(k)
R
n
k
com
uma verossimilhan ca p(y|
(k)
, k)
uma distribui c ao a priori p(
(k)
|k).
Se M e conjunto de todos os possveis modelos (ou modelos candidatos), entao as
probabilidades a posteriori de cada possvel modelo s ao dadas por
(k|y) =
p(k) p(y|k)

kM
p(k) p(y|k)
, k M
sendo p(y|k) a verossimilhan ca marginal obtida como
p(y|k) =
_
p(y|, k)p(|k)d.
O problema aqui e que esta ultima integral s o e analiticamente tratavel em alguns
casos restritos. Alem disso, se o n umero de modelos candidatos for muito grande
calcular (ou aproximar) p(y|k) pode ser invi avel na pratica.
Por outro lado, se for especicada a distribui c ao de interesse como a seguinte
posteriori conjunta,
(, k|y) p(y|, k) p(|k) p(k)
62 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
e conseguirmos simular valores desta distribui c ao entao automaticamente teremos
uma amostra aproximada de (k|y) e (|k, y).
Note que neste caso estamos admitindo que a dimens ao de pode variar ao longo
dos modelos e precisamos entao construir uma cadeia com espa co de estados que
muda de dimens ao ao longo das itera c oes. Os algoritmos de Metropolis-Hastings e o
amostrador de Gibbs nao podem ser utilizados ja que s ao denidos apenas para dis-
tribui c oes com dimens ao xa. Embora existam outras possibilidades iremos estudar
os algoritmos MCMC com saltos reversveis (Green 1995) que s ao particularmente
uteis no contexto de sele c ao Bayesiana de modelos.
4.6.1 MCMC com Saltos Reversveis (RJMCMC)
Este algoritmo e baseado na abordagem usual dos metodos de Metropolis-Hastings de
propor um novo valor para a cadeia e denir uma probabilidade de aceita c ao. No en-
tanto, os movimentos podem ser entre espa cos de dimens oes diferentes como veremos
a seguir. Em cada itera c ao o algoritmo envolve a atualiza c ao dos par ametros, dado o
modelo, usando os metodos MCMC usuais discutidos anteriormente e a atualiza c ao
da dimens ao usando o seguinte procedimento.
Suponha que o estado atual e (k, ), i.e. estamos no modelo k com par ametros
e um novo modelo k

com par ametros

e proposto com probabilidade r


k,k
. Em
geral isto signica incluir ou retirar par ametros do modelo atual. Vamos assumir
inicialmente que o modelo proposto tem dimens ao maior, i.e. n
k
> n
k
e que

=
g(, u) para uma fun c ao deterministica g e um vetor aleat orio u q(u) com dimens ao
n
k
n
k
. Entao o seguinte algoritmo e utilizado,
proponha (k, ) (k

) com probabilidade r
k,k

gere u q(u) com dimens ao n


k
n
k
fa ca

= g(, u),
aceite (k

) com probabilidade min(1, A) sendo


A =
(k

)
(k, )

r
k

,k
r
k,k
q(u)

g(, u)
(, u)

.
Exemplo 4.10 : Sejam Y
1
, . . . , Y
n
os tempos de vida de componentes eletr onicos
sorteados ao acaso e existe incerteza em rela c ao a distribui c ao dos dados. Sabe-se que
Y
i
Exp() (Modelo 1) ou Y
i
Gama(, ) (Modelo 2), i = 1, . . . , n.
Suponha que atribuimos a priori p(k) = 1/2 para o indicador de modelo e as seguintes
prioris foram atribuidas aos par ametros dentro de cada modelo,
|k = 1 Gama(2, 1) |k = 2 Gama(4, 2) e |k = 2 Gama(4, 2).
4.6. PROBLEMAS DE DIMENS

AO VARI

AVEL 63
Dado o modelo, as fun c oes de verossimilhan ca cam
p(y|, k = 1) =
n
e

P
y
i
p(y|, , k = 2) =

n

n
()

y
1
i
e

P
y
i
as condicionais completas s ao facilmente obtidas como
|y, , , k = 1 Gama(n + 2, 1 +

y
i
)
|y, , , k = 2 Gama(n + 4, 2 +

y
i
)
p(|y, , , k = 2)

n

n
()

y
1
i

3
e
2
A condicional completa de nao e conhecida entao vamos usar o algoritmo de
Metropolis-Hastings propondo valores

U[, +]. A fun c ao a seguir atualiza


o valor de segundo este esquema.
mh.alpha = function(y,n,alpha,beta,eps){
z = runif(1, alpha - eps, alpha + eps)
if (z <= 0) { acc = 0 } # rejeita o novo valor
else {
t1 = prod(y)
num = beta^{n*z } * t1^{z-1 }/(gamma(z )^n)
den = beta^{n*alpha} * t1^{alpha-1}/(gamma(alpha)^n)
num = num * exp(-2*z ) * z^3
den = den * exp(-2*alpha) * alpha^3
}
aceita = min(1,num/den) # prob. aceitacao
u = runif(1)
if (u < aceita) newalpha = z else newalpha = alpha
newalpha
}
Suponha que o modelo atual e Exp() e queremos propor o modelo Gama(, ). Um
possivel esquema de atualiza c ao e o seguite,
1. gere u Gama(a, b)
2. dena (, ) = g(, u) = (u, u)
3. calcule o Jacobiano,

0 1
u

= u
4. aceite o novo modelo com probabilidade min(1, A) sendo
A =
p(y | , , k = 2)
p(y | , k = 1)
p()p()
p()
u
q(u)
64 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
Note que transforma c ao no item (2) preserva a media, ou seja E(Y ) = 1/ sob o
modelo exponencial e E(Y ) = u/u = 1/ sob o modelo gama.
Se o modelo atual for Gama(, ) e propomos o modelo Exp() o esquema reverso
consiste em fazer (, u) = g
1
(, ) = (/, ). A probabilidade de aceita c ao e
simplesmente min(1, 1/A) substituindo u = .
rj.modelo = function(y,n,lambda,alpha,beta,model,a,b){
if (model == 1) {
u = rgamma(1,a,b)
alpha1 = u
beta1 = lambda*u
lambda1 = lambda
}
else {
lambda1 = beta/alpha
alpha1 = alpha
beta1 = beta
u = alpha
}
t1 = prod(y); t2 = sum(y)
num = beta1^{n*alpha1}*t1^{alpha1-1}*exp(-beta1*t2)/(gamma(alpha1)^n)
num = num * 2^4 * alpha1^3 * exp(-2*alpha1)/gamma(4)
num = num * 2^4 * beta1^3 * exp(-2* beta1)/gamma(4) * alpha1
den = (lambda1^n) * exp(-lambda1*t2)
den = den * lambda1 * exp(-lambda1)/gamma(2)
den = den * b^a * u^{a-1} * exp(-b*u)/gamma(a)
u = runif(1)
if (model == 1) {
aceita = min(1,num/den)
if (u < aceita) {
model = 2
alpha = alpha1
beta = beta1
}
}
else {
aceita = min(1,den/num)
if (u < aceita) {
model = 1
lambda = lambda1
}
}
if (model == 1) return(list(model=model, lambda=lambda))
else return(list(model=model, alpha=alpha, beta=beta))
4.6. PROBLEMAS DE DIMENS

AO VARI

AVEL 65
}
Finalmente o algoritmo pode ser implementado para atualizar tanto o modelo quanto
os par ametros dentro do modelo.
rjmcmc = function(niter,nburn,y,n,a,b,eps=0.25){
x = matrix(0, nrow=niter+1, ncol=3)
x1 = matrix(0, nrow=niter-nburn, ncol=3)
nv = array(0,2); nv1= array(0,2)
# valores iniciais
x[1,(1:3)] = c(1,1,1); model = 1
# atualizando os parametros, dado o modelo (1- Exp; 2- Gamma)
t1 = prod(y); t2 = sum(y)
for (i in 1:niter){
if (model == 1){ x[nv[1]+1,1] = rgamma(1, n + 2, t2 + 1) }
else {
x[nv[2]+1,3] = rgamma(1, 4 + n*x[nv[2],2], t2 + 2)
x[nv[2]+1,2] = mh.alpha(y,n,x[nv[2],2],x[nv[2]+1,3],eps)
}
# atualizando o modelo
new = rj.modelo(y,n,x[nv[1]+1,1],x[nv[2]+1,2],x[nv[2]+1,3],model,a,b)
model = new$model
if (model == 1) {
x[nv[1]+1,1] = new$lambda
nv[1] = nv[1] + 1
if (i > nburn) {
x1[nv1[1]+1,1] = new$lambda
nv1[1] = nv1[1] + 1
}
}
else {
x[nv[2]+1,2] = new$alpha
x[nv[2]+1,3] = new$beta
nv[2] = nv[2] + 1
if (i > nburn) {
x1[nv1[2]+1,2] = new$alpha
x1[nv1[2]+1,3] = new$beta
nv1[2] = nv1[2] + 1
}
}
}
cat(Probabilidades a posteriori dos modelos,\n)
print(nv1/(niter-nburn))
cat(Medias a posteriori dos parametros,\n)
66 CAP

ITULO 4. COMPUTAC

AO BAYESIANA
somas = apply(x1,2,sum)
print(somas/c(nv1[1],nv1[2],nv1[2]))
return(list(x=x,nv=nv, x1=x1, nv1=nv1))
}
Vamos testar as fun c oes acima com o conjunto de dados que est a no arquivo gama1.dat.
y = scan(http://leg.est.ufpr.br/ce718/gama1.dat)
curve(dgamma(x,10,10),from=0,to=5)
curve(dgamma(x,1,1),from=0,to=5,add=T)
curve(dgamma(x,3,3),from=0,to=5,add=T)
m = rjmcmc(1000,500,y,10,1,1)
Probabilidades a posteriori dos modelos
[1] 0.718 0.282
Medias a posteriori dos parametros
[1] 1.247682 1.197084 1.516506
Assim o modelo exponencial tem probabilidade a posteriori bem maior que o modelo
gama. Podemos estar interessados em estimar os tempos medios de vida (E(Y )) sob
cada modelo.
r1 = 1:m$nv1[1]
r2 = 1:m$nv1[2]
# medias a posteriori dos tempos medios de vida
x = m$x1[,c(1,2)]
x[r1,1] = 1/m$x1[r1,1]
x[r2,2] = m$x1[r2,2]/m$x1[r2,3]
somas = apply(x,2,sum)
medias = somas/c(m$nv1[1],m$nv1[2])
medias
[1] 0.8672224 0.8244537
# Calculando uma estimativa ponderada do tempo medio de vida
prob = m$nv1/(niter-nburn)
prob[1]*medias[1] + prob[2]*medias[2]
[1] 0.8551617
4.7 Topicos Relacionados
4.7.1 Autocorrela cao Amostral
Em uma cadeia de Markov, os valores gerados s ao por deni c ao correlacionados ao
longo das itera c oes pois o valor de
(t)
foi gerado a partir de
(t1)
. Em muitas
4.7. T

OPICOS RELACIONADOS 67
situa c oes estes valores podem ser altamente correlacionados e em geral a autocor-
rela c ao ser a positiva. Ou seja pode nao haver muito ganho em termos de informa c ao
em se armazenar todos os valores simulados da cadeia e podemos estar desperdi cando
espa co em disco, especialmente se a dimens ao do problema for muito grande.
Embora nao tenha nenhuma justicativa te orica, uma abordagem pratica muito
utilizada consiste em guardar os valores simulados a cada k itera c oes. Neste caso,
dizemos que as simula c oes foram feitas com thinning igual a k. Por exemplo, se foram
feitas 100 mil simula c oes, descartadas as 50 mil primeiras e guardados os valores a
cada 10 itera c oes entao no nal as inferencias ser ao baseadas em uma amostra de
tamanho 5000.
Comentario
A nao ser para obter esta redu c ao de espa co ocupado em disco, descartar valores
simulados (alem daqueles da amostra de aquecimento) me parece um desperdcio.
Metodos de series temporais est ao disponveis para analisar cadeias levando em conta
as autocorrela c oes. Alem disso pode-se tentar outros amostradores que gerem cadeias
com menor autocorrela c ao amostral.
4.7.2 Monitorando a Convergencia
Aqui vale lembrar que a verica c ao de convergencia (ou falta de convergencia) e res-
ponsabilidade do analista. Alem disso estamos falando de convergencia para a distri-
bui c ao alvo, que neste caso e a distribui c ao a posteriori, o que pode ser extremamente
difcil de se vericar na pratica.
Apendice A
Lista de Distribui coes
Neste apendice s ao listadas as distribui c oes de probabilidade utilizadas no texto para
facilidade de referencia. Sao apresentadas suas fun c oes de (densidade) de probabili-
dade alem da media e vari ancia. Uma revis ao exaustiva de distribui c oes de probabili-
dades pode ser encontrada em Johnson et al. (1994), Johnson et al. (1995) e Johnson
et al. (1992).
A.1 Distribuicao Normal
X tem distribui c ao normal com par ametros e
2
, denotando-se X N(,
2
), se
sua fun c ao de densidade e dada por
p(x|,
2
) = (2
2
)
1/2
exp[(x )
2
/2
2
], < x < ,
para < < e
2
> 0. Quando = 0 e
2
= 1 a distribui c ao e chamada
normal padr ao. A distribui c ao log-normal e denida como a distribui c ao de e
X
.
No caso vetorial, X = (X
1
, . . . , X
p
) tem distribui c ao normal multivariada com
vetor de medias e matriz de vari ancia-covari ancia , denotando-se X N(, )
se sua fun c ao de densidade e dada por
p(x|, ) = (2)
p/2
||
1/2
exp[(x )

1
(x )/2]
para R
p
e positiva-denida.
A.2 Distribuicao Gama
X tem distribui c ao Gama com par ametros e , denotando-se X Ga(, ), se sua
fun c ao de densidade e dada por
p(x|, ) =

()
x
1
e
x
, x > 0,
para , > 0.
E(X) = / e V (X) = /
2
.
68
A.3. DISTRIBUIC

AO WISHART 69
Casos particulares da distribui c ao Gama s ao a distribui c ao de Erlang, Ga(, 1), a
distribui c ao exponencial, Ga(1, ), e a distribui c ao qui-quadrado com graus de
liberdade, Ga(/2, 1/2).
A.3 Distribuicao Wishart
Diz-se que uma matriz aleat oria (n n) segue uma distribui c ao Wishart com
par ametro e graus de liberdade, denotando-se W(, ), se sua fun c ao de
densidade e dada por,
p(|, ) ||
(n1)/2
exp((1/2)tr())
sendo n, positiva-denida e tr(A) indica o tra co de uma matriz A. Uma
propriedade util e que AA

W(AA

, ).
A.4 Distribuicao Gama Inversa
X tem distribui c ao Gama Inversa com par ametros e , denotando-se
X GI(, ), se sua fun c ao de densidade e dada por
p(x|, ) =

()
x
(+1)
e
/x
, x > 0,
para , > 0.
E(X) =

1
e V (X) =

2
( 1)
2
( 2)
.
N ao e difcil vericar que esta e a distribui c ao de 1/X quando X Ga(, ).
A.5 Distribuicao Wishart Invertida
Diz-se que uma matriz aleat oria (n n) segue uma distribui c ao Wishart-Invertida
com par ametro e graus de liberdade, denotando-se WI(, ) se sua fun c ao
de densidade e dada por,
p(|, ) ||
(+n+1)/2
exp((1/2)tr())
sendo n, positiva-denida e tr(A) indica o tra co de uma matriz A. N ao e difcil
vericar que
1
W(, ). Outra propriedade e que AA

WI(AA

, ).
A.6 Distribuicao Beta
X tem distribui c ao Beta com par ametros e , denotando-se X Be(, ), se sua
fun c ao de densidade e dada por
p(x|, ) =
( +)
()()
x
1
(1 x)
1
, 0 < x < 1,
70 AP

ENDICE A. LISTA DE DISTRIBUIC



OES
para , > 0.
E(X) =

+
e V (X) =

( +)
2
( + + 1)
.
A.7 Distribuicao de Dirichlet
O vetor aleat orio X = (X
1
, . . . , X
k
) tem distribui c ao de Dirichlet com par ametros

1
, . . . ,
k
, denotada por D
k
(
1
, . . . ,
k
) se sua fun c ao de densidade conjunta e dada
por
p(x|
1
, . . . ,
k
) =
(
0
)
(
1
), . . . , (
k
)
x

1
1
1
. . . x

k
1
k
,
k

i=1
x
i
= 1,
para
1
, . . . ,
k
> 0 e
0
=

k
i=1

i
.
E(X
i
) =

i

0
, V (X
i
) =
(
0

i
)
i

2
0
(
0
+ 1)
, e Cov(X
i
, X
j
) =

i

2
0
(
0
+ 1)
Note que a distribui c ao Beta e obtida como caso particular para k = 2.
A.8 Distribuicao t de Student
X tem distribui c ao t de Student (ou simplesmente t) com media , par ametro de escala
e graus de liberdade, denotando-se X t

(,
2
), se sua fun c ao de densidade e
dada por
p(x|, ,
2
) =
(( + 1)/2)
/2
(/2)

_
+
(x )
2

2
_
(+1)/2
, x R,
para > 0, R e
2
> 0.
E(X) = , para > 1 e V (X) =

2
, para > 2.
Um caso particular da distribui c ao t e a distribui c ao de Cauchy, denotada por C(,
2
),
que corresponde a = 1.
A.9 Distribuicao F de Fisher
X tem distribui c ao F com
1
e
2
graus de liberdade, denotando-se X F(
1
,
2
),
se sua fun c ao de densidade e dada por
p(x|
1
,
2
) =
((
1
+
2
)/2)
(
1
/2)(
2
/2)

1
/2
1

2
/2
2
x

1
/21
(
2
+
1
x)
(
1
+
2
)/2
x > 0, e para
1
,
2
> 0.
E(X) =

2

2
2
, para
2
> 2 e V (X) =
2
2
2
(
1
+
2
2)

1
(
2
4)(
2
2)
2
, para
2
> 4.
A.10. DISTRIBUIC

AO BINOMIAL 71
A.10 Distribuicao Binomial
X tem distribui c ao binomial com par ametros n e p, denotando-se X bin(n, p), se
sua fun c ao de probabilidade e dada por
p(x|n, p) =
_
n
x
_
p
x
(1 p)
nx
, x = 0, . . . , n
para n 1 e 0 < p < 1.
E(X) = np e V (X) = np(1 p)
e um caso particular e a distribui c ao de Bernoulli com n = 1.
A.11 Distribuicao Multinomial
O vetor aleat orio X = (X
1
, . . . , X
k
) tem distribui c ao multinomial com par ametros n
e probabilidades
1
, . . . ,
k
, denotada por M
k
(n,
1
, . . . ,
k
) se sua fun c ao de probabi-
lidade conjunta e dada por
p(x|
1
, . . . ,
k
) =
n!
x
1
!, . . . , x
k
!

x
1
1
, . . . ,
x
k
k
, x
i
= 0, . . . , n,
k

i=1
x
i
= n,
para 0 <
i
< 1 e

k
i=1

i
= 1. Note que a distribui c ao binomial e um caso especial
da multinomial quando k = 2. Alem disso, a distribui c ao marginal de cada X
i
e
binomial com par ametros n e
i
e
E(X
i
) = n
i
, V (X
i
) = n
i
(1
i
), e Cov(X
i
, X
j
) = n
i

j
.
A.12 Distribuicao de Poisson
X tem distribui c ao de Poisson com par ametro , denotando-se X Poisson(), se
sua fun c ao de probabilidade e dada por
p(x|) =

x
e

x!
, x = 0, 1, . . .
para > 0.
E(X) = V (X) = .
A.13 Distribuicao Binomial Negativa
X tem distribui c ao de binomial negativa com par ametros r e p, denotando-se X
BN(r, p), se sua fun c ao de probabilidade e dada por
p(x|r, p) =
_
r +x 1
x
_
p
r
(1 p)
x
, x = 0, 1, . . .
72 AP

ENDICE A. LISTA DE DISTRIBUIC



OES
para r 1 e 0 < p < 1.
E(X) = r(1 p)/p e V (X) = r(1 p)/p
2
.
Um caso particular e quando r = 1 e neste caso diz-se que X tem distribui c ao
geometrica com par ametro p.
Apendice B
Alguns Endere cos Interessantes
Neste apendice s ao listados alguns endere cos na internet com conte udo relativo a
abordagem Bayesiana.
Teorema de Bayes no Wikipedia: http://en.wikipedia.org/wiki/Bayes theorem
Bayesian Analysis - The Journal: http://ba.stat.cmu.edu/
International Society for Bayesian Analysis: http://www.bayesian.org
American Statistical Association, Section on Bayesian Statistical Science:
http://www.amstat.org/sections/SBSS
Bayes Methods Working Group of the International Biometric Society, German
Region: http://ibealt.web.med.uni-muenchen.de/bayes-ag//
Encontro Brasileiro de Estatstica Bayesiana:
2006 (http://www.im.ufrj.br/ebeb8),
2008 (http://www.ime.usp.br/ isbra/ebeb/9ebeb)
Valencia Meetings: http://www.uv.es/valenciameeting
I Workshop em Estatstica Espacial e Metodos Computacionalmente Intensivos:
leg.ufpr.br/ ehlers/folder
Case Studies in Bayesian Statistics: http://lib.stat.cmu.edu/bayesworkshop/
MCMC preprints: http://www.statslab.cam.ac.uk/ mcmc
Projeto BUGS (Bayesian inference Using Gibbs Sampling):
http://www.mrc-bsu.cam.ac.uk/bugs
Projeto JAGS (Just Another Gibbs Sampler):
http://www-s.iarc.fr/ martyn/software/jags/
BayesX (Bayesian Inference in Structured Additive Regression Models.):
http://www.stat.uni-muenchen.de/ bayesx/bayesx.html
73
74 AP

ENDICE B. ALGUNS ENDEREC OS INTERESSANTES


MrBayes (Bayesian estimation of phylogeny): http://mrbayes.scs.fsu.edu
N umero especial do Rnews dedicado a inferencia Bayesiana e MCMC:
http://www.est.ufpr.br/R/doc/Rnews/Rnews 2006-1.pdf
CRAN Task View (Bayesian Inference):
http://cran.r-project.org/src/contrib/Views/Bayesian.html
Centro de Estudos do Risco UFSCAR:
http://www.ufscar.br/ des/CER/inicial.htm
Referencias
Bayes, T. (1763). An essay towards solving in the doctrine of chances. Philosophical
Transactions of the Royal Society London 53, 370418.
Berger, J. (1985). Statistical Decision Theory and Bayesian Analysis. Springer-
Verlag: New York.
Bernardo, J. M. and A. F. M. Smith (1994). Bayesian Theory. Wiley: New York.
Box, G. E. P. and G. C. Tiao (1992). Bayesian Inference in Statistical Analysis.
Wiley Classics Library ed. Wiley-Interscience.
Broemeling, L. (1985). Bayesian Analysis of Linear Models. New York: Marcel
Dekker.
DeGroot, M. H. (1970). Optimal Statistical Decisions. McGraw-Hill Book Co.
Gamerman, D. (1996). Simula c ao Estoc astica via Cadeias de Markov. Associa c ao
Brasileira de Estatstica. Minicurso do 12
o
SINAPE.
Gamerman, D. (1997). Markov chain Monte Carlo: Stochastic Simulation for Baye-
sian Inference. Texts in Statistical Sciences. Chapman and Hall, London.
Gamerman, D. and H. Lopes (2006). Markov chain Monte Carlo: Stochastic Simu-
lation for Bayesian Inference. Texts in Statistical Science Series. CRC Press.
Gamerman, D. and H. S. Migon (1993). Inferencia Estatstica: Uma Abordagem
Integrada. Textos de Metodos Matem aticos. Instituto de Matem atica, UFRJ.
Gelman, A., J. B. Carlin, H. S. Stern, and D. B. Rubin (2004). Bayesian Data
Analysis (2nd ed.). Chapman and Hall: London.
Green, P. J. (1995). Reversible jump MCMC computation and Bayesian model
determination. Biometrika 82, 711732.
Johnson, N. L., S. Kotz, and N. Balakrishnan (1994). Continuous Univariate Dis-
tributions (2nd ed.), Volume 1. John Wiley, New York.
Johnson, N. L., S. Kotz, and N. Balakrishnan (1995). Continuous Univariate Dis-
tributions (2nd ed.), Volume 2. John Wiley, New York.
Johnson, N. L., S. Kotz, and A. W. Kemp (1992). Univariate Discrete Distributions
(2nd ed.). John Wiley, New York.
Migon, H. S. and D. Gamerman (1999). Statistical Inference: An Integrated Ap-
proach. Arnold.
75
76 References.
OHagan, A. (1994). Bayesian Inference, Volume 2B. Edward Arnold, Cambridge.
Robert, C. P. and G. Casella (1999). Monte Carlo Statistical Methods. Springer-
Verlag, New York.
Smith, A. F. M. and A. E. Gelfand (1992). Bayesian statistics without tears: A
sampling-resampling perspective. The American Statistician 46, 8488.