Inferência Bayesiana

Introdução à Inferência Bayesiana
♦ Thomas Bayes (1702-1761), matemático inglês e pastor (reverendo)
♦ Seja \ uma v.a. e 0 (B l )) a distribuição de probabilidades

ajustada
♦ ) é um parâmetro desconhecido pertencente ao espaço

paramétrico @Þ
♦ a v.a. \ é uma quantidade observável, o parâmetro ) é não

observável.
♦ O verdadeiro valor de ) é desconhecido e em qualquer

análise estatística a idéia é tentar reduzir este desconhecimento,
isto é, estimar o valor de ).
1
1. Princípio de Verossimilhança
♦ O Princípio de Verossimilhança afirma que toda

informação contida em um determinado experimento, está
contida na Função de Verossimilhança.
Definição: Seja B" , . . . , Bn uma amostra aleatória, representada

como Bß de uma família de distribuições 0 (B ; )), ) − @ © d , )
¸~
desconhecido. Consideremos a funcao
P() ; BÑ œ 0 (B" ; ))0 (B# ; )) . . . 0 ÐBn ; )) (1)
♦ ¸~ P();x) ,
Fixado o ponto amostral (x" , x# , . . . , xn ), a funcao
¸~ de ) e´ denominada Funcao
considerada como funcao ¸~ de
Verossimilhanca
¸ da amostra.
♦ O Princípio de Máxima Verossimilhança essencialmente

assume que a amostra é representativa da população e
escolhemos como estimador aquele valor do parâmetro que
maximiza a função P() ; BÑÞ
♦ Na Inferência CLÁSSICA, a função de verossimilhança é

considerada
como a única expressão que contém toda a nossa informação
sobre o parâmetro ).
2
2. Paradigma Bayesiano
A história da Inferência Bayesiana começa com Thomas

Bayes (1702-1761), matemático inglês e pastor (reverendo) que
formulou um teorema muito famoso na estatística que leva o seu
nome, o Teorema de Bayes, que é a base da Inferência
Bayesiana, ou seja a partir dela que nasceu a Inferência
Bayesiana.
Teorema de Bayes:
^
Sejam A" , A# , . . . , uma sequencia (finita ou infinita
´
enumeravel) ´
de eventos aleatorios ¸~ de
que formam uma particao
H. Se B e´ um evento qualquer então
P(Ai )P(B | Ai )
P(Ai | B) =
! P(Aj )P(B | Aj )
_
j=1
onde a soma e´ tomada sobre aqueles i para os quais P(Ai )  0.
♦ Do ponto de vista Bayesiano, ) é incerto e a intensidade

dessa incerteza a respeito de ) pode assumir diferentes graus.
Assim, estes diferentes graus de incerteza são

representados através de modelos probabilísticos para ).
ì A operação que calibra a medida das incertezas é conhecida

como Operação Bayesiana e é baseada na fórmula de Bayes.
3
Distribuição a priori
♦ Sup. que dispomos de alguma informação sobre o parâmetro )

representada pela distribuição de probabilidade 1()) :
distribuição a priori sobre )
A distribuição a priori representa o que sabemos sobre ) SEM o

conhecimento da informação proveniente dos dados.
Distribuição a posteriori
♦ A informação de que dispomos sobre ) através de 1()), pode

ser aumentada observando-se uma amostra aleatoria B" , . . . , Bn
(denotada por B) relacionada com ).
♦ Agora, necessitamos de uma distribuição que contenha toda a

informação contida na função de verossimilhança mais a
informação contida na distribuição a priori 1()).
♦ Buscamos uma distribuição que represente o que sabemos

sobre ) após coletarmos os dados.
ì Nosso conhecimento sobre ) é expressado por sua

distribuição a posteriori :() | B).
♦ QUESTÃO: como passar de 1()) para :() l B).
4
♦ O teorema de Bayes é a regra de atualização utilizada para
quanticar este aumento de informação.
Ele permite a atualização da probabilidade sobre )

partindo de 1()) para chegar a :() l B).
Por esse motivo, essas distribuições são chamadas

respectivamente de distribuições a priori e a posteriori.
♦ Estas duas fontes de informação, priori e verossimilhanca,

são combinadas através da forma usual do teorema de Bayes
dada por
' 1() |B)P(B l )). )

1())P(B | ))
: () |B ) œ º 1())P(B | ))
Em palavras temos a distribuição a posteriori
:() l B) º 1Ð )ÑP() l B)
posteriori º distribuição a priori ‚ verossimilhanca
- A distribuição a priori 1()) expressa nossa

incerteza sobre ) antes de observarmos os dados
- A distribuição a posteriori :()|B) expressa

nossa incerteza (reflete a opinião atualizada) sobre )
depois de observarmos os dados
5
Os seguintes diagramas são uma tentativa de
ilustrar a operação Bayesiana.
6
♦ Portanto, as inferências (estimadores e intervalos) sobre )
são baseadas na densidade a posteriori.
♦ A Figura a seguir mostra todas as 3 funções no caso de

estimação do parâmetro : de uma distribuição de Bernoulli para
8 experimentos (tamanho da amostra) cuja distribuição a priori é
uma distrib de prob Beta resultando numa posteriori também
Beta
♦ Os cálculos acima são válidos para quantidades discretas e

contínuas, escalares, vetores ou matrizes.
7
♦ A constante normalizadora da posteriori pode ser
facilmente recuperada pois
:() l B) œ 5 1())P() l B)
onde
5 " œ ' 1())P() l B).) œ :(B)
chamada distribuição preditiva a priori.
♦ Note que, ao omitir o termo :(B), a igualdade em (1) foi

substituda por uma proporcionalidade.
Esta forma simplicada do teorema de Bayes será útil em
problemas que envolvam estimação de parâmetros já que o
denominador é apenas uma constante normalizadora.
♦ A Distribuição a Posteriori :() l B) substitui a função de

verossimilhança como uma expressão que incorpora toda a
informação proporcionada pelos dados e pela informação a
priori sobre ).
8
3Þ Inferência Clássica versus Inferência Bayesiana
♦ Por que deveríamos usar Inferência Bayesiana ao invés da

Inferência Clássica?
♦ Há várias respostas.
♦ As teorias de Inferência Clássica são baseadas em teoria

assintótica
♦ Nem sempre o EMV existe e/ou é necessário impor restrições

para sua existência
♦ Nuisance parameters
- O método de Bayes usa marginais
- O método Clássico usa maximização e teoria assintótica
♦ A Inf Bayesiana aplica-se com qualquer tamanho amostral
Esta é uma consideração muito importante em áreas de aplicação

onde os dados amostrais podem ser honerosos e difíceis de
serem obtidos, como é o caso da Análise de Sobrevivência.
♦ Interpretação
- Inferência Bayesiana é interpretada em termos de
probabilidades
- Inferência Clássica justificadas em amostragens repetidas
e teoria assintótica
9
♦ Além disso, uma característica distintiva da Inferência
Bayesiana é que ela leva em consideração a informação a priori
na análise.
♦ É uma metodologia estatística aplicável em qualquer área da

Estatística
♦ Na Inferência Bayesiana, há uma grande exigência

computacional
♦ Não há diferenças importantes em grandes amostras
10
4. Estimação
ì A Inferência Bayesiana para ) e funções dos parâmetros 1Ð)Ñ

são completamente baseadas em suas distribuições a posteriori
:Ð) l BÑ e :Ð1Ð)Ñ l BÑ, respectivamente.
ì Um óbvio estimador de ) é a média (esperança) a posteriori
s) œ IÐ) l BÑ œ ' ) :()|x). )
ì Outras possíveis escolhas para estimar ) incluem:

- a moda a posteriori, que é muito similar ao EMV
- a mediana a posteriori
ì Outra opção é basear a inferência na representação gráfica de

toda ou parte da densidade a posteriori (como gráficos marginais
ou gráficos de contorno caso da conjunta).
ì Note que um intervalo a posteriori (intervalo de credibilidade)

pode ser interpretado diretamente como contendo ) com alta
probabilidade, diferente dos intervalos de confiança clássicos.
Um intervalo de credibilidade, ()" , )# ), 100("  !)% simétrico

de ) é facilmente obtido resolvendo as duas equações À
' )" p()|x).) œ !

e ' +_ p()|x).) œ !
_ # )2 #
11
para o limite inferior )" e o limite superior )# , de forma que
T ˜)"  )  )# ¸x™ œ "  !Þ
ì No entanto, nem sempre é trivial obter a densidade a

posteriori.
Essa limitação foi drasticamente reduzida nos últimos 15

anos por uma combinação dos métodos Monte Carlo Cadeia de
Markov (MCMC) e um aumento no poder computacional
disponível.
Densidade Preditiva
Geralmente o objetivo na estatística é inferir algo

futuramente, que faz parte do problema de previsão, e é para isso
que a densidade preditiva existe.
descrição probabilística é 0 (y¸)), que pode independer de x.

Seja y representando um vetor de observações futuras cuja
p(y¸x), denominada densidade preditiva onde

A observação futura ou previsão de y é obtida através de
p(y¸x) œ ' p(y ¸ ), x)d) œ ' 0 (y¸))p()¸x)d)

@ @
12
5. De onde a priori vem?
ì Em princípio, ela é subjetiva
ì Ela poderia ser elicitada dos experts (especialistas)
ì Ela poderia ser baseada nos dados existentes (Empírica)
ì Ela poderia ser uma priori conjugada
ì Priori não-informativa œ
Flat variância grande
Objetiva
ì Prioris Flats: ) µ R Ð!ß "!!# Ñ ß ) µ Y 830 9<7/
13
ì Há vários métodos para especificar prioris Objetivas
- informação de Fisher (priori de Jeffreys)
- máxima entropia (reference, priori de Zellner)
- informação de Fisher e intervalo frequentista

(priori de Tibshirani)
14
6. Priori de Jeffreys
♦ Seja \ uma v.a. e 0 (B l )) a distribuição de probabilidades

ajustada
♦ Jeffreys Ð"*'(Ñ propôs uma distribuição a priori não-

informativa para o parâmetro ) dada por
1()) º È MÐ))
M ()) œ  EŠ ` ‹
#
691 0 ÐB l ) Ñ
onde ` )#
¸~ de Fisher.
e´ chamada Medida de Informacao
♦ Box and Tiao (1973) descrevem a argumentação para

obtenção da priori de Jeffreys
♦ Se ) œ Ð)" ß )# ß Þ Þ Þß )5 Ñ é um vetor de parâmetros de 0 ÐB l ))

então a priori de Jeffreys é dada por
1()) º È ./> MÐ))
onde M ()) é a matriz de informação de Fisherß com elementos
M34 ()) œ  EŠ ` ‹,
#
691 0 ÐB l ) Ñ
` )3 ` )4
3ß 4 œ "ß #ß Þ Þ Þß 5Þ
15
EXEMPLOS:
") Distribuição Exponencial
æ Seja \ uma variável aleatória sob distribuição Exponencial

com parâmetro de escala -  0 e função densidade de
probabilidade (fdp) é dada por
0 ÐB l -Ñ œ -/-B ß B !.
ì A informação de Fisher M (-) œ  EŠ ` ‹

#
691 0 ÐB l -Ñ
` -# é dada por
"
M (-) œ -#
ì Então a Priori de Jeffreys para o parâmetro - é dada por
1(-) º È MÐ)) ,
isto é,
"
1# (-) º - Ð priori de JeffreysÑ
2) Distribuição Weibull
ì A função densidade da distribuição Weibull da variável

aleatória \ é dada por:
" B " "

0 ÐB l !, " Ñ œ !Ð!Ñ /B:Ö  Ð !B Ñ" × ß B 0
e depende dos parâmetros !  0 e "  0.
16
ì A matriz de informação de Fisher com elementos
M34 ()) œ  EŠ ` ‹.
#
691 0 ÐB l )Ñ
` )3 ` )4
é dada por
 >'(2)
M (!, " ) œ – —
Ð !" Ñ# !
 >'(2)
!
1
" # Ò"  >''(2)Ó
ì Então a Priori de Jeffreys para o vetor de parâmetros ) œ Ð!,

"Ñ é dada por
1(!, " ) º È./> MÐ)) ,
isto é,
"
1(!, " ) º !
Propriedade: Esta priori é invariante sob transformações dos

parâmetros
9 œ 9()) e 1()) º ÈI()) Ê
1(9) º 1())llN ll œ ÈI(9)Þ
17

Inferência Bayesiana

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Inferência Bayesiana

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Inferência Bayesiana

♦ Thomas Bayes (1702-1761), matemático inglês e pastor (reverendo)

♦ Seja \ uma v.a. e 0 (B l )) a distribuição de probabilidades

♦ ) é um parâmetro desconhecido pertencente ao espaço

♦ a v.a. \ é uma quantidade observável, o parâmetro ) é não

♦ O verdadeiro valor de ) é desconhecido e em qualquer

♦ O Princípio de Verossimilhança afirma que toda

Definição: Seja B" , . . . , Bn uma amostra aleatória, representada

P() ; BÑ œ 0 (B" ; ))0 (B# ; )) . . . 0 ÐBn ; )) (1)

♦ O Princípio de Máxima Verossimilhança essencialmente

♦ Na Inferência CLÁSSICA, a função de verossimilhança é

A história da Inferência Bayesiana começa com Thomas

onde a soma e´ tomada sobre aqueles i para os quais P(Ai )  0.

♦ Do ponto de vista Bayesiano, ) é incerto e a intensidade

Assim, estes diferentes graus de incerteza são

ì A operação que calibra a medida das incertezas é conhecida

♦ Sup. que dispomos de alguma informação sobre o parâmetro )

A distribuição a priori representa o que sabemos sobre ) SEM o

♦ A informação de que dispomos sobre ) através de 1()), pode

♦ Agora, necessitamos de uma distribuição que contenha toda a

♦ Buscamos uma distribuição que represente o que sabemos

ì Nosso conhecimento sobre ) é expressado por sua

♦ QUESTÃO: como passar de 1()) para :() l B).

Ele permite a atualização da probabilidade sobre )

Por esse motivo, essas distribuições são chamadas

♦ Estas duas fontes de informação, priori e verossimilhanca,

' 1() |B)P(B l )). )

Em palavras temos a distribuição a posteriori

posteriori º distribuição a priori ‚ verossimilhanca

- A distribuição a priori 1()) expressa nossa

- A distribuição a posteriori :()|B) expressa

♦ A Figura a seguir mostra todas as 3 funções no caso de

♦ Os cálculos acima são válidos para quantidades discretas e

chamada distribuição preditiva a priori.

♦ Note que, ao omitir o termo :(B), a igualdade em (1) foi

♦ A Distribuição a Posteriori :() l B) substitui a função de

♦ Por que deveríamos usar Inferência Bayesiana ao invés da

♦ As teorias de Inferência Clássica são baseadas em teoria

♦ Nem sempre o EMV existe e/ou é necessário impor restrições

♦ A Inf Bayesiana aplica-se com qualquer tamanho amostral

Esta é uma consideração muito importante em áreas de aplicação

♦ É uma metodologia estatística aplicável em qualquer área da

♦ Na Inferência Bayesiana, há uma grande exigência

♦ Não há diferenças importantes em grandes amostras

ì A Inferência Bayesiana para ) e funções dos parâmetros 1Ð)Ñ

ì Um óbvio estimador de ) é a média (esperança) a posteriori

s) œ IÐ) l BÑ œ ' ) :()|x). )

ì Outras possíveis escolhas para estimar ) incluem:

ì Outra opção é basear a inferência na representação gráfica de

ì Note que um intervalo a posteriori (intervalo de credibilidade)

Um intervalo de credibilidade, ()" , )# ), 100("  !)% simétrico

' )" p()|x).) œ !

ì No entanto, nem sempre é trivial obter a densidade a

Essa limitação foi drasticamente reduzida nos últimos 15

Geralmente o objetivo na estatística é inferir algo

descrição probabilística é 0 (y¸)), que pode independer de x.

p(y¸x), denominada densidade preditiva onde

p(y¸x) œ ' p(y ¸ ), x)d) œ ' 0 (y¸))p()¸x)d)

ì Em princípio, ela é subjetiva

ì Ela poderia ser elicitada dos experts (especialistas)

ì Ela poderia ser baseada nos dados existentes (Empírica)

ì Ela poderia ser uma priori conjugada

ì Prioris Flats: ) µ R Ð!ß "!!# Ñ ß ) µ Y 830 9<7/

- informação de Fisher (priori de Jeffreys)