Você está na página 1de 17

Introdução à Inferência Bayesiana

♦ Thomas Bayes (1702-1761), matemático inglês e pastor (reverendo)

♦ Seja \ uma v.a. e 0 (B l )) a distribuição de probabilidades


ajustada

♦ ) é um parâmetro desconhecido pertencente ao espaço


paramétrico @Þ

♦ a v.a. \ é uma quantidade observável, o parâmetro ) é não


observável.

♦ O verdadeiro valor de ) é desconhecido e em qualquer


análise estatística a idéia é tentar reduzir este desconhecimento,
isto é, estimar o valor de ).

1
1. Princípio de Verossimilhança

♦ O Princípio de Verossimilhança afirma que toda


informação contida em um determinado experimento, está
contida na Função de Verossimilhança.

Definição: Seja B" , . . . , Bn uma amostra aleatória, representada


como Bß de uma família de distribuições 0 (B ; )), ) − @ © d , )
¸~
desconhecido. Consideremos a funcao

P() ; BÑ œ 0 (B" ; ))0 (B# ; )) . . . 0 ÐBn ; )) (1)

♦ ¸~ P();x) ,
Fixado o ponto amostral (x" , x# , . . . , xn ), a funcao
¸~ de ) e´ denominada Funcao
considerada como funcao ¸~ de
Verossimilhanca
¸ da amostra.

♦ O Princípio de Máxima Verossimilhança essencialmente


assume que a amostra é representativa da população e
escolhemos como estimador aquele valor do parâmetro que
maximiza a função P() ; BÑÞ

♦ Na Inferência CLÁSSICA, a função de verossimilhança é


considerada
como a única expressão que contém toda a nossa informação
sobre o parâmetro ).

2
2. Paradigma Bayesiano

A história da Inferência Bayesiana começa com Thomas


Bayes (1702-1761), matemático inglês e pastor (reverendo) que
formulou um teorema muito famoso na estatística que leva o seu
nome, o Teorema de Bayes, que é a base da Inferência
Bayesiana, ou seja a partir dela que nasceu a Inferência
Bayesiana.

Teorema de Bayes:
^
Sejam A" , A# , . . . , uma sequencia (finita ou infinita
´
enumeravel) ´
de eventos aleatorios ¸~ de
que formam uma particao
H. Se B e´ um evento qualquer então

P(Ai )P(B | Ai )
P(Ai | B) =
! P(Aj )P(B | Aj )
_

j=1

onde a soma e´ tomada sobre aqueles i para os quais P(Ai )  0.

♦ Do ponto de vista Bayesiano, ) é incerto e a intensidade


dessa incerteza a respeito de ) pode assumir diferentes graus.

Assim, estes diferentes graus de incerteza são


representados através de modelos probabilísticos para ).

ì A operação que calibra a medida das incertezas é conhecida


como Operação Bayesiana e é baseada na fórmula de Bayes.

3
Distribuição a priori

♦ Sup. que dispomos de alguma informação sobre o parâmetro )


representada pela distribuição de probabilidade 1()) :
distribuição a priori sobre )

A distribuição a priori representa o que sabemos sobre ) SEM o


conhecimento da informação proveniente dos dados.

Distribuição a posteriori

♦ A informação de que dispomos sobre ) através de 1()), pode


ser aumentada observando-se uma amostra aleatoria B" , . . . , Bn
(denotada por B) relacionada com ).

♦ Agora, necessitamos de uma distribuição que contenha toda a


informação contida na função de verossimilhança mais a
informação contida na distribuição a priori 1()).

♦ Buscamos uma distribuição que represente o que sabemos


sobre ) após coletarmos os dados.

ì Nosso conhecimento sobre ) é expressado por sua


distribuição a posteriori :() | B).

♦ QUESTÃO: como passar de 1()) para :() l B).

4
♦ O teorema de Bayes é a regra de atualização utilizada para
quanticar este aumento de informação.

Ele permite a atualização da probabilidade sobre )


partindo de 1()) para chegar a :() l B).

Por esse motivo, essas distribuições são chamadas


respectivamente de distribuições a priori e a posteriori.

♦ Estas duas fontes de informação, priori e verossimilhanca,


são combinadas através da forma usual do teorema de Bayes
dada por

' 1() |B)P(B l )). )


1())P(B | ))
: () |B ) œ º 1())P(B | ))

Em palavras temos a distribuição a posteriori

:() l B) º 1Ð )ÑP() l B)

posteriori º distribuição a priori ‚ verossimilhanca

- A distribuição a priori 1()) expressa nossa


incerteza sobre ) antes de observarmos os dados

- A distribuição a posteriori :()|B) expressa


nossa incerteza (reflete a opinião atualizada) sobre )
depois de observarmos os dados

5
Os seguintes diagramas são uma tentativa de
ilustrar a operação Bayesiana.

6
♦ Portanto, as inferências (estimadores e intervalos) sobre )
são baseadas na densidade a posteriori.

♦ A Figura a seguir mostra todas as 3 funções no caso de


estimação do parâmetro : de uma distribuição de Bernoulli para
8 experimentos (tamanho da amostra) cuja distribuição a priori é
uma distrib de prob Beta resultando numa posteriori também
Beta

♦ Os cálculos acima são válidos para quantidades discretas e


contínuas, escalares, vetores ou matrizes.

7
♦ A constante normalizadora da posteriori pode ser
facilmente recuperada pois

:() l B) œ 5 1())P() l B)
onde
5 " œ ' 1())P() l B).) œ :(B)

chamada distribuição preditiva a priori.

♦ Note que, ao omitir o termo :(B), a igualdade em (1) foi


substituda por uma proporcionalidade.
Esta forma simplicada do teorema de Bayes será útil em
problemas que envolvam estimação de parâmetros já que o
denominador é apenas uma constante normalizadora.

♦ A Distribuição a Posteriori :() l B) substitui a função de


verossimilhança como uma expressão que incorpora toda a
informação proporcionada pelos dados e pela informação a
priori sobre ).

8
3Þ Inferência Clássica versus Inferência Bayesiana

♦ Por que deveríamos usar Inferência Bayesiana ao invés da


Inferência Clássica?

♦ Há várias respostas.

♦ As teorias de Inferência Clássica são baseadas em teoria


assintótica

♦ Nem sempre o EMV existe e/ou é necessário impor restrições


para sua existência

♦ Nuisance parameters
- O método de Bayes usa marginais
- O método Clássico usa maximização e teoria assintótica

♦ A Inf Bayesiana aplica-se com qualquer tamanho amostral

Esta é uma consideração muito importante em áreas de aplicação


onde os dados amostrais podem ser honerosos e difíceis de
serem obtidos, como é o caso da Análise de Sobrevivência.

♦ Interpretação
- Inferência Bayesiana é interpretada em termos de
probabilidades
- Inferência Clássica justificadas em amostragens repetidas
e teoria assintótica

9
♦ Além disso, uma característica distintiva da Inferência
Bayesiana é que ela leva em consideração a informação a priori
na análise.

♦ É uma metodologia estatística aplicável em qualquer área da


Estatística

♦ Na Inferência Bayesiana, há uma grande exigência


computacional

♦ Não há diferenças importantes em grandes amostras

10
4. Estimação

ì A Inferência Bayesiana para ) e funções dos parâmetros 1Ð)Ñ


são completamente baseadas em suas distribuições a posteriori
:Ð) l BÑ e :Ð1Ð)Ñ l BÑ, respectivamente.

ì Um óbvio estimador de ) é a média (esperança) a posteriori

s) œ IÐ) l BÑ œ ' ) :()|x). )

ì Outras possíveis escolhas para estimar ) incluem:


- a moda a posteriori, que é muito similar ao EMV
- a mediana a posteriori

ì Outra opção é basear a inferência na representação gráfica de


toda ou parte da densidade a posteriori (como gráficos marginais
ou gráficos de contorno caso da conjunta).

ì Note que um intervalo a posteriori (intervalo de credibilidade)


pode ser interpretado diretamente como contendo ) com alta
probabilidade, diferente dos intervalos de confiança clássicos.

Um intervalo de credibilidade, ()" , )# ), 100("  !)% simétrico


de ) é facilmente obtido resolvendo as duas equações À

' )" p()|x).) œ !


e ' +_ p()|x).) œ !
_ # )2 #

11
para o limite inferior )" e o limite superior )# , de forma que
T ˜)"  )  )# ¸x™ œ "  !Þ

ì No entanto, nem sempre é trivial obter a densidade a


posteriori.

Essa limitação foi drasticamente reduzida nos últimos 15


anos por uma combinação dos métodos Monte Carlo Cadeia de
Markov (MCMC) e um aumento no poder computacional
disponível.

Densidade Preditiva

Geralmente o objetivo na estatística é inferir algo


futuramente, que faz parte do problema de previsão, e é para isso
que a densidade preditiva existe.

descrição probabilística é 0 (y¸)), que pode independer de x.


Seja y representando um vetor de observações futuras cuja

p(y¸x), denominada densidade preditiva onde


A observação futura ou previsão de y é obtida através de

p(y¸x) œ ' p(y ¸ ), x)d) œ ' 0 (y¸))p()¸x)d)


@ @

12
5. De onde a priori vem?

ì Em princípio, ela é subjetiva

ì Ela poderia ser elicitada dos experts (especialistas)

ì Ela poderia ser baseada nos dados existentes (Empírica)

ì Ela poderia ser uma priori conjugada

ì Priori não-informativa œ
Flat variância grande
Objetiva

ì Prioris Flats: ) µ R Ð!ß "!!# Ñ ß ) µ Y 830 9<7/

13
ì Há vários métodos para especificar prioris Objetivas

- informação de Fisher (priori de Jeffreys)

- máxima entropia (reference, priori de Zellner)

- informação de Fisher e intervalo frequentista


(priori de Tibshirani)

14
6. Priori de Jeffreys

♦ Seja \ uma v.a. e 0 (B l )) a distribuição de probabilidades


ajustada

♦ Jeffreys Ð"*'(Ñ propôs uma distribuição a priori não-


informativa para o parâmetro ) dada por

1()) º È MÐ))

M ()) œ  EŠ ` ‹
#
691 0 ÐB l ) Ñ
onde ` )#

¸~ de Fisher.
e´ chamada Medida de Informacao

♦ Box and Tiao (1973) descrevem a argumentação para


obtenção da priori de Jeffreys

♦ Se ) œ Ð)" ß )# ß Þ Þ Þß )5 Ñ é um vetor de parâmetros de 0 ÐB l ))


então a priori de Jeffreys é dada por

1()) º È ./> MÐ))

onde M ()) é a matriz de informação de Fisherß com elementos

M34 ()) œ  EŠ ` ‹,
#
691 0 ÐB l ) Ñ
` )3 ` )4

3ß 4 œ "ß #ß Þ Þ Þß 5Þ

15
EXEMPLOS:

") Distribuição Exponencial

æ Seja \ uma variável aleatória sob distribuição Exponencial


com parâmetro de escala -  0 e função densidade de
probabilidade (fdp) é dada por

0 ÐB l -Ñ œ -/-B ß B   !.

ì A informação de Fisher M (-) œ  EŠ ` ‹


#
691 0 ÐB l -Ñ
` -# é dada por
"
M (-) œ -#

ì Então a Priori de Jeffreys para o parâmetro - é dada por

1(-) º È MÐ)) ,
isto é,
"
1# (-) º - Ð priori de JeffreysÑ

2) Distribuição Weibull

ì A função densidade da distribuição Weibull da variável


aleatória \ é dada por:

" B " "


0 ÐB l !, " Ñ œ !Ð!Ñ /B:Ö  Ð !B Ñ" × ß B   0

e depende dos parâmetros !  0 e "  0.

16
ì A matriz de informação de Fisher com elementos

M34 ()) œ  EŠ ` ‹.
#
691 0 ÐB l )Ñ
` )3 ` )4
é dada por

 >'(2)
M (!, " ) œ – —
Ð !" Ñ# !
 >'(2)
!
1
" # Ò"  >''(2)Ó

ì Então a Priori de Jeffreys para o vetor de parâmetros ) œ Ð!,


"Ñ é dada por
1(!, " ) º È./> MÐ)) ,
isto é,
"
1(!, " ) º !

Propriedade: Esta priori é invariante sob transformações dos


parâmetros
9 œ 9()) e 1()) º ÈI()) Ê

1(9) º 1())llN ll œ ÈI(9)Þ

17

Você também pode gostar