Você está na página 1de 6

Laboratório de Inferência Bayesiana

Caroline Vasconcelos

Número de mortes por coice de cavalo e a Lei dos Pequenos Números


Bortkiewicz usou a distribuição de Poisson para estudar o número de soldados prussianos que
foram mortos a coices por cavalos a cada ano Trata-se de dados de contagem ao longo de
um ano e os eventos são independentes, portanto, o modelo de Poisson faz sentido. Ele tinha
dados sobre 15 unidades de cavalaria durante os 20 anos entre 1875 e 1894, número total de
cavaleiros que morreram por coice de cavalo foi 200.

Número de mortes 0 1 2 3 4 Total


Frequência 109 65 22 3 1 200

1
Priori conjugada
Sabemos que a posteriori é composta por duas fontes de informação, verossimilhança e priori.
A priori conjugada nos fornece uma posteriori que tem a mesma distribuição que a priori,
o que é uma grande vantagem do ponto de vista algébrico e computacional.
Tendo X como o número de mortes por ano e sendo ela a variável aleatória, logo, independente e
identicamente distribuída. Temos que a verossimilhança que irá compor a posteriori será:

𝑋𝑖 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆)
𝑛
𝑒−𝑛𝜆 .𝜆∑𝑖=1
𝐿(𝑥; 𝜆) = 𝑛
∏𝑖=1 𝑥𝑖 !

O histograma anterior nos dá evidências de que 𝜆 possui distribuição gama e usando o


conceito de família conjugada, onde escolhe-se uma priori que leva a uma posteriori da
mesma família de distribuição, a priori do nosso problema será:

𝜆 ∼ 𝐺𝑎𝑚𝑚𝑎(𝛼, 𝛽)
𝑏𝑎 𝑎−1 −𝜆𝑏
Π(𝜆) = 𝜆 𝑒
Γ(𝑎)

Deste modo, obtemos a seguinte posteriori:

𝑛
𝑏𝑎 𝑎−1 −𝜆𝑏 𝑒−𝑛𝜆 .𝜆∑𝑖=1
𝑃 (𝜆|𝑎, 𝑏) = 𝜆 𝑒 𝑛
Γ(𝑎) ∏𝑖=1 𝑥𝑖 !

𝑏𝑎 𝑛
−𝜆(𝑏+𝑛) ∑𝑖=1 𝑥𝑖 +𝑎−1
𝑃 (𝜆|𝑎, 𝑏) = 𝑛 𝑒 𝜆
Γ(𝑎) ∏𝑖=1

𝑛
𝜆 ∼ 𝐺𝑎𝑚𝑚𝑎(∑ 𝑥𝑖 + 𝑎, 𝑏 + 𝑛)
𝑖=1

Os hiperparâmetros da priori de 𝜆 foram fixados para a = 0,0005 e b = 0,0005.


Preditiva da posteriori
Estamos assumindo que conhecemos a distribuição condicionada dos dados dado 𝜆, mas será
que dada uma nova amostra ou uma amostra hipotética, a distribuição a posteriori encontrada
vai conseguir incorporar as informações da mesma forma? A preditiva da posteriori nos informa
se o modelo adotado é adequado ou não para o problema.
Para tanto, é necessário simular uma amostra. Neste caso foi simulada uma amostra de
tamanho igual 500, usando a posteriori obtida e a frequência relativa. Os boxplots do gráfico

2
foram gerados pela amostra simulada e os pontos azuis são as frequências relativas dos dados
fornecidos pelo problema. Podemos observar que os pontos das frequências estão bem ajusta-
dos aos boxplots, mais especificamente às linhas dos segundos quantis, que são também suas
medianas. Logo, o modelo é adequado.
Estimativas para 𝜆
Fixados os hiperparâmetros, obtivemos as seguintes estimativas pontuais da posteriori:

estimativa da média de 𝜆 0.6125


estimativa da variância de 𝜆 0.0553

É interessante observar que a estimativa bayesiana da média para 𝜆 se aproxima bastante da


122
estimativa da média do ponto de vista da inferência frequentista, onde 𝑋 = 200 = 0.61.
A estimativa intervalar da posteriori é baseada nos quantis da distribuição. Foi obtido o
seguinte resultado, usando nível de 95% de credibilidade:

Intervalo 0.574 0.725

Isto significa que a probabilidade de 𝜆 estar dentro do intervalo (0.574, 0.725) é 0,95.

3
Priori de Jeffrey
Quando não dispomos de informações que possam nos levar a uma priori adequada, podemos
utilizar prioris não-informativas. No caso de ausência total de informação a priori, podemos
utilizar a Priori de Jeffrey, que é encontrada através da Informação de Fisher (I(𝜆)). Pensamos
no termo “informação” relacionando com concentração: quanto maior a Informação de Fisher,
maior será a concentração esperada da verossimilhança em torno do ponto máximo da mesma,
isto é, do estimador de máxima verossimilhança. Se pensarmos na Informação de Fisher como
uma distribuição de probabilidade, temos que quanto maior a Informação de Fisher em um
determinado intervalo, maior será a probabilidade (a priori) do parâmetro pertencer a este
intervalo.
Considerando que 𝑋𝑖 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆), temos que:

1
𝑃𝑗 (𝜆) ≺√𝐼𝑓 (𝜆) =√
𝜆

−1
𝑃𝑗 = 𝜆 2

Portanto, a verossimilhança da Poisson, usando a Priori de Jeffrey será:

−𝑛
𝐿(𝜆; 𝑥) = 𝜆 2

Desta forma, pelo Teorema de Bayes, a posteriori será dada da seguinte maneira:

𝑛
𝑒−𝑛𝜆 .𝜆∑𝑖=1 −1
𝑃 (𝜆; 𝑥) = 𝑛 𝜆2
∏𝑖=1 𝑥𝑖 !

𝑛 1
𝑒−𝑛𝜆 𝜆∑𝑖=1 𝑥𝑖 − 2 −1+1

𝑛 1
𝑒−𝜆𝑛 𝜆∑𝑖=1 𝑥𝑖 + 2 −1

Logo, esta é a distribuição a posteriori de 𝜆:

𝑛
1
𝜆 ∼ 𝐺𝑎𝑚𝑚𝑎(∑ + , 𝑛)
𝑖=1
2

Apesar da Informação de Fisher ser uma priori imprópria, pois

1
𝑝𝑗 (𝜆|𝑥) ≺ 𝜆− 2 𝐼(0,∞) (𝜆)

4
A posteriori é própria, já que Gama é uma distribuição conhecida.
Preditiva da posteriori
Da mesma forma que fizemos com a priori conjugada, temos que verificar se a posteriori,
encontrada através de outro método, é adequada para o mesmo o problema.

Podemos observar que os pontos vermelhos, as frequências relativas dos dados informados,
estão bem ajustados aos boxplots, que representam as amostras simuladas. Consequentemente,
o modelo é adequado para o problema.
Estimativas para 𝜆
Estimativas pontuais da posteriori:

Estimativa da média para 𝜆 0.6125


Estimativa da variância para 𝜆 0.0553

Estimativa intervalar da posteriori:


Usando nível de 95% de credibilidade:

5
Intervalo 0.574 0.725

Isto é, a probabilidade de 𝜆 estar dentro do intervalo (0.574, 0.725) é 0,95.

Você também pode gostar