Você está na página 1de 6

Laboratório de Inferência Bayesiana

Caroline Vasconcelos

Poisson Inflada de Zeros

Sabendo que o modelo Poisson é o mais comumente usado para modelar dados de contagem
e que a média e a variância são iguais (𝜆), em alguns casos, esta restrição é violada porque
os dados são frequentemente dispersos. Neste caso, a distribuição de Poisson subestima a
dispersão das contagens observadas. A superdispersão (overdispersion) ocorre quando o único
parâmetro � da Poisson é incapaz de descrever completamente a contagem de eventos. Podem
existir duas fontes de superdispersão: heterogeneidade da população e excesso de zeros. A
heterogeneidade é observada quando a população pode ser dividida em muitas subpopulações
homogêneas. O excesso de zeros é detectado quando o número de zeros observados excede
em grande parte o número de zeros reproduzido pela distribuição de Poisson ajustada. Entre
os modelos inflacionados por zero mais discutidos, os modelos mais comuns são Poisson
inflacionada por zero (ZIP), binomial negativa inflacionada por zero (ZINB) e Poisson
generalizada inflacionada por zero (ZIGP).
O histograma abaixo apresenta a frequência de tornados em Lafayette Parish, Louisiana, de
1950 a 2012.

1
Figura 1: Frequência de tornados em Lafayette.
Para estes dados, consideramos a distribuição Poisson(𝜃) como nossa verossimilhança e a priori
tendo 𝜃 ~ Gama(r,s), onde 𝜌 é a probabilidade de excessos de zeros, x é a variável aleatória e
z é uma variável latente condicionada a probabilidade p da distribuição de 𝜌:

𝑛 𝑗 𝑛 𝑗
𝜋(𝜃|𝜌𝑗 , z𝑗 , x) ≺ 𝜃∑𝑖=1 𝑥𝑖 (1−𝑧𝑖 )+𝑟−1 𝑒−(−𝑛−∑𝑖=1 𝑧𝑖 +𝑠)𝜃

Isto é, a conjugada delas é, naturalmente, uma Gama

𝑛 𝑛
(𝑗)
𝜃𝑗 |𝜌𝑗 , z𝑗 , x ∼ 𝐺𝑎𝑚𝑎(∑ 𝑥𝑖 (1 − 𝑧𝑖 ) + 𝑟, 𝑛 − ∑ 𝑧𝑖𝑗 + 𝑠)
𝑖=1 𝑖=1

Notemos que,

2
Quando n → ∞, E(𝜃|x) → 𝑋̄
Quando 𝛼 → 0 e 𝛽 → 0 também teremos E(𝜃|x) → 𝑋̄
O que implica na priori não-informativa: 𝑝(𝜃) ∼ 𝜃−1 .
A frequência relativa de zeros é 0,54. A figura 2 apresenta a preditiva da posteriori quando
ajustamos o modelo Poisson. Pela falta de sobreposição entre os pontos gerados pela frequência
relativa da amostra e os pontos gerados pela preditiva, podemos dizer que o modelo Poisson
não é indicado para este tipo de caso, o ajuste não é adequado no sentido de que subestima a
contagem de zeros.

Figura 2: Ajuste da Poisson x Frequência Relativa.


Importante mencionar que para este tipo de situação, consideramos um modelo inflacionado
de zeros aumentado:

𝑓(𝑥, 𝑧|𝜃, 𝜌) = 𝑓(𝑥|𝑧, 𝜃)𝑓(𝑧|𝜌) = 𝑓(𝑥|𝑧, 𝜃)𝜌𝑧 (1 − 𝜌)1−𝑧

3
Como dito anteriormente, a variável z é latente e a função 𝑓(𝑥, 𝑧) é denominada modelo
aumentado.
Sendo ($X_1$,$Z_1$),…,($X_n$,$Y_n$) uma amostra aleatória do modelo aumentado
𝑓(𝑥, 𝑧|𝜃) e seja 𝜋(𝜃) a priori 𝜃. Existem situações nas quais é mais fácil simular do modelo

𝜋(𝜃, z|x) ≺ 𝑓(𝑥, 𝑧|𝜃)𝜋(𝜃)

A distribuição de 𝜃 (ou Z) dado as demais variáveis do modelo é denominada condicional


completa, que neste caso são:

𝑓(𝑧|𝑥, 𝜃)

𝜋(𝜃|𝑧, 𝑥, 𝜃)

Essas condicionais completas foram simuladas com o Amostrador de Gibbs, que é uma cadeia
de Markov cuja distribuição estacionária é 𝜋(𝜃, 𝑧|𝑥), é também um caso especial do Metropolis-
Hastings, e pode ser aplicado a uma grande variedade de distribuições. O Amostrador de Gibbs
é utilizado principalmente quando a distribuição é multivariada, sendo o seu caso mais geral, o
de multiestágios. Como ele utiliza apenas as condicionais completas são as únicas densidades
usadas para a simulação. Portanto, mesmo em um problema de alta dimensão, todas as
simulações são univariadas, o que traz uma grande vantagem teórica e computacional.
Usando o Amostrador de Gibbs para simular as condicionais de 𝜌 e 𝜃 com hiperparâmetros
para 𝜌 iguais a 𝛼 = 𝛽 = 1 e para 𝜃 iguais a r = s = 0.1. O número B de simulações foi 50.000.
Foram descartada metade das simulações e usado um thinning igual a 15. figura 3 mostra as
cadeias estacionárias de 𝜃 e 𝜌 e os correlogramas para ambos.

4
Figura 3: Cadeias estacionárias e correlogramas para rho e theta.
Foram estimadas as probabilidade de ocorrerem tornados via preditiva posteriori:

Table 1: Estimativas de ocorrência de tornados

Frequência 𝑝̂
0 0,57
1 0,28
2 0,11
3 0,03

A estimativa da frequência de zeros para ocorrência de tornados em Lafayette foi 0,57, muito
próxima da frequência relativa que foi 0,54.
A figura abaixo mostra o gráfico que compara a frequência relativa da amostra com a preditiva
da posteriori do modelo Poisson e a preditiva da posteriori da Poisson Inflada por Zeros

5
(ZIP).

Figura 4: Preditiva da posteriori ZIP.


É possível observar no gráfico da figura 4, como os pontos da preditiva da posteriori ZIP se
ajustam melhor, mesmo que ligeiramente, à frequência relativa que o modelo da preditiva da
posteriori da Poisson. Portanto, o modelo ZIP é adequado.

Você também pode gostar