Escolar Documentos
Profissional Documentos
Cultura Documentos
Caroline Vasconcelos
Sabendo que o modelo Poisson é o mais comumente usado para modelar dados de contagem
e que a média e a variância são iguais (𝜆), em alguns casos, esta restrição é violada porque
os dados são frequentemente dispersos. Neste caso, a distribuição de Poisson subestima a
dispersão das contagens observadas. A superdispersão (overdispersion) ocorre quando o único
parâmetro � da Poisson é incapaz de descrever completamente a contagem de eventos. Podem
existir duas fontes de superdispersão: heterogeneidade da população e excesso de zeros. A
heterogeneidade é observada quando a população pode ser dividida em muitas subpopulações
homogêneas. O excesso de zeros é detectado quando o número de zeros observados excede
em grande parte o número de zeros reproduzido pela distribuição de Poisson ajustada. Entre
os modelos inflacionados por zero mais discutidos, os modelos mais comuns são Poisson
inflacionada por zero (ZIP), binomial negativa inflacionada por zero (ZINB) e Poisson
generalizada inflacionada por zero (ZIGP).
O histograma abaixo apresenta a frequência de tornados em Lafayette Parish, Louisiana, de
1950 a 2012.
1
Figura 1: Frequência de tornados em Lafayette.
Para estes dados, consideramos a distribuição Poisson(𝜃) como nossa verossimilhança e a priori
tendo 𝜃 ~ Gama(r,s), onde 𝜌 é a probabilidade de excessos de zeros, x é a variável aleatória e
z é uma variável latente condicionada a probabilidade p da distribuição de 𝜌:
𝑛 𝑗 𝑛 𝑗
𝜋(𝜃|𝜌𝑗 , z𝑗 , x) ≺ 𝜃∑𝑖=1 𝑥𝑖 (1−𝑧𝑖 )+𝑟−1 𝑒−(−𝑛−∑𝑖=1 𝑧𝑖 +𝑠)𝜃
𝑛 𝑛
(𝑗)
𝜃𝑗 |𝜌𝑗 , z𝑗 , x ∼ 𝐺𝑎𝑚𝑎(∑ 𝑥𝑖 (1 − 𝑧𝑖 ) + 𝑟, 𝑛 − ∑ 𝑧𝑖𝑗 + 𝑠)
𝑖=1 𝑖=1
Notemos que,
2
Quando n → ∞, E(𝜃|x) → 𝑋̄
Quando 𝛼 → 0 e 𝛽 → 0 também teremos E(𝜃|x) → 𝑋̄
O que implica na priori não-informativa: 𝑝(𝜃) ∼ 𝜃−1 .
A frequência relativa de zeros é 0,54. A figura 2 apresenta a preditiva da posteriori quando
ajustamos o modelo Poisson. Pela falta de sobreposição entre os pontos gerados pela frequência
relativa da amostra e os pontos gerados pela preditiva, podemos dizer que o modelo Poisson
não é indicado para este tipo de caso, o ajuste não é adequado no sentido de que subestima a
contagem de zeros.
3
Como dito anteriormente, a variável z é latente e a função 𝑓(𝑥, 𝑧) é denominada modelo
aumentado.
Sendo ($X_1$,$Z_1$),…,($X_n$,$Y_n$) uma amostra aleatória do modelo aumentado
𝑓(𝑥, 𝑧|𝜃) e seja 𝜋(𝜃) a priori 𝜃. Existem situações nas quais é mais fácil simular do modelo
𝑓(𝑧|𝑥, 𝜃)
𝜋(𝜃|𝑧, 𝑥, 𝜃)
Essas condicionais completas foram simuladas com o Amostrador de Gibbs, que é uma cadeia
de Markov cuja distribuição estacionária é 𝜋(𝜃, 𝑧|𝑥), é também um caso especial do Metropolis-
Hastings, e pode ser aplicado a uma grande variedade de distribuições. O Amostrador de Gibbs
é utilizado principalmente quando a distribuição é multivariada, sendo o seu caso mais geral, o
de multiestágios. Como ele utiliza apenas as condicionais completas são as únicas densidades
usadas para a simulação. Portanto, mesmo em um problema de alta dimensão, todas as
simulações são univariadas, o que traz uma grande vantagem teórica e computacional.
Usando o Amostrador de Gibbs para simular as condicionais de 𝜌 e 𝜃 com hiperparâmetros
para 𝜌 iguais a 𝛼 = 𝛽 = 1 e para 𝜃 iguais a r = s = 0.1. O número B de simulações foi 50.000.
Foram descartada metade das simulações e usado um thinning igual a 15. figura 3 mostra as
cadeias estacionárias de 𝜃 e 𝜌 e os correlogramas para ambos.
4
Figura 3: Cadeias estacionárias e correlogramas para rho e theta.
Foram estimadas as probabilidade de ocorrerem tornados via preditiva posteriori:
Frequência 𝑝̂
0 0,57
1 0,28
2 0,11
3 0,03
A estimativa da frequência de zeros para ocorrência de tornados em Lafayette foi 0,57, muito
próxima da frequência relativa que foi 0,54.
A figura abaixo mostra o gráfico que compara a frequência relativa da amostra com a preditiva
da posteriori do modelo Poisson e a preditiva da posteriori da Poisson Inflada por Zeros
5
(ZIP).