Você está na página 1de 9

MODELO POISSON ZERO INFLACIONADO APLICADO AO

NMERO DE DEFEITOS EM VECULOS


Professora Deise Deolindo Silva
deisedeolindo@hotmail.com
Estatstica

Resumo
Este trabalho teve como objetivo aplicar o modelo Poisson Zero Inflacionado - ZIP para o
ajuste do nmero de defeitos em veculos. Como as empresas possuem linhas de produo
com rgidas especificaes de qualidade, os itens produzidos apresentam um nmero muito
reduzido de imperfeies. Diante desse contexto, os conjuntos de dados apresentam grande
quantidade de valores zero, o que dificulta a elaborao de uma anlise precisa. Por esse
motivo, estudou-se o modelo ZIP, pois ele considera uma distribuio degenerada no ponto
zero e a de Poisson para os outros valores. Na interpretao dos resultados compararam-se as
estimativas para os modelos de Poisson e ZIP e, como critrio de seleo, utilizou-se o Teste
de Significncia Completamente Bayesiano FBST, o qual comprovou que a distribuio ZIP
mais eficaz.
Palavras-chave: Inferncia Bayesiana; Poisson Zero Inflacionado; Seleo de Modelos.

Introduo
O bom ajuste dos dados depende diretamente dos modelos probabilsticos atribudos a
eles. Nas aplicaes envolvendo dados reais sobre contagens, geralmente atribuem-se
distribuies discretas, que so amplamente desenvolvidas na literatura.
No entanto, comum encontrar uma grande quantidade de zeros nos conjuntos de
dados. Esse excesso dificulta a elaborao de uma anlise estatstica precisa para o problema,
j que os modelos usuais desenvolvidos no ajustam bem tal situao.
Diante deste cenrio relevante pesquisar quais as origens desses zeros. Martin et al.
(2005), ressaltaram que o valor zero pode acontecer de quatro maneiras diferentes: duas delas
podem ser definidas como zeros verdadeiros e duas como aleatrios ou falsos.
Os zeros verdadeiros podem surgir da baixa frequncia de ocorrncia do evento. Por
exemplo, se o interesse for estudar o nmero de faltas de funcionrios em uma determinada
empresa durante um perodo de tempo, neste caso, o excesso de zeros significa que os
empregados faltam pouco ao servio.
Outra situao considerada como zero verdadeiro quando realmente no local no
havia nenhum indivduo presente. Podemos citar as aplicaes que envolvem controle de
qualidade que utilizam processo de fabricao moderno e, por isso, esperam que os itens no
apresentem defeitos (estado perfeito).
Os zeros aleatrios ou falsos podem ser resultado de erros de amostragem ou um vcio
visual, ou seja, o indivduo existe, ocupa o local, mas no estava presente durante a realizao
da pesquisa ou o elemento ocupa o local, est presente, mas o pesquisador no o encontra.
Esse tipo de zero ocorre geralmente em estudos ecolgicos, principalmente de vida selvagem
ou aqutica.
Ento, os zeros ocorridos em um dos conjuntos de dados podem ter sido resultado de
um zero verdadeiro, de um erro humano, ou ser um zero de amostragem. Infelizmente, a
distino desses tipos de zeros , na maioria das situaes, uma tarefa impossvel de ser
realizada.

A produo dos zeros excessivos nas amostras pode ser classificada de duas formas.
Na primeira, o excesso resultado da superdisperso, ou seja, a varincia dos dados maior
que a assumida pelo modelo. Na segunda forma, o excesso formado por subpopulaes
distintas e podem estar relacionadas a alguma interveno natural ou truncamento nos dados.
(PAULA, 2004).
Uma metodologia eficaz na modelagem de dados resultantes de contagens com zeros
excessivos a mistura de modelos, atravs das distribuies zero inflacionadas. Essas
requerem a definio de uma distribuio discreta e outra degenerada no ponto zero. Como
caso particular foi estudado o modelo Poisson Zero Inflacionado ZIP.
Rodrigues (2003) apresentou a abordagem bayesiana para distribuies zero
inflacionadas utilizando um procedimento baseado em dados ampliados. O objetivo, neste
caso, foi tornar a posteriori conhecida, facilitando o tratamento computacional.
Como exemplificao desta metodologia foi objeto de estudo um conjunto de dados
referentes ao nmero de defeitos em veculos. Para selecionar o modelo que melhor se ajusta
aos dados foi utilizada a medida de evidncia proposta por Pereira e Stern (1999), designada
por Full Bayesian Significance Test (FBST).
1 Nmero Excessivo de Zeros em Contagens
Em muitas aplicaes envolvendo dados reais sobre contagens so atribudos os
modelos discretos que so largamente desenvolvidos na literatura, podemos citar as
distribuies de Poisson, binomial e binomial negativa.
Geralmente, alguns conjuntos de dados contm um nmero excessivo de zeros que no
so descritos pelo modelo assumido. Esses zeros podem ter origem em diferentes fontes,
Martin et al. (2005) ressaltaram que o valor zero acontece de quatro modos, dois podem ser
definidos como zeros verdadeiros e dois como falsos (aleatrios).
No primeiro caso, os zeros verdadeiros surgem de uma baixa frequncia de ocorrncia
ou realmente o local no havia nenhum indivduo presente. No segundo caso, o indivduo
existe, ocupa o local, mas no estava presente durante a pesquisa ou o elemento ocupa o local,
est presente, mas o pesquisador no o encontra- como mencionado anteriormente e
enfatizado neste momento para melhor fixao da informao.
Uma possvel soluo, para explicar zeros verdadeiros ou falsos, utilizar as
distribuies zero inflacionadas, que exige em sua estrutura conhecimentos sobre mistura de
modelos. Neste caso, o modelo obtido atravs da mdia ponderada de duas distribuies,
uma degenerada no ponto zero e outra que se adequaria aos dados, caso no existisse zeros
excessivos.
Quando os zeros inflacionados so resultados de excesso de zeros verdadeiros e falsos,
no h nenhuma discusso formal na literatura de como modelar tais conjuntos de dados,
justamente porque difcil distinguir a origem de tais valores. Quando h a incerteza sobre a
sua origem nas observaes, um procedimento usual utilizar distribuies truncadas.
Por exemplo, ao considerar uma linha de produo na qual se aplica controle de
qualidade, a contagem de defeitos de um produto apresenta-se cada vez menor, ou seja, h um
grande nmero de zeros, isto devido modernizao dos processos de fabricao. Neste caso,
esses zeros correspondem a zeros determinsticos.
Conforme Martin et al. (2005), nas aplicaes ecolgicas os zeros podem ocorrer
devido espcie ser totalmente ausente na rea amostrada ou quando a espcie est presente,
mas no foi observada pelo pesquisador, neste caso, os zeros so aleatrios (falsos). Nessas
aplicaes o problema de zeros aleatrios ocorre frequentemente devido a erros humanos ou
vcios no mtodo de amostragem.
Sob a tica estatstica, a produo excessiva de zeros pode ser classificada de duas
formas: superdisperso ou subpopulaes distintas.

Conforme Hinde e Demtrio (1998) apud Paula (2004), superdisperso um


fenmeno comum que ocorre na modelagem de dados discretos e cuja ocorrncia
caracterizada quando a varincia observada excede aquela assumida pelo modelo.
Saito (2005) ressalta que os zeros podem ser produzidos por subpopulaes distintas,
ou seja, pode estar relacionada a alguma interveno natural ou truncamento dos dados.
2 Distribuies Srie de Potncias Inflacionadas
O sucesso de uma modelagem depende, substancialmente, dos modelos probabilsticos
adotados. Para dados discretos uma classe geral foi desenvolvida - Distribuies Srie de
Potncias (PSD). Esta classe engloba tanto os modelos simples como os generalizados e pode
ser considerada em diversas aplicaes, obtendo bons resultados. (GUPTA et al. 1995).
Na anlise de dados discretos existem frequentemente valores inflacionados, como,
por exemplo, o ponto zero observado com uma frequncia significativamente maior que o
admitido pelo modelo assumido; consequentemente, a classe de distribuies srie de
potncias pode ser estendida para distribuies inflacionadas, e a denominamos de Classe de
Distribuies Srie de Potncias Inflacionadas (IPSD).
Murat e Szynal (1998) relataram que ao modelar dados inflacionados comum
considerar mistura de modelos. Neste caso, prope-se uma mdia ponderada de duas
distribuies, ou seja, uma degenerada para o valor em excesso, enquanto os outros valores
seguem um modelo conveniente.
Considere a seguinte aplicao sobre a produo de duas mquinas: a I produz itens
perfeitos e a II produz defeitos de acordo com o modelo de Poisson. Ao observar a produo
final no possvel identificar se o produto oriundo da mquina I ou II, neste caso, o valor
zero torna-se inflacionado, ou seja, resultado de uma subpopulao que produz contagens
zero. Uma modelagem adequada seria a distribuio de Poisson Zero Inflacionada.
A abordagem bayesiana foi utilizada para obter as estimativas dos parmetros
envolvidos no modelo e est descrita a seguir.
2.1 Abordagem Bayesiana para a Distribuio Poisson Zero Inflacionada
Para melhorar modelagem se faz necessrio formular o excesso de zeros apresentados
pelos dados. Rodrigues (2003) menciona que existem muitas formulaes, e sugeriu a
seguinte,
I 0 y , 0
PrY y |
p y | , 0
em que, I{0}(y) uma distribuio que est degenerada por zeros e p(y|) uma funo de
probabilidade que se ajusta aos dados. Muitos autores propuseram utilizar mistura de
distribuies, pois incorporam o excesso de zeros apresentados pelos dados. Para isto,
considere peso ao evento 0 e peso (1- ) a com 0 1.
Esta problemtica pode ser representado da seguinte forma:
p(y|, ) = I{0}(y) +(1- )p(y|), y = 0, 1, 2, ...
(1)
na qual, p(y|) uma distribuio de probabilidade discreta com vetor de parmetros , que
teoricamente se adequaria aos dados caso no houvesse a presena excessiva de dados, nesse
caso a de Poisson. O parmetro a proporo de zeros que excede o que seria predito
atravs de p(y|).
2.1.1 Funo de Verossimilhana baseada nos Dados Aumentados

Supondo que Y=(Y1,...,Yn) seja um vetor de n variveis aleatrias com um modelo


Poisson Zero Inflacionado (ZIP). Seja A={yi: yi =0, i=1,...,n} e m=n(A), ento a funo de
m
e yi
nm
probabilidade L , 1 e 1
yi !
yiA
Os elementos do conjunto A vem de qualquer um de dois grupos diferentes, da
distribuio degenerada de zero ou de p(0). Como o modelo ZIP uma mistura de duas
distribuies, ento a funo de verossimilhana pode ser simplificada com a utilizao de um
procedimento baseado em dados ampliados com variveis latentes. Conforme Rodrigues
(2003), neste tipo de situao, natural definir a seguinte varivel.
1, p ,
Ii
i 1,..., m e

0
,
1

p ,

1 p0 | 1 e

Esta varivel indica se o elemento da i-sima posio de A tirado do primeiro


componente de (1) ou no. Assim a funo de verossimilhana baseada nos dados aumentados
D={Y,I}, :
m

L , | D L , p , 1 p ,

1 Ii

Ii

i 1

1 p0 | 1
m

nm

p y
i 1

| p ,

Ii

1 p , mIi

1 p0 |
1 p0 | m 1 nm p yi |
S mS
1 p0 |
yi A
mS

S 1

nS

p y

yi A

Assim, S i 1 I i ~ Binm, p , . A priori conjunta dada por (,) e a posteriori


m

conjunta (,), dado D


(,|D) = L(,|D)(,)
(2)
Considerando o modelo de Poisson, temos a seguinte funo de verossimilhana
baseado em dados aumentados D
L(,) S(1-)n-SZe-(n-S), Z yi
(3)
yA

A funo de verossimilhana sugere prioris independentes da seguinte forma:


~ Gama(a,b) e ~ Beta(c,d)
dessa forma, a distribuio a posteriori conjunta para (,), dado D,
(,|D) = S+c+1(1-)n-S+d+1Z+a+1e-(n-S+b)
(4)
Para a obteno das distribuies a posteriori dos parmetros envolvidos no modelo,
faz-se necessrio utilizar mtodos computacionais para aproximar a distribuio a posteriori.
3 Seleo de Modelos
O processo para a seleo de modelos reconhecidamente essencial em inferncia,
pois o ajuste de um modelo a um conjunto de dados envolve a discriminao entre diferentes
modelos competitivos. A seleo bayesiana de modelos, em geral, baseada no clculo de
probabilidades a posteriori para os modelos em questo e no apresenta dificuldades na
comparao entre modelos com estruturas diferentes.

Pereira e Stern (2008) propuseram a medida de evidncia bayesiana denominada Teste


de Significncia Completamente Bayesiano - Full Bayesian Significanc Test (FBST)- aplicada
para hipteses precisas.
3.1 Teste de Significncia Completamente Bayesiano
Pereira e Stern (2008) desenvolveram o FBST para testar a significncia de uma
hiptese precisa. Este teste mostra a qualidade da teoria de deciso bayesiana. Um dos
benefcios em utiliz-la por no apresentar problemas quando so atribudas distribuies a
priori imprprias.
Para o clculo da medida de evidncia Ev necessrio somente conhecer a distribuio
a posteriori, que no apresenta complicaes quando as dimensionalidades do parmetro e do
espao amostral so grandes. Computacionalmente Ev utiliza somente a otimizao e a
integrao numrica, no se baseando em resultados assintticos.
Para determinar Ev necessrio considerar uma hiptese precisa H0: 0 ento:
g* = supH0 gx() e T = { 0: gx() > g*},
pois, gx() = g(|x) Lx()g().
O valor da mdia de evidncia bayesiana contra H0 definido como a probabilidade a
posteriori do conjunto tangencial, isto , Ev C Pr T | x g x d .
T

O valor da medida de evidncia que apia H0, Ev = 1 EvC, no uma evidncia


contra a hiptese alternativa. Equivalentemente, Ev no evidncia a favor da alternativa,
embora esteja contra H0. Ou seja, o Teste de Significncia Completamente Bayesiano o
procedimento que rejeita H0 sempre que Ev pequeno, ou similarmente, no rejeita H0
quando Ev for grande (PEREIRA E STERN, 2008).
3.1.1 Teste de Significncia Completamente Bayesiano para a Distribuio de Poisson
Zero Inflacionada
Rodrigues (2006) apresentou que o Teste de Significncia Completamente Bayesiano
pode ser aplicado para situaes onde os dados so ampliados. Esta medida de evidncia
encontrada em dois passos. O primeiro obtido atravs da otimizao e o outro atravs da
integrao numrica da distribuio a posteriori do parmetro de locao .
Para isto considere, H0: = 0, ou seja, o modelo M0 adequado e a hiptese H1: >
0, o modelo M1 adequado. Se a fatorao da funo de verossimilhana for obtida, o teste de
significncia completamente bayesiano baseado na verossimilhana marginal de .
Passo de Otimizao Encontre a moda 0 da distribuio a posteriori 0(|Y) sob
H0: 0, onde 0 = {: = 0}, em que a densidade a posteriori 0(|Y) dada por
n

0 | Y 0 , 0 p y |
i 1

Equivale a encontrar a moda 0 de 0(|Y) sob H0 e pode ser calculada atravs de


Z a 1
0
nb
em que 0(|Y) a distribuio Gama(Z + a, n + b).
Passo de Integrao a medida de evidncia obtida atravs de

Ev H 0 | D 1 Pr Z * D | D 1
0 Z

com, [Z (D)] = {: (|D) 0(|D)}.

, | Ddd

A densidade marginal (|D) corresponde distribuio Gama com parmetros

yi a, n S b com mximo em Z a 1 .

nS b
yiA

Na situao de dados ampliados Rodrigues (2006) disse que equivalente testar


Z a 1
.
H0 :
nb
A medida de evidncia Ev(H0|D) igual a 1 se, e somente se, = 0, ou seja, no se
rejeita a hiptese nula de que os dados se ajustam melhor ao modelo de Poisson. Se Ev(H0|D)
for pequena, tem-se que > 0, logo rejeita-se H0 em favor de H1 e o modelo ZIP representa
melhor os dados. (Rodrigues (2006) implementou o Full Bayesian Significance Test FBST
no Software Winbugs e este foi utilizado neste contexto).
4 Nmero de Defeitos em Veculos
Silva (2009), apresentou um conjunto de dados sobre o nmero de defeitos em
veculos. Em determinado perodo foram verificados 54 carros e classificados quanto ao
nmero de no conformidades. Ajustou-se os modelos de Poisson e ZIP com o objetivo de
verificar quais deles ajustam melhor dados com zeros em excesso. As informaes esto
dispostas a seguir.
Valores
Frequncia

0
1
2
3
Total
42
8
2
2
54
Tabela 1 Nmero de Defeitos em Veculos

Verifica-se que, aproximadamente, 78% dos carros so considerados conformes. Esses


dados poderiam ser ajustados pelo modelo de Poisson. No entanto, essa distribuio no
conseguiria ajustar essa quantidade excessiva de zeros e, como alternativa, foi proposto
verificar a adequabilidade do modelo ZIP.
Para este trabalho, a sugesto foi encontrar as estimativas das posterioris atravs do
Software R e obter a probabilidade de cobertura para os parmetros.
necessrio, no entanto, especificar as prioris para os respectivos parmetros. Para
do modelo de Poisson foi atribudo uma priori Gama difusa com hiperparmetros a = b
=0,0001. A posteriori , tambm, uma distribuio Gama com parmetros atualizados. Foram
geradas via R duas cadeias com 50000 amostras, utilizando um perodo de aquecimento de
5000 observaes e saltos de iteraes entre as amostras. A convergncia do procedimento
Monte Carlo via Cadeia de Markov (MCMC) deste exemplo foram monitorados pelo
diagnstico de Gelman-Rubin, que consiste basicamente em uma anlise de varincia intra e
entre as cadeias geradas.
Os resumos a posteriori para esto na Tabela 2.
Parmetro
Mdia
Desvio Padro
2.5%
97.5%
0,3332
0,0791
0,1930
0,5056

Tabela 2 Resumo Estatstico para o Parmetro Theta do Modelo Poisson

A figura 1 apresenta as distribuies estimadas e o comportamento das cadeias ao


longo das interaes para os parmetros do modelo Poisson.

Figura 1 - Comportamento das Cadeias ao longo das Iteraes e Distribuies Estimadas via Amostrador de
Gibbs e o para o Parmetro do Modelo Poisson.

Para a obteno das posterioris do Modelo ZIP tambm foi considerada para uma
priori Gama difusa com os mesmos hiperparmetros atribudos ao modelo Poisson, e para
foi atribuda uma priori Beta (de Jeffreys). Considerou-se o mesmo perodo de aquecimento e
tamanho de amostra. Alm disso, atravs do critrio de Gelman-Rubin, pode-se dizer que
houve convergncia para os parmetros do modelo de Poisson e ZIP.
Os resumos a posteriori para e esto na Tabela 2.
Parmetro
Mdia
Desvio Padro
2.5%
97.5%

0.5176
0.0202
0.4791
0.5577

0.2242
0.0272
0.1711
0.2768
Tabela 2 Resumo Estatstico para o Parmetro Theta e Peso do Modelo ZIP

A figura 2 apresenta as distribuies estimadas e o comportamento das cadeias ao


longo das interaes para os parmetros e do modelo ZIP.
Considerando os grficos apresentados para as amostras geradas, observa-se que existe
um indcio de convergncia que comprovou-se atravs do critrio de Gelman-Rubin.

Figura 2 a) Comportamento das Cadeias ao longo das Iteraes e Distribuies Estimadas via Amostrador de
Gibbs e o para o Parmetro do Modelo ZIP. b) Comportamento das Cadeias ao longo das Iteraes e
Distribuies Estimadas via Amostrador de Gibbs e o para o Parmetro do Modelo ZIP.

Atravs da Tabela 3 pode-se notar que h evidncias que o modelo ZIP ajusta melhor
os dados. Nela so apresentados os valores esperados segundo cada modelo e o respectivo
valor do FBST.
Valores
0
1
2

FreqObs
42
8
2

EspPoisson
38.6978
12.8941
2.1482

Espzip
39.7264
9.4521
3.6608

2
0.2386
0.9452
3
Tabela 3 - Valores Observados e Esperados segundo os Modelos ZIP e Poisson

Para comprovar necessrio verificar, atravs da medida de evidncia Full Bayesian


Significance Test FBST, qual modelo melhor se ajusta aos dados.
Para tal aplicao o valor obtido foi Ev = 0.04. Ou seja, o modelo ZIP ajusta melhor os
dados sobre o nmero de defeitos em veculos. Isto era esperado, pois em empresas que
utilizam controle de qualidade, o nmero de defeitos tende a ser o menor possvel.
5 Consideraes Finais
Em situaes prticas comum utilizar os modelos discretos para ajustar dados de
contagem. Existe, porm, uma complicao na anlise estatstica para este tipo de dados, que
a presena excessiva de zeros. Uma soluo para o problema considerar na modelagem a
Classe de Distribuies Srie de Potncias Inflacionadas.
Como caso particular estudou-se a distribuio Poisson Zero Inflacionada no contexto
bayesiano e sua aplicabilidade em situaes prticas. Esta metodologia foi aplicada a um
conjunto de dados referentes ao nmero de defeitos em veculos.
Considerou-se como critrio seleo de modelos o Full Bayesian Significance Test
(FBST), proposto por Pereira e Stern (1999) apud Rodrigues (2006). Esta medida de
evidncia de fcil interpretao, alm de ser eficaz quando o tamanho amostral grande, o
que no acontece com outros critrios de seleo.
Atravs desta medida de evidncia comprovou-se que a distribuio ZIP conseguiu
modelar melhor os dados referentes ao nmero de defeitos em veculos. Ou seja, o ZIP uma
alternativa eficaz para o modelo de Poisson quando existem zeros excessivos.
Referncias
DATTA, G. S., BAYARRY, S. e BERGER, J. Model Selection for Count Data: ZIP It?
Apresentao no 60 Workshop de Inferncia Bayesiana Objetiva. University of Rome: La
Sapienza, 2007.
GUPTA, P. L., GUPTA, R. C. e TRIPATHI, R. C. Inflated Modified Power Series
Distributions with Applications. Communications in Statistics - Theory and Methods, v. 24,
p. 2355-2374, 1995.
MARTIN, T. G., Wintle, B. A., RHODES, J. R., KUHNERT, P. M., FIELD, S. A., LOWCHOY, S. J., TYRE, A. J. e POSSINGHAM, H. P. Zero Tolerance Ecology: Improving
Ecological Inference by Modelling the Source of Zero Observations. Ecology Letters, p.
12351246, 2005.
MURAT, M. e SZYNAL, D. Non-Zero Inflated Modified Power Series Distributions,
Communications in Statistics - Theory and Methods, v. 27, p. 3047-3064, 1998.
PAULA, G. A. Modelos de Regresso com Apoio Computacional. Instituto de Matemtica
e Estatstica da Universidade de So Paulo.So Paulo, 2004.
RODRIGUES, J. Bayesian Analysis of Zero-Inflated Distributions. Communications in
Statistics - Vol 32, n 2, p. 281-289, 2003.
RODRIGUES, J. Full Bayesian Significance Test for Zero-Inflated Distributions.
Communications in Statistics - Vol 35, p. 1-9, 2006.
SAITO M. Y. Inferncia Bayesiana para Dados Discretos com Excesso de Zero e Uns.
Dissertao (Mestrado), Programa Ps Graduao em Estatstica - Departamento de
Estatstica, Universidade Federal de So Carlos. So Carlos, 2005.
SILVA, D. D. Classe de Distribuies Srie de Potncias Inflacionadas com Aplicaes.
Dissertao (Mestrado), Programa de Ps Graduao em Estatstica - Departamento de
Estatstica, Universidade Federal de So Carlos. So Carlos, 2009.