Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
Este trabalho teve como objetivo aplicar o modelo Poisson Zero Inflacionado - ZIP para o
ajuste do nmero de defeitos em veculos. Como as empresas possuem linhas de produo
com rgidas especificaes de qualidade, os itens produzidos apresentam um nmero muito
reduzido de imperfeies. Diante desse contexto, os conjuntos de dados apresentam grande
quantidade de valores zero, o que dificulta a elaborao de uma anlise precisa. Por esse
motivo, estudou-se o modelo ZIP, pois ele considera uma distribuio degenerada no ponto
zero e a de Poisson para os outros valores. Na interpretao dos resultados compararam-se as
estimativas para os modelos de Poisson e ZIP e, como critrio de seleo, utilizou-se o Teste
de Significncia Completamente Bayesiano FBST, o qual comprovou que a distribuio ZIP
mais eficaz.
Palavras-chave: Inferncia Bayesiana; Poisson Zero Inflacionado; Seleo de Modelos.
Introduo
O bom ajuste dos dados depende diretamente dos modelos probabilsticos atribudos a
eles. Nas aplicaes envolvendo dados reais sobre contagens, geralmente atribuem-se
distribuies discretas, que so amplamente desenvolvidas na literatura.
No entanto, comum encontrar uma grande quantidade de zeros nos conjuntos de
dados. Esse excesso dificulta a elaborao de uma anlise estatstica precisa para o problema,
j que os modelos usuais desenvolvidos no ajustam bem tal situao.
Diante deste cenrio relevante pesquisar quais as origens desses zeros. Martin et al.
(2005), ressaltaram que o valor zero pode acontecer de quatro maneiras diferentes: duas delas
podem ser definidas como zeros verdadeiros e duas como aleatrios ou falsos.
Os zeros verdadeiros podem surgir da baixa frequncia de ocorrncia do evento. Por
exemplo, se o interesse for estudar o nmero de faltas de funcionrios em uma determinada
empresa durante um perodo de tempo, neste caso, o excesso de zeros significa que os
empregados faltam pouco ao servio.
Outra situao considerada como zero verdadeiro quando realmente no local no
havia nenhum indivduo presente. Podemos citar as aplicaes que envolvem controle de
qualidade que utilizam processo de fabricao moderno e, por isso, esperam que os itens no
apresentem defeitos (estado perfeito).
Os zeros aleatrios ou falsos podem ser resultado de erros de amostragem ou um vcio
visual, ou seja, o indivduo existe, ocupa o local, mas no estava presente durante a realizao
da pesquisa ou o elemento ocupa o local, est presente, mas o pesquisador no o encontra.
Esse tipo de zero ocorre geralmente em estudos ecolgicos, principalmente de vida selvagem
ou aqutica.
Ento, os zeros ocorridos em um dos conjuntos de dados podem ter sido resultado de
um zero verdadeiro, de um erro humano, ou ser um zero de amostragem. Infelizmente, a
distino desses tipos de zeros , na maioria das situaes, uma tarefa impossvel de ser
realizada.
A produo dos zeros excessivos nas amostras pode ser classificada de duas formas.
Na primeira, o excesso resultado da superdisperso, ou seja, a varincia dos dados maior
que a assumida pelo modelo. Na segunda forma, o excesso formado por subpopulaes
distintas e podem estar relacionadas a alguma interveno natural ou truncamento nos dados.
(PAULA, 2004).
Uma metodologia eficaz na modelagem de dados resultantes de contagens com zeros
excessivos a mistura de modelos, atravs das distribuies zero inflacionadas. Essas
requerem a definio de uma distribuio discreta e outra degenerada no ponto zero. Como
caso particular foi estudado o modelo Poisson Zero Inflacionado ZIP.
Rodrigues (2003) apresentou a abordagem bayesiana para distribuies zero
inflacionadas utilizando um procedimento baseado em dados ampliados. O objetivo, neste
caso, foi tornar a posteriori conhecida, facilitando o tratamento computacional.
Como exemplificao desta metodologia foi objeto de estudo um conjunto de dados
referentes ao nmero de defeitos em veculos. Para selecionar o modelo que melhor se ajusta
aos dados foi utilizada a medida de evidncia proposta por Pereira e Stern (1999), designada
por Full Bayesian Significance Test (FBST).
1 Nmero Excessivo de Zeros em Contagens
Em muitas aplicaes envolvendo dados reais sobre contagens so atribudos os
modelos discretos que so largamente desenvolvidos na literatura, podemos citar as
distribuies de Poisson, binomial e binomial negativa.
Geralmente, alguns conjuntos de dados contm um nmero excessivo de zeros que no
so descritos pelo modelo assumido. Esses zeros podem ter origem em diferentes fontes,
Martin et al. (2005) ressaltaram que o valor zero acontece de quatro modos, dois podem ser
definidos como zeros verdadeiros e dois como falsos (aleatrios).
No primeiro caso, os zeros verdadeiros surgem de uma baixa frequncia de ocorrncia
ou realmente o local no havia nenhum indivduo presente. No segundo caso, o indivduo
existe, ocupa o local, mas no estava presente durante a pesquisa ou o elemento ocupa o local,
est presente, mas o pesquisador no o encontra- como mencionado anteriormente e
enfatizado neste momento para melhor fixao da informao.
Uma possvel soluo, para explicar zeros verdadeiros ou falsos, utilizar as
distribuies zero inflacionadas, que exige em sua estrutura conhecimentos sobre mistura de
modelos. Neste caso, o modelo obtido atravs da mdia ponderada de duas distribuies,
uma degenerada no ponto zero e outra que se adequaria aos dados, caso no existisse zeros
excessivos.
Quando os zeros inflacionados so resultados de excesso de zeros verdadeiros e falsos,
no h nenhuma discusso formal na literatura de como modelar tais conjuntos de dados,
justamente porque difcil distinguir a origem de tais valores. Quando h a incerteza sobre a
sua origem nas observaes, um procedimento usual utilizar distribuies truncadas.
Por exemplo, ao considerar uma linha de produo na qual se aplica controle de
qualidade, a contagem de defeitos de um produto apresenta-se cada vez menor, ou seja, h um
grande nmero de zeros, isto devido modernizao dos processos de fabricao. Neste caso,
esses zeros correspondem a zeros determinsticos.
Conforme Martin et al. (2005), nas aplicaes ecolgicas os zeros podem ocorrer
devido espcie ser totalmente ausente na rea amostrada ou quando a espcie est presente,
mas no foi observada pelo pesquisador, neste caso, os zeros so aleatrios (falsos). Nessas
aplicaes o problema de zeros aleatrios ocorre frequentemente devido a erros humanos ou
vcios no mtodo de amostragem.
Sob a tica estatstica, a produo excessiva de zeros pode ser classificada de duas
formas: superdisperso ou subpopulaes distintas.
0
,
1
p ,
1 p0 | 1 e
L , | D L , p , 1 p ,
1 Ii
Ii
i 1
1 p0 | 1
m
nm
p y
i 1
| p ,
Ii
1 p , mIi
1 p0 |
1 p0 | m 1 nm p yi |
S mS
1 p0 |
yi A
mS
S 1
nS
p y
yi A
0 | Y 0 , 0 p y |
i 1
Ev H 0 | D 1 Pr Z * D | D 1
0 Z
, | Ddd
yi a, n S b com mximo em Z a 1 .
nS b
yiA
0
1
2
3
Total
42
8
2
2
54
Tabela 1 Nmero de Defeitos em Veculos
Figura 1 - Comportamento das Cadeias ao longo das Iteraes e Distribuies Estimadas via Amostrador de
Gibbs e o para o Parmetro do Modelo Poisson.
Para a obteno das posterioris do Modelo ZIP tambm foi considerada para uma
priori Gama difusa com os mesmos hiperparmetros atribudos ao modelo Poisson, e para
foi atribuda uma priori Beta (de Jeffreys). Considerou-se o mesmo perodo de aquecimento e
tamanho de amostra. Alm disso, atravs do critrio de Gelman-Rubin, pode-se dizer que
houve convergncia para os parmetros do modelo de Poisson e ZIP.
Os resumos a posteriori para e esto na Tabela 2.
Parmetro
Mdia
Desvio Padro
2.5%
97.5%
0.5176
0.0202
0.4791
0.5577
0.2242
0.0272
0.1711
0.2768
Tabela 2 Resumo Estatstico para o Parmetro Theta e Peso do Modelo ZIP
Figura 2 a) Comportamento das Cadeias ao longo das Iteraes e Distribuies Estimadas via Amostrador de
Gibbs e o para o Parmetro do Modelo ZIP. b) Comportamento das Cadeias ao longo das Iteraes e
Distribuies Estimadas via Amostrador de Gibbs e o para o Parmetro do Modelo ZIP.
Atravs da Tabela 3 pode-se notar que h evidncias que o modelo ZIP ajusta melhor
os dados. Nela so apresentados os valores esperados segundo cada modelo e o respectivo
valor do FBST.
Valores
0
1
2
FreqObs
42
8
2
EspPoisson
38.6978
12.8941
2.1482
Espzip
39.7264
9.4521
3.6608
2
0.2386
0.9452
3
Tabela 3 - Valores Observados e Esperados segundo os Modelos ZIP e Poisson